TEXT MINING KLASIFIKASI SOAL BIOLOGI SEKOLAH MENENGAH ATAS DENGAN METODE IMPROVED KNN

Repositori Jurnal Mahasiswa PTIIK UB
© 2014 by Doro Jurnal
Volume 4 - Number 10
Year of Publication: 2014
Afian Syafaadi Rizki, Indriati dan Lailil Muflikhah
Download Article

 


Abstract

Diketahui bahwa siswa akan belajar lebih efektif jika soal-soal latihan dikelompokkan berdasarkan kategori yang mereka inginkan. Dalam penelitian ini, algoritma pengklasifikasian akan diterapkan untuk mengkategorikan soal-soal biologi sekolah menengah atas kedalam empat kategori yaitu hewan, tumbuhan, protista, ekosistem. Algoritma k-Nearest Neighbour adalah salah satu algoritma yang sering digunakan untuk menyelesaikan permasalahan klasifikasi. Dalam algoritma k-Nearest Neighbour, proses klasifikasi dilakukan setelah menentukan nilai k. Nilai k adalah jumlah dokumen terdekat terhadap data uji. Tetapi  algoritma k-Nearest Neighbour memiliki kelemahan pada nilai k yang tetap untuk setiap kelas. Untuk mengatasi problem ini, digunakan algoritma improved k-Nearest Neighbour, pada algoritma improved k-Nearest Neighbour digunakan nilai k yang berbeda untuk setiap kelas berdasarkan distribusi data latih. Dari hasil pengujian, didapatkan rata-rata nilai F1-measure 91,31%. Dari hasil pengujian stemming didapatkan rata-rata nilai F1-measure 91,45%. Dari hasil pengujian data latih tidak seimbang didapatkan rata-rata nilai F1-measure 77,80%.

Keywords

k-Nearesr Neighbour, Improved k-Neasrest Neighbour, Klasifikasi Soal, text categorization, text mining