Abstract
Diketahui bahwa siswa akan belajar lebih efektif jika soal-soal latihan dikelompokkan berdasarkan kategori yang mereka inginkan. Dalam penelitian ini, algoritma pengklasifikasian akan diterapkan untuk mengkategorikan soal-soal biologi sekolah menengah atas kedalam empat kategori yaitu hewan, tumbuhan, protista, ekosistem. Algoritma k-Nearest Neighbour adalah salah satu algoritma yang sering digunakan untuk menyelesaikan permasalahan klasifikasi. Dalam algoritma k-Nearest Neighbour, proses klasifikasi dilakukan setelah menentukan nilai k. Nilai k adalah jumlah dokumen terdekat terhadap data uji. Tetapi algoritma k-Nearest Neighbour memiliki kelemahan pada nilai k yang tetap untuk setiap kelas. Untuk mengatasi problem ini, digunakan algoritma improved k-Nearest Neighbour, pada algoritma improved k-Nearest Neighbour digunakan nilai k yang berbeda untuk setiap kelas berdasarkan distribusi data latih. Dari hasil pengujian, didapatkan rata-rata nilai F1-measure 91,31%. Dari hasil pengujian stemming didapatkan rata-rata nilai F1-measure 91,45%. Dari hasil pengujian data latih tidak seimbang didapatkan rata-rata nilai F1-measure 77,80%.