Abstract
Spam filtering adalah suatu proses memilah/klasifikasi email berdasarkan kategorinya(spam/ham). Proses spam filtering dapat diimplementasikan dengan berbagai metode/algoritma. Metode yang digunakan dalam pengklasifikasian ini adalah improved k-nn dan naive bayes. Improved K-NN melakukan modifikasi penentuan nilai k pada tiap kategorinya. Perbedaan nilai k pada tiap kategori disesuaikan dengan jumlah dokumen latih tiap kategorinya. Sehingga ketika nilai k membesar, hasil kategori tidak terpengaruh pada kategori yang memiliki jumlah dokumen latih yang lebih besar. Sedangkan naive bayes memanfaatkan klasifikasi bayesian dengan asumsi nilai atribut dari kelas yang didefinisikan independen(tidak terpengaruh) atribut yang lain. Kedua metode ini memiliki performa yang berbeda. Dengan perbedaan kinerja yang dihasilkan metode tersebut, maka dilakukan perbandingan performa kinerjanya dalam klasifikasi spam email. Penelitian ini menggunakan 180 data latih dan 50 data uji. Dari 180 data latih, dibagi menjadi 9 skenario pengujian dengan total data latih setiap skenario adalah 100. Dalam setiap pengujian digunakan 100 data latih yang kategorinya bervariasi, dan 50 data uji dengan distribusi kategori yang seimbang. Dari sembilan skenario pengujian yang dilakukan kedua metode didapatkan rata -rata f1measure 0,678 dengan improved k-nn dan 0,602 dengan naive bayes. Dari hasil nilai f1measure, dapat disimpulkan bahwa improved k-nn lebih baik dalam proses pengklasifikasian spam email dibandingkan dengan naive bayes.