Penerapan Algoritma Index Graph dan Group-Average Hierarchical Clustering dalam Pengelompokan Jurnal Ilmiah Berbasis Frasa

Repositori Jurnal Mahasiswa PTIIK UB
© 2013 by Doro Jurnal
Volume 1 - Number 1
Year of Publication: 2013
Mohammad Faizal Nugroho, Achmad Ridok dan Djoko Pramono
Download Article

 


Abstract

Document Clustering merupakan sebuah metode pengelompokan dokumen yang akan membantu untuk menentukan dokumen satu dengan lainnya memiliki keterkaitan atau tidak. Pada kasus ini dokumen yang digunakan adalah dokumen jurnal ilmiah berbahasa Inggris. Namun pada kebanyakan metode clustering berbasis pada Vector Space Model yang menganalisa berdasar single-term (kata tunggal), padahal akan lebih baik jika analisis juga dilakukan terhadap frasa dari suatu dokumen. Salah satu metode untuk menentukan similaritas antar dokumen yang berbasis pada frasa yaitu Document Index Graph, algoritma yang menerapkan representasi graf dalam menentukan kesamaan frasa dan proses penghitungan similaritas antar dokumen. Untuk menguji keakuratannya, proses clustering akan menerapkan algoritma group-average HAC. Suatu metode clustering yang mengelompokkan dokumen menjadi suatu hirarki dari kelompok kecil menjadi kelompok besar atau sebaliknya. Hasil pengujian menunjukkan, sistem yang mengimplementasikan graf untuk pengelompokan dokumen jurnal ilmiah bahasa inggris berbasis frasa mampu meningkatkan akurasi sebesar 20,18% dibandingkan pengolahan yang hanya memperhitungkan kata tunggal, namun dengan konsekuensi waktu komputasi yang lebih lama.

Keywords

Jurnal ilmiah, Berbasis Frasa, Representasi graph, Group-average HAC, Clustering