Abstract
Document Clustering merupakan sebuah metode pengelompokan dokumen yang akan membantu untuk menentukan dokumen satu dengan lainnya memiliki keterkaitan atau tidak. Pada kasus ini dokumen yang digunakan adalah dokumen jurnal ilmiah berbahasa Inggris. Namun pada kebanyakan metode clustering berbasis pada Vector Space Model yang menganalisa berdasar single-term (kata tunggal), padahal akan lebih baik jika analisis juga dilakukan terhadap frasa dari suatu dokumen. Salah satu metode untuk menentukan similaritas antar dokumen yang berbasis pada frasa yaitu Document Index Graph, algoritma yang menerapkan representasi graf dalam menentukan kesamaan frasa dan proses penghitungan similaritas antar dokumen. Untuk menguji keakuratannya, proses clustering akan menerapkan algoritma group-average HAC. Suatu metode clustering yang mengelompokkan dokumen menjadi suatu hirarki dari kelompok kecil menjadi kelompok besar atau sebaliknya. Hasil pengujian menunjukkan, sistem yang mengimplementasikan graf untuk pengelompokan dokumen jurnal ilmiah bahasa inggris berbasis frasa mampu meningkatkan akurasi sebesar 20,18% dibandingkan pengolahan yang hanya memperhitungkan kata tunggal, namun dengan konsekuensi waktu komputasi yang lebih lama.