IMPLEMENTASI ALGORITMAK-MEANS CLUSTERING DENGAN INISIALISASI CENTROID MENGGUNAKAN METODEHEURISTIC O(N LOGN)

Repositori Jurnal Mahasiswa PTIIK UB
© 2015 by Doro Jurnal
Volume 6 - Number 17
Year of Publication: 2015
Rinadewi Astuti, Dian Eka Ratnawati dan Budi Darma Setiawan
Download Article

 


Abstract

Jumlah Informasi yang ada disekitar kita semakin lama semakin meningkat. Tools manajemen data sangat dibutuhkan untuk mengolah informasi tersebut. Data mining adalah salah satu metode pengolahan data untuk menemukan pola yang tersembunyi dari data tersebut. Salah satu teknik yang dikenal dalam data mining adalah clustering.Clustering merupakan pengelompokan sejumlah data atau objekke dalam cluster (kelompok) sehingga dalam setiap cluster tersebut berisi data yang semirip mungkin dan berbeda dengan objek dalam cluster yang lainnya. Algoritma k-means merupakan algoritma clustering yang popular sehingga sering digunakan untuk pengolahan data dalam ukuran yang besar. Pada penelitian ini nantinya akan dilakukan tiga macam pengujian yaitu pengujian kualitas clustering dengan silhouette coefficient, pengujian akurasi clustering data serta pegujian terhadap waktu eksekusi dengan dataset menggunakan fungsi objektif dan tanpa fungsi objektif. Penelitian ini menggunkan dua dataset yaitu dataset User Knowldge Modeling dan dataset Iris. Selain itu, pada tahap proses K-Meansclustering akan dilakukan dengan menggunakan dua metode perhitungan jarak yaitu dengan euclidean dan manhattan, sehingga dapat diketahui perhitungan jarak yang menghasilkan hasil clustering yang lebih baik. Dari pengujian tersebut, dengan menggunakan dataset User Knowledge Modeling didapatkan hasil pengujian dengan silhouette coefficient menggunakan improve k-means lebih rendah dibandingkan k-means konvensional dan pada pengujian akurasi menggunakan improve k-means lebih baik dibanding dengan k-means konvensional, sedangkan pada dataset Iris didapatkan hasil pengujian dengan silhouette coefficient menggunakan improve k-means lebih tinggi dibandingkan k-means konvensional dan pada pengujian akurasi menggunakan improve k-means lebih tinggi dibanding dengan k-means konvensional serta waktu eksekusi yang dihasilkan tergantung pada banyaknya data yang digunakan. Semakin banyak jumlah data yang digunakan dengan menggunakan fungsi objektif maka waktu eksekusi akan semakin cepat, sedangkan semakin banyak data yang digunakan tanpa fungsi objektif maka waktu eksekusi akan semakin lama.

Keywords

Clustering, K-Means, Improve K-Means, Metode Heuristic O(n logn)