IMPLEMENTASI K-MODES PADA CLUSTERING DATA KATEGORI MENGGUNAKAN NEW DISSIMILARITY MEASURE

Repositori Jurnal Mahasiswa PTIIK UB
© 2013 by Doro Jurnal
Volume 2 - Number 8
Year of Publication: 2013
R Yiska Deviarani Suwarsa, Dian Eka Ratnawati dan Lailil Muflikhah
Download Article

 


Abstract

Clustering merupakan suatu cara pengelompokan data di data mining. Metode clustering yang sering di gunakan adalah K-Means. Masalah yang akhir-akhir ini sering timbul adalah ketika data yang akan diklasterisasi adalah data kategori, tidak memungkinkan bila kita juga menerapkan metode K-Means untuk mengklaster data kategori. Data kategori merupakan data yang diambil dari suatu himpunan nilai tertentu, yang tidak harus berupa angka atau pecahan misalkan warna mata, warna kulit, dan nama negara. Data kategori tidak dapat diukur dan diurutkan karena tidak dapat dibandingkan mana yang memiliki nilai lebih besar dan nilai yang lebih kecil. Konsep ukuran jarak pada clustering data kategori berbeda dengan clustering data numerik yang menggunakan K-Means. Maka dari itu dikembangkannya K-Modes yaitu hasil pengembangan K-Means yang merupakan metode pengklasteran dalam mengelompokkan tipe data kategori. Pada K-Modes Konvensional dimana xj = yj tidak lagi bernilai 0 tetapi 1-wij. Nilai wij adalah perkalian perbandingan nilai atribut di cluster dengan perbandingan nilai atribut di dataset. Hal ini membuat dalam menghasilkan pembentukan clusternya lebih rinci lagi, sehingga kesamaan intra cluster bertambah kuat. Penelitian ini bertujuan untuk mengimplementasikan algoritma clustering K-Modes menggunakan New Dissimilarity Measure pada beberapa data kategori. Nilai purity yang dihasilkan oleh clustering K-Modes menggunakan New Dissimilarity Measure dapat mencapai 0.76, sedangkan pada K-Modes Konvensional 0.61. Sedangkan pada evaluasi menggunakan F-Measure pada K-Modes New Dissimilarity Measure menghasilkan nilai F-Measure sebesar 0.80.

Keywords

Data Mining, Clustering, categorical data, K-Modes, weighted dissimilarity measure, F-Measure.