Pengkategorian Pesan Singkat Berbahasa Indonesia pada Jejaring Sosial Twitter dengan Metode Klasifikasi Naïve Bayes

Repositori Jurnal Mahasiswa PTIIK UB
© 2013 by Doro Jurnal
Volume 1 - Number 3
Year of Publication: 2013
Rizal Setya Perdana, Suprapto dan Rekyan Regasari Mardi Putri
Download Article

 


Abstract

Sistem pengkategorian pesan singkat pada jejaring sosial Twitter (tweet) merupakan penerapan dari text mining yang berusaha mengelompokkan secara otomatis sebuah tweet kedalam suatu kategori tertentu. Tujuan pengkategorian pesan singkat pada Twitter (tweet) membantu pengguna agar tidak kewalahan dengan membaca informasi tweet dalam kondisi yang masih acak. Metode yang digunakan dalam pembuatan aplikasi pengkategorian tweet adalah metode klasifikasi Naïve Bayes. Metode ini melakukan pendekatan probabilistik dalam melakukan inferensi yakni berbasis teorema Bayes secara umum. Data latih yang digunakan pada proses pengkategorian didapat dari dokumen RSS (Really Simple Syndication) yang disediakan oleh website tertentu dan sudah memiliki kategori sebelumnya. Kategori-­??kategori yang terdapat pada sistem adalah berita, olahraga, keuangan, teknologi, hiburan, dan otomotif. Aplikasi akan fokus pada tweet berbahasa Indonesia, dimana bahasa Indonesia mempunyai morfologi tertentu dalam pemrosesan pengkategorian. Aplikasi melakukan beberapa tahapan dalam melakukan pemrosesan diantaranya adalah preprocessing berupa case folding, dan parsing, transformation berupa penghapusan stopwords dan stemming, penghitungan frekuensi dan probabilitas dan perhitungan Naïve Bayes. Metode stemming yang digunakan khusus menangani morfologi bahasa Indonesia yang hasilnya digunakan dalam mendapatkan frekuensi dalam perhitungan klasifikasi Naïve Bayes. Pengkategorian yang dihasilkan oleh aplikasi dibandingkan dengan pengkategorian manual mempunyai rata-­??rata precision sebesar 80%, recall 79% dan F1 measure sebesar 78%. Proses stemming juga mempengaruhi hasil pengkategorian baik dari segi efektifitas maupun efisiensi.

Keywords

Pengkategorian, Klasifikasi, Naive Bayes, Twitter, Stemming, Bahasa Indonesia