Abstract
Penelitian ini mengimplementasikan algoritma C4.5 berbasis ontologi untuk mengklasifikasikan teks berita berbahasa Inggris. Data yang digunakan pada penelitian adalah Reuters-21578 90 kategori. Sistem yang akan dibuat dilengkapi dengan penggunaan WordNet sebagai basis ontologi untuk menemukan term yang saling bersinonim. Algoritma C4.5 merupakan algoritma klasifikasi yang diterapkan pada teknik decision tree dimana pemilihan atribut akan diproses menggunakan information gain tertinggi yang dipilih sebagai parent bagi node selanjutnya. Dari proses pelatihan pada dokumen latih akan dihasilkan pembentukan rule tree yang nantinya akan digunakan untuk pengkategorian dokumen uji. Pengujian untuk sistem menggunakan jumlah dataset yang bervariasi, skenario pertama adalah 40, 80, 120, 160, 200, dan 240 untuk dokumen latih sementara dokumen uji ditentukan tetap jumlahnya yaitu 20. Skenario kedua, perbandingan dokumen latih dan dokumen uji adalah 30% : 70%, 40% : 60%, 50% : 50%, 60% : 40%, 70% : 30% dan 90% : 10% dari total data 200. Sedangkan skenario ketiga adalah menggunakan K-Fold dimana kombinasi pertama k=3 dengan 40 dokumen latih untuk tiap subset, kombinasi kedua k=3 dengan 80 dokumen latih untuk tiap subset, dan kombinasi ketiga k=2 dengan 120 dokumen latih untuk tiap subset. Hasil uji coba menunjukkan nilai f-measure tertinggi sebesar 60.24% pada skenario pertama dengan data latih berjumlah 40 dan data uji berjumlah 20. Nilai f-measure yang diperoleh pada saat pengujian menunjukkan hasil yang didapat tidak tergantung pada jumlah dokumen latih, melainkan sangat tergantung pada frekuensi term dokumen.