Sistem Deteksi Plagiarisme Dokumen Teks Dengan DLD
Publikasi ilmiah dinilai penting untuk mendukung perkembangan pendidikan suatu negara karena sebagai sarana untuk berbagi pengetahuan dan juga sebagai implementasi nyata ilmu serta teori yang dimiliki para akademisi untuk menyelesaikan berbagai permasalahan riil di masyarakat. Akan tetapi pada kenyataannya banyak ditemukan berbagai praktek penyimpangan, seperti pembajakan karya tulis ilmiah atau yang sering disebut plagiarisme. Oleh karena itu adanya alat bantu untuk pendeteksian plagiarisme sangat diperlukan. Peka terhadap isu plagiarisme tersebut Christian Sri Kusuma (TIF/2009), mahasiswa Program Teknologi Informasi dan Ilmu Komputer (PTIIK) UB kemudian merancang sebuah sistem deteksi plagiarisme untuk dokumen berbasis teks dengan menggunakan Algoritma Damerau Levenshtein Distance (DLD). Dalam penelitiannya yang telah dipamerkan pada Pameran Skripsi ke-6 PTIIK UB Tahun 2013 (29/5), Christian juga menguji tingkat akurasi sistem deteksi plagiarisme yang menggunakan Algoritma Damerau Levenshtein Distance (DLD) jika dibandingkan dengan sistem deteksi plagiarisme yang menggunakan Algoritma Levenshtein Distance (LD).
Menurut Christian, untuk melakukan deteksi plagiarisme dokumen teks secara komputerisasi dapat dilakukan dengan melakukan pencocokan string/ terms. Algoritma DLD adalah salah satu algoritma pencocokan string pengembangan dari Algoritma LD yang dapat digunakan untuk mendeteksi plagiarisme dengan memperhatikan empat operasi dalam menentukan jarak diff.
“Jadi DLD ini saya gunakan karena memperhatikan empat operasi yaitu operasi penyisipan, penghapusan, penggantian dan penukaran sebuah huruf yang berdekatan. Karenanya, dengan penggunaan DLD ini pencocokan string dapat lebih optimal,” jelas Christian.
Secara garis besar sistem deteksi kemiripan isi dokumen teks rancangan Christian ini dibangun oleh dua tahapan utama, yaitu tahap preprocessing dan tahap pencocokan string. Dalam prakteknya preprocessing memang akan menambah waktu proses sistem secara menyeluruh. Tetapi dengan adanya pereduksian noise dengan preprocessing diharapkan dapat mengurangi kompleksitas saat pembandingan string dengan DLD. Macam preprocessing yang dilakukan Christian adalah tokenizing, casefolding, filtering (penghilangan kata-kata yang tidak penting), dan stemming. Setelah preprocessing, dilakukan sorting untuk menghasilkan kumpulan keyword dalam bentuk kata dasarnya. Keyword itulah yang kemudian digunakan dalam pencocokan string dengan DLD. Dengan mengetahui DLD dari dua dokumen yang dibandingkan akan diketahui persentase kemiripan dua dokumen tersebut.
Setelah dilakukan pengujian dan pembandingan antara penggunaan Algoritma DLD dan Algoritma LD dalam sistem, diketahui bahwa dari segi similarity kedua algoritma tersebut memiliki tingkat akurasi deteksi plagiat yang sama. Akan tetapi dari hasil pengujian dokumen typography error, Algoritma DLD terbukti lebih baik dalam menangani plagiat karena mampu menangani penukaran posisi huruf yang berdekatan, sehingga perolehan jarak edit yang didapat lebih optimal.
“Memang untuk beberapa pengujian segi similaritynya untuk algoritma DLD dan LD secara garis besar sama. Tapi untuk pengujian segi topography errornya, DLD bisa lebih baik,” jelasnya.
Meski demikian ada beberapa kelemahan pada sistem ini, antara lain hanya mampu membandingkan dua dokumen saja dan dari segi waktu masih membutuhkan waktu yang panjang untuk preprocessing, karena harus membanding setiap kalimat dalam dua dokumen yang disinyalir sama. Selain itu sistem ini juga masih belum dapat mendeteksi sinonim atau kata-kata berbeda yang memiliki makna sama.
“Harapannya kedepan bagi peneliti yang mau mngembangkan sistem ini bisa menambahkan proses untuk mendeteksi sinonim, lalu dapat dikembangkan juga menjadi program yang tidak hanya terbatas menangani dua dokumen saja,” pungkas Christian. [dna]