Abstract
Penggunaan voice command tidak hanya diperuntukkan sebagai salah satu masukan pada antar muka computer dan autentikasi, namun juga dapat dikembangkan sebagai pengenal emosi manusia yang dikenali adalah berdasarkan vector yakni senang, normal, sedih dan marah. Jenis emosi manusia mudah dikenali dari pitch-nya. Pitch merupakan frekuensi fundamental dari sinyal suara yang merupakan hasil akustik kecepatan getaran pita suara. Sehingga penelitian ini meneliti 3 parameter statistic dasar yakni nilai minimum, maksimum dan mean dari rangkaian pitch dalam sebuah potongan suara dan akurasi ketiganya dalam pengklasifikasian emosi manusia berdasarkan suara. Suara yang digunakan dalam pengklasifikasian merupakan potongan kata yang diucapkan oleh actor di film. Hal ini dilakukan untuk menjamin kesesuaian suara dengan emosinya. Setiap potongan kata yang disimpan dalam format mono tersebut kemudian dilakukan framing sebesar 10 mS yang umum dilakukan dalam voice recognition. Setiap frame kemudian dihitung pitch-nya menggunakan metode autocorrelation. Nilai minimum, maksimum dan mean dari sejumlah pitch dalam metode klasifikasi K-Nearest Neighbours dan perfoma masing-masing klasifikasi dihitung. Pengujian akurasi menggunakan 5 data uji suara pria dan 5 data uji suara wanita pada 7 kombinasi fitur yang terdiri dari 1 fitur, 2 fitur dan 3 fitur. Lalu dikombinasikan dengan jumlah tetangga K dari 1 sampai 19 dengan masing-masing 20 data latih suara pria dan 20 data latih suara wanita. Didapatkan akurasi tertinggi yakni 80% dan 100% adalah pada kombinasi fitur min, max, mean dengan 1dan 11 tetangga.