Klasifikasi Emosi Lagu Berdasarkan Lirik
Dengan Pendekatan
Support Vector Machine
Paulus Harsadi
STMIK Sinar Nusantara
Jalan KH. Samanhudi No.84-86 Mangkuyudan, Surakarta
Jawa Tengah, Indonesia
E-mail:
[email protected]
Abstraksi
Pemanfaatan music digital masih sedikit. Rekomendasi lagu berdasarkan emosi
atau suasana hati yang dirasakan konsumen merupakan salah satu ide yang
bisa dikembangkan untuk mengeksporasi lebih jauh penggunaan musik digital
sehingga konsumen mampu memilih lagu tidak hanya berdasarkan gender musik
yang mereka minati, tetapi berdasarkan suasana hati setiap individu.
Klasifikasi lagu dapat dilakukan menggunakan lirik lagu tersebut Sebagai
data yang akan digunakan untuk mengklasifikasi berdasarkan suasana hati
individu.
Dengan menggunakan model emotion ontology thayer model, Klasifikasi texts
processing digunaan dengan menerapkan fiture part-of-speech (POS) dalam
proses preprocessing dan fiture selection yaitu Gain Ratio (GR) dengan
Support Vector Machine ( SVM ) sebagai algoritma untuk klasifikasi emosi
atau suasana hati sebuah lagu menggunakan lirik diharapkan akan
meningkatkan tingkat akurasi hasil klasifikasi.
Keywords-component; text processing, part-of-speech (POS), Gain Ratio
(GR), Support Vector Machine ( SVM ), lirik music, musical moods;
pendahuluan
Produktifitas sumber music digital cukup signifikan akhir-akhir ini dan
penggunaannya juga bervariasi. Berdasarkan catatan dari Nielsen dan
Billboard, penjualan music digital mampu menyumbang 50,3 persen dari
penjualan musik sepanjang tahun 2011. Angka tersebut naik 8,4 persen dari
tahun sebelumnya. Sementara itu, penjualan album fisik menurun hingga 5
persen. Tahun 2013 sendiri menurut survey dari Federasi Internasional
Industri Fonografi (IFPI) Penjualan single dan album digital meningkat 9%
menjadi US$5,6 miliar (Rp54,35 triliun) dan memberikan kontribusi sebesar
34% terhadap total pendapatan industri musik.[1]
Berdasarkan informasi diatas pemanfaatan music digital masih sedikit.
Rekomendasi lagu berdasarkan emosi atau suasana hati yang dirasakan
konsumen merupakan salah satu ide yang bisa dikembangkan untuk
mengeksporasi lebih jauh penggunaan musik digital sehingga konsumen mampu
memilih lagu tidak hanya berdasarkan gender musik yang mereka minati,
tetapi berdasarkan suasana hati setiap individu.
Pembahasan paper ini disusun berdasarkan urutan sebagai berikut. Bagian 1
berisi pendahuluan. Bagian 2 menjelaskan metode terkait dengan penelitian
tentang automatic thresholding. Bagian 3 mengemukakan tujuan. Bagian 4
menguraikan metodologi yang digunakan. Bagian 5 eksperimen dan hasil dari
eksperimen dilakukan. Bagian 6 menjelaskan kesimpulan dari paper ini, dan
terakhir adalah referensi.
RUMUSAN MASALAH
Berdasarkan latar belakang diatas, rumusan masalah general dalam
penelitian ini adalah sulitnya mengklasifkasikan emosi atau suasana hati
sebuah lagu menggunakan lirik sebagai dasar dalam klasifikasi.
Penelitian sebelumnya yang menggunakan Thayer model sebagai acuan dalam
melakukan klasifikasi emosi ternyata tidak keseluruhan ekstraksi emosi yang
berada di Thayer model digunakan, kemudian dalam preprocessing fitur lirik
atau fitur seleksi digunakan secara terpisah dalam proses penelitian.
Dataset lirik yang dipakai juga difokuskan kepada lirik berbahasa inggris.
Rumusan masalah spesifik dalam penelitian ini adalah penyempurnaan pada
penelitian-penelitian sebelumnya yaitu penggunaan seluruh hasil ekstraksi
emosi dalam Thayer model dengan dataset lirik berbahasa indonesia dengan
penggunaan fitur lirik dan fitur seleksi dalam tahap preprocessing dengan
algoritma Support Vector Machine ( SVM ) dalam klasifikasinya.
TUJUAN
Tujuan general dari penelitian ini adalah memberikan solusi bagi masalah
klasifikasi emosi atau suasana hati sebuah lagu menggunakan lirik sehingga
mampu diklasifikasikan sesuai dengan kategori emosi yang digunakan.
Tujuan spesifik dari penelitian ini adalah dengan menerapkan fiture part-
of-speech (POS) dalam proses preprocessing dan fiture selection yaitu Gain
Ratio (GR) dengan Support Vector Machine ( SVM ) sebagai algoritma untuk
klasifikasi emosi atau suasana hati sebuah lagu menggunakan lirik.
METHODE PENELITIAN
Metode penelitian yang dilakukan pada penelitian ini adalah metode
penelitian eksperimen, tahapan-tahapannya yaitu:
1. Pengumpulan Data (Data Gathering)
Penelitian ini memakai data set lirik dari lagu-lagu berbahasa
indonesia
2. Pengolahan Awal Data (Data Pre-processing)
Data perolehan di-transformasi untuk mendapatkan atribut yang relevan
dan sesuai dengan format input algoritma klasifikasi yang digunakan
yaitu SVM.
3. Model/Metode Yang Diusulkan (Proposed Model/Method)
Metode yang diusulkan adalah penggunaan Part of Speech (POS) pada
tahap preprocessing dan fitur seleksi Gain Ratio dengan algoritma
klasifikasi Support Vector Machine (SVM) berdasarkan model ontologi
emosi Thayer Model.
4. Eksperimen dan Pengujian Metode (Method Test and Experiment)
Eksperimen dan Pengujian model menggunakan Rapidminer dan user
interface menggunakan Java netbeans.
5. Evaluasi dan Validasi Hasil (Result Evaluation and Validation)
Evaluasi dan validasi dilakukan dengan mengukur hasil akurasi
dibandingkan dengan data-data hasil tagging oleh user yang
berkompeten.
PEMBAHASAN
Pengumpulan Data
Penelitian yang dilakukan akan menggunakan dataset yang besar untuk
melihat akurasi maksimal yang bisa dihasilkan dari prosesnya klasifikasinya
Dataset lirik yang dipakai diambil dari repository yang sudah
terstandarisasi. Dataset lirik yang digunakan diambil dari LyricWiki
(http://lyrics.wikia.com/Lyrics_Wiki) yang merupakan salah satu repository
lirik yang sudah terstandarisasi. Saat ini data yang bisa digunakan sekitar
1,785,017 lirik lagu tetapi ini masih harus dipilah lagi karena yang
digunakan hanyalah lagu berbahasa indonesia saja. Dataset yang lain yang
bisa digunakan adalah Musixmatch (http://musixmatch.com),
lirik.kapanlagi.com.
Lirik lagu yang diambil nantinya juga dibatasi lirik yang mengandung
lebih dari 150 kata, hal ini dilakukan agar dalam proses fitur seleksi
dapat bisa dilakukan secara optimal.
Data preprocessing
Tokenizing
Tokenizing adalah proses pengenalan token yang terdapat dalam rangkaian
teks. Proses tokenisasi adalah pemecahan sebuah kalimat menjadi kata(token)
yang berdiri sendiri. Di dalam tokenizing karakter dan symbol selain a-z
dihilangkan, pemecahan kalimat dan kata dilakukan berdasarkan pada spasi di
dalam kalimat tersebut.
Lirik lagu memiliki banyak atribut-atribut yang tidak perlu sehingga
perlu adanya tokenizing.
Gambar 1. Contoh proses tokenizing
Filtering
Filtering merupakan proses lanjutan dari tokenizing di dalam
preprocessing kalimat. Proses filtering merupakan proses untuk
menghilangkan kata yang 'tidak relevan' pada hasil parsing sebuah dokumen
teks dengan cara membandingkannya dengan stoplist yang ada. Stoplist
disebut juga dengan stopword. Stoplist berisi sekumpulan kata yang 'tidak
relevan', namun sering sekali muncul dalam sebuah dokumen. Dengan kata lain
Stoplist berisi sekumpulan stopwords.
Stopword adalah daftar kata-kata yang tidak dipakai di dalam pemrosesan
bahasa alami. Hasil penelitian sebelumnya menyatakan bahwa penggunaan
stopword meningkatkan kemampuan pemrosesan bahasa alami. Kata-kata hasil
tokenisasi yang termasuk dalam stopword selanjutnya dihilangkan
Part of Speech
Kelas kata yang dipilih dalam proses Part of speech (POS) ini adalah
kata sifat (adjective), kata keterangan (adverb), kata benda (noun) dan
kata kerja (verb), sesuai dengan penelitian Bing Liu [12], bahwa keempat
jenis kata di atas merupakan jenis kata yang paling banyak mengandung
emosi.
" "bahagia "
"(adjectiv"milyaran "
"e) " "
" (adverb)"terlahir "
" (noun) "dunia "
" "manusia "
" "radarku "
" (verb) "bisa "
" "menemukanmu "
Gambar 3. Contoh proses POS
Proses selanjutnya adalah fitur ekstraksi menggunakan Gain Ratio.
Stemming atau perubahan menjadi kata dasar tidak dilakukan karena akan
menghilangkan esensi dari kata tersebut.
Fitur Seleksi Gain Ratio
Seleksi fitur adalah salah satu metode pengolahan awal data (pre-
processing) untuk menentukan subset fitur yang akan diolah pada tahap
berikutnya. Seleksi fitur mereduksi jumlah fitur dan menghilangkan data
yang tidak relevan, berlebihan, atau noise.
Gain Ratio merupakan salah satu fitur seleksi yang dipilih karena mampu
melakukan seleksi yang optimal pada fitur mana yang akan digunakan untuk
pengolahan lebih lanjut terhadap term yang terdapat pada lirik dalam proses
preprocessing.
Merupakan pengembangan dari Information gain, dimana Pendekatan ini
menerapkan normalisasi pada information gain dengan menggunakan apa yang
disebut sebagai split information.
Nilai ini menyatakan jumlah informasi yang dihasilkan akibat pembagian
training data ke dalam partisi-partisi, berkaitan dengan pengujian yang
dilakukan terhadap atribut A.
Atribut dengan gain ratio maksimal akan dipilih sebagai splitting
attribute. Perlu diperhatikan bahwa jika split information mendekati 0,
maka perbandingan tersebut menjadi tidak stabil. Oleh karena itu, perlu
ditambahkan batasan untuk memastikan bahwa information gain dari sebuah
pengujian haruslah besar, dan minimal sama besar dengan information gain
rata-rata dari seluruh pengujian.
Klasifikasi Emosi Lagu
Thayer Model
Penggunaan model ontologi emosi thayer model merupakan tahapan
selanjutnya setelah preprocessing data lirik. Thayer Model akan
dimodifikasi dengan menambahkan nilai pada sisi positif dan negatifnya
sehingga terbentuk vector space. Hal ini dilakukan untuk memudahkan
klasifikasi. Nantinya data preprocessing akan di representasikan dalam
model ini.
Gambar 4. Contoh representasi thayer model
Support Vector Machine (SVM)
Support Vector Machine (SVM) umumnya digunakan untuk mengklasifikasikan
data linier saja, tetapi untuk kasus non linier SVM menyelesaikan problem
ini dengan memasukkan fungsi Kernel. Seperti yang diketahui kategori yang
akan diekstrak lebih dari dua emosi sehingga metode ini cocok untuk
digunakan.
Dalam non linear SVM, pertama-tama data x dipetakan oleh fungsi Φ (x)
ke ruang vektor yang berdimensi lebih tinggi. Pada ruang vektor yang baru
ini, hyperplane yang memisahkan kedua class tersebut dapat dikonstruksikan.
Hal ini sejalan dengan teori Cover yang menyatakan"Jika suatu transformasi
bersifat non linear dan dimensi dari feature space cukup tinggi, maka data
pada input space dapat dipetakan ke feature space yang baru, dimana pattern-
pattern tersebut pada probabilitas tinggi dapat dipisahkan secara linear".
Ilustrasi dari konsep ini dapat dilihat pada gambar 5. Pada gambar 5a
diperlihatkan data pada class kuning dan data pada class merah yang berada
pada input space berdimensi dua tidak dapat dipisahkan secara linear.
Selanjutnya gambar 5b menunjukkan bahwa fungsi Φ memetakan tiap data pada
input space tersebut ke ruang vektor baru yang berdimensi lebih tinggi
(dimensi 3), dimana kedua class dapat dipisahkan secara linear oleh sebuah
hyperplane. Notasi matematika dari mapping ini adalah sbb.
Gambar 5. SVM non-linier
Kesimpulan
Klasifikasi lagu dapat dilakukan menggunakan lirik lagu tersebut Sebagai
data yang akan digunakan untuk mengklasifikasi.
Klasifikasi texts processing dengan menerapkan fiture part-of-speech
(POS) dalam proses preprocessing dan fiture selection yaitu Gain Ratio (GR)
dengan Support Vector Machine ( SVM ) sebagai algoritma untuk klasifikasi
emosi atau suasana hati sebuah lagu menggunakan lirik diharapkan akan
meningkatkan tingkat akurasi hasil klasifikasi.
DAFTAR PUSTAKA
1] IFPI, "IFPI Digital Music Report 2013 : Engine of a digital world",
2013.
2] T. Li and M. Ogihara "Detectin gEmotion in Music" The International
Society for Music Information Retrieval, 2003.
3] Y Feng, Y Zhuang, Y Pan "Music information retrieval by detecting mood
via computational media aesthetics", IEEE/WIC international Conference
on Web Intelligence, 2003.
4] Min-Joon Yoo, Hyun-Ju Kim, In-Kwon Lee "Music Exploring Interface using
Emotional Model", Human Computer Interaction 2009,2009.
5] E. Gamerman "Staring into darkness in search of a rhyme", The Wall
Street Journal, October 30, 2010.
6] D. Yang, and W. Lee, "Disambiguating music Emotion Using Software
Agents", In Proceedings of the 5th International Conference on Music
Information Retrieval (ISMIR), 2004.
7] Yunqing Xia, Linlin Wang, Kam-fai Wong, and Mingxing Xu, "Sentimen
Vector Space Model for Lyric-based Song Sentiment Classification",
Proceeding of ACL-08, pp. 133-136, 2008.
8] The Chao Ying, Shyamala Doraisamy and Lili Nurliyana Abdullah, "Genre
and Mood Classification using Lyric features", IEEE, pp. 260-263, 2012.
9] Minho Kim, Hyuk-Chul Kwon, "Lyrics-based Emotion Classification using
Feature Selection by Partial Syntactic Analysis", International
Conference on Tools with Artificial Intelligence (ACTAI),pp.960-
964,2011.
10] Xiao Hu, J.S. Downie, A.F. Ehmann,"Lyric Text Mining in Music Mood
Classification", Proceedings of ISMIR, pp.411-416, 2009.
11] C. Sun, X. Wang, and J. Xu, "Study on Feature Selection in Finance Text
Categorization," Science And Technology, 2009, pp. 5077-5082.
12] Bing Liu. (2010). Sentiment Analysis and Subjectivity, in Handbook of
Natural Language Processing.
13] R. Thayers. "The biopsychology of mod and arousal", Oxford University
Press. 1989.
14] Tim Pohle, Elias Pampalk and Gerhard Widmer, "Evaluation Of Frequently
Used Audio Features for Classification of Music Into Perceptual
Categories", Semantic Interaction with Music Audio Contents
(SIMAC),2005.
15] X. Hu, J.S. Downie, "When lyrics outperform audio for music mood
classification: a feature analysis", Proceedings of ISMIR,pp.1-6,2010.
16] Vipin Kumar, Sonajharia Minz, "Mood Classification of Lyric using
SentiWordNet", International Conference on Computer Communication and
Informatics (ICCCI), IEEE, 2013.
-----------------------
[Hasil Token]
Reff
Ku
bahagia
kau
telah
terlahir
di
dunia
Dan
kau
ada
di
antara
milyaran
manusia
Dan
ku
bisa
dengan
radarku
menemukanmu
[Input teks]
Reff:
Ku bahagia kau telah terlahir di dunia
Dan kau ada di antara milyaran manusia
;
-
'
4
6
B
õíõäØÉ·É·¬¤" }qe\q}qN}CN}qhÜt5?6?CJaJhÜthÜt5?6?CJaJhÖhZBˆhrcÕ5?CJaJhÜtDan
ku bisa dengan radarku menemukanmu
[Hasil Stopword]
bahagia
telah
terlahir
dunia
antara
milyaran
manusia
bisa
dengan
radarku
menemukanmu
[Hasil Token]
Reff
Ku
bahagia
kau
telah
terlahir
di
dunia
Dan
kau
ada
di
antara
milyaran
manusia
Dan
ku
bisa
dengan
radarku
menemukanmu
[Hasil Stopword]
bahagia
telah
terlahir
dunia
antara
milyaran
manusia
bisa
dengan
radarku
menemukanmu