BAB I PENDAHULUAN
1.1 Latar Belakang
Perkembangan dunia digital telah banyak memberi dampak pada kemudahan mengakses dan berbagi informasi, terutama YouTube YouTube semakin hari semakin meningkat aktivitas-aktivitas di YouTube baik YouTube baik untuk menonton ataupun berkomentar. Berkomentar terhadap video di Youtube Youtube adalah suatu kebebasan, karena semua pengguna dapat melakukan itu. Komentar-komentar di YouTube tersebut secara keseluruhan bisa memberikan sebuah review sentiment-sentiment masyarakat terhadap content video tersebut. Salah satu fungsi dari analisis sentimen yaitu untuk mendapatkan opini yang diekspresikan untuk dikategorikan menjadi beberapa kelas seperti positif, posit if, negatif atau netral (Bhoir & Kolte, 2015). YouTube adalah sebuah situs web berbagi video yang sangat populer saat ini . Komentarkomentar di komentar di YouTube berupa YouTube berupa tulisan-tulisan opini terhadap video tersebut dan juga pengguna lain dapat menanggapi menanggapi komentar yang komentar yang ditulis oleh pengguna lain. Analisis sentimen merupakan bidang komputasi yang mempelajari opini, sikap, atau emosi dari suatu entitas. Suatu entitas bisa saja berupa individu, topik, maupun kejadian. Topik tersebut biasanya akan menjadi suatu ulasan atau review. review. Dalam analisis sentimen biasanya menggunakan metode klasifikasi pada kumpulan entitas yang dibagi menjadi kelas-kelas sentimen tertentu, misal nya positif, negatif, atau netral. Salah satu metode klasifikasi yang dapat digunakan pada analisis sentimen adalah pohon keputusan(decision keputusan(decision tree) tree) yang dibentuk menggunakan algoritma C4.5. Pohon keputusan merupakan salah satu metode klasifikasi yang menggunakan struktur pohon dengan membagi-bagi data menjadi cabang pada pohon berdasarkan atribut pada dataset sehingga sehingga diperoleh label atau kelas. Pohon keputusan tersusun atas node yang node yang pada tiap node-nya node-nya merepresentasikan suatu
I-1
I-2
pertanyaan atau label berdasarkan percabangan dari nilai atribut. Proses pembentukan pohon keputusan yang efektif dapat menggunakan algoritma C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan berdasarkan nilai information gain dan entropy pada dataset . Nilai-nilai tersebut dapat digunakan untuk menentukan root node dan percabangan suatu node pada pohon keputusan. Algoritma C4.5 juga dapat menghindari overfitting pada pohon keputusan, yaitu suatu kondisi dimana pohon keputusan tersebut sulit untuk mengeneralisasi data. Overfitting juga dapat diartikan suatu kondisi dimana suatu metode klasifikasi hanya “mengingat” data dari pada “mempelajari” data. Adaptive Boosting (AdaBoost) adalah pendekatan pada machine learning untuk meningkatkan peraturan prediksi yang akurat dengan menggabungkan banyak peraturan yang relatif lemah dan tidak akurat. Adaptive boosting (adaboost) merupakan salah satu dari beberapa varian pada algoritma boosting (Liu, 2015). Adaboost merupakan ensemble learning yang sering digunakan pada algoritma boosting. Algoritma AdaBoost dari Freund dan Schapire (1995) merupakan algoritma penguat praktis pertama, dan tetap menjadi salah satu yang paling banyak digunakan dan dipelajari, dengan aplikasi di berbagai bidang. Boosting bisa dikombinasikan dengan classifier algoritma yang lain untuk meningkatkan performa klasifikasi. Tentunya secara intuitif, penggabungan beberapa model akan membantu jika model tersebut berbeda satu sama lain. Adaboost dan variannya telah sukses diterapkan pada beberapa bidang (domain) karena dasar teorinya yang kuat, prediksi yang akurat, dan kesederhanaan yang besar, AdaBoost sendiri merupakan akronim dari Adaptive Boosting, algoritma ini diterapkan secara luas pada model prediksi dalam data mining. Inti dari algoritma AdaBoost adalah memberikan suatu bobot lebih pada observasi yang tidak tepat (weak classification).
I-3
Penelitian mengenai analisis sentimen telah banyak dilakukan dengan berbagai macam objek penelitian. Feizar & Yudistira (2013) mengusulkan penggunaan metode Neighbor-Weighted K-Nearest Neighbor (NWKNN) untuk analisis sentimen opini film berbahasa Indonesia berbasis kamus. NWKNN bekerja dengan prinsip pembobotan dan dapat melakukan klasifikasi dengan rata-rata fmeasure mencapai 82%. Namun kelemahan dari NWKNN ialah besarnya data la tih tidak meningkatkan akurasi sistem. Ouyang, Zhou, Li, & Liu (2015) menggunakan framework Word2vec dan Convolutional Neural Network (CNN) untuk analisis sentimen pada review film dengan akurasi sebesar 45%. CNN menggunakan model arsitektur 7-layers untuk analisis sentimen perkalimat. Zharmagambetov & Pak (2015) meneliti analisis sentimen menggunakan pendekatan deep learning recurrent neural network dan decision trees. Algoritma yang digunakan memiliki efisiensi komputasi. Penerapan Recurrent Neural Network (RNN) mempunyai kelebihan model komputasi yang kuat khususnya memproses informasi berurutan yang panjang (Arevian, 2007). RNN menghasilkan akurasi sebesar 99.63% pada penelitian Online and Semi-Online Sentiment Classification (Ravi, Ravi, & Gautam, 2015) yang meneliti analisis sentimen terhadap review berbagai merek telepon seluler sehingga direkomendasikan sebagai pengklasifikasi diantara berbagai teknik yang digunakan untuk analisis sentimen. Penelitian tugas akhir ini melakukan analisis sentimen comment video YouTube berbahasa Indonesia menggunakan C.45 Dan Adaboost. Penelitian ini diharapkan dapat meningkatkan akurasi algoritma C4.5 pada analisis sentimen.
1.2 Rumusan Masalah
Rumusan masalah pada penelitian ini adalah banyaknya jumlah masyrakat yang menulis komentar-komentar video di YouTube dan pengalaman secara online terus meningkat. Akan Tetapi belum adanya penggunaan C.45 Dan Adaboost untuk menentukan analisis sentimen comment video YouTube berbahasa Indonesia.
I-4
1.3 Tujuan Penelitian
Tujuan dari penelitian ini adalah : 1. Bagaimana cara menerapkan Adaboost dalam memberikan suatu bobot lebih pada observasi yang tidak tepat algoritma C4.5 pada analisis sentimen. 2. Mengetahui akurasi dari penelitian yang dilakukan.
1.4 Manfaat Penelitian
Manfaat yang dapat diperoleh dari penelitian ini adalah : 1. Dapat mengetahui sentimen masyarakat dengan lebih akurat mengenai video-video di YouTube .
2. Dapat menggunakan algoritma C.45 dengan akurasi yang lebih tinggi yang dioptimasi menggunakan Adaptive Boostinng
1.5 Batasan Masalah
Batasan masalah pada penelitian ini adalah sebagai berikut : 1. Data yang digunakan berupa teks 2. Data yang digunakan adalah teks dalam Bahasa Indonesia 3. Evaluasi model klasifikasi menggunakan metode Cross Validation Pengukuran akurasi model menggunakan Confusion Matrix .