KLASIFIKASI DATA DENGAN METODE DECISION TREE UNTUK MENENTUKAN HASIL AKHIR PERMAINAN TIC-TAC-TOE 1
Devota Rachmania Hardask, 2 Annisa Cinintya Risam 1
2
5210100026, 5210100082 Jurusan Sistem Informasi – Informasi – Fakultas Fakultas Teknologi Informasi – Informasi – Institut Institut Teknologi Sepuluh Nopember Kampus ITS Sukolilo Surabaya 60111, Indonesia 1
[email protected],, 2
[email protected] [email protected]
1,2
sehingga dapat memperoleh olahan data yang tepat dan dapat menemukan langkah untuk memenangkan permainan tersebut.
Dalam dunia ilmu data mining , salah satu metode Abstract — Dalam utamanya adalah Classification . Yang mana dapat diselesaikan dengan beberapa pendekatan, yaitu salah satunya adalah menggunakan Decision T ree. ree. Di dalam paper ini akan dijelaskan mengenai bagaimana langkah-langkah yang harus diambil untuk dapat memenangkan permainan tic-tac-toe, yang walaupun merupakan sebuah permainan yang sederhana tetapi juga membutuhkan pemikiran panjang untuk dapat meletakkan lambang yang tepat pada ruang yang tepat. Metodologi yang digunakan adalah distribusi data yang dibagi menjadi pengambilan dan analisis data, serta melakukan analisis decision yang dibagi menjadi pembuatan dengan decision tree tools Weka dan mendapatkan hasil dari decision tr ee tersebut. Data didapatkan melalui website UCI Machine Learning , dimana data tersebut berjumlah 958 yang terbagi ke Repository dalam 9 atribut dan 1 kelas. Melalui hasil perbandingan percentage split didapatkan informasi bahwa persentase corr ectly dengan ectly cl ass assif ied in stances stances nilai paling besar yaitu pada persentase tingkat 90 yaitu sejumlah 87.5%. Serta jika dilihat dari incorrectly classified pada tingkat persentase 90% didapatkan nilai terkecil instances yaitu 12.5%.
II.
A. Ti c Tac Toe Game
Tic-tac-toe atau juga dikenal dengan nama Noughts dan Cross adalah sebuah permainan yang biasa dimainkan dengan kertas dan pensil untuk dua pemain, yaitu X dan O, yang bergiliran menandai ruang dalam grid 3 x 3. Pemain berhasil menempatkan tiga tanda masing-masing dalam sebuah horizontal, vertical, atau diagonal memenangkan permainan. (WIKIPEDIA, 2013)
Gambar II-1 Contoh permainan dimenangkan oleh pemain pertama (X)
B. Decision Decision Tr ee
Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau atau membedakan konsep atau kelas data, dengan dengan tujuan untuk dapat dapat memperkirakan memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika“jika-maka”, berupa decision tree, tree, formula matematis atau neural network [4]. [4].
Keywords T ic-tac-toe; Endgame; Endgame; Decision Decision T ree; ree; Entr opy — Tic-tac-toe;
I.
TINJAUAN PUSTAKA
PENDAHULUAN
Dalam dunia ilmu data mining , maka sudah tidak asing j ika mendengar ada empat macam metode utama, yaitu: Classification, Classification, Association Rules, Rules, Clustering , dan Anomaly. Anomaly. Namun pembahasan kali ini akan mengarah pada metode classification. classification. Yaitu dengan menggunakan pendekatan Decision Tree. Tree. Disamping itu terdapat data test yang yang akan diuji akurasinya.
Decision Tree Tree (pohon keputusan) adalah suatu metode dari jenis classification classification untuk mengetahui aksi apa yang akan dipakai untuk mengambil suatu keputusan. Menurut Putri [1], Decision Tree Tree (DT) merupakan salah satu perangkat utama dalam melakukan pengambilan keputusan. Melalui metode tersebut, kita dapat melakukan proses pengambilan keputusan secara terstruktur, dengan mempertimbangkan alternatif-alternatif keputusan dan hasil yang ada, dan mengkalkulasikan risiko dan payoff dari tiap alternatif keputusan yang diambil.
Tic-tac-toe merupakan sebuah permainan yang menggunakan alat berupa kertas dan pensil dalam pengoperasiannya. pengoperasiannya. Setiap pemain pemain dapat menggunakan menggunakan lambang X dan O, untuk menandai ruang grid 3x3 secara bergiliran, dan pemain dengan penempatan tiga tanda berturut-turut secara horizontal, vertical, ataupun diagonal dapat memenangkan pertandingan tersebut. Akan tetapi permainan tersebut tidaklah mudah, dan dibutuhkan pemikiran panjang yang cermat untuk menempatkan lambang tersebut secara tepat sehingga dapat memenangkan permainan tesebut.
Pada sumber lainnya [3] menjelaskan bahwa untuk melakukan induksi terhadap metode DT dapat dilakukan dengan berbagai algoritma perhitungan: Hunt’s Algorithm (one of the earliest) CART ID3, C4.5 SLIQ,SPRINT
Oleh karena itu, melalui data test permainan yang didapatkan, penulis ingin mengklasifikasikan data yang ada,
1
Pada metode DT, dikenal dua istilah umum yaitu Binary Split dan Multi-way Split. Binary split digunakan untuk membagi value atribut menjadi dua pengelompokan atau lebih. Gunanya adalah untuk menghitung DT mana yang paling optimal. Sedangkan Multi-way split digunakan untuk tiap-tiap value atribut yang berbeda.
Entropy(t ) p( j | t ) log 2 p( j | t ) j
C. Algoritma I D3
Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang digunakan untuk membangkitkan pohon keputusan. Algoritma pada metode ini berbasis pada Occam’s razor: lebih memilih pohon keputusan yang lebih kecil (teori sederhana) dibanding yang lebih besar. Tetapi tidak dapat selalu menghasilkan pohon keputusan yang paling kecil dan karena itu occam’s razor bersifat heuristik. Occam’s razor diformalisasi menggunakan konsep dari entropi informasi. Berikut algoritma dari ID3 :
C1 C2
0 6
P(C1) = 0/6 = 0 P(C2) = 6/6 = 1 Entropy = – 0 log 0 – 1 log 1 = – 0 – 0 = 0
C1 C2 C1 C2
1 5 2 4
P(C1) = 1/6 P(C2) = 5/6 Entropy = – (1/6) log2 (1/6) – (5/6) log2 (1/6) = 0.65 P(C1) = 2/6 P(C2) = 4/6 Entropy = – (2/6) log2 (2/6) – (4/6) log2 (4/6) = 0.92
D. WEKA
WEKA (Waikato Environment for Knowledge Analysis) adalah suatu perangkat lunak pembelajaran mesin yang populer ditulis dengan Java, yang dikembangkan di Universitas Waikato di selandia baru. WEKA adalah perangkat lunak gratis yang tersedia di bawah GNU General Public License. Pada WEKA menyediakan penggunaan teknik klasifikasi menggunakan pohon keputusan dengan algoritma J48. Teknik klasifikasi dan algoritma yang digunakan di WEKA disebut classifier. E. J48 pada WEKA
J48 merupakan open source Java sebagai pelaksana algoritma C4.5 di aplikasi WEKA data mining. C4.5 sendiri adalah algoritma yang digunakan untuk menghasilkan decission tree atau pohon keputusan yang dikembangkan oleh Ross Quinlan. C4.5 merupakan perpanjangan dari algoritma ID3. Pohon-pohon keputusan yang dihasilkan oleh C4.5 dapat digunakan untuk melakukan klasifikasi dan untuk alasan ini, C4.5 sering disebut sebagai classifier statistik. (WIKIPEDIA, 2013)
Adapun sample data yang digunakan oleh ID3 memiliki beberapa syarat, yaitu: 1. Deskripsi atribut-nilai. Atribut yang sama harus mendeskripsikan tiap contoh dan memiliki jumlah nilai yang sudah ditentukan. 2. Kelas yang sudah didefinisikan sebelumnya. Suatu atribut contoh harus sudah didefinisikan, karena mereka tidak dipelajari oleh ID3. 3. Kelas-kelas yang diskrit. Kelas harus digambarkan dengan jelas. Kelas yang kontinu dipecah-pecah menjadi kategori-kategori yang relatif, misalnya saja metal dikategorikan menjadi “hard, quite hard, flexible, soft, quite soft”. 4. Jumlah contoh (example) yang cukup. Karena pembangkitan induktif digunakan, maka dibutuhkan test case yang cukup untuk membedakan pola yang valid dari peluang suatu kejadian. Pemillihan atribut pada ID3 dilakukan dengan properti statistik, yang disebut dengan information gain. Gain mengukur seberapa baik suatu atribut memisahkan training example ke dalam kelas target. Atribut dengan informasi tertinggi akan dipilih. Dengan tujuan untuk mendefinisikan gain, pertama-tama digunakanlah ide dari teori informasi yang disebut entropi. Entropi mengukur jumlah dari informasi yang ada pada atribut. Contoh perhitungan Entropy adalah:
III.
METODOLOGI
Tahapan metodologi yang dilakukan untuk dapat menghasilkan decision tree dari data permainan tic-tac-toe adalah dijelaskan di dalam Gambar 2 di bawah ini.
A. Distribusi Data a. Pengambilan Data
b. Analisis Data
B. Analisis Decision Tree a. Pembuatan dengan Weka
b. Hasil Decision Tree
Gambar III-1 Metodologi yang dilakukan
Penjelasan dari langkah-langkah metodologi tersebut adalah sebagai berikut:
2
A. Distribusi Data di dalam langkah pertama ini dibagi menjadi dua, yaitu proses pengambilan data serta analisis dari data yang telah didapatkan. a. Pengambilan data: Pada langkah ini dilakukan proses pengambilan data yang berasal dari website UCI Machine Learning Repository. b. Analisis data: Di dalam langkah ini dilakukan analisis data yang telah didapatkan. Yaitu menjelaskan atribut-atribut yang dimiliki, serta keterangan-keterangan yang didapatkan dari informasi data tersebut. B. Analisis Decision Tree pada langkah metodologi ini terdapat dua langkah di dalamnya, yaitu pembuatan decision tree dengan menggunakan tools Weka serta bagaimana proses mendapatkan hasil decision tree tersebut. a. Pembuatan dengan Weka: Pada langkah ini, dilakukan tahap-tahap pembuatan decision tree menggunakan tools Weka. b. Hasil Decision T ree: Kemudian pada langkah ini didapatkan hasil berupa decision tree dan kemudian keterangan mengenai hasil yang didapatkan. IV.
Tabel IV-1 Distribusi Data tic-tac-toe
b. Analisis Data Tabel 4.3 merupakan tampilan tabel yang berisi data yang telah didapatkan melalui sumber. Keterangan dari tabel di atas adalah:
ANALISIS
Sesuai dengan alur metodologi, maka tahapan analisis yang akan dilakukan adalah terhadap berikut ini:
Tabel IV-2 analisis data tic-tac-toe
Nama Atribut Top-left-square Top-middle-square Top-right-square Middle-left-square Middle-middle-square Middle-right-square Bottom-left-square Bottom-middle-square Bottom-right-square Class
A. Distribusi Data
a. Pengambilan Data Data didapatkan melalui website UCI Machine Learning Repository, dimana data tersebut berjumlah 958 yang terbagi ke dalam 9 atribut dan 1 kelas. Data tersebut adalah sebagai berikut.
Keterangan Atribut x, o, b x, o, b x, o, b x, o, b x, o, b x, o, b x, o, b x, o, b x, o, b Postive, negative
Keterangan: x jika pemain menandai ruang dengan tanda X o jika pemain menandai ruang dengan tanda O b jika pemain tidak menandai ruang (kosong) B. Anal isis Decision T ree
a. Pembuatan Dengan Weka Untuk dapat menemukan pohon keputusan dari data yang diperoleh, maka sebelumnya terdapat langkah-langkah yaitu: Mengubah data keseluruhan menjadi format .csv Memasukkan data ke dalam Weka, dimana dari proses tersebut akan menghasilkan visualisasi data sebagai berikut.
3
Warna biru menunjukkan kelas positive sedangkan warna merah menunjukkan kelas negative. Kemudian terdapat sembilan bagian tabel yang menunjukkan masing-masing hasil visualisasi dari setiap atribut. Atribut tersebut merupakan langkah-langkah jawaban yang dipilih oleh masing-masing pemain. Kemudian langkah selanjutnya adalah masuk ke dalam tab menu classify, kemudian memilih classifier yaitu J-48 dan menggunakan pilihan tes percentage split untuk dapat menghitung nilai ketepatan maupun kesalahan yang ada di dalam data tersebut. Untuk dapat melakukan perbandingan, maka dibuatlah tabel percentage split seperti pada tabel III.3 yang dapat digunakan untuk membandingkan tingkat error/correct data tic-tac-toe berdasarkan persentage split yang dimiliki.
Gambar IV-1 hasil visualisasi data
Tabel IV-3 percentage split (%) data tic-tac-toe
Percentage Split (%)
Correctly Classified Instances
Incorrectly Classified Instances
Mean Absolute Error
Root Mean Squared Error
Relative Absolute Error
Root Relative Squared Error
Total Number of Instances
10
573 (66.4733 %)
289 (33.5267 %)
0.3703
0.5259
83.6955 %
109.6641 %
862
20
521 (68.0157 %)
245 (31.9843 %)
0.3835
0.5052
84.9268 %
105.9987 %
766
30
527 (78.5395 %)
144 (21.4605 %)
0.2754
0.4348
60.4564 %
91.6311 %
671
40
451 (78.4348 %)
124 (21.5652 %)
0.2617
0.4251
57.4967 %
89.864 %
575
50
383 (79.9582 %)
96 (20.0418 %)
0.2414
0.4052
53.2533 %
85.6986 %
479
60
308 (80.4178 %)
75 (19.5822 %)
0.2332
0.395
51.6696 %
84.2528 %
383
70
228 (79.4425 %)
59 (20.5575 %)
0.2283
0.4017
50.9345 %
86.1362 %
287
80
161 (83.8542 %)
31 (16.1458 %)
0.1923
0.3709
43.4186 %
80.4313 %
192
90
84 (87.5 %)
12 (12.5 %)
0.1318
0.3156
30.0419 %
68.8202 %
96
Setelah adanya perbandingan tersebut maka dapat diketahui tingkat persentase split dari data yang salah maupun yang benar. Kemudian jika masuk ke dalam tab menu classify, kemudian memilih
classifier yaitu J-48 dan menggunakan pilihan tes percentage split 66% , maka akan didapatkan hasil decision tree sebagai berikut.
4
Gambar IV-2 hasil decision tree
classified instances pada tingkat persentase 90% didapatkan nilai terkecil yaitu 12.5%.
Di dalam hasil pohon keputusan tersebut, tampak bahwa perbedaan dari masing-masing pemain ketika memilih tanda, dan di urutan ruang yang berbeda maka akan mengeluarkan hasil akhir yang berbeda p ula yaitu menang atau kalah.
DAFTAR PUSTAKA V. SIMPULAN
[1]
Terdapat beberapa kesimpulan yang bisa diperoleh dari hasil analisis diatas, antara lain:
WIKIPEDIA. (2013, October 14). C4.5 Algorithm. Retrieved from WIKIPEDIA: http://en.wikipedia.org/wiki/C4.5_algorithm
[2]
WIKIPEDIA. (2013, October 23). Tic-tac-toe. Retrieved WIKIPEDIA: http://en.wikipedia.org/wiki/Tic-tac-toe
from
[3]
Aha, D. W. (1991, August 19). Retrieved http://archive.ics.uci.edu/ml/datasets/Tic-Tac-Toe+Endgame
from
1) Melalui hasil perbandingan percentage split didapatkan informasi bahwa persentase correctly classified instances dengan nilai paling besar yaitu pada persentase tingkat 90 yaitu sejumlah 87.5%. Serta jika dilihat dari incorrectly
5