BAB III METODE KLASIFIKASI
3.1
Pengantar Klasifikasi Klasifikasi adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsur (item) data data ke dalam salah satu dari beberapa kelas yang sudah didefinisikan. Sebagai contoh, sebuah bank ingin menganalisis data data pengajuan dana pinjaman apakah peminjam dana tersebut masuk ke dalam kategori beresiko dalam artian dana yang dipinjamkan akan sulit dikembalikan atau dalam kategori aman (gambar 3.28).
Data Uji
adalah flowchart yang berbentuk seperti struktur pohon, pohon, dimana setiap simpul internal (node keputusan) menunjukkan test pada atribut, setiap cabang merupakan keluaran dari test dan setiap simpul daun (simpul terminal) adalah merupakan sebuah class.Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan rule. Secara umum metode membangun pohon keputusan antara lain menentukan atribut sebagai akar, membuat cabang untuk masing-masing nilai, membagi data dalam cabang dan mengulangi proses untuk masing-masing cabang sampai semua data pada cabang memiliki kelas yang sama. Bagian awal dari pohon keputusan ini adalah akar (root)dan setiap cabang dari pohon keputusan merupakan pembagian berdasarkan hasil perhitungan, dan titik akhir (leaf) merupakan pembagian kelas yang dihasilkan. Pohon keputusan mempunyai 3 tipe simpul yaitu: 1. Simpul akar, dimana tidak memiliki cabang yang masuk dan memiliki cabang keluar lebih dari satu, terkadang tidak memiliki cabang sama sekali. Simpul ini biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. 2. Simpul keputusan, dimana hanya memiliki 1 cabang yang masuk, dan memiliki lebih dari 1 cabang yang keluar. 3. Simpul daun, atau simpul akhir dimana hanya memiliki 1 cabang yang masuk, dan tidak memiliki cabang sama sekali dan menandai bahwa simpul
adalah flowchart yang berbentuk seperti struktur pohon, pohon, dimana setiap simpul internal (node keputusan) menunjukkan test pada atribut, setiap cabang merupakan keluaran dari test dan setiap simpul daun (simpul terminal) adalah merupakan sebuah class.Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan rule. Secara umum metode membangun pohon keputusan antara lain menentukan atribut sebagai akar, membuat cabang untuk masing-masing nilai, membagi data dalam cabang dan mengulangi proses untuk masing-masing cabang sampai semua data pada cabang memiliki kelas yang sama. Bagian awal dari pohon keputusan ini adalah akar (root)dan setiap cabang dari pohon keputusan merupakan pembagian berdasarkan hasil perhitungan, dan titik akhir (leaf) merupakan pembagian kelas yang dihasilkan. Pohon keputusan mempunyai 3 tipe simpul yaitu: 1. Simpul akar, dimana tidak memiliki cabang yang masuk dan memiliki cabang keluar lebih dari satu, terkadang tidak memiliki cabang sama sekali. Simpul ini biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. 2. Simpul keputusan, dimana hanya memiliki 1 cabang yang masuk, dan memiliki lebih dari 1 cabang yang keluar. 3. Simpul daun, atau simpul akhir dimana hanya memiliki 1 cabang yang masuk, dan tidak memiliki cabang sama sekali dan menandai bahwa simpul
menghasilkan pohon biner (di mana setiap cabang simpul keputusanmemilik tepat dua simpul daun atau simpul keputusan dibawah nya), sedangkan yang lain dapat menghasilkan pohon non biner. Pohon keputusan dengan mudah dapat dikonversi ke aturan klasifikasi.Pembangunan pengklasifikasi pohon keputusan tidak memerlukan pengetahuan domain atau pengaturan parameter, dan karena itu cocok untuk eksplorasi penemuan pengetahuan.Pohon keputusan dapat menangani data dimensi tinggi.Ketika pohon keputusan dibangun, banyaknya jumlah cabang dapat mencerminkannoise atau outlier dalam data pelatihan.Upaya pemangkasan pohon dilakukan untuk mengidentifikasi dan menghapus cabang dengan tujuan meningkatkan akurasi klasifikasi pada data.Secara umum, pengklasifikasi pohon keputusan memiliki akurasi yang baik.Namun, keberhasilan tergantung pada data yang ada.Algoritma induksi pohon keputusan telah digunakan untuk klasifikasi dalam banyak area aplikasi, seperti kedokteran, manufaktur dan produksi, analisis keuangan, astronomi, dan biologi molekuler.Pohon keputusan merupakan dasar dari beberapa sistem induksi aturan komersial. 3.2.1
ID3 Pada tahun 1970 dan awal 1980, J. Ross Quinlan, seorang peneliti dalam machine learning mengembangkan mengembangkan algoritma decision tree tree yang dikenal sebagai ID3 ( Iterative Iterative Dichotomiser ). ). Algortima ID3 merupakan algortima yang sering
Tujuan dari pengukuran nilai Information Gain adalah untuk memilih atribut yang akan dijadikan cabang pada pembentukan pohon keputusan. Atribut yang memiliki nilai Information Gain yang tertinggi akan dipilih menjadi atribut uji untuk dijadikan cabang pohon. ENTROPY & INFORMATION GAIN Metode dasar ID3 adalah memilih atribut-atribut untuk klasifikasi dengan menggunakan metode statistik dimulai dari tree bagian atas. Cara memilih atribut adalah dengan menggunakan properti statistikal yang disebut dengan Information Gain, yang didefinisikan untuk menentukan ukuran nilai dari suatu atribut. Sebelumnya sebuah objek yang diklasifikasikan dalam pohon harus dites nilai entropinya. Entropy adalah ukuran dari teori informasi yang dapat mengetahui karakteristik dari impurity dan homogenity dari kumpulan data. Dari nilai entropy tersebut kemudian dihitung nilai Information Gain (IG) masing-masing atribut. Nilai entropy didefinisikan sebagai berikut: .
! " # &
$%& ' ()* + ,%& -
Dimana Pi adalah rasio dari class Ci didalam set data sampel S = {x1,x2,... xk}
efektifitas ini disebut Information Gain. Secara matematis, infomation gain dari suatu atribut A,dituliskan sebagai berikut : "> < "6 = # ! " $ !,"> " >2?@ABCD E
Dimana : bobot W_i=|S_v |/|S| merupakan rasio dari data dengan atribut v didalam set sampel A : atribut V : suatu nilai yang mungkin untuk atribut A Values (A) : himpunan yang mungkin untuk atribut A |Sv| : jumlah sampel untuk nilai v |S| : jumlah seluruh sampel data E(Sv) : entropy untuk sampel-sampel yang memilki nilai v Contoh Penerapan Algoritma ID3 Sebagai contoh penerapan algortima ID3 akan digunakan contoh data sebagai berikut. Sebuah perusahaan akan memberikan bonus tahunan kepada seluruh karyawannya. Untuk memberikan bonus ini, departemen kepegawaian perusahaan ini melakukan pembagian karyawan ke dalam tiga buah golongan yaitu, Golongan A, Golongan B, dan Golongan C. Berikut adalah bonus yang diperoleh oleh
Kehadiran
Prestasi
Tinggi Sedang Rendah Tinggi Sedang Tinggi Tinggi Rendah Sedang Sedang Rendah Tinggi Tinggi Tinggi Tinggi Rendah Sedang Sedang Rendah Tinggi
Tinggi Rendah TInggi Rendah Tinggi Tinggi Rendah Tinggi Tinggi Rendah Tinggi Tinggi Tinggi Rendah Tinggi Rendah Rendah Tinggi Tinggi Tinggi
Lama Bekerja Lama Baru Lama Baru Baru Baru Lama Lama Baru Lama Lama Lama Lama Baru Baru Lama Baru Baru Lama Lama
Tanggungan
Pendidikan
Gol
Tidak Ada Sedikit Menengah Banyak Menengah Menengah Menengah Tidak Ada Tidak Ada Tidak Ada Banyak Banyak Banyak Tidak Ada Tidak Ada Menengah Menengah Menengah Menengah Menengah
Tinggi Sedang Rendah Tinggi Rendah Rendah Rendah Tinggi Tinggi Sedang Sedang Tinggi Rendah Tinggi Sedang Tinggi Rendah Rendah Tinggi Sedang
A C B C B B C A B C A A B C B C C B A A
Atribut Total
Kehadiran Prestasi Lama Bekerja
Tanggungan
Pendidikan
Tinggi Sedang Rendah Tinggi Rendah Lama Baru Banyak Sedikit Menengah Tidak Ada Tinggi Sedang Rendah
Entropi 1.581 1.585 1.000 1.371 0.996 0.000 1.435 0.991 1.500 0.000 1.530 1.585 1.406 1.522 0.863
Gain
0.225 0.934 0.346
0.117
0.336
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain tertinggi adalah Prestasi, yaitu sebesar 0,934. Oleh karena itu atribut Prestasi dijadikan sebagai akar. Ada dua nilai atribut ini, yaitu Tinggi dan Rendah yang dijadikan sebagai cabang dari akar Prestasi. Data dari prestasi tinggi dan rendah dipisah seperti tabel
Tabel 3.2 Data Prestasi Rendah Kehadiran
Prestasi
Lama Bekerja
Tanggungan
Pendidikan
Gol
Sedang Tinggi Tinggi Sedang Tinggi Rendah Sedang
Rendah Rendah Rendah Rendah Rendah Rendah Rendah
Baru Baru Lama Lama Baru Lama Baru
Sedikit Banyak Menengah Tidak Ada Tidak Ada Menengah Menengah
Sedang Tinggi Rendah Sedang Tinggi Tinggi Rendah
C C C C C C C
,-./01/2
3.4516
9:; <
724882
*=*
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain tertinggi adalah Pendidikan, yaitu sebesar 0,506. Oleh karena itu atribut Pendidikan dijadikan sebagai node keputusan 1.1. Ada tiga nilai atribut ini, yaitu Tinggi, Sedang, dan Rendah yang dijadikan sebagai cabang dari node keputusan Pendidikan. Data dari atribut pendidikan dipisah seperti berikut. Tabel 3.3 Data Prestasi Tinggi dan Pendidikan Tinggi Kehadiran
Prestasi
Tinggi Rendah Sedang Tinggi Rendah
Tinggi Tinggi Tinggi Tinggi Tinggi
Lama Bekerja Lama Lama Baru Lama Lama
Tanggungan
Pendidikan
Gol
Tidak Ada Tidak Ada Tidak Ada Banyak Menengah
Tinggi Tinggi Tinggi Tinggi Tinggi
A A B A A
Tabel 3.4 Data Prestasi Tinggi dan Pendidikan Sedang Kehadiran
Prestasi
Rendah Tinggi Tinggi
Tinggi Tinggi Tinggi
Lama Bekerja Lama Baru Lama
Tanggungan
Pendidikan
Gol
Banyak Tidak Ada Menengah
Sedang Sedang Sedang
A B A
,-./01/2
724882
3.4516
9:; <
*=* ,.45252?14
724882 3.4516
9:; @
A.5148
*=*=+ >
*=*=* >
Hasil perhitungan di atas dapat dilihat pada tabel berikut: Atribut Total
Kehadiran Lama Bekerja
Tanggungan
Tinggi Sedang Rendah Lama Baru Banyak Sedikit Menengah Tidak Ada
Entropi 0.722 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.918
Gain
0.722 0.722
0.171
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain tertinggi adalah Kehadiran dan Lama Bekerja, yaitu sebesar 0,722. Oleh karena itu dipilih salah satu dari atribut tesebut. Missal dipilih atribut Kehadiran dijadikan sebagai node keputusan 1.1.1. Ada tiga nilai atribut ini, yaitu Tinggi, Sedang, dan Rendah yang dijadikan sebagai cabang dari node keputusan Kehadiran . Tabel 3.6 Data Prestasi Tinggi, Pendidikan Tinggi dan Kehadiran Tinggi Kehadiran
Prestasi
Lama
Tanggungan
Pendidikan
Gol
,-./01/2
724882
3.4516
9:; <
*=* ,.45252?14 724882 3.4516
9:; @
A.5148
*=*=+ >
*=*=* B.6152-14
3.4516
9:; C
A.5148
9:; @
724882
9:; C
L
:6::: 5
8
:6::: # :648N R R 8 : :6::: 5 :6::: R R # :648N 8 8 5 :6::: 5 :6::: R R
Hasil perhitungan di atas dapat dilihat pada tabel berikut: Atribut Total
Kehadiran Lama Bekerja
Tanggungan
Tinggi Sedang Rendah Lama Baru Banyak Sedikit Menengah Tidak Ada
Entropi 0.918 1.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
Gain
0.252 0.918
0.918
,-./01/2 724882
3.4516
9:; < *=* ,.45252?14
724882
3.4516 A.5148
*=*=+ ;1D1 @.?.-E1
9:; @
;1D1
*=*=* B.6152-14
@1-F 3.4516
A.5148
724882
Untuk data no 2 diketahui data baru dengan atribut kehadiran bernilai sedang, atribut pretasi bernilai Tinggi, atribut lama bekerja bernilai Baru, atribut tanggungan bernilai Banyak, dan atribut pendidikan bernilai Tinggi. Aturan yang terjadi sesuai dengan data baru tersebut adalah IF (Prestasi = Tinggi) ^ (Pendidikan = Tinggi) ^ (Kehadiran = Rendah) THEN (Gol = Gol B)
Dari penelusuran di atas, diketahui bahwa data baru karyawan tersebut diklasifikasi sebagai karyawan dengan Golongan B 3.2.2
C4.5 Metode klasifikasi berikutnya yang cukup popular adalah algoritma C4.5. Algoritma C4.5 merupakan pengembangan dari algoritma ID3. Konsep dasar algoritma C4.5 memiliki kesamaan dengan IDE. Perbedaan utama C4.5 dari ID3 adalah: - C4.5 dapat menangani atribut kontinyu dan diskrit. - C4.5 dapat menangani training data dengan missing value. - Hasil pohon keputusan C4.5 akan dipangkas setelah dibentuk. - Pemilihan atribut yang dilakukan dengan menggunakan Gain ratio.
Contoh Penerapan Algoritma C4.5 Sebagai contoh penerapan algortima C4.5 akan digunakan contoh data sebagai berikut. Sebuah perusahaan akan memberikan bonus tahunan kepada seluruh karyawannya. Untuk memberikan bonus ini, departemen kepegawaian perusahaan ini melakukan pembagian karyawan ke dalam tiga buah golongan yaitu, Golongan A, Golongan B, dan Golongan C. Berikut adalah bonus yang diperoleh oleh masing-masing golongan karyawan. Golongan
Bonus Tahunan
A
Rp 10.000.000,00
B
Rp 5.000.000,00
C
Rp 2.500.000,00
Dalam melakukan klasifikasi karyawan ke dalam tiga golongan ini, departemen kepegawaian menggunakan lima buah parameter, yaitu: 1. Tingkat kehadiran karyawan (Tinggi, Sedang, Rendah)
Pembentukan Akar Langkah pertama dalam algortima ini adalah pembentukan akar dengan memilih atribut dengan nilai gain ratio tertinggi. Sebelum melakukan hal tersebut, harus dilakukan perhitungan jumlah objek data sampel dengan golongan (kelas data) A, B, dan C serta dibagi berdasarkan atribut kehadiran, prestasi, lama bekerja, tanggungan, dan pendidikan. Tabel berikut menggambarkan hasil penghitungan jumlah objek data sampel tersebut. Atribut Total
Kehadiran Prestasi Lama Bekerja
Tanggungan
Tinggi Sedang Rendah Tinggi Rendah Lama Baru Banyak Sedikit Menengah
Jumlah Kasus 20 9 6 5 13 7 11 9 4 1 9
A 6 3 0 3 6 0 6 0 2 0 2
Golongan B 7 3 3 1 7 0 2 5 1 0 4
C 7 3 3 1 0 7 3 4 1 1 3
Hasil perhitungan entropi, gain, splitinfo dan gain ratio dapat dilihat pada tabel berikut: Atribut
Entropi
Total
1.581 1.585 1.000 1.371 0.996 0.000 1.435 0.991 1.500 0.000 1.530 1.585 1.406 1.522 0.863
Kehadiran Prestasi Lama Bekerja
Tanggungan
Pendidikan
Tinggi Sedang Rendah Tinggi Rendah Lama Baru Banyak Sedikit Menengah Tidak Ada Tinggi Sedang Rendah
Gain
Split Info
Ratio Gain
0.225
1.539
0.146
0.934
0.934
1
0.346
0.993
0.348
0.117
1.720
0.068
0.336
1.559
0.216
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain ratio
-./01/
724882
3.4516
9:; <
No
Kehadiran
2 4 7 10 14 16 17
Sedang Tinggi Tinggi Sedang Tinggi Rendah Sedang
Tabel*=* 3.13 Data Prestasi Rendah Lama > Prestasi Tanggungan Rendah Rendah Rendah Rendah Rendah Rendah Rendah
Bekerja Baru Baru Lama Lama Baru Lama Baru
Sedikit Banyak Menengah Tidak Ada Tidak Ada Menengah Menengah
Pendidikan
Gol
Sedang Tinggi Rendah Sedang Tinggi Tinggi Rendah
C C C C C C C
Cabang Tinggi masih perlu dilakukan perhitungan lebih lanjut lagi, karena seluruh data sampel belum terkumpul di satu kelas yang sama. Cabang Rendah sudah dapat mengklasifikasikan objek data ke dalam Golongan C, karena seluruh data sampel sudah terkumpul di kelas C. Berikut adalah gambaran decision tree yang sudah terbentuk pada tahapan ini.
"bJOHcPdG FIPQQ[PQIP R R : : K K 9 9 #$ ()* + $ ()* + $ ()* + $ ()* + 8R 8R 8R 8R 8R 8R 8R 8R #l 7 7 R R 7 7 "bJOHcPdG %SPTOTO]IP # $ ()* + $ ()* + $ ()* + 8R 8R 8R 8R 8R 8R # 8;794
Selanjutnya adalah melakukan perhitungan nilai Splitinfo dari seluruh atribut data kecuali atribut prestasi. Berikut perhitungannya:
_SVITOZIP # :;LN7 k 8;7LK # :;8NK WIXI YS]SZaI # :;94K k :;4K8 # :;78M FIPQQ[PQIP # :;:7L k l # l %SPTOTO]IP # :;7:Kk 8;794 # :;RLM
Hasil perhitungan di atas dapat dilihat pada tabel berikut: Atribut
Entropi
Gain
Split Info
Ratio Gain
Total
0.996 1.000 0.000
0.285
1.526
0.186
Kehadiran
Tinggi Sedang
724882
3.4516
:; <
No
1 3 8 11 9:; @ 12 13 19 20 @1-F
Tabel *=* 3.15 Data Prestasi Tinggi dan Lama Bekerja Lama Lama ;1D1 @.?.-E1 Prestasi Kehadiran Tanggungan Pendidikan Tinggi Rendah Rendah Rendah Tinggi Tinggi Rendah Tinggi
Bekerja Tinggi;1D1 Lama Tinggi Lama Tinggi Lama Tinggi Lama *=*=* Tinggi Lama > Tinggi Lama Tinggi Lama Tinggi Lama
Tidak Ada Menengah Tidak Ada Banyak Banyak Banyak Menengah Menengah
Tinggi Rendah Tinggi Sedang Tinggi Rendah Tinggi Sedang
Gol
A B A A A B A A
Data Lama Bekerja = Lama masih perlu dilakukan perhitungan lebih lanjut lagi, karena seluruh data sampel belum terkumpul di satu kelas yang sama. Cabang Lama Bekerja = Baru sudah dapat mengklasifikasikan objek data ke dalam Golongan B, karena seluruh data sampel sudah terkumpul di kelas B. Berikut adalah gambaran pohon keputusan yang sudah terbentuk pada tahapan ini.
Atribut
Entropi
Total
0.811 0.811 0.000 0.811 0.344 0.000 0.344 0.000 0.000 0.000 0.000
Kehadiran
Tanggungan
Pendidikan
Tinggi Sedang Rendah Banyak Sedikit Menengah Tidak Ada Tinggi Sedang Rendah
Gain
Split Info
Ratio Gain
0.000
~
~
0.123
~
~
0.811
1.500
0.541
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain tertinggi adalah Pendidikan, yaitu sebesar 0,541. Oleh karena Pendidikan dijadikan sebagai node keputusan 1.1.1 Ada tiga nilai atribut ini, yaitu Tinggi, Sedang, dan Rendah yang dijadikan sebagai cabang dari node keputusanPendidikan. Tabel 3.17 Data Prestasi Tinggi, Lama Bekerja Lama dan Pendidikan Tinggi No
Kehadiran
Prestasi
Lama
Tanggungan
Pendidikan
Gol
724882
3.4516
:; <
sudah terkumpul *=*di kelas B. Berikut adalah gambaran decision tree yang sudah terbentuk pada ;1D1tahapan @.?.-E1ini. @1-F
;1D1
9:; @
*=*=* ,.45252?14
3.4516
724882 A.5148 9:; C
9:; C
9:; @
Untuk data no 2 diketahui data baru dengan atribut kehadiran bernilai sedang, atribut pretasi bernilai Tinggi, atribut lama bekerja bernilai Baru, atribut tanggungan bernilai Banyak, dan atribut pendidikan bernilai Tinggi. Aturan yang terjadi sesuai dengan data baru tersebut adalah IF (Prestasi = Tinggi) ^ (Lama Bekerja = Baru) THEN (Gol = Gol B)
Dari penelusuran di atas, diketahui bahwa data baru karyawan tersebut diklasifikasi sebagai karyawan dengan Golongan B Pada data no 2 terlihat lebih cepat ditemukan nya hasil dibandingkan dengan data no 1. Bila dibandingkan dengan algoritmaa ID3 sebelumnya, untuk data no 2 juga lebih cepat ditemukan hasil dengan menggunakan algoritma C4.5. Ini merupakan pengaruh dari penggunaan gain ratio pada algoritma C4.5. 3.2.3
CART Salah satu metode klasifikasi pohon keputusan yang cukup popular berikutnya adalah Metode classification and regression trees (CART). Metode ini diciptakan oleh sekelompok ahli statistic antara lain ( L. Breiman, J. Friedman, R. Olshen, and C. Stone) pada tahun 1984.Pohon keputusan yang dihasilkan dengan algoritma CART berbentuk biner, mengandung tepat dua cabang untuk setiap
Calon cabang yang memiliki nilai goodnessofsplit[ !(s/t)] terbesar akan digunakan sebagai node keputusan. Apabila terdapat lebih dari satu calon cabang yang memiliki nilai goodnessofsplit[!(s/t)] terbesar, maka dapat diplih salah satu dari calon cabang tersebut. Data selanjutnya dibagi berdasarkan node keputusan yang yang terpilih, sehingga terdapat 2 cabang dibawah node keputusan. Apabila terdapat salah satu kelompok data yang semua datanya berada pada kelas yang sama, maka kelompok data tersebut akan membentuk leaf node. Namun apabila kelompok data berada pada kelas yang berbeda maka proses akan dilanjutkan dengan mencari nilai goodnessofsplit[ !(s/t)] terbesar dari hasil pengelompokan data. Contoh Penerapan Algortima CART Sebagai contoh untuk menerapkan algoritma CART, digunakan data yang sama yang digunakan pada contoh algoritma C4.5 sebelumnya seperti berikut. Sebuah perusahaan akan memberikan bonus tahunan kepada seluruh karyawannya. Untuk memberikan bonus ini, departemen kepegawaian perusahaan ini melakukan pembagian karyawan ke dalam tiga buah golongan yaitu, Golongan A, Golongan B, dan Golongan C. Berikut adalah bonus yang diperoleh oleh masing-masing golongan karyawan.
No
Kehadiran
Prestasi
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Tinggi Sedang Rendah Tinggi Sedang Tinggi Tinggi Rendah Sedang Sedang Rendah Tinggi Tinggi Tinggi Tinggi Rendah Sedang Sedang Rendah Tinggi
Tinggi Rendah Tinggi Rendah Tinggi Tinggi Rendah Tinggi Tinggi Rendah Tinggi Tinggi Tinggi Rendah Tinggi Rendah Rendah Tinggi Tinggi Tinggi
Lama Bekerja Lama Baru Lama Baru Baru Baru Lama Lama Baru Lama Lama Lama Lama Baru Baru Lama Baru Baru Lama Lama
Tanggungan
Pendidikan
Gol
Tidak Ada Sedikit Menengah Banyak Menengah Menengah Menengah Tidak Ada Tidak Ada Tidak Ada Banyak Banyak Banyak Tidak Ada Tidak Ada Menengah Menengah Menengah Menengah Menengah
Tinggi Sedang Rendah Tinggi Rendah Rendah Rendah Tinggi Tinggi Sedang Sedang Tinggi Rendah Tinggi Sedang Tinggi Rendah Rendah Tinggi Sedang
A C B C B B C A B C A A B C B C C B A A
tL = calon cabang kiri dari node keputusan t tR = calon cabang kanan dari node keputusan t
a[XJIVwIHIHIPbITIwIJGPwIxIPQ]OZOHn
%n #
a[XJIVwIHIHIPbITITIHIJIHOVIP a[XJIVwIHIHIPbITIwIJGPwIxIPQ]OZOHo
%o #
a[XJIVwIHIHIPbITITIHIJIHOVIP
%,ajHJ- #
%,ajHZ- #
aXJ TIHI XI`OPQ $ XI`OPQ ]SJI` wIJGP wIxIPQ ]OZO
%W
aXJ TIHI XI`OPQ $ XI`OPQ ]SJI` wIJGP wIxIPQ ]IPIP
%U fBpA@q 1@rCstu&
y `H #
j% a Hn $ % a Ho j fgv fBpA@q 1@rCstu&
z { |} = #
z { |} Y #
z { |} 3 #
R
# :;LMR
88 9 88 9 88
# :;RK9
# :;RK9
y ` H # j :;RRR $ :;LMR 5 :;RRR $ :;RK9 5 ,:;RRR $ :;RK9-j # :;8L8 m ` H # L %n %o y ` H # L ' :;97 ' :;7 ' :;8L8 # :;:K: Dengan menghitung semua data calon cabang maka didapat hasil seperti tabel berikut.
!" $%&"' $%(%' ) !
$
+
(
)
-
!
*8
" # $% & %'()
- # $% & %'+
) # $% & %'$)
!+ # $% & %'-)
!! # $% & %'))
- # $% & %'+
" # $% $ %&%'
*9
!! # $% &
!( # $% &
!) # $% &
, # $% &
" # $% &
!( # $% &
!" # $% $
*+',&%,%'
%'))
%',
%',)
%'+)
%'()
%',
%& ('
*1734&5
*1734/5
*
+# "
& %'+++
+ # !! &
%'$,+
.
+# "
& %'+++
( # !! &
%'+-(
/
+# "
& %'+++
( # !! &
%'+-(
*
%# -
& %'%%%
- # !( &
%'($"
.
+# -
& %')%%
( # !( &
%'$0-
/
+# -
& %')%%
( # !( &
%'$0-
*
+# )
& %'-%%
+ # !) &
%'$%%
.
!# )
& %'$%%
- # !) &
%'(%%
& %'$%%
/
!# )
- # !) &
%'(%%
*
- # !+ & %'(-$
%# ,
&
%'%%%
.
, # !+ & %')+0
%# ,
&
%'%%%
/
% # !+ & %'%%%
,# ,
&
!'%%%
*
- # !! & %')()
%# "
&
%'%%%
.
$ # !! & %'!0$
)# "
&
%'))-
/
+ # !! & %'$,+
(# "
&
%'(((
*
$# -
& %'+++
( # !( &
%'$0-
.
$# -
& %'+++
) # !( &
%'+),
/
$# -
& %'+++
) # !( &
%'+),
*
% # !
$ %&%%%
- # !" $
%& )"*
.
% # !
$ %&%%%
, # !" $
%& )*+
/
! # !
$ "&%%%
- # !" $
%& )"*
-.*&.*/ 012345 612345
%'(") %'!$!
%'%-%
%'($% %'0),
%'+-%
%'+,) %'0%%
%'+%%
%'()) $'%%%
%'"!%
%'(") !'%"!
%')(%
%'($% %'%")
%'%(%
%'%") !'+-0
%'!+%
!"
!
"
*%
**
*$
" # $% & %'()
( # $% & %'$
. # $% & %',)
) # $% & %'$)
! # $% & %'(
** # $% &
*- # $% &
*, # $% &
*) # $% &
*$ # $% &
%'))
%'!
%'-)
%'.)
%'-
+
$# "
& %'$$$
( # ** &
%',-(
/
(# "
& %'(((
, # ** &
%'$.,
0
,# "
& %',,,
( # ** &
%',-(
+
$# (
& %')%%
( # *- &
%'$)%
/
*# (
& %'$)%
- # *- &
%',.)
0
*# (
& %'$)%
- # *- &
%',.)
+
%# .
& %'%%%
- # *, &
%'(-$
/
)# .
& %'.*(
$ # *, &
%'*)(
0
$# .
& %'$!-
) # *, &
%',!)
+
$# )
& %'(%%
( # *) &
%'$-.
/
*# )
& %'$%%
- # *) &
%'(%%
0
$# )
& %'(%%
) # *) &
%',,,
+
(# !
& %')%%
$ # *$ &
%'*-.
/
*# !
& %'*$)
- # *$ &
%')%%
0
,# !
& %',.)
( # *$ &
%',,,
%'(") %',(,
%'*.%
%',$% %')%%
%'*-%
%'()) *'*$*
%')*%
%',.) %'(%%
%'*)%
%'(!% %'.)%
%',-%
!$
Dapat dilihat dari contoh perhitungan di atas, bahwa yang memiliki nilai goodness of split [! (s/t)] yang terbesar, yaitu no calon cabang 4 dengan nilai 0.910. Oleh karena itu no calon cabang 4 akan digunakan pada root node (simpul node keputusan), yaitu split dengan : Prestasi = Tinggi vs Prestasi = Rendah. Data akan dibagi seperti berikut: Tabel 3.20 Data Prestasi Rendah No
Kehadiran
Prestasi
2 4 7 10 14 16 17
Sedang Tinggi Tinggi Sedang Tinggi Rendah Sedang
Rendah Rendah Rendah Rendah Rendah Rendah Rendah
Lama Bekerja Baru Baru Lama Lama Baru Lama Baru
Tanggungan
Pendidikan
Gol
Sedikit Banyak Menengah Tidak Ada Tidak Ada Menengah Menengah
Sedang Tinggi Rendah Sedang Tinggi Tinggi Rendah
C C C C C C C
Tanggungan
Pendidikan
Gol
Tidak Ada
Tinggi
A
Tabel 3.21 Data Prestasi Tinggi No
Kehadiran
Prestasi
1
Tinggi
Tinggi
Lama Bekerja Lama
+,*-'.-/ 5 ,*1).4
+,*-'.-/ 5 '/122/
B&C&12.1 D E.'. @;F;!;:A;:F;:";:!
(&)* 6*78'8-.1 9 :;<;=;";>;?;::;:@; :<;:=;:>;:?;@A
Node Keputusan A Untuk menentukan percabangan baru dari node keputusan A , langkah selanjutnya yang harus dilakukan adalah menghitung kembali nilai goodness of split [! (s/t)] , hanya saja kali ini perhitungan dilakukan dengan tidak mempedulikan no calon cabang 4 dan data yang dihitung hanya data dengan Prestasi Tinggi$
Tabel 3.22 Data Prestasi Tinggi No
Kehadiran
Prestasi
Lama Bekerja
Tanggungan
Pendidikan
Gol
!" $%&"' $%(%' ) !
,
$
*8
" # !$ % &'("
$ # !$ % &',$
( # !$ % &'$!
*9
) # !$ %
!& # !$ %
- # !$ %
*+',&%,%'
&'*(
&'))
&'"-
*1734&5
*1734/5
+
$# "
% &'*&&
$# )
%
&'(,-
.
$# "
% &'*&&
(# )
%
&'*)!
/
"
% &'&&&
)
%
&'&&&
+
$
% &'&&&
" # !& %
&'"&&
.
$# $
% !'&&&
( # !& %
&'(&&
/
$
% &'&&&
& # !& %
&'&&&
+
$# (
% &')*&
$# -
%
&'$$$
.
!# (
% &',*&
"# -
%
&'"")
/
(
% &'&&&
-
%
&'&&&
+
"# 0
% &')*&
*
%
&'&&&
.
,# 0
% &',*&
*# *
%
!'&&&
/
0
% &'&&&
*
%
&'&&&
+
,# (
% &'*&&
(# -
%
&'(((
.
,# (
% &'*&&
*# -
%
&'**"
/
(
% &'&&&
-
%
&'&&&
+
& # &
$ &'()#"* " # !$ $
"+,-.
.
& # &
$ &'()#"* ) # !$ $
"+/01
/
& # &
$ &'()#"* & # !$ $
"+"""
-.*&.*/ 012345 612345
&'(-) &'!($
&'&)!
&'$** !',&&
&'(,"
&'(," &'0$$
&'$**
&'()$ !'*&&
&')!&
&'(," &'!!!
&'&()
(
*
"
!
0 # !$ % &'",
( # !$ % &'$!
" # !$ $ "
* # !$ %
- # !$ %
!$ # !$ $
&'$0
&'"-
%
&'&&& 11111 11111
!"
!
.
$'
$$
$-
" # $% & '()"
% # $% & '(-%
+ # $% & '(%!
% # $% & '(-%
+ # $% & '(%!
* # $% &
$' # $% &
! # $% &
$' # $% &
! # $% &
'(+)
'(**
'("-
'(**
'("-
,
-# "
& '(%%%
)# *
&
'(+*$
/
)# "
& '(""*
%# *
&
'()-.
0
'# "
& '('''
'# *
&
'('''
,
-# %
& '(""*
) # $' &
'()''
/
$# %
& '(%%%
" # $' &
'("''
0
'# %
& '('''
' # $' &
'('''
,
'# +
& '('''
"# !
&
'(*+'
/
+# +
& $('''
-# !
&
'(-+'
0
'# +
& '('''
'# !
&
'('''
,
-# %
& '(""*
) # $' &
'()''
/
$# %
& '(%%%
" # $' &
'("''
0
'# %
& '('''
' # $' &
'('''
,
)# +
& '(!''
-# !
&
'(-+'
/
$# +
& '(-''
"# !
&
'(*+'
0
'# +
& '('''
'# !
&
'('''
'().* '()*"
'(-%*
'(%++ '(+%%
'($!.
'()*% $(+''
'(*$'
'(%++ '(+%%
'($!.
'()*% $($''
'(+-$
!$
Dapat dilihat dari contoh perhitungan kedua di atas, bahwa yang memiliki nilai goodness of split [! (s/t)] yang terbesar, yaitu no calon cabang 5 dan no calon cabang 10 dengan nilai 0.710. Oleh karena itu dapat dipilih salah satu untukdigunakan pada node keputusan A. Sebagai contoh digunakan no calon cabang 10 yaitu split dengan : Pendidikan = rendah Vs Pendidikan = {sedang, tinggi}. Tabel 3.23 Data Pendidikan Rendah No
Kehadiran
Prestasi
3 5 6 13 18
Rendah Sedang Tinggi Tinggi Sedang
Tinggi Tinggi Tinggi Tinggi Tinggi
Lama Bekerja Lama Baru Baru Lama Baru
Tanggungan
Pendidikan
Gol
Menengah Menengah Menengah Banyak Menengah
Rendah Rendah Rendah Rendah Rendah
B B B B B
Tabel 3.24 Data PendidikanSedang, Tinggi No
Kehadiran
Prestasi
1 8
Tinggi Rendah
Tinggi Tinggi
Lama Bekerja Lama Lama
Tanggungan
Pendidikan
Gol
Tidak Ada Tidak Ada
Tinggi Tinggi
A A
%&&' (& * +,*-'.-/ 0/122/ 3+,*-'.-/ %*1).4
+,*-'.-/ 5 ,*1).4
+,*-'.-/ 5 '/122/
A&B&12.1 C D.'. ?:E:F:$":$E:$=:$F
+*1)/)/@.1 5 ,*1).4
A&B&12.1 G D.'. ;:<:=:$;:$!
(&)* 6*78'8-.1 9 $:;:<:=:!:>:$$:$?: $;:$<:$!:$>:?" +*1)/)/@.1 5 -*).12: '/122/
(&)* 6*78'8-.1 G $:!:>:$$:$?:$<:$>: ?"
!" $%&"' $%(%' ) !
-
*
*8
"# $
!# $
*# $
% &'(
% &'!*
% &'*$
*9
"# $
+# $
(# $
%
%
%
*+',&%,%'
&'(
&'$$
&'/*
*1734&5
*1734/5
)
*# "
% &'+(&
*# "
%
&'+(&
,
!# "
% &'-(&
!# "
%
&'-(&
.
"
% &'&&&
"
%
&'&&&
)
!
% &'&&&
/# +
%
&'$(+
,
!# !
% !'&&&
!# +
%
&'!"*
.
!
% &'&&&
+
%
&'&&&
)
*# *
% !'&&&
*# (
%
&'/&&
,
*
% &'&&&
-# (
%
&'"&&
.
*
% &'&&&
(
%
&'&&&
)
/# /
% !'&&&
-
%
&'&&&
,
/
% &'&&&
-# -
%
!'&&&
.
/
% &'&&&
-
%
&'&&&
)
-# "
% &'(&&
"# "
%
!'&&&
,
-# "
% &'(&&
"
%
&'&&&
.
"
% &'&&&
"
%
&'&&&
)
& # &
$ &'()#"* / # $ $
"+!,"
,
& # &
$ &'()#"* - # $ $
"+-,"
.
& # &
$ &'()#"* & # $ $
"+"""
-.*&.*/ 012345 612345
&'(&& &'&&& &'&&&
&'-!0 !'+!"
&'*+(
&'"/0 &'$&&
&'*+(
&'*+( -'&&&
&'+(&
"
(
/
!
/# $
"# $
"# $
% &'+(
% &'(
$ "
-# $
"# $
$ # $
%
%
$
&'-(
&'(
%
&'(&& !'&&& &'(&&
&'&&& 11111 11111
!"
!
0
"# !
"# !
$ %&"'
$ %&"'
(# !
(# !
$
$
%&)'
%&)'
* .
"# " %# "
$ +&%%% $ %&%%%
,# ( "# (
$ $
%&(() %&---
/ *
%# " "# "
$ %&%%% $ +&%%%
%# ( ,# (
$ $
%&%%% %&(()
. /
%# " %# "
$ %&%%% $ %&%%%
"# ( %# (
$ $
%&--%&%%%
%&-)' %& % &(()
%&"'%
%&-)' %& % &(()
%&"'%
++
-# !
$ %&-!
'# !
$
%&(-
* . /
"# +# %# -
$ %&(() $ %&--$ %&%%%
,# ' +# ' %# '
$ $ $
%&!%% %&"%% %&%%%
%&,(0 %& % &"()
%&+"'
+"
'# !
$ %&(-
-# !
$
%&-!
* .
,# ' +# '
$ %&!%% $ %&"%%
"# +# -
$ $
%&(() %&---
%&,(0 %& % &"()
%&+"'
/
%# '
$ %&%%%
%# -
$
%&%%%
!$
Dapat dilihat dari contoh perhitungan di atas, bahwa yang memiliki nilai goodness of split [! [! (s/t)] yang terbesar, yaitu no calon cabang 5 dengan nilai 0.750. Oleh karena itu no calon cabang 5 akan digunakan pada node keputusan C, yaitu split dengan : Lama Bekerja = Lama vs Lama Bekerja = Baru. Data akan dibagi seperti berikut: Tabel 3.26 Data Prestasi Tinggi, PendidikanSedang dan Tinggi, Lama Bekerja Lama No
Kehadiran
Prestasi
1 8 11 12 19 20
Tinggi Rendah Rendah Tinggi Rendah Tinggi
Tinggi Tinggi Tinggi Tinggi Tinggi Tinggi
Lama Bekerja Lama Lama Lama Lama Lama Lama
Tanggungan
Pendidikan
Gol
Tidak Ada Tidak Ada Banyak Banyak Menengah Menengah
Tinggi Tinggi Sedang Tinggi Tinggi Sedang
A A A A A A
Tabel 3.27 Data Prestasi Tinggi, PendidikanSedang dan Tinggi, Lama Bekerja Baru No
Kehadiran
Prestasi
Lama Bekerja
Tanggungan
Pendidikan
Gol
%&&' (&)* +,*-'.-/ 0/122/ 3+,*-'.-/ %*1).4
+,*-'.-/ 5 ,*1).4
+,*-'.-/ 5 '/122/
F&G&12.1 H I.'. ?;";J;:@;:";:=;:J
+*1)/)/A.1 5 ,*1).4
F&G&12.1 D I.'. <;$;=;:<;:!
B.C. D*A*,E. 5 B.C.
F&G&12.1 9 I.'. :;!;::;:?;:>;?@
(&)* 6*78'8-.1 9 :;<;$;=;!;>;::;:?; :<;:$;:!;:>;?@ +*1)/)/A.1 5 -*).12; '/122/
(&)* 6*78'8-.1 D :;!;>;::;:?;:$;:>; ?@
B.C. D*A*,E. 5 D.,8
F&G&12.1 D I.'. >;:$
Dari penelusuran di atas, diketahui bahwa data baru karyawan tersebut diklasifikasi sebagai karyawan dengan Golongan A Untuk data no 2 diketahui data baru dengan atribut kehadiran bernilai sedang, atribut pretasi bernilai Tinggi, atribut lama bekerja bernilai Baru, atribut tanggungan bernilai Banyak, dan atribut pendidikan bernilai Tinggi. Aturan yang terjadi sesuai dengan data baru tersebut adalah IF (Prestasi = Tinggi) ^ (Pendidikan = Tinggi) ^ (Lama Bekerja = Baru) THEN (Gol = Gol B)
Dari penelusuran di atas, diketahui bahwa data baru karyawan tersebut diklasifikasi sebagai karyawan dengan Golongan B 3.3
Naive Bayes Teori keputusan Bayes merupakan tool yang sangat bagus untuk melakukan klasifikasi pola. Teori ini dapat dijelaskan sebagai berikut. Misalkan diketahui terdapat N kelas pola, yaitu: dan pola C 1 , C 2 ,…, C N , x
=
x1 , x2 , x3 ,!, xd dengan d menyatakan dimensi (ukuran vektor) pola.
Permasalahan dalam pengenalan pola adalah bagaimana menemukan probabilitas pola x untuk masing-masing kelas C 1 , C 2 ,…, C N . Pola x akan dikelompokkan ke
! !
vektor fitur pola fungsi densitas probabilitas bersyarat p x C i untuk setiap kelas C i
(
! probabilitas apriori P (C i )untuk setiap kelas
)
C i
(
Setelah mengetahui ketiga parameter tersebut, probabilitas aposteriori P C i x
)
dapat dihitung sebagai berikut:
P (C i x ) dengan
=
p x C k P (C k ) p( x )
….………….. (3.2)
( ) dihitung dengan rumus berikut:
p x
p( x )
N
=
! p( x C i ) P (C i ) ........................(3.3) i
Pembagi
1
=
( ) pada persamaan di atas akan menghasilkan probabilitas aposteriori
p x
yang ternormalisasi. Pola x diputuskan masuk ke kelas C p bila:
( (
) (
) (
)
(
))
)'*%)'+"",
Langkah 1 : Inisiasi Sejumlah data awal yang telah tergolong pada kelas tertentu. Semakin banyak data maka akan semakin terlihat jelas polanya. Langkah 2 : Membuat ringkasan data. Jadi selanjutnya akan dilakukan peringkasan data, dimana data dikelompokkan ke masing-masing atribut dan dihitung jumlahnya berdasarkan jenis kelasnya Langkah 3 : Menentukan relaive frequencies. Setelah data diringkas, selanjutnya akan ditentukan frekuensi relatifnya untuk menentukan probabilitasnya berdasarkan jumlah masing-masing jenis prediksi pariwisata yang ada. Data direprsentasikan secara independent sebagai berkut : P (x | i) = "k j=1 P (x j|i) Langkah 4 : Pelatihan input data baru dengan menggunakan nilai relative requencies untuk melakukan estimasi terhadap pengklasifikasian kelas. Langkah 5 : Merupakan tahap klasifikasi input baru dengan probabilitas posterior maksimum sebagai berikut : ! " # $%& '()*+ - !. )/ Dengan nilai posterior yang dimaksud adalah sebagai berikut :
memilih
Contoh Soal dan Penyelesaiannya Berikut ini adalah contoh penerapan naive Bayes untuk mengklasifikasijenis wisata yang akan dilakukan oleh turis asing ke Pulau Bali. Dimana jenis prediksi wisata ini terbagi menjadi tiga bagian yaitu : wisata panjang, wisata singkat, dan tidak berwisata.
No
Season
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Panas Panas Gugur Panas Semi Salju Salju Salju Salju Salju Salju Salju Salju Panas Panas Panas Semi Semi Semi Semi
Hari Libur
Libur hari raya Libur Sekolah Tidak Ada Libur Libur hari raya Libur hari raya Libur Sekolah Libur hari raya Tidak Ada Libur Libur hari raya Libur Sekolah Tidak Ada Libur Libur hari raya Tidak Ada Libur Libur hari raya Tidak Ada Libur Tidak Ada Libur Libur Sekolah Tidak Ada Libur Tidak Ada Libur Libur Sekolah
Langkah 1 :Data yang sudah ada sebagai berikut : Nilai Promo Kondisi Wabah Dolar Akomodasi Keamanan Bali Penyakit Rendah Diskon tarif Aman Tidak Ada Tinggi Ada Promo Aman Tidak Ada Rendah Tidak Ada Promo Aman Ada Tinggi Tidak Ada Promo Tidak Aman Tidak Ada Rendah Diskon tarif Aman Tidak Ada Tinggi Ada Promo Aman Tidak Ada Rendah Diskon tarif Aman Tidak Ada Tinggi Tidak Ada Promo Aman Ada Rendah Ada Promo Tidak Aman Tidak Ada Rendah Tidak Ada Promo Aman Tidak Ada Rendah Ada Promo Tidak Aman Tidak Ada Rendah Diskon tarif Aman Tidak Ada Tinggi Tidak Ada Promo Aman Ada Tinggi Diskon tarif Aman Ada Rendah Tidak Ada Promo Tidak Aman Tidak Ada Rendah Diskon tarif Aman Tidak Ada Tinggi Ada Promo Aman Tidak Ada Tinggi Tidak Ada Promo Tidak Aman Tidak Ada Rendah Ada Promo Aman Tidak Ada Rendah Tidak Ada Promo Tidak Aman Ada
Bencana
Tidak Ada Tidak Ada Ada Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Ada Ada Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Ada Tidak Ada
Letak Geografis Dekat Jauh Dekat Jauh Dekat Dekat Jauh Dekat Dekat Jauh Dekat Jauh Jauh Jauh Dekat Jauh Dekat Jauh Jauh Dekat
Prediks Wisata Wisata Panj Wisata Panj Tidak Berwi Tidak Berwi Wisata Sing Wisata Sing Wisata Panj Tidak Berwi Wisata Panj Wisata Sing Wisata Sing Wisata Panj Tidak Berwi Wisata Panj Wisata Panj Wisata Panj Wisata Sing Tidak Berwi Tidak Berwi Tidak Berwi
!"
21 22 23 24 25 26 27 28 29 30
Semi Semi Panas Panas Gugur Gugur Gugur Gugur Gugur Panas
Libur Sekolah Libur Sekolah Libur hari raya Libur Sekolah Libur Sekolah Libur Sekolah Tidak Ada Libur Tidak Ada Libur Libur hari raya Libur hari raya
Rendah Tinggi Rendah Tinggi Tinggi Rendah Rendah Tinggi Rendah Tinggi
Diskon tarif Diskon tarif Ada Promo Diskon tarif Tidak Ada Promo Diskon tarif Diskon tarif Ada Promo Ada Promo Ada Promo
Aman Tidak Aman Aman Aman Aman Aman Aman Aman Aman Aman
Tidak Ada Tidak Ada Ada Tidak Ada Ada Ada Tidak Ada Ada Tidak Ada Tidak Ada
Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada
Jauh Dekat Jauh Dekat Dekat Jauh Dekat Jauh Dekat Dekat
Wisata Sing Tidak Berwi Wisata Panj Wisata Panj Tidak Berwi Wisata Sing Wisata Sing Tidak Berwi Wisata Sing Wisata Sing
Proses kalsifikasi kali ini akan menentukan predikasi wisata dari inputan baru yang direpresentasikan sebagai berikut : Nilai Promo Kondisi Wabah letak Season Hari Libur Bencana Dolar Akomodasi Keamanan Bali Penyakit Geografis Libur hari Tidak x' Salju raya Tinggi Diskon tarif Tidak Aman Ada Ada Jauh
predik Wisat
?
"$
Langkah 2 : Menentukan Data Summary. Jadi selanjutnya akan dilakukan peringkasan data, dimana data dikelompokkan ke masing-masing atribut dan dihitung jumlahnya berdasarkan Prediksi Wisata. Count : Season Wisata Wisata Tidak Panjang Singkat Berwisata Panas 7 1 1 Salju 3 2 2 Semi 0 2 4 Gugur 0 4 3
Wisata Panjang
Libur hari raya Libur Sekolah Tidak Ada Libur
Hari Libur Wisata Singkat 6 2
2
Tidak Berwisata
3 5
1 3
2
6
Ada Tidak Ada
Wabah Penyakit Wisata Wisata Panjang Singkat 2 8
Ada Tidak Ada
Bencana Wisata Singkat 2 8
Wisata Panjang
Jauh Dekat
Letak Geografis Wisata Wisata Panjang Singkat 6 4 Prediksi wisata
Tidak Berwisata
1 9
6 4
Tidak Berwisata
0 10
4 6
Tidak Berwisata
3 7
5 5
Nilai Dolar Wisata Panjang
Wisata Singkat
Tidak Berwisata
Rendah
7/10
7/10
3/10
Tinggi
3/10
3/10
7/10
Promo Akomodasi Wisata Panjang
Wisata Singkat
Tidak Berwisata
Ada Promo
3/10
5/10
2/10
Diskon Tarif Tidak Ada Promo
6/10
4/10
1/10
1/10
1/10
7/10
Kondisi Keamanan Bali Wisata Panjang Wisata Singkat
Tidak Berwisata
Aman
8/10
9/10
6/10
Tidak Aman
2/10
1/10
4/10
Langkah 4 :Kemudian akan ditentukan prediksi untuk input baru sebagai berikut :
x'
Season
Hari Libur
Nilai Dolar
Promo Akomodasi
Kondisi Keamanan Bali
Wabah Penyakit
Bencana
letak Geografis
prediksi Wisata
Salju
Libur hari raya
Tinggi
Diskon tarif
Tidak Aman
Ada
Tidak Ada
Jauh
?
Nilai input diatas akan diklasifikasikan berdasarkan pola data yang telah ada sebelumnya untuk menentukan apakah data tersebut termasuk dalam kelas “Wisata panjang”, “Wisata singkat”, atau “Tidak berwisata”. Berikut ini adalah proses pelatihannya : Untuk memudahkan proses maka nama atribut dan field akan berikan singkatan sebagai berikut : Singkatan
Singkatan
Singkatan
Singkatan
Season
S
Hari Libur
L
Nilai Dolar
D
Promo Akomodas i
PA
Panas
pn
Libur hari raya
lh
Rendah
r
Ada Promo
ap
Salju
sj
Libur Sekolah
ls
Tinggi
t
Diskon Tarif
dt
Gugur
g
Tidak Ada Libur
tl
Tidak Ada Promo
tp
Semi
sm
Kondisi Keamanan
Singkatan K
Wabah penyakit
Singkatan w
Bencana
Singkatan B
letak Geografis
Singkatan Lg
Aman
ka
Ada
wa
Ada
Ba
Jauh
j
Tidak aman
kta
Tidak Ada
wta
Tidak Ada
bta
Dekat
d
Prediksi wisata Wisata panjang wisata singkat Tidak berwisata
Singkatan PW wp ws tw
!"
Estimasi : P(S = sj | PW = wp) P(L = lh | PW = wp) P(D = t | PW = wp) P(PA = dt | PW= wp) P(K = kta | PW= wp) P(W = wa | PW = wp) P(B = bta | PW = wp) P(LG = j | PW= wp)
P(S P(L P(D P(PA P(K P(W P(B P(LG
= sj | PW = ws) = lh | PW = ws) = t | PW = ws) = dt | PW= ws) = kta | PW= ws) = wa | PW = ws) = bta | PW = ws) = j | PW= ws)
= = = = = = = =
3/10 6/10 3/10 6/10 2/10 2/10 8/10 6/10
= = = = = = = =
2/10 3/10 3/10 4/10 1/10 1/10 10/10 3/10
P(K = kta | PW = ws) . P(W = wa | PW = ws) . P(B = bta | PW = ws) . P(LG = j | PW = ws)] !
#$ %$
&
( #$
&
% #$
&
% #$
&
/ #$
&
# #$
&
# #$
&
#$ #$
&
% #$
!
*&*****,+
P(PW = tw | x)
!
P(PW = tw) . [P(S = sj | PW = tw) .P(L = lh | PW = tw) . P(D = t | PW = tw) . P(PA = dt | PW = tw) . P(K = kta | PW = tw) . P(W = wa | PW = tw) . P(B = bta | PW = tw) . P(LG = j | PW = tw)] !
#$ %$
&
( #$
&
# #$
&
0 #$
&
# #$
&
/ #$
&
' #$
&
' #$
&
1 #$
!
*&****--.
P(PW = wp | x) > P(PW = tw | x) > P(PW = ws | x) Sehingga x diklasifikasikan sebagai P(PW = wp | x)
Dari hasil pengklasifikasian yang dilakukan terhadap input baru x’, input baru tersebut ternyata tergolong dalam jenis Wisata Panjang.
Contoh Kasus2 : Berikut ini adalah contoh penerapan naive Bayes untuk mengklasifikasi keberhasilan panen beras di wilayah indonesia. Dimana jenis prediksi keberhasilan panen ini terbagi menjadi dua bagian yaitu :berhasil dan gagal. Langkah 1 : Data yang sudah ada sebagai berikut : No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Bibit Unggul Unggul Unggul Unggul Unggul Standar Standar Standar Standar Standar Kualitas Rendah Kualitas Rendah Kualitas Rendah Kualitas Rendah Kualitas Rendah Kualitas Rendah Unggul Unggul Unggul
Musim Kemarau Hujan Hujan Hujan Kemarau Kemarau Kemarau Hujan Hujan Hujan Kemarau Kemarau Kemarau Hujan Hujan Hujan Kemarau Kemarau Hujan
Pengairan Lancar Lancar Terhambat Lancar Lancar Lancar Terhambat Lancar Terhambat Terhambat Lancar Terhambat Terhambat Lancar Lancar Terhambat Terhambat Terhambat Terhambat
Pupuk Rutin Rutin Rutin Jarang Jarang Jarang Jarang Jarang Rutin Jarang Rutin Rutin Jarang Rutin Jarang Rutin Rutin Rutin Jarang
Hama Burung Serangga Tidak Ada Hama Serangga Burung Tidak Ada Hama Tidak Ada Hama Burung Tidak Ada Hama Serangga Tidak Ada Hama Tidak Ada Hama Burung Tidak Ada Hama Serangga Burung Tidak Ada Hama Serangga Tidak Ada Hama
Kinerja Petani Rajin Malas Rajin Malas Malas Malas Malas Malas Rajin Rajin Rajin Rajin Malas Malas Rajin Rajin Rajin Rajin Rajin
Panen Berhasil Gagal Berhasil Gagal Berhasil Berhasil Gagal Gagal Berhasil Berhasil Berhasil Gagal Gagal Gagal Gagal Berhasil Berhasil Berhasil Berhasil
!"