Bab 3 Klasifikasi

BAB III METODE KLASIFIKASI

3.1

Pengantar Klasifikasi Klasifikasi adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsur (item) data data ke dalam salah satu dari beberapa kelas yang sudah didefinisikan. Sebagai contoh, sebuah bank ingin menganalisis data data pengajuan dana pinjaman apakah peminjam dana tersebut masuk ke dalam kategori beresiko dalam artian dana yang dipinjamkan akan sulit dikembalikan atau dalam kategori aman (gambar 3.28).

Data Uji

adalah flowchart yang berbentuk seperti struktur pohon, pohon, dimana setiap simpul internal (node keputusan) menunjukkan test pada atribut, setiap cabang merupakan keluaran dari test dan setiap simpul daun (simpul terminal) adalah merupakan sebuah class.Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan rule. Secara umum metode membangun pohon keputusan antara lain menentukan atribut sebagai akar, membuat cabang untuk masing-masing nilai, membagi data dalam cabang dan mengulangi proses untuk masing-masing cabang sampai semua data pada cabang memiliki kelas yang sama. Bagian awal dari pohon keputusan ini adalah akar (root)dan setiap cabang dari pohon keputusan merupakan pembagian berdasarkan hasil perhitungan, dan titik akhir (leaf) merupakan pembagian kelas yang dihasilkan. Pohon keputusan mempunyai 3 tipe simpul yaitu: 1. Simpul akar, dimana tidak memiliki cabang yang masuk dan memiliki cabang keluar lebih dari satu, terkadang tidak memiliki cabang sama sekali. Simpul ini biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. 2. Simpul keputusan, dimana hanya memiliki 1 cabang yang masuk, dan memiliki lebih dari 1 cabang yang keluar. 3. Simpul daun, atau simpul akhir dimana hanya memiliki 1 cabang yang masuk, dan tidak memiliki cabang sama sekali dan menandai bahwa simpul

adalah flowchart yang berbentuk seperti struktur pohon, pohon, dimana setiap simpul internal (node keputusan) menunjukkan test pada atribut, setiap cabang merupakan keluaran dari test dan setiap simpul daun (simpul terminal) adalah merupakan sebuah class.Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan rule. Secara umum metode membangun pohon keputusan antara lain menentukan atribut sebagai akar, membuat cabang untuk masing-masing nilai, membagi data dalam cabang dan mengulangi proses untuk masing-masing cabang sampai semua data pada cabang memiliki kelas yang sama. Bagian awal dari pohon keputusan ini adalah akar (root)dan setiap cabang dari pohon keputusan merupakan pembagian berdasarkan hasil perhitungan, dan titik akhir (leaf) merupakan pembagian kelas yang dihasilkan. Pohon keputusan mempunyai 3 tipe simpul yaitu: 1. Simpul akar, dimana tidak memiliki cabang yang masuk dan memiliki cabang keluar lebih dari satu, terkadang tidak memiliki cabang sama sekali. Simpul ini biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. 2. Simpul keputusan, dimana hanya memiliki 1 cabang yang masuk, dan memiliki lebih dari 1 cabang yang keluar. 3. Simpul daun, atau simpul akhir dimana hanya memiliki 1 cabang yang masuk, dan tidak memiliki cabang sama sekali dan menandai bahwa simpul

menghasilkan pohon biner (di mana setiap cabang simpul keputusanmemilik tepat dua simpul daun atau simpul keputusan dibawah nya), sedangkan yang lain dapat menghasilkan pohon non biner. Pohon keputusan dengan mudah dapat dikonversi ke aturan klasifikasi.Pembangunan pengklasifikasi pohon keputusan tidak memerlukan pengetahuan domain atau pengaturan parameter, dan karena itu cocok untuk eksplorasi penemuan pengetahuan.Pohon keputusan dapat menangani data dimensi tinggi.Ketika pohon keputusan dibangun, banyaknya jumlah cabang dapat mencerminkannoise atau outlier dalam data pelatihan.Upaya pemangkasan pohon dilakukan untuk mengidentifikasi dan menghapus cabang dengan tujuan meningkatkan akurasi klasifikasi pada data.Secara umum, pengklasifikasi pohon keputusan memiliki akurasi yang baik.Namun, keberhasilan tergantung pada data yang ada.Algoritma induksi pohon keputusan telah digunakan untuk klasifikasi dalam banyak area aplikasi, seperti kedokteran, manufaktur dan produksi, analisis keuangan, astronomi, dan biologi molekuler.Pohon keputusan merupakan dasar dari beberapa sistem induksi aturan komersial. 3.2.1

ID3 Pada tahun 1970 dan awal 1980, J. Ross Quinlan, seorang peneliti dalam machine learning mengembangkan mengembangkan algoritma decision tree tree yang dikenal sebagai ID3 ( Iterative Iterative Dichotomiser ). ). Algortima ID3 merupakan algortima yang sering

Tujuan dari pengukuran nilai Information Gain adalah untuk memilih atribut yang akan dijadikan cabang pada pembentukan pohon keputusan. Atribut yang memiliki nilai Information Gain yang tertinggi akan dipilih menjadi atribut uji untuk dijadikan cabang pohon. ENTROPY & INFORMATION GAIN Metode dasar ID3 adalah memilih atribut-atribut untuk klasifikasi dengan menggunakan metode statistik dimulai dari tree bagian atas. Cara memilih atribut adalah dengan menggunakan properti statistikal yang disebut dengan Information Gain, yang didefinisikan untuk menentukan ukuran nilai dari suatu atribut. Sebelumnya sebuah objek yang diklasifikasikan dalam pohon harus dites nilai entropinya. Entropy adalah ukuran dari teori informasi yang dapat mengetahui karakteristik dari impurity dan homogenity dari kumpulan data. Dari nilai entropy tersebut kemudian dihitung nilai Information Gain (IG) masing-masing atribut. Nilai entropy didefinisikan sebagai berikut: .

! " # &

$%& ' ()* + ,%& -

Dimana Pi adalah rasio dari class Ci didalam set data sampel S = {x1,x2,... xk}

efektifitas ini disebut Information Gain. Secara matematis, infomation gain dari suatu atribut A,dituliskan sebagai berikut : "> < "6 = # ! " $ !,"> " >2?@ABCD E

Dimana : bobot W_i=|S_v |/|S| merupakan rasio dari data dengan atribut v didalam set sampel A : atribut V : suatu nilai yang mungkin untuk atribut A Values (A) : himpunan yang mungkin untuk atribut A |Sv| : jumlah sampel untuk nilai v |S| : jumlah seluruh sampel data E(Sv) : entropy untuk sampel-sampel yang memilki nilai v Contoh Penerapan Algoritma ID3 Sebagai contoh penerapan algortima ID3 akan digunakan contoh data sebagai berikut. Sebuah perusahaan akan memberikan bonus tahunan kepada seluruh karyawannya. Untuk memberikan bonus ini, departemen kepegawaian perusahaan ini melakukan pembagian karyawan ke dalam tiga buah golongan yaitu, Golongan A, Golongan B, dan Golongan C. Berikut adalah bonus yang diperoleh oleh

Kehadiran

Prestasi

Tinggi Sedang Rendah Tinggi Sedang Tinggi Tinggi Rendah Sedang Sedang Rendah Tinggi Tinggi Tinggi Tinggi Rendah Sedang Sedang Rendah Tinggi

Tinggi Rendah TInggi Rendah Tinggi Tinggi Rendah Tinggi Tinggi Rendah Tinggi Tinggi Tinggi Rendah Tinggi Rendah Rendah Tinggi Tinggi Tinggi

Lama Bekerja Lama Baru Lama Baru Baru Baru Lama Lama Baru Lama Lama Lama Lama Baru Baru Lama Baru Baru Lama Lama

Tanggungan

Pendidikan

Gol

Tidak Ada Sedikit Menengah Banyak Menengah Menengah Menengah Tidak Ada Tidak Ada Tidak Ada Banyak Banyak Banyak Tidak Ada Tidak Ada Menengah Menengah Menengah Menengah Menengah

Tinggi Sedang Rendah Tinggi Rendah Rendah Rendah Tinggi Tinggi Sedang Sedang Tinggi Rendah Tinggi Sedang Tinggi Rendah Rendah Tinggi Sedang

A C B C B B C A B C A A B C B C C B A A

Atribut Total

Kehadiran Prestasi Lama Bekerja

Tanggungan

Pendidikan

Tinggi Sedang Rendah Tinggi Rendah Lama Baru Banyak Sedikit Menengah Tidak Ada Tinggi Sedang Rendah

Entropi 1.581 1.585 1.000 1.371 0.996 0.000 1.435 0.991 1.500 0.000 1.530 1.585 1.406 1.522 0.863

Gain

0.225 0.934 0.346

0.117

0.336

Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain tertinggi adalah Prestasi, yaitu sebesar 0,934. Oleh karena itu atribut Prestasi dijadikan sebagai akar. Ada dua nilai atribut ini, yaitu Tinggi dan Rendah yang dijadikan sebagai cabang dari akar Prestasi. Data dari prestasi tinggi dan rendah dipisah seperti tabel

Tabel 3.2 Data Prestasi Rendah Kehadiran

Prestasi

Lama Bekerja

Tanggungan

Pendidikan

Gol

Sedang Tinggi Tinggi Sedang Tinggi Rendah Sedang

Rendah Rendah Rendah Rendah Rendah Rendah Rendah

Baru Baru Lama Lama Baru Lama Baru

Sedikit Banyak Menengah Tidak Ada Tidak Ada Menengah Menengah

Sedang Tinggi Rendah Sedang Tinggi Tinggi Rendah

C C C C C C C

,-./01/2

3.4516

9:; <

724882

*=*

Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain tertinggi adalah Pendidikan, yaitu sebesar 0,506. Oleh karena itu atribut Pendidikan dijadikan sebagai node keputusan 1.1. Ada tiga nilai atribut ini, yaitu Tinggi, Sedang, dan Rendah yang dijadikan sebagai cabang dari node keputusan Pendidikan. Data dari atribut pendidikan dipisah seperti berikut. Tabel 3.3 Data Prestasi Tinggi dan Pendidikan Tinggi Kehadiran

Prestasi

Tinggi Rendah Sedang Tinggi Rendah

Tinggi Tinggi Tinggi Tinggi Tinggi

Lama Bekerja Lama Lama Baru Lama Lama

Tanggungan

Pendidikan

Gol

Tidak Ada Tidak Ada Tidak Ada Banyak Menengah


A A B A A

Tabel 3.4 Data Prestasi Tinggi dan Pendidikan Sedang Kehadiran

Prestasi

Rendah Tinggi Tinggi

Tinggi Tinggi Tinggi

Lama Bekerja Lama Baru Lama

Tanggungan

Pendidikan

Gol

Banyak Tidak Ada Menengah

Sedang Sedang Sedang

A B A

,-./01/2

724882

3.4516

9:; <

*=* ,.45252?14

724882 3.4516

9:; @

A.5148

*=*=+ >

*=*=* >

Hasil perhitungan di atas dapat dilihat pada tabel berikut: Atribut Total

Kehadiran Lama Bekerja

Tanggungan

Tinggi Sedang Rendah Lama Baru Banyak Sedikit Menengah Tidak Ada

Entropi 0.722 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.918

Gain

0.722 0.722

0.171

Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain tertinggi adalah Kehadiran dan Lama Bekerja, yaitu sebesar 0,722. Oleh karena itu dipilih salah satu dari atribut tesebut. Missal dipilih atribut Kehadiran dijadikan sebagai node keputusan 1.1.1. Ada tiga nilai atribut ini, yaitu Tinggi, Sedang, dan Rendah yang dijadikan sebagai cabang dari node keputusan Kehadiran . Tabel 3.6 Data Prestasi Tinggi, Pendidikan Tinggi dan Kehadiran Tinggi Kehadiran

Prestasi

Lama

Tanggungan

Pendidikan

Gol

,-./01/2

724882

3.4516

9:; <

*=* ,.45252?14 724882 3.4516

9:; @

A.5148

*=*=+ >

*=*=* B.6152-14

3.4516

9:; C

A.5148

9:; @

724882

9:; C

L

:6::: 5

8

:6::: # :648N R R 8 : :6::: 5 :6::: R R # :648N 8 8 5 :6::: 5 :6::: R R

Hasil perhitungan di atas dapat dilihat pada tabel berikut: Atribut Total

Kehadiran Lama Bekerja

Tanggungan

Tinggi Sedang Rendah Lama Baru Banyak Sedikit Menengah Tidak Ada

Entropi 0.918 1.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

Gain

0.252 0.918

0.918

,-./01/2 724882

3.4516

9:; < *=* ,.45252?14

724882

3.4516 A.5148

*=*=+ ;1D1 @.?.-E1

9:; @

;1D1

*=*=* B.6152-14

@1-F 3.4516

A.5148

724882

Untuk data no 2 diketahui data baru dengan atribut kehadiran bernilai sedang, atribut pretasi bernilai Tinggi, atribut lama bekerja bernilai Baru, atribut tanggungan bernilai Banyak, dan atribut pendidikan bernilai Tinggi. Aturan yang terjadi sesuai dengan data baru tersebut adalah IF (Prestasi = Tinggi) ^ (Pendidikan = Tinggi) ^ (Kehadiran = Rendah) THEN (Gol = Gol B)

Dari penelusuran di atas, diketahui bahwa data baru karyawan tersebut diklasifikasi sebagai karyawan dengan Golongan B 3.2.2

C4.5 Metode klasifikasi berikutnya yang cukup popular adalah algoritma C4.5. Algoritma C4.5 merupakan pengembangan dari algoritma ID3. Konsep dasar algoritma C4.5 memiliki kesamaan dengan IDE. Perbedaan utama C4.5 dari ID3 adalah: - C4.5 dapat menangani atribut kontinyu dan diskrit. - C4.5 dapat menangani training data dengan missing value. - Hasil pohon keputusan C4.5 akan dipangkas setelah dibentuk. - Pemilihan atribut yang dilakukan dengan menggunakan Gain ratio.

Contoh Penerapan Algoritma C4.5 Sebagai contoh penerapan algortima C4.5 akan digunakan contoh data sebagai berikut. Sebuah perusahaan akan memberikan bonus tahunan kepada seluruh karyawannya. Untuk memberikan bonus ini, departemen kepegawaian perusahaan ini melakukan pembagian karyawan ke dalam tiga buah golongan yaitu, Golongan A, Golongan B, dan Golongan C. Berikut adalah bonus yang diperoleh oleh masing-masing golongan karyawan. Golongan

Bonus Tahunan

A

Rp 10.000.000,00

B

Rp 5.000.000,00

C

Rp 2.500.000,00

Dalam melakukan klasifikasi karyawan ke dalam tiga golongan ini, departemen kepegawaian menggunakan lima buah parameter, yaitu: 1. Tingkat kehadiran karyawan (Tinggi, Sedang, Rendah)

Pembentukan Akar Langkah pertama dalam algortima ini adalah pembentukan akar dengan memilih atribut dengan nilai gain ratio tertinggi. Sebelum melakukan hal tersebut, harus dilakukan perhitungan jumlah objek data sampel dengan golongan (kelas data) A, B, dan C serta dibagi berdasarkan atribut kehadiran, prestasi, lama bekerja, tanggungan, dan pendidikan. Tabel berikut menggambarkan hasil penghitungan jumlah objek data sampel tersebut. Atribut Total


Tanggungan

Tinggi Sedang Rendah Tinggi Rendah Lama Baru Banyak Sedikit Menengah

Jumlah Kasus 20 9 6 5 13 7 11 9 4 1 9

A 6 3 0 3 6 0 6 0 2 0 2

Golongan B 7 3 3 1 7 0 2 5 1 0 4

C 7 3 3 1 0 7 3 4 1 1 3

Hasil perhitungan entropi, gain, splitinfo dan gain ratio dapat dilihat pada tabel berikut: Atribut

Entropi

Total

1.581 1.585 1.000 1.371 0.996 0.000 1.435 0.991 1.500 0.000 1.530 1.585 1.406 1.522 0.863


Tanggungan

Pendidikan

Tinggi Sedang Rendah Tinggi Rendah Lama Baru Banyak Sedikit Menengah Tidak Ada Tinggi Sedang Rendah

Gain

Split Info

Ratio Gain

0.225

1.539

0.146

0.934

0.934

1

0.346

0.993

0.348

0.117

1.720

0.068

0.336

1.559

0.216

Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain ratio

-./01/

724882

3.4516

9:; <

No

Kehadiran

2 4 7 10 14 16 17


Tabel*=* 3.13 Data Prestasi Rendah Lama > Prestasi Tanggungan Rendah Rendah Rendah Rendah Rendah Rendah Rendah

Bekerja Baru Baru Lama Lama Baru Lama Baru


Pendidikan

Gol


C C C C C C C

Cabang Tinggi masih perlu dilakukan perhitungan lebih lanjut lagi, karena seluruh data sampel belum terkumpul di satu kelas yang sama. Cabang Rendah sudah dapat mengklasifikasikan objek data ke dalam Golongan C, karena seluruh data sampel sudah terkumpul di kelas C. Berikut adalah gambaran decision tree yang sudah terbentuk pada tahapan ini.

"bJOHcPdG FIPQQ[PQIP R R : : K K 9 9 #$ ()* + $ ()* + $ ()* + $ ()* + 8R 8R 8R 8R 8R 8R 8R 8R #l 7 7 R R 7 7 "bJOHcPdG %SPTOTO]IP # $ ()* + $ ()* + $ ()* + 8R 8R 8R 8R 8R 8R # 8;794

Selanjutnya adalah melakukan perhitungan nilai Splitinfo dari seluruh atribut data kecuali atribut prestasi. Berikut perhitungannya:
_SVITOZIP # :;LN7 k 8;7LK # :;8NK WIXI YS]SZaI # :;94K k :;4K8 # :;78M FIPQQ[PQIP # :;:7L k l # l %SPTOTO]IP # :;7:Kk 8;794 # :;RLM

Hasil perhitungan di atas dapat dilihat pada tabel berikut: Atribut

Entropi

Gain

Split Info

Ratio Gain

Total

0.996 1.000 0.000

0.285

1.526

0.186

Kehadiran

Tinggi Sedang

724882

3.4516

:; <

No

1 3 8 11 9:; @ 12 13 19 20 @1-F

Tabel *=* 3.15 Data Prestasi Tinggi dan Lama Bekerja Lama Lama ;1D1 @.?.-E1 Prestasi Kehadiran Tanggungan Pendidikan Tinggi Rendah Rendah Rendah Tinggi Tinggi Rendah Tinggi

Bekerja Tinggi;1D1 Lama Tinggi Lama Tinggi Lama Tinggi Lama *=*=* Tinggi Lama > Tinggi Lama Tinggi Lama Tinggi Lama

Tidak Ada Menengah Tidak Ada Banyak Banyak Banyak Menengah Menengah

Tinggi Rendah Tinggi Sedang Tinggi Rendah Tinggi Sedang

Gol

A B A A A B A A

Data Lama Bekerja = Lama masih perlu dilakukan perhitungan lebih lanjut lagi, karena seluruh data sampel belum terkumpul di satu kelas yang sama. Cabang Lama Bekerja = Baru sudah dapat mengklasifikasikan objek data ke dalam Golongan B, karena seluruh data sampel sudah terkumpul di kelas B. Berikut adalah gambaran pohon keputusan yang sudah terbentuk pada tahapan ini.

Atribut

Entropi

Total

0.811 0.811 0.000 0.811 0.344 0.000 0.344 0.000 0.000 0.000 0.000

Kehadiran

Tanggungan

Pendidikan

Tinggi Sedang Rendah Banyak Sedikit Menengah Tidak Ada Tinggi Sedang Rendah

Gain

Split Info

Ratio Gain

0.000

~

~

0.123

~

~

0.811

1.500

0.541

Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain tertinggi adalah Pendidikan, yaitu sebesar 0,541. Oleh karena Pendidikan dijadikan sebagai node keputusan 1.1.1 Ada tiga nilai atribut ini, yaitu Tinggi, Sedang, dan Rendah yang dijadikan sebagai cabang dari node keputusanPendidikan. Tabel 3.17 Data Prestasi Tinggi, Lama Bekerja Lama dan Pendidikan Tinggi No

Kehadiran

Prestasi

Lama

Tanggungan

Pendidikan

Gol

724882

3.4516

:; <

sudah terkumpul *=*di kelas B. Berikut adalah gambaran decision tree yang sudah terbentuk pada ;1D1tahapan @.?.-E1ini. @1-F

;1D1

9:; @

*=*=* ,.45252?14

3.4516

724882 A.5148 9:; C

9:; C

9:; @

Untuk data no 2 diketahui data baru dengan atribut kehadiran bernilai sedang, atribut pretasi bernilai Tinggi, atribut lama bekerja bernilai Baru, atribut tanggungan bernilai Banyak, dan atribut pendidikan bernilai Tinggi. Aturan yang terjadi sesuai dengan data baru tersebut adalah IF (Prestasi = Tinggi) ^ (Lama Bekerja = Baru) THEN (Gol = Gol B)

Dari penelusuran di atas, diketahui bahwa data baru karyawan tersebut diklasifikasi sebagai karyawan dengan Golongan B Pada data no 2 terlihat lebih cepat ditemukan nya hasil dibandingkan dengan data no 1. Bila dibandingkan dengan algoritmaa ID3 sebelumnya, untuk data no 2 juga lebih cepat ditemukan hasil dengan menggunakan algoritma C4.5. Ini merupakan pengaruh dari penggunaan gain ratio pada algoritma C4.5. 3.2.3

CART Salah satu metode klasifikasi pohon keputusan yang cukup popular berikutnya adalah Metode classification and regression trees (CART). Metode ini diciptakan oleh sekelompok ahli statistic antara lain ( L. Breiman, J. Friedman, R. Olshen, and C. Stone) pada tahun 1984.Pohon keputusan yang dihasilkan dengan algoritma CART berbentuk biner, mengandung tepat dua cabang untuk setiap

Calon cabang yang memiliki nilai goodnessofsplit[ !(s/t)] terbesar akan digunakan sebagai node keputusan. Apabila terdapat lebih dari satu calon cabang yang memiliki nilai goodnessofsplit[!(s/t)] terbesar, maka dapat diplih salah satu dari calon cabang tersebut. Data selanjutnya dibagi berdasarkan node keputusan yang yang terpilih, sehingga terdapat 2 cabang dibawah node keputusan. Apabila terdapat salah satu kelompok data yang semua datanya berada pada kelas yang sama, maka kelompok data tersebut akan membentuk leaf node. Namun apabila kelompok data berada pada kelas yang berbeda maka proses akan dilanjutkan dengan mencari nilai goodnessofsplit[ !(s/t)] terbesar dari hasil pengelompokan data. Contoh Penerapan Algortima CART Sebagai contoh untuk menerapkan algoritma CART, digunakan data yang sama yang digunakan pada contoh algoritma C4.5 sebelumnya seperti berikut. Sebuah perusahaan akan memberikan bonus tahunan kepada seluruh karyawannya. Untuk memberikan bonus ini, departemen kepegawaian perusahaan ini melakukan pembagian karyawan ke dalam tiga buah golongan yaitu, Golongan A, Golongan B, dan Golongan C. Berikut adalah bonus yang diperoleh oleh masing-masing golongan karyawan.

No

Kehadiran

Prestasi

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Tinggi Sedang Rendah Tinggi Sedang Tinggi Tinggi Rendah Sedang Sedang Rendah Tinggi Tinggi Tinggi Tinggi Rendah Sedang Sedang Rendah Tinggi

Tinggi Rendah Tinggi Rendah Tinggi Tinggi Rendah Tinggi Tinggi Rendah Tinggi Tinggi Tinggi Rendah Tinggi Rendah Rendah Tinggi Tinggi Tinggi

Lama Bekerja Lama Baru Lama Baru Baru Baru Lama Lama Baru Lama Lama Lama Lama Baru Baru Lama Baru Baru Lama Lama

Tanggungan

Pendidikan

Gol

Tidak Ada Sedikit Menengah Banyak Menengah Menengah Menengah Tidak Ada Tidak Ada Tidak Ada Banyak Banyak Banyak Tidak Ada Tidak Ada Menengah Menengah Menengah Menengah Menengah

Tinggi Sedang Rendah Tinggi Rendah Rendah Rendah Tinggi Tinggi Sedang Sedang Tinggi Rendah Tinggi Sedang Tinggi Rendah Rendah Tinggi Sedang

A C B C B B C A B C A A B C B C C B A A

tL = calon cabang kiri dari node keputusan t tR = calon cabang kanan dari node keputusan t

a[XJIVwIHIHIPbITIwIJGPwIxIPQ]OZOHn

%n #

a[XJIVwIHIHIPbITITIHIJIHOVIP a[XJIVwIHIHIPbITIwIJGPwIxIPQ]OZOHo

%o #

a[XJIVwIHIHIPbITITIHIJIHOVIP

%,ajHJ- #

%,ajHZ- #

aXJ TIHI XIÒPQ $ XIÒPQ ]SJI` wIJGP wIxIPQ ]OZO

%W

aXJ TIHI XIÒPQ $ XIÒPQ ]SJI` wIJGP wIxIPQ ]IPIP

%U fBpA@q 1@rCstu&

y `H #

j% a Hn $ % a Ho j fgv fBpA@q 1@rCstu&

z { |} = #

z { |} Y #

z { |} 3 #

R

# :;LMR

88 9 88 9 88

# :;RK9

# :;RK9

y ` H # j :;RRR $ :;LMR 5 :;RRR $ :;RK9 5 ,:;RRR $ :;RK9-j # :;8L8 m ` H # L %n %o y ` H # L ' :;97 ' :;7 ' :;8L8 # :;:K: Dengan menghitung semua data calon cabang maka didapat hasil seperti tabel berikut.

!" $%&"' $%(%' ) !

$

+

(

)

-

!

*8

" # $% & %'()

- # $% & %'+

) # $% & %'$)

!+ # $% & %'-)

!! # $% & %'))

- # $% & %'+

" # $% $ %&%'

*9

!! # $% &

!( # $% &

!) # $% &

, # $% &

" # $% &

!( # $% &

!" # $% $

*+',&%,%'

%'))

%',

%',)

%'+)

%'()

%',

%& ('

*1734&5

*1734/5

*

+# "

& %'+++

+ # !! &

%'$,+

.

+# "

& %'+++

( # !! &

%'+-(

/

+# "

& %'+++

( # !! &

%'+-(

*

%# -

& %'%%%

- # !( &

%'($"

.

+# -

& %')%%

( # !( &

%'$0-

/

+# -

& %')%%

( # !( &

%'$0-

*

+# )

& %'-%%

+ # !) &

%'$%%

.

!# )

& %'$%%

- # !) &

%'(%%

& %'$%%

/

!# )

- # !) &

%'(%%

*

- # !+ & %'(-$

%# ,

&

%'%%%

.

, # !+ & %')+0

%# ,

&

%'%%%

/

% # !+ & %'%%%

,# ,

&

!'%%%

*

- # !! & %')()

%# "

&

%'%%%

.

$ # !! & %'!0$

)# "

&

%'))-

/

+ # !! & %'$,+

(# "

&

%'(((

*

$# -

& %'+++

( # !( &

%'$0-

.

$# -

& %'+++

) # !( &

%'+),

/

$# -

& %'+++

) # !( &

%'+),

*

% # !

$ %&%%%

- # !" $

%& )"*

.

% # !

$ %&%%%

, # !" $

%& )*+

/

! # !

$ "&%%%

- # !" $

%& )"*

-.*&.*/ 012345 612345

%'(") %'!$!

%'%-%

%'($% %'0),

%'+-%

%'+,) %'0%%

%'+%%

%'()) $'%%%

%'"!%

%'(") !'%"!

%')(%

%'($% %'%")

%'%(%

%'%") !'+-0

%'!+%

!"

!

"

*%

**

*$

" # $% & %'()

( # $% & %'$

. # $% & %',)

) # $% & %'$)

! # $% & %'(

** # $% &

*- # $% &

*, # $% &

*) # $% &

*$ # $% &

%'))

%'!

%'-)

%'.)

%'-

+

$# "

& %'$$$

( # ** &

%',-(

/

(# "

& %'(((

, # ** &

%'$.,

0

,# "

& %',,,

( # ** &

%',-(

+

$# (

& %')%%

( # *- &

%'$)%

/

*# (

& %'$)%

- # *- &

%',.)

0

*# (

& %'$)%

- # *- &

%',.)

+

%# .

& %'%%%

- # *, &

%'(-$

/

)# .

& %'.*(

$ # *, &

%'*)(

0

$# .

& %'$!-

) # *, &

%',!)

+

$# )

& %'(%%

( # *) &

%'$-.

/

*# )

& %'$%%

- # *) &

%'(%%

0

$# )

& %'(%%

) # *) &

%',,,

+

(# !

& %')%%

$ # *$ &

%'*-.

/

*# !

& %'*$)

- # *$ &

%')%%

0

,# !

& %',.)

( # *$ &

%',,,

%'(") %',(,

%'*.%

%',$% %')%%

%'*-%

%'()) *'*$*

%')*%

%',.) %'(%%

%'*)%

%'(!% %'.)%

%',-%

!$

Dapat dilihat dari contoh perhitungan di atas, bahwa yang memiliki nilai goodness of split [! (s/t)] yang terbesar, yaitu no calon cabang 4 dengan nilai 0.910. Oleh karena itu no calon cabang 4 akan digunakan pada root node (simpul node keputusan), yaitu split dengan : Prestasi = Tinggi vs Prestasi = Rendah. Data akan dibagi seperti berikut: Tabel 3.20 Data Prestasi Rendah No

Kehadiran

Prestasi

2 4 7 10 14 16 17


Rendah Rendah Rendah Rendah Rendah Rendah Rendah

Lama Bekerja Baru Baru Lama Lama Baru Lama Baru

Tanggungan

Pendidikan

Gol



C C C C C C C

Tanggungan

Pendidikan

Gol

Tidak Ada

Tinggi

A

Tabel 3.21 Data Prestasi Tinggi No

Kehadiran

Prestasi

1

Tinggi

Tinggi

Lama Bekerja Lama

+,*-'.-/ 5 ,*1).4

+,*-'.-/ 5 '/122/

B&C&12.1 D E.'. @;F;!;:A;:F;:";:!

(&)* 6*78'8-.1 9 :;<;=;";>;?;::;:@; :<;:=;:>;:?;@A

Node Keputusan A Untuk menentukan percabangan baru dari node keputusan A , langkah selanjutnya yang harus dilakukan adalah menghitung kembali nilai goodness of split [! (s/t)] , hanya saja kali ini perhitungan dilakukan dengan tidak mempedulikan no calon cabang 4 dan data yang dihitung hanya data dengan Prestasi Tinggi$

Tabel 3.22 Data Prestasi Tinggi No

Kehadiran

Prestasi

Lama Bekerja

Tanggungan

Pendidikan

Gol

!" $%&"' $%(%' ) !

,

$

*8

" # !$ % &'("

$ # !$ % &',$

( # !$ % &'$!

*9

) # !$ %

!& # !$ %

- # !$ %

*+',&%,%'

&'*(

&'))

&'"-

*1734&5

*1734/5

+

$# "

% &'*&&

$# )

%

&'(,-

.

$# "

% &'*&&

(# )

%

&'*)!

/

&# "

% &'&&&

&# )

%

&'&&&

+

&# $

% &'&&&

" # !& %

&'"&&

.

$# $

% !'&&&

( # !& %

&'(&&

/

&# $

% &'&&&

& # !& %

&'&&&

+

$# (

% &')*&

$# -

%

&'$$$

.

!# (

% &',*&

"# -

%

&'"")

/

&# (

% &'&&&

&# -

%

&'&&&

+

"# 0

% &')*&

&# *

%

&'&&&

.

,# 0

% &',*&

*# *

%

!'&&&

/

&# 0

% &'&&&

&# *

%

&'&&&

+

,# (

% &'*&&

(# -

%

&'(((

.

,# (

% &'*&&

*# -

%

&'**"

/

&# (

% &'&&&

&# -

%

&'&&&

+

& # &

$ &'()#"* " # !$ $

"+,-.

.

& # &

$ &'()#"* ) # !$ $

"+/01

/

& # &

$ &'()#"* & # !$ $

"+"""

-.*&.*/ 012345 612345

&'(-) &'!($

&'&)!

&'$** !',&&

&'(,"

&'(," &'0$$

&'$**

&'()$ !'*&&

&')!&

&'(," &'!!!

&'&()

(

*

"

!

0 # !$ % &'",

( # !$ % &'$!

" # !$ $ "

* # !$ %

- # !$ %

!$ # !$ $

&'$0

&'"-

%

&'&&& 11111 11111

!"

!

.

$'

$$

$-

" # $% & '()"

% # $% & '(-%

+ # $% & '(%!

% # $% & '(-%

+ # $% & '(%!

* # $% &

$' # $% &

! # $% &

$' # $% &

! # $% &

'(+)

'(**

'("-

'(**

'("-

,

-# "

& '(%%%

)# *

&

'(+*$

/

)# "

& '(""*

%# *

&

'()-.

0

'# "

& '('''

'# *

&

'('''

,

-# %

& '(""*

) # $' &

'()''

/

$# %

& '(%%%

" # $' &

'("''

0

'# %

& '('''

' # $' &

'('''

,

'# +

& '('''

"# !

&

'(*+'

/

+# +

& $('''

-# !

&

'(-+'

0

'# +

& '('''

'# !

&

'('''

,

-# %

& '(""*

) # $' &

'()''

/

$# %

& '(%%%

" # $' &

'("''

0

'# %

& '('''

' # $' &

'('''

,

)# +

& '(!''

-# !

&

'(-+'

/

$# +

& '(-''

"# !

&

'(*+'

0

'# +

& '('''

'# !

&

'('''

'().* '()*"

'(-%*

'(%++ '(+%%

'($!.

'()*% $(+''

'(*$'

'(%++ '(+%%

'($!.

'()*% $($''

'(+-$

!$

Dapat dilihat dari contoh perhitungan kedua di atas, bahwa yang memiliki nilai goodness of split [! (s/t)] yang terbesar, yaitu no calon cabang 5 dan no calon cabang 10 dengan nilai 0.710. Oleh karena itu dapat dipilih salah satu untukdigunakan pada node keputusan A. Sebagai contoh digunakan no calon cabang 10 yaitu split dengan : Pendidikan = rendah Vs Pendidikan = {sedang, tinggi}. Tabel 3.23 Data Pendidikan Rendah No

Kehadiran

Prestasi

3 5 6 13 18

Rendah Sedang Tinggi Tinggi Sedang


Lama Bekerja Lama Baru Baru Lama Baru

Tanggungan

Pendidikan

Gol

Menengah Menengah Menengah Banyak Menengah

Rendah Rendah Rendah Rendah Rendah

B B B B B

Tabel 3.24 Data PendidikanSedang, Tinggi No

Kehadiran

Prestasi

1 8

Tinggi Rendah

Tinggi Tinggi

Lama Bekerja Lama Lama

Tanggungan

Pendidikan

Gol

Tidak Ada Tidak Ada

Tinggi Tinggi

A A

%&&' (& * +,*-'.-/ 0/122/ 3+,*-'.-/ %*1).4

+,*-'.-/ 5 ,*1).4

+,*-'.-/ 5 '/122/

A&B&12.1 C D.'. ?:E:F:$":$E:$=:$F

+*1)/)/@.1 5 ,*1).4

A&B&12.1 G D.'. ;:<:=:$;:$!

(&)* 6*78'8-.1 9 $:;:<:=:!:>:$$:$?: $;:$<:$!:$>:?" +*1)/)/@.1 5 -*).12: '/122/

(&)* 6*78'8-.1 G $:!:>:$$:$?:$<:$>: ?"

!" $%&"' $%(%' ) !

-

*

*8

"# $

!# $

*# $

% &'(

% &'!*

% &'*$

*9

"# $

+# $

(# $

%

%

%

*+',&%,%'

&'(

&'$$

&'/*

*1734&5

*1734/5

)

*# "

% &'+(&

*# "

%

&'+(&

,

!# "

% &'-(&

!# "

%

&'-(&

.

&# "

% &'&&&

&# "

%

&'&&&

)

&# !

% &'&&&

/# +

%

&'$(+

,

!# !

% !'&&&

!# +

%

&'!"*

.

&# !

% &'&&&

&# +

%

&'&&&

)

*# *

% !'&&&

*# (

%

&'/&&

,

&# *

% &'&&&

-# (

%

&'"&&

.

&# *

% &'&&&

&# (

%

&'&&&

)

/# /

% !'&&&

&# -

%

&'&&&

,

&# /

% &'&&&

-# -

%

!'&&&

.

&# /

% &'&&&

&# -

%

&'&&&

)

-# "

% &'(&&

"# "

%

!'&&&

,

-# "

% &'(&&

&# "

%

&'&&&

.

&# "

% &'&&&

&# "

%

&'&&&

)

& # &

$ &'()#"* / # $ $

"+!,"

,

& # &

$ &'()#"* - # $ $

"+-,"

.

& # &

$ &'()#"* & # $ $

"+"""

-.*&.*/ 012345 612345

&'(&& &'&&& &'&&&

&'-!0 !'+!"

&'*+(

&'"/0 &'$&&

&'*+(

&'*+( -'&&&

&'+(&

"

(

/

!

/# $

"# $

"# $

% &'+(

% &'(

$ "

-# $

"# $

$ # $

%

%

$

&'-(

&'(

%

&'(&& !'&&& &'(&&

&'&&& 11111 11111

!"

!

0

"# !

"# !

$ %&"'

$ %&"'

(# !

(# !

$

$

%&)'

%&)'

* .

"# " %# "

$ +&%%% $ %&%%%

,# ( "# (

$ $

%&(() %&---

/ *

%# " "# "

$ %&%%% $ +&%%%

%# ( ,# (

$ $

%&%%% %&(()

. /

%# " %# "

$ %&%%% $ %&%%%

"# ( %# (

$ $

%&--%&%%%

%&-)' %& % &(()

%&"'%

%&-)' %& % &(()

%&"'%

++

-# !

$ %&-!

'# !

$

%&(-

* . /

"# +# %# -

$ %&(() $ %&--$ %&%%%

,# ' +# ' %# '

$ $ $

%&!%% %&"%% %&%%%

%&,(0 %& % &"()

%&+"'

+"

'# !

$ %&(-

-# !

$

%&-!

* .

,# ' +# '

$ %&!%% $ %&"%%

"# +# -

$ $

%&(() %&---

%&,(0 %& % &"()

%&+"'

/

%# '

$ %&%%%

%# -

$

%&%%%

!$

Dapat dilihat dari contoh perhitungan di atas, bahwa yang memiliki nilai goodness of split [! [! (s/t)] yang terbesar, yaitu no calon cabang 5 dengan nilai 0.750. Oleh karena itu no calon cabang 5 akan digunakan pada node keputusan C, yaitu split dengan : Lama Bekerja = Lama vs Lama Bekerja = Baru. Data akan dibagi seperti berikut: Tabel 3.26 Data Prestasi Tinggi, PendidikanSedang dan Tinggi, Lama Bekerja Lama No

Kehadiran

Prestasi

1 8 11 12 19 20

Tinggi Rendah Rendah Tinggi Rendah Tinggi

Tinggi Tinggi Tinggi Tinggi Tinggi Tinggi

Lama Bekerja Lama Lama Lama Lama Lama Lama

Tanggungan

Pendidikan

Gol

Tidak Ada Tidak Ada Banyak Banyak Menengah Menengah

Tinggi Tinggi Sedang Tinggi Tinggi Sedang

A A A A A A

Tabel 3.27 Data Prestasi Tinggi, PendidikanSedang dan Tinggi, Lama Bekerja Baru No

Kehadiran

Prestasi

Lama Bekerja

Tanggungan

Pendidikan

Gol

%&&' (&)* +,*-'.-/ 0/122/ 3+,*-'.-/ %*1).4

+,*-'.-/ 5 ,*1).4

+,*-'.-/ 5 '/122/

F&G&12.1 H I.'. ?;";J;:@;:";:=;:J

+*1)/)/A.1 5 ,*1).4

F&G&12.1 D I.'. <;$;=;:<;:!

B.C. D*A*,E. 5 B.C.

F&G&12.1 9 I.'. :;!;::;:?;:>;?@

(&)* 6*78'8-.1 9 :;<;$;=;!;>;::;:?; :<;:$;:!;:>;?@ +*1)/)/A.1 5 -*).12; '/122/

(&)* 6*78'8-.1 D :;!;>;::;:?;:$;:>; ?@

B.C. D*A*,E. 5 D.,8

F&G&12.1 D I.'. >;:$

Dari penelusuran di atas, diketahui bahwa data baru karyawan tersebut diklasifikasi sebagai karyawan dengan Golongan A Untuk data no 2 diketahui data baru dengan atribut kehadiran bernilai sedang, atribut pretasi bernilai Tinggi, atribut lama bekerja bernilai Baru, atribut tanggungan bernilai Banyak, dan atribut pendidikan bernilai Tinggi. Aturan yang terjadi sesuai dengan data baru tersebut adalah IF (Prestasi = Tinggi) ^ (Pendidikan = Tinggi) ^ (Lama Bekerja = Baru) THEN (Gol = Gol B)

Dari penelusuran di atas, diketahui bahwa data baru karyawan tersebut diklasifikasi sebagai karyawan dengan Golongan B 3.3

Naive Bayes Teori keputusan Bayes merupakan tool yang sangat bagus untuk melakukan klasifikasi pola. Teori ini dapat dijelaskan sebagai berikut. Misalkan diketahui terdapat N kelas pola, yaitu: dan pola C 1 , C 2 ,…, C N , x

=

x1 , x2 , x3 ,!, xd dengan d menyatakan dimensi (ukuran vektor) pola.

Permasalahan dalam pengenalan pola adalah bagaimana menemukan probabilitas pola x untuk masing-masing kelas C 1 , C 2 ,…, C N . Pola x akan dikelompokkan ke

! !

vektor fitur pola fungsi densitas probabilitas bersyarat p x C i untuk setiap kelas C i

(

! probabilitas apriori P (C i )untuk setiap kelas

)

C i

(

Setelah mengetahui ketiga parameter tersebut, probabilitas aposteriori P C i x

)

dapat dihitung sebagai berikut:

P (C i x ) dengan

=

p x C k P (C k ) p( x )

….………….. (3.2)

( ) dihitung dengan rumus berikut:

p x

p( x )

N

=

! p( x C i ) P (C i ) ........................(3.3) i

Pembagi

1

=

( ) pada persamaan di atas akan menghasilkan probabilitas aposteriori

p x

yang ternormalisasi. Pola x diputuskan masuk ke kelas C p bila:

( (

) (

) (

)

(

))

)'*%)'+"",

Langkah 1 : Inisiasi Sejumlah data awal yang telah tergolong pada kelas tertentu. Semakin banyak data maka akan semakin terlihat jelas polanya. Langkah 2 : Membuat ringkasan data. Jadi selanjutnya akan dilakukan peringkasan data, dimana data dikelompokkan ke masing-masing atribut dan dihitung jumlahnya berdasarkan jenis kelasnya Langkah 3 : Menentukan relaive frequencies. Setelah data diringkas, selanjutnya akan ditentukan frekuensi relatifnya untuk menentukan probabilitasnya berdasarkan jumlah masing-masing jenis prediksi pariwisata yang ada. Data direprsentasikan secara independent sebagai berkut : P (x | i) = "k j=1 P (x j|i) Langkah 4 : Pelatihan input data baru dengan menggunakan nilai relative requencies untuk melakukan estimasi terhadap pengklasifikasian kelas. Langkah 5 : Merupakan tahap klasifikasi input baru dengan probabilitas posterior maksimum sebagai berikut : ! " # $%& '()*+ - !. )/ Dengan nilai posterior yang dimaksud adalah sebagai berikut :

memilih

Contoh Soal dan Penyelesaiannya Berikut ini adalah contoh penerapan naive Bayes untuk mengklasifikasijenis wisata yang akan dilakukan oleh turis asing ke Pulau Bali. Dimana jenis prediksi wisata ini terbagi menjadi tiga bagian yaitu : wisata panjang, wisata singkat, dan tidak berwisata.

No

Season

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Panas Panas Gugur Panas Semi Salju Salju Salju Salju Salju Salju Salju Salju Panas Panas Panas Semi Semi Semi Semi

Hari Libur

Libur hari raya Libur Sekolah Tidak Ada Libur Libur hari raya Libur hari raya Libur Sekolah Libur hari raya Tidak Ada Libur Libur hari raya Libur Sekolah Tidak Ada Libur Libur hari raya Tidak Ada Libur Libur hari raya Tidak Ada Libur Tidak Ada Libur Libur Sekolah Tidak Ada Libur Tidak Ada Libur Libur Sekolah

Langkah 1 :Data yang sudah ada sebagai berikut : Nilai Promo Kondisi Wabah Dolar Akomodasi Keamanan Bali Penyakit Rendah Diskon tarif Aman Tidak Ada Tinggi Ada Promo Aman Tidak Ada Rendah Tidak Ada Promo Aman Ada Tinggi Tidak Ada Promo Tidak Aman Tidak Ada Rendah Diskon tarif Aman Tidak Ada Tinggi Ada Promo Aman Tidak Ada Rendah Diskon tarif Aman Tidak Ada Tinggi Tidak Ada Promo Aman Ada Rendah Ada Promo Tidak Aman Tidak Ada Rendah Tidak Ada Promo Aman Tidak Ada Rendah Ada Promo Tidak Aman Tidak Ada Rendah Diskon tarif Aman Tidak Ada Tinggi Tidak Ada Promo Aman Ada Tinggi Diskon tarif Aman Ada Rendah Tidak Ada Promo Tidak Aman Tidak Ada Rendah Diskon tarif Aman Tidak Ada Tinggi Ada Promo Aman Tidak Ada Tinggi Tidak Ada Promo Tidak Aman Tidak Ada Rendah Ada Promo Aman Tidak Ada Rendah Tidak Ada Promo Tidak Aman Ada

Bencana

Tidak Ada Tidak Ada Ada Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Ada Ada Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Ada Tidak Ada

Letak Geografis Dekat Jauh Dekat Jauh Dekat Dekat Jauh Dekat Dekat Jauh Dekat Jauh Jauh Jauh Dekat Jauh Dekat Jauh Jauh Dekat

Prediks Wisata Wisata Panj Wisata Panj Tidak Berwi Tidak Berwi Wisata Sing Wisata Sing Wisata Panj Tidak Berwi Wisata Panj Wisata Sing Wisata Sing Wisata Panj Tidak Berwi Wisata Panj Wisata Panj Wisata Panj Wisata Sing Tidak Berwi Tidak Berwi Tidak Berwi

!"

21 22 23 24 25 26 27 28 29 30

Semi Semi Panas Panas Gugur Gugur Gugur Gugur Gugur Panas

Libur Sekolah Libur Sekolah Libur hari raya Libur Sekolah Libur Sekolah Libur Sekolah Tidak Ada Libur Tidak Ada Libur Libur hari raya Libur hari raya

Rendah Tinggi Rendah Tinggi Tinggi Rendah Rendah Tinggi Rendah Tinggi

Diskon tarif Diskon tarif Ada Promo Diskon tarif Tidak Ada Promo Diskon tarif Diskon tarif Ada Promo Ada Promo Ada Promo

Aman Tidak Aman Aman Aman Aman Aman Aman Aman Aman Aman

Tidak Ada Tidak Ada Ada Tidak Ada Ada Ada Tidak Ada Ada Tidak Ada Tidak Ada

Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada Tidak Ada

Jauh Dekat Jauh Dekat Dekat Jauh Dekat Jauh Dekat Dekat

Wisata Sing Tidak Berwi Wisata Panj Wisata Panj Tidak Berwi Wisata Sing Wisata Sing Tidak Berwi Wisata Sing Wisata Sing

Proses kalsifikasi kali ini akan menentukan predikasi wisata dari inputan baru yang direpresentasikan sebagai berikut : Nilai Promo Kondisi Wabah letak Season Hari Libur Bencana Dolar Akomodasi Keamanan Bali Penyakit Geografis Libur hari Tidak x' Salju raya Tinggi Diskon tarif Tidak Aman Ada Ada Jauh

predik Wisat

?

"$

Langkah 2 : Menentukan Data Summary. Jadi selanjutnya akan dilakukan peringkasan data, dimana data dikelompokkan ke masing-masing atribut dan dihitung jumlahnya berdasarkan Prediksi Wisata. Count : Season Wisata Wisata Tidak Panjang Singkat Berwisata Panas 7 1 1 Salju 3 2 2 Semi 0 2 4 Gugur 0 4 3

Wisata Panjang

Libur hari raya Libur Sekolah Tidak Ada Libur

Hari Libur Wisata Singkat 6 2

2

Tidak Berwisata

3 5

1 3

2

6

Ada Tidak Ada

Wabah Penyakit Wisata Wisata Panjang Singkat 2 8

Ada Tidak Ada

Bencana Wisata Singkat 2 8

Wisata Panjang

Jauh Dekat

Letak Geografis Wisata Wisata Panjang Singkat 6 4 Prediksi wisata

Tidak Berwisata

1 9

6 4

Tidak Berwisata

0 10

4 6

Tidak Berwisata

3 7

5 5

Nilai Dolar Wisata Panjang

Wisata Singkat

Tidak Berwisata

Rendah

7/10

7/10

3/10

Tinggi

3/10

3/10

7/10

Promo Akomodasi Wisata Panjang

Wisata Singkat

Tidak Berwisata

Ada Promo

3/10

5/10

2/10

Diskon Tarif Tidak Ada Promo

6/10

4/10

1/10

1/10

1/10

7/10

Kondisi Keamanan Bali Wisata Panjang Wisata Singkat

Tidak Berwisata

Aman

8/10

9/10

6/10

Tidak Aman

2/10

1/10

4/10

Langkah 4 :Kemudian akan ditentukan prediksi untuk input baru sebagai berikut :

x'

Season

Hari Libur

Nilai Dolar

Promo Akomodasi

Kondisi Keamanan Bali

Wabah Penyakit

Bencana

letak Geografis

prediksi Wisata

Salju

Libur hari raya

Tinggi

Diskon tarif

Tidak Aman

Ada

Tidak Ada

Jauh

?

Nilai input diatas akan diklasifikasikan berdasarkan pola data yang telah ada sebelumnya untuk menentukan apakah data tersebut termasuk dalam kelas “Wisata panjang”, “Wisata singkat”, atau “Tidak berwisata”. Berikut ini adalah proses pelatihannya : Untuk memudahkan proses maka nama atribut dan field akan berikan singkatan sebagai berikut : Singkatan

Singkatan

Singkatan

Singkatan

Season

S

Hari Libur

L

Nilai Dolar

D

Promo Akomodas i

PA

Panas

pn

Libur hari raya

lh

Rendah

r

Ada Promo

ap

Salju

sj

Libur Sekolah

ls

Tinggi

t

Diskon Tarif

dt

Gugur

g

Tidak Ada Libur

tl

Tidak Ada Promo

tp

Semi

sm

Kondisi Keamanan

Singkatan K

Wabah penyakit

Singkatan w

Bencana

Singkatan B

letak Geografis

Singkatan Lg

Aman

ka

Ada

wa

Ada

Ba

Jauh

j

Tidak aman

kta

Tidak Ada

wta

Tidak Ada

bta

Dekat

d

Prediksi wisata Wisata panjang wisata singkat Tidak berwisata

Singkatan PW wp ws tw

!"

Estimasi : P(S = sj | PW = wp) P(L = lh | PW = wp) P(D = t | PW = wp) P(PA = dt | PW= wp) P(K = kta | PW= wp) P(W = wa | PW = wp) P(B = bta | PW = wp) P(LG = j | PW= wp)

P(S P(L P(D P(PA P(K P(W P(B P(LG

= sj | PW = ws) = lh | PW = ws) = t | PW = ws) = dt | PW= ws) = kta | PW= ws) = wa | PW = ws) = bta | PW = ws) = j | PW= ws)

= = = = = = = =

3/10 6/10 3/10 6/10 2/10 2/10 8/10 6/10

= = = = = = = =

2/10 3/10 3/10 4/10 1/10 1/10 10/10 3/10

P(K = kta | PW = ws) . P(W = wa | PW = ws) . P(B = bta | PW = ws) . P(LG = j | PW = ws)] !

#$ %$

&

( #$

&

% #$

&

% #$

&

/ #$

&

# #$

&

# #$

&

#$ #$

&

% #$

!

*&*****,+

P(PW = tw | x)

!

P(PW = tw) . [P(S = sj | PW = tw) .P(L = lh | PW = tw) . P(D = t | PW = tw) . P(PA = dt | PW = tw) . P(K = kta | PW = tw) . P(W = wa | PW = tw) . P(B = bta | PW = tw) . P(LG = j | PW = tw)] !

#$ %$

&

( #$

&

# #$

&

0 #$

&

# #$

&

/ #$

&

' #$

&

' #$

&

1 #$

!

*&****--.

P(PW = wp | x) > P(PW = tw | x) > P(PW = ws | x) Sehingga x diklasifikasikan sebagai P(PW = wp | x)

Dari hasil pengklasifikasian yang dilakukan terhadap input baru x’, input baru tersebut ternyata tergolong dalam jenis Wisata Panjang.

Contoh Kasus2 : Berikut ini adalah contoh penerapan naive Bayes untuk mengklasifikasi keberhasilan panen beras di wilayah indonesia. Dimana jenis prediksi keberhasilan panen ini terbagi menjadi dua bagian yaitu :berhasil dan gagal. Langkah 1 : Data yang sudah ada sebagai berikut : No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Bibit Unggul Unggul Unggul Unggul Unggul Standar Standar Standar Standar Standar Kualitas Rendah Kualitas Rendah Kualitas Rendah Kualitas Rendah Kualitas Rendah Kualitas Rendah Unggul Unggul Unggul

Musim Kemarau Hujan Hujan Hujan Kemarau Kemarau Kemarau Hujan Hujan Hujan Kemarau Kemarau Kemarau Hujan Hujan Hujan Kemarau Kemarau Hujan

Pengairan Lancar Lancar Terhambat Lancar Lancar Lancar Terhambat Lancar Terhambat Terhambat Lancar Terhambat Terhambat Lancar Lancar Terhambat Terhambat Terhambat Terhambat

Pupuk Rutin Rutin Rutin Jarang Jarang Jarang Jarang Jarang Rutin Jarang Rutin Rutin Jarang Rutin Jarang Rutin Rutin Rutin Jarang

Hama Burung Serangga Tidak Ada Hama Serangga Burung Tidak Ada Hama Tidak Ada Hama Burung Tidak Ada Hama Serangga Tidak Ada Hama Tidak Ada Hama Burung Tidak Ada Hama Serangga Burung Tidak Ada Hama Serangga Tidak Ada Hama

Kinerja Petani Rajin Malas Rajin Malas Malas Malas Malas Malas Rajin Rajin Rajin Rajin Malas Malas Rajin Rajin Rajin Rajin Rajin

Panen Berhasil Gagal Berhasil Gagal Berhasil Berhasil Gagal Gagal Berhasil Berhasil Berhasil Gagal Gagal Gagal Gagal Berhasil Berhasil Berhasil Berhasil

!"

Bab 3 Klasifikasi

Recommend Documents