Makalah Data Mining

BAB I PENDAHULUAN 1.1 Latar Latar Belaka Belakang ng

Perkembangan teknologi informasi yang semakin pesat pada saat ini selalu berusaha untuk memenuhi kebutuhan dan kemudahan ke mudahan dalam pencarian, penyajian dan penanganan penanganan data. Hampir Hampir semua bidang membutuhk membutuhkan an kemudahan kemudahan untuk penanganan informasi yang mereka miliki, sehingga s ehingga dari semua informasi yang di sajikan, seseorang dapat mengambil suatu keputusan yang lebih tepat. Terdapat beberapa algoritma klasifikasi data salah satunya yaitu pohon keputusan atau Decision Tree. Tree. Algo Algori ritm tmaa ID3 ID3 adal adalah ah

algo algorit ritma ma decis decisio ion n tree tree lear learni ning ng algo algori ritm tmaa

pembelajaran pohon keputusan! yang paling dasar. Algoritma ini melakukan pencarian secara rakus atau menyeluruh greedy!, pada semua kemungkinan pohon keputusan. 1.2 Rumusan Rumusan Masal Masalah ah ". #agaimana #agaimana penerapan penerapan algoritma algoritma pohon pohon keputusan keputusan (decision tree )$ )$ 2. #agaimanakah kinerja algoritma pohon keputusan ID3$ 1.3 Tujuan

%emahami %emahami penerapan penerapan metode metode pohon pohon keputusan keputusan (decision tree ) dan kinerja algori algoritma tma pohon pohon keputu keputusan san ID3 dalam dalam pegamb pegambilan ilan keputu keputusan san terhad terhadap ap suatu suatu masalah. BAB II

1

PEMBAHAAN 2.1 Met!"e De#$s$!n Tree

Pohon keputusan  Decision tree! adalah struktur flowcart yang mempunyai tree pohon!, dimana setiap simpul internal menandakan suatu tes atribut. &etiap cabang merepresentasikan kelas atau distribusi kelas, alur pada decision tree ditelusuri dari simpul ke akar ke simpul daun yang memegang prediksi kelas untuk contoh tersebut. Decision tree mudah untuk dikon'ersikan keaturan klasifikasi classification rule!. (onsep data dalam decision tree dinyatakan dalam bentuk tabel dengan atribut dan record. Decision tree digunakan untuk kasus)kasus yang keluarannya bernilai diskrit. #anyak 'ariasi model decision

tree dengan

tingkat kemampuan dan

syarat yang berbeda, pada umumnya beberapa ciri yang cocok untuk diterapkannya decision tree adalah sebagai berikut * ". Data dinyatakan dengan pasangan atribut dan nilainya +. abel atau keluaran data biasanya bernilai diskrit 3. Data mempunyai missing value nilai dari suatu atribut tidak diketahui!. Dengan cara ini akan mudah mengelompokkan obyek kedalam beberapa kelompok. -ntuk membuat decision tree perlu memperhatikan hal)hal berikut ini* a. Atribut mana yang akan dipilih untuk pemisahan obyek b. -rutan atribut mana yang akan dipilih terlebih dahulu c. &truktur tree d. (riteria pemberhentian e. Pruning 2.1.1 Pr!ses Pem%entukan P!h!n &e'utusan (De#$s$!n Tree)

2

Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun leaf! merepresentasikan kelompok kelas tertentu. e'el node teratas dari sebuah decision tree adalah node akar root! yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pembuatan model, pada tahap ini setiap data diasumsikan telah digolongkan kedalam sejumlah kelas predefined class!. Himpunan data yang akan menyusun model ini disebut sebagai training data. %odel yang dihasilkan dipresentasikan dalam bentuk aturan klasifikasi, pohon keputusan atau formula matematika.

Gambar 1 Ilustrasi Pembuatan Pohon Keputusan Pemanfaatan model, tahap ini digunakan untuk mengklasifikasikan obyek yang

belum

diketahui

kelasnya.

stimasi

akurasi

dilakukan

dengan

membandingkan kelas dari testing data dengan kelas hasil klasifikasi model. Tingkat akurasi adalah ratio jumlah testing data yang diklasifikasikan secara benar

3

berdasarkan model klasifikasi dengan seluruh jumlah testing data. /ika tingkat akurasi ini diterima maka model klasifikasi kemudian dapat digunakan untuk mengklasifikasikan data yang belum diketahui kelasnya.

Gambar  Ilustrasi Pemanfaatan Pohon Keputusan 0epresentasi pohon keputusan ini dianggap sebagai metode logis yang sering digunakan pada bahasan mengenai statistik terapan dan pembelajaran mesin machine learning!. Pembuatan pohon keputusan sendiri menggunakan metode super'ised learning yaitu proses pembelajaran dimana data ini terdiri dari nodes atau simpul yang merupakan atribut dari data sampel. 1abang branches! yang keluar dari node tersebut merupakan nilai atau outcome yang dimiliki oleh atribut nodes! bersangkutan. &edangkan daun yang ada pada pohon keputusan tersebut menunjukan kelas dari data sampel yang diuji. &ebagai ilustrasi dapat dilihat pada contoh gambar berikut*

4

Gambar ! "odel Pohon Keputusan Pada gambar 3 terlihat ada 3 atribut berbeda yaitu 2, , dan 4 yang terletak pada simpul node! berbentuk o'al. Atribut 2 terletak pada simpul akar root node! sedangkan  dan 4 terdapat di dalam internal node atau simpul dalam. Tiap cabang yang keluar dari simpul tersebut menunjukkan nilai masing)masing atribut yang dimiliki oleh data pengujian. Pada simpul daun leaf node! terdapat kelas yang menjadi keluaran akhir dari classifier. -ntuk mengetahui kelas dari suatu data pengujian maka jalur yang ada dari akar hingga daun dapat ditelusuri. Dalam pohon keputusan, leaf node merupakan sebuah label kelas sedangkan non terminal node yang terdiri dari root dan internal node lainnya, mengandung kondisi uji atribut untuk memisahkan record yang memiliki karakteristik berbeda. &etelah pohon keputusan dikonstruksi, data tes dapat diklasifikasi. #ermula dari root, kondisi tes diaplikasikan ke record dan mengikuti cabang yang sesuai berdasarkan keluaran dari tes. 2.2 Alg!r$tma ID3 (Iterat$*e De#h!t!m$+er 3)

5

Algoritma ID3 adalah

algoritma decision tree learning algoritma

pembelajaran pohon keputusan! yang paling dasar. Algoritma ini melakukan pencarian secara rakus atau menyeluruh greedy!, pada semua kemungkinan pohon keputusan. &alah satu algoritma induksi pohon keputusan yaitu ID3 Iterati'e Dichotomiser 3!. ID3 dikembangkan oleh /. 0oss 5uinlan. 1ara kerja algoritma ID3 adalah membuat pohon dengan percabangan a6al berupa atribut yang memiliki nilai paling signifikan. Algoritma ID3 dapat diimplementasikan menggunakan fungsi rekursif f ungsi yang memanggil dirinya sendiri!. Algoritma ID3 berusaha membangun decision tree pohon keputusan! secara top)do6n dari atas keba6ah!, mulai dengan pertanyaan * 7atribut mana yang pertama kali harus dicek dan diletakkan pada root$8 pertanyaan ini dija6ab dengan menge'aluasi semua atribut yang ada dengan menggunakan suatu ukuran statistik yang banyak digunakan adalah information

gain!

untuk

mengukur

efekti'itas

mengklasifikasikan kumpulan sampel data.

suatu

atribut

dalam

#erikut adalah cara kerja dari

algoritma ID3* ". +. 3. :.

Pemilihan atribut dengan menggunakan Information 9ain. Pilih atribut dimana nilai gainnya paling besar. #uat simpul yang berisi atribut tersebut. Proses perhitungan Information 9ain akan terus dilaksanakan sampai semua data masuk kedalam kelas yang sama, sedangkan atribut yang telah dipilih tidak diikutkan lagi dalam perhitungan nilai information gain. 9ain mengukur seberapa baik suatu atribut memisahkan training e;mple kedalam kelas target. Atribut dengan informasi tertinggi akan dipilih.

6

Dengan tujuan untuk mendefinisikan gain, pertama tama digunakanlah ide dari teori informasi yang disebut entropi. ntropi mengukur jumlah dari informasi. 2.2.1

Entr!', In-!rmat$!n a$n

&ebuah obyek yang diklasifikasikan dalam pohon harus dites nilai mentropinya. ntropy adalah ukuran dari teori informasi yang dapat mengetahui karakteristik dari impuryt ,dan homogenity dari kumpulan data. Dari nilai entropy tersebut kemudian dihitung nilai information gain I9! masing)masing atribut. 0umus menghitung entropi informasi adalah* Dimana*

Gambar # $umus %ntrop& ntropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. &emakin kecil nilai dari suatu entropy maka semakin baik digunakan dalam mengekstraksi suatu kelas. Panjang kode untuk menyatakan informasi secara optimal adalah log + p bits untuk message yang mempunyai probabilitas p.

7

2.2.2

In-!rmat$!n a$n

&etelah mendapatkan nilai entropy untuk suatu kumpulan data, maka kita dapat mengukur efekti'itas suatu atribut dalam mengklasifikasikan data. -kuran efektifitas ini disebut informasi gain. &ecara matematis, informasi gain dari suatu atribut

A,

dituliskan

sebagai

berikut*

Gambar ' $umus Gain 2.2.3

Alg!r$tma "ar$ ID3

Input* sampel training, label training, atribut ". %embuat simpul akar untuk tree yang dibuat, +. /ika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri label
8

3. /ika semua sampel negatif, berenti dengan suatu pohon dengan satu simpul akar, beri label )!, :. /ika atribut kosong, berhenti dalam dengan satu pohon dengan satu simpul akar dengan label sesuai nilai yang terbanyak yang ada pada label training untuk yang lain, %ulai * a. A atribut

b. c. d. e.

yang

mengklasifikasikan sample

dengan hasil terbaik

berdasarkan information gain!, Atribut keputusanuntuk simpul akar A, -ntuk setiap nilai, ' I , yang mungkin untuk A, Tambahkan cabang diba6ah akar yang berhubungan dengan A = ' i, Tentukan sampel &' I sebagai subset dari sampel yang mempunyai nilai '

I untuk atribut A, f. /ika sampel &' i kosong, diba6ah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang ada pada label training, yang lain tambah cabang baru diba6ah cabang yang sekarang ID3 sampel training, label training, atribut)>A?! @. #erhenti Adapun sample data yang digunakan oleh ID3 memiliki beberapa syarat, yaitu* a. Deskripsi atribut nilai, atribut yang sama harus mendeskripsikan tiap contoh dan memiliki jumlah nilai yang sudah ditentukan. b. (elas yang sudah didefinisikan sebelumnya, suatu atribut contoh harus sudah didefinisikan, karena tidak dipelajari oleh ID3. c. (elas)kelas yang diskrit, kelas harus digambarkan dengan jelas. (elas yang kontinu dipecah)pecah menjadi kategori)kategori yang relatif.

9

d. /umlah contoh e;ample! yang cukup, karena pembangkitan induktif digunakan, maka dibutuhkan test case yang cukup untuk membedakan pola yang 'alid dari peluang suatu kejadian. e. Pemillihan atribut pada ID3 dilakukan dengan properti statistik, yang disebut dengan information gain. 9ain mengukur seberapa baik suatu atribut memisahkan training e;ample ke dalam kelas target. Atribut dengan

informasi

tertinggi

akan

dipilih.

Dengan

tujuan

untuk

mendefinisikan gain, pertama)tama digunakanlah ide dari teori informasi yang disebut entropi. ntropi mengukur jumlah dari informasi yang ada pada atribut.

BAB III PENUTUP 3.1 &es$m'ulan

Pohon keputusan  Decision Tree! adalah struktur flo6chart yang mempunyai tree pohon!, dimana setiap simpul internal menandakan suatu tes atribut. &etiap cabang mereppresentikan kelas atau distribusi kelas, alur pada decision tree ditelusuri dari simpul keakar kesimpul daun yang memegang prediksi kelas untk contoh tersebut. Decision Tree mudah untuk dikon'ersikan

10

keaturan klasifikasi (lassificationrule). &ebuah obyek yang diklasifikasikan dalam pohon harus dites nilai mentropinya. Algoritma ID3 adalah algoritma decision tree learning algoritma pembelajaran pohon keputusan! yang paling benar.

DA/TAR PUTA&A

>"? http*ajuarna.staff.gunadarma.ac.idDo6nloadsfiles":B"Teori#ahasaAut omata.pdf >+? http*informatika.stei.itb.ac.idCrinaldi.munir%atdis+E) +B%akalah%akalahEB)"++.pdf >3? http*ejournal.undip.ac.idinde;.phpjsinbisarticledo6nloadFGEG/ulce +Adiana. >:? http*elib.unikom.ac.idfilesdisk"E:jbptunikompp)gdl)emilatifah) 3"FG)F)unikome)i.pdf

11

>@? http*ejournal.undip.ac.idinde;.phpjsinbisarticledo6nloadFGEG/ulce +Adiana. [6] http*p+m.polibatam.ac.id6p)contentuploads+":B&elly)Artati.pdf.

12

Makalah Data Mining

Recommend Documents