BAB I PENDAHULUAN A. Latar Belakang
Perkembangan teknologi teknologi informasi dan komunikasi komunikasi mendorong konsumen untuk meningkatkan intensitas penggunaan teknologi dalam kehidupan sehari-hari. Teknologi informasi dan komunikasi yang pada awalnya sangat terbatas dalam menunjang kebutuhan sehari-hari, saat ini telah menjadi bagian yang tidak terpisahkan atau telah menjadi kebutuhan hidup. Internet
merupakan
salah
satu
perkembangan
teknologi informasi dan
komunikasi yang menawarkan sisi kecanggihan, kepraktisan, dan kemudahan. Informasi yang dapat diperoleh sangatlah beragam dan untuk mendapatkannya cukup mudah dan praktis.
Komunikasi
yang
dapat
dilakukan
dengan menggunakan internet juga
praktis dan mudah, tidak terbatas oleh waktu ataupun jarak. Perkembangan teknologi informasi
dan
komunikasi merupakan peluang peluang bisnis
yang potensial. PT. Telekomunikasi Indonesia, Tbk (Telkom) merupakan salah satu perusahaan penyedia Pemenuhan
akan
jasa
telekomunikasi
kebutuhan
teknologi
yang
memanfaatkan
peluang tersebut.
internet dijawab dengan dikembangkannya dikembangkannya
berbagai produk berbasis pemenuhan kebutuhan terhadap akses internet salah satunya Speedy. Banyaknya Permintaan menjadi Pelanggan Speedy di Dunia ini benar benar sangat Berkembang Pesat. Apa lagi di Kota kota seperti Kota Palangkaraya, berlanggan tetapi di balik berkembangnya, bertambahnya dan d an melanjutkan berlangganan, berlan gganan, speedy terdapat juga Pelanggan speedy yang berhenti. Dan untuk itu untuk mencegah terjadinya berhentinya Berlangan Speedy Pihak Speedy memberikan sebuah Keuntungan, yaitu bagi yang berlanggan Lama atau lebih 1 tahun maka Pelanggan Speedy akan di berikan Berlanggan Gratis Selama 2 Bulan, dan untuk mengetahui mengetahui siapa saja Pelanggan yang berlanggan berlanggan Lebih Lama bisa di lakukan dengan cara klasifikasi data, untuk melakukan klasifikasi data tersebut maka dapat dilakukan dengan program atau aplikasi Weka. Salah satu yang kami gunakan yaitu weka 3.4.6 WEKA adalah meja kerja untuk pembelajaran mesin yang dimaksudkan untuk membuat penerapan teknik pembelajaran mesin lebih mudah dan intuitif untuk sebuah berbagai belajar [Type text]
masalah ahli
di
tetapi
dunia
nyata.
juga
spesialis
Lingkungan domain.
target
tidak
hanya
Itulah
sebabnya
mesin
interaktif Page 1
modul untuk pengolahan data, data dan visualisasi model yang terlatih, database koneksi
dan
fungsi
yang
klasifikasi
cross-validasi perlu
dan
disediakan.
didukung
regresi
Mereka
dengan
memprediksi,
pergi
sistem clustering
bersama
dengan
pembelajaran dan
dasar
mesin
seleksi
-
atribut.
Hal ini dikembangkan di University of Waikato, Selandia Baru. Proyek ini dimulai ketika penulis diperlukan untuk menerapkan teknik mesin belajar pada pertanian masalah. Ini adalah sekitar dua belas tahun yang lalu. Sekarang versi 3.4.6 adalah tahun tersedia dan dua yang lalu penulis juga telah menerbitkan sebuah buku [4]. Ini buku mencakup algoritma yang berbeda, poin yang mungkin mereka lemah dan kuat, semua preprocessing dan mengevaluasi metode. Hal ini juga mencakup penjelasan rinci untuk
keempat
modul
grafis
dan
beberapa
pengenalan
dasar
tentang
cara
menggunakan antarmuka Java di program Anda sendiri. Proyek ini dikembangkan dan didistribusikan di bawah lisensi GPL dan memiliki subdomain di Sourceforge
B. Rumusan Masalah
Rumusan masalah yang di ambil dari kasus ini yaitu bagaimana cara mengklasifikasikan data set tersebut. Dan dengan metode apa yang di ambil untuk mengklasifikasikan data pelanggan speedy ?
C. Batasan Masalah
Dari permasalahan di atas kami dapat membatasi masalah yang akan kami teliti yaitu 1. Kami hanya menggunakan Weka Weka 3.6.4 2. Kami hanya menggunakan metode Naïve bayes utuk mengklasifikasikan data mining tesebut? 3. Kami hanyak mengklasifikasikan data pelanggan speedy yang berhenti dan lanjut
D. Tujuan Weka
Tujuan Belajar Weka yaitu untuk meningkatkan pemahaman mahasiswa terhadap Weka. Dengan Weka mahasiswa dapat mengklasifikasikan data dengan Metode yang di gunakan
E. Manfaat Weka
Manfaat Belajar Weka ini yaitu mahasiswa dapat mengklasifikasin data sehingga data tersebut dapat memberikan hasil yang di inginkan. Seperti ingin mengetahui nilai yang yang digunakan dalam data mining. [Type text]
Page 2
modul untuk pengolahan data, data dan visualisasi model yang terlatih, database koneksi
dan
fungsi
yang
klasifikasi
cross-validasi perlu
dan
disediakan.
didukung
regresi
Mereka
dengan
memprediksi,
pergi
sistem clustering
bersama
dengan
pembelajaran dan
dasar
mesin
seleksi
-
atribut.
Hal ini dikembangkan di University of Waikato, Selandia Baru. Proyek ini dimulai ketika penulis diperlukan untuk menerapkan teknik mesin belajar pada pertanian masalah. Ini adalah sekitar dua belas tahun yang lalu. Sekarang versi 3.4.6 adalah tahun tersedia dan dua yang lalu penulis juga telah menerbitkan sebuah buku [4]. Ini buku mencakup algoritma yang berbeda, poin yang mungkin mereka lemah dan kuat, semua preprocessing dan mengevaluasi metode. Hal ini juga mencakup penjelasan rinci untuk
keempat
modul
grafis
dan
beberapa
pengenalan
dasar
tentang
cara
menggunakan antarmuka Java di program Anda sendiri. Proyek ini dikembangkan dan didistribusikan di bawah lisensi GPL dan memiliki subdomain di Sourceforge
B. Rumusan Masalah
Rumusan masalah yang di ambil dari kasus ini yaitu bagaimana cara mengklasifikasikan data set tersebut. Dan dengan metode apa yang di ambil untuk mengklasifikasikan data pelanggan speedy ?
C. Batasan Masalah
Dari permasalahan di atas kami dapat membatasi masalah yang akan kami teliti yaitu 1. Kami hanya menggunakan Weka Weka 3.6.4 2. Kami hanya menggunakan metode Naïve bayes utuk mengklasifikasikan data mining tesebut? 3. Kami hanyak mengklasifikasikan data pelanggan speedy yang berhenti dan lanjut
D. Tujuan Weka
Tujuan Belajar Weka yaitu untuk meningkatkan pemahaman mahasiswa terhadap Weka. Dengan Weka mahasiswa dapat mengklasifikasikan data dengan Metode yang di gunakan
E. Manfaat Weka
Manfaat Belajar Weka ini yaitu mahasiswa dapat mengklasifikasin data sehingga data tersebut dapat memberikan hasil yang di inginkan. Seperti ingin mengetahui nilai yang yang digunakan dalam data mining. [Type text]
Page 2
F. Tampilan Weka
Gambar 1. Tampilan Weka Penjelasan 1. Explorer digunkan untuk menggali lebih jauh data dengan aplikasi WEKA 2. Experimenter digunakan untuk melakukan percobaan dengan pengujian statistic skema belajar 3. Knowledge Flow digunakan untuk pengetahuan pendukung 4. Simple CLI antar muka dengan menggunakan tampilan command-line yang memungkinkan langsung mengeksekusi perintah weka untuk Sistem Operasi yg tidak menyediakan secara langsung
[Type text]
Page 3
BAB II LANDASAN TEORI A. Pengertian Analisis
Dalam Kamus Bahasa Indonesia Kontemporer karangan Peter Salim dan Yenni Salim
(2002) menjabarkan pengertian analisis sebagai berikut:
a. Analisis adalah penyelidikan terhadap suatu peristiwa (perbuatan, karangan dan sebagainya) untuk mendapatkan fakta yang tepat (asal usul, sebab, penyebab sebenarnya, dan sebagainya). b.
Analisis adalah penguraian pokok persoalan atas bagian-bagian, penelaahan bagian-bagian
tersebut
dan
hubungan
antar
bagian untuk
mendapatkan
pengertian yang tepat dengan pemahaman secara keseluruhan. c. Analisis
adalah
penjabaran
(pembentangan)
sesuatu
hal,
dan
sebagainya
setelah ditelaah secara seksama. d. Analisis adalah proses pemecahan masalah yang dimulai dengan hipotesis (dugaan, dan sebagainya) sampai terbukti kebenarannya melalui beberapa kepastian (pengamatan, percobaan, dan sebagainya). e. Analisis adalah proses pemecahan masalah (melalui akal) ke dalam bagian bagiannya berdasarkan metode yang konsisten untuk mencapai pengertian tentang prinsip-prinsip dasarnya.
Dalam Kamus
Besar Bahasa Indonesia karangan Suharso dan
Ana
Retnoningsih (2005), analisis adalah penyelidikan terhadap suatu peristiwa (karangan, perbuatan dan sebagainya) untuk mengetahui keadaan yang sebenarnya (sebab musabab, duduk perkara dan sebagainya). Dan kinerja adalah sesuatu yang dicapai.
Dalam Kamus Besar Bahasa Indonesia Departemen Pendidikan Nasional (2005) menjelaskan bahwa analisis adalah penyelidikan terhadap suatu peristiwa untuk mengetahui keadaan yang sebenarnya. Kinerja adalah kemampuan kerja, sesuatu yang dicapai, prestasi yang diperlihatkan.
[Type text]
Page 4
Dapat disimpulkan bahwa pengertian analisis kinerja dalam tugas akhir ini adalah penyelidikan terhadap suatu metode (dalam hal ini metode Canny) untuk mengetahui kemampuan kerja metode tersebut melalui beberapa percobaan atau pengujian.
B. Weka
Weka adalah kumpulan mesin belajar algoritma untuk tugas-tugas data mining. Algoritma dapat diterapkan secara langsung ke dataset atau disebut dari kode Java Anda sendiri. Weka berisi alat untuk data pra-pengolahan, klasifikasi, regresi, clustering, aturan asosiasi, dan visualisasi. Hal ini juga cocok untuk mengembangkan skema pembelajaran mesin baru. Weka adalah perangkat lunak open source yang dikeluarkan di bawah GNU General PublicLicense Introduction Mesin algoritma pembelajaran berfungsi untuk mendorong aturanklasifikasi dari Dataset contoh dan dengan demikian memperluas pengetahuan domain dan pemahaman.
C. Data Warehouse
Menurut W.H. Inmon dan Richard D. Hackathorn di tahun 1994, data warehouse adalah koleksi data yang mempunyai sifat berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap dari koleksi data dalam mendukung proses pengambilan keputusan management.
Menurut Vidette Poe, data warehouse merupakan database yang bersifat analisis dan read only yang digunakan sebagai fondasi dari sistem penunjang keputusan.
Menurut Paul Lane, data warehouse merupakan database relasional yang didesain lebih kepada query dan analisa dari pada proses transaksi, biasanya mengandung history data dari proses transaksi dan bisa juga data dari sumber lainnya. Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi menggabung/konsolidasi data dari berbagai macam sumber.
Menurut Ralph Kimball, data warehouse adalah salinan data transaksi khusus terstruktur untuk query dan analisis. [Type text]
Page 5
Jadi, data warehouse merupakan metode dalam perancangan database, yang menunjang DSS( Decission Support System) dan EIS ( Executive Information System). Secara fisik data warehouse adalah database, tapi perancangan data warehouse dan database sangat berbeda. Dalam perancangan database tradisional menggunakan normalisasi, sedangkan pada data warehouse normalisasi bukanlah cara yang terbaik.
Dari definisi-definisi yang dijelaskan tadi, dapat disimpulkan data warehouse adalah database yang saling bereaksi yang dapat digunakan untuk query dan analisisis, bersifat orientasi subjek, terintegrasi, time-variant,tidak berubah yang digunakan untuk membantu para pengambil keputusan.
D. Data Mining
Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam data base. Data mining merupakan proses yang mengunakan teknik statistic, matematika, kecerdasan buatan, dan machine learning untuk mengektraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang
terkait
dari
berbagai
Menurut Gartner Group data mining
database
besar(turban
didefinisikan
sebagai
menemukan hubungan yang berarti,pola, dan kecenderungan dalam sekumpulan besar datayang menggunakan
tersimpan
dalam
,
dkk.2005).
suatu
proses
dengan
memeriksa
penyimpanan
dengan
teknik pengenalan pola seperti teknik statisik dan matematika.
Selain definisi diatas beberapa definisi juga diberikan seperti tertera dibawah ini : “Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.” (Pramudiono, 2006) “Data mining merupakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola,
statistik,
database,
dan
visualisasi
untuk
pengenalan permasalahan pengambilan informasi dari database yang besar.”(Larose, 2005) Kemajuan luar biasa yg terus berlanjut dalam bidang data mining didorong
oleh
beberapa faktor, antara lain (Larose, 2005) : [Type text]
Page 6
1. Pertumbuhan yang cepat dalam pengumpulan data. 2. Penyimpangan data dalam data warehouse, sehingga seluruh
Perusahaan
memiliki akses kedalam database yang handal. 3. adanya
peningkatan
akses
data
melalui
navigasi
web
dan intranet.
4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam globalisasi ekonomi. 5. Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan teknologi) 6. Perkembangan yang hebat dalam kemampuan komputasi danpengembangan kapasitas media penyimpanan. Dari
definisi-definisi
yang
telah
disampaikan,
hal
penting
yang terkait
dengan data mining adalah : 1. Data
mining merupakan suatu proses otomatis terhadap data Yang sudah
ada. 2. Data yang akan diproses berupa data yang sangat besar. 3. Tujuan data mining adalah mendapatkan hubungan atau pola yang
mungkin
memberikan indikasi yang bermanfaat.
E. Tahap-Tahap Data mining
Istilah data mining dan knowledge discovery in databases (KDD) sering kali digunakan secara bergantian untuk
menjelaskan
tersembunyi dalam suatau basis data tersebut memiliki lain.
Dan
data mining .
salah
konsep
yang
satu tahapan
Proses KDD
yang besar.
berbeda, dalam
secara
proses
garis
tetapi
informasi
Sebenarnya
kedua
istilah
berkaitan
satu
sama
keseluruhan besar
pentggalian
proses
dapat
KDD
dijelaskan
adalah sebagai
berikut : [6] 1. Data Selection Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan Sebelum
tahap
penggalian informasi dalam KDD dimulai. Data hasil seleksi yang Akan digunakan untuk proses data mining , disimpan suatu berkas, terpisah dari Basis data operasional.
[Type text]
Page 7
2. Pre-processing/Cleaning Sebelum prses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakuakan proses enrichment , yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.
3. Transformation Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining . Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.
4. Data mining Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation/ Evaluation Pola informasi yang dihasilkan dari proses data mining , perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertntangan dengan fakta atau hipotesis yang ada sebelumnya.
F. Teknik Data Meaning
Teknik
Data
Mining
yang
kami
gunakan
yaitu
klasifikasi.
Klasifikasi adalah proses untuk menemukan model atau fungsi yang atau
membedakan
konsep
atau
kelas
data, Dengan
tujuan
menjelaskan
untuk
dapat
memperkirakan kelas dari suatu objek yang labelnya tidak diketahui.
[Type text]
Page 8
G. Naïve Bayes
Naive bayesian klasifikasi adalah suatu klasifikasi berpeluang sederhana berdasarkan aplikasi teorema Bayes dengan asumsi antar variabel penjelas saling bebas (independen). Dalam hal ini, diasumsikan bahwa kehadiran atau ketiadaan dari suatu kejadian tertentu dari suatu kelompok tidak berhubungan dengan kehadiran atau ketiadaan dari kejadian lainnya. Naive Bayesian dapat digunakan untuk berbagai macam keperluan antara lain untuk klasifikasi dokumen, deteksi spam atau filtering spam, dan masalah klasifikasi lainnya. Dalam hal ini lebih disorot mengenai penggunaan teorema Naive Bayesian untuk spam filtering. Dan untuk menghitung klasifikasi teorema bayes berikut mengggunakan rumus dibawah ini
Berdasarkan rumus di atas kejadian H merepresentasikan sebuah kelas dan X merepresentasikan sebuah atribut. P(H) disebut prior probability H , contoh dalam kasus ini adalah probabilitas kelas yang mendeklarasikan normal. P(X ) merupakan prior probability X , contoh untuk probabilitas sebuah atribut protocol_type. P(H|X)
adalah posterior probability yang merefleksikan probabilitas munculnya kelas normal terhadap data atribut protocol_type. P(X|H) menunjukkan kemungkinan munculnya prediktor X ( protocol_type) pada kelas normal. Dan begitu juga seterusnya untuk proses menghitung probabilitas ke-empat kelas lainnya Keuntungan Naive Bayesian :
1. Menangani kuantitatif dan data diskrit 2. Kokoh untuk titik noise yang diisolasi, misalkan titik yang dirata – ratakan ketika mengestimasi peluang bersyarat data. 3. Hanya memerlukan sejumlah kecil data pelatihan untuk mengestimasi parameter (rata – rata dan variansi dari variabel) yang dibutuhkan untuk klasifikasi. 4. Menangani nilai yang hilang dengan mengabaikan instansi selama perhitungan estimasi peluang 5.
Cepat dan efisiensi ruang
6.
Kokoh terhadap atribut yang tidak relevan
[Type text]
Page 9
Kekurangan Naive Bayesian :
1. Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol maka probabilitas prediksi akan bernilai nol juga 2. Mengasumsikan variabel bebas
[Type text]
Page 10
BAB III METODOLOGI A. Kerangka Berpikir
Dalam gambar di bawah ini akan diurakan langkah- langkah proses penelitian dalam bentuk diagram alir, diharapkan dapat diperoleh gambaran yang lengkap dan menyeluruh tentang tahap-tahap penelitian yang akan di laksanakan.
Mulai
Pengumpulan data
Identifikasi masalah
Prosesing Data -Clening Data -Seleksi Atribut -Integrasi data -transpormasi
Data Mining Algoritma Naivi Bayes
Evaluasi Hasil
Knowledge
Selesai
Gambar 2. Diagram Alir Kerangka Berpikir [Type text]
Page 11
Berikut Penjelasan diagram alir diatas sebagai berikut : 1. Studi Pustaka
Tahap ini merupakan landasan awal dalam penelitian ini, dari studi pustaka ini banyak mendapatkan referensi yang mendukung penelitian ini, sekaligus untuk
memperkuat
penelitian
ini.
pengetahuan Adapun
dasar
beberapa
dan buku
teori
yang
dan
jurnal
digunakan yang
pada menjadi
referensi pada penelitian ini adalah: a. Santosa Budi, 2007, “Data Mining Teknik Pemanfaatan Data untuk
keperluan
Bisnis”, Jakarta. Dalam buku ini membantu penulis dalam metode algoritma data mining yang tepat. b. Jurnal-jurnal data mining dan lainnya mendukung penelitian ini terutama dengan pembahasan tentang klasifikasi algoritma Naïvie Bayes.
2. Pengumpulan Data
Pada tahap ini data yang akan diteliti ini yaitu data – data pelanggan Speedy yang berhenti dan lanjut di Telkom Flasa Palangkaraya dan didapat dataset yang bertipe record, berupa data laporan berhenti atau tidak pelanggan speedy.
3. Diskusi Pada tahap ini dilakukan wawancara kepada pihak terkait untuk
mencari
sebuah informasi, dalam hal ini teman-teman yang mengambil mata kuliah Basis Data Terdistribusi di STMIK Palangkaraya.
4. Identifikasi Masalah Pada tahap identifikasi masalah ini, dilakukan setelah semua data – data terpenuhi kemudian didapatkan dataset yang sesuai untuk dilakukan proses pada tahap klasifikasi, sehingga nantinya dari hasil klasifikasi dapat digunakan untuk menemukan jumlah pelanggan speedy yang telah berhenti atau lanjut dalam berlangganan.
[Type text]
Page 12
5. Preprocessing Data Pada
tahap pemprosesan pendahuluan dan
pembersihan data
merupakan operasi dasar seperti penghapusan noise dilakukan. Sebelum proses data mining dapat dilaksanakan ada beberapa cara yang menjadi fokus tahap KDD yaitu:
a. Cleaning Data
Pada tahap ini data yang telah terkumpul selanjutnya mengalami proses pembersihan dengan cara membuang duplikasi data, memeriksa data yabg inkonsisten, memperbaiki kesalahan pada data seperti kesalahan cetak (tipografi) dan mengendalikan data yang hilang. Sehingga akhir yang kita peroleh mendapatkan data yang tidak mengandung null.
b. Seleksi Atribut
Tahap yang akan dilakukan adalah seleksi atribut yaitu tahap pemilihan sumber data yang digunakan, karena ada beberapa atribut yang tidak digunakan sebelum tahap panggilan informasi dalam KDD dimulai, sehingga kita harus menghapus atribut yang tidak diperlukan karena atribut tersebut tidak relavan dengan hasil yang ingin dicapai.
c. Integrasi Data
Pada tahap ini merupakan proses penggabungan data dari beberapa sumber yang telah didapat, database pelanggan speedy berasal dari satu sumber dan data yang didapat sudah mewakili untuk pencarian sebaran jumlah pelanggan speedy berhenti atau lanjut tidak digabung dari berbagai sumber karena hanya didapat dari satu sumber.
d. Transformasi
Pada langkah ini merubah tipe file data awal tipe data.xls menjadi data.csv (Comma Separated Values) karena menggunakan pengolahan data weka classifre atau menjadi data.m karena menggunakan tools matlab.
6. Klasifikasi Data Mining ( Algoritma Bayes ) Proses Kalsifikasi yaitu proses mencari pola atau informasi dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma [Type text]
Page 13
dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. Pemilihan tugas data mining merupakan tujuan dari prose KDD
misalnya klasifikasi, regresi,
clustering, dll.
7. Evaluasi Hasil Pada tahap ini dilakukan evaluasi dari
informasi yang telah diperoleh
berdasarkan hasil dari proses Klasifikasi menggunakan algoritma Naivie Bayes dan pastinya telah diuji terlebih dahulu. Jika hasilnya akhir masih belum sesuai, maka akan diulang kembali ketahap proses algoritma Naivie Bayes tersebut.
8. Knowledge (model) Tahap ini merupakan bagian dari proses KDD yang mencakup pemeriksa apakah pola atau informasi yang dihasilkan data mining perlu diotampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan.
B. Tata Laksana
Kegiatan klasifikasi
yang dilakukan
untuk
dalam
memperoleh algoritma
penelitian ini terbaik
berhenti atau tidak yang telah ditentukan masuk speedy.
Proses
dimulai
dengan
mempelajari perhitungan nilai dari sistem
adalah
untuk pengolahan data laporan
program
pendefinisian manual
diantaranya
yang
peminatan
berlanggan
masalah sedang
serta berjalan.
Pada tahap selanjutnya melakukan proses klasifikasi terhadap data laporan pelanggan speedy. Metodologi penelitian ini didasarkan pada empat tahapan yang dilakukan untuk memperoleh algoritma mana yang terbaik untuk digunakan pada pengolahan data laporan berlanggan speedy apakah masih lanjut atau berhenti. Adapun peminatnya adalah : a) Menangani data yang tidak konsisten, redundant dan missing value b) Seleksi atribut dataset c) Klasifikasi d) Penentuan algoritma terbaik yang sesuai dengan data berlangganan speedy apakah masih lanjut atau berhenti.
[Type text]
Page 14
Pada tahap pertama, pemrosesan awal data laporan berlangganan
speedy
yang
telah ditentukan masuk berhenti atau lanjut dilakukan untuk menghapus data atau record yang tidak konsisten, redundant dan missing value. Pada tahap kedua, seleksi atribut dalam dataset untuk mendapatkan atribut atau record yang relavan terhadap keluaran yang dinginkan. Pada tahap ketiga adalah mengekstrak data yang akan digunakan. Dan yang keempat adalah melakukan penarikan kesimpulan untuk menentukan algoritma mana yang terbaik.
C. Bahan dan Alat Pendukung
Pada bagian ini akan dibahas aplikasi-aplikasi atau bahan pendukung yang digunakan. 1. Software
Adapun Software yang digunakan pada saat melakukan penelitian, yaitu : ) a. WEKA (Waikato Environment f or Knowledge Analysis
Weka adalah kumpulan mesin belajar algoritma untuk tugas-tugas data mining. Algoritma dapat diterapkan secara langsung ke dataset atau disebut dari kode Java Anda sendiri. Weka berisi alat untuk data pra-pengolahan, klasifikasi, regresi, clustering, aturan asosiasi, dan visualisasi. Hal ini juga cocok untuk mengembangkan skema pembelajaran mesin baru. Weka adalah perangkat lunak open source yang dikeluarkan di bawah GNU General PublicLicense Introduction Mesin algoritma pembelajaran berfungsi untuk mendorong aturanklasifikasi dari Dataset contoh dan dengan demikian memperluas pengetahuan domain dan pemahaman, dan weka yang kami gunakan yaitu weka 3.4.6
b. Microsoft Exel 2007 Microsoft Excel adalah bagian dari MS Office yang merupakan salah satu program canggih yang bbekerja dibawah sistem operasi Windows. Banyak kemudahan yang dapat diperoleh selama menggunakan Microsoft Excel, seperti bekerja dengan daftar data, menghitung angka-angka, membuat laporan, diagram, grafik, dan sebagainya. Sehingga untuk mengolah data ke WEKA membutuhkan aplikasi pendukung Microsoft Exel karena datta yang digunakan tersimpan dalam bentuk format Microsoft Exel (.xls) perlu diubah menjadi bentuk format data.csv ( Comma Separated Values) tools dalam weka.
[Type text]
Page 15
c. Hardware Adapun hardware yang digunakan pada saat melakukan penelitian,yaitu : a. Laptop acer 14” b. Ram 1 Gb c. Hard disk 250 Gb d. Mouse Logitec
[Type text]
Page 16
BAB IV IMPLEMENTASI A. Data Mining
Setelah melakukan Transpormasi data maka langka selanjutnya tinggal memasukan data set ke dalam Weka. Berikut ini adalah data yang telah di masukan ke dalam Weka yaitu data pelanggan Speedy yang lajut atau berhenti berlanganan speedy
Gambar 3. Tampilan Data Mining
[Type text]
Page 17
Dan seterusnya sampai 302 data yang akan 18ip roses atau klasif ikasi .
B. Penerapan Algoritma Bayes Menggunakan aplikasi weka 3.6.4
Weka yang kami gunakan yaitu weka 3.4.6 dan Berikut ini merupakan tampilan proses klasifikasi bayes dengan menggunakan atribut naïve bayes pada aplikasi Weka 3.6.4
Gambar 4. Tampilan Clasify Pada Weka Pada gambar tesebut akan dijelaskan beberapa fungsi atribut yang terdapat pada aplikasi weka tersebut. Keterangan 1. Choose : berfungsi untuk memilih metode yang akan di gunakan di klasifikasi tersebut 2. Use Traning set : untuk menggunakan data traning set 3. Supplied test set : untuk menggunakan data testing 4. Cross Validation : membagi data menurut bagian 5. Percentage Split : persentase dari perpecahan atau percabangan
[Type text]
Page 18
Di dalam Penerapan Disini kami akan menjelaskan tahap menjalankan Weka yang pertama tahap membuka program. 1. Buka Program Weka
Gambar 5. Tampilan Awal Weka 2. Setelah Weka Dibuka Lalu Kita Masukan data Dengan Mengklik Explore Setelah di klik Explore maka tampilannya seperti di bawah ini
Gambar 6. Tampilan Weka Setelah Klik Explore 3. Setelah Masuk kedalam tampilan Explore Weka maka setelah itu kita memasukan data yang akan kita mining atau kita ingin klasifikasikan. Dengan cara 1. Klik Open File
Gambar 7. Tampilan saat Membuka File/Memasukan Data Mining [Type text]
Page 19
2. Setelah itu kita pilih data yang akan di classify/klasifikasikan sehingga menjadi tampilan seperti di bawah ini
Gambar 8. Tampilan Setelah Memasukan Data mining 3. Setelah data di masukan maka selanjutnya kita klasifikasikan data yang sudah di masukan dengan cara klik Classfy
Gambar 9. Tampilan Pemilihan Classfy 4. Setelah di klasifikasikan maka selanjutnya kita memilih metode yang akan kita gunakan untuk mengklasifikasikannya, dan metode yang kami gunakan yaitu metode Naïve Bayes 5. Setelah Menjelaskan Metode Apa yang di gunakan selanjutnya
kami
Menganalisi Weka dengan menggunakan Metode Naïve Bayes tersebut dan untuk menganalisi atau mentes data yang ada maka kami menggunakan test option dengan pilihan Use Training set, Supplied test set, cross validation dan percentage split .
[Type text]
Page 20
a. Use Traning Set
Use Traning Set adalah penggunaan atau pengklasifikasian data mining berdasarkan training. Seperti tampilan Di bawah ini
Gambar 10. Tampilan Use Training Set Dari tanda Biru yang dilingkari di atas maka kami dapat menjelaskan bahwa itu merupakan persenan dari data yang di klasifikasikan. Untuk Correctly Classified Instances merupakan baris yang benar yaitu sebesar 100 %. Yang berarti saat kami melakukan Star dengan Menggunakan Use Training set tidak ada baris data yang salah, yang artinya data 301 tidak ada yang error. Sedangkan yang Incorrectly Classified Instances merupakan baris yang salah yaitu sebesar 0%. Dan untuk memastikan bahwa Baris data 100 persen yang benar kita maka kita akan mencari dengan cara manual yaitu dengan rumus
= 100% Dari Klasifikasi yang kita gunakan diatas selain Correctly Classified Instances kami juga akan menjelaskan bagaimana cara mendapatkan nilai nilai TP Rate, FP Rate, Precision, Recall, F-Measure, [Type text]
Page 21
Gambar 11. Tampilan TP, FP,Precesion Recall dan F-Measure untuk Use Training
Dari gambar Di atas kami akan menjelaskan kenapa Nilai di dalam tambel atau Use Training 1 dan 0 dan dari mana dapatnya. Dan untuk menjelaskannya maka kami melakukan Perhitungan seperti di bawah ini a. TP Rate Tingkat Positif benar (TP) Rate adalah proporsi contoh yang diklasifikasi kan sebagai
kelas x, di antara semua contoh yang benar benar
memiliki kelas x yang Bernilai sama dengan Recall. TP Rate (True Positiv) Pada yaitu dengan rumus berikut
Jadi Nilai dari TP Rate yang class Lanjut nilainya adalah 1 berarti nilai di Weka dengan yang manual benar
[Type text]
Page 22
TP rate(True Positif) pada class Berhenti dapat dirumuskan dengan rumus berikut
Jadi Nilai dari TP rate yang class berhenti nilainya ada 1 yaitu berarti benar dengan nilai yang di cari dengan weka
b. FP Rate Tingkat Positif salah (FP) Rate adalah proporsi contoh yang diklasifikasi kan sebagai kelas x, tetapi masuk kedalam kealas yang berbeda diantara semua contoh yang bukan dari kelas x. FP Rate. Yaitu pada Class Lanjut
Jadi FP Rate Pada Kelas Lanjut yaitu bernilai 0 yang artinya nilainya sama dengan apa yang di munculkan Weka Setelah FP Rate pada Class Lanjut Sudah di dapat nilainya maka selanjutnya mencari FP Rate pada Class Berhenti
Jadi Nilai FN Class Berhenti Bernilai 0 [Type text]
Page 23
c. Precesion Untuk Mencari Nilai Precesion Class Lanjut kita harus menggunakan nilai A1=175 A2=0
Nilai Precesion untuk Class Lanjut sama dengan 1 Untuk Mencari Precesion Kelas Berhenti Kita Harus Menggunakan Nilai B1=126 B2 =0
Nilai Precesion untuk Class Berhenti sama dengan 1 d. Recall Untuk mencari nilai dari Class Lanjut yaitu kita menggunakan rumus sebarai berikut:
Nilai Recall untuk class Lanjut sama dengan 1 Untuk Mencari Nilai Class Berhenti kita gunakan Rumus Seperti Berikut :
[Type text]
Page 24
e. F-measure Untuk mencari nilai F-measure kita harus menggunakan nilai precesion dan recall Dengan rumus sebagai berikut
Selain Menggunakan use training set untuk mengevaluasi kami juga menggunakan supplied test set untuk mengevaluasi data tesebut. b. Supplied Test Set
Gambar 12. Tampilan TP, FP,Precesion Recall dan F-Measure untuk Supplier Test Set
[Type text]
Page 25
1. TP Rate TP Rate (True Positiv) Pada Class Lanjut yaitu dengan rumus berikut
Jadi Nilai dari TP Rate yang class Lanjut nilainya adalah 1 berarti nilai di Weka dengan yang manual benar TP rate(True Positif) pada class Berhenti dapat dirumuskan dengan rumus berikut
Jadi Nilai dari TN rate yang class berhenti nilainya ada 1 yaitu berarti benar dengan nilai yang di cari dengan weka
2. FP Rate Setelah TP rate sudah di dapatkan hasilnya maka selanjutnya kami mencari nilai FP Rate. Yaitu pada Class Lanjut
[Type text]
Page 26
Jadi FP Rate Pada Kelas Berhenti yaitu bernilai 0 yang artinya nilainya sama dengan apa yang di munculkan Weka Setelah FP Rate pada Class Lanjut Sudah di dapat nilainya maka selanjutnya mencari FP Rate pada Class Berhenti
3. Precesion Untuk Mencari Nilai Precesion kita harus menggunakan nilai A1=175 dan A2=0 dengan rumus :
Nilai Precesion untuk Class Lanjut sama dengan 1 Untuk Mencari Precesion Kelas Berhenti Kita Harus Menggunakan Nilai B1=126 B2 =0 dengan rumus :
4. Recall Untuk mencari nilai dari Recall kita harus menggunakan nilai dari TP dan FN dengan rumus sebagai berikut :
[Type text]
Page 27
Nilai Recall untuk class Lanjut sama dengan 1
5. F-measure Untuk mencari nilai F-measure kita harus menggunakan nilai precesion dan recall Dengan rumus sebagai berikut
Selain Menggunakan use training set untuk mengevaluasi kami juga menggunakan supplied test set untuk mengevaluasi data tesebut.
c. Cros Validation
Gambar 13. Tampilan TP, FP,Precesion Recall dan F-Measure untuk Cross Validation a. TP Rate TP Rate (True Positif) Pada Class Lanjut yaitu dengan rumus berikut [Type text]
Page 28
Jadi Nilai dari TP Rate yang class Lanjut nilainya adalah 1 berarti nilai di Weka dengan yang manual benar TN rate(True Negatif) pada class Berhenti dapat dirumuskan dengan rumus berikut
Jadi Nilai dari TN rate yang class berhenti nilainya ada 1 yaitu berarti benar dengan nilai yang di cari dengan weka b. FP Rate Setelah TP rate sudah di dapatkan hasilnya maka selanjutnya kami mencari nilai FP Rate. Yaitu pada Class Berhenti
Jadi FP Rate Pada Kelas Berhenti yaitu bernilai 0 yang artinya nilainya sama dengan apa yang di munculkan Weka Setelah FP Rate pada Class Lanjut Sudah di dapat nilainya maka selanjutnya mencari FP Rate pada Class Lanjut [Type text]
Page 29
c. Precesion Untuk Mencari Nilai Precesion Lanjut kita harus menggunakan nilai A1=90 A2=49 dengan rumus :
Jadi Nilai Precesion Class Lanjut adalah 0.604 Untuk Mencari Nilai Precesion Berhenti Kita Menggunakan Nilai B1=67 B2=85
Jadi Nilai Precesion Class Berhenti adalah 0.441
d. Recall Untuk mencari nilai dari Recall kita harus menggunakan nilai dari TP dan FN dengan rumus sebagai berikut :
Jadi Nilai Recall Untuk Class Lanjut adalah 0.514
[Type text]
Page 30
e. F-measure Untuk mencari nilai F-measure kita harus menggunakan nilai precesion dan recall Dengan rumus sebagai berikut
Jadi Nilai dari F-Measure pada Class Lanjut adalah 0.556
Jadi Nilai dari F-Measure pada Class Berhenti adalah 0.482 d. Percentage Split
[Type text]
Page 31
Gambar 14. Tampilan TP, FP,Precesion, Recall dan F-Measure untuk Percentage Split
a. TP Rate TP Rate (True Positif) Pada Class Lanjut yaitu dengan rumus berikut
= 0.667
Jadi Nilai dari TP Rate yang class Lanjut nilainya adalah 0.667 berarti nilai di Weka dengan yang manual benar TN rate(True Negatif) pada class Berhenti dapat dirumuskan dengan rumus berikut
= 0.479
Jadi Nilai dari TN rate yang class berhenti nilainya ada 0.479 yaitu berarti benar dengan nilai yang di cari dengan weka b. FP Rate Setelah TP rate sudah di dapatkan hasilnya maka selanjutnya kami mencari nilai FP Rate. Yaitu pada Class Berhenti
[Type text]
= 0.333
Page 32
Jadi FP Rate Pada Kelas Berhenti yaitu bernilai 0.333 yang artinya nilainya sama dengan apa yang di munculkan Weka Setelah FP Rate pada Class Lanjut Sudah di dapat nilainya maka selanjutnya mencari FP Rate pada Class Lanjut
= 0.521
c. Precesion Untuk Mencari Nilai Precesion Class lanjut kita harus menggunakan nilai A1=36 dan A2=25 dengan rumus :
= 0.59
Untuk Mencari Nilai Precesion Class Berhenti kita harus menggunakan nilai B1=23 B2=18 dengan rumus :
= 0.561
d. Recall Untuk mencari nilai dari Recall kita harus menggunakan nilai dari TP dan FN dengan rumus sebagai berikut :
[Type text]
Page 33
= 0.667
Jadi Nilai Recall Untuk Class Lanjut adalah 0.667
= 0.479
Jadi Nilai Recall untuk Class Berhenti adalah 0.479 e. F-measure Untuk mencari nilai F-measure kita harus menggunakan nilai precesion dan recall Dengan rumus sebagai berikut
= 0.626
Jadi Nilai dari F-Measure pada Class Lanjut adalah 0.556
[Type text]
= 0.482
Page 34
BAB V PENUTUP A. Kesimpulan
Dari penjelasan atau Implementasi
di atas dapat disimpulkan bahwa dengan
pengklasifikasian dengan metode Navie bayes yaitu suatu klasifikasi berpeluang sederhana berdasarkan aplikasi teorema Bayes dengan asumsi antar variabel penjelas saling bebas (independen). Dalam hal ini, diasumsikan bahwa Lanjut atau Berhenti dari suatu kejadian tertentu dari suatu kelompok tidak berhubungan dengan Lanjut atau Berhenti dari kejadian lainnya. Dan Juga dapat Disimpulkan bahawa Setiap Tes Option Memili Correctly Classified Instances, Incorrectly Classified Instances, Relative absolute error, Root relative squared error dan Nilai TP, FB, Precesion Recall dan T-Measure yang berbeda. B. Saran Dari data mining di atas bahwa masih terdapat kekurangan dalam data mining karena masih memili Error dalam test Option yang di lakukan. Disarankan supaya saat melakukan atau Membuat Data mining data yang di dalam Format xl atau CSV sebaiknya di buat lebih baik lagi. Supaya saat dilakukan klasifikasi menggunakan metode yang digunakan dan dilakukan tes option tidak mengalami data yang Error
[Type text]
Page 35