TEKNIK/FUNGSIONAL DATA MINING Deskripsi Estimasi Prediksi Klasifikasi Cluster/Segmentasi Asosiasi
Dirangkum Oleh: Annisa Arfani Yusuf, Yusuf, S.SI
DESKRIPSI • Terkadang peneliti dan analis secara sederhana ingin
mencoba mencari cara untuk menggambarkan pola pola dan kecenderungan kecenderungan yang terdapat dalam data. • Sebagai contoh, petugas pengumpulan suara mungkin
tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. • Deskripsi
dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan. kecenderungan.
(Larose dalam Kusrini dan Luthfi, 2009)
DESKRIPSI • Terkadang peneliti dan analis secara sederhana ingin
mencoba mencari cara untuk menggambarkan pola pola dan kecenderungan kecenderungan yang terdapat dalam data. • Sebagai contoh, petugas pengumpulan suara mungkin
tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. • Deskripsi
dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan. kecenderungan.
(Larose dalam Kusrini dan Luthfi, 2009)
Deskripsi (Lanj) • Ketika kita diberikan sekumpulan data, kita akan sulit
untuk menangkap arti dari kumpulan data tersebut. Sehingga diperlukan cara agar data tersebut mudah dibaca untuk mendapatkan gambaran mengenai data tersebut. • Terdapat beberapa cara untuk memberikan gambaran
mengenai sekumpulan data secara ringkas.
Deskripsi (Lanj) • Deskripsi Grafis mendeskripsikan data dalam bentuk gambar. Diagram Titik Histogram
• Deskripsi Lokasi memberikan informasi mengenai data pada
posisi tempat tertentu. Mean (Rata-rata) Median Modus Kuartil, Desil dan Persentil
• Deskripsi Keberagaman member ikan nilai keberagaman pada
data. Range (Rentang) Varians dan Standar Deviasi
Deskripsi Deskripsi Grafis Histogram
Diagram Titik Pada diagram ini, setiap data digambarkan sebagai sebuah titik
Pada diagram ini, setiap data digambarkan dengan grafis batangan.
Nilai UAS
Nilai UAS
100
100
90
90
80
80 70
70
60
60
50 50
Nilai UAS
40
Nilai UAS
40 30
30
20
20
10
10
0
0 0
5
10
15
20
i h o n a a a t i y y t r l a i n a i n r i r d n a k i d k i d i e A l i i a w n D r r v e d o v n n N b B i e i l a o H I n J K L o E F C i O M G
Deskripsi Deskripsi Lokasi Meskipun deskripsi grafis sudah menggambarkan karakteristik data, sifatnya masih terlalu kasar dan kurang praktis untuk dilakukan. Kita memerlukan angka yang cukup mewakili data dan diperoleh secara praktis daripada grafis.
Deskripsi Deskripsi Lokasi • Mean yakni mengambil nilai rata-rata pada suatu kumpulan data.
Rumus:
• Median yakni mencari nilai tengah pada satu kumpulan data yang
diurutkan. • Modus yakni nilai yang paling sering muncul p ada suatu kumpulan
data.
Deskripsi Deskripsi Lokasi • Kuartil adalah data yang membagi kumpulan data terurut
menjadi 4 bagian yang sama. Terdapat tiga macam Kuartil, yakni Kuartil Bawah (Q1), Kuartil Tengah (Q2), dan Kuartil Atas (Q3). Rumus Kuartil untuk Data Tunggal Ganjil: • Desil adalah nilai yang membagi data menjadi 10 bagian
yang sama banyak dari data terurut. Rumus Desil untuk Data Tunggal : • Persentil merupakan pembagian data dengan 100
bagian. Rumus Persentil Data Tunggal :
Deskripsi Deskripsi Keberagaman • Range (rentang) menyatakan besarnya rentang jarak
antara data terkecil dengan data terbesar. Rentang yang besar menandakan bahwa data relatif beragam dan sebaliknya. • Varians dan Standar Deviasi. Ukuran varians
menggunakan prinsip pencarian jarak antara setiap data dengan pusatnya (mean). • Rumus Varians : • Standar Deviasi = akar dari varians • Hasil perhitungan varians dan standar deviasi dari Tabel A
dan Tabel B.
Deskripsi Deskripsi Keberagaman Varians dan Standar Deviasi
ESTIMASI • Konsep atau algoritma pada estimasi hampir sama
dengan klasifikasi, kecuali variabel target lebih ke arah numerik daripada ke arah kategori. • Estimasi nilai dari variabel target ditentukan berdasarkan nilai dari variabel prediksi (atribut). • Estimasi juga memiliki sedikit persamaan dengan prediksi, yakni untuk memperkirakan suatu hal. • Sebagai contoh akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. • Algoritma estimasi yang biasa digunakan adalah: Linear Regression, Neural Network, Support Vector Machine.
Estimation Example Estimasi Performasi CPU Example: 209 different computer configurations Cycle time (ns)
Main memory (Kb)
Cache (Kb)
Channels
Performance
MYCT
MMIN
MMAX
CACH
CHMIN
CHMAX
PRP
1
125
256
6000
256
16
128
198
2
29
8000
32000
32
8
32
269
208
480
512
8000
32
0
0
67
209
480
1000
4000
0
0
0
45
…
Source : Romi Wahono
PREDIKSI • Prediksi hampir sama dengan klasifikasi dan estimasi,
kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. • Dikatakan hampir sama dengan klasifikasi karena menghasilkan perkiraan yang berbentuk kategorial. • Dikatakan hampir sama dengan estimasi karena memiliki sama-sama bersifat perkiraan, hanya saja hasil pada prediksi menunjukkan hasil pada masa yang akan datang. • Pada prediksi, data yang digunakan merupakan data rentet waktu (data time series). • Algoritma yang sering digunakan Algoritma C4.5, Neural Network, dan seluruh algoritma yang dapat digunakan untuk estimasi.
Contoh Kasus Prediksi • Prediksi potensi akademik mahasiswa yang akan datang
berdasarkan nilai IPK mahasiswa selama beberapa semester. • Prediksi harga beras dalam tiga bulan yang akan datang. • Prediksi persentase kenaikan kecelakaan lalu lintas tahun
depan jika batas bawah kecepatan dinaikan. • Prediksi potensi penjualan barang-barang elektronik
tahun depan berdasarkan penjualan tiga tahun sebelumnya. • Prediksi harga saham dalam beberapa bulan ke depan
berdasarkan performansi perusahaan dan data-data ekonomi.
KLASIFIKASI • Klasifikasi merupakan suatu pekerjaan menilai objek data untuk
memasukannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. • Dalam klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu : a. pembangunan model sebagai prototipe untuk disimpan sebagai memori. b. penggunaan model tersebut untuk melakukan pengenalan/klasifikasi/prediksi pada suatu objek data lain agar dapat diketahui di kelas mana objek data tersebut dalam model yang sudah disimpannya. • Contoh : bagaimana melakukan diagnosis penyakit kulit kanker melanoma, yaitu dengan melakukan pembangunan model berdasarkan data latih (data training ) yang ada, kemudian menggunakan model tersebut untuk mengidentifikasi penyakit pasien baru sehingga diketahui apakah pasien tersebut menderita kanker atau tidak. • Algoritma yang sering digunakan : Naïve Bayes, K-Nearest Neighbor, C4.5 Algorithm, Artificial Neural Network , dll.
Masukan Data Latih (x,y)
Algoritma Pelatihan
Pembangunan Model
Masukan Data Uji (x,?)
Peneriapan Model
Keluaran Data Uji (x,y)
Berdasarkan gambar „Proses Pekerjaan Klasifikasi‟, diketahui terdapat dua langkah proses didalamnya, yakni:
Induksi
Langkah membangun model klasifikasi dari data latih yang diberikan, disebut juga proses pelatihan
Deduksi
Langkah untuk menerapkan model tersebut pada data uji sehingga kelas yang sesungguhnya dari data uji dapat diketahui, disebut juga proses prediksi.
Sebuah sistem klasifikasi diharapkan dapat melakukan klasifikasi seluruh dataset dengan benar, tetapi tidak dapat dimungkiri bahwa kinerja suatu sistem tidak bisa 100% benar, sehingga sistem klasifikasi juga harus diukur kinerjanya!
Gunakan Matriks Konfusi!
Matriks konfusi merupakan tabel pencatat hasil kerja klasifikasi.
Contoh : Matriks konfusi yang melakukan klasifikasi masalah biner (dua kelas)
Kelas hasil prediksi (j) Kelas = 1
Kelas asli
(i)
Kelas = 0
Kelas = 1
Kelas = 0
Setiap sel dalam matriks menyatakan jumlah rekord/data dari kelas i yang hasil prediksinya masuk ke kelas j . Misalnya, sel adalah jumlah data dalam kelas 1 yang secara benar dipetakan ke kelas 1, dan adalah data dalam kelas 1 yang dipetakan secara salah ke kelas 0 .
Sehingga dapat diketahui bahwa : • dan adalah data yang diklasifikasikan dengan benar • dan adalah data yang diklasifikasikan secara salah
Kuantitas matriks konfusi dapat diringkas menjadi dua nilai, yaitu akurasi dan laju eror Jumlah data yang diklasifikasi secara benar dapat digunakan untuk mengetahui akurasi hasil prediksi. Jumlah data yang diklasifikasi secara salah dapat digunakan untuk mengetahui laju eror hasil prediksi.
Akurasi =
ℎ ℎ
Laju Eror =
=
+ + + +
ℎ ℎ ℎ
=
+ + + +
Contoh Studi Kasus Klasifikasi • Petugas peminjaman uang di sebuah bank memprediksi
pemohon mana yang aman dan mana yang beresiko untuk diberi pinjaman • Para petani menentukan jagung produktif dan jagung
non-produktif • Mengklasifikasi pasien pengidap penyakit kanker dan
yang tidak mengidap penyakit kanker. • Periset di bidang medis memprediksi jenis pengobatan
apa yang cocok diberikan kepada seorang pasien dengan penyakit tertentu.
CLUSTERRING (PENGELOMPOKAN) Clusterring merupakan pengelompokan r e c o r d , pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Cluster adalah kumpulan r e c o r d yang memiliki kemiripan satu dengan yang lainnya dan memiliki kemiripan dengan r e c o r d - r e c o r d dalam c l u s t e r lain. C l u s t e r r i n g kadang juga disebut s e g m e n t a t i o n atau p a r t i t i o n i n g .
Label kelas telah diketahui. (supervised classification)
Pengelompokan yang melakukan pemisahan/pemecahan/segmentasi data ke dalam sejumlah kelompok menurut karakteristik tertentu yang diinginkan. Pengelompokan diharapkan dapat diketahui kelompok data kemudian diberi label sesuai keinginan
Label kelas setiap data belum diketahui. (unsupervised classification)
Itulah Clusterring !
Hasil pengelompokan yang berbeda untuk data yang sama (Prasetyo, 2012)
Tujuan Clusterring Pemahaman Proses pengelompokan hanyalah sebagai proses awal kemudian dilanjutkan dgn pengerjaan inti seperti summarization, pelabelan kelas pada setiap kelompok, dsb.
Biologi Information Retrieval Bisnis
Summarization Penggunaan Tujuan utamanya mencari prototipe kelompok yang paling representatif terhadap data, memberikan abstraksi dari setiap objek data dalam kelompok di mana sebuah data terletak di dalamnya.
Kompresi Pencarian tetangga terdekat
Mengelompokan hewan menurut karakter tertentu secara hierarkis (spesies, genus, suku, ordo, kelas, filum, kerajaan) Mengelompokkan kata kunci misalnya “movie” diberikan hasil halaman yg dibedakan dalam kategori seperti “genre”, “stars”, “theaters”, dsb Memecah pelanggan ke dalam kelompokkelompok kecil untuk analisis dan strategi pemasaran
Membuat prototipe yang dapat mewakili kondisi seluruh data, misalnya mengambil rata-rata dan standar deviasi dari suatu data. Data-data dalam kelompok yg sama dapat dikompresi dan diwakili oleh indeks prototipe dari tiap kelompok. Setiap objek direpresentasikan dgn indeks prototipe yg dikaitkan dgn sebuah kelompok. Komputasi pencarian tetangga terdekat dapat digantikan dengan prototipe terrdekat. Hal ini dapat mengurangi waktu komputasi secara
Jenis-jenis Clusterring Pengelompokan Hierarki
Satu data tunggal bisa dianggap sebuah kelompok, dua atau lebih kelompok kecil dapat bergabung menjadi sebuah kelompok besar, dst hingga membentuk sebuah kelompok
Pengelompokan Partitioning
Membagi set data ke dalam sejumlah kelompok yang tidak overlap antara satu kelompok dengan kelompok yang lain. Artinya setiap data hanya menjadi anggota satu kelompok. Algoritma : K-Means dan DBSCAN
Menurut struktur
Menurut keanggotaan data dalam kelompok
Eksklusif
Sebuah data dipastikan hanya menjadi anggota satu kelompok dan tidak menjadi anggota kelompok yang lain. Algoritma : K-Means dan DBSCAN
Tumpang tindih
Membolehkan sebuah data menjadi anggota di lebih dari satu kelompok. Algoritma : Fuzzy C-Means, pengelompokan hierarki.
Komplet Menurut kategori kekompakan Parsial
Jika semua data bisa bergabung menjadi satu (dalam konteks penyekatan), bisa dikatakan semua data kompak menjadi satu kelompok. Namun jika ada satu atau dua (sedikit) data yang tidak ikut bergabung dalam kelompok mayoritas, data tersebut dikatakan memiliki perilaku menyimpang, yang dikenal sebagai outlier , noise, atau “uninterested background .
Penerapan Clusterring Mengelompokan jenis-jenis penyakit berbahaya berdasarkan karakteristik/sifatsifat penyakit pasien
Kedokteran
Mengelompokan jenis-jenis makanan berdasarkan kandungan kalori, vitamin, dan protein.
Kesehatan
Klimatologi
Pemasaran
Biologi
Mengetahui pola angin dan kondisi cuaca di udara sehingga bisa diketahui wilayah-wilayah yang rentan terhadap cuaca buruk, dan sebagainya. Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar Melakukan pengelompokan terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar
ASOSIASI Asosiasi atau yang sering disebut sebagai A s s o c i a t i o n r u l e s (Aturan asosiasi) berkenaan dengan studi mengenai ‘apa bersama apa ’.
Contohnya adalah transaksi di supermarket. Misalnya pelanggan ibu rumah tangga yang membeli minyak, susu, dan telur, jarang menyertai pembelian tersebut dengan buku dan topi. Seseorang yang membeli susu bayi juga membeli sabun bayi.
Association rules juga sering dinamakan m a r k et b a s k e t a n a l y s i s karena berasal dari studi tentang database transaksi pelanggan untuk menentukan kebiasaan suatu produk dibeli bersama dengan produk apa.
Manajemen dapat membuat keputusan kapan waktu yang tepat untuk promosi barang
Manajemen pembelian barang yang sebaiknya dibeli bersama-sama
Bagaimana strategi untuk menghabiskan barang yang kurang laku
Meningkatkan strategi dengan cara memberikan bonus satu barang jika melakukan pembelian barang lain.
IDT
Item
1
Telur, Beras
2
Minyak, Topi, Beras, Telur
3
Telur, Minyak, Beras, Buku
4
Buku, Minyak, Topi
5
Beras, Telur, Topi, Minyak
6
Telur, Minyak, Beras
7
Telur, Minyak, Buku
8
Beras, Buku
Representasi Biner untuk Data Keranjang Belanja
Data Transaksi Keranjang Belanja
IDT
Beras
Buku
Minyak
Telur
Topi
1
1
0
0
1
0
2
1
0
1
1
1
3
1
1
1
1
0
4
0
1
1
0
1
5
1
0
1
1
1
6
1
0
1
1
0
7
0
1
1
1
0
8
1
1
0
0
0
Sifat penting dalam i t e m s e t (kumpulan item di keranjang belanja dalam jumlah kosong atau lebih) adalah s u p p o r t c o u n t , yang didefinisikan sebagai jumlah transaksi yang berisi itemset tertentu.
Secara matematis, support count dinotasikan sebagai (X) . Sementara itemset X dapat , T}| dinyatakan sebagai (X) = |{ | X Keterangan: T = Transaksi = Transaksi ke-I | . | = jumlah item dalam set
Contoh : Support count untuk {Beras, Minyak} adalah 4, karena ada 4 transaksi yang berisi {Beras, Minyak}
Association rule adalah pernyataan implikasi bentuk X Y , di mana X disebut antecedent dan B disebut consequent . Kekuatan assocation rule dapat diukur dengan s u p p o r t dan c o n f i d e n c e .
Apakah S u p p o r t dan Confidence ? S u p p o r t digunakan
digunakan untuk menentukan seberapa sering item di dalam Y muncul dalam transaksi berisi X !!
untuk menentukan seberapa banyak aturan dapat diterapkan pada set data !!
RUMUS
Support,s(X Y) =
Confidence
(
Contoh: X = {Beras, Telur} , Y = {Minyak} XY = {Beras, Telur, Minyak} ada 4 N (total transaksi) = 8
)
Confidence,c(X Y) =
(
)
()
s(X Y) = 4/8 = 0.5 c(X Y) = 4/5 = 0.8
{roti,mentega}
{susu} (support = 40%, confidence = 50%)
Artinya : • ”50% dari transaksi di database yang memuat item roti dan mentega juga memuat item susu. Sedangkan 40% dari seluruh transaksi yang ada di database memuat ketiga item tersebut” • "Seorang konsumen yang membeli roti dan mentega punya kemungkinan 50% untuk juga membeli susu. Aturan tersebut cukup akurat karena mewakili 40% dari catatan transaksi yang ada."
Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan asosiasi yang memenuhi syarat minimum untuk s u p p o r t (m i n i m u m s u p p o r t / m i n s u p = m i n s u p ) dan syarat minimum untuk c o n f i d e n c e ( m i n i m u m c o n f i d e n c e / m i n c o f = mincof ). Strategi umum yang diadopsi oleh banyak algoritma penggalian aturan asosiasi adalah memecah masalah ke dalam dua pekerjaan utama, yaitu: 1. f req u en t i tem s e t g en er at io n tujuannya adalah mencari semua itemset yang memenuhi ambang batas minsup. Itemset itu disebut itemset frekuen (itemset yang paling sering muncul). 2. r ule g en er at io n tujuannya adalah mengekstrak aturan dengan confidence tinggi dari itemset frekuen yang ditemukan dalam langkah sebelumnya. Aturan ini kemudian disebut aturan yang kuat (strong rule).
Sumber • AB, Adam. Data Mining I. Bahan Ajar . Universitas Darma
Persada http://mynameadam.files.wordpress.com/2012/11/datamin ingi_p12-compatibility-mode.pdf • Kusrini dan Luthfi. 2009. Algoritma Data Mining . Yogyakarta: ANDI • Prasetyo, Eko. 2012. DATA MINING – Konsep dan Aplikasi Menggunakan MATLAB. Yogyakarta: ANDI • Santosa, Budi. 2007. DATA MINING: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu • Wahono, Romi. Bahan Ajar http://lintang.staff.gunadarma.ac.id/Downloads/files/34245 /Introduction_DM_RSW_1.pdf