04 - Teknik Atau Fungsionalitas Data Mining

TEKNIK/FUNGSIONAL DATA MINING Deskripsi  Estimasi  Prediksi  Klasifikasi  Cluster/Segmentasi  Asosiasi 

Dirangkum Oleh: Annisa Arfani Yusuf, Yusuf, S.SI

DESKRIPSI • Terkadang peneliti dan analis secara sederhana ingin

mencoba mencari cara untuk menggambarkan pola pola dan kecenderungan kecenderungan yang terdapat dalam data. • Sebagai contoh, petugas pengumpulan suara mungkin

tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. • Deskripsi

dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan. kecenderungan.

(Larose dalam Kusrini dan Luthfi, 2009)

DESKRIPSI • Terkadang peneliti dan analis secara sederhana ingin

mencoba mencari cara untuk menggambarkan pola pola dan kecenderungan kecenderungan yang terdapat dalam data. • Sebagai contoh, petugas pengumpulan suara mungkin

tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. • Deskripsi

dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan. kecenderungan.

(Larose dalam Kusrini dan Luthfi, 2009)

Deskripsi (Lanj) • Ketika kita diberikan sekumpulan data, kita akan sulit

untuk menangkap arti dari kumpulan data tersebut. Sehingga diperlukan cara agar data tersebut mudah dibaca untuk mendapatkan gambaran mengenai data tersebut. • Terdapat beberapa cara untuk memberikan gambaran

mengenai sekumpulan data secara ringkas.

Deskripsi (Lanj) • Deskripsi Grafis  mendeskripsikan data dalam bentuk gambar.  Diagram Titik  Histogram

• Deskripsi Lokasi  memberikan informasi mengenai data pada

posisi tempat tertentu.  Mean (Rata-rata)  Median  Modus  Kuartil, Desil dan Persentil

• Deskripsi Keberagaman  member ikan nilai keberagaman pada

data.  Range (Rentang)  Varians dan Standar Deviasi

Deskripsi  Deskripsi Grafis Histogram

Diagram Titik Pada diagram ini, setiap data digambarkan sebagai sebuah titik

Pada diagram ini, setiap data digambarkan dengan grafis batangan.

Nilai UAS

Nilai UAS

100

100

90

90

80

80 70

70

60

60

50 50

Nilai UAS

40

Nilai UAS

40 30

30

20

20

10

10

0

0 0

5

10

15

20

i h o n a a a t i y y t r l a i n a i n r i r d n a k i d k i d i e A l i i a w n D r r v e d o v n n N b B i e i l a o H I n J K L o E F C i O M G

Deskripsi  Deskripsi Lokasi Meskipun deskripsi grafis sudah menggambarkan karakteristik data, sifatnya masih terlalu kasar dan kurang praktis untuk dilakukan. Kita memerlukan angka yang cukup mewakili data dan diperoleh secara praktis daripada grafis.

Deskripsi  Deskripsi Lokasi • Mean yakni mengambil nilai rata-rata pada suatu kumpulan data.

Rumus:

• Median yakni mencari nilai tengah pada satu kumpulan data yang

diurutkan. • Modus yakni nilai yang paling sering muncul p ada suatu kumpulan

data.

Deskripsi  Deskripsi Lokasi • Kuartil adalah data yang membagi kumpulan data terurut

menjadi 4 bagian yang sama. Terdapat tiga macam Kuartil, yakni Kuartil Bawah (Q1), Kuartil Tengah (Q2), dan Kuartil Atas (Q3). Rumus Kuartil untuk Data Tunggal Ganjil: • Desil adalah nilai yang membagi data menjadi 10 bagian

yang sama banyak dari data terurut. Rumus Desil untuk Data Tunggal : • Persentil merupakan pembagian data dengan 100

bagian. Rumus Persentil Data Tunggal :

Deskripsi  Deskripsi Keberagaman • Range (rentang) menyatakan besarnya rentang jarak

antara data terkecil dengan data terbesar. Rentang yang besar menandakan bahwa data relatif beragam dan sebaliknya. • Varians dan Standar Deviasi. Ukuran varians

menggunakan prinsip pencarian jarak antara setiap data dengan pusatnya (mean). • Rumus Varians : • Standar Deviasi = akar dari varians • Hasil perhitungan varians dan standar deviasi dari Tabel A

dan Tabel B.

Deskripsi  Deskripsi Keberagaman  Varians dan Standar Deviasi

ESTIMASI • Konsep atau algoritma pada estimasi hampir sama

dengan klasifikasi, kecuali variabel target lebih ke arah numerik daripada ke arah kategori. • Estimasi nilai dari variabel target ditentukan berdasarkan nilai dari variabel prediksi (atribut). • Estimasi juga memiliki sedikit persamaan dengan prediksi, yakni untuk memperkirakan suatu hal. • Sebagai contoh akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. • Algoritma estimasi yang biasa digunakan adalah: Linear Regression, Neural Network, Support Vector Machine.

Estimation Example Estimasi Performasi CPU Example: 209 different computer configurations Cycle time (ns)

Main memory (Kb)

Cache (Kb)

Channels

Performance

MYCT

MMIN

MMAX

CACH

CHMIN

CHMAX

PRP

1

125

256

6000

256

16

128

198

2

29

8000

32000

32

8

32

269

208

480

512

8000

32

0

0

67

209

480

1000

4000

0

0

0

45

…

Source : Romi Wahono

PREDIKSI • Prediksi hampir sama dengan klasifikasi dan estimasi,

kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. • Dikatakan hampir sama dengan klasifikasi karena menghasilkan perkiraan yang berbentuk kategorial. • Dikatakan hampir sama dengan estimasi karena memiliki sama-sama bersifat perkiraan, hanya saja hasil pada prediksi menunjukkan hasil pada masa yang akan datang. • Pada prediksi, data yang digunakan merupakan data rentet waktu (data time series). • Algoritma yang sering digunakan Algoritma C4.5, Neural Network, dan seluruh algoritma yang dapat digunakan untuk estimasi.

Contoh Kasus Prediksi • Prediksi potensi akademik mahasiswa yang akan datang

berdasarkan nilai IPK mahasiswa selama beberapa semester. • Prediksi harga beras dalam tiga bulan yang akan datang. • Prediksi persentase kenaikan kecelakaan lalu lintas tahun

depan jika batas bawah kecepatan dinaikan. • Prediksi potensi penjualan barang-barang elektronik

tahun depan berdasarkan penjualan tiga tahun sebelumnya. • Prediksi harga saham dalam beberapa bulan ke depan

berdasarkan performansi perusahaan dan data-data ekonomi.

KLASIFIKASI • Klasifikasi merupakan suatu pekerjaan menilai objek data untuk

memasukannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. • Dalam klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu : a. pembangunan model sebagai prototipe untuk disimpan sebagai memori. b. penggunaan model tersebut untuk melakukan pengenalan/klasifikasi/prediksi pada suatu objek data lain agar dapat diketahui di kelas mana objek data tersebut dalam model yang sudah disimpannya. • Contoh : bagaimana melakukan diagnosis penyakit kulit kanker melanoma, yaitu dengan melakukan pembangunan model berdasarkan data latih (data training ) yang ada, kemudian menggunakan model tersebut untuk mengidentifikasi penyakit pasien baru sehingga diketahui apakah pasien tersebut menderita kanker atau tidak. • Algoritma yang sering digunakan : Naïve Bayes, K-Nearest Neighbor, C4.5 Algorithm, Artificial Neural Network , dll.

Masukan Data Latih (x,y)

Algoritma Pelatihan

Pembangunan Model

Masukan Data Uji (x,?)

Peneriapan Model

Keluaran Data Uji (x,y)

Berdasarkan gambar „Proses Pekerjaan Klasifikasi‟, diketahui terdapat dua langkah proses didalamnya, yakni:

Induksi

Langkah membangun model klasifikasi dari data latih yang diberikan, disebut juga proses pelatihan

Deduksi

Langkah untuk menerapkan model tersebut pada data uji sehingga kelas yang sesungguhnya dari data uji dapat diketahui, disebut juga proses prediksi.

Sebuah sistem klasifikasi diharapkan dapat melakukan klasifikasi seluruh dataset dengan benar, tetapi tidak dapat dimungkiri bahwa kinerja suatu sistem tidak bisa 100% benar, sehingga sistem klasifikasi juga harus diukur kinerjanya!

Gunakan Matriks Konfusi!

Matriks konfusi merupakan tabel pencatat hasil kerja klasifikasi.

Contoh : Matriks konfusi yang melakukan klasifikasi masalah biner (dua kelas) 

Kelas hasil prediksi (j) Kelas = 1

Kelas asli

(i)

Kelas = 0

Kelas = 1





Kelas = 0





Setiap sel  dalam matriks menyatakan jumlah rekord/data dari kelas i yang hasil prediksinya masuk ke kelas j . Misalnya, sel  adalah jumlah data dalam kelas 1 yang secara benar dipetakan ke kelas 1, dan  adalah data dalam kelas 1 yang dipetakan secara salah ke kelas 0 .

Sehingga dapat diketahui bahwa : •  dan  adalah data yang diklasifikasikan dengan benar •  dan  adalah data yang diklasifikasikan secara salah

Kuantitas matriks konfusi dapat diringkas menjadi dua nilai, yaitu akurasi dan laju eror Jumlah data yang diklasifikasi secara benar dapat digunakan untuk mengetahui akurasi hasil prediksi. Jumlah data yang diklasifikasi secara salah dapat digunakan untuk mengetahui laju eror hasil prediksi.

Akurasi =

ℎ      ℎ   

Laju Eror =

=

 +  + + +

ℎ     ℎ ℎ   

=

 +  + + +

Contoh Studi Kasus Klasifikasi • Petugas peminjaman uang di sebuah bank memprediksi

pemohon mana yang aman dan mana yang beresiko untuk diberi pinjaman • Para petani menentukan jagung produktif dan jagung

non-produktif • Mengklasifikasi pasien pengidap penyakit kanker dan

yang tidak mengidap penyakit kanker. • Periset di bidang medis memprediksi jenis pengobatan

apa yang cocok diberikan kepada seorang pasien dengan penyakit tertentu.

CLUSTERRING (PENGELOMPOKAN) Clusterring merupakan pengelompokan r e c o r d , pengamatan, atau

memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Cluster adalah kumpulan r e c o r d yang memiliki kemiripan satu dengan yang lainnya dan memiliki kemiripan dengan r e c o r d - r e c o r d dalam c l u s t e r lain. C l u s t e r r i n g kadang juga disebut s e g m e n t a t i o n atau p a r t i t i o n i n g .

Label kelas telah diketahui. (supervised classification)

Pengelompokan yang melakukan pemisahan/pemecahan/segmentasi data ke dalam sejumlah kelompok menurut karakteristik tertentu yang diinginkan. Pengelompokan diharapkan dapat diketahui kelompok data kemudian diberi label sesuai keinginan

Label kelas setiap data belum diketahui. (unsupervised classification)

Itulah Clusterring !

Hasil pengelompokan yang berbeda untuk data yang sama (Prasetyo, 2012)

Tujuan Clusterring Pemahaman Proses pengelompokan hanyalah sebagai proses awal kemudian dilanjutkan dgn pengerjaan inti seperti summarization, pelabelan kelas pada setiap kelompok, dsb.

Biologi Information Retrieval Bisnis

Summarization Penggunaan Tujuan utamanya mencari prototipe kelompok yang paling representatif terhadap data, memberikan abstraksi dari setiap objek data dalam kelompok di mana sebuah data terletak di dalamnya.

Kompresi Pencarian tetangga terdekat

Mengelompokan hewan menurut karakter tertentu secara hierarkis (spesies, genus, suku, ordo, kelas, filum, kerajaan) Mengelompokkan kata kunci misalnya “movie” diberikan hasil halaman yg dibedakan dalam kategori seperti “genre”, “stars”, “theaters”, dsb Memecah pelanggan ke dalam kelompokkelompok kecil untuk analisis dan strategi pemasaran

Membuat prototipe yang dapat mewakili kondisi seluruh data, misalnya mengambil rata-rata dan standar deviasi dari suatu data. Data-data dalam kelompok yg sama dapat dikompresi dan diwakili oleh indeks prototipe dari tiap kelompok. Setiap objek direpresentasikan dgn indeks prototipe yg dikaitkan dgn sebuah kelompok. Komputasi pencarian tetangga terdekat dapat digantikan dengan prototipe terrdekat. Hal ini dapat mengurangi waktu komputasi secara

Jenis-jenis Clusterring Pengelompokan Hierarki

Satu data tunggal bisa dianggap sebuah kelompok, dua atau lebih kelompok kecil dapat bergabung menjadi sebuah kelompok besar, dst hingga membentuk sebuah kelompok

Pengelompokan Partitioning

Membagi set data ke dalam sejumlah kelompok yang tidak overlap antara satu kelompok dengan kelompok yang lain. Artinya setiap data hanya menjadi anggota satu kelompok. Algoritma : K-Means dan DBSCAN

Menurut struktur

Menurut keanggotaan data dalam kelompok

Eksklusif

Sebuah data dipastikan hanya menjadi anggota satu kelompok dan tidak menjadi anggota kelompok yang lain. Algoritma : K-Means dan DBSCAN

Tumpang tindih

Membolehkan sebuah data menjadi anggota di lebih dari satu kelompok. Algoritma : Fuzzy C-Means, pengelompokan hierarki.

Komplet Menurut kategori kekompakan Parsial

Jika semua data bisa bergabung menjadi satu (dalam konteks penyekatan), bisa dikatakan semua data kompak menjadi satu kelompok. Namun jika ada satu atau dua (sedikit) data yang tidak ikut bergabung dalam kelompok mayoritas, data tersebut dikatakan memiliki perilaku menyimpang, yang dikenal sebagai outlier , noise, atau “uninterested background .

Penerapan Clusterring Mengelompokan jenis-jenis penyakit berbahaya berdasarkan karakteristik/sifatsifat penyakit pasien

Kedokteran

Mengelompokan jenis-jenis makanan berdasarkan kandungan kalori, vitamin, dan protein.

Kesehatan

Klimatologi

Pemasaran

Biologi

Mengetahui pola angin dan kondisi cuaca di udara sehingga bisa diketahui wilayah-wilayah yang rentan terhadap cuaca buruk, dan sebagainya. Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar Melakukan pengelompokan terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar

ASOSIASI Asosiasi atau yang sering disebut sebagai A s s o c i a t i o n r u l e s (Aturan asosiasi) berkenaan dengan studi mengenai ‘apa bersama apa ’.

Contohnya adalah transaksi di supermarket. Misalnya pelanggan ibu rumah tangga yang membeli minyak, susu, dan telur, jarang menyertai pembelian tersebut dengan buku dan topi. Seseorang yang membeli susu bayi juga membeli sabun bayi.

Association rules juga sering dinamakan m a r k et b a s k e t a n a l y s i s karena berasal dari studi tentang database transaksi pelanggan untuk menentukan kebiasaan suatu produk dibeli bersama dengan produk apa.

Manajemen dapat membuat keputusan kapan waktu yang tepat untuk promosi barang

Manajemen pembelian barang yang sebaiknya dibeli bersama-sama

Bagaimana strategi untuk menghabiskan barang yang kurang laku

Meningkatkan strategi dengan cara memberikan bonus satu barang jika melakukan pembelian barang lain.

IDT

Item

1

Telur, Beras

2

Minyak, Topi, Beras, Telur

3

Telur, Minyak, Beras, Buku

4

Buku, Minyak, Topi

5

Beras, Telur, Topi, Minyak

6

Telur, Minyak, Beras

7

Telur, Minyak, Buku

8

Beras, Buku

Representasi Biner untuk Data Keranjang Belanja

Data Transaksi Keranjang Belanja

IDT

Beras

Buku

Minyak

Telur

Topi

1

1

0

0

1

0

2

1

0

1

1

1

3

1

1

1

1

0

4

0

1

1

0

1

5

1

0

1

1

1

6

1

0

1

1

0

7

0

1

1

1

0

8

1

1

0

0

0

Sifat penting dalam i t e m s e t (kumpulan item di keranjang belanja dalam jumlah kosong atau lebih) adalah s u p p o r t c o u n t , yang didefinisikan sebagai jumlah transaksi yang berisi itemset tertentu.

Secara matematis, support count dinotasikan sebagai (X) . Sementara itemset X dapat  ,  T}| dinyatakan sebagai (X) = |{ | X Keterangan: T = Transaksi  = Transaksi ke-I | . | = jumlah item dalam set

Contoh : Support count untuk {Beras, Minyak} adalah 4, karena ada 4 transaksi yang berisi {Beras, Minyak}

Association rule adalah pernyataan implikasi bentuk X Y , di mana X disebut antecedent dan B disebut consequent . Kekuatan assocation rule dapat diukur dengan s u p p o r t dan c o n f i d e n c e .

Apakah S u p p o r t dan Confidence ? S u p p o r t digunakan

digunakan untuk menentukan seberapa sering item di dalam Y muncul dalam transaksi berisi X !!

untuk menentukan seberapa banyak aturan dapat diterapkan pada set data !!

RUMUS

Support,s(X Y) =

Confidence

(

Contoh: X = {Beras, Telur} , Y = {Minyak} XY = {Beras, Telur, Minyak} ada 4 N (total transaksi) = 8

)



Confidence,c(X Y) =

(

)

()

s(X Y) = 4/8 = 0.5 c(X Y) = 4/5 = 0.8

{roti,mentega}

{susu} (support = 40%, confidence = 50%)

Artinya : • ”50% dari transaksi di database yang memuat item roti dan mentega juga memuat item susu. Sedangkan 40% dari seluruh transaksi yang ada di database memuat ketiga item tersebut” • "Seorang konsumen yang membeli roti dan mentega punya kemungkinan 50% untuk juga membeli susu. Aturan tersebut cukup akurat karena mewakili 40% dari catatan transaksi yang ada."

Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan asosiasi yang memenuhi syarat minimum untuk s u p p o r t (m i n i m u m s u p p o r t / m i n s u p = m i n s u p ) dan syarat minimum untuk c o n f i d e n c e ( m i n i m u m c o n f i d e n c e / m i n c o f = mincof ). Strategi umum yang diadopsi oleh banyak algoritma penggalian aturan asosiasi adalah memecah masalah ke dalam dua pekerjaan utama, yaitu: 1. f req u en t i tem s e t g en er at io n tujuannya adalah mencari semua itemset yang memenuhi ambang batas minsup. Itemset itu disebut itemset frekuen (itemset yang paling sering muncul). 2. r ule g en er at io n tujuannya adalah mengekstrak aturan dengan confidence tinggi dari itemset frekuen yang ditemukan dalam langkah sebelumnya. Aturan ini kemudian disebut aturan yang kuat (strong rule).

Sumber • AB, Adam. Data Mining I. Bahan Ajar . Universitas Darma

Persada http://mynameadam.files.wordpress.com/2012/11/datamin ingi_p12-compatibility-mode.pdf • Kusrini dan Luthfi. 2009. Algoritma Data Mining . Yogyakarta: ANDI • Prasetyo, Eko. 2012. DATA MINING – Konsep dan Aplikasi Menggunakan MATLAB. Yogyakarta: ANDI • Santosa, Budi. 2007. DATA MINING: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu • Wahono, Romi. Bahan Ajar http://lintang.staff.gunadarma.ac.id/Downloads/files/34245 /Introduction_DM_RSW_1.pdf

04 - Teknik Atau Fungsionalitas Data Mining

Recommend Documents