teori clustering k-means

1

BAB II
LANDASAN TEORI

Konsep Data mining
Menurut Pramudiono (2006), Data mining adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual. Data mining merupakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar (Larose, 2005). Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban, dkk. 2005).
Tan (2006) mendefinisikan data mining sebagai proses untuk mendapatkan informasi yang berguna dari gudang basis data yang besar. Data mining juga dapat diartikan pengekstrakan informasi baru yang diambil dari bongkahan data besar yang membantu dalam pengambilan keputusan.
Salah satu teknik yang dibuat dalam data mining adalah bagaimana menelusuri data yang ada untuk membangun sebuah model, kemudian menggunakan model tersebut agar dapat mengenali pola data yang lain yang tidak berada dalam basis data yang tersimpan. Keputusan untuk prediksi juga dapat memanfaatkan teknik ini. Dalam data mining penegelompokan data juga bisa dilakukan. Tujuannya adalah agar kita dapat mengetahui pola universal data-data yang ada. Anomali data transaksi juga perlu dideteksi untuk dapat mengetahui tindak lanjut berikutnya yang dapat diambil. Semua hal tersebut bertujuan mendukung kegiatan operasional perusahaan sehingga tujuan akhir dapat tercapai.
Masalah-masalah yang sesuai untuk diselesaikan dengan teknik data mining dapat dicirikan dengan :
Memerlukan keputusan yang bersifat knowlegde-based.
Mempunyai lingkungan yang berubah.
Metode yang ada sekarang bersifat sub-optimal.
Tersedia data yang bisa diakses, cukup dan relevan.
Memberikan keuntungan yang tinggi jika keputusan yang ambil tepat.
Data mining berisi pencarian trend atau pola yang diinginkan dalam database yang besar untuk membantu pengambilan keputusan di waktu yang akan datang. Harapannya, perangkat data ming mampu mengenali pola – pola ini dalam data dengan masukan yang minimal. Pola- pola ini dikenali oleh perangkat tertentu yang dapat memberikan suatu analisa data yang berguna dan berwawasan yang kemudian dapat dipelajari dengan lebih teliti, yang mungkin saja menggunakan perangkat pendukung keputusan yang lainnya.
Data mining berhubungan dengan sub-area statistik yang disebut exploratory data analysis, yang mempunyai tujuan sama dan bersandar pada ukuran-ukuran statistik. Data mining juga berhubungan erat dengan sub-area artificial intelligence yang disebut knowledge discovery dan machine lerning. Karakteristik penting dari data mining adalah bahwa volume data sangat besar meskipun ide-ide dari area studi yang berhubungan tadi dapat diaplikasikan pada masalah-maslah data mining, scalability yang berkaitan dengan ukuran data menjadi suatu kriteria baru yang penting. Sebuah algoritma disebut scalable jika tumbuh sejalan dengan waktu (linier) berbanding dengan ukuran data dan mempertahankan ketersediaan system resources (misalkan jumlah memori utama dan kecepatan proses CPU) tetap konstan. Algoritma lama harus disesuaikan atau mungkin malah membangun algoritma baru yang menjamin scalability saat mencari pola-pola dari data.
Pencarian trend yang berguna dalam himpunan data tidak cocok dengan definisi dari data mining. Dalam beberapa pengertian, semua query basisdata dapat dianggap bisa melakukan hal tersebut. Dengan beberapa parameter yang user-definable dengan algoritma-algoritma khusus kita dapat membedakan tugas data mining sebagai query kompleks yang ditentukan pada suatu level yang tinggi yang di dasarkan pada model data multidimensi, dan data mining menyediakan operasi-operasi analisis yang lebih abstrak. Kita dapat membedakan tugas data mining sebagai query kompleks yang ditentukan pada suatu level yang tinggi dengan beberapa parameter yang user-denifable, untuk algoritma-algoritma khusus yang digunakan.
Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Beberapa metode yang sering disebut-sebut dalam literatur data mining antara lain clustering, classification, association rules mining, neural network, genetic algorithm dan lain-lain.
Dalam dunia nyata, data mining lebih dari sekedar menerapkan satu dari algoritma-algoritma tersebut secara sederhana. Seringkali data terlalu ramai dan tidak lengkap. Jika hal ini dibenarkan, besar kemungkinan banyak pola yang diinginkan akan hilang dan kemampuan deteksi polapun akan turun. Lebih lanjut, analisis harus memutuskan jenis dari algoritma mining yang digunakan, menerapkannya ke dalam himpunan bagian data-data sample dan variable (seperti tuple atau atribut), mencerna hasilnya, menerapakan perangkat decision support dan mengiterasi proses tersebut.
Data mining merupakan proses pencarian pola-pola yang menarik dan tersembunyi (hidden pattern) dari suatu kumpulan data yang berukuran besar yang tersimpan dalam suatu basis data, data warehouse atau tempat penyimpanan data lainnya (Tan dkk, 2006). Data mining juga didefinisikan sebagai bagian dari proses penggalian pengetahuan dalam database yang sering disebut dengan istilah Knowledge Discovery in Database (KDD). KDD merupakan suatu area yang mengintegrasikan berbagai metode, yang meliputi statistik, basis data, kecerdasan buatan (Artificial Intelligence), machine learning, pengenalan pola (Pattern Recognition), pemodelan yang menangani ketidakpastian, visualisasi data, optimasi, Sistem Informasi Manajemen (SIM), dan sistem berbasis pengetahuan (knowledge based-system). Sebagai bagian dari proses yang ada di dalam KDD, maka data mining didahului dengan proses pemilihan data, pembersihan data, preprocessing, dan transformasi data.
Gambar 2.1. Proses Knowledge Discovery In Database (KDD)
Ada tiga tahap penting dalam KDD, yaitu :
Data preprocessing
Proses ini bertujuan untuk mentransformasikan data input ke dalam format yang sesuai untuk kemudian dianalisa. Dalam tahap ini dilakukan proses penggabungan data dari berbagai sumber, pembersihan data untuk menghilangkan noise data dan data ganda, serta memilih atribut data yang diperlukan bagi proses data mining.
Data mining
Proses ini bertujuan untuk medapatkan pola-pola dan informasi yang tersembunyi di dalam basis data. Ada beberapa teknik yang dapat digunakan dalam data mining untuk mendapatkan pola-pola dan informasi tersembunyi, yaitu classification, neural network, decision tree, genetic algorithm, clustering, OLAP (Online Analitycal Processing), dan association rules.
Postprocessing
Data PreprocessingFeature Selection Dimensionality reduction Normalization Data subsetingData MiningPostprocessingFiltering paternsVisualization pattern interplrelationProses ini bertujuan untuk memastikan hanya hasil yang valid dan berguna yang dapat digunakan oleh pihak yang berkepentingan. Contoh dari proses ini adalah proses visualisasi, yaitu proses untuk menganalisa dan mengeksplorasi data dan hasil dari proses data mining dari berbagai sudut pandang.
Data Preprocessing
Feature Selection Dimensionality reduction Normalization Data subseting
Data Mining
Postprocessing
Filtering paternsVisualization pattern interplrelation

Gambar 2.2. Tahapan dalam Proses Knowledge Discovery in Database
Tugas Data mining
Tugas data mining secara garis besar dibagi menjadi dua kategori utama, yaitu (Tan dkk, 2006):
Tugas prediktif. Tujuan utama dari tugas ini adalah untuk memprediksikan nilai dari atribut tertentu berdasarkan nilai dari atribut lainnya. Atribut yang diprediksi dikenal sebagai target atau dependent variable, sedangkan atribut yang digunakan untuk membuat prediksi disebut penjelas atau independent variable.
Tugas deskriptif. Tujuan utama dari tugas ini adalah untuk memperoleh pola (correlation, trend, cluster, trajectory, anomaly) untuk menyimpulkan hubungan di dalam data. Tugas deskriptif merupakan tugas data mining yang sering dibutuhkan pada teknik postprocessing untuk melakukan validasi dan menjelaskan hasil proses data mining. Inti dari tugas data mining adalah pemodelan prediktif, analisa asosiasi, analisa cluster, dan deteksi terhadap anomali (Gambar 2.4).
Pemodelan PrediktifAnalisa ClusterDeteksi Terhadap AnomaliAnalisa AsosiasiData
Pemodelan Prediktif
Analisa Cluster
Deteksi Terhadap Anomali
Analisa Asosiasi
Data

Gambar 2.3. Empat Tugas Inti Data mining
Pemodelan prediktif mengacu pada proses membangun model untuk variable target sebagai fungsi dari variabel penjelas. Ada dua tipe dari pemodelan prediktif, yaitu klasifikasi (classification) yang digunakan untuk variabel target yang diskret, dan regresi (regression) yang digunakan untuk variabel target yang kontinyu. Analisa asosiasi digunakan untuk menemukan pola yang mendeskripsikan fitur-fitur data yang saling berhubungan. Pola-pola ini biasanya digambarkan dalam bentuk aturan implikasi. Analisa cluster merupakan proses untuk mencari kelompok-kelompok data, sedemikian sehingga data yang berada dalam satu kelompok memiliki kemiripan dibandingkan data yang terletak pada kelompok lain. Deteksi anomaly merupakan proses identifikasi data yang memiliki perbedaan karakteristik yang signifikan dengan data yang lain atau yang dikenal dengan istilah outlier.
Operasi Data mining
Operasi data mining menurut sifatnya dibedakan menjadi dua, yaitu bersifat (1) Prediksi (prediction driven) untuk menjawab pertanyaan apa dan sesuatu yang bersifat remang-remang atau transparan. Operasi prediksi digunakan untuk validasi hipotesis, querying dan pelaporan (misal, spreadsheet dan pivot tabel), analisis multidimensi (dimensional summary), OLAP (Online Analitic Processing) serta analisis statistik. (2) Penemuan (discovery driven) bersifat transparan dan untuk menjawab pertanyaan "mengapa?" Operasi penemuan dugunakan untuk analisis data eksplorasi, pemodelan prediktif, segmentasi database, analisis berkaitan (link analysis) dan deteksi deviasi (Hermawati, 2013).
Tahapan proses dalam penggunaan data mining yang merupakan proses knowledge discovery in database (KDD) seperti yang terlihat pada Gambar 2.1, dapat diuraikan sebagai berikut (Hermawati, 2013) :
Memahami domain aplikasi untuk mengetahui dan menggali pengetahuan awal serta apa sasaran pengguna.
Membuat target data-set yang meliputi pemilihan data dan fokus pada sub-set data.
Pembersihan dan transformasi data meliputi eliminasi derau, outliers, missing value serta pemilihan fitur dan reduksi dimensi.
Penggunaan algoritma data mining yang terdiri dari asosiasi, sekuensial, klasifikasi, klasterisasi, dan lain-lain.
Interpretasi, evaluasi dan visualisasi pola untuk melihat apakah ada sesuatu yang baru dan menarik dan dilakukan iterasi jika diperlukan.
Pengelompokan Data mining
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005) :
Deskripsi (Description)
Terkadang penelitidan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.
Estimasi (Estimation)
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi. Sebagai contoh, akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. Hubungan antara tekanan darah sistolik dan nilai variabel prediksi dalam proses pembelajaran akan menghasilkan model estimasi. Model estimasi yang dihasilkan dapat digunakan untuk kasus baru lainnya.
Prediksi (Prediction)
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa datang. Contoh prediksi dalam bisnis dan penelitian adalah :
Prediksi harga beras dalam tiga bulan yang akan datang.
Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah kecepatan dinaikkan.
Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.
Klasifikasi (Classification)
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.
Contoh lain klasifikasi dalam bisnis dan penelitian adalah :
Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan.
Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik atau buruk.
Mendiagnosis penyakit seorang pasien untuk mendapatkan kategori penyakit apa.
Pengklusteran (Clustering)
Pengklusteran merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan dengan record-record dalam cluster lain.
Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variabel target dalam pengklusteran. Pengklusteran tidak mencoba untuk melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel target. Akan tetapi, algoritma pengklusteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan record dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal.
Contoh pengklusteran dalam bisnis dan penelitian adalah :
Melakukan pengklusteran terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar.
Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar.
Untuk tujuan audit akuntansi, yaitu melakukan pemisahan terhadap perilaku finansial dalam baik dan mencurigakan.
Asosiasi (Assosiation)
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja. Contoh asosiasi dalam bisnis dan penelitian adalah :
Menemukan barang dalam supermarket yang dibeli secara bersamaan dan barang yang tidak pernah dibeli secara bersamaan.
Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respons positif terhadap penawaran upgrade layanan yang diberikan.
Konsep Clustering
Analisis kelompok (cluster analysis) adalah pekerjaan mengelompokan data (objek) yang didasarkan hanya pada informasi yang ditemukan dalam data yang menggambarkan objek tersebut dan hubungan di antaranya (Tan, 2006). Tujuannya adalah agar objek-objek yang bergabung dalam sebuah kelompok merupakan objek-objek yang mirip (atau berhubungan) satu sama lain dan berbeda (atau tidak berhubungan) dalam objek dalam kelompok yang lain. Lebih besar kemiripannya (homogenitas) dalam kelompok dan lebih besar perbedaannya diantara kelompok yang lain, konsep inilah yang akan dibahas dalam pengelompokan.
Pengelompokan (clustering) merupakan teknik yang sudah cukup dikenal dan banyak digunakan untuk mengelompokkan data/objek ke dalam kelompok data (cluster) sehingga setiap cluster memiliki data yang mirip dan berbeda dengan data yang berada dalam cluster lain. Jika diberikan himpunan data yang berjumlah terhingga, yaitu X, maka permasalahan clustering dalam X adalah mencari beberapa pusat cluster yang dapat memberikan ciri kepada masing-masing cluster dalam X. Gambar 2.4 menunjukkan contoh sederhana dari proses clustering, dimana 3 cluster di dalam data dapat teridentifikasi dengan mudah. Kriteria kemiripan yang digunakan dalam kasus ini adalah jarak (dalam kasus ini jarak geometris). Proses ini disebut distance-based clustering. Cara lain untuk melakukan clustering adalah conceptual clustering. Dalam conceptual clustering, objek dikelompokkan berdasarkan kecocokannya menurut konsep deskriptif.
Gambar 2.4. Contoh Proses Clustering
Karena analisis kelompok dikaitkaan dengan pekerjaan mengelompokkan data. Dalam pengelompokan, data-data yang tidak mempunyai label kelas, kemudian dikelompok-kelompokkan menurut karakteristiknya, barulah kelompok-kelompok tersebut dapat diberi label sesuai hasil karakteristiknya. Analisis kelompok juga disebut unsupervised classification.
Clustering (pengelompokan data) mempertimbangkan sebuah pendekatan penting untuk mencari kesamaan dalam data dan menempatkan data yang sama ke dalam kelompok-kelompok. Clustering membagi kumpulan data ke dalam beberapa kelompok di mana kesamaan dalam sebuah kelompok adalah lebih besar daripada di antara kelompok-kelompok. Gagasan mengenai pengelompokan data, atau clustering, memiliki sifat yang sederhana dan dekat dengan cara berpikir manusia; kapanpun kepada kita dipresentasikan jumlah data yang besar, kita biasanya cenderung merangkumkan jumlah data yang besar ini ke dalam sejumlah kecil kelompok-kelompok atau kategori-kategori untuk memfasilitasi analisanya lebih lanjut. Selain dari itu, sebagian besar data yang di kumpulkan dalam banyak masalah terlihat memiliki beberapa sifat yang melekat yang mengalami pengelompokan-pengelompokan natural.
Tujuan pekerjaan pengelompokan (clustering) data dapat di bedakan menjadi dua, yaitu pengelompokkan untuk pemahaman dan pengelompokan untuk penggunaan. Jika tujuannya untuk pemahaman, kelompok yang terbentuk harus menangkap struktur alami data, biasanya proses pengelompokan dalam tujuan ini hanya sebagai proses awal untuk kemudian dilanjutkan dengan pekerjaan inti seperti peringkasan, pelabelan kelas pada setiap kelompok untuk kemudian digunakan sebagai data latih klasifikasi, dan sebagainya. Sementara jika untuk penggunaan, tujuan utama pengelompokan biasanya adalah mencari prototype kelompok yang paling representative terhadap data, memberikan abstraksi dari setiap objek data dalam kelompok dimana sebuah data terletak didalamnya (Prasetyo, 2012).
Representasi pola merujuk pada jumlah kelas, jumlah pola-pola yang ada, dan jumlah, tipe dan skala fitur yang tersedia untuk algoritma clustering. Beberapa informasi ini dapat tidak bisa dikontrol oleh praktisioner. Seleksi sifat (fitur) adalah proses pengidentifikasian subset fitur original yang paling efektif untuk digunakan dalam clustering. Ekstraksi fitur adalah penggunaan satu atau lebih transformasi dari sifat-sifat input untuk menghasilkan sifat-sifat baru yang lebih baik.
Tujuan Analisis Cluster :
Untuk mengelompokkan objek-objek (individu-individu) menjadi kelompok-kelompok yang mempunyai sifat yang relatif sama (homogen).
Untuk membedakan dengan jelas antara satu kelompok (cluster) dengan kelompok lainnya.
Adapun manfaat Analsis Cluster sebagai berikut:
Untuk menerapkan dasar-dasar pengelompokan dengan lebih konsisten.
Untuk mengembangkan suatu metode generalisasi secara induktif, yaitu pengambilan kesimpulan secara umum dengan berdasarkan fakta-fakta khusus.
Menemukan tipologi yang cocok dengan karakter obyek yang diteliti.
Mendiskripsikan sifat-sifat / karakteristik dari masing-masing kelompok.
Analisis cluster dilakukan dengan langkah-langkah berikut:
Merumuskan permasalahan.
Memilih ukuran jarak atau kesamaan.
Memilih prosedur pengklusteran.
Menetapkan jumlah cluster.
Interpretasi dan profil dari cluster.
Menaksir reliabilitas dan validitas.
Algoritma K-Means
Dalam statistik dan mesin pembelajaran, pengelompokan K-Means merupakan metode analisis kelompok yang mengarah pada pemartisian N objek pengamatan ke dalam K kelompok (cluster) dimana setiap objek pengamatan dimiliki oleh sebuah kelompok dengan mean (rata-rata) terdekat, dimana keduanya mencoba untuk menemukan pusat dari kelompok dalam data sebanyak iterasi perbaikan yang dilakukan oleh kedua algoritma (Prasetyo, 2012).
K-Means merupakan salah satu metode pengelompokan data non hierarchy (sekatan) yang berusaha mempartisi data yang ada ke dalam bentuk dua atau lebih kelompok. Metode ini mempartisi data kedalam kelompok sehingga data berkaraktristik sama di masukkan ke dalam satu kelompok yang sama dan data yang berkarakteristik berbeda di kelompokkan ke dalam kelompok yang lain. Adapun tujuan pengelompokkan data ini adalah untuk meminimalkan fungsi objektif yang diset dalam proses pengelompokan, yang pada umumnya berusaha meminimalkan variasi di dalam suatu kelompok dan memaksimalkan variasi antar cluster (Agusta, 2007).
Pengelompokan dengan K-Means :
Tentukan jumlah kelompok
Alokasikan data ke dalam kelompok secara acak
Hitung pusat kelompok (sentroid/rata-rata) dari data yang ada di masing-masing kelompok
Alokasikan masing-masing data ke sentroid/rata-rata terdekat
Kembali ke langkah tiga, apabila masih ada data yang berpindah-pindah kelompok, atau apabila ada perubahan nilai sentroid diatas nilai ambang yang ditentukan, atau apabila perubahan nilai pada fungsi objektif yang digunakan masih di atas nilai ambang yang ditentukan.
Lokasi sentroid (titik pusat) setiap kelompok yang diambil dari rata-rata (mean) semua nilai data pada setiap fiturnya harus dihitung kembali. Jika M menyatakan jumlah data dalam sebuah kelompok, I menyatakan fitur ke-I dalam sebuah kelompok, dan p menyatakan dimensi data, untuk menghitung sentroid fitur ke-I digunakan formula
CI= 1Mj=iMXj (2.1)
Formula tersebut dilakukan sebanyak p dimensi sehingga I mulai dari 1 sampai p.
Ada beberapa cara yang dapat digunakan untuk mengukur jarak data ke pusat kelompok, di antaranya Euclidean, Manhattan/ City Block dan Minkowsky. Masing-masing cara mempunyai kelebihan dan kekurangan.
Pengukuran jarak pada ruang jarak (distance space) Euclidean menggunakan formula :
DX1,X2= X1-X2= j=1p"X2j-X1j"2 (2.2)
D adalah jarak antara data x2 dan x1, dan " . " adalah nilai mutlak. Pengukuran jarak pada ruang jarak Manhattan menggunakan formula
DX2,X1=""X2-X1 "=J=1P"X2J-X1J (2.3)
Pengukuran jarak pada ruang jarak Minkowsky menggunakan formula
DX1,X2= X1-X2= λj=1p"X2j-Xij"λ (2.4)
λ adalah parameter jarak Minkowsky. Secara umum λ merupakan parameter penentu dalam karakteristik jarak. Jika λ=1, ruang jarak Minkowsky sama dengan Mahattan. Jika λ=2, ruang jaraknya sama dengan Euclidean, jika λ = , ruang jaraknya akan sama dengan ruang jarak Chebyshev. Namun demikian, cara yang paling banyak digunakan adalah Eucludean dan Manhattan. Euclidean menjadi pilihan jika kita ingin memberikan jarak terpendek antara dua titik (jarak lurus), sedangkan Mahattan membrikan jarak terjauh pada dua data. Mahattan juga sering digunakan karena kemampuannya dalam mendeteksi keadaan khusus, seperti keberadaan outlier, dengan lebih baik (Agusta, 2005).
Pada langkah 2.4, pengalokasian kembali data ke dalam masing-masing kelompok dalam metode K-Means didasarkan pada perbandingan jarak antara data dengan sentroid setiap kelompok yang ada. Data dialokasikan ulang secara tegas ke kelompok yang mempunyai sentroid dengan jarak terdekat dari data tersebut. Pengalokasian ini dapat dirumuskan sebagai berikut ((McQueen, 1967):
ail=1 d=minDXi,C10 lainnya (2.5)
aik adalah nilai keanggotaan titik Xi ke pusat kelompok Cl, d adalah jarak terpendek dari data Xi ke K kelompok setelah dibandingkan, dan Cl adalah sentroid (pusat kelompok) ke-l.
Fungsi objektif yang digunakan untuk K-Means ditentukan berdasarkan jarak dan nilai keanggotaan data dan kelompok. Fungsi objektif yang digunakan adalah sebagai berikut (McQueen, 1967):
J=i-1Nl=lKaicD(Xi,Cl)2 (2.6)
N adalah jumlah data, K adalah jumlah kelompok, ail adalah nilai keanggotaan titik data Xi ke pusat kelompok Cl, Cl adalah pusat kelompok ke-l, dan D(Xi, Cl) adalah jarak titik Xi ke kelompok Cl yang diikuti. a mempunyai nilai 0 atau 1. Apabila suatu data merupakan anggota suatukelompok, nilai aij=1. Jika tidak, nilai aij=0.
Contoh Kasus Penerapan Clustering K-Means
Pengelompokan mahasiswa menggunakan algoritma k-means. Pengelompokan mahasiswa berdasarkan data akademik menggunakan teknik clustering dan membuat aplikasinya kemudian menganalisis hasilnya sehingga diharapkan mampu memberikan informasi bagi yang berkepentingan.
Algoritma K-Means merupakan salah satu algoritma teknik clustering yang dimulai dengan pemilihan secara acak K, yang merupakan banyaknya cluster yang ingin dibentuk dari data yang akan di kluster, yaitu nilai tes mahasiswa saat masuk dan Indeks Prestasi Komulatif (IPK) mahasiswa sampai semester 8. Sistem yang dibuat menampilkan hasil klustering data akademik mahasiswa, yaitu pola dari prestasi mahasiswa yang klusternya tetap, turun dan naik, dan dapat terlihat dari asal program studi, asal kota dan asal SMA. Seleksi masuknya mahasiswa dalam sebuah perguruan tinggi umumnya dengan memberikan soal-soal test yang harus mereka kerjakan, untuk mengetahui kemampuan dan pengetahuan mereka. Setelah mahasiswa mengalami proses belajar mengajar, maka akan dapat diketahui prestasi mereka setiap akhir semester.
Hal ini akan terjadi secara berulang pada sebuah perguruan tinggi. Jumlah data yang banyak ini membuka peluang untuk dihasilkan informasi yang berguna bagi pihak universitas. Penggalian informasi pada sebuah data yang berukuran besar (mempunyai jumlah record dan jumlah field yang cukup banyak) tidak dapat dilakukan dengan mudah. Teknologi data mining merupakan salah satu alat bantu untuk penggalian data pada basis data berukuran besar dan dengan spesifikasi tingkat kerumitan yang telah banyak digunakan pada banyak domain aplikasi seperti perbankan maupun bidang telekomunikasi.
Algoritma K-Means merupakan algoritma teknik klustering yang berulang-ulang. Algoritma ini dimulai dengan pemilihan secara acak K, yang merupakan banyaknya kluster yang ingin dibentuk. Kemudian tetapkan nilai-nilai K secara random, untuk sementara nilai tersebut menjadi pusat dari kluster atau biasa disebut dengan centroid / mean. Hitung jarak setiap data yang ada terhadap masing-masing centroid menggunakan rumus yang sudah disediakan hingga diketemukan jarak yang paling dekat dari setiap data dengan centroid. Klasifikasi setiap data berdasarkan kedekatannya dengan centroid. Lakukan langkah tersebut sampai nilai centroid tidak berubah (stabil).
Data akademik tersebut adalah hasil evaluasi tes masuk penerimaan mahasiswa baru (PMB) berupa nilai tes potensial akademik (TPA) dan nilai tes bahasa inggris, data atribut identitas diri mahasiswa seperti nama, nim, asal sekolah, kota asal, usia, jenis kelamin serta nilai Indeks Prestasi Komulatif (IPK) . Dengan menggunakan data hasil tes masuk, dan pencapaian indeks prestasi komulatif pada semester 8 , maka dapat diketahui minat belajar dari mahasiswa apakah tetap pada nilai test awal masuk atau ada perubahan yang signifikan.
Tabel 2.1 Rekapitulasi Jumlah Mahasiswa Untuk Program Studi, Jenis SMA Dan Jenis Kota
Atribut
Unit Dari Atribut
Kluster 1 (C1)
Kluster 2 (C2)
Kluster 3 (C3)
Total Unit dari Atribut
Program Studi
KA
4
27
47
78

MI
2
48
96
146

SI
100
146
126
372

Tek-Kom
0
26
18
30

TI
10
130
170
310
Jenis SMA
Umum
89
265
351
705

Kejuruan
27
98
106
231
Jenis Kota
Jawa Tengah
41
131
158
330

Luar Jawa Tengah (LJ)
10
24
31
65

Semarang
65
208
268
541

Dari tabel 2.1 terlihat setelah 8 semester berjalan kemampuan mahasiswa dapat dilihat dari IPK yang dicapai. Sebanyak 90(9,615%) mahasiswa masuk kluster 1, 360 (38,462%) mahasiswa masuk kluster 2 dan sebanyak 486(51,922%) mahasiswa masuk kluster 3. Hal ini berarti ada perubahan kemampuan mahasiswa antara saat masuk kuliah dan setelah 8 semester berjalan. Apabila dilihat dari prosentase jumlah mahasiswa setiap program studi, maka KA menempati urutan pertama dengan jumlah mahasiswa sebanyak 63 dari 78 mahasiswa (80,79%) berada di kluster 3. Hasil ini menunjukkan bahwa kemampuan mahasiswa dari program studi KA adalah paling unggul dibandingkan program studi lainnya. Untuk jenis SLTA dari Umum adalah yang paling unggul dan untuk asal SMA Semarang menempati tempat tertinggi dibanding yang lainnya (Narwati).
Analisa Polemik Perceraian di Kalangan Masyarakat
Perceraian adalah putusnya ikatan perkawinan antara suami isteri dengan keputusan pengadilan dan ada cukup alasan bahwa diantara suami isteri tidak akan dapat hidup rukun lagi sebagai suami isteri.
Pada prinsipnya Undang-Undang Perkawinan adalah mempersulit adanya perceraian tetapi tidak berarti Undang-Undang Perkawinan tidak mengatur sama sekali tentang tata cara perceraian bagi para suami isteri yang akan mengakhiri ikatan perkawinannya dengan jalan perceraian.
Pemeriksaan perkara perkawinan khususnya perkara perceraian, berlaku hukum acara khusus, yaitu yang diatur dalam :
Undang-Undang nomor 1 Tahun 1974 Tentang Perkawinan
Undang-Undang Nomor 3 Tahun 2006 jo Undang-Undang Nomor 7 Tahun 1989 Tentang Peradilan Agama (Pasal 54-91)
Peraturan Pemerintah Nomor 9 Tahun 1975 Tentang Pelaksanann Undang-Undang Nomor 1 Tahun 1974 Tentang Perkawinan
Peraturan Menteri Agama Nomor 2 Tahun 1987 Tentang Wali Hakim
Peraturan-pearaturan yang lain yang berkenaan dengan sengketa perkawinan
Kitab-kitab fiqh Islam sebagai sumber penemuan hukum
Yurisprudensi sebagai sumber hukum.
Perceraian yang terjadi karena keputusan Pengadilan Agama dapat terjadi karena talak atau gugatan perceraian serta telah cukup adanya alasan yang ditentukan oleh undang-undang setelah tidak berhasil didamaikan antara suami-isteri tersebut (Pasal 114, Pasal 115 dan Pasal 116 KHI).
Pasal 114 KHI menjelaskan bahwa perceraian bagi umat Islam dapat terjadi karena adanya permohonan talak dari pihak suami atau yang biasa disebut dengan cerai talak ataupun berdasarkan gugatan dari pihak istri atau yang biasa disebut dengan cerai gugat.
28

teori clustering k-means

Recommend Documents