Metode-metode pada Sistem Pakar
Similarity Measure Measure •
•
Similarity Measure adalah metode yang digunakan untuk menghitung kesamaan dari dua buah objek berdasarkan berdasarkan pola atau karakteristik tertentu Ada beberapa kategori diantaranya: 1. . !. ". $.
Dist Distan ance ce--Base Based d Simi Similar larit ity y Meas Measur ure e Probab robabili ilist sticic-Bas Based ed Similar Similarity ity Measu Measurre SetSet-Ba Base sed d Si Simi milar larit ity y Meas Measur ure e #eatu eaturre-Bas e-Based ed Simi Simila lari rity ty Meas Measur ure e %ont %onte e&t&t-Base Based d Simi Similar larit ity y Meas Measur ure e
Distance-Based Similarity Measure Distance-Based Similarity Measure mengukur tingkat kesamaan dua buah objek dari segi jarak geometris dari 'ariabel-'ariabel yang tercakup di dalam kedua objek tersebut. (ang termasuk Distance-Based:
•
•
-
Euclidean Distance Manhattan Distance Minko)ski Distance *e'enshtein Distance Binary Distance dll
Probabilistic-Based Similarity Measure Probabilistic-Based Similarity Measure menghitung tingkat kemiripan dua objek dengan merepresentasikan dua set objek yang diperbandingkan tersebut dalam bentuk probability (ang termasuk:
•
•
- +ullback *eibler Distance - Posterior Probability
Set-Based Similarity Measure Salah satunya adalah ,accard nde&. ,accard nde& adalah indeks yang menunjukkan tingkat kesamaan antara suatu himpunan set/ data dengan himpunan set/ data yang lain. ,accard nde& :
•
•
•
J(A,B) = (A INTERSECT B)/(A UNION B) •
Sebagai kebalikannya0 tingkat ketidak samaan antara dua himpunan dihitung dengan: J_delta(A,B) = ((A UNION B) – (A INTERSECT B))/(A UNION B)
#eature-Based Similarity Measure •
#eature-based similarity measure melakukan penghitungan tingkat kemiripan dengan merepresentasikan objek ke dalam bentuk eature-eature yang ingin diperbandingkan. #eaturebased similarity measure banyak digunakan dalam melakukan pengklasi2kasian atau pattern maching untuk gambar dan te&t.
%onte&t-Based Similarity Measure •
%onte&t-based similarity measure melakukan penghitungan tingkat kemiripan objek-objek yang mempunyai struktur yang tidak biasa seperti objek yang harus direpresentasikan dengan tree structure atau struktur yang lainnya.
3uclidean Distance %ontoh aplikasi
Distance •
1 Dimensi : -"
•
Dimensi:
4
#ormula
%ontoh: 5erdapat 'ektor ciri berikut:
3uclidean Distance dari 'ektor A dan B:
3uclidean Distance •
•
3uclidean distance hanya dapat digunakan pada 'ector dengan dimensi panjang/ sama Banyak digunakan pada metode-metode klasi2kasi seperti k-660 +Means0 dll
*atihan •
Diketahui 'ector: A = [1,3,4,5,5] B = [1,1,1,2,2] C = [3,3,4,2,2]
7itung 3uclidean Distance untuk 'ector berikut: D = [2,2,2,2,6]
Manakah 'ector terdekat dengan D8
Pertanyaan untuk 3uclidean: •
Bagaimana jika dimensi 9 panjang 'ector yang dihitung jaraknya tidak sama8
%lassi2cation Methods
5op 14 Algorithms in Data Mining Salah satu konerensi internasional terbesar tentang data mining yaitu 333 %DM0 pada Desember 440 menghasilkan 14 peringkat algoritma dalam DM: 1. %".$ . +-Means !. S;M Support ;ector Machine/ ". Apriori $. 3M 3&pectation Ma&imi
. AdaBoost
8. kNN (K Nearest Neighbor) ?. 6ai'e Bayes 14.%A=5 %lassi2cation and =egression 5rees/
+-66 +-6earest 6eighbor/ Algoritma k-nearest neighbor k-66 atau +66/ adalah sebuah metode untuk melakukan klasi2kasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. Semua titik yang merepresentasikan data learning pada k-66 dengan rumus 3uclidean Distance
•
•
#lo)chart Algoritma k66
Pencarian 6earest 6eighbor
Pencarian 6earest 6eighbor 5erdapat beberapa jenis algoritma pencarian tetangga terdekat0 diantaranya: 1. *inear scan . Pohon kd !. Pohon Balltree ". Pohon metrik $. *ocally-sensiti'e hashing *S7/
+elebihan dan +elemahan k-66 Kelebihan +66 memiliki beberapa kelebihan yaitu bah)a dia tangguh terhadap training data yang noisy dan eekti apabila data latihnya besar. •
Kelemahan +66 perlu menentukan nilai dari parameter + jumlah dari tetangga terdekat/ Pembelajaran berdasarkan jarak tidak jelas mengenai jenis jarak apa yang harus digunakan dan atribut mana yang harus digunakan untuk mendapatkan hasil yang terbaik Biaya komputasi cukup tinggi karena diperlukan perhitungan jarak dari tiap sample uji pada keseluruhan sample latih •
•
•
%ontoh Diketahui suatu karakteristik terdiri dari atribut dengan skala kuantitati yaitu @1 dan @ serta kelas yaitu baik dan buruk . Data training 9 rule sbb:
•
,ika terdapat data baru dengan nilai @1! dan @>0 apakah termasuk baik atau buruk8
•
*angkah-langkah 1. 5entukan parameter + jumlah tetangga terdekat. Misalkan ditetapkan + ! . 7itung jarak antara data baru dengan semua data training: Dapat dihitung menggunakan 3uclidean Distance
*angkah-langkah !. rutkan jarak tersebut dan tetapkan tetangga terdekat berdasarkan jarak minimum ke-+:
*angkah-langkah ". Periksa kelas dari tetangga terdekat:
+esimpulan : @1! dan @> termasuk kelas Baik
Buatlah •
%ontoh kasus klasi2kasi beserta penyelesaiannya menggunakan k-66 didiskusikan di kelas/