Modul dan Jurnal Praktek Data Mining
T.A 2004/2005
===========================================
:: Created by DM Crews
Modul 1
Klasifikasi dan Pendahuluan WEKA
Tujuan Praktikum
1. Mahasiswa dapat memahami klasifikasi sebagai sebuah fungsionalitas
dalam data mining.
2. Mahasiswa dapat mengenal WEKA sebagai sebuah perangkat lunak data
mining, terutama untuk menyelesaikan masalah klasifikasi.
3. Mahasiswa dapat mengubah format data sehingga dapat menjadi masukan
pada perangkat lunak WEKA.
Pendahuluan
Data mining adalah sebuah bidang ilmu yang berupaya menemukan pola,
kaidah, aturan, dan informasi berharga yang menarik dan belum diketahui
sebelumnya dari sekumpulan besar data. Kemunculan ilmu ini dilatarbelakangi
oleh munculnya tumpukan data di berbagai bidang kehidupan. Seringkali
sebuah organisasi atau kelompok kerja tertentu banyak melakukan kegiatan
pengumpulan data, administrasi maupun perhitungan-perhitungan yang
menghasilkan data dalam jumlah besar.
Klasifikasi adalah salah satu fungsionalitas penting dalam data
mining. Klasifikasi berusaha membangun model yang merumuskan class-class
dari record-record data pada himpunan pelatihan (training set) untuk
menentukan class dari record data pada himpunan pengujian (test set) serta
data baru lain yang belum diketahui nilainya pada label class.
Berbagai tools komersial maupun non-komersial beredar dan digunakan
untuk berbagai tujuan yang berkaitan dengan data mining. Salah satu
diantaranya yang menarik dan akan dibicarakan dalam modul ini adalah WEKA,
yang merupakan alat bantu data mining, terutama dalam penerapannya untuk
menyelesaikan masalah klasifikasi.
1. Klasifikasi
Klasifikasi dapat digambarkan sebagai berikut. Data input, disebut
juga training set, terdiri atas banyak contoh (record), yang masing-masing
memiliki beberapa atribut. Selanjutnya, tiap contoh diberi sebuah label
class khusus. Tujuannya untuk menganalisa data input dan mengembangkan
deskripsi atau model akurat untuk tiap class menggunakan fitur-fitur pada
data. Deskripsi class ini digunakan untuk mengklasifikasikan data pengujian
lainnya dengan label class tidak diketahui. Deskripsi tersebut juga dapat
digunakan untuk memahami tiap class dalam data. Aplikasi-aplikasi
klasifikasi antara lain berupa credit approval, target marketing, medical
diagnosis, treatment effectiveness, store location, dll.
Klasifikasi dapat dilakukan dengan berbagai metode yang menghasilkan
representasi model yang berbeda pula, antara lain:
1. Klasifikasi dengan pohon keputusan, yaitu metode klasifikasi dengan
struktur pohon yang merepresentasikan kriteria pembagian kelas dan
kelas-kelas. Beberapa algoritma yang menggunakan metode ini adalah
algoritma ID3, SLIQ, SPRINT, dan PUBLIC.
2. Klasifikasi dengan memory-based reasoning, yaitu metode klasifikasi
yang digabungkan dengan penalaran berbasis memori.
3. Neural network¸ yaitu metode klasifikasi yang menggunakan model
jaringan syaraf tiruan (JST) yang direpresentasikan dalam bentuk
neuron-neuron, bobot neuron dan struktur JST.
4. Naive Bayes dan Bayesian Belief Networks
5. Klasifikasi berdasarkan kaidah (rule). Metode ini terbagi menjadi dua;
yang pertama mengekstrak kaidah secara langsung dari data (misalnya
algoritma RIPPER), sedangkan yang kedua mengekstrak data dari model
klasifikasi lain (misalnya algoritma C4.5) seperti pohon keputusan,
neural network, dll.
2. Pemodelan Klasifikasi dengan Decission Tree
Ilustrasi dari cara pengklasifikasian pada data mining adalah
a. Terdapat training set yang terdiri atas beberapa atribut dan class
b. Training set tersebut kemudian diinduksikan dengan algoritma yang
ada sehingga terbentuk suatu model sesuai data yang ada
c. Dari model tersebut diaplikasikan ke dalam test set.
Contoh pemodelannya dapat dilihat pada slide kuliah ch.3 (Decision
Tree)
3. Sejarah WEKA
WEKA adalah sebuah paket tools machine learning praktis. "WEKA"
merupakan singkatan dari Waikato Environment for Knowledge Analysis, yang
dibuat di Universitas Waikato, New Zealand untuk penelitian, pendidikan dan
berbagai aplikasi. WEKA mampu menyelesaikan masalah-masalah data mining di
dunia-nyata, khususnya klasifikasi yang mendasari pendekatan-pendekatan
machine learning. Perangkat lunak ini ditulis dalam hirarki class Java
dengan metode berorientasi objek dan dapat berjalan hampir di semua
platform.
WEKA mudah digunakan dan diterapkan pada beberapa tingkatan yang
berbeda. Tersedia implementasi algoritma-algoritma pembelajaran state-of-
the-art yang dapat diterapkan pada dataset dari command line. WEKA
mengandung tools untuk pre-processing data, klasifikasi, regresi,
clustering, aturan asosiasi, dan visualisasi. User dapat melakukan
preprocess pada data, memasukkannya dalam sebuah skema pembelajaran, dan
menganalisa classifier yang dihasilkan dan performansinya – semua itu tanpa
menulis kode program sama sekali. Contoh penggunaan WEKA adalah dengan
menerapkan sebuah metode pembelajaran ke dataset dan menganalisa hasilnya
untuk memperoleh informasi tentang data, atau menerapkan beberapa metode
dan membandingkan performansinya untuk dipilih.
Tools yang dapat digunakan untuk pre-processing dataset membuat user
dapat berfokus pada algoritma yang digunakan tanpa terlalu memperhatikan
detail seperti pembacaan data dari file-file, implementasi algoritma
filtering, dan penyediaan kode untuk evaluasi hasil.
Pengembangan WEKA mengikuti model releases Linux: digit kedua yang
genap menunjukkan release yang stabil dan digit kedua yang ganjil
menunjukkan release 'pengembangan' (misalnya 3.0.x adalah release stabil,
sedangkan 3.1.x adalah release yang sedang dikembangkan). Beberapa versi
awal dari WEKA:
WEKA 3.0 : "versi buku" yang sesuai dengan deskripsi buku data
mining.
WEKA 3.2 : "versi GUI" yang menambahkan GUI dari CLI awal.
WEKA 3.3 : "versi pengembangan" dengan berbagai peningkatan.
Praktek data mining ini menggunakan WEKA versi 3.4.1.
1.4 WEKA GUI Chooser
WEKA GUI Chooser adalah tampilan utama yang akan dilihat user pada
saat pertama kali membuka perangkat lunak WEKA. Tampilan utama tersebut
memberikan 4 pilihan GUI WEKA, yaitu Simple CLI, Experimenter, Explorer,
dan Knowledge Flow.
1.4.1 GUI Simple CLI merupakan GUI yang memungkinkan user mengetikkan
perintah-perintah melalui command line menurut standar penggunaan
classifiers maupun filters. Misalnya mengeset percobaan dengan file
batch.
Contoh penggunaan CLI adalah dengan mengetikkan perintah:
java weka.classifiers.j48.J48 –t weather.arff
Perintah ini memanggil JVM (Java Virtual Machine) dan
menginstruksikannya untuk mengeksekusi algoritma J48 dari J48
package.
java weka.filters.unsupervised.attribute.Remove -V -R 1,4 -i
trainingFile.arff -o myTrainingFile.arff
Filter tersebut akan menghapus semua atribut kecuali yang
pertama dan keempat dari sebuah dataset yang disimpan pada file
trainingFile.arff dan menyimpan hasilnya di myTrainingFile.arff
java weka.classifiers.trees.J48 -t myTrainingFile.arff -T
myTestFile.arff -U -p 1 > Results.arff
Dari perintah ini, decision tree J48 diterapkan pada file
myTrainingFile.arff. File yang diuji ditunjukkan dengan option
-T. Hasilnya redirected dari layar ke file Results.arff dan
options -U dan -p menentukan bentuk output tertentu.
Beberapa pilihan skema pembelajaran yang dapat diterapkan pada WEKA
antara lain:
"Option "Fungsi "
"-t "Menentukan file training "
"-T "Menentukan file pengujian. Jika tidak"
" "ada, dilakukan cross-validation pada "
" "data training. "
"-c "Menentukan "
"-x
"folds> "cross-validation "
"-s
"seed> "cross-validation "
"-m
"file> "matriks biaya "
"-v "Output tanpa statistik untuk data "
" "training "
"-l "Menentukan file input untuk model "
"-d "Menentukan file output untuk model "
"-o "Hanya mengeluarkan statistik, tanpa "
" "classifier "
"-I "Output statistik information "
" "retrieval untuk masalah dengan 2 "
" "class "
"-k "Output statistik "
" "information-theoretic "
"-p "Hanya mengeluarkan prediksi untuk "
" "instances pengujian "
"-r "Hanya mengeluarkan distribusi batas "
" "kumulatif "
1.4.2 GUI Explorer adalah GUI WEKA yang paling mudah digunakan dan
menyediakan semua fitur WEKA dalam bentuk tombol dan tampilan
visualisasi yang menarik dan lengkap. Preprocess, klasifikasi,
asosiasi, clustering, pemilihan atribut, dan visualisasi dapat
dilakukan dengan mudah dan menyenangkan di sini. Antarmuka ini akan
dijelaskan lebih lanjut pada Modul 2.
1.4.3 GUI Experimenter memudahkan perbandingan performansi skema-skema
pembelajaran yang berbeda. Experimenter biasanya digunakan untuk
klasifikasi dan regresi. Hasil dari perbandingan performansi dapat
dituliskan dalam file atau basis data. Pilihan evaluasi yang tersedia
dalam WEKA adalah cross-validation, learning curve, hold-out. User
juga dapat melakukan iterasi menurut beberapa setting parameter yang
berbeda.
Tab Setup yang muncul saat user membuka Experimenter memungkinkan user
memilih dan mengkonfigurasi eksperimen yang dilakukan. Setelah
menyimpan definisi eksperimen yang dilakukan, user dapat memulai
eksperimen dari tab Run dan meng-klik tombol Start. Area di bawahnya
akan menunjukkan proses yang sedang dilakukan. Hasilnya disimpan dalam
format CSV dan dapat dibuka dalam bentuk spreadsheet.
Tab ketiga. Analize, dapat digunakan untuk menganalisa hasil ekperimen
yang dikirim ke WEKA. Jumlah baris hasil ditunjukkan pada panel
Source. Hasilnya dapat di-load dalam format .ARFF maupun dari basis
data.
Antarmuka ini memungkinkan user melakukan lebih dari 1 eksperimen
sekaligus, mungkin menerapkan beberapa teknik berbeda pada sebuah
dataset, atau teknik yang sama dengan parameter-parameter yang
berbeda.
1.4.4 GUI Knowledge Flow merupakan GUI baru dalam WEKA yang merupakan
antarmuka Java-Beans-based untuk melakukan setting dan menjalankan
percobaan-percobaan machine learning.
Dalam GUI Experimenter ini, beberapa sumber data, classifier, dll
dapat dihubungkan secara grafis. User juga dapat menggambarkan aliran
data melalui komponen-komponen, misalnya:
"data source" -> "filter" -> "classifier" -> "evaluator"
KnowledgeFlow menyediakan alternatif lain dari Explorer sebagai sebuah
front end grafis untuk algoritma-algoritma inti WEKA. Karena masih
dalam pengembangan, beberapa fungsionalitas dalam Explorer belum
tersedia dalam KnowledgeFlow.
KnowledgeFlow menampilkan 'aliran data' dalam WEKA. User dapat memilih
komponen-komponen WEKA dari toolbar, meletakkannya pada area yang
tersedia dan menghubungkannya untuk membentuk 'aliran pengetahuan'
pemrosesan dan analisa data.
KnowledgeFlow dapat menangani data secara incremental maupun dalam
batches (Explorer hanya menangani data batch). Tentunya pembelajaran
dari data secara incremental memerlukan sebuah classifier yang dapat
diupdate instance per instance. Dalam WEKA tersedia 5 classifiers yang
dapat menangani data secara incremental: NaiveBayesUpdateable, IB1,
IBk, LWR (Locally Weighted Regression). Tersedia pula sebuah metadata
classifier – RacedIncrementalLogitBoost – yang dapat digunakan dari
berbagai basis regresi untuk data class diskrit secara incremental.
1.5 Format Data dalam WEKA
Misalnya diketahui sekumpulan data dan ingin dibangun sebuah decision
tree dari data tersebut, maka data tersebut harus disimpan dalam format
'flat', ARFF karena WEKA perlu mengetahui beberapa informasi tentang tiap
atribut yang tidak dapat disimpulkan secara otomatis dari nilai-nilainya.
File ARFF (Attribute-Relation File Format) adalah sebuah file teks
ASCII yang berisi daftar instances dalam sekumpulan atribut. File ARFF
dikembangkan oleh Machine Learning Project di Department of Computer
Science of The University of Waikato untuk digunakan dalam perangkat lunak
WEKA.
Pengubahan format data ini dapat dilakukan dengan mudah. Misalkan data
awal dalam format .xls (lihat gambar 2a), buka data tersebut dari Microsoft
Excel dan simpan sebagai .csv. Selanjutnya, buka file tersebut dari
Microsoft Word, notepad, atau editor teks lainnya dan data sudah berubah
dalam format comma-separated. Lalu sesuaikan data tersebut dengan
menambahkan informasi awal (gambar 2b). Hasilnya, data tersebut sudah dapat
digunakan sebagai inputan dalam WEKA.
Pastikan bahwa data dalam format .arff tersebut sudah memenuhi:
Data dipisahkan dengan koma, dengan kelas sebagai atribut terakhir.
Bagian header diawali dengan @RELATION.
Tiap atribut ditandai dengan @ATTRIBUTE. Tipe-tipe data dalam WEKA:
numerik(REAL atau INTEGER), nominal, String, dan Date.
Bagian data diawali dengan @DATA
Gambar 2a. Format .csv Gambar 2b. Format .arff
JURNAL MODUL 1
1. Ubahlah dataset berikut ini ke dalam format .ARFF sehingga dapat
digunakan sebagai inputan pada WEKA. Simpan hasilnya dengan nama
contact_lenses_<4 digit terakhir NIM Anda>.arff dan berikan komentar
per baris!
"Index"Age "Spectacle-p"Astigmatis"Tear-prod"Contact-le"
" " "rescrip "m "-rate "nses "
"1 "young "myope "no "reduced "None "
"2 "young "myope "no "normal "Soft "
"3 "young "myope "yes "reduced "None "
"4 "young "myope "yes "normal "Hard "
"5 "young "hypermetrop"no "reduced "None "
" " "e " " " "
"6 "young "hypermetrop"no "normal "Soft "
" " "e " " " "
"7 "young "hypermetrop"yes "reduced "None "
" " "e " " " "
"8 "young "hypermetrop"yes "normal "Hard "
" " "e " " " "
"9 "pre-presbyo"myope "no "reduced "None "
" "pic " " " " "
"10 "pre-presbyo"myope "no "normal "Soft "
" "pic " " " " "
"11 "pre-presbyo"myope "yes "reduced "None "
" "pic " " " " "
"12 "pre-presbyo"myope "yes "normal "Hard "
" "pic " " " " "
"13 "pre-presbyo"hypermetrop"no "reduced "None "
" "pic "e " " " "
"14 "pre-presbyo"hypermetrop"no "normal "Soft "
" "pic "e " " " "
"15 "pre-presbyo"hypermetrop"yes "reduced "None "
" "pic "e " " " "
"16 "pre-presbyo"hypermetrop"yes "normal "None "
" "pic "e " " " "
"17 "presbyopic "myope "no "reduced "None "
"18 "presbyopic "myope "no "normal "None "
"19 "presbyopic "myope "yes "reduced "None "
"20 "presbyopic "myope "yes "normal "Hard "
"21 "presbyopic "hypermetrop"no "reduced "None "
" " "e " " " "
"22 "presbyopic "hypermetrop"no "normal "Soft "
" " "e " " " "
"23 "presbyopic "hypermetrop"yes "reduced "None "
" " "e " " " "
"24 "presbyopic "hypermetrop"yes "normal "None "
" " "e " " " "
2. Dari dataset tersebut,
a. Modelkan dengan menggunakan decision tree
b. Dari pemodelan yang ada, lakukan pengujian tersebut dengan contoh
data baru yang Anda buat.
Modul 2
Explorer WEKA
Tujuan Praktikum
1. Mahasiswa dapat mengenal dan mengetahui tab-tab yang tersedia dalam
Explorer WEKA.
2. Mahasiswa dapat mengetahui langkah-langkah melakukan preprocess dan
klasifikasi dengan Explorer WEKA.
3. Mahasiswa dapat menerapkan preprocess dan klasifikasi dengan Explorer
WEKA pada dataset tertentu.
Pendahuluan
WEKA Knowlege Explorer adalah sebuah Graphical User Interface (GUI)
yang mudah digunakan dalam WEKA. Tiap paket utama WEKA (Preprocess,
Classify, Cluster, Associate, dan Select Attributes) ditampilkan bersama
perangkat Visualization yang memungkinkan himpunan data Classifiers dan
Clusterers divisualisasikan dalam 2 dimensi.
Selama bekerja dalam Explorer WEKA, user dapat mengetahui informasi
tentang kegiatan yang dilakukan dalam WEKA dengan meng-klik tombol Log di
tepi kanan bawah tiap tab.
1. Tab Preprocess
Gambar di atas menunjukkan tampilan tab Preprocess setelah load sebuah
dataset (Iris.arff) dengan 150 instances dan 5 atribut, yaitu spallength,
spallwidth, petallength, petallwidth dan class. Pada bagian kanan terdapat
selected attribute, hal ini menunjukkan keterangan yang lebih terhadap
attribut yang kita pilih berdasarkan tipe data yang ada seperti real,
boolean( yes, no) ato sesuai dengan kriteria yang dinginkan oleh user.
Misal, bila kita pilih attribute spallength, maka keterangan yang muncul
adalah
a. nilai minimum : 4.3
b. nilai maksimum : 7.9
c. Rata – rata (Mean) :5.843
d. Standar deviasinya ( StdDev ) : 0.828
Hal tersebut muncul karena attribute spallength mempunyai tipe data
real. Begitupun bila terdapat atribute rasa ( manis, pahit, asin ), maka 3
tipe rasa itu akan muncul berapa jumlah yang ada pada datanya.
Visualisasi tiap atribut dapat dilihat dengan meng-klik tombol
Visualize. Visualisasi ini menggunakan diagram batang, yang
mengilustrasikan jumlah dari masing-masing tipe pada atribut yang ada.
Seperti pada atribut class terdapat tiga tipe yaitu iris-sentosa, iris-
versicolor dan iris-virgina, di visulisasikan dengan diagram batang yang
mempunyai jumlah nilai yang sama yaitu 50.
Pada tab ini user dapat menentukan filter unsupervised yang akan
diterapkan pada data. Filter berperan dalam mengubah data dengan berbagai
cara. Klik pada filter tertentu yang telah dipilih akan memunculkan sebuah
kotak dialog GenericObjectEditor yang memungkinkan user mengkonfigurasikan
pilihan-pilihan pada filter. Untuk mengetahui informasi lebih lengkap
tentang filter yang dipilih, user dapat meng-klik tombol More.
2. Tab Classify
Classifiers dalam WEKA adalah model-model prediksi nominal maupun
numerik. Skema pembelajaran yang diimplementasikan antara lain decision
trees dan lists, instance-based classifiers, support vector machines, multi-
layers perceptrons, logistic regression. 'Meta' classifiers antara lain:
bagging, boosting, stacking, error-correcting output codes, locally
weighted learning. Clusters dapat divisualisasi dan dibandingkan dengan
cluster 'sesungguhnya'.
Tab ini memungkinkan user mengkonfigurasi dan mengeksekusi tiap
classifier WEKA pada himpunan data tertentu. User dapat memilih classifier
tertentu yang akan digunakan. Tersedia pula pilihan pengujian bagi user di
bawah bagian pemilihan classifiers, yaitu:
Use training set. Classifier dievaluasi pada kemampuannya memprediksi
class dari instances yang diujikan.
Supplied test set. Pengujian kemampuan classifier dilakukan terhadap
himpunan instances terpisah yang di-load dari sebuah file.
Cross-validation. Classifier dievaluasi dengan cross-validation,
menurut jumlah folds yang dimasukkan pada kolom Folds.
Percentage split. Evaluasi clasifier dilakukan pada sejumlah
persentase tertentu dari data yang digunakan untuk pengujian.
Setelah classifier, pilihan-pilihan pengujian, dan class telah
ditentukan, proses pembelajaran dapat dimulai dengan klik tombol Start.
User dapat menghentikan proses ini sewaktu-waktu dengan tombol Stop. Saat
training selesai, area output classifier di sebelah kanan menampilkan teks
yang menggambarkan hasil training dan pengujian. Sebuah entry baru juga
muncul di kotak Result list.
Teks yang dihasilkan pada area output classifier berisi informasi
tentang pilihan-pilihan skema, nama relasi, instances, atribut-atribut dan
mode pengujian; model classifier dengan himpunan training lengkap, hasil
mode pengujian yang dipilih, summary, akurasi terperinci menurut class,
serta matriks confusion.
Errors klasifikasi dapat divisualisasikan dalam sebuah tool
visualisasi data pop-up. Jika classifier menghasilkan sebuah decision tree,
dapat ditampilkan secara grafis dalam sebuah pop-up tree visualizer.
3. Tab Cluster
Tab ini serupa dengan classification, dengan sedikit perbedaan menurut
option yang ditentukan user. Misalnya, user dapat dengan mudah mengabaikan
beberapa atribut yang tidak diinginkan.
Dari tab ini user dapat mengkonfigurasi dan mengeksekusi tiap
clusterers WEKA pada himpunan data tertentu untuk menemukan kelompok-
kelompok dari instances yang sama dalam sebuah himpunan data. Skema-skema
yang dapat diimplementasikan antara lain: k-Means, EM, Cobweb, X-means,
FarthestFirst. Clusters dapat divisualisasikan dalam sebuah tool
visualisasi data.
Kotak cluster mode digunakan untuk memilih apa yang akan di-cluster
dan bagaimana melakukan evaluasi terhadap hasilnya. Tiga pilih pertama
serupa dengan yang terdapat pada klasifikasi: Use training set, Supplied
test set dan Percentage split – kecuali bahwa sekarang data akan diolah
dengan clustering. Mode keempat, Classes to clusters evaluation,
membandingkan seberapa baik clusters yang terpilih sesuai dengan class yang
telah ditentukan sebelumnya.
4. Tab Associate
WEKA hanya mengimplementasikan sebuah algoritma untuk asosiasi, yaitu
algoritma Apriori, untuk mempelajari aturan-aturan asosiasi. Asosiasi ini
hanya bekerja dengan data diskrit untuk menentukan ketergantungan antara
himpunan atribut. Apriori dapat menghitung seluluh aturan yang memenuhi
nilai minimum support dan confidence.
Dari tab ini user dapat mempelajari himpunan data tertentu untuk
menghasilkan aturan-aturan asosiasi menggunakan associators WEKA. Setelah
parameter-parameter tertentu diset, klik tombol Start. Saat proses selesai
dilakukan, klik kanan pada sebuah entry pada daftar hasil memungkinkan
hasilnya dilihat atau disimpan.
5. Tab Select Atribute
WEKA juga menyediakan teknik-teknik untuk mengabaikan atribut-atribut
yang tidak relevan dan/atau mengurangi dimensionalitas dari dataset.
Setelah loading sebuah dataset, klik tab ini untuk memilih metode evaluasi
(misalnya, Principal Components Analysis, correlation-based, wrapper,
information gain, chi-squared,) dan metode pencarian (misalnya, greedy,
exhaustive, best-first, forward selection, random, genetic algorithm, atau
ranking). Berdasarkan kombinasi yang dipilih, waktu aktual yang diperlukan
untuk pemilihan atribut dapat bervariasi atau sangat lama, bahkan untuk
dataset kecil dengan sedikit atribut dan sedikit instances. Ingat bahwa
tidak semua kombinasi metode evaluasi/pencarian valid, lihat pesan error di
Status bar.
Pemilihan atribut terdiri atas pencarian pada seluruh kombinasi yang
mungkin dari atribut-atribut pada data untuk menentukan subset atribut mana
yang paling baik untuk prediksi. Untuk melakukannya, 2 objek harus diset:
sebuah evaluator atribut dan sebuah metode pencarian. Evaluator menentukan
metode yang digunakan untuk menilai tiap subset dari atribut. Metode
pencarian menentukan gaya pencarian yang diterapkan.
Mode pemilihan atribut menyediakan 2 pilihan:
Use full training set. Nilai subset atribut ditentukan dengan himpunan
data training yang lengkap.
Cross-validation. Nilai subset atribut ditentukan dengan sebuah proses
validasi. Fields Folds dan Seed mengeset jumlah folds yang digunakan
dan seed random yang digunakan saat melakukan shuffle pada data.
4. Tab Visualize
Tab ini menampilkan matriks plot 2 dimensi untuk himpunan data
tertentu. Ukuran sel-sel individu dan titik-titik yang ditampilkan dapat
dipilih dengan slider di bagian bawah tab. Jumlah sel dalam matriks dapat
diubah dengan 'Select Attribute' lalu memilih atribut tertentu untuk
ditampilkan. Jika himpunan data besar, performansi plotting dapat
ditingkatkan dengan menampilkan subsample himpunan data tertentu. Klik pada
sebuah sel pada matriks menampilkan sebuah window tab plot yang lebih besar
yang menampilkan view dari sel tersebut.
Tab ini juga dapat menampilkan window terpisah dari tab classifier dan
tab cluster yang memungkinkan user memvisualisasikan prediksi yang dibuat
oleh classifiers/ clusterers. Jika class diskrit, titik-titik yang
diklasifikasikan dengan salah ditunjukkan dengan sebuah kotak berwarna
sesuai class yang diprediksi oleh classifier; sedangkan jika class kontinu,
ukuran tiap titik yang di-plot bervariasi dengan proporsi sesuai besarnya
error yang dibuat oleh classifier.
Titik-titik data diplot pada area utama pada window. Di bagian atas
terdapat 2 tombol daftar drop-down untuk pemilihan sumbu x dan y yang
diplot. User juga dapat memilih skema warna yang digunakan, berdasarkan
atribut yang dipilih. Di bawahnya, sebuah legend mencatat nilai-nilai apa
yang digambarkan oleh warna-warna tertentu. Jika nilainya diskrit, user
dapat memodifikasi warna yang digunakan masing-masing dengan klik dan
membuat sebuah seleksi yang sesuai pada window yang muncul.
JURNAL MODUL 2
1. Gunakan WEKA dan dataset Iris untuk menjawab pertanyaan-pertanyaan
berikut:
a. Berapa banyak atribut dan instances dalam dataset?
b. Lihat visualisasi distribusi nilai-nilai atribut. Apa yang dapat Anda
ceriterakan dari distribusi-distribusi tersebut? Atribut(-atribut)
manakah yang menurut Anda sangat berpengaruh terhadap keanggotaan
kelas? Mengapa?
c. Tuliskan hasil klasifikasi (tanpa filter, dengan J48 sebagai
classifier, dan pengujian dilakukan dengan dataset yang sama) yang
diperoleh dalam bentuk IF ... THEN ... !
2. Lakukan preprocess dan klasifikasi pada dataset contact_lenses.arff
yang Anda buat pada praktikum sebelumnya dengan Explorer WEKA (dengan
filter Normalize dan classifier J48) lalu tuliskan hasilnya dan berikan
komentar!
Gunakan dataset berikut ini untuk pengujian.:
"Index"Age "Spectacle-pre"Astigmatis"Tear-prod-"Contact"
" " "scrip "m "rate "-lenses"
"1 "young "hypermetrope "yes "reduced "none "
"2 "presbyopic "myope "no "reduced "none "
"3 "pre-presbyo"hypermetrope "yes "normal "none "
" "pic " " " " "
"4 "young "myope "no "normal "soft "
"5 "presbyopic "myope "no "normal "none "
"6 "young "hypermetrope "no "normal "soft "
"7 "pre-presbyo"myope "no "normal "soft "
" "pic " " " " "
"8 "young "hypermetrope "yes "normal "hard "
"9 "presbyopic "myope "no "reduced "none "
"10 "young "myope "no "reduced "none "
Modul 3
Magnum Opus
Tujuan Praktikum
1. Mengenal dan mengetahui perangkat 'Magnum Opus' dalam Data Mining
2. Mengetahui dan memahami cara menggunakan perangkat 'Magnum Opus'
3. Mengimplementasikan Data Mining secara praktis
Pendahuluan
Magnum opus menyediakan kekuatan terkini dalam teknologi pencarian
pola. Dengan fleksibilitas yang tidak terbanding dan mudah digunakan, ia
mampu mencari pola baru dan yang tidak disangka sebelumnya dari sekumpulan
data. Gunakan Magnum Opus untuk membuka kekayaan yang implisit dari data
kita.
Magnum Opus menggunakan teknik pencarian pola k-most interesting yang
unik. Magnum Opus menyediakan pola yang paling menarik berdasarkan ukuran
yang kita pilih. Magnum Opus juga merupakan satu-satunya system yang
mendukung deteksi statistik suara dari pola tiruan.
Beberapa fitur penting lainnya :
1. Mudah untuk digunakan dan tidak memberanikan diri pada pengetahuan
tingkat tinggi dari statistik dan Machine Learning
2. Pola di ekspresikan dalam sebuah bentuk yang sederhana untuk
dimengerti
3. Meliputi sebuah fasilitas unik yang secara otomatis menyaring pola
tiruan
4. Tidak seperti perangkat yang lain, ia tidak bergantung kepada data
yang berserakan untuk proses yang efisien
5. Mencari pola yang berasal baik itu data transaksi dan data nilai
atribut
6. Magnum Opus didesain untuk menganalisa substansial databases yang
mengandung jutaan record
7. Memiliki waktu komputasi linear. Sehingga memiliki kinerja yang cepat.
8. Fleksibel. Pilihan beda pencarian mendukung jangkauan yang luas dalam
membedakan tujuan analitis
3.1 Tentang Magnum Opus
Tampilan depan Magnum Opus
Magnum Opus Menganalisa data untuk mendeteksi pola dari data tersebut.
Sebuah pola Magnum Opus mengidentifikasi sebuah kombinasi dari nilai
atribut atau item yang ada dengan frekuensi tertinggi dan diharapkan jika
nilai atau item tidak bergantung satu sama lainnya. Atribut khusus '?'
menandakan tidak ada nilai nilai dalam atribut tersebut. Beberapa tipe
atribut :
1. Categorical : nilai dari atribut digunakan secara
langsung tanpa diproses sebelumnya
2. Attribut : nilai ini meliputi bilangan, tetapi system
memperlakukan tiap bilangan secara sederhana sebagai sebuah
identifier
3. Numerik : nilai atribut berupa numerik. Nilai ini
harus dibagi lagi. Atribut nilai ini dibagi kedalam sub-
ranges yang dijelaskan dalam names-file.
Pola memiliki 2 bagian, sebuah Left Hand Side (LHS) dan sebuah
Right Hand Side (RHS). LHS adalah sebuah kumpulan dari satu atau beberapa
nilai atribut atau item. RHS adalah sebuah atribut atau item tunggal.
Sejumlah nilai terdaftar dari tiap pola :
1. Coverage : sejumlah kasus dalam data yang terliputi atau ter-cover
oleh pola LHS. Misalkan terdapat 1000 kasus dan LHS cover 200 kasus.
Nilai coverage-nya adalah 200 dan coverage proportion-nya 200/1000 =
0.2
2. RHS Coverage : sejumlah kasus dalam data yang terliputi atau ter-
cover oleh pola RHS. Misalkan terdapat 1000 kasus dan RHS cover 100
kasus. Nilai coverage-nya 200 dan coverage proportionnya 100/1000 =
0.1
3. Support : sejumlah kasus dalam data yang terliputi atau ter-cover oleh
pola LHS dan RHS. Misalkan terdapat 1000 kasus dan LHS dan RHS
tergabung meng-cover 200 kasus. Nilai Support Count-nya adalah 200
dan support proportion-nya adalah 200/1000 = 0.2
4. Strength : proporsi dari contoh yang ter-cover oleh LHS yang ter-cover
juga oleh RHS. Atau sama saja sebagai probabilitas kasus yang memenuhi
RHS jika telah memenuhi LHS. Misalkan LHS meng-cover 200 kasus dan RHS
meng-cover 50 dari kasus yang ter-cover oleh LHS. Nilai Strength-nya
adalah 50/200 = 0.25
5. Lift : nilai Strength dibagi RHS coverage proportion. Misalkan ada
1000 contoh, LHS meng-cover 200 contoh, RHS meng-cover 100 contoh, dan
RHS meng-cover 50 dari contoh yang ter-cover LHS. Strength = 50/200 =
0.25. RHS cover proportion = 100/1000 = 0.1. Lift = 0.25/0.1 = 2.5
6. Leverage : sejumlah kasus tambahan yang ter-cover baik itu oleh LHS
dan RHS dan dipenuhi jika LHS dan RHS tidak bergantung satu sama
lainnya. Misalkan terdapat 1000 kasus, LHS meng-cover 200 kasus, RHS
meng-cover 100 kasus, RHS meng-cover 50 dari kasus yang ter-cover oleh
LHS. Proporsi dari contoh yang ter-cover baik itu oleh LHS dan RHS
adalah 50/1000 = 0.05. Jumlah contoh yang diharapkan ter-cover oleh
LHS dan RHS jika mereka tidak saling bergantung satu sama lain =
200*100/1000 = 20. Leverage count = 50-20 = 30. Leverage Proportion =
30/1000 = 0.03.
3.2 Data Transaksi dan Data Attribute -Value
Magnum Opus digunakan dalam 2 tipe data berbeda, yaitu : Data
Transaksi dan Data Attribute-Value. Data transaksi mengandung kumpulan
dari item. Seperti data market basket, dimana tiap transaksi adalah
kumpulan item yang dibeli oleh pelanggan dalam sebuah transaksi.
Data Attribute-value adalah sekumpulan kasus, tiap kasus dijelaskan
oleh sebuah nilai atribut. Tiap kasus memiliki nilai tunggal untuk tiap
atribut. Atribut dapat berupa nilai categorical atau numeric.
Data Transaksi dapat di import dari 2 tipe file yaitu :
1. identifier-item files : adalah sebuah file text yang mencatat
transaksi untuk di analisa kedalam format identifier-item. Tiap
transaksi memiliki sebuah identifier unik. Tiap baris mengasosiasikan
sebuah identifier transaksi dengan sebuah item dalam transaksi
tersebut. Tiap baris setidaknya memiliki 2 kolom, 1 untuk identifier
dan satu lagi untuk item. Contoh :
001,apples
001,oranges
001,bananas
002,apples
002,carrots
002,lettuce
002,tomatoes
dimana transaksi 001 meliputi apples, oranges, dan bananas, dan
transaksi 002 meliputi apples, carrots, lettuce, tomatoes
2. item-list files : sebuah file teks yang mencatat transaksi untuk
dianalisa, dimana tiap baris mengandung daftar item dalam sebuah
transaksi.
apples,oranges,bananas
apples,carrots,lettuce,tomatoes
Transaksi pertama : apples,oranges,bananas , transaksi kedua :
apples,carrots,lettuce,tomatoes
Tiap kumpulan data Attribute-value harus dijelaskan oleh 2 file, yaitu
:
1. names file : sebuah file teks yang mencatat atribut yang dijelaskan di
kasus dalam data file untuk di analisa.
Tiap atribut dijelaskan dalam beberapa baris. Tiap baris dimulai
dengan nama atribut. Untuk atribut categorical, nama atribut diikuti
dengan (:) dan tiap nilai di pisahkan dengan (,)/koma.
Contoh : Department: bakery, dairy, beverages
Untuk atribut numeric dengan beberapa sub-ranges, nama atribut diikuti
dengan bagian dari tiap sub-range.
Contoh : spend < 10 <= 100, hal ini menandakan atribut memiliki 3 sub-
range
Spend < 10
10 <= Spend <= 100
Spend > 100
2. Data File : sebuah file teks yang mencatat kasus untuk dianalisa dalam
analisa data attribute-value. Kasus di catat per baris. Untuk tiap
kasus, nilainya harus disiapkan untuk tiap atribut. Nilai atribut
untuk sebuah kasus harus dicatat dalam urutan yang ada di dalam names
file.
Nilai atribut khusus '?' menandakan tidak ada nilai yang tersedia
untuk atribut tersebut. Missing value juga bisa diindikasikan dengan
empty field.
Contoh : ?,2,?,?
3.3 Menggunakan Magnum Opus dengan data transaksi : pengenalan
penggunaan
Bagian ini memperkenalkan proses menganalisis contoh data transaksi
terdistribusi menggunakan Magnum Opus. Data sederhana berikut menampilkan
tipe data yang biasa terjadi pada transaksi pelanggan di supermarket.
Karena Magnum Opus mendukung 2 alternatif format file data transaksi, data
yang sama telah disediakan untuk tiap format. File tutorial.idi
menjelaskan transaksi dalam format identifier-item file. File tutorial.itl
menjelaskan data dalam format item list file. Untuk membedakan kedua
format, maka untuk format identifier-item anda harus memilih kolom yang
mengandung identifier dan item, tutorial ini menggunakan format identifier-
item Hasil yang identik dapat diraih juga menggunakan item list file.
identifier-item file, tutorial.idi, meliputi 2583 baris, dimulai sebagai
berikut :
ID001, bananas
ID002, plums
ID002, lettuce
ID002, tomatoes
ID003, celery
ID003, confectionery
ID004, confectionery
ID005, apples
ID005, carrots
ID005, tomatoes
ID005, potatoes
11 Baris pertama menjelaskan 5 transaksi, tiap transaksi dibagi dengan
beberapa identifier. Seluruhnya terdapat 1000 transaksi yang dijelaskan di
dalam file. Pada Transaksi pertama, ID001, hanya satu item yang dibeli,
bananas. Pada transaksi kedua, ID002, terdapat 3 item yang dibeli, plums,
lettuce, and tomatoes.
3.3.1 Run Magnum Opus
Dapat dilakukan dengan men-double click icon Magnum Opus atau memilih
Magnum Opus dari Start menu.
3.3.2 Import the data
Untuk mengimport data secara biasa dapat dilakukan dengan meng-click
tombol import data toolbar. atau dengan mengklik icon berikut.
, pilih file tutorial.idi dan klik Open. Import Data Wizard next
meminta identifikasi dari format data yang diimport
Magnum Opus mengenali ekstensi file untuk identifier-item files dan
memilih format tersebut. Setelah Magnum Opus memilih format yang
benar, click the Next > button untuk memprosesnya. Kemudian Anda akan
diminta mengidentifikasi apakah file diurutkan berdasarkan identifier.
Import data Identifier-item secara substansial cepat jika Magnum Opus
dapat mengasumsikan bahwa data tersebut dikelompokkan jadi seluruh
record untuk tiap identifier disimpan secara sekuensial. Data tutorial
dikelompokkan pada bagian ini, jadi pilih Yes dan click tombol Next >
untuk melanjutkan. Sekarang anda diminta mengidentifikasi pembatas
yang membagi field dalam file data.
Field dalam data tutorial menggunakan pembatas standar, koma, yang
telah terpilih, jadi click Next > untuk memproses. Sekarang anda
diminta untuk memilih kolom yang mengandung identifiers dan items.
Pada contoh berikut, inisialisasi pemilihan tidak perlu diubah, jadi
click Next > untuk memproses. Sekarang anda diminta untuk memmilih
proporsi dari kasus untuk di-import. Jika anda berharap untuk merandam
contoh transaksi dari file data, pilih persentasi dari transaksi untuk
dijadikan sample.
Dalam tutorial ini kita menggunakan 50% sampel, jadi 50 tipe dalam
edit box. Tampilan Data Import Wizard sebagai berikut :.
Sekarang click Next > untuk memproses ke tampilan terakhir.
Tampilan berikut memberikan anda untuk memilih sebuah holdout
treatment. Holdout evaluation menggunakan sebuah tes statistik untuk
semua pola yang ditemukan untuk menentukan apakah secara statistik
mereka signifikan. Hal ini meminta penggunaan urutan yang kedua yaitu
holdout data. Satu pilihan untuk mendapatkan data holdout menggunakan
out-of-sample data. Berikut tampilannya :
Selesai, lalu click Import Data untuk import data dengan pilihan
sesuai yang kita set. Kemudian Magnum Opus akan menampilkan tampilan
berikut :
3.3.3 Memilih opsi untuk pencarian berdasarkan leverage
Untuk pencarian pertama kita akan menggunakan mode pencarian secara
default. Untuk kemudahan demonstrasi kita akan membatasi untuk mencari
hanya 10 pola saja. Karena pencarian berdasarkan mode leverage, maka
akan ditampilkan 10 pola dengan nilai tertinggi saja.
Untuk membatasi pencarian dengan 10 pola saja, rubah nilai dalam edit
box Maximum no. of rules menjadi 10. Tampilannya sebagai berikut :
3.3.4 Menjalankan Pencarian berdasarkan leverage
Setelah mengeset untuk pencarian, click tombol GO untuk memulai
pencarian. Magnum Opus membuka sebuah dialog yang memungkinkan
Anda memilih sebuah file output. Nama tidak terlalu dipentingkan dalam
tutorial ini, anda dapat menerimanya secara sederhana default dengan
meng-klik SAVE.
Selama eksekusi pencarian progress akan ditampilkan dalam Status bar
pada bottom-left-hand di jendela Magnum Opus.
3.3.5 Menampilkan output
Setelah pencarian selesai, aplikasi tampilan akan menampilkan
output. Daftar file output:
nama file data,
jumlah kasus yang di-load dari file data,
jumlah nilai atribut dalam data,
waktu pencarian, dan
setting yang digunakan untuk pencarian.
3.3.6 Membedah pola
Pola pertama dari contoh file output berikut
lettuce
is associated with tomatoes
with strength = 0.477
coverage = 0.222: 111 cases satisfy the LHS
support = 0.106: 53 cases satisfy both the LHS and the RHS
lift = 1.96: the strength is 1.96 times greater than if there were no
association
leverage = 0.0518: the support is 0.0518 (25 cases) greater than if
there were no association
LHS dari pola ini ditampilkan pada baris pertama. RHS ditampilkan pada
akhir dari baris kedua. Pola ini menandakan bahwa lettuces
berasosiasi dengan tomatoes lebih tinggi frekuensinya dibandingkan
dengan dari keseluruhan rata-rata transaksi. Oleh karena itu,
Frekuensi asosiasi antara transaksi yang mengandung LHR maupun RHS
lebih besar dibandingkan yang secara normal
3.3.7 Menjalankan Pencarian berdasarkan Lift
Jurnal Modul 3 Magnum Opus : Data Transaksi
1. Misalkan pada sebuah data transaksi belanja (menggunakan data
tutorial.idi) seorang manager melihat bahwa terdapat asosiasi antar
data, misal : a-> b , kemudian rata-rata data yang tercover oleh
asosiasi data tersebut, misal a->b, untuk a : 1000 kasus, sedangkan
untuk b : 300 kasus, kemudian data tersebut tercover secara irisan
antara, a,b : 200 kasus. Data yang tercover oleh a dari data yang
tercover b(200 kasus) : 100 kasus. hitung nilai : coverage, RHS
coverage, support, Strength, lift,leverage
2. Praktekan menggunakan tools : data Transaksi Magnum Opus!
3. Tulis 3 Rules yang ada, analisa!
Modul 4
Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan
Tujuan praktikum
1. Mahasiswa mengetahui lebih dalam magnum Opus
2. Mahasiswa dapat menggunakan Magnum Opus dengan attribute value data.
Sama seperti pada penggunaan data transaksi. Namun attribute-value
data meliputi 2 file: Pertama names file. Yang kedua data file. Names file
menjelaskan attributes yang disimpan pada data file. Pada sesi ini kita
menggunakan contoh file : tutorial.nam and tutorial.data. names file,
tutorial.nam, mengandung hal-hal berikut:
Profitability99: numeric 3
Profitability98: numeric 3
Spend99: numeric 3
Spend98: numeric 3
NoVisits99: numeric 3
NoVisits98: numeric 3
Dairy: numeric 3
Deli: numeric 3
Bakery: numeric 3
Grocery: numeric 3
SocioEconomicGroup: categorical
Promotion1: t, f
Promotion2: t, f
4.1 Run Magnum Opus
Sama seperti data transaksi
4.2 Import the data
Magnum Opus kini meminta pilihan file data yang akan dipakai.
Ikuti langkah-langkah pada gambar
Kita menggunakan percentage 50
Ikuti langkah-langkah pada gambar
Ikuti langkah-langkah pada gambar. Akan dijelaskan selengkapnya pada
saat praktikum.
4.3 Menjalankan Pencarian berdasarkan leverage
Selengkapnya pada saat praktikum
4.4 Melihat output
Daftar file yang tampil :
the name of the names file,
the name of the data file,
the number of cases loaded from the data file,
the number of attribute values in the data,
the time at which the search commenced, and
the settings used for the search.
4.5 Menjalankan pencarian berdasarkan lift
Selengkapnya pada saat praktikum.
4.6 Menjalankan pencarian berdasarkan lift tanpa penyaringan
4.7 Batasan
Magnum Opus memiliki beberapa batasan sebagai berikut
Names dibatasi maksimum 256 karakter. Nama yang panjang diharapkan,
namun 2 nama berbeda melebihi 256 karakter dianggap sama. Batasan ini
digunakan untuk nama atribut, attribute-values, identifiers dan items.
Jumlah kasus dibatasi maksimum 2,147,483,647.
Untuk data attribute-value, jumlah atribut dan attribute-value
keduanya dibatasi maksimum 2,147,483,647.
Untuk data transaksi, jumlah item dibatasi maksimum 2,147,483,647.
Untuk data identifier-data, jumlah identifier transaksi dibatasi
maksimum 2,147,483,647.
Jurnal Modul 4 Magnum Opus : Attribute-value
1. Praktekan contoh diatas menggunakan tools : attribute value Magnum
Opus!
2. Tulis 3 Rules yang ada, analisa!
Modul 5
See5
Tujuan Praktikum :
1 Mengenal dan mengetahui See5 sebagai tool data mining
2 Memahami cara menggunakan See5
3 Mengimplementasikan Data Mining secara praktis
5.1 Pendahuluan
See5 adalah tool data mining yang cukup kompleks dan digunakan untuk
menemukan pola-pola yang menggambarkan kategori, mengumpulkan kategori-
kategori itu ke dalam classifier, dan menggunakan kategori-kategori itu
untuk membuat prediksi. Keunggulan See5 adalah penekanan rule-based
classifiers yang menyebabkan See5 lebih mudah dimengerti – setiap rule
dapat diujicobakan dan divalidasi secara terpisah, tanpa harus mengetahui
pengertian menyeluruh dari classifier-.
Keunggulan yang lain dari See5 adalah kecepatannya dalam menganalisa data
- waktu terlama yang pernah dicatat adalah 14 detik bila dioperasikan pada
komputer yang cepat untuk menganalisa 100.000 kasus dan 40 atribut -
Selain itu, See5 juga bisa menggenerate decision trees pada kondisi dimana
classifiers harus dibangun dalam waktu yang singkat
File-file yang diperlukan dalam menganalisa data menggunakan See5 adalah
sbb :
".names"file ini berisi deskripsi dari "[require"
" "atribut aplikasi "d] "
".data "kasus-kasus yang digunakan untuk "[require"
" "menggenerate classifier "d] "
".test "Kasus yang digunakan untuk menguji "[optiona"
" "classifier "l] "
".cases"Kasus yang akan diklasifikasikan "[optiona"
" "secara berurutan "l] "
".costs"Differential misclassification costs"[optiona"
" " "l] "
".tree "decision tree classifier yang "[output]"
" "dihasilkan oleh See5 " "
".rules"ruleset classifier yang dihasilkan "[output]"
" "oleh See5 " "
".out "laporan yang dihasilkan ketika "[output]"
" "classifier degenerate " "
".set "setting yang digunakan untuk "[output]"
" "classifier yang terakhir " "
5.1.1 Names file
File yang berekstensi names (seperti pemilu.names) adalah file yang
menggambarkan atribut dan class. Ada dua subgroup yang penting dari
atribut, yaitu :
Nilai dari atribut yang terdefinisi secara explisit (explicitly-
defined attribute) yang diberikan secara langsung ke data. Atribut
discrete memiliki nilai yang diambil dari kumpulan nilai nominal,
atribut continuous memiliki nilai numeric, atribut date bertipe
tanggal kalender, atribut time bertipe waktu jam, atribut timestamp
bertipe waktu dan tanggal, dan atribut label hanya dipakai untuk kasus-
kasus tertentu.
Nilai dari atribut yang terdefinisi secara implisit (implicitly-
defined attribute) yang dispesifikasikan oleh sebuah formula (rumus).
(Kebanyakan atribut yang digunakan adalah atribut yang terdefinisi
secara explisit, jadi mungkin kita tidak pernah menggunakan atribut
yang terdefinisi secara implisit.)
Contoh isi dari file pemilu.names sebagai berikut :
K,L,M,N. " nilai dari atribut target
Jenis : kota, kabupaten.
Kepadatan_Penduduk : continuous.
Total_APBD : continuous.
Pulau : sumatera, jawa, bali & NTT, kalimantan, sulawesi.
Kegiatan_Ekonomi : A,B,C,D,E.
5.1.2 Atribut yang terdefinisi secara explisit
Nama dari setiap atribut yang terdefinisi secara explisit diikuti oleh
titik dua `:' dan nilai dari atribut itu sendiri. Ada enam kemungkinan :
continuous
Atribut yang memiliki nilai numerik.
date
Nilai dari atribut tanggal berada dalam bentuk YYYY/MM/DD atau YYYY-MM-
DD, seperti 1999/09/30 atau 1999-09-30.
time
Nilai dari atribut waktu berada dalam bentuk HH:MM:SS dengan nilai di
antara 00:00:00 dan 23:59:59.
timestamp
Nilai dari atribut ini berada dalam bentuk YYYY/MM/DD HH:MM:SS atau
YYYY-MM-DD HH:MM:SS, seperti 1999-09-30 15:04:00. (Perhatikan bahwa
ada spasi yang memisahkan di antara tanggal dan waktu.)
daftar nilai atribut bertipe discrete yang dipisahkan oleh koma
Bila tipe dari nilai atribut adalah bukan bilangan, maka ia bisa
diurutkan.
Seperti :
nilai : [diurutkan] rendah, sedang, tinggi
Bentuk dari nilai atribut ini bisa menjadi atribut target. Sedangkan
untuk tipe dari nilai atribut yang merupakan bilangan, ia tidak bisa
digunakan sebagai atribut target.
label
Atribut ini terdiri dari label yang mengidentifikasikan setiap kasus
seperti nomor rekening.
5.1.3 Dates, times, and timestamps
Dates disimpan oleh See5 sebagai jumlah hari sejak tanggal mulai tertentu
sehingga beberapa operasi pada atribut dates menjadi masuk akal. Dengan
begitu, jika kita memiliki atribut
d1: date.
d2: date.
Kita bisa mendefinisikan
interval := d2 - d1.
gap := d1 <= d2 - 7.
d1-day-of-week := (d1 + 1) % 7 + 1.
interval kemudian merepresentasikan jumlah hari dari d1 sampai d2. Gap
menghasilkan nilai true atau false yang mengisyaratkan bahwa d1 itu minimal
seminggu jaraknya dari d2. Mirip dengan dates, times juga disimpan sebagai
jumlah dari detik sejak tengah malam. Sebagai contoh, jika file .names
terdiri dari
start: time.
finish: time.
elapsed := finish - start.
Maka nilai dari elapsed adalah jumlah detik dari start sampai finish.
Timestamps sedikit lebih kompleks. Timestamp dibulatkan menuju menit
terdekat, sebagai contoh, jika
departure: timestamp.
arrival: timestamp.
flight time := arrival - departure.
maka nilai dari flight time adalah jumlah menit dari departure menuju
arrival.
5.1.4 Memilih atribut yang bisa muncul pada classifier
Cara pendeklarasian yang lain di file .names mempengaruhi cara See5
membangun classifiernya. Contoh pendeklarasiannya sbb :
attributes included:
attributes excluded:
masing-masing entry lalu diikuti dengan daftar nama atribut yang dipisahkan
dengan koma. Bentuk pertama membatasi atribut yang dipergunakan di
classifier hanya untuk atribut yang tercatat di file .names, sedangkan
bentuk kedua menspesifikasikan bahwa classifier tidak boleh menggunakan
atribut apapun dari file .names
atribut yang tidak dimasukkan sebagai classifier bukan berarti atribut itu
"diabaikan". Sebagai contoh, misalnya atribut numerik A dan B didefinisikan
di data, tapi sebenarnya yang dibutuhkan adalah selisih dari keduanya, maka
file .names berisi entri-entri sbb: . . .A: continuous.
B: continuous.
Diff := A - B.
. . .
attributes excluded: A, B.
Pada contoh di atas, atribut A dan B tidak bisa didefinisikan diabaikan
karena kalau diabaikan, maka definisi Diff akan menjadi tidak valid.
5.1.5 Data file
File penting kedua adalah file data aplikasi (seperti pemilu.data) yang
menyediakan informasi dari training case yang mana See5 akan mengambil pola
dari training case tersebut. Entri dari setiap kasus terdiri dari satu atau
lebih baris data yang akan memberikan nilai untuk semua atribut yang
terdefinisi secara eksplisit. Nilai-nilainya dipisahkan dengan koma dan
entrinya tidak diakhiri dengan tanda apapun. Sekali lagi, informasi apapun
pada sebuah baris data setelah vertical bar `"' akan diabaikan. (Jika
informasi untuk sebuah kasus melebihi satu baris, maka pastikan bahwa baris
itu akan dipecah setelah koma)
Sebagai contoh, tiga kasus pertama dari file pemilu.data adalah sbb :
kota,?,91198131000,sumatera,E,K
kabupaten,182,735831723000,N/A,B,K
kota,2369,148993189000,sumatera,C,L
Jangan lupakan koma diantara nilai-nilai baris data! Jika kamu lupa, maka
See5 akan tidak mampu memproses data kita.
Perhatikan bahwa tanda `?' digunakan untuk menggambarkan missing values
(nilai yang tidak diketahui). Hampir mirip, tanda `N/A' menggambarkan
sebuah nilai yang tidak bisa diaplikasikan untuk kasus tertentu.
5.1.6 User Interface
Adapun user interface dari See5 setelah data pemilu dipilih :
Tampilan utama dari See5 memiliki enam tombol pada toolbarnya. Dari kiri
ke kanan, penjelasannya sbb :
Locate Data
Menampilkan browser untuk menemukan file-file aplikasi kita;
Construct Classifier
Memilih jenis dari classifier untuk dibangun dan untuk mengatur opsi
lainnya;
Stop
Memberhentikan proses generate classifier;
Review Output
Menampilkan kembali output dari pembangunan classifier yang terakhir;
Use Classifier
Menerapkan classifier yang sedang dipakai ke satu atau lebih kasus;
Cross-Reference
Menunjukkan bagaimana kasus pada training atau test data terhubung ke
(bagian dari) classifier dan begitu seterusnya.
Jurnal Modul 5 (See5)
1. Ubah dataset berekstensi .arff berikut ini ke dalam format .data dan
format .names sehingga dapat digunakan sebagai inputan pada See5.0. Simpan
hasilnya dengan nama weather_<4 digit terakhir NIM Anda>.data dan
weather_<4 digit terakhir NIM Anda>.names.
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
sunny,81,87,TRUE,no
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
sunny,75,70,TRUE,yes
sunny,82,93,FALSE,yes
overcast,83,86,FALSE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
overcast,64,65,TRUE,yes
overcast,66,62,FALSE,yes
overcast,70,66,TRUE,yes
overcast,80,77,TRUE,no
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
rainy,75,80,FALSE,yes
rainy,71,91,TRUE,no
rainy,69,85,TRUE,no
rainy,73,87,TRUE,no
rainy,76,84,TRUE,no
2. Dari data yang anda buat
c. modelkan dengan menggunakan decision tree
d. Dari pemodelan yang ada, teslah model tersebut dengan contoh data
baru yang anda buat.
Modul 6
Constructing Classifiers in See5
Tujuan Praktikum :
1. Mengenal dan mengetahui penggunaan classifiers dalam See5
2. Menggunakan classifier tersebut untuk memprediksi class
Setelah file .names, .data, dan file-file opsional telah digenerate, kita
telah siap untuk menggunakan See5.
Langkah pertama adalah untuk mencari data menggunakan tombol Locate Data
yang ada di toolbar (atau dari menu File). Ada beberapa opsi yang
mempengaruhi jenis dari classifier yang dihasilkan oleh See5 dan cara See5
membangun classifiernya. Tombol Construct Classifier yang ada di toolbar
(atau dari menu File) menampilkan kotak dialog yang mengatur opsi
pembangunan classifier ini.
6.1 Decision trees
Ketika See5 dijalankan dengan setting default untuk semua opsi, ia akan
membangun sebuah decision tree dan menghasilkan outputan seperti ini :
See5 [Release 1.19] Wed Mar 16 22:59:17 2005
*** line 53 of `pemilu.data': bad value of `F' for attribute
`Kegiatan_Ekonomi'
*** line 69 of `pemilu.data': bad value of `F' for attribute
`Kegiatan_Ekonomi'
Read 81 cases (5 attributes) from pemilu.data
Decision tree:
Pulau = jawa: L (22/3)
Pulau = bali & NTT: N (6/3)
Pulau = kalimantan: L (13/3)
Pulau = sumatera:
:...Kegiatan_Ekonomi = D: L (0)
: Kegiatan_Ekonomi = B: N (5/2)
: Kegiatan_Ekonomi = C: L (5/1)
: Kegiatan_Ekonomi = E: K (1)
: Kegiatan_Ekonomi = A:
: :...Total_APBD <= 7.212406e+010: K (2)
: Total_APBD > 7.212406e+010: L (11/4)
Pulau = sulawesi:
:...Jenis = kota: K (3/1)
Jenis = kabupaten:
:...Kepadatan_Penduduk <= 82: L (6/2)
Kepadatan_Penduduk > 82: K (7)
Evaluation on training data (81 cases):
Decision Tree
----------------
Size Errors
11 19(23.5%) <<
(a) (b) (c) (d) <-classified as
---- ---- ---- ----
12 5 3 (a): class K
44 1 (b): class L
1 1 (c): class M
1 7 6 (d): class N
Time: 0.0 secs
Baris pertama mengidentifikasi versi dari See5 dan waktu eksekusinya. See5
membangun sebuah decision tree dari 81 training case pada file pemilu.data.
Walaupun outputannya tidak seperti tree, outputannya dapat kita jelaskan
sebagai berikut :
if Pulau is equal to jawa then L
else
if Pulau is equal to bali & NTT then N
else
if Pulau is equal to kalimantan L
else
if Pulau is equal to sumatera then
if kegiatan_ekonomi is equal to D then L
else
if kegiatan_ekonomi is equal to B then N
else
if kegiatan_ekonomi is equal to C then L
else
if kegiatan_ekonomi is equal to E then K
else
if kegiatan_ekonomi is equal to A then
if Total_APBD is less than or equal to 7.212406e+010 then K
else
if Total_APBD is greater than 7.212406e+010 then L
else
if Pulau is equal to sulawesi then
if Jenis is equal to kota then K
else
if Jenis is equal to kabupaten then
if Kepadatan_Penduduk is less than or equal to 82 then L
else
if Kepadatan_Penduduk is greater than 82 then K
6.2 Rulesets
Decision tree terkadang agak sulit. Salah satu fitur penting dari See5
adalah kemampuannya untuk menggenerate classifier yang disebut rulesets
yang terdiri dari kumpulan rule if-then sederhana yang tidak terurut.
Untuk membangkitkan ruleset, caranya adalah dengan melakukan settingan
berikut pada classifier construction options :
Selanjutnya, didapatkan ruleset sebagai berikut yang merupakan pengembangan
dari decision tree di atas :
Rule 1: (3, lift 3.2)
Total_APBD <= 7.212406e+010
Kegiatan_Ekonomi = A
-> class K [0.800]
Rule 2: (1, lift 2.7)
Pulau = sumatera
Kegiatan_Ekonomi = E
-> class K [0.667]
Rule 3: (16/5, lift 2.7)
Pulau = sulawesi
-> class K [0.667]
Rule 4: (17/2, lift 1.5)
Kegiatan_Ekonomi = C
-> class L [0.842]
Rule 5: (22/3, lift 1.5)
Pulau = jawa
-> class L [0.833]
Rule 6: (13/3, lift 1.3)
Pulau = kalimantan
-> class L [0.733]
Rule 7: (5/2, lift 3.3)
Pulau = sumatera
Kegiatan_Ekonomi = B
-> class N [0.571]
Rule 8: (6/3, lift 2.9)
Pulau = bali & NTT
-> class N [0.500]
Default class: L
Setiap rule terdiri dari :
Nomor urut rule – yang berfungsi untuk mengidentifikasi rule.
Statistik (n, lift x) or (n/m, lift x) yang menggambarkan performansi
dari rule. n adalah jumlah training case yang bisa ditanggulangi oleh
rule, sedangkan m, jika muncul, menunjukkan berapa banyak training
case dari n yang salah diprediksikan classnya oleh rule. Ketepatan
rule diperkirakan oleh rasio Laplace (n-m+1)/(n+2). Simbol x adalah
hasil dari membagi ketepatan perkiraan rule tersebut dengan frekuensi
relatif dari class yang diprediksi pada training set.
Satu atau lebih kondisi yang semuanya harus dipenuhi jika rule akan
diimplementasikan.
Class yang diprediksikan oleh rule.
Nilai di antara 0 dan 1 yang mengindikasikan confidence.
Ketika ruleset seperti ini digunakan untuk mengklasifikasikan sebuah kasus,
adalah mungkin terjadi bahwa beberapa dari rule-rule tersebut sama-sama
bisa diimplementasikan pada satu kasus yang sama. Jika hal ini terjadi,
kita dapat mempercayai rule dengan nilai confidence tertinggi, atau kita
menjumlahkan semua prediksi-prediksi rule untuk mendapatkan satu keputusan.
See5 mengadopsi strategi yang terakhir. Selain itu, kita juga menjumpai
istilah default class, dalam kasus ini adalah L, yang akan digunakan ketika
tidak ada satupun dari rule yang memenuhi.
Ruleset biasanya lebih mudah dimengerti daripada tree karena setiap rule
menggambarkan sesuatu yang berhubungan dengan klas. Lebih lanjut lagi,
sebuah ruleset yang digenerate dari sebuah tree biasanya memiliki lebih
sedikit rule daripada jumlah leaf yang dimiliki tree, (Pada contoh di atas,
decision tree yang memiliki 12 leaf disederhanakan menjadi delapan rule.)
Pada banyak kasus, rule adalah predictor yang lebih akurat daripada
decision tree --.
Pada contoh di atas, rule diurutkan berdasarkan klas dan nilai confidence-
nya. Sebuah alternatif pengurutannya adalah dengan menggunakan opsi Sort by
utility. Dengan opsi ini, rule yang paling mengurangi jumlah error muncul
pertama dan rule yang paling tidak mengurangi jumlah error muncul terakhir.
Lebih lanjut lagi, hasilnya dilaporkan dalam jumlah kelompok (bands)
sehingga ketepatan prediktif dari himpunan bagian yang lebih penting juga
diperkirakan Sebagai contoh, jika opsi Sort by utility dengan empat
kelompok (bands) dipilih, kasus pemilu diurukan kembali sbb :
See5 [Release 1.19] Tue Mar 22 06:20:53 2005
Options:
Rule-based classifiers
Rule utility ordering (1/4's)
*** line 53 of `pemilu.data': bad value of `F' for attribute
`Kegiatan_Ekonomi'
*** line 69 of `pemilu.data': bad value of `F' for attribute
`Kegiatan_Ekonomi'
Read 81 cases (5 attributes) from pemilu.data
Rules:
Rule 1: (22/3, lift 1.5)
Pulau = jawa
-> class L [0.833]
Rule 2: (16/5, lift 2.7)
Pulau = sulawesi
-> class K [0.667]
Rule 3: (13/3, lift 1.3)
Pulau = kalimantan
-> class L [0.733]
Rule 4: (17/2, lift 1.5)
Kegiatan_Ekonomi = C
-> class L [0.842]
Rule 5: (6/3, lift 2.9)
Pulau = bali & NTT
-> class N [0.500]
Rule 6: (5/2, lift 3.3)
Pulau = sumatera
Kegiatan_Ekonomi = B
-> class N [0.571]
Rule 7: (3, lift 3.2)
Total_APBD <= 7.212406e+010
Kegiatan_Ekonomi = A
-> class K [0.800]
Rule 8: (1, lift 2.7)
Pulau = sumatera
Kegiatan_Ekonomi = E
-> class K [0.667]
Default class: L
Rulenya dibagi ke dalam empat kelompok. Sedangkan output untuk test case di
atas adalah sbb :
Evaluation on test data (81 cases):
Rules
----------------
No Errors
8 21(25.9%) <<
(a) (b) (c) (d) <-classified as
---- ---- ---- ----
14 3 3 (a): class K
4 40 1 (b): class L
1 1 (c): class M
1 7 6 (d): class N
Rule utility summary:
Rules Errors
----- ------
1-2 29(35.8%)
1-4 29(35.8%)
1-6 24(29.6%)
Time: 0.0 secs
Tampilan di atas menunjukkan, ketika kita hanya menggunakan dua rule yang
pertama, error rate pada test cases adalah 35.8%, yang turun menjadi 29.6%
ketika enam rule yang pertama digunakan.
6.3 Using Classifiers
Ketika classifier telah dibangun, sebuah interactive interpreter dapat
digunakan untuk memprediksi class-class dari kasus-kasus baru. Tombol Use
Classifier mengaktifkan interpreter, menggunakan classifier yang paling
terkini dan menampilkan informasi tentang kasus yang akan diklasifikasikan.
Sebagai contoh, ini adalah hasil dari analisa sebuah kasus menggunakan
decision tree di atas :
6.4 Melakukan Cross-Reference terhadap classifiers dan data
Tombol Cross-Reference memunculkan sebuah window yang menunjukkan
classifier yang paling terkini dan bagaimana relasi kasus tersebut terhadap
data, test atau file case
Window dibagi atas dua panel, dengan classifier pada sisi kiri dan daftar
kasus di sisi kanan. Tombol Reset dapat digunakan pada waktu kapan saja
untuk mengembalikan window pada kondisi awalnya lagi.
Setiap kasus memiliki tag [?] tag (yang berwarna merah jika kasusnya
misclassified), sebuah nomor identifikasi atau label, dan class yang
diprediksikan untuk kasus itu (juga berwarna merah jika classnya tidak
tepat). Mengclick tag [?] pada sebuah nomor kasus akan menyebabkan kasus
tersebut muncul :
Kalau kita mengclick pada label kasus atau nomor kasus, hal itu akan
menunjukkan kita bagian dari classifier yang relevan dengan kasus tersebut.
Sebagai contoh, kalau kita mengclick kasus nomor 9, maka tampilannya adalah
sbb :
Kalau kita mengclick leaf atau rule, maka semua kasus yang berhubungan
dengan leaf atau rule diperlihatkan. Sebagai contoh, pada gambar di bawah
ini :
Jurnal Modul 6 (See5)
1 Gunakan See5 dan dataset pemilu untuk menjawab pertanyaan-pertanyaan
berikut:
a. Berapa banyak atribut dan instances dalam dataset?
b. Pada window construct classifier, gunakan opsi rulesets, kemudian
jelaskan setiap rule yang anda dapatkan. (termasuk makna dari angka-
angka yang ada di setiap rule).
Pada window construct classifier, gunakan opsi untuk membangun decision
tree, kemudian jelaskan setiap baris kalimat yang anda temui di window
Result for pemilu.
MODUL 7
gCLUTO
Tujuan praktikum
1. Mahasiswa mengetahui dan dapat menggunakan tab-tab yang ada pada gCLUTO
2. Mahasiswa dapat melakukan importing data dan exporting data dengan
gCLUTO.
3. Mahasiswa dapat menggunakan dan mengaplikasikan gCLUTO dalam memecahkan
masalah clustering.
Pendahuluan
gCLUTO (Graphical CLUstering TOolkit) adalah sebuah front-end grafis
untuk pustaka clustering data. Tujuannya adalah untuk membuat kemampuan
clustering CLUTO tersedia dalam bentuk grafis. Sebagai tambahan, gCLUTO
menyediakan beberapa cara untuk melakukan visualisasi interaktif dari hasil-
hasil clustered.
Fitur-fitur yang disediakan oleh gCLUTO:
Sebuah pohon proyek yang mengelola file-file data, solusi clustering,
dan visualisasi.
Dialog-dialog detail untuk penentuan pilihan-pilihan clustering.
Interface spreadsheet untuk melihat data.
Interface HTML untuk melihat solusi-solusi.
Visualisasi Matrix – sebuah matrix interaktif berwarna.
Visualisasi Mountain – sebuah visualisasi 3D yang dibuat menggunakan
penskalaan multidimensional.
Printing dan exporting data dan visualisasi.
Saat clustering data, berbagai bagian informasi diperlukan, seperti
file-file data, file-file solusi clustering, dan visualisasi. Seperti
berbagai aplikasi lain, gCLUTO menggunakan konsep sebuah proyek untuk
mengorganisasikan data user dan aliran kerja. Ketika sebuah proyek telah di-
load, isinya akan ditampilkan pada view tree seperti pada gambar berikut
ini.
Masing-masing item dalam proyek ditampilkan sebagai sebuah icon pada
tee.
Project – Ini menunjukkan sebuah proyek dan merupakan akar dari
project tree.
Data – Setelah melakukan import data ke dalam proyek, salah satu
icon akan muncul di project tree. Sebuah proyek dapat mengandung
beberapa item data yang berbeda.
Solution – Setelah melakukan clustering terhadap salah satu item
data, sebuah item solusi akan dibuat dan ditempatkan di bawah item
data asli yang di-cluster.
Matrix Visualization – Ini merupakan visualisasi yang dapat
dibangun setelah clustering. Seluruh visualisasi muncul di bawah
solusi yang dibangun.
Mountain Visualization – Ini adalah visualisasi lain yang
berusaha menjelaskan interrelationships dari cluster-cluster dalam
bentuk 3D.
Klik kanan pada tiap item akan memunculkan sebuah menu pop-up yang
menampilkan daftar operasi-operasi yang tersedia dan dapat dilakukan pada
item. Klik ganda pada sebuah item akan membuka isinya pada sebuah window
baru yang disebut view, sama dengan window (b), (c) dan (d) pada gambar di
atas.
7.1 Membuat Sebuah Proyek Baru
Saat pertama kali dibuka, gCLUTO dimulai dengan sebuah tree proyek
kosong. Untuk mulai bekerja, buat sebuah proyek dengan memilih "File" lalu
"New Project". Sebuah window dialog file akan muncul. Tentukan sebuah nama
untuk proyek Anda dan lokasi untuk menyimpannya dalam komputer.
gCLUTO akan membuat sebuah direktori yang disebut direktori proyek.
Project Directory akan diberi nama setelah proyeknya dan disimpan pada
lokasi yang ditentukan. Dalam direktori proyek tersebut, gCLUTO akan
menyimpan seluruh informasi yang berkaitan dengan proyek.
Untuk membuka sebuah proyek yang sudah ada, pilih menu "File" lalu
"Open Project". Sebuah dialog file akan muncul. Telusuri hingga ke lokasi
direktori proyek dan buka. Dalam direktori proyek akan ada sebuah file
bernama "project_name.prj", di mana project_name akan menjadi nama proyek
tersebut. Pilih file ini dan klik "Open".
Setelah langkah-langkah tersebut, sebuah proyek akan di-load dan
ditampilkan pada tree proyek.
7.2 Importing Data
gCLUTO menerima 3 format file: file matrix CLUTO (*.mat), file graph
CLUTO (*.graph), dan sebuah file dense matrix delimited. Tipe-tipe file
berikut ini digunakan saat meng-import data dalam formta file CLUTO:
Matrix file (*.mat) – mengandung sebuah dense matrix, sparce matrix,
atau grafik persamaan yang mewakili data yang di-cluster.
Row labels (*.rlabel) – mengandung label-label untuk baris-baris
matrix data.
Column labels (*.clabel) – mengandung label-label untuk kolom-kolom
matrix data.
Class labels (*.rclass) – mengandung label-label kelas untuk baris-
baris matrix data.
File-file delimited dapat dibuat dengan tangan atau di-export dengan
sebagian besar program spreadsheet. gCLUTO dapat menerima file-file yang
dipisah dengan tab, spasi, titik koma, dan koma. Karakter lain juga bisa
ditentukan menjadi pemisah lain.
Untuk import sebuah item data, pilih "Project" lalu "Import Data".
Dialog Import Data akan muncul dan memungkinkan user menentukan lokasi
sebuah file untuk tiap tipe file yang didaftarkan di atasnya. Klik tombol
"Browse" akan menampilkan sebuah dialog file yang memungkinkan user
menentukan lokasi file-file yang diperlukan. Hanya file *.mat yang
diperlukan. User juga harus menentukan file *.mat mengandung data matrix
atau data grafik dengan menentukan pilihan yang tepat.
Jika user memilih untuk import sebuah file delimited, pilihan file
delimited akan di-enable. gCLUTO dapat juga menginterpretasikan baris
pertama dari file delimited sebagai label kolom. Sebagai tambahan, gCLUTO
dapat menginterpretasikan kolom pertama sebagai label baris. User juga
dapat menentukan karakter-karakter mana yang harus digunakan sebagai
delimiter. Jika beberapa karakter ditentukan, maka kemunculan salah satu di
antaranya akan menyebabkan pemisahan sebuah field. Fields kosong
diperbolehkan dalam file-file delimited. Jika muncul blank saat diharapkan
muncul sebuah angka, maka akan diinterpretasi sebagai 0. Jika muncul blank
saat diharapkan sebuah label, diinterpretasikan sebagai label default "no-
label".
Setelah menentukan file-file tersebut, user dapat memberikan label
untuk item data. Jika tidak ada label yang diberikan, item data akan
dilabeli setelah file *.mat-nya dihapus. Setelah klik "OK" pada dialog
Import Data, gCLUTO berusaha membaca file-file yang dipilih. Jika tidak ada
error yang muncul, gCLUTO akan menambahkan item data baru ke tree proyek
dan membuka sebuah Data View. Data View memungkinkan user melihat data dan
memverifikasi bahwa data tersebut sudah di-load dengan benar.
Untuk dapat mengimport data yang baru, langkah yang perlu di lakukan adalah
1. Buatlah project yang baru, simpan di tempat yang anda inginkan
2. Pada menu bar pilih project -> import data, atau klik kanan project
baru tersebut pilih import data
3. Tampil beberapa pilihan,
a. isikan kabel dari project yang anda buat
b. pilih format data yang akan anda inginkan misal matrix file
c. browse letak dari format file (*.mat), (*.rlabel),
(*.clabel),(*.clabel)
4. Klik OK
7.3 Clustering data
Setelah melakukan importing data, langkah yang perlu di lakukan
mengclustering data
1. pada menu bar, klik data -> cluster atau klik kanan pada data pilih
cluster
2. tampil beberapa pilihan, isikanlah sesuai keinginan anda kemudian klik
OK
Bila proses clustering berhasil, maka akan menampilkan solution view.
Untuk melakukan clustering lagi, klik Recluster pada data view.
7.4 Visualizing Solution
Terdapat 2 visualisasi pada gCLUTO yaitu matrix visualization dan
mountain visualization . visualisasi ini dapat di hasilkan dengan mengklik
pada solution.
7.4.1 Matrik visualization
Pada matrik visualization, data asli akan di tampilkan dalam berbagai macam
warna, yang mempresentasilan dari isi data matrix. Dimana warna putih
berarti mendekati 0, semakin merah berarti isi datanya semakin besar dan
bila warna terlalu hijau berarti isi data semakin negatif. Untuk row pada
matrik di representasikan sama pada clustering ini. Garis hitam horizontal
menunjukkan bagian bagina data-data yang di cluster.
Untuk melihat detail dari setiap warna yang ada klik kanan, dan bila
untuk memperbesar ukuran dari cluster maka pada toolbar scale tinggal di
perbesar atau klik pada row yang di inginkan terus di geser.
7.4.2 Mountain Visualization
Pada mountain visualization ini data di representasikan secara 3D.
Lokasi, volume, kedalaman atau ketinggian dan warna yang di gunakan pada
visualisasi ini memberikan informasi tentang hubungan data yang telah di
cluster.
Untuk mengatur posisi ataupun ukuran dari tampilan 3D dapat di
gunakan dengan mouse, yaitu bila
Klik kanan, untuk pindah tempat
Klik kiri, untuk melihat posisi dari tampilan 3Dnya
Sedangkan untuk memperbesar ukuran geser bagian tengah
Warna merah mengindikasikan devisiasinya rendah, sedangkan untuk biru
memiliki devisiasi yang tinggi.
7.5 Exporting
Untuk melakukan exporting pada gCLUTO, maka klik kiri pada data yang ada,
pilih export. Hasil exporting ini dapat berupa file HTML.
Jurnal Modul 7
1. Analisalah hasil dari clustering data gense2
2. Bandingkan dengan metode entropy yang anda buat dengan solution view
pada gCLUTO
-----------------------