Multivariat – Analisis Diskriminan i
LAPORAN
PROYEK TUGAS AKHIR
METODE MULTIVARIAT
ANALISIS DATA DENGAN MENGGUNAKAN METODE DISKRIMINAN
Oleh :
Putri Pangestika Anastiti (081211832018)
PRODI S-1 STATISTIKA
DEPARTEMEN MATEMATIKA
FAKULTAS SAINS DAN TEKONOLOGI
UNIVERSITAS AIRLANGGA
2014
KATA PENGANTAR
Puji dan syukur penulis panjatkan ke hadirat Allah SWT, yang telah memberikan karunianya sehingga penulis dapat menyelesaikan karya tulis ini dengan mata kuliah Multivariat Analisis Diskrimina tepat pada waktunya.
Tugas ini ditujukan untuk memenuhi tugas mata kuliah Multivariat. Dan juga penulis mengucapkan terima kasih kepada :
Bu Elly Ana selaku dosen pembimbing mata kuliah Multivariat.
Semua pihak yang penulis tidak sempat sebutkakan satu persatu yang turut membantu kelancaran dalam penyusunan makalah ini, khususnya mahasiswa – mahasiswa yang turut membantu dalam mengisi kuisioner.
Kami menuadari bahwa karya tulis ini masih banyak kekurangan dan kelemahannya, baik dalam isi maupun sistematikanya. Hal ini disebabkan oleh keterbatasan pengetahuan dan wawasan. Oleh karena itu, penulis sangat mengharapkan kritik dan saran untuk menyempurnakan karya tulis ini.
Akhirnya, penulis mengharapkan semoga karya tulis ini dapat memberikan manfaat, khususnya bagi kami dan umumnya bagi pembaca dalam bidang statistika multivariate.
Penulis
BAB I
PENDAHULUAN
Analisis diskriminan merupakan teknik menganalisis data, dimana variabel dependen
merupakan data kategorik ( nominal dan ordinal ) sedangkan variabel independen
berupa data interval atau rasio. Dalam hal ini penulis mengambil topik tentang tinggi atau rendahnya nilai ip seorang mahasiswa dilihat dari faktor usia, jarak tempat tinggal dengan tempat kuliah, waktu perjalanan yg ditempuh untuk sampai ditempat kuliah, berapa lama waktu yg dihabiskan di tempat kuliah, berapa lama waktu belajar, dan skala makan sehari berapa kali.
Penulis mengambil topik dan faktor ini karena menurut penulis tinggi rendahnya ip seorang mahasiswa didasarkan pada faktor- faktor yang tertera karena waktu yang dihabiskan dikampus dan waktu yang dihabiskan untuk belajar diluar kampus berpengaruh terhadap naik turunnya ip bagi seorang mahasiswa.
Tujuan penulis membuat makalah ini adalah untuk mengetahui faktor-faktor yang signifikan dalam peningkatan atau naik turunnya suatu ip mahasiswa, dari hal tersebut penulis bias menyimpulkan apa saja yang seharusnya dilakukan untuk memaksimalkan nilai ip tersebut.
Dari segi tujuan menggunakan analisis diskriminan ini adalah :
1. Membuat suatu fungsi diskriminan dari variabel independen yang bias mendiskriminasi atau membedakan kelompok variabel dependen (membedakan suatu objek masuk pada grup I atau grup II ).
2. Menguji apakah ada perbedaan yang signifikan antar-grup pada variabel dependen ( apakah ada perbedaa yang signifikan antara anggota grup I dengan anggota grup II ).
3. Jika ada perbedaan yang signifikan antar-grup pada variabel dependen, variabel manakah pada fungsi diskriminan yang membuat perbedaan tersebut.
4. Menguji ketepatan pengelompokan fungsi diskriminan .
Manfaat memakai analisis diskriminan untuk menjawab pertanyaan bagaimana mahasiswa nantinya dapat dimasukkan ke dalam kelompok berdasarkan beberapa variable dalam hal ini yang dimaksud adalah faktor-faktor yang berkaitan. Persamaan Fungsi Diskriminan yang
dihasilkan untuk memberikan peramalan yang paling tepat untuk mengklasifikasi individu kedalam kelompok berdasarkan skor variabel. Dan mengelompokkan sejumlah mahasiswa dengan faktor apa saja dapat berada di kelompok a dan kelompok b.
BAB II
TINJAUAN PUSTAKA
Analisis multivariat (multivariate analysis) merupakan salah satu jenis analisis statistic yang digunakan untuk menganalisis data yang terdiri dari banyak variabel bebas dan juga banyak variabel tak bebas . Data multivariat adalah data yang dikumpulkan dari dua atau lebih observasi dengan mengukur observasi tersebut dengan beberapa karakteristik. Seorang individu diteliti dengan berbagai macam ukuran (karakteristik).Misalnya X1 adalah usia (tahun), X2 adalah berat badan (kg), dan lain sebagainya. Statistik Multivariat adalah metode statistik untuk mengolah sekian banyak variabel secara bersama-sama (simultan), untuk menjawab persoalan statistik tertentu. ( Santoso,2010)
Analisis Diskiminan (Analisis Fungsi Pembeda )
Analisis Diskriminan adalah salah satu tehnik analisa Statistika dependensi yang memiliki kegunaan untuk mengklasifikasikan objek beberapa kelompok. Pengelompokan dengan analisis diskriminan ini terjadi karena ada pengaruh satu atau lebih variabel lain yang merupakan variabel independen. Kombinasi linier dari variabel-variabel ini akan membentuk suatu fungsi diskriminan (Tatham et. al.,1998).
Analisis diskriminan adalah teknik multivariate yang termasuk dependence method, yakni adanya variabel dependen dan variabel independen. Dengan demikian ada variabel yang hasilnya tergantung dari data variabel independen. Analisis diskriminan mirip regresi linier berganda (multivariable regression). Perbedaannya analisis diskriminan digunakan apabila variabel dependennya kategoris (maksudnya kalau menggunakan skala ordinal maupun nominal) dan variabel independennya menggunakan skala metric (interval dan rasio).
Ada dua asumsi utama yang harus dipenuhi pada analisis diskriminan ini, yaitu:
1. Sejumlah p variabel penjelas harus berdistribusi normal multivariat.
2. Matriks varians-covarians variabel penjelas berdimensi pxp pada kedua kelompok harus sama (homogen).
Fungsi diskriminan untuk hal ini adalah menggunakan statistik W (Wald Anderson) yaitu :
, dengan W merupakan variabel dependen, atau dapat ditulis :
Dimana:
adalah vector pengamatan
dan adalah vector rata-rata variabel independen
adalah invers matriks varians kovarian dalam kelompok gabungan
Yang akan menghasilkan model atau fungsi analisis diskriminan sebagai berikut :
Dimana :
adalah Nilai (skor) fungsi diskriminan dari responden ke-i
adalah konstanta, artinya jika nilai variabel , maka besar nilai
adalah koefisien fungsi diskriminan dari variabel ke-j
adalah Variabel bebas ke-j dari responden ke-i , dimana i = 1,2,...,n
Beberapa istilah yang ada pada Analisis Diskriminan :
1. Korelasi kanonis (canonical correlation), mengukur tingkat asosiasi antar skor diskriminan dan grup. Koefisien ini merupakan ukuran hubungan fungsi diskriminan tunggal dengan sejumlah variabel dummy yang menyatakan keanggotaan grup.
2. Centroid, adalah nilai rata-rata skor diskriminan untuk grup tertentu. Banyaknya centroid sama dengan banyaknya grup. Setiap satu centroid mewakili satu grup. Rata-rata untuk sebuah grup berdasarkan semua fungsi disebut group centroids.
3. Cutting score, adalah nilai rata-rata centroid yang dapat dipakai sebagai patokan mengelompokkan objek. Misalnya, kalau dalam analisis diskriminan dua grup cutting score adalah 0,15, keanggotaan suatu objek dapat dilihat apakah skor diskriminan objek tersebut di bawah ataukah di atas cutting score.
4. Discriminant loadings (disebut juga structure correlations) merupakan korelasi linier sederhana antara setiap variabel independen dengan skor diskriminan untuk setiap fungsi diskriminan.
5. Hit rasio merupakan nilai yang dapat menjawab : "Berapa persen objek yang dapat diklasifikasi secara tepat dari jumlah total objek ?". Hit rasio merupakan salah satu kriteria untuk menilai kekuatan persamaan diskriminan dalam mengelompokkan objek.
6. Matrik klasifikasi (classification matrix), sering juga disebut confusion atau prediction matrix. Matrik klasifikasi berisikan jumlah kasus yang diklasifikasikan secara tepat dan yang diklasifikasikan secara salah (misclassified). Kasus yang diklasifikasi secara tepat muncul dalam diagonal matrik, tempat di mana grup prediksi (predicted group) dan grup sebenarnya (actual group) sama.
7. Koefisien fungsi diskriminan (discriminant coefficient function), koefisien fungsi diskriminan (tidak distandardisasi) adalah pengali (multipliers) variabel, di mana variabel adalah dalam nilai asli pengukuran.
8. Skor diskriminan (dicriminant score), koefisien yang tidak distandardisasi dikalikan dengan nilai-nilai varibel.
9. Eigenvalue, untuk setiap fungsi diskriminan, eigenvalue adalah rasio antara jumlah kuadrat antarkelompok (sums of square between group) da jumlah kuadrat dalam kelompok (sums of squares within group). Eigenvalue yang besar menunjukkan fungsi yang semakin baik.
10. Nilai F dan signifikansinya, nilai F dihitung melalui ANOVA satu arah, di mana variabel-variabel yang dipakai untuk mengelompokkan (grouping variable) berlaku sebagai variabel independen kategoris (categorical independent variable). Sedangkan setiap prediktor diperlakukan sebagai variabel metrik.
11. Rata-rata grup dan standar deviasi grup, rata-rata grup dan standar deviasi grup dihitung untuk setiap grup.
12. Pooled with correlation matrix, dihitung dengan mencari rata-rata matrik kovarians tersendiri untuk semua grup.
13. Koefisien fungsi diskriminan terstandardisasi merupakan koefisien fungsi diskriminan yang dipakai sebagai pengali (multipliers) pada saat variabel telah distandardisasi dengan menjadikan rata-rata 0 dan standar deviasi 1.
14. Korelasi struktur (structur correlations) juga disebut discriminant loadings, merupakan korelasi yang mempresentasikan korelasi sederhana (simple correlation) antara prediktor-prediktor dan fungsi diskriminan.
15. Matrik korelasi total (total correlation matrix) diperoleh kalau setiap kasus objek penelitian dianggap berasal dari satu sampel (single sampel) dan korelasi dihitung. Dengan begitu, matrik korelasi total dapat diperoleh.
16. Wilks' l , kadang-kadang juga disebut statistik U, untuk setiap prediktor, Wilks' l adalah rasio antara jumlah kuadrat dalam kelompok (within group sums of squares) dan jumlah kuadrat total (total sums of squares). Nilainya berkisar antara 0 sampai 1. nilai Lambda yang besar (mendekati 1) menunjukkan bahwa rata-rata grup cenderung tidak berbeda. Sebaliknya nilai Lambda yang kecil (mendekati 0), menunjukkan rata-rata grup berbeda.
Analisis diskriminan dapat menggunakan spss, sebagai berikut :
Uji Homoskedastisitas
Uji kesamaan matriks varians-covarians (homoskedastisitas) menggunakan uji Box's M dengan hipotesis :
Ho:
H1:
diharapkan dari uji ini hipotesis nol tidak ditolak, sehingga asumsi homoskedastisitas terpenuhi dan bisa dilanjutkan ke analisis diskriminan.
Langkah Pengujian :
Buka file data diskriminan.sav
Pilih menu Analyze, pilih submenu Classify, lalu pilih Discriminant…
Pada kotak Grouping Variable masukkan variabel respon, yaitu kelompok. Kemudian klik Define Range untuk mendefinisikan kode kategori kelompok yang dianalisis. Bagian Minimum diisi dengan kode terkecil dan Maximum diisi dengan kode terbesar dari variabel respon.
Pada kotak Independents masukkan variabel penjelas yaitu usia, umur migrasi, berat badan, tinggi badan, dagu, lengan bawah, betis, nadi, sistolik dan diastolik.
Metode yang sering dipakai adalah metode stepwise. Sehingga pilih Use stepwise method.
Klik tombol Statistics, Pada bagian Descriptives pilih Box's M untuk menguji asumsi homoskedastisitas. Kemudian Klik Continue untuk kembali ke menu utama.
Abaikan bagian yang lain, kemudian klik OK.
Analisis Diskriminan
Setelah dilakukan uji asumsi yang harus terpenuhi pada analisis diskriminan, maka selanjutnya dapat dilakukan analisis diskriminan.
Langkah Pengujian :
Buka file data diskriminan.sav
Pilih menu Analyze, pilih submenu Classify, lalu pilih Discriminant…
Pada kotak Grouping Variable masukkan variabel kelompok. Kemudian klik Define Range. Bagian Minimum diisi dengan 1 dan Maximum diisi dengan 2.
Pada kotak Independents masukkan variabel penjelas yaitu usia, umur migrasi, berat badan, tinggi badan, dagu, lengan bawah, betis, nadi, sistolik dan diastolik.
Metode yang sering dipakai adalah metode stepwise. Sehingga pilih Use stepwise method. Secara otomatis tombol Method akan diaktifkan.
Klik tombol Method tersebut, Pada bagian Method pilih Wilks' lambda. Sedangkan pada bagian Criteria pilih Use probability of F. Kemudian Klik Continue.
Klik tombol Statistics, Pada bagian Descriptives pilih Box's M untuk menguji asumsi homoskedastisitas. Sedangkan pada bagian Function Coefficients pilih Fisher's dan Unstandardized. Kemudian Klik Continue.
Klik tombol Classify, Pada bagian Display pilih Casewise results untuk membandingkan hasil kasus awal dengan model diskriminan. Pilih Summary table untuk menampilkan nilai hit ratio. Pilih Leave-one-out classification untuk menampilkan data yang cocok dengan hasil proses diskriminan dan data yang tidak cocok.
Abaikan bagian yang lain, kemudian Klik Continue.
Klik tombol Save untuk menampilkan nilai-nilai posterior probability, nilai-nilai discriminant score, dan pengklasifikasian observasi oleh model. Kemudian klik Continue.
BAB III
METODE SURVEI
Tuliskan populasi sasaran dari permasalahan saudara
Tuliskan pula cara saudara mengambil sample maupun data
Sertakan kuisioner yang saudara buat beserta analisis data yang digunakan.
Metode survey yang dilakukan oleh mpenulis mengambil sasaran populasi dari beberapa mahasiswa yang ada di Fakultas Sains dan Teknologi Universitas Airlangga angkatan 2012. Data diambil secara acak dari mahasiswa berbagai prodi yang ada didalam Fakultas Sains dan Teknologi. Pengambilan data melalui cara mahasiswa mengisi pertanyaan-pertanyaan seputar topik pembahasan yang ada didalam kuisioner. Berikut contoh kuisioner :
Kuisioner untuk mengetahui pengaruh-pengaruh faktor yang mendukung peningkatan ip seorang mahasiswa dengan metode diskriminan (S1 -Statistika)Usia saudara : … tahunIp terkahir saudara termasuk : a. > 2.9 b. < 2.9Jarak tempat tinggal sampai ke kampus : ... kmWaktu perjalanan yang ditempuh untuk sampai ke kampus : … menitLama saudara berada dikampus : … jamWaktu yang saudara butuhkan untuk belajar dalam sehari selain dikampus : … menitBerapa kali anda makan dalam sehari : … kaliTerima kasih atas partisipasi saudara dalam mengisi kuisioner ini
Kuisioner untuk mengetahui pengaruh-pengaruh faktor yang mendukung peningkatan ip seorang mahasiswa dengan metode diskriminan (S1 -Statistika)
Usia saudara : … tahun
Ip terkahir saudara termasuk : a. > 2.9
b. < 2.9
Jarak tempat tinggal sampai ke kampus : ... km
Waktu perjalanan yang ditempuh untuk sampai ke kampus : … menit
Lama saudara berada dikampus : … jam
Waktu yang saudara butuhkan untuk belajar dalam sehari selain dikampus : … menit
Berapa kali anda makan dalam sehari : … kali
Terima kasih atas partisipasi saudara dalam mengisi kuisioner ini
50 data yang telah diperoleh dari kuisioner dirangkum menjadi satu dalam sebuah tabel yang ada pada Lampiran 1.
Dalam pembagian kelompok 50 responden ini, penulis membagi responden menjadi dua kelompok, yaitu :
Kelompok 1 : Responden yang memiliki ip > 2.9
Kelompok 2 : Responden yang memiliki ip < 2.9
BAB IV
HASIL dan PEMBAHASAN
Data yang telah diambil dari 50 responden dianalisis menggunakan software spss.
Uji Homoskedastisitas
Untuk mengetahui matriks varian-covarians kedua kelompok sama atau tidak.
Hipotesis :
Ho:
H1:
Test Results
Box's M
5.884
F
Approx.
.910
df1
6
df2
11121.640
Sig.
.487
Tests null hypothesis of equal population covariance matrices.
Keputusan : Berdasarkan Tabel di atas terlihat bahwa p-value (0,492) lebih besar dari 0,05 sehingga tidak menolak H0.
Kesimpulan : Hal ini berarti matriks varians-covarians kedua kelompok adalah sama. Dengan demikian asumsi homoskedastisitas pada analisis diskriminan telah terpenuhi.
Analisis Diskriminan
Pembentukan fungsi linear
Pada output SPSS, koefisien untuk setiap variabel yang masuk dalam model dapat dilihat pada tabel Canonical Discriminant Function Coefficient. Tabel ini akan dihasilkan pada output apabila pilihan Function Coefficient pada bagian Unstandardized diaktifkan.
Canonical Discriminant Function Coefficients
Function
1
jarak_tempattinggal
1.152
lama_dikampus
.689
makan_sehari
-.837
(Constant)
-6.229
Unstandardized coefficients
Dari table diatas, dibentuk fungsi diskriminan linier sebagai berikut :
Z score = -6.229 + 1.152 jarak + 0.689 waktu kampus – 0.837 makan sehari
Perhitungan discriminant score
Misal observasi pertama, dengan nilai jarak = 1, waktu dikampus = 10, makan sehari = 2 kali maka diperoleg discriminant score nya sebesar 0.139
Perhitungan cutting score
Cutting score (m) dapat dihitung dengan rumus sebagai berikut :
Kemudian nilai-nilai discriminant score tiap observasi akan dibandingkan dengan cutting score, sehingga dapat diklasifikasikan suatu observasi akan termasuk ke dalam kelompok yang mana. Suatu observasi akan diklasifikasikan sebagai anggota kelompok 1 jika discriminant score > cutting score, selain itu dimasukkan ke dalam kelompok 2.
Functions at Group Centroids
kelompok
Function
1
1.00
-1.208
2.00
1.812
Unstandardized canonical discriminant functions evaluated at group means
Untuk observasi pertama karena nilai discriminant score nya (0.139) lebih kecil dari cutting score nya (0.604), maka ia dimasukkan dalam kelompok 1 (pengklasifikasian sudah benar, karena awalnya observasi pertama berada pada kelompok 1).
Perhitungan hit ratio
Setelah semua observasi diprediksi keanggotaannya, dapat dihitung hit ratio, yaitu rasio antara observasi yang tepat pengklasifikasiannya dengan total seluruh observasi.
Classification Results(b,c)
Predicted Group Membership
Total
kelompok
1.00
2.00
Original
Count
1.00
29
1
30
2.00
2
18
20
%
1.00
96.7
3.3
100.0
2.00
10.0
90.0
100.0
Cross-validated(a)
Count
1.00
29
1
30
2.00
2
18
20
%
1.00
96.7
3.3
100.0
2.00
10.0
90.0
100.0
a Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case.
b 94.0% of original grouped cases correctly classified.
c 94.0% of cross-validated grouped cases correctly classified.
Berdasarkan table diatas, angka hit ratio
Dengan demikian ketepatan prediksi dari model adalah sebesar 94%. Sehingga ketepatan model dapat dikatakan tinggi dan model tersebut bisa digunakan untuk mengklasifikasikan observasi baru.
Pengklasifikasian observasi baru
Jika ada observasi atau responden baru, maka dapat diprediksi akan termasuk dalam kelompok mana berdasarkan karakteristik yang dimilikinya dengan fungsi linear yang sudah terbentuk. Inilah yang menjadi tujuan pembentukan fungsi diskriminan.
BAB V
PENUTUP
V.1 Kesimpulan
Dari hasil pengamatan data IP mahasiswa Sains dan Teknologi Universitas Airlangga dan beserta faktor yang mempengaruhinya, didapat bahwa penulis menyimpulkan beberapa analisis dari Analisis Diskriminan ini, yakni :
Model yang berpengaruh dalam studi kasus data IP mahasiswa Sains dan Teknologi Universitas Airlangga dan beserta faktor yang mempengaruhinya adalah :
Z score = -6.229 + 1.152 jarak + 0.689 waktu kampus – 0.837 makan sehari
Ternyata dari 5 faktor yang disediakan oleh penulis hanya 3 faktor yang memiliki pengaruh signifikan terhadap perbedaan kelompok ip
Dari model yang telah ditetapkan, ketepatan prediksi dari model adalah sebesar 94%. Sehingga ketepatan model dapat dikatakan tinggi dan model tersebut bisa digunakan untuk mengklasifikasikan observasi baru, dengan menghitung dari Zscore masing masing responden baru untuk menentukan kelompok dimana ia berada nantinya.
V.II Saran
Penulis menyadari bahwa masih adanya kesalahan dan kekurangan dalam pembuatan karya tulis ini karena didasari pengetahuan penulis yang belum luas dan masih dalam tahap belajar, dikarena kan itu ketika membuat suatu karya tulis diharapkan memakai literature yang lebih banyak dan lebih terpercaya sumbernya agar tidak terjadi lagi kesalahan pemahaman.
DAFTAR PUSTAKA
http://masbied.files.wordpress.com/2011/05/modul-matematika-analisis-diskriminan.pdf
http://repository.usu.ac.id/bitstream/123456789/27117/4/Chapter%20I.pdf
http://toifmaliki.wordpress.com/2014/01/07/contoh-kata-pengantar-karya-ilmiah/
HALAMAN LAMPIRAN
Lampiran 1
Responden
Usia
Jarak tmpt tinggal (km)
Wkt perjalanan (mnt)
Wkt dikampus (jam)
Wkt belajar (mnt)
Skala makan sehari (kali)
1
19
1
10
10
180
2
2
20
1
10
10
180
2
3
18
1
10
8
180
3
4
19
1
10
8
120
1
5
19
1
10
8
180
1
6
19
1
10
7
240
2
7
20
1
10
10
240
3
8
20
1
10
10
120
2
9
20
2
15
7
120
2
10
18
2
20
7
120
2
11
20
4
20
7
120
2
12
20
5
30
8
180
4
13
19
2
15
7
240
2
14
19
2
15
7
240
3
15
19
4
20
7
300
3
16
18
1
5
8
180
3
17
20
1
5
8
180
3
18
20
3
20
9
120
1
19
18
3
20
9
120
2
20
19
2
15
8
120
3
21
19
1
10
9
120
2
22
20
1
10
9
120
1
23
20
1
10
9
180
1
24
20
3
25
10
180
1
25
18
3
20
7
120
3
26
18
3
20
9
240
2
27
19
2
15
10
240
1
28
18
4
25
10
120
2
29
20
2
20
10
180
2
30
20
2
15
10
180
1
31
19
2
20
9
120
1
32
19
3
20
9
60
2
33
19
3
20
9
60
3
34
20
1
5
8
60
4
35
20
1
5
7
120
3
36
20
1
10
8
180
2
37
20
1
10
8
180
2
38
20
1
10
8
180
3
39
19
1
5
7
180
3
40
19
2
10
7
60
3
41
18
2
15
10
240
1
42
20
2
15
10
120
1
43
19
2
15
10
120
2
44
19
2
10
7
300
3
45
19
3
20
6
300
4
46
20
3
20
6
300
4
47
20
2
15
6
120
3
48
20
4
20
6
120
3
49
20
4
20
8
60
3
50
20
4
20
10
60
2
Lampiran 2