ANALISIS DATA EKSPLORATIF PERTEMUAN 1-7
Dosen Pembimbing : Liza Kurnia Sari S.Si., M.Stat. Disusun Oleh : Kelas 1-L
SEKOLAH TINGGI ILMU STATISTIK 2017
Materi : Pert 1. Analisis Data Eksploratif ............................................ ................................................................... .......................... ... 3 Pert 2. Diagram Batang Batang Daun ............................................ ................................................................... ............................. ...... 7 Pert 3. Ringkasan Data Numerik............................................ ................................................................... .......................... ... 13 Pert 4-5. Dotplot & Boxplot ........................................... ................................................................. ................................. ........... 19 Pert 6. Transformasi Transformasi Data .......................................... ................................................................ ..................................... ............... 25 Pert 7. Pemulusan Pemulusan Data Series ........................................... .................................................................. ............................. ...... 32
2
1eLaSTIS |Analisis Data Eksploratif
Materi : Pert 1. Analisis Data Eksploratif ............................................ ................................................................... .......................... ... 3 Pert 2. Diagram Batang Batang Daun ............................................ ................................................................... ............................. ...... 7 Pert 3. Ringkasan Data Numerik............................................ ................................................................... .......................... ... 13 Pert 4-5. Dotplot & Boxplot ........................................... ................................................................. ................................. ........... 19 Pert 6. Transformasi Transformasi Data .......................................... ................................................................ ..................................... ............... 25 Pert 7. Pemulusan Pemulusan Data Series ........................................... .................................................................. ............................. ...... 32
2
1eLaSTIS |Analisis Data Eksploratif
PERTEMUAN 1
ANALISIS DATA EKSPLORATIF
Pengertian
Eksplorasi
Data
Analisis
adalah
sebuah
kemampuan
dalam
mengeksplorasi data dengan mengetahui pola sebaran data, meringkas data, menggambarkan data dalam berbagai macam plot, grafik, chart dan tabel, sebelum data tersebut dilakukan analisis lebih lanjut dengan menggunakan analisis inferensia. Eksplorasi data Analisis juga dapat diartikan sebagai sebuah tahapan pertama yang penting dalam menganalisis data dari sebuah percobaan. Eksplorasi Data Analisis juga dapat diartikan sebagai pendekatan yang dilakukan untuk data analisis yang menggunakan berbagai teknik. Eksplorasi Data Analisis digunakan karena dapat mendeteksi kesalahan, mengecek anggapan, menyeleksi model yang sesuai, menjelaskan hubungan antar variable. Eksplorasi Data Analisis juga digunakan untuk menambah wawasan tentang sebuah data, menemukan pokok struktur data, menemukan variable penting, mendeteksi sebuah kelainan dalam sebuah data.
Perbedaan Eksplorasi Data dengan Konfirmatori Data
Analisis Konfirmatori digunakan dalam statistika inferensia dengan pendekatan deduktif. Analisis Konfimatori sangat bergantung pada sebuah model, harus menerima asumsi yang tidak perlu diuji, ditekankan pada pennghitungan angka, hipotesis ditentukan di awal, dan mencari jawaban pasti dari sebuah pertanyaan yang spesifik. Sedangkan untuk Analisis Eksplorasi digunakan dalam statistika deskriptif dengan pendekatan induktif. Analisis Eksplorasi sangat bergantung pada penyajian grafik, mencari cara yang flexible untuk memeriksa data tanpa hipotesa awal, dilakukan untuk mengevaluasi kebenaran asumsi.
1eLaSTIS |Analisis Data Eksploratif
3
Keuntungan dari Analisis Konfirmatori adalah memberikan informasi yang tepat pada keadaan yang benar dan teori serta metode yang kuat. Sedangkan Keuntungan Analisis Eksplorasi adalah pernyataannya lebih akurat, cara yang flexible untuk menghasilkan hipotesis. Kekurangan dari Analisis Konfimatori adalah sulit untuk melihat apabila ada hasil yang tidak diharapkan. Sedangakan Kekurangan Analisis Eksplorasi adalah biasanya tidak menyediakan jawaban yang pasti. Berfokus pada pendekatan eksplorasi data analisis dan pendekatan klasik dibedakan sebagai berikut : 1. Models 2. Focus 3. Techniques 4. Rigor/Strict 5. Data Treatment 6. Assumptions Pada bagian model perbedaan anatara pendekatan klasik dan EDA adalah pendekatan klasik memaksakan deterministic dan probabilistic pada data, sedangkan pendekatan EDA tidak memaksakan deterministic ataupun probabilistic model pada data, melainkan menggunakan model yang sesuai dengan data. Dalam bagian fokus, pendekatan klasik berfokus pada modelnya sedangkan untuk pendekatan EDA berfokus pada datanya untuk struktur dan model berdasarkan pada data. Pada bagian teknik pendekatan klasik menggunakan teknik secara kuantitas termasuk ANOVA, t tests, chi-squared tests, dan F tests. Pendekatan EDA menggunakan teknik grafik termasuk scatter plots, character plots, box plots, histograms, bihistograms, probability plots, residual plots, dan mean plots. Teknik pendekatan klasik bersifat kaku, formal, dan objektif sedangkan teknik pendekatan EDA tidak bersifat kaku maupun formal,
1eLaSTIS |Analisis Data Eksploratif
4
teknik EDA bersifat subjektif dan tergantung pada interpretasi yang memungkinkan perbedaan dalam tiap analisis. Pendekatan klasik menyajikan data dengan membaginya menurut karakteristiknya dan membuatnya menjadi sedikit, dalam hal ini memungkinkan adanya hilang informasi karena proses tersebut sedangkan pendekatan EDA menggunakan semua data sehingga tidak ada hilangnya informasi. Pendekatan klasik dengan teknik klasik dapat dikatakan sangat sensitive, apabila ada suatu perubahan dalam suatu lokasi pada data maka dengan teknik klasik tersebut dapat langsung mendeteksi perubahan tersebut dan menyimpulkan perubahan tersebut namun pengujian dengan pendekatan klasik tergantung pada asumsi pokok dan karenanya hasil kesimpulannya juga tergantung pada asumsi pokok, dan asumsi pokok yang mendasari tidak diketahui oleh orang yang menganalisis jika memang diketahui itu belum teruji sehingga pada hakekatnya hasil kesimpulan terhubung dengan asumsi pokok yang digunakan, jika hal tersebut dipraktikkan dengan menggunakan asumsi yang tidak teruji maka hasil kesimpulannya menjadi diragukan. Sedangkan teknik dengan pendekatan EDA tidak memiliki terlalu banyak asumsi bahkan tidak memiliki asumsi, mereka menyajikan data apa adanya.
Teknik-Teknik dalam EDA
Eksplorasi data analisis secara umum diklasifikasikan dalam 2 cara yaitu non-grafik atau grafik dan univariate atau multivariate sehingga dapat dibagi menjadi : 1. Univariate non-grafik 2. Univariate grafik 3. Multivariate non-grafik 4. Multivariate grafik
5
Untuk metode non-grafik meliputi penghitungan sebuah ringkasan statistik sedangkan metode grafik meringkas data menjadi diagram atau
1eLaSTIS |Analisis Data Eksploratif
gambar sedangkan metode univariate melihat pada 1 variabel dalam satu waktu sedangkan multivariate melihat 2 atau lebih dalam satu waktu untuk mengetahui hubungan antar variabelnya. Univariate non-grafik untuk data kategorik atau non-numerik yaitu dengan menggunakan pengolahan sederhana untuk mengelompokkan data sesuai kategori. Untuk data kuantitas metode yang digunakan yaitu membuat penilaian awal tentang distribusi variabel dalam data contohnya seperti mean, median, skewness dan kurtosis. Univariate grafik dalam teknik EDA contohnya yaitu histogram, diagram batang dan daun, boxplots, dan quantile -normal plots. Multivariate non-grafik dalam teknik EDA yaitu seperti melihat korelasi dalam data kategorik, korelasi dan covariance, covariance dan korelasi matriks. Multivariate grafik dalam teknik EDA contohnya yaitu Scatterplots dan mengkategorikan grafik-grafik univariate.
6
1eLaSTIS |Analisis Data Eksploratif
PERTEMUAN 2
DIAGRAM BATANG-DAUN
Diagram batang daun atau yang dikenal dengan istilah “stem-leaf diagram” ditemukan oleh John Tukey. Stem-leaf diagram digunakan untuk menggambarkan /menyajikan data dengan cara memisahkan setiap nilai menjadi dua bagian: bagian batang ( stem) yaitu digit angka paling kiri dan diikuti dengan angka berikutnya, yaitu daun (leaf ) digit angka paling kanan. Tujuan Stem-leaf diagram adalah untuk mengetahui beberapa hal berikut ini:
1. Apakah pola pengamatan simetris 2. Penyebaran atau variasi dari data pengamatan 3. Apakah terdapat pencilan (outlier, nilai-nilai yang berada jauh dari yang lainnya) 4. Titik pemusatan data 5. Ada lokasi yang merupakan gap (kesenjangan dalam data) Kelebihan dari diagram batang-daun:
1. Menunjukkan data asli 2. Mengelompokkan ke dalam sebarang kategori 3. Mempertahankan informasi dalam data 4. Mudah dibuat dan dibaca 5. Bisa digunakan untuk menentukan range dan median (harus dalam daun yang terurut)
1eLaSTIS |Analisis Data Eksploratif
7
6. Dapat digunakan untuk mengurutkan data, pola/bentuk distribusi data (simetris, menceng kanan, mencemg kiri) 7. Membandingkan distribusi 2 atau lebih kelompok Kelemahan:
1. Sulit untuk jumlah data yang banyak/besar dan rangenya besar. Bentuk Distribusi
Uniform
Menceng kanan/ Menjurai ke bawah/ Positively Skewed
Simetris
Menceng kiri/ Menjurai ke atas/ Negatively Skewed
Bimodus/ Bimodal
1eLaSTIS |Analisis Data Eksploratif
8
Selain yang disebutkan di atas, juga terdapat distribusi data yang memiliki pola tidak beraturan. Cara membuat diagram batang daun secara umum:
1. Data diurutkan terlebih dahulu (dalam urutan naik/turun). 2. Tentukan batangnya, pastikan batang mencakup seluruh nilai. 3. Catat setiap nilai data dengan menuliskan daun bersebelahan dengan batang yang bersesuaian. 4. Hitung jumlah daun, harus sesuai dengan banyak data 5. Pisahkan stem dan leaf dengan tanda 6. Beri keterangan stem dan leaf pada akhir diagram 7. Buatlah interpretasi dengan melihat bentuk diagram Catatan : Batang bernilai lebih besar daripada daun.
Kebanyakan data itu menceng ke kanan atau menjurai ke bawah yang artinya cenderung banyak data yang bernilai kecil.
Contoh diagram batang dan daun
Buatlah stemleaf diagram untuk data berikut ini: 23 58 43 32 26 44 49 30 99 38 57 36 65 45 48 66 53 44 26 Jawab : i) 23 26 26 30 32 36 38 43 44 44 45 48 49 53 57 58 65 66 99 ii) Misal untuk tiga angka pertama, 23 26 dan 26. Angka puluhannya sama, yaitu 2 sehingga angka tersebut ditempatkan pada stem (batang) yang
9 sama, begitupula angka satuannya 3, 6, 6 ditempatkan pada leaf yang sama sehingga membentuk leaf 366.
1eLaSTIS |Analisis Data Eksploratif
Apabila kita masukkan ke dalam bentuk Stemleaf diagram : 2 | 366 Stemleaf diagram selengkapnya: ------------------------------Stem
| Leaf
------------------------------2
| 366
3
| 0268
4
| 344589
5
| 378
6
| 56
7
|
8
|
9
|9
-------------------------------keterangan : 2 | 3=23
iii) Interpretasi: - Tidak simetris, data miring (menjulur) ke arah kanan - Angka 99 merupakan outlier - Gap (kekosongan/kesenjangan data) terdapat pada stem: 7 dan 8 - Pemusatan data terjadi pada stem 4, sekitar 4 puluhan.
1eLaSTIS |Analisis Data Eksploratif
10
Persentase Penduduk Berumur 7-24 Tahun yang Putus Sekolah
Sumber: Susenas BPS Alasan kami memilih data tersebut: 1. Data itu merupakan data asli dan dapat dipertanggungjawabkan (Sumber BPS). 2. Data itu dapat digunakan untuk menjelaskan keadaan pendidikan di Indonesia. 3. Data itu memiliki banyak variabel (x) lain yg mempengaruhinya seperti ekonomi,letak geografis, dll. 4. Mudah digunakan dan tidak terlalu rumit. 5. Cocok untuk pembelajaran dan pengetahuan.
Persentase penduduk berumur 7-24 tahun yang putus sekolah selama 14 tahun. 38.47 37.60 37.40 36.54 36.85 34.86 34.27 34.59 33.96 33.40 31.92 30.53 27.97 28.25
1eLaSTIS |Analisis Data Eksploratif
11
Buatlah stem leaf diagram untuk data di atas dan interpretasikan hasilnya ------------------------------Stem | Leaf ------------------------------2(6) | 7,97 2(8) | 8,25 3(0) | 0,53 1,92 3(2) | 3,40 3,96 3(4) | 4,27 4,59 4,86 3(6) | 6,54 6,85 7,40 7,60 3(8) | 8,47 -------------------------------Keterangan : 2(6) | 7,97 = 27,97 Interpretasi: - Tidak simetris, data miring (menjulur) ke arah kiri - Pemusatan data terjadi pada stem 36 - 37
12
1eLaSTIS |Analisis Data Eksploratif
PERTEMUAN 3
RINGKASAN DATA NUMERIK
Analisis data eksplorasi merupakan metode statistik yang dapat digunakan untuk memeriksa data sehingga peneliti akan mengetahui kondisi data. Strategi dasar dari analisis data eksploratif sendiri dibedakan ke dalam 2 bentuk. Pertama dalam bentuk gambar yang terdiri dari garfik stem-leaf, histogram, dan lain-lain. Kedua, dengan menggunakan ringkasan numerik yang terdiri dari mean, median, kuartil, range, standard deviation, dan lain-lain. Ringkasan numerik digunakan untuk mengetahui kondisi pemusatan dan persebaran data kuantitatif. Ringkasan tersebut diperlukan agar data
menjadi lebih sederhana, mengetahui gambaran data serta sifat penting dari data tersebut. Untuk mengetahui kondisi pemusatan nilai data, maka perlu menghitung : 1.
Mean
Merupakan nilai rata-rata hitung dari keseluruhan nilai data yang dimiliki
Menggunakan data berkala rasio, seperti berat badan, umur, tekanan, dan sebagainya.
Dipengaruhi oleh nilai ekstrim.
Apabila observasi berubah, maka mean juga akan berubah.
Notasi:
Mean populasi :µ Mean sampel:
̅
2.
Median
Merupakan nilai yang berada tepat di tengah suatu distribusi nilai data yang sudah diurutkan.
Dipengaruhi oleh jumlah observasi bukan nilai observasi.
Digunakan pada distribusi frekuensi miring.
Dapat digunakan untuk data kuantitatif atau kualitatif.
1eLaSTIS |Analisis Data Eksploratif
13
3.
Modus
Merupakan nilai observasi yang sering muncul.
Tidak dipengaruhi oleh nilai ekstrim.
Digunakan pada data kualitatif maupun kuantitatif.
Unimodal artinya terdapat satu nilai modus dan bimodal artinya dua nilai modus.
Tidak semua data memiliki modus. Sedangkan untuk mengetahui kondisi persebaran nilai data, maka perlu
menghitung : 1. Jarak /range (R)
R = Max-Min
2. Jarak antar kuartil/ I nter-quartile range:
Kuartil membagi data (n) yang berurutan atas 4 bagian yang sama banyak. ------|------|-------|------Q1
Q2
Q3
Q1=kuartil bawah Q2=kuartil tengah/median Q3 = kuartil atas
Untuk data yang tidak dikelompokkan terlebih dahulu dicari mediannya, kemudian kuartil bawah dan kuartil atas.
Untuk data yang dikelompokkan rumusan kuartil identik dengan rumusan mencari median.
Jarak antar kuartil atau IQR (Inter Quartile Range) merupakan selisih antara Q3 dan Q1.
3. Standard Deviation (SD): “rata-rata” jarak nilai data terhadap mean
1 x N n
14
2
i
i 1
SD ≥ 0. (SD = 0 saat nilai data sama semua)
1eLaSTIS |Analisis Data Eksploratif
Memiliki unit pengukuran yang sama dengan data observasi
Dipengaruhi oleh nilai ekstrim Ringkasan
numerik
biasanya
disajikan dalam bentuk grafik box-plot yang
pada
umumnya
menampilkan
5
ringkasan nilai, yaitu: 1. Nilai minimum 2. Kuartil I (Q1) 3. Median 4. Kuartil III (Q3) 5. Nilai maksimum.
Hubungan Mean, Median, dan Modus :
1. Mean pada umumnya dipilih untuk mengukur ukuran pemusatan, bila distribusi mendekati simetris maka data memiliki stabilitas yang besar dan digunakan sebagai dasar statistika selanjutnya. 2. Median paling tepat menggambarkan ukuran pemusatan bila distribusi menunjukkan keistimewaan. Saat menceng gunakan nilai median. 3. Modus biasanya digunakan untuk menafsirkan data serta mendapatkan gambaran besar dari data secara cepat dan waktu yang singkat.
Mean vs Median
1. Nilai mean dan median sama, jika distribusi nilai data berupa kurva yang setangkup/simetris 2. Mean dan median berbeda, jika distribusi nilai data menceng 3. Menceng kanan : mean lebih besar dari median 4. Menceng kiri: mean lebih kecil dari median
1eLaSTIS |Analisis Data Eksploratif
15
5. Mean ditarik oleh nilai ekstrim , namun tidak dengan median. Median lebih baik digunakan sebagai ukuran pusat data jika nilai datanya bervariasi
Hinges (Engsel)
Jenis:
Lower-Hinges (H1), merupakan median dari nilai minimum data s.d nilai median (identik dengan Q1)
Upper-Hinges (H2), merupakan median dari nilai median s.d nilai maksimum data ((identik dengan Q3)
*Note: Kecuali untuk data berjumlah genap, dimana median akan berada diantara 2 nilai
Nilai Ekstrim
Outliers atau pencilan merupakan nilai yang terletak jauh atau menyimpang dari kelompok utama dan penting untuk dapat mengidentifikasi mereka.
Kandidatnya adalah nilai minimum dan maksimum
IQR
digunakan
sebagai
bagian
dari
aturan
praktis
untuk
mengidentifikasi outlier.
Nilai data dianggap outlier rendah: setiap nilai < Q1 1,5IQR
Nilai data dianggap outlier tinggi: setiap nilai > Q3 + 1,5IQ
1eLaSTIS |Analisis Data Eksploratif
16
Ilustrasi Ringkasan Numerik : Banyak Data
Nilai Median
Notasi Median pada nilai ke-7
Nilai Hinges
Notasi Hinges pada nilai ke-4
Notasi Nilai Eekstrim
Contoh soal : Tabel. Jumlah anak tidak sekolah dari tahun 2002 s.d 2015
Tahun
Jumlah anak tidak sekolah*
2002
38,47
2003
37,60
2004
37,40
2005
36,54
2006
36,85
2007
34,86
2008
34,27
2009
34,59
2010
33,96
2011
33,40
2012
31,92
2013
30,53
2014
27,97
2015
28,25
Sumber : Publikasi Statistik Indonesia
1eLaSTIS |Analisis Data Eksploratif
17
Dari tabel diatas didapatkan :
Nilai maksimum : 38,47
Kuartil I (Q1) : 31,92
Median : 34,43
Kuartil III (Q3) : 36,54
Nilai minimum : 27,97
Kelima ringkasan nilai tersebut kemudian digambarkan dalam ilustrasi maka akan didapatkan :
#14 M7,5
34,43
H4 31,92
36,85
1 27,97
38,47
Dari data tersebut juga dapat dilihat apakah terdapat data yang menyimpang dari kelompoknya dengan menentukan nilai outliersnya atau pencilannya: IQR = H2-H1 = 36,85-31,92 = 4,93
Q1-1,5(IQR) = 31,92-7,395 = 24,525
Q3+1,5(IQR) = 36,85+7,395 = 44,245 Dari hasil perhitungan diatas didapatkan nilai outliers rendah adalah
semua data yang nilainya kurang dari 24,525 dan nilai outliers tinngi semua data yang lebih besar dari 44,245. Dikarenakan tidak ada nilai yang lebih rendah dari 24,525 maupun lebih tinggi dari 44,245 maka tidak ada pencilan dari data tersebut.
18
1eLaSTIS |Analisis Data Eksploratif
PERTEMUAN 4-5
DOT PLOT & BOX PLOT
A. Dot plot Dot plot adalah jenis tampilan grafis yang digunakan untuk membandingkan frekuensi dalam kategori atau kelompok . Dot plot berbentuk
seperti diagram batang dengan titik-titik sebagai gambaran dari frekuensi data pada tiap kategori. Bentuk lain dari dot plot adalah seperti diagram kartesius dengan sumbu x adalah frekuensi dan sumbu y adalah kategori. Contoh penggunaan diagram dotplot “Waktu yang dibutuhkan seseorang untuk sarapan” Data: Menit:
0
1
2
3
4
5
6
7
8
9 10 11 12
People: 6
2
3
5
2
5
0
0
2
3
7
4
1
Diagram:
Bentuk lain,
19
1eLaSTIS |Analisis Data Eksploratif
B. Box plot Box plot (atau juga bisa disebut diagram whisker) adalah cara menampilkan distribusi data berdasarkan ringkasan numerik yaitu: nilai
minimum, kuartil bawah, median, kuartil atas, dan nilai maksimum. Box plot kita menggambarkan ringkasan numerik secara visual, memberikan gambaran pusat data, sebaran data, bentuk distribusi data dan dapat membandingkan antar data. Dengan membaca box plot, kita dapat
mengetahui nilai minimum, nilai maksimum, Q1, Median, Q3, ada tidaknya nilai outlier (pencilan) dan nilai ekstrim (pencilan jauh), serta distribusi dari dari data pengamatan. Bagian-bagian Box Plot
1. Bagian utama kotak berbentuk persegi merupakan bidang menyajikan IQR, dimana 50% dari nilai data pengamatan terletak di sana. IQR menggambarkan ukuran penyebaran data. Semakin panjang bidang IQR menunjukkan data semakin menyebar. 2. Garis bawah kotak (LQ) = Q1, dimana 25% data pengamatan lebih kecil atau sama dengan Q1. 3. Garis tengah kotak = Q2 (median), dimana 50% data pengamatan lebih kecil atau sama dengan nilai ini. 4. Garis atas kotak (UQ) = Q3 (Kuartil ketiga) dimana 75% data pengamatan lebih kecil atau sama dengan nilai Q1. 5. Garis yang merupakan perpanjangan dari box (baik ke arah atas ataupun ke arah bawah) dinamakan dengan whiskers. 6. Whiskers bawah menunjukkan nilai yang lebih rendah dari kumpulan data yang berada dalam IQR. 7. Whiskers atas menunjukkan nilai yang lebih tinggi dari kumpulan data yang berada dalam IQR 8. Panjang whisker ≤ 1.5 IQR. Garis whisker dimulai dari ujung kotak IQR, dan berakhir pada nilai data yang bukan dikategorikan sebagai outlier. Dengan demikian, nilai terbesar dan terkecil dari data pengamatan (tanpa termasuk outlier) masih merupakan bagian dari Boxplot yang terletak tepat di ujung garis tepi whiskers.
1eLaSTIS |Analisis Data Eksploratif
20
9. Panjang boxplot dapat digunakan untuk menggambarkan tingkat penyebaran atau keragaman data pengamatan, 10. Letak median dan panjang whisker menggambarkan tingkat kesimetrisannya.
Kelebihan Box Plot
1. Secara visual menggambarkan lokasi dari data 2. Menunjukkan sebaran data tersebut simetri atau tidak 3. Tidak seperti metode yang lain, box plot memperlihatkan outlier 4. Dapat cepat digunakan untuk membandingkan lebih dari satu distribusi data pada satu tampilan secara bersamaan.
Kelemahan Box Plot
1. Cenderung memperhatikan outlier, yang mungkin tidak diperlukan dalam suatu data. 2. Selain itu bentuk distribusi terpengaruh pula adanya outlier. 3. Cenderung menyembunyikan detail dari distribusi data.
Untuk mengurangi kelemahan ini, perlu disertakan pula histogram data sebagai pelengkap.
Pembuatan Box Plot
Dalam pembuatan box plot, nilai yang kita perlukan antara lain : 1. Median adalah nilai yang terletak di tengah setelah data diurutkan. Untuk menentukan posisi nilai median suatu data tunggal dapat menggunakan rumus
.
2. Kuartil adalah nilai yang membagi data menjadi 4 bagian. Kuartil dinotasikan dengan Q. Rumus untuk menentukan kuartil untuk data tunggal adalah
.
3. Interquartile Range (IQR) adalah selisih
.
4. Nilai outlier atau pencilan adalah nilai data yang letaknya lebih dari 1.5 x panjang kotak (IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak).
1eLaSTIS |Analisis Data Eksploratif
21
o
Q3 + (1.5 x IQR) < outlier atas ≤ Q3 + (3 x IQR)
o
Q1 – (1.5 x IQR) > outlier bawah ≥ Q1 – (3 x IQR)
5. Nilai ekstrim atau pencilan jauh adalah nilai-nilai yang letaknya lebih dari 3 x panjang kotak (IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak). a. Ekstrim bagian atas apabila nilainya berada di atas Q3 + (3 x IQR) dan b. Ekstrim bagian bawah apabila nilainya lebih rendah dari Q1 – (3 x IQR) 6. Panjang whisker maksimal adalah 1,5 x IQR dari kotak dan digambarkan hingga nilai maksimum atau minimum data yang terletak diantara Q1-1,5 x IQR dan Q3+1,5xIQR. Contoh box plot:
22
1eLaSTIS |Analisis Data Eksploratif
Aplikasi Dot plot dan Box plot pada Data “Jumlah anak tidak sekolah”
Tabel 1. Data Jumlah Anak Tidak Sekolah Tahun
Jumlah anak tidak sekolah*
2002
38,47
2003
37,60
2004
37,40
2005
36,54
2006
36,85
2007
34,86
2008
34,27
2009
34,59
2010
33,96
2011
33,40
2012
31,92
2013
30,53
2014
27,97
2015
28,25 Sumber: Susenas, BPS
Catatan : 1
Termasuk pendidikan nonformal (Paket A, Paket B, atau Paket C)
2
Tidak termasuk Nanggroe Aceh Darussalam (NAD)
3
Data Revisi
Diolah dari Hasil Survei Sosial Ekonomi Nasional (Susenas), BPS Data dikutip dari publikasi Statistik Indonesia Dotplot
Jumlah Anak Tidak Sekolah 45.00 40.00 35.00 30.00 h a l 25.00 m20.00 u J 15.00 10.00 5.00 0.00 2000
Jumlah anak tidak sekolah
23 2005
2010
2015
2020
Tahun
1eLaSTIS |Analisis Data Eksploratif
Boxplot
Menentukan ringkasan numerik: Median = 34,43 Quartil 1 = 32,29 Quartil 3 = 36,77 Nilai minimum = 27,97 Nilai maksimum = 38,47 Jumlah Anak Tidak Sekolah 45.00 40.00 35.00 30.00 25.00 20.00 15.00 10.00 5.00 0.00
Mencari Pencilan: IQR = Q3 – Q1 = 4,48 Batas Bawah: Q1 – 1,5 IQR = 32,29 - 6,72 = 25,57 Batas Atas: Q3 + 1,5 IQR = 36,77 + 6,72 = 43,49 Dari data tersebut, tidak terdapat pencilan maupun pencilan jauh.
24
1eLaSTIS |Analisis Data Eksploratif
PERTEMUAN 6
TRANSFORMASI DATA
1. Pengertian Transformasi Data
Transformasi data adalah proses mengubah nilai data asli menjadi data baru menggunakan suatu formula/fungsi/operasi matematika dengan tujuan tertentu.
2. Tujuan Transformasi Data
Beberapa tujuan dilakukannya transformasi adalah untuk : a. Membuat pola sebaran data yang menceng menjadi simetris. b. Membuat pola hubungan antar variabel menjadi linier. c. Membuat lebar boxplot dari sisi ke sisi lebih sama. d. Membuat penyebaran titik-titik di scatterplot menjadi lebih merata.
3. Cara Transformasi Data
Untuk membuat pola sebaran data menjadi simetris, transformasi dapat dilakukan dengan cara : a. Coba-coba sampai diperoleh bentuk/hasil yang sesuai, misalnya menggunakan :
Transformasi kuadrat , berarti kita mengoperasikan pangkat dua
pada data variabel asli.
Transformasi kubik , berarti kita mengoperasikan pangkat tiga
pada data variabel asli.
1eLaSTIS |Analisis Data Eksploratif
25
Transformasi akar , berarti kita mengoperasikan akar pada data
variabel asli. Berguna untuk memperbaiki data yang terdistribusi positive skewness dan unequal variance (data tidak memenuhi asumsi kehomogenan). Dapat digunakan untuk data persentase, jika nilainya
kebanyakan
transformasi akar.
kecil
maka
sebaiknya
menggunakan
√
Transformasi invers / kebalikan, melakukan operasi balikan baik
balikan pangkat atau pun tidak.
Transformasi logaritma, berarti kita mengoperasikan data asli ke
bentuk logaritma. Digunakan untuk data yang terdistribusi Positive Skewness dan Unequal Variance.
Ada beberapa hal yang perlu diperhatikan. Jika pada data asli menunjukkan nilai kurang dari 10 atau mendekati nol, maka gunakan
jika data banyak mendekati nol seperti
desimal, maka sebaiknya dikalian 10 lalu dilogaritmakan atau
Dan seterusnya sampai diperoleh bentuk sebaran yang
simetris. Transformasi dapat dilakukan hanya pada ringkasan 5 angka saja sampai diperoleh bentuk sebaran yang simetris. b. Menggunakan tangga transformasi Tukey Tangga transformasi Tukey dikemukakan oleh Tukey (1977) dan
merupakan
bentuk
khusus
dari
Transformasi
Box-Cox.
Transformasi dituliskan dalam bentuk:
1eLaSTIS |Analisis Data Eksploratif
26
(disebut dengan parameter transformasi), dapat bernilai
negatif atau positif. Jika = 0, maka
Transformasi dituliskan dalam bentuk:
.
√ -2
Jika
<0,
-1
0
1
2
maka bentuk transformasi dilakukan penyesuaian
(modifikasi), yaitu sebagai berikut:
√ ( ) -2
-1
0
1
2
Bentuk Transformasi Tukey :
ika > 0 ika = 0
ika < 0
Tangga transformasi Tukey untuk membuat pola sebaran data menjadi simetris (Normal shape):
√ Lebih Kuat
Sedang
Positive Skewness
Tetap
Sedang
Lebih Kuat
Negative Skewness
c. Transformasi Box-Cox Transformasi Box-Cox ini dikemukakan oleh George Box dan David Cox. Tujuan penggunaannya sama seperti Transformasi Tukey,
1eLaSTIS |Analisis Data Eksploratif
27
hanya saja Box-Cox ketelitiannya lebih akurat sehingga akan menghasilkan hasil transformasi data yang lebih simetris. Langkah yang dilakukan adalah mencari
yang
dapat mengubah
pola sebaran data menjadi simetris. Bentuk transformasi Box-Cox :
{
Transformasi Box-Cox ini sangat efektif (selalu dapat membuat data menjadi simetris) jika data bernilai positif (lebih besar dari 0).
Pembahasan Soal Tabel 1. Jumlah anak tidak sekolah dari tahun 2002 s.d 2015
Tahun
Jumlah anak tidak sekolah
2002
38,47
2003
37,60
2004
37,40
2005
36,54
2006
36,85
2007
34,86
2008
34,27
2009
34,59
2010
33,96
2011
33,40
2012
31,92
2013
30,53
2014
27,97
2015 28,25 Sumber : Publikasi Statistik Indonesia
28
1eLaSTIS |Analisis Data Eksploratif
Dari tabel diatas didapatkan :
Nilai maksimum : 38,47
Kuartil I (Q1) : 31,92
Median : 34,43
Kuartil III (Q3) : 36,54
Nilai minimum : 27,97 Kelima ringkasan nilai tersebut kemudian digambarkan dalam ilustrasi
maka akan didapatkan :
#14 M7,5
34,43
H4 31,92
36,85
1 27,97
38,47
Dari data tersebut juga dapat dilihat apakah terdapat data yang menyimpang dari kelompoknya dengan menentukan nilai outliernya atau pencilannya: IQR = H2-H1 = 36,85-31,92 = 4,93
Q1-1,5(IQR) = 31,92-7,395 = 24,525
Q3+1,5(IQR) = 36,85+7,395 = 44,245
Dari hasil perhitungan di atas, tidak ada nilai yang lebih rendah dari 24,525 maupun lebih tinggi dari 44,245 maka tidak ada pencilan dari data tersebut. Berikut adalah Boxplot dari data di atas :
29
1eLaSTIS |Analisis Data Eksploratif
Percobaan transformasi data angka putus sekolah Y
y2
y1,5
log(y)
27.97
782.32
147.92
1.446692
28.25
798.06
150.15
1.451018
30.53
932.08
168.69
1.484727
31.92
1018.89
180.34
1.504063
33.40
1115.56
193.03
1.523746
33.96
1153.28
197.90
1.530968
34.27
1174.43
200.62
1.534914
34.59
1196.47
203.44
1.538951
34.86
1215.22
205.82
1.542327
36.54
1335.17
220.88
1.562769
36.85
1357.92
223.69
1.566437
37.40
1398.76
228.72
1.572872
37.60
1413.76
230.56
1.575188
38.47
1479.94
238.61
1.585122
y2
y1.5
MIN
y 27.97
782.3209
147.924
1.446692
H1
31.92
1018.886
180.3409
1.504063
MED
34.43
1185.425
202.0252
1.536937
H2
36.85 38.47
1357.923
223.695
1.566437
1479.941
238.6071
1.585122
MED-H1
2.51
166.5385
21.68426
0.032874
H2-MED
2.42
172.4976
21.66979
0.0295
1.03719
0.965454
1.000668
1.11436
MAX
Rasio
log (y)
Setelah dilakukan transformasi menggunakan y2, y1.5 , log (y), rasio yang lebih mendekati 1 adalah hasil dari transformasi menggunakan y 1.5. Sehingga dapat kita simpulkan bahwa data ini cocok kita transformasi menggunakan y1.5.
30
1eLaSTIS |Analisis Data Eksploratif
Box plot dari transformasi data angka putus sekolah y
Log(y)
y1.5
y2
31
1eLaSTIS |Analisis Data Eksploratif
PERTEMUAN 7
PEMULUSAN DATA
A. Metode Peramalan
Metode Peramalan diklasifikasikan menjadi dua yaitu : 1. Metode Kualitatif Metode kualitatif melibatkan pengalaman, judgements, maupun opini dari sekelompok orang yang pakar di bidangnya. Kelemahan dari met ode kualitatif adalah kesulitan dalam mengukur keakuratan hasil ramalan, dan kemungkinan tingginya subjektivitas pendapat. 2. Metode Kuantitatif Metode kuantitatif melibatkan analisis statistik terhadap data-data yang lalu, terbagi menjadi 2 yaitu : a) Model Kausal Model kusal adalah identifikasi dan determinasi hubungan antarvariabel yang akan diramalkan. Contohnya : teknik regresi, input output. b) Univariate Time Series Model Adalah observasi terhadap urutan pola data secara kronologis dari suatu peubah tertentu. Contohnya : Moving average, ex ponential smoothing, ARIMA, ARCH-GARCH
32
1eLaSTIS |Analisis Data Eksploratif
Metode smoothing digunakan
untuk
mengurangi
ketidakteraturan
musiman dari data yang lalu, dengan membuat rata-rata tertimbang dari sederetan data masa lalu. Ketepatan peramalan dengan metode ini akan terdapat pada peramalan jangka pendek, sedangkan untuk peramalan jangka panjang kurang akurat.
B. Metode Pemulusan Data
Salah cara untuk memuluskan data time series adalah dengan menggunakan metode moving median. Berbeda dengan moving average, pada metode moving median, nilai tengah atau median yang akan bergerak per orde pengamatan. Dimana jika jumlah orde, sebut n, berjumlah 3, maka data observasi akan berkurang sebanyak n-1. Persentase Penduduk Berumur 7-24 Tahun yang Putus Sekolah
33
1eLaSTIS |Analisis Data Eksploratif
Persentase Penduduk Umur 7-24 tahun yang putus sekolah 14 tahun
Moving Median
Tahun
Jumlah anak tidak sekolah*
2002
38.47
2003
37.60
37.60
2004
37.40
37.40
37.40
2005
36.54
36.85
36.85
2006
36.85
36.54
36.54
2007
34.86
34.86
34.86
2008
34.27
34.59
34.59
2009
34.59
34.27
34.27
2010
33.96
33.96
33.96
2011
33.40
33.40
33.40
2012
31.92
31.92
31.92
2013
30.53
30.53
30.53
2014
27.97
28.25
2015
28.25
*) Laki-laki + Perempuan
Orde = 3
Orde = 5
Sumber : Susenas BPS
Grafik dari penggunaan moving median dengan orde 3 dan 5 sebagai berikut 45.00 40.00 35.00 30.00 25.00 20.00 15.00 10.00 5.00
34
0.00 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
1eLaSTIS |Analisis Data Eksploratif
Interpretasi : Dari hasil pemulusan dengan menggunakan moving median tidak ada nilai ekstrim dari data tersebut. Dari awal memang data sudah dalam kondisi yang ideal. Trend terlihat menrun dari tahun ke tahun. Artinya penduduk Indonesia berumur 7 – 14 tahun yang putus sekolah semakin berkurang. Hal ini mengindikasikan bahwa kinerja pemerintah dalam meningkatkan kesejahteraan masyarakat terutama di bidang pendidikan sudah baik. Upaya pemerintah diwujudkan dengan sosialisasi pentingnya pendidikan serta peningkatan fasilitas pendidikan seperti tenaga pengajar, sarana prasarana kegiatan belajar mengajar, dan akses menuju sekolah. Selain itu, pemerintah juga memberikan subsidi atau beasiswa untuk para pelajar yang berprestasi maupun yang kurang mampu secara ekonomi.
35
1eLaSTIS |Analisis Data Eksploratif
#CeritaPenutup
Ingat selalu bahwa kesuksesan itu sebuah perjalanan, bukan sebuah tujuan karena kita tidak akan berhenti setelah berhasil meraih satu tujuan, akan terus muncul tujuan-tujuan baru yang kembali harus diraih. Nelson Mandela mengatakan, "After climbing a great hill, one only finds that there are many more hills to climb". Setelah meraih satu tujuan, pikiran kita akan semakin terbuka dan semakin jelas terlihat kalau ada banyak lagi tujuan dan mimpi yang harus diraih. Seperti saat ini, kita dapat berkuliah di STIS. Mungkin salah satu tujuan hidup kita telah tercapai, namun pastinya kita juga punya mimpi yang lain bukan? Maka, anggap kesuksesan itu sebuah perjalanan. Ibarat akan menempuh sebuah perjalanan, kita punya kota tujuan dalam satu waktu, ini mimpi yang harus diraih. Dalam satu waktu, kita hanya bisa mengunjungi satu tempat, baru kemudian bisa pindah ke tempat yang lain, ini berarti fokus, tidak perlu banyak mimpi yang harus diraih dalam satu waktu. Perjalanan kalau terlalu banyak yang ingin dikunjungi pasti kalau tidak banyak yang batal, pasti kelelahan yang akhirnya pencapaian tidak maksimal. Dalam mempersiapkan sebuah perjalanan, kita perlu memperhitungkan rute yang akan diambil, bagaimana cara mencapai tempat tujuan, apa yang dimiliki agar bisa bertahan dalam perjalanan, apa yang harus diwaspadai selama perjalanan, dan lain sebagainya. Begitu juga dengan jalan meraih sebuah mimpi, harus selalu mempersiapkan yang terbaik, pelajari semua hal tentang mimpi yang ingin diraih, dan seterusnya. Cukupkan mengeluh, karena tidak akan merubah keadaan menjadi lebih baik. Perlu dipahami, dalam sebuah perjalanan, yang berangkat duluan belum tentu sampai lebih awal dan dengan selamat. Kalau kita banyak yang harus dipersiapkan, fokus pada persiapan, tidak usah hiraukan mereka yang sudah jalan duluan. Nikmati prosesnya. Hasil itu tidak selalu mengikuti logika manusia, tetapi keajaiban selalu datang disaat seseorang sudah melakukan persiapan dan usaha semaksimal mungkin. Tidak sulit bagi Tuhan memutuskan kamu masuk surga dan kamu masuk neraka. Dia tidak perlu menciptakan kehidupan dan membiarkan kita hidup bertahun-tahun. Menurut saya, ini karena hasil akhir itu datangnya kedua setelah ada sebuah proses. Buang jauh-jauh pikiran kalau bisa memanen padi setelah sehari menanam. Boleh menyesali kelalaian dan kekurangan diri sekarang, tapi kemudian mulai perlahan perbaiki, mulai menanam agar bisa memanen nanti. Let s break the limits! ’
36
1eLaSTIS |Analisis Data Eksploratif