ASUMSI KENORMALAN
BAB I PENDAHULUAN 1.1 Latar Belakang Berbagai rumus statistik inferensi yang digunakan untuk menguji hipotesis penelitian didasarkan pada asumsi bahwa data yang bersangkutan memenuhi ciri sebaran normal. Dengan kata lain, keadaan data berdistribusi normal merupakan sebuah persyaratan yang harus terpenuhi. Terdapat beberapa macam sebaran, tetapi sebaran yang paling penting dalam bidang statistik adalah sebaran atau distribusi normal. Berbagai rumus statistik yang digunakan untuk memecahkan berbagai perhitungan berangkat dari asumsi distribusi normal, artinya data yang digunakan menyebar normal. Jika tidak, rumus-rumus statistik tersebut tidak dapat digunakan. Distribusi normal merupakan sebuah konsep matematik yang diidealkan. Sebuah sebaran skor yang benar-benar normal yang sesuai dengan konsep idealistik tersebut, sebenarnya jarang ditemukan. Tetapi, sebaran-sebaran skor dari berbagai bidang mempunyai kecenderungan mengikuti atau memenuhi asumsi distribusi normal banyak sekali ditemukan. Karena sebagian besar sebaran angkaangka berada di tengah, sedangkan semakin ke kanan atau ke kiri semakin kecil, jika digambarkan sebaran s ebaran angka-angka tersebut akan menyerupai kurva. Gambar inilah yang kemudian disebut gambar kurva normal. Gambar kurva normal sendiri berasal dari histogram dan polygon yang diperhalus, jadi, puncak kurva yang berada di tengah menunjukkan banyaknya ban yaknya frekuensi, dan pada kedua ekor kanan dan kiri yang semakin rendah menunjukkan semakin kecilnya frekuensi. Salah satu analisis statistik mensyaratkan datanya berdistribusi normal adalah analisis regresi. Analisis regresi adalah analisis statistika yang memanfaatkan hubungan antara dua atau lebih peubah kuantitatif sehingga salah satu peubah dapat diramalkan dari peubah lainnya. Uji kenormalandalam analisis regresi bertujuan untuk menguji apakah dalam suatu model regresi linier variabel terikat dan variabel bebas keduanya mempunyai distribusi normal atau tidak. Penyebab mengapa data tidak menyebar secara normal adalah apabila melakukan pengacakan (randomization) (randomization) yang tidak sesuai dengan prinsip pengacakan suatu rancangan percobaan. Hal ini memungkinkan data akan menyebar secara tidak normal. Konsekuensi akibat data yang tidak menyebar normal adalah akan menyebabkan keputusan yang di bawah duga (under estimate) estimate) atau kelebihan duga (over estimate) terhadap estimate) terhadap taraf nyata percobaan. 1.2 Tujuan Tujuan dari penulisan makalah ini adalah untuk mengkaji landasan teori serta penerapan asumsi kenormalan pada analisis regresi, tujuan secara rinci adalah sebagai berikut: 1. Mengetahui apa itu asumsi kenormalan dan mengapa asumsi kenormalan harus terpenuhi. 2. Mengetahui bagaimana cara mengidentifikasi asumsi kenormalan. 3. Mengetahui dampak pelanggaran asumsi kenormalan. 4. Mengetahui cara mengatasi pelanggaran asumsi kenormalan.
1
BAB II LANDASAN TEORI 2.1 Analisis Regresi Untuk mengukur besarnya pengaruh variabel bebas (Independent Variable) terhadap variabel terikat (Dependent Variable) dan memprediksi variabel terikat dengan menggunakan variabel bebas, Gujarati (2006) mendefinisikan analisis regresi sebagai kajian terhadap hubungan satu variabel yang disebut sebagai variabel yang diterangkan (the explained variable) dengan satu atau dua variabel yang menerangkan (the explanatory). Variabel pertama disebut juga sebagai variabel terikat dan variabel kedua disebut juga sebagai variabel bebas. Jika dalam persamaan regresi hanya terdapat satu variabel bebas dan satu variabel terikat, maka disebut sebagai persamaan regresi sederhana, sedangkan jika variabel bebasnya lebih dari satu, maka disebut sebagai persamaan regresi berganda. Model dari persamaan regresi sederhanadapat dilihat pada persamaan (2.1) dan model persamaan regresi berganda pada persamaan (2.2). (2.1) (2.2) dengan : βi : parameter regresi ε : error Y : variabel terikat X: variabel bebas Definisi yang telah dikemukakan oleh Gujaratai (2006) tersebut di atas sekaligus merupakan tujuan dari analisis regresi, selain itu tujuan dari penggunaan analisis regresi adalah membuat estimasi rata-rata dan nilai variabel terikat dengan didasarkan pada nilai variabel bebas, menguji hipotesis karakteristik dependensi, dan meramalkan nilai rata-rata variabel terikat dengan didasarkan pada nilai variabel bebas diluar jangkauan sampel. Dalam model regresi terdapat asumsi-asumsi yang harus dipenuhi. Asumsi ini dikaitkan dengan pengujian parameter model dimana pengujian dikatakan sahih jika asumsi model regresi dipenuhi. Asumsi tersebut menyangkut sifat dari distribusi residual (εi), yaitu, εi ~ IIDN (0, σ2) artinya residual harus menyebar disekitar 0, memiliki varians konstan (identik) dan independen (tidak berkorelasi satu sama lain). Salah satu syarat untuk mencapai ini adalah pengamatan antar Y i tidak berkorelasi, misalnya tidak bersifat time series. Berkaitan dengan metode penaksiran dari parameter regresi, maka untuk regresi linier berganda dibutuhkan kondisi bahwa antar variabel X tidak saling berkorelasi (independen). Asumsi yang berkaitan dengan residual yang sudah dijelaskan di atas dapat ditulis sebagai berikut: 1. , artinya kesalahan error atau residual mengikuti distribusi normal dengan rata-rata nol dan varians 2 atau dapat ditulis dengan: a. b. atau disebut juga dengan homoskedastisitas dimana antar variansi residual bernilai identik. 2. Tidak ada autokorelasi antar residual ( dan tidak berkorelasi, i ≠ j sehingga cov (εi, ε j) = 0
3 3 ⋯
~(0, ) () 0;( ) 1,2,…,
2
3.
Tidak ada kolinieritas ganda (multikolinieritas) antar variabel independen Selain harus memenuhi asumsi, menurut Gujarati (2006) suatu model regresi dikatakan baik jika memenuhi beberapa kriteria seperti di bawah ini: Parsimoni,suatu model tidak akan pernah dapat secara sempurna menangkap realitas, akibatnya kita akan melakukan sedikit abstraksi ataupun penyederhanaan dalam pembuatan model. Mempunyai Identifikasi Tinggi,artinya dengan data yang ada, parameter parameter yang diestimasi harus mempunyai nilai-nilai yang unik atau dengan kata lain, hanya akan ada satu parameter saja. Keselarasan (Goodness of Fit),tujuan analisis regresi ialah menerangkan sebanyak mungkin variasi dalam variabel tergantung dengan menggunakanvariabel bebas dalam model. Oleh karena itu, suatu model dikatakan baik jika eksplanasi diukur dengan menggunakan nilai adjusted R 2 yang setinggi mungkin. Konsistensi Dalam Teori,model sebaiknya segaris dengan teori. Pengukuran tanpa teori akan dapat menyesatkan hasilnya. Kekuatan Prediksi,validitas suatu model berbanding lurus dengan kemampuan prediksi model tersebut. Oleh karena itu, pilihlah suatu model yang prediksi teoritisnya berasal dari pengalaman empiris. 2.2 Asumsi Kenormalan 2.2.1 Pengertian Asumsi Kenormalan Asumsi Kenormalan dalam analisis regresi linier klasik adalah suatu kondisi dimana tiap eididistribusikan secara normal dengan: Rata-rata: E (ei) = 0 Varians: E (ei2) = Cov (ei , e j): E (ei , e j) = 0, i ≠ j Asumsi ini secara ringkas bisa di tulis: ei ~ N(0, ) Menurut Gujarati (1997), asumsi kenormalan harus terpenuhi karena berbagai alasan, yaitu : 1. ei menyatakan pengaruh gabungan (terhadap variabel tak bebas) dari sejumlah besar variabel bebas yang tidak dimunculkan secara eksplisit dalam model regresi. Pengaruh-pengaruh variabel yang diabaikan ini diharapkan kecil dan random. Dengan teorema limit pusat dapat ditunjukkan bahwa jika ada sejumlah besar variabel random yang didistribusikan secara independen dan identik, maka distribusi jumlahnya akan cenderung ke distribusi normal bila banyaknya variabel itu meningkat tak terbatas. Teorema Limit Pusat inilah yang memberikan pembenaran teoritis untuk asumsi kenormalan ei. 2. Suatu varians dari Teorema Limit Pusat menyatakan bahwa bahkan apabila banyaknya variabel tidak terlalu besar atau jika variabel ini tidak independen, maka jumlahnya masih bisa didistribusikan secara normal. 3. Dengan asumsi kenormalan, maka distribusi probabilitas penduga Metode Kuadrat Terkecil (MKT) dengan mudah diperoleh, karena merupakan sifat dari distribusi normal bahwa setiap fungsi linear dari variabel-variabel yang didistribusikan secara normal dengan sendirinya didistribusikan secara
3
normal. Sehingga jika ei normal maka penduga MKT β 0 dan β1 juga berdistribusi normal. 4. Distribusi normal adalah distribusi yang relatif sederhana yang hanya meibatkan dua parameter (rata-rata dan varians). 5. Jika berhadapan dengan ukuran sampel yang kecil, atau terbatas, atau data kurang dari 100 observasi maka asumsi normalitas memegang peran penting dalam kasus ini. Asumsi kenormalan tidak hanya membantu untuk memperoleh distribusi probabilitas yang tepat dari penduga MKT tetapi juga memungkinkan untuk penggunaan uji t, F , dan uji statistik X 2untuk model regresi. Jika ukuran sampel cukup besar, mungkin peneliti dapat mengendurkan asumsi normalitas. 2.2.2 Penyebab Ketidaknormalan Dalam praktiknya, jarang sekali ditemukan sebaran nilai pengamatan yang mempunyai bentuk ideal, seperti distribusi normal, bahkan sebaliknya, kita sering menemukan bentuk yang cenderung tidak normal (skewed atau multimodal) karena keragaman dari ukuran contoh (sample). Keragaman ini terjadi apabila ukurancontoh yang terlalu sedikit, misalnya kurang dari 8 – 12 (Keppel & Wickens, 2004; Tabachnick & Fidell, 2007), atau apabila terdapat outliers. Outlier biasanya terjadi karena adanya kesalahan, terutama kesalahan dalam entri data, salah dalam pemberian kode, kesalahan partisipan dalam mengikuti instruksi, dan lain sebagainya. 2.2.3 Cara Mengidentifikasi Asumsi Kenormalan Untuk mengidentifikasi apakahsisaan/residual dari data yang digunakan memenuhi asumsi kenormalan dapat digunakan beberapa cara berikut: 1. Histogram Histogram dari sisaan/residual merupakan metode grafik yang paling sederhana untuk melihat bentuk fungsi kepadatan peluang dari variabel acak. Sumbu horizontal (x) merupakan nilai e i yang dikelompokkan ke dalam interval-interval. Sumbu vertikal (y) merupakan frekuensi dari e i. Jika histogram mendekati bentuk setimbang seperti kurva normal (berbentuk lonceng) maka dapat dikatakan sebaran e i mengikuti distribusi normal tetapi jika data melenceng ke kanan atau melenceng ke kiri berarti data tidak mengikuti distribusi normal. 2. Box Plot Box plot adalah representasi grafik dari sekelompok data yang memuat 5 ringkasan data yaitu median, kuartil pertama, kuartil ketiga, minimum dan maksimum. Box plot memberikan gambaran tentang distibusi data, sehingga dari box plot ini akan kelihatan kemencengan data, keruncingan data dan outlier (Modul Diklat BPS, 2012). 3. Koefisien Kemiringan (skewness) dan Keruncingan (Kurtosis) Untuk menguji normalitas data baik secara univariate (masing-masing indikator) atau secara multivariate (seluruh indikator) menggunakan skewness (kemiringan data) dan kurtosis (keruncingan data) dimana kedua parameter
4
tersebut pada setiapindikatornya terdapat nilai Critical Rasio (CR). Pada tingkat signifikan 1% nilai CR berada diantara ± 2,58 ( 2,58 CR 2,58 ), sedangkan pada tingkat signifikansi 5% nilai CR berada diantara ± 1,96( 1,96 CR 1,96 )jika diluar batas ini dapat dikatakan data pada indikator tersebut tidak normal. Nilai skewness yang positif mengindikasikan tingginya frekuensi nilai yang ada di sebelah kiri puncak distribusinormal demikian pula sebaliknya sedangkan nilai kurtosis yang negatif menunjukkan distribusi yang landai (varians besar) sedangkan nilai kurtosis yangpositif menunjukkan distribusi data yang memuncak (satu nilai mendominasi). 4. Plot GrupRata-rata vs Varians Plot ini seharusnya tidak menunjukkan adanya korelasi. Nilai rata-rata dan varians yang berasal dari distribusi normal bersifat independen (saling bebas) sehingga plot sampel rata-rata terhadap varians sampel harus menunjukkan tidak ada hubungan. 5. Normal Probabilitas plot Normal probabilitas plot antara nilai residual dengan nilai prediksi atau observasi cukup informatif untuk mengidentifikasi kenormalan. Data dikatakan berdistribusi normal apabila plot data tersebut mengikuti garis normal (garis diagonal), yang dapat dilihat pada gambar 1 berikut:
Gambar 1.Plot Residual Berdistribusi Normal
Berdasarkan gambar1, secara visual terlihat bahwa sebaran data berada di sekitar garis regresi. Hal ini dapat menjadi indikator bahwa asumsi kenormalan terpenuhi.
5
6. Uji Kolmogrov Smirnov Dengan Uji Kolmogorov Smirnov dapat diperiksa apakah sebaran nilai-nilai sampel yang teramati sesuai dengan sebaran normal tertentu. Uji Kolmogorov Smirnov beranggapan bahwa sebaran vaiabel yang diuji bersifat kontinu dan sampel diambil dari populasi acak sederhana. Dengan demikian uji ini hanya dapat digunakan, bila variabel yang diukur paling sedikit dalam skala ordinal.
Terdapat beberapa keuntungan dan kerugian relatif uji kesesuaian Kolmogorov Smirnov yaitu: 1. Data dalam Uji Kolmogorov Smirnov tidak perlu dilakukan kategorisasi. Dengan demikian semua hasil observasi terpakai. 2. Uji Kolmogorov Smirnov bisa dipakai untuk semua ukuran sampel berbeda dengan uji Khi Kuadrat membutuhkan ukuran sampel minimum tertentu. 3. Uji Kolmogorov Smirnov tidak bisa dipakai untuk memperkirakan parameter populasi. 4. Uji Kolmogorov Smirnov memakai asumsi bahwa sebaran populasi bersifat kontinu. Uji Kolmogorov Smirnov dapat diterapkan pada dua keadaan: 1. Menguji apakah suatu sampel mengikuti bentuk sebaran normal. 2. Menguji apakah dua buah sampel berasal dari dua populasi yang sama sebarannya. Hipotesis yang diuji dinyatatakan sebagai berikut: H0: F(x) =Ft(x) untuk semua x atau (data dari populasi normal) H1: F(x) ≠Ft(x) untuk paling sedikit sebuah x atau (data dari populasi tidak normal) F(x) adalah fungsi sebaran kumulatif populasi observasi. Statistik uji Kolmogorov Smirnov merupakan selisih absolut terbesar antara Fs(x) dan Ft(x), yang disebut deviasi maksimum D. Statistik D ditulis sebagai berikut: (2.3)
|()()|; 1,2,…,
Langkah-langkah prinsip uji Kolmogorov Smirnov: 1. Susun frekuensi-frekuensi dari tiap nilai teramati, berurutan dari nilai terkecil sampai nilai terbesar. 2. Susun frekuensi kumulatif dari nilai-nilai teramati itu. 3. Konversikan frekuensi kumulatif itu ke dalam peluang, yaitu ke dalam fungsi sebaran frekuensi kumulatif [Fs(x)]. 4. Hitung nilai z untuk masing-masing nilai teramati dengan rumus . Dengan mengacu kepada tabel sebaran normal baku carilah peluang (luas area) kumulatif untuk setiap nilai teramati. Hasilnya adalah Ft(xi). 5. Susun Fs(x) berdampingan dengan F t(x). Hitung selisih absolut antara Fs(xi) dengan F t(xi) pada masing-masing nilai teramati. 6. Statistik uji Kolmogorov Smirnov adalah D dengan formula pada persamaan (2.3).
( ̅ )/
6
7. Kriteria keputusan: tolak H0 jika D>Dtabel (nilai Tabel Mann-Whitney) pada tingkat signifikansi α. (Modul Diklat BPS, 2012). 7.
Uji Chi-kuadrat Uji chi-kuadrat digunakan jika ukuran sampel (n ≥ 30).Metode Chi-Square atau uji Goodness of fit Distribution Normal menggunakan pendekatan penjumlahan penyimpangan data observasi tiap kelas dengan nilai yang diharapkan. Prosedur pengujian adalah sebagai berikut: 2 a. Rumus X
∑ (− )(2.4)
Keterangan: X 2 = Nilai X 2 Oi = Nilai observasi Ei = Nilai harapan, luasan interval kelas berdasarkan tabel normal dikalikan N (total frekuensi) N = banyaknya angka pada data Komponen penyusun rumus (2.4) didapatkan berdasarkan pada hasil transformasi data distribusi frekuensi yang akan diuji normalitasnya yang prosesnya dapat dilihat pada tabel1. Tabel 1. Langkah-langkah Perhitungan X 2 pada Uji Chi-kuadrat No.
1. 2. dst.
Batas Interval Kelas (Batas Tidak Nyata)
Z=
−
Pi
Oi
Ei = Pi x N
Keterangan: Xi = Batas tidak nyata interval kelas Z = transformasi dari angka batas interval kelas ke notasi pada distribusi normal Pi = Luas proporsi kurva normal tiap interval kelas berdasar t abel normal Oi = nilai observasi Ei = nilai harapan, luasan interval kelas berdasarkan tabel normal di kalikan N b. Persyaratan Data tersusun berkelompok atau dikelompokkan dalam tabel distribusi frekuensi. Cocok untuk data dengan banyaknya angka besar (n > 30). Setiap sel harus terisi, yang kurang dari 5 digabungkan. c. Signifikansi Signifikansi uji, nilai X 2 hitung dibandingkan dengan X 2 tabel (ChiSquare): Jika nilai X 2 hitung kurang dari nilai X 2, maka Ho diterima Jika nilai X 2 hitung besar dari nilai X 2, maka Ho ditolak (Ram dan Sam, 2012) 7
8.
Uji Kenormalan dengan Shapiro Wilk Uji Shapiro-Wilk dirancang khusus untuk mendeteksi kenormalan tanpa melihat rata-rata atau varians dari hipotesis sebaran normal(Modul Diklat BPS, 2012). Uji ini menggunakan data dasar yang belum diolah dalam tabel distribusi frekuensi. Data diurut, kemudian dibagi dalam dua kelompok untuk dikonversi dalam Shapiro Wilk. Dapat juga dilanjutkan transformasi dalam nilai Z untuk dapat dihitung luasan kurva normal. Prosedur analisis menggunakan formula berikut: a. Rumus
3 [∑= ( − + )] ∑=( ) − G = b + c + ln − n
n
(2.5) (2.6) (2.7)
Keterangan: Xi = angka ke-i pada data = rata – rata data = koefisien test Shapiro Wilk ai = angka ke n-i+1 pada data Xn-i+1 = identik dengan nilai Z distribusi normal G bn, cn, dn = Konversi Statistik Shapiro-Wilk pendekatan distribusi normal b. Persyaratan Data berskala interval atau ratio (kuantitatif) Data tunggal/belum dikelompokkan pada tabel distribusi frekuensi Data dari sampel random c. Signifikansi Signifikan dibandingkan dengan tabel Shapiro Wilk. Signifikansi uji 3 nilai dibandingkan dengan tabel Shapiro Wilk, untuk dilihat posisi nilai probabilitasnya (p). Jika nilai p > 5% maka Ho diterima. Jika nilai p < 5% maka Ho ditolak. Dalam Aunudin (2005), menjelaskan prosedur uji Shapiro Wilk dengan tahapan sebagai berikut: a. Nilai sisaan diurutkan dari kecil ke besar b. Hitung b = dengan nilai a i yang diperoleh pada tabel c. Hitung Statistik Whitung = b2 / JK(ei) bandingkan Whitung terhadap nilai kritis W dari tabel (berbeda dengan ujiuji lain, jika nilai Whit< Wtab maka mengindikasikan ketaknormalan data).
∑( )
9.
Uji kenormalan dengan Anderson Darling Uji Anderson Darlingmembutuhkan perhitungan peluang kumulatif normal, perhitungannya tergolong rumit sehingga membutuhkan bantuan komputer. Tahapan uji adalah sebagai berikut: a. Pengurutan nilai sisaan dan menghitung s2 = JK(ei) /db b. Hitung sisaan baku z i= ei/s c. Hitung peluang kumulatif normal Z i = φ(zi) d. Hitung A2 = [-{∑ (2i – 1)(ln (Zi) + ln (1 – Zn-i+1))}/n]-n e. Selanjutnya menghitung B 2 = A2 (1+0.75/n + 2.25/n 2)
8
Bandingkan B 2 hasil perhitungan dengan nilai kritis B2 dalam tabel yang tersedia. Bila nilainya lebih tinggi dari nilai kritisnya maka hipotesis tentang kenormalan data ditolak. 10. Uji Kenormalan dengan Jarque-Berra (JB) Uji Jarque-Bera berdasarkan pada formula berikut:
S 2 ( K 3) 2 JB n 24 6 (2.8) S merupakannilai skewness (kemencengan) dan K kurtosis (keruncingan). Hasil hitung JB dibandingkan dengan tabel Chi Square dengan derajat bebas 2. Besarnya nilai chi square (X2) dengan derajat bebas 2 dan level keyakinan 95% = 7,37 dan untuk keyakinan 99% = 9,21. Jika JB hitung lebih besar dari 9,21, maka data yang diuji tidak normal. Sebaliknya jika nilai JB hitung < 9,21 data termasuk dalam kelas distribusi normal. Jarque-Bera test mempunyai distribusi chi square dengan derajat bebasdua. Jika hasil Jarque-Bera test lebih besar dari nilai chi square pada α=5 persen,maka tolak hipotesis nol yang berarti tidak berdistribusi normal. Jika hasil Jarque-Bera test lebih kecil dari nilai chi square pada α=5 persen, maka terima hipotesisnol yang berarti residual berdistribusi normal. 2.2.4 Dampak Pelanggaran Asumsi Kenormalan Konsekuensi dari data yang tidak menyebar normal adalah akan menyebabkan keputusan yang di bawah dugaan (under estimate) atau diatas dugaan (over estimate) terhadap taraf nyata percobaan yang sudah ditentukan (Kesalahan Jenis I).Meskipun demikian, harus diingat bahwa dalam asumsi analisis ragam (syarat kecukupan model), uji kenormalan merupakan hal yang tidak terlalu penting dibandingkan dengan uji lainnya, asalkan: Ukuran contoh yang besar dan jumlah sampel yang seimbang. Sepanjang seluruh sampel data mempunyai distribusi yang hampir sama dan jumlah sampel sama atau hampir sama dan tidak ada penyimpangan yang ekstrim, tidak diperlukan pengujian kenormalan. 2.2.5Cara Mengatasi Pelanggaran Asumsi Kenormalan Solusi terhadap pelanggaran asumsi ketidaknormalan : a. Usahakan banyaknya ulangan sama untuk setiap perlakuan karena ukuran sampel yang seragam sangat handal terhadap ketidaknormalan b. Periksa outlier, hilangkan apabila point data tersebut tidak representatif atau cek kembali kebenaran data tersebut c. Memangkas nilai-nilai data pengamatan yang paling ekstrim, dengan tujuan untuk mengurangi pengaruh dari skewness dan kurtosis d. Uji nonparametrik e. Transformasi data Banyak metode transformasi yang dapat digunakan diantaranya transformasi logaritma, bentuk akar, bentuk pangkat, transformasi dengan metode BoxCox dan lain-lain. Dalam makalah ini pelanggaran terhadap asumsi kenormalan ditangani dengan Metode Box-Cox. Transformasi Metode BoxCox ini dilakukan dengan memangkatkan peubah respon dengan suatu nila i ,
9
merupakan
suatu parameter yang ditentukan dari data dan dicobakan pada suatu selang nilai tertentu (pada MINITAB 14 selang nilai yang dicobakan antara -5 sampai dengan 5, jika = 0 transformasi berupa log(Y)). Kriteria yang digunakan untuk menentukan nilai yang optimal adalah nilai yang meminimumkan jumlah kuadrat galat regresi dari data respon yang telah ditransformasi tersebut.
BAB III 10
CONTOH PENERAPAN ASUMSI KENORMALAN 3.1 Data Data yang akan dibahas dalam makalah ini adalah data tentang pengaruh iklan koran (X1) yang menyatakan iklan di koran (juta rupiah/bulan) dan jumlah outlet (X2) yang menyatakan jumlah outlet perusahaan untuk setiap daerah seperti di pasar, supermarket dan mall terhadap sales (Y) yang merupakan tingkat penjualan roti semua rasa (unit/bulan). Data terdiri dari 30 pengamatan yang diperoleh dari hasil melalui situs download staff.uny.ac.id/sites/default/files/handout Analisis Regresi.pdf, yang sudah dimodifikasi. Data dapat dilihat pada lampiran 1. 3.2. Perangkat Lunak Data diolah dengan menggunakan perangkat lunak Minitab versi 16. 3.3. Analisis Regresi Linier Dari hasil pengolahan data (output dapat dilihat pada lampiran 2) diperoleh model dugaan sebagai berikut: = 360 + 7,55 X1 - 23,2 X2 (3.1) Setelah memperoleh dugaan model regresi pada persamaan (3.1), selanjutnya dilakukan pengujian terhadap model (3.1) secara keseluruhan (Uji F) dengan Hipotesis:
̂
H0 : H1 :
( 0) ( ≠ 0) >
Output Minitab menunjukkan hasil pengujian yang tidak signifikan, dengan nilai p-value=0.078,R 2 = 17,2% (nilai R 2 kecil karena tidak semua variabel bebas dimasukkan ke dalam model) dan MSE = 14860.Oleh karena nilai p-value lebih besar dari 5%artinyamenerima H0sehingga dapat dikatakan bahwamodel regresi tidak dapat menjelaskan keragaman sales (Y). Selanjutnya dilakukan uji t untuk melihat pengaruh masing-masing variabel bebas secara parsial, terlihat dari output Minitab bahwa kedua variabel: iklan koran (X1) dan jumlah outlet (X2) tidak berpengaruh signifikan terhadap sales (Y), hal ini terlihat dari nilai p-value untuk masing-masing pengujian yaitu 0.055 dan 0.120, kedua nilai ini lebih besar dari 5%. Berdasarkan hasil analisis regresi tersebut di atas dilakukan pemeriksaan terhadap asumsi model regresi linier, dalam hal ini hanya dilakukan pemeriksaan terhadap asumsi kenormalan. 3.4. Uji Kenormalan Untuk memeriksa kenormalan sisaan dari model (3.1) dilakukan beberapa cara berikut: 1.
Histogram Histogram dari sisaan dapat dilihat dari gambar 2 berikut:
11
Histogram of RESIDUAL Normal Mean StDev N
10
-2,53901E-13 117,6 30
8 y c n e u q e r F
6
4
2
0 -200
-100
0 RESIDUAL
100
200
Gambar 2. Histogramsisaan (Residual)
Dari gambar 2 terlihat bahwa sisaan tidak mengikuti distribusi normal. 2.
Box Plot Box Plot dari sisaan dapat dilihat dari gambar 3 berikut: Boxplot of RESIDUAL
200
100 L A U D I S E R
0
-100
-200
Gambar 3.Boxplot sisaan
Dari gambar 3 terlihat bentuk histogram sisaan tidak simetris sehingga dapat dikatakan bahwa sisaan tidak berdistribusi normal. 3.
Koefisien Kemiringan ( skewness) dan keruncingan ( K urtosis ) Output Minitab untuk nilai skewness dan kurtosis sisaan dapat dilihat pada tabel 2 berikut: Tabel 2. Nilai Skewness dan Kurtosis Sisaan Descriptive Statistics: RESIDUAL Variable RESIDUAL
Skewness 0,63
Kurtosis -0,59
12
Nilai skewness dan Kurtosis yang terdapat pada tabel 2 digunakan untuk menghitung nilai kritis skewness dan kurtosis dengan formula:
, untuk Z √
Kurtosis formulanya
juga sama, dengan formula
tersebut diperoleh ZSkewness=1.409, dan Z Kurtosis=-1.319, kedua nilai ini berada di dalam selang CR yaitu pada tingkat signifikansi 5% ,( 1,96 CR 1,96 ) sehinggaberdasarkan nilai-nilai inidapat dikatakan data pada indikator normal. 4.
P Plot P Plot dari sisaan dapat dilihat dari gambar 4 berikut: Probability Plot of RESIDUAL Normal - 95% CI 99 Mean StDev N AD P -Valu e
95 90
-2,53901E-13 117,6 30 0,966 0,013
80 70
t n 60 e c 50 r e 40 P
30 20 10 5
1
-400
-300
-200
-100
0 100 RESIDUAL
200
300
400
Gambar 4.P Plot sisaan
Dari gambar 4 terlihat sisaan tidak mengikuti pola garis normal dan nilai pvaluenya kurang dari 0.05, sehingga dapat disimpulkan bahwa sisaan tidak berdistribusi normal. 5.
Uji Normalitas dengan Kolmogorov Smirnov Hipotesis: H0 : Data berdistribusi normal H1 : Data tidak berdistribusi normal Output Minitab dari Uji Kolmogorov Smirnov dapat dilihat pada gambar 5.
13
Probability Plot of RESIDUAL Normal 99 Mean StDev N KS P-Value
95 90
-2,53901E-13 117,6 30 0,172 0,032
80 70
t n 60 e c 50 r e 40 P
30 20 10 5
1
-300
-200
-100
0 RESIDUAL
100
200
300
Gambar 5.Plot Uji Kolmogorov Smirnov
Dari gambar 5 terlihat sisaan tidak mengikuti pola garis normal dan nilai pvaluenya kurang dari 0.05, sehingga dapat disimpulkan bahwa sisaan tidak berdistribusi normal. 6.
Uji normalitas dengan Shapiro-Wilk Hipotesis: H0 : Data berdistribusi normal H1 : Data tidak berdistribusi normal Output Minitab dari Uji Shapiro-Wilk dapat dilihat pada gambar 6. Probability Plot of RESIDUAL Normal 99 Mean StDev N RJ P -Valu e
95 90
-2,53901E-13 117,6 30 0,963 0,047
80 70
t n 60 e c 50 r e 40 P
30 20 10 5
1
-300
-200
-100
0 RESIDUAL
100
200
300
Gambar 6.Plot Uji Shapiro-Wilk
Dari gambar 6 terlihat sisaan tidak mengikuti pola garis normal dan nilai pvaluenya kurang dari 0.05, sehingga dapat disimpulkan bahwa sisaan tidak berdistribusi normal.
14
7.
Uji normalitas dengan Anderson Darling Hipotesis: H0 : Data berdistribusi normal H1 : Data tidak berdistribusi normal Output Minitab dari Uji Anderson Darlingdapat dilihat pada gambar 7. Probability Plot of RESIDUAL Normal 99 Mean StDev N AD P-Valu e
95 90
-2,53901E-13 117,6 30 0,966 0,013
80 70
t n 60 e c 50 r e 40 P
30 20 10 5
1
-300
-200
-100
0 RESIDUAL
100
200
300
Gambar 7.Plot Uji Anderson Darling
Dari gambar 7 terlihat sisaan tidak mengikuti pola garis normal dan nilai pvaluenya kurang dari 0.05, sehingga dapat disimpulkan bahwa sisaan tidak berdistribusi normal. 8.
Uji normalitas dengan Jarque-Bera Langkah-langkah uji normalitas Jarque-Bera: a. Dari tabel 2 telah diperoleh nilai skewness = 0.63 dan kurtosis = -0.59 b. Nilai skewness dan kurtosis tersebut akan digunakan untuk memperoleh nilai statistik hitung normalitas Jarque Bera, yaitu dengan perhitungan sebagai berikut:
Nilai JB = n
.63 (−.59−3) =18.095 karena nilai JB 6 (−3) = 30 4 6 4
lebih besar dari 7.37 yang merupakan nilai kritis tabel Chi Square dengan taraf nyata α = 5 % maka dapat disimpulkan bahwa residual dari data yang diuji tidak mengikuti sebaran normal. Dari beberapa prosedur pengujian diatas secara umum dapat disimpulkan bahwa sisaan/residual dari data tidak berdistribusi normal atau terjadi pelanggaran asumsi kenormalan sehingga akan berpengaruh terhadap uji F dan Uji t. 3.5. Analisis Regresi Linier dengan Sisaan Berdistribusi Normal Pada pembahasan 3.4 telah diketahui terdapat pelanggaran asumsi kenormalan dalam analisis regresi. Oleh karena itu dilakukan penanganan terhadap pelanggaran asumsi tersebut, dalam kasus ini penanganan dilakukan dengan cara transformasi Box Cox. Dari hasil pengolahan data setelah ditransformasi diperoleh model dugaan sebagai berikut:
15
̂∗= 5,72 + 0,0212 X1 – 0,0514 X2
(3.2) Setelah memperoleh dugaan model regresi pada persamaan (3.2), selanjutnya dilakukan pengujian terhadap model (3.2) secara keseluruhan (Uji F) dengan Hipotesis: H0 : H1 : Output Minitab menunjukkan hasil pengujian yang tidak signifikan, dengan nilai p-value=0.063, R 2 = 18,5% dan MSE = 0,092457. Nilai-nilai ini sudah lebih baik dibandingkan dengan nilai pada model 3.1 (model dengan pelanggaran asumsi kenormalan) yaitu p-value=0,078,R 2 = 17,2% dan MSE = 14860, walaupun masih dihasilkan kesimpulan yang sama yaitu bahwa model regresi tidak dapat menjelaskan keragaman sales (Y*). Selanjutnya dilakukan uji t yaitu uji untuk melihat pengaruh masingmasing variabel bebas secara parsial yaitu terlihat dari output Minitab bahwa variabel iklan koran (X1) memberikan pengaruh yang signifikan terhadap Sales (Y*) dengan nilai P-value = 0.032 dimana pada pembahasan 3.3 variabel X 1 tidak signifikan. Sedangkan variabel outlet (X2) masih tidak berpengaruh signifikan terhadap sales (Y*).
( 0) ( ≠ 0) >
3.6. Uji Kenormalan Sisaan terhadap Data setelah Transformasi Cara pemeriksaan asumsi kenormalan sama dengan pembahasan pada bagian 3.4 dengan hasil secara ringkas dapat dilihat pada tabel 3dan output Minitab secara rinci pada lampiran 6. Tabel 3.Rekapitulasi Pemeriksaan Kenormalan Data setelah Transformasi
1. 2. 3.
Prosedur Pemeriksaan Asumsi Kenormalan Histogram Box Plot Skewness dan Kurtosis
4.
P Plot
5.
Uji Kolmogorov Smirnov
6.
Uji Shapiro Wilk
7.
Uji Anderson Darling
8.
Uji Jarque Bera
No.
Hasil
Berbentuk tidak setimbang Berbentuk tidak simetris Skewess = 0.35 dan Kurtosis = -0.59 ZSkewness=0.783, dan ZKurtosis=-1.319 Nilai ZSkewness dan ZKurtosis Berada dalam selang CR( berarti sisaan berdistribusi normal) P-value 0.220 > 5% ( berarti sisaan berdistribusi normal) P-value 0.150 > 5% ( berarti sisaan berdistribusi normal) P-value 0.100 > 5% ( berarti sisaan berdistribusi normal) P-value 0.220 > 5% ( berarti sisaan berdistribusi normal) JB = 16.723> 7.37 (berarti sisaan tidak berdistribusi normal)
Dari tabel 3 tersebut secara umum dapat disimpulkan bahwa sisaan/residual dari data setelah transformasi telah mengikuti distribusi normalsehingga uji F dan Uji t dapat dilakukan.
16
BAB IV PENUTUP Asumsikenormalan merupakan salah satu asumsi yang dibutuhkan sebagai prasyarat untuk melakukan analisis data, banyak metode analisis yang mensyaratkan data harus mengikuti sebaran normal diantaranya analisis regresi. Dalam analisis regresi asumsi kenormalan berkaitan dengan pengujian terhadap parameter regresi yaitu uji F dan uji t, jika asumsi kenormalan tidak dipenuhi maka pengujian tersebut tidak dapat dilakukan. Terdapat berbagai teknik pemeriksaankenormalan suatu data yang telah dikembangkan oleh para ahli dan juga terdapat banyak alat bantu berupa program statistik yang bisa digunakan. Pemeriksaan terhadap Kenormalan dilakukan dengan berbagai cara diantaranyadengan histogram, box plot, Skewness dan kurtosis, P Plot, uji Kolmogorov-Smirnov, uji Chi Kuadrat, uji Shapiro Wilk, uji Andeson Darling dan Uji Jarque Bera. Berbagai prosedur pemeriksaan tersebut dapat dilakukan dengan bantuan software Minitab. Dari prosedur-prosedur pemeriksaan terhadap asumsi kenormalan tersebut, tidak dapat dipastikan tentang prosedur pemeriksaan ataupun pengujian yang paling baik, karena masing-masing teknik yang digunakan tergantung kepada kebutuhan dan jenis data digunakan.
17
DAFTAR PUSTAKA Aunuddin. 2005. Statistika: Rancangan dan analisis Data. IPBPRESS: Bogor. Badan Pusat Statistik. 2012. Modul Diklat: Fungsional Statistisi Tingkat Ahli. Pusat Pendidikan dan Pelatihan BPS. Gujarati dan Zain, 1997. Ekonometrika Dasar. Erlangga: Jakarta. Irwan Thaha. 2012. Makalah: Asumsi Kenormalan. Sekolah Pascasarjana Departemen Statistika IPB Bogor. Juanda, B., 2009. Ekonometrika Pemodelan dan Pendugaan. IPBPRESS: Bogor. Nurgiyantoro, Burhan, dkk. 2009. Statistika Terapan Untuk Penelitian Ilmu-Ilmu Sosial . Gajah Mada University Press :Yogyakarta. Walpole R. dan Myers R., 1986. Ilmu Peluang dan Statistika untuk Insinyur dan Ilmuwan. ITB, Bandung. Staff.uny.ac.id/sites/default/files/Handout Analisis Regresi.pdf http://smartstat.wordpress.com/2010/03/09/asumsi-asumsi-anova-satu-faktor/ https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&cad=rj a&ved=0CDoQFjAC&url=http%3A%2F%2Fkk.mercubuana.ac.id%2Ffil es%2F99020-12659054692896.doc&ei=OdZiUayNJ4XZrQeUnoGYBw&usg=AFQjCN EUa70pbUkTtHOClrpwtJ4w9qs_pg&sig2=MbLGBVcZCrHRSoSLsLH q4A&bvm=bv.44770516,d.bmk http://tonyteaching.wordpress.com/2010/11/15/memperbaiki-normalitas-dengantransformation-data/
18
Lampiran 1. Data Y 500,34 450,24 600,45 551,23 650,34 700,7 560,4 366,25 451,29 430,22 265,99 254,26 352,16 365,21 295,15 354,25 415,25 400,23 423,22 452,62 512,33 435,23 302,21 330,92 254,25 265,21 215,36 235,26 222,32 323,45
X1 26,23 25,12 29,8 34,55 33,45 32,6 23,45 34,76 40,12 36,21 25,89 22,98 36,25 36,87 22,41 26,25 36,99 32,79 33,98 23,21 14,98 35,99 25 23,25 24,86 26,23 20,98 24,88 25,87 28,94
X2
7 8 8 9 6 5 8 9 8 10 11 10 9 8 5 6 8 9 7 5 8 8 9 8 6 5 7 9 8 9
19
Lampiran 2. Output Minitab Analisis Regresi Linier Regression Analysis: Y versus X1; X2 The regression equation is Y = 360 + 7,55 X1 - 23,2 X2
Predictor Constant X1 X2
S = 121,903
Coef 360,3 7,555 -23,21
SE Coef 143,1 3,766 14,47
R-Sq = 17,2%
T 2,52 2,01 -1,60
P 0,018 0,055 0,120
R-Sq(adj) = 11,1%
Analysis of Variance Source Regression Residual Error Total
DF 2 27 29
SS 83374 401228 484601
MS 41687 14860
F 2,81
P 0,078
20
Lampiran 3.Langkah-langkah Pemeriksaan Asumsi Kenormalan Menggunakan Minitab A. Histogram a. Pilih Graphs Histogram b. Pilih With Fit
c. Pilih OK d. Pilih Data select Residual sehingga Residual berada pada kotak GraphVariable e. Pilih OK B. Box Plot a. Pilih Graph boxplot b. Muncul kotak dialog berikut:
c. d. e. f.
Pilih simple OK Select Residual, sehingga Residual berada di kotak Graph variables OK
21
C. Skewness dan Kurtosis a. Pilih stat basic statistics b. Pilih Display Descriptive Statistics c. Select Residual sehingga Residual berada pada kotak Variables d. Klik Statistics, Muncul kotak dialog berikut:
e. Checklist pada skewness dan kurtosis f. OK g. OK D. P Plot a. Pilih Graphs → Probability Plot → OK
b. Pilih Residual sehingga residual berada pada kotak Graph Variable c. OK E. Uji Kolmogorov Smirnov, Shapiro Wilk dan Anderson Darling
a. Pilih Stat → basic Statistics → Normality test b. PindahkanResidual ke kotak variable c. 1. Untuk Uji Kolmogorov Smirnov Pada Test for normality Pilih Kolmogorov Smirnov 2. Untuk Uji Shapiro Wilk Pada Test for normality Pilih
22
similar to Shapiro Wilk 3. Untuk Uji Anderson Darling Pada Test for normality Pilih Anderson Darling
d. OK
23
Lampiran 4.Data Hasil Transformasi menggunakan metode Box Cox Y* 6,21529 6,10978 6,39768 6,31215 6,47750 6,55208 6,32865 5,90332 6,11211 6,06430 5,58346 5,53836 5,86409 5,90047 5,68748 5,87000 6,02888 5,99204 6,04789 6,11505 6,23897 6,07587 5,71112 5,80188 5,53832 5,58052 5,37231 5,46069 5,40412 5,77904
X1 26,23 25,12 29,8 34,55 33,45 32,6 23,45 34,76 40,12 36,21 25,89 22,98 36,25 36,87 22,41 26,25 36,99 32,79 33,98 23,21 14,98 35,99 25 23,25 24,86 26,23 20,98 24,88 25,87 28,94
X2
7 8 8 9 6 5 8 9 8 10 11 10 9 8 5 6 8 9 7 5 8 8 9 8 6 5 7 9 8 9
24
Lampiran 5.Output Minitab Analisis Regresi Linier terhadap Data Hasil Transformasi Regression Analysis: Y* versus X1; X2 The regression equation is Y* = 5,72 + 0,0212 X1 - 0,0514 X2
Predictor Constant X1 X2
Coef 5,7243 0,021182 -0,05144
S = 0,304088
SE Coef 0,3569 0,009393 0,03611
R-Sq = 18,5%
T 16,04 2,26 -1,42
P 0,000 0,032 0,166
R-Sq(adj) = 12,5%
Analysis of Variance Source Regression Residual Error Total
DF 2 27 29
SS 0,56857 2,49668 3,06525
MS 0,28428 0,09247
F 3,07
P 0,063
25
Lampiran 6.Output Minitab Pemeriksaan Kenormalan Data setelah Transformasi A. Histogram Histogram of RESIDUAL* Normal Mean StDev N
7
-3,10862E-15 0,2934 30
6 5 y c n e u q e r F
4 3 2 1 0 -0,6
-0,4
-0,2
0,0 0,2 RESIDUAL*
0,4
0,6
B. Box Plot Boxplot of RESIDUAL* 0,75
0,50
* L A U D I S E R
0,25
0,00
-0,25
-0,50
C. Skewness dan Kurtosis Descriptive Statistics: RESIDUAL* Variable RESIDUAL*
Skewness 0,35
Kurtosis -0,59
D. P Plot
26
Probability Plot of RESIDUAL* Normal - 95% CI 99
95 90
Mean StDev N AD P-Value
-3,10862E-15 0,2934 30 0,477 0,220
Mean StDev N KS P-Value
-3,10862E-15 0,2934 30 0,132 >0,150
80 70
t n 60 e c 50 r e 40 P
30 20 10 5
1
-1,0
-0,5
0,0 RESIDUAL*
0,5
1,0
E. Uji Kolmogorov Smirnov
Probability Plot of RESIDUAL* Normal 99
95 90 80 70
t n 60 e c 50 r e 40 P
30 20 10 5
1
-0,8
F.
-0,6
-0,4
-0,2 0,0 0,2 RESIDUAL*
0,4
0,6
0,8
Uji Shapiro Wilk
27
Probability Plot of RESIDUAL* Normal 99 Mean StDev N RJ P -Valu e
95 90
-3,10862E-15 0,2934 30 0,982 >0,100
80 70
t n 60 e c 50 r e 40 P
30 20 10 5
1
-0,8
-0,6
-0,4
-0,2 0,0 0,2 RESIDUAL*
0,4
0,6
0,8
G. Uji Anderson Darling Probability Plot of RESIDUAL* Normal 99 Mean StDev N AD P-Value
95 90
-3,10862E-15 0,2934 30 0,477 0,220
80 70 t n 60 e c 50 r e 40 P 30 20 10 5
1
-0,8
-0,6
-0,4
-0,2 0,0 0,2 RESIDUAL*
0,4
0,6
0,8
28