ANALISIS REGRESI Materi 1. Pendah Pendahulu uluan an :Pen :Penger gertia tian n regre regresi: si: 1.1. Pengertian regresi, regresi linier sederhana dan regresi liner berganda
serta bentuk-bentuk yang lain 1.2.
Taksiran parameter regresi (Metode Least Square), pengujian
parameter 1.3. Koefisien determinasi
1.4.
Asumsi model
1.5. Langkah-langkah dalam pemodelan 1.6. Persoalan yang sering dihadapi dalam pemodelan regresi
2. Peng Penguj ujia ian n asu asums msii 3. Regr Regres esii Lini Linier er Sed Seder erha hana na 3.1. Cara pembuatan model regresi linier sederhana 3.2. Pengujian
parameter regresi
3.3. Pengujian
asumsi
4. Regr Regres esii Lini Linier er Ber Berga gand nda a 4.1. Cara pembuatan model regresi linier sederhana 4.2. Pengujian
parameter regresi
4.3. Pengujian
asumsi
5. Pemi Pemililihan han mod model el ter terba baik ik 5.1. Best subset regression 5.2. Metode stepwise dan Backward
I.
PENDAHULUAN
PENGERTIAN REGRESI 1.1.Pengertian regresi, regresi linier sederhana dan regresi liner berganda serta bentuk-bentuk yang lain
Digunakan untuk memodelkan hubungan antara variable respons (yang dipengaruhi) dan variable predictor (yang mempengaruhi) 1. REGR REGRES ESII LINIE LINIER R SEDER SEDERHA HANA NA Y = β 0 + β 1 X + ε
2. REGRESI LINIER BERGANDA Y = β 0 + β 1 X 1 β 1 + β 2 X 2 + β 3 X 3 + ......... β k X k + ε
LINIER DALAM PARAMETER
KETERANGAN: βi : parameter regresi
ε : error Y : variabel respons X: variabel predictor 3. CONTOH REGRESI LINIER YANG LAIN: Y =
β 0 + β 1 X 21 β 1 + β 2 X 2 2 + β 3 X 2 3 + .........β k X 2 k + ε
Y = e
β 0 + β 1 X +ε
(Dikatagorikan sebagai model regresi linier karena dapat dilinierkan melalui transformasi), Misalnya: Zi = Xi2 Y = β 0 + β 1 Z 1 β 1 + β 2 Z 2 + β 3 Z 3 + ......... β k Z k + ε ln Y = β 0 + β 1 X + ε
Y’ = ln Y
Y ' = β 0 + β 1 X + ε
Tujuan utama: menemukan model yang paling sesuai βi???????
1.2.Taksiran parameter regresi (Metode Least Square), pengujian parameter
Contoh data 1: Diduga ada hubungan linier antara variabel X dan variabel Y, dimana Y dapat dinyatakan sebagai fungsi dari X: Y = f(x) = β 0 + β1 x + ε
9 8
obs X Y
1 1.5 3
2 3 4 5 6 7 1.7 2 2.2 2.5 2.5 2.7 2.5 3.5 3 3.1 3.6 3.2 Y
8 2.9 3.9
7 6 5
Y 4 3 2 1 0 0
2
4
6
8
10
9 10 11 12 13 14 3 3.5 3.8 4.2 4.3 4.6 4 4 4.2 4.1 4.8 4.2
Y = f(x) = β 0 + β1 x + ε Berapa taksiran β 0 dan β1 β1????
b0 dan b1
CONTOH DATA
Untuk mendapatkan mendapatkan taksiran dari β0 dan dan β1, digunakan Metode maximum Likelihood Estima Estimator tor (MLE) (MLE) dimana dimana metode metode ini secara secara prinsi prinsip p adalah adalah memini meminimum mumkan kan jumlah jumlah 2 kuadrat kesalahan Σε i (εi= Y- (β0 + β1 xi). Pengujian parameter dilakukan untuk mengetahui apakah parameter tersebut secara significant berbeda dengan nol atau tidak , artinya apakah memang variabel predikt prediktor or X berpen berpengar garuh uh terhadap terhadap variabe variabell respon respon Y dengan dengan besaran besaran β1. Hipotesis dalam pengujian ini adalah : H0: β1 = 0 H1: β1 ≠ 0 Jika H0 diterima artinya memang X tidak berpengaruh terhadap variabel respon Y secara linier. 1.3.
Koefisien determinasi dan Asumsi Model Regresi Koefisien Determinasi
Koefis Koefisien ien determ determina inasi, si, disiim disiimbol bolkan kan dengan dengan R2 adal adalah ah sebu sebuah ah besa besara ran n yang yang 2 menguk mengukur ur ketepat ketepatan an garis garis regresi. regresi. Nilai Nilai R ini menunjukkan menunjukkan prosentase prosentase besarnya besarnya variabilitas dalam data yang dijelaskan oleh model regresi. Maksimum nilai R 2 adalah 100% dan mnimal 0. Jika nilai R 2=100%, misalnya untuk regresi linier sederhana semua titik data akan menempel ke garis regresi, semakin kecil R 2 maka data makin menyebar jauh dari garis. Oleh karena itu jika R2 kecil maka keeratan hubungan antara X dan Y lemah dan jika R 2=0 menunjukkan bahwa X tidak memiliki hubungan dengan Y. 2 ∑(Y i −Y )
(
ˆ − Y = ∑ Y i
)
2
JUMLAH KUADRAT SEKITAR MEAN
JUMLAH KUADRAT KRN REGRESI JUMLAH KUADRAT TOTAL Y TERKOREKSI
(
ˆ + ∑ Y i − Y i
)
2
JUMLAH KUADRAT SEKITAR REGRESI
Artinya diantara keragaman y disekitar nilai tengah (mean), sebagian keragaman itu ˆ )2 menunjukkan bahwa berasal dari garis regresi dan sebagian lainnya, ∑(Y i −Y i amatan – amatan itu tidak seluruhnya terletak pada garis regresi. Untuk men Untuk mengev gevalu aluasi asi bai baikk tid tidakn aknya ya gar garis is reg regres resii seb sebaga agaii pera peramal mal dap dapat at dil diliha ihatt dar darii berapa banyak variasi disekitar nilai mean terurai (dijelaskan) oleh variasi karena regresi dan variasi di sekitar regresi. Atau: R2 =
VARIASI VARIASI
KARENA REGRESI
DI SEKITAR MEAN(TOTAL
)
Asumsi Model Regresi
Asum Asumsi si mode modell regr regres esii dika dikaititka kan n deng dengan an peng penguj ujia ian n para parame mete terr mode modell dima dimana na peng penguj ujia ian n dika dikata taka kan n sahi sahih h jika jika asum asumsi si mode modell regr regres esii dipe dipenu nuhi hi.. Asum Asumsi si ters terseb ebut ut menyangkut sifat dari distribusi residual (ε i), yaitu: εi ~ IIDN (0, σ 2) Artinya residual harus menyebar disekitar 0, memiliki varians konstan (identik) dan independen (tidak berkorelasi satu sama lain). Salah satu syarat untuk mencapai ini adalah pengamatan antar Yi tidak berkorelasi, misalnya tidak bersifat time series. Berkaitan dengan metode penaksiran (MLE), maka untuk regresi linier berganda dibutuhkan kondisi bahwa antar variabel X tidak saling berkorelasi (independent). 1.4. 1.4.
Lang Langka kahh-la lang ngka kah h dal dalam am pemo pemode dela lan n D efin inisik ikan m asa lahnyapil ilih respo nnya T entukanv nvariabelvarib ibelnya
K um pulkand ndata. P erik iksam utud udata tebaran. C oba m odeln lnya
A pakahvaria iabe lvaria iab el itu pentin ingd gdan tersedia
K onsu ltasikan pad apaka runtuk m endapatk tkan krit itik ik&kom entar
A paka hparam eter stabil dalamruang sam peln lnya A pakahm hm odel sud ahd hdivalidasi ? Tidak
Tidak
Stop
Ya
A pak aha hada ketid idak pastia ian m odel ?
Ya Ya
B uatdis istri ribusi varia iabel-varia iab el. Tentukanv nvaria iabelvaria iabel ba ruy uyan g dapatm enjelaskan sisaan
M atri rikskorela lasi regresipertta am a
T entukant ntuju juan galatbaku,R T aksir biayanya
A pakahtu tujuan danbiayad adap at diterim im a? Tidak
2
Ya
Peubah ditra ran sform asi, bila perlu, dantte entukan persam aan regresinya
A pak ahs hsas aran tercapai?
Stop Tidak
Tidak
A pak ahk hkoe fis isienkoe fis isienny aw ajar? A paka h pers rsam aannya m asuka kakal? A paka hpersam aan dap atdig iguna kan? n? Tid idak
P em eliharaan m odel
Ya
II.
PENGUJIAN ASUMSI
Asumsi residual: , i= 1,2,3,…..n.
E ( ε i )
Varians ( ε i ) = σ 2
Tidak ada autokorelasi antar error; ε i dan ε j tidak berkorelasi, i ≠ j sehingga cov (εi, ε j) = 0
Tidak ada kolinieritas ganda (multikolinieritas) antar variabel independen.
, artinya kesalahan error mengikuti distribusi normal dengan rata-rata nol dan varians σ 2. ε i
=
0
homoskedastisitas ( identik ).
≈ N ( 0, σ
2
Dalam bentuk gambar diilustrasikan sbb : ( β
N
0
+ β 1 X , σ 2
)
Y1 Y 1
GRSYGS GSEBENARNYA
β 0 ÷ β 1 X
X 1
X 2
. ..........
X
X n
2.1. Pengujian Asumsi Residual SECARA GRAFIK
1. Ov Over er All All Plot Plot
-5
0
5
10
Jika model benar residual akan beristribusi normal dengan mean nol 2. Menyus Menyusun un norma normall plot plot / half half norma normall plot. plot.
•
Jika jumlah data residual sangat banyak dengan cara membuat histogram
0
3. Plot εi melawan
over all plot dapat dibuat
0
ˆ atau Xi
Y I
Bentuk-bentuk yang mengkin terjadi: •
i
VARIASI TIDAK KONSTAN SEIRING SEIRING DENGAN DENGAN MEMBESARMEMBESARNYA Yi WEIGHT WEIGHTED ED LEAST LEAST SQUARE.
ˆ Y i
•
ADA SUATU POLA TERTENTU, MIS : ε i UNTUK Ŷi TERTENTU NEG, DIATAS NILAI Ŷ i TSB CENDERUNG POS MUNGKIN TERJADI KRN β0 DIHILANGKAN. ˆ Y i
i
i
X 1i
MODEL TIDAK SESUAI BUTUH PENYESUAIAN DENGAN MELAKUKAN TRANSFORMASI
X 2i
5. The Time Sequence Plot 10
5
5
0
10
15
20
T IM EO R D E R
×
-5
×
ˆ Y i
×
X j
Bentuk yang diinginkan i
RANDOM, MEMBENTUK CONFIDENCE BAND
.
ˆ Y i
2.2. Melalui Pengujian 1. UJI KENORMALAN ∑ ei = 0 e = n
ei S ei S
=
the unit normal deviate from of the residual
i
= dapat digunakan untuk melihat apakah asumsi
ε i σ
~ N (0 , 1) dipenuhi
95 % dari distribusi N (0,1) berada pada limit (-1,96 , 1.96) ~ (-2,2) Jika (n–p) terlalu kecil, maka dapat digunakan pendekatan distribusi t
n-p.
III. III. REGR REGRES ESII LINI LINIER ER SEDE SEDERH RHAN ANA A 3.1. 3.1.
Cara Cara pemb pembua uatan tan model model reg regres resii lini linier er sed sederh erhana ana Postulate Model Y = f(x) = β 0 + β1 x + ε
Bermacam-macam bentuk model regresi linier
β0=0 β 0
β1=0 β 0
1. Taksiran β 0 , β 1
METODE LEAST SQUARE (meminimkan jumlah kuadrat
error)
ˆ Y
Model Taksiran :
= bo + b1 X
bo dan b1 adalah taksiran dari β 0 , β 1
Y 9
b0
8
=
Y − b1 X
7 6
n
5
∑ X i Y i − n X Y
Y
4 3
b1 =
2 1 0 0
2
4
6
8
10
i =1 n
∑ X i
2
i =1
3.2.
Pengujian parameter
Tujuan : Menguji pengaruh X terhadap Y Gunakan Tabel Anova Langkah-langkah menggunakan minitab : Contoh :
Lihat data produksi produksi (Lampiran 2) Stat>Regressión>Regresión
− n X 2
Dialog Box items: Response:: memilih kolom yang berisi variabel Y (respon) Response Predictors:memilih Predictors :memilih kolom yangberisi variabel X (prediktor)
Model Regresi yang terbentuk : The regression equation is PRODUKSI = - 7863 + 0.273 BAHAN BAKU Predictor Constant BAHAN BA
S = 6143
Coef -7863 0.27307
StDev 5828 0.01376
R-Sq = 95.2%
T -1.35 19.84
P 0.192 0.000
R-Sq(adj) = 94.9%
Analysis of Variance Source Regression Error Total
DF SS MS 1 14851467624 14851467624 20 754744349 37737217 21 15606211973
Unusual Observations Obs BAHAN BA PRODUKSI Fit 17 513469 146650 132348
StDev Fit 1909
F 393.55
Residual 14302
P 0.000
St Resid 2.45R
R denotes an observation with a large standardized residual
3.3 3.3.
Pengujia jian Residual Sebelum dilakukan pengujian residual terlebih dahulu menyimpan residual dan nilai dugaan dalam kolom baru. Stat>Regression>Regression>Storage Dialog Box Items: Diagnostics Measures Residual : Pilih untuk menyimpan residual Standard residual : Pilih untuk menyimpan residual yang sudah distandarisasi Deleted t residual: Pilih untuk menyimpan Residual Studendized
Hi (leverages): Pilih untuk menyimpan leverages Cook’sdistances: Pilih untuk menyimpan cook’s distances DFITS : Pilih untuk menyimpan DFITS Karakteristik estimasi persamaan: persamaan: Coeffficients : Pilih untuk menyimpan koefisien dari persamaan regresi Fits : Pilih untuk menyimpan nilai dugaan MSE : Pilih untuk menyimpan mean square error (Hal ini juga digambarkan dalam tabel analisis varians, dibawah MS) catatan bahwa akar kuadrat MSE sama dengan s yang juga diikutkan dalam output. X’X inverse: inverse: Pilih untuk menyimpan menyimpan inverse dari X’X. Matrik ini bila bila dikalikan dengan MSE adalah matrik matrik varians covarians dari koefisien. Jika anda melakukan weigthted regression (lihat options) kemudian pilihan ini disimpan dalam invers matriks X’WX. (lihat juga Stored Regressions Reg ressions Matrices) R matrix: matrix: Pilih untuk menyimpan matrik R dari QR atau Cholesky decomposition, lihat Stored Regressions Matrices
Stat>Regression>Regression>Residual Plot menampilkan plot residual untuk mengecek kesesuaian model. Dialog Box Items : Residual for Plots: Plots: anda dapat menentukan tipe residual plot yang mau ditampilkan. Regular :Pilih Regular :Pilih plot biasa atau residual baris Standardized : Pilih plot untuk residual yang sudah distandarisasi Deleted : Pilih plot untuk rediual studendized yang dihapu s Residual Plots Histogram of Residual: Residual: pilih untuk menampilkan residual dalam bentuk histogram Normal plot of residuals : pilih untuk menampilkan plot probabilitas normal untuk residual Residual versus fits: fits: Pilih plot residual versus nilai dugaan (Y^) Residual versus order : Pilih plot residual residual versus urutqan data. Jumlah baris untuk setiap titik data ditunjukkan dengan sumbu X contohnya: 1, 2, 3,…,n
Residual versus variabel: variabel: Pilih untuk plot residual versus variable yang dipilih, kemudian pilih kolom yang berisi variable variable ini. Minitab menmpilkan paragraph yang terpisah untuk setiap kolom yang anda enter didalam kotak dialog
Residual Model Diagnostics I Chart of Residuals
Normal Plot of Residuals
1 3.0SL=13103
10000 l a u d i s 0 e R
l 10000 a u d i 0 s e R
X=0.000
-10000
-10000
-3.0SL=-13103
-2
-1
0
1
2
0
Normal Score
20
Observation Number
Histogram of Residuals 8 7 y c6 n5 e u4 q e3 r F2 1 0
10
Residuals vs. Fits l a u d i s e R
10000
0
-10000 -12000-8000-4000 0 4000 80001200016000
Residual
60000
80000
100000
Fit
120000
140000
IV.
REGRESI LINIER BERGANDA
4.1. Struktur Data Contoh:
Data tentang hasil produksi, bahan baku, tenaga kerja dan jenis mesin No 1 2 3 4
Y Produksi 74970 106430 83285 86810
. . .
X1 X2 Bahan baku Tenaga kerja 308956 29 416141 35 325644 32 339427 29
. . .
20 21 22
131767 110120 88333
X3 Mesin 11 12 12 11
. . .
. . .
. . .
515209 472347 378199
39 35 29
12 12 11
Akan dibuat model regresi yang menghubungkan hasil produksi dengan bahan baku, tenaga kerja dan mesin. Y : Hasil produksi X1: Bahan baku X2: Tenaga kerja X3: Mesin 4.2. Cara Penaksiran Parameter Regresi dan Pengujian Model
Postulate Model :
Dalam bentuk Matriks Y = X
+
Dimana:
Y Y X = . . . Y n 1
Y=
2
1 x1 1. . x. k 1 . . . . . . . . . 1 x . . x. 1n k n
β=
β ε β ε . . ε = . . . . β k ε k 0
0
1
1
Taksiran parameter menggunakan metode Metode Least Square, diperoleh: Estimasi Parameter : b = ( X’ X) -1 X’Y Model estimasinya: ˆ Y
= X b
Sebagai contoh model yang memuat 2 variabel prediktor dapat digambarkan sebagai berikut:
Model regresi yang menjelaskan hubungan antara kualitas dengan variable temperature dan tekanan. 2 yˆ = −5.127,9 + 31,10 x1 + 39,75 x 2 − −0,146 x1 x 2 − 0,133x1 − 1,1
Pengujian Model: Uji Serentak (Overall)
Hipotesa: Ho : β 1 = β 2 = … = β k = 0 H1 : minimal ada satu β i ≠ 0, dimana i = 1, 2, 3, …, k Statistik Uji: Fhitung =
MS regr MS res res
=
SS regr / k SS res res / n − ( k +1)
Daerah Kritis: tolak Ho, jika Fhitung ≥ F k;n-(k+1); α
=
SS regr (b1 , b2 ,... bk | b0 ) s 2
Tabel Anova Sumber
Derajat
Jumlah
variasi
bebas
kuadrat
Regre Regresi si
k
Rata – rata rata jumlah kuadrat 1
Residual
Total terkoreksi
n-(k+1)
n-1
b1 X1Y
1
nY 2
1
1
Y Y-b X Y
1
YY
1
nY 2 )
(b X Y
k ( Y1 Y (n
=M MS S regr
b 1 X1Y )
k 1)
F hitung
MS regr / MS res
=M MS S res
nY 2
Uji Indvidu
Untuk menguji menguji signifikansi signifikansi dari pengaruh masing-masing variabel terhadap variabel y (respons)
Hipotesa : Ho : β i = 0 H1 : β i ≠ 0
, i = 1, 2, …, k , i = 1, 2, …, k
Statistik Uji : bi thitung = sd sd (bi ) Daerah Kritis : Tolak Ho, jika | thitung | > t 1- α /2,n-(k+1)
4.3. Pembuatan Model dengan Menggunakan Minitab
Gunakan data produksi diatas 1. Klik Stat > Regression > Regression 2. Masukkan variabel Produksi (Y) ke kotak Response dan variabel Bahan Baku dan Tenaga Kerja (X1 dan X2) ke kotak Prediktors. Klik OK
Untuk mengontrol tampilan output pada window session Klik Stat>Regression>Regression>Results Dialog Box Items:
Kontrol tampilan hasil Display nothing: nothing: Pilih untuk tidak menampilkan apa-apa Regression equation, table of coefficients, s, R-squared, and basic analysis of variance:: Pilih untuk menampilkan beberapa output keluaran regresi variance In addition, sequential sums of square nand the unusual observation in the table of fits and residual: Pilih untuk menampilkan tambahan dari sebelumnya, sequential sum of squares (ditambahkan jumlahan kuadrat yang dijelaskan oleh setiap tambahan predictor) dan suatu tabel untuk nilai-nilai yang tidak umum In addition, the full table of fits and residuals: residuals : Pilih untuk menampilkan tambahan sebelumnya, suatu tabel nilai dugaan dan observasi redual Output : The regression equation is PRODUKSI = - 19592 + 0.245 BAHAN BAKU + 715 TENAGA KERJA Predictor Constant BAHAN BA TENAGA K
Coef -19592 0.24461 715.1
S = 5897
StDev 9065 0.02177 434.9
R-Sq = 95.8%
T -2.16 11.23 1.64
P 0.044 0.000 0.117
R-Sq(adj) = 95.3%
Analysis of Variance Source Regression Error Total
DF SS 2 14945508709 19 660703264 21 15606211973
Source
DF
Seq SS
MS 7472754354 34773856
F 214.90
Keterangan:
Jika digunakan α=5%, maka tenaga kerja terlihat tidak signifikan dalam model. Men a a??? P 0.000
BAHAN BA TENAGA K
1 14851467624 1 94041084
Unusual Observations Obs BAHAN BA PRODUKSI Fit 17 513469 146650 133897
StDev Fit 2061
Residual 12753
St Resid 2.31R
R denotes an observation with a large standardized residual
Interpretasi:
Dari ANOVA Model regresi signifikan pada alpha 5% Interpretasi model : Bila bahan baku meningkat 1 (satuan), maka produksi akan meningkat 18,3%. Dengan syarat variabel lain konstan. Bila tenaga kerja bertambah 1 orang, maka produksi akan meningkat sebesar 919. Dengan syarat variabel lain konstan. bertambah 1 buah, maka produksi akan meningkat meningkat 5766 Dan bila mesin bertambah kali.
PENGUJIAN RESIDUAL Residual Model Diagnostics Normal Plot of Residuals
I Chart of Residuals 20000
10000 l a u d i s e R
3.0SL=14787
l a u d i s e R
0
10000 0
X=-2.0E-11
-10000 -3.0SL=-14787
-10000
-20000 -2
-1
0
1
2
0
10
Normal Score
Observation Number
Histogram of Residuals
Residuals vs. Fits
5
20
10000
4
y c n 3 e u q 2 e r F
l a u d i s e R
Asum Asumsi si Resid Residual ual dari dari mode modell yang yang terbentuk terp terpen enuh uhi, i, yait yaitu u identik, independen, berdistribusi normal (IIDN)
0
1 0 -8000 -6000 -4000 -20000 2000 4000 4000 6000 6000 8000 8000 10000
-10000 5 0000
Residual
1000 00
150000
Fit
Catatan:
Bila akan menambahkan variable baru: Predictio Predi ction n inter intervals vals for new observat observation ion : mema memasu sukk kkan an nila nilaii baru baru yang yang ingi ingin n diprediksi sebagai respon Confidence Level : Storage : pilih untuk menyimpan tambahan dari sebelumnya Fits : pilih untuk menyimpan fitted values untuk observasi yang baru SEs of fits : pilih untuk mengestimasi standard error dari nilai dugaannya Confidence limits : pilih untuk menampilkan batas keyakinan dengan batas atas dan batas bawah Prediction limits : pilih untuk menampilkan nilai prediksi dengan batas atas dan batas bawah
V.
PEMILIHAN MO MODEL TERBAIK
Jika antar variabel variabel prediktor prediktor saling berkorelasi berkorelasi satu sama lain, dikatakan dikatakan terjadi kasus kasus multic multicoli olinea near. r. Hal ini kana kana mengak mengakiba ibatka tkan n bebera beberapa pa variab variabel el predik prediktor tor tidak tidak significant berada dalam model valaupun sesungguhnya variabel tersebut berhubungan sangat erat dengan variabel respon Y. Untuk mendapatkan model yang diinginkan terdapat dua pertimbangan dalam pembentukan model, diantaranya: • Agar persamaan regresi bermanfaat untuk tujuan prediksi, serigkali serigkali diinginkan diinginkan model yang memuat sebanyak sebanyak-banya -banyaknya knya variabel variabel X (prediktor) yang mempengaruhi variabel Y (respon) • Kare Kareen ena a pert pertim imba bang ngan an biay biaya a untu untukk mend mendap apat atka kan n informasi, informasi, maka digunakan digunakan sesedikit sesedikit mungkin variabel X (prediktor) (prediktor) yang mempengaruhi variabel Y (respon) Untuk itu dibutuhkan metode untuk dapat mengakomodasikan dua kepentingan di atas dengan cara Selecting the best regression equation . Berikut ini adalah cara-cara yang sering digunakan dalam memilih model terbaik. 5.1. Best Subset Model
Memilih semua subset (model) yang terbaik yang memenuhi kriteria diatas. Kriteria yang digunakan adalah: R2 terbesar MS residual terkecil Cp yang mendekati jumlah parameter Dengan menggunakan Minitab lakukan langkah berikut: Stat > Regression > Best Subsets Dalog box items
Respons : Masukkan kolom yang memuat variabel respon Y Free predictors: masukkan yang memuat variabel –variabel prediktor X (maksimum 31 variabel) Predictors in all models: models : pilih kolom-kolom yang memuat variabel yang ingin dimasukkan dalam model. Kolom-kolom ini tidak boleh terdaftar dalam Free predictors. Jika anda menganalisis data dengan lebih dari 15 variabel prediktor, pertimbangkan termasuk variabel prediktor ini dalam rangka mengurangi jumlah free variables dan mempercepat proses perhitungan.
Best Subsets Regression Response is Y
Vars
R-Sq
R-Sq (adj)
1 1 2 2 3 3 4 4 5
92.3 88.5 95.4 92.6 96.4 95.7 96.4 96.4 96.4
92.0 88.1 95.0 92.1 96.0 95.2 95.8 95.8 95.6
C-p
S
25.4 50.3 6.9 25.1 2.0 6.8 4.0 4.0 6.0
27.314 33.288 21.580 27.188 19.378 21.222 19.758 19.762 20.165
X X X X X 1 2 3 4 5 X X X
X X X X X X X X X X X X X X X X X X
X X X X
5.2. Stepwise and Eliminasi Backward Regression Stepwise Regression
Model Model dibuat dibuat dengan dengan memasu memasukka kkan n variab variabel el predik prediktor tor satu satu persat persatu u (secar (secara a bertahap) mulai dari variabel X yang memiliki korelasi tinggi Langkah-langkahnya: 1. Cari Cari vari variab abel el X yang yang berk berkor orel elas asii pali paling ng ting tinggi gi deng dengan an Y, kemu kemudi dian an buat buat regresinya 2. Pemi Pemililihan han vari variab abel el beri beriku kutn tnya ya adal adalah ah vari variab abel el yag yag memi memililiki ki kore korela lasi si pars parsia iall terbesar dengan Y dan buat model dengan memasukkan variabel tersebut. 3. Uji para paramet meter er yang yang telah telah ada ada di dala dalam m model model 4. Begitu Begitu seterusnya seterusnya ulangi langkah langkah 2-3 sampai sampai diperol diperoleh eh model terbaik terbaik Eliminasi Backward
Membuat model dengan memasukkan semua variabel kemudian dikeluarkan satu persatu dengan melakukan pengujian terhadap parameter –parameternya dengan menggu menggunak nakan an partia partiall F test. test. Nilai Nilai partia partiall F-test F-test (F L) terkecil dibandingkan dengan F 0 table: • Jika FL < F0, maka X yang bersangkutan dikeluarkan dari model dan dilanjutkan dengan pembuatan model baru tanpa variable tersebut
•
Jika FL > F0, maka proses dihentikan dan persamaan terakhir tersebut yang digunakan/dipilih.
Dengan menggunakan Minitab lakukan langkah berikut: Stat > Regression > Stepwise>Methods Dalog box items
Stepwise (forward and backward): pilih standard stepwise regression Pred Predic icto torr in init initia iall mode model:l: masu masukk kkan an vari variab abel elpr pred edik ikto tor. r. Vari Variab abel el ini ini akan akan p-value dikeluarka dikeluarkan n jika lebi lebih h besa besarr dari dari al alph pha a to en ente terr va valu lue e (Jika Jika ingin ingin mempertahankan variabel tertentu dalam model abaikan nilai p-value dan enter variabel tersebut dalam Predictor to include in every model dalam box utama) Alpha to enter : enter : tetapkan nilai α untuk memasukkan variable dalam model Alpha to remove: remove: tetapkan nilai α untuk mengeluarkan variable dalam model Forward selection: selection: pilih Forward selection Alpha to enter : enter : tetapkan nilai α untuk memasukkan variable dalam model Backward elimination Alpha to remove: remove: tetapkan nilai α untuk mengeluarkan variable dalam model Force:: masukkan variabel prediktor yang tidak ingin dikeluarkan dari model. Force Contoh:
Klik Stat > Regression > Stepwise Masukkan variabel X dan Y. Klik OK Gunakan data di Lampiran 2 Y = berat limbah blontong (kuintal) X1 = berat kapur tohor (kuintal) (kuintal) X2 = berat sulfur (kg) X3 = berat flokulan (kg) X4 = berat tebu (kuintal) X5 = berat fosfat (kg)
Variabel X1-X5 dipilih untuk dimasukkan dalam model
Stepwise Regression
F-to-Enter:
4.00
Response is
Y
F-to-Remove: on
4.00
5 predictors, with N =
Step Constant
1 74.68
2 74.56
3 74.72
X1 T-Value
0.076 4.80
0.076 4.95
0.076 5.25
X2 T-Value
-0.001 -0.01
X3 T-Value
0.3 0.10
0.3 0.10
X4 T-Value
0.0209 6.35
0.0209 7.01
0.0209 7.17
X5 T-Value
-4.7 -2.19
-4.7 -2.68
-4.7 -2.74
S R-Sq
20.2 96.40
19.8 96.40
19.4 96.39
30
Jumlah variable yang signifikan dalam model hanya 3 variabel yaitu X 1, X4 dan X5.Model yang terbentuk: Y=74,72 + 0,076 X 1+0,0209 X4-4,7 X5 R2=96,39
Variabel X1-X5 ingin dimasukkan dalam model.
Stepwise Regression
F-to-Enter:
4.00
Response is
Y
Step Constant
1 74.68
X1 T-Value
0.076 4.80
X2 T-Value
-0.001 -0.01
X3 T-Value
0.3 0.10
X4 T-Value
0.0209 6.35
X5 T-Value
-4.7 -2.19
S R-Sq
20.2 96.40
F-to-Remove: on
4.00
5 predictors, with N =
30