ANALISIS ANALISIS REGRESI DUA VARIABEL : BEBERAPA IDE MENDASAR
pada bab ini dan tiga bab selanjutnya, kita k ita akan memperkenalkan kepada pembaca teori dasar dari analisis regresi yang paling sederhana yaitu : regresi bivaria: (dua variable-bivariate ) atau regresi dua variable, regresi dimana variable dependen (regresan) berhubungan dengan satu variable penjelas (regresor). Kasus inilah yang akan dibahas pertama, bukan karena masalah kemudahan, namun karena alasan bahwa ide-ide dasar dari analisis regresi ini terkandung dalam analisis regresi sederhana yang mudah dan mungkin untuk dimengerti, serta dapat diilustrasikan dengan bantuan grafik dua dimensi. 2.1 sebuah Contoh Hipotesis
Seperti yang di jabarkan pada subbab 1.2 analisis regresi member penekanan pada mengestimasi dan/atau membuat prediksi dan nilai rerata (populasi) variable dependen berdasarkan nilai variabel (variable-variabel) penjelas yang telah diketahui atau ditentukan.
80
100
120
140
160
180
200
220
24 0
260
55 60 65 70 75
65 70 74 80 85 88
120 79 84 90 94 98
80 93 95 103 108 113 115
102 107 110 116 118 125
110 115 120 130 135 140
120 136 140 144 145
135 137 140 152 157 160 162
137 145 155 165 175 189
180 152 175 178 180 185 191
TOTA L
325
462
445
707
678
750
685
1043
966
1211
Rerat a kondi sional Y, E ( Y | X )
65
77
89
101
113
125
137
149 149
161
173
X→ Y↓
Pada table tersebut mengacu pada populasi total dari 60 keluarga disebuah komunitas hipotesis, dengan pendapatan mingguan (X) dan pengeluaran konsumsi mingguan (Y), yang keluarnya dinyatakan dalam dollar ke-60 keluarga ini dibagi kedalam 10 kelompok pendapatan (dari $80 sampai $260) dan pengeluaran mingguan setiap kelurga dari kelompok-kelompok ini disajikan dalam table. Oleh karena itu, kita memiliki 10 nilai X yang tetap untuk setiap Y yang berkaitan dengan nilai X tersebut., sehingga dengan kata lain, terdapat 10 subpopulasi Y.
Ada beberapa variasi yang dapat dipertimbangkan dari pengeluaran konsumsi mingguan pada setiap kelompok pendapatan, yang dapat kita lihat dengan jelas pada figure 2.1. Akan tetapi, gambaran yang secara umum dapat dilihat, dengan mengesampingkan variasi dari pengeluaran konsumsi mingguan antar kelompok pendapatan), secara rata-rata pengeluaran konsumsi mingguan meniongkat seiring dengan peningkatan pendapatan. Untuk melihat seecara lebih jeelas lagi Tabel 2.1 tersaji rerata, atau rata-rata dari pengeluaran konsumsi mingguan sehubungan dengan ke-10 tingkat pendapatan. Jadi sehubungan.
Figur 2.1 Distribusi secara kondisional (bersyarat) dan pengeluaran untuk b erbagai tingkat pendapatan (data dari table 2.1)
80
100
120
140
160
180
200
220
240
260
1/5
1/6
1/5
1/7
1/6
1/6
1/5
1/7
1/6
1/7
1/5
1/6
1/5
1/7
1/6
1/6
1/5
1/7
1/6
1/7
1/5
1/6
1/5
1/7
1/6
1/6
1/5
1/7
1/6
1/7
1/5
1/6
1/5
1/7
1/6
1/6
1/5
1/7
1/6
1/7
1/5
1/6
1/5
1/7
1/6
1/6
1/5
1/7
1/6
1/7
1/6
1/7
1/6
1/6
1/7
1/6
1/7
1/6
1/7
1/6
1/6
1/7
1/6
1/7
101
113
125
149
161
173
X→
P(Y | Xi) ↓
2 Probabilitas kondisional p(Y| Xi )
Rerata kondisional Y
66
77
89
137
Dengan tingkat pendapatan mingguan sebesar $80, rerata pengeluaran konsumsinya adalah sebesar $65, sedangkan sehubungan dengan tingkat pendapatan $200, rerata pengeluaran konsumsinya adalah sebesar $137. Secara menyeluruh, kita memiliki 10 nilai rerata dari 10 subpopulasi Y. kita menyebut nilai rerata ini adalah nilai ekspetasi kondisional/bersyarat (conditional expeted values) karena nilainya bergantung nilai tertentu dari ( dengan kondisi) setiap variable X. secara simbolis, kita lambangkan dengan E(Y | X), yang kemudian dibaca sebagai nilai ekspetasi dari Y untuk setiap nilai X (lihat juga table 2.2)
Figur 2.2 Garis regresi populasi ( data dari table 2.1 )
2.2 Konsep Fungsi Regresi Populasi
Dari diskusi sebelumnya, serta Figur 2.1 dan 2.2, jelas bahwa untuk setiap rerata kondisional E(Y|Xi) adalah sebuah fungsi linear dari Xi, merupakan nilai X yang telah ditentukan secara simbolis. E ( Y | X i ) = F( X i ) Dimana F (Xi) melambangkan beberapa fungsi dari penjelas X. dalam contoh yang kita berikan E( Y | Xi ), adalah sebuah fungsi linear dari Xi Persamaan (2.2.1) dikenal sebagai fungsi espektasi kondisonal (conditional expectation function — CEF) atau lebih pendek lagi dikenal sebagai FRP (fungsi regresi populasi — population regretion function). Fungsi ini kurang lebih menyatakan bahwa nilai ekspektasi dari distrubusi Y dari Xi yang telah ditetapkan, adalah fungsi yang berhubungan dengan Xi. Dalam terminology yang lebih singkat lagi, fungsi tersebut menjelaskan bagaiman rerata atau rata-rata respons Y yang bervariasi mengikuti X.
pendekatan awal atau hipotesisnya adalah kita dapat mengasumsikan bahwa FRP E(Y|Xi) adalah sebuah funsi linear Xi missal, dari tipe E(Y|Xi) = β1+β2Xi
Dimana β1 dan β2
tidak diketahui, namun merupakan parameter yang telah ditetapkan atau dikenal sebagai koefisien regresi β1 dan β2 juga dikenal sebagai intercept dan koefisien kemiringan. Persamaan (2.2.1) sendiri dikenal seb agai fungsi regresi populasi linear. Beberapa ungkapan alternative yang digunakan dalam literatur-literatur adalah model regresi populasi linear atau hanya menyebutkan regresi populasi linear. Berdasarkan urutan, istilah regresi, persamaan regresi memiliki arti yang sama ketika digunakan.
2.3 Makna Istilah Linear
Oleh karena buku ini membahas lebih banyak mengenai model-model linear,seperti Persamaan (2.2.2),maka sangatlah penting untuk mengetahui arti sebenarnya dari terminologi linear sebab dapat diartikan dalam dua cara yang berbeda. Linear dalam Variabel
Arti paling pertama dan mungkin yang paling “alamiah” dari linearitas adalah ekspektasi kondisional Y adalah sebuah fungsi linear Xi,sebagai contoh,Persamaan (2.2.2).6 Secara geometris,kurva regresi dalam kasus ini adalah sebuah garis lurus.Dalam interprestasinya,sebuah fungsi regresi seperti E(Y│Xi ) = β1+β2Xi2,bukan merupakan fungsi linear karena variabel X muncul dengan sebuah pangkat atau indeks 2.
Linearitas dalam Parameter
Interprestasi kedua dari linearitas adalah bahwa ekspektasi kondisional dari Y , E(Y │ X i) adalah sebuah fungsi linear dari parameter- parameternya,β; bisa saja linear atau bisa juga tidak linear untuk variabel X-nya.7 Dalam Interprestasi ini, E( Y │ X i) = β1+β2Xi2 adalah model regresi (dalam parameter) linear.Untuk melihatnya lebih lanjut,misal : X bernilai 3.Oleh karena itu,E( Y│ X = 3 ) = β1+9β2, yang jelas linear dalam parameter β1 dan β2.Semua model yang disajikan dalam Figur 2.3 adalah model regresi linear (MRL) ,yaitu model linear dalam parameter.
Dari kedua interprestasi mengenai linearitas,linearitas dalam parameter relevan terhadap pembentukan teori regresi yang baru saja dibahas.Oleh karena itu,dari
sekarang terminologi regresi “linear” akan selalu berarti sebuah regresi yang linear dalam parameter- parameternya; β-nya (yaitu parameternya) berpangkat satu saja.Parameter untuk variabel penjelasnya,atau X-nya,bisa saja linear atau tidak linear.Secara skematis,terdapat pada Tabel2.3 . Jadi, E(Y│Xi) = β1 + β2Xi,yang
linear untuk keduanya,parameter dan variabel,atau MRL,dan juga E(Y│Xi ) = β1 + β2Xi2 , yang linear dalam parameter,namun tidak linear dalam variabel X.
Figur 2.3 Paramater linear dalam sebuah fungsi
Tabel 2.3 Model regresi linear
2.4 Spesifikasi Stokastik dari FRP
Jelas terlihat dari Figur 2.1 bahwa pendapatan keluarga meningkat,maka pengeluaran konsumsi keluarga secara rata-rata meningkat pula.Namun demikian,bagaimana dengan pengeluaran konsumsi keluarga secara individual sehubungan dengan tingkat pendapatannya (tertentu)? Jelas terlihat dari Tabel 2.1 dan Figur 2.1 bahwa pengeluaran konsumsi keluarga secara individual tidak harus selalu meningkat seiring dengan peningkatan tingkat pendapatan.Sebagai contoh,dari tabel 2.1,kita dapat melihat bahwa sehubungan dengan tingkat pendapatan $100,ada satu keluarga yang pengeluaran konsumsinya $65,lebih kecil dibandingkan dengan pengeluaran konsumsi dari dua keluarga yang pendapatan
mingguannya hanya $80.Akan tetapi,perhatikan bahwa pengeluaran konsumsi rata-rata dari keluarga dengan pendapatan mingguan sebesar $100 lebih besar dibandingkan dengan pengeluaran konsumsi keluarga dengan pendapatan mingguan sebesar $80 ($77 dibandingkan dengan $65).
menyatakan deviasi dari seorang individu Y i, di sekitar nilai ekspektasinya adalah sebagai berikut: Ui = Yi –
E(Y│Xi) Atau Yi = E(Y│Xi) + ui
Di mana deviasi, ui, adalah sebuah variabel acak yang tidak dapat diamati dan dapat mengambil nilai positif maupun negatif.Atau,secara teknis, ui dikenal sebagai faktor gangguan stokastik ( stochastic disturbance) atau faktor kesalahan stokastik ( stochastic error term ).
Komponen ini juga dikenal sebagai komponen yang sistematik atau deterministik, dan,(2) ui yang merupakan komponen acak atau nonsistematik. Kita mesti mencoba menganalisis secara cepat sifat dari faktor gangguan stokastik,namun untuk saat ini kita mengasumsikan bahwa hal tersebut adalah pengganti atau proksi terhadap variabel yang dihilangkan atau diabaikan yang dapat saja memengaruhi Y , tetapi tidak (atau tidak dapat) dimasukkan dalam model regresi.
Jika E(Y│Xi) diasumsikan linear dalam Xi, seperti yang ditunjukkan dalam Persamaan (2.2.2), Persamaan (2.4.1) dapat juga dituliskan sebagai
Yi = E(Y│Xi) + ui
= β1 + β2Xi + ui
Persamaan (2.4.2) menyatakan bahwa pengeluaran konsumsi dari sebuah keluarga secara linear berhubungan dengan pendapatannya ditambah dengan sebuah faktor gangguan.Jadi,pengeluaran konsumsi individu, dengan kondisi X = $80 (Lihat Tabel 2.1), dapat dinyatakan sebagai
Y1 = 55 =β1 + β2 (80) + u1 Y2 = 60 =β1 + β2 (80) + u2 Y3 = 65 =β1 + β2 (80) + u3 Y4 = 70 =β1 + β2 (80) + u4 Y5 = 75 =β1 + β2 (80) + u5
Sekarang,jika kita mengambil nilai yang diekspektasikan dari Persamaan (2.4.1) di kedua sisi,kita akan dapatkan
E(Y│Xi) = E [E(Y│Xi)] + E (ui│Xi) = E(Y│Xi) + E (ui│Xi)
(2.4.4)
Di mana penggunaannya berdasarkan fakta bahwa nilai yang diekspektasikan dari sebuah konstanta adalah nilai konstanta itu sendiri.8 Perhatikan secara seksama bahwa pada Persamaan (2.4.4),kita telah mengambil ekspektasi kondisional,yaitu kondisional terhadap X tertentu.
Oleh karena E(Y│Xi) sama saja dengan E(Y│Xi), Presamaan (2.4.4)berimplikasi bahwa E(ui│Xi) = 0
(2.4.5)
Jadi, asumsi bahwa garis regresi melewati rerata kondisional dari Y (lihat Figur 2.2) mengimplikasikan bahwa nilai rerata kondisional dari ui (yang kondisional terhadap X tertentu) adalah nol.
Dari diskusi sebelumnya,jelas bahwa Persamaan (2.2.2) dan (2.4.2) adalah bentuk yang sama jika E(ui│Xi) = 0.9 Akan tetapi,spesifikasi stokastik dari Persamaan (2.4.2) memiliki kelebihan bahwa ia menunjukkan secara jelas jika terdapat pengaruh variabel lainnya selain pendapatan yang memengaruhi pengeluaran konsumsi dan
pengeluaran konsumsi keluarga secara individu tidak dapat dijelaskan secara sempurna hanya oleh variabel yang disertakan dalam model regresi.
Oleh karena E(Y│Xi) sama saja dengan E(Y│Xi), Presamaan (2.4.4)berimplikasi bahwa E(ui│Xi) = 0
(2.4.5)
Jadi, asumsi bahwa garis regresi melewati rerata kondisional dari Y (lihat Figur 2.2) mengimplikasikan bahwa nilai rerata kondisional dari ui (yang kondisional terhadap X tertentu) adalah nol.
Dari diskusi sebelumnya,jelas bahwa Persamaan (2.2.2) dan (2.4.2) adalah bentuk yang sama jika E(ui│Xi) = 0.9 Akan tetapi,spesifikasi stokastik dari Persamaan (2.4.2) memiliki kelebihan bahwa ia menunjukkan secara jelas jika terdapat pengaruh variabel lainnya selain pendapatan yang memengaruhi pengeluaran konsumsi dan pengeluaran konsumsi keluarga secara individu tidak dapat dijelaskan secara sempurna hanya oleh variabel yang disertakan dalam model regresi.
Kerancuan teori Ketidaktersediaan data Variabel inti (core variable)
Keacakan intrinsik pada perilaku manusia
Variabel yang diproksi secara tidak tepat
Prinsip parsimoni
Bentuk fungsi yang salah
Untuk semua alasan ini,gangguan stokastik ui memiliki peran yang penting dalam analisis regresi,yang akan kita lihat lebih lanjut dalam buku ini.
2.6 Fungsi Regresi Sampel
Dengan menegaskan kembali pembahasan kita,bahwa selama ini kita telah membahas mengenai
nilai Y yang berhubungan dengan sebuah nilai tetap X, kita telah secara terang-terangan menghindari pemikiran dalam pengumpulan sampel (perhatikan bahwa data dalam tabel 2.1 merepresentasikan populasi bukan sampel).Namun demikian,sudah saatnya bagi kita untuk menghadapi permasalahan dalam sampling,untuk beberapa kasus praktik yang kita miliki hanyalah nilai sampel Y yang berhubungan dengan beberapa nilai X yang tetap.Oleh karena itu,tugas kita sekarang adalah mengestimasikan FRP berdasarkan informasi sampel.
Sekarang, analog dengan FRP yang mendasari garis regresi populasi,kita dapat mengembangkan konsep FRS (Fungsi regresi sampel-sample regression function) untuk merepresentasikan garis regresi sampel.Penulisan sebaliknya dari Persamaan (2.2.2) untuk sampel adalah:
Ŷi = β1 + β2Xi
(2.6.1)
Figur 2.4
Di mana Ŷ dibaca sebagai “Y-topi” atau “Y-cap” Ŷ
= merupakan pengestimasi dari E(Y│Xi)
β1 = merupakan pengestimasi dari β1. β2 = merupakan pengestimasi dari β2. Kini,seperti bagaimana kita mengekspresikan FRP dalam bentuk yang mirip.Persamaan (2.2.2) dan (2.4.2), kita dapat mengekspresikan FRS pada Persamaan (2.6.1) dalam bentuk stokasinya sebagai berikut:
Ŷi = β1 + β2Xi +ûi
2.7 Contoh-contoh Ilustratif
Kita membuat kesimpulan untuk bab ini dengan dua buah contoh Contoh 2.11
Rerata Upah per jam Berdasarkan pendidikan Table 2.6 Rerata
upah perjam berdasarkan pendidikan Tahun
Rata upah
Jumlah
pendidikan
$
orang
6
4,4567
3
7
5,7700
5
8
5,9787
15
9
7,3317
12
10
7,3182
17
11
6,5844
27
12
7,8182
218
13
7,8351
27
14
11,0223
56
15
10,6738
13
16
10,8361
70
17
13,6150
24
18
13,5310
31
Total
528
Sumber : diadaptasi dari Arthur S Goldberger, Introdoctory Econometrics Harvard University Press Cambridge. Mass 1998 Tabel 1.1 hal 5
Tabel 2.6 menunjukkan kepada kita data mengenai tingkat pendidikan (diukur dengan jumlah tahun sekolah), rerata upah per jam yang didapatkan orang-orang untuk setiap tingkat pendidikan, dan jumlah orang untuk setiap pendidikan. Adalah Ernst Berndt yang memperoleh data pada table tersebut, dimana data yang didapatakan dari survey populasi yang dilakukan pada tahun 1985.
Dengan memplot rerata upah (kondisional) terhadap pendidikan, kita akan memperoleh gambaran diagram yang ditunjukan pada Figur 2.6. kurva regresi pada figure tersebut menunjukan bagaimana rerata upah bervariasi menurut tingkat pendidikan, biasanya meningkat seiring dengan tingkat pendidikan, sebuah penemuan tidak terlalu mengherankan. Kita akan belajar pada bab selanjutnya bagaimana variable lain, selain pendidikan, dapat juga mempengaruhi tingkat upah seseorang.
Figur 2.6 hubungan antara rerata upah dan pendidikan