REGRESI LOGISTIK
MODEL REGRESI LOGISTIK
Regresi logistic merupakan salah satu model staistika yang dapat digunakan untuk menganalisis pola hubungan antar sekumpulan variabel independen dengan suatu variabel dependen bertipe kategoris atau kualitatif. Kategori dari variabel terikat dapat terdiri dari dua kemungkinan nilai (dichotomous), seperti ya/tidak, sukses/gagal, dan lain-lain, atau terdiri lebih dari dua nilai (polychotomous), seperti sangat setuju, setuju, tidak setuju, atau sangat tidak setuju. Tujuan utama dari analisis regresi logistik adalah sebagai berikut :
Memprediksi probabilitas terjadinya atau tidak terjadinya event (terjadinya nonevent) berdasarkan nilai-nilai prediktor yang ada. Event merupakan status variabel respons yang menjadi pokok perhatian (diberi nilai kode yang lebih tinggi daripada nonevent).
Mengklasifikasikan subjek penelitian berdasarkan ambang (threshold) probabilitas.
Model logit didasari oleh Linear Probability Model (LPM) yang secara sederhana dapat diiliustrasikan sebagai berikut. Misalkan terdapat p variabel dalam model regresi dan didefinisikan x=x1,x2, …, xp. Model LPM merupakan penerapan regresi linier klasik pada respon kategoris atau bertipe kualitatif, LPM mengubah regresi linier klasik menjadi model probabilitas linier, dengan persamaan
Yi=PYi=1"x=πix=β0+β1x1+…+βpxp
Dengan demikian, diperoleh
EYi"x=πi.1+1-πi*0=πi.
Karena berupa probabilitas, kemungkinan nilai Yi=πiX terbatas antara 0 sampai 1. Namun karena gx=β0+β1x1+…+βpxp, nilai yang mungkin tidak terbatas (karena X bisa bernilai kontinu, diskrit, ataupun kategoris) sehingga terkadang nilai πi hasil estimasi dengan LPM berada di luar range [0,1].
Untuk membuat harga πi selalu berada di antara 0 dan 1, kita memrlukan suatu fungsi monoton naik yg memetakan prediktor linier gx=β0+β1x1+…+βpxpke unit interval. transformasi tipe ini diharapkan akan mempertahankan struktur linier model dan menghindari nilai perluang berada di luar interval [0,1]. Sembarang fungsi distribusi kumulatif (Cumulative Distibution Funcion) akan memenuhi kriteria di atas.
πiX=PYi=1"x=Pβ0+β1x1+…+βpxp
Dimana fungsi CDF P dipilih sebelumnya dan β0,β1,…,βp adalah parameter-parameter yang akan diestimasi. Fungsi P diasumsikan halus (smooth) dan simetris, dan mendekati nilai 0 dan 1 secara asimptotik. Untuk transformasi P , kita sering menggunakan CDF dari distribusi normal standar
ϕz=12π ze12x2dx
atau fungsi logistik
Λz=11+e-z=ez1+ez
Dengan konstanta πi=3,141 dan e=2,718. Dengan menggunakan CDF normal ϕz, dengan mendapatkan model probit linier.
πi=φβ0+β1x1+…+βpxp=12π- β0+β1x1+…+βpxpe12x2dx
Sementara itu, dengan menggunakan fungsi logistik, kita memperoleh regresi logistik linier atau model logit linier.
πi=Λβ0+β1x1+…+βpxp=11+e-β0+β1x1+…+βpxp=eβ0+β1x1+…+βpxp1+eβ0+β1x1+…+βpxp
Secara umum, transformasi fungsi logit dan fungsi probit ekuivalen nilainya, kecuali pada nilai-nilai ekstrim pada πi. Akan tetapi, ada beberapa keunggulan model logit dibandingkan dengan model probit yaitu
Kesederhanaan (simplicity)
Persamaan dari fungsi logistik cukup sederhana, sedangkan fungsi normal relatif lebih kompleks. Perbedaan ini tidak terlalu terlihat untuk data dikotomi, tetapi untuk data polikotomi, yang memerlukan model logistik atau normal multivariat dalam analisis model akan menjadi lebih sederhana.
Interpretabilitas
Transformasi inversi dari logit model Λ-1πi dapat diinterpretasikan langsung sebagai log-odds, sedangkan transformasi inversi ϕ-1πi tidak memiliki interpretasi langsung.
Untuk model logit, perhatikan nilai odds ratio
πi1-πi=eβ0+β1x1+…+βpxp
Maka diperoleh nilai logit, yakni logπi1-πi=β0+β1x1+…+βpxp.
Transformasi Λ-1Pi=logπi1-πi disebut logit dari nilai π, yakni nilai log dari odds ratio yang menyatakan perbandingan diantara peluang kejadian Y bernilai 1 (kejadian sukses) dibandingkan dengan kemungkinan bernilai 0.
Fungsi logit bersifat simetris di sekitar 0 dan terbatas terbatas di atas dan di bawah.
Estimasi parameter dari model regresi logistik dapat dilakukan dengan metode maximum likelihood estimator (MLE), dimana parameter optimal dapat diperoleh dengan metode numerik.
Untuk menguji kecocokan koefisien, kita bias menggunakan uji Wald. Uji Wald merupakan uji univariat terhadap masing-masing koefisien regresi logistik (sering disebut partially test).
H0: prediktor secara univariat tidak berpengaruh signifikan terhadap respons β1=0;=0,1,2,…,p.
H1: prediktor secara univariat berpengaruh signifikan terhadap respons β1 0;=0,1,2,…,p.
Tingkat signifikansi : α
Statistik uji :
Wi=biSEbi2
Daerah kritik : tolah H0 bila Wi>Zα2
Beberapa ukuran yang dapat digunakan untuk mengevaluasi tingkat kesesuian model regresi logistik dengan data, antara lain :
Pseudo-R2
Pseudo-R2 merupakan nilai perkiraan atau nilai pendekatan dari koefisien determinasi karena dalam model regresi logistik tidak dapat dihitung nilai eksak dari koefisien determinasi. Rumusan Pseudo-R2 yang sering digunakan adalah Pseudo-R2 McFadden, yang didefinisikan sebagai
R2=1-lβly
Dengan lβ yang merupakan nilai log likelihood dari fitted model (model logit yang diamati dan ly adalah model logit yang hanya mengandung komponen konstanta.
Proporsi konkordansi
Proporsi konkordansi (biasanya dalam persentase) menyatakan persentase secara deskriptif data yang dapat diklasifikasikan secara tepatke setiap kategori respons oleh model regresi logistik yang terbentuk.