Pemilihan Model Terbaik Regresi

MAKALAH ANALISIS REGRESI TERAPAN Pemilihan Model Regresi Terbaik Menggunakan Metode All Possible Regression, Best Subset Regression, dan Sequensial Regression

Disusun oleh : Kelompok 4 Nurinayah

(14611070)

Moh. Aliamsyah

(14611076)

Andre Pratama

(14611078)

Suri Islamiah

(14611090)

Rifa Fitrianti

(14611094) Kelas C

JURUSAN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS ISLAM INDONESIA YOGYAKARTA 2016

Pemilihan Model Regresi Terbaik Menggunakan Metode All Possible Regression, Best Subset Regression, dan Sequensial Regression Andre Pratama, Nurinayah, Moh. Aliamsyah, Rifa Fitrianti, Suri Islamiah ([email protected]) Program Studi Statistika, Universitas Islam Indonesia, Yogyakarta Abstrak Analisis regresi seringkali digunakan untuk mengkaji hubungan antara beberapa variabel dan meramal suatu variabel. Agar diperoleh hasil analisis yang optimal, maka diperlukan model regresi terbaik. Pemilihan model regresi terbaik adalah penentuan peubah bebas mana yang akan dimasukkan dalam model regresi sehingga model tersebut dapat menjelaskan perilaku peubah tak bebas dengan baik. Metode yang umum digunakan antara lain all possible regression, best subset regression, the backward elimination, the stepwise regression procedure dan lainlain. Penelitian ini bertujuan mengkaji metode pemilihan model regresi terbaik yang dapat di terapkan dalam analisis regresi. Dari metode-metode yang dibahas, metode yang merupakan metode terbaik adalah metode Stepwise. Kemudian untuk metode yang cukup memuaskan untuk diaplikasikan adalah metode the backward elimination, karena metode ini jauh lebih menghemat waktu dan tenaga dibandingkan dengan metode all possible regression. Sedangkan pada metode best subset regression sendiri memiliki beberapa kelemahan, seperti cenderung menghasilkan persamaan regresi dengan terlalu banyak peubah peramal. Kata-kata Kunci : analisis regresi, all possible regression, best subset regression, the backward elimination, the stepwise regression procedure. I.

PENDAHULUAN

1.1.

Latar Belakang Dalam menentukan model regresi, variabel bebas dapat masuk dalam model

secara bersama-sama atau satu persatu. Jika variabel bebas masuk dalam model secara bersama-sama maka perhitungan akan ringkas, akan tetapi tidak akan kelihatan apa yang terjadi dalam perhitungan tersebut karena setiap variabel bebas yang masuk memberikan pengaruh yang berbeda, tergantung pada urutan variabel bebas tersebut yang masuk dalam model. Namun tidak berarti semua variabel yang masuk dalam model regresi menjadikan model tersebut model yang terbaik (Sembiring,1995). Model regresi terbaik adalah model yang dapat menjelaskan

1

perilaku peubah tak bebas dengan sebaik-baiknya dengan memilih peubah-peubah bebas dari sekian banyak peubah bebas yang tersedia dalam data. Untuk menentukan peubah bebas mana yang akan dimasukkan ke dalam model regresi, menurut Draper, ada dua kriteria yang saling bertentangan yaitu agar persamaannya bermanfaat untuk peramalan, biasanya ingin dimasukkan sebanyak mungkin peubah sehingga diperoleh nilai ramalan yang andal serta untuk memperoleh informasi dari banyak peubah serta pemantauannya sering kali diperlukan biaya yang tinggi, maka diinginkan persaman regresi yang mencakup sesedikit mungkin peubah. Kompromi diantara kedua kriteria itulah yang disebut pemilihan model regresi terbaik. Untuk mengatasi kesulitan yang dihadapi dalam menentukan model terbaik dapat digunakan beberapa metode yaitu metode semua kombinasi yang mungkin (all possible regression), regresi himpunan bagian terbaik (best subset regression), prosedur eliminasi langkah mundur (the backward elimination) dan prosedur regresi bertatar (the stepwise regression procedure). Metode yang sering digunakan adalah metode semua kombinasi yang mungkin (all possible regression). Namun metode yang biasanya direkomendasikan adalah metode the stepwise regression procedure, karena lebih menghemat waktu-komputer dibandingkan metodemetode yang lain, dan juga untuk mencegah masuknya peubah X daripada yang diperlukan sambil memperbaiki persamaannya pada setiap tahap. 1.2.

Rumusan Masalah Berdasarkan latar belakang masalah diatas, maka permasalahan yang akan

dibahas dalam penulisan ini adalah sebagai berikut: a. Apa saja metode-metode yang dapat digunakan dalam pemilihan model regresi terbaik ? b. Bagaimana langkah-langkah menggunakan metode tersebut agar diperoleh model regresi terbainya ? c. Bagaimana penerapan metode-metode tersebut pada sebuah kasus?

2

1.3.

Tujuan Tujuan yang ingin dicapai dalam penulisan ini adalah sebagai berikut:

a. Untuk mengetahui metode-metode yang digunakan dalam pemilihan model regresi terbaik. b. Untuk mengetahui langkah-langkah dalam menggunakan metode tersebut. c. Untuk mengetahui penerapan metode-metode tersebut dalam sebuah kasus. II.

KAJIAN PUSTAKA Penelitian mengenai pemilihan model terbaik dilakukan untuk mengetahui

metode mana yang lebih mudah digunakan untuk memilih persamaan model terbaik dan bagaimana cara memilih persamaan model terbaik. Model regresi terbaik adalah model yang dapat menjelaskan perilaku peubah tak bebas dengan sebaikbaiknya dengan memilih peubah-peubah bebas dari sekian banyak peubah bebas yang tersedia dalam data. Pada tahap yang paling sederhana model bertujuan untuk pemerian, menerangkan suatu sistem, peubah apa saja yang besar pengaruhnya dalam sistem tersebut. Model juga berguna untuk tujuan prediksi maupun untuk pengendalian suatu sistem, serta penaksiran parameter regresi. Kajian mengenai pemilihan model regresi terbaik antara lain dilakukan oleh Ferry Kondo Lembang. Hasil penelitiannya yaitu “Analisis Regresi Berganda dengan Metode Stepwise pada Data HBAT”. Hasil penelitiannya menjelaskan bahwa kepuasan pelanggan secara signifikan dipengaruhi oleh tanggapan terhadap komplain, kualitas produk, image dari sales aktivitas e-commarce, dan product line. Selain itu kajian menganai pemilihan model regresi terbaik juga dilakukan oleh Herlina Hanum. Hasil penelitiannya yaitu “Perbandingan Metode Stepwise, Best Subset Regression, dan Fraksi dalam Pemilihan Model Regresi Berganda Terbaik”. Hasil penelitian tersebut menjelaskan bahwa pemilihan model regresi terbaik dengan metode Stepwise dan Best Subset Regression tidak mempertimbangkan masalah moltikolinear. Akibatnya model terbaik pilihan kedua metode tersebut masih mengandung masalah multikolinear. Sementara metode fraksi lebih fokus untuk menghindari masalah multikolinear, sehingga menghasilkan model terbaik

3

tanpa ada masalah multikolinear. Penelitian lainnya juga dilakukan oleh Novelysa Samosir, Partano Siagian, dan Pengarapen Bangun. Mereka bersama-sama melakukan penelitian tentang “Analisa Metode Backward dan Metode Forward untuk Menentukan Persamaan Regresi Linier Berganda” dengan studi kasus, Jumlah Kecelakaan Lalu Lintas di Kotamadya Medan dan masih banyak lagi penelitian lainnya berkaitan dengan pemilihan model regresi terbaik. III.

METODE PENELITIAN Tulisan ini dibuat berdasarkan hasil analisis data menggunakan metode all

possible regression, best subset regression, the backward elimination, forward selection dan the stepwise regression procedure. Dalam Kajian ini digunakan data Apendiks B, yang berasal dari buku A. Hald Statistical Theory with Engineering Application yang diterbitkan oleh Wiley, New York, Pada 1952 yang memiliki 4 peubah bebas. Data tersebut memilki korelasi tinggi antar peubah bebasnya. Agar terlihat jelas perbandingan dari hasil kelima metode tersebut, penyajian dilakukan untuk masing-masing metode. Kemudian dipilih model terbaik dengan menggunakan masing-masing metode. Kajian difokuskan pada bentuk dan sifat model terbaik yang dihasilkan dari kelima metode tersebut. IV.

LANDASAN TEORI Pada bagian ini akan dijabarkan definisi maupun teorema sebagai dasar

pengertian untuk mempermudah pembahasan pada bagian selanjutnya. Landasan teori yang digunakan adalah sebagai berikut: 4.1.

Regresi Berganda Menurut Sarwono (2006) analisis regresi linear berganda mengestimasikan

besarnya koefisien-koefisien yang dihasilkan oleh yang bersifat linear yang melibatkan dua variabel bebas untuk digunakan sebagai alat prediksi besarnya nilai variabel tergantung. Analisis regresi berganda merupakan analisis data kuantitatif yang digunakan untuk mencari besar hubungan secara linear antara dua atau lebih variabel independen (X1, X2,…Xn) dengan variabel dependen (Y). Uji ini digunakan untuk mengetahui apakah variabel independen (X1,X2….Xn) secara 4

bersama-sama berpengaruh secara signifikan terhadap variabel dependen (Y). Persamaan regresi berganda sebagai berikut: 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + ⋯ + 𝛽𝑘 𝑋𝑘 + 𝜀

[4.1]

Keterangan:

4.2.

Y

=

Variabel dependen (nilai yang diprediksikan)

X1, X2, X3

=

Variabel independen

𝛽0

=

Konstanta (nilai Y apabila X1, X2…..Xn = 0)

𝛽𝑖

=

Koefisien regresi (nilai peningkatan ataupun penurunan)

𝜀

=

Galat acak yang berdistribusi 𝑁(0, 𝜎 2 )

Variabel Dependen Variabel dependen (variabel respon) yaitu variabel yang keberadaannya

dipengaruhi oleh variabel lainnya dan dinotasikan dengan variabel Y. 4.3.

Variabel Independen Variabel independen disebut juga dengan variabel prediktor yaitu variabel

yang bebas (tidak dipengaruhi oleh variabel lainnya) dan dinotasikan dengan X. 4.4.

Nilai F Dalam hal yang lebih umum, misal akan dibandingkan 𝑌 = 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀

[4.2]

Keterangan: Y

=

Variabel dependen (nilai yang diprediksikan)

X1, X2

=

Variabel independen

𝛽𝑖

=

Koefisien regresi (nilai peningkatan ataupun penurunan)

𝜀

=

Galat acak yang berdistribusi 𝑁(0, 𝜎 2 )

Dengan 𝑌 = 𝛽1 𝑋1 ∗ +∈∗ . Misalkan X1 dan X2 masing-masing matriks rancangan berukuran 𝑛 × (𝑝 − 𝑞) dan 𝑛 × 𝑞 (𝑝 > 𝑞), dan misalkan JKS menyatakan jumlah kuadrat sisa dari model yang lebih lengkap (yang pertama) dan JKS1 menyatakan jumlah kuadrat sisa dari model yang lebih sederhana maka uji F untuk menguji bahwa 𝛽2 ≠ 0 berbentuk:

5

𝐹ℎ𝑖𝑡𝑢𝑛𝑔 =

(𝐽𝐾𝑆1 −𝐽𝐾𝑆)/𝑞 𝐽𝐾𝑆/(𝑛−𝑝)

[4.3]

Keterangan: Fhitung =

Nilai F yang diperoleh dari proses matematis (hitung)

JKS

=

Jumlah kuadrat sisa (variansi karena sisa)

𝑛

=

Banyaknya sampel

𝑝

=

Banyaknya parameter dalam model

𝑞

=


Dalam hal nilai Fhitung besar, artinya lebih besar dari 𝐹 (𝑞, 𝑝 − 𝑞, 𝛼) yang diperoleh dari tabel-F, maka kita akan memilih model yang lengkap, sedangkan bila nilai Fhitung kecil maka pilih model yang lebih sederhana. 4.5.

Korelasi Korelasi adalah derajat hubungan linear antara dua variabel atau lebih dari

data hasil pengamatan. Dua variabel dikatakan berkorelasi apabila perubahan dalam satu variabel diikuti oleh perubahan variabel lain, baik yang searah maupun tidak. Berdasarkan hubungan antar variabel yang satu dengan variabel lainnya dinyatakan dengan koefisien korelasi yang disimbolkan dengan ”r”. Besarnya korelasi berkisar antara −1 ≤ 𝑟 ≤ 1. Jika dua variabel berkorelasi negatif maka nilai koefisien korelasinya akan mendekati -1, jika dua variabel tidak berkorelasi maka nilai koefisien korelasinya akan mendekati 0, sedangkan jika dua variabel berkorelasi positif maka nilai koefisien korelasinya akan mendekati 1. 4.6.

̅𝟐 Nilai 𝑹 Koefisien determinasi adalah untuk mengetahui proporsi keragaman total

dalam variabel tak bebas Y yang dapat dijelaskan atau diterangkan oleh variabel bebas yang ada di dalam model persamaan regresi linier berganda secara bersamasama. Koefisien determinasi dinyatakan dengan R2 untuk pengujian regresi linier berganda yang mencakup lebih dari dua variabel. Jika nilai yang akan dibandingkan dua atau lebih model regresi dan yang satu bukan himpunan bagian dari yang lainnya, seperti model 𝑌̂ = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 dengan 𝑌̂ = 𝑏0 + 𝑏3 𝑥3 + 𝑏4 𝑥4 +

6

𝑏5 𝑥5 , maka uji-F tidak lagi banyak menolong. Dalam hal ini penggunaan R2 lebih sesuai. Hubungan yang lebih umum dari R2 ditentukan dengan rumus:

𝑅2 =

𝐽𝐾𝑅 𝐽𝐾𝑇

∑𝑛 (𝑦̂ −𝑦̅)2

𝑖 100% = (∑𝑖=1 𝑛 (𝑦 𝑖=1

) 100% = ( 2

̅) 𝑖 −𝑦

𝑏′ 𝑋 ′ 𝑌−𝑛𝑌̅ 2 ) 100% 𝑌 ′ 𝑌−𝑛𝑌̅ 2

[4.4]

Keterangan: 𝑅2

=

Nilai koefisien determinasi

JKR

=

Jumlah kuadrat regresi (variansi karena regresi)

JKT

=

Jumlah kuadrat total (variansi total)

Salah satu kelemahan R2 ialah bahwa besarnya dipengaruhi oleh banyaknya peubah bebas dalam model, R2 membesar bersama banyaknya parameter dalam model, sehingga sulit menyatakan beberapa R2 yang optimum. Akan tetapi bila model yang ingin dibandingkan mempunyai banyaknya parameter dalam model yang sama maka R2 mudah digunakan, kemudian pilih model dengan R2 terbesar. Suatu cara mengatasi kelemahan R2 tersebut diatas ialah dengan menggunakan apa yang disebut dengan R2-disesuaikan, lambang 𝑅̅ 2 . Penyesuaian dikerjakan dengan membagi JKS dan JKT masing-masing dengan derajat kebebasannya pada rumus R2. Nilai R2 dapat dirumuskan sebagai berikut: 𝑅̅ 2

𝐽𝐾𝑆/(𝑛−𝑝)

= 1 − 𝐽𝐾𝑇/(𝑛−1) = 1−

𝑛−1 𝑛−𝑝

(1 −

[4.5] 𝐽𝐾𝑆 𝐽𝐾𝑇

)

𝑛−1

= 1 − 𝑛−𝑝 (1 − 𝑅 2 ) Keterangan: 𝑅̅ 2

=

Nilai R2 yang telah disesuaikan

R2

=

Nilai koefisien determinasi

JKS

=


JKT

=

Jumlah kuadrat total (variansi total)

𝑛

=

Banyaknya sampel

𝑝

=


𝑞

=


7

4.7.

Rataan Kuadrat Sisa, S2 Salah satu patokan yang digunakan dalam menilai kecocokan suatu model

dengan data ialah dengan rataan kuadrat sisa 𝑠 2 , makin kecil nilai 𝑠 2 akan semakin baik model. Ukuran ini memperhitungkan banyaknya parameter dalam model melalui pembagian dengan derajat kebebasannya. Rataan kuadrat sisa, 𝑠 2 , mungkin membesar bila penuruanan dalam JKS akibat pemasukan suatu peubah tambahan kedalam model tidak dapat mengimbangi penurunan dalam derajat kebabasannya (sebesar 1). Penambahan peubah bebas ke dalam model akan menurunkan JKS dan derajat kebebasannya, keduanya menuju ke nol jika p menuju ke n. akan sulit meramalkan apa tepatnya yang terjadi dengan 𝑠 2 = 𝐽𝐾𝑆/(𝑛 − 𝑝). Pada umumnya 𝑠 2 akan mengecil kesuatu minimum kemudian mungkin bergelombang di sekitar nilai tersebut bila p membesar. 𝑠 2 berkaitan erat dengan 𝑅̅ 2, apabila 𝑠 2 mengecil maka 𝑅̅ 2 membesar. Nilai 𝑠 2 dirumuskan sebagai berikut: 𝑠 2 = 𝐾𝑇𝑆 =

𝐽𝐾𝑆 𝑛−𝑝−1

[4.6]

Keterangan:

4.8.

𝑠2

=

Rataan kuadrat sisa (KTS)

JKS

=


𝑛

=

Banyaknya sampel

𝑝

=


Metode R2 Maksimum (MAXR) Metode MAXR hampir sama dengan metode yang lain yaitu bertujuan

untuk menemukan model yang terbaik dalam kelompok satu peubah, dalam kelompok dua peubah, dan seterusnya dengan patokan 𝑅 2 . Dalam metode MAXR penggunaanya dimulai dengan satu peubah untuk menemukan 𝑅 2 terbesar dalam kelompok, selanjutnya ditambahkan peubah baru kedalam model sebelumnya. Model tersebut selanjutnya dibandingkan dengan model dua peubah lainnya yang diperoleh dari mengganti salah satu peubah dalam model tadi dengan peubah yang diluar model, lalu model yang memberikan 𝑅 2 terbesar akan dipilih. Perbandingan tersebut dilakukan dengan setiap model yang dapat diperoleh dengan mengganti

8

salah satu peubah dalam model dengan yang lainnya yang berada diluar. Model yang memberikan 𝑅 2 terbesar adalah model terbaik dari kelompok model dengan dua peubah. Peubah ketiga kemudian dipilih yang memberikan 𝑅 2 terbesar, dengan cara mengganti suatu peubah dalam model dengan yang lainnya yang berada diluar dipilih model tiga peubah yang memberikan 𝑅 2 terbesar. Metode ini dilanjutkan sehingga diperoleh model dengan tiga peubah dengan 𝑅 2 terbesar dan seterusnya. 4.9.

Statistik Cp-Mallows Statistik Cp-Mallows merupakan nilai dugaan yang didapat dari persamaan

regesi berdasarkan sebagian peubah bebas pada umumnya bias. Model statistik CpMallows dengan 𝑝 parameter adalah: 𝐶𝑝 =

𝐽𝐾𝑆𝑝 𝑆2

− (𝑛 − 2𝑝)

[4.7]

Keterangan: JKSp

=

Jumlah kuadrat sisaan dari model yang ditentukan

𝑆2

=

Estimasi variansi sisaan 𝑆 2

𝑛

=

Banyaknya observasi

𝑝

=


Perhatikan bahwa 𝑆 2 pada persamaan (4.7) diambil dari model yang lengkap sehingga untuk model ini selalu diperoleh 𝐶𝑝 = 𝑝, seolah-olah model tersebut tidak bias. Nilai Cp berkaitan sangat erat dengan R2-disesuaikan, sehingga apabila R2disesuaikan maka Cp juga dengan sendirinya dapt dihitung sehingga tidak ada tambahan informasi yang diberikan Cp. Jika ketiga patokan yang telah diberikan, R2-disesuaikan, rataan kuadrat sisa dan Cp ternyata berkaitan erat satu sama lain sehingga sesungguhnya ketiganya memberikan informasi yang sama. 4.10. Identifikasi Model Regresi Proses identifikasi dalam regresi menjadi salah langkah penting yang harus dilakukan dalam analisis regresi. Identifikasi dalam regresi dimaksudkan untuk mengetahui karakteristik data yang ada apakah dapat diregresikan atau tidak, mengetahui hubungan antara variabel independen terhadap variabel dependen, mengidentifikasi adanya data outlier serta faktor lain dari data yang dapat mempe-

9

ngaruhi atau bahkan menghambat dalam proses analisis regresi. Proses identifikasi bertujuan untuk menentukan metode serta langkah-langkah yang sesuai diterapkan pada data penelitian yang tersedia. 4.11. Estimasi Model Regresi Metode yang digunakan untuk mengestimasi fungsi regresi adalah metode pendekatan kuadrat terkecil (least square approach). Melalui metode ini peneliti bermaksud memperkecil jumlah kuadrat error yang terjadi (error total merupakan selisih antara nilai aktual dengan nilai yang diprediksi melalui model regresi). Estimasi model dimulai dengan menentukan variabel independen yang akan masuk dalam persamaan regresi. Salah satu pendekatan yang dapat dan sering digunakan dalam pemilihan model terbaik adalah pendekatan sequensial regression. Selain itu ada dua pendekatan lain yaitu all possible regression dan best subset regression. Metode-metode yang biasa digunakan dalam penentuan model regresi terbaik adalah sebagai berikut: 4.11.1. Semua Kemungkinan Regresi (All Possible Regression) Metode semua kombinasi yang mungkin adalah metode yang umumnya digunakan. Di dalam metode tersebut ada beberapa kriteria yang digunakan yaitu R2 yang disesuaikan, S2 (rataan kuadrat sisa) dan Cp Mallows. Penentuan persamaan mana yang terbaik untuk dipilih dilakukan melalui evaluasi pola-pola yang teramati. Pilih model terbaik diantara semua kemungkinan berdasarkan berbagai suatu kriteria tertentu. Untuk menentukan model yang terbaik dapat digunakan kombinasi dari beberapa kriteria. Namun prosedur ini cenderung tidak praktis karena harus memeriksa semua kemungkinan, itu juga berarti bahwa kita harus memeriksa sejumlah besar persamaan regresi yang ada. 4.11.2. Regresi “Himpunan Bagian Terbaik” (Best Subset Regression) Sekarang dengan sudah tersedia solusi komputer yang sangat cepat untuk memilih himpunan bagian terbaik dari variabel-variabel peramal Xi dalam analisis regresi berganda. Tiga kriteria dapat digunakan untuk menentukan himpunan bagian terbaik yaitu nilai R2 maksimum, nilai R2 terkoreksi maksimum dan statistik

10

Cp Mallows. Prosedur Best Subset Regression memiliki beberapa kelemahan: (1) Cenderung menghasilkan persamaan regresi dengan terlalu banyak peramal. (2) Jika K diambil terlalu kecil, persamaan regresi yang paling masuk akal untuk dipilih mungkin malah tidak muncul dalam himpunan ‘K terbaik’, meskipun mengkin muncul ditempat lain. (3) Belum ada informasi tercetak yang dengan mudah dapat diperoleh mengenai bagaimana berbagai himpunan bagian tersebut diperoleh. 4.11.3. Prosedur Eliminasi Langkah Maju (Forward Elimination Procedure) Metode seleksi maju adalah langkah maju di mana peubah bebas dimasukkan satu demi satu menurut urutan besar pengaruhnya terhadap model, dan berhenti bila semua yang memenuhi syarat telah masuk. Dimulai dengan memeriksa matriks

korelasi

kemudian mengambil

peubah bebas

yang

menghasilkan koefisien korelasi maksimum, dan tidak dipersoalkan apakah korelasi positif atau negatif karena yang diperhatikan hanyalah eratnya hubungan antara suatu peubah bebas dengan Y sedangkan arah hubungan tidak menjadi persoalan. Bila nilai Fhitung lebih kecil dari yang ditetapkan untuk pemasukan peubah bebas ke dalam model maka 𝑋𝑗 tidak jadi masuk, begitu juga sebaliknya. Persamaannya dari prosedur eliminasi langkah maju adalah sebagai berikut: 𝐹=

𝐽𝐾𝑅 (𝑋𝑗 |𝑋𝑖 ) 𝑠2

(𝑋𝑖 ,𝑋𝑗 )

=

𝐽𝐾𝑅 (𝑋𝑖 ,𝑋𝑗 )−𝐽𝐾𝑅 (𝑋𝑗 ) 𝑠2 (𝑋𝑖 ,𝑋𝑗 )

[4.8]

Keterangan: JKR

=

Jumlah kuadrat regresi

𝑆2

=

Rataan kuadrat sisa

𝑋𝑖 , 𝑋𝑗

=

Peubah bebas ke i dan ke j

4.11.4. Prosedur Eliminasi Langkah Mundur (The Backward Elimination) Metode eliminasi langkah mundur lebih ekonomis dibandingkan dengan metode ‘semua kemungkinan regresi’ dalam pengertian bahwa metode ini mencoba memeriksa hanya regresi terbaik yang mengandung sejumlah tertentu peubah primal. Langkah-langkah pokok dalam prosedur ini adalah sebagai berikut: a. Menghitung persamaan regresi yang mengandung semua peubah peramal.

11

b. Menghitung nilai-F parsial untuk setiap peubah peramal, seolah-olah ia merupakan peubah terakhir yang dimasukan ke dalam persamaan regresi. c. Membandingkan nilai-F parsial terendah, misalnya FL, dengan nilai-F bertaraf nyata dari tabel, misalnya F0. Jika FL < F0, dibuang peubah ZL, yang menghasilkan FL dari persamaan regresi dan kemudian hitung kembali persamaan regresi tanpa menyertakan peubah tersebut; selanjutnya kembali ke langkah (b). Sedangkan jika FL > F0 ambilah persamaan regresi itu. 4.11.4. Prosedur Regresi Bertatar (The Stepwise Reggression Procedure) Prosedur regresi Stepwise adalah salah satu metode untuk mendapatkan model terbaik dari sebuah analisis regresi. Secara definisi adalah gabungan antara metode forward dan backward, variabel yang pertama kali masuk adalah variabel yang korelasinya tertinggi dan signifikan dengan variabel dependen, variabel yang masuk kedua adalah variabel yang korelasi parsialnya tertinggi dan masih signifikan, setelah variabel tertentu masuk ke dalam model maka variabel lain yang ada di dalam model dievaluasi, jika ada variabel yang tidak signifikan maka variabel tersebut dikeluarkan. 4.11.5. Metode PRESS (Prediction Sum of Square) Metode PRESS (Prediction Sum of Square) merupakan bentuk crossvalidasi yang digunakan dalam analisis regresi untuk memberikan ukuran ringkasan fit dari model untuk sampel pengamatan yang sendiri tidak digunakan untuk memperkirakan model. Hal ini dihitung sebagai jumlah kuadrat dari residual prediksi untuk pengamatan mereka. Penggunaan pengamatan dengan pengecualian pengamatan ke i untuk memprediksikan respons pengamatan ke i dan yi, selanjutnya selisih antara yi dengan prediksi dikuadratkan lalu jumlahkan untuk i = 1,2, ... , n (Allen,1974). Lambang PRESSP menyatakan bahwa model dengan p parameter yang digunakan. Adapun rumusnya yaitu: PRESSp = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂(i) )2

12

[4.9]

Model yang baik adalah model yang menghasilkan PRESSP yang kecil dalam kelompok p parameter. Sesunggunya metode ini merupakan gabungan dari semua kombinasi yang mungkin, prediksi dan analisis sisa. 4.12. Validasi Model Regresi a.

Melakukan uji asumsi klasik Uji asumsi klasik meliputi uji normalitas dengan mempertimbagkan hasil

uji Kolmogorov Smirnov, uji autokorelasi dengan membertimbangkan nilai Durbin Watson (DW), uji heteroskedastisitas dengan melakukan uji glesjer, serta uji multikolinieritas dengan menghitung nilai Variance Inflating Factor (VIF). b.

Menerapkan model ini ke dalam sampel lainnya. Sampel lainnya di sini dapat diperoleh dari sampel baru atau sampel yang

diambil sebagai bagian dari sampel terdahulu. Jika data-data baru sukar untuk diperoleh, peneliti dapat menggunakan data awal dengan membagi dua data tersebut secara random. Dengan demikian, sebelum analisis regresi dilakukan akan terdapat dua set data. Set data pertama digunakan untuk membangun model, sedangkan set data kedua digunakan untuk menguji validitas model. c.

Membandingkan beberapa model regresi Cara ini dilakukan dengan membandingkan suatu model regresi terhadap

model-model regresi lainnya dengan jumlah variabel independen dan atau ukuran sampel yang berbeda. Perbandingan dilakukan berdasarkan nilai adjusted R2. 4.13. Interpretasi Model Regresi Interpretasi dilakukan dengan menganalisis koefisien regresi yang terbentuk dari model regresi. Koefisien regresi dalam hal ini merupakan bobot yang dimiliki oleh setiap variabel independen dalam persamaan regresi. Akan tetapi, koefisien regresi yang besar pada suatu variabel tidak mengindikasikan bahwa variabel yang bersangkutan menjadi lebih penting. Untuk membandingkan tingkat kepentingan tersebut, peneliti harus menggunakan koefisien beta. Beta merupakan koefisien regresi yang sudah distandarisasikan. Hal ini berarti setiap koefisien tidak lagi mengandung satuan pengukuran variabel independennya, melainkan sudah memiliki satuan pengukuran yang sama dan digunakan sebagai bahan perbandingan.

13

V.

PEMBAHASAN Dalam penelitian ini, data yang digunakan adalah data Apendiks B, yang

berasal dari buku A. Hald Statistical Theory with Engineering Application yang diterbitkan oleh Wiley, New York, Pada 1952. Dimana data tersebut bertujuan untuk meneliti pengaruh beberapa senyawa kimia terhadap tingkat panas semen per gram. Data tersebut memiliki empat peubah peramal (X1, X2, X3 dan X4). Masalah ini terutama dipilih karena mengilustrasikan beberapa kesulitan tipikal yang biasanya terjadi dalam masalah regresi. Oleh karenanya, pada bagian pembahasan ini, penulis akan menjabarkan bagaimana menentukan model regresi terbaik dari data yang ada dengan menggunakan beberapa metode pemilihan model regresi terbaik. Beberapa metode yang digunakan yaitu All Possible Regression, Best Subset Regression dan Sequensial Regression. Data Apendiks B termuat pada Tabel 4.1 berikut: Tabel 4.1 Data Penelitian Apendiks B No 1 2 3 4 5 6 7 8 9 10 11 12 13 Dimana :

X1 7.0 1.0 11.0 11.0 7.0 11.0 3.0 1.0 2.0 21.0 1.0 11.0 10.0

X2 26.0 29.0 56.0 31.0 52.0 55.0 71.0 31.0 54.0 47.0 40.0 66.0 68.0

X3 6.0 15.0 8.0 8.0 6.0 9.0 17.0 22.0 18.0 4.0 23.0 9.0 8.0

X1 =

Kadar 3CaO.Al2O3

X2 =

Kadar 3CaO.SiO3

X3 =

Kadar 4CaO.Al2O3.Fe2O3

X4 =

Kadar 2CaO.SiO3

Y

Panas /gr semen

=

14

X4 60.0 52.0 20.0 47.0 33.0 22.0 6.0 44.0 22.0 26.0 34.0 12.0 12.0

Y 78.5 74.3 104.3 87.6 95.9 109.2 102.7 72.5 93.1 115.9 83.8 113.3 109.4

5.1.

Semua Kemungkinan Regresi (All Possible Regression) Metode ini mengharuskan pengecekan kombinasi peubah yang dapat dibuat.

Pemilihan model regresi terbaik dengan metode All Possible Regression, tidak mungkin dilakukan tanpa bantuan komputer. Karena untuk dapat mengambil kesimpulan terhadap pemilihan model terbaik baru bisa dilakukan ketika kriteriakriteria pada metode All Possible Regression sudah diperoleh nilainya. Dalam menilai kebaikan suatu kombinasi atau peubah bebas biasanya sering menggunakan kriteria R2 yang disesuaikan (𝑅̅ 2 ), kuadrat tengah galat (s2) dan Cp dari Mallows. Setelah nilai dari setiap kriteria sudah didapatkan, penentuan model terbaik diperoleh dengan cara melakukan evaluasi seluruh kemungkinan model. Pilih model terbaik diantara semua kemungkinan berdasarkan berbagai suatu kriteria tertentu. Berdasarkan data tabel 4.1, nilai kriteria dari setiap peubah terlihat seperti Tabel 4.2 berikut: Tabel 4.2 Kriteria All Possible Regression No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Peubah dalam Model X1 X2 X3 X4 X1, X2 X1, X3 X1, X4 X2, X3 X2, X4 X3, X4 X1, X2, X3 X1, X2, X4 X1, X3, X4 X2, X3, X4 X1, X2, X3, X4

R2

R2adj

s2

Cp

53,4 66,6 28,6 67,5 97,9 54,8 97,2 84,7 68,0 93,5 98,2 98,2 98,1 97,3 98,2

49,2 63,6 22,1 64,5 97,4 45,8 96,7 81,6 61,6 92,2 97,6 97,6 97,5 96,4 97,4

115,10 82,40 176,30 80,40 5,80 122,70 7,50 41,50 86,90 17,60 5,35 5,33 5,65 8,20 5,98

199,82 140,67 310,95 136,64 2,41 195,55 5,55 61,56 136,40 22,13 3,07 3,07 3,51 7,10 5,07

Berdasarkan tabel 4.2 terlihat nilai R2, R2adj, s2 dan Cp dari setiap peubah dalam model. Untuk menentukan peubah mana yang masuk model, maka dilakukan evaluasi dari seluruh kemungkinan. Untuk menentukan peubah yang masuk pada model berdasarkan kriteria R2 dan R2adj ditentukan dengan mencari nilai R2 dan R2adj

15

terbesar dari seluruh observasi. Sedangkan untuk menentukan peubah yang masuk model berdasarkan kriteria s2 dan Cp ditentukan dengan cara mencari nilai s2 dan Cp terkecil dari observasi yang ada. Pada tabel 4.2 dapat disimpulkan bahwa X1, X2, dan X4 adalah peubah-peubah yang masuk model berdasarkan metode All Possible Regression. Jadi, model terbaik dari data Apendiks B nantinya adalah model yang mengandung peubah X1, X2, dan X4. Secara umum, analisis All Possible Regression sangat tidak dianjurkan. Karena harus memeriksa semua kemungkinan. Hal tersebut memerlukan waktu dan tenaga yang cukup banyak. Oleh sebab itu, penggunaan metode ini jarang dilakukan dalam memilih model regresi terbaik. 5.2.

Regresi “Himpunan Bagian Terbaik” (Best Subset Regression) Pemilihan model regresi terbaik dengan menggunakan metode Best Subset

Regression biasanya berdasarkan 3 (tiga) kriteria, yaitu nilai R2 maksimum, nilai R2 terkoreksi maksimum dan statistik Cp-Mallows. Untuk menentukan himpunan mana yang termasuk pada model terbaik dapat dilakukan dengan menggunakan data yang diperoleh pada metode All Possible Regression, kemudian tentukan peubah yang masuk kriteria berdasarkan banyaknya peubah dalam model seperti Tabel 4.3 berikut: Tabel 4.3 Kriteria Best Subset Regression Banyak Peubah Peubah dalam dalam model model X2 1 – Peubah X4 X1, X2 2 – Peubah X1, X4 X1, X2, X3 3 – Peubah X1, X2, X4 4 – Peubah X1, X2, X3, X4

R2

s2

R2adj

Cp

66.6 67.5 97.9 97.2 98.2 98.2 98.2

82.4 80.4 5.8 7.5 5.35 5.33 5.98

63.6 64.5 97.4 96.7 97.6 97.6 97.4

140.67 136.64 2.41 5.55 3.07 3.07 5.07

Setelah diperoleh peubah-peubah yang masuk ke dalam model berdasarkan himpunan banyaknya peubah, maka untuk menentukan peubah-peubah yang masuk model dapat dilakukan dengan melakukan evaluasi pada himpunan model yang telah terseleksi dari Tabel 4.2, untuk kemudian diringkas seperti yang terlihat pada

16

Tabel 4.3 diatas. Seperti halnya memilih persamaan regresi terbaik dengan menggunakan metode All Possible Regression, untuk menentukan peubah yang masuk pada model berdasarkan kriteria R2 dan R2adj ditentukan dengan mencari nilai R2 dan R2adj terbesar dari seluruh observasi. Sedangkan untuk menentukan peubah yang masuk model berdasarkan kriteria s2 dan Cp ditentukan dengan cara mencari nilai s2 dan Cp terkecil dari observasi yang ada. Pada Tabel 4.3 dapat disimpulkan bahwa ada 3 (tiga) peubah yang akan masuk model yaitu X1, X2, dan X4 berdasarkan metode Best Subset Regression. 5.3.

Metode Sekuesial Metode sekuesial pada memilihan model regresi terbaik memuat 3 (tiga)

prosedur didalamnya. Ketiga prosedur sekuesial yang dimaksud yaitu prosedur eliminasi langkah maju (The Backward Elimination Procedure), prosedur eliminasi langkah mundur (The Forward Elimination Procedure), dan prosedur regresi bertatar (The Stepwise Regression Procedure). 5.3.1. Prosedur Eliminasi Langkah Mundur (The Backward Elimination) Metode Backward bekerja dengan mengeluarkan satu per satu variabel prediktor yang tidak signifikan dan dilakukan terus menerus sampai tidak ada variabel prediktor yang tidak signifikan. Untuk menentukan persamaan model terbaik dari data Apendiks B, peneliti mengujinya menggunakan metode Enter pada SPSS yang bertujuan agar dapat diketahui proses pemilihan variabel peubah mana saja yang masuk pada model regresi secara satu per satu. Variabel bebas yang memiliki nilai sigifikansi terbesar dan koefisien korelasi parsial terkecil akan diuji pertama kali apakah akan dieliminasi atau tetap dipertahankan di dalam model.

Gambar 4.1 Nilai Coefficients X1, X2, X3 dan X4

Berdasarkan Gambar 4.1 variabel yang dieliminasi pertama yaitu X3. Dengan demikian, untuk sementara variabel yang masih dipertahankan dalam

17

model adalah X1, X2, dan X4. Kemudian dilakukan analisis regresi tanpa menambahkan X3. Sehingga diperoleh tabel anova X1, X2, dan X4 berikut:

Gambar 4.2 Tabel Anova X1, X2, dan X4

Hipotesis model regresi X1, X2, dan X4 : 1. Hipotesis

=

H0 : β0 = β1 = β2 = β4 = 0 (model tidak signifikan) H1 : Ada minimal satu i dimana βi ≠ 0 , i = 1,2,4 (model signifikan)

2. Tingkat Signifikasi

=

95% atau α = 0.05

3. Daerah Kritis

=

Tolak H0 jika sig. ≤ α atau [Fhitung > Ftabel]

4. Statistik Uji

=

Fhitung = 166.832 > Ftabel = 3.86 Sig. (2-tiled) [0.000] < α (0.05)

5. Keputusan

=

Karena nilai Fhitung > Ftabel dan olak H0 sig. < 0.05 maka keputusan tolak H0

6. Kesimpulan

=

Jadi, dengan nilai signifikansi 0.05 didapatkan kesimpulan bahwa model regresi Y terhadap X1, X2 dan X3 signifikan.

Hipotesis anova X1, X2, dan X4 menunjukan bahwa model yang terdiri dari variabel bebas X1, X2, dan X4 merupakan model yang signifikan. Namun karena masih terdapat variabel yang memiliki nilai signifikansi terbesar diantara variabel bebas yang lain maka pemilihan model terbaik masih harus dilanjutkan. Nilai coefficients dari X1, X2, dan X4 terlihat seperti Gambar 4.3 berikut:

Gambar 4.3 Nilai Coefficients X1, X2, dan X4

18

Setelah X1, X2, dan X4 dilakukan analisis regresi, nilai coefficient-nya mengalami perubahan seperti yang terlihat pada Gambar 4.3. Berdasarkan Gambar 4.3 ternyata masih terdapat variabel bebas yang memiliki korelasi parsial yang kecil, yaitu X4. Karena X4 memiliki korelasi terkecil dan nilai signifikansi terbesar maka X4 dieliminasi dari model regresi. Untuk melihat apakah apakah variabel X1 dan X2 signifikan maka dilakukan hipotesis berdasarkan tabel anova berikut:

Gambar 4.4 Tabel Anova X1, dan X2

Hipotesis model regresi X1, dan X2 : 1. Hipotesis

=

H0 : β0 = β1 = β2 = 0 (model tidak signifikan) H1 : Ada minimal satu i dimana βi ≠ 0 i = 1,2 (model signifikan)


=

95% atau α = 0.05

3. Daerah Kritis

=


4. Statistik Uji

=


5. Keputusan

=


6. Kesimpulan

=

Jadi, dengan nilai signifikansi 0.05 didapatkan kesimpulan bahwa model regresi Y terhadap X1 dan X2 signifikan.

Nilai coefficient yang terbentuk setelah dilakukan analisis regresi Y terhadap X1 dan X2, maka diperoleh hasil analisis seperti Gambar 4.5 berikut:

Gambar 4.5 Nilai Coefficients X1, dan X2

19

Uji Konstanta β0 berdasarkan nilai Coefficient : 1. Hipotesis

=

H0 : β0 = 0 (konstanta tidak signifikan) H1 : β0 ≠ 0 (konstanta signifikan)

2. Tingkat Signifikasi =

95% atau α = 5%

3. Daerah Kritis

=

Tolak H0 jika sig. (2-tiled) ≤ α

4. Statistik Uji

=

Sig. (2-tiled) [0.000] < α (0.05)

5. Keputusan

=

Karena nilai sig. < 0.05 maka tolak H0

6. Kesimpulan

=

Jadi, dengan nilai signifikansi 0.05 didapatkan kesimpulan bahwa konstanta model regresi adalah signifikan.

Uji Koefisien β1 berdasarkan nilai Coefficient : 1. Hipotesis

=

H0 : β1 = 0 (koefisien X1 tidak signifikan) H1 : β1 ≠ 0 (koefisien X1 signifikan)

2. Tingkat Signifikasi =

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.000] < α (0.05)

5. Keputusan

=


6. Kesimpulan

=

Jadi, dengan nilai signifikansi 0.05 didapatkan kesimpulan bahwa koefisien regresi X1 adalah signifikan.


=


2. Tingkat Signifikasi = 3. Daerah Kritis

=

95% atau α = 5% Tolak H0 jika sig. (2-tiled) ≤ α

4. Statistik Uji

=

Sig. (2-tiled) [0.000] < α (0.05)

5. Keputusan

=


6. Kesimpulan

=


20

Setelah X3 dan X4 dikeluarkan dari model regresi, ternyata model menjadi signifikan ketika model regresi hanya terdiri dari variabel bebas X1 dan X2, dengan demikian model regresi terbaik yang diperoleh dengan Backward Elimination Procedure adalah sebagai berikut: 𝑌̂ = 52.577 + 1.468 𝑋1 + 0.662 𝑋2 Nilai konstanta sebesar 52.577. Hal ini berarti bahwa jika jumlah kadar 3CaO.Al2O3 (X1) dan jumlah kadar 3CaO.SiO2 (X2) tetap atau tidak mengalami penambahan atau pengurangan, maka panas semen per gram (Y) memiliki nilai sebesar 52.577. Nilai koefisien jumlah kadar 3CaO.Al2O3 (X1) sebesar 1.468. Hal ini mengandung arti bahwa setiap kenaikan panas semen per gram (Y) akan naik sebesar 1.468 dengan asumsi bahwa variabel bebas yang lain dari model regresi adalah tetap. Begitu halnya dengan nilai koefisien jumlah kadar 3CaO.SiO2 (X2) sebesar 0.662. Hal ini mengandung arti bahwa setiap kenaikan panas semen per gram (Y) akan naik sebesar 0.662 dengan asumsi bahwa variabel bebas yang lain dari model regresi adalah tetap. 5.3.2. Prosedur Eliminasi Langkah Maju (Forward Elimination Procedure) Kebalikan dari metode Backward Elimination Procedure, metode Forward adalah pemodelan dimulai dari nol peubah (empty model), kemudian satu persatu peubah dimasukan sampai kriteria tertentu terpenuhi. Untuk menentukan variabel mana yang akan masuk pertama pada model, maka diuji korelasinya terlebih dahulu. Hasil uji korelasi X1, X2, X3, dan X4 terlihat seperti gambar berikut:

Gambar 4.6 Nilai Korelasi X1, X2, X3 dan X4

21

Dari hasil analisis korelasi diatas diketahui bahwa variabel bebas yang mempunyai korelasi paling besar dengan variabel dependen adalah X4, maka X4 akan di regresikan dengan Y untuk menentukan apakah masuk dalam model atau tidak. Hasil uji regresi terlihat sebagai berikut:

Gambar 4.7 Tabel Anova dan Nilai Coefficient X4 terhadap Y

Hipotesis model regresi X4 berdasarkan tabel Anova : 1. Hipotesis

=

H0 : β4 = 0 (model tidak signifikan) Hi : β4 ≠ 0 (model signifikan)


=

3. Daerah Kritis

=

95% atau α = 0.05 Tolak H0 jika sig. ≤ α atau [Fhitung > Ftabel]

4. Statistik Uji

=


5. Keputusan

=

Karena nilai Fhitung > Ftabel dan tolak H0 sig. < 0.05 maka keputusan tolak H0

6. Kesimpulan

=

Jadi, dengan nilai signifikansi 0.05 didapatkan kesimpulan bahwa model regresi Y terhadap X4 signifikan, maka X4 masuk dalam model.


=



=

95% atau α = 5%

3. Daerah Kritis

=


22

4. Statistik Uji

=

Sig. (2-tiled) [0.000] < α (0.05)

5. Keputusan

=


6. Kesimpulan

=



=



=

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.001] < α (0.05)

5. Keputusan

=


6. Kesimpulan

=


Kemudian proses pemilihan model regresi terbaik dari data Apendiks B dilanjutkan dengan menguji korelasi dengan X4 sebagai variabel kontrol. Hasil uji korelasinya dalah sebagai berikut:

Gambar 4.8 Nilai Korelasi X1, X2, X3 terhadap X4

Variabel bebas yang memiliki korelasi terbesar adalah X1, dengan begitu maka X1 akan diregresikan dengan Y dan variabel bebas yang telah masuk sebelumnya pada model X4. Hasil regresinya adalah berikut:

23

Gambar 4.9 Tabel Anova dan Nilai Coefficient X1 dan X4 terhadap Y

Hipotesis model regresi X1 dan X4 berdasarkan tabel Anova: 1. Hipotesis

=

H0 : βi = 0 (model tidak signifikan) Hi : Ada minimal satu i dimana βi ≠ 0 i = 1,4 (model signifikan)


=

95% atau α = 0.05

3. Daerah Kritis

=


4. Statistik Uji

=


5. Keputusan

=


6. Kesimpulan

=

Jadi, dengan nilai signifikansi 0.05 didapatkan kesimpulan bahwa model regresi Y terhadap X1 dan X4 signifikan, maka X1 dan X4 masuk dalam model.


=



=

95% atau α = 5%

3. Daerah Kritis

=

Tolak H0 jika sig. (2-tiled) ≤ α Gagal tolak H0 jika sig. (2-tiled) > α

4. Statistik Uji

=

Sig. (2-tiled) [0.000] < α (0.05)

24

5. Keputusan

=


6. Kesimpulan

=



=



=

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.000] < α (0.05)

5. Keputusan

=


6. Kesimpulan

=



=



=

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.000] < α (0.05)

5. Keputusan

=


6. Kesimpulan

=


Proses pengujian variabel akan terus berlangsung selama H0 ditolak. Kemudian proses pemilihan model regresi terbaik dari data Apendiks B dilanjutkan lagi dengan menguji korelasi dengan X1 dan X4 sebagai variabel kontrol. Hasil uji korelasinya dalah sebagai berikut:

25

Gambar 4.10 Nilai Korelasi X2, X3 terhadap X4 dan X1

Dengan memperhatikan korelasi diatas, maka X2 akan masuk pada pengujian selanjutnya karena X2 memiliki korelasi terbesar jika dibandingkan dengan X3. Berikut hasil pengujian regresi Y terhadap X1, X2 dan X4 :

Gambar 4.11 Hasil Analisis Regresi Y terhadap X1, X2, dan X4

Hipotesis model regresi X1, X2 dan X4 berdasarkan tabel Anova : 1. Hipotesis

=

H0 : βi = 0 (model tidak signifikan) Hi : Ada minimal satu i dimana βi ≠ 0 i = 1,2,4 (model signifikan)


=

95% atau α = 0.05

3. Daerah Kritis

=


4. Statistik Uji

=


5. Keputusan

=


6. Kesimpulan

=

Jadi, dengan nilai signifikansi 0.05 didapatkan kesimpulan bahwa model regresi Y terhadap X1,

26

X2 dan X4 signifikan, maka X1, X2 dan X4 masuk dalam model. Setelah X1, X2, dan X4 dilakukan analisis regresi, nilai coefficient-nya mengalami perubahan seperti yang terlihat pada Gambar 4.11. Untuk mengetahui koefisien X1, X2, dan X4 signifikan terhadap model maka dilakukan analisis berikut: Uji Konstanta β0 berdasarkan nilai Coefficient : 1. Hipotesis

=



=

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.001] < α (0.05)

5. Keputusan

=


6. Kesimpulan

=



=



=

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.000] < α (0.05)

5. Keputusan

=


6. Kesimpulan

=



=


27


=

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.052] > α (0.05)

5. Keputusan

=

Karena nilai sig. > 0.05 maka gagal tolak H0

6. Kesimpulan

=

Jadi, dengan nilai signifikansi 0.05 didapatkan kesimpulan bahwa koefisien regresi X2 adalah tidak signifikan.


=



=

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.205] > α (0.05)

5. Keputusan

=


6. Kesimpulan

=


Dengan hasil diatas terlihat ketika X2 masuk pada model regresi, nilai koefisien menjadi berubah dan membuat koefisien yang telah masuk sebelumnya menjadi tidak signifikan. Oleh sebab itu maka proses terhenti, sehingga tidak perlu dilanjutkan untuk penguji variabel X3. Jadi model terbaik dari data Apendiks B menurut metode Forward Regression adalah 𝑌̂ = 71.648 + 1.452 𝑋1 + 0.416 𝑋2 − 0.237 𝑋4 Nilai konstanta sebesar 71.6748. Hal ini berarti bahwa jika jumlah kadar 3CaO.Al2O3 (X1), jumlah kadar 3CaO.SiO2 (X2) dan jumlah kadar 2CaO.SiO2 (X4) tetap atau tidak mengalami penambahan atau pengurangan, maka panas semen per gram (Y) memiliki nilai sebesar 71.648. Nilai koefisien jumlah kadar 3CaO.Al2O3 (X1) sebesar 1.452. Hal ini mengandung arti bahwa setiap kenaikan panas semen

28

per gram (Y) akan naik sebesar 1.452 dengan asumsi bahwa variabel bebas yang lain dari model regresi adalah tetap. Begitu halnya dengan nilai koefisien jumlah kadar 3CaO.SiO2 (X2) sebesar 0.416. Hal ini mengandung arti bahwa setiap kenaikan panas semen per gram (Y) akan naik sebesar 0.416 dengan asumsi bahwa variabel bebas yang lain dari model regresi adalah tetap. Sedangkan nilai koefisien untuk jumlah kadar 2CaO.SiO2 (X4) sebesar 0.237 dan bernilai negatif, hal ini menunjukan bahwa jumlah kadar 2CaO.SiO2 (X4) mempunyai hubungan yang berlawanan arah dengan variabel panas semen per gram (Y). Koefisien jumlah kadar 2CaO.SiO2 (X4) berarti bahwa setiap kenaikan panas semen per gram (Y) akan turun sebesar 0.237 dengan asumsi bahwa variabel bebas yang lain dari model regresi adalah tetap (konstan). 5.3.3. Prosedur Regresi Bertatar (The Stepwise Regression Procedure) Stepwise Regression Procedure dimulai dengan memasukan variabel bebas yang mempunyai korelasi paling kuat dengan variabel dependen. Kemudian setiap kali pemasukan variabel bebas yang lain, dilakukan pengujian untuk tetap memasukan variabel bebas atau mengeluarkannya. Korelasi dari variabel dependen dan independen adalah sebagai berikut:

Gambar 4.12 Korelasi X1, X2, X3 dan X4

Bedasarkan Gambar 4.12, variabel yang pertama kali masuk adalah variabel X4 karena memiliki korelasinya tertinggi dan signifikan dengan variabel dependen. Kemudian variabel X4 diregresikan dengan variabel Y, hasil regresinya adalah sebagai berikut:

29

Gambar 4.13 Nilai Regresi X4 terhadap Y

Hipotesis model regresi X4 berdasarkan tabel Anova : 1. Hipotesis

=

H0 : β4 = 0 (model tidak signifikan) H1 : β4 ≠ 0 (model signifikan)


=

95% atau α = 0.05

3. Daerah Kritis

=


4. Statistik Uji

=


5. Keputusan

=


6. Kesimpulan

=

Jadi, dengan nilai signifikansi 0.05 didapatkan kesimpulan bahwa model regresi X4 terhadap Y signifikan, maka X4 masuk dalam model.

Setelah dinyatakan bahwa variabel X4 masuk pada model regresi, kemudian proses pemilihan model regresi terbaik dari data Apendiks B dilanjutkan dengan menguji korelasi X1, X2, X3 dan Y dengan X4 sebagai variabel kontrol. Hasil /uji korelasinya dalah sebagai berikut:

Gambar 4.14 Nilai Korelasi Parsial X1, X2, X3, Y

30

Berdasarkan hasil korelasi parsial diatas, variabel yang masuk kedua adalah variabel X1, karena korelasi parsialnya tertinggi dan signifikan terhadap Y, X1 dan X4 yang masuk pada model kemudian diregresikan terhadap Y. Hasil regresi X1 dan X2 adalah sebagai berikut:

Gambar 4.15 Hasil Regresi X1, X4 terhadap Y

Hipotesis model regresi X1, X4 berdasarkan tabel Anova : 1. Hipotesis

=



=

95% atau α = 0.05

3. Daerah Kritis

=


4. Statistik Uji

=


5. Keputusan

=


6. Kesimpulan

=

Jadi, dengan nilai signifikansi 0.05 didapatkan kesimpulan bahwa model regresi X1 dan X4 terhadap Y signifikan, maka X1 dan X4 masuk dalam model.

Kemudian langkah pemilihan model regresi terbaik dilanjutkan dengan menguji korelasi parsial variabel bebas X2 dan X3 dengan X1 dan X4 sebagai variabel kontrol. Hasil uji korelasi adalah sebagai berikut:

31

Gambar 4.16 Nilai Korelasi Parsial X2, X3, Y

Hasil korelasi parsial X2 dan X3 dengan variabel kontrol X4 dan X1 memperlihatkan bahwa korelasi X2 lebih besar dari X3. Sehingga X2 akan diuji regresi bersama X1, X4 terhadap Y. Hasil regresinya adalah sebagai berikut:

Gambar 4.17 Hasil Regresi X1, X2 dan X4 terhadap Y

Hipotesis model regresi X1, X2 dan X4 berdasarkan tabel Anova : 1. Hipotesis

=

H0 : βi = 0 (model tidak signifikan) Hi : Ada minimal satu i dimana βi ≠ 0 i = 1,2,4 (model signifikan)


=

95% atau α = 0.05

3. Daerah Kritis

=


4. Statistik Uji

=


5. Keputusan

=


6. Kesimpulan

=


32


=



=

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.001] < α (0.05)

5. Keputusan

=


6. Kesimpulan

=



=



=

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.000] < α (0.05)

5. Keputusan

=


6. Kesimpulan

=



=



=

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.052] > α (0.05)

5. Keputusan

=


33

6. Kesimpulan

=



=



=

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.205] > α (0.05)

5. Keputusan

=


6. Kesimpulan

=


Dari hasil hipotesis diatas, dapat disimpulkan bahwa ketika X2 masuk pada model, maka koefisien X2 dan X4. Menjadi tidak signifikan. Maka diantara kedua variabel tersebut harus dikeluarkan dari model. Untuk menentukan variabel mana yang akan keluar model dapat dilihat dari nilai signifikansi dan korelasi parsialnya. Variabel yang dikeluarkan dari model adalah variabel yang memiliki tingkat signifikansi terbesar dan memiliki korelasi parsial terkecil. Dari kedua variabel tersebut, X4 memiliki nilai sigifikansi terbesar dan korelasi parsial terkecil, maka X4 dikeluarkan dari model. Kemudian variabel yang tersisa yaitu X1 dan X2 di regresikan lagi terhadap Y sehingga diperoleh hasil berikut:

Gambar 4.18 Hasil Regresi X1, X2 terhadap Y

34

Hipotesis model regresi X1, dan X2 berdasarkan tabel Anova : 1. Hipotesis

=



=

95% atau α = 0.05

3. Daerah Kritis

=


4. Statistik Uji

=


5. Keputusan

=


6. Kesimpulan

=



=



=

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.000] < α (0.05)

5. Keputusan

=


6. Kesimpulan

=



=



=

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.000] < α (0.05)

35

5. Keputusan

=


6. Kesimpulan

=



=



=

95% atau α = 5%

3. Daerah Kritis

=


4. Statistik Uji

=

Sig. (2-tiled) [0.000] < α (0.05)

5. Keputusan

=


6. Kesimpulan

=


Setelah X4 dikeluarkan dari model regresi, ternyata model menjadi signifikan ketika model regresi hanya terdiri dari variabel bebas X1 dan X2. Karena X4 tidak signifikan, maka proses pemilihan model terbaik regresi tidak perlu dilanjutkan untuk menguji variabel X3, dengan demikian model regresi terbaik yang diperoleh dengan Backward Elimination Procedure adalah sebagai berikut: 𝑌̂ = 52.577 + 1.468 𝑋1 + 0.662 𝑋2 Nilai konstanta sebesar 52.577. Hal ini berarti bahwa jika jumlah kadar 3CaO.Al2O3 (X1) dan jumlah kadar 3CaO.SiO2 (X2) tetap atau tidak mengalami penambahan atau pengurangan, maka panas semen per gram (Y) memiliki nilai sebesar 52.577. Nilai koefisien jumlah kadar 3CaO.Al2O3 (X1) sebesar 1.468. Hal ini mengandung arti bahwa setiap kenaikan panas semen per gram (Y) akan naik sebesar 1.468 dengan asumsi bahwa variabel bebas yang lain dari model regresi adalah tetap. Begitu halnya dengan nilai koefisien jumlah kadar 3CaO.SiO2 (X2) sebesar 0.662. Hal ini mengandung arti bahwa setiap kenaikan panas semen per gram (Y) akan naik sebesar 0.662 dengan asumsi bahwa variabel bebas yang lain dari model regresi adalah tetap.

36

Setelah model terbaik dari data Apendiks B diperoleh. Langkah selanjutnya dilakukan validasi model yang diperoleh dengan melakukan uji asumsi. Uji asumsi merupakan persyaratan yang harus dipenuhi dalam analisis regresi linier berganda yang berbasis ordinary least square (OLS). Tujuan pengujian asumsi klasik adalah untuk memberikan kepastian atau validasi bahwa persamaan regresi yang didapatkan memiliki ketepatan dalam estimasi, tidak bias dan konsisten. Perlu diketahui, terdapat kemungkinan data aktual tidak memenuhi semua asumsi klasik ini. Beberapa perbaikan, baik pengecekan kembali data outlier maupun recollecterror data dapat dilakukan. Uji asumsi klasik meliputi uji multikolinearitas, uji autokorelasi, uji heteroskedastisitas, dan uji normalitas. a.

Uji Asumsi Multikolinieritas Tujuan digunakannya uji multikolinieritas adalah untuk menguji apakah

pada model regresi ditemukan adanya korelasi antar variabel independen. Jika terdapat atau terjadi korelasi, maka dinamakan terdapat problem multikolinieritas (multiko). Model regresi yang baik seharusnya tidak terjadi korelasi di antara variabel independen. Dari data Apendiks B yang menganalisa pengaruh beberapa senyawa kimia terhadap tingkat panas semen per gram, analisis uji asumsi multikolinearitasnya adalah sebagai berikut:

Gambar 4.19 Hasil Coefficients

Dari Gambar 4.19 menunjukkan bahwa tidak ada variabel independen yang memiliki nilai Tolerance kurang dari 0,05 yang berarti tidak ada korelasi antar variabel independen. Dengan demikian dapat dikatakan bahwa tidak terjadi multikolinearitas. Multikolinieritas juga diuji dengan menghitung nilai VIF (Variance Inflating Factor). Bila nilai VIF = 1 menunjukan tidak ada korelasi antar peubah penjelas. Jika nilai VIF tidak melebihi 10 maka dapat dikatakan bahwa data terbebas dari multikoineritas. Pada Gambar 4.19 semua nilai VIF pada tabel

37

Coefficients menunjukkan angka 1.055. Dengan demikian dapat disimpulkan bahwa model pada penelitian ini memenuhi syarat untuk menjadi model regresi yang baik karena tidak terjadi korelasi antar variabel independen. b.

Uji Asumsi Autokorelasi Uji autokorelasi bertujuan untuk menguji apakah dalam model regresi linear

ada korelasi antara kesalahan pengganggu pada periode t dengan kesalahan pengganggu pada periode sebelumnya (t-1). Jika terjadi korelasi, maka dinamakan ada problem autokorelasi. Analisisnya adalah sebagai berikut:

Gambar 4.20 Hasil Coefficients

Data Apendiks B sebanyak 13 sampel untuk setiap variabel (n) dengan 2 variabel independen (k) yang masuk kedalam model, maka diperoleh hipotesis berikut: 1. Hipotesis

= Ho : Tidak terdapat autokorelasi Hi : Terdapat autokorelasi


= 95% atau α = 5%

3. Daerah Kritis

= Tolak H0 jika 0 < DW
4. Statistik Uji

= du < DW < 4 - du 1.5621 < 1.922 < 2.4379 ------- Terima H0

5. Keputusan

= Terima H0

6. Kesimpulan

= Dengan signifikansi 0.05 maka terima H0 karena nilai Dorbin Watson du < DW < 4 - du yaitu 1.5621 < 1.922 < 2.4379, artinya tidak terdapat autokorelasi.

38

c.

Uji Asumsi Normalitas Uji ini bertujuan untuk menguji apakah dalam sebuah model regresi,

variabel independen, variabel dependen, atau keduanya mempunyai distribusi normal atau tidak. Suatu model regresi yang baik adalah yang memiliki distribusi data normal atau mendekati normal. Secara eksplorasi, pemeriksaan terhadap asumsi kenormalan dapat dilakukan dengan histogram maupun plot normal. Jika kurva normal setangkup atau plot normal mendekati garis lurus, maka sisaan menyebar normal, seperti gambar berikut:

Gambar 4.21 Grafik Histogram dari Data Apendiks B

Gambar 4.22 Grafik P-Plot dari Data Apendiks B

Dengan melihat tampilan grafik Histogram maupun grafik Normal P-Plot of Regression Standardized Residual dapat disimpulkan bahwa grafik histogram memberikan pola distribusi yang normal. Sedangkan pada grafik normal plot, terlihat titik-titik menyebar disekitar garis normal. Kedua grafik ini menunjukkan bahwa model regresi tidak menyalahi asumsi normalitas. Jadi dapat disimpulkan bahwa model regresi pada penelitian ini memenuhi syarat untuk menjadi model

39

regresi yang baik karena merupakan model regresi yang memiliki distribusi data normal atau mendekati normal. Pengujian lain yang dapat dilakukan yaitu dengan uji Kolmogorov Smirnov, berikut adalah hasil pengujian Kolmogorov Smirnov terlihat seperti gambar berikut:

Gambar 4.23 Hasil Uji Kolmogorov Smirnov

Berdasarkan Gambar 4.23 hasil uji kolmogorov Smirnov maka diperoleh hipotesis berikut: 1. Hipotesis

=

Ho : Sisaan menyebar normal Hi : Sisaan tidak menyebar normal


=

95% atau α = 5%

3. Daerah Kritis

=

Tolak Ho jika sig. (2-tiled) ≤ α

4. Statistik Uji

=

sig. [0.335] > 0.05

5. Keputusan

=

Gagal Tolak H0

6. Kesimpulan

=

Dengan signifikansi 0.05 gagal tolak H0 karena nilai sig. [0.335] > 0.05 artinya sisaan dari model regresi menyebar normal.

d.

Uji Asumsi Heteroskedastisitas Uji ini bertujuan untuk menguji apakah dalam model regresi terjadi atau

terdapat ketidaksamaan varians dari residual dari satu pengamatan ke pengamatan yang lain. Jika varians dari nilai residual dari satu pengamatan ke pengamatan yang lain tetap, maka disebut dengan Homokedastisitas. Dan jika varians berbeda dari satu pengamatan ke pengamatan yang lainnya, maka disebut Heteroskedas-tisitas. Dari analilisis yang telah dilakukan diperoleh hasil berikut:

40

Gambar 4.24 Scatterplot dari Data Apendiks B

Dari grafik Scatterplot terlihat bahwa titik-titik menyebar secara acak. Uji asumsi heteroskedastisitas tidak hanya dapat dilakukan dengan melihat hasil Scatterplot, namun dapat dilakukan juga dengan uji Glejser. Hasil Coefficient baru dari uji Glejser adalah sebagai berikut:

Gambar 4.25 Hasil Coefficients Baru


= Ho : Terjadi heteroskedositas Hi : Tidak terjadi heteroskedositas

2. Tingkat Signifikasi = 95% atau α = 5% 3. Daerah Kritis

= Tolak Ho jika sig. (2-tiled) ≤ α

4. Statistik Uji

= Sig. (2-tiled) [0.811] > α (0.05)

5. Keputusan

= Gagal tolak H0

6. Kesimpulan

= Dengan signifikansi 0.05, terlihat bahwa nilai sig.X1 > α. Jadi dapat disimpulkan bahwa model regresi mengandung adanya heteroskedositas.


= Ho : Terjadi heteroskedositas Hi : Tidak terjadi heteroskedositas

41

2. Tingkat Signifikasi = 95% atau α = 5% 3. Daerah Kritis

= Tolak Ho jika sig. (2-tiled) ≤ α

4. Statistik Uji

= Sig. (2-tiled) [0.807] > α (0.05)

5. Keputusan

= Gagal tolak H0

6. Kesimpulan

= Dengan signifikansi 0.05, terlihat bahwa nilai sig.X2 > α. Jadi dapat disimpulkan bahwa model regresi mengandung adanya heteroskedositas.

Berdasarkan hasil validasi dengan menggunakan uji asumsi klasik, model terbaik untuk data Apendiks B adalah 𝑌̂ = 52.577 + 1.468 𝑋1 + 0.662 𝑋2, dimana pada uji asumsi klasik diatas menyatakan bahwa persamaan tersebut tidak terdapat korelasi antar variabel independen (non multikolonieritas), tidak terdapat autokorelasi, memenuhi asumsi normalitas sehingga sasaan dari regresi menyebar normal, namun pada persamaan regresi tersebut terjadi heteroskedastisitas. VI.

KESIMPULAN Berdasarkan metode-metode yang telah diujikan untuk menentukan model

regresi terbaik dari data Hald (Apendiks B), maka dapat disimpulkan bahwa model terbaik untuk data Hald adalah persamaan 𝑌̂ = 52.577 + 1.468 𝑋1 + 0.662 𝑋2 , persamaan ini diperoleh dengan menggunakan metode Backward Elimination dan metode Stepwise Procedure. Sedangkan jika pemilihan model regresi terbaik untuk data Hald menggunakan metode All Possible Regression, Best Subset Regression dan Forward Regression maka diperoleh persamaan 𝑌̂ = 71.648 + 1.452 𝑋1 + 0.416 𝑋2 − 0.237 𝑋4 . Persamaan tersebut menjadi kemungkinan model kedua. Namun model ini tidak sebaik model yang pertama, karena pada model kedua terdapat koefisien regresi yang bernilai negatif (X4) memiliki hubungan yang berlawanan arah. Prosedur terbaik yang digunakan untuk data Hald adalah pemilihan model terbaik menggunakan metode Backward Elimination dan metode Stepwise Procedure, karena metode ini lebih efektif dan akurat dibandingkan dengan metode lain yang dalam proses analisisnya membutuhkan waktu yang lama seperti metode All Possible Regression dan Best Subset Regression.

42

DAFTAR PUSTAKA Draper, N. dan Smith, H.1985. Applied Regression Analysis, ed. 2. John Wiley & Sons, New York. Sembiring, RK. 1995. Analisis Regresi Edisi Kedua. Bandung : ITB. Yozza, Hazmira. 2015. Pemilihan Model Terbaik. Diakses pada tanggal 15 Mei 2016 dari http://fmipa.ilearn.unand.ac.id/mod/resource/view.php?id=369

43

LOGBOOK KELOMPOK 4

Pertemuan

Kehadiran

Keterangan

1

Andre Pratama

Kegiatan :

Rifa Fitrianti

- Mencari data penelitian - Belajar memahami materi dengan tutor sebaya Ket. lain : Anggota kelompok yang bisa hadir hanya 2 orang, anggota yang lain berhalangan hadir.

2

Via Medsos

Kegiatan :

(semua hadir)

- Mengkonfirmasi data yang akan digunakan dalam makalah. - Pembagian kerja untuk mencari buku, jurnal atau sumber yang akan dijadikan referensi.

3

Via Medsos

Kegiatan :

(semua hadir)

- Pembagian pengerjaan makalah dan hasil pengerjaan dikirim melalui e-mail ke Rifa untuk selanjutnya di gabungkan.

4

5

6

Andre Pratama

Kegiatan :

Rifa Fitrianti

- Melakukan editing makalah.

Nurinayah

- Membuat powerpoint.

Via Medsos

Kegiatan :

(semua hadir)

- Pembagian materi presentasi.

Via E-mail

Kegiatan : - Melakukan revisi makalah.

44

Pemilihan Model Terbaik Regresi

Recommend Documents