UNIVERSITAS NEGERI MALANG FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM JURUSAN MATEMATIKA November 2012 BAB I PENDAHULUAN
1.1.Latar Belakang Multiple analysis regression atau Analisis regresi berganda adalah analisis regresi dengan dua atau lebih variabel bebas atau paling sedikitnya satu prediktor non linear. Analisis regresi berganda sangat bermanfaat untuk menyelesaikan masalah statistik. Berikut adalah salah satu contoh data dengan model regresi berganda. Dalam suatu Kabupaten/Kotamadya di Propinsi Jawa Timur diketahui bahwa tingkat pengangguran dipengaruhi tingkat pendidikan terakhir (Tidak/belum pernah sekolah, Tidak/belum tamat SD, SD/MI, SLTP sederajat, SMU sederajat, SMK sederajat, Perguruan Tinggi). Oleh karena itu, akan diselidiki adanya multikolinieritas yang disebabkan oleh salah satu atau lebih faktor yang mempengaruhinya. Untuk itu perlu salah satu metode untuk menyelesaikan masalah multikolinieritas. Dalam hal ini akan digunakan metode best subset regression untuk menyelesaikannya.Dari beberapa variabel di atas juga perlu dicari variabel yang paling berpengaruh terhadap jumlah gaji setiap karyawan, sehingga menghasilkan persamaan regresi yang paling baik dengan menggunakan metode best subset regression (regresi himpunan bagian terbaik).
1.2. Rumusan Masalah 1) Bagaimana cara mengidentifikasi adanya multikolinearitas? 2) Bagaimana cara mengatasi multikolinearitas dengan metode best subset regression? 3) Bagaimana model terbaik dari data yang dianalisis?
BAB II KAJIAN PUSTAKA
2.1. Analisis Regresi Linear Berganda Analisis regresi linier berganda merupakan bentuk umum, sedangkan regresi linier sederhana merupakan bentuk khusus dari regresi linier berganda yaitu apabila satu peubah bebas yang dilibatkannya. Dengan regresi linier berganda persamaan dalam X memberikan prediksi yang terbaik terhadap Y. Model regresi linier berbentuk Y = 0 + 1 X 1 + 2 X2 ++ k X k + Dengan Xi, i = 1,2,,k merupakan peubah bebas dan i , i=1,2,,k parameter regresi, dan sebagai error. Dan sebarang model yang tidak berbentuk seperti persamaan di atas disebut model tak linier. Jika pada suatu model regresi tersebut terdapat satu peubah bebas , maka model itu disebut regresi linier sederhana. Sedangkan jika terdapat lebih dari satu peubah bebas, maka model itu disebut regresi linier berganda. Dalam melakukan analisis harus diperhatikan beberapa asumsi yang mendasarinya: 1. Nilai harapan bersyarat galat yang disebabkan oleh peubah bebas X yang harus sama dengan nol. 2. Setiap galat yang disebabkan peubah bebas mempunyai varian yang sama. 3. Tidak ada multikolinieritas yang berarti tidak ada hubungan linier antara peubah bebas. Drapper and Smith (1992), menyatakan beberapa kriteria yang digunakan untuk melihat tepat tidaknya model regresi yang diperoleh, salah satunya yaitu dengan melihat koefisien determinasi berganda (Rk 2 ). Sebuah masalah penting dalam penerapan analisis regresi linier berganda adalah pemilihan peubah peubah bebas yang dapat digunakan dalam model agar diperoleh persamaan regresi terbaik yang mengandung sebagian atau seluruh peubah bebas. 2.2. Multikolinieritas Multikolinieritas ditemukan oleh Ragner Frisch yang berarti adanya hubungan linier yang sempurna atau pasti diantara beberapa atau semua variabel yang menjelaskan (X1, X2,,Xk) dari model regresi. Multikolinieritas adalah kejadian yang menginformasikan terjadinya hubungan antara variabel-variabel bebas Xi dan hubungan yang terjadi cukup besar. Hal ini akan menyebabkan perkiraan keberartian koefisien regresi yang diperoleh. Umumnya multikolinieritas dapat diketahui dari nilai koefisien korelasi yang sangat besar antara varibel-variabel bebas tersebut, misalkan antara X 1 dan X 2 , nilair 12 1. Akibat terjadinya multikolinieritas antara lain: 1) Nilai koefisien regresi berganda bias. 2) Terjadi perubahan tanda pada koefisien regresi berganda seharusnya positif menjadi negatif. Untuk mendeteksi adanya multikolinieritas digunakan beberapa metode yaitu: 1) Koefisien korelasi antara peubah bebas. Adanya multikolinieritas seringkali diduga apabila nilai R-sq cukup besar (antara 0,7 dan 1). 2) Dengan melihat elemen matrik korelasi. Jika korelasi antar variable bebas lebih besar daripada korelasi antara variabel bebas dan variabel terikatnya, menandakan adanya multikolinearitas
3) VIF (Variance Inflation Factor ) Jika nilai VIF lebih besar atau sama dengan 10, menandakan adanya multikolinieritas pada variabel bebas. 2.3. Best Subset Regression Regresi terbaik(best subset Regression) ini merupakan salah satu cara untuk mengatasi multikolinieritas yaitu dengan memilih variabel-variabel bebas yang dapat digunakan dalam model agar diperoleh persamaan regresi terbaik yang mengandung sebagian atau seluruh variabel bebas. Kriteria-kriteria yang dapat digunakan untuk menentukan variabel bebas yang digunakan sehingga diperoleh model terbaik untuk memilih dengan jumlah variabel yang dipilih yaitu: 1. Nilai R-Sq terbesar 2. Nilai R-Sq (Adj) terbesar 3. Nilai C-p terkecil 4. Nilai S terkecil
BAB III PEMBAHASAN
3.1 Data Berikut adalah data Pengaruh Tingkat Pengangguran terhadap Tingkat Pendidikan Terakhir di Kabupaten/Kotamadya Di Propinsi Jawa Timur pada tahun 2003.
Dari keterangan di atas dapat disimpulkan bahwa pada data di atas terdapat kasus multikolinieritas karena r X1X4 >r X4Y >r X1Y , r X1X6 >r X6Y >r X1Y , r X2X6 >r X6Y >r X2Y, r X4X6 >r X6Y >r X4Y, r X5X7 >r X7Y >r X5Y, serta r X6X7 >r X7Y >r X6Y. Setelah itu kita regresikan semua variable.
3.3 Analisis Regresi 1. Analisis Regresi Secara Keseluruhan Dengan menggunakan software Minitab 14, kemudian muncul window Regression. Pada window tersebut isikan: Response: Y Predictore: X1-X7 Storage: Standard Residual Option Display: Variance Inflation Factors
sehingga diperoleh : Regression Analysis: Y versus X1; X2; X3; X4; X5; X6; X7
The regression equation is Y = - 45 + 0,56 X1 + 0,43 X2 + 0,51 X3 + 0,49 X4 + 0,67 X5 + 0,87 X6 + 0,90 X7
Source DF SS MS F P Regression 7 139,311 19,902 4,08 0,005 Residual Error 22 107,317 4,878 Total 29 246,629
2. Analisis Regresi Secara Parsial Regression Analysis: Y versus X1
The regression equation is Y = 10,6 - 0,198 X1
Predictor Coef SE Coef T P Constant 10,5545 0,8849 11,93 0,000 X1 -0,19784 0,07573 -2,61 0,014
S = 2,66121 R-Sq = 19,6% R-Sq(adj) = 16,7%
Analysis of Variance
Source DF SS MS F P Regression 1 48,331 48,331 6,82 0,014 Residual Error 28 198,298 7,082 Total 29 246,629
Regression Analysis: Y versus X2
The regression equation is Y = 15,3 - 0,291 X2
Predictor Coef SE Coef T P Constant 15,306 1,655 9,25 0,000 X2 -0,29112 0,06968 -4,18 0,000
S = 2,32929 R-Sq = 38,4% R-Sq(adj) = 36,2%
Analysis of Variance
Source DF SS MS F P Regression 1 94,712 94,712 17,46 0,000 Residual Error 28 151,917 5,426 Total 29 246,629
Regression Analysis: Y versus X3
The regression equation is Y = 14,5 - 0,167 X3
Predictor Coef SE Coef T P Constant 14,474 3,523 4,11 0,000 X3 -0,16662 0,09922 -1,68 0,104
S = 2,82883 R-Sq = 9,1% R-Sq(adj) = 5,9%
Analysis of Variance
Source DF SS MS F P Regression 1 22,564 22,564 2,82 0,104 Residual Error 28 224,064 8,002 Total 29 246,629
Regression Analysis: Y versus X4
The regression equation is Y = 3,05 + 0,351 X4
Predictor Coef SE Coef T P Constant 3,054 1,749 1,75 0,092 X4 0,3511 0,1064 3,30 0,003
S = 2,51814 R-Sq = 28,0% R-Sq(adj) = 25,4%
Analysis of Variance
Source DF SS MS F P Regression 1 69,080 69,080 10,89 0,003 Residual Error 28 177,549 6,341 Total 29 246,629
Regression Analysis: Y versus X5
The regression equation is Y = 5,06 + 0,404 X5
Predictor Coef SE Coef T P Constant 5,0576 0,8312 6,08 0,000 X5 0,40410 0,08272 4,89 0,000
S = 2,18064 R-Sq = 46,0% R-Sq(adj) = 44,1%
Analysis of Variance Source DF SS MS F P Regression 1 113,48 113,48 23,87 0,000 Residual Error 28 133,15 4,76 Total 29 246,63
Regression Analysis: Y versus X6
The regression equation is Y = 5,22 + 0,700 X6
Predictor Coef SE Coef T P Constant 5,2162 0,8801 5,93 0,000 X6 0,6997 0,1592 4,39 0,000
S = 2,28314 R-Sq = 40,8% R-Sq(adj) = 38,7%
Analysis of Variance
Source DF SS MS F P Regression 1 100,67 100,67 19,31 0,000 Residual Error 28 145,96 5,21 Total 29 246,63
Regression Analysis: Y versus X7
The regression equation is Y = 5,13 + 1,35 X7
Predictor Coef SE Coef T P Constant 5,1295 0,8114 6,32 0,000 X7 1,3479 0,2732 4,93 0,000
S = 2,17081 R-Sq = 46,5% R-Sq(adj) = 44,6%
Analysis of Variance
Source DF SS MS F P Regression 1 114,68 114,68 24,34 0,000 Residual Error 28 131,95 4,71 Total 29 246,63
Dari analisis regresi secara keseluruhan dan ketujuh analisis regresi secara parsial di atas diperoleh hubungan linier antara peubah Y dan masing-masing peubah bebas X adalah sebagai berikut: 1. Y = - 45 + 0,56 X1 + 0,43 X2 + 0,51 X3 + 0,49 X4 + 0,67 X5 + 0,87 X6 + 0,90 X7 2. Y = 10,6 - 0,198 X1 3. Y = 15,3 - 0,291 X2 4. Y = 14,5 - 0,167 X3 5. Y = 3,05 + 0,351 X4 6. Y = 5,06 + 0,404 X5 7. Y = 5,22 + 0,700 X6 8. Y = 5,13 + 1,35 X7 Dari persamaan masing-masing hubungan Y dengan X terjadi perubahan tanda pada X1, X2 dan X3, maka terjadi multikolinieritas. Dari analisis regresi secara keseluruhan di atas juga diperoleh nilai-nilai VIF adalah sebagai berikut: Predictor VIF Constant X1 1673,6 X2 1507,5 X3 1081,7 X4 759,7 X5 900,3 X6 290,0 X7 95,0 Dari nilai VIF di atas, nilai VIF dari predictor X1-X7 lebih dari 10, sehingga terjadi multikolinieritas. Selanjutnya akan digunakan metode regresi Best Subset untuk mengatasi kasus multikolinieritas tersebut. 3.4 Pengolahan Data dengan Metode Best Subset Regression Berdasarkan analisis berganda yang telah dilakukan, data tersebut terjadi multikolinieritas maka untuk mengatasinya akan digunakan metode best subset regression. Berikut pengolahannya dengan menggunakan minitab kemudian muncul window Best Subsets. Pada window tersebut isikan: Respone: Y Free Predictor: X1X2X3X4X5X6X7
Sehingga diperoleh sebagai berikut: Best Subsets Regression: Y versus X1; X2; X3; X4; X5; X6; X7
Response is Y
Mallows X X X X X X X Vars R-Sq R-Sq(adj) C-p S 1 2 3 4 5 6 7 1 46,5 44,6 1,0 2,1708 X 1 46,0 44,1 1,3 2,1806 X 2 53,6 50,2 -0,6 2,0581 X X 2 53,0 49,5 -0,2 2,0720 X X 3 54,8 49,6 0,9 2,0712 X X X 3 54,5 49,3 1,0 2,0769 X X X 4 55,7 48,6 2,4 2,0909 X X X X 4 55,7 48,6 2,4 2,0911 X X X X 5 56,4 47,3 4,0 2,1168 X X X X X 5 56,3 47,2 4,1 2,1194 X X X X X 6 56,4 45,1 6,0 2,1615 X X X X X X 6 56,4 45,0 6,0 2,1618 X X X X X X 7 56,5 42,6 8,0 2,2086 X X X X X X X
Dari hasil Best Subset Regression diatas didapat 13 model regresi yang dapat dipilih salah satu yang terbaik. Dengan langkah-langkah sebagai berikut: 1. Pilih nilai R-Sq terbesar yaitu 56,5 pada persamaan 13, tetapi persamaan ini tidak dapat dipilih sebab tidak ada variable yang terbuang sehingga masih terjadi multikolinieritas. 2. Selanjutnya pilih nilai R-Sq (Adj) terbesar yaitu 50,2 pada model regresi no 3. Pada model ini kita juga memperoleh nilai C-p dan S terkecil yaitu -0,6 dan 2,0581 sehingga kita dapat memilih model ini, yaitu model regresi yang menggunakan 2 variabel X5 dan X6. Kemudian kita regresikan lagi dengan menggunakan variabel-variabel yang terpilih tadi. Diperoleh hasil sebagai berikut: Regression Analysis: Y versus X5; X6
The regression equation is Y = 4,33 + 0,273 X5 + 0,387 X6
Predictor Coef SE Coef T P VIF Constant 4,3328 0,8567 5,06 0,000 X5 0,27285 0,09990 2,73 0,011 1,6 X6 0,3867 0,1836 2,11 0,045 1,6
S = 2,05805 R-Sq = 53,6% R-Sq(adj) = 50,2%
Analysis of Variance
Source DF SS MS F P Regression 2 132,268 66,134 15,61 0,000 Residual Error 27 114,361 4,236 Total 29 246,629
Source DF Seq SS X5 1 113,484 X6 1 18,784
Unusual Observations
Obs X5 Y Fit SE Fit Residual St Resid 15 22,7 10,840 14,454 1,152 -3,614 -2,12RX 20 6,0 5,020 9,153 0,905 -4,133 -2,24R 21 5,1 11,880 7,891 0,606 3,989 2,03R 30 23,8 19,710 14,814 1,230 4,896 2,97RX
Dari analisis regresi di atas kita peroleh nilai VIF kurang dari 10 dan pada persamaan regresinya tidak terjadi perubahan tanda, maka tidak terjadi multikolinieritas. Sehingga kita peroleh persamaan best subset yang terbaik yaitu dengan persamaan regresi Y = 4,33 + 0,273 X5 + 0,387 X6. Dari hasil tersebut dapat disimpulkan bahwa 2 variabel bebas yang sangat mempengaruhi Y adalah variabel X5 dan X6. Ini berarti yang sangat mempengaruhi tingkat pengangguran kabupaten/kotamadya di provinsi Jawa Timur adalah tingkat pendidikan SMU Sederajat dan SMK Sederajat. Pengujian Model Regresi Hipotesis H 0 : model yang diperoleh tidak signifikan (tidak bermakna) H 1 : model yang diperoleh signifikan (bermakna) Dengan menggunakan uji F Dari hasil ANOVA diperoleh F hitung = 15,61 dan dari tabel dengan =0,05 dan derajat bebas (1,29) diperoleh F tabel = 4,18. Karena F tabel lebih kecil dari F hitung maka menolak H 0 . Kesimpulannya model yang diperoleh signifikan.
Pengujian Koefisien Regresi Hipotesis H 0 :
= 0 (Tingkat pengangguran dipengaruhi tingkat pendidikan terakhir)
H 1 :
0 (Tingkat pengangguran dipengaruhi tingkat pendidikan terakhir)
Dengan menggunakan uji T: (dari normal dan khi kuadrat, maka data bharus normal) Dari hasil ANOVA diperoleh T hitung = 5,06 dan dari tabel dengan =0,05 dan derajat bebas 30-2 diperoleh T tabel = 1,70113. Karena T hitung lebih besar dari T tabel maka menolak H 0 . Kesimpulannya tingkat pengangguran dipengaruhi tingkat pendidikan terakhir
3.5 Uji Asumsi Dalam uji asumsi kita akan menguji kenormalan, homogenitas, dan kebebasan dari Standard Residual (SRESS). 1. Uji Kenormalan
Dari gambar di atas dengan menggunakan uji Anderson Darling, karena nilai P-Value lebih besar dari =0,05 yaitu 0,074 sehingga H 0 diterima yang menunjukkan bahwa pola model mengikuti sebaran normal 2. Uji Homogenitas
Dari gambar di atas terlihat bahwa plot membentuk pola pita mendatar antara -2 sampai 2 dan menyebar secara acak maka disimpulkan bahwa ragam dari pola model bersifat homogen.
3. Uji Kebebasan SRES1 P e r c e n t 3 2 1 0 -1 -2 -3 99 95 90 80 70 60 50 40 30 20 10 5 1 Mean 0,074 -0,009791 StDev 1,111 N 30 AD 0,665 P-Value Probability Plot of SRES1 Normal Fitted Value R e s i d u a l 15,0 12,5 10,0 7,5 5,0 4 3 2 1 0 -1 -2 -3 -4 -5 Residuals Versus the Fitted Values (response is Y)
Gambar di atas menunjukkan bahwa nilai lag pertama signifikan sehingga dapat disimpulkan bahwa nilai model bersifat acak, sehingga asumsi kebebasan sisaan terpenuhi.
BAB III KESIMPULAN
Lag A u t o c o r r e l a t i o n 8 7 6 5 4 3 2 1 1,0 0,8 0,6 0,4 0,2 0,0 -0,2 -0,4 -0,6 -0,8 -1,0 Autocorrelation Function for SRES1 (with 5% significance limits for the autocorrelations) Berdasarkan hasil dari pembahasan, maka dapat disimpulkan yang dapat diambil adalah sebagai berikut: 1. Dari data hubungan tingkat pengangguran di Kabupaten/Kotamadya di Propinsi Jawa Timur tahun 2003 dengan 7 faktor (Tidak/belum pernah sekolah, Tidak/belum tamat SD, SD/MI, SLTP sederajat, SMU sederajat, SMK sederajat, Perguruan Tinggi) yang mempengaruhinya, ternyata terjadi multikolinearitas. Hal ini dapat dilihat pada analisis korelasi yaitu r X1X4 >r X4Y >r X1Y , r X1X6 >r X6Y >r X1Y , r X2X6 >r X6Y >r X2Y, r X4X6 >r X6Y >r X4Y, r X5X7 >r X7Y >r X5Y, serta r X6X7 >r X7Y >r X6Y. Selain itu juga dapat dilihat pada persamaan masing-masing hubungan Y dengan X terjadi perubahan tanda pada X1, X2 dan X3 serta nilai VIF dari predictor X1-X7 lebih dari 10. 2. Dari hasil analisis regresi dengan menggunakan regresi best subset diperoleh model regresi terbaik yaitu Y = 4,33 + 0,273 X5 + 0,387 X6 dengan R-Sq = 53,6% , R-Sq(adj) = 50,2%, nilai C-P = -0,6 dan nilai S = 2,0581. 3. Ternyata dari model regresi terbaik yang terpilih, dapat diketahui bahwa Tingkat Pengangguran di pengaruhi oleh faktor tingkat pendidikan SMU Sederajat dan SMK Sederajat.