Anda di halaman 1dari 21

Pasca Sarjana Unpad Jurusan Statistika Terapan

TUGAS ANALISIS REGRESI

Oleh: Yahya Ubaid 140720100023


No. Absen 14

1.

Suatu penelitian dilakukan untuk mengetahui faktor-faktor yang mempengaruhi kualitas batubara di daerah Girimulya, Kalimantan Selatan. Penelitian ini dilakukan oleh sebuah lembaga yaitu Pusat Penelitian Teknologi Mineral (PPTM). Endapan batubara yang ditemukan di lokasi tersebut mempunyai 9 lapisan dan data yang diambil sebagai sampel adalah data untuk lapisan batubara yang pertama sebanyak 30 buah. Kualitas batubara yang diukur adalah nilai kalori kotor (CGV=Gross Calorivie Value) dalam setiap kkal/gr sebagai variabel Y, berdasarkan kadar air (IM=Inherent Moisture) sebagai variabel X1, kadar abu (Ash) sebagai variabel X2, kadar zat terbang (VM=Volatille Matter) sebagai variabel X3, kadar karbon tertambang (FC=Fixed Carbon) sebagai variabel X4 dan kadar total sulpur (TS=Total Sulfur) sebagai variabel X5. Data yang digunakan dapat dilihat pada table 1 berikut ini: Tabel 1 Data Kualitas Batubara Untuk Lapisan 1 (Seam W0) Di Daerah Girimulya No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 IM (X1) 24.7 21 23.8 18.7 16.7 18 19.2 18.7 18.2 17.4 18.3 18.2 17.6 17.8 16.7 24.2 24 24.7 24.4 24.7 25 25.9 24.4 24.4 24.3 22.9 25.7 20.8 23.3 23.4 ASH (X2) 4.2 15.7 4.7 4.5 3.6 8.5 3.9 4.2 3.5 3.7 3.3 3.5 3.2 3.1 3.9 4.3 4.1 2.9 2.9 3.1 4.6 4.9 5.2 3.2 4.1 7.8 4 7.6 5.4 3.4 VM (X3) 36.9 32.9 38.5 37.8 40 38.8 42 41 40.3 40.4 40 40.3 40.6 40.9 41.8 36.7 37.9 36.6 36.7 36.9 35.7 36.8 36.7 36.7 38.7 36.1 36.9 37.3 38.1 39.4 FC (X4) 34.2 30.4 33 39 39.3 34.7 34.9 36.1 38 38.5 38.4 38 38.6 32.2 37.6 34.8 34 35.8 36 35.3 34.7 32.4 33.7 35.7 32.9 33.2 33.4 34.3 33.2 33.8 TS (X5) 0.11 0.3 0.15 0.17 0.16 0.65 0.6 0.75 0.1 0.1 0.09 0.1 0.11 0.09 0.1 0.09 0.09 0.09 0.09 0.09 0.1 0.22 0.16 0.1 0.12 0.12 0.1 0.26 0.14 0.1 CGV (Y) 4698 4177 4781 5023 5339 4753 5189 5159 5128 5058 5073 5128 5137 5149 5289 4610 4664 4639 4667 4670 4615 4519 4571 4659 4847 4533 4658 4599 4584 4746
1

Pertanyaan : a. Buat model regresinya b. Identifikasi apakah terdapat multikolinearitas dalam model tersebut. Jawab: a. Model Regresi Output Minitab:
Regression Analysis: CGV (Y) versus IM (X1), ASH (X2), ...
S = 66.6982 R-Sq = 95.4% R-Sq(adj) = 94.4%

Analysis of Variance Source DF SS Regression 5 2109058 Residual Error 23 102319 Total 28 2211377

MS 421812 4449

F 94.82

P 0.000

The regression equation is CGV(Y) = 49667 - 499 IM(X1) - 498 ASH(X2) - 410 VM(X3) - 454 FC(X4) + 48.8 TS(X5) Predictor Constant IM (X1) ASH (X2) VM (X3) FC (X4) TS (X5) Coef 49667 -498.6 -497.7 -409.8 -453.5 48.81 SE Coef 18249 181.6 182.5 181.7 184.3 92.35 T 2.72 -2.75 -2.73 -2.26 -2.46 0.53 P 0.012 0.012 0.012 0.034 0.022 0.602

Dari hasil output minitab, dapat dianalisis:  Dari nilai koefisien determinasi (R-sq(adj)) sebesar 94,4%, yang berarti 94,4% variasi CGV dapat dijelaskan oleh variasi dari kelima variabel bebas IM, ASH, VM, FC, dan TS. Sedangkan sisanya dijelaskan oleh variabel di luar model.  Dari hasil Anova nilai F hitung sebesar 94,82 dengan P-value 0,000 (lebih kecil dari E=0.05), maka dapat dikatakan bahwa IM, ASH, VM, FC, dan TS secara bersama-sama berpengaruh terhadap CGV.  Dari koefisien beta diperoleh model regresi: CGV = 49667 498,6 IM 497,7 ASH 409,8 VM 453,5 FC + 48,81 TS, dari model regresi tersebut nilai konstanta sebesar 49667 menyatakan bahwa jika variabel independen dianggap kostan maka rata-rata CGV sebesar 49667 kkal/gr. Koefisien regresi IM sebesar -498,6 menyatakan setiap penambahan satu satuan akan menurunkan CGV sebesar 498,6 satuan. Koefisien ASH sebesar -497,7 menyatakan setiap penambahan satu satuan akan menurunkan CGV sebesar 497,7 satuan Dan seterusanya . untuk variable yang lain. Dari kelima variabel independen yang dimasukkan kedalam model, variabel TS(X5) tidak signifikan dilihat dari nilai p-value dari uji t sebesar 0,602 di atas 0,05. Jadi dapat disimpulkan bahwa variabel CGV dipengaruhi oleh IM, ASH, VM, FC dan variabel TS bisa dibuang. b. Identifikasi Multikolonieritas. Melihat nilai R2-adj yang tinggi dalam model tetapi secara individual variabel-variabel independen banyak yang tidak signifikan mempengaruhi variabel dependen.
2

S = 66.6982 Predictor Constant IM (X1) ASH (X2) VM (X3) FC (X4) TS (X5)

R-Sq = 95.4% SE Coef 18249 181.6 182.5 181.7 184.3 92.35

R-Sq(adj) = 94.4% T 2.72 -2.75 -2.73 -2.26 -2.46 0.53 P 0.012 0.012 0.012 0.034 0.022 0.602

Coef 49667 -498.6 -497.7 -409.8 -453.5 48.81

dari hasil output di atas terlihat: nilai R-sq(adj) sangat tinggi yaitu 94,4%, tetapi secara individual ada variabel yang tidak siginifikan [TS(X5)] dengan nilai p-value 0,602 di atas 0,05. Secara sederhana dapat disimpulkan ada kolinieritas dalam model, namun kesimpulan tersebut kurang kuat karena hanya ada satu variabel independen yang tidak signifikan dan dari nilai koefisiennya [TS(X5)] juga kecil, selanjutnya dilihat matriks korelasinya.
Melihat matriks korelasi variabel-variabel independen, jika antar variabel independen ada korelasi cukup tinggi (umumnya diatas 0,90).
Correlations: IM (X1), ASH (X2), VM (X3), FC (X4), TS (X5), CGV (Y)
ASH (X2) VM (X3) FC (X4) TS (X5) CGV (Y) IM (X1) -0.044 -0.693 -0.698 -0.334 -0.764 ASH (X2) -0.529 -0.558 0.321 -0.548 VM (X3) 0.631 0.258 0.916 FC (X4) TS (X5)

-0.124 0.820

0.154

dari output di atas terlihat bahwa: Ada korelasi yang agak tinggi antara variabel X1 dengan X3 , X1 dengan X4 dan X3 dengan X4 yaitu di atas 0,60 (masih di bawah 0,90), jadi korelasi sebesar 0,60 dapat menyatakan ada kolineritas/ tidak, tergantung oleh peneliti. Untuk memperjelas ada kolineritas/tidak, dilihat lagi nilai VIF dan bilangan kondisi.
Melihat nilai VIF (umumnya ada multikolinieritas jika VIF 10) dan bilangan kondisi (30<k<100 dianggap kolinieritas sedang /kuat dan diatas 100 diaggap dianggap sangat kuat)
Predictor Constant IM (X1) ASH (X2) VM (X3) FC (X4) TS (X5) Coef 49667 -498.6 -497.7 -409.8 -453.5 48.81 SE Coef 18249 181.6 182.5 181.7 184.3 92.35 T 2.72 -2.75 -2.73 -2.26 -2.46 0.53 P VIF 0.012 0.012 2103.105 0.012 1345.097 0.034 902.892 0.022 1127.173 0.602 1.657

dari output di atas dapat ditunjukkan: nilai VIF lebih dari 10 untuk variabel IM (VIF = 2103,11), ASH (VIF = 1345,1), VM (VIF = 902,9) dan FC (VIF = 1127,17) yang mengindikasikan terdapat multikolinieritas pada model regresi tersebut. Untuk lebih kuat lagi menduga multikolinieritas dengan melihat bilangan kondisi. Di bawah terlihat output hasil penghitungan bilangan kondisi dengan nilai sebesar 14427,1 (lebih dari 100), jadi dalam model regresi tersebut terdapat multikolinieritas yang sangat kuat. Untuk lebih menyakinkan lagi kita lakukan regresi

parsial antar variabel independen, dengan membandingkan nilai R2 model awal/utama dengan model parsial.
MTB > Name m1 "CORR1" MTB > Correlation 'IM (X1)' -'TS (X5)' 'CORR1'. MTB > print m1

Matrix CORR1 1.00000 -0.04439 -0.69310 -0.69816 -0.33409 -0.04439 1.00000 -0.52908 -0.55848 0.32116 -0.69310 -0.69816 -0.33409 -0.52908 -0.55848 0.32116 1.00000 0.63123 0.25772 0.63123 1.00000 -0.12432 0.25772 -0.12432 1.00000

MTB > Eigen 'CORR1' c7 m1. MTB > copy c7 m2 MTB > print m2

Matrix M2 2.59687 1.50924 0.66193 0.23179 0.00018 MTB > Let c9 = 2.59687 / 0.00018 MTB > copy c9 m3 MTB > print m3

Matrix M3 14427.1

Membuat regresi parsial antar variabel independen, dengan membandingkan nilai R2 model awal/utama dengan model parsial, jika nilai R2 lebih tinggi dibanding model utama, maka dalam regresi parsial tersebut terdapat multikolinieritas.
The regression equation is IM (X1) = 100 - 1.00 ASH (X2) - 0.999 VM (X3) - 1.01 FC (X4) + 0.004 TS (X5) S = 0.0749578 R-Sq = 100.0% R-Sq(adj) = 99.9% The regression equation is ASH (X2) = 99.9 - 0.994 IM (X1) - 0.994 VM (X3) - 1.01 FC (X4) + 0.014 TS (X5) S = 0.0745949 R-Sq = 99.9% R-Sq(adj) = 99.9% The regression equation is VM (X3) = 100 - 0.998 IM (X1) - 1.00 ASH (X2) - 1.01 FC (X4) + 0.020 TS (X5) S = 0.0749331 R-Sq = 99.9% R-Sq(adj) = 99.9% The regression equation is FC (X4) = 98.9 - 0.984 IM (X1) - 0.989 ASH (X2) - 0.982 VM (X3) - 0.001 TS (X5) S = 0.0738602 R-Sq = 99.9% R-Sq(adj) = 99.9% The regression equation is TS (X5) = - 3.2 + 0.016 IM (X1) + 0.055 ASH (X2) + 0.077 VM (X3) - 0.004 FC (X4) S = 0.147426 R-Sq = 39.6% R-Sq(adj) = 29.6%

dari output di atas, diperlihatkan bahwa: model regresi dengan variabel independen IM, ASH, VM dan FC mempunyai nilai R2 = 99,9% lebih besar dari model awal dengan nilai R2 = 95,4% yang menunjukkan adanya multikolinieritas antara IM, ASH, VM dan FC. Sedang TS mempunyai nilai R2 = 39,6% lebih kecil dari model utama, namun variabel ini tidak perlu diperhatikan karena tidak signifikan mempengaruhi model. Kesimpulan: dari hasil analisis di atas dapat di simpulkan bahwa model regresi: CGV = 49667 498,6 IM 497,7 ASH 409,8 VM 453,5 FC + 48,81 TS, terdapat multikolinieritas yang sangat kuat antar variabel independen yang menyebabkan taksiran dari nilai tidak tepat, tanda koefisien mungkin menyesatkan, uji t gagal untuk mengungkapkan variabel yang signifikan dan bisa kehilangan variabel prediktor yang penting, untuk melihat variabel mana saja yang tedapat kolinieritas dengan melihat kembali matriks korelasi yaitu:
IM (X1) ASH (X2) VM (X3) FC (X4) TS (X5) CGV (Y) IM (X1) 1 ASH (X2) -0.04439 1 VM (X3) -0.6931 -0.52908 1 FC (X4) -0.69816 -0.55848 0.631226 1 TS (X5) -0.33409 0.321158 0.257721 -0.12432 1 CGV (Y) -0.76437 -0.54772 0.91644 0.820065 0.153585 1 dari matriks di atas terlihat bahwa terdapat korelasi antara IM, ASH, VM dan FC (multikolineritas antar variabel independen tersebut). Untuk mendapatkan model yang tidak terdapat multikolinieritas dapat diterapkan metode stepwise, diperoleh hasil di bawah ini:
Stepwise Regression: CGV (Y) versus IM (X1), ASH (X2), ...
Alpha-to-Enter: 0.25 Alpha-to-Remove: 0.25

Response is CGV (Y) on 5 predictors, with N = 29 Step Constant VM (X3) T-Value P-Value FC (X4) T-Value P-Value S R-Sq R-Sq(adj) Mallows Cp 115 83.99 83.39 54.6 1 88.25 123.5 11.90 0.000 2 -341.12 89.4 10.44 0.000 49.2 6.32 0.000 73.3 93.69 93.20 8.4

Dari hasil stepwise dibuat model regresi dengan dua variabel bebas dan dilihat lagi nilai VIF dan bilangan kondisi, hasilnnya terlihat di bawah ini:

Regression Analysis: CGV (Y) versus VM (X3), FC (X4)


The regression equation is CGV (Y) = - 341 + 89.4 VM (X3) + 49.2 FC (X4) Predictor Constant VM (X3) FC (X4) Coef -341.1 89.373 49.160 SE Coef T P 263.2 -1.30 0.206 8.564 10.44 0.000 7.776 6.32 0.000 VIF 1.662 1.662

S = 73.2695

R-Sq = 93.7%

R-Sq(adj) = 93.2%

MTB > Name m4 "CORR2" MTB > Correlation 'VM (X3)' 'FC (X4)' 'CORR2'. MTB > Eigen 'CORR2' c11 m8. MTB > copy c11 m9 MTB > print m9

Data Display
Matrix M9 1.63123 0.36877 MTB > let c12=1.63123/0.36877 MTB > copy c12 m11 MTB > print m11

Data Display
Matrix M11 4.42343

Dari hasil VIF dan bilangan kondisi terlihat bahwa model dengan dua variabel bebas (VM dan FC) tidak terdapat multikolineriras. Namun cara tersebut bukan cara terbaik, karena kita membuang data yang sudah diperoleh. Cara terbaik untuk mengatasi tersebut adalah dengan menambah data yang diusahakan mencakup seluruh rentangan setiap peubah bebas dan agak merata.

2. Suatu penelitian dilakukan oleh Dinas Kesehatan Kota Bogor untuk melihat faktor-faktor yang mepengaruhi tingkat penderita Demam Berdarah pada kelurahan-kelurahan di Kota Bogor. Tabel 2 Data Tingkat Demam Berdarah di Kota Bogor
Kelurahan Mulyaharja Pamoyanan Ranggamekar Genteng Kertamaya Rancamaya Bojongkerta Harjasari Muarasari Pakuan Cipaku Lawang Gintung Batu Tulis Bondongan Empang Cikaret Sindang Sari Sindang Rasa Tajur Katulampa Baranangsiang Sukasari Bantarjati Tegal Gundil Tanah Baru Cimahpar Ciluar Cibuluh Kedunghalang Ciparigi Paledang Gudang Babakan Pasar Tegal Lega Babakan Sempur Pabaton Cibogor Panaragan Kebon Kalapa RDB 1.2 3.1 8.5 14.2 1.9 3.3 1.1 1.3 3.0 17.2 10.6 45.4 16.5 15.3 15.9 10.8 17.8 4.4 23.6 0.8 17.5 16.7 3.2 21.7 22.8 3.0 14.8 16.9 17.9 16.0 12.3 7.8 20.7 20.2 53.5 37.6 44.2 9.0 24.1 16.0 ABJ 92.1 93.0 92.5 94.0 95.0 93.0 95.6 92.8 96.0 94.0 92.8 92.0 93.8 92.7 92.5 92.0 93.5 91.8 94.7 90.8 92.0 92.8 89.0 87.0 88.0 94.5 91.0 92.0 90.5 92.0 91.0 94.5 95.0 91.0 88.0 89.3 93.5 94.0 91.0 92.0 KP 34 48 88 45 15 33 41 90 66 56 55 134 138 211 222 102 94 129 180 50 117 249 144 149 96 38 66 104 102 144 78 240 241 157 92 154 50 178 277 246

Kelurahan Ciwaringin Pasir Mulya Pasir Kuda Pasir Jaya Gunung Batu Loji Menteng Cilendek Timur Cilendek Barat Sindang Barang Margajaya Balungbang Jaya Situ Gede Bubulak Semplak Curug Mekar Curug Kedungwaringin Kedung Jaya Kebon Pedes Tanah Sareal Kedung Badak Sukaresmi Sukadamai Cibadak Kayu Manis Mekarwangi Kencana

RDB 17.7 20.6 15.5 10.2 35.3 23.6 48.4 21.4 18.4 18.4 0.0 3.8 5.5 3.4 15.0 9.9 5.8 17.5 16.9 15.6 32.4 18.1 7.0 18.8 7.5 19.7 17.3 2.5

ABJ 92.6 91.5 92.0 92.0 88.5 92.0 88.0 92.0 94.2 91.0 97.5 96.1 95.0 93.0 92.0 92.0 96.8 90.0 92.1 90.8 91.0 86.0 92.0 93.0 91.0 92.0 90.0 96.0

KP 144 49 60 149 85 55 72 133 96 45 20 69 34 38 243 126 53 162 173 267 94 143 116 121 43 52 49 53

Keterangan : RDB : Tingkat Penderita DB di satu kelurahan (%) ABJ : Persentase Angka Bebas Jentik (%) KP : Kepadatan Penduduk (Jiwa/Km 2)

a. Buat model regresi dari kasus di atas b. Lakukan proses diagnostic modelnya.

Jawab: a. Model Regresi Output Minitab:


Regression Analysis: RDB_Y versus ABJ_X1, KP_X2
The regression equation is RDB_Y = 240 - 2.46 ABJ_X1 + 0.0207 KP_X2 Predictor Constant ABJ_X1 KP_X2 Coef 240.03 -2.4579 0.02069 SE Coef T P VIF 51.94 4.62 0.000 0.5583 -4.40 0.000 1.037 0.01904 1.09 0.281 1.037 R-Sq(adj) = 24.3%

S = 10.2157

R-Sq = 26.6%

Analysis of Variance Source Regression Residual Error Total DF 2 64 66 SS 2422.6 6679.1 9101.7 MS 1211.3 104.4 F P 11 .61 0.000

Dari hasil output minitab, dapat dianalisis:  Dari nilai koefisien determinasi (R-sq(adj)) sebesar 24,3%, yang berarti 24,3% variasi RDB dapat dijelaskan oleh variasi dari kedua variabel bebas ABJ dan KP. Sedangkan sisanya dijelaskan oleh variabel dil luar model.  Dari hasil Anova nilai F hitung sebesar 11,61 dengan P-value 0,000 (lebih kecil dari E=0.05), maka dapat dikatakan bahwa ABJ dan KP secara bersama-sama berpengaruh terhadap RDB.  Dari koefisien beta diperoleh model regresi: RDB = 240 - 2.46 ABJ + 0.0207 KP, dari model regresi tersebut nilai konstanta sebesar 240 menyatakan bahwa jika variabel independen dianggap kostan maka rata-rata RDB sebesar 240 persen. Koefisien regresi ABJ sebesar -2,46 menyatakan setiap penambahan satu satuan akan menrunkan RDB sebesar 2,46 satuan. Koefisien KP sebesar 0,0207 menyatakan setiap penambahan satu satuan akan men ingkatkan RDB sebesar 0,0207 satuan. Dari kedua variabel independen yang dimasukkan kedalam model, variabel KP tidak signifikan dimasukkan kedalam model dengan melihat dari nilai p-value dari uji t sebesar 0,281 di atas 0,05. Jadi dapat disimpulkan bahwa variabel RDB secara signifikan hanya dipengaruhi oleh ABJ..

b. Diagnostik Model Residual dan Leverages


Scatterplot of Residuals vs Index
40
P ab ato n

30 20 Residuals 10 0 -10 -20 0 10


Bantar jati

20

30 Index

40

50

60

70

Dari scatterplot di atas terlihat bahwa residual tertinggi ada di kelurahan Pabaton dan terendah kelurahan Bantarjati, analisis sementara dapat disimpulkan bahwa nilai residual yang jauh dari sebarannya dianggap pencilan, dalam kasus ini adalah kelurahan Pabaton.
tt r l t f L

0.14
K ed u n g B ad ak

0.12 0.10

B ab a k an P asar P a n ar ag a n G u d an g T eg al G u n d il

r g

0.08 0.06

0.04 0.02 0.00 I

Sedangkan dari plot leverages kita buat garis horizontal pada 2p/n = 0,09 (p: banyaknya parameter) yang mengindikasikan rule of thumb, kelurahan yang berada di atas garis horizontal adalah Tegal Gundil, Gudang, Babakan Pasar, Panarangan, Marga Jaya, Kebon Pedas dan Kedung Badak. Dengan leverage tertinggi ada di Kelurahan Kedung Badak, dapat disimpulkan sementara bahwa kelurahan Kedung Badak merupakan data
10

10

20

30

         
r g I
M ar g ajay a K eb o n P ed es

    

0.09

40

50

60

70

berpengaruh diantara kelurahan yang lain, meskipun secara umum data berpengaruh adalah data yang mempunyai leverage mendekati satu.
Studentized Residual
Scatterplot of Studentized Residuals vs Index
4 3 Studentized Residuals 2 1 0 -1 -2 0 10
Bantarjati Lawang Gintung Pabaton Babak an Menteng

20

30 Index

40

50

60

70

Terlihat bahwa tidak ada perbedaan yang berarti antara studentized residual dengan residual selain dari skala, dengan studentized tertinggi ada di Kelurahan Pabaton dan terendah ada di Kelurahan Bantarjati dan kelurahan-kelurahan yang mempunyai nilai studentized di luar antara 2 sampai +2 bisa dianggap outlier, yaitu kelurahan Lawang Gintung, Babakan, Pabaton, Menteng dan Bantarjati.
Titik Pencilan
Unusual Observations Obs 12 22 34 36 46 ABJ_X1 92.0 89.0 88.0 93.5 88.0 RDB_Y 45.40 3.20 53.50 44.20 48.40 Fit SE Fit Residual 16.68 1.34 28.72 24.26 2.20 -21.06 25.64 2.75 27.86 11.25 1.73 32.95 25.22 2.88 23.18 St Resid 2.84R -2.11R 2.83R 3.27R 2.36R

Dari hasil output telihat Unusual Observations dengan tanda pada St Resid huruf R dibelakang angka, yang mengindikasikan sebagai suatu data pencilan (outliers) yaitu observasi nomor 12 (kel. Lawang Gintung), 22 (Bantarjati), 34 (Babakan), 36 (Pabaton) dan 46 (Menteng). Untuk lebih meyakinkan lagi kita buat boxplot (gambar ada di bawah) dengan memperlihatkan label dari outlier, terlihat bahwa ada lima data outlie r sama dengan hasil dari unusual observations. Jadi dalam model ini terdapat outlier, namun kita belum tahu apakah outlier tersebut berpengaruh terhadap model/tidak, maka perlu dilakukan analisis observasi data berpengaruh.
11

Boxplot of Residuals
40
Pabaton

30

Lawang Gintung Babak an Menteng

20 Residuals

10

-10

-20

Bantarjati

bi dili t dari nilai jackni e yang berada di atas nilai Sel i it titi pencil n j kritis benferoni seperti hasil olah dengan program R dibawah ini
> library(faraway) > tabel2=read.csv("d: \\data_2.csv", header = TRUE, sep = ",", row.names=1) > g<-lm (RDB_Y~ABJ_X1+KP_X2, tabel2) > jack<-rstudent (g) > jack [abs (jack)==max (abs(jack))] Pabaton 3.558531 > qt(.05/(67*2),63) [1] -3.545128 > plot(jack, ylab="Jacknife Residuals", main="Jacknife residuals") > abline (h=3.5)

Dari nilai residual terbesar dengan nilai jacknife sebesar 3,56 lebih besar dari nilai kritis Bonferoni 3,55 sehingga dapat dikatakan titik tersebut adalah titik pencilan dan kita , buat plot titik di atas nilai kritis benferoni (hanya ada 1 titik yaitu kel. Pabaton).

12

Observasi Berpengaruh
Sca e p o o cooks d s ances vs Index
B ab ak an

0.20
e n eng

cooks d s ances

0.15

P ab a o n

0.10

0.05

0.00 0 10 20 30 Index 40 50 60 70

Dari plot cooks distances terlihat kelurahan Babakan mempunyai nilai yang besar, selanjutnya kita coba keluarkan data kelurahan babakan dari model, kemudian kita bandingkan modelnya dengan model awal. Dalam hal ini yang kita coba keluarkan adalah tiga data yang mempunyai cooks distance yang terjauh dan diduga awal termasuk outlier (kel. Babakan, kel. Menteng dan kel. Pabaton), karena jika data tersebut outlier dan merupakan data berpengaruh maka kita tidak bisa membuang data tersebut, tapi jika bukan data berpengaruh kita dapat memutuskan apakah mau membuang data tersebut/ dibiarkan. hasil output minitab perbandingan model:
Regression Analysis: RDB_Y versus ABJ_X1, KP_X2 (model tanpa babakan)
The regression equation is RDB_Y = 203 - 2.07 ABJ_X1 + 0.0249 KP_X2 Predictor Constant ABJ_X1 KP_X2 Coef 203.14 -2.0678 0.02490 SE Coef T P 50.48 4.02 0.000 0.5421 -3.81 0.000 0.01800 1.38 0.172 R-Sq(adj) = 21.1%

S = 9.62990

R-Sq = 23.5%

Regression Analysis: RDB_Y versus ABJ_X1, KP_X2 (model awal)


The regression equation is RDB_Y = 240 - 2.46 ABJ_X1 + 0.0207 KP_X2 Predictor Constant ABJ_X1 KP_X2 Coef 240.03 -2.4579 0.02069 SE Coef T P 51.94 4.62 0.000 0.5583 -4.40 0.000 0.01904 1.09 0.281 R-Sq(adj) = 24.3%

S = 10.2157

R-Sq = 26.6%

" !

"

'

& #

% $

##

13

dari perbadingan dua model di atas terlihat tidak ada perubahan yang signifikan baik dari koefisien maupun R2 (terdapat perbedaan R2 sebesar 3,1%), sehingga dapat disimpulkan sementara bahwa titik tersebut (kel. Babakan) adalah titik pencilan yang bukan merupakan data berpengaruh.
Regression Analysis: RDB_Y versus ABJ_X1, KP_X2 (tanpa pabaton)
The regression equation is RDB_Y = 247 - 2.55 ABJ_X1 + 0.0268 KP_X2 Predictor Constant ABJ_X1 KP_X2 Coef 247.08 -2.5470 0.02679 SE Coef T P 47.81 5.17 0.000 0.5141 -4.95 0.000 0.01760 1.52 0.133 R-Sq(adj) = 30.6%

S = 9.39545

R-Sq = 32.7%

Regression Analysis: RDB_Y versus ABJ_X1, KP_X2 (model awal)


The regression equation is RDB_Y = 240 - 2.46 ABJ_X1 + 0.0207 KP_X2 Predictor Constant ABJ_X1 KP_X2 Coef 240.03 -2.4579 0.02069 SE Coef T P 51.94 4.62 0.000 0.5583 -4.40 0.000 0.01904 1.09 0.281 R-Sq(adj) = 24.3%

S = 10.2157

R-Sq = 26.6%

dari perbadingan dua model di atas terlihat tidak ada perubahan yang signifikan dari koefisien, tetapi dari nilai R2 terdapat perbedaan sebesar 6,1% yang bisa dianggap besar karena diatas 5%, sehingga dapat disimpulkan sementara bahwa titik tersebut (kel. Pabaton) adalah titik pencilan yang merupakan data berpengaruh.
Regression Analysis: RDB_Y versus ABJ_X1, KP_X2 (tanpa menteng)
The regression equation is RDB_Y = 208 - 2.12 ABJ_X1 + 0.0260 KP_X2 Predictor Constant ABJ_X1 KP_X2 Coef 208.02 -2.1212 0.02597 SE Coef T P 51.69 4.02 0.000 0.5548 -3.82 0.000 0.01846 1.41 0.164 R-Sq(adj) = 21.5%

S = 9.83654

R-Sq = 23.9%

Regression Analysis: RDB_Y versus ABJ_X1, KP_X2 (model awal)


The regression equation is RDB_Y = 240 - 2.46 ABJ_X1 + 0.0207 KP_X2 Predictor Constant ABJ_X1 KP_X2 Coef 240.03 -2.4579 0.02069 SE Coef T P 51.94 4.62 0.000 0.5583 -4.40 0.000 0.01904 1.09 0.281 R-Sq(adj) = 24.3%

S = 10.2157

R-Sq = 26.6%

dari perbadingan dua model di atas terlihat tidak ada perubahan yang signifikan baik dari koefisien maupun R2 (terdapat perbedaan R2 sebesar 2,7%), sehingga dapat
14

disimpulkan sementara bahwa titik tersebut (kel. Menteng) adalah titik pencilan yang bukan merupakan data berpengaruh. Selain data berpengaruh juga dapat dilihat dari nilai leverage yang tertinggi, seperti yang sudah di kemukakan diatas bahwa nilai leverage tertinggi ada di kelurahan Kedung Badak, namun bukan merupakan outlier.
Plot Residual, Varians Tidak Konstan dan Ketidaklinieran
Versus Fits 40 30 20 Residua

Dari plot di atas dapat dilihat bahwa telah terjadi pelanggaraan asumsi homoskedastisitas yaitu varians tidak konstan, tetapi model bisa dianggap linier. Cara lain untuk menguji varians tidak konstan, dengan program R kita uji seperti dibawah ini:
> summary(lm(abs(g$res)~g$fit)) Call: lm(formula = abs(g$res) ~ g$fit) Residuals: Min 1Q Median -7.907 -4.500 -1.348 3Q Max 2.192 27.152

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.1624 2.2885 0.945 0.3482 g$fit 0.3231 0.1372 2.355 0.0215 * --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 6.751 on 65 degrees of freedom Multiple R-squared: 0.07863, Adjusted R -squared: 0.06446 F-statistic: 5.547 on 1 and 65 DF, p -value: 0.02154

Dari uji di atas terlihat bahwa nilai p-value kurang dari 0,05 dalam artian varians tidak konstan, meskipun uji ini kurang tepat karena dibutuhkan pembobotan dan derajat kebebasan harus disesuaikan. Karena dalam analisis ini kita belum tahu plot sisa dari
15

10 0 10 20 0 5 10 15 20 Fitted Va ue 25 30 35

pengalaman sebelumnya maka kita dapat menggunakan fungsi looping for, untuk menghasilkan model dengan varians error yang berbeda. Seperti hasil di bawah ini :
> for(i in 1:9)plot(1:67,rnorm(67)) > for(i in 1:9)plot(1:6 7,(1:67)*rnorm(67)) > for(i in 1:9)plot(1:67,sqrt((1:67))*rnorm(67)) > for(i in 1:9)plot(1:67,cos((1:67)*pi/25)+rnorm(67))

a. varians konstan

b. varians tdk konstan kategori kuat

c. varians tdk konstan kategori sedang

d. model tidak linier

dari looping for di atas kita bandingkan dengan hasil plot fitted values denga residual, terlihat bahwa plot menyebar seperti gambar b. Yaitu varians tidak konstan dengan kategori kuat. Untuk varians tidak konstan perlu kita uji lagi dengan membuat plot antara prediktor dengan residual. Di bawah ini kita sajikan plot prediktor dengan residual.

16

40

20 ls

10 0 -10 -20 85.0 87.5 90.0 92.5 ABJ_X1 95. 97.

Resi

40 30 20 ls

10 0 -10 -20 0 50 100 150 KP_X2 200 250 300

Dari plot residual terhadap prediktor KP (X2) terlihat ada dua kelompok yang menunjukkan terdapat perbedaan varians yang cukup siginifikan antara dua kelompok (kelompok < 200 dengan kelompok > 200).
Menilai Kenormalan Kenormalan bisa kita deteksi dengan melihat plot normal residual denagn Q-Q plot / histogram residual, di bawah ini kita buat grafik tersebut.

Resi

Scatter l t f Resi

als s KP_X2

Scatter l t f Resi

als s ABJ_X1

F F

8 8

3 65 DC 4 B

17

> qqnorm(g$res,ylab="Raw Residual") > qqline(g$res) > qqnorm(rstudent(g),ylab="Studentized Residuals") > abline(0,1)

18

Histo ram
(response is RDB_Y) 20

15 Frequency

10

Dari grafik di atas terlihat bahwa konormalan tidak dilanggar, baik dilihat dari plot normal residual (Q-Q plot) maupun histogramnya, meskipun pada hostogram terlihat ada kelompok yang terpisah yang mana kelompok tersebut adalah outlier.
Autocorrelation Uji auto korelasi dapat kita lihat dari tes Durbin-Watson, dari hasil minitab diperoleh hasil di bawah ini:
Durbin-Watson statistic = 1.70576

Nilai DW di atas akan kita bandingkan dengan dengan nilai tabel dengan menggunakan nilai siginfikansi 5%, dianggap tidak ada autokorelasi kalau nilai du<DW<4-du. Nilai du diperoleh dari tabel berdasarkan jumlah sampel 67 dan variabel bebas (k) = 2 maka diperoleh nilai du = 1,66 dan 4-1,66 = 2,34. Dari nilai tersebut DW ada diantara nilai du dan 4-du. Jadi dalam model ini tidak terdapat autokorelasi yaitu kesalahan tidak saling berkorelasi.

Kesimpulan: Dari uraian di atas dapat disimpulkan bahwa model regresi: RDB = 240 - 2.46 ABJ + 0.0207 KP, terdapat data pencilan sebanyak lima yaitu data nomor 12 (kel. Lawang Gintung), 22 (Bantarjati), 34 (Babakan), 36 (Pabaton) dan 46 (Menteng), dari data pencilan tersebut terdapat satu data yang bisa dianggap sebagai suatu data berpengaruh (kelurahan Pabaton). Untuk data pencilan, data tersebut boleh dibuang
19

20

10

10 Residua

20

30

/tidak terserah pada peneliti, karena ada/tidak data tersebut tidak mempengaruhi perubahan model kecuali data Kelurahan Pabaton karena dianggap data pencilan yang juga data berpengaruh. Dari beberapa asumsi dalam model regresi, asumsi yang dilanggar adalah homoskedasitistas (varians tidak konstan), sehingga untuk memperbakinya bisa dilakukan transformasi pada data. Sedangkan asumsi kenlinieran dan kenormalan sudah cukup baik. Jadi model regresi di atas merupakan model yang mempunyai varians tidak konstan dan terdapat lima data pencilan yang salah satunya merupakan data berpengaruh (Kelurahan Pabaton).

20