Data
Berikut sedikit tampilan dari data yang akan diolah.
Preparation Data
Beberapa observasi memiliki nilai kosong pada beberapa variabel, maka akan dilakukan data
cleansing terlebih dahulu. Kita akan menggunakan Rstudio untuk mengatasi missing value dari data
tersebut. Kita mengatasinya dengan mengisi missing value dengan mean untuk observasi numerik
dan modus untuk observasi kategorik. Berikut caranya :
Variabel “doors” memiliki tipe data kategorik, maka missing value dari kolom ini akan diisi
dengan modus. Berikut R-nya :
Variabel “norm_loss”, “bore”, “stroke”, “horsepower”, “rpm”, “price” memiliki tipe data
numerik, maka missing value dari kolom ini akan diisi dengan mean. Berikut R-nya :
Analisis Regresi Linear Berganda
Pada kasus ini, variabel dependen pada dasarnya tidak hanya dapat dipengaruhi oleh variabel
independen kuantitatif, tetapi juga dapat dipengaruhi oleh variabel independen kualitatif. Variabel
kualitatif tersebut harus dikuantitatifkan atributnya. Untuk mengkuantitatifkan atribut variabel
kualitatif dibentuk variabel dummy. Berikut R-nya :
Analisis Regresi Linear Berganda
Statistika Deskriptif
Selanjutnya, akan ditampilkan sedikit statistika deskriptifnya, untuk lebih lengkapnya dapat
dilihat di Rstudio.
Dari data automobile, variabel “manufacturer” memiliki level paling banyak ini dikarenakan
terdapat merk yang berbagai macam dari data automobile.
Nilai 𝛽𝑗 di atas tidak lengkap, cek kembali ke file R-nya. Selanjutnya, akan dilakukan variable
selection backward. Berikut hasilnya di R :
Hasil variabel yang terpilih di atas adalah step terakhir dari variable selection backward. Hanya
terdapat 13 variabel independen yang tersisa, terdiri dari 5 variabel kualitatif dan 8 variabel
kuantitatif. Berikut adalah model regresi final yang akan digunakan :
Analisis Regresi Linear Berganda
Multiple R-squared dan Adjusted R-squared dari sebelum dan sesudah variable selection tidak
berbeda jauh tetapi jumlah variabel independennya berkurang hampir setengahnya.
Berikut adalah persamaan regresi berganda yang akan digunakan :
Analisis Regresi Linear Berganda
o Kriteria pengujian
H0 tidak ditolak bila p-value > 0,05
H0 ditolak bila p-value < 0,05
o Membandingkan p-value dengan 0,05
Nilai 5,723e-06 < 0,05, maka Ho ditolak.
o Kesimpulan
Karena p-value lebih kecil dari 0.05, maka 𝐻0 ditolak. Residual tidak berdistribusi
normal.
Analisis Regresi Linear Berganda
3. Uji Homoskedastisitas
o Merumuskan Hipotesis
𝐻0: Variansi residual bersifat homoskedastisitas
𝐻1: Variansi residual tidak bersifat homoskedastisitas
o Menentukan p-value dengan uji Non-constant Variance di R studio
p-value = 1.2716e-10
o Kriteria pengujian
H0 tidak ditolak bila p-value > 0,05
H0 ditolak bila p-value < 0,05
o Membandingkan p-value dengan 0,05
Nilai 1,2716e-10 < 0,05, maka Ho ditolak.
o Kesimpulan
Karena p-value lebih kecil dari 0.05, maka 𝐻0 ditolak. Variansi residual tidak bersifat
homoskedastisitas.
4. Uji Non-Multikolinearitas
Hasil dari R di atas menyatakan terdapat 2 atau lebih dari variabel independen pada
model memiliki korelasi yang kuat, maka dapat disimpulkan bahwa Non-multikolinearitas
tidak terpenuhi.
5. Uji Non-Autokorelasi
o Merumuskan Hipotesis
𝐻0: Tidak terjadi autokorelasi antar residual
𝐻1: Terjadi autokorelasi antar residual
o Menentukan p-value dengan uji Durbin Watsondi R studio
p-value = 0,7729
o Kriteria pengujian
H0 tidak ditolak bila p-value > 0,05
H0 ditolak bila p-value < 0,05
o Membandingkan p-value dengan 0,05
Nilai 0,7729 > 0,05, maka Ho tidak ditolak.
o Kesimpulan
Karena p-value lebih besar dari 0.05, maka 𝐻0 tidak ditolak. Tidak terjadi autokorelasi
antar residual.
Analisis Regresi Linear Berganda
Dengan menggunakan tingkat keyakinan 95%, = 5%, df1 = 4, df2 = 160, hasil
diperoleh untuk F tabel sebesar 2,428.
o Kriteria pengujian
H0 tidak ditolak bila F hitung < F tabel
H0 ditolak bila F hitung > F table
Pendeteksian Outlier
Kita akan mendeteksi outlier dengan metode DFFITS(Difference Fitted Value FITS). DFFITS
digunakan untuk mengetahui pengaruh suatu pengamatan ke-i terhadap model regresi yang ditinjau
dari nilai fit-nya. Berikut adalah DFFITS dari 10 observasi pertama :
Lalu yang terakhir kita akan mem-plot nilai DFFITS untuk masing-masing observasi. Berikut
menggunakan R :