Anda di halaman 1dari 9

Analisis Regresi Linear Berganda

Data
Berikut sedikit tampilan dari data yang akan diolah.

Preparation Data

Beberapa observasi memiliki nilai kosong pada beberapa variabel, maka akan dilakukan data
cleansing terlebih dahulu. Kita akan menggunakan Rstudio untuk mengatasi missing value dari data
tersebut. Kita mengatasinya dengan mengisi missing value dengan mean untuk observasi numerik
dan modus untuk observasi kategorik. Berikut caranya :
Variabel “doors” memiliki tipe data kategorik, maka missing value dari kolom ini akan diisi
dengan modus. Berikut R-nya :

Variabel “norm_loss”, “bore”, “stroke”, “horsepower”, “rpm”, “price” memiliki tipe data
numerik, maka missing value dari kolom ini akan diisi dengan mean. Berikut R-nya :
Analisis Regresi Linear Berganda

Berikut adalah sedikit tampilan data yang sudah diperbaiki :

Pada kasus ini, variabel dependen pada dasarnya tidak hanya dapat dipengaruhi oleh variabel
independen kuantitatif, tetapi juga dapat dipengaruhi oleh variabel independen kualitatif. Variabel
kualitatif tersebut harus dikuantitatifkan atributnya. Untuk mengkuantitatifkan atribut variabel
kualitatif dibentuk variabel dummy. Berikut R-nya :
Analisis Regresi Linear Berganda

Statistika Deskriptif
Selanjutnya, akan ditampilkan sedikit statistika deskriptifnya, untuk lebih lengkapnya dapat
dilihat di Rstudio.

Dari data automobile, variabel “manufacturer” memiliki level paling banyak ini dikarenakan
terdapat merk yang berbagai macam dari data automobile.

Regresi Linear Berganda


Data automobile menyajikan 26 variabel dengan jumlah observasi 205. Variabel dependen
yang dipilih adalah “price” dan 25 sisanya adalah variabel independen. Data tersebut akan digunakan
untuk memprediksi harga mobil bekas yang akan dijual ke pasaran. Dikarenakan terdapat begitu
banyak variabel independen, akan dilakukan variable selection dengan metode . Berikut adalah Model
Regresi secara lengkap di R :
Analisis Regresi Linear Berganda

Nilai 𝛽𝑗 di atas tidak lengkap, cek kembali ke file R-nya. Selanjutnya, akan dilakukan variable
selection backward. Berikut hasilnya di R :

Hasil variabel yang terpilih di atas adalah step terakhir dari variable selection backward. Hanya
terdapat 13 variabel independen yang tersisa, terdiri dari 5 variabel kualitatif dan 8 variabel
kuantitatif. Berikut adalah model regresi final yang akan digunakan :
Analisis Regresi Linear Berganda

Multiple R-squared dan Adjusted R-squared dari sebelum dan sesudah variable selection tidak
berbeda jauh tetapi jumlah variabel independennya berkurang hampir setengahnya.
Berikut adalah persamaan regresi berganda yang akan digunakan :
Analisis Regresi Linear Berganda

Uji Asumsi Klasik Regresi Linear Berganda


✓ Uji Asumsi Linearitas, Normalitas, Homoskedastisitas, Non-Multikolinearitas, dan Non-
Autokorelasi
1. Uji Linearitas
o Merumuskan Hipotesis

H0∶ Hubungan antar variabel bersifat linear

H1 : Hubungan antar variabel tidak bersifat linear


o Menentukan p-value

Kita akan menggunakan R studio untuk menghitung p-value :

Diperoleh p-value < 2.2e-16


o Kriteria pengujian
H0 tidak ditolak bila p-value < 0,05
H0 ditolak bila p-value > 0,05
o Membandingkan p-value dengan 0,05
Nilai 2,2e-16 < 0,05, maka Ho tidak ditolak.
o Kesimpulan
Karena p-value lebih kecil dari 0.05, maka 𝐻0 tidak ditolak. Hubungan antar variabel
bersifat linear.

2. Uji Normalitas menggunakan Uji Shapiro Wilk


o Merumuskan Hipotesis
𝐻0: Residual berdistribusi normal
𝐻1: Residual tidak berdistribusi normal
o Menentukan p-value dengan uji shapiro wilk di R studio

o Kriteria pengujian
H0 tidak ditolak bila p-value > 0,05
H0 ditolak bila p-value < 0,05
o Membandingkan p-value dengan 0,05
Nilai 5,723e-06 < 0,05, maka Ho ditolak.
o Kesimpulan
Karena p-value lebih kecil dari 0.05, maka 𝐻0 ditolak. Residual tidak berdistribusi
normal.
Analisis Regresi Linear Berganda

3. Uji Homoskedastisitas
o Merumuskan Hipotesis
𝐻0: Variansi residual bersifat homoskedastisitas
𝐻1: Variansi residual tidak bersifat homoskedastisitas
o Menentukan p-value dengan uji Non-constant Variance di R studio

p-value = 1.2716e-10
o Kriteria pengujian
H0 tidak ditolak bila p-value > 0,05
H0 ditolak bila p-value < 0,05
o Membandingkan p-value dengan 0,05
Nilai 1,2716e-10 < 0,05, maka Ho ditolak.
o Kesimpulan
Karena p-value lebih kecil dari 0.05, maka 𝐻0 ditolak. Variansi residual tidak bersifat
homoskedastisitas.
4. Uji Non-Multikolinearitas

Hasil dari R di atas menyatakan terdapat 2 atau lebih dari variabel independen pada
model memiliki korelasi yang kuat, maka dapat disimpulkan bahwa Non-multikolinearitas
tidak terpenuhi.
5. Uji Non-Autokorelasi
o Merumuskan Hipotesis
𝐻0: Tidak terjadi autokorelasi antar residual
𝐻1: Terjadi autokorelasi antar residual
o Menentukan p-value dengan uji Durbin Watsondi R studio

p-value = 0,7729
o Kriteria pengujian
H0 tidak ditolak bila p-value > 0,05
H0 ditolak bila p-value < 0,05
o Membandingkan p-value dengan 0,05
Nilai 0,7729 > 0,05, maka Ho tidak ditolak.
o Kesimpulan
Karena p-value lebih besar dari 0.05, maka 𝐻0 tidak ditolak. Tidak terjadi autokorelasi
antar residual.
Analisis Regresi Linear Berganda

✓ Mencari Nilai s dan R2


Kita akan menggunakan hasil R studio sebelumnya.

𝑠 = 1858 , 𝑅 2 = 0,9563 , 𝑅 2 𝑎𝑑𝑗𝑢𝑠𝑡𝑒𝑑 = 0,9442


✓ Intepretasi s = 1858
artinya kita percaya 95% nilai-nilai y dalam hal ini harga mobil bekas akan terletak dalam
interval 𝑌̂ ± 2(𝑠) = 𝑌̂ ± 3716.

✓ Intepretasi R2 = 0,9563 dan R2adjusted = 0,9442


artinya model regresi yang dibentuk menjelaskan 94,42% variansi dari sampel dan nilai-
nilai y yang dalam hal ini adalah harga mobil bekas.

✓ Tahap-tahap untuk melakukan uji F adalah sebagai berikut:


o Merumuskan Hipotesis

H0∶ β1= β2=⋯= βk=0

H1 : Tidak semua βj sama dengan nol, untuk j = 1, 2, …, k


o Menentukan F hitung
Dari perhitungan sebelumnya di R diperoleh F-statistic(F hitung) = 79,49
o Menentukan F table

Dengan menggunakan tingkat keyakinan 95%,  = 5%, df1 = 4, df2 = 160, hasil
diperoleh untuk F tabel sebesar 2,428.

o Kriteria pengujian
H0 tidak ditolak bila F hitung < F tabel
H0 ditolak bila F hitung > F table

o Membandingkan F hitung dengan F tabel.


Nilai F hitung > F tabel (79,49 > 2,428), maka Ho ditolak.
o Kesimpulan
Karena F hitung > F tabel (79,49 > 2,428), maka Ho ditolak, artinya ada pengaruh
secara signifikan dari 205 data mobil yang dipilih secara acak, antara variabel bebas secara
bersama-sama terhadap harga mobil bekas.
Analisis Regresi Linear Berganda

Pendeteksian Outlier

Kita akan mendeteksi outlier dengan metode DFFITS(Difference Fitted Value FITS). DFFITS
digunakan untuk mengetahui pengaruh suatu pengamatan ke-i terhadap model regresi yang ditinjau
dari nilai fit-nya. Berikut adalah DFFITS dari 10 observasi pertama :

Selanjutnya, kita akan menghitung threshold value, berikut adalah caranya :

Lalu yang terakhir kita akan mem-plot nilai DFFITS untuk masing-masing observasi. Berikut
menggunakan R :

Dari plot di samping dapat dilihat bahwa terdapat cukup


banyak nilai DFFITS yang melewati thresholed value. Hal ini
dapat dicurigai sebagai penyebab beberapa uji asumsi klasik
regresi linear berganda tidak terpenuhi.

Anda mungkin juga menyukai