REGRESI MOBIL

Analisis Regresi Linear Berganda
Data
Berikut sedikit tampilan dari data yang akan diolah.
Preparation Data
Beberapa observasi memiliki nilai kosong pada beberapa variabel, maka akan dilakukan data
cleansing terlebih dahulu. Kita akan menggunakan Rstudio untuk mengatasi missing value dari data
tersebut. Kita mengatasinya dengan mengisi missing value dengan mean untuk observasi numerik
dan modus untuk observasi kategorik. Berikut caranya :
Variabel “doors” memiliki tipe data kategorik, maka missing value dari kolom ini akan diisi
dengan modus. Berikut R-nya :
Variabel “norm_loss”, “bore”, “stroke”, “horsepower”, “rpm”, “price” memiliki tipe data
numerik, maka missing value dari kolom ini akan diisi dengan mean. Berikut R-nya :
Berikut adalah sedikit tampilan data yang sudah diperbaiki :
Pada kasus ini, variabel dependen pada dasarnya tidak hanya dapat dipengaruhi oleh variabel
independen kuantitatif, tetapi juga dapat dipengaruhi oleh variabel independen kualitatif. Variabel
kualitatif tersebut harus dikuantitatifkan atributnya. Untuk mengkuantitatifkan atribut variabel
kualitatif dibentuk variabel dummy. Berikut R-nya :
Statistika Deskriptif
Selanjutnya, akan ditampilkan sedikit statistika deskriptifnya, untuk lebih lengkapnya dapat
dilihat di Rstudio.
Dari data automobile, variabel “manufacturer” memiliki level paling banyak ini dikarenakan
terdapat merk yang berbagai macam dari data automobile.
Regresi Linear Berganda

Data automobile menyajikan 26 variabel dengan jumlah observasi 205. Variabel dependen
yang dipilih adalah “price” dan 25 sisanya adalah variabel independen. Data tersebut akan digunakan
untuk memprediksi harga mobil bekas yang akan dijual ke pasaran. Dikarenakan terdapat begitu
banyak variabel independen, akan dilakukan variable selection dengan metode . Berikut adalah Model
Regresi secara lengkap di R :
Nilai 𝛽𝑗 di atas tidak lengkap, cek kembali ke file R-nya. Selanjutnya, akan dilakukan variable
selection backward. Berikut hasilnya di R :
Hasil variabel yang terpilih di atas adalah step terakhir dari variable selection backward. Hanya
terdapat 13 variabel independen yang tersisa, terdiri dari 5 variabel kualitatif dan 8 variabel
kuantitatif. Berikut adalah model regresi final yang akan digunakan :
Multiple R-squared dan Adjusted R-squared dari sebelum dan sesudah variable selection tidak
berbeda jauh tetapi jumlah variabel independennya berkurang hampir setengahnya.
Berikut adalah persamaan regresi berganda yang akan digunakan :
Uji Asumsi Klasik Regresi Linear Berganda

✓ Uji Asumsi Linearitas, Normalitas, Homoskedastisitas, Non-Multikolinearitas, dan Non-
Autokorelasi
1. Uji Linearitas
o Merumuskan Hipotesis
H0∶ Hubungan antar variabel bersifat linear
H1 : Hubungan antar variabel tidak bersifat linear

o Menentukan p-value
Kita akan menggunakan R studio untuk menghitung p-value :
Diperoleh p-value < 2.2e-16

o Kriteria pengujian
H0 tidak ditolak bila p-value < 0,05
H0 ditolak bila p-value > 0,05
o Membandingkan p-value dengan 0,05
Nilai 2,2e-16 < 0,05, maka Ho tidak ditolak.
o Kesimpulan
Karena p-value lebih kecil dari 0.05, maka 𝐻0 tidak ditolak. Hubungan antar variabel
bersifat linear.
2. Uji Normalitas menggunakan Uji Shapiro Wilk

𝐻0: Residual berdistribusi normal
𝐻1: Residual tidak berdistribusi normal
o Menentukan p-value dengan uji shapiro wilk di R studio
H0 tidak ditolak bila p-value > 0,05
H0 ditolak bila p-value < 0,05
Nilai 5,723e-06 < 0,05, maka Ho ditolak.
o Kesimpulan
Karena p-value lebih kecil dari 0.05, maka 𝐻0 ditolak. Residual tidak berdistribusi
normal.
3. Uji Homoskedastisitas
𝐻0: Variansi residual bersifat homoskedastisitas
𝐻1: Variansi residual tidak bersifat homoskedastisitas
o Menentukan p-value dengan uji Non-constant Variance di R studio
p-value = 1.2716e-10
Nilai 1,2716e-10 < 0,05, maka Ho ditolak.
o Kesimpulan
Karena p-value lebih kecil dari 0.05, maka 𝐻0 ditolak. Variansi residual tidak bersifat
homoskedastisitas.
4. Uji Non-Multikolinearitas
Hasil dari R di atas menyatakan terdapat 2 atau lebih dari variabel independen pada
model memiliki korelasi yang kuat, maka dapat disimpulkan bahwa Non-multikolinearitas
tidak terpenuhi.
5. Uji Non-Autokorelasi
𝐻0: Tidak terjadi autokorelasi antar residual
𝐻1: Terjadi autokorelasi antar residual
o Menentukan p-value dengan uji Durbin Watsondi R studio
p-value = 0,7729
Nilai 0,7729 > 0,05, maka Ho tidak ditolak.
o Kesimpulan
Karena p-value lebih besar dari 0.05, maka 𝐻0 tidak ditolak. Tidak terjadi autokorelasi
antar residual.
✓ Mencari Nilai s dan R2

Kita akan menggunakan hasil R studio sebelumnya.
𝑠 = 1858 , 𝑅 2 = 0,9563 , 𝑅 2 𝑎𝑑𝑗𝑢𝑠𝑡𝑒𝑑 = 0,9442

✓ Intepretasi s = 1858
artinya kita percaya 95% nilai-nilai y dalam hal ini harga mobil bekas akan terletak dalam
interval 𝑌̂ ± 2(𝑠) = 𝑌̂ ± 3716.
✓ Intepretasi R2 = 0,9563 dan R2adjusted = 0,9442

artinya model regresi yang dibentuk menjelaskan 94,42% variansi dari sampel dan nilai-
nilai y yang dalam hal ini adalah harga mobil bekas.
✓ Tahap-tahap untuk melakukan uji F adalah sebagai berikut:

H0∶ β1= β2=⋯= βk=0
H1 : Tidak semua βj sama dengan nol, untuk j = 1, 2, …, k

o Menentukan F hitung
Dari perhitungan sebelumnya di R diperoleh F-statistic(F hitung) = 79,49
o Menentukan F table
Dengan menggunakan tingkat keyakinan 95%,  = 5%, df1 = 4, df2 = 160, hasil
diperoleh untuk F tabel sebesar 2,428.
H0 tidak ditolak bila F hitung < F tabel
H0 ditolak bila F hitung > F table
o Membandingkan F hitung dengan F tabel.

Nilai F hitung > F tabel (79,49 > 2,428), maka Ho ditolak.
o Kesimpulan
Karena F hitung > F tabel (79,49 > 2,428), maka Ho ditolak, artinya ada pengaruh
secara signifikan dari 205 data mobil yang dipilih secara acak, antara variabel bebas secara
bersama-sama terhadap harga mobil bekas.
Pendeteksian Outlier
Kita akan mendeteksi outlier dengan metode DFFITS(Difference Fitted Value FITS). DFFITS
digunakan untuk mengetahui pengaruh suatu pengamatan ke-i terhadap model regresi yang ditinjau
dari nilai fit-nya. Berikut adalah DFFITS dari 10 observasi pertama :
Selanjutnya, kita akan menghitung threshold value, berikut adalah caranya :
Lalu yang terakhir kita akan mem-plot nilai DFFITS untuk masing-masing observasi. Berikut
menggunakan R :
Dari plot di samping dapat dilihat bahwa terdapat cukup

banyak nilai DFFITS yang melewati thresholed value. Hal ini
dapat dicurigai sebagai penyebab beberapa uji asumsi klasik
regresi linear berganda tidak terpenuhi.

REGRESI MOBIL

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

REGRESI MOBIL

Diunggah oleh

Hak Cipta:

Format Tersedia

Analisis Regresi Linear Berganda

Berikut adalah sedikit tampilan data yang sudah diperbaiki :

Regresi Linear Berganda

Uji Asumsi Klasik Regresi Linear Berganda

H0∶ Hubungan antar variabel bersifat linear

H1 : Hubungan antar variabel tidak bersifat linear

Kita akan menggunakan R studio untuk menghitung p-value :

Diperoleh p-value < 2.2e-16

2. Uji Normalitas menggunakan Uji Shapiro Wilk

✓ Mencari Nilai s dan R2

𝑠 = 1858 , 𝑅 2 = 0,9563 , 𝑅 2 𝑎𝑑𝑗𝑢𝑠𝑡𝑒𝑑 = 0,9442

✓ Intepretasi R2 = 0,9563 dan R2adjusted = 0,9442

✓ Tahap-tahap untuk melakukan uji F adalah sebagai berikut:

H0∶ β1= β2=⋯= βk=0

H1 : Tidak semua βj sama dengan nol, untuk j = 1, 2, …, k

o Membandingkan F hitung dengan F tabel.

Selanjutnya, kita akan menghitung threshold value, berikut adalah caranya :

Dari plot di samping dapat dilihat bahwa terdapat cukup

Anda mungkin juga menyukai