Analisis Multiple Linear Regression Untuk Memprediksi Harga Rumah Berdasarkan Luas Bangunan, Luas Tanah, Jumlah Kamar Tidur, Jumlah Kamar Mandi, Dan Kapasitas Mobil Dalam Garasi.
Analisis Multiple Linear Regression Untuk Memprediksi Harga Rumah Berdasarkan Luas Bangunan, Luas Tanah, Jumlah Kamar Tidur, Jumlah Kamar Mandi, Dan Kapasitas Mobil Dalam Garasi.
I Gede Risva Darma Sentana1, Komang Wibisana2, Made Restu Wedatama3, Dewa Putu
Indra Sunarya4, dan Gede Martha Kusuma5
Universitas Pendidikan Ganesha; Jalan Udayana No. 11, (0362)22570, Singaraja
Program Studi Ilmu Komputer, Jurusan Teknik Informatika, Fakultas Teknik dan Kejuruan,
Universitas Pendidikan Ganesha, Indonesia
e-mail: *1risva@undiksha.ac.id, 2wibisana@undiksha.ac.id, 3restu.weda@undiksha.ac.id,
4
dewa.indra@undiksha.ac.id, 5martha.kusuma@undiksha.ac.id
Abstrak
Penelitian ini bertujuan menganalisis hubungan antara luas bangunan, luas
tanah, jumlah kamar tidur, jumlah kamar mandi, dan kapasitas garasi terhadap harga
rumah. Metode regresi linear berganda digunakan untuk memodelkan hubungan
tersebut. Dataset harga rumah digunakan dalam pembentukan dan evaluasi model.
Hasil evaluasi menunjukkan koefisien determinasi (R-squared) sebesar 0,77,
menandakan kemampuan model untuk menjelaskan variasi harga rumah. Plot residu
dan prediksi vs. aktual memberikan wawasan tambahan terhadap kinerja model.
Penelitian ini memberikan dasar untuk prediksi harga rumah yang akurat dan dapat
membantu pemahaman faktor-faktor yang mempengaruhi harga rumah.
Abstract
This study aims to analyze the relationship between building area, land area,
number of bedrooms, number of bathrooms, and garage capacity with house prices.
Multiple linear regression is employed to model these relationships. A dataset of house
prices is utilized for model formation and evaluation. The evaluation results indicate an
R-squared of 0.77, signifying the model's ability to explain variations in house prices.
Residual plots and prediction vs. actual plots provide additional insights into the
model's performance. The research establishes a foundation for accurate house price
predictions and enhances understanding of factors influencing house prices.
1. INTRODUCTION
Y = α + β1 X1 + β2 X2 + βn Xn + e
Keterangan:
Y = Variabel terikat (Dependen)
X = Variabel bebas (Independen)
α = Konstanta (Intercept)
β = Slope atau Koefisien estimate.
e = Error
2. METHODS
variabilitas ini berkontribusi terhadap harga rumah menjadi fokus utama. Kedua,
penelitian sebelumnya belum sepenuhnya mengintegrasikan variabel-variabel ini dalam
satu model analisis yang komprehensif.
Keberhasilan prediksi harga rumah memerlukan pemahaman mendalam tentang
bagaimana variabel-variabel ini berinteraksi secara bersamaan. Ketiga, evaluasi model
juga menjadi aspek penting yang kurang diteliti sebelumnya. Oleh karena itu, penelitian
ini akan menyajikan analisis yang komprehensif terhadap performa model regresi linear
berganda yang diusulkan. Keempat, pentingnya kontribusi unik dalam penggabungan
variabel-variabel kunci dalam satu model diharapkan dapat meningkatkan akurasi
prediksi harga rumah dan memberikan wawasan lebih lanjut bagi pemangku
kepentingan di sektor properti. Terakhir, peran tinjauan literatur menjadi esensial untuk
mengidentifikasi kekosongan informasi dan menemukan keunikan kontribusi, sehingga
dapat melengkapi serta memperkuat fondasi penelitian ini. Dengan pemahaman
mendalam terhadap analisis masalah ini, penelitian ini diharapkan dapat memberikan
solusi yang signifikan dan kontribusi berarti pada pemahaman serta prediksi harga
rumah yang lebih akurat dalam konteks pasar properti.
2. 2 Design Method
Keterangan:
a. Membaca dan Menganalisis Dataset:
Penelitian dimulai dengan langkah membaca dataset "Harga Rumah" dari
Kaggle.com. Dataset tersebut akan dianalisis untuk memahami struktur data,
distribusi variabel, dan karakteristik umum lainnya. Selain itu, dilakukan juga
data cleaning untuk membersihkan dan mempersiapkan dataset sehingga dapat
digunakan secara efektif dalam analisis atau pemodelan.
4
■
b. Visualisasi Dataset:
Setelah membaca dataset, langkah selanjutnya adalah melakukan visualisasi data.
Scatter plot dapat digunakan untuk melihat hubungan antara variabel independen
(misalnya, luas bangunan, luas tanah, jumlah kamar tidur, jumlah kamar mandi,
dan kapasitas garasi) dengan variabel dependen (harga rumah). Visualisasi ini
membantu mengidentifikasi pola dan trend dalam data, serta memahami apakah
ada korelasi yang terlihat.
c. Pelatihan Dataset Menggunakan Multiple Linear Regression:
Setelah pemilihan variabel dan pemahaman visual terhadap dataset, langkah
selanjutnya adalah melatih model regresi linear berganda. Dataset dibagi
menjadi dua bagian: training set dan testing set. Model akan dilatih
menggunakan training set untuk memahami hubungan antara variabel-variabel
independen dan dependen. Pada tahap ini, algoritma multiple linear regression
akan digunakan untuk menemukan koefisien terbaik yang menggambarkan
hubungan tersebut.
d. Testing dan Evaluasi Model:
Setelah melatih model, langkah selanjutnya adalah menguji model menggunakan
testing set yang sebelumnya tidak pernah dilihat oleh model. Hasil prediksi dari
model akan dibandingkan dengan nilai sebenarnya pada testing set. Evaluasi
model dilakukan menggunakan metrik seperti R-squared, Mean Squared Error
(MSE), dan Root Mean Squared Error (RMSE) untuk mengukur seberapa baik
model dapat memprediksi harga rumah. Proses ini membantu mengidentifikasi
akuratan dan kinerja model dalam situasi dunia nyata.
2.2.1 Dataset
Dataset yang digunakan dalam penelitian ini adalah data rumah dari situs jual
beli properti di Indonesia. Dataset ini terdiri dari 1100 data rumah dan 8 kolom, dengan
masing-masing data memiliki informasi sebagai berikut:
Dataset tersebut lalu dianalisis dan dibersihkan dari data yang tidak valid dan
yang tidak digunakan sebagai variabel. Setelah dianalisa, variabel yang digunakan dari
5
■
dataset terdiri dari 6 variabel dengan deskripsi dari masing-masing variabel dalam
dataset sebagai berikut:
a. Harga: Variabel dependen yang akan diprediksi.
b. Luas Bangunan: Variabel independen yang menunjukkan ukuran rumah.
c. Luas Tanah: Variabel independen yang menunjukkan ukuran lahan yang
ditempati rumah.
d. Jumlah Kamar Tidur: Variabel independen yang menunjukkan jumlah kamar
tidur di rumah.
e. Jumlah Kamar Mandi: Variabel independen yang menunjukkan jumlah kamar
mandi di rumah.
f. Kapasitas Mobil dalam Garasi: Variabel independen yang menunjukkan jumlah
mobil yang dapat ditampung di garasi.
Gambar 3. Hubungan Harga dan Luas Bangunan Gambar 4. Hubungan Harga dan Luas Tanah
Gambar 5. Hubungan Harga dan Kamar Tidur Gambar 6. Hubungan Harga dan Kamar Mandi
6
■
Selanjutnya, dataset dibagi menjadi data yang digunakan untuk testing sebanyak
20% dan digunakan untuk training sebanyak 80%,lalu random_state digunakan untuk
mengatur seed untuk generator nomor acak yang berguna untuk memastikan bahwa
pembagian dataset menjadi training dan testing set bersifat deterministik, artinya
hasilnya akan sama setiap kali kode dieksekusi. Pengaturan ini berguna untuk membuat
hasil eksperimen menjadi reproduktif. Setelah proses pembagian selesai, dibuat objek
model untuk memodelkan hubungan antara beberapa variabel independen dan variabel
dependen.
Selanjutnya dicari nilai slope (m) dan intercept (b) dari model untuk menunjukan sejauh
mana setiap variabel independen berkontribusi terhadap variabel dependen yang hasilnya
ditampilkan sebagai berikut:
Selanjutnya melakukan proses Evaluasi model dimana proses ini ada beberapa
metrik evaluasi yang umum digunakan. Disini menggunakan 3 cara yaitu r-squared
(Koefisien Determinasi), Mean Squared Error (MSE), dan Root Mean Squared Error
(RMSE). Cara pertama yaitu r-squared mengukur sejauh mana variasi dalam variabel
dependen dapat dijelaskan oleh model. Nilai r-squared berkisar antara 0 dan 1. Semakin
tinggi nilai r-squared, semakin baik model mampu menjelaskan variasi dalam data.
Cara Kedua yaitu MSE berguna untuk mengukur rata-rata kuadrat dari selisih
antara nilai aktual (y_test) dan nilai yang diprediksi(y_pred).Dan cara yang terakhir
yaitu RMSE adalah akar kuadrat dari MSE. Ini memberikan gambaran yang lebih
intuitif tentang seberapa besar kesalahan prediksi model dalam satuan yang sama
dengan variabel target. Seperti MSE, semakin rendah nilai RMSE, semakin baik
modelnya. Jadi setelah menghitung metrik menggunakan ketiga cara tersebut,dapat
dievaluasi bahwa Semakin tinggi R-squared dan semakin rendah MSE serta RMSE,
semakin baik model regresi dapat memodelkan datanya. Setelah di print, hasil dari
Evaluasi Model yang didapatkan sebagai berikut:
Berdasarkan dari hasil contoh prediksi harga rumah untuk data baru ini Hasil
prediksi ini menunjukkan bahwa harga rumah dengan Luas Bangunan (LB) 150 meter
persegi, Luas Tanah(LT) 200 meter persegi,4 Kamar Tidur (KT), 3 Kamar Mandi(KM)
dan 2 Garasi (GRS) adalah Rp5.331.297.556,923565.
4. CONCLUSIONS
REFERENCES