Anda di halaman 1dari 11

■ 1

Analisis Multiple Linear Regression untuk Memprediksi


Harga Rumah Berdasarkan Luas Bangunan, Luas Tanah,
Jumlah Kamar Tidur, Jumlah Kamar Mandi, dan
Kapasitas Mobil dalam Garasi.

I Gede Risva Darma Sentana1, Komang Wibisana2, Made Restu Wedatama3, Dewa Putu
Indra Sunarya4, dan Gede Martha Kusuma5
Universitas Pendidikan Ganesha; Jalan Udayana No. 11, (0362)22570, Singaraja
Program Studi Ilmu Komputer, Jurusan Teknik Informatika, Fakultas Teknik dan Kejuruan,
Universitas Pendidikan Ganesha, Indonesia
e-mail: *1risva@undiksha.ac.id, 2wibisana@undiksha.ac.id, 3restu.weda@undiksha.ac.id,
4
dewa.indra@undiksha.ac.id, 5martha.kusuma@undiksha.ac.id

Abstrak
Penelitian ini bertujuan menganalisis hubungan antara luas bangunan, luas
tanah, jumlah kamar tidur, jumlah kamar mandi, dan kapasitas garasi terhadap harga
rumah. Metode regresi linear berganda digunakan untuk memodelkan hubungan
tersebut. Dataset harga rumah digunakan dalam pembentukan dan evaluasi model.
Hasil evaluasi menunjukkan koefisien determinasi (R-squared) sebesar 0,77,
menandakan kemampuan model untuk menjelaskan variasi harga rumah. Plot residu
dan prediksi vs. aktual memberikan wawasan tambahan terhadap kinerja model.
Penelitian ini memberikan dasar untuk prediksi harga rumah yang akurat dan dapat
membantu pemahaman faktor-faktor yang mempengaruhi harga rumah.

Kata kunci—Multiple Linear Regression, Prediksi Harga Rumah, Machine Learning

Abstract
This study aims to analyze the relationship between building area, land area,
number of bedrooms, number of bathrooms, and garage capacity with house prices.
Multiple linear regression is employed to model these relationships. A dataset of house
prices is utilized for model formation and evaluation. The evaluation results indicate an
R-squared of 0.77, signifying the model's ability to explain variations in house prices.
Residual plots and prediction vs. actual plots provide additional insights into the
model's performance. The research establishes a foundation for accurate house price
predictions and enhances understanding of factors influencing house prices.

Keywords—Multiple Linear Regression, Prediksi Harga Rumah, Machine Learning

1. INTRODUCTION

Bisnis di sektor properti dianggap memiliki potensi keuntungan tinggi, tetapi


juga diiringi risiko yang signifikan, terutama karena penjualan sangat tergantung pada
fluktuasi harga pasar dan tingkat minat pembeli yang dapat berfluktuasi yang
diakibatkan beberapa faktor. Perusahaan properti umumnya menawarkan berbagai tipe
atau model properti dengan harga, bentuk, luas bangunan, luas tanah, jumlah kamar
2

tidur, jumlah kamar mandi, dan kapasitas garasi yang beragam. Keberhasilan penjualan
properti, yang tercermin dalam nilai propertinya, menjadi krusial untuk kelangsungan
bisnis dan perlu untuk dianalisis.
Untuk memproyeksikan penjualan di masa depan, penting untuk menerapkan
metode peramalan atau prediksi yang tepat. Prediksi digunakan sebagai alat
pengambilan keputusan di berbagai sektor, khususnya dalam mengelola risiko dan
memaksimalkan keuntungan. Salah satu metode efektif untuk menganalisis hubungan
kompleks ini adalah melalui pendekatan regresi linear berganda (Multiple Linear
Regression). Pada penelitian sebelumnya, masih terdapat kekosongan informasi
terutama dalam integrasi variabel-variabel kunci dalam satu model analisis serta masih
belum ada evaluasi model yang dilakukan.
Penelitian ini bertujuan untuk mendapatkan prediksi harga rumah yang akurat
dengan menerapkan regresi linear berganda pada dataset “Harga Rumah” yang
diperoleh dari kaggle.com. Fokusnya adalah untuk memperoleh pemahaman mendalam
tentang sejauh mana variabel-variabel tersebut memengaruhi harga rumah secara
bersamaan. Dengan rincian dampak dan hubungan relatif dari masing-masing variabel
terhadap harga rumah, diharapkan penelitian ini dapat memberikan wawasan strategis
bagi para pebisnis di pasar properti.
Multiple Linear Regression adalah sebuah model statistik yang melibatkan lebih
dari satu variabel independen dalam melakukan prediksi. Dalam pemodelan ini, prediksi
dilakukan dengan menggunakan data yang berskala interval atau rasio, dan terdapat
lebih dari satu variabel independen yang digunakan untuk meramalkan variabel
dependen. Metode ini tidak hanya memperhitungkan satu prediksi, tetapi
mempertimbangkan beberapa prediksi sekaligus. Selain itu, analisis pada metode ini
melibatkan pemahaman dan evaluasi terhadap hubungan antara variabel bebas
(independen) dan variabel terikat (dependen) untuk menjelaskan pola atau trend dalam
data.Model regresi linear berganda bisa digambarkan dengan persamaan sebagai
berikut:

Y = α + β1 X1 + β2 X2 + βn Xn + e

Keterangan:
Y = Variabel terikat (Dependen)
X = Variabel bebas (Independen)
α = Konstanta (Intercept)
β = Slope atau Koefisien estimate.
e = Error

2. METHODS

2.1 Problem Analysis


Dalam bisnis properti khususnya perumahan memiliki banyak faktor dalam
penentuan keberhasilan penjualan, harga rumah menjadi salah satu pertimbangan paling
tinggi konsumen untuk membeli rumah. Dalam penelitian ini mencakup analisa tentang
kompleksitas dalam prediksi harga rumah dan tantangan yang perlu diatasi. Pertama,
faktor-faktor kunci seperti luas bangunan, luas tanah, jumlah kamar tidur, jumlah kamar
mandi, dan kapasitas garasi memiliki hubungan yang kompleks dan saling
mempengaruhi. Menilai dampak relatif dari setiap variabel dan memahami cara
3

variabilitas ini berkontribusi terhadap harga rumah menjadi fokus utama. Kedua,
penelitian sebelumnya belum sepenuhnya mengintegrasikan variabel-variabel ini dalam
satu model analisis yang komprehensif.
Keberhasilan prediksi harga rumah memerlukan pemahaman mendalam tentang
bagaimana variabel-variabel ini berinteraksi secara bersamaan. Ketiga, evaluasi model
juga menjadi aspek penting yang kurang diteliti sebelumnya. Oleh karena itu, penelitian
ini akan menyajikan analisis yang komprehensif terhadap performa model regresi linear
berganda yang diusulkan. Keempat, pentingnya kontribusi unik dalam penggabungan
variabel-variabel kunci dalam satu model diharapkan dapat meningkatkan akurasi
prediksi harga rumah dan memberikan wawasan lebih lanjut bagi pemangku
kepentingan di sektor properti. Terakhir, peran tinjauan literatur menjadi esensial untuk
mengidentifikasi kekosongan informasi dan menemukan keunikan kontribusi, sehingga
dapat melengkapi serta memperkuat fondasi penelitian ini. Dengan pemahaman
mendalam terhadap analisis masalah ini, penelitian ini diharapkan dapat memberikan
solusi yang signifikan dan kontribusi berarti pada pemahaman serta prediksi harga
rumah yang lebih akurat dalam konteks pasar properti.

2. 2 Design Method

Gambar 1. Flowchart Diagram Pembuatan Analisis Prediksi Secara Umum

Keterangan:
a. Membaca dan Menganalisis Dataset:
Penelitian dimulai dengan langkah membaca dataset "Harga Rumah" dari
Kaggle.com. Dataset tersebut akan dianalisis untuk memahami struktur data,
distribusi variabel, dan karakteristik umum lainnya. Selain itu, dilakukan juga
data cleaning untuk membersihkan dan mempersiapkan dataset sehingga dapat
digunakan secara efektif dalam analisis atau pemodelan.
4

b. Visualisasi Dataset:
Setelah membaca dataset, langkah selanjutnya adalah melakukan visualisasi data.
Scatter plot dapat digunakan untuk melihat hubungan antara variabel independen
(misalnya, luas bangunan, luas tanah, jumlah kamar tidur, jumlah kamar mandi,
dan kapasitas garasi) dengan variabel dependen (harga rumah). Visualisasi ini
membantu mengidentifikasi pola dan trend dalam data, serta memahami apakah
ada korelasi yang terlihat.
c. Pelatihan Dataset Menggunakan Multiple Linear Regression:
Setelah pemilihan variabel dan pemahaman visual terhadap dataset, langkah
selanjutnya adalah melatih model regresi linear berganda. Dataset dibagi
menjadi dua bagian: training set dan testing set. Model akan dilatih
menggunakan training set untuk memahami hubungan antara variabel-variabel
independen dan dependen. Pada tahap ini, algoritma multiple linear regression
akan digunakan untuk menemukan koefisien terbaik yang menggambarkan
hubungan tersebut.
d. Testing dan Evaluasi Model:
Setelah melatih model, langkah selanjutnya adalah menguji model menggunakan
testing set yang sebelumnya tidak pernah dilihat oleh model. Hasil prediksi dari
model akan dibandingkan dengan nilai sebenarnya pada testing set. Evaluasi
model dilakukan menggunakan metrik seperti R-squared, Mean Squared Error
(MSE), dan Root Mean Squared Error (RMSE) untuk mengukur seberapa baik
model dapat memprediksi harga rumah. Proses ini membantu mengidentifikasi
akuratan dan kinerja model dalam situasi dunia nyata.

2.2.1 Dataset
Dataset yang digunakan dalam penelitian ini adalah data rumah dari situs jual
beli properti di Indonesia. Dataset ini terdiri dari 1100 data rumah dan 8 kolom, dengan
masing-masing data memiliki informasi sebagai berikut:

Gambar 2. Dataset Harga Rumah


a. NO : nomor data.
b. NAMA RUMAH : judul rumah.
c. HARGA : harga dari rumah.
d. LB : jumlah luas bangunan.
e. LT : jumlah luas tanah.
f. KT : jumlah kamar tidur.
g. KM : jumlah kamar mandi.
h. GRS : jumlah kapasitas mobil dalam garasi.

Dataset tersebut lalu dianalisis dan dibersihkan dari data yang tidak valid dan
yang tidak digunakan sebagai variabel. Setelah dianalisa, variabel yang digunakan dari
5

dataset terdiri dari 6 variabel dengan deskripsi dari masing-masing variabel dalam
dataset sebagai berikut:
a. Harga: Variabel dependen yang akan diprediksi.
b. Luas Bangunan: Variabel independen yang menunjukkan ukuran rumah.
c. Luas Tanah: Variabel independen yang menunjukkan ukuran lahan yang
ditempati rumah.
d. Jumlah Kamar Tidur: Variabel independen yang menunjukkan jumlah kamar
tidur di rumah.
e. Jumlah Kamar Mandi: Variabel independen yang menunjukkan jumlah kamar
mandi di rumah.
f. Kapasitas Mobil dalam Garasi: Variabel independen yang menunjukkan jumlah
mobil yang dapat ditampung di garasi.

Hubungan dari variabel independen dan variabel dependen dapat


divisualisasikan dalam bentuk scatter plot sebagai berikut:

Gambar 3. Hubungan Harga dan Luas Bangunan Gambar 4. Hubungan Harga dan Luas Tanah

Gambar 5. Hubungan Harga dan Kamar Tidur Gambar 6. Hubungan Harga dan Kamar Mandi
6

Gambar 7. Hubungan Harga dan Garasi

2.2.2 Training Dataset dengan Multiple Linear Regression


Multiple linear regression adalah metode dalam machine learning yang
digunakan untuk memprediksi nilai variabel dependen dengan menggunakan beberapa
variabel independen. Dalam penelitian ini, variabel dependen adalah harga rumah,
sedangkan variabel independen adalah luas bangunan, luas tanah, jumlah kamar tidur,
jumlah kamar mandi, dan kapasitas mobil dalam garasi.
Training dimulai dengan membuat variabel x dibuat untuk menampung fitur-
fitur (variabel independen) dari dataset, sedangkan variabel y menampung variabel
dependen yang ingin diprediksi.

Gambar 8. Menentukan Variabel Independen dan Variabel Dependen

Selanjutnya, dataset dibagi menjadi data yang digunakan untuk testing sebanyak
20% dan digunakan untuk training sebanyak 80%,lalu random_state digunakan untuk
mengatur seed untuk generator nomor acak yang berguna untuk memastikan bahwa
pembagian dataset menjadi training dan testing set bersifat deterministik, artinya
hasilnya akan sama setiap kali kode dieksekusi. Pengaturan ini berguna untuk membuat
hasil eksperimen menjadi reproduktif. Setelah proses pembagian selesai, dibuat objek
model untuk memodelkan hubungan antara beberapa variabel independen dan variabel
dependen.

Gambar 9. Membagi Dataset

Selanjutnya dibuat objek model untuk menampung fungsi Linear Regression


yang dimana model akan di training dataset x_train dan y_train yang sudah dibagi
tadi.
7

Gambar 10. Training Dataset

Selanjutnya,Melakukan prediksi dengan testing set dengan menggunakan


perintah y_pred = model.predict(X_test) digunakan untuk melakukan prediksi pada data
testing (X_test) menggunakan model regresi linear berganda yang telah dilatih (training)
sebelumnya. Dimana perintah predict(X_test) adalah metode yang digunakan untuk
membuat prediksi berdasarkan fitur yang disediakan dalam data testing (X_test) lalu
hasil prediksi akan disimpan dalam variabel y_pred. Setelah melakukan prediksi,
variabel y_pred akan berisi nilai prediksi yang dihasilkan oleh model untuk setiap
sampel dalam data testing.

Gambar 11. Melakukan Predict dengan Testing Set

Selanjutnya dicari nilai slope (m) dan intercept (b) dari model untuk menunjukan sejauh
mana setiap variabel independen berkontribusi terhadap variabel dependen yang hasilnya
ditampilkan sebagai berikut:

Gambar 12. Menentukan nilai slope dan intercept

Nilai slope/koefisien digambarkan dalam array yang jika dimasukan dalam


rumus akan menjadi:

Y = 1.22852541 × 107 × x1 + 2.32681420 × 107 × x2 - 6.38754626× 108 × x3 +


5.56618859 × 108 × x4 + 2.47983448 × 108 × x5 - 775923911.9377832

Dalam rumus ini, Y adalah variabel dependen (harga rumah), sedangkan


x1,x2,x3,x4,x5 adalah variabel independen. Koefisien masing-masing variabel
menggambarkan seberapa besar perubahan yang diharapkan dalam Y untuk setiap satu
unit perubahan dalam variabel tersebut, sedangkan intercept adalah nilai Y ketika semua
variabel independen adalah nol.
8

Gambar 13. Melakukan Evaluasi model

Selanjutnya melakukan proses Evaluasi model dimana proses ini ada beberapa
metrik evaluasi yang umum digunakan. Disini menggunakan 3 cara yaitu r-squared
(Koefisien Determinasi), Mean Squared Error (MSE), dan Root Mean Squared Error
(RMSE). Cara pertama yaitu r-squared mengukur sejauh mana variasi dalam variabel
dependen dapat dijelaskan oleh model. Nilai r-squared berkisar antara 0 dan 1. Semakin
tinggi nilai r-squared, semakin baik model mampu menjelaskan variasi dalam data.
Cara Kedua yaitu MSE berguna untuk mengukur rata-rata kuadrat dari selisih
antara nilai aktual (y_test) dan nilai yang diprediksi(y_pred).Dan cara yang terakhir
yaitu RMSE adalah akar kuadrat dari MSE. Ini memberikan gambaran yang lebih
intuitif tentang seberapa besar kesalahan prediksi model dalam satuan yang sama
dengan variabel target. Seperti MSE, semakin rendah nilai RMSE, semakin baik
modelnya. Jadi setelah menghitung metrik menggunakan ketiga cara tersebut,dapat
dievaluasi bahwa Semakin tinggi R-squared dan semakin rendah MSE serta RMSE,
semakin baik model regresi dapat memodelkan datanya. Setelah di print, hasil dari
Evaluasi Model yang didapatkan sebagai berikut:

Gambar 14. Hasil Evaluasi Model

Didapatkan hasil R-squared 0.77 menunjukkan bahwa sekitar 77% variabilitas


dalam data target dapat dijelaskan oleh model. Ini menandakan bahwa model Anda
relatif baik dalam menjelaskan variasi dalam data. MSE sangat tinggi, sekitar 1.07 ×
19
10 . Ini menunjukkan bahwa ada nilai-nilai prediksi yang cukup jauh dari nilai
sebenarnya, dan jumlah kuadrat kesalahan prediksi sangat besar. RMSE yang tinggi,
sekitar 3.27 × 109 ,menunjukkan bahwa kesalahan prediksi model dalam satuan yang
sama dengan variabel target (dalam kasus ini, mungkin nilai yang besar) juga cukup
tinggi.
Ketiga metrik ini memberikan gambaran tentang seberapa baik model yang
digunakan cocok dengan data.Meskipun R-squared menunjukkan sebagian besar variasi
dalam data dapat dijelaskan,namun MSE dan RMSE yang tinggi menunjukkan bahwa
prediksi model mungkin memiliki kesalahan yang signifikan dan tidak akurat. Ini bisa
disebabkan oleh berbagai faktor, seperti model yang terlalu sederhana atau kompleks,
atau ketidaksesuaian antara model dan data yang digunakan untuk pelatihan.
9

3. RESULTS AND DISCUSSION

3.1 Analysis Residual


Plot residual digunakan untuk mengevaluasi seberapa baik model regresi linear
cocok dengan data. Residual adalah selisih antara nilai sebenarnya dari variabel
dependen (y) dengan nilai yang diprediksi oleh model. Plot residual memberikan
visualisasi tentang pola atau tren yang mungkin masih ada di dalam residu. Residu
dalam konteks regresi linear adalah selisih antara nilai sebenarnya dari variabel
dependen (output yang ingin diprediksi) dan nilai yang diprediksi oleh model regresi.

Gambar 15. Visualisasi plot Analysis Residual

Berdasarkan dari visualisasi plot residual yang di dapatkan yaitu grafik


hubungan antara luas bangunan, luas tanah, dan harga rumah. Grafik ini menunjukkan
bahwa ada hubungan linier positif antara ketiga variabel tersebut. Artinya, semakin luas
bangunan dan luas tanah rumah, semakin tinggi harganya.

3.2 Prediction vs Actual Data


Dalam konteks model regresi linear berganda, istilah "Prediction" (prediksi)
merujuk pada nilai yang dihasilkan oleh model untuk suatu set data tertentu. Prediksi ini
diberikan oleh model sebagai estimasi atau perkiraan untuk variabel target berdasarkan
input yang diberikan, seperti luas bangunan, luas tanah, jumlah kamar tidur, jumlah
kamar mandi, dan kapasitas garasi pada dataset harga rumah.
Di sisi lain, "Actual data" (data aktual) merujuk pada nilai sebenarnya atau
observasi yang terkandung dalam dataset yang digunakan untuk menguji atau
mengevaluasi model. Data aktual ini merupakan nilai yang seharusnya diprediksi oleh
model, dan mewakili realitas dari kondisi atau karakteristik yang diamati pada saat
pengujian.
Signifikansi perbandingan antara hasil prediksi dan data aktual terletak pada
evaluasi kinerja model. Semakin dekat nilai prediksi dengan nilai aktual data, semakin
akurat model dalam melakukan prediksi. Jarak antara prediksi dan nilai aktual dapat
10

direpresentasikan dalam bentuk residual, yaitu selisih antara prediksi model dan nilai
sebenarnya. Evaluasi visual, seperti plot residuals atau scatter plot prediksi vs. aktual,
memberikan gambaran tentang sejauh mana model mampu mengikuti pola sebenarnya
dalam data.

Gambar 16. Visualisasi plot Prediction vs Actual Data

Berdasarkan Visualisasi plot prediksi vs aktual didapatkan prediksi harga rumah


dapat dilihat dari garis regresi yang diplot pada grafik. Garis regresi ini menghubungkan
titik-titik data yang ada pada grafik.Harga aktual rumah dapat dilihat dari titik-titik data
yang ada pada grafik. Titik-titik data ini menunjukkan harga rumah yang sebenarnya di
pasar. Dan dapat dilihat bahwa prediksi harga rumah yang dihasilkan oleh model regresi
cukup akurat. Titik-titik data yang ada pada grafik relatif dekat dengan garis regresi.
Namun, ada beberapa titik data yang berada di luar garis regresi. Titik-titik data ini
menunjukkan bahwa harga rumah yang sebenarnya di pasar dapat berbeda dari harga
yang diprediksi oleh model regresi.

3.3 Prediction for New Data


Prediction for new data (prediksi untuk data baru) merujuk pada kemampuan
model untuk membuat perkiraan atau prediksi untuk data yang belum pernah dilihat
selama proses pelatihan. Ini berarti model dapat mengambil input baru yang tidak
pernah dilihat sebelumnya dan menghasilkan perkiraan untuk variabel target
berdasarkan pola atau relasi yang telah dipelajari selama pelatihan.

Gambar 17. Melakukan Prediction for New Data


11

Berdasarkan dari hasil contoh prediksi harga rumah untuk data baru ini Hasil
prediksi ini menunjukkan bahwa harga rumah dengan Luas Bangunan (LB) 150 meter
persegi, Luas Tanah(LT) 200 meter persegi,4 Kamar Tidur (KT), 3 Kamar Mandi(KM)
dan 2 Garasi (GRS) adalah Rp5.331.297.556,923565.

4. CONCLUSIONS

Dalam penelitian ini, model Multiple Linear Regression digunakan untuk


memprediksi harga rumah (variabel dependen) berdasarkan beberapa variabel
independen yang diantaranya luas bangunan, luas tanah, jumlah kamar tidur, jumlah
kamar mandi, dan kapasitas garasi. Keuntungan utama model ini terletak pada
kemampuannya untuk menangkap variasi harga rumah dengan baik, seperti yang
terlihat dari distribusi residual yang berdistribusi acak. Selain itu, model mampu
memberikan prediksi yang relatif akurat, sebagaimana tercermin dalam hasil visualisasi
"Prediksi vs. Aktual."
Namun demikian, evaluasi model mengungkapkan beberapa kelemahan.
Meskipun R-squared menunjukkan sekitar 77% variasi dalam data target dapat
dijelaskan oleh model, nilai MSE dan RMSE yang tinggi menandakan bahwa terdapat
kesalahan signifikan dalam prediksi. Hal ini menunjukkan potensi perbaikan yang perlu
dilakukan, seperti penyempurnaan fitur, penyesuaian kompleksitas model, atau
pengumpulan data tambahan yang relevan.
Dalam konteks aplikasi praktis, model berhasil memprediksi harga rumah untuk
data baru, menunjukkan relevansinya dalam mendukung pengambilan keputusan di
sektor properti. Walaupun demikian, untuk meningkatkan keandalan dan akurasi
prediksi, langkah-langkah lanjutan perlu diambil untuk mengatasi kelemahan yang
teridentifikasi. Kesimpulan ini memberikan panggilan untuk pengembangan model
lebih lanjut, termasuk pemantauan berkelanjutan, untuk memastikan keterbaruan dan
efektivitasnya dalam menghadapi dinamika pasar properti yang terus berkembang.
Sebagai hasilnya, penelitian ini memberikan dasar yang kokoh untuk refleksi dan
pertimbangan lanjutan dalam pengembangan model prediksi harga rumah.

REFERENCES

Anda mungkin juga menyukai