Anda di halaman 1dari 9

February 27, 2023 [ML SELECTION AND EVALUATION]

February 27, 2023 [ML SELECTION AND EVALUATION]

ANALISIS HARGA RUMAH DI DAERAH JAKSEL

1. DATASET
Dataset yang digunakan : Harga rumah daerah Jaksel
Sumber : Kaagle
Link sumber : https://www.kaggle.com/datasets/wisnuanggara/daftar-harga-rumah

Deskripsi

Dataset Harga Rumah merupakan daftar harga rumah daerah Jaksel. Data diambil dan dikumpulkan
dari beberapa website penjualan seperti rumah123.com
Dataset harga rumah jaksel terdiri dari 7 kolom dengan jumlah data yaitu 1000 data. Kolom tersebut
terdiri dari :

1. HARGA : harga dari rumah.


2. LT : jumlah luas tanah.
3. LB : jumlah luas bangunan.
4. JKT : jumlah kamar tidur.
5. JKM : jumlah kamar mandi.
6. GRS : ada/tidak ada (garasi)
7. KOTA : nama kota.

2. METODE YANG DIPILIH


Karena Label/Class dari dataset sudah diketahui maka dataset dikateorikan sebagai Supervised
Learning. Metode dalam Supervise Learning ada 2, yaitu Regresi dan Klasifikasi. Pada dataset ini saya
akan menggunakan metode Regresi karena Label/Class berupa kontinu.

Regresi linier adalah metode regresi paling sederhana. Pada metode ini variabel bersifat kontinu dan
hubungan antara variabel dependen dengan variabel independen diasumsikan bersifat linier. Asumsi
yang harus terpenuhi dalam regresi linier adalah harus ada hubungan linier antara variabel dependen
dengan variabel independen, tidak ada data pencilan, tidak ada heteroskedastisitas, pengamatan sampel
harus independen, tidak ada multikolinieritas, dan residual harus berdistribusi normal dengan mean 0
dan varian konstan.

Sebelumnya, saya telah melakukan penghapusan data outliers dan pengubahan type data yang sesuai :
February 27, 2023 [ML SELECTION AND EVALUATION]

 Pada fitur HARGA, terdapat hal yang aneh yaitu type data berupa object, maka saya
merubahnya menjadi float.
 Pada fitur JKT dan JKM terdapat nilai 27, ini sangat aneh apabila jumlah sebanyak itu apalagi
rumah pribadi, sehingga saya melakukan penghapusan data untuk menghilangkan outliers.

Langkah - Langkah :

IMPORT DATASET

Output :

Kita bisa melihat ada 6 kolom atau istilahnya adalah fitur, yaitu Harga Rumah, Luas Tanah(LT), Luas
Bangunan(LB), Jumlah Kamar Tidur(JKT), Jumlah Kamar Mandi(JKM), dan Garasi(GRS).

EKSPLORASI DATA

Output :
February 27, 2023 [ML SELECTION AND EVALUATION]
February 27, 2023 [ML SELECTION AND EVALUATION]

Dapat dilihat bahwa dataset berjumlah 995 baris dengan 6 kolom. Diketahui juga jumlah minimum
kamar tidur dan kamar mandi adalah 1 sedangkan maksimumnya adalah 11.

DATA PRE-PROCESSING
 Handling Missing Value

Output :

Setelah dilakukan pengecekan nilai kosong atau missing value dapat dilihat bahwa tidak ada data yang
missing value dari setiap fitur.

 Scaling

Beberapa machine learning mengharuskan semua variabel memiliki rentang nilai yang sama, karena
jika tidak sama, feature dengan rentang nilai terbesar otomatis akan menjadi feature yang paling
mendominasi dalam proses training/komputasi, sehingga model yang dihasilkan pun akan sangat bias.
Oleh karena itu, sebelum memulai training model, kita terlebih dahulu perlu melakukan data rescaling
ke dalam rentang 0 dan 1, sehingga semua feature berada dalam rentang nilai tersebut, yaitu nilai max
= 1 dan nilai min = 0. Data rescaling ini dengan mudah dapat dilakukan di Python
menggunakan .MinMaxScaler( ) dari Scikit-Learn library.”
February 27, 2023 [ML SELECTION AND EVALUATION]

“Kenapa ke range 0–1, tidak menggunakan range yang lain? Karena rumus dari rescaling adalah”

Dengan rumus ini, nilai max data akan menjadi 1 dan nilai min menjadi 0; dan nilai lainnya berada di
rentang keduanya. Rumus ini tidak memungkinkan adanya rentang nilai selain 0–1.

TRAINING & TEST DATASET

Output:

Sehingga, jumlah baris dari data training dan testing yang terbentuk masing-masing menjadi sebanyak
696 dan 299 baris.

 Training Model : Fit & Predict


February 27, 2023 [ML SELECTION AND EVALUATION]

Output :

Sehingga dapat disimpulkan bahwa ukuran y_pred sama dengan ukuran y_test.

3. PERFORMA EVALUASI

Untuk model regression, kita menghitung selisih antara nilai aktual (y_test) dan nilai prediksi (y_pred)
yang disebut error, adapun beberapa metric yang umum digunakan. Berikut langkah-langkahnya :

Mean Squared Error (MSE) adalah rata-rata dari squared error :

Root Mean Squared Error (RMSE) adalah akar kuadrat dari MSE :

Mean Absolute Error (MAE) adalah rata-rata dari nilai absolut error :
February 27, 2023 [ML SELECTION AND EVALUATION]

Note: Semakin kecil nilai MSE, RMSE, dan MAE, semakin baik pula performansi model regresi.
Untuk menghitung nilai MSE, RMSE dan MAE dapat dilakukan dengan menggunakan fungsi
mean_squared_error () , mean_absolute_error () dari scikit-learn.metrics dan untuk RMSE sendiri
tidak terdapat fungsi khusus di scikit-learn tapi dapat dengan mudah kita hitung dengan terlebih
dahulu menghitung MSE kemudian menggunakan numpy module yaitu, sqrt() untuk memperoleh nilai
akar kuadrat dari MSE.
February 27, 2023 [ML SELECTION AND EVALUATION]

Output :

Nilai-nilai MSE, MAE, dan RMSE yang dihasilkan cukup kecil, yaitu masing-masing nilainya 0.003,
0.02, dan 0.06.

KESIMPULAN :

Berdasarkan performa evaluasi metode regresi, ini menunjukkan bahwa performansi model regresi
yang kita buat sudah cukup baik dan sesuai dengan dataset. Dengan nilai-nilai MSE, MAE, dan RMSE
yang dihasilkan cukup kecil, yaitu masing-masing nilainya 0.003, 0.02, dan 0.06.

Anda mungkin juga menyukai