PROJECT AKHIR
ANALISIS DATA
Oleh :
Adella Indri Mahardika
19037003
Dosen:
Dr. Syafriandi, M. Si
DEPARTEMENT STATISTIKA
2022
A. Sumber Data
Data yang digunakan untuk project akhir pada mata kuliah Analisis Data ini
adalah Data Harga rumah Jakarta Selatan yang di rilis oleh Wildan Adhitya Geraldine
pada tahun 2020. Data tersebut didapatkan dari website https://www.kaggle.com/
B. Identifikasi Variabel
Pada analisis menggunakan 4 variabel prediktor dan 1 variabel respon
Berikut merupakan variabel-variabel yang digunakan sebagai variabel respon dan
variabel prediktor
Y : Harga Jual Rumah (Miliar Rupiah)
X1 : Luas Tanah (m2)
X2 : Luas Bangunan (m2)
X3 : Jumlah Kamar Tidur (Ruang)
X4 : Jumlah Kamar Mandi (Ruang)
C. Metode Analisis
Langkah-langkah yang perlu dilakukan untuk mengetahui Pemodelan Harga
Rumah di Jakarta Selatan Menggunakan Metode Multivariate Adaptive Regression
Splines (MARS) adalah sebagai berikut:
Probability Plot of Y
Normal
99,99
Mean 17474719281
StDev 20795482161
99 N 1001
KS 0,215
95 P-Value <0,010
80
Percent
50
20
5
1
0,01
1 0 0 0 1 1 1 1
E+1 E+1 E+1 E+1 E+1 E+1 E+1
00 00 00 00 00 00 00
,0 ,0 00 00 50 00 50
-1 -5 5, 1, 1, 2, 2,
Y
Data yang diambil adalah data harga rumah di daerah Jakarta Selatan yang diambil
dari web kaggle
3. Selanjutnya kita install package py-earth library untuk membuat model MARS
Import numpy untuk memanipulasi data, import matplotlib untuk membuat grafik,
sklearn untuk membangun model regresi, pyearth untuk membangun model mars, import plot
untuk visualisasi data.
4. Melihat type data pada variabel-variabel yang ada pada data yang digunakan.
Dari output yang didapatkan hanya data ke-0 sampai data ke-4 yang memiliki type
data integer, sedangkan data ke-5 dan data ke-6 memiliki type data object.
5. Melihat korelasi antar variabel
Membagi data menjadi data training dan data testing, x dan y adalah nama variabel
yang digunakan saat mendefinisikan data source dan data target. Data training digunakan
untuk membuat model, sedangkan data testing digunakan untuk menguji model. X train
digunakan untuk menampung data source yang akan diuji. X test digunakan untuk
menampung data target yang akan diuji. Y train digunakan untuk menampung data source
yang akan digunakan untuk testing. Y test digunakan untuk menampung data target yang
akan digunakan untuk testing.
7. Model MARS
* * * *
MARS = 8,39 + 1,36 h(LB-1600) – 2,81 h (1600-LB) – 2,45 h (2131-LT) + 1,33 h
(933-LT)
GCV = 175655904731524164192,0
MSE = 170858577295895461888,0
RSQ = 0,59
GRSQ = 0,58
Pemilihan model terbaik adalah jika nilai GCV dari model tersebut mempunyai nilai
yang paling rendah diantara model-model lainnya. Berdasarkan output diatas dengan melihat
nilai GCV yang paling kecil maka model yang dihasilkan merupakan model terbaik.
8. Evaluasi Model
Berdasarkan output diatas dapat disimpulkan bahwa sebanyak 55% volume harga
rumah (Y) dapat dijelaskan oleh luas tanah (X1 ), luas bangunan (X2 ), jumlah kaar tidur (X3
), jumlah kamar mandi (X4).
Kesimpulan
Dari analisis yang sudah dikerjakan dapat diambil kesimpulan bahwa Pemodelan
Harga Rumah di Jakarta Selatan dengan Menggunakan Metode Multivariate Adaptive
Regression Splines (MARS) adalah MARS = 8,39 + 1,36 * h(LB-1600) – 2,81 * h (1600-LB)
– 2,45 * h (2131-LT) + 1,33 * h (933-LT) dengan nilai GCV = 175655904731524164192,0 ,
nilai MSE = 170858577295895461888,0 , nilai RSQ = 0,59 , dan nilai GRSQ = 0,58