Anda di halaman 1dari 4

Regresi

Regresi merupakan metode untuk memprediksi suatu peristiwa atau kondisi. Pada bab ini akan
dilakukan prediksi keterlambatan (dalam menit) dari suatu penerbangan pesawat. Output variabel
respon berupa nilai kontinu. Regresi merupakan supervised learning sehingga membutuhkan data
training. Dataset yang diperoleh dari sumber pada internet, yaitu file kc_house_data.csv
(https://www.kaggle.com/datasets/harlfoxem/housesalesprediction?select=kc_house_data.csv).
Adapun tahapan dalam memodelkan kasus regresi sebagai berikut.
1. Import modules dan membuat session
mengimport module/package yang dibutuhkan yaitu import findspark digunakan untuk
mencari secara otomatis lokasi pyspark yang sudah terinstall sebelumnya untuk dapat
menjalankan apache spark. Seperti pada gambar 1 (seperti penjelasan pada bab sebelumnya).

Selanjutnya, import module yang dibutuhkan untuk membuat session. Kode yang dapat
digunakan sesuai gambar berikut.

2. Memuat file Dataset


Tahap selanjutnya adalah memuat dataset. Pada bab sebelumnya diajarkan untuk membuat
schema secara manual terlabih dulu. Tetapi pada tahapan ini cukup memodifikasi kode sedikit
untuk membuat python dapat membaca schema dari file secara otomatis. Berikut adalah kode
yang dapat digunakan.

Saat di running, maka akan muncul tampilan seperti berikut.


3. Split data training dan data testing
Tahap selanjutnya adalah split data training dan testing. Tujuan data training yaitu untuk
pemodelan regresi, sedangkan data testing digunakan untuk mengetes seberapa akurat dari
model yang dibuat. Perbandingan yang digunakan pada buku ini yaitu 70% untuk data
training, dan sisanya 30% untuk data testing. Berikut ini adalah kodenya.

4. Prepare data training


Features pada spark dibaca dalam satu kolom, dengan pemisah antar prediktornya dipisahkan
dengan tanda koma (,). Mengubah feature dari data menjadi satu kolom dapat menggunakan
kode VectorAssembler(). Berikut adalah kode yang digunakan.
Terlihat pada kolom features data dibaca dalam satu kolom dan dipisahkan dengan tanda koma
(,).
5. Training algoritma kasus regresi
Tahap selanjutnya yaitu melakukan training terhadap feature dan label yang telah dibuat. Kode
yang dapat digunakan yaitu perintah .fit(). Model yang terbentuk nantinya digunakan untuk
melakukan prediksi pada data testing. Kode lengkap mengenai training model regresi dapat
dilihat sebagai berikut.

6. Prepare data testing


Tahapan prepare pada data testing sama dengan data training. Kode yang digunakan adalah
VectorAssembler() yang engubah feature dari data testing menjadi satu kolom. Berikut
adalah kode implementasi pada data testing.

7. Prediksi Harga Rumah (data testing)


Prediksi harga rumah dengan model yang telah ditraining sebelumnya yaitu dengan kode
model.transform(nama_data_training). Berikut kode yang dirunning.
Pada gambar… prediksi dilakukan pada data training dan data testing untuk melihat akurasi
model yang telah dibuat. Dataframe yang atas menunjukkan hasil prediksi menggunakan data
training, terlihat hanya sedikit perbedaan, sedangkan dataframe yang bawah menunjukkan
hasil prediksi pada data testing.
8. Evaluasi model
Selanjutnya, dilakukan evaluasi model secara keseluruhan dengan melihat nilai Root Mean
Square Error (RMSE). Pada spark terdapat modul evaluator, dan dapat mengimportnya
dengan perintah from pyspark.ml.evaluation import RegressionEvaluator. Kemudian
menghitung nilai RMSE dengan kode .evaluate(). Kode lengkapnya seperti berikut.

Setelah kode di running akan muncul nilai RMSE. Pada kode di atas dimunculkan nilai RMSE
untuk data training dan data testing.

Anda mungkin juga menyukai