Regresi merupakan metode untuk memprediksi suatu peristiwa atau kondisi. Pada bab ini akan
dilakukan prediksi keterlambatan (dalam menit) dari suatu penerbangan pesawat. Output variabel
respon berupa nilai kontinu. Regresi merupakan supervised learning sehingga membutuhkan data
training. Dataset yang diperoleh dari sumber pada internet, yaitu file kc_house_data.csv
(https://www.kaggle.com/datasets/harlfoxem/housesalesprediction?select=kc_house_data.csv).
Adapun tahapan dalam memodelkan kasus regresi sebagai berikut.
1. Import modules dan membuat session
mengimport module/package yang dibutuhkan yaitu import findspark digunakan untuk
mencari secara otomatis lokasi pyspark yang sudah terinstall sebelumnya untuk dapat
menjalankan apache spark. Seperti pada gambar 1 (seperti penjelasan pada bab sebelumnya).
Selanjutnya, import module yang dibutuhkan untuk membuat session. Kode yang dapat
digunakan sesuai gambar berikut.
Setelah kode di running akan muncul nilai RMSE. Pada kode di atas dimunculkan nilai RMSE
untuk data training dan data testing.