Regresi in Spark

Diunggah oleh

falahrohmawan

0% menganggap dokumen ini bermanfaat (0 suara)

11 tayangan4 halaman

Judul Asli

[4] Regresi in Spark

Hak Cipta

Format Tersedia

DOCX, PDF, TXT atau baca online dari Scribd

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Laporkan Dokumen Ini

Hak Cipta:

Format Tersedia

Unduh sebagai DOCX, PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

0% menganggap dokumen ini bermanfaat (0 suara)

11 tayangan4 halaman

Regresi in Spark

Diunggah oleh

falahrohmawan

Hak Cipta:

Format Tersedia

Unduh sebagai DOCX, PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

Lompat ke Halaman

Anda di halaman 1dari 4

Cari di dalam dokumen

Regresi

Regresi merupakan metode untuk memprediksi suatu peristiwa atau kondisi. Pada bab ini akan
dilakukan prediksi keterlambatan (dalam menit) dari suatu penerbangan pesawat. Output variabel
respon berupa nilai kontinu. Regresi merupakan supervised learning sehingga membutuhkan data
training. Dataset yang diperoleh dari sumber pada internet, yaitu file kc_house_data.csv
(https://www.kaggle.com/datasets/harlfoxem/housesalesprediction?select=kc_house_data.csv).
Adapun tahapan dalam memodelkan kasus regresi sebagai berikut.
1. Import modules dan membuat session
mengimport module/package yang dibutuhkan yaitu import findspark digunakan untuk
mencari secara otomatis lokasi pyspark yang sudah terinstall sebelumnya untuk dapat
menjalankan apache spark. Seperti pada gambar 1 (seperti penjelasan pada bab sebelumnya).

Selanjutnya, import module yang dibutuhkan untuk membuat session. Kode yang dapat
digunakan sesuai gambar berikut.

2. Memuat file Dataset

Tahap selanjutnya adalah memuat dataset. Pada bab sebelumnya diajarkan untuk membuat
schema secara manual terlabih dulu. Tetapi pada tahapan ini cukup memodifikasi kode sedikit
untuk membuat python dapat membaca schema dari file secara otomatis. Berikut adalah kode
yang dapat digunakan.

Saat di running, maka akan muncul tampilan seperti berikut.

3. Split data training dan data testing
Tahap selanjutnya adalah split data training dan testing. Tujuan data training yaitu untuk
pemodelan regresi, sedangkan data testing digunakan untuk mengetes seberapa akurat dari
model yang dibuat. Perbandingan yang digunakan pada buku ini yaitu 70% untuk data
training, dan sisanya 30% untuk data testing. Berikut ini adalah kodenya.

4. Prepare data training

Features pada spark dibaca dalam satu kolom, dengan pemisah antar prediktornya dipisahkan
dengan tanda koma (,). Mengubah feature dari data menjadi satu kolom dapat menggunakan
kode VectorAssembler(). Berikut adalah kode yang digunakan.
Terlihat pada kolom features data dibaca dalam satu kolom dan dipisahkan dengan tanda koma
(,).
5. Training algoritma kasus regresi
Tahap selanjutnya yaitu melakukan training terhadap feature dan label yang telah dibuat. Kode
yang dapat digunakan yaitu perintah .fit(). Model yang terbentuk nantinya digunakan untuk
melakukan prediksi pada data testing. Kode lengkap mengenai training model regresi dapat
dilihat sebagai berikut.

6. Prepare data testing

Tahapan prepare pada data testing sama dengan data training. Kode yang digunakan adalah
VectorAssembler() yang engubah feature dari data testing menjadi satu kolom. Berikut
adalah kode implementasi pada data testing.

7. Prediksi Harga Rumah (data testing)

Prediksi harga rumah dengan model yang telah ditraining sebelumnya yaitu dengan kode
model.transform(nama_data_training). Berikut kode yang dirunning.
Pada gambar… prediksi dilakukan pada data training dan data testing untuk melihat akurasi
model yang telah dibuat. Dataframe yang atas menunjukkan hasil prediksi menggunakan data
training, terlihat hanya sedikit perbedaan, sedangkan dataframe yang bawah menunjukkan
hasil prediksi pada data testing.
8. Evaluasi model
Selanjutnya, dilakukan evaluasi model secara keseluruhan dengan melihat nilai Root Mean
Square Error (RMSE). Pada spark terdapat modul evaluator, dan dapat mengimportnya
dengan perintah from pyspark.ml.evaluation import RegressionEvaluator. Kemudian
menghitung nilai RMSE dengan kode .evaluate(). Kode lengkapnya seperti berikut.

Setelah kode di running akan muncul nilai RMSE. Pada kode di atas dimunculkan nilai RMSE
untuk data training dan data testing.

Anda mungkin juga menyukai

Membuat Aplikasi Bisnis Menggunakan Visual Studio Lightswitch 2013
Dari Everand
Membuat Aplikasi Bisnis Menggunakan Visual Studio Lightswitch 2013
Risal
Penilaian: 3.5 dari 5 bintang
3.5/5 (7)
Pemrograman Berorientasi Objek dengan Visual C#
Dari Everand
Pemrograman Berorientasi Objek dengan Visual C#
Risal
Penilaian: 3.5 dari 5 bintang
3.5/5 (6)
Modul Codeigniter Part II
Dokumen35 halaman
Modul Codeigniter Part II
Roni Febrianto
Belum ada peringkat
Klasifikasi in Spark (Regresi Logistik)
Dokumen5 halaman
Klasifikasi in Spark (Regresi Logistik)
falahrohmawan
Belum ada peringkat
Hasil Dan Pembahasan
Dokumen13 halaman
Hasil Dan Pembahasan
Daniel Ergawanto
Belum ada peringkat
Bab 4 Analisa Hasil Dan Pembahasan
Dokumen19 halaman
Bab 4 Analisa Hasil Dan Pembahasan
Daniel Ergawanto
Belum ada peringkat
Sagita Amaria Christie
Dokumen5 halaman
Sagita Amaria Christie
Yulianti Repati
Belum ada peringkat
Data Preprocessing in Spark
Dokumen9 halaman
Data Preprocessing in Spark
falahrohmawan
Belum ada peringkat
Fadhlur Rahman Aulia Abdullah - IT-45-02 - SISCER
Dokumen24 halaman
Fadhlur Rahman Aulia Abdullah - IT-45-02 - SISCER
Roberto Sunjaya
Belum ada peringkat
Laporan 8 Praktikum Teknik Klasifikasi Dan Pengenalan Pola - ALGORITMA BACKPROPAGATION UNTUK PENGENALAN POLA
Dokumen17 halaman
Laporan 8 Praktikum Teknik Klasifikasi Dan Pengenalan Pola - ALGORITMA BACKPROPAGATION UNTUK PENGENALAN POLA
Rayuh Dhilah Hanggara
100% (1)
Modul Praktikum Pbo
Dokumen28 halaman
Modul Praktikum Pbo
AnniKarimatulFauziyyah
Belum ada peringkat
Eksplorasi ANN Dan Mini-Batch Gradient Descent Dengan Menggunakan Keras
Dokumen4 halaman
Eksplorasi ANN Dan Mini-Batch Gradient Descent Dengan Menggunakan Keras
Andreas Halim
Belum ada peringkat
Image Segmentation - With DL
Dokumen11 halaman
Image Segmentation - With DL
azka
Belum ada peringkat
Laporan 4 - Hafidzurrohman Saifullah (10120486) - 4ka04 - Laporan Praktikum Robotika Cerdas M4
Dokumen13 halaman
Laporan 4 - Hafidzurrohman Saifullah (10120486) - 4ka04 - Laporan Praktikum Robotika Cerdas M4
f.empat444
Belum ada peringkat
03 Dasar Dasar Algoritma
Dokumen5 halaman
03 Dasar Dasar Algoritma
Aulia Amanda Saria
Belum ada peringkat
Soal Soal PTS Pemdas Kelas 10 Semester 1
Dokumen8 halaman
Soal Soal PTS Pemdas Kelas 10 Semester 1
Davidson Rafael
Belum ada peringkat
Identifikasi Parametrik Motor DC PDF
Dokumen4 halaman
Identifikasi Parametrik Motor DC PDF
Mochamad Nur Qomarudin
Belum ada peringkat
Bahiyah Keiko R - 21218343 - 4EB01 (LAM2)
Dokumen7 halaman
Bahiyah Keiko R - 21218343 - 4EB01 (LAM2)
Bahiyah Keiko
Belum ada peringkat
P.5 Laporan Praktikum Pemrograman PDF
Dokumen18 halaman
P.5 Laporan Praktikum Pemrograman PDF
iksan maulana
Belum ada peringkat
Algoritma Dan Pemrograman-Pertemuan 6
Dokumen11 halaman
Algoritma Dan Pemrograman-Pertemuan 6
فردوس سليمان
Belum ada peringkat
Lapres1 - Pemdas - 1D - 230631100107 - Mas Udin
Dokumen18 halaman
Lapres1 - Pemdas - 1D - 230631100107 - Mas Udin
Mas Udin
Belum ada peringkat
Neural Network
Dokumen29 halaman
Neural Network
Iwan Juanda
Belum ada peringkat
Lecture 07 - Pemrosesan Database Menggunakan JDBC PDF
Dokumen28 halaman
Lecture 07 - Pemrosesan Database Menggunakan JDBC PDF
Chaulina Allena
Belum ada peringkat
Praktikum Simulasi Dengan ARENA (Normal)
Dokumen15 halaman
Praktikum Simulasi Dengan ARENA (Normal)
yusufbf
Belum ada peringkat
Pemrograman WEB: Aporan Raktikum
Dokumen29 halaman
Pemrograman WEB: Aporan Raktikum
Arkan Niko Sarajiva arkanniko.2022
Belum ada peringkat
Laporan
Dokumen72 halaman
Laporan
Nuraini Amelia
Belum ada peringkat
Modul Training Java Spring Boot Day - 3
Dokumen16 halaman
Modul Training Java Spring Boot Day - 3
abimanyudcse
Belum ada peringkat
Materi PKB
Dokumen17 halaman
Materi PKB
Stefanus Dapa Loka
Belum ada peringkat
Logistic Regression
Dokumen8 halaman
Logistic Regression
Alfiyah Maulida
Belum ada peringkat
KURNIAWAN - Tugas 4 Pemodelan Non Linier
Dokumen9 halaman
KURNIAWAN - Tugas 4 Pemodelan Non Linier
Kurniawan
Belum ada peringkat
TUGAS KELOMPOK CODING-dikonversi
Dokumen16 halaman
TUGAS KELOMPOK CODING-dikonversi
Dita Aulia Budiartha
Belum ada peringkat
Bab 5 - Array String
Dokumen20 halaman
Bab 5 - Array String
Alifki
Belum ada peringkat
Bab 2 - Metode Dan Konstruktor
Dokumen11 halaman
Bab 2 - Metode Dan Konstruktor
Ardey Kurniawan
Belum ada peringkat
FIKI NAFILAH HUSNA - ALPRO - Praktikum Algoritma Dasar
Dokumen6 halaman
FIKI NAFILAH HUSNA - ALPRO - Praktikum Algoritma Dasar
Fiki Nafilah Husna
Belum ada peringkat
Praktikum Big Data M - 7
Dokumen12 halaman
Praktikum Big Data M - 7
Ade Sulis
Belum ada peringkat
Laporan PSF1 - Ruli Admi Syururi - 217341043
Dokumen96 halaman
Laporan PSF1 - Ruli Admi Syururi - 217341043
Ruli
Belum ada peringkat
Cara Membuat Kalkulator Java Di Netbeans - SMK BINA KERJA
Dokumen10 halaman
Cara Membuat Kalkulator Java Di Netbeans - SMK BINA KERJA
Ika
Belum ada peringkat
DWDM-10 D L200180193
Dokumen21 halaman
DWDM-10 D L200180193
Rizki Hanif
Belum ada peringkat
Buku Panduan Praktikum Arsitektur Dan Organisasi Komputer Lanjut
Dokumen49 halaman
Buku Panduan Praktikum Arsitektur Dan Organisasi Komputer Lanjut
Moh Muhlason
0% (3)
Tanagra Dan c45
Dokumen16 halaman
Tanagra Dan c45
Jonni Adi Putra
Belum ada peringkat
Laprak Percobaan 1
Dokumen40 halaman
Laprak Percobaan 1
habib nurul
Belum ada peringkat
Coba 1
Dokumen16 halaman
Coba 1
hafizh hidayat
Belum ada peringkat
MODUL 6 Array
Dokumen4 halaman
MODUL 6 Array
Hajratul Aswad
Belum ada peringkat
TSEAV - Modul 2-Ekperimen 6 - 17065044 - IRSYAD SHIDIQ Tugas 5
Dokumen5 halaman
TSEAV - Modul 2-Ekperimen 6 - 17065044 - IRSYAD SHIDIQ Tugas 5
irsyad shidiq
Belum ada peringkat
Scaling A Dataset To Improve Model Accuracy Id - Unlocked
Dokumen13 halaman
Scaling A Dataset To Improve Model Accuracy Id - Unlocked
khodimul istiqlal
Belum ada peringkat
Scaling A Dataset To Improve Model Accuracy Id
Dokumen13 halaman
Scaling A Dataset To Improve Model Accuracy Id
khodimul istiqlal
Belum ada peringkat
Logistic Regression
Dokumen3 halaman
Logistic Regression
Theresia Dimpu Hutasoit
Belum ada peringkat
Adhitia Nur RIski - Laporan Resmi Praktikum 3 ASD
Dokumen15 halaman
Adhitia Nur RIski - Laporan Resmi Praktikum 3 ASD
adhitia nurriski
Belum ada peringkat
5b. Implementasi CRUD
Dokumen11 halaman
5b. Implementasi CRUD
Victor Imannuel Kartika
Belum ada peringkat
Backward Estimation
Dokumen24 halaman
Backward Estimation
alimulyanto psub
Belum ada peringkat
Ekstraksi Fitur Dan Pengenalan Citra Wajah
Dokumen13 halaman
Ekstraksi Fitur Dan Pengenalan Citra Wajah
protogizi
50% (2)
Laporan Tugas Besar Machine Learning
Dokumen13 halaman
Laporan Tugas Besar Machine Learning
Rachdian Habi Yahya
Belum ada peringkat
LaprakPBO1 2242101998
Dokumen12 halaman
LaprakPBO1 2242101998
Elexy Violetta Zidomi
Belum ada peringkat
Kelompok-3 7A Tugas-2 MachineLearningModelSelection IlmuData
Dokumen11 halaman
Kelompok-3 7A Tugas-2 MachineLearningModelSelection IlmuData
Nur Maya sari
Belum ada peringkat
Task10 - Bagus Arimanu - Ipynb - Colaboratory
Dokumen6 halaman
Task10 - Bagus Arimanu - Ipynb - Colaboratory
bagus arimanu
Belum ada peringkat
Format Laporan Praktikum ALPRODAS
Dokumen8 halaman
Format Laporan Praktikum ALPRODAS
satriaagungsantoso63
Belum ada peringkat
LSP Haikal
Dokumen27 halaman
LSP Haikal
19207167
Belum ada peringkat
DWDM-7 D L200180193-Dikonversi
Dokumen11 halaman
DWDM-7 D L200180193-Dikonversi
Rizki Hanif
Belum ada peringkat
Jobsheet 8 - Queue
Dokumen13 halaman
Jobsheet 8 - Queue
aunurr rofiq
Belum ada peringkat
Modul Pbo
Dokumen23 halaman
Modul Pbo
fendyxcyber
Belum ada peringkat