Minggu 10
Outcome:
a. Pengumpulan data
Mari kita asumsikan bahwa kita memiliki dataset mentah yang tersedia baik dalam
database SQL atau sebagai file teks mentah. Untuk mengimpor kumpulan data dari
database SQL ke dalam stackbig data, kita dapat menggunakan konektor SQL.
Sedangkan untuk mengimpor file dataset mentah, konektor source-sink dapat
berguna.
b. Persiapan data
Pada langkah persiapan data, kita mungkin harus melakukan pembersihan data
(untuk menghapus nilai yang hilang dan catatan yang rusak) dan perselisihan data
Dengan alur analitik untuk aplikasi yang dibuat, sekarang kita dapat memetakan pilihan
di setiap langkah alur ke stack big data. Gambar 10.3 menunjukkan subset komponen
stack big data berdasarkan alur analitik.
Pic 10.3 Using big data stack for analysis of genome data
Source: Big Data Science & Analytics: A Hands-On Approach Basic Statistics., 2016
Pic 10.4 Steps involved in building a regression model for predicting drug response
Source: Big Data Science & Analytics: A Hands-On Approach Basic Statistics., 2016
Sekarang setelah kita memiliki alur analitik untuk aplikasi, mari kita petakan pilihan di
setiap langkah alur ke stack big data. Gambar 10.7 menunjukkan subset komponen stack
big data berdasarkan alur analitik. Untuk mengumpulkan dan menyerap data sensor
streaming yang dihasilkan oleh stasiun pemantauan cuaca, kita dapat menggunakan
kerangka pesan publish-subscribe seperti Apache Kafka (untuk analisis real-time dalam
stackBig Data). Setiap stasiun cuaca menerbitkan data sensor ke Kafka.
Pic 10.8 A realization of Alpha pattern for batch analysis of news articles
Source: Big Data Science & Analytics: A Hands-On Approach Basic Statistics., 2016
Pic 10.10 A realization of Delta pattern for interactive querying of weather data
Source: Big Data Science & Analytics: A Hands-On Approach Basic Statistics., 2016
Untuk memindahkan data cuaca ke HDFS dari sumber eksternal, kita bisa menggunakan
konektor source-sink seperti Flume. Karena dataset yang digunakan dalam studi kasus ini
dalam bentuk file teks tunggal, kita cukup memindahkan file teks ke HDFS menggunakan
tools baris perintah HDFS. Kotak di bawah ini menunjukkan kode Python untuk membuat
DataFrame dari dataset menggunakan fungsi createDataFrame yang mengubah RDD dari
objek Row menjadi DataFrame dengan menyimpulkan tipe data.
Kotak di bawah ini menunjukkan contoh kueri SQL untuk menemukan suhu maksimum
yang diamati sepanjang tahun.
Kotak di bawah ini menunjukkan contoh kueri SQL untuk menemukan suhu minimum
yang diamati sepanjang tahun. Perhatikan penggunaan klausa WHERE untuk menyaring
nilai yang hilang (diatur ke -9999.0).
Kotak 11.29 menunjukkan klien Python untuk menguji sistem klasifikasi digit. Klien
ini membaca file gambar, mengubahnya menjadi daftar nilai piksel, dan membuat
permintaan HTTP POST ke server dengan data gambar.
Karena ID film MovieLens memiliki hubungan satu-ke-satu dengan ID film IMDb, IMDbPy
digunakan untuk mengambil objek film yang terkait dengan ID film MovieLens. Objek film
berisi daftar sutradara dan daftar anggota pemeran. Untuk sistem rekomendasi film,
sutradara pertama dalam daftar dan sembilan pemeran teratas ditambahkan ke file
links.csv. Dengan ID film, file tautan yang dimodifikasi (links_modified.csv) dapat
digunakan untuk mengambil lebih banyak informasi tentang film untuk presentasi front-
end. Kotak 11.35 menunjukkan kode Python untuk menambahkan detail ke file tautan
menggunakan IMDbPy. File dataset MovieLens dan file tautan yang dimodifikasi diubah
menjadi SparkSQL DataFrames dan disimpan sebagai tabel yang digunakan dalam mesin
rekomendasi pada waktu proses. Kotak 11.36 menunjukkan program Python untuk
menyimpan file dataset sebagai tabel SparkSQL.