20.11.3412 - Ghanim Ramadhan Laporan Praktikum3
20.11.3412 - Ghanim Ramadhan Laporan Praktikum3
Melakukan pembacaan dataset dengan perintah spark.read.csv dan menampilkan dalam bentuk skema.
Fungsi SELECT
Fungsi select digunakan untuk memilih kolom pada dataset dan ditampilkan menggunakan perintah show.
Filtering dengan Kondisi
Perintah diatas digunakan untuk melakukan filtering dengan kondisi kolom car_model_year bernilai lebih
dari 2009 dan kolom car_brand dengan data Hyundai lalu ditampilkan dalam bentuk Sql query.
Perintah diatas digunakan untuk melakukan import fungsi pyspark lalu filtering dengan kondisi kolom
car_model_year bernilai lebih dari 2009 dan kolom car_brand dengan data Hyundai lalu ditampilkan
dengan metode pemanggilan fungsi pyspark.
Kolom DataFrame
Perintah diatas digunakan untuk melakukan penambahan kolom car_driven_k dengan cara mengambil
nilai kolom car_driven yang sudah dibagi 1000 dan ditampilkan dalam bentuk skema.
Grup dan Aggregat
Melakukan pengelompokan/grouping dengan kolom car_brand dang aggregate nilai median dari kolom
car_price.
Sorting Data dengan Orderby
Melakukan Sorting data dengan dimulai dari filtering data kolom car_price tidak bernilai null,
pengelompokan data dengan kolom car_brand, menggunakan aggregate median nilai kolom car_price,
dan akhirnya disorting orderby dengan kolom avg_car_price secara descending.
JOIN DATASET
Pertama-tama disarankan siapkan dataset baru yang memiliki hubungan/kesamaan nilai kolom dengan
dataset sebelumnya.
Macam Join
1. Inner
Mengembalikan semua value dari kedua dataset dan menampilkan null pada dataset yang tidak
memiliki value sama.
3. Left
Mengembalikan semua value bagian kiri dan value yang sama dari bagian kanan.
4. Right
Mengembalikan semua value bagian kanan dan value yang sama dari bagian kiri.
5. Leftsemi
Mengembalikan value dari bagian kiri yang memiliki kesamaan dibagian kanan.
6. Leftanti
Mengembalikan value dari bagian kiri yang tidak memiliki kesamaan dibagian kanan.