Anda di halaman 1dari 12

PRAKTIKUM WEEK 3

Install Pyspark dan SparkSession

Melakukan Install pyspark dengan perintah !pip install pyspark.


Membuat Sparkseesion dengan perintah diatas.
Persiapan DATASET

Melakukan pembacaan dataset dengan perintah spark.read.csv dan menampilkan dalam bentuk skema.
Fungsi SELECT

Fungsi select digunakan untuk memilih kolom pada dataset dan ditampilkan menggunakan perintah show.
Filtering dengan Kondisi

Perintah diatas digunakan untuk melakukan filtering dengan kondisi kolom car_model_year bernilai lebih
dari 2009 dan kolom car_brand dengan data Hyundai lalu ditampilkan dalam bentuk Sql query.
Perintah diatas digunakan untuk melakukan import fungsi pyspark lalu filtering dengan kondisi kolom
car_model_year bernilai lebih dari 2009 dan kolom car_brand dengan data Hyundai lalu ditampilkan
dengan metode pemanggilan fungsi pyspark.
Kolom DataFrame

Perintah diatas digunakan untuk melakukan penambahan kolom car_driven_k dengan cara mengambil
nilai kolom car_driven yang sudah dibagi 1000 dan ditampilkan dalam bentuk skema.
Grup dan Aggregat

Melakukan pengelompokan/grouping dengan kolom car_brand dang aggregate nilai median dari kolom
car_price.
Sorting Data dengan Orderby

Melakukan Sorting data dengan dimulai dari filtering data kolom car_price tidak bernilai null,
pengelompokan data dengan kolom car_brand, menggunakan aggregate median nilai kolom car_price,
dan akhirnya disorting orderby dengan kolom avg_car_price secara descending.
JOIN DATASET

Pertama-tama disarankan siapkan dataset baru yang memiliki hubungan/kesamaan nilai kolom dengan
dataset sebelumnya.

Macam Join

1. Inner

Memilih kolom yang memiliki value sama.


2. Fullouter

Mengembalikan semua value dari kedua dataset dan menampilkan null pada dataset yang tidak
memiliki value sama.
3. Left

Mengembalikan semua value bagian kiri dan value yang sama dari bagian kanan.
4. Right

Mengembalikan semua value bagian kanan dan value yang sama dari bagian kiri.
5. Leftsemi

Mengembalikan value dari bagian kiri yang memiliki kesamaan dibagian kanan.
6. Leftanti

Mengembalikan value dari bagian kiri yang tidak memiliki kesamaan dibagian kanan.

Anda mungkin juga menyukai