Anda di halaman 1dari 12

- SPARK -

Sumber data yang bisa diakses Spark


Cara kerja
• Lingkup kerja
• OS: Windows, Linux, Mac
• API Java, Scala Python, R

• Distributed file
• Data sharing
(Haddop : map reduce: lambat krn duplikasi, disk IO)
• Proses komputasi , RDD
• Resilent→ fault tolerance (tetap ada walaupun ada kegagalan) dengan sistem
lineage graph, di Hadoop fault tolerance dilakukan dengan duplikasi
• Distributed →data disimpan pada beberapa nodes (computer) yg ada di kluster
• Dataset → kumpulan data yang akan dikerjakan
Cara kerja
• Cara kerja kluster
• Cluster manager :
• standalone (default),
• Apache Mesos: general cluster manager
• Hadoop YARN: cluster manager Hadoop
• Pilihan : fitur scheduling, high availbality, security, sistem monitoring,
keamanan
• Proses data
• Batch processing
• Streamming/real time processing
Komponen Apache Spark
Spark core:
• Fondasi engine
• Fitur in-memory computing

Spark SQL
• Skema RDD (structured & unstructured)

Spark Streamming
• Kemampuan scheduling utk streaming process
• Mini-batch → RDD

MlLib
• Framework ML utk distributed computing
• (Konon) 9x lebih cepat dari Apache Mahout
• (Hadoop)

GraphX
• Framework graph processing utk
• distributed computing
PRAKTIK BIG DATA ANALYTICS DENGAN
APACHE SPARK
Cloud : https://datalore.jetbrains.com/
Dataset :
http://eforexcel.com/wp/downloads-20-sample-csv-files-data-sets-for-testing-till-2-million-
records-bank-transactions/
Dataset

4.138.476
Bahasan
• Data frame (DF)
• Data preprocessing
• Regresi
• Klasifikasi
• Sistem Rekomender
• Klaster Komputer: Master & Slave
Data Frame
• “Tabel”
• Baca file teks
• Eksplorasi dasar: min, max, standar deviasi, SQL
• Dataset:
D:\_00UTY\dinas\Pribadi\_BahanAjarUTY\BigDataBuku\Data-Mining-and-Big-Data-Analytics-Book-master\edisi2\purcase.csv
Program:
D:\_00UTY\dinas\Pribadi\_BahanAjarUTY\BigDataBuku\Data-Mining-and-Big-Data-Analytics-Book-master\edisi2\19.3.1
Pengenalan DataFrame dan SQL Spark.html
Data Preprocessing
• Data kurang ideal
• Duplikasi data, null
• Dataset
D:\_00UTY\dinas\Pribadi\_BahanAjarUTY\BigDataBuku\Data-Mining-and-Big-Data-Analytics-Book-
master\edisi2\airports.csv
Program :
19.3.2 Data Preprocessing di Spark.pdf
Regresi
• Kasus: melakukan prediksi berapa menit keterlambatan penerbangan
pesawat
• Luaran data bernilai kontinyu
• Dataset : flight.csv.
Klasifikasi

• Output data tdk kontinyu


• Dari kasus kmrn keterlambatan (menit) →” terlambat “ atau “tdk
terlambat”
• Algoritma logistic regression (LR)
• Pengembangan regresi
• Utk klasifikasi data biner (hy 2 kelas )
• Fungsi aktivasi sigmoid

Anda mungkin juga menyukai