S PA R K
Pengenalan
Komponen
Library
Tool
Contoh
Implementasi
2
Pengenalan
Apache Spark dalam Arsitektur Big Data
3
Komponen
Elemen pembentuk Apache Spark
Cluster Management
Spark Core adalah mesin
digunakan untuk
utama untuk pemrosesan
memperoleh sumber daya
data paralel dan
cluster untuk
terdistribusi berskala
melaksanakan pekerjaan
besar.
dan menangani pembagian
Spark Core bertanggung sumber daya diantara
jawab untuk manajemen komponen Spark.
memori dan pemulihan
Spark core menjalankan
kesalahan, penjadwalan,
lebih dari beragam Cluster
distribusi dan pemantauan
Management termasuk
pekerjaan pada sebuah
Hadoop YARN, Apache
cluster & berinteraksi
Mesos, Amazon EC2, dan
dengan sistem
Cluster Management
penyimpanan.
bawaan Spark.
4
Library
Spark Streaming adalah library ke Spark Core API yang MLlib adalah library machine learning yang dapat diskalakan
memungkinkan pemrosesan aliran live data stream yang yang membahas algoritma berkualitas tinggi dan kecepatan
memiliki karakterstik dapat diskalakan, transfer data tinggi, tinggi. MLlib berisi library yang memiliki implementasi
dan toleransi kesalahan. Spark menggunakan teknik Micro- berbagai algoritma machine learning seperti, clustering,
batching untuk streaming real-time. regression, classification dan collaborative filtering.
5
Tool
Ø Apache Zeppelin
• Web-based notebook that enables data-driven,
interactive data analytics and collaborative
documents with SQL, Scala and more.
6
Tool
Ø IntelliJ IDEA
• IntelliJ IDEA is an
integrated development
environment (IDE) written
in Java for developing
computer software.
7
Contoh Implementasi
• Penggunaan pada Bukalapak
8
Contoh Implementasi
• Penggunaan pada Bukalapak
9 9
Rencana ke depan
• Pengaplikasian Hadoop
10
THE END
11