Anda di halaman 1dari 11

A PA C H E

S PA R K

Okghi Adam Qowiy, Teddy Anugrah Ramanel, Asep Haryono


PUSAT TEKNOLOGI SISTEM DAN PRASARANA TRANSPORTASI
17 Juli 2020
Outline

Pengenalan

Komponen

Library

Tool

Contoh
Implementasi

2
Pengenalan
Apache Spark dalam Arsitektur Big Data

• Apache Spark adalah mesin


analitik terpadu untuk
pemrosesan data skala besar.

• Spark dapat digunakan dalam


mode cluster mandiri, pada
EC2, Hadoop YARN, Mesos,
atau Kubernetes.

• Akses data dalam HDFS, Alluxio,


Apache Cassandra, Apache
HBase, Apache Hive, dan
ratusan sumber data lainnya.

3
Komponen
Elemen pembentuk Apache Spark
Cluster Management
Spark Core adalah mesin
digunakan untuk
utama untuk pemrosesan
memperoleh sumber daya
data paralel dan
cluster untuk
terdistribusi berskala
melaksanakan pekerjaan
besar.
dan menangani pembagian
Spark Core bertanggung sumber daya diantara
jawab untuk manajemen komponen Spark.
memori dan pemulihan
Spark core menjalankan
kesalahan, penjadwalan,
lebih dari beragam Cluster
distribusi dan pemantauan
Management termasuk
pekerjaan pada sebuah
Hadoop YARN, Apache
cluster & berinteraksi
Mesos, Amazon EC2, dan
dengan sistem
Cluster Management
penyimpanan.
bawaan Spark.

4
Library
Spark Streaming adalah library ke Spark Core API yang MLlib adalah library machine learning yang dapat diskalakan
memungkinkan pemrosesan aliran live data stream yang yang membahas algoritma berkualitas tinggi dan kecepatan
memiliki karakterstik dapat diskalakan, transfer data tinggi, tinggi. MLlib berisi library yang memiliki implementasi
dan toleransi kesalahan. Spark menggunakan teknik Micro- berbagai algoritma machine learning seperti, clustering,
batching untuk streaming real-time. regression, classification dan collaborative filtering.

Spark SQL adalah


GraphX ​adalah mesin
modul Spark untuk
komputasi grafik yang
pemrosesan data
dibangun di atas Spark
terstruktur.
yang memungkinkan
pengguna untuk
Spark SQL juga
membangun,
menyediakan abstraksi
mentransformasikan,
pemrograman yang
dan alasan secara
disebut DataFrames
interaktif tentang
dan dapat bertindak
skala grafik pada data
sebagai mesin query
terstruktur.
SQL terdistribusi.

5
Tool
Ø Apache Zeppelin
• Web-based notebook that enables data-driven,
interactive data analytics and collaborative
documents with SQL, Scala and more.

6
Tool
Ø IntelliJ IDEA

• IntelliJ IDEA is an
integrated development
environment (IDE) written
in Java for developing
computer software.

• IntelliJ IDEA can create


new or edit existing local
or remote Zeppelin
notebooks, execute code
paragraphs, preview the
resulting tables and
graphs, and export the
results to various formats.

7
Contoh Implementasi
• Penggunaan pada Bukalapak

8
Contoh Implementasi
• Penggunaan pada Bukalapak

9 9
Rencana ke depan
• Pengaplikasian Hadoop

10
THE END

11

Anda mungkin juga menyukai