Anda di halaman 1dari 30

Pengenalan Big Data

Tim Penyusun Materi Big Data

Universitas Syiah Kuala

INO VATIF - MANDIRI - T ERKEMUKA


Outline

• Pengantar Big Data


• Karakteristik Big Data
• Pengelompokan Berdasarkan Jenis Data
• Ekosistem Hadoop Sebagai Pendukung Teknologi
Big Data
• Big Data Tools
• Berbagai Aplikasi Big Data

INO VATIF - MANDIRI - T ERKEMUKA


Pengantar Big Data

INO VATIF - MANDIRI - T ERKEMUKA


Pengantar Big Data

• Volume data digital meningkat dengan sangat


pesat disebabkan perkembangan teknologi
komputer yang begitu spektakuler (Chen &
Zhang, 2014)
• Data digital dapat berupa dokumen, halaman
web, data logs, data transaksi, data hasil
pengukuran sensor, data simulasi, tweets,
komentar di media sosial, image, video, dan
audio
• Big data merupakan kumpulan data digital
yang terstruktur, semi-terstruktur, dan tidak
terstruktur berjumlah besar yang memiliki
potensi untuk diolah menjadi informasi.

INO VATIF - MANDIRI - T ERKEMUKA


Karakteristik Big Data

INO VATIF - MANDIRI - T ERKEMUKA


Karateristik Big Data

• Pada awalnya, Karakteristik big data dikelompokkan dalam tiga


kelompok yang dikenal dengan istilah 3V yaitu volume, variety, dan
velocity.

• Seiring perkembangannya, karakteristik big data berkembang


menjadi 5V yakni volume, variety, velocity, veracity, dan value.

INO VATIF - MANDIRI - T ERKEMUKA


5V Big Data

INO VATIF - MANDIRI - T ERKEMUKA


Pengelompokan Berdasarkan Jenis Data

• Big data pada umumnya dikelompokkan dalam tiga jenis bentuk


data yang berbeda yaitu jenis data terstruktur, jenis data semi
terstruktur, dan jenis data tidak terstruktur.

Terstruktur Semi Terstruktur Tidak Terstruktur

INO VATIF - MANDIRI - T ERKEMUKA


Pengelompokan Berdasarkan Jenis Data

• Data terstruktur disimpan dalam bentuk tabular baris dan kolom


seperti record yang tersimpan dalam Relational Database
Management System (RDBMS) yang memanfaatkan teknologi SQL
(Structured Query Language).

Contoh data terstruktur: Data pada Database

INO VATIF - MANDIRI - T ERKEMUKA


Pengelompokan Berdasarkan Jenis Data

• Data semi terstruktur mewarisi beberapa karateristik dari data data


terstruktur yang memiliki pola tetapi tidak memiliki struktur yang
pasti seperti struktur model RDBMS.

Contoh data semi terstruktur: Data pada


file CSV (comma separated values)

INO VATIF - MANDIRI - T ERKEMUKA


Pengelompokan Berdasarkan Jenis Data

• Data tidak terstruktur merupakan jenis yang sangat berbeda dan


tidak memiliki struktur formal model RDBMS. Data jenis ini bahkan
tidak memiliki format yang konsisten dan selalu berubah-ubah

Contoh data tidak terstruktur: Data audio, data


gambar, data video, dan lain lainnya

INO VATIF - MANDIRI - T ERKEMUKA


Ekosistem Hadoop Sebagai
Pendukung Teknologi Big Data

INO VATIF - MANDIRI - T ERKEMUKA


Ekosistem Hadoop Sebagai Teknologi
Pendukung Big Data
• Apache Hadoop dengan model pemrograman MapReduce dan
Hadoop Distributed File System (HDFS) merupakan teknologi big
data yang tepat digunakan untuk mengolah data berukuran besar
secara paralel dan terdistribusi (Oussous et al., 2018; Luna et
al., 2017; Li et al., 2016; Ghazi & Gangodkar, 2015; Dean &
Ghemawat, 2004)

• Hadoop dapat mengelola ribuan server (node) secara paralel,


masing-masing node memiliki kemampuan komputasi dan media
penyimpanan sendiri

• Hadoop sebuah frameworks yang terdiri dari beberapa


bagian seperti YARN dan HDFS dengan tugas yang berbeda-
beda

INO VATIF - MANDIRI - T ERKEMUKA


Hadoop Distributed File System (HDFS)

• HDFS berfungsi untuk menyimpan data berukuran besar dengan


memecah data tersebut menjadi beberapa blok dan disimpan
secara terdistribusi pada setiap node Hadoop

• HDFS ini terdiri dari Name node dan Data node. Name node
memiliki peran untuk merekam metadata dari sebuah file.
Misalnya, file size, permission, lokasi penyimpanan file dan
lainnya, sedangkan Data node memiliki peran untuk rekam data

INO VATIF - MANDIRI - T ERKEMUKA


Yet Another Resource Negotiator (YARN)

• YARN berfungsi untuk mengatur alur data processing di HDFS


• YARN dibagi menjadi 2 bagian yaitu Resources Manager dan
Node Manager.
• ResourceManager bertugas menerima perintah dari pengguna,
menjadwalkan perintah dan mengalokasikan sumber dayanya
• NodeManager diinstal di setiap node dan bertugas memantau
dan melaporkan ke ResourceManager

INO VATIF - MANDIRI - T ERKEMUKA


Big Data Tools

INO VATIF - MANDIRI - T ERKEMUKA


Big Data Tools
Apache Spark

• Apache Spark merupakan teknologi analisis data sistem


terdistribusi yang dirancang untuk melakukan perhitungan yang
cepat.
• Apache Spark bekerja dengan cara menyimpan semua proses
iterasi ke dalam memory, bukan ke dalam disk seperti halnya
MapReduce.
• Apache Spark terdiri atas Spark core dan sekumpulan library
perangkat lunak lainnya. Inti dari Spark adalah proses analisa
data besar yang sangat cepat secara terdistribusi.
• Library perangkat lunak yang dibangun diatas inti (core)
memfasilitasi berbagai jenis pekerjaan yang berhubungan
dengan streaming, SQL, dan machine learning (Meng et al.,
2016).

INO VATIF - MANDIRI - T ERKEMUKA


Big Data Tools

Apache Spark Engine

INO VATIF - MANDIRI - T ERKEMUKA


Big Data Tools
Apache Pig

• Apache Pig adalah platform tools data besar yang berfungsi


untuk membantu membuat program MapReduce di Hadoop yang
dibangun dengan bahasa pemrograman pada umumnya yaitu
Java.
• Dengan tools Apache Pig, kode program MapReduce di hadoop
yang sangat rumit dapat dibangun dengan beberapa baris kode
saja dan lebih mudah dimengerti.
• Apache Pig terdiri dari dua jenis komponen yaitu Pig Latin dan
Pig Runtime.
• Pig Latin merupakan bahasa (Script) yang digunakan di
Apache Pig untuk membuat program pada MapReduce
• Pig Runtime mengubah dan menjalankan script dari Pig Latin
menjadi MapReduce di Hadoop

INO VATIF - MANDIRI - T ERKEMUKA


Big Data Tools
Perbandingan baris kode untuk
program wordcount
menggunakan MapReduce dan
Apache Pig

VS

Kode Script Pig (7 Baris)

Kode MapReduce (48 Baris)

INO VATIF - MANDIRI - T ERKEMUKA


Big Data Tools
Apache Hive

• Apache Hive adalah tools yang


digunakan untuk membaca, menulis,
dan mengelola kumpulan dataset
berukuran besar yang terstruktur
pada sistem terdistribusi Hadoop
HDFS menggunakan sintaks SQL
tanpa harus menulis kode untuk
MapReduce (Apache Hive, 2011)
• Kemudian Apache Hive
menerjemahkan query SQL yang di
input oleh pengguna menjadi
Directed Acyclic Graph (DAG) dari
MapReduce Jobs.

INO VATIF - MANDIRI - T ERKEMUKA


Big Data Tools
Apache Drill

• Apache Drill merupakan tool lainnya untuk mengelola kumpulan


dataset berukuran besar namun pada data struktur atau tidak
terstruktur pada suatu file system.
• Drill mendukung berbagai database NoSQL dan file system yang
memungkinkan untuk membuat query untuk data struktur apa
pun
• Query tunggal pada Apache Drill dapat menggabungkan
beberapa datastore berbeda. Sebagai contoh, pengguna dapat
menggabungkan record profil pengguna pada MongoDB dengan
log event pada direktori Hadoop (Apache Drill, 2012).

INO VATIF - MANDIRI - T ERKEMUKA


Big Data Tools
Apache HBase

• Apache HBase merupakan tools Hadoop yang


mengimplementasikan konsep dari Google Bigtable.
• HBase adalah database berorientasi kolom terdistribusi yang
dibangun di atas file system Hadoop. HBase bagian dari
ekosistem Hadoop yang menyediakan akses read/write data
secara random real-time (Apache HBase, 2020).
• HBase memiliki struktur model Key Value Store (KVS) yang
terdiri dari Key dan Value. Key adalah kunci, sedangkan Value
adalah data yang disimpan pada HDFS dimana setiap kunci
akan dipasangkan dengan datanya.

INO VATIF - MANDIRI - T ERKEMUKA


Berbagai Aplikasi Big Data

INO VATIF - MANDIRI - T ERKEMUKA


Berbagai Aplikasi Big Data
Travel dan Pariwisata

• Sektor travelling adalah salah satu


sektor terbesar yang menggunakan
teknologi Big Data.

• Dengan Big Data, penyedia jasa


travel dan tourism dapat memprediksi
kebutuhan fasilitas perjalanan terbaik
dari banyak tempat dan juga dapat
meningkatkan bisnis melalui harga
yang dinamis.

INO VATIF - MANDIRI - T ERKEMUKA


Berbagai Aplikasi Big Data
Keuangan dan Perbankan

• Analisis Big Data dalam sektor


keuangan dan perbankan dapat
membantu bank dalam membantu
memahami perilaku pelanggan
berdasarkan histori transaksi, pola
investasi, tren belanja dan latar
belakang pribadi atau keuangan.

INO VATIF - MANDIRI - T ERKEMUKA


Berbagai Aplikasi Big Data
Kesehatan

• Big Data sudah mulai membuat


perbedaan besar di sektor kesehatan.
Dengan bantuan analitik prediktif,
profesional medis dan petugas
kesehatan sekarang dapat
memberikan layanan perawatan
kesehatan yang dipersonalisasi untuk
setiap pasien.
• Selain itu, menggunakan jutaan data
gejala pasien sebelumnya, dapat
dibangun suatu sistem yang dapat
membantu tenaga medis untuk
menentukan suatu penyakit
berdasarkan gejala pasiennya.

INO VATIF - MANDIRI - T ERKEMUKA


Berbagai Aplikasi Big Data
Telekomunikasi dan Multimedia

• Sektor ini merupakan sektor


pengguna utama yang menggunakan
teknologi Big Data. Ada zettabyte
yang dihasilkan setiap hari dan untuk
menangani data sebesar hanya dapat
dilakukan dengan teknologi Big Data
• Dengan adanya analisis big data
pada sektor telekomunikasi, peluang
untuk meningkatkan kinerja
perusahaan telekomunikasi semakin
besar, seperti pemantauan kinerja
jaringan, mendeteksi penipuan,
mengetahui keinginan konsumen dan
analisis resiko kredit

INO VATIF - MANDIRI - T ERKEMUKA


Berbagai Aplikasi Big Data
E-Commerce (Belanja Online)

• Penerapan analisis Big Data sudah


digunakan pada sektor ini untuk
meningkatkan bisnis e-commerce.
Perusahaan e-commerce dapat
menawarkan barang-barang pilihan
lainnya yang serupa atau bahkan
sesuai dengan apa yang dibutuhkan
oleh pengguna dengan
memanfaatkan aktivitas pengguna e-
commerce seperti tranksaksi
sebelumnya, wishlist dan lain-lainnya.

INO VATIF - MANDIRI - T ERKEMUKA


TERIMA KASIH

INO VATIF - MANDIRI - T ERKEMUKA

Anda mungkin juga menyukai