Big Data Iinii PDF

FM-BINUS-AA-FPU-579/R3
BINUS University
BINUS ONLINE LEARNING Semester: Odd / Even *)

  Period: 1/ 2 *)
Graduate Program Undergraduate Program
  Academic Year:
Final Exam Others Exam: 2021/2022
Faculty / Dept. : Binus Online Learning/ Computer Science
Student ID : 2401967201
Course : COMP6725036 – Big Data Technologies
Day/ Date : Senin – Senin/ 23 – 30 Mei 2022
BULC : Bekasi, Bandung, Jakarta, Malang, Palembang, N a m e :Loni Miranda Doloksaribu
Semarang
Class : MBFE; MCEE; MDBEE; MBEE; MBCE
Time : 00.00 – 12.00 WIB
Signature :
Exam Feature : Open/ Close Books*)
Equipment : Exam Booklet / Calculator / Laptop )
) Strikethrough the unnecessary items
Please insert this test paper into the exam booklet and submit both documents after the test!!!
The penalty for CHEATING is DROP OUT!!!
PETUNJUK UJIAN
i. Jawablah setiap pertanyaan yang berada pada bagian PERTANYAAN UJIAN dibawah ini
ii. Jawaban di ketik rapi pada halaman JAWABAN UJIAN dibawah ini
iii. Jawaban dikumpulkan paling lambat tanggal 30 Mei 2022 dalam bentuk file dan submit melalui portal ujian
iv. Format file Jawaban adalah : KodeMatakuliah-Nama Matakuliah-NIM.pdf
Contoh : COMP6725036– Big Data Technologies -2012345678.pdf
PERTANYAAN UJIAN
No. Deskripsi Soal Bobot

1. Apa yang dimaksud Big Data? Apa keunggulan menerapkan konsep Big Data bagi 20
perusahaan/bisnis? Deskripsikan dan gambarkan arsitektur umum dari Big Data serta
jelaskan fungsi dari masing masing layer pada arsitektur tersebut.
2. Ada dua model pemrograman di Big Data Ecosystem yaitu Map Reduce dan Spark, apa 15
saja kesamaan dan perbedaan diantara keduanya? Jelaskan dengan deskripsi dan
gambar mengapa Spark mengungguli Map Reduce dalam waktu eksekusi?
3. Berikan contoh implementasi Big Data di mana stream processing diperlukan dalam 25
langkah konsumsi data atau analisis data. Komponen ekosistem Big Data apa yang dapat
diimplementasikan dalam kasus tersebut?. Jelaskan mengapa kemampuan stream
processing diperlukan dalam hal ini, apa dampaknya jika batch processing digunakan?
4. Hadoop menyediakan dua bahasa scripting yaitu, PIG dan HiveQL untuk membantu 25
pengembang aplikasi Big Data untuk mengembangkan program yang menggunakan
model pemrograman Map Reduce. Apa yang Anda ketahui tentang dua bahasa scripting?
Apa kelebihan dan kekurangan pig dan HiveQL?
5. Sebutkan dan jelaskan yang dimaksud dengan NoSQL. Sebutkan NoSQL database yang 15
umum digunakan pada teknologi Big Data. Jelaskan juga karakteristik masing masing
NoSQL database tersebut dari sisi model data, query, penggunaan dan contoh perangkat
lunaknya.
Page 1 of 1
FM-BINUS-AA-FPU-579/R3
JAWABAN UJIAN
1. A. Defisini Big Data

Big Data didefinisikan sebagai kumpulan kumpulan data yang volume, kecepatan, atau
variasinya sangat besar sehingga sulit untuk menyimpan, mengelola, memproses, dan
menganalisis data menggunakan basis data tradisional dan alat pemrosesan data.
Big Data merupakan suatu konsep teknologi informasi yang mengumpulkan data dalam skala
yang besar yang terdiri dari berbagai macam jenis, meliputi data terstruktur, semi terstruktur
dan tidak terstruktur.
Data yang terstruktur merupakan jenis data dengan format tetap yang tersimpan dalam satu
platform, contohnya data gaji karyawan yang dibuat di spreadsheet dan tersimpan pada Excel.
Data semi terstruktur merupakan daata yang memiliki format tetap tetapi memerlukan
platform khusus untuk membukanya. Dan yang terakhir data tidak terstruktur merupakan
jenis data dengan format yang berbeda-beda yang memerlukan platform khusus seperti
database SQL untuk mengakses dan membaca nilainya, contoh yang sering ditemukan di
media sosial seperti komentar, like dan sebagainya.
Big Data merupakan semua kumpulan data dengan skala yang sangat besar. Big Data
dihimpun oleh suatu organisasi tertentu yang biasanya data tersebut akan dipakai di dalam
berbagai program aplikasi. Big Data memiliki tiga karakter dasar yaitu Volume, Variety dan
Velocity.
B. keunggulan menerapkan konsep Big Data bagi perusahaan/bisnis

Ada beberapa keunggulan penerapan Big Data bagi suatu perusahaan.
 Big Data dapat membantu perusahaan untuk memahami lebih jauh mengenai user,
sehingga perusahaan streaming besar sepert Netflix, Disney+ dan Amazon Prime
sangat serius dalam mengumpulkan datanya. Setiap klik, like, hingga swipe up pada
konten bisa menjadi acuan keputusan bisnis.
 Membantu karyawan dan pemilik perusahaan dalam meningkatkan penjualan bisnis
dan beradaptasi dengan trend yang terjadi di dunia era sekarang dan masa depan
 Agar produk atau jasa yang disediakan oleh perusahaan bisa cepat sampai ke pasar,
memastikan target customer tetap puas, sesuai tidak nya target customer antara plan
bisnis dan data real-time, dan lain sebagainya
 Big Data sangat bisa membantu perusahaan untuk beradaptasi mengetahui pangsa
pasar lebih real-time atau saat itu juga yang mencakup customer, kompetitor, trend,
dan value produk atau jasa yang sesuai dengan pasar
 Perusahaan bisa mendapatkan insight secara real-time, bisa digunakan untuk
membentuk grafik interaktif sebagai alat pemantau, dan bisa didapatkan melalui
berbagai sumber
 Menurut ilmuwan data dan pendiri dari Fast Forward Labs, Hilary Mason, keunggulan
Big Data yang paling utama adalah memberitahu kita tentang dunia yang belum
diketahui sebelumnya. Big Data kemudian dapat membantu perusahaan untuk
menemukan suatu pattern, menyampaikan cerita hingga memahami dunia sekitarnya
dengan lebih mendalam.
C. Arsitektur umum dari Big Data
Arsitektur Big Data membantu merancang PipelineData dengan berbagai persyaratan baik
dari Sistem Pemrosesan Batch atau Sistem Pemrosesan Aliran.
Fungsi dari masing masing layer pada arsitektur tersebut adalah :
 Ingestion Layer
Lapisan Arsitektur Big Data ini adalah langkah pertama untuk data yang berasal dari sumber
variabel untuk memulai perjalanannya. Ingestion layer berarti data diprioritaskan dan
dikategorikan, membuat aliran data lancar di lapisan lebih lanjut dalam aliran proses
penyerapan data.
 Visualization Layer
Visualisasi, atau tingkat presentasi, mungkin tingkat yang paling bergengsi, di mana
pengguna alur data mungkin merasakan nilai data. Kita membutuhkan sesuatu yang akan
menarik perhatian orang, menarik mereka ke dalam, membuat temuan Anda dipahami dengan
baik.
 Data Collector Layer
Dalam Lapisan ini, lebih fokus adalah pada transportasi data dari lapisan penyerapan ke sisa
pipa data. Ini adalah Lapisan arsitektur data di mana komponen dipisahkan sehingga
kemampuan analitik dapat dimulai.
 Data Processing Layer
Dalam lapisan utama Arsitektur Big Data ini, fokusnya adalah untuk mengkhususkan diri
dalam sistem pemrosesan pipa data. Kita dapat mengatakan data yang telah kita kumpulkan di
lapisan sebelumnya diproses di lapisan ini. Di sini kita melakukan beberapa sihir dengan data
untuk mengarahkan mereka ke tujuan yang berbeda dan mengklasifikasikan aliran data, dan
itu adalah titik pertama di mana analitik dapat terjadi.
 Data Storage Layer
Penyimpanan menjadi tantangan ketika ukuran data yang Anda hadapi menjadi besar.
Beberapa solusi yang mungkin, seperti Pola Konsumsi Data, dapat menyelamatkan dari
masalah tersebut. Menemukan solusi penyimpanan sangat penting ketika ukuran data Anda
menjadi besar. Lapisan Arsitektur Big Data ini berfokus pada "di mana menyimpan data
sebesar itu secara efisien.
 Data Query Layer
Ini adalah lapisan arsitektur di mana pemrosesan analitik aktif Big Data terjadi. Di sini, fokus
utamanya adalah mengumpulkan nilai data agar lebih bermanfaat untuk lapisan berikutnya.
2. Map Reduce adalah metode pengolahan data dengan memecah data menjadi bagian-bagian
kecil (mapping) dan kemudian hasilnya dijadikan satu kembali (reducing).
Sedangkan Spark adalah mesin komputasi satu set perpustakaan untuk pemrosesan data dalam
skala yang besar pada kluster komputer. Dibangun diatas MapReduce, Spark adalah mesin
open source yang aktif dikembangkan untuk membuat analisis data lebih cepat dan membuat
program berjalan lebih cepat.
Persamaan antara MapReduce dan Spark :
 MapReduce dan Spark memiliki subproyek yang bekerja dengan data terstruktur,
yaitu Apache Hive dan Spark SQL. Hive merupakan infrastruktur data warehouse
berbasis Hadoop, sedangkan Spark SQL adalah library Spark untuk bekerja dengan
data terstruktur. Hive dan Spark menyediakan pengerjaan kueri dengan atau mirip
sintaks SQL. Spark SQL dan Hive yang digunakan untuk tujuan yang sama, yaitu
mengolah dan menganalisis big data dengan bahasa yang dimengerti oleh SQL.
Perbedaan antara MapReduce dan Spark :
 Itu perbedaan utama antara Hadoop dan Spark adalah bahwa Hadoop adalah
framework open source Apache yang memungkinkan pemrosesan terdistribusi set
data besar di seluruh cluster komputer menggunakan model pemrograman sederhana
sementara Spark adalah framework komputasi cluster yang dirancang untuk
komputasi Hadoop cepat.
 Struktur
Pada dasarnya MapReduce adalah mesin pengolah data yang menangani data dengan
skala yang besar dengan biaya dan waktu yang wajar. Spark adalah mesin komputasi
open soucre yang dibangun di atas model MapReduce untuk pemrosesan data skala
besar dan analisis pada cluster komputer.
 Performa
Impelementasi MapReduce dikembangkan adalah inovatif tetapi juga cukup terbatas
dan juga tidak terlalu fleksibel. Sedangkan Spark ditulis dalam bahasa Scala yang
ringkas dan mudah dimengerti untuk membuat program berjalan lebih mudah dan
cepat.
 Kemudahan Penggunaan
MapReduce merupakan program yang inovatif tetapi cukup rumit, sebaliknya Spark
yang konsisten dan dapat disusun yang dapat digunakan untuk membangun aplikasi
dari potongan-potongan kecil. Spark juga menyimpan sebagian besar data input dalam
memori berkat RDD.
 Biaya
Biaya MapReduce jauh lebih murah daripada biaya teknologi manajemen data lainnya
yang digunakan secara luas untuk memelihara data perusahaan. Spark di sisi lain
memiliki biaya yang relatif mahal karena memerlukan banyak RAM untuk
menyimpan data dalam memori yang dapat meningkatkan cluster.
3. –
4. Apache Hive adalah kerangka kerja pergudangan data yang dibangun di atas Hadoop.
Hive menyediakan bahasa kueri seperti SQL yang disebut Bahasa Kueri Hive, untuk kueri
data yang berada di HDFS. Hive mengatur data ke dalam tabel seperti database
relasional. Hive menyediakan shell untuk membuat tabel dan query data. Shell Hive dapat
diluncurkan dengan perintah Hive. Kotak di bawah ini menunjukkan contoh membuat
tabel Hive dari shell Hive.
Kelebihan HiveQL :
 Hive juga menyediakan tools untuk memudahkan proses data ETL.
 Dibuat untuk analisis yang terbiasa dengan SQL tetapi tidak terbiasa dengan
pemrograman Java

Kekurangan HiveQL :
1. Tidak ada update, transaction dan index
Kelebihan Pig :
 Pig menggunakan bahasa yang sangat high-level yaitu Pig Latin
 Dapat dijalankan secara interaktif maupun batch
 Pig ini memudahkan user untuk mengakses data di HDFS dengan bahasa yang lebih
mudah daripada Java.
 Dapat memproses data dalam jumlah besar dalam mode batch, yang mungkin sulit
dilakukan dengan alat yang berdiri sendiri.
 Pig dapat digunakan untuk menganalisis data dengan biaya lebih rendah.
 Pig dapat dieksekusi baik dalam mode lokal atau mode MapReduce
 Pig menyediakan operator LOAD untuk memuat data
 Pig mendukung tipe data sederhana seperti int, long, float, double, chararray,
bytearray, boolean, datetime, dan tipe data kompleks seperti tuple, bag, dan map.
 Pig menggunakan strategi evaluasi malas dan menunda evaluasi ekspresi hingga
operator STORE atau DUMP memicu hasil untuk disimpan atau ditampilkan.
Kekurangan Pig
5. NoSQL adalah singkatan dari Not Only SQL database yang bersifat tanpa relasi, yang berarti
NoSQL dapat mengelola database dengan skema yang fleksibel dan tidak membutuhkan
query yang kompleks. NoSQL memiliki skalabilitas yang tinggi untuk berkembang dengan
sesuai kebutuhan. NoSQL cocok untuk mengolah big data yang datanya dapat berubah-ubah
sekalipun.
Secara umum, database NoSQL terdapat empat jenis dengan karakteristik masing-masing
yaitu :
 Key-value
Jenis database yang simpel yang mana setiap item berisi pasangan key dan value
dalam berbentuk tabel hash. Pada key-value database, setiap key yang ada bersifat
unik sedangkan value-nya bisa berupa JSON, Binary Large Objects (BLOB), string.
Database ini sangat cocok untuk digunakan dalam menyimpan data dalam jumlah
yang besar karena tidak perlu melakukan query yang rumit untuk mengambil data.
 Document database
Jenis database yang menyimpan data dalam dokumen yang mirip dengan objek JSON.
Tiap-tiap dokumen berisi field dan value. Value disini berupa string, angka, boolean
ataupun objek. Strukturnya dapat sejajar dengan objek yang digunakan para developer
saat melakukan coding. Jenis database yang satu ini sangat bagus untuk berbagai
kasus penggunaan dan dapat digunakan sebagai database secara umumnya.
 Graph-based
Database NoSWL yang digunakan untuk menyimpan hubungan antar entitas. Data
tersebut disimpan dalam node dan edge. Node biasanya menyimpan informasi tentang
pengguna, lokasi dan hal yang berhubungan dengan entitas lainnya. Sedangkan edge
menyimpan informasi tentang hubungan antar node. Database ini cocok untuk
melintasi hubungan untuk mencari pola tertentu, seperti media sosial, deteksi
penipuan.
 Column-based
Jenis database yang menyimpan data dalam tabel dan baris. Cocok digunakan untuk
query SUM, COUNT dan sebagainya. Database yang memebrikan banyak
fleksibilitas dibandingkan database relasional karena setiap baris tidak pelru memiliki
kolom yang sama. Database ini sangat bagus jika pengguna perlu menyimpan data
dalam jumlah yang besar agar user dapat memprediksi pola query dengan mudah.

Big Data Iinii PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Big Data Iinii PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

FM-BINUS-AA-FPU-579/R3

BINUS ONLINE LEARNING Semester: Odd / Even *)

No. Deskripsi Soal Bobot

1. A. Defisini Big Data

B. keunggulan menerapkan konsep Big Data bagi perusahaan/bisnis

Anda mungkin juga menyukai