Anda di halaman 1dari 10

FM-BINUS-AA-FPU-78/V2R1

BINUS University

Academic Career: Class Program:


Undergraduate / Master / Doctoral *) International / Regular / Smart Program /
Global Class / BINUS Online Learning *)

 Mid Exam  Compact Term Exam Term : Odd / Even / Compact *)


 Final Exam  Others Exam : Period (Only for BOL) : 1 / 2 *)

 Kemanggisan  Senayan  Semarang Academic Year :


 Alam Sutera  Bandung
 Bekasi  Malang 2022 / 2023
Exam Type* : Onsite / Online Faculty / Dept. : BINUS Online
/ Computer
Science
Day / Date** : Monday – Monday/15 – 22 May 2023 Code - Course : COMP6725036 – Big
Data Technologies
Time** : 00:00 – 12:00 WIB Code - Lecturer : Lecturer Team
Exam :  Open Book  Open Notes BULC (Only for BOL) : Bandung, Bekasi,
Specification***  Close Book  Submit Project Jakarta, Malang,
 Open E-Book  Oral Test Palembang, Semarang
Class : MEFE;MKEE;MHBE;
MFCE; EMCA; EMCB
Equipment*** : Student ID *** : 2502101412
 Exam Booklet  Laptop  Drawing Paper – A3 Name *** : M. Zuhri Ivan Al Ramzy
 Calculator  Tablet  Drawing Paper – A2 Signature *** :
 Dictionary  Smartphone  Notes

) Strikethrough the unnecessary items


🞸
**) For Online Exam, this is the due date ***) Only for
Onsite Exam

Please insert the test paper into the exam booklet and submit both papers after the test.

The penalty for CHEATING is DROP OUT!

No Daftar Pertanyaan Bobot


1 Salah satu tantangan yang dihadapi oleh teknologi Big Data adalah terkait dengan data 20
storage, karena volume data yang dikumpulkan dan digunakan akan cenderung
bertambah secara masif dan cepat. Jelaskan bagaimana solusi yang tepat untuk
mengatasi tantangan ini!
2 Perhatikan ilustrasi mengenai topologi hardware dari Big Data dengan menerapkan 20
platform
Hadoop.

Verified by,

Dr. Yulius Denny Prabowo, S.Kom.,M.T.I (D6806) and sent to Department on


April 10, 2023
Page 1 of 3
FM-BINUS-AA-FPU-78/V2R1

Berdasarkan ilustrasi dan deskripsi tersebut, jelaskan bagaimana cara kerja dari
Hadoop dalam menangani Big Data!
3 Case study : Sebuah perusahaan retail Sigma Mart ingin menganalisis Big Data yang 20
diperolehnya dari proses transaksi customer. Tujuan dari analisis ini adalah untuk mencari
produk unggulan sehingga bisa diatur supply dan diskonnya. Hal ini bertujuan untuk
meningkatkan jumlah transaksi dan efisiensi perusahaan. Coba anda rancang dan jelaskan
kebutuhan Big Data Analytics yang berkaitan dengan kasus tersebut menggunakan panduan
dibawah ini.
Data Collection :
Logs/Sensor/Records/Databases/Stream Analysis
Mode : Real time/ batch
Analysis Stack : Machine Learning/ MapReduce/Stream Processing/ dll
Analysis Type : Sentiment Analysis/Product Recommendations/ PCA/ Regression /
Classification

Jelaskan penggunaan data collection, analysis mode, analysis stack, dan analysis type yang
anda pilih.
4 Case study : Netflix ingin melihat jumlah penayangan film pada website mereka 20
dengan menggunakan data visualisasi. Visualisasi ini harus menunjukkan top 10
negara jika dilihat berdasarkan jumlah penayangannya.
a) Sebutkan Teknik Data Visualization yang digunakan dan jelaskan alasannya
b) Sebutkan tool apa saja yang digunakan untuk dapat memvisualisasikan data
tersebut.

Verified by,

Dr. Yulius Denny Prabowo, S.Kom.,M.T.I (D6806) and sent to Department on


April 10, 2023
Page 2 of 3
FM-BINUS-AA-FPU-78/V2R1

c) Jelaskan cara kerja sistem data visualization yang dibuat


d)Berikan gambaran perkiraan bentuk dari sistem data visualization tersebut
5 Case study : Anda bekerja pada suatu lembaga bootcamp untuk membantu meningkatkan 20
kemampuan digital peserta dan menyalurkan ke company yang membutuhkan skill tersebut.
Tentunya ada banyak permasalahan yang dihadapi oleh Lembaga bootcamp tersebut untuk
mencapai tujuannya. Masalah seperti tutor, kualitas sistem pembelajaran, ketepatan
rekomendasi

Verified by,

Dr. Yulius Denny Prabowo, S.Kom.,M.T.I (D6806) and sent to Department on


April 10, 2023
Page 3 of 3
FM-BINUS-AA-FPU-78/V2R1

lulusan, dll adalah sesuatu yang dialami oleh Lembaga bootcamp tersebut. Buatlah suatu
sistem big data yang bisa menyelesaikan permasalahan Lembaga bootcamp tersebut.

a) Jelaskan problem permasalahan dan tujuan akhir dari sistem yang dibuat.

b) Sebutkan input yang dibutuhkan sistem.

c) Gambarkan dan jelaskan analytics flow yang dapat memecahkan


permasalahan dari sistem.

Berikut contoh untuk weather data analysis sesuai di ppt big data case study hal 12

d) Jelaskan insight yang diperoleh setelah melalui seluruh analytics flow serta
jelaskan tindakan apa yang dapat dilakukan untuk menindaklanjuti insight yg
diperoleh.

Verified by,

Dr. Yulius Denny Prabowo, S.Kom.,M.T.I (D6806) and sent to Department on


April 10, 2023
Page 4 of 3
FM-BINUS-AA-FPU-78/V2R1

JAWABAN

1. Untuk mengatasi tantangan penyimpanan data pada teknologi Big Data, beberapa solusi yang tepat
dapat diterapkan:

 Skalabilitas Horizontal: Mengambil pendekatan yang dapat diskalakan secara horizontal,


seperti menggunakan arsitektur sistem file terdistribusi seperti Hadoop Distributed File System
(HDFS) atau sistem penyimpanan berbasis objek seperti Amazon S3. Dengan pendekatan ini,
data dapat dibagikan dan disimpan di beberapa server yang saling terhubung, sehingga
kapasitas penyimpanan dapat dengan mudah ditingkatkan seiring bertambahnya volume data.

 Penyimpanan di Cloud: Menggunakan layanan penyimpanan cloud untuk menyimpan dan


mengelola data Big Data. Penyimpanan cloud menawarkan skalabilitas tinggi, yaitu dapat
dengan mudah meningkatkan kapasitas penyimpanan sesuai kebutuhan, serta memberikan
fleksibilitas dan aksesibilitas data dari mana saja.

 Tiered Storage: Menggunakan konsep penyimpanan berjenjang, yang membagi data menjadi
beberapa tingkat penyimpanan berdasarkan tingkat akses dan persyaratan kinerja. Data yang
jarang diakses atau tidak membutuhkan waktu akses yang cepat dapat dipindahkan ke storage
layer yang lebih murah, sedangkan data yang sering diakses atau membutuhkan performa tinggi
dapat disimpan di storage layer yang lebih mahal.

 Penyimpanan Terdistribusi: Menggunakan pendekatan penyimpanan terdistribusi di mana data


disimpan di beberapa lokasi fisik secara terdistribusi. Dengan mendistribusikan data secara
geografis, risiko kehilangan data akibat kerusakan atau kegagalan sistem dapat dikurangi.

 Kompresi Data: Menggunakan teknik kompresi data untuk mengurangi ukuran data yang
disimpan. Dengan mengompresi data, ruang penyimpanan yang dibutuhkan dapat dikurangi,
sehingga memungkinkan penyimpanan lebih banyak data dalam infrastruktur yang sama.

2. Langkah-langkah umum yang terjadi dalam proses kerja Hadoop:

A. Hadoop menggunakan Hadoop Distributed File System (HDFS) untuk menyimpan data secara
terdistribusi. Data yang besar dipecah menjadi blok-blok yang lebih kecil dan disimpan di berbagai
node dalam klaster Hadoop. Setiap blok data disimpan secara redundan untuk memastikan keandalan
dan ketersediaan data.
B. Hadoop menggunakan model pemrosesan paralel untuk memproses data secara efisien. Pada intinya,
pekerjaan pemrosesan dibagi menjadi tugas-tugas yang lebih kecil yang dapat dieksekusi secara
independen oleh node-node dalam klaster. Tugas-tugas ini didistribusikan ke node-node yang tersedia
untuk dieksekusi.

Verified by,

Dr. Yulius Denny Prabowo, S.Kom.,M.T.I (D6806) and sent to Department on


April 10, 2023
Page 5 of 3
FM-BINUS-AA-FPU-78/V2R1
C. Paradigma pemrograman yang paling umum digunakan dalam Hadoop disebut MapReduce. Pada tahap
"map", data dipecah menjadi pasangan kunci-nilai yang lebih kecil. Setiap pasangan kunci-nilai ini
kemudian diolah secara independen oleh node-node dalam klaster. Pada tahap "reduce", hasil
pemrosesan dari langkah "map" dikumpulkan, digabungkan, dan diolah lebih lanjut untuk
menghasilkan output akhir.
D. Hadoop menggunakan YARN (Yet Another Resource Negotiator) sebagai sistem manajemen sumber
daya. YARN bertanggung jawab untuk mengalokasikan sumber daya komputasi yang diperlukan untuk
menjalankan tugas-tugas Hadoop secara efisien. YARN juga mengelola antrian tugas dan
memprioritaskan pekerjaan berdasarkan kebutuhan dan prioritasnya.
E. Hadoop dirancang untuk skalabilitas horisontal, yang berarti klaster dapat diperbesar dengan
menambahkan lebih banyak node sesuai kebutuhan. Jika ada kegagalan pada node, Hadoop memiliki
mekanisme pemulihan diri yang memungkinkan tugas-tugas yang belum selesai untuk ditempatkan
kembali di node lain dalam klaster.

3. Kebutuhan Big Data Analytics untuk analisis data retail Sigma Mart dapat dirancang sebagai berikut:

Data Collection:

 Log: Mencatat semua transaksi pelanggan secara detail, termasuk produk yang dibeli, harga,
waktu transaksi, dan informasi pelanggan terkait.
 Database: Mengumpulkan data transaksi dari berbagai sumber seperti sistem kasir, sistem
pembayaran online, dan platform e-commerce.
 Sensor: Jika tersedia, data sensor dapat digunakan untuk mengumpulkan informasi tambahan
seperti jumlah pengunjung toko, waktu tinggal, atau preferensi lokasi di dalam toko.

Analysis Mode:

 Real-time: Analisis dilakukan secara real time saat data transaksi masuk, memberikan wawasan
cepat untuk pengambilan keputusan instan.
 Batch: Analisis dilakukan terhadap sejumlah data transaksi yang dikumpulkan dalam periode
tertentu. Analisis ini dapat memberikan wawasan yang lebih komprehensif dengan melibatkan
lebih banyak data.

Analysis Stack ::

 Machine Learning: Menggunakan algoritme pembelajaran mesin untuk melakukan analisis


prediktif, seperti memprediksi penjualan produk berdasarkan faktor-faktor seperti harga,
musim, dan preferensi pelanggan.
 MapReduce: Digunakan untuk analisis data transaksi berskala besar, seperti mengidentifikasi
tren pembelian, segmentasi pelanggan, atau pengelompokan produk.
 Stream Processing: Memproses data transaksi secara real-time, memungkinkan deteksi anomali
yang cepat, pemrosesan transaksi yang cepat, atau pembaruan rekomendasi produk secara
Verified by,

Dr. Yulius Denny Prabowo, S.Kom.,M.T.I (D6806) and sent to Department on


April 10, 2023
Page 6 of 3
FM-BINUS-AA-FPU-78/V2R1
langsung.

Analysis Type:

 Sentiment Analysis: Analisis sentimen pelanggan berdasarkan umpan balik, ulasan, atau interaksi
mereka dengan produk. Ini membantu dalam memahami preferensi pelanggan dan
meningkatkan kepuasan pelanggan.
 Product Recommendations: Menggunakan teknik rekomendasi seperti pemfilteran kolaboratif
atau pemfilteran berbasis konten untuk menyarankan produk kepada pelanggan berdasarkan
pola pembelian atau preferensi yang teridentifikasi.
 PCA: Digunakan untuk mengidentifikasi pola dan hubungan antara produk yang dibeli oleh
pelanggan dan untuk mengelompokkan pelanggan berdasarkan pola pembelian mereka.
 Regresi: Membangun model regresi untuk memprediksi penjualan produk berdasarkan variabel
seperti harga, promosi, dan faktor lainnya.
 Classification: Mengklasifikasikan pelanggan ke dalam kelompok berdasarkan pola pembelian
atau karakteristik tertentu, seperti pelanggan setia, pelanggan baru, atau pelanggan dengan
potensi churn.

4. A. Teknik Visualisasi Data yang digunakan adalah “Bar Chart” atau “Column Chart”. Alasan
penggunaan teknik ini adalah karena teknik Bar Chart sangat efektif dalam membandingkan besaran-
besaran dalam kategori yang berbeda. Dalam hal ini, kita ingin membandingkan jumlah film yang
ditayangkan di berbagai negara, sehingga Bar Chart cocok untuk menampilkan perbandingan jumlah
penayangan antar negara tersebut.

B. Beberapa alat yang dapat digunakan untuk memvisualisasikan data adalah:

 Tableau: Alat yang populer dan kuat untuk visualisasi data dengan berbagai opsi bagan yang
dapat disesuaikan.
 Power BI: Alat visualisasi data dari Microsoft yang memungkinkan penggunaan berbagai jenis
bagan dan interaksi dengan data secara real-time.
 Google Data Studio: Alat gratis dari Google yang memungkinkan pembuatan dasbor interaktif
dengan berbagai jenis visualisasi data.
 Python Libraries: Seperti Matplotlib, Seaborn, atau Plotly, yang menyediakan fungsi untuk
membuat visualisasi data menggunakan bahasa pemrograman Python.

C. Cara kerja sistem visualisasi data yang dibuat dapat dijelaskan sebagai berikut:

 Data Preprocessing: Data mengenai jumlah film yang diputar di berbagai negara diolah dan
disiapkan untuk visualisasi. Ini mungkin melibatkan penghapusan data yang tidak relevan,
normalisasi data, atau mengatur ulang data agar sesuai dengan format yang diperlukan oleh alat
visualisasi yang digunakan.
 Memilih Grafik yang Tepat: Berdasarkan kebutuhan untuk menampilkan 10 negara teratas
berdasarkan jumlah tampilan, grafik Bar Chart dipilih sebagai visualisasi yang sesuai.
 Buat Visualisasi: Menggunakan alat visualisasi yang dipilih, data yang diproses dimasukkan ke
dalam grafik Bar Chart. Grafik akan menunjukkan negara-negara pada sumbu x dan jumlah
penayangan pada sumbu y. Setiap negara akan memiliki bar atau kolom yang mewakili jumlah
film yang diputar di negara tersebut.
Verified by,

Dr. Yulius Denny Prabowo, S.Kom.,M.T.I (D6806) and sent to Department on


April 10, 2023
Page 7 of 3
FM-BINUS-AA-FPU-78/V2R1
 Menyesuaikan dan Menata Visualisasi: Visualisasi dapat diperkaya dengan menambahkan label
yang sesuai, judul bagan, sumbu yang jelas, dan palet warna. Ini akan memudahkan pengguna
untuk memahami dan menginterpretasikan visualisasi.
 Interaksi dan Presentasi: Visualisasi dapat berinteraksi dengan pengguna, seperti memberikan
kemampuan untuk mengubah rentang waktu atau mengklik negara tertentu untuk melihat detail
lebih lanjut. Visualisasi juga dapat dihadirkan dalam bentuk dashboard yang mudah diakses dan
dipahami.

D. Sistem visualisasi data untuk memperlihatkan jumlah penayangan film pada website Netflix berdasarkan
negara dapat memberikan gambaran yang jelas tentang popularitas film di berbagai negara. Berikut ini adalah
gambaran perkiraan sistem data visualization tersebut:
1. Sumber Data: Sistem data visualization ini akan menggunakan data yang dikumpulkan oleh Netflix
tentang jumlah penayangan film di berbagai negara. Data ini dapat diperoleh dari platform internal Netflix
yang melacak aktivitas penayangan pengguna di setiap negara.
2. Pengumpulan Data: Netflix akan mengumpulkan data penayangan film dari berbagai negara. Data ini akan
mencakup informasi tentang film yang ditonton, waktu penayangan, dan lokasi negara dari pengguna.
3. Preprocessing Data: Data yang dikumpulkan akan menjalani tahap preprocessing untuk membersihkan,
memformat, dan mengorganisasi data agar dapat digunakan dalam visualisasi. Hal ini mungkin melibatkan
penghapusan data yang tidak relevan, pemfilteran data yang tidak valid, dan penggabungan data dari
berbagai sumber.
4. Analisis Data: Setelah preprocessing, data akan dianalisis untuk mengidentifikasi jumlah penayangan film
di setiap negara. Analisis ini dapat melibatkan perhitungan agregat, seperti menghitung total penayangan
film per negara, serta perangkingan negara berdasarkan jumlah penayangan.
5. Visualisasi Data: Data yang telah dianalisis akan divisualisasikan dalam bentuk grafik atau visualisasi
yang informatif dan menarik. Salah satu pilihan visualisasi yang sesuai untuk kasus ini adalah
menggunakan diagram batang horizontal atau peta dunia interaktif yang menyoroti negara-negara dengan
jumlah penayangan terbanyak. Visualisasi tersebut akan memungkinkan pengguna untuk dengan mudah
melihat peringkat 10 negara teratas berdasarkan jumlah penayangan film.
6. Interaktivitas: Sistem visualisasi data ini juga dapat menyediakan fitur interaktif, seperti penggunaan filter
untuk memilih periode waktu tertentu atau jenis film tertentu, yang akan memperkaya pengalaman
pengguna. Pengguna dapat memilih negara tertentu untuk melihat data penayangan film secara lebih rinci
atau mengakses informasi tambahan tentang film yang paling populer di negara tersebut.
7. Aksesibilitas: Penting untuk memastikan bahwa visualisasi data ini dapat diakses dan dimengerti oleh
pengguna dengan mudah. Oleh karena itu, desain visualisasi harus memperhatikan prinsip tata letak yang
jelas, penggunaan warna yang tepat, dan penjelasan yang jelas untuk membantu pengguna memahami
informasi yang disajikan.
Dengan sistem data visualization yang efektif, Netflix dapat memberikan gambaran yang jelas tentang
popularitas film di berbagai negara kepada pengguna mereka. Visualisasi data ini dapat membantu Netflix
dalam pengambilan keputusan strategis, seperti pemilihan konten yang disesuaikan dengan preferensi
penonton di setiap negara dan pengembangan strategi pemasaran yang lebih efektif.

Verified by,

Dr. Yulius Denny Prabowo, S.Kom.,M.T.I (D6806) and sent to Department on


April 10, 2023
Page 8 of 3
FM-BINUS-AA-FPU-78/V2R1
5.
A. Permasalahan yang dihadapi lembaga bootcamp antara lain masalah tutor, kualitas sistem
pembelajaran, dan ketepatan rekomendasi lulusan. Tutor mungkin tidak selalu tersedia atau memiliki
kualitas pengajaran yang konsisten. Sistem pembelajaran mungkin perlu diperbaiki agar lebih efektif
dan efisien. Selain itu, lembaga bootcamp perlu memastikan bahwa lulusannya direkomendasikan
dengan benar ke perusahaan yang membutuhkan keterampilan digital lulusan tersebut.Tujuan akhir
dari sistem yang dibuat adalah untuk mengatasi permasalahan yang dihadapi lembaga bootcamp dan
meningkatkan efektifitas dan efisiensi operasionalnya. Sistem big data akan membantu dalam
mengelola data mengenai tutor, sistem pembelajaran, dan lulusan. Dengan menggunakan data tersebut,
sistem dapat memberikan rekomendasi terbaik untuk meningkatkan kualitas tutor, meningkatkan
efektivitas sistem pembelajaran, dan memastikan lulusan direkomendasikan ke perusahaan yang sesuai
dengan keahliannya.

B. Input yang dibutuhkan oleh sistem antara lain:

 Data tutor: Informasi tentang tutor termasuk kualifikasi mereka, pengalaman mengajar, umpan
balik dari peserta, dan ketersediaan.
 Data sistem pembelajaran: Data mengenai modul pembelajaran, materi yang diajarkan, metode
pengajaran, dan umpan balik peserta terhadap sistem pembelajaran.
 Data lulusan: Informasi tentang lulusan bootcamp, seperti keahlian yang dimiliki, prestasi, dan
preferensi karir.
 Data pemberi kerja: Informasi tentang perusahaan yang membutuhkan keterampilan digital dan
preferensi yang mereka miliki terkait calon karyawan.
 Umpan balik peserta: Tanggapan dan umpan balik dari peserta bootcamp tentang tutor, sistem
pembelajaran, dan pengalaman mereka secara keseluruhan.
 Data industri: Informasi terkait perkembangan industri digital, tren keterampilan yang
dibutuhkan, dan kebutuhan perusahaan di sektor tersebut.

C. Analytics flow yang dapat memecahkan permasalahan dari sistem.


 Dengan menganalisis data secara menyeluruh dapat mengidentifikasi pola dan tren yang
tersembunyi di dalamnya. Misalnya, menemukan korelasi antara faktor-faktor yang
mempengaruhi penjualan produk atau mendeteksi pola perilaku pelanggan yang dapat
digunakan untuk meningkatkan strategi pemasaran.

 Dengan menggunakan analisis data mengidentifikasi kelompok pelanggan berdasarkan


karakteristik dan perilaku mereka. Hal ini memungkinkan untuk menyusun strategi pemasaran
yang lebih tepat sasaran dan menghasilkan pengalaman pelanggan yang lebih personal.
 Analisis data dapat membantu mengidentifikasi area di mana proses bisnis dapat ditingkatkan
untuk meningkatkan efisiensi dan mengurangi biaya. Misalnya, mengidentifikasi bottleneck
dalam rantai pasokan atau proses produksi yang dapat ditingkatkan.
 Dengan menganalisis data secara holistik, mengidentifikasi anomali atau kejadian yang tidak
biasa yang dapat menunjukkan adanya masalah atau peluang bisnis. Misalnya, Anda dapat
mendeteksi adanya kecurangan atau penyalahgunaan data yang perlu segera ditindaklanjuti.

D. Setelah memperoleh insight tersebut, berikut adalah beberapa tindakan yang dapat dilakukan untuk
menindaklanjuti insight yang diperoleh:
Verified by,

Dr. Yulius Denny Prabowo, S.Kom.,M.T.I (D6806) and sent to Department on


April 10, 2023
Page 9 of 3
FM-BINUS-AA-FPU-78/V2R1

1. Insight yang diperoleh harus menjadi landasan untuk pengambilan keputusan yang lebih baik.
Berdasarkan insight tersebut, merancang strategi bisnis yang lebih efektif, mengoptimalkan
operasional, atau mengembangkan produk dan layanan yang lebih sesuai dengan kebutuhan pelanggan.
2. Insight yang diperoleh dapat memerlukan perubahan atau penyesuaian dalam strategi, proses, atau
taktik bisnis yang ada. Penting untuk mengidentifikasi area yang memerlukan perubahan dan
mengimplementasikan tindakan yang tepat untuk mengambil keuntungan dari insight yang diperoleh.
3. Setelah mengambil tindakan berdasarkan insight, penting untuk terus memantau dan melacak hasilnya.
Hal ini memungkinkan untuk mengevaluasi keberhasilan perubahan yang dilakukan dan membuat
penyesuaian jika diperlukan.
Jika insight yang diperoleh memberikan nilai tambah yang signifikan, menjelajahi pengembangan
analitik lanjutan menggunakan Hadoop. Misalnya, menerapkan teknik machine learning atau analisis
prediktif untuk memperoleh wawasan yang lebih mendalam dan mendukung pengambilan keputusan
yang lebih cerdas.

Verified by,

Dr. Yulius Denny Prabowo, S.Kom.,M.T.I (D6806) and sent to Department on


April 10, 2023
Page 10 of

Anda mungkin juga menyukai