BINUS University
Please insert the test paper into the exam booklet and submit both papers after the test.
Verified by,
Berdasarkan ilustrasi dan deskripsi tersebut, jelaskan bagaimana cara kerja dari
Hadoop dalam menangani Big Data!
3 Case study : Sebuah perusahaan retail Sigma Mart ingin menganalisis Big Data yang 20
diperolehnya dari proses transaksi customer. Tujuan dari analisis ini adalah untuk mencari
produk unggulan sehingga bisa diatur supply dan diskonnya. Hal ini bertujuan untuk
meningkatkan jumlah transaksi dan efisiensi perusahaan. Coba anda rancang dan jelaskan
kebutuhan Big Data Analytics yang berkaitan dengan kasus tersebut menggunakan panduan
dibawah ini.
Data Collection :
Logs/Sensor/Records/Databases/Stream Analysis
Mode : Real time/ batch
Analysis Stack : Machine Learning/ MapReduce/Stream Processing/ dll
Analysis Type : Sentiment Analysis/Product Recommendations/ PCA/ Regression /
Classification
Jelaskan penggunaan data collection, analysis mode, analysis stack, dan analysis type yang
anda pilih.
4 Case study : Netflix ingin melihat jumlah penayangan film pada website mereka 20
dengan menggunakan data visualisasi. Visualisasi ini harus menunjukkan top 10
negara jika dilihat berdasarkan jumlah penayangannya.
a) Sebutkan Teknik Data Visualization yang digunakan dan jelaskan alasannya
b) Sebutkan tool apa saja yang digunakan untuk dapat memvisualisasikan data
tersebut.
Verified by,
Verified by,
lulusan, dll adalah sesuatu yang dialami oleh Lembaga bootcamp tersebut. Buatlah suatu
sistem big data yang bisa menyelesaikan permasalahan Lembaga bootcamp tersebut.
a) Jelaskan problem permasalahan dan tujuan akhir dari sistem yang dibuat.
Berikut contoh untuk weather data analysis sesuai di ppt big data case study hal 12
d) Jelaskan insight yang diperoleh setelah melalui seluruh analytics flow serta
jelaskan tindakan apa yang dapat dilakukan untuk menindaklanjuti insight yg
diperoleh.
Verified by,
JAWABAN
1. Untuk mengatasi tantangan penyimpanan data pada teknologi Big Data, beberapa solusi yang tepat
dapat diterapkan:
Tiered Storage: Menggunakan konsep penyimpanan berjenjang, yang membagi data menjadi
beberapa tingkat penyimpanan berdasarkan tingkat akses dan persyaratan kinerja. Data yang
jarang diakses atau tidak membutuhkan waktu akses yang cepat dapat dipindahkan ke storage
layer yang lebih murah, sedangkan data yang sering diakses atau membutuhkan performa tinggi
dapat disimpan di storage layer yang lebih mahal.
Kompresi Data: Menggunakan teknik kompresi data untuk mengurangi ukuran data yang
disimpan. Dengan mengompresi data, ruang penyimpanan yang dibutuhkan dapat dikurangi,
sehingga memungkinkan penyimpanan lebih banyak data dalam infrastruktur yang sama.
A. Hadoop menggunakan Hadoop Distributed File System (HDFS) untuk menyimpan data secara
terdistribusi. Data yang besar dipecah menjadi blok-blok yang lebih kecil dan disimpan di berbagai
node dalam klaster Hadoop. Setiap blok data disimpan secara redundan untuk memastikan keandalan
dan ketersediaan data.
B. Hadoop menggunakan model pemrosesan paralel untuk memproses data secara efisien. Pada intinya,
pekerjaan pemrosesan dibagi menjadi tugas-tugas yang lebih kecil yang dapat dieksekusi secara
independen oleh node-node dalam klaster. Tugas-tugas ini didistribusikan ke node-node yang tersedia
untuk dieksekusi.
Verified by,
3. Kebutuhan Big Data Analytics untuk analisis data retail Sigma Mart dapat dirancang sebagai berikut:
Data Collection:
Log: Mencatat semua transaksi pelanggan secara detail, termasuk produk yang dibeli, harga,
waktu transaksi, dan informasi pelanggan terkait.
Database: Mengumpulkan data transaksi dari berbagai sumber seperti sistem kasir, sistem
pembayaran online, dan platform e-commerce.
Sensor: Jika tersedia, data sensor dapat digunakan untuk mengumpulkan informasi tambahan
seperti jumlah pengunjung toko, waktu tinggal, atau preferensi lokasi di dalam toko.
Analysis Mode:
Real-time: Analisis dilakukan secara real time saat data transaksi masuk, memberikan wawasan
cepat untuk pengambilan keputusan instan.
Batch: Analisis dilakukan terhadap sejumlah data transaksi yang dikumpulkan dalam periode
tertentu. Analisis ini dapat memberikan wawasan yang lebih komprehensif dengan melibatkan
lebih banyak data.
Analysis Stack ::
Analysis Type:
Sentiment Analysis: Analisis sentimen pelanggan berdasarkan umpan balik, ulasan, atau interaksi
mereka dengan produk. Ini membantu dalam memahami preferensi pelanggan dan
meningkatkan kepuasan pelanggan.
Product Recommendations: Menggunakan teknik rekomendasi seperti pemfilteran kolaboratif
atau pemfilteran berbasis konten untuk menyarankan produk kepada pelanggan berdasarkan
pola pembelian atau preferensi yang teridentifikasi.
PCA: Digunakan untuk mengidentifikasi pola dan hubungan antara produk yang dibeli oleh
pelanggan dan untuk mengelompokkan pelanggan berdasarkan pola pembelian mereka.
Regresi: Membangun model regresi untuk memprediksi penjualan produk berdasarkan variabel
seperti harga, promosi, dan faktor lainnya.
Classification: Mengklasifikasikan pelanggan ke dalam kelompok berdasarkan pola pembelian
atau karakteristik tertentu, seperti pelanggan setia, pelanggan baru, atau pelanggan dengan
potensi churn.
4. A. Teknik Visualisasi Data yang digunakan adalah “Bar Chart” atau “Column Chart”. Alasan
penggunaan teknik ini adalah karena teknik Bar Chart sangat efektif dalam membandingkan besaran-
besaran dalam kategori yang berbeda. Dalam hal ini, kita ingin membandingkan jumlah film yang
ditayangkan di berbagai negara, sehingga Bar Chart cocok untuk menampilkan perbandingan jumlah
penayangan antar negara tersebut.
Tableau: Alat yang populer dan kuat untuk visualisasi data dengan berbagai opsi bagan yang
dapat disesuaikan.
Power BI: Alat visualisasi data dari Microsoft yang memungkinkan penggunaan berbagai jenis
bagan dan interaksi dengan data secara real-time.
Google Data Studio: Alat gratis dari Google yang memungkinkan pembuatan dasbor interaktif
dengan berbagai jenis visualisasi data.
Python Libraries: Seperti Matplotlib, Seaborn, atau Plotly, yang menyediakan fungsi untuk
membuat visualisasi data menggunakan bahasa pemrograman Python.
C. Cara kerja sistem visualisasi data yang dibuat dapat dijelaskan sebagai berikut:
Data Preprocessing: Data mengenai jumlah film yang diputar di berbagai negara diolah dan
disiapkan untuk visualisasi. Ini mungkin melibatkan penghapusan data yang tidak relevan,
normalisasi data, atau mengatur ulang data agar sesuai dengan format yang diperlukan oleh alat
visualisasi yang digunakan.
Memilih Grafik yang Tepat: Berdasarkan kebutuhan untuk menampilkan 10 negara teratas
berdasarkan jumlah tampilan, grafik Bar Chart dipilih sebagai visualisasi yang sesuai.
Buat Visualisasi: Menggunakan alat visualisasi yang dipilih, data yang diproses dimasukkan ke
dalam grafik Bar Chart. Grafik akan menunjukkan negara-negara pada sumbu x dan jumlah
penayangan pada sumbu y. Setiap negara akan memiliki bar atau kolom yang mewakili jumlah
film yang diputar di negara tersebut.
Verified by,
D. Sistem visualisasi data untuk memperlihatkan jumlah penayangan film pada website Netflix berdasarkan
negara dapat memberikan gambaran yang jelas tentang popularitas film di berbagai negara. Berikut ini adalah
gambaran perkiraan sistem data visualization tersebut:
1. Sumber Data: Sistem data visualization ini akan menggunakan data yang dikumpulkan oleh Netflix
tentang jumlah penayangan film di berbagai negara. Data ini dapat diperoleh dari platform internal Netflix
yang melacak aktivitas penayangan pengguna di setiap negara.
2. Pengumpulan Data: Netflix akan mengumpulkan data penayangan film dari berbagai negara. Data ini akan
mencakup informasi tentang film yang ditonton, waktu penayangan, dan lokasi negara dari pengguna.
3. Preprocessing Data: Data yang dikumpulkan akan menjalani tahap preprocessing untuk membersihkan,
memformat, dan mengorganisasi data agar dapat digunakan dalam visualisasi. Hal ini mungkin melibatkan
penghapusan data yang tidak relevan, pemfilteran data yang tidak valid, dan penggabungan data dari
berbagai sumber.
4. Analisis Data: Setelah preprocessing, data akan dianalisis untuk mengidentifikasi jumlah penayangan film
di setiap negara. Analisis ini dapat melibatkan perhitungan agregat, seperti menghitung total penayangan
film per negara, serta perangkingan negara berdasarkan jumlah penayangan.
5. Visualisasi Data: Data yang telah dianalisis akan divisualisasikan dalam bentuk grafik atau visualisasi
yang informatif dan menarik. Salah satu pilihan visualisasi yang sesuai untuk kasus ini adalah
menggunakan diagram batang horizontal atau peta dunia interaktif yang menyoroti negara-negara dengan
jumlah penayangan terbanyak. Visualisasi tersebut akan memungkinkan pengguna untuk dengan mudah
melihat peringkat 10 negara teratas berdasarkan jumlah penayangan film.
6. Interaktivitas: Sistem visualisasi data ini juga dapat menyediakan fitur interaktif, seperti penggunaan filter
untuk memilih periode waktu tertentu atau jenis film tertentu, yang akan memperkaya pengalaman
pengguna. Pengguna dapat memilih negara tertentu untuk melihat data penayangan film secara lebih rinci
atau mengakses informasi tambahan tentang film yang paling populer di negara tersebut.
7. Aksesibilitas: Penting untuk memastikan bahwa visualisasi data ini dapat diakses dan dimengerti oleh
pengguna dengan mudah. Oleh karena itu, desain visualisasi harus memperhatikan prinsip tata letak yang
jelas, penggunaan warna yang tepat, dan penjelasan yang jelas untuk membantu pengguna memahami
informasi yang disajikan.
Dengan sistem data visualization yang efektif, Netflix dapat memberikan gambaran yang jelas tentang
popularitas film di berbagai negara kepada pengguna mereka. Visualisasi data ini dapat membantu Netflix
dalam pengambilan keputusan strategis, seperti pemilihan konten yang disesuaikan dengan preferensi
penonton di setiap negara dan pengembangan strategi pemasaran yang lebih efektif.
Verified by,
Data tutor: Informasi tentang tutor termasuk kualifikasi mereka, pengalaman mengajar, umpan
balik dari peserta, dan ketersediaan.
Data sistem pembelajaran: Data mengenai modul pembelajaran, materi yang diajarkan, metode
pengajaran, dan umpan balik peserta terhadap sistem pembelajaran.
Data lulusan: Informasi tentang lulusan bootcamp, seperti keahlian yang dimiliki, prestasi, dan
preferensi karir.
Data pemberi kerja: Informasi tentang perusahaan yang membutuhkan keterampilan digital dan
preferensi yang mereka miliki terkait calon karyawan.
Umpan balik peserta: Tanggapan dan umpan balik dari peserta bootcamp tentang tutor, sistem
pembelajaran, dan pengalaman mereka secara keseluruhan.
Data industri: Informasi terkait perkembangan industri digital, tren keterampilan yang
dibutuhkan, dan kebutuhan perusahaan di sektor tersebut.
D. Setelah memperoleh insight tersebut, berikut adalah beberapa tindakan yang dapat dilakukan untuk
menindaklanjuti insight yang diperoleh:
Verified by,
1. Insight yang diperoleh harus menjadi landasan untuk pengambilan keputusan yang lebih baik.
Berdasarkan insight tersebut, merancang strategi bisnis yang lebih efektif, mengoptimalkan
operasional, atau mengembangkan produk dan layanan yang lebih sesuai dengan kebutuhan pelanggan.
2. Insight yang diperoleh dapat memerlukan perubahan atau penyesuaian dalam strategi, proses, atau
taktik bisnis yang ada. Penting untuk mengidentifikasi area yang memerlukan perubahan dan
mengimplementasikan tindakan yang tepat untuk mengambil keuntungan dari insight yang diperoleh.
3. Setelah mengambil tindakan berdasarkan insight, penting untuk terus memantau dan melacak hasilnya.
Hal ini memungkinkan untuk mengevaluasi keberhasilan perubahan yang dilakukan dan membuat
penyesuaian jika diperlukan.
Jika insight yang diperoleh memberikan nilai tambah yang signifikan, menjelajahi pengembangan
analitik lanjutan menggunakan Hadoop. Misalnya, menerapkan teknik machine learning atau analisis
prediktif untuk memperoleh wawasan yang lebih mendalam dan mendukung pengambilan keputusan
yang lebih cerdas.
Verified by,