BINUS University
Please insert the test paper into the exam booklet and submit both papers after the test.
2 Hadoop Distributed File System (HDFS) memiliki beberapa fitur, salah satunya adalah Data 20
Replication. Bagaimana HDFS mereplikasi data pada Big Data? Jelaskan dengan menyertakan
sebuah contoh!
3 Case study : Sebuah perusahaan startup Shopaa memiliki permasalahan dimana mereka 20
melakukan overhiring. Beberapa karyawan dilayoff untuk mengurangi pengeluaran perusahaan.
Verified by,
4 Case study : Seorang HR ingin mendapatkan insight mengenai perumusan gaji disuatu 20
perusahaan. Dalam hal ini HR ingin mengaitkan antara umur dan gaji. Untuk mempermudah
mendapatkan insight, maka dibutuhkan suatu sistem data visualization.
a) Sebutkan Teknik Data Visualization yang digunakan dan jelaskan alasannya
b) Sebutkan tool apa saja yang digunakan untuk dapat memvisualisasikan data tersebut.
c) Jelaskan cara kerja sistem data visualization yang dibuat
d) Berikan gambaran perkiraan bentuk dari sistem data visualization tersebut
5 Case study : Anda bekerja pada di suatu universitas Z untuk membantu memperbaiki sistem di 20
universitas dengan kemampuan big data. Tentunya ada banyak permasalahan yang terjadi di
universitas. Masalah seperti jumlah intake mahasiswa, pengadaaan fasilitas, kepuasan
mahasiswa, dll adalah sesuatu yang dialami oleh universitas Z. Buatlah suatu sistem big data
yang bisa menyelesaikan permasalahan di universitas Z.
a) Jelaskan problem permasalahan dan tujuan akhir dari sistem yang dibuat.
b) Sebutkan input yang dibutuhkan sistem.
c) Gambarkan dan jelaskan analytics flow yang dapat memecahkan permasalahan dari
sistem.
Berikut contoh untuk weather data analysis sesuai di ppt big data case study hal 12
Verified by,
d) Jelaskan insight yang diperoleh setelah melalui seluruh analytics flow serta jelaskan
tindakan apa yang dapat dilakukan untuk menindaklanjuti insight yg diperoleh.
Jawaban
1. Big Data pada bidang kesehatan, setiap klinik, puskesmas maupun rumah sakit menggunakan software yang
berbeda dalam pencatatan pasien. Hal tersebut membuat data yang dikirimkan ke Dinas Kesehatan juga
berbeda tergantung jenis software yang digunakan. Dengan penerapan Big Data ini semua informasi kesehatan
bisa terpusat sehingga mudah diolah dan juga dianalisa untuk bisa mengetahui seperti apa kesehatan
penduduk yang ada di Indonesia ini yang mana sekarang aplikasi ini ada di dalam SATUSEHAT dimana rekam
medik kita akan tercetak secara elektorik di dalam aplikasi ini dan terintegrasi ke semua Rumah Sakit, klinik,
maupun puskesmas.
2. Bagaimana HDFS mereplikasi data pada Big Data HDFS menyimpan suatu data dengan cara membaginya
menjadi potong-potongan data yang disebut blok berukuran 64 MB dan kemudian disimpan pada node-node
yang tersebar dalam kluster. Ukuran blok tidak terpaku pada nilai tertentu sehingga dapat diatur sesuai
kebutuhan. Walaupun data disimpan secara tersebar, namun dari sudut pandang pengguna, data tetap terlihat
utuh dan diperlakukan seperti halnya mengakses file pada satu media penyimpanan. Berbeda dengan sistem
file pada umumnya, HDFS dapat bertumbuh tanpa batas, karena secara arsitektur dan administrasinya dapat
menambah jumlah node sesuai kebutuhan. Abstraksi satu file yang berada di beberapa node memungkinkan
ukuran file bertumbuh tanpa batas.
Setiap data yang disimpan pada HDFS memiliki lebih dari satu salinan, yang disebut sebagai Replication
Factor (RF). Secara default nilai RF adalah 3, yang berarti satu file tersimpan di 3 datanode berbeda sehingga
jika salah satu datanode rusak, maka file dapat diperoleh dari datanode lain. Datanode mengirimkan sinyal
setiap 3 detik yang disebut heartbeat kepada namenode untuk menunjukkan bahwa datanode tersebut masih
aktif. Apabila dalam 10 menit namenode tidak menerima heartbeat dari datanode, maka datanode tersebut
dianggap rusak atau tidak berfungsi sehingga setiap permintaan baca/tulis dialihkan ke node lain. Dengan
heartbeat, maka namenode dapat mengetahui dan menguasai kondisi kluster secara keseluruhan. Sebagai
respon atas heartbeat dari datanode, selanjutnya namenode akan mengirimkan perintah kepada datanode.
Verified by,
3. Sistem klasifikasi ini bertujuan untuk menganalisis apakah karyawan itu harus dilayoff atau tidak berdasarkan
input dari gaji, lama bekerja, dll.
a. Tentukan input tambahan yang dibutuhkan oleh sistem
Nilai kinerja, nilai maximum, dan nilai minimum
b. Sebutkan komponen library yang digunakan dan jelaskan langkah-langkah pembuatan sistem
Spark SQL adalah library yang mengintegrasikan pemrosesan data relasional dengan Spark functional
programming API. Library ini mendukung pengolahan data menggunakan kueri, baik melalui SQL atau
melalui Bahasa Kueri Hive. Spark SQL menggunakan antarmuka seperti SQL untuk berinteraksi dengan
data dari berbagai format seperti CSV, JSON, Parket, hingga ke berbagai database engine seperti MySQL
dan SQL Server.
c. Tentukan metric pengukuran yang dibutuhkan untuk evaluasi sistem dan jelaskan alasannya
- Matriks berpasangan
Menentukan susunan prioritas elemen adalah dengan menyusun perbandingan berpasangan,
perbandingan tersebut ditransformasikan dalam bentuk matriks.
- Menentukan perbandingan nilai bobot kriteria
Setelah matriks berpasangan tersusun, maka komponen yang ada dalam matriks tersebut diberi bobot
atau nilai, dengan cara membanding setiap komponennya satu persatu antara baris san kolom dan dinilai
melalui skala perbandingan dari 1 sampai 9.
b. Sebutkan tool apa saja yang digunakan untuk dapat memvisualisasikan data tersebut.
Power BI, QlikView, Plotly, Excel
Rp90,000,000.00
Rp80,000,000.00
Rp70,000,000.00
Rp60,000,000.00
Rp50,000,000.00
Rp40,000,000.00
Rp30,000,000.00
Rp20,000,000.00
Rp10,000,000.00
Rp-
per jam per hari per bulan per tahun
Verified by,
5. Buatlah suatu sistem big data yang bisa menyelesaikan permasalahan di universitas Z
a. Jelaskan problem permasalahan dan tujuan akhir dari sistem yang dibuat.
Masalah seperti jumlah intake mahasiswa, pengadaaan fasilitas, kepuasan mahasiswa, dll adalah sesuatu
yang dialami oleh universitas Z dimana tujuan akhir dari sistem ini dapat memberikan informasi jumlah
intake mahasiswa, pengadaan fasilitas dan juga kepuasan mahasiswa terhadap kampus
b. Sebutkan input yang dibutuhkan sistem.
Nim,nama,jurusan,fakultas, nama fasilitas,jumlah fasilitas
c. Gambarkan dan jelaskan analytics flow yang dapat memecahkan permasalahan darisistem.
d. Jelaskan insight yang diperoleh setelah melalui seluruh analytics flow serta jelaskan tindakan apa
yang dapat dilakukan untuk menindaklanjuti insight yg diperoleh.
menurut saya dapat memecahkan di universitas Z, yaitu dengan melakukan prediksi berapa banyak
mahasiswa yang intake. sehingga tidak ketika demand akan banyak akan tersedia juga fasilitas
yang mendukung dan memadai untuk mahasiswa, yang akan berpengaruh terhadap tingkat
kepuasahan masiswa di universitas Z.
Verified by,