Big Data Exam

1.
Sumber data yang digunakan dalam Big Data dapat dikategorikan menjadi tiga jenis,
yaitu:
- Data terstruktur
- Data semi terstruktur
- Data tidak terstruktur
Jelaskan bagaimana maksud dari masing-masing jenis sumber data tersebut DAN
berikan contoh dari masing-masing jenis data tersebut!
Jawab :
- Data terstruktur merupakan salah satu jenis big data yang datanya dapat diproses,
disimpan dan diambil kembali dalam format tetap. Data struktur mengacu pada
informasi yang sangat teroganisir serta dapat dengan mudah disimpan dan diakses
dari database dengan alogaritma mesin pencari sederhana. Contoh dari data
terstruktur yang dihasilkan mesin adalah statistik weblog dan data penjualan dan
data spreadsheet lainnya.
- Data tidak terstruktur merupakan jenis big data yang datanya tidak memiliki
bentuk atau struktur khusus apapun. Hal ini membuat sangat sulit dan memakan
waktu untuk memproses dan menganalisis data yang tidak terstruktur. Data tidak
terstruktur lebih bersifat kualitatif daripada kuantitatif, yang berarti lebih bersifat
karakteristik dan kategoris. Contoh dari data tidak terstruktur ada foto, file video
dan audio, file teks, konten media sosial, citra satelit, presentasi, PDF, tanggapan
survei terbuka, situs web, dan transkrip atau rekaman pusat panggilan.
- Data semi-terstruktur merupakan jenis big data yang datanya mengandung format
data terstruktur dan data tidak terstruktur. Lebih tepatnya jembatan antara data
terstruktur dan tidak terstruktur. Data ini tidak memiliki model data yang telah
ditentukan sebelumnya dan lebih kompleks daripada data terstruktur, namun lebih
mudah disimpan daripada data tidak terstruktur. Contoh dari data semi-terstruktur
ada Email, XML dan bahasa markup lainnya, paket TCP/IP, file zip dan integrasi
data dari berbagai sumber.
2. Jelaskan bagaimana algoritma penjadwalan Hadoop yang bernama Fair Scheduler

bekerja! Akan lebih bagus jika Anda menganalogikan dengan contoh – sesuai yang
Anda pahami.
Jawab :
Algoritma fair scheduler merupakan fungsi yang dimiliki oleh Hadoop untuk
peningkatan kualitas kerja dari sistem. Algoritma penjadwalan berguna untuk
mengatur job dalam pemakaian sumber daya yang dipakai. Keberagaman jenis job
dapat dibedakan antara job dengan waktu eksekusi panjang dan job dengan waktu
eksekusi pendek. Selain dari waktu eksekusi, keberagaman juga dapat muncul dari
resource data yang akan dipakai pada suatu job yang berjalan. Maka diperlukan
penyesuaian mengenai job scheduler apa yang dipakai sesuai dengan karakteristik job
yang akan sering muncul pada suatu sistem yang dibangun. Fair Scheduler akan
menggunakan metode yang menentukan suatu jobs akan mendapatkan resources yang
sama dengan jobs lainnya. Pada saat jobs diberikan, akan ada suatu slot kosong yang
diisi oleh jobs tersebut. Maka setiap pekerjaan yang berjalan akan mendapatkan
resources yang sama. Dengan metode tersebut maka, suatu short jobs tidak akan
menunggu lama pada resources yang sedang dipakai oleh long jobs.
3. Case study : Sebuah perusahaan taksi bandara RedBird ingin membuat suatu sistem
pricing biaya transportasi kendaraan. Adapun biaya transportasi mengikuti traffic,
jenis mobil, daerah, dan jarak tempuh yang dilalui. Oleh karena itu, perusahaan
memanfaatkan Big Data yang diterima untuk dapat dianalisis lebih lanjut. Coba anda
rancang dan jelaskan kebutuhan Big Data Analytics yang berkaitan dengan kasus
tersebut menggunakan panduan dibawah ini.
- Data Collection : Databases
- Analysis Mode : Real time/ batch
- Analysis Stack : Machine Learning/ MapReduce/Stream Processing/ dll
- Analysis Type : Sentiment Analysis/Product Recommendations/ PCA/ Regression
/ Classification
Jelaskan penggunaan data collection, analysis mode, analysis stack, dan analysis type
yang anda pilih!
Analysis Mode Analysis Stack Analysis Type

Data Collection
Batch MapReduce Product
Database Recommendations
Traffic, jarak
tempuh, jenis mobil
4. Case study : Sebuah perusahaan pertanian ingin memperlihatkan perbedaan tinggi

tanaman lidah mertua terhadap perbedaan jenis pupuk yang digunakan. Percobaan
dilakukan dengan waktu dan lingkungan yang sama. Perbedaan tinggi ini perlu
diperlihatkan detail sebarannya berupa mean, Q1, Q2, Q3, min, dan max. Untuk
menunjukkan perbedaan tinggi tersebut dibutuhkan suatu sistem Data Visualization.
a) Sebutkan Teknik Data Visualization yang digunakan dan jelaskan alasannya
- Bar chart : digunakan untuk melihat perbandingan beberapa jenis kategori nilai.
Sumbu X (tanaman lidah mertua) pada bar chart menunjukkan jenis kategori yang
dibandingkan, sedangkan sumbu Y (perbedaan jenis pupuk) menunjukkan
nilai/besaran untuk setiap jenis kategori
- Box plot : Box plot dapat digunakan untuk menampilkan minimum, medium, dan
maximum untuk suatu kumpulan data serta menunjukkan ukuran tendensi sentral
dan ukuran penyebaran (keragaman) data, dimana dalam case study terdapat
ukuran statistik yaitu mean, Q1, Q2, Q3, min, dan max.
b) Sebutkan tool apa saja yang digunakan untuk dapat memvisualisasikan data tersebut.
- Tools yang digunakan untuk memvisualisasikan data tersebut adalah : spark,
presto, hive, HBase.
c) Jelaskan cara kerja sistem data visualization yang dibuat
Studi ini melihat bagaimana visualisasi data dapat diterapkan dalam menyimpulkan
hubungan antar data tanaman, dimana dalam study kasus ini menggunakan data
perbedaaan tinggi tanaman lidah mertua terhadap jenis pupuk yang
digunakan. Dengan demikian, representasi visual untuk data tumbuhan
diusulkan. Tujuan dari penelitian ini adalah: (1) untuk mengintegrasikan data tumbuh
tinggi tanaman, yang terdiri dari data taksonomi (dalam format tekstual) dan sampel
(dalam format tekstual dan gambar); (2) mentransformasi hasil berbasis teks dalam
format serialisasi Extensible Markup Language (XML) ke dalam bentuk grafis; dan
(3) mengembangkan sistem visualisasi data tumbuhan. Selain itu, evaluasi pengguna
untuk pengguna ahli dan pemula dilakukan untuk mengevaluasi representasi visual
yang diusulkan dari data tanaman.
d) Berikan gambaran perkiraan bentuk dari sistem data visualization tersebut
5. Case study : Anda bekerja pada di pemerintah provinsi Y untuk membantu

memperbaiki sistem di provinsi Y dengan kemampuan big data. Tentunya ada banyak
permasalahan yang terjadi di provinsi Y. Masalah seperti Kemacetan, Transportasi, dll
adalah sesuatu yang dialami oleh provinsi Y. Buatlah suatu sistem big data yang bisa
menyelesaikan permasalahan di provinsi Y.
a) Jelaskan problem permasalahan dan tujuan akhir dari sistem yang dibuat.
Kemacetan lalu lintas di provinsi Y menjadi permasalahan menjadi perhatian
pemerintah. Banyaknya volume kendaraan dan kurangnya fasilitas kendaraan umum
menjadi penyebab utama kemacetan dan menyebabkan aktifitas masyarakat
terganggu. Pemerintah melakukan berbagai upaya untuk dapat menangani kemacetan,
b) Sebutkan input yang dibutuhkan sistem.
Dalam penginputan data didapat melalui tweets yang di upload media sosial twitter
karena tidak sedikit masyarakat di provinsi Y ketika mendapat masalah kemacetan
maka akan update status melalui tweets twitter . Setiap postingan tweets masyarakat
tersimpan dalam API Twitter yang bisa digunakan dan dianalisa melalui sistem
deteksi kemacetan. Kemudian sistem tersebut dirancang menggunakan beberapa
diagram UML. Aplikasi Deteksi Kemacetan ini terkoneksi dengan Hadoop, Flume,
Hive, Derby, dan Twitter API untuk dapat melakukan streaming data twitter secara
real-time dalam pengumpulan datanya.
c) Gambarkan dan jelaskan analytics flow yang dapat memecahkan permasalahan dari
sistem. Berikut contoh untuk weather data analysis sesuai di ppt big data case study
hal 12
Sistem deteksi kemacetan ini dapat memberikan informasi kemacetan di daerah
provinsi Y serta memberikan informasi mengenai tingkat kemacetan daerah tersebut.
Aplikasi ini dapat menghubungkan data twitter dengan analisa sentimen. Data Twitter
digunakan pada saat pengumpulan data tweets pengguna yang memposting keadaan
suatu daerah di provinsi Y yakni macet, padat, maupun lancar. Untuk dapat
mengambil Data Twitter, Aplikasi dikoneksikan dengan Flume, Hive, dan Derby
dengan membuat twitter apps untuk mendapatkan Consumer Key (API key),
Consumer Secret (API secret), Access Token, dan Access Token Secret. Kemudian
dimasukkan ke dalam konfigurasi twitter.conf pada Flume agar Flume dapat
melakukan streamingdata API Twitter. Pada sistem deteksi kemacetan, hasil streaming
data ditampilkan dan data tersebut dianalisa dengan menggunakan analisa sentiment
dan hasilnya yaitu memberikan informasi tingkat kemacetan di suatu daerah pada
provinsi Y yang dicari

Big Data Exam

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Big Data Exam

Diunggah oleh

Hak Cipta:

Format Tersedia

1.

2. Jelaskan bagaimana algoritma penjadwalan Hadoop yang bernama Fair Scheduler

Analysis Mode Analysis Stack Analysis Type

4. Case study : Sebuah perusahaan pertanian ingin memperlihatkan perbedaan tinggi

d) Berikan gambaran perkiraan bentuk dari sistem data visualization tersebut

5. Case study : Anda bekerja pada di pemerintah provinsi Y untuk membantu

Anda mungkin juga menyukai