Pendahuluan
A. Deskripsi Singkat
Secara umum, tujuan Kegiatan Belajar 4 ini adalah untuk memberikan
pemahaman, pengetahuan, keterampilan, dan sikap kepada guru atau peserta PPG
tentang framework dan big data.
Secara khusus, tujuan Kegiatan Belajar 4 ini adalah agar peserta mampu: (1)
mengkonfigurasi framework big data; dan (2) mengevaluasi konfigurasi framework big
data.
B. Relevansi
Kegiatan Belajar 4 ini menggunakan beberapa dukungan perangkat yang yang
harus disediakan. Peserta dapat menggunakan perangkat yang dimiliki tetapi harus
memenuhi standar spesifikasi yang telah ditetapkan. Hal ini bertujuan agar setiap
kegiatan pembelajaran yang dilakukan dapat berjalan dengan semestinya.
Perangkat-perangkat yang digunakan dalam kegiatan pembelajaran modul ini adalah
Personal Computer/Laptop.
C. Panduan Belajar
Pada Kegiatan Belajar 4 ini, urutan yang harus dilakukan oleh peserta dalam
mempelajari modul ini adalah :
1. Membaca tujuan pembelajaran sehingga memahami target atau goal dari kegiatan
belajar tersebut.
2. Membaca indikator pencapaian kompetensi sehingga memahami kriteria
pengukuran untuk mencapai tujuan pembelajaran.
3. Membaca uraian materi pembelajaran sehingga memiliki pengetahuan,
keterampilan dan sikap kompetensi yang akan dicapai.
4. Melakukan aktifitas pembelajaran dengan urutan atau kasus permasalahan sesuai
dengan contoh.
5. Mengerjakan latihan/soal atau tugas dengan mengisi lembar kerja yang telah
disediakan.
Capaian Pembelajaran:
1. Mampu Konfigurasi framework big data
82
Pokok-pokok Materi:
1. Framework big data
2. Konfigurasi framework big data
Uraian Materi
1. Framework big data
Framework adalah sebuah software untuk memudahkan para programer
untuk membuat sebuah aplikasi web yang di dalam nya ada berbagai fungsi
diantaranya plugin, dan konsep untuk membentuk suatu sistem tertentu agar
tersusun dan tersetruktur dengan rapih.
Menurut R. Kelly Rainer (2011) Data, menunjuk pada deskripsi dasar akan
benda, event, aktivitas, dan transaksi yang terdokumentasi, terklasifikasi,dan
tersimpan tetapi tidak terorganisasi untuk dapat memberikan suatu arti yang
spesifik.
Menurut Vience (2016) memasuki tren yang disebut Big Data, era di mana
ketersediaan data sosial yang terekam secara digital semakin berlimpah. Bagi
kalangan industri atau praktisi, big data telah membuka peluang untuk
menetapkan strategi bisnis serta inovasi dalam hal memproses, menganalisa dan
menyimpan data dengan volume serta tingkat votalitas yang tinggi secara cepat
dan efektif. Bagi kalangan akademisi, Big Data telah menobrak tradisi lama
penelitian ilmu sosial.
Big data memberikan solusi bagi penelitian sosial konvensional, khususnya
untuk menangkap realita seperti pola jaringan komunikasi, diseminasi informasi,
atau bahkan memprediksi pola gerakan sosial atau politik berdasarkan perilaku
secara online. Istilah-istilah seperti webometrics, social network analysis, digital
social research, web social science atau computational social science
menandakan transisi penelitian sosial konvensional penelitian sosial cyber atau
‘e-research”’, yaitu di mana transisi unit analisis dari manusia menuju algoritma
(Lupton, 2015:17).
Menurut Eaton, Dirk, Tom, George, & Paul Big Data merupakan istilah
yang berlaku untuk informasi yang tidak dapat diproses atau dianalisis
menggunakan alat tradisional. Menurut Dumbill, (2012), Big Data adalah data
83
yang melebihi proses kapasitas dari kovensi sistem database yang ada. Data
terlalu besar dan terlalu cepat atau tidak sesuai dengan struktur arsitektur
database yang ada. Untuk mendapatkan nilai dari data, maka harus memilih jalan
altenatif untuk memprosesnya.
Big Data adalah sebuah sistem teknologi yang diperkenalkan untuk
menanggulangi 'ledakan informasi' seiring dengan semakin bertumbuhnya
ekosistem pengguna perangkat mobile dan data internet. Pertumbuhan perangkat
mobile dan data internet ternyata sangat mempengaruhi perkembangan volume
dan jenis data yang terus meningkat secara signifikan di dunia maya. Berbagai
jenis data, mulai data yang berupa teks, gambar atau foto, video hingga bentuk
data-data lainnya membanjiri sistem komputasi. Big data sebagai kumpulan data
yang memiliki ukuran besar dan melebihi kapasitas dari perangkat lunak basis
data untuk mengelola dan menganalisanya. Big Data muncul dari proses
transaksi data, interaksi data dan observasi data yang terus menerus (M. James,
2011).
Karakteristik big data ada tiga yaitu:
a. Volume
Volume di sini berkaitan dengan ukuran media penyimpanan data yang
sangat besar atau mungkin tak terbatas. Big data memiliki jumlah data yang
sangat besar sehingga dalam proses pengolahan data dibutuhkan suatu
penyimpanan yang besar dan dibutuhkan analisis yang lebih spesifik.
b. Velocity
Big data memiliki aliran data yang yang cepat dan real time. Velocity dapat
diartikan sebagai kecepatan proses.
c. Variety
Big data memiliki bentuk format data yang beragam baik terstruktur
ataupun tidak terstruktur dan bergantung pada banyaknya sumber data.
Variety berarti tipe atau jenis data yang dapat diakomodasi.
Big Data dapat diasumsikan sebagai sebuah media penyimpanan data yang
menawarkan ruang tak terbatas, serta kemampuan untuk mengakomodasi dan
memproses berbagai jenis data dengan sangat cepat. Contoh big data termasuk indeks
pencarian Google, database profil pengguna Facebook, dan daftar produk
84
Amazon.com. Kumpulan data ini (atau “datasets“) sangat besar sehingga data tidak
dapat disimpan dalam database biasa, atau bahkan komputer tunggal. Google pada
tahun 2006 memperkenalkan Google Bigtable. Bigtable merupakan sistem database
berskala besar dan cepat yang digunakan Google untuk mengolah berbagai jenis data
dari berbagai layanan, termasuk data dari layanan mesin pencari berbasis internet.
Facebook sistem database untuk menangani melonjaknya pengguna layanan dengan
teknologi Big Data, facebook tidak pernah kesulitan untuk menangani peredaran data
yang melonjak drastis yang berasal dari satu miliar penggunanya.
3. Klasifikasi Data
Teknologi Big Data memiliki kemampuan untuk menangani berbagai variasi
data. Secara umum ada 2 kelompok data yang harus dikelola, yaitu :
a. Data terstruktur
Kelompok data yang memiliki tipe data, format, dan struktur yang telah
terdefinisi. Sumber datanya dapat berupa data transaksional, OLAP data,
tradisional RDBMS, file CSV, spreadsheets
b. Data tidak terstruktur
Kelompok data tekstual dengan format tidak menentu atau tidak memiliki
struktur melekat, sehingga untuk menjadikannya data terstruktur
membutuhkan usaha, tools, dan waktu yang lebih. Data ini dihasilkan oleh
aplikasi-aplikasi internet, seperti data URL log, media sosial, e-mail, blog,
video, dan audio.
Terkait visualisasi dan reporting hasil dari analitik. Tools untuk tahap ini
menggunakan RStudio.
5. Pemanfaatan Big Data Pada Sektor Bisnis
Perusahaan-perusahaan yang bergerak dalam sektor bisnis memiliki orientasi
utama pada pencapaian margin laba setinggi mungkin (profit oriented). Berbagai
informasi penting dapat dihasilkan dari Big Data yang dapat mendukung proses
pengambilan keputusan bagi pimpinan perusahaan sebagai berikut
a. Mengetahui respons masyarakat terhadap produk-produk yang dikeluarkan
melalui analisis sentimen di media sosial.
b. Membantu perusahaan mengambil keputusan secara lebih tepat dan akurat
berdasarkan data
c. Membantu meningkatkan citra perusahaan di mata pelanggan.
d. Perencanaan usaha, dengan mengetahui perilaku pelanggan seperti pada
perusahaan telekomunikasi dan perbankan.
e. Mengetahui trend pasar dan keinginan konsumen.
a. Privasi
Privasi merupakan isu yang paling sensitif, dengan konseptual, hukum, dan
teknologi, Privasi dapat dipahami dalam arti luas sebagai usaha perusahaan
untuk melindungi daya saing dan konsumen mereka. Data-data yang
digunakan / disimpan sebagai big data
b. Access dan sharing
Akses terhadap data, baik data lama maupun data baru dapat menjadi
hambatan dalam mendapatkan data untuk big data, terlebih pada data lama
dimana data- data tersimpan dalam bentuk – bentuk yang berbeda-beda dan
beragam ataupun dalam bentuk fisik, akses terhadap data baru juga
membutuhkan usaha yang lebih kerana diperlukannya izin dan lisensi untuk
mengakses data-data non-public secara legal.
c. Analisis
Bekerja dengan sumber data baru membawa sejumlah tantangan analitis.
relevansi dan tingkat keparahan tantangan akan bervariasi tergantung pada
jenis analisis sedang dilakukan, dan pada jenis keputusan yang akhirnya akan
bisa diinformasikan oleh data.
Tergantung dari jenis data terdapat 3 kategori dalam analisis data
1) Penentuan gambaran yang benar
Masalah ini biasanya ditemukan dalam penanganan unstructured
user-generated text-based data dimana data yang didapatkan belum
tentu benar karena data atau sumber yang salah.
2) Interpreting Data
Kesalahan-kesalahan seperti Sampling selection biasa merupakan
hal yang sering ditemukan dimana data yang ada tidak dapat digunakan
untuk mepresentasikan semua populasi yang ada, dan apophenia,
melihat adanya pola walaupun tidak benar-benar ada dikarenakan
jumlah data yang besar, dan kesalahan dalam menginterpreasikan
hubungan dalam data.
3) Defining and detecting anomalies
90
Solusinya terdiri dari dua komponen utama: HDFS bertanggung jawab untuk
penyimpanan data di cluster Hadoop; dan sistem MapReduce dimaksudkan
untuk menghitung dan memproses volume data yang besar di cluster.
Bagaimana tepatnya Hadoop membantu memecahkan masalah memori
DBMS modern? Hadoop digunakan sebagai lapisan perantara antara database
interaktif dan penyimpanan data meningkatkan kecepatan kinerja pemrosesan
data tumbuh sesuai dengan peningkatan ruang penyimpanan data. Untuk
mengembangkannya lebih lanjut, Anda cukup menambahkan node baru ke
penyimpanan data. Secara umum, Hadoop dapat menyimpan dan memproses
banyak petabyte info. Di sisi lain, proses tercepat di Hadoop masih
membutuhkan beberapa detik untuk beroperasi. Itu juga melarang
kustomisasi data yang sudah disimpan dalam sistem HDFS. Last but not least,
solusinya mendukung transaksi. Jadi, terlepas dari popularitas yang pasti dari
solusi ini di antara pengguna selama bertahun-tahun yang akan datang,
alternatif baru yang lebih maju secara bertahap datang ke pasar untuk
menggantikannya (kami akan membahas beberapa di bawah).
b. Apache Spark
92
Daftar kerangka kerja Big Data terbaik kami dilanjutkan dengan Apache
Spark. Ini adalah kerangka kerja open-source yang dibuat sebagai solusi yang
lebih maju dibandingkan dengan Apache Hadoop - kerangka awal yang
dibangun khusus untuk bekerja dengan Big Data. Perbedaan utama antara
kedua solusi ini adalah model pengambilan data. Hadoop menyimpan data ke
hard drive di sepanjang setiap langkah algoritma MapReduce, sementara
Spark mengimplementasikan semua operasi menggunakan memori
akses-acak. Karena hal ini, Spark memiliki kinerja 100 kali lebih cepat dan
memungkinkan pemrosesan aliran data. Pilar fungsional dan fitur utama
Spark adalah kinerja tinggi dan keamanan yang gagal. Ini mendukung empat
bahasa: Scala, Java, Python, dan R; dan terdiri dari lima komponen: inti dan
empat perpustakaan yang mengoptimalkan pekerjaan dengan Big Data dalam
berbagai cara ketika digabungkan. Spark SQL - salah satu dari empat pustaka
kerangka kerja khusus - berfungsi untuk pemrosesan data terstruktur
menggunakan DataFrames dan penyelesaian permintaan Hadoop Hive hingga
100 kali lebih cepat. Spark juga dilengkapi alat Streaming untuk pemrosesan
data khusus utas secara real time. Dengan demikian, pendiri Spark
menyatakan bahwa waktu rata-rata pemrosesan setiap mikro-batch hanya 0,5
detik. Berikutnya, ada MLib - sistem pembelajaran mesin terdistribusi
sembilan kali lebih cepat dari perpustakaan Apache Mahout. Dan
perpustakaan terakhir adalah GraphX yang digunakan untuk pemrosesan data
grafik yang dapat diskalakan.
c. Apache Hive
Apache Hive dibuat oleh Facebook untuk menggabungkan skalabilitas salah
93
satu alat big data yang paling populer dan banyak diminati, MapReduce dan
aksesibilitas SQL. Hive pada dasarnya adalah mesin yang mengubah
permintaan SQL menjadi rantai tugas pengurangan peta. Mesin mencakup
komponen seperti Parser (yang mengurutkan permintaan SQL yang masuk),
Pengoptimal (yang mengoptimalkan permintaan untuk efisiensi lebih), dan
Pelaksana (yang meluncurkan tugas dalam kerangka kerja MapReduce). Hive
dapat diintegrasikan dengan Hadoop (sebagai bagian server) untuk analisis
volume data yang besar.
d. Map Reduce
MapReduce adalah algoritme untuk pemrosesan paralel volume data mentah
besar yang diperkenalkan oleh Google pada tahun 2004. MapReduce melihat
data sebagai jenis entri yang dapat diproses dalam tiga tahap: Peta
(pra-pemrosesan dan penyaringan data), Shuffle (node pekerja mengurutkan
data - setiap node pekerja sesuai dengan satu kunci output yang dihasilkan
dari fungsi peta), dan Reduce (fungsi pengurangan diatur oleh pengguna dan
mendefinisikan hasil akhir untuk kelompok yang terpisah dari data output.
Mayoritas semua nilai dikembalikan oleh mengurangi () fungsi adalah hasil
akhir dari tugas MapReduce). Karena logika sederhana seperti itu,
MapReduce menyediakan paralelisasi data secara otomatis, penyeimbangan
beban node pekerja yang efisien, dan kinerja gagal-aman.
94
e. Apache Storm
Apache Storm adalah solusi terkemuka yang berfokus pada bekerja dengan
aliran data besar secara real time. Fitur utama Storm adalah skalabilitas (tugas
pemrosesan didistribusikan oleh node cluster dan mengalir di setiap node)
dan kemampuan memulihkan segera setelah downtime (dengan demikian,
tugas sedang dialihkan ke node pekerja lain jika salah satu node sedang
down). Anda dapat bekerja dengan solusi ini dengan bantuan Java, serta
Python, Ruby, dan Fancy. Strom menampilkan sejumlah elemen yang
membuatnya sangat berbeda dari analog. Yang pertama adalah Tuple -
elemen representasi data utama yang mendukung serialisasi. Lalu ada Stream
yang menyertakan skema bidang penamaan di Tuple. Spout menerima data
dari sumber eksternal, membentuk Tuple dari mereka, dan mengirimkannya
ke Stream. Ada juga Bolt - pengolah data, dan Topologi - paket elemen
dengan deskripsi keterkaitan mereka analog pekerjaan MapReduce di
Hadoop, pada dasarnya). Ketika digabungkan, semua elemen ini membantu
pengembang untuk dengan mudah mengelola aliran besar data yang tidak
terstruktur.
95
Seperti data pergudangan, toko web atau platform TI, infrastruktur untuk data
yang besar memiliki kebutuhan yang unik. Dalam mempertimbangkan semua
komponen platform data yang besar, penting untuk diingat bahwa tujuan akhir adalah
untuk dengan mudah mengintegrasikan data yang besar dengan data perusahaan Anda
untuk memungkinkan Anda untuk melakukan analisis mendalam pada set data
gabungan. Requirement dalam big data infrastruktur: (1) data acquisition, (2) data
organization (3) data analysis
Dalam pendekatan Hadoop mendukung pemprosesan secara terdistribusi ke
kluster-kluster dari komputer. Hadoop didukung oleh dua komponen utama HDFS
dan MapReduce
HDFS merupakan sistem penyimpanan/storage terdistribusi, yang melakukan
proses pemecahan file besar menjadi bagian-bagian lebih kecil kemudian
didistribusikan ke kluster-kluster dari komputer. Sedangkan MapReduce merupakan
algoritma/komputasi terdistribusi
SHDFS terdiri dari NameNode, yang mengelola metadata dari kluster,
dan DataNode yang menyimpan data/file. File dan direktori diwakili pada NameNode
oleh inode. Inode menyimpan atribut seperti permission, modifikasi dan waktu akses,
atau kuota namespace dan diskspace.
MapReduce bertugas membagi data yang besar ke dalam potongan lebih kecil
dan mengatur mereka kedalam bentuk tupel untuk pemrosesan paralel. Tupel adalah
kombinasi antara key dan value-nya, dapat disimbolkan dengan notasi : "(k1, v1)".
Dengan pemrosesan bersifat paralel tersebut, tentunya akan meningkatkan kecepatan
dan keandalan komputasi pada sistem klustering.
Yarn adalah memisahkan dua tanggung jawab utama dari
JobTracker/TaskTracker menjadi beberapa entitas yang terpisah.
Beberapa Software yang dibutuhkan untuk menjalankan hadoop adalah Operating
System, Hadoop dan Java Development Kit (JDK).
Tes Formatif
1. Sebuah software untuk memudahkan para programer untuk membuat sebuah
aplikasi web yang di dalam nya ada berbagai fungsi diantaranya plugin, dan
konsep untuk membentuk suatu sistem tertentu agar tersusun dan tersetruktur
dengan rapih biasa disebut…
a. Firewall
105
b. Framework
c. Plugin
d. Bigdata
e. Website
2. Sistem teknologi yang diperkenalkan untuk menanggulangi 'ledakan informasi'
seiring dengan semakin bertumbuhnya ekosistem pengguna perangkat mobile dan
data internet disebut…
a. Firewall
b. Framework
c. Plugin
d. Bigdata
e. Website
3. Kecepatan proses aliran data dan real time merupakan salah satu karakteristik
dari big data yaitu…
a. Volume
b. Variety
c. Vibratory
d. Velocity
e. Actual
4. Teknologi Big Data memiliki kemampuan untuk menangani berbagai variasi
data. Secara umum ada 2 kelompok data yang harus dikelola, yaitu …
a. Data terstruktur dan tidak terstruktur
b. Data langsung dan tidak langsung
c. Data integrasi dan tidak integrasi
d. Data penting dan tidak penting
e. Data akusisi dan tidak akusisi
5. Berikut ini yang tidak termasuk tahap pengelolaan Big Data serta perangkat bantu
(tools) yang dapat dimanfaatkan untuk mendukung pemrosesan pada tiap tahap
yaitu…
a. Acquired
b. Actual
c. Accessed
d. Analytic
e. Application
106
a. Apache Hadoop
b. Apache Spark
c. Apache Hive
107
d. Apache Structure
e. Apache Strom
10. Gambar di bawah ini merupakan cara kerja dari…
a. Hadoop HDFS
b. Hadoop MapReduce
c. Hadoop YARN
d. Hadoop Common
e. Hadoop Oozie
Daftar Pustaka
A. Bansod, "Efficient big data analysis with Apache spark in HDFS," Int J Eng Adv
Technol, vol. 4, pp. 313-316, 2015.
A. MadhaviLatha and G. V. Kumar, "Streaming Data Analysis using Apache
Cassandra and Zeppelin," International Journal of Innovative Science,
Engineering & Technology, vol. 3, no. 10, 2016.
Bagas Prakarsa dan Alif Subardono, 2017, Implementasi Big Data Pada Data
Transaksi Tiket Elektronik Bus Rapid Transit (BRT), Teknologi Jaringan,
Departemen Teknik Elektro dan Informatika, Sekolah Vokasi, Universitas Gadjah
Mada, ISSN: 2085-6350.
Budi Maryanto, 2017, “Big Data Dan Pemanfaatannya Dalam Berbagai Sektor, Media
Informatika Vol.16 No.2 (2017)
Dumbill, E. (2012). Big Data Now Current Perspective. O'Reilly Media
Eaton, C., Dirk, D., Tom, D., George, L., & Paul, Z. (n.d.). Understanding Big Data.
Mc Graw Hill
108
Online:
Adhi Maulana, 2014, ”Apa itu Teknologi Big data”,
https://www.liputan6.com/tekno/read/801638/apa-itu-teknologi-big-data (16
Januari 2014)
Ashya, 2022, “Kenalan dengan Big Data:Pengertian dan Kegunaan”,
https://ruanglaptop.com/apa-itu-big-data/ (20 Februari 2022)
Fella Magita Putri, 2015, ”Apa Pengertian dari Klasifikasi data?”,
https://timur.ilearning.me/2015/12/24/apa-pengertian-dari-klasifikasi-data/ (24
Desember 2015)
Vitaliy Ilyukha, 2022, ”10 Best Bug Data Tool for 2022”,
https://jelvix.com/blog/top-5-big-data-frameworks (2022)
109
Tugas Akhir
1. Buatlah penyimpanan data melalui cloud computing dan deskrifsikan dengan
baik langkah-langkahnya secara sistematis dengan menggunakan berbagai
aplikasi?
2. Buatlah menyimpanan recovery data dan deskripsikan dengan baik
langkah-langkahnya secara sistematis dengan menggunakan berbagai aplikasi?
3. Buatlah sistem pengontrolan berbasis arduino untuk mengontrol 2 buah lampu
secara otomatis dan buatkan laporan kegiatan pelaksanaanya.
Tes Sumatif
1. Pengertian Cloud computing adalah konsep yang digunakan untuk
menggambarkan berbagai konsep komputasi melibatkan sejumlah komputer yang
terhubung melalui jaringan komunikasi real-time seperti internet, maksud dari
komunikasi real-time adalah ….
A. Komunikasi satu arah
B. Komunikasi timbal-balik
C. Komunikasi komputer
D. Komunikasi komputasi
E. Komunikasi setiap waktu
3. Sistem cloud bekerja menggunakan internet sebagai server dalam mengolah data,
Infrastruktur seperti media penyimpanan data dan juga instruksi/perintah dari
pengguna disimpan dengan cara.….
A. Pengiriman data melalui jaringan internet
110
4. Cara kerja cloud computing dengan server pusat mengelola sistem memantau lalu
lintas dan permintaan client untuk memastikan semuanya berjalan lancar.
Middleware network memungkinkan komputer untuk berkomunikasi satu sama
lain. Klasifikasi layanan salah satunya adalah PaaS (Platform as a Service) hal ini
memfokuskan untuk membuat desain, men-deploy dan juga meng-host aplikasi di
internet dan Saas layanan ini berfungsi untuk...
A. Service berupa akses hardware kepada kostumer
B. Service berupa akses software kepada kostumer
C. Service berupa akses cart kepada kostumer
D. Service berupa akses lalu lintas kepada kostumer
E. Service berupa akses jaringan kepada kostumer
10. Faktor pengganggu dalam jaringan yang menyebabkan turunya nilai QoS yaitu
redaman, distorsi, noise. Noise ini sangat berbahaya karena….
A. Jika terlalu cepat akan dapat mengubah data asli yang dikirimkan
B. Jika terlalu besar akan dapat mengubah data asli yang dikirimkan
C. Jika terlalu lambat akan dapat mengubah data asli yang dikirimkan
D. Jika terlalu kecil akan dapat mengubah data asli yang dikirimkan
E. Jika terlalu panjang akan dapat mengubah data asli yang dikirimkan
12. Colokan listrik yang dimiliki dikoneksikan dengan Wi-Fi dan disambungkan
dengan barang-barang elektronik seperti lampu atau oven, merupakan
implementasi dari …..
A. Iot
B. Smart Home
C. Smart Building
D. Smart City
E. Smart Komputasi
B. Servo SG90
C. Arduino
D. Sensor PIR
E. Mni PC
14. Smart Garage Door berfungsi dalam implementasi smart home yang bertujuan
untuk pengontrolan jarak jauh dan otomatisasi. Smart Garage Door
diperuntukkan untuk …...
A. Memonitor Status Pintu Pagar
B. Memonitor Status Pintu Rumah
C. Memonitor Status Pintu Mobil
D. Memonitor Status Pintu Garasi
E. Memonitor Status Pintu Kamar
15. Beberapa unsur pembentuk IoT yang mendasar termasuk kecerdasan buatan,
konektivitas, sensor, keterlibatan aktif serta pemakaian perangkat berukuran
kecil. Kecerdasan Buatan (Artificial Intelligence/AI) IoT membuat mesin menjadi
“Smart”. IoT bisa meningkatkan segala aspek kehidupan dengan teknologi yang
didasarkan pada….
A. User Interface
B. Artificial Intelligence
C. Software IoT
D. Hardware IoT
E. User Control
17. Karakteristik big data ada tiga yaitu volume, velocity, variety. Variety adalah
big data memiliki bentuk format data yang beragam baik terstruktur ataupun
tidak terstruktur dan bergantung pada banyaknya sumber data. Berdasarkan
definisi, variety berarti ….
A. Tipe atau kapasitas data yang dapat diakomodasi
B. Jumlah atau jenis data yang dapat diakomodasi
C. Tipe atau besaran data yang dapat diakomodasi
D. Model atau jenis data yang dapat diakomodasi
E. Tipe atau jenis data yang dapat diakomodasi
18. Teknologi Big Data memiliki kemampuan untuk menangani berbagai variasi data.
Secara umum ada 2 kelompok data yang harus dikelola, yaitu data terstruktur dan
data tidak terstruktur. Data terstruktur adalah kelompok data yang memiliki tipe
data, format, dan struktur yang telah terdefinisi. Sumber datanya dapat berupa ….
A. Data transaksional, Docx, tradisional RDBMS, file CSV, spreadsheets
B. Data transaksional, OLAP data, tradisional RDBMS, file CSV, spreadsheets
C. Data transaksional, OLAP data, tradisional RDBMS, file PPT, spreadsheets
D. Data transaksional, OLAP data, tradisional RDBMS, file CSV, mdb
E. Data transaksional, js, tradisional RDBMS, file CSV, spreadsheets
19. Tahap pengelolaan big data yaitu acquired, accessed, analytic, dan application
serta perangkat bantu (tools) yang dapat dimanfaatkan untuk mendukung
pemrosesan pada tiap tahap. Analytic yang dilakukan dapat berupa descriptive ,
diagnostic , predictive (memprediksi kejadian dimasa depan) maupun prescriptive
analytics (merekomendasikan pilihan dan implikasi dari setiap opsi). Maksud
diagnostic dan descriptive adalah….
A. Penggambaran data dan mencari sebab akibat berdasar data
B. Penambahan data dan mencari sebab akibat berdasar data
C. Pemantauan data dan mencari sebab akibat berdasar data
D. Prediksi data dan mencari sebab akibat berdasar data
E. Perubahan data dan mencari sebab akibat berdasar data
115
20. Hadoop adalah proyek dengan kode sumber terbuka yang dikelola oleh Apache
Software Foundation. Hadoop digunakan untuk perhitungan yang andal, dapat
diukur, distribusi, tetapi juga dapat dieksploitasi sebagai penyimpanan file
dengan tujuan umum yang dapat menyimpan petabyte data. Terdapat dua
komponen utama HDFS dan MapReduce. HDFS bertanggung jawab untuk….
A. Penyimpanan data di cluster hardisk
B. Penyimpanan data di cluster MapReduce
C. Penyimpanan data di cluster RAM
D. Penyimpanan data di cluster hadoop
E. Penyimpanan data di cluster internet
116