Anda di halaman 1dari 25

Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.

========================================

Bab I
Konsep Big Data

Perkembangan Manajemen Data

Sekarang ini setiap manusia sudah terhubung satu dengan lainnya dengan menggunakan data. Sehingga
data yang diproduksi oleh manusia dibelahan dunia saat ini setiap harinya lebih dari 2 triliun byte data.
Data ini berasal dari beberapa jenis informasi, antara lain dari media social, berita online, informasi iklim,
transaksi jual-beli online, gambar dan juga video. Jumlah data yang begitu besar dimana diproduksi terus
menerus inilah yang dapat disebut dengan Big Data. Big Data akan mengelola data yang sebelumnya
tidak tersentuh untuk kebutuhan bisnis yang akhirnya terintegrasi ke dalam operasional bisnis. Mengelola
Big Data membutuhkan keterampilan pengkodean, pengetahuan bisnis, dan juga pengetahuan statistik
yang komprehensif. Aplikasi Big Data hampir di manfaatkan dimana-mana, dari pemasaran hingga
penelitian ilmiah sampai untuk mengetahuai minat pelanggan dan sebagainya. Sebelum kita mengetahui
lebih dalam tentang Big Data sebagai kita perlu mengetahui tentang perkembangan cara mengelola data
sampai sekarang.

Perkembangan mengelola data dari dulu sampai sekarang mengalami berapa tahapan adalah sebagai
berikut :
A. Tahap Pertama: Membuat struktur data yang dapat dikelola
Ketika komputasi pindah ke pasar komersial pada akhir 1960-an, data disimpan dalam flat file
yang tidak ada struktur spesifiknya. Ketika perusahaan perlu pemahaman terperinci tentang
pelanggan, mereka harus menerapkan metode brute-force, membuat model pemrograman yang
sangat rinci untuk menganalisa nilai dari file-file tersebut. Kemudian pada tahun 1970-an, banyak
hal berubah dengan penemuan relational data model dan relational database management system
(RDBMS) yang memberlakukan struktur dan metode untuk meningkatkan kinerja. Yang paling
penting, model relasional menambahkan tingkat abstraksi tertentu (bahasa query terstruktur
[SQL], generator laporan, dan alat manajemen data) sehingga lebih mudah bagi programmer
untuk memenuhi tuntutan bisnis yang berkembang untuk mengekstraksi nilai dari data.

B. Tahap Kedua: Web dan manajemen konten


Bukan rahasia lagi bahwa sebagian besar data yang tersedia di dunia saat ini tidak terstruktur.

1
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
Paradoksnya, perusahaan telah memfokuskan investasi mereka dalam sistem dengan data
terstruktur yang paling terkait dengan pendapatan: sistem transaksional. Enterprise Content
Management System berevolusi pada 1980-an dengan memberikan bisnis kemampuan untuk
mengelola data tidak terstruktur (dokumen-dokumen) dengan lebih baik. Pada 1990-an dengan
munculnya web, selain dokumen, organisasi ingin menyimpan serta mengelola konten web,
gambar, audio, dan video.

Pasar berevolusi dari serangkaian solusi yang tidak terhubung, menjadi model yang lebih terpadu
yang menyatukan elemen-elemen ini ke dalam platform yang menggabungkan manajemen proses
bisnis, version control, penggalian informasi, manajemen teks, dan kolaborasi. Dalam sistem
generasi baru ini dikenal adanya metadata (informasi tentang organisasi dan karakteristik
informasi yang disimpan). Dalam gelombang baru ini, organisasi mulai memahami bahwa mereka
perlu mengelola sumber data dengan jumlah dan variasi data yang belum pernah terjadi
sebelumnya yang perlu diproses pada kecepatan yang sangat tinggi.

C. Tahap Ketiga: Big Data


Apakah Big Data benar-benar hal baru atau merupakan evolusi dalam perjalanan manajemen
data? Jawabannya adalah ya - sebenarnya keduanya. Seperti gelombang lainnya dalam
manajemen data, big data dibangun di atas evolusi praktik manajemen data selama lima dekade
terakhir. Apa yang baru adalah bahwa untuk pertama kalinya, biaya siklus komputasi dan
penyimpanan telah mencapai titik kritis. Mengapa ini penting? Organisasi biasanya akan
berkompromi dengan menyimpan snapshot atau himpunan sebagian informasi penting karena
biaya penyimpanan dan batasan pemrosesan tidak memungkinkan mereka menyimpan semua
data yang ingin dianalisis. Dalam banyak situasi, kompromi ini bekerja dengan baik. Misalnya,
perusahaan manufaktur mungkin telah mengumpulkan data mesin setiap dua menit untuk
menentukan kesehatan sistem. Namun, mungkin ada situasi di mana snapshot tidak akan berisi
informasi tentang jenis cacat baru dan yang mungkin tidak diperhatikan selama berbulan-bulan
(anomali).

Dengan Big Data, sekarang dimungkinkan untuk melakukan virtualisasi data sehingga dapat
disimpan secara efisien dan, penghematan biaya dengan menggunakan penyimpanan berbasis
cloud. Selain itu, peningkatan kecepatan dan keandalan jaringan telah menghilangkan
keterbatasan fisik lainnya karena dapat mengelola sejumlah besar data dengan kecepatan yang
dapat diterima. Ditambah lagi dengan adanya dampak perubahan harga dan kecanggihan memori

2
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
komputer. Dengan semua transisi teknologi ini, sekarang dimungkinkan untuk membayangkan
cara-cara perusahaan dalam memanfaatkan data yang sebelumnya tidak terpikirkan pada lima
tahun yang lalu.

Definisi Big Data

Dalam era sekarang untuk mengelola data harus memasukkan kemajuan teknologi dalam perangkat keras,
penyimpanan, jaringan, dan model komputasi seperti virtualisasi dan cloud computing. Karena faktor
perkembangan teknologi yang semakin pesat, hal ini mengubah cara kita mengelola dan memanfaatkan
data. Big Data adalah tren terbaru dalam tata cara mengelola data yang super besar dan komplek. Big
Data dapat didefinisikan dengan segala sumber data yang memilii etidaknya 3 karakteristik umum, yaitu :
• Volume data yang sangat besar
• Kecepatan (velocity) data yang sangat tinggi
• Ragam (variety) data yang sangat banyak
Sebagai ilustrasi dari hubungan ketiganya adalah sebagai berikut :

Gambar 1 : Ilustrasi Hubungan Karakteristik Big Data

Selain tiga V di atas, ada dua V lain juga sering disebut-sebut yang tidak kalah pentingnya yaitu: Value
(nilai) dan Veracity (kejujuran). Data tentunya memiliki value, tetapi itu belum ada gunanya sampai
value itu digunakan. Dan tentunya sama pentingnya seberapa jujur (veracity) data Anda .

3
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
Dengan mengetahuai karakteristik Big Data maka penerapan Big Data sangat penting karena
memungkinkan organisasi untuk mengumpulkan, menyimpan, mengelola, dan memanipulasi data dalam
jumlah besar dengan kecepatan yang tepat, pada waktu yang tepat, untuk mendapatkan informasi yang
tepat, cepat dan akurat untuk mengambil keputusan. Dalam era sekarang, big data dianggap sebagai
modal penting dalam menumbuhkan organisasi. Sebagian besar perubahan besar dunia menawarkan
layanan kepada pelanggannya berasal dari data mereka, yang terus-menerus mereka analisa untuk
menawarkan layanan yang lebih baik dan juga untuk mengembangkan produk dan fitur-fitur baru.

Dengan adanya terobosan teknologi baru dalam dunia penyimpanan data telah secara eksponensial
mengurangi biaya penyimpanan dan komputasi data, membuatnya lebih mudah dan lebih murah untuk
menyimpan lebih banyak data daripada sebelumnya. Dengan peningkatan volume data secara besar
sekarang lebih murah dan lebih mudah diakses, sehingga kita dapat membuat keputusan bisnis yang lebih
cepat, tepat dan akurat.

Dalam menghasilkan nilai dalam data besar tidak hanya dengan proses analisa saja, akan tetapi
memerlukan proses secara menyeluruh yang membutuhkan analisa yang berwawasan, mengenali pola,
membuat asumsi, dan memprediksi perilaku agar data yang Anda dapatkan bisa membantu membuat
keputusan bisnis yang tepat.

Di dalam analis yang dilakukan oleh McKinsey Global Institue didapatkan hasil yang sangat mengejutkan
tentang penggunakan Big Data. Berikut adalah gambaran dari analisis yang dilakukan oleh McKinsey
Global Institut:

4
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================

Gambar 2 : Analisis Penggunaan Big Data

Penerapan Big Data tidak hanya terpusat pada masalah bisnis saja namun juga ilmu pengetahuan,
penelitian, dan juga kegiatan pemerintahan. Dengan demikian penerapan Big Data sangatlah penting
dalam berorganisasi sekarang ini.

Berikut adalah beberapa hal yang dianggap sebagai big data adalah :

▪ Penggunaan internet

Kehidupan kita sekarang ini hampir terhubung dengan internet setiap harinya. Kita juga pasti
sering menggunakan Google untuk mencari informasi . Data-data hasil pencarian kita juga
merupakan data yang disimpan Google.

▪ Penggunaan smartphone

Dalam kehidupan sehari-hari kita sudah hamper semuanya menggunakan smartphone atau tablet.
Smartphone sebenarnya memiliki jumlah data yang sangat besar. Mereka menyimpan record

5
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
telfon dan sms kita. Selain itu, aplikasi-aplikasi handphone kita juga tentunya mengumpulkan
data untuk keperluan bisnis mereka. Aplikasi GPS seperti Google Maps atau Waze tentunya juga
mengumpulkan data-data yang berhubungan dengan lokasi Anda.

▪ Social media

Sekarang ini social media tentunya sudah menjadi bagian dari hidup manusia sehari-hari. Update
profile atau status yang kita upload ke social media kita adalah bagian dari data. Tanpa kita
sadari bahwa setiap harinya ada lebih dari 400 juta tweets yang dikirim ke Twitter dan juga
kurang lebih 72 jam video YouTube diupload setiap menitnya. Tidak hanya itu, dari social media,
kita juga bisa mendapatkan data tentang kontak kita, hal-hal apa yang sering kita cari dan ikuti di
social media, dan kebiasaan pengguna social media.

▪ Digitalisasi media

Kalau kita cermati masa lalu sebelum maraknya internet, kita mungkin sering menggunakan CD
dan DVD untuk mendengarkan musik dan menonton video. Sekarang, banyak aktifitas yang
sudah tergantikan dengan menggunakan halaman website dan aplikasi streaming seperti Netflix
dan Spotify. Tentunya Netflix dan Spotify mencatat apa saja yang kita dengarkan dan tonton agar
mereka memiliki data yang bisa mereka gunakan untuk meningkatkan layanan mereka. Begitu
juga dengan buku. Dulu mungkin kita hanya membaca buku dalam bentuk fisik. Sekarang sudah
ada layanan seperti Kindle yang memungkinkan kita untuk membaca eBook. Demikian juga
dengan Amazon juga pasti mencatat buku apa saja yang kita baca agar mereka bisa
merekomendasikan buku yang sesuai dengan apa yang kita baca.

▪ Smart device

Sekarang ini beragam alat elektronik yang dipasarkan menggunakan kata-kata ‘Smart’, ada
smart TV, smart fridges (kulkas), bahkan ada juga smart car atau mobil yang bisa berjalan sendiri
tanpa pengemudi. Konsep smart appliances sendiri adalah bahwa semua peralatan kita di rumah
ini terhubung satu sama lain dan kita dapat mengaturnya dari satu alat – misalnya dengan
menggunakan smartphone. Teknologi ini merupakan bagian dari teknologi terbaru, Internet of
Things (IOI). Semua data dari smart devices kita, seperti misalnya temperatur dan konsumsi daya

6
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
di rumah Anda juga akan dikumpulkan agar produsen bisa memperbaiki layanannya dan
menawarkan teknologi mutakhir untuk kita.

Perlu kita ketahui bahwa Eric Schidmt dari Google pernah mengatakan bahwa sampai dengan
tahun 2003, manusia menghasilkan 5 exabytes data. Dan sekarang, manusia menghasilkan 5
exabytes data setiap dua hari dan ini diperkirakan akan terus bertambah terus.

Karakteristik Big Data

A. Volume
Volume pada dasarnya menyangkut sejumlah besar data yang dihasilkan terus menerus. Awalnya
menyimpan data tersebut masalah tersendiri karena biaya penyimpanan yang tinggi. Namun
dengan perkembangan teknologi masalah biaya penyimpanan dapat diatasi. Sebagai contoh
sekarang ini yang paling banyak memproduksi data adalah ponsel cerdas, E-Commerce, dan situs
web jejaring sosial. Data ini dapat dengan mudah membedakan antara data terstruktur, data tidak
terstruktur dan data semi-terstruktur. Mungkin volume ini merupakan karakteristik big data yang
paling mudah dikenali; hal ini tidaklah mengherankan, mengingat lebih dari 90 persen dari semua
data hari ini dibuat dalam beberapa tahun terakhir. Jumlah data saat ini sebenarnya bisa sangat
mengejutkan. Berikut ini beberapa contohnya: • 300 jam video diunggah ke YouTube setiap
menit.
• Diperkirakan 1,1 triliun foto diambil pada tahun 2016, dan jumlah itu diproyeksikan akan
naik sebesar 9 persen pada tahun 2017. Karena foto yang sama biasanya memiliki banyak
contoh yang disimpan di berbagai perangkat, layanan berbagi foto atau dokumen serta
layanan media sosial, jumlah total foto yang disimpan juga diperkirakan akan meningkat dari
3,9 triliun pada 2016 menjadi 4,7 triliun pada 2017.
• Pada 2016 diperkirakan lalu lintas seluler global berjumlah 6,2 exabyte (6,2 miliar gigabytes)
per bulan.

7
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================

Gambar 3 : Penggunaan Data

B. Velocity

Dalam perkembangan data yang ada sekarang ini tampak tidak seperti zaman prasejarah, data
dapat diproses secara batch. Namun teknik batch ini hanya layak bila kecepatan data yang masuk
lebih lambat dari kecepatan pemrosesan batch. Pada saat ini, kecepatan memproduksi,
menghasilkan dan memperbarui data sangatlah cepat , sehingga jumlah data yang dihasilkan
sedemikian besar. Facebook mengklaim 600 terabyte data yang masuk per hari. Google sendiri
memproses rata-rata lebih dari "40.000 permintaan pencarian setiap detik," yang secara kasar
diterjemahkan menjadi lebih dari 3,5 miliar pencarian per hari.

Dengan singkat Velocity dapat diartikan sebagai berikut kecepatan yang sangat tinggi di mana
data diterima dan kemungkinan langsung digunakan. Karena, kecepatan data tinggi sekali
maka aliran data langsung ke memori lebih banyak dibandingkan yang ditulis ke disk.

8
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
Beberapa smart devices yang menggunakan internet beroperasi dalam waktu nyata atau
mendekati waktu nyata dan akan memerlukan evaluasi dan tindakan secara real-time.

C. Variety

Dalam hal Big Data, kita tidak hanya harus menangani data terstruktur tetapi juga data semi
terstruktur dan sebagian besar tidak terstruktur juga. Seperti yang dapat Anda simpulkan dari
contoh di atas, sebagian besar Big Data tampaknya tidak terstruktur, tetapi selain audio, gambar,
file video, pembaruan media sosial, dan format teks lainnya ada juga file log, data klik, data
mesin dan sensor, dll.

Ekosistem Big Data

Yang dimaksud dengan Ekosistem Big Data disini adalah big data memerlukan berbagai
teknologi baru yang saat ini sudah sangat beragam, mulai dari infrastrukturnya sampai
perangkat lunaknya. Ekosistem Big Data memungkinkan kita untuk menyimpan, memproses,
menganalisis, dan memvisualisasikan data. Dimulai dengan infrastruktur, dan memilih alat yang
tepat untuk menyimpan, memproses, dan menganalisis data. Kemudian ada alat analitik khusus
untuk membantu kita menggali informasi dalam data. Lebih jauh dari ini, ada juga aplikasi yang
menjalankan aksi sesuai dengan data yang telah diproses dan dianalisis. Semua ini adalah
komponen berharga dari ekosistem Big Data.

Hal-hal yang perlu diperhatikan dalam ekosistem big data. Untuk menunjang pengembangan
ekosistem big data, perusahaan harus mempertimbangkan berbagai aspek dalam memilih
teknologi yang digunakan.

▪ Hardware
Beberapa aspek yang perlu dipertimbangkan dalam memilih hardware adalah:
❖ Harga
❖ Skalabilitas
❖ Pengelolaan

9
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================

Namun secara umum, pilihan perangkat keras yang dapat dibangun adalah:
▪ Cloud computing
Penggunaan perangkat keras cloud computing cocok untuk digunakan industri skala kecil
dan menengah. Dalam skala besar, cloud computing perlu diperhitungkan untuk
penggunaan dalam jangka waktu 5–10 tahun.

▪ Commodity hardware
Perangkat keras commodity hardware adalah perangkat keras yang dapat dibeli di
pasaran. Secara umum, skalabilitas mudah karena menggunakan sistem cluster sementara
dari sisi harga lebih baik daripada menggunakan jasa cloud computing karena pengguna
memiliki aset hardware dan mengelolanya sendiri. Dalam sisi pengelolaan dapat mudah
jika menggunakan admin tools.

▪ High-end hardware
Perangkat keras custom akan terkendala masalah harga dan skalabilitas. Semakin tinggi
harganya, maka tingkat skalabilitasnya makin tinggi pula. Pertimbangan dari sisi
pengelolaan lebih baik karena termasuk dalam support vendor yang menyediakan.

▪ Software
Dalam pemilihan software yang digunakan untuk mengembangkan big data, perlu diperhatikan
tiga aspek sebagai berikut.

▪ Biaya
Jika biaya merupakan aspek utama, maka open source merupakan alternatif pertama yang
patut dipilih.

▪ Spesifikasi : fungsionalitas, skalabilitas, kecepatan


Spesifikasi dapat dibandingkan dengan data-data benchmark dengan memperingkatkan
aspek spesifikasi berdasarkan kebutuhan.

▪ Coding atau tanpa coding

10
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
Agar dapat lebih customized, maka pilihan untuk mengembangkan big data dengan
coding akan lebih baik daripada menggunakan tools yang un-code.

Berikut Landscpae Big Data yang diterbitkan pada tahun 2016

Gambar 4 : Landscape Big Data

Untuk citra dengan resolusi yang lebih tinggi, bisa dilihat di:
http://mattturck.com/wpcontent/uploads/2016/03/Big-Data-Landscape-2016-v18-FINAL.png

Gambar berikutnya menyajikan arsitektur berlapis Big Data. Ini dapat digunakan sebagai
framework untuk menggambarkan tentang teknologi big data yang dapat mengatasi persyaratan
fungsional untuk proyek Big Data Anda. Anda dapat fokus pada aspek-aspek tertentu
berdasarkan pada masalah spesifik yang Anda tangani. Namun, penting untuk memahami
seluruh stack ini sehingga Anda siap untuk masa depan. Anda pasti akan menggunakan
berbagai elemen dalam stack tergantung pada masalah yang Anda tangani.

11
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================

Gambar 5 : Arsitektur Big Data

Redundant Physical Infrastructure

Network harus mempunyai kemampuan lebih dan harus memiliki kapasitas yang cukup untuk
mengakomodasi volume dan kecepatan untuk mengantisipasi adanya data masuk dan keluar
selain dari jalur lalu lintas Network "normal" yang dikelola oleh perusahaan. Ketika Anda mulai
membuat Big Data sebagai bagian integrasi strategi komputasi perusahaan, maka harus
mempertimbangkan volume dan kecepatan meningkat.

Perancangan infrastruktur harus merencanakan peningkatan yang diharapkan ini dan mencoba
untuk membuat implementasi fisik yang mudah untuk mengakomodasi perubahan. Ketika lalu
lintas network surut dan mengalir, maka aset fisik yang ada akan menyesuaikan keadaan.
Infrastruktur Anda harus menawarkan kemampuan pemantauan sehingga operator dapat bereaksi
ketika diperlukan lebih banyak sumber daya untuk mengatasi perubahan beban kerja.

Demikian pula, aset perangkat keras (penyimpanan dan server) harus memiliki kecepatan dan
kapasitas yang cukup untuk menangani semua kemampuan data besar yang diharapkan. Tidak ada

12
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
gunanya jika memiliki jaringan berkecepatan tinggi dengan server lambat tetapi server menjadi
penghambatan. Tetapi, server penyimpanan dan komputasi yang sangat cepat dapat mengatasi
kinerja Network. Tentu saja, tidak ada yang akan berfungsi dengan baik jika kinerja Network
buruk atau tidak dapat diandalkan.

Pertimbangan desain penting lainnya adalah manajemen operasi infrastruktur. Tingkat kinerja dan
fleksibilitas terbesar hanya akan ada di lingkungan yang dikelola dengan baik. Pusat data harus
dapat mengantisipasi dan mencegah kegagalan katastropik sehingga integritas data, dan dengan
perluasan proses bisnis, dapat dipertahankan. Biasanya Divisi TI sering mengabaikan dan
karenanya kurang berinvestasi di bidang ini.

Security Infrastructure

Yang dimaksud dengan Security Infrastructure adalah system keamanan Network dan Hardware
yang mana dapat dikonfigurasikan, dioperasikan, dipelihara, dan ditingkatkan untuk
menyediakan fungsi dan layanan keamanan (seperti komunikasi dan pemberitahuan darurat
operasional, deteksi intrusi, kontrol akses fisik, pengawasan video, pengunjung manajemen,
manajemen tur patroli petugas dan administrasi keamanan) untuk mencapai tujuan mitigasi risiko
tertentu. Secara singkat dapat diartikansistem untuk mengelola Network dan Hardware dengan
menyediakan fungsi dan layanan keamanan sesuai dengan strategi manajemen risiko.

Persyaratan keamanan dan privasi untuk Big Data mirip dengan persyaratan untuk lingkungan
data konvensional. Persyaratan keamanan harus disesuaikan dengan kebutuhan bisnis tertentu.

Beberapa hal yang harus diperhatikan strategi mengelola Big Data:


• Data access: data adalah sekumpulan fakta atau keterangan yang diperoleh dari lingkungan
sekitar, dan dapat berupa karakter-karakter seperti huruf, angka, simbol, suara, dan gambar.
Sedangkan cara mengakses data dapat dibedakan menjadi dua cara yaitu :
❖ SASD (Sequential Access Storage Device) : penyusunan data di suatu medium
penyimpanan yang terdiri dari satu catatan mengikuti satu catatan lain ke urutan tertentu.
Misalnya, catatan pegawai disusun dalam urutan nomor pegawai. Bila sistem
penyimpanannya berurutan yang digunakan, maka data yang pertama harus diproses
pertama, kedua diproses kedua, dan seterusnya sampai akhir file itu tercapai. Sebagian

13
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
media penyimpanan komputer hanya dapat memproses data yang disusun secara
berurutan. Contoh SASD adalah pita magnetik.
❖ DASD (Direct Access Storage Device) adalah cara mengakses data secara langsung.
Penyimpanan akses langsung (direct access storage) adalah suatu cara
mengorganisasikan data yang memungkinkan semua catatan ditulis dan dibaca tanpa
pencarian secara berurutan atau secara acak.

Contoh DASD : o Magnetik (floppy disk,


hard disk). o Removable hard disk (Zip disk,
Flash disk).
o Optical Disk.

• Application access: merupakan jalan untuk bisa masuk dan terhubung dengan aplikasi.
Akses aplikasi ke data juga relatif mudah dari sudut pandang teknis. Sebagian besar
antarmuka pemrograman aplikasi (API) menawarkan perlindungan dari penggunaan atau
akses yang tidak sah.

• Data encryption: Enkripsi merupakan proses untuk mengubah plainteks menjadi chiperteks.
Planteks sendiri adalah data atau pesan asli yang ingin dikirim, sedangkan Chiperteks adalah
data hasil enkripsi. Enkripsi dapat diartikan sebagai kode atau chiper. Sehingga enkripsi data
adalah aspek keamanan yang paling penting dalam proses Big Data.

Sebuah chiper mengunakan suatu algoritma yang dapat mengkodekan semua aliran data
(stream) bit dari sebuah pesan menjadi cryptogram yang tidak dimengerti (unintelligible).
Karena teknik chiper merupakan suatu system yang telah siap untuk di automasi, maka
teknik ini digunakan dalam system keamanan computer dan jaringan. Enkripsi dimaksudkan
untuk melindungi informasi agar tidak terlihat oleh orang atau pihak yang tidak berhak.
Informasi ini dapat berupa nomor kartu kredit, catatan penting dalam komputer, maupun
password untuk mengakses sesuatu. Deskripsi dalam dunia keamanan komputer merupakan
proses untuk mengubah chiperteks menjadi plainteks atau pesan asli. Jadi Deskripsi
merupakan kebalikan dari Enkripsi upaya pengolahan data menjadi sesuatu yang dapat
diutarakan secara jelas dan tepat dengan tujuan agar dapat dimengerti oleh orang yang tidak
langsung mengalaminya sendiri.

14
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
• Threat detection: adalah sebuah sistem yang melakukan pengawasan terhadap traffic
jaringan dan pengawasan terhadap kegiatan-kegiatan yang mencurigakan didalam sebuah
sistem jaringan. Jika ditemukan kegiatan-kegiatan yang mencurigakan berhubungan dengan
traffic jaringan maka threat detection akan memberikan peringatan kepada sistem atau
administrator jaringan. Dalam banyak kasus threat detection juga merespon terhadap traffic
yang tidak normal/anomali melalui aksi pemblokiran seorang user atau alamat IP (Internet
Protocol ) sumber dari usaha pengaksesan jaringan.

Threat detection melindungi sistem komputer dengan mendeteksi serangan dan


menghentikannya. Awalnya, threat detection melakukan pencegahan intrusi. Untuk itu,
threat detection mengidentifikasi penyebab intrusi dengan cara membandingkan antara
event yang dicurigai sebagai intrusi dengan tanda yang ada. Saat sebuah intrusi telah
terdeteksi, maka threat detection akan mengirim sejenis peringatan ke administrator.
Langkah selanjutnya dimulai dengan melakukan policy terhadap administrator dan threat
detection itu sendiri.

Operational Databases

Perlu kita ketahui apa itu database. Pengertian Database atau basis data adalah kumpulan berbagai
data dan informasi yang tersimpan dan tersusun di dalam komputer secara sistematik yang dapat
diperiksa, diolah atau dimanipulasi dengan menggunakan program komputer untuk mendapatkan
informasi dari basis data tersebut. Perangkat lunak yang digunakan untuk mengelolan dan
memanggil database disebut dengan sistem database management system.

Fungsi database:
a. Mengelompokkan data dan informasi sehingga lebih mudah dimengerti
b. Mencegah terjadinya duplikat data maupun inkonsistensi data
c. Mempermudah proses penyimpanan, akses, pembaharuan, dan menghapus data.
d. Menjaga kualitas data dan informasi yang diakses sesuai dengan yang di-input.
e. Membantu proses penyimpanan data yang besar
f. Membantu meningkatkan kinerja aplikasi yang membutuhkan penyimpanan data

Manfaat Database

15
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
1. Tidak Terjadi Redudansi Basis Data
Seperti yang sudah disinggung pada pengertian database sebelumnya, database bisa membantu
meminimalkan redudansi data. Redudansi sendiri merupakan terjadinya data-data ganda dalam
berkas-berkas yang berbeda.
2. Integritas Data Terjaga
Database memastikan integritas data yang tinggi dimana database akan memastikan
keakuratan, aksesbilitas, konsistensi dan juga kualitas tinggi pada suatu data.
3. Independensi Data Terjaga
Database menjaga independensi data dimana orang lain tidak dapat merubah data meskipun
data bisa diakses.
4. Kemudahan Berbagi Data
Menggunakan perangkat lunak database bisa digunakan untuk berbagi data atau informasi
dengan sesama pengguna lainnya.
5. Menjaga Keamanan Data
Database menjamin keamanan suatu informasi dan data, dimana Anda bisa menyisipkan kode
akses untuk data-data tertentu yang tidak bisa diakses bersama.
6. Kemudahan Akses Data
Dengan database bisa memudahkan untuk mengakses dan mendapatkan data karena semua
data terorganisir dengan baik.

16
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================

Organizing Data Services

Organizing Data Service memungkinkan Anda dengan aman menyimpan dan mengelola data
yang digunakan oleh aplikasi bisnis. Data dalam Organizing Data Service disimpan dalam
kumpulan entitas. Entitas adalah rangkaian rekaman yang digunakan untuk menyimpan data,
mirip dengan cara tabel menyimpan data dalam database. Organizing Data Service menyertakan
rangkaian dasar entitas standar yang mencakup skenario umum, namun Anda juga dapat membuat
entitas kustom khusus untuk organisasi Anda.

Manfaat dari Organizing Data Service :

a. Mudah untuk mengelola – Baik metadata maupun data tersimpan di cloud. Anda tidak
perlu khawatir lagi tentang rincian cara mereka tersimpan.
b. Mudah untuk menjamin – Data disimpan dengan aman sehingga pengguna dapat melihat
hanya jika Anda memberikan akses. Keamanan berbasis peran memungkinkan Anda
untuk mengontrol akses ke entitas untuk pengguna yang berbeda dalam organisasi Anda.
c. Mengakses Data Dynamics 365 Data – Data dari aplikasi Dynamics 365 Anda juga akan
disimpan dalam Common Data Service yang memungkinkan Anda untuk dengan cepat
membangun aplikasi yang memanfaatkan data Dynamics 365 dan memperluas aplikasi
Anda menggunakan PowerApps.
d. Metadata kaya – jenis Data dan relasi dimanfaatkan langsung dalam PowerApps.
e. Logika dan validasi – Tentukan bidang hitung, aturan Bisnis, alur kerja, dan alur proses
bisnis untuk memastikan kualitas data dan mendorong proses bisnis.
f. Alat produktivitas – entitas tersedia dalam add-in untuk Microsoft Excel untuk
meningkatkan produktivitas dan memastikan akses data.

Organizing Data Service memiliki model keamanan yang kaya untuk melindungi integritas data
dan privasi pengguna sekaligus mendorong akses dan kolaborasi data yang efisien. Anda dapat
menggabungkan unit bisnis, keamanan berbasis peran, keamanan berbasis rekaman, dan
keamanan berbasis bidang untuk menentukan keseluruhan akses ke informasi yang dimiliki
pengguna dalam lingkungan Organizing Data Service.

17
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
Analytical Data Warehouses
Data warehouse, dan rekannya: data mart, telah lama menjadi teknik utama yang digunakan
organisasi untuk mengoptimalkan data untuk membantu pembuat keputusan. Biasanya, data
warehouse dan data mart berisi data ternormalisasi yang dikumpulkan dari berbagai sumber dan
dikumpulkan untuk memfasilitasi analisis bisnis. Data warehouse dan data mart
menyederhanakan pembuatan laporan dan visualisasi item data yang berbeda. Mereka umumnya
dibuat dari database relasional, database multidimensi, flat-file, dan database objek. Dalam
lingkungan tradisional, di mana kinerja mungkin bukan prioritas tertinggi, pilihan teknologi yang
mendasarinya didorong oleh persyaratan untuk analisis, pelaporan, dan visualisasi data
perusahaan.

Karakteristik Data Warehouse, Sistem basis data ini memiliki karakteristik yang membuatnya
berbeda dengan basis data yang lainnya. Terdapat 4 karakteristik yang menjadi ciri khas dari basis
data ini, yaitu:
❖ Berorientasi kepada subjek
❖ Data yang dimiliki terintegrasi
❖ Data yang disimpan bersifat tetap
❖ Dibuat dalam rentang waktu tertentu
Data Warehouse memiliki kelebihan-kelebihan sebagai berikut:
▪ Data terorganisir dengan baik untuk query analisis dan sebagai bahan yang baik untuk proses
transaksi.
▪ Perbedaan struktur data yang banyak macamnya dari sumber yang berbeda dapat di atasi.
▪ Memiliki aturan transformasi untuk memvalidasi dan menkonsolidasi data dari OLTP ke
data warehouse.
▪ Masalah keamanan dan kinerja dapat dipecahkan tanpa perlu mengubah sistem produksi.
▪ Memiliki model data yang banyak macamnya, dan tidak tergantung dari format data
awal/sumbernya, sehingga memudahkan dalam menciptakan laporan.
▪ proses transformasi/ perpindahan dapat di monitoring. jika terjadi kesalahan dapat di arahkan
/ di luruskan.
▪ informasi yang disimpan dalam datawarehouse, jadi ketika OLTP data sumber nya hilang.
informasi yang diolah tetap terjaga dalam suatu datawarehouse.
▪ Data Warehouse tidak memperlambat kerja operasional transaksi.
▪ Dapat menyediakan laporan yang bermacam-macam.

18
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
Adapun kekurangan-kekurangan dari data warehouse yaitu:
▪ Datawarehouse bukan merupakan lingkungan yang cocok untuk data yang tidak terstruktur.
▪ Data perlu di ekstrak, diubah (ETL) dan di load ke datawarehouse sehingga membutuhkan
tenggang waktu untuk memindahkannya.
▪ Semakin lama dipelihara, semakin besar biaya untuk merawat sebuah datawarehouse.
▪ Datawarehouse dapat menjadi ketinggalan dari data terbaru yang relatif cepat, karena data
yang digunakan di datawarehouse tidak di update secara cepat. sehingga data yang ada tidak
optimal.

Aplikasi Big Data

Aplikasi kustom dan pihak ketiga menawarkan metode alternatif untuk menganalisa Big Data.
Aplikasi-aplikasi ini bisa bersifat horizontal, dimana mereka mencoba mengatasi masalah yang
umum di industri, atau vertikal, yaitu membantu memecahkan masalah spesifik industri tertentu.
Anda memiliki banyak aplikasi untuk dipilih, dan banyak lagi aplikasi baru yang mungkin akan
muncul. Berikut adalah aplikasi-aplikasi yang cukup terkenal di ekosistem Big Data
• BI/Analytics: Business Intelligence adalah kombinasi dari Big Data, Analisa, visualisasi data
sharing dan mekanisme komunikasi yang digunakan untuk membantu perusahaan dalam
mengambil keputusan dengan memberikan wawasan data yang lebih mendalam dibandingkan
dengan analisa prediktif. Sedangkan aplikasi yang biasa dipakai adalah SAS, Sisense, Tableau,
SPSS, Power BI, Kibana, Pentaho

• Distributions: Cloudera, Hortonworks, dan MapR


Cloudera bisa dikatakan pioneer di bidang Hadoop Distributions. Cloudera didirikan oleh
orangorang yang berkontribusi di project Hadoop di Apache. Cloudera memiliki pangsa pasar
terbesar dibandingkan dengan Hadoop Distributions yang lain. Satu lagi yang menarik tentang
Cloudera adalah mereka tidak hanya memakai software open source yang ada tetapi
menambahkan software khusus milik mereka yang disebut Impala. Impala adalah Query Engine
diatas HDFS. Atau dengan kata lain seperti Map Reduce yang bisa dijalankan dengan low-latency
atau dengan waktu yang lebih pendek dibanding Map Reduce lainnya. Cloudera menerbitkan
Hadoop distributions mereka dalam beberapa versi. Ada versi gratis dan juga versi enterprise
yang tidak gratis. Banyak perusahaan dari Fortune 500 yang menggunakan Clouder.

19
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
Hortonworks seperti Cloudera juga didirikan oleh orang-orang yang merupakan contributor dari
Hadoop Project. Hortonworks memiliki pangsa pasar terbesar kedua setelah Cloudera. Banyak
juga perusahaan besar yang menggunakan Hortonworks. Microsoft menggandeng Hortonworks
dalam membuat layanan Hadoop di cloud computingnya. Hortonworks diadopsi di Microsoft
Azure dan menjadi Microsoft HD Insight. Partnership dengan Microsoft ini yang membuat
Hortonworks sampai saat ini satu-satunya Hadoop yang compatible dan mudah dijalankan di
Microsoft Windows. Hortonworks menggunakan sepenuhnya software-software Hadoop yang
bisa didapat di Apache Foundation. Hortonworks seperti cloudera memberikan versi sandbox
dimana pengguna bisa mendownload dan mencoba dulu versi gratis mereka di PC atau laptop
(single node) sebelum mencoba yang versi enterprise. Perbedaannya, Hortonworks Data Platform
(versi enterprise dari Hortonworks) adalah gratis. Hortonworks mendapatkan revenue dari support
dan training.

MapR adalah Hadoop distributions yang lain. Meskipun secara pangsa pasar dibawah kedua
distribusi Hadoop sebelumnya. MapR didukung oleh banyak perusahaan besar. Tiga perusahaan
yang mengadopsi MapR antara lain EMC, Google dan Amazon. mapR juga menyediakan versi
sandbox untuk user coba-coba dulu. MapR seperti Hortonworks, memberikan versi gratis bahkan
untuk versi enterprisenya dan mendapat revenue dari support dan training. Dengan digunakannya
MapR oleh dua perusahaan cloud computing yang besar Amazon dan Google, maka MapR
banyak digunakan oleh pengguna cloud computing.

• Execution Engines: MapReduce, Tez, Apache Spark, Apache Storm, Kafka


MapReduce adalah model pemrograman rilisan Google yang ditujukan untuk memproses data
berukuran raksasa secara terdistribusi dan paralel dalam cluster yang terdiri atas ribuan komputer.
Dalam memproses data, secara garis besar MapReduce dapat dibagi dalam dua proses yaitu
proses Map dan proses Reduce. Kedua jenis proses ini didistribusikan atau dibagi-bagikan ke
setiap komputer dalam suatu cluster (kelompok komputer yang salih terhubung) dan berjalan
secara paralel tanpa saling bergantung satu dengan yang lainnya. Proses Map bertugas untuk
mengumpulkan informasi dari potongan-potongan data yang terdistribusi dalam tiap komputer
dalam cluster. Hasilnya diserahkan kepada proses Reduce untuk diproses lebih lanjut. Hasil
proses Reduce merupakan hasil akhir yang dikirim ke pengguna.

Apache Tez, adalah sebuah framework pengembangan dari MapReduce. Dirancang untuk
membangun sebuah aplikasi berkinerja tinggi untuk proses batch interaktif dalam Hadoop dengan

20
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
YARN sebagai koordinator. Tez dibuat untuk mendukung proses-proses yang berkarakteristik
seperti sebuah DAG (Directed-Acyclic-Graph). Tez meningkatkan kecepatan secara dramatis
pada MapReduce, dengan mempertahankan kemampuan MapReduce untuk memproses data
berskala petabytes. Komponen penting dalam ekosistem Hadoop, seperti Apache Hive dan
Apache Pig saat ini telah diimplementasikan menggunakan Tez, dan mendapatkan perbaikan
kinerja sampai 100% dibanding implementasi menggunakan MapReduce.

Apache Spark adalah engine ( perangkat lunak ) analisis terpadu super cepat untuk memproses
data dalam skala besar; meliputi Big Data dan machine learning. Secara lebih detailnya, Apache
Spark dapat didefinisikan sebagai engine ( perangkat lunak ) untuk memproses data dalam skala
besar secara in-memory, dilengkapi dengan API pengembangan yang elegan dan ekspresif guna
memudahkan para pekerja data dalam mengeksekusi pekerjaan-pekerjaan yang membutuhkan
perulangan akses yang cepat terhadap data yang diproses, seperti halnya streaming, machine
learning, maupun SQL, secara efisien.

Apache Storm, menyatakan bahwa versi 1.0 ini merupakan sebuah titik yang penting dalam
evolusi Apache Storm. Versi terbaru ini mengandung sejumlah besar fitur baru dan perbaikan
kinerja. Storm merupakan sebuah event processor yang memungkinkan dilakukannya proses data
streaming secara terdistribusi. Aplikasi Storm terdiri dari komponen yang disebut dengan “spout”
dan “bolt”, yang dikonfigurasi dalam sebuah Direct Acyclic Graph untuk merepresentasikan
pemrosesan data. Ciri utama dari Storm adalah kemampuan untuk melakukan proses data secara
real time.

Apache Kafka merupakan platform terdistribusi untuk data streaming. Pada dasarnya, Apache
Kafka merupakan sistem publish/subscribe messaging, dimana terdapat satu atau lebih sistem
yang men-generate data untuk suatu topik tertentu secara real-time di Apache Kafka (disebut
sebagai Producers). Kemudian, topik tersebut dapat dibaca oleh satu atau lebih sistem yang
membutuhkan data-data dari topik tersebut secara real-time (disebut sebagai Consumers).

• SQL, Datasets and Streams: Hive, Spark SQL, Apache Drill, Presto, Teradata, Impala •
Programming Language: R, Python, Scala, Java, C#

21
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================

Evaluasi
1. Buatlah ringkasan mengenai sejarah, pengertian dan komponen pada Big Data!
2. Jelaskan apa yang dimaksud dengan Volume, Velocity, Variety pada Big Data!
3. Berikan deskripsi sekaligus contoh, terkait data terstruktur, semi terstruktur dan tidak terstruktur!
4. Buatlah ringkasan singkat komponen-komponen yang membedakan 3 produk distribusi big data:
Cloudera, Hortonworks dan MapR!
5. Install file .iso CentOS 7.x pada VirtualBox yang telah Anda download!

Jawab
1. Seiring berjalannya waktu, data memiliki peningkatan yang sangat pesat baik itu volume,
kecepatan, atau keragamannya. Dalam pengelolaan data yang semakin kompleks tersebut
dibutuhkan pengelolaan yang baik agar dapat digunakan dan bermanfaat bagi kehidupan sehari-
hari. Data dapat dikatakan big data ketika 3 komponen tersebut memenuhi. Yaitu volume,
velocity, dan variety.
2. 3V
 Volume: artinya data tersebut memiliki jumlah yang sangat besar. Volume merupakan
karakteristik yang paling dimudahi
 Velocity: artinya data tersebut memiliki kecepatan yang sangat tinggi di mana data diterima
dan kemungkinan langsung digunakan.
 Variety: artinya tak hanya jumlah yang besar, keberagaman data juga termasuk pada
karakteristik big data. Keberagaman tersebut ada yang tersetuktur dan tidak terstruktur.
3. Jenis data
 Data terstruktur: data yang diambil, diproses, dan disimpan dalam format yang tetap. Sebagai
contoh data penjualan sebuah toko. Data penjualan tersebut hanya akan berupa text.
 Data tidak terstruktur: data yang tidak memiliki struktu atau bentuk khusus. Jadi data tersebut
berupa sekumpulan berbagai jenis data berupa audio, gambar, video, atau lainnya.,
 Data semi terstruktur: data yang belum diklasifikasikan. Jadi masih berupa data mentah.
4. 3 komponen
 Cloudera: jenis distribusi Hadoop yang memiliki interface yang friendly dengan fitur yang
useful.
 Hortonworks: jenis distribusi Hadoop yang satu-satunya support platform windows

22
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================
 MapR: jenis distribusi Hadoop yang memiliki kecepatan tinggi dengan node yang banyak.
5. Instalasi CentOs
 Membuat virtual machine

 Atur master dari centOS agar dapat digunakan sebagi installer. Kemudian klik start.

23
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================

 Klik install, kemudia ikuti langkah selanjutnya

24
Praktikum Big Data – Dr. Kurnianingsih, S.T., M.T.
========================================

25

Anda mungkin juga menyukai