Anda di halaman 1dari 6

Sh_dioputra@stmik-im.ac.

id 1
BIG DATA

BIG DATA

o Pertemuan Ke 1
o Sepryhatin Dioputra, S.Kom, M.Kom.
A. Mengenal Istilah Big Data
Mereka yang berkecimpung di perusahaan publik atau multi-nasional mungkin
tidak asing lagi dengan Big Data, ketika era digital, seluler, dan internet melesat
jauh melebihi yang pernah manusia bayangkan, hampir semua perusahaan di dunia
telah melakukan adaptasi terhadap berbagai perangkat dan elemen operasional
bisnis. Profil pelanggan, penjualan, SDM perusahaan, alur distribusi, operasional
pabrik, hingga program marketing telah dicatat dan diproses dalam aplikasi digital.
Urusan penyimpanan data, kategorisasi, analisa, hingga pembersihan data selalu
menjadi “pekerjaan rumah” yang tak kunjung usai. Kehadiran teknologi Big Data
dengan kemampuannya mengelola beragam data bervolume tak terbatas, jelas jadi
solusi impian bagi mereka. Tren penggunaan Big Data pun mulai dipelopori oleh
berbagai perusahaan berorientasi masa depan, yang notabene merasakan kendala
pengelolaan “gunungan” data yang semakin tinggi.
1.1 Big Data
Big Data adalah istilah umum untuk segala kumpulan himpunan data dalam
jumlah yang sangat besar dan kompleks sehingga menjadikannya sulit
untuk ditangani atau di proses jika hanya menggunakan manajemen basis
data biasa atau aplikasi data tradisional.

Dengan kata lain, Big Data menjamin pemrosesan solusi data dengan varian
baru maupun yang sudah ada untuk memberikan manfaat nyata bagi bisnis.
Namun pengolahan data dengan ukuran dan kompleksitas besar tetap
sekedar solusi teknologi kecuali jika dikaitkan dengan tujuan bisnis.

0
1.2 Tujuan Memahami Big Data
Belajar menggunakan Big Data artinya belajar self-service analytics.
Menurut Jean-Michel Franco, Director of Product Marketing for Talend
(Big Data Provider), untuk membangun budaya perusahaan berbasis data,
organisasi harus beralih menuju self-service analytics. Sistem berbasis Big
Data ini merupakan pendekatan baru yang memberikan akses data sebesar-
besarnya kepada karyawan perusahaan, sekaligus mendorong mereka untuk
melakukan kombinasi dan berkreasi dengan data dari berbagai sumber. Tak
ada lagi ketergantungan penuh pada Departemen IT, karena analisa data
bisa dilakukan oleh setiap pegawai dengan beragam latar belakang
pendidikan, termasuk non IT.
Setelah berhasil menerapkan Big Data Self-Service Analytics, maka
sejumlah keuntungan jangka panjang akan di peroleh, antara lain:
1. Karyawan mampu melakukan analisa data sendiri. Tak perlu
menunggu pakar IT atau riset untuk mengambil keputusan berbasis
data yang mendukung kelancaran operasional kerja harian mereka.
Misalnya, petugas Sales & Customer Service dapat langsung
menawarkan produk cross-selling yang pas untuk pelanggan yang
sedang duduk di hadapannya.
2. Kurangi budaya berdebat, mulai budaya analisa. Saat karyawan
mengolah data dari berbagai sumber, mengolahnya secara
“konvensional”, lalu mempresentasikannya kepada manajemen,
seringkali yang terjadi selanjutnya adalah proses perdebatan
panjang tentang sejauh mana informasi tersebut benar dan
terpercaya. Teknologi Big Data dengan kemampuan ekstraksi,
pengolahan, dan pengubahan data menjadi model analisis,
menciptakan kepercayaan diri yang lebih tinggi untuk
menindaklanjuti informasi dengan tindakan.
3. Kemampuan mengambil keputusan secara cepat dan akurat, secara
langsung mengurangi resiko penyelenggaraan bisnis. Perusahaan
pun cukup mengoptimalkan sistem analisa data tunggal terintegrasi,

1
yang jelas lebih efisien daripada penggunaan aplikasi analisa atau
penyelenggaraan riset oleh masing-masing departemen secara
terpisah. Kemampuan memprediksi tren pasar dan mengantisipasi
resiko sebelum terjadi, juga menghemat penggunaan sumber daya
perusahaan.

1.3 Struktur & Komponen Big Data


Big data mempunyai berbagai struktur data yaitu structured data, semi-
structured data, dan unstructured data. Structured data adalah data yang
dibuat, diproses, dan dimanipulasi dengan menggunakan database
konvensional (traditional relational database management system).

Struktur
e
Semi-Struktur
1 Struktur Lain

“Quasi”-Struktur

Unstructured

Gambar 1.1 Pertumbuhan Big Data Semakin Tidak Terstruktur

❖ Semi-Struktur Data : File data tekstual dengan pola yang dapat


dibedakan yang memungkinkan penguraian (seperti file data Extensible
Markup Language [XML] yang mendeskripsikan sendiri dan ditentukan
oleh skema XML).
❖ “Quasi”-Struktur Data : Data tekstual dengan format data tidak
menentu yang dapat diformat dengan usaha, alat, dan waktu (misalnya,
data aliran klik web yang mungkin berisi ketidakkonsistenan dalam nilai
dan format data).

2
❖ Unstructured Data : Data yang tidak memiliki struktur inheren, yang
dapat mencakup dokumen teks, PDF, gambar, dan video.
Wiley, Data Science & Big Data Analytics: Discovering, Analyzing,
Visualizing and Presenting Data, Copyright© 2015 by John Wiley &
Sons, Inc., Indianapolis, Indiana.

Big data sendiri terdiri dari empat komponen penting yang menyusunnya yaitu
Volume, Velocity, Variety, dan Veracity. Berikut adalah detailnya masing-
masing.

✓ Volume
Komponen ini memfungsikan big data sebagai pengumpul data dari
berbagai sumber. Data tersebut bisa saja berupa transaksi bisnis, media
sosial, hingga data yang didapatkan secara otomatis dari sensor mesin.
– Dalam Perusahaan tertimbun dengan data yang terus tumbuh
dari semua jenis sektor, dengan mudah mengumpulkan terabyte
bahkan petabyte-informasi. Mengubah 12 terabyte Tweet dibuat
setiap hari ke dalam peningkatan sentimen analisis produk.
Mengkonvert 350 milliar pembacaan tahunan untuk lebih baik
dalam memprediksi kemampuan beli pasar. Mungkin
karakteristik ini yang paling mudah dimengerti karena besarnya
data. Dataset big data sekitar 1 terabyte sampai 1 petabyte
perperusahaan jadi jika big data digabungkan dalam sebuah
organisasi/group perusahaan ukurannya mungkin bisa sampai
zetabyte dan jika hari ini jumlah data sampai 1000 zetabyte,
besok pasti akan lebih tinggi dari 1000 zetabyte.
✓ Kecepatan (Velocity)
Dengan banyaknya data yang masuk, maka dibutuhkan kecepatan tinggi
untuk mengatasi arusnya. Data-data tersebut nantinya akan
didistribusikan secara tepat baik melalui pemrosesan hardware maupun
software supaya bisa langsung disajikan secara real-time.
– Big Data adalah setiap jenis data, baik yang terstruktur maupun
tidak terstruktur seperti teks, data sensor, audio, video, klik

3
stream, file log dan banyak lagi. Wawasan baru ditemukan
ketika menganalisis kedua jenis data ini bersama-sama.
Memantau 100 video masukan langsung dari kamera pengintai
untuk menargetkan tempat tujuan.
Mengeksploitasi 80% perkembangan data dalam gambar, video,
dan dokumen untuk meningkatkan kepuasan pelanggan.
Data dalam gerak. Kecepatan di mana data dibuat, diolah dan
dianalisis terus menerus. Berkontribusi untuk kecepatan yang
lebih tinggi adalah sifat penciptaan data secara real-time, serta
kebutuhan untuk memasukkan streaming data ke dalam proses
bisnis dan dalam pengambilan keputusan.
Dampak Velocity Latency, jeda waktu antara saat data dibuat
atau data yang ditangkap, dan ketika itu juga dapat diakses. Hari
ini, data terus-menerus dihasilkan pada kecepatan yang mustahil
untuk sistem tradisional untuk menangkap, menyimpan dan
menganalisis. Jenis tertentu dari data harus dianalisis secara real
time untuk menjadi nilai bagi bisnis.
✓ Variasi
Komponen ini menunjukkan bahwa data yang didapatkan bisa berupa
variasi-variasi. Baik yang terstruktur maupun tidak. Bentuknya
bermacam-macam seperti data numerik dalam database, data dokumen,
email, video, audio, transaksi keuangan, dan lain-lain.
– Volume data yang banyak tersebut bertambah dengan kecepatan
yang begitu cepat sehingga sulit bagi kita untuk mengelola hal
tersebut. Kadang-kadang 2 menit sudah menjadi terlambat.
Untuk proses dalam waktu sensitif seperti penangkapan
penipuan, data yang besar harus digunakan sebagai aliran ke
dalam perusahaan Anda untuk memaksimalkan nilainya.
Meneliti 5 juta transaksi yang dibuat setiap hari untuk
mengidentifikasi potensi penipuan. Menganalisis 500 juta detail
catatan panggilan setiap hari secara real-time untuk
memprediksi gejolak pelanggan lebih cepat.

4
Berbagai jenis data dan sumber data. Variasi adalah tentang
mengelolah kompleksitas beberapa jenis data, termasuk
structured data, unstructured data, dan semi-structured data.
Perusahaan perlu mengintegrasikan dan menganalisis data dari
array yang kompleks dari semua sumber informasi Traditional
dan non traditional informasi, dari dalam dan luar perusahaan.
Dengan begitu banyaknya sensor, perangkat pintar (smart
device) dan teknologi kolaborasi sosial, data yang dihasilkan
dalam bentuk yang tak terhitung jumlahnya, termasuk text, web
data, tweet, sensor data, audio, video, click stream, log file dan
banyak lagi.
✓ Kebenaran (Veracity)
Dalam industri untuk meningkatan sebuah data lebih berkualitas
dibutuhkan dimensi ke empat yaitu Veracity, pencantuman Veracity
dapat menekankan pengelolahan dan penanganan untuk suatu
ketidakpastian yang melekat dalam beberapa jenis data. Veracity
mengacu pada tingkat keandalan yang terkait dengan jenis tertentu dari
data.
Berjuang untuk kualitas data yang tinggi merupakan syarat big data
penting dan tantangan, tapi bahkan metode pembersihan data yang
terbaik tidak dapat menghapus ketidakpastian yang melekat pada
beberapa data, seperti cuaca, ekonomi, atau aktual keputusan membeli
pelanggan masa depan.
Kebutuhan untuk mengakui dan merencanakan ketidakpastian adalah
dimensi data besar yang telah diperkenalkan sebagai eksekutif berusaha
untuk lebih memahami dunia di sekitar mereka. Beberapa data tidak
pasti, misalnya: sentimen dan kebenaran pada manusia, sensor GPS
memantul antara pencakar langit Manhattan, cuaca kondisi-kondisi,
faktor ekonomi, dan masa depan.

To Be Continued
5

Anda mungkin juga menyukai