OUTLINE MATERI :
Analisis Big Data adalah upaya interdisipliner yang memadukan matematika, statistik, ilmu
komputer, dan keahlian dibidang tertentu. Perpaduan keahlian dan perspektif ini telah
menimbulkan kebingungan mengenai apa yang dimaksud dengan bidang Big Data dan
analisisnya, karena respons yang diterima akan bergantung pada perspektif siapa pun yang
menjawab pertanyaan tersebut. Batasan masalah Big Data juga berubah karena lanskap teknologi
perangkat lunak dan perangkat keras yang terus berubah dan maju.
Pada Big Data terdapat 3 tipe data yang dikenal dengan data terstruktur, data yang tidak
terstruktur, dan data semi terstruktur. Data Terstruktur adalah data yang mengikuti format atau
struktur tertentu. Data terstruktur ini dapat dibaca mesin dan dapat disimpan, diakses, dan
diproses menggunakan pendekatan tradisional seperti structured query languages (SQL) untuk
mengekstrak informasi untuk kueri pengguna. Sekitar 20% data di dunia adalah data terstruktur.
Data dalam tabel dan spreadsheet database relasional adalah contoh paling umum dari data
terstruktur.
Data Tidak Terstruktur adalah data yang tidak mengikuti format tertentu yang telah ditentukan
sebelumnya. Data tidak terstruktur ini tidak dapat dibaca oleh mesin, sehingga pemrosesan data
tidak terstruktur merupakan pekerjaan yang cukup rumit karena teknik tradisional (mengikuti
format terstruktur) tidak efektif. Saat ini sebagian besar data yang dihasilkan menggunakan web,
Data Semi Terstruktur adalah data yang tidak sepenuhnya terstruktur tetapi mengikuti beberapa
tingkat organisasi dalam penyajiannya. Kita perlu memproses data ini terlebih dahulu agar dapat
dibaca mesin. Karena sifat tekstual data ini dan kesesuaiannya dengan tingkat struktur tertentu,
data ini lebih mudah diproses dibandingkan data tidak terstruktur. Sebagian besar konten web
yang dikembangkan menggunakan HTML, JSON dan XML adalah data semi terstruktur.
Dengan berkembangnya zaman, maka jumlah data juga semakin banyak. Berikut evolusi big data
dari masa ke masa.
• Tahap-2: Fokus dialihkan ke penggalian informasi dari konten tidak terstruktur berbasis
web. Aplikasi yang ditargetkan adalah Sistem Information Retrieval (IR), analisis
sentimen atau analisis opini analisis media social, dan sistem untuk menjawab
pertanyaan.
• Tahap-3: Penyimpanan dan manipulasi data sensor yang dihasilkan terutama dari
perangkat seluler dan jaringan sensor lainnya. Aplikasi yang ditargetkan adalah analisis
spasial-temporal, analisis emosi dan kepuasan subyektif, IoT, MIoT, IIoT, dll.
Sejumlah besar data disebut sebagai “volume”. Salah satu ciri utama big data adalah volumenya
yang sangat besar. Kuantitas data merupakan faktor penting untuk dipertimbangkan ketika
menggunakannya untuk analisis. Istilah “big data” mengacu pada situasi di mana jumlah data
yang akan diproses sangat besar. Terdapat sekitar 44 zettabytes data di dunia pada tahun 2020.
Berdasarkan jumlah data yang dihasilkan setiap hari kemungkinan akan menjadi 175 zettabytes
pada tahun 2025 (Vuleta, 2021).
Istilah “velocity” mengacu pada kecepatan pembuatan data atau seberapa cepat data dihasilkan
dan diproses. Saat ini data dihasilkan dengan kecepatan tinggi dari jaringan sensor, mesin
komputasi berproses tinggi, media sosial, industri hiburan digital, ponsel, dan sumber lainnya.
Sekitar 18,7 miliar pesan teks dibuat setiap hari. Facebook menghasilkan sekitar empat petabyte
data setiap hari (Vuleta, 2021)
“Veracity” mengacu pada keandalan atau kualitas data yang akan digunakan untuk tujuan
analisis. Data yang masuk ke lingkungan Big Data perlu dinilai kualitasnya, yang dapat
mengarah pada kegiatan pemrosesan data untuk menyelesaikan data yang tidak valid dan
menghilangkan noise. Sehubungan dengan veracity, data dapat menjadi bagian dari sinyal atau
noise dari suatu kumpulan data. Noise adalah data yang tidak dapat diubah menjadi informasi
sehingga tidak memiliki nilai, sedangkan sinyal memiliki nilai dan menghasilkan informasi yang
bermakna.
Untuk organisasi mana pun, semua data yang tersedia tidak memiliki kegunaan atau nilai yang
sama. Data mentah tidak memiliki nilai atau signifikansi apa pun. Untuk mendapatkan informasi
yang berguna darinya, informasi tersebut harus terlebih dahulu diproses dan diubah sesuai
kebutuhan organisasi. Karakteristik nilai secara intuitif berkaitan dengan karakteristik kebenaran
semakin tinggi fidelitas data, semakin besar nilai yang dimilikinya bagi bisnis. Nilai dan waktu
mempunyai hubungan yang berbanding terbalik. Semakin lama waktu yang dibutuhkan data
untuk diubah menjadi informasi yang bermakna, semakin kecil nilainya bagi sebuah bisnis.
• Dalam banyak kasus, analisis big data dapat memberikan hasil yang salah.
• Karena pembuatan data secara real-time, big data bisa saja gagal menyamai angka
sebenarnya karena factor delay dan lainnya.
Dalam track recordnya, beberapa Perusahaan yang mengimplementasikan big data merasakan
dampak baik dan buruknya. Berikut beberapa contoh real terkait dampak dari penggunaan big
data pada bisnis.
• UPS: UPS menggunakan analisis big data untuk mengoptimalkan rute pengirimannya,
memungkinkan perusahaan meningkatkan efisiensi dan mengurangi biaya. Dengan
menganalisis data dari berbagai sumber, termasuk pola lalu lintas, kondisi cuaca, serta
ukuran dan berat paket, UPS dapat mengoptimalkan rutenya untuk memastikan
pengiriman tepat waktu dan hemat biaya.
Big Data memberikan keuntungan besar dalam pengambilan keputusan dan inovasi, tetapi perlu
mengatasi tantangan privasi, keamanan, dan pemeliharaan data. Perusahaan perlu menerapkan
analisis Big Data dengan bijak untuk mendapatkan manfaat maksimal.
1. Husain, M. S., Khan, M. Z., & Siddiqui, T. (2023). Big Data Concepts, Technologies,
and Applications. CRC Press. ISBN: 9781003441595. Ch 1.
2. Erl, T., Khattak, W., & Buhler, P. (2016). Big data fundamentals: concepts, drivers &
techniques. Prentice Hall Press. ISBN: 978-0-13-429107-9. Ch 1.
3. Asif, H. (2023, September 23). Big Data / Data Analytics Fundamentals. LinkedIn.
https://www.linkedin.com/pulse/big-data-analytics-fundamentals-huzaifa-asif/