OUTLINE MATERI :
1. Big Data Integration
2. Storing and Maintaining Big Data
3. Security and Privacy Management
4. Big Data Life Cycle
Big Data Integration
Salah satu keuntungan utama dari analisis big data adalah organisasi dapat memperoleh data dari
berbagai sumber dan menggabungkan serta mengeksplorasinya untuk mendapatkan wawasan
berharga sesuai kebutuhan bisnis mereka. Meskipun terlihat cukup sederhana, karena fitur
bawaannya, sebagian besar big data cenderung tidak terstruktur dan kita perlu menerapkan
proses integrasi yang komprehensif.
Pada saat melakukan integrasi, ada beberapa permasalahan yang mungkin dihadapi.
• Pengguna harus memiliki pengetahuan yang baik tentang di mana informasi yang
diperlukan disimpan dan bagaimana informasi tersebut dapat diakses.
• Representasi entitas yang sama di sumber data berbeda bisa berbeda. Dengan kata lain,
ada sumber data yang berbeda dapat merujuk pada entitas yang berbeda.
Langkah-langkah di bawah ini harus diikuti dengan benar saat mengakses beberapa kumpulan
data. Kesalahan dalam salah satu langkah ini dapat menyebabkan pemrosesan data tidak efisien
atau kegagalan mendapatkan hasil yang diinginkan.
• Tentukan sumber data mana yang harus digunakan
• Bagilah kueri menjadi sub-kueri ke sumber data
• Tentukan urutan pengiriman subkueri ke sumber data
• Kirim subkueri ke sumber data
• Gabungkan hasil dari sumber data untuk mendapatkan jawaban atas pertanyaan awal
Menyatukan data tidak terstruktur untuk tujuan penyimpanan dan analisis adalah salah satu
rintangan tersulit yang dihadapi organisasi dalam menerapkan big data.
Warehousing
Data di download, filter, diintegrasikan, dan disimpan di warehouse setelah proses ekstrak,
transformasi, dan load (ETL). ETL adalah proses otomatis yang digunakan oleh organisasi.
Dimana, pada ETL terdapat beberapa bagian sebagai berikut.
• Ekstrak: Pada fase ini, data diekstraksi dari berbagai sumber seperti Enterprise Resource
Planning (ERP), halaman web, email, server SQL, server NoSQL, CRM, dll.
• Transformasi: Di area data staging, data diproses dan diubah agar siap dianalisis sesuai
kebutuhan bisnis. Fungsi utama yang diterapkan pada tahap ini adalah preprocessing
data, cleaning, translation, peringkasan, penghitungan untuk mendapatkan parameter
turunan, konversi satuan, dll.
Mediation
Dalam metode mediasi integrasi data, skema global ditentukan pada sumber data.
Bahasa kueri tingkat tinggi digunakan untuk melakukan terjemahan antara skema global dan
skema sumber data lokal. Arsitektur mediasi terdiri dari komponen-komponen berikut:
• Basis ontologi: Menyediakan semantik berbasis konteks ke item data
• Basis pengetahuan databank: Memberikan informasi tentang konten dan kemampuan
sumber databank termasuk skema/model konseptual, informasi tentang distribusi data,
kueri, dll.
Mediator merupakan sistem pusat yang terdiri dari
• Penerjemah dan perluasan kueri: Memperluas kueri menggunakan ontologi.
• Retrieval engine: Menghasilkan rencana kueri.
• Answer assembler: Menyusun hasil kueri untuk presentasi.
Data Warehouse
Data warehouse menyimpan data arsip atau data historis bersama dengan data transaksi sehari-
hari suatu organisasi yang mencakup berbagai macam operasi. Reporting, business intelligence,
analitik, data mining, penelitian, pemantauan dunia maya, analisis prediktif, dll. Solusi data
warehouse memfasilitasi manajemen data yang efisien dengan mempermudah penemuan,
pengambilan, visualisasi, dan analisis informasi,
Penyimpanan di Cloud
Alternatif lain untuk menyimpan data dalam jumlah besar adalah penyimpanan cloud, yang
semakin populer belakangan ini. Sebagai bagian dari environment cloud computing, cloud
storage adalah layanan berdasarkan permintaan yang dapat digunakan untuk menyimpan
sejumlah besar data online dan mengaksesnya dari mana saja, kapan saja. Opsi penyimpanan
data ini lebih populer karena tidak memerlukan investasi besar dalam membangun infrastruktur
penyimpanan internal. Hal ini juga memberikan fleksibilitas dalam meningkatkan dan
menurunkan kapasitas penyimpanan sesuai kebutuhan mereka
Keakuratan sistem business intelligence apa pun bergantung pada kualitas data yang akan
digunakan untuk analisis data. Data berkualitas berarti kumpulan data yang akurat, autentik,
lengkap, konsisten, dan tepat waktu yang diperoleh untuk memenuhi tujuan bisnis organisasi.
Data quality (DQ) adalah komponen penting dari analisis big data karena data diperoleh dari
Seiring dengan perkembangan zaman, orang-orang mulai aware dengan keamanan data. Akan
tetapi, ada beberapa challenge yang perlu dihadapi untuk melindungi data.
• Dengan meningkatnya data tidak terstruktur dan sistem basis data non-relasional, jaminan
keamanan data menjadi semakin sulit.
• Umumnya platform big data berbasis cluster, yang membuat banyak node dan server
rentan terhadap berbagai kerentanan.
• Penggunaan sistem canggih seperti cloud, IoT, sensor, dll., untuk mengumpulkan dan
menyimpan data telah membuka jalan baru bagi serangan dan ancaman keamanan.
• Karena potensi ukurannya yang sangat besar (terabyte hingga petabyte), melakukan
pemeriksaan keamanan rutin sangatlah sulit.
• Pemilik big data menempatkan dirinya pada risiko kehilangan dan pengungkapan data
jika keamanan lingkungan tidak dijaga secara konsisten.
• Para profesional yang melindungi data dalam jumlah besar harus terampil dalam
membersihkan dan memahami cara menghapus malware.
Untuk menghadapi challenge-challenge tersebut, ada beberapa best practice yang bisa dilakukan.
Ada beberapa tantangan big data yaitu pada integrasi big data, metode integrasi data,
penyimpanan dan pemeliharaan big data, manajemen kualitas data,serta keamanan dan
informasi. Perusahaan yang mampu mengatasi tantangan big data dapat mengoptimalkan potensi
big data untuk mendukung pengambilan keputusan dan inovasi bisnis. Pentingnya manajemen
kualitas data, keamanan, dan pemahaman menyeluruh terhadap siklus hidup big data menjadi
kunci keberhasilan dalam eksploitasi potensi big data.
1. Husain, M. S., Khan, M. Z., & Siddiqui, T. (2023). Big Data Concepts, Technologies,
and Applications. CRC Press. ISBN: 9781003441595. Ch 2.
2. Contributor, S. M.-G. (2022, October 10). Top 8 challenges of big data and how to solve
them. Capterra. https://www.capterra.com/resources/challenges-of-big-data/
3. Gaur, C. (2023, December 6). Top 8 big data challenges and solutions in 2023. Real Time
Data and AI Company. https://www.xenonstack.com/insights/big-data-challenges