Anda di halaman 1dari 15

LECTURE NOTES

Big Data Technologies


Week ke - 3

Big Data Challenges


LEARNING OUTCOMES

1. Peserta diharapkan mampu menjelaskan dasar-dasar big data

OUTLINE MATERI :
1. Big Data Integration
2. Storing and Maintaining Big Data
3. Security and Privacy Management
4. Big Data Life Cycle
Big Data Integration
Salah satu keuntungan utama dari analisis big data adalah organisasi dapat memperoleh data dari
berbagai sumber dan menggabungkan serta mengeksplorasinya untuk mendapatkan wawasan
berharga sesuai kebutuhan bisnis mereka. Meskipun terlihat cukup sederhana, karena fitur
bawaannya, sebagian besar big data cenderung tidak terstruktur dan kita perlu menerapkan
proses integrasi yang komprehensif.
Pada saat melakukan integrasi, ada beberapa permasalahan yang mungkin dihadapi.
• Pengguna harus memiliki pengetahuan yang baik tentang di mana informasi yang
diperlukan disimpan dan bagaimana informasi tersebut dapat diakses.
• Representasi entitas yang sama di sumber data berbeda bisa berbeda. Dengan kata lain,
ada sumber data yang berbeda dapat merujuk pada entitas yang berbeda.

Langkah-langkah di bawah ini harus diikuti dengan benar saat mengakses beberapa kumpulan
data. Kesalahan dalam salah satu langkah ini dapat menyebabkan pemrosesan data tidak efisien
atau kegagalan mendapatkan hasil yang diinginkan.
• Tentukan sumber data mana yang harus digunakan
• Bagilah kueri menjadi sub-kueri ke sumber data
• Tentukan urutan pengiriman subkueri ke sumber data
• Kirim subkueri ke sumber data
• Gabungkan hasil dari sumber data untuk mendapatkan jawaban atas pertanyaan awal

Menyatukan data tidak terstruktur untuk tujuan penyimpanan dan analisis adalah salah satu
rintangan tersulit yang dihadapi organisasi dalam menerapkan big data.

Ada tiga metode umum untuk integrasi data:


• Link-driven federations
• Warehousing
• Integrasi mediasi atau tampilan

Big Data Technologies


Link-driven federations
Link-driven federations menyediakan link eksplisit antar sumber data. Pendekatan Link-driven
federations tidak umum digunakan di sebagian besar domain bisnis karena memerlukan
pengetahuan yang baik tentang sumber data dan juga karena penerapannya rumit karena perintah
khusus sintaksis.

Fig 1. link-driven federation data integration architecture

Warehousing
Data di download, filter, diintegrasikan, dan disimpan di warehouse setelah proses ekstrak,
transformasi, dan load (ETL). ETL adalah proses otomatis yang digunakan oleh organisasi.
Dimana, pada ETL terdapat beberapa bagian sebagai berikut.
• Ekstrak: Pada fase ini, data diekstraksi dari berbagai sumber seperti Enterprise Resource
Planning (ERP), halaman web, email, server SQL, server NoSQL, CRM, dll.
• Transformasi: Di area data staging, data diproses dan diubah agar siap dianalisis sesuai
kebutuhan bisnis. Fungsi utama yang diterapkan pada tahap ini adalah preprocessing
data, cleaning, translation, peringkasan, penghitungan untuk mendapatkan parameter
turunan, konversi satuan, dll.

Big Data Technologies


• Loading: Semua data yang siap untuk dianalisis diload di warehouse. Setelah itu
dilakukan loading secara berkala untuk menjaga perubahan dan memperbarui data
warehouse.
ETL adalah operasi batch yang memakan waktu, yang lebih sering efektif untuk membuat
repositori data target yang lebih kecil dan memerlukan pembaruan yang lebih jarang.

Fig 2. Data warehousing architecture

Mediation
Dalam metode mediasi integrasi data, skema global ditentukan pada sumber data.
Bahasa kueri tingkat tinggi digunakan untuk melakukan terjemahan antara skema global dan
skema sumber data lokal. Arsitektur mediasi terdiri dari komponen-komponen berikut:
• Basis ontologi: Menyediakan semantik berbasis konteks ke item data
• Basis pengetahuan databank: Memberikan informasi tentang konten dan kemampuan
sumber databank termasuk skema/model konseptual, informasi tentang distribusi data,
kueri, dll.
Mediator merupakan sistem pusat yang terdiri dari
• Penerjemah dan perluasan kueri: Memperluas kueri menggunakan ontologi.
• Retrieval engine: Menghasilkan rencana kueri.
• Answer assembler: Menyusun hasil kueri untuk presentasi.

Big Data Technologies


• Wrapper: Penerjemah antara bahasa/skema di sistem pusat dan bahasa/skema di database
sumber, sistem internal retriever.
• Sumber databank: dapat diakses melalui wrapper.
Secara umum, pendekatan mediasi dilaksanakan dalam tiga tahap
• Standardisasi Skema: Langkah pertama dalam proses ini adalah pembuatan skema
termediasi yang menyediakan struktur seragam yang diberikan kepada semua sumber
data. Setelah itu dilakukan pencocokan atribut berdasarkan dimensi skema. Terakhir,
skema sumber data asli dipetakan dengan skema yang dimediasi menggunakan skema
GAV, LAV, atau BAV.
• Resolusi Entitas: Tahap ini melibatkan aktivitas seperti penghapusan redundansi,
pengenalan entitas bernama, resolusi ambiguitas, dll.
• Penggabungan Data: Penggabungan data online dari berbagai sumber untuk menemukan
data yang benar untuk kebutuhan penyimpanan untuk menjaga kualitas data dan
kebenaran data.

Fig 3. Mediation architecture for data integration

Big Data Technologies


Storing and Maintaining Big Data
Persyaratan paling penting dari penyimpanan big data adalah kemampuan untuk mengelola data
dalam jumlah yang sangat besar dan kemampuan untuk terus melakukan penskalaan guna
mengimbangi pertumbuhan data. Penyimpanan ini tidak hanya memfasilitasi penyimpanan data
dalam jumlah besar namun juga mampu menampung data terstruktur dan tidak terstruktur serta
menangani akses read dan write dengan kecepatan tinggi.
Dua solusi penyimpanan yang banyak digunakan untuk data dalam jumlah besar adalah data
warehouse dan penyimpanan di cloud.

Data Warehouse
Data warehouse menyimpan data arsip atau data historis bersama dengan data transaksi sehari-
hari suatu organisasi yang mencakup berbagai macam operasi. Reporting, business intelligence,
analitik, data mining, penelitian, pemantauan dunia maya, analisis prediktif, dll. Solusi data
warehouse memfasilitasi manajemen data yang efisien dengan mempermudah penemuan,
pengambilan, visualisasi, dan analisis informasi,

Penyimpanan di Cloud
Alternatif lain untuk menyimpan data dalam jumlah besar adalah penyimpanan cloud, yang
semakin populer belakangan ini. Sebagai bagian dari environment cloud computing, cloud
storage adalah layanan berdasarkan permintaan yang dapat digunakan untuk menyimpan
sejumlah besar data online dan mengaksesnya dari mana saja, kapan saja. Opsi penyimpanan
data ini lebih populer karena tidak memerlukan investasi besar dalam membangun infrastruktur
penyimpanan internal. Hal ini juga memberikan fleksibilitas dalam meningkatkan dan
menurunkan kapasitas penyimpanan sesuai kebutuhan mereka

Keakuratan sistem business intelligence apa pun bergantung pada kualitas data yang akan
digunakan untuk analisis data. Data berkualitas berarti kumpulan data yang akurat, autentik,
lengkap, konsisten, dan tepat waktu yang diperoleh untuk memenuhi tujuan bisnis organisasi.
Data quality (DQ) adalah komponen penting dari analisis big data karena data diperoleh dari

Big Data Technologies


berbagai sumber yang sebagian besar merupakan sumber tidak terstruktur seperti world wide
web dan platform media sosial yang tidak memiliki format data standar dan tidak ada jaminan
kualitasnya.

Berikut adalah dimensi dari data quality beserta penjelasannya.

Fig 4. Big data quality dimensions

Big Data Technologies


Manajemen kualitas data umumnya terdiri dari komponen-komponen berikut
• Framework data governance: framework ini memberikan aturan dan standar data untuk
mengukur kualitas data berdasarkan kebutuhan organisasi.
• Data profiling: Selama pembuatan data profiling, anggota tim data governance
mengevaluasi aset data dan mengidentifikasi item data yang relevan berdasarkan
kebutuhan informasi saat ini.
• Pencocokan data: Pada tahap ini, entitas yang sama dengan representasi berbeda
diidentifikasi.
• Pelaporan data: Pelaporan data adalah proses melaporkan seluruh dimensi kualitas data
beserta nilai terukurnya.
• Perbaikan/pengayaan data: Perbaikan dan pengayaan data adalah proses meningkatkan
kualitas kumpulan data dengan memastikan bahwa standar kualitas dipatuhi dan
memberikan informasi kontekstual tambahan jika diperlukan.

Big Data Technologies


Security and Privacy Management
Dalam beberapa tahun terakhir, masalah privasi dan pelanggaran data telah menjadi berita utama
di media sosial. Pelanggan memiliki kekhawatiran yang wajar mengenai privasi data pribadi
mereka di zaman teknologi digital saat ini Informasi adalah salah satu aset paling berharga bagi
organisasi mana pun. Menurut framework keamanan informasi (ISO/IEC 27001, 2022),
organisasi harus menerapkan langkah-langkah perlindungan data untuk memastikan triad CIA,
yaitu kerahasiaan, integritas, dan ketersediaan. Risiko yang terkait dengan privasi seperti
pelanggaran data, perantaraan data, dan diskriminasi data harus diidentifikasi dan ditangani
dengan hati-hati.

Seiring dengan perkembangan zaman, orang-orang mulai aware dengan keamanan data. Akan
tetapi, ada beberapa challenge yang perlu dihadapi untuk melindungi data.
• Dengan meningkatnya data tidak terstruktur dan sistem basis data non-relasional, jaminan
keamanan data menjadi semakin sulit.
• Umumnya platform big data berbasis cluster, yang membuat banyak node dan server
rentan terhadap berbagai kerentanan.
• Penggunaan sistem canggih seperti cloud, IoT, sensor, dll., untuk mengumpulkan dan
menyimpan data telah membuka jalan baru bagi serangan dan ancaman keamanan.
• Karena potensi ukurannya yang sangat besar (terabyte hingga petabyte), melakukan
pemeriksaan keamanan rutin sangatlah sulit.
• Pemilik big data menempatkan dirinya pada risiko kehilangan dan pengungkapan data
jika keamanan lingkungan tidak dijaga secara konsisten.
• Para profesional yang melindungi data dalam jumlah besar harus terampil dalam
membersihkan dan memahami cara menghapus malware.

Untuk menghadapi challenge-challenge tersebut, ada beberapa best practice yang bisa dilakukan.

Big Data Technologies


• Penggunaan teknik enkripsi seperti Advanced Encryption Standard (AES) dan Hashed
Message Authentication Code (HMAC) dapat menjaga enkripsi end-to-end dan
memberikan keamanan.
• Intisari pesan ditandatangani harus digunakan untuk menetapkan identifikasi unik
terenkripsi ke setiap file data digital.
• Organisasi harus menerapkan langkah-langkah seperti Secure Untrusted Data Repository
(SUNDR) untuk mengidentifikasi modifikasi file tidak sah yang disebabkan oleh agen
server yang bermasalah.
• Untuk melawan serangan Sybil dan serangan spoofing ID, pemfilteran dan validasi titik
akhir harus diterapkan agar hanya perangkat tepercaya yang dapat terhubung ke jaringan.
• Setiap akses yang meragukan, baik karena alasan yang sah atau jahat, harus dideteksi dan
ditandai oleh program pemantauan.
• Menerapkan kontrol akses granular
• Sistem single sign-on yang hanya memerlukan satu kata sandi dapat digunakan, dan
segala sesuatunya harus selalu diberi label dengan benar
• Audit granular mutlak diperlukan untuk perlindungan big data
• Keamanan dan privasi log audit tidak boleh diabaikan
• Aplikasi yang bekerja dengan big data menghasilkan sesuatu yang disebut metadata
provenance perlu dilindungi dengan cara tertentu
• Memantau big data secara real-time
• Memberikan tingkat perlindungan tertinggi untuk privasi individu pelanggannya

Big Data Life Cycle


Pada saat menggunakan big data, kita perlu melakukan semua stepnya end-to-end. Dimulai dari
evaluasi kasus bisnis hingga pemanfaatan hasil analisisnya. Berikut adalah life cycle dari big
data.

Big Data Technologies


• Evaluasi kasus bisnis: Evaluasi kasus bisnis analisis Big Data membantu pengambil
keputusan memahami sumber daya bisnis yang perlu dimanfaatkan dan tantangan bisnis
apa yang akan diatasi oleh analisis tersebut.
• Identifikasi Data: mengidentifikasi kumpulan data yang diperlukan untuk proyek analisis
dan sumbernya.
• Akuisisi dan Penyaringan Data: data dikumpulkan dari semua sumber data yang
diidentifikasi pada tahap sebelumnya. Data yang diperoleh kemudian difilter secara
otomatis untuk menghilangkan data yang rusak atau data yang dianggap tidak memiliki
nilai bagi tujuan analisis.
• Ekstraksi Data: mengekstraksi data yang berbeda dan mengubahnya menjadi format yang
dapat digunakan oleh solusi Big Data untuk tujuan analisis data
• Validasi dan Pembersihan Data: menetapkan aturan validasi yang seringkali rumit dan
menghapus data tidak valid yang diketahui. Untuk analisis batch, validasi dan
pembersihan data dapat dilakukan melalui operasi ETL offline. Untuk analisis real-time,
sistem dalam memori yang lebih kompleks diperlukan untuk memvalidasi dan
membersihkan data yang datang dari sumbernya.
• Agregasi dan Representasi Data: mengintegrasikan beberapa kumpulan data untuk
menghasilkan satu data gabungan.
• Analisis Data: tahap ini bisa sesederhana menanyakan kumpulan data untuk menghitung
agregasi sebagai perbandingan. Di sisi lain, hal ini bisa jadi sama menantangnya dengan
menggabungkan data mining dan teknik analisis statistik yang kompleks.
• Visualisasi Data: menggunakan teknik dan tool visualisasi data untuk mengomunikasikan
hasil analisis secara grafis untuk interpretasi yang efektif oleh pengguna bisnis.
• Pemanfaatan Hasil Analisis : menentukan bagaimana dan di mana data analisis yang
diproses dapat dimanfaatkan lebih lanjut. Hasil analisis dapat menghasilkan “model”
yang merangkum wawasan dan pemahaman baru tentang sifat pola dan hubungan yang
ada dalam data yang dianalisis.

Big Data Technologies


Fig 5. Big data analytics lifecycle

Big Data Technologies


KESIMPULAN

Ada beberapa tantangan big data yaitu pada integrasi big data, metode integrasi data,
penyimpanan dan pemeliharaan big data, manajemen kualitas data,serta keamanan dan
informasi. Perusahaan yang mampu mengatasi tantangan big data dapat mengoptimalkan potensi
big data untuk mendukung pengambilan keputusan dan inovasi bisnis. Pentingnya manajemen
kualitas data, keamanan, dan pemahaman menyeluruh terhadap siklus hidup big data menjadi
kunci keberhasilan dalam eksploitasi potensi big data.

Big Data Technologies


DAFTAR PUSTAKA

1. Husain, M. S., Khan, M. Z., & Siddiqui, T. (2023). Big Data Concepts, Technologies,
and Applications. CRC Press. ISBN: 9781003441595. Ch 2.
2. Contributor, S. M.-G. (2022, October 10). Top 8 challenges of big data and how to solve
them. Capterra. https://www.capterra.com/resources/challenges-of-big-data/
3. Gaur, C. (2023, December 6). Top 8 big data challenges and solutions in 2023. Real Time
Data and AI Company. https://www.xenonstack.com/insights/big-data-challenges

Big Data Technologies

Anda mungkin juga menyukai