Anda di halaman 1dari 7

Data Lake

Data Lake adalah gudang penyimpanan yang dapat menyimpan data terstruktur, semi-
terstruktur, dan tidak terstruktur dalam jumlah besar. Ini adalah tempat untuk menyimpan
semua jenis data dalam format aslinya tanpa batas tetap pada ukuran atau file akun. Ini
menawarkan kuantitas data yang tinggi untuk meningkatkan kinerja analitik dan integrasi asli.
Data Lake merupakan cara yang hemat biaya karena menyimpan semua data dari suatu
organisasi yang akan diproses nantinya. Seorang Riset Analis dapat berfokus pada penemuan
pola-pola makna dalam data dan bukan data itu sendiri. Lain halnya dengan Data
warehouse hierarkis di mana data disimpan dalam File dan Folder, Data Lake memiliki
arsitektur datar. Setiap elemen data di Data Lake diberi pengidentifikasi unik dan diberi tag
dengan satu set informasi metadata.
Tujuan utama dari membangun Data Lake adalah untuk menawarkan pandangan data yang
belum diolah ke para ilmuwan atau peneliti data. Berikut ini alasan menggunakan Data
Lake adalah:
• Dengan munculnya mesin penyimpanan seperti Hadoop, menyimpan
informasi yang berbeda menjadi lebih Tidak perlu memodelkan data ke
skema perusahaan secara meluas apabila dengan menggunakan Data Lake.
• Dengan peningkatan volume data, kualitas data, dan metadata, kualitas
analisis juga meningkat.
• Data Lake juga menawarkan kecepatan proses dalam bisnis
• Pembelajaran mesin dan Kecerdasan Buatan dapat digunakan untuk
membuat prediksi yang menguntungkan dan menawarkan keunggulan
kompetitif bagi organisasi pelaksana.
Berikut ini adalah konsep-konsep kunci dari Data Lake yang perlu dipahami sepenuhnya
untuk memahami Data Lake Architecture :
Gambar 1. Data Lake Concept

Berikut ini adalah penjelasan secara singkatnya :


1. Data Ingestion (Penyerapan Data):
Penyerapan Data memungkinkan konektor untuk mendapatkan data dari sumber data yang
berbeda dan memuat ke dalam Data Lake. Penyerapan Data mendukung:
• Semua jenis data terstruktur, semi terstruktur, dan tidak terstruktur.
• Beberapa konsumsi seperti Batch, Real-Time, Beban satu kali.
• Banyak jenis sumber data seperti Databases, Webservers, Emails, IoT, dan
FTP.
2. Data Storage (Penyimpanan data):
Penyimpanan data harus terukur, menawarkan penyimpanan hemat biaya dan
memungkinkan akses cepat ke eksplorasi data dan harus mendukung berbagai format data.
3. Data Governance (Tata Kelola Data):
Tata kelola data adalah proses mengelola ketersediaan, kegunaan, keamanan, dan integritas
data yang digunakan dalam suatu organisasi.
4. Security (Keamanan):
Keamanan perlu diterapkan di setiap lapisan Data Lake. Dimulai dengan storage, Unearthing,
dan pemakaian data. Tujuan utamanya adalah menghentikan akses untuk pengguna yang
tidak sah. Otentikasi, Kepemilikan Akun, Otorisasi dan Perlindungan Data adalah beberapa
fitur penting dari keamanan Data Lake.
5. Data Quality (Kualitas data):
Kualitas data merupakan komponen penting dari arsitektur Data Lake. Data digunakan untuk
membentuk nilai bisnis. Mengekstrak wawasan dari data berkualitas buruk akan mengarah
pada wawasan yang berkualitas rendah.
6. Data Discovery (Penemuan Data):
Data Discovery adalah tahap penting lainnya sebelum Anda dapat mulai menyiapkan data
atau analisis. Pada tahap ini, teknik penandaan digunakan untuk mengekspresikan
pemahaman data, dengan mengatur dan menafsirkan data yang dicerna di Data Lake.
7. Data Auditing (Audit Data):
Dua tugas utama dalam pengauditan Data adalah :
• Melacak perubahan pada set data kunci dan elemen kumpulan data penting
• Menangkap bagaimana / kapan / dan siapa yang berubah di dalam data
tersebut.
Audit data membantu mengevaluasi risiko dan kepatuhan.
8. Data Lineage :
Komponen ini berhubungan dengan asal data. Terutama berkaitan dengan tempat
penggeraknya dari waktu ke waktu dan apa yang terjadi padanya. Hal ini memudahkan
koreksi kesalahan dalam proses analisis data dari asal ke tujuan.
9. Data Exploration (Eksplorasi Data) :
Hal ini adalah tahap awal analisis data. Proses ini membantu untuk mengidentifikasi
kumpulan data yang tepat sangat penting sebelum memulai tahap selanjutnya. Semua
komponen yang diberikan harus bekerja sama untuk memainkan bagian penting dalam
arstitektur Data Lake dengan mudah berevolusi dan mengeksplorasi lingkungan.
Berikut ini adalah beberapa manfaat utama dalam menggunakan Data Lake:
• Membantu sepenuhnya dengan pengionisasi produk & analisis tingkat lanjut
• Menawarkan skalabilitas dan fleksibilitas yang hemat biaya
• Menawarkan nilai dari tipe data yang tak terbatas
• Mengurangi biaya kepemilikan jangka panjang
• Memungkinkan penyimpanan file yang ekonomis
• Cepat beradaptasi dengan perubahan
• Keuntungan utama dari data lake adalah sentralisasi sumber konten yang
berbeda
• Pengguna dari berbagai departemen, dapat tersebar di seluruh dunia yang
dapat memiliki akses fleksibel ke data

2. Data lake 2
Di zaman digital ini, volume data yang ada berkembang secara pesat sehingga penting untuk
mengelola dan menyimpan data tersebut dengan baik. Maka dari itu, diperlukan adanya data
lake.
Data lake adalah tempat untuk menyimpan berbagai jenis informasi dalam format aslinya.
Artinya, data lake dirancang untuk mengakomodasi semua jenis data, mulai dari data
terstruktur seperti database SQL hingga data tidak terstruktur seperti postingan media sosial
dan file audio serta video.
Dengan menyimpan data di data lake, suatu perusahaan dapat memperoleh tampilan data
yang lebih komprehensif sehingga lebih mudah untuk mendapatkan wawasan dan
mengidentifikasi tren untuk berbagai kegunaan.

Apa Manfaat Data Lake bagi Bisnis?


Menurut Google, manfaat penggunaan data lake bagi bisnis di antaranya adalah:

• Hemat biaya
Dengan volume data yang terus bertambah, penyimpanan data tradisional bisa jadi mahal
dan sulit dikelola. Karena itu, data lake menjadi solusi atas permasalahan ini karena
menggunakan sistem penyimpanan berbasis cloud yang dapat di-
upgrade atau downgrade, tergantung kebutuhan perusahaan. Dengan demikian, suatu
perusahaan dapat menyimpan dan mengelola volume data yang besar dengan biaya
terjangkau.

• Fleksibel
Data lake memungkinkan bisnis untuk menyimpan berbagai jenis data dalam format aslinya,
yang tentunya lebih fleksibel dan memungkinkan analisis data yang lebih efisien.
Fleksibilitas adalah faktor penting karena suatu bisnis cenderung memiliki berbagai macam
data, termasuk data terstruktur (seperti catatan pelanggan dan data keuangan), serta data
tidak terstruktur (seperti postingan media sosial).

• Efektif
Dengan data lake, perusahaan dapat menganalisis datanya dengan cara yang lebih efisien
dan efektif. Hal ini disebabkan karena data lake dilengkapi dengan alat analitik yang canggih
seperti machine learning, sehingga suatu perusahaan dapat melakukan analisis data dengan
lebih cepat dan akurat.

Komponen Data Lake


Mengutip dari Prof. Banafa, seorang ahli AI dan blockchain, ada 5 komponen pokok data lake,
yaitu:

• Data ingestion
Data ingestion adalah proses membawa data ke dalam data lake dari berbagai sumber,
seperti database, Internet of Things (IoT), dan lainnya.
Penyerapan data ke dalam data lake adalah komponen penting karena memungkinkan
perusahaan untuk mengumpulkan dan menyimpan data dalam jumlah besar di lokasi pusat.
Data tersebut juga bisa diperoleh secara real-time atau hampir real-time.

• Data storage
Data lake menggunakan sistem penyimpanan berbasis cloud, yang dapat dengan mudah di-
upgrade atau di-downgrade. Selain itu, data lake dapat menyimpan segala jenis data, baik
terstruktur maupun tidak terstruktur sehingga dapat memberikan tampilan data yang lebih
komprehensif.
• Data security
Data security adalah komponen penting dari data lake karena membantu melindungi data
yang disimpan. Untuk memastikan keamanan data, data lake menggunakan berbagai
tindakan keamanan, seperti multi-factor authentication atau authorization.
Multi-factor authentication membantu memastikan bahwa hanya pengguna yang berwenang
yang dapat mengakses data tertentu dengan memberikan pengamanan lebih.
Sementara authorization membantu menentukan apakah suatu user diterima atau ditolak
untuk melakukan tindakan tertentu atau mengakses data.

• Data analysis
Analisis data dilakukan menggunakan tools dan teknik untuk memproses, mengubah, dan
memvisualisasikan data untuk mengungkap pola, tren, dan wawasan informasi yang disimpan
dalam data lake. Selain itu, data lake juga dapat melakukan analisis tanpa harus
memindahkan suatu data ke dalam sistem yang terpisah.

• Data governance
Data governance merupakan aspek penting dari data lake yang memastikan bahwa data
yang disimpan dikelola dengan benar. Data lake harus mematuhi peraturan dan standar yang
sesuai dan memastikan bahwa informasi yang disimpan terlindungi.
Dengan menerapkan data governance di data lake, suatu perusahaan dapat memastikan
bahwa datanya dikelola secara efektif.

Contoh Penerapan Data Lake


Data lake dapat digunakan di berbagai bidang, dan contoh penerapan data
lake dalam marketing, kesehatan, dan cybersecurity adalah sebagai berikut:

• Marketing
Dengan data lake, suatu bisnis dapat menyimpan dan menganalisis data pelanggan dari
berbagai sumber seperti media sosial, e-mail, dan feedback pelanggan. Hal ini membantu
mereka untuk mendapatkan pandangan yang komprehensif dan membuat keputusan
berdasarkan data untuk meningkatkan kepuasan dan retensi pelanggan.

• Kesehatan
Institusi layanan kesehatan dapat memanfaatkan data lake untuk menyimpan dan
menganalisis data pasien, uji klinis, dan penelitian medis. Informasi ini dapat membantu
meningkatkan hasil pemeriksaan pasien dan mengurangi biaya perawatan medis.

• Cybersecurity
Data lake dapat membantu suatu perusahaan untuk mendeteksi aktivitas penipuan dengan
menganalisis volume data yang besar dari berbagai sumber, termasuk data transaksional,
profil pelanggan, dan data terkait lainnya. Hal ini dapat mencegah kerugian finansial dan
melindungi reputasi perusahaan.

Anda mungkin juga menyukai