Anda di halaman 1dari 8

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

(IJACSA) Jurnal Internasional Ilmu Komputer dan Aplikasi Tingkat Lanjut,


Jil. 11, No. 8, 2020

Arsitektur Gudang Data Danau untuk Big Data


Solusi
Emad Saddad1
Hoda MO Mokhtar3
Pusat Informasi Perubahan Iklim dan Energi Terbarukan
Fakultas Komputer dan Kecerdasan Buatan
dan Sistem Pakar
Universitas Kairo
Pusat Penelitian Pertanian (ARC)
Giza, Mesir
Giza, Mesir

Maryam Hazman4
Ali El-Bastawissy2
Pusat Informasi Perubahan Iklim dan Energi Terbarukan
Fakultas Ilmu Komputer
dan Sistem Pakar
Universitas MSA
Pusat Penelitian Pertanian (ARC), Giza, Mesir
Giza, Mesir

Abstrak—Traditional Data Warehouse adalah gudang [2], [3]. Untuk mencapai ini, kami mengusulkan arsitektur DW baru
multidimensi. Ini adalah data nonvolatile, berorientasi subjek, yang disebutArsitektur Gudang Data Danau.Arsitektur Gudang
terintegrasi, timevariant, dan non-operasional. Ini dikumpulkan Data Danauadalah sistem hybrid yang mempertahankan fitur DW
dari berbagai sumber data heterogen. Kita perlu mengadaptasi tradisional. Itu menambahkan fitur dan kemampuan tambahan
arsitektur Data Warehouse tradisional untuk menghadapi yang memfasilitasi bekerja dengan teknologi dan alat data besar
tantangan baru yang ditimbulkan oleh banyaknya data dan (Hadoop, Data Lake, Delta Lake, dan Apache Spark) sebagai
karakteristik data besar saat ini, yang berisi volume, nilai, variasi, pelengkap untuk mendukung dan meningkatkan arsitektur yang
validitas, volatilitas, visualisasi, variabilitas, dan tempat. Arsitektur
ada.
baru juga perlu menangani kelemahan yang ada, termasuk
ketersediaan, skalabilitas, dan kinerja kueri. Makalah ini Kontribusi yang kami usulkan memecahkan beberapa masalah yang dihadapi dalam
memperkenalkan arsitektur Data Warehouse baru, bernamaDanau mengintegrasikan data dari penyimpanan data besar seperti:
Arsitektur Gudang Data, untuk menyediakan Gudang Data
tradisional dengan kemampuan untuk mengatasi tantangan. -Mengintegrasikan teknik DW tradisional, Hadoop
Arsitektur Gudang Data Danau bergantung pada penggabungan Framework, dan Apache Spark.
arsitektur Data Warehouse tradisional dengan teknologi data
-Menangani tipe data yang berbeda dari berbagai sumber
besar, seperti kerangka Hadoop dan Apache Spark. Ini memberikan
solusi hibrida dengan cara yang saling melengkapi. Keuntungan
seperti data terstruktur (DB, spreadsheet), data semi
utama dari arsitektur yang diusulkan adalah mengintegrasikan terstruktur (file XML, file JSON), dan data tidak terstruktur
fitur saat ini di Gudang Data tradisional dan fitur data besar yang (video, audio, gambar, email, word, PowerPoint, file pdf).
diperoleh melalui integrasi Gudang Data tradisional dengan
-Menangkap, menyimpan, mengelola, dan menganalisis volume
ekosistem Hadoop dan Spark. Selain itu, ini disesuaikan untuk
data yang tidak dapat ditangani oleh DW tradisional.
menangani volume data yang luar biasa sambil mempertahankan
ketersediaan, keandalan, dan skalabilitas. - Menggunakan teknologi terkini seperti kerangka Hadoop, Data Lake,
Delta Lake, dan Apache Spark untuk mengurangi waktu yang dihabiskan
untuk menganalisis data dan mengurangi biaya penyimpanan tidaklah
Kata kunci—gudang data tradisional; data besar; data semi mahal.
terstruktur; data tidak terstruktur; data baru arsitektur
gudang; Hadop; percikan - Dukung semua pengguna, terutama ilmuwan data, karena mereka
perlu melakukan analisis data mendalam.
sayaPENDAHULUAN
Sisa makalah ini disusun sebagai berikut: Bagian II
Data warehouse (DW) memiliki banyak manfaat; itu meningkatkan
menjelaskan latar belakang dan pendahuluan untuk Data
Intelijen Bisnis, kualitas data, dan konsistensi, menghemat waktu, dan
Warehouse tradisional dan keterbatasannya, pentingnya DW,
mendukung analisis dan kueri data historis [1]. Dalam dua dekade
serta karakteristik dan jenis data besar. Bagian III ikhtisar
terakhir, gudang data telah memainkan peran penting dalam
karya-karya terkait dengan arsitektur DW. Bagian IV
membantu para pengambil keputusan. Namun, di era data besar
menyajikan arsitektur DW yang diusulkan bernama Arsitektur
dengan peningkatan besar dalam volume dan jenis data, ada
Gudang Data Danau. Bagian V menjelaskan studi kasus dengan
kebutuhan besar untuk menerapkan arsitektur dan teknologi yang
menerapkan kontribusi kami yang disebutArsitektur Danau DW
lebih memadai untuk menghadapinya.
. Terakhir, kesimpulan disajikan pada Bagian VI.
Oleh karena itu, menjadi penting untuk meningkatkan DW tradisional
untuk menangani data besar di berbagai bidang untuk mengakomodasi
evolusi ini dalam volume, variasi, kecepatan, dan kebenaran data besar.

417 |Halaman
www.ijacsa.thesai.org
(IJACSA) Jurnal Internasional Ilmu Komputer dan Aplikasi Tingkat Lanjut,
Jil. 11, No. 8, 2020

II. BLATAR BELAKANG DANPRELIMINARIS - Mengelola harapan pelanggan.


Di bagian ini, kami akan meninjau latar belakang topik terkait, - Memenuhi pertumbuhan bisnis.
seperti DW tradisional, batasannya, dan mengapa kami perlu
mengembangkannya kembali. Selain itu, kami akan membahas - Menggunakan kemajuan teknologi baru dan
berbagai teknologi terkait perbaikannya.
A. Gudang Data Tradisional (DWs) - Menangani keberadaan dan status produk.

DW tradisional terintegrasi, berorientasi subjek, nonvolatile, dan -Meningkatkan efisiensi bisnis dan keunggulan
data varian waktu untuk mendukung pengambil keputusan [4], seperti kompetitif.
yang disajikan pada Gambar. 1. Keempat properti membedakan DW
dari sistem penyimpanan data lainnya, seperti sistem basis data - Mengurangi risiko operasional dan keuangan.
relasional [ 5].
- Mengevaluasi dan meramalkan tren dan perilaku.

D. Zaman Data Besar


Big Data adalah volume data yang tersedia dalam berbagai
tingkat kerumitan. Ini dihasilkan pada berbagai kecepatan dan
tingkat ketidakpastian; karenanya tidak ditangani menggunakan
pendekatan tradisional, teknologi tradisional, atau algoritma
tradisional [6]. Saat ini, big data dicirikan oleh sepuluh karakteristik
utama yaitu volume, variasi, kecepatan, kebenaran, nilai, validitas,
variabilitas, visualisasi, volatilitas, dan tempat [3], [10], [2], [11],
[12] , [13] sebagai berikut:

-Volume: sejumlah besar data yang dihasilkan secara terus-


Gambar 1. Arsitektur Data Warehouses (DWs) Tradisional
menerus setiap jam atau setiap hari dari berbagai
sumber. Seperti terabyte yang dihasilkan per jam untuk
Biasanya di DW primer ada data mart (DM). Data mart
aplikasi seperti YouTube, Instagram, dan Google.
(DM) adalah DW kecil yang hanya berisi sebagian data yang
diperoleh dari DW pusat. Isi DM mewakili informasi dari - Variasi: jenis data besar yang diserap dari sumber
domain tertentu yang diminati. Banyak server DW data yang berbeda.
digunakan untuk mengelola data. Server ini menyajikan
tampilan data multidimensi ke berbagai alat front-end. - Kecepatan: kecepatan data yang dihasilkan. Aspek data
dapat berupa data batch atau data streaming.
B. Keterbatasan Arsitektur DW Tradisional
- Kebenaran: kualitas data yang sedang ditangani untuk
Dalam [6], [7], dan [8], penulis meninjau beberapa keterbatasan
memperoleh wawasan yang berharga. Seperti data yang
DW, seperti hanya mendukung data terstruktur, sebaliknya, tidak
ambigu, tidak konsisten, tidak lengkap, anomali, tidak pasti,
mendukung data semi terstruktur, atau data tidak terstruktur.
dan bias.
Selain di atas, pembatasan penanganan volume data dalam
terabyte, yang tidak berskala ke ukuran petabyte, tersedia secara - Nilai: mewakili nilai bisnis yang akan diperoleh dari data
luas. Selain itu, mahal karena tergantung pada perangkat keras besar.
dan perangkat lunak berpemilik.
- Keabsahan: mengacu pada kebenaran data yang digunakan untuk
Selain itu, DW tradisional melakukan kueri analitik, yang mengekstrak output dalam bentuk informasi.
akibatnya memengaruhi keseluruhan kinerja kueri, pengaksesan,
dan pemrosesan data. Proses pengambilan keputusan juga dapat - Variabilitas: mengacu pada aliran data yang tidak konsisten.
terpengaruh jika: 1) data yang benar tidak tersedia pada waktu
- visualisasi: mengacu pada kemampuan menganalisis dan wawasan
yang tepat, dan 2) pertumbuhan bisnis memerlukan metode baru
visual sebagai output dari analisis data besar.
untuk manajemen data selain mengadaptasi arsitektur DW
tradisional. - Keriangan: data yang disimpan tentang berapa lama itu berharga
bagi konsumen.
C. Tujuan dari DW tradisional yang dibangun kembali
Salah satu tujuan utama kami adalah untuk mengatasi - Lokasi: mengacu pada berbagai platform tempat
keterbatasan arsitektur DW tradisional yang dibangun di atas teknologi berbagai jenis data dari berbagai sumber oleh
usang [4]. Kami memulai arsitektur keseluruhan yang mendukung beberapa platform.
fungsionalitas DW tradisional dengan kemampuan untuk memasukkan
Secara umum, data adalah seperangkat nilai kualitatif atau
[6], [9] :
variabel kuantitatif; Big Data dapat dikategorikan menjadi tiga jenis
- Memenuhi kebutuhan bisnis baru. Tergantung [2], [9]:

- pada infrastruktur berbiaya lebih rendah. - Data terstruktur.Data memiliki struktur yang ditentukan atau
skema yang terorganisir baik dalam bentuk database relasional
- Menangani data yang heterogen serta struktur dan format atau dengan cara lain yang mudah dioperasikan. Misalnya, data
data baru. yang disimpan dalam database relasional (dalam

418 |Halaman
www.ijacsa.thesai.org
(IJACSA) Jurnal Internasional Ilmu Komputer dan Aplikasi Tingkat Lanjut,
Jil. 11, No. 8, 2020

membentuk baris dan kolom), dalam spreadsheet (seperti file CSV), F. Apache Spark dan Danau Delta
dan data yang telah dibersihkan (yang telah diproses dengan
Apache Spark adalah sumber terbuka yang diterapkan untuk analitik
banyak pembersihan dan penyaringan).
data besar dan sistem terdistribusi. Ini menyediakan perpustakaan

- Data Semi-Terstruktur: Data sulit diambil, dianalisis, dan streaming, SQL, analisis grafik, dan pembelajaran mesin. Ini memiliki dua

disimpan sebagai data terstruktur. Ini membutuhkan komponen utama Spark streaming, yang digunakan untuk mengelola data

kerangka kerja perangkat lunak data besar (seperti Apache waktu nyata, dan mesin Spark, yang secara langsung memproses setiap

Hadoop) untuk mencapai operasi ini. Misalnya, file XML, file potongan data dengan streaming Spark [28], [29], [30].

JSON, dan file BibTex. Delta Lake adalah lapisan penyimpanan Spark sumber terbuka. Ini
adalah lapisan penyimpanan ekstra yang membuat keandalan data lake
-Data Tidak Terstruktur: Data yang sepenuhnya tidak terorganisir
kami dibangun di atas The Hadoop Distributed File System (HDFS) dan
sulit untuk ditangani, dan memerlukan perangkat lunak dan
penyimpanan cloud [31]. Delta Lake menyediakan serangkaian fitur lain
alat canggih untuk mengaksesnya. Contohnya termasuk video,
termasuk:
audio, gambar, email, kata, PowerPoint, file pdf, halaman web,
koordinat lokasi, dan data streaming. - Bergabung dengan streaming dan pemrosesan data batch.

E. Kerangka Hadoop dan Data Lake - Memberikan pendekatan metadata yang skalabel.
Hadoop adalah kerangka kerja perangkat lunak sumber terbuka. Ini
memungkinkan eksekusi proses MapReduce untuk pemrosesan data. Ini
- Melayani transaksi ACID itu terjamin
konsistensi data yang disimpan di dalam data lake dengan
menyediakan penyimpanan besar untuk semua jenis data, pemrosesan
memastikan bahwa hanya penulisan lengkap yang
paralel besar-besaran, dan menyimpan data dan menjalankan aplikasi pada
dilakukan.
cluster untuk menyelesaikan sumber daya komputasi yang lebih baik [14].
Hadoop memiliki komponen utama sebagai berikut [15], [16], [17]: - Perjalanan waktu yang memungkinkan seseorang untuk mengakses dan
mengembalikan versi data sebelumnya.
- Sistem File Terdistribusi Hadoop (HDFS)adalah sistem
file, yang mengelola penyimpanan dan akses ke data -Evolusi skema saat data berkembang, Delta memungkinkan tabel
yang tersebar di berbagai node dari cluster Hadoop. Spark berubah dalam skema dan banyak lagi saat kami
menggunakan Delta.
- BENANGadalah manajer sumber daya cluster Hadoop yang digunakan
untuk menetapkan sumber daya sistem untuk aplikasi dan jadwal - Mengaktifkan Data Lake untuk memperbarui data tanpa
pekerjaan. melalui seluruh repositori Data Lake .
- Peta-Kurangiadalah mesin pemrosesan dan kerangka kerja
AKU AKU AKU. RGEMBIRAWORKS
pemrograman yang digunakan untuk mengelola data batch skala besar
dalam sistem Hadoop. Beberapa upaya telah dilakukan untuk mengadaptasi DW tradisional
untuk menangani kebutuhan pengguna baru dan perubahan dalam sumber
- Hadoop Umumadalah seperangkat layanan dan institusi yang data yang mendasarinya. Banyak pendekatan berfokus pada DW yang
menyediakan kemampuan dasar yang dibutuhkan oleh bagian berhubungan dengan database relasional. Namun, mereka tidak dapat
lain Hadoop. disesuaikan untuk menangani data besar. Dalam [32], beberapa
metodologi mencoba memecahkan masalah dengan mengembangkan
Data Lake adalah penyimpanan data yang dapat mengumpulkan semua
proses ETL (Extracting, Transforming, and Loading). Dalam [33], penulis
jenis data: data terstruktur, semi terstruktur, atau tidak terstruktur, yang
mencoba memperbarui Skema DW untuk mencerminkan modifikasi yang
disimpan satu sama lain terlepas dari struktur, format, atau jenisnya [18],
telah terjadi. Seperti disebutkan dalam [33], [33], [34], [5], [35], [36] , penulis
[19]. Ini adalah ide konseptual yang biasanya diimplementasikan dengan
menggunakan versi temporal DW dan skema untuk memperbarui Struktur
satu atau lebih teknologi seperti database Hadoop dan NoSQL. Saat
DW dengan menyimpan lebih dari satu DW Versi: kapan. Karya-karya ini
melakukan query ke Data Lake, hanya kebutuhan data yang akan berubah
tidak menggambarkan bagaimana kebutuhan pengguna memengaruhi
yang relevan dengan kebutuhan bisnis [20].
perubahan evolusi.
Membuat Data Lake bergantung pada teknologi Hadoop,
Pendekatan yang terbatas telah menangani aspek pengembangan
yang merupakan komponen (sebagai platform) untuk data
big data. Pendekatan yang disebutkan dalam [37] menjelaskan
lake. Ini adalah hubungan komplementer antara Data Lake dan
spesifikasi skema data dan pemrosesan evolusi, tetapi tidak
Hadoop [21], [22], [23]
bergantung pada DW. Karya yang disajikan dalam [38] menjelaskan
Data Lake mirip dengan DW tradisional karena keduanya metode untuk menangani pertumbuhan sumber data dalam area
merupakan tempat penyimpanan data. Namun, ada perbedaan nyata integrasi menggunakan ontologi integrasi big data. Ini dapat
dalam fitur di antara mereka [7]—skema membaca di Data Lake, tetapi menangani beberapa perubahan dalam sumber data, tetapi tidak
skema menulis di DW. Skala data di Data Lake sangat besar, sementara menentukan bagaimana menjawab semua persyaratan.
itu adalah volume data yang besar di DW. Sumber data dapat berupa
Beberapa jenis penelitian telah berkonsentrasi pada penggunaan
data semi-terstruktur atau/dan data tidak terstruktur, tetapi sebagian
DWs dalam analisis data besar. Penulis di [39] menampilkan metode
besar adalah data terstruktur dalam DW [24], [25], [26], [27].
OLAP untuk data besar yang dieksekusi dengan Hadoop. Mereka fokus
pada analisis multidimensi untuk analisis data besar. Namun, mereka
tidak membahas evolusi data besar, yang berlaku untuk pekerjaan
penelitian yang diusulkan di [40] dan [26].

419 |Halaman
www.ijacsa.thesai.org
(IJACSA) Jurnal Internasional Ilmu Komputer dan Aplikasi Tingkat Lanjut,
Jil. 11, No. 8, 2020

Peneliti lain mempelajari masalah evolusi data besar. Dalam [41], database operasional dan kemudian, memproses data, membersihkan
penulis membahas metodologi untuk membangun sistem untuk dan mengubah (T) sebelum memuat (L) ke dalam DW atau data mart
analisis data besar. Namun, itu tidak dapat diterapkan dalam keadaan atau data mart virtual. DW dirancang untuk menangani dan menganalisis
data yang digunakan sebelumnya tidak disediakan. beban kerja yang berat untuk dibaca. DW perlu mendefinisikan model
data sebelum memuat data. Kemudian, mereka menyebut pendekatan
Penulis di [42] mempresentasikan pendekatan DW untuk analisis
Schema-On-Write, seperti yang disajikan pada Gambar. 2.
Big Data yang diimplementasikan menggunakan Map-Reduce.
Pendekatan ini menangani dua jenis perubahan: (1) versi skema dalam
variasi kontrol metadata dari tabel fakta dan (2) dimensi yang berubah - Mengumpulkan atau menangkap data dari sumber data Semi-
secara perlahan. Pendekatan ini tidak memproses perubahan dalam Terstruktur atau Tidak Terstruktur menggunakan Arsitektur ELT. Big
sumber data besar yang dapat memengaruhi proses dan hasil analisis. Data membutuhkan proses yang berbeda untuk mengumpulkan
data di mana ETL tradisional tidak bekerja dengan baik pada data
semi-Struktur atau tidak terstruktur. Big Data membutuhkan ELT.
IV. TDIA MELAMARLAKEDGUDANG ATA Data mentah akan disimpan dalam format aslinya. Langkah
SEBUAHRSITEKTUR preprocessing tidak akan digunakan sampai query atau aplikasi lain
Kontribusi kami bertujuan untuk mengadaptasi DW tradisional mengakui/meminta data ini. Dimana Data Lake berbeda dengan
untuk memecahkan tantangan baru dengan menangani data semi- DW melalui pengolahan data dalam urutan ELT dan memanfaatkan
terstruktur dan tidak terstruktur. Selain mengelola pertumbuhan pendekatan Schema-on-Read, seperti terlihat pada Gambar 2.
kebutuhan bisnis dan menangani dua kelemahan utama, yaitu
ketersediaan dan kinerja sistem. Selain itu, ini meningkatkan kinerja
Gambar. 2 menyajikan satu set komponen penting dari model
kueri dengan menyediakan data yang diperlukan dari pengguna kapan
kontribusi kami sebagai berikut:
saja.
A. Arsitektur Data Lake Berbasis Hadoop di
Di bagian ini, kami menyajikan arsitektur DW baru yang
Lingkungan Cloud
meningkatkan kinerja DW tradisional untuk menghadapi
tantangan ini. Kontribusi kami mengintegrasikan arsitektur DW Menggunakan Hadoop sebagai staging area untuk DW dengan
tradisional dengan teknologi data besar seperti Hadoop dan menambahkan Data Lake berbasis Hadoop yang merupakan storage
Apache Spark. repository yang digunakan untuk melengkapi DW tradisional. Ini digunakan
sebagai sumber data yang hanya meneruskan data yang diperlukan ke Data
Di era data besar, Kita perlu meningkatkan arsitektur DW untuk Lake dan menyerap data mentah dalam jumlah tak terbatas yang terkait
menangani tantangan baru yang ditimbulkan oleh data besar. Kerangka dengan tujuan bisnis. Seperti ditunjukkan pada Gambar 2, kami
Hadoop dan Apache Spark merupakan pelengkap untuk menangani mengeksplorasi arsitektur Data Lake berbasis Hadoop yang memiliki banyak
tantangan DW tradisional; masing-masing memiliki kelebihan dalam lapisan sebagai berikut:
keadaan yang berbeda. Dalam beberapa kasus, kita memerlukan Hadoop
Framework dan Apache Spark untuk memproses data tidak terstruktur atau 1) Menyerap lapisan data:menyerap data mentah dalam format asli,
semi terstruktur (data mentah) dan kumpulan data volume besar (data di mana data yang diserap dapat berupa micro-batch, macro-batch,
besar). Dengan kata lain, kami masih bergantung pada DW tradisional untuk batch, real-time, atau hybrid.
data yang konsisten dan berkualitas tinggi (data terstruktur), serta latensi 2) Lapisan data pendaratan:Tipe data yang berbeda (ditelan dalam
rendah dan laporan interaktif. lapisan sebelumnya) disimpan dalam format asli (tanpa pemrosesan).
Pada Gambar. 2, kami menjelaskan Arsitektur Danau DW yang Di lapisan ini, pengguna dapat menemukan versi data asli dari analisis
diusulkan. Dimana Hadoop dan Spark tidak menggantikan DW mereka untuk membantu penanganan selanjutnya.
tradisional dan Big Data akan mengubah arsitektur DW tradisional
tetapi tidak menggantikannya. Kontribusi kami bergantung pada
integrasi teknik DW tradisional, Hadoop Framework, dan Apache Spark
ke dalam solusi hybrid.

Jumlah besar data besar yang dihasilkan setiap menit dan setiap
jam membutuhkan danau data yang dapat diskalakan untuk
menangani volume ini. Oleh karena itu, kami menggunakan Hadoop
sebagai platform data untuk data lake untuk memberikan skalabilitas
yang luas dengan biaya yang dapat diterima. Selain itu, Data Lakes
dapat dilengkapi DW selain kerangka Hadoop. Juga, Data Lakes dapat
dilengkapi DW selain kerangka Hadoop. Arsitektur yang kami usulkan
membedakan dirinya dari semua pekerjaan sebelumnya. Ini adalah
lingkungan hibrida yang meningkatkan DW tradisional dengan
lingkungan Hadoop tergantung pada Data Lake berbasis Hadoop
karena dapat memperluas penggunaan dan kemampuan DW
tradisional, sebagai berikut: Gbr. 2. Arsitektur Lake Data Warehouse (DW) yang diusulkan

- Mengumpulkan atau menangkap data dari sumber data


3) Lapisan Metadata:bertanggung jawab untuk membuat data mudah untuk
terstruktur menggunakan Arsitektur ETL. DW bergantung
mengakses dan mengekstrak nilai dari Data Lake. Ini membantu untuk membuat
pada proses ETL tradisional; dari mana ekstrak (E) data dari

420 |Halaman
www.ijacsa.thesai.org
(IJACSA) Jurnal Internasional Ilmu Komputer dan Aplikasi Tingkat Lanjut,
Jil. 11, No. 8, 2020

identifikasi, versi data, entitas dan atribut, distribusi, mengumpulkan dan memproses data Internet of Things (IoT). Kami
kualitas. menyediakan kumpulan data sensor IoT demo untuk tujuan
4) Lapisan Data Tata Kelola:berlaku untuk lapisan lainnya. Dia demonstrasi. Data mensimulasikan data detak jantung yang diukur
oleh perangkat pelacak kesehatan. Setiap file terdiri dari lima
bertanggung jawab atas otentikasi, akses data, keamanan
pengguna yang detak jantungnya diukur setiap jam, 24 jam sehari,
data, kualitas data, dan siklus hidup data. Ini menentukan
setiap hari. Kami menyimpan dataset di data lake sebagai file
tanggung jawab mengatur hak untuk mengakses dan
JSON. Kami menggunakan dua file data dalam format JSON, file
menangani data. pertama untuk pembacaan yang direkam oleh perangkat pada
B. Arsitektur Delta Lake dengan Apache Spark Cloud Januari 2020 (health_tracker_data_2020_01.json), dan file kedua
Environment untuk pembacaan yang direkam oleh perangkat untuk Februari
2020 (health_tracker_data_2020_02.json).
Teknologi Delta Lake digunakan dengan Apache Spark untuk
mengimplementasikan model yang kami usulkan dengan membuat platform Kami menerapkan pada Data Lake, Delta Lake, dan Apache Spark di
data cloud untuk memecahkan tantangan Data Lake, seperti )1) kualitas data Databricks, yang menyediakan platform terintegrasi untuk bekerja
rendah, )2) membaca dan menulis tidak dijamin, )3) kinerja tidak memadai dengan Apache Spark. Saat bekerja dengan Delta Lake, file Parket dapat
dengan volume data yang terus bertambah, dan )4) sulit memperbarui dikonversi di tempat ke file Delta. Selanjutnya, kita akan mengubah
catatan [43]. Seperti yang disajikan pada Gambar. 2, Arsitektur Danau Delta tabel data lake berbasis Parket yang telah kita buat sebelumnya
memiliki dua lapisan: menjadi tabel Delta.

1)Lapisan atom akan menjadi tabel Delta Perak yang dibangun A. Konfigurasi Apache Spark
menggunakan Penyimpanan Objek, dan 1)Membuat cluster ClustreHelthTracher adalah
2)Lapisan Departemen akan menjadi sejumlah Emas sumber daya komputasi yang digunakan untuk menjalankan ilmu
Tabel Delta juga dibangun di atas Object Storage. Kami menggunakan Spark dan data dan analitik data seperti proses ETL, analitik ad-hoc, dan
menyimpan semua data dalam format Apache Parket yang memungkinkan Delta analitik streaming.
Lake memanfaatkan kompresi asli yang terorganisir dengan baik ke 2)Konfigurasi Apache Spark, kita perlu
Parket. melakukan beberapa operasi konfigurasi pada sesi Apache Spark untuk
Apache Spark digunakan untuk membaca dan memproses file dan kumpulan mendapatkan kinerja yang optimal. Ini akan mencakup pembuatan
data berukuran besar. Spark menyediakan mesin kueri yang mampu memproses
database untuk menyimpan data, seperti yang ditunjukkan dalam skrip
data dalam file data besar. Beberapa pekerjaan Spark paling signifikan di dunia
Spark SQL berikut:
dijalankan dengan data Petabyte. Apache Parket memiliki format sebagai file
kolumnar yang bertanggung jawab untuk optimasi agar kueri lebih cepat [44]. Ini
adalah format file yang lebih efisien daripada file JSON. Sangat cocok untuk
pengolahan data di Hadoop. Ini menyediakan metode yang efisien untuk
menangani kumpulan data yang kompleks. 3)Sebagai tambahan untuk mengonfigurasi jumlah shuffle
partisi seperti yang ditunjukkan dalam skrip Spark SQL berikut:
Perbedaan utama antara kontribusi kami Arsitektur Danau
DW atas DW tradisional sebagai berikut:

-Menangani berbagai tipe data (data terstruktur, semi


B. Mengimpor data dari Data Lake ke Delta Lake oleh
terstruktur, dan tidak terstruktur) dari berbagai sumber.
ETL Apache Spark
-Mengekstrak, menyimpan, mengelola, dan menganalisis volume data Kami mengimpor data dari Data Lake kami dan menyimpannya ke
yang tidak dapat ditangani oleh DW tradisional. Delta Lake sebagai file Parket.Kami menambahkan catatan bulan
pertama dan disimpan dihealth_tracker_data_2020_02.jsonmengajukan
- Mengintegrasikan antara teknik DW tradisional, Hadoop
dengan menggunakan proses ETL dari Apache Spark. Sebagai
Framework, dan Apache Spark sebagai solusi hybrid. Ini
tambahan untuk mengkonfigurasi jumlah partisi shuffle seperti yang
menggunakan proses ETL atau ELT tergantung pada jenis
disajikan dalam skrip bahasa Python berikut:
sumber data.

- Mendukung berbagai tipe data di berbagai sumber.

- Menentukan dan menganalisis data dari Data Lake dan Delta Lake,
mereka menskalakan ke volume data yang ekstrem.

- Mendukung semua pengguna, khususnya Data scientist, karena dapat


melakukan analisis yang mendalam.

V.CASESTUDY
Tujuan kami dari bagian ini adalah untuk bereksperimen dengan kontribusi kami
untuk membuktikan keefektifannya dalam menangani data besar dan menganalisisnya
untuk pembuat keputusan. Studi kasus ini menunjukkan bagaimana model yang kami
usulkan dapat mengekstrak, mengintegrasikan, dan menganalisis data besar yang tidak
dapat ditangani oleh DW tradisional. Kami menggunakan Data Lake untuk

421 |Halaman
www.ijacsa.thesai.org
(IJACSA) Jurnal Internasional Ilmu Komputer dan Aplikasi Tingkat Lanjut,
Jil. 11, No. 8, 2020

Pada Gambar. 3, kami memvisualisasikan data sensor dari waktu ke waktu,


seperti yang ditampilkan dalam skrip Spark SQL berikut:

2) Daftarkan Tabel Delta:kami akan mendaftarkan meja di


Metastore. Perintah Spark SQL akan secara otomatis
menyimpulkan skema data dengan membaca footer file Delta,
seperti yang ditunjukkan dalam skrip Spark SQL berikut:

Dengan Delta Lake, tabel Delta siap menggunakan log


transaksi yang disimpan dengan file Delta yang berisi semua
Gambar 3. Data sensor dari waktu ke waktu.
metadata yang diperlukan untuk kueri segera. Kami menghitung
catatan dikesehatan_pelacak_peraktabel dengan kueri Spark SQL
C. Membuat Tabel Data Lake berbasis Parket sebagai berikut:
Kami mengonversi file Parket yang ada ke tabel data lake
berbasis Parket yang akan digunakan ke tabel Delta. Kami akan
menulis file ke lokasi root Databricks File System (DBFS) di
penyimpanan objek cloud kami. Kami membuat tabel
menggunakanBuat Tabel Sebagai Pilihan(CTAS) pola Spark SQL
seperti yang ditunjukkan pada skrip berikut:
E. Membuat Tabel Delta agregat: Lapisan
Departemen Danau Delta
Kami membuat tabel Delta baru (tabel agregat) dari data di
kesehatan_track_silvermeja delta. Kami membuat
health_tracker_user_analyticsDelta tabel statistik ringkasan untuk
setiap perangkat. Kami menggunakan Create Table As Select
(CTAS) Spark SQL seperti yang ditunjukkan pada skrip berikut:

Hitung catatan dikesehatan_pelacak_perakmeja. Kami berharap


memiliki 3720 catatan: lima pengukuran perangkat, 24 jam sehari
selama 31 hari,seperti yang ditunjukkan dalam skrip Spark SQL berikut:

F. Menggali hasil analisis


Tabel health_tracker_user_analytics dapat digunakan untuk
menentukan dasbor untuk menganalisis hasil sesuai dengan
D. Mengonversi Tabel Data Lake berbasis Parket yang Ada kebutuhan bisnis seperti yang disediakan pada Gambar. 4 yang
menjadi tabel Delta: Lapisan Atom Delta Lake menggambarkan hasil agregasi seperti data maksimum, minimum, dan
Tabel Delta terdiri dari tiga hal: (1) File Delta yang berisi data dan rata-rata, seperti yang disajikan dalam skrip Spark SQL berikut:
disimpan dalam penyimpanan objek. (2) Tabel Delta yang terdaftar di
meta-store Hive pusat yang dapat diakses oleh semua cluster untuk
menyimpan metadata tabel. (3) Log Transaksi Delta (catatan berurutan
dari setiap transaksi) disimpan dengan file Delta di penyimpanan objek.
Untuk Mengonversi Tabel Data Lake berbasis Parket yang Ada menjadi
tabel Delta dengan menggunakan langkah-langkah berikut:

1) Konversi File ke File Delta:Kami mengonversi file


di tempat untuk file Parket. Konversi membuat log transaksi
Delta Lake yang melacak file. Sekarang, direktori adalah
direktori file Delta, seperti yang ditunjukkan pada skrip Spark
SQL berikut:
Gambar 4. Analisis hasil sesuai kebutuhan bisnis.

422 |Halaman
www.ijacsa.thesai.org
(IJACSA) Jurnal Internasional Ilmu Komputer dan Aplikasi Tingkat Lanjut,
Jil. 11, No. 8, 2020

G. Menambahkan File ke Tabel Delta yang Ada (Tulisan data


batch ke Tabel Delta)
Kami mengonversi file Parket yang ada ke tabel data lake
berbasis Parket yang akan digunakan ke tabel Delta. Kami akan
menulis file ke lokasi root Databricks File System (DBFS) di
penyimpanan objek cloud kami. Kami membuat tabel
menggunakanBuat Tabel Sebagai Pilihan(CTAS) pola Spark SQL
seperti yang ditunjukkan pada skrip berikut:

H. Menggali hasil analisis


Kita dapat memodifikasi tabel Delta yang ada dengan
menambahkan file ke direktori file Delta yang ada. Kami menambahkan Gambar 5. Tidak adanya catatan.
catatan bulan berikutnya, disimpan didata_pelacak_kesehatan_2020_02
tabel dengan menggunakanINSERT INTOPerintah Spark SQL seperti K. Identifikasi Bacaan Rusak pada Tabel
yang ditunjukkan pada skrip berikut: Dalam pemuatan awal data ke dalamkesehatan_pelacak_perak
tabel, kami mencatat bahwa ada catatan yang rusak dalam data. Secara
khusus, kami mencatat fakta bahwa beberapa pembacaan negatif ada
meskipun tidak mungkin untuk merekam detak jantung negatif. Mari
kita menilai sejauh mana pembacaan yang rusak ini di tabel kita.
Pertama, kami membuat tampilan sementara untuk pembacaan yang
rusak di tabel health_tracker_silver, seperti yang ditunjukkan dalam
skrip Spark SQL berikut:
I. Menilai Catatan yang Hilang
Setelah pembaruan batch darikesehatan_pelacak_peraktabel,
kami menghitung jumlah catatan dalam tabel. Kami menemukan
bahwa beberapa catatan hilang olehHitung Jumlah Catatan per
Perangkat.
Selanjutnya, kami menjumlahkan catatan dalam tampilan, seperti yang ditunjukkan
dalam kueri Spark SQL berikut:

J. Menilai Catatan yang Hilang PILIH SUM(broken_readings_count) DARI


broken_readings
Setelah pembaruan batch tabel health_tracker_silver, kami
menghitung jumlah catatan di tabel . Kami menemukan bahwa Hasil: 67
beberapa catatan hilang dengan Hitung Jumlah Catatan per
Perangkat. VI. CKESIMPULAN
Banyak perusahaan menggunakan DW di berbagai area untuk
TABEL I. TDIANJUMLAHREKORPERDPERANGKAT
membantu proses pengambilan keputusan. Selain itu, DW
ID Perangkat Jumlah Catatan meningkatkan kecerdasan bisnis, kualitas dan konsistensi data,
menghemat waktu, dan menyimpan data historis. Di era Big Data,
0 1440
jumlah data yang dibutuhkan untuk menyerap dan menyimpan adalah
1 1440
tingkat yang belum pernah terjadi sebelumnya. Namun, arsitektur DW
2 1440 tradisional tidak dapat mengelola data dalam jumlah besar tersebut.
3 1440 Tipe barunya dari sumber data saat ini bersifat otonom, heterogen,
4 1345 terukur, dan terdistribusi, yang membutuhkan teknologi modern dan
arsitektur DW modern untuk menanganinya.
Pada Tabel I, perangkat nomor 4 terlihat kehilangan 95 record. Kami
menjalankan kueri untuk menemukan waktu catatan yang hilang dengan Dalam makalah ini, kami mengusulkan arsitektur DW baru
menampilkan jumlah catatan per hari. Kami tidak memiliki catatan untuk yang disebut Arsitektur Gudang Data Danau. Lake Data Warehouse
perangkat 4 selama beberapa hari terakhir dalam sebulan, seperti yang Architecture adalah struktur DW baru yang bergantung pada
ditunjukkan dalam kueri Spark SQL berikut: integrasi antara teknik DW tradisional, Hadoop Framework, dan
PILIH dte sebagai Tanggal, p_device_id sebagai Device_Id,
Apache Spark sebagai solusi hybrid. Ini membiasakan DW
detak jantung sebagai Heart_Rate_Reading tradisional. Ini menggunakan teknologi dan alat data besar
DARI health_tracker_silver (Hadoop, Apache Spark, Data Lake, dan Delta Lake) sebagai
DI MANA p_device_id IN (1, 4) dan dte > "20-2-2020" pelengkap untuk mendukung dan meningkatkan arsitektur yang
Pada Gambar 5, tidak adanya catatan dari beberapa hari terakhir dalam ada. Selain itu, dapat meningkatkan skalabilitas dan mengurangi
sebulan menunjukkan fenomena yang mungkin sering terjadi dalam jalur biaya pengembangan arsitektur DW tradisional.
data produksi: data yang datang terlambat. Delta Lake memungkinkan kami
untuk memproses data saat tiba dan siap menangani terjadinya data yang Arsitektur Gudang Data Lake memiliki banyak kompetensi dibandingkan
datang terlambat. Arsitektur DW tradisional, seperti memecahkan beberapa masalah yang
dihadapi mengintegrasikan data dari penyimpanan data besar,

423 |Halaman
www.ijacsa.thesai.org
(IJACSA) Jurnal Internasional Ilmu Komputer dan Aplikasi Tingkat Lanjut,
Jil. 11, No. 8, 2020

menangani tipe data yang berbeda dari berbagai sumber. Seperti data [22] Tantangan HD, S. Gupta, dan V. Giri, Wawasan Danau Data Perusahaan
terstruktur (DB, spreadsheet), data semi terstruktur (file XML, file JSON), Praktis. Apres, 2018.
dan data tidak terstruktur (file video, audio, gambar, email, kata, [23] A. Gorelik, Danau data besar perusahaan: Menyampaikan janji tentang data
besar dan ilmu data. O'Reilly Media, 2019.
PowerPoint, pdf). Selain itu, ia menangkap, menyimpan, mengelola, dan
[24] C. Madera dan A. Laurent, Evolusi arsitektur informasi berikutnya:
menganalisis volume data yang tidak dapat ditangani oleh DW
Gelombang danau data,‖ 8th Int. Kon. Kelola. Angka. ekosistem.
tradisional. Selanjutnya, ia menggunakan teknologi terbaru seperti MEDES 2016, hlm. 174–180, 2016.
Hadoop Platform, Data Lake, Delta Lake, dan Apache Spark yang murah [25] Lei Zhang, Apa perbedaan antara database, data mart, gudang
untuk meminimalkan waktu yang dihabiskan untuk menganalisis data data, danau data, dan kubus?,‖ quora, 2016. [Online]. Tersedia:
dan untuk mengurangi biaya penyimpanan. https://www.quora.com/. [Diakses: 15-Feb-2019].
[26] MY Santos, B. Martinho, dan C. Costa, Memodelkan dan mengimplementasikan
REFERENSI gudang data besar untuk dukungan keputusan, J. Manag. Anal., vol. 4, tidak. 2, hlm.
[1] F. Silvers, Membangun dan memelihara gudang data. CRC Pers, 111–129, 2017.
2008. [27] F. Ravat dan Y. Zhao, Data Lakes: Trends and Perspectives, di Springer
[2] T. John, Data Lake untuk Perusahaan. Packt Publishing Ltd, 2017. Nature Switzerland AG 2019, 2019, vol. 2, tidak. Umr 5505, hlm. 304–
313.
[3] MZ Zgurovsky dan YP Zaychenko, Data Besar: Analisis Konseptual
dan Aplikasi. Springer Nature Swiss AG, 2020. [28] AT Spark, Apache Spark,‖ no. 1, hlm. 39–53, 2018.
[4] WH Inmon, Membangun Gudang Data, Edisi Keempat, vol. 13, tidak. [29] MM Rathore, H. Son, A. Ahmad, A. Paul, dan G. Jeon, Pemrosesan Aliran Data
401. 2005. Besar Waktu Nyata Menggunakan GPU dengan Ekosistem Spark Over
Hadoop,‖ Int. J. Program Paralel., vol. 46, tidak. 3, hlm. 630–646, 2018.
[5] E. Saddad, A. El-Bastawissy, O. Hegazy, dan M. Hazman, Towards an
Alternative Data Warehouses Architecture, in 14th International [30] T. Mahapatra dan C. Prehofer, Pemrograman Spark berbasis Aliran
Conference on Hybrid Intelligent Systems (HIS 2014), Kuwait, 14-16 Grafis, vol. 7, tidak. 1. Penerbitan Internasional Springer, 2020.
Desember , 2014 (IEEE, Poster), 2014, vol. 6, hlm. 48–53. [31] Microsoft Team, Pengantar Delta Lake - Azure Databricks |
[6] K. Krishnan, Data Warehousing di Era Big Data. Elsevier Inc., 2013. MicrosoftDocs,‖2020.[Online].Tersedia: https://
docs.microsoft.com/en-us/azure/databricks/delta/delta-intro.
[7] RG Goss dan K. Veeramuthu, Menuju big data membangun gudang data yang
[Diakses: 26-Mei-2020].
lebih baik untuk lebih banyak data, lebih banyak kecepatan, dan lebih [32] A. Wojciechowski, ETL alur kerja reparasi melalui penalaran berbasis kasus,‖
banyak pengguna, di ASMC 2013 SEMI Advanced Semiconductor Inf. Sistem Depan., vol. 20, tidak. 1, hlm. 21–43, 2018.
Manufacturing Conference, 2013, hlm. 220–225. [33] F. Bentayeb, C. Favre, dan O. Boussaid, Pendekatan evolusi gudang data yang
[8] A. Sebaa, F. Chikh, A. Nouicer, dan A. Tari, Research in Big Data Warehousing digerakkan pengguna untuk kebutuhan analisis pribadi yang bersamaan,‖ Integr.
using Hadoop, J. Inf. Sistem Ind. Manajemen., vol. 2, tidak. 2, hlm. 1-5, 2017. Hitung. Dibantu. Ind., vol. 15, tidak. 1, hlm. 21–36, 2008.
[34] G. Thakur dan A. Gosain, DWEVOLVE: kerangka kerja berbasis
[9] WH Inmon dan D. Linstedt, Arsitektur Data: A Primer untuk Data Scientist: kebutuhan untuk evolusi gudang data,‖ ACM SIGSOFT Softw. Ind.
Big Data, Data Warehouse dan Data Vault. 2014. Catatan, vol. 36, tidak. 6, hlm. 1–8, 2011.
[10] CL Philip Chen dan CY Zhang, Aplikasi, tantangan, teknik, dan [35] W. Ahmed, E. Zimányi, dan R. Wrembel, Model logis untuk gudang data
teknologi Data-intensif: Sebuah survei tentang Big Data, vol. multiversi, dalam Konferensi Internasional tentang Pergudangan Data
275. Elsevier Inc., 2014. dan Penemuan Pengetahuan, 2014, hlm. 23–34.
[11] VKA Arockia Panimalar. S, Varnekha Shree. S, The 17 V dari Big Data,‖ [36] M. Thenmozhi dan K. Vivekanandan, Sebuah pendekatan ontologis untuk
Int. Res. J. Eng. Teknologi., vol. 4, tidak. 9, hlm. 3–6, 2017. menangani evolusi skema multidimensi untuk gudang data,‖ Int. J.
Manajemen Basis Data. Sistem, vol. 6, tidak. 3, hal. 33, 2014.
[12] N. Khan, M. Alsaqer, H. Shah, G. Badsha, AA Abbasi, dan S.
Salehian, The 10 Vs, isu dan tantangan big data,‖ ACM Int. Kon. [37] C. Olston et al., Nova: alur kerja babi/hadoop berkelanjutan, dalam
Lanjutkan Ser., no. Maret, hlm. 52–56, 2018. Prosiding Konferensi Internasional ACM SIGMOD 2011 tentang
[13] R. Rialti dan G. Marzi, Organisasi Ambidextrous di Era Big Data. Pengelolaan data, 2011, hlm. 1081–1090.
Cham: Penerbitan Internasional Springer, 2019. [38] S. Nadal, O. Romero, A. Abello, P. Vassiliadis, dan S. Vansummeren,
Ontologi berorientasi integrasi untuk mengatur evolusi dalam ekosistem big
[14] A. Khaleel dan H. Al-Raweshidy, Optimasi Komputasi dan Sumber Daya
data,‖ Inf. Sistem, vol. 79, hlm. 3–19, 2017.
Jaringan dari Cluster Hadoop Berdasarkan Jaringan yang Ditentukan
Perangkat Lunak,‖ IEEE Access, vol. 6, tidak. c, hlm. 61351–61365, 2018. [39] J. Song, C. Guo, Z. Wang, Y. Zhang, G. Yu, dan J.-M. Pierson,
HaoLap: Sistem OLAP berbasis Hadoop untuk data besar,‖ J. Syst. Softw., vol.
[15] IB Lars George, Jan Kunigk, Paul Wilkinson, Merancang Platform Data Modern:
102, hlm. 167–181, 2015.
Panduan untuk Enterprise Hadoop dalam Skala Besar. O'Reilly Media, 2019.
[40] W. Chen, H. Wang, X. Zhang, dan Q. Lin, Sistem OLAP terdistribusi yang
dioptimalkan untuk data besar, pada Konferensi Internasional IEEE ke-2
[16] Z. Yang dan X. Guo, Mengajar Hadoop Menggunakan Role Play Games,‖ Putus. Sci. J.
2017 tentang Kecerdasan dan Aplikasi Komputasi (ICCIA), 2017, hlm. 36– 40.
Inovasi. Pendidikan, vol. 18, tidak. 1, hlm. 6–21, 2020.
[17] J. Liu, S. Tang, G. Xu, C. Ma, dan M. Lin, Metode Penyetelan Konfigurasi
Novel Berdasarkan Seleksi Fitur untuk Hadoop MapReduce, IEEE [41] R. Tardio, A. Mate, dan J. Trujillo, Metodologi iteratif untuk manajemen,
Access, vol. 8, hlm. 63862–63871, 2020. analisis, dan visualisasi big data,‖ pada 2015 IEEE International
Conference on Big Data (Big Data), 2015, hlm. 545–550 .
[18] C. Walker dan H. Alrehamy, Danau Data Pribadi dengan Tarik Gravitasi
Data,‖ Proc. - 2015 IEEE 5th Int. Kon. Komputasi Awan Data Besar. [42] S. Chen, Cheetah: kinerja tinggi, gudang data kustom di atas
BDCloud 2015, hlm. 160–167, 2015. MapReduce,‖ Proc. VLDB Endow., vol. 3, tidak. 1–2, hlm. 1459–
1468, 2010.
[19] PP Khine and ZS Wang, Data lake: a new ideology in big data era, ITM
Web Conf., vol. 17, tidak. Desember, hal. 03025, 2018. [43] K. Akepanidtaworn, 'Apakah 'Danau Delta' Menggantikan 'Danau Data'? -
Dev Dream Team - Medium,‖ 2020. [Online]. Tersedia: https://
[20] A. Panwar dan V. Bhatnagar, Arsitektur Danau Data: Repositori Baru medium.com/dev-dream-team/is-delta-lake-replacing-data-
untuk Insinyur Data,‖ Int. J.Organ. Mengumpulkan. Intel., vol. 10, tidak. lakes-49f1caddc646. [Diakses: 26-Mei-2020].
1, hlm. 63–75, 2020.
[44] Tim Databricks, Parquet files — Databricks Documentation,‖ 04/03,
[21] P. Russom, Danau data: tujuan, praktik, pola, dan platform, hlm. 1– 2020. [Online]. Tersedia: https://docs.databricks.com/data/datasources/
42, 2017. read-parquet.html#parquet-files. [Diakses: 25-Mei-2020]

424 |Halaman
www.ijacsa.thesai.org

Anda mungkin juga menyukai