Anda di halaman 1dari 3

ETL dan ELT

Pengenalan ETL
ETL adalah singkatan dari Extract, Transform, dan Load. ETL berperan untuk membentuk data
yang siap dianlisis dari sumber data yang sudah ada. Caranya dengan menggabungkan fact dan
dimension table untuk mendapatkan data lengkap.

Sistem kerja ETL

Extract Transform Load

Pengambilan data Setelah diproses, Data di-load ke data


dari sumber data ke dilakukan proses warehouse sebagai
area staging layer. transformasi data. bahan analisis.

ETL memproses data dari data transaksi yang disebut Online Transaction Processing (OLTP)
sehingga bisa disimpan kembali menjadi Online Analytical Processing (OLAP).

Alasan membutuhkan ETL


1. Formatnya belum terstandarisasi
Hal ini terjadi karena naming convention yang belum benar.
2. Data type yang belum terstandarisasi
Hal ini biasa terjadi karena perbedaan penggunaan antara integer dan string, sehingga
menimbulkan kesalahan dalam pemrosesan data. Selain itu, lakukan pengecekan keperluan
rounding dan jumlah angka yang memengaruhi pemrosesan data transaksional.

01
3. Data null atau string kosong
Untuk kesalahan ini, perlu dilakukan pengecekan mengenai izin penggunaan data null, dan
pengaruhnya pada operasional pengaksesan data.
4. Data yang duplikat
Jika menemukan data duplikat, berarti perlu dilakukan deduplikasi (distinct) untuk
menghilangkan data-data yang duplikat. Namun pengguna perlu mengecek backend system lebih
lanjut mengenai penerimaan data duplikat.
5. Ukuran data yang besar
Karena ukuran data yang besar, maka pengguna membutuhkan waktu lebih lama untuk
memproses data. Dengan demikian, dibutuhkan resource mesin yang besar.

Langkah-langkah membuat tabel OLAP


1. Berdiskusi dengan tim management, data analyst, dan data scientist mengenai data yang
dibentuk, naming convention-nya, dan bentuk datanya.
2. Seragamkan data source, dengan menganalisis untuk menentukan tabel yang digunakan sebagai
data source.
3. Tentukan cara atau prosedur transformasi, yaitu menentukan penggunaan batch atau streaming
proses, tools, atau sekadar query.
4. Tentukan cara mengambil data dari source
 Jika data berupa batch dan terletak pada database, artinya proses pengambilan data cukup
dengan query.
 Jika data source tidak hanya di database, artinya proses pengambilan data dapat menggunakan
library tertentu.
 Jika data berupa streaming, artinya proses pengambilan data dapat menggunakan streaming
consumer untuk mengambil data secara real time dari streaming producer.

Jenis-jenis source untuk memproses ETL


1. Database, bisa berupa RDBMS, SQL dabatase, dan NoSQL database.
2. File, bisa dari Json, CSV, Avro, dan Parquet.
3. API

02
Cara terbaik mendapatkan source adalah dengan mengumpulkan seluruh data menjadi 1,
menyimpannya sebagai file, dan diubah menjadi Json format.

Pengenalan ELT
ELT adalah singkatan dari Extract, Load, dan Transform. Seluruh proses ELT berada pada database
yang berfungsi sebagai data lake. Biasanya ELT hanya digunakan saat membutuhkan proses query
dan mentranformasi data warehouse ke akses level yang lebih tinggi.

Perbedaan ETL dengan ELT

ETL ELT
1. ETL menyimpan data pada staging server 1. ELT menggunakan source dan destination
terlebih dahulu, kemudian di-load ke tempat yang sama.
berbeda.
2. Waktu development cenderung lebih 2. Waktu development cenderung lebih
lama, karena menggunakan framework atau singkat, karena cukup menggunakan query
tools tertentu sesuai kebutuhan. based.
3. ETL dapat menggabungan berbagai data, 3. ELT menggabungkan data di data lake,
dari internal dan eksternal. sehingga memudahkan proses denormalisasi
data.

03

Anda mungkin juga menyukai