Data Engineer
Data engineer adalah seseorang yang membangun, mengembangkan, menguji, dan memelihara
arsitektur database, dan sistem pemrosesan dalam skala besar.
01
Perbedaan Data Warehouse dengan Data Warehousing
Data warehouse adalah tempat penyimpanan data untuk pengolahan data Online Analytical
Processing (OLAP). Sementara, data warehousing adalah tata cara untuk membentuk data
warehouse sesuai dengan kebutuhan bisnis.
Normalisasi vs Denormalisasi
Normalisasi adalah metode dalam database untuk mengurangi data redundancy dan mengurangi
data inconsistency. Data redundancy terjadi ketika data yang sama tersimpan berulang kali di
tempat berbeda. Data yang redundan berpotensi menjadi data yang tidak konsisten.
Sementara, denormalisasi adalah sebuah metode yang bertujuan untuk mempermudah dan
mempercepat pengambilan data.
Dimensional modeling adalah teknik yang digunakan untuk menyajikan data analitik untuk
menyajikan data yang dimengerti pengguna bisnis. Dimensional modeling terbagi menjadi 2 macam
tabel, yaitu:
1. Fact table
2. Dimension table (reference table/lookup table)
02
Fact table adalah tabel yang merepresentasikan sebuah bisnis yang sedang berjalan. Fact table
akan menjadi tabel utama dalam data model, dan berisikan transactional data bersifat angka.
Dimension table adalah tabel yang menyimpan informasi keterangan detail (labeling) tentang
entity dalam fact table.
Database
Database adalah kumpulan data yang terorganisir dan digunakan untuk penyimpanan, pencarian,
dan pengambilan data secara cepat.
Sementara, RDBMS SQL software merupakan singkatan dari Relational Database Management
System. RDBMS SQL adalah database yang memiliki kaitan antara data satu dengan data lainnya.
RDBMS software menggunakan Structured Query Language (SQL) untuk membuat, mengakses,
meng-update, atau menghapus data dalam database.
03
2. Database menyimpan tabel yang teroganisir, sementara file system tidak. Tiap file terdiri atas
nama file sebagai key dan metadata yang menyimpan data tentang karakteristik file tersebut.
3. Database memiliki 3 fitur menarik, yaitu pencarian (select data), replikasi data untuk membuat
data menjadi high available, serta indexing dan vacuuming untuk meningkatkan performa
pencarian. Sementara, file system hanya mempunyai fungsi untuk menyimpan data.
Hadoop Distributed File System (HDFS) adalah distributed file system yang berfungsi menyimpan
dan mengolah data besar yang dibagikan dalam kluster Hadoop file system.
Map Reduce
Map reduce adalah inti dari Hadoop dan dibentuk supaya Hadoop dapat mendistribusikan proses
data dalam cluster. Tujuannya agar cluster dapat memproses data dalam jumlah besar secara
paralel.
Cloud Computing
Cloud computing adalah model komputasi yang memberikan on demand akses network dan
sharing komputasi online. Cloud computing digunakan untuk mengatur, menyimpan, dan
memproses data secara online melalui internet.
04
Pengenalan ETL
ETL adalah singkatan dari Extract, Transform, dan Load. ETL berperan untuk membentuk data
yang siap dianlisis dari sumber data yang sudah ada. Caranya dengan menggabungkan fact dan
dimension table untuk mendapatkan data lengkap.
Pengenalan ELT
ELT adalah singkatan dari Extract, Load, dan Transform. Seluruh proses ELT berada pada database
yang berfungsi sebagai data lake. Biasanya ELT hanya digunakan saat membutuhkan proses query
dan mentranformasi data warehouse ke akses level yang lebih tinggi.
ETL ELT
1. ETL menyimpan data pada staging server 1. ELT menggunakan source dan destination
terlebih dahulu, kemudian di-load ke tempat yang sama.
berbeda.
2. Waktu development cenderung lebih 2. Waktu development cenderung lebih
lama, karena menggunakan framework atau singkat, karena cukup menggunakan query
tools tertentu sesuai kebutuhan. based.
3. ETL dapat menggabungan berbagai data, 3. ELT menggabungkan data di data lake,
dari internal dan eksternal. sehingga memudahkan proses denormalisasi
data.
05