Anda di halaman 1dari 5

RANGKUMAN

Data Engineer
Data engineer adalah seseorang yang membangun, mengembangkan, menguji, dan memelihara
arsitektur database, dan sistem pemrosesan dalam skala besar.

Alasan Membutuhkan Data Engineer


1. Memudahkan proses penyusunan data
Data harus dihimpun secara beraturan agar bisa mendapatkan data yang utuh dan saling
berhubungan dengan data lainnya.
2. Data tidak dapat digunakan untuk analisis secara langsung
Data perlu ditransformasi oleh data engineer agar dapat dianalisis.
3. Data masih kotor
Data kotor memiliki 5 kriteria, yaitu:
 Data yang tidak lengkap
 Null atau hilang
 Tidak valid
 Tidak konsisten
 Data duplikat

Tools yang Digunakan oleh Data Engineer


1. Database, yaitu kumpulan data yang disimpan secara sistematis dalam suatu tempat yang dapat
diakses dan diolah. Biasa menggunakan relational database.
2. Job scheduler, yang berfungsi untuk mengatur waktu dan dependensi dari suatu job.
3. Big data platform, yaitu platform yang digunakan untuk mengambil, memproses, dan

menyimpan data dalam jumlah besar.

01
Perbedaan Data Warehouse dengan Data Warehousing
Data warehouse adalah tempat penyimpanan data untuk pengolahan data Online Analytical
Processing (OLAP). Sementara, data warehousing adalah tata cara untuk membentuk data
warehouse sesuai dengan kebutuhan bisnis.

Pengenalan Data Modeling


Data modeling adalah proses untuk mendesain struktur dan format data di dalam database. Dalam
aktivitasnya, data modeling dilakukan untuk mengubah data mentah menjadi bentuk yang lebih
mudah digunakan dalam kebutuhan bisnis.

Normalisasi vs Denormalisasi
Normalisasi adalah metode dalam database untuk mengurangi data redundancy dan mengurangi
data inconsistency. Data redundancy terjadi ketika data yang sama tersimpan berulang kali di
tempat berbeda. Data yang redundan berpotensi menjadi data yang tidak konsisten.
Sementara, denormalisasi adalah sebuah metode yang bertujuan untuk mempermudah dan
mempercepat pengambilan data.

Skema Data Warehouse dalam Relasi Tabel


Di dalam data warehouse, ada 2 tabel tersimpan, yaitu normalized dan denormalized. Tabel-tabel
tersebut membentuk relasi satu dengan lain. Terdapat 2 skema untuk mendesain relasi, yaitu:
1. Star schema (skema bintang)
2. Snowflake schema (skema butiran salju)

Pengenalan Dimensional Modeling

Dimensional modeling adalah teknik yang digunakan untuk menyajikan data analitik untuk
menyajikan data yang dimengerti pengguna bisnis. Dimensional modeling terbagi menjadi 2 macam
tabel, yaitu:
1. Fact table
2. Dimension table (reference table/lookup table)

02
Fact table adalah tabel yang merepresentasikan sebuah bisnis yang sedang berjalan. Fact table
akan menjadi tabel utama dalam data model, dan berisikan transactional data bersifat angka.

Dimension table adalah tabel yang menyimpan informasi keterangan detail (labeling) tentang
entity dalam fact table.

Slowly Changing Dimension


Slowly changing dimension (SCD) adalah dimension table yang lebih mudah berubah secara
perlahan daripada berubah seketika dalam scheduling waktu tertentu. Dimensi ini dapat
menyimpan nilai atau data lama.

Jenis Data Storage


1. Direct Attached Storage (DAS), adalah media penyimpanan yang murah dan mudah digunakan.
2. Network Attached Storage (NAS), adalah media penyimpanan yang memiliki hasil berbentuk file,
sehingga sering disebut file based storage.
3. Storage Area Network (SAN), adalah media yang biasa disebut dengan block based storage. SAN
memiliki partisi yang disediakan Cloud provider, dan dapat diakses menggunakan platform Cloud
provider masing-masing.
4. Object cloud storage, adalah media penyimpanan berbasis obyek yang merujuk pada cara
mengatur dan bekerja dengan unit penyimpanan yang disebut obyek.

Database
Database adalah kumpulan data yang terorganisir dan digunakan untuk penyimpanan, pencarian,
dan pengambilan data secara cepat.
Sementara, RDBMS SQL software merupakan singkatan dari Relational Database Management
System. RDBMS SQL adalah database yang memiliki kaitan antara data satu dengan data lainnya.
RDBMS software menggunakan Structured Query Language (SQL) untuk membuat, mengakses,
meng-update, atau menghapus data dalam database.

Perbedaan database dengan file system


1. Database menyimpan data yang terorganisir, sementara file system tidak memiliki data yang
terorganisir.

03
2. Database menyimpan tabel yang teroganisir, sementara file system tidak. Tiap file terdiri atas
nama file sebagai key dan metadata yang menyimpan data tentang karakteristik file tersebut.
3. Database memiliki 3 fitur menarik, yaitu pencarian (select data), replikasi data untuk membuat
data menjadi high available, serta indexing dan vacuuming untuk meningkatkan performa
pencarian. Sementara, file system hanya mempunyai fungsi untuk menyimpan data.

Perbedaan data terstruktur, tidak terstruktur, dengan semi terstruktur


 Data terstruktur adalah data yang sudah memiliki skema dan tipe data yang sudah sesuai. Data
terstruktur menggunakan SQL yang akan mengakses tabel tertentu.
 Data tidak terstruktur adalah data yang tidak memiliki struktur tetap. Contoh: Foto, video, dan
dokumen. Data tidak terstruktur menggunakan NoSQL.
 Data semi terstruktur adalah data yang sudah memiliki skema dan bahkan data type tertentu.
Selain itu, data semi terstuktur disimpan dalam file berformat khusus. Contoh: Json, Parquet,
dan Avro.

DFS dan HDFS


Distributed File System (DFS) adalah sistem kerja yang digunakan untuk menyimpan dan mengolah
data dalam jumlah besar pada arsitektur klien atau server.

Hadoop Distributed File System (HDFS) adalah distributed file system yang berfungsi menyimpan
dan mengolah data besar yang dibagikan dalam kluster Hadoop file system.

Map Reduce
Map reduce adalah inti dari Hadoop dan dibentuk supaya Hadoop dapat mendistribusikan proses
data dalam cluster. Tujuannya agar cluster dapat memproses data dalam jumlah besar secara
paralel.

Cloud Computing
Cloud computing adalah model komputasi yang memberikan on demand akses network dan
sharing komputasi online. Cloud computing digunakan untuk mengatur, menyimpan, dan
memproses data secara online melalui internet.

04
Pengenalan ETL
ETL adalah singkatan dari Extract, Transform, dan Load. ETL berperan untuk membentuk data
yang siap dianlisis dari sumber data yang sudah ada. Caranya dengan menggabungkan fact dan
dimension table untuk mendapatkan data lengkap.

Pengenalan ELT
ELT adalah singkatan dari Extract, Load, dan Transform. Seluruh proses ELT berada pada database
yang berfungsi sebagai data lake. Biasanya ELT hanya digunakan saat membutuhkan proses query
dan mentranformasi data warehouse ke akses level yang lebih tinggi.

Perbedaan ETL dengan ELT

ETL ELT
1. ETL menyimpan data pada staging server 1. ELT menggunakan source dan destination
terlebih dahulu, kemudian di-load ke tempat yang sama.
berbeda.
2. Waktu development cenderung lebih 2. Waktu development cenderung lebih
lama, karena menggunakan framework atau singkat, karena cukup menggunakan query
tools tertentu sesuai kebutuhan. based.
3. ETL dapat menggabungan berbagai data, 3. ELT menggabungkan data di data lake,
dari internal dan eksternal. sehingga memudahkan proses denormalisasi
data.

05

Anda mungkin juga menyukai