JAWAB :
Proses ETL (Extraction, Transform, Loading) dapat dilakukan dengan cara manual
dengan diawali melalui proses pembentukan data warehouse menurut kimbal. Berikut
adalah penjelasan setiap proses :
Ekstraksi data
Ekstraksi data merupakan proses dimana data diambil atau diekstrak dari sumber data
baik menggunakan query atau aplikasi ETL. Berikut beberapa fungsi dalam ekstraksi
data :
1. Ekstraksi data secara otomatis dari aplikasi sumber
2. Penyaringan atau seleksi data hasil seleksi
3. Pengiriman data dari berbagai platform aplikasi ke sumber data
4. Perubahan format layaout data dari format aslinya
5. Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi
dari sumber lain
Transformasi Data (Transformation)
Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring
dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkah-langkah dalam
transformasi data adalah sebagai berikut :
1. Memetakan data input dari skema data aslinya ke skema data warehouse.
2. Melakukan konversi tipe data atau format data.
3. Pembersihan serta pembuangan duplikasi dan kesalahan data.
4. Penghitungan nilai-nilai derivat atau mula-mula.
5. Penghitungan nilai-nilai agregat atau rangkuman.
6. Pemerikasaan integritas referensi data.
7. Pengisian nilai-nilai kosong dengan nilai default.
8. Penggabungan data.
Pengisian Data (Loading)
Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang didapatkan
dari hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah
dengan menjalankan SQL script secara periodik
2. Do we need special hardware or software in ETL process?
JAWAB:
Kita tidak harus mengganti atau menambah peranngkat khusus untuk melakukan
proses ETL selama hardware dan software yang kita miliki memenuhi standar
minimum yang dibutuhkan untuk proses ETL. Berikut adalah standar minimum yang
dibutuhkan untuk proses ETL secara umum :
Hardware
- Processor : CPU 1.7Ghz
- Memory : 128 GB
- Hardisk : 20 GB
- VGA : 32 MB
- Resolusi :1024x768
Software
- Informatica - Power Center
- IBM - Websphere DataStage(Formerly known as Ascential DataStage)
- SAP - BusinessObjects Data Integrator
- IBM - Cognos Data Manager (Formerly known as Cognos DecisionStream)
- Microsoft - SQL Server Integration Services
- Oracle - Data Integrator (Formerly known as Sunopsis Data Conductor)
- SAS - Data Integration Studio
- Oracle - Warehouse Builder
- AB Initio
- Information Builders - Data Migrator
- Pentaho - Pentaho Data Integration
- Embarcadero Technologies - DT/Studio
- IKAN - ETL4ALL
- IBM - DB2 Warehouse Edition
- Pervasive - Data Integrator
- ETL Solutions Ltd. - Transformation Manager
- Group 1 Software (Sagent) - DataFlow
- Sybase - Data Integrated Suite ETL
- Talend - Talend Open Studio
- Expressor Software - Expressor Semantic Data Integration System
- Elixir - Elixir Repertoire
- OpenSys - CloverETL
3. What do you know about star schema, snowflake schema and fact constellation
schema, explain each of them and figure out the example for each!
JAWAB :
Gambar 1 Star Schema
Disebut star schema karena bentuk entity-relationship diagram atau ERD-nya yang
menyerupai konstelasi bintang, beberapa bintang besar (fact table) dikelilingi bintang-
bintang yang lebih kecil (dimension tables). (Wikimedia Foundation, Inc., 2011)
- Fact table menampung nilai-nilai metric yang direkam untuk suatu kejadian yang
spesifik. Sehubungan dengan tujuan untuk menampul data atomik, biasanya
terdapat sejumlah besar record (jutaan). Pengelolaan khusus dilakukan untuk
meminimalisasi jumlah dan ukuran atribut dengan tujuan membatasi ukuran tabel
keseluruhan dan mengatur performa. Fact tables biasanya berupa transaksi (fakta-
fakta mengenai kejadian tertentu, misalnya penjualan), snapshot (fakta-fakta yang
direkam pada suatu waktu tertentu, misalnya rincian Account pada awal bulan),
dan tabel-tabel snapshot akumulasi (misalnya, penjualan month-to-date untuk
suatu produk).
- Dimension tables biasanya memiliki record yang lebih sedikit dibandingkanfact
tables, tetapi bisa memiliki jumlah atribut yang besar untuk mendeskripsikan data
fakta.
Berikut adalah kelebihan dan kekurangan model dimensi star schema.
Kelebihan model dimensi star schema :
1. cenderung mudah dipahami karena modelnya yang lebih sederhana,
Menurut connolly dan Begg (2010:1229) snowflake merupakan variasi dari star
skema dimana tabel dimensi diperbolehkan memiliki tabel dimensi. Kenapa
dilakukan snowflaking yakni untuk dapat memahami lebih rinci dari fact table
serta merincikan dari tabel dimensi menjadi tabel dimensi baru untuk merincikan
tabel dibensi. Snowflaking itu sendiri merupakan metode normalisasi.
Snowflaking juga membuat browsing antara dimensi atribut menjadi lambat. Jelas
tabel kategori snowflaked akan tampil sangat baik jika user meminta hanya untuk
nilai-nilai yang berbeda dari kategori tanpa tambahan, tetapi jika user membatasi
pada jenis paket pada saat yang sama, maka query harus menggabungkan kembali
tabel kategori snowflaked melalui dimensi produk dan mungkin keluar melalui
link lain ke snowflake yang mungkin akan menimbulkan kendala. Dalam dimensi
produk realistis dengan 250.000 records, query ini bisa berjalan selama beberapa
menit pada sistem basis data relasional terkenal, dan query sederhana ini harus
mampu menampilkan hasilnya pada user interface dalam satu atau dua detik.
7. Give explanation and example about multidimensional from figure star schema
above!
Multidimensional database atau sering disebut dengan cube adalah sebuah bentuk
database dimana data disimpan dalam bentuk Cell, dan posisi dari sel-sel tersebut
ditentukan oleh beberapa variabel yang disebut dengan Dimension. Jumlah
Dimension ini secara teori bisa tidak terbatas, tidak perlu terkuantifikasi untuk
membentuk sebuah bangun 3 dimensi berupa cube. Istilah Cube dan penggambaran
dalam bentuk cube (3 dimensi) ini dimaksud untuk mempermudah visualisasi kita
tentang sifat multi dimensionalnya. Sebagai contoh,"penjualan" bisa dilihat dengan
dimensi (1) model produk, (2)geografi, (3) waktu, atau (4) beberapa dimensi
tambahan.
8. Give explanation and example about roll up from figure star schema above!
JAWAB :
Roll up adalah termasuk dalam jenis-jenis query pada OLAP. Yang dimaksud Roll
up sendiri adalah melakukan agregasi pada level yang berbeda dari hirarki dimensi.
Misalnya untuk setiap kota diberikan total penjualan, maka untuk total penjualan
tiap propinsi bisa didapatkan dengan menambahkan total penjualan pada semua kota
dalam satu propinsi.
9. Give explanation and example about drill down from figure star schema above!
JAWAB : Drill down sendiri memandu pengguna untuk memperoleh data yang lebih
detail (Kamber, 2006). Jadi drill dwon menavigasikan dari data rinci yang sedikit
hingga yang lebih detil, hal ini dapat dilakukan dengan menuruni hierarki untuk
sebuah dimensi atau memperkenalkan dimensi tambahan. Penambahan sebuah
dimensi baru berarti tabel fact pasti berisikan (atau ditambahkan) data di dalam
dimensi tersebut, misalnya untuk setiap propinsi dapat diberikan total penjualan,
maka total penjualan tiap kota dapat di-drill down
10. Give explanation and example about slice and dice from figure star schema
above!
JAWAB :
Slicing dan dicing adalah operasi untuk melihat data sebagai visualisasi dari kubus.
Dengan slicing dan dicing pengguna dapat melihat data dari beberapa perspektif.
Pengguna dapat mengekstrak bagian dari data agregrated dan dapat memeriksa
dengan detail berdasarkan dimensi-dimensi yang diinginkan. Data Agregrated
merupakan data