Anda di halaman 1dari 8

1. Can we do ETL process manually?

JAWAB :
Proses ETL (Extraction, Transform, Loading) dapat dilakukan dengan cara manual
dengan diawali melalui proses pembentukan data warehouse menurut kimbal. Berikut
adalah penjelasan setiap proses :
Ekstraksi data
Ekstraksi data merupakan proses dimana data diambil atau diekstrak dari sumber data
baik menggunakan query atau aplikasi ETL. Berikut beberapa fungsi dalam ekstraksi
data :
1. Ekstraksi data secara otomatis dari aplikasi sumber
2. Penyaringan atau seleksi data hasil seleksi
3. Pengiriman data dari berbagai platform aplikasi ke sumber data
4. Perubahan format layaout data dari format aslinya
5. Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi
dari sumber lain
Transformasi Data (Transformation)
Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring
dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkah-langkah dalam
transformasi data adalah sebagai berikut :
1. Memetakan data input dari skema data aslinya ke skema data warehouse.
2. Melakukan konversi tipe data atau format data.
3. Pembersihan serta pembuangan duplikasi dan kesalahan data.
4. Penghitungan nilai-nilai derivat atau mula-mula.
5. Penghitungan nilai-nilai agregat atau rangkuman.
6. Pemerikasaan integritas referensi data.
7. Pengisian nilai-nilai kosong dengan nilai default.
8. Penggabungan data.
Pengisian Data (Loading)
Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang didapatkan
dari hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah
dengan menjalankan SQL script secara periodik
2. Do we need special hardware or software in ETL process?
JAWAB:
Kita tidak harus mengganti atau menambah peranngkat khusus untuk melakukan
proses ETL selama hardware dan software yang kita miliki memenuhi standar
minimum yang dibutuhkan untuk proses ETL. Berikut adalah standar minimum yang
dibutuhkan untuk proses ETL secara umum :
Hardware
- Processor : CPU 1.7Ghz
- Memory : 128 GB
- Hardisk : 20 GB
- VGA : 32 MB
- Resolusi :1024x768
Software
- Informatica - Power Center
- IBM - Websphere DataStage(Formerly known as Ascential DataStage)
- SAP - BusinessObjects Data Integrator
- IBM - Cognos Data Manager (Formerly known as Cognos DecisionStream)
- Microsoft - SQL Server Integration Services
- Oracle - Data Integrator (Formerly known as Sunopsis Data Conductor)
- SAS - Data Integration Studio
- Oracle - Warehouse Builder
- AB Initio
- Information Builders - Data Migrator
- Pentaho - Pentaho Data Integration
- Embarcadero Technologies - DT/Studio
- IKAN - ETL4ALL
- IBM - DB2 Warehouse Edition
- Pervasive - Data Integrator
- ETL Solutions Ltd. - Transformation Manager
- Group 1 Software (Sagent) - DataFlow
- Sybase - Data Integrated Suite ETL
- Talend - Talend Open Studio
- Expressor Software - Expressor Semantic Data Integration System
- Elixir - Elixir Repertoire
- OpenSys - CloverETL

3. What do you know about star schema, snowflake schema and fact constellation
schema, explain each of them and figure out the example for each!
JAWAB :
Gambar 1 Star Schema
Disebut star schema karena bentuk entity-relationship diagram atau ERD-nya yang
menyerupai konstelasi bintang, beberapa bintang besar (fact table) dikelilingi bintang-
bintang yang lebih kecil (dimension tables). (Wikimedia Foundation, Inc., 2011)
- Fact table menampung nilai-nilai metric yang direkam untuk suatu kejadian yang
spesifik. Sehubungan dengan tujuan untuk menampul data atomik, biasanya
terdapat sejumlah besar record (jutaan). Pengelolaan khusus dilakukan untuk
meminimalisasi jumlah dan ukuran atribut dengan tujuan membatasi ukuran tabel
keseluruhan dan mengatur performa. Fact tables biasanya berupa transaksi (fakta-
fakta mengenai kejadian tertentu, misalnya penjualan), snapshot (fakta-fakta yang
direkam pada suatu waktu tertentu, misalnya rincian Account pada awal bulan),
dan tabel-tabel snapshot akumulasi (misalnya, penjualan month-to-date untuk
suatu produk).
- Dimension tables biasanya memiliki record yang lebih sedikit dibandingkanfact
tables, tetapi bisa memiliki jumlah atribut yang besar untuk mendeskripsikan data
fakta.
Berikut adalah kelebihan dan kekurangan model dimensi star schema.
Kelebihan model dimensi star schema :
1. cenderung mudah dipahami karena modelnya yang lebih sederhana,

2. memudahkan mencari isi karena kesderhanaannya dengan cara melihat step by


step dari masing-masing dimensinya,

3. proses query lebih cepat pada saat proses OLAP.

Kekurangan model dimensi star schema :


1. ukuran data lebih besar karena ada data yang disimpan ulang,

2. maintenance dan update lebih sulit.

Berikut adalah kelebihan dan kekurangan model dimensi snowflake schema.


Kelebihan model dimensi snowflake schema :
1. ukuran data lebih kecil di dalam tempat penyimpanan,
2. lebih mudah dilakukan maintenance dan update,
3. proses query lebih cepat pada saat proses ETL.

Kekurangan model dimensi snowflake schema :


1. cenderung lebih sulit dipahami karena kompleksitasnya,
2. sulit mencari isi karena melihat strukturnya yang kompleks dan bercabang-
cabang.

4. Snowflaking is normalized unnormalized star schema. Give explanation and


understanding for that term

Menurut connolly dan Begg (2010:1229) snowflake merupakan variasi dari star
skema dimana tabel dimensi diperbolehkan memiliki tabel dimensi. Kenapa
dilakukan snowflaking yakni untuk dapat memahami lebih rinci dari fact table
serta merincikan dari tabel dimensi menjadi tabel dimensi baru untuk merincikan
tabel dibensi. Snowflaking itu sendiri merupakan metode normalisasi.
Snowflaking juga membuat browsing antara dimensi atribut menjadi lambat. Jelas
tabel kategori snowflaked akan tampil sangat baik jika user meminta hanya untuk
nilai-nilai yang berbeda dari kategori tanpa tambahan, tetapi jika user membatasi
pada jenis paket pada saat yang sama, maka query harus menggabungkan kembali
tabel kategori snowflaked melalui dimensi produk dan mungkin keluar melalui
link lain ke snowflake yang mungkin akan menimbulkan kendala. Dalam dimensi
produk realistis dengan 250.000 records, query ini bisa berjalan selama beberapa
menit pada sistem basis data relasional terkenal, dan query sederhana ini harus
mampu menampilkan hasilnya pada user interface dalam satu atau dua detik.

5. Snowflaking is normalized unnormalized star schema. Give explanation and


understanding for that term

6. Change figure star schema above into snowflake schema!

7. Give explanation and example about multidimensional from figure star schema
above!
Multidimensional database atau sering disebut dengan cube adalah sebuah bentuk
database dimana data disimpan dalam bentuk Cell, dan posisi dari sel-sel tersebut
ditentukan oleh beberapa variabel yang disebut dengan Dimension. Jumlah
Dimension ini secara teori bisa tidak terbatas, tidak perlu terkuantifikasi untuk
membentuk sebuah bangun 3 dimensi berupa cube. Istilah Cube dan penggambaran
dalam bentuk cube (3 dimensi) ini dimaksud untuk mempermudah visualisasi kita
tentang sifat multi dimensionalnya. Sebagai contoh,"penjualan" bisa dilihat dengan
dimensi (1) model produk, (2)geografi, (3) waktu, atau (4) beberapa dimensi
tambahan.

8. Give explanation and example about roll up from figure star schema above!
JAWAB :
Roll up adalah termasuk dalam jenis-jenis query pada OLAP. Yang dimaksud Roll
up sendiri adalah melakukan agregasi pada level yang berbeda dari hirarki dimensi.
Misalnya untuk setiap kota diberikan total penjualan, maka untuk total penjualan
tiap propinsi bisa didapatkan dengan menambahkan total penjualan pada semua kota
dalam satu propinsi.
9. Give explanation and example about drill down from figure star schema above!
JAWAB : Drill down sendiri memandu pengguna untuk memperoleh data yang lebih
detail (Kamber, 2006). Jadi drill dwon menavigasikan dari data rinci yang sedikit
hingga yang lebih detil, hal ini dapat dilakukan dengan menuruni hierarki untuk
sebuah dimensi atau memperkenalkan dimensi tambahan. Penambahan sebuah
dimensi baru berarti tabel fact pasti berisikan (atau ditambahkan) data di dalam
dimensi tersebut, misalnya untuk setiap propinsi dapat diberikan total penjualan,
maka total penjualan tiap kota dapat di-drill down

10. Give explanation and example about slice and dice from figure star schema
above!
JAWAB :
Slicing dan dicing adalah operasi untuk melihat data sebagai visualisasi dari kubus.
Dengan slicing dan dicing pengguna dapat melihat data dari beberapa perspektif.
Pengguna dapat mengekstrak bagian dari data agregrated dan dapat memeriksa
dengan detail berdasarkan dimensi-dimensi yang diinginkan. Data Agregrated
merupakan data

praperhitungan (precalculated) dalam bentuk rangkuman data (data summarized)


sehingga query pada kubus (cube) lebih cepat. Slicing memotong kubus sehingga
dapat memfokuskan pada perspektif yang spesifik (pada suatu dimensi). Sedangkan
dicing memberikan kemampuan untuk melihat pemilihan data pada dua dimensi atau
lebih. Yaitu dengan merotasi cube pada perspektif yang lain sehingga pengguna
dapat melihat lebih spesifik terhadap data yang dianalisa.

Anda mungkin juga menyukai