Anda di halaman 1dari 9

Modul 6

Data Warehouse

Perkembangan internet yang semakin pesat dewasa ini telah mengakibatkan bertambah
besar data yang ada. Data Warehouse merupakan koleksi informasi suatu perusahaan/organisasi
yang diperoleh dari operasional sistem dan sumber data lainnya, yang dapat digunakan untuk
membantu pengambilan keputusan dengan menganalisis seluruh data yang ada di suatu database.
Tujuan utama dibangunnya data warehouse adalah untuk menyediakan/ menyajikan
informasi-informasi terkait bisnis guna membantu dalam pengambilan keputusan secara cepat dan
tepat. Ada beberapa keuntungan yang bisa diperoleh dengan dimanfaatkannya data warehouse,
diantaranya adalah:
1. Data-data dapat terorganisir dengan baik sehingga bisa menghasilkan analisis yang tepat
guna mempercepat proses transaksi;
2. Perbedaan pada beberapa struktur data yang tersebar di beberapa tempat dapat diatasi;
3. Dapat mengetahui proses analisis yang hasilnya terjadi berulang-ulang;
4. Mengurangi biaya operasional perusahaan;
5. Seluruh proses proses analisis tidak mengubah sistem produksi perusahaan;
6. Akses data cepat dan konsistensi data dapat dipertahankan.

6.1. Pengertian Data Warehouse


Ada banyak pengertian data warehouse menurut para ahli, diantaranya adalah sebagai
berikut:
 Bill Inmon (1996) menyatakan bahwa data warehouse adalah koleksi data yang
mempunyai sifat berorientasi subjek, terintegrasi, time-variant, dan bersifat tetap dari
koleksi data dalam mendukung proses pengambilan keputusan management. Bill
Inmon disebut-sebut sebagai Bapak Data Warehouse.
 .Ralph Kimball menyatakan bahwa data warehouse adalah suatu sistem yang
mengekstrak, melakukan pembersihan, menyesuaikan diri serta mengirimkan sumber
data pada suatu data penyimpanan dimensional dan selanjutnya memberi dukungan
pada implementasi query serta analisis dalam rangka pengambilan keputusan.
 Poe (1996) menyatakan bahwa data warehouse merupakan basis data analisis yang
hanya bisa dibaca serta dipergunakan sebagai bahan pada sistem pendukung
keputusan. Pemikiran Poe sejalan dengan Bill Inmon yang memandang bahwa data
warehouse sebagai dasar pada sistem pengambilan keputusan.

Dari penjelasan di atas, dapat disimpulkan bahwa data warehouse adalah database yang
saling berinteraksi yang dapat digunakan untuk query dan analisisis, berorientasi subjek,
terintegrasi, time-variant, tidak berubah yang digunakan untuk membantu para pengambil
keputusan.
Secara fisik data warehouse adalah database, tapi perancangan data warehouse dan
database sangat berbeda. Dalam perancangan database tradisional menggunakan normalisasi,
sedangkan pada data warehouse justru menggunakan denormalisasi. Berikut ini adalah perbedaan
antara database dengan data warehouse:
 Database dipergunakan dalam Online Transactional Processing (OLTP) dan dapat pula
dipergunakan untuk kebutuhan data warehouse
 Data warehouse dipergunakan dalam Online Analytical Processing (OLAP) yang mampu
membaca data historis bagi pengguna dalam proses pengambilan keputusan
 Tabel dan gabungan di database sangat kompleks sehingga dapat mengurangi data
berlebihan serta menghemat ruang penyimpanan.
 Tabel dan gabungan dalam data warehouse tergolong sederhana untuk mengurangi waktu
respon dan permintaan analitis.
 Database berorientasi pada pelanggan (customer oriented) dan dipergunakan dalam proses
query serta transaksi, misalnya oleh kasir, pramuniaga, serta para profesional IT.
 Data warehouse berorientasi pada pasar (market oriented) dan dipergunakan dalam proses
analisis data oleh orang-orang yang memiliki profesi knowlegde field, misalnya eksekutif,
manager, serta para ahli analis data.
 Database mengatur dan mengolah data secara detil sehingga mudah dipergunakan dalam
proses pengambilan keputusan.
 Data warehouse mengatur dan mengolah data-data historis dalam jumlah besar dan
menyediakan beberapa fitur agregasi (mengelompokkan) dan meringkas (summary), drill-
down dan drill-up serta kemampuan menyimpan dan dan mengolah data menurut tingkat
granularitas yang berbeda.
 Sistem database umumnya mengambil pemodelan data “entity relationship” serta desain
yang berorientasi pada aplikasi.
 Sistem data warehouse umumnya mengambil pemodelan “snowflake” atau “star” serta
desain yang berorientasi pada subyek.
 Database terfokus pada data real time dalam suatu organisasi atau instansi tanpa mengacu
pada data-data historis maupun data-data dari organisasi lainnya.
 Data warehouse sering menjangkau berbagai tipe skema database dikarenakan proses
evolusioner dari sebuah organisasi. Data warehouse juga berhubungan dengan berbagai
informasi yang didapatkan dari beberapa organisasi lainnya. Hal ini akan menyebabkan
jumlah volume yang sangat besar sehingga data warehouse disimpan dalam beberapa
tempat penyimpanan.
 Pola akses pada database terutama terdiri dari transaksi atomik yang pendek dan sistem
seperti ini membutuhkan mekanisme “concurency control” serta “recovery”.
 Pola akses pada data warehouse sebagian besar adalah “read only”. Hal ini karena sebagian
besar data yang tersimpan adalah data-data historis dan hanya sedikit data-data baru.
Namun perkembangan terkini data warehouse sudah mulai mengadopsi juga data yang
mendekati real time sehingga ada data warehouse yang sifatnya near real time.

6.3. Karakteristik Data Warehouse


Ada empat karakteristik yang menjadi ciri khas database ini, yaitu:
 Berorientasi kepada subjek (Subjek-Oriented)
Artinya data warehouse berorientasi subjek dirancang untuk menganalisis data
berdasarkan subjek-subjek tertentu dalam organisasi, bukan pada proses atau fungsi aplikasi
tertentu. Data warehouse diorganisasikan disekitar subjek-subjek utama dari perusahaan
seperti (pelanggan, produk dan penjualan) dan tidak terorganisir dalam area aplikasi utama
(customer faktur, kontrol stok dan penjualan produk).
Hal ini karena kebutuhan data warehouse untuk menyimpan data yang mendukung
keputusan, daripada aplikasi berorientasi data. Jadi dengan kata lain, data yang disimpan tidak
berorientasi pada subjek proses.
 Data yang dimiliki terintegrasi (Data Integrated)
Data Warehouse dapat menyimpan data dari sumber yang terpisah ke dalam format yang
konsisten dan terintegrasi satu sama lain. Dengan demikian, data tidak dapat rusak karena data
merupakan entitas yang mendukung konsep keseluruhan data warehouse itu sendiri.
Syarat sumber data terintegrasi dapat dipenuhi dengan berbagai cara seperti konsisten
dalam penamaan variabel, konsisten dalam variabel ukuran, konsisten dalam coding dan
struktur yang konsisten dalam atribut fisik dari data. Contoh lingkungan operasional ada
banyak aplikasi yang juga dapat dilakukan oleh pengembang yang berbeda. Oleh karena itu,
mungkin dalam aplikasi ini terdapat variabel yang memiliki tujuan yang sama tetapi nama dan
format yang berbeda. Variabel ini harus dikonversi ke nama yang sama dan format yang telah
disepakati. Dengan demikian tidak ada kebingungan karena perbedaan nama, format, dan
sebagainya. Kemudian data dapat dikategorikan sebagai data yang terintegrasi karena
kekonsistenannya.
 Dibuat dalam rentang waktu tertentu (Time Variant)
Semua data dalam data warehouse dapat dikatakan akurat atau valid pada rentang waktu
tertentu. Untuk melihat interval waktu yang digunakan untuk mengukur keakuratan data
warehouse, kita dapat menggunakan cara berikut :
1. Cara termudah adalah untuk menyajikan data warehouse pada rentang waktu tertentu,
misalnya, antara 5 sampai 10 tahun ke belakang.
2. Cara kedua, dengan menggunakan variasi perbedaan waktu / disajikan dalam data
warehouse adalah baik secara implisit maupun eksplisit, eksplisit dengan unsur waktu
dalam sehari, seminggu, sebulan dll Secara implisit misalnya, saat data diduplikasi pada
setiap akhir bulan, atau kuartalan. Unsur waktu akan tetap tersirat dalam data.
3. Cara ketiga, variasi waktu dari data warehouse yang disajikan melalui serangkaian foto-
foto yang lama. Snapshot adalah pandangan sebagian besar data yang spesifik yang sesuai
keinginan pengguna dari semua data yang ada adalah read-only.
 Data yang disimpan bersifat tetap (Non-Volatile)
Karakteristik keempat dari data warehouse adalah non-volatile, artinya data di data
warehouse tidak diperbarui secara real time tetapi di-refresh sistem operasi secara teratur. Data
baru yang ditambahkan sebagai suplemen untuk database itu sendiri bukan sebagai perubahan.
Database ini terus menyerap data baru, secara bertahap bersama-sama dengan data
sebelumnya. Berbeda dengan database operasional yang dapat melakukan update, insert, dan
menghapus data. Di data warehouse, hanya ada dua peristiwa memanipulasi data yaitu memuat
data (mengambil data) dan akses data (akses ke data warehouse seperti melakukan query atau
menampilkan laporan yang diperlukan, tidak ada aktivitas memperbarui data).

6.4. Arsitektur Data Warehouse


Arsitektur adalah struktur yang memberikan kerangka untuk keseluruhan rancangan suatu
sistem atau produk. Untuk datawarehouse, ada beberapa arsitektur yang bisa diakomodir bagi
organisasi yang ingin menerapkannya. Berikut ini adalah beberapa arsitektur data warehouse:

Gambar 6.1. Arsitektur Data Warehouse


Enterprise Data Warehouse
EDW (Enterprise Data Warehouse) merupakan teknologi yang mengintegrasikan/
mengkonsolidasikan data dari berbagai sumber internal dan eksternal, mengelola data dengan
memberikan realibilitas dan kepercayaan terhadap data, dan memungkinkan pelaporan dan proses
analisis. EDW bertujuan menyediakan “satu versi kebenaran tunggal” (single source of truth) yang
dikumpulkan dari integrasi berbagai sumber referensi data dalam perusahaan. Enterprise data
warehouse disimpan terpusat dan mencakup data dari seluruh area/departemen dalam suatu
organisasi.
Pada arsitektur ini, DW merupakan satu-satunya penyimpanan data dari berbagai sumber
di suatu organisasi. DW ini juga yang dijadikan acuan utama dalam melakukan analisis, membuat
laporan, dashboard, data mining, dan Business Intelligence. Kelebihan dari pendekatan ini adalah
sumber data untuk analisis adalah hanya DW ini. Kelebihan lainnya yaitu semua data terintegrasi
dengan baik (dengan syarat proses analisis dan perancangan DW dilakukan dengan matang).
Kekurangan pendekatan ini adalah ketika data yang dimiliki sudah sangat banyak, DW dengan
arsitektur Enterprise Data Warehouse bisa mengalami masalah kinerja, apalagi jika ditambah
semakin banyaknya pengguna yang mengkases DW ini secara bersama-sama.

Data Mart (DM)


Sifat dasar dari pembangunan DM adalah karena tingginya kebutuhan data untuk analisis
pada suatu departemen dan tidak optimal jika harus menunggu dibuatnya DWH di level
organisasi/perusahaan. Karena itulah satu departemen memutuskan membuat DM versi
departemen itu. Jika ada departemen lain yang memiliki kebutuhan analisis yang tinggi juga, maka
dimungkinkan dorongan untuk membuat DM di departemen tersebut juga tinggi, ditambah adanya
contoh departemen lain yang sudah membangun DM versi departemennya. Hal pokok yang
biasanya menjadi kekurangan dari pendekatan ini adalah data yang dihasilkan cenderung belum
menjadi level enterprise, namun masih di tingkat departemen. Hal tersebut
dikarenakan pembangunan DM mungkin hanya melibatkan departemen pembuat, dengan sedikit
sekali-atau tanpa-keterlibatan departemen lain, sehingga aspek integrasi format data dan formula
tidak terpenuhi.
Hub and Spoke Data Mart
Ketika DW pada EDW sudah dianggap berat, ditambah effort untuk mengupgrade
infrastruktur yang kadang tidak ekonomis, maka dibuatlah data mart-data mart di satu atau lebih
departemen untuk mengakomodasi kebutuhan laporan di departemen yang bersangkutan.
Kelebihan dari arsitektur ini adalah kinerja DW menjadi lebih ringan, karena sebagian porsi hit
dipindahkan ke data mart. Dengan demikian jika semula EDW hitnya 10.000, dengan data mart
ini bisa menjadi hanya 8.000 saja hitnya. Jika satu data mart masih dianggap kurang, maka bisa
dibuat data mart berikutnya untuk departemen lain. Pembuatan data mart baru tersebut mungkin
bisa mengurangi hit data warehouse menjadi 6,000. Begitu seterusnya hingga dicapai nilai yang
optimal. Disamping manfaat dari sisi kinerja, dependent data mart juga memungkinkan setiap
departemen melakukan tuning lebih jauh terhadap struktur tabel dimensional.
Tuning dimaksudkan untuk meningkatkan kinerja sistem secara keseluruhan dalam
mengakomodasi kebutuhan analisis departemen yang mungkin belum diakomodasi oleh EDW.
Dibandingkan arsitektur dengan data mart yang lainnya, alternatif ini memiliki karakteristik
Enterprise Data, yaitu data yang terdapat di DW dan DM memiliki cakupan validitas di tingkat
enterprise/organisasi/perusahaan karena tingkat tersebut sudah didapatkan ketika memasuki DW.

Enterprise Warehouse dengan Operational Data Store


Operational Data Store / penyimpanan data operasional (atau "ODS") digunakan untuk
pelaporan operasional dan sebagai sumber data untuk EDW. Ini adalah elemen pelengkap bagi
EDW dalam lanskap pendukung keputusan, dan digunakan untuk pelaporan operasional, kontrol,
dan pengambilan keputusan. Berbeda dengan EDW, yang digunakan untuk dukungan keputusan
taktis dan strategis.
ODS adalah database yang dirancang untuk mengintegrasikan data dari berbagai sumber
untuk operasi tambahan pada data, untuk pelaporan, kontrol, dan dukungan keputusan operasional.
Tidak seperti penyimpanan data master produksi, data tidak dikembalikan ke sistem operasional.
Mungkin dilewatkan untuk operasi lebih lanjut dan DW untuk pelaporan.
ODS tidak boleh disamakan dengan hub data perusahaan (Enterprise Data Hub/ EDH).
ODS akan mengambil data transaksional dari satu atau lebih sistem produksi dan secara longgar
mengintegrasikannya, dalam beberapa hal itu masih berorientasi pada subjek, terintegrasi dan
dalam rentang waktu tertentu. Integrasi ini terutama dicapai melalui penggunaan struktur dan
konten EDW.
ODS bukan bagian intrinsik dari solusi EDH, meskipun EDH dapat digunakan untuk
merangkum beberapa pemrosesan yang dilakukan oleh ODS dan EDW. EDH adalah perantara
data, sementara ODS tentu saja tidak.
Karena data berasal dari berbagai sumber, integrasi sering kali melibatkan pembersihan,
penyelesaian redundansi, dan pemeriksaan terhadap aturan bisnis untuk integritas. ODS biasanya
dirancang untuk berisi data level rendah atau atomik (tidak dapat dibagi) (seperti transaksi dan
harga) dengan riwayat terbatas yang ditangkap hamper mendekati waktu nyata (near real time)
sebagai lawan volume data yang jauh lebih besar yang disimpan di DW yang umumnya kurang
sering.

Distributed Data Warehouse


Sebagian besar organisasi membangun DW secara terpusat dan tunggal. Hal ini disebabkan
karena berbagai alasan, diantaranya:
 Data di DW terintegrasi di seluruh korporasi, sementara kebutuhan terintegrasi hanya oleh
kantor pusat.
 Korporasi beroperasi secara terpusat
 Volume data di DW dilakukan dalam repository terpusat dan tunggal sehingga jamak kalau
DW pun terpusat dan tunggal
 Bahkan, kalaupun data berhasil diintegrasikan, namun jika tetap tersebar di beberapa tempat
akan sulit untuk diakses.

Semua alasan diatas sangat mendukung perlunya DW tunggal yang terpusat. Namun dalam
beberapa kasus, DW yang terdistribusi dirasa tetap masuk akal karena beberapa alasan sebagai
berikut:
 Bisnis yang dilakukan perusahaan secara geografis memang terpisah. Demikian juga
produksi perusahaan mungkin ada beberapa lini produk yang berbeda. Dalam kondisi
seperti ini dibutuhkan DW lokal dan DW global. DW lokal merepresentasikan pemrosesan
data kebutuhan lokal, sementara DW global merepresentasikan intergrasi bisnis
 Banyaknya data yang harus diolah perlu didistribusikan melalui beberapa prosesor dan
mungkin juga perlu beberapa mesin. Dengan demikian secara fisik ada banyak DW, namun
secara logis tetap sebagai satu DW

Dari berbagai macam arsitektur DW di atas, perlu ada kajian tersendiri mana arsitektur yang pas
buat organisasi. Anggaran biaya, jumlah tenaga kerja dan waktu adalah beberapa pertimbangan
awal yang akan mennetukan arsitektur mana yang lebih cocok untuk suatu organisasi.

Anda mungkin juga menyukai