Anda di halaman 1dari 38

DATA WAREHOUSE CONSEPT

Diajukan Untuk Memenuhi Salah Satu Tugas Mata Kuliah Sistem Informasi Manajemen dan
Database

Dosen Pengampu : Arief Nurhandika, S.E., M.Ak

Disusun Oleh :

Kelompok 3

1. Ali Maulana (20220610024)


2. Alvi Dwi Azzahra (20220610043)
3. Risna Indriyanti (20220610016)
4. Suci Dwi Frisilia (20220610098)

AKUNC-2022-02

PROGRAM STUDI AKUNTANSI

FAKULTAS EKONOMI DAN BISNIS

UNIVERSITAS KUNINGAN
KATA PENGANTAR

Penulis mengucapkan terima kasih kepada Tuhan semesta alam, Allah SWT.. Kami
dapat menyelesaikan makalah dengan cepat berkat bantuan-Nya. Penulis juga
mengucapkan salam dan shalawat kepada junjungan Nabi Muhammad SAW, dengan
harapan bahwa syafaatnya akan mengalir pada kita di akhir zaman.

Dengan ini, kami mempersembahkan makalah kami yang berjudul “Data


Warehouse Concept” tugas makalah Sistem informasi manajemen dan data base dengan
penuh terima kasih kepada Tuhan Yang Maha Esa. Saya berharap makalah ini dapat
memberi manfaat bagi pembaca dan khususnya penulis. Maka pada kesempatan ini kami
dengan senang hati mengucapkan terima kasih yang sebesar-besarnya kepada:

1. Bapak Arief Nurhandika selaku dosen mata kuliah Sistem Informasi Manajemen dan
Database

2. Anggota Kelompok yang telah menyelesaikan Tugas Makalah ini

Akhir kata, penulis menyadari bahwa karya ini masih jauh dari sempurna. Penulis
sangat mengharapkan agar pembaca memberi kritik dan saran. Kami berharap makalah ini
akan bermanfaat bagi banyak orang. Aamiin

i
DAFTAR ISI

KATA PENGANTAR..............................................................................................................................i
DAFTAR ISI.........................................................................................................................................ii
BAB 1................................................................................................................................................1
PENDAHULUAN.................................................................................................................................1
1.1 Latar Belakang.........................................................................................................................1
1.2 Rumusan Masalah...................................................................................................................1
1.3 Tujuan.....................................................................................................................................1
BAB II................................................................................................................................................2
PEMBAHASAN...................................................................................................................................2
2.1 Pengantar ke Data Warehouse ( Introduction to Data Warehouse ).......................................2
2.1.1 Karakteristik Data Warehouse..........................................................................................3
2.1.2 Evolusi Data Warehousing...............................................................................................4
2.1.3 Konsep Penyimpanan Data...............................................................................................5
2.1.4 Manfaat dari Data Warehousing......................................................................................6
2.1.5 Perbandingan Sistem OLTP dan Data Warehousing..........................................................7
2.1.6 Masalah-masalah dalam Penyimpanan Data....................................................................9
2.2 Arsitektur Gudang Data ( Data Warehouse Architecture )....................................................11
2.2.1 Data Operasional............................................................................................................11
2.2.2 Penyimpanan Data Operasional.....................................................................................12
2.2.3 Manajer Beban...............................................................................................................13
2.2.4 Manajer Gudang............................................................................................................13
2.2.5 Manajer Kueri.................................................................................................................13
2.2.6 Alat Akses Pengguna Akhir.............................................................................................15
2.3 Aliran Data Gudang Data ( Data Warehouse Data Flows ).....................................................17
2.3.1 Arus Masuk ( Inflow ).....................................................................................................18
2.3.2 Aliran ke Atas ( Upflow ).................................................................................................19
2.3.3 Arus Bawah ( Downflow )...............................................................................................20

ii
2.3.4 Aliran Keluar ( Outflow ).................................................................................................20
2.3.5 Metaflow........................................................................................................................21
2.4 Alat dan Teknologi Penyimpanan Data ( Data Warehousing Tools and Technologies )..........22
2.4.1 Alat Ekstraksi, Pembersihan, dan Transformasi..............................................................22
2.4.2 DBMS Gudang Data........................................................................................................23
2.4.3 Metadata Gudang Data..................................................................................................26
2.4.4 Alat Administrasi dan Manajemen.................................................................................28
2.5 Data Mart..............................................................................................................................29
2.5.1 Alasan Membuat Data Mart antara lain:......................................................................30
2.5.2 Masalah dengan Data Mart............................................................................................31
BAB III.............................................................................................................................................33
PENUTUP........................................................................................................................................33
3.1 Kesimpulan............................................................................................................................33
3.2 Saran.....................................................................................................................................33
Daftar pustaka.................................................................................................................................34

iii
BAB 1
PENDAHULUAN

1.1 Latar Belakang


Dalam era globalisasi ini, organisasi dihadapkan pada hujan informasi dari
berbagai sumber, mulai dari transaksi harian hingga data pelanggan. Manajemen yang
efektif dari aset ini menjadi suatu keharusan untuk mendukung pengambilan keputusan
yang cerdas. Kendati begitu, organisasi seringkali dihadapkan pada kompleksitas integrasi
dan analisis data yang tersebar. Dalam konteks ini, konsep data warehouse muncul sebagai
fondasi utama untuk merampingkan pengelolaan data, menyediakan visibilitas yang
mendalam, dan memberikan landasan bagi analisis bisnis yang komprehensif.
konsep data warehouse muncul karena kebutuhan organisasi untuk
mengintegrasikan dan menganalisis data yang tersebar di berbagai sumber. Dengan adanya
data warehouse, perusahaan dapat menyimpan data historis, mengurangi redundansi, dan
menyediakan platform untuk analisis bisnis yang lebih efisien. Konsep ini memungkinkan
pengambilan keputusan berdasarkan informasi yang konsisten dan terstruktur dari seluruh
organisasi.

1.2 Rumusan Masalah

1. Apa yang dimaksud dengan Data Warehouse


2. Apa yang dimaksud dengan Arsitektur Data Warehouse
3. Apa yang dimaksud dengan Data Warehouse Data Flows
4. Apa yang dimaksud dengan Alat dan Teknologi Data Warehouse
5. Apa yang dimaksud dengan Data Marts

1.3 Tujuan
1. Mampu menjelaskan Data Warehouse
2. Mampu menjelaskan mengenai Arsitektur Data Warehouse
3. Mampu menjelaskan Data Warehouse Data Flows
4. Mampu menjelaskan mengenai Alat dan Teknologi Data Warehouse
5. Mampu menjelaskan Data Marts

1
BAB II
PEMBAHASAN

2.1 Pengantar ke Data Warehouse ( Introduction to Data Warehouse )


Data warehouse adalah koleksi atau kumpulan sumber daya yang dapat diakses
untuk mendapatkan informasi. Secara sederhana, data warehouse dapat didefinisikan
sebagai koleksi data yang sangat besar dan kompleks. Desain data warehouse
dimaksudkan untuk membantu pelaporan dan analis data menjadi bentuk informasi yang
lebih berharga.

Pengertian Data Warehouse menurut para ahli :

1. Vidette poe
Data warehouse adalah database yang read – only analisis dan digunakan sebagai
dasar system pendukung Keputusan.
2. Ramelho
Data Warehouse merupakan pendekatan untuk menyimpan data Dimana sumber
data yang heterogeny (yang biasanya tersebar di beberapa basis data OLTP)
bermigrasi ke penyimpanan data dan terpisah homogen.

Data warehouse berfokus pada penyimpanan data, Dimana sumber data utama akan
dibersihkan, di tranformasikan, lalu dikatalogkan, hingga bisa digunakan oleh manager dan
professional lain.

2
Pemanfaatan Data Warehouse menggunakan data mining, OLAP (Online
Analytical Processing), dan DSS (Decision Support System) . Namun, metode untuk
mendapatkan, dan menganalisa data berupa proses extract, transform dan load data, serta
manajemen data dictionary masih termasuk pokok bahasan utama sebagai komponen
system data warehouseNamun, metode untuk mendapatkan, dan menganalisa data berupa
proses extract, transform dan load data, serta manajemen data dictionary masih termasuk
pokok bahasan utama sebagai komponen system data warehouse.

2.1.1 Karakteristik Data Warehouse

1. Subject Oriented

Data Subject Oriented di data warehouse berasal dari data yang diambil dari
aplikasi kejadian—kejadian saat ini—di sistem operasional. Di sisi lain, data yang diambil
dari aplikasi kejadian tersebut diubah menjadi data yang didasarkan pada subjek yang
terlibat pada kejadian—kejadian tersebut—di data warehouse. Misalnya, sistem
operasional sebuah super market mencatat semua penjualan di setiap kasir, pembelian
barang, dan penggajian karyawan. Selanjutnya, data gudang mengelompokkan data hasil
kejadian, yang termasuk berbagai topik seperti barang, karyawan, pemasukan, penggajian,
dan pemasok.

2. Integrated

Kadang-kadang, integrated data yang tersebar di banyak sistem operasional tidak


konsisten, baik dalam penamaan field, nilai field, atau tipe data yang berbeda untuk hal
yang sama. Sebagai contoh, di satu sistem operasional, isi field jenis kelamin didefinisikan
sebagai "pria" atau "wanita", sedangkan di sistem operasional lain, isi field didefinisikan
sebagai "laki-laki" atau "perempuan". Hal seperti itu harus diselaraskan agar data di data
warehouse seragam agar proses analisis dapat dilakukan.

3. Non – volatile

Data yang ada di data warehouse adalah data historis yang dapat digunakan di
masa mendatang. Dengan kata lain, sekali data dikirim, data tersebut tidak dapat diupdate
atau dihapus. Walaupun pembuatannya mahal, pelaporan dan analisis dapat menghemat
lebih banyak biaya dan waktu.

3
Dengan mengisi data warehouse terlebih dahulu, ketidakkonsistenan dapat
diidentifikasi dan diatasi, sehingga pelaporan dan analisis menjadi lebih mudah. Selain itu,
data dalam data warehouse dapat digunakan untuk sistem pendukung keputusan, dan
mereka akan tetap ada bahkan jika data dalam sistem operasional telah berubah atau
dihapus.

5. Time Variant
Semua data yang masuk ke data gudang dicatat pada waktu yang berbeda,
dimulai dari tanggal transaksi dan tanggal perubahan. Untuk memenuhi kebutuhan
analisis, kadang-kadang tabel fisik di data warehouse dapat dikelompokkan
berdasarkan waktu. Ini menjaga kinerja. Pengelompokan dan pencatatan waktu
akan sangat membantu analisis data historis.

2.1.2 Evolusi Data Warehousing

Sejak tahun 1970-an, sebagian besar organisasi telah berinvestasi dalam sistem
komputer baru yang dapat mengotomatiskan proses bisnis. Perusahaan memperoleh
keunggulan kompetitif melalui sistem yang memberikan layanan yang lebih efisien dan
hemat biaya kepada pelanggan. Selama masa itu, perusahaan masih mengumpulkan dan
menyimpan data dalam database operasional mereka. Namun, sekarang, ketika sistem
seperti itu sudah biasa digunakan, organisasi berfokus pada cara-cara untuk menggunakan
data operasional untuk membantu dalam pengambilan keputusan dan mendapatkan
kembali keunggulan kompetitif. Karena sistem operasional tidak dirancang untuk
mendukung aktivitas bisnis seperti itu, menggunakan sistem ini untuk pengambilan
keputusan akan sangat sulit.

Organisasi mungkin memiliki berbagai sistem operasional yang memiliki definisi


yang tumpang tindih dan terkadang kontradiktif, seperti tipe data. Mengubah arsip data
menjadi sumber pengetahuan adalah tantangan bagi organisasi untuk memberi pengguna
gambaran yang terintegrasi dan konsolidasi tentang data mereka. Data warehouse
mengumpulkan data dari berbagai sumber data operasional untuk membantu pengambilan
keputusan.

4
2.1.3 Konsep Penyimpanan Data

IBM awalnya berpikir tentang gudang data sebagai "gudang informasi" dan
menawarkan solusi untuk mendapatkan akses ke data yang disimpan dalam sistem non-
relasional. Rekomendasi untuk gudang informasi adalah untuk memungkinkan organisasi
menggunakan arsip data mereka untuk membantu mereka menghasilkan uang. Namun,
upaya awal untuk membuat gudang informasi sebagian besar ditolak karena kompleksitas
dan masalah kinerja yang terkait dengan penerapan solusi tersebut. Sejak saat itu, ide
warehousing data telah diangkat beberapa kali. Namun, baru beberapa tahun belakangan
ini ide ini dianggap layak dan berguna. Bill Inmon adalah pendukung terbaru dan paling
berhasil dari konsep data warehousing, dan dia diberi gelar "bapak data warehousing"
karena mendukungnya secara aktif.

Data, menurut Inmon (1993), adalah:

• Berorientasi pada topik karena gudang disusun berdasarkan topik data


utama (seperti pelanggan, produk, dan penjualan) daripada topik aplikasi
utama (seperti faktur pelanggan, kontrol stok, dan penjualan produk). Ini
menunjukkan bahwa data pendukung keputusan lebih penting daripada data
yang berorientasi pada aplikasi.
• Data sumber dari berbagai sistem aplikasi di seluruh perusahaan
diintegrasikan. Sumber data seringkali tidak konsisten karena menggunakan
format yang berbeda, misalnya. Untuk memberi pengguna tampilan data
yang terpadu, sumber data yang terintegrasi harus dibuat secara konsisten.
• Bervariasi waktu karena data di data warehouse tidak diperbarui secara
real-time, tetapi hanya akurat dan valid pada suatu titik waktu tertentu atau
interval waktu tertentu. Variasi waktu juga ditunjukkan oleh waktu yang
lama disimpan, hubungan implisit atau eksplisit antara semua data, dan
fakta bahwa data merupakan serangkaian snapshot.
• Tidak mudah berubah karena data tidak diperbarui secara real-time. Data
baru selalu ditambahkan ke database sebagai tambahan, bukan pengganti.

5
Basis data terus menyerap data baru dan secara bertahap
menggabungkannya dengan data sebelumnya.

Ada banyak definisi data warehousing, dengan definisi sebelumnya berfokus pada
karakteristik data yang disimpan di gudang. Definisi alternatif memperluas cakupan
definisi data warehousing untuk memasukkan pemrosesan yang terkait dengan
pengaksesan data dari sumber aslinya hingga pengiriman data ke pengambil keputusan
(Anahory dan Murray, 1997).

Apapun definisinya, tujuan utama dari data warehousing adalah untuk


mengintegrasikan data perusahaan di seluruh perusahaan ke dalam sebuah repositori
tunggal di mana pengguna dapat dengan mudah menjalankan kueri, membuat laporan, dan
melakukan analisis. Singkatnya, data warehouse adalah manajemen data dan teknologi
analisis data. Dalam beberapa tahun terakhir, istilah baru yang terkait dengan data
warehousing telah digunakan, yaitu 'Data Webhouse’.

Web adalah sumber data perilaku yang sangat besar karena individu berinteraksi
melalui browser Web mereka dengan situs Web jarak jauh. Data yang dihasilkan oleh
perilaku ini disebut clickstream. Menggunakan gudang data di Web untuk memanfaatkan
data clickstream telah mengarah pada pengembangan Data Webhouses. Diskusi lebih
lanjut tentang pengembangan variasi baru dari data warehousing ini berada di luar cakupan
buku ini, namun pembaca yang tertarik dirujuk ke Kimball dkk. (2000).

2.1.4 Manfaat dari Data Warehousing

Keberhasilan implementasi gudang data dapat membawa manfaat besar bagi


organisasi, termasuk:

 Potensi pengembalian investasi yang tinggi Sebuah organisasi harus menyediakan


sumber daya dalam jumlah besar untuk memastikan keberhasilan implementasi
data warehouse dan biayanya bisa sangat bervariasi, mulai dari £50.000 hingga
lebih dari
£10 juta karena beragamnya solusi teknis yang tersedia. Namun, sebuah penelitian
yang dilakukan oleh International Data Corporation (IDC) pada tahun 1996

6
menemukan bahwa pengembalian investasi (ROI) rata-rata selama tiga tahun dalam
data warehousing mencapai 401%; lebih dari 90 persen perusahaan yang disurvei
mencapai ROI lebih dari 40 persen, setengah dari perusahaan mencapai ROI lebih
dari 160 persen, dan seperempat dari perusahaan mencapai ROI lebih dari 600
persen (IDC, 1996).
 Keuntungan kompetitif: Pengembalian investasi yang sangat besar bagi perusahaan
yang menggunakan data warehouse menunjukkan bahwa teknologi ini sangat
kompetitif. Dengan memberikan pengambil keputusan akses ke data yang dapat
mengungkapkan informasi tentang tren, permintaan, dan pelanggan, yang
sebelumnya tidak tersedia atau tidak diketahui. Ini menghasilkan keuntungan
kompetitif.
 Meningkatkan produktivitas pengambil keputusan perusahaan Data warehousing
meningkatkan produktivitas pengambil keputusan perusahaan dengan menciptakan
basis data yang terintegrasi dari data historis yang konsisten dan berorientasi pada
subjek yang berasal dari berbagai sistem yang dapat diintegrasikan ke dalam suatu
bentuk yang memberikan perspektif yang konsisten tentang organisasi. Dengan
mengubah data menjadi informasi yang bermakna, data warehouse membantu
pengambil keputusan perusahaan membuat keputusan yang lebih baik.

2.1.5 Perbandingan Sistem OLTP dan Data Warehousing

DBMS yang dibuat untuk Online Transaction Processing (OLTP) umumnya


dianggap tidak cocok untuk data warehousing karena setiap sistem didesain dengan
kebutuhan yang berbeda. Sebagai contoh, sistem OLTP dirancang untuk memaksimalkan
kapasitas pemrosesan transaksi, sementara data warehouse dirancang untuk mendukung
pemrosesan query ad hoc.

Sebuah organisasi biasanya akan memiliki sejumlah sistem OLTP yang berbeda
untuk proses bisnis seperti kontrol inventaris, faktur pelanggan, dan point-of-sale. Sistem-
sistem ini menghasilkan data operasional yang terperinci, terkini, dan dapat berubah. Data
OLTP diatur sesuai dengan persyaratan transaksi yang terkait dengan aplikasi bisnis dan
mendukung keputusan sehari-hari dari banyak pengguna operasional secara bersamaan.
Sistem OLTP dioptimalkan untuk sejumlah besar transaksi yang dapat diprediksi,
berulang, dan pembaruan yang intensif.

7
Sebaliknya, sebuah organisasi biasanya memiliki satu gudang data, yang
menyimpan data terperinci, historis, dan diringkas dalam berbagai tingkatan dan jarang
diubah kecuali ditambahkan data baru. Data warehouse dibuat untuk menangani jumlah
transaksi yang relatif kecil dan tidak dapat diprediksi yang membutuhkan jawaban atas
pertanyaan heuristik, ad hoc, dan tidak terstruktur. Data gudang diatur untuk memenuhi
kebutuhan pertanyaan yang mungkin terjadi dan digunakan untuk membantu keputusan
strategis jangka panjang dari tingkat manajemen yang relatif rendah.

Meskipun mereka dibangun dengan cara yang berbeda dan memiliki fitur yang
berbeda, sistem OLTP dan gudang data sangat terkait karena mereka menyediakan sumber
data untuk gudang. Masalah utama dengan hubungan ini adalah bahwa data yang dimiliki
oleh sistem OLTP dapat menjadi tidak konsisten, terfragmentasi, mudah berubah, dan
memiliki entri yang duplikat atau hilang. Oleh karena itu, sebelum dapat digunakan di
gudang data, data operasional harus "dibersihkan".

Sistem OLTP tidak dibangun untuk menjawab pertanyaan ad hoc dengan cepat.
Sistem ini juga cenderung tidak menyimpan data historis, yang diperlukan untuk
menganalisis tren. Pada dasarnya, OLTP menawarkan data mentah dalam jumlah besar,
yang tidak mudah dianalisis. Gudang data memungkinkan pertanyaan yang lebih kompleks
untuk dijawab selain hanya agregasi sederhana seperti, 'Berapa harga jual rata-rata untuk
properti di kota-kota besar di Inggris Raya? Jenis-jenis pertanyaan yang diharapkan dapat
dijawab oleh data warehouse mulai dari yang relatif sederhana hingga yang sangat
kompleks dan bergantung pada jenis alat akses pengguna akhir yang digunakan. Contoh
dari berbagai pertanyaan yang dapat didukung oleh gudang data DreamHome meliputi:

• Berapa total pendapatan Skotlandia pada kuartal ketiga tahun 2004?


• Berapa total pendapatan penjualan properti untuk setiap jenis properti di Inggris
Raya pada tahun 2003?
• Apa saja tiga area penyewaan properti terpopuler di setiap kota di tahun 2004, dan
bagaimana hasilnya dibandingkan dengan tahun sebelumnya?
• Berapa jumlah uang yang diperoleh dari penjualan properti di setiap kantor cabang
setiap bulan dibandingkan dengan jumlah uang yang diperoleh selama dua belas
bulan sebelumnya?
• Bagaimana penjualan properti di seluruh Inggris Raya akan berubah jika biaya
hukum naik 3,5% dan pajak pemerintah turun 1,5% untuk properti di atas
£100.000?

8
• Bagaimana hubungannya dengan data demografis, dan jenis properti apa yang
dijual dengan harga di atas harga jual rata-rata di kota-kota utama Inggris Raya?

2.1.6 Masalah-masalah dalam Penyimpanan Data


Masalah-masalah yang terkait dengan pengembangan dan pengelolaan
gudang data tercantum yaitu sebagai berikut (Greenfield, 1996).

 Meremehkan sumber daya untuk pemuatan data


Waktu yang dibutuhkan untuk mengekstrak, membersihkan, dan memuat data ke
dalam gudang seringkali dilewatkan oleh pengembang. Meskipun pembersihan data dan
alat manajemen yang lebih baik pada akhirnya akan mengurangi waktu dan upaya yang
dihabiskan, proses ini dapat memakan banyak waktu pengembangan.

 Masalah tersembunyi dengan sistem sumber

Masalah tersembunyi dengan sistem sumber yang memberi makan gudang data
mungkin tidak terdeteksi selama bertahun-tahun. Pengembang harus memutuskan apakah
memperbaiki sistem sumber atau memperbaiki masalah gudang data. Sebagai contoh,
ketika memasukkan detail properti baru, area tertentu mungkin mengizinkan nilai nol. Ini
dapat menyebabkan staf memasukkan data properti yang tidak lengkap, bahkan ketika
data tersebut tersedia dan dapat digunakan.

 Data yang diperlukan tidak diambil


Proyek gudang sering kali menyoroti kebutuhan data yang tidak dapat ditangkap
oleh sistem sumber yang ada. Organisasi harus memutuskan apakah akan memodifikasi
sistem OLTP atau membuat sistem yang didedikasikan untuk menangkap data yang
hilang. Sebagai contoh, ketika mempertimbangkan studi kasus DreamHome, kita
mungkin ingin menganalisis karakteristik peristiwa tertentu seperti pendaftaran klien dan
properti baru di setiap kantor cabang. Namun, saat ini hal tersebut tidak
memungkinkan karena kami tidak menangkap data yang diperlukan untuk analisis

9
seperti tanggal pendaftaran di kedua kasus tersebut.

 Meningkatnya permintaan pengguna akhir


Setelah pengguna akhir menerima alat bantu kueri dan pelaporan, permintaan
dukungan dari staf IS dapat meningkat dan bukannya menurun. Hal ini disebabkan oleh
meningkatnya kesadaran pengguna akan kemampuan dan nilai dari data warehouse.
Masalah ini dapat diatasi sebagian dengan berinvestasi pada alat yang lebih mudah
digunakan, lebih kuat, atau dalam memberikan pelatihan yang lebih baik bagi pengguna.
Alasan lebih lanjut untuk meningkatkan tuntutan pada staf IS adalah bahwa setelah
gudang data online, sering kali jumlah pengguna dan pertanyaan meningkat bersamaan
dengan permintaan untuk jawaban atas pertanyaan yang semakin kompleks.

 Homogenisasi data
Data warehousing berskala besar dapat menjadi sebuah latihan
homogenisasi data yang mengurangi nilai dari data tersebut. Sebagai
contoh, dalam menghasilkan pandangan yang terkonsolidasi dan terintegrasi
dari data organisasi, perancang gudang mungkin tergoda untuk menekankan
kesamaan daripada perbedaan dalam data yang digunakan oleh area aplikasi
yang berbeda seperti penjualan properti dan penyewaan properti.

 Permintaan sumber daya yang tinggi


Gudang data dapat menggunakan ruang disk dalam jumlah besar. Banyak basis
data relasional yang digunakan untuk mendukung keputusan dirancang di sekitar skema
bintang, kepingan salju, dan kepingan bintang

 Kepemilikan data

Data warehousing dapat mengubah sikap pengguna akhir terhadap


kepemilikan data. Data sensitif yang awalnya hanya dilihat dan digunakan oleh
departemen atau area bisnis tertentu, seperti penjualan atau pemasaran, sekarang dapat
diakses oleh orang lain dalam organisasi.

 Perawatan yang tinggi


Gudang data adalah sistem dengan tingkat pemeliharaan yang tinggi. Setiap

10
reorganisasi proses bisnis dan sistem sumber dapat mempengaruhi data warehouse. Agar
tetap menjadi sumber daya yang berharga, gudang data harus tetap konsisten dengan
organisasi yang didukungnya.

 Proyek berdurasi panjang


Sebuah gudang data mewakili sumber daya data tunggal untuk organisasi.
Namun, pembangunan gudang data dapat memakan waktu hingga tiga tahun, itulah
sebabnya beberapa organisasi membangun data mart (lihat Bagian 31.5). Data mart hanya
mendukung kebutuhan departemen atau area fungsional tertentu dan oleh karena itu dapat
dibangun dengan lebih cepat.

 Kompleksitas integrasi
Area yang paling penting untuk pengelolaan data warehouse adalah kemampuan
integrasi. Ini berarti sebuah organisasi harus menghabiskan banyak waktu untuk
mengetahui seberapa baik berbagai alat pergudangan data yang berbeda dapat
diintegrasikan ke dalam keseluruhan solusi yang dibutuhkan. Ini bisa menjadi tugas yang
sangat sulit, karena ada sejumlah alat untuk setiap operasi gudang data, yang harus
berintegrasi dengan baik agar gudang bekerja untuk keuntungan organisasi.

2.2 Arsitektur Gudang Data ( Data Warehouse Architecture )


Pada bagian ini kami menyajikan gambaran umum tentang arsitektur dan
komponen utama dari data warehouse (Anahory dan Murray, 1997). Proses, alat, dan
teknologi yang terkait dengan data warehousing dijelaskan secara lebih rinci di bagian
berikut dari bab ini.

2.2.1 Data Operasional


Sumber data untuk gudang data dipasok dari:

 Data operasional mainframe yang disimpan dalam database hirarki dan jaringan
generasi pertama. Sistem ini mungkin menampung sebagian besar data
operasional perusahaan.

11
• Data departemen disimpan dalam sistem file berpemilik seperti VSAM, RMS, dan
DBMS relasional seperti Informix dan Oracle.

• Data pribadi disimpan di workstation dan server pribadi.

• Sistem eksternal seperti Internet, database komersial yang tersedia, atau database
yang terkait dengan pemasok atau pelanggan perusahaan.

2.2.2 Penyimpanan Data Operasional


Operasional Data Store (ODS) adalah tempat penyimpanan data operasional
terkini dan terintegrasi yang digunakan untuk analisis. ODS sering dibuat ketika sistem
operasional lama tidak mampu memenuhi persyaratan pelaporan; namun, ODS hanya
dapat berfungsi sebagai area pementasan untuk data yang akan dipindahkan ke gudang.
ODS membuat database relasional mudah digunakan, tetapi tidak memiliki fungsi yang
mendukung keputusan gudang data.

Karena ODS dapat menyediakan data yang telah dibersihkan dan diekstrak dari
sistem sumber, membangun ODS dapat menjadi langkah penting dalam membangun data
warehouse. Ini menunjukkan bahwa tugas yang tersisa untuk mengintegrasikan dan
mengorganisasikan data untuk gudang data telah disederhanakan.

2.2.3 Manajer Beban


Load manager, juga disebut komponen frontend, melakukan semua tugas yang
terkait dengan ekstraksi dan pemuatan data ke dalam gudang. Data dapat diekstraksi
langsung dari sumber data atau, lebih umumnya, dari penyimpanan data operasional.
Operasi yang dilakukan oleh load manager dapat mencakup transformasi data sederhana
untuk mempersiapkan data untuk dimasukkan ke dalam gudang. Ukuran dan
kompleksitas bagian-bagian ini berbeda-beda di antara gudang data, dan mereka dapat
dibangun dengan menggunakan kombinasi alat pemuatan data vendor dan program yang
dibuat khusus untuk mereka.

2.2.4 Manajer Gudang


Semua tugas yang berkaitan dengan pengelolaan data gudang dilakukan oleh
manajer gudang; bagian-bagian ini dikelola dengan alat manajemen data vendor

12
dan program yang dirancang khusus. Manajer gudang melakukan hal-hal berikut:

 analisis data untuk memastikan semuanya konsisten;

 transformasi dan penggabungan sumber data dari penyimpanan sementara ke


dalam tabel data gudang; dan

 membuat indeks dan tampilan pada tabel dasar;

 melakukan denormalisasi jika diperlukan;

 melakukan agregasi jika diperlukan;

 dan menyajikan dan mengarsipkan data.

Dalam beberapa kasus, manajer gudang juga dapat membuat profil kueri
untuk menentukan indeks dan agregasi yang tepat. Profil kueri dapat dibuat untuk
setiap gudang data, kelompok pengguna, atau pengguna individu, dan didasarkan
pada informasi tentang fitur kueri seperti frekuensi, tabel target, dan ukuran set
hasil.

2.2.5 Manajer Kueri


Manajer kueri (juga disebut komponen backend) melakukan semua operasi yang
terkait dengan manajemen kueri pengguna. Komponen ini biasanya dibangun dengan
menggunakan alat akses data pengguna akhir dari vendor, alat pemantauan gudang data,
fasilitas database, dan program yang dibuat khusus. Kemampuan alat akses pengguna
akhir dan database menentukan kompleksitas manajer kueri. Manajer kueri melakukan
banyak hal, seperti mengarahkan kueri ke tabel yang tepat dan menjadwalkan eksekusi
kueri. Dalam beberapa kasus, mereka juga membuat profil kueri untuk membantu
manajer gudang menentukan indeks dan agregat yang tepat.

a. Data terperinci

Semua data terperinci disimpan dalam skema database di area gudang ini. Dalam
kebanyakan kasus, data terperinci tidak disimpan secara online, tetapi dapat diakses
dengan menggabungkan tingkat detail lebih lanjut. Namun, secara teratur, data terperinci
ditambahkan ke gudang untuk melengkapi data agregat.

b. Data yang Diringkas dengan Ringan dan Sangat Ringkas

13
Area gudang ini menyimpan semua data agregat yang dibuat oleh manajer
gudang. Area gudang ini sementara karena akan berubah terus-menerus untuk
menyesuaikan dengan profil permintaan yang berubah.

Ringkasan informasi dilakukan untuk meningkatkan kinerja kueri. Terlepas dari


peningkatan biaya operasional yang terkait dengan ringkasan data pada awalnya, hal ini
dikompensasi dengan menghilangkan kebutuhan untuk melakukan operasi ringkasan
terus-menerus, seperti penyortiran dan pengelompokan, saat menjawab pertanyaan
pengguna. Saat data baru ditambahkan ke gudang, data ringkasan diperbarui secara terus
menerus.

c. Arsipkan/Data Cadangan

Untuk pengarsipan dan pencadangan, area gudang ini menyimpan ringkasan dan
data terperinci. Meskipun ringkasan dibuat dari data terperinci, mungkin perlu untuk
mencadangkan ringkasan online jika data ini disimpan lebih lama. Data ditransfer ke arsip
seperti pita magnetik atau disk optik.

Semua definisi metadata, atau data tentang data, yang digunakan oleh semua
proses gudang disimpan di area gudang ini. Metadata digunakan untuk berbagai tujuan,
seperti:

 proses ekstraksi dan pemuatan—metadata membantu menghubungkan


sumber data ke tampilan umum data gudang;

 Proses manajemen gudang: tabel ringkasan diotomatiskan melalui


penggunaan metadata;

d. Metadata

Proses manajemen kueri menggunakan metadata untuk mengarahkan kueri ke


sumber data terbaik.

Struktur metadata berbeda untuk setiap proses karena berbagai tujuan. Ini
menunjukkan bahwa sejumlah salinan metadata yang menggambarkan item data yang
sama disimpan di dalam gudang data. Selain itu, sebagian besar alat vendor untuk
manajemen salinan dan akses data pengguna akhir menggunakan versi metadata mereka
sendiri. Secara khusus, alat manajemen salinan menggunakan metadata untuk memahami

14
aturan pemetaan yang akan diterapkan untuk mengubah data sumber menjadi bentuk
umum. Alat akses pengguna akhir juga menggunakan metadata untuk memahami
cakupan data sumber. Tidak boleh diremehkan bahwa mengelola metadata dalam data
warehouse adalah pekerjaan yang sangat kompleks.

2.2.6 Alat Akses Pengguna Akhir


Tujuan utama dari data warehousing adalah untuk memberikan informasi kepada
pengguna bisnis untuk pengambilan keputusan strategis. Alat akses pengguna akhir
digunakan oleh pengguna ini untuk berinteraksi dengan gudang. Analisis rutin dan ad hoc
memerlukan dukungan gudang data yang efektif. Merencanakan persyaratan
penggabungan, penjumlahan, dan laporan berkala pengguna akhir memastikan hasil yang
optimal.

Meskipun definisi alat akses pengguna akhir dapat tumpang tindih, untuk tujuan
diskusi ini, kami mengkategorikan alat ini ke dalam lima kelompok utama (Berson dan
Smith, 1997):

 alat bantu pelaporan dan kueri;

 alat pengembangan aplikasi;

 Alat bantu Sistem Informasi Eksekutif (Executive Information System/EIS);

 Alat bantu Pemrosesan Analitik Online (OLAP);

 alat penggalian data.

a) Alat bantu pelaporan dan kueri

Alat bantu pelaporan meliputi alat bantu pelaporan produksi dan penulis laporan.
Alat bantu pelaporan produksi digunakan untuk menghasilkan laporan operasional reguler
atau mendukung pekerjaan batch bervolume tinggi, seperti pesanan/faktur pelanggan dan
cek gaji staf. Sebaliknya, penulis laporan adalah alat bantu desktop murah yang dirancang
untuk pengguna akhir.

Alat bantu kueri untuk gudang data relasional dirancang untuk menerima SQL
atau menghasilkan pernyataan SQL untuk menanyakan data yang disimpan di gudang.
Alat- alat ini melindungi pengguna akhir dari kerumitan SQL dan struktur basis data
dengan menyertakan lapisan meta antara pengguna dan basis data. Meta-layer adalah

15
perangkat lunak yang menyediakan tampilan berorientasi subjek dari database dan
mendukung pembuatan SQL dengan cara 'tunjuk-dan-klik'. Contoh alat kueri adalah
Query-By- Example (QBE). Fasilitas QBE dari DBMS Microsoft Office Access. Alat
bantu kueri sangat populer di kalangan pengguna aplikasi bisnis seperti analisis
demografi dan milis pelanggan. Namun, ketika pertanyaan menjadi semakin kompleks,
alat bantu ini dapat dengan cepat menjadi tidak efisien.

b) Alat pengembangan aplikasi

Karena interaksi pengguna memerlukan tingkat keahlian yang terlalu tinggi,


persyaratan pengguna akhir mungkin membuat kemampuan bawaan alat pelaporan dan
kueri tidak memadai. Dalam situasi seperti ini, pengembangan aplikasi internal mungkin
diperlukan untuk menggunakan alat akses data grafis yang dirancang terutama untuk
lingkungan klien-server. Beberapa alat pengembangan aplikasi ini berfungsi dengan alat
OLAP yang populer dan memiliki kemampuan untuk mengakses semua sistem basis data
utama, seperti Oracle, Sybase, dan Informix.

c) Alat bantu sistem informasi eksekutif (EIS)

Sistem informasi eksekutif, yang baru-baru ini disebut sebagai 'sistem informasi
semua orang', pada awalnya dikembangkan untuk mendukung pengambilan keputusan
strategis tingkat tinggi. Namun, fokus dari sistem ini kemudian meluas hingga mencakup
dukungan untuk semua tingkat manajemen. Alat bantu EIS pada awalnya dikaitkan
dengan mainframe yang memungkinkan pengguna untuk membangun aplikasi pendukung
keputusan grafis yang disesuaikan untuk memberikan gambaran umum data organisasi
dan akses ke sumber data eksternal.

Saat ini, perbedaan antara alat bantu EIS dan alat bantu pendukung keputusan
lainnya menjadi semakin tidak jelas karena pengembang EIS menawarkan fasilitas kueri
tambahan dan menyediakan aplikasi yang dirancang khusus untuk bidang bisnis seperti
keuangan, penjualan, dan pemasaran.

d) Alat bantu Pemrosesan Analitik Online (OLAP)

Konsep basis data multidimensi adalah dasar dari alat pemrosesan analitik online
(OLAP), yang memungkinkan pengguna yang canggih menganalisis data menggunakan

16
tampilan multidimensi yang kompleks. Alat bantu ini biasanya digunakan untuk
perencanaan kapasitas, peramalan penjualan produk, dan evaluasi efektivitas kampanye
pemasaran. Alat-alat ini menganggap bahwa data disusun dalam model multi-dimensi
yang didukung oleh database multi-dimensi khusus (MDDB) atau database relasional
yang dibuat untuk memungkinkan kueri multi-dimensi.

e) Alat penambangan data

Data mining adalah proses menemukan korelasi, pola, dan tren baru yang
bermakna dengan menambang data dalam jumlah besar menggunakan teknik statistik,
matematika, dan kecerdasan buatan (AI). Data mining memiliki potensi untuk
menggantikan kemampuan alat OLAP, karena daya tarik utama data mining adalah
kemampuannya untuk membangun model prediktif daripada model retrospektif.

2.3 Aliran Data Gudang Data ( Data Warehouse Data Flows )


Data warehousing berfokus pada pengelolaan lima aliran data utama, yaitu
aliran masuk, aliran naik, aliran turun, aliran keluar, dan metaflow (Hackathorn, 1995).
Aliran data dalam data warehouse ditunjukkan pada Gambar 31.2. Proses-proses yang
terkait dengan setiap aliran data meliputi:

 InflowEkstraksi, pembersihan, dan pemuatan data sumber.


 UpflowMenambahkan nilai pada data di gudang
17
melalui peringkasan, pengemasan, dan distribusi data.
 Arus BawahMengarsipkan dan mencadangkan data di gudang.
 Aliran keluarMembuat data tersedia bagi pengguna akhir.
 MetaflowMengelola metadata.

2.3.1 Arus Masuk ( Inflow )


Aliran masuk adalah proses yang melibatkan ekstraksi, pembersihan, dan memuat
data dari sistem sumber ke dalam gudang data. Aliran masuk melibatkan pengambilan data
dari sistem sumber untuk memuatnya ke dalam gudang data. Selain itu, data dapat dimuat
ke dalam Gudang Data Operasional (ODS) sebelum dipindahkan ke gudang data. Karena
sumber data terutama dihasilkan oleh sistem OLTP, data perlu direkonstruksi untuk
keperluan gudang data. Rekonstruksi data melibatkan:

 bersihkan data kotor;


 menyusun data untuk memenuhi persyaratan baru gudang data, seperti menambah,
menghapus, dan mendenormalisasi bidang;
 dan memastikan bahwa sumber data konsisten dengan data itu sendiri dan dengan
data gudang yang sudah ada.

Untuk mengelola aliran masuk dengan baik, mekanisme harus ditentukan untuk
menentukan kapan memulai ekstraksi data untuk melakukan transformasi yang diperlukan
dan melakukan pemeriksaan konsistensi. Sejauh mana sistem sumber "selaras" satu sama
lain menentukan kompleksitas proses ekstraksi data; sangat penting untuk memastikan
bahwa data dalam keadaan konsisten untuk menghasilkan tampilan data bisnis yang
terpadu.

Data biasanya dimuat ke penyimpanan sementara untuk pembersihan dan


pemeriksaan konsistensi setelah diekstraksi. Sangat penting agar proses ini sepenuhnya
terotomatisasi dan dapat melaporkan masalah dan kesalahan karena prosesnya kompleks.
Ada alat komersial yang mendukung manajemen input, tetapi kecuali prosesnya cukup
mudah, alat tersebut mungkin perlu disesuaikan.

2.3.2 Aliran ke Atas ( Upflow )

18
Aliran ke atas merupakan Proses yang terkait dengan penambahan nilai pada data
di gudang melalui peringkasan, pengemasan, dan distribusi data.

Aktivitas yang terkait dengan arus naik meliputi:


 Memilih, memproyeksikan, menggabungkan, dan mengelompokkan data terkait untuk
memberi pengguna akhir tampilan yang lebih mudah digunakan. Agregasi bukan hanya
operasi relasional; itu juga melibatkan analisis statistik yang kompleks, seperti
mengidentifikasi tren, mengelompokkan, dan mengambil sampel data.
 Kompilasi data dengan mengubah data terperinci atau ringkasan ke dalam
format yang lebih berguna, seperti spreadsheet, dokumen teks, bagan,
presentasi grafis lainnya, database Data pribadi dan animasi.
 Mendistribusikan data ke kelompok yang tepat untuk meningkatkan
ketersediaan dan aksesibilitas.

Selain menambah nilai pada data, harus juga memperhatikan pemenuhan


persyaratan kinerja gudang data dan meminimalkan biaya pengoperasian yang
berkelanjutan. Persyaratan ini pada dasarnya mendorong desain ke arah yang berlawanan,
memaksa pemfaktoran ulang untuk meningkatkan kinerja kueri atau mengurangi biaya
operasional. Dengan kata lain, administrator gudang data harus menentukan desain
database yang paling sesuai untuk memenuhi semua persyaratan, yang seringkali
memerlukan beberapa kompromi.

2.3.3 Arus Bawah ( Downflow )


Penyimpanan data lama, yang mencakup penyimpanan dan pencadangan data di
gudang, sangat penting untuk kinerja dan efisiensi gudang karena memindahkan data lama
yang bernilai terbatas ke penyimpanan arsip seperti disk optik atau pita magnetik. Namun,
jumlah data online tidak akan mempengaruhi kinerja database jika skema partisi yang tepat
dipilih.

Aturan partisi untuk tabel tertentu dapat didasarkan pada atribut data tertentu,
seperti jangka waktu atau wilayah negara. Partisi adalah pilihan desain yang bermanfaat
untuk database yang sangat besar karena memungkinkan Anda membagi tabel yang
mengandung banyak record menjadi banyak tabel yang lebih kecil. Misalnya, tabel
DreamHome PropertySale dapat dibagi berdasarkan negara bagian Inggris.

19
Proses dataflow mencakup proses yang memastikan bahwa status penyimpanan
data dapat direkonstruksi jika data hilang atau kegagalan perangkat lunak atau keras. Data
yang disimpan harus disimpan sedemikian rupa sehingga dapat direkonstruksi di gudang
jika diperlukan.

2.3.4 Aliran Keluar ( Outflow )


Outbound adalah proses yang melibatkan penyediaan data kepada pengguna
akhir. Dalam output inilah organisasi menyadari nilai sebenarnya dari pergudangan. Hal ini
mungkin memerlukan rekayasa ulang proses bisnis untuk mendapatkan keunggulan
kompetitif (Hackathorn, 1995). Dua operasi utama yang terkait dengan keluaran adalah:

 Pengaksesan berkaitan dengan memenuhi permintaan pengguna akhir untuk data.


Menciptakan lingkungan di mana pengguna dapat menggunakan alat bantu kueri
untuk mengakses sumber data yang paling akurat adalah masalah utama. Akses
pengguna dapat terjadi secara instan, rutin, atau ad hoc. Untuk menjadwalkan
eksekusi kueri pengguna, sangat penting untuk memastikan bahwa sumber daya
sistem digunakan dengan cara yang paling efisien.
 Delivering, yang berkaitan dengan penyampaian informasi secara proaktif ke
workstation pengguna akhir dan disebut sebagai jenis proses 'publish-and-
subscribe'. Gudang menerbitkan berbagai 'objek bisnis' yang direvisi secara berkala
dengan memantau pola penggunaan. Pengguna berlangganan ke sekumpulan objek
bisnis yang paling sesuai dengan kebutuhan mereka.
Masalah penting dalam manajemen eksternal adalah pemasaran aktif gudang data
kepada pengguna, yang akan berkontribusi terhadap dampak keseluruhan terhadap operasi
organisasi. Ada aktivitas operasional tambahan dalam mengelola aliran keluar, termasuk
mengarahkan kueri ke tabel target yang sesuai dan mengumpulkan informasi tentang profil
kueri yang terkait dengan grup pengguna untuk mengidentifikasi menentukan kumpulan
mana yang akan dibuat.

Gudang data berisi data ringkasan yang mampu menyediakan sejumlah sumber
data berbeda untuk menjawab kueri tertentu, termasuk data granular dan beberapa agregat
yang memenuhi kebutuhan data permintaan tersebut. Namun, performa kueri sangat
bervariasi bergantung pada karakteristik data target, yang paling jelas adalah volume data
yang akan dibaca. Saat mengelola aliran keluar, sistem harus menentukan cara paling
efisien untuk memenuhi permintaan.

20
2.3.5 Metaflow
Metaflow adalah proses yang terkait dengan manajemen metadata. Alur
sebelumnya menggambarkan manajemen data warehouse yang berkaitan dengan
bagaimana data masuk dan keluar dari gudang. Metaflow adalah proses memindahkan
metadata (data ke aliran lain). Metadata adalah deskripsi isi data dalam data warehouse,
apa isinya, dari mana asalnya, dan apa yang telah dilakukan dengannya dengan cara
pembersihan, integrasi, dan agregasi.

2.4 Alat dan Teknologi Penyimpanan Data ( Data Warehousing Tools and
Technologies )
Pada bagian ini kami akan membahas alat dan teknologi yang terkait dengan
membangun dan mengelola data warehouse dan, khususnya, kami akan berfokus pada isu-
isu yang terkait dengan integrasi alat-alat ini.

2.4.1 Alat Ekstraksi, Pembersihan, dan Transformasi


Memilih alat ekstraksi, pembersihan, dan transformasi yang tepat merupakan
langkah penting pembangunan gudang data. Jumlah vendor yang ada pun semakin banyak
berfokus pada pemenuhan persyaratan implementasi gudang data dibandingkan untuk
sekadar memindahkan data antar platform perangkat keras. Tugas mengambil data dari
sistem sumber, membersihkan dan mengubahnya, dan kemudian memuat hasilnya ke
dalam target

sistem dapat dilakukan baik dengan produk terpisah, atau dengan solusi tunggal yang
terintegrasi. Solusi terintegrasi termasuk dalam salah satu kategori Berikut :

 Generator kode
Generator kode membuat program transformasi 3GL / 4GL yang
disesuaikan berdasarkan definisi data sumber dan target. Masalah utama dengan
pendekatan ini adalah pengelolaan sejumlah besar program yang diperlukan untuk
mendukung gudang data perusahaan yang kompleks. Vendor menyadari masalah
ini dan beberapa vendor mengembangkan komponen manajemen dengan
menggunakan teknologi seperti metode alur kerja dan sistem penjadwalan
otomatis.

21
 Alat replikasi data basis data
Alat replikasi data basis data menggunakan pemicu basis data atau log
pemulihan untuk menangkap perubahan pada satu sumber data pada satu sistem
dan menerapkan perubahan pada salinan sumber data yang berada di sistem yang
berbeda. Sebagian besar produk replikasi tidak mendukung penangkapan
perubahan pada file dan database non-relasional, dan sering kali tidak
menyediakan fasilitas untuk transformasi dan peningkatan data yang signifikan.
Alat-alat ini dapat digunakan untuk membangun kembali basis data setelah
kegagalan atau membuat basis data untuk data mart, asalkan jumlah sumber data
kecil dan tingkat transformasi data relatif sederhana.

 Mesin transformasi dinamis


Mesin transformasi dinamis berbasis aturan menangkap data dari sistem
sumber pada interval yang ditentukan pengguna, mentransformasi data, dan
kemudian mengirim dan memuat hasilnya ke dalam lingkungan target. Hingga saat
ini, sebagian besar produk hanya mendukung sumber data relasional, tetapi produk
sekarang muncul yang menangani file sumber dan database non-relasional.

2.4.2 DBMS Gudang Data


Ada beberapa masalah dengan integrasi database data warehouse. Karena
kematangan produk tersebut, sebagian besar database relasional akan dapat diintegrasikan
dengan jenis perangkat lunak lainnya. Namun, ada beberapa masalah yang terkait dengan
ukuran yang mungkin dimiliki database data warehouse. Ketika memilih DBMS,
paralelisme database menjadi masalah penting, serta masalah umum seperti kinerja,
skalabilitas, ketersediaan, dan pengelolaan. Kami pertama-tama mengidentifikasi
persyaratan DBMS data warehouse, dan kemudian membahas secara singkat bagaimana
teknologi paralel membantu memenuhi persyaratan data warehouse.

A. syaratan untuk DBMS gudang data

Persyaratan khusus untuk DBMS relasional yang cocok untuk data warehousing
(Red Brick Systems, 1996) yaitu sebagai berikut :

 Kinerja beban

22
Sebuah gudang data memerlukan pemuatan data baru secara bertahap secara
berkala dalam rentang waktu yang singkat. Performa proses ini dapat mencapai
ratusan juta baris atau gigabyte data per jam, dan tidak boleh ada batas maksimum
yang membatasi bisnis.

 Pemrosesan beban

Untuk memuat data ke dalam gudang data, banyak langkah yang harus diambil,
termasuk konversi data, pemfilteran, pemformatan ulang, pemeriksaan integritas,
penyimpanan fisik, pengindeksan, dan pembaruan metadata. Meskipun setiap
langkah mungkin sangat kecil dalam praktiknya, proses pemuatan harus dilihat
berjalan lancar.

 Manajemen kualitas data

Untuk mengadopsi manajemen berbasis fakta, diperlukan kualitas data terbaik.


Meskipun sumbernya "kotor" dan ukuran basis data yang besar, gudang harus
memastikan integritas referensial, konsistensi lokal, dan konsistensi global.
Meskipun persiapan dan pemuatan merupakan tindakan yang diperlukan, itu tidak
cukup. Pengukuran keberhasilan aplikasi data warehouse adalah kemampuan
untuk menjawab pertanyaan pengguna akhir. Semakin banyak pertanyaan yang
dijawab, lebih mungkin bagi analis untuk mengajukan pertanyaan yang lebih
inovatif dan rumit.

 Performa kueri

Analisis ad hoc dan manajemen berbasis fakta tidak boleh dihambat oleh RDBMS
data warehouse. Operasi penting yang melibatkan banyak permintaan harus
diselesaikan dalam waktu yang wajar.

 Skalabilitas terabyte

Ukuran gudang data tumbuh dengan sangat cepat dengan ukuran mulai dari
beberapa hingga ratusan gigabyte hingga berukuran terabyte (1012 byte) dan
petabyte (1015 byte).

23
RDBMS tidak boleh memiliki batasan arsitektur terhadap ukuran database dan
harus mendukung manajemen modular dan paralel. Jika terjadi kegagalan,
RDBMS harus mendukung ketersediaan yang berkelanjutan, dan menyediakan
mekanisme untuk pemulihan. RDBMS harus mendukung perangkat penyimpanan
massal seperti optical disk dan perangkat manajemen penyimpanan hirarkis.
Terakhir, kinerja query tidak boleh bergantung pada ukuran database, tetapi lebih
pada kompleksitas query.

 Skalabilitas pengguna massal

Pemikiran saat ini adalah bahwa akses ke gudang data terbatas pada jumlah
pengguna manajerial yang relatif rendah. Hal ini sepertinya tidak akan tetap
benar seiring dengan nilai dari data warehouse. Diperkirakan bahwa RDBMS data
warehouse harus mampu mendukung ratusan, atau bahkan ribuan, pengguna yang
bersamaan dengan tetap mempertahankan kinerja kueri yang dapat diterima.

 Gudang data berjejaring

Sistem data warehouse harus mampu bekerja sama dalam jaringan data
warehouse yang lebih besar. Data warehouse harus menyertakan alat yang
mengoordinasikan pergerakan subset data antar gudang. Pengguna harus dapat
melihat, dan bekerja dengan, beberapa data warehouse dari satu workstation klien.

 Administrasi gudang

Sifat siklus waktu dan skala data warehouse menuntut kemudahan dan
fleksibilitas administrasi. RDBMS harus memberikan kontrol untuk menerapkan
batas sumber daya, akuntansi chargeback untuk mengalokasikan biaya kembali ke
pengguna, dan prioritas kueri untuk memenuhi kebutuhan kelas dan aktivitas
pengguna yang berbeda. DBMS juga harus menyediakan pelacakan dan
penyetelan beban kerja sehingga sumber daya sistem dapat dioptimalkan untuk
kinerja dan keluaran maksimum. Nilai yang paling terlihat dan terukur dari
penerapan data warehouse dibuktikan dalam akses kreatif tanpa hambatan ke data
yang disediakannya untuk pengguna akhir.

 Analisis dimensi terintegrasi

Semua orang setuju bahwa tampilan multi-dimensi bagus, dan RDBMS gudang
harus mendukung pembuatan ringkasan pra-komputasi yang cepat dan mudah,

24
yang biasa terjadi di gudang data yang besar, dan menyediakan alat pemeliharaan
untuk mengotomatiskan pembuatan ringkasan pra-komputasi ini. Perhitungan
agregat dinamis harus sesuai dengan kebutuhan kinerj.

 Fungsionalitas kueri tingkat lanjut

Pengguna akhir memerlukan perhitungan analitis tingkat lanjut, analisis


sekuensial dan komparatif, dan akses yang konsisten ke data yang terperinci dan
dirangkum. Menggunakan SQL dalam lingkungan alat bantu 'tunjuk-dan-klik'
klien-server terkadang tidak praktis atau bahkan tidak mungkin karena
kompleksitas pertanyaan pengguna. RDBMS harus menyediakan serangkaian
operasi analitis yang lengkap dan canggih.

B. DBMS parallel

Pemrosesan volume besar data diperlukan untuk penyimpanan data, dan


teknologi basis data paralel dapat membantu meningkatkan kinerja yang diperlukan.
Banyak vendor membangun DBMS yang mendukung keputusan yang besar dengan
menggunakan teknologi paralel seiring dengan meningkatnya popularitas pergudangan
data. DBMS paralel bergantung pada operasi yang efisien dari banyak sumber daya,
termasuk prosesor, memori, disk, dan koneksi jaringan. Tujuannya adalah untuk
memecahkan masalah dukungan keputusan dengan menggabungkan beberapa node yang
secara bersamaan menangani masalah yang sama. Skalabilitas, operabilitas, dan
ketersediaan adalah fitur utama DBMS paralel.

DBMS paralel melakukan banyak operasi basis data secara bersamaan


dan membagi tugas-tugas individu menjadi tugas yang lebih kecil yang dapat
didistribusikan ke berbagai prosesor. DBMS paralel harus memiliki kemampuan untuk
menjalankan kueri paralel. Dengan kata lain, DBMS harus memiliki kemampuan untuk
menguraikan pertanyaan besar yang rumit menjadi pertanyaan kecil, menjalankan
pertanyaan kecil secara bersamaan, dan akhirnya mengumpulkan hasilnya. Pemuatan data
paralel, pemindaian tabel, dan pengarsipan dan pencadangan data harus menjadi
kemampuan DBMS tersebut. Platform server basis data untuk pergudangan data memiliki
dua arsitektur perangkat keras paralel utama:

 Symmetric Multi-Processing (SMP) adalah satu set prosesor yang dipasangkan


secara erat yang berbagi memori dan penyimpanan disk.

25
 Massively Parallel Processing (MPP) adalah satu set prosesor yang digabungkan
secara longgar dan masing-masing memiliki memori dan penyimpanan disk
sendiri.

2.4.3 Metadata Gudang Data


Meskipun ada banyak masalah yang terkait dengan integrasi data warehouse,
fokus kami pada integrasi metadata—atau "data tentang data" (Darling, 1996).
Pengelolaan metadata dalam data warehouse adalah tugas yang sangat sulit dan kompleks
karena metadata digunakan untuk berbagai tujuan, dan pengelolaan metadata merupakan
masalah penting dalam mencapai data warehouse yang terintegrasi penuh.

Salah satu tujuan utama metadata adalah untuk memberi tahu administrator
gudang tentang sejarah semua item di gudang dengan menunjukkan jalur kembali ke
sumber data awal. Namun, masalahnya adalah bahwa metadata melakukan banyak hal
dalam gudang, termasuk manajemen gudang data, pembuatan kueri, dan proses
transformasi dan pemuatan data.

Metadata yang berkaitan dengan transformasi dan pemuatan data harus


menjelaskan data sumber serta perubahan yang dilakukan padanya. Sebagai contoh,
pengenal unik untuk setiap bidang sumber, nama bidang asli, tipe data sumber, dan lokasi
asli, serta tipe data tujuan dan nama tabel tujuan. Jika garis tersebut mengalami perubahan,
seperti perubahan dari garis sederhana ke garis yang terdiri dari berbagai prosedur dan
fungsi yang kompleks, hal ini juga harus dicatat.

Metadata yang terkait dengan manajemen data menggambarkan data saat


disimpan di gudang. Setiap objek dalam database perlu dideskripsikan termasuk data di
setiap tabel, indeks, dan tampilan, serta batasan-batasan yang terkait. Informasi ini
disimpan dalam katalog sistem DBMS, namun ada persyaratan tambahan untuk keperluan
gudang. Sebagai contoh, metadata juga harus menjelaskan setiap field yang terkait dengan
agregasi, termasuk deskripsi agregasi yang dilakukan. Selain itu, partisi tabel harus
dijelaskan termasuk informasi tentang kunci partisi, dan rentang data yang terkait dengan
partisi tersebut.

Selain metadata yang disebutkan di atas, manajer kueri perlu menghasilkan kueri
yang sesuai. Pada gilirannya, manajer kueri menghasilkan metadata tambahan tentang
kueri yang dilakukan, yang dapat digunakan untuk membuat riwayat dan profil kueri untuk

26
setiap kueri, kelompok pengguna, atau gudang data. Metadata yang terkait dengan
pengguna kueri juga mencakup, misalnya, informasi tentang definisi istilah "harga" atau
"harga".

Menyinkronkan metadata

Menyinkronkan berbagai jenis metadata yang digunakan di seluruh data


warehouse adalah masalah integrasi utama.. Berbagai alat data warehouse menghasilkan
dan menggunakan metadata mereka sendiri, dan untuk mencapai integrasi, kami
memerlukan alat ini mampu berbagi metadata mereka. Tantangannya adalah
menyinkronkan metadata antara berbagai produk dari vendor yang berbeda dengan
menggunakan penyimpanan metadata yang berbeda. Sebagai contoh, penting untuk
mengidentifikasi item metadata yang benar pada tingkat detail yang tepat dari satu produk
dan memetakannya ke item metadata yang tepat pada tingkat detail yang tepat di produk
lain, kemudian memilah perbedaan pengkodean di antara keduanya. Hal ini harus diulangi
untuk semua metadata lain yang memiliki kesamaan antara kedua produk. Selanjutnya,
setiap perubahan pada metadata (atau bahkan meta-metadata), di satu produk perlu
disampaikan ke produk lainnya. Tugas menyinkronkan dua produk sangat kompleks, dan
oleh karena itu mengulangi proses ini untuk enam atau lebih produk yang membentuk
gudang data dapat menjadi sumber daya yang intensif. Namun, integrasi metadata harus
dicapai.

Pada awalnya, Meta Data Coalition (MDC) dan Object Management Group
(OMG) mengusulkan dua standar utama untuk pemodelan metadata dan pemodelan di
bidang pergudangan data dan pengembangan berbasis komponen. Namun, MDC
menghentikan operasi independennya dan OMG sedang bekerja untuk mengintegrasikan
kedua standar tersebut.

Penggabungan MDC ke dalam OMG menandai kesepakatan vendor perangkat


keras data dan metadata utama untuk menyatukannya dalam satu standar yang
menggabungkan yang terbaik dari Open Information Model (OIM) MDC dengan yang
terbaik dari Common Warehouse Metamodel (CWM) OMG.

CWM OMG dibangun di atas berbagai standar, seperti UML (Unified Modeling
Language) OMG, XMI (XML Metadata Interchange), MOF (Meta Object Facility), dan
OIM dari MDC. Banyak perusahaan, seperti IBM, Oracle, Unisys, Hyperion, Genesis,
NCR, UBS, dan Dimension EDI, adalah antara yang mengembangkan CWM OMG.

27
2.4.4 Alat Administrasi dan Manajemen
Sebuah gudang data membutuhkan alat untuk mendukung administrasi dan
manajemen lingkungan yang kompleks. Alat-alat ini relatif langka, terutama yang
terintegrasi dengan baik dengan berbagai jenis metadata dan operasi sehari-hari gudang
data. Alat administrasi dan manajemen data warehouse harus mampu mendukung tugas-
tugas berikut:
 pemuatan data dari berbagai sumber;
 pemeriksaan kualitas dan integritas data;
 mengelola dan memperbarui metadata;
 memantau kinerja basis data untuk memastikan waktu respons kueri yang efisien
dan pemanfaatan sumber daya;
 mengaudit penggunaan gudang data untuk menyediakan informasi tagihan balik
pengguna;
 mereplikasi, subset, dan mendistribusikan data;
 mempertahankan manajemen penyimpanan data yang efisien;
 membersihkan data;
 pengarsipan dan pencadangan data;
 menerapkan pemulihan setelah kegagalan;
 manajemen keamanan.

2.5 Data Mart


Konsep terkait Data Mart mendukung pesatnya kemunculan gudang data. Pada
bagian ini, kami menjelaskan apa itu data mart, alasan membangun data mart, , dan
permasalahan terkait pengembangan dan penggunaan data mart. Data Subset gudang data
yang mendukung persyaratan layanan atau fungsi bisnis tertentu.
Data mart menyimpan subset data di gudang data, biasanya dalam bentuk
ringkasan data yang terkait dengan departemen atau fungsi bisnis tertentu. Data mart bisa
independen atau terhubung secara terpusat ke gudang data perusahaan. Seiring
pertumbuhan gudang data , kemampuan organisasi untuk memenuhi banyak kebutuhan
organisasi mungkin terpengaruh. Popularitas data mart berasal dari fakta bahwa data
warehouse di seluruh perusahaan terbukti sulit untuk dibuat dan diterapkan.

28
a. Ciri-ciri yang membedakan pusat data dan gudang data adalah:
 Pusat data hanya menangani kebutuhan pengguna yang terkait dengan
departemen atau fungsi bisnis.
 Data mart biasanya tidak memiliki data operasional yang rumit seperti
gudang data.

figure 31.3

29
 Penyimpanan data lebih mudah dipahami dan dinavigasi karena
mengandung lebih sedikit data daripada gudang data.

Ada beberapa cara untuk menciptakan pasar data. Salah satu pilihannya adalah
membangun beberapa pasar data yang bertujuan untuk berintegrasi dengan gudang;
pendekatan lain adalah membangun infrastruktur gudang data perusahaan dan pada saat
yang sama membangun satu atau lebih data logger untuk memenuhi kebutuhan bisnis yang
mendesak. Arsitektur Data Mart dapat dibangun sebagai aplikasi database dua atau tiga
tingkat. Gudang data Gudang data adalah tingkat pertama opsional (jika gudang data
menyediakan data tanda data), data mart adalah tingkat kedua dan stasiun kerja pengguna
akhir adalah tingkat ketiga, seperti pada gambar 31.3. Data didistribusikan antar level.

2.5.1 Alasan Membuat Data Mart antara lain:


 Untuk memberi pengguna akses ke data yang paling sering mereka perlukan
untuk dianalisis.
 Menyediakan data dalam format yang mewakili pandangan kolektif atas data oleh
sekelompok pengguna dalam suatu departemen atau fungsi bisnis.
 Meningkatkan waktu respons pengguna akhir dengan mengurangi jumlah data
yang perlu diakses.
 Menyediakan data yang terstruktur dengan baik sesuai dengan kebutuhan
pengguna akhir memerlukan akses ke alat seperti pemrosesan analitis online
(OLAP) dan alat penambangan data, yang mungkin memerlukan struktur database
internal yang unik. Dalam praktiknya, alat ini sering kali membuat data mart
sendiri yang dirancang untuk mendukung fungsi spesifiknya.
 Mengimplementasikan dan mengonfigurasi data mart lebih mudah daripada
membangun gudang data perusahaan karena data mart biasanya mengonsumsi
lebih sedikit data dan tugas-tugas seperti pembersihan data, pemuatan,
transformasi, dan integrasi jauh lebih mudah.
 Biaya penerapan data mart biasanya lebih rendah dibandingkan biaya
pembangunan gudang data.
 Dukungan untuk proyek data mart lebih jelas dan lebih mudah didekati bagi calon
pengguna data mart dibandingkan proyek data warehouse perusahaan.

30
2.5.2 Masalah dengan Data Mart
1. Fungsionalitas data mart

Kemampuan data mart telah meningkat seiring dengan pertumbuhan


popularitasnya. Sebaliknya daripada sekadar database yang kecil dan mudah diakses,
beberapa data mart sekarang harus dapat diskalakan hingga ratusan gigabyte (Gb), dan
menyediakan analisis yang canggih menggunakan Online Analytical

Pemrosesan (OLAP) dan/atau alat penambangan data. Selain itu, ratusan


pengguna harus mendapatkannya menggunakan data mart dari jarak jauh. Kompleksitas
dan ukuran beberapa pasar data sangat penting sesuai dengan karakteristik gudang data
usaha kecil.

2. Ukuran penyimpanan data


Pengguna mengharapkan waktu respons yang lebih cepat dari data mart
dibandingkan dengan gudang data, kinerja menurun seiring dengan meningkatnya ukuran
penyimpanan data. Beberapa vendor penyimpanan data adalah jelajahi cara untuk
mengurangi ukuran markup data untuk meningkatkan kinerja presentasi Misalnya, dimensi
dinamis dapat digunakan untuk menghitung redundansi berdasarkan permintaan tidak
dihitung sebelumnya dan disimpan dalam kubus database multidimensi (MDDB).

3. Kapasitas pengunduhan data


Gudang data harus menyeimbangkan dua komponen penting: waktu respons
pengguna akhir dan data kapasitas pengunduhan data. Pasar data dirancang untuk respons
pengguna yang cepat jumlah tabel agregat dan nilai agregat. Sayangnya, membuat tabel ini
dan nilai-nilai ini secara signifikan meningkatkan waktu pemuatan. Penjual sedang
menyelidiki perbaikan dalam prosedur pemuatan dengan menyediakan indeks yang secara
otomatis dan secara otomatis dan terus menerus beradaptasi dengan data yang diproses
atau mendukung pembaruan database lebih lanjut jadi hanya sel yang terkena dampak
perubahan yang diperbarui, bukan seluruh struktur MDDB.

4. Akses pengguna ke data di beberapa data mart

31
Salah satu opsinya adalah menyalin data di antara penyimpanan data yang
berbeda atau membuat penyimpanan data alternatif pasar data virtual. Penyimpanan data
virtual adalah layar atau repositori data perusahaan yang disesuaikan dengan kebutuhan
kelompok pengguna tertentu. Ada produk komersial yang mendominasi pasar data virtual.

5. Pasar Data Akses Internet/Intranet


Teknologi Internet/Intranet menyediakan akses terjangkau ke pusat data dan data
repositori data dengan browser web seperti Netscape Navigator dan Microsoft Internet
Peneliti Produk markup data Internet/Intranet biasanya berada di server web dan produk
analisis data. Pemasok mengembangkan produk menggunakan web yang semakin canggih
kemampuan Produk ini berisi fungsionalitas Java dan ActiveX.

6. Manajemen data pasar


Ketika jumlah pusat data dalam suatu organisasi meningkat, kebutuhan akan
sentralisasi juga meningkat mengelola dan mengoordinasikan pengoperasian pasar data.
Setelah data disalin ke penyimpanan data, data dapat disalin menjadi tidak konsisten ketika
pengguna mengubah pusat data mereka untuk menganalisis data di jalan lain. Organisasi
tidak dapat dengan mudah mengelola banyak pusat data, yang menyebabkan masalah
seperti versi tanda data, konsistensi data dan metadata, dan integritas, keamanan data
seluruh perusahaan, dan penyesuaian kinerja. Alat manajemen data tersedia secara
komersial.

7.Pemasangan data mart


Data mart menjadi semakin kompleks untuk dibangun. Vendor menawarkan
produk disebut sebagai 'data mart in a box' yang menyediakan sumber alat data mart
berbiaya rendah.

32
BAB III
PENUTUP

3.1 Kesimpulan
Data warehouse adalah koleksi atau kumpulan sumber daya yang dapat diakses
untuk mendapatkan informasi. Secara sederhana, data warehouse adalah koleksi data yang
sangat besar dan kompleks. Tujuan dari desain data warehouse adalah untuk membuat
analis dan pelaporan data menjadi bentuk informasi yang lebih berharga.
IBM merancang konsep awal penyimpanan data, "gudang informasi", sebagai
solusi untuk mengakses data yang disimpan dalam sistem non-relasional. Gudang
informasi dimaksudkan untuk memungkinkan organisasi menggunakan arsip data mereka
untuk membantu mereka menghasilkan uang.
Data warehouse adalah manajemen data dan teknologi analisis data. Tujuan utama
dari data warehousing adalah untuk menggabungkan semua data perusahaan ke dalam
sebuah repositori tunggal di mana orang dapat melakukan kueri, membuat laporan, dan
menganalisisnya.
Jika gudang data diimplementasikan dengan sukses, organisasi dapat memperoleh
banyak keuntungan, seperti potensi pengembalian investasi yang tinggi, keuntungan
kompetitif yang signifikan dari pengembalian investasi, dan peningkatan produktivitas
pengambil keputusan perusahaan.

3.2 Saran
Dalam membangun data warehouse perlu adanya mekanisme yang berkelanjutan,
sehingga dapat terus diperbaharui agar informasi yang didapat lebih akurat dan sempurna.

33
Daftar Pustaka

Thomas Connolly,Carolyn Connolly.2005.Database System. Addison Wesley

34

Anda mungkin juga menyukai