Anda di halaman 1dari 24

7023TAdvancedDatabaseSystems

LECTURE NOTES

Decision Support and


Business Intelligence Systems

Mohammad Subekti, BE, MSc


subekti12450@yahoo.com
subekti@binus.ac.id


7023TAdvancedDatabaseSystems

LEARNING OUTCOMES

On successful completion of this Course, students will be able to:

LO 1: Appreciate that database are widespread nowadays. The course discusses the
development of the database approach and introduces the DBMS environment. The
course is also to introduce the terminology and concepts of the data warehousing, which
is now the important system for business intelligence and applications.

OUTLINE MATERI :

Decision Support and Business Intelligence Systems


- Data Warehousing Definitions and Concepts
- Data Warehousing Process Overview
- Data Warehousing Architectures
- Data Integration and the ETL Processes
- Data Warehouse Development
- Real Time Data Warehousing
- Data Warehouse Administration and Security Issues


7023TAdvancedDatabaseSystems

ISI MATERI

PENGANTAR DATA WAREHOUSE

TUJUAN:

Memahami definisi dan konsep dasar dari data warehouse


Memahami arsitektur data warehouse
Menjelaskan proses yang digunakan dalam mengembangkan dan mengelola data
warehouse
Menjelaskan operasi data warehousing
Menjelaskan peran data warehouse untuk mendukung pengambilan keputusan
Menjelaskan integrasi data dan ekstraksi, transformasi, dan beban (ETL) proses
Menjelaskan real-time (aktif) data warehousing
Memahami data administrasi dan masalah keamanan data warehouse

DEFINISI DAN KONSEP DATA WAREHOUSE

Menggunakan data warehouse secara real-time dalam kaitan dengan Sistem Pengambilan
Keputusan (Decision Support Systems DSS) dan alat-alat Inteligensia Bisnis (Business
Intelligence BI) merupakan cara penting melakukan bisnis. Beberapa perusahaan menunjukkan
skenario di mana real-time data warehouse mendukung proses pengambilan keputusan dengan
menganalisis sejumlah besar data dari berbagai sumber guna memberikan hasil yang cepat untuk
mendukung proses yang kritis. Sebuah versi data yang benar yang tersimpan di data warehouse
dan diberikan dalam bentuk yang mudah dicerna memperluas batas-batas proses inovatif
perusahaan bisnis. Dengan arus data yang real -time, perusahaan dapat melihat keadaan bisnis
terkini dan dengan cepat mengidentifikasi masalah, yang merupakan langkah pertama dan
terpenting menuju pemecahan analitis mereka. Selain itu, pelanggan dapat memperoleh
informasi real-time tentang produk, jasa, dan informasi akun lainnya, sehingga sistem juga
memberikan keuntungan kompetitif yang signifikan atas pesaing.


7023TAdvancedDatabaseSystems

Apa yang dimaksud dengan Data Warehouse?

Dalam istilah yang sederhana, data warehouse (DW) adalah dimaksudkan sebagai
kumpulan data yang dihasilkan untuk mendukung pengambilan keputusan, tetapi juga
merupakan penyimpanan data saat ini dan masa lampau yang secara potensial diperlukan para
manajer di dalam organisasi. Data biasanya akan tersedia secara terstruktur dalam bentuk siap
untuk kegiatan proses analisis (misalnya, pengolahan analisis secara online [OLAP], data
mining, query, pelaporan, dan aplikasi pendukung keputusan lainnya). Sebuah data warehouse
adalah kumpulan data berorientasi subyek, terpadu, varians terhadap waktu, serta merupakan
kumpulan data nonvolatile (tidak berubah) untuk mendukung proses pengambilan keputusan
para manajemen.

Karakteristik Data Warehousing.

Cara mudah untuk memperkenalkan data warehouse adalah dengan merujuk pada karakteristik
dasar/fundamental dari data warehouse (lihat Inmon, 2005).

Subyek oriented. Data diorganisasikan berdasarkan detil subjek, seperti penjualan,


produk, atau pelanggan, berisi informasi yang relevan untuk mendukung keputusan. Data
berorientasi subjek memungkinkan pengguna untuk menentukan tidak saja bagaimana
mereka menjalankan bisnis tapi jugha mengapa. Data warehouse berbeda dengan
database operasional dalam hal mana database operasional memiliki orientasi produk dan
disesuaikan untuk menangani transaksi pemutakhiran database. Orientasi subjek
memberikan pandangan yang lebih komprehensif pada organisasi.

Terintegrasi. Integrasi sangat berhubungan erat dengan pengertian orientasi subjek dari
data warehouse yang menempatkan data dari berbagai sumber yang berbeda ke dalam
format yang konsisten.. Untuk melakukannya, kita harus berurusan dengan penamaan
data yang berbeda dan kesenjangan antar satuan ukuran. Sebuah data warehouse harus
dibuat sedemikian rupa sehingga benar-benar terintegrasi.


7023TAdvancedDatabaseSystems

Varian terhadap Waktu (time series). Sebuah data warehouse menyimpan data histori.
Data tidak harus menyimpan status (kecuali untuk system yang real-time). Data
warehouse dapat mendeteksi kecenderungan, penyimpangan, dan hubungan jangka
panjang untuk peramalan dan perbandingan untuk kebutuhan pengambilan keputusan.
Setiap data warehouse memiliki kualitas waktu temporal yaitu salah satu dimensi penting
bahwa semua data warehouse harus mendukung data untuk analisis dari berbagai sumber
berisi beberapa titik waktu. (misalnya, dari sisi waktu harian, mingguan, atau bulanan).

Nonvolatile. Setelah data dimasukkan ke dalam data warehouse, pengguna tidak lagi
dapat mengubah atau memperbarui data. Data yang terpakai lagi dibuang, dan perubahan
dicatat sebagai data baru.

Karakteristik ini memungkinkan data warehouse untuk disetel hampir untuk akses data yang
eksklusif. Beberapa karakteristik tambahan mungkin termasuk yang berikut:

Berbasis web. Data warehouse biasanya dirancang untuk disediakan pada lingkungan
komputasi yang efisien untuk aplikasi berbasis Web.

Relasional / multidimensi Sebuah data warehouse menggunakan baik struktur


relasional atau struktur multidimensi. Sebuah survei terbaru pada struktur multidimensi
dapat ditemukan pada bukunya Romero dan Abello (2009).

Client / Server. Sebuah data warehouse menggunakan arsitektur client / server guna
memberikan kemudahan akses bagi pengguna akhir.

Real-time. Versi data warehouse yang baru, menyediakan akses data real-time, atau
aktif, dan kemampuan untuk melakukan analisis (lihat Basu, 2003, dan Bonde dan
Kuckuk, 2004)

Menyertakan metadata. Sebuah data warehouse berisi metadata (data tentang data)
yang menjelaskan bagaimana data diatur dan cara yang efektif untuk menggunakannya.


7023TAdvancedDatabaseSystems

Sedangkan data warehouse adalah bentuk penyimpanan data, data warehouse secara
harfiah mencakup seluruh proses (lihat Watson, 2002). Data warehousing adalah disiplin yang
menghasilkan aplikasi yang memberikan kemampuan pendukung keputusan, memungkinkan
akses disediakan bagi informasi bisnis, dan dapat menciptakan wawasan bisnis. Tiga jenis utama
dari data warehouse adalah data mart, penyimpanan data operasional (operational data store -
ODS), dan enterprise data warehouse (EDW). Selain pula membahas ketiga jenis warehouses di
kemudian akan dibahas juga tentang metadata.

Data Mart.

Apabila data warehouse biasanya menggabungkan database di seluruh perusahaan, data


mart biasanya lingkupnya lebih kecil dan berfokus pada subjek atau departemen tertentu.
Sebuah data mart bisa merupakan subset dari data warehouse, biasanya terdiri dari area subjek
tunggal (misalnya, subyek pemasaran, operasional dsb). Ssuatu data mart dapat merupakan
system yang mandiri atau dependen. Dependent data mart adalah subset yang dibuat langsung
dari data warehouse. Hal ini memberikan keuntungan dari menggunakan model data yang
konsisten dan menyediakan data yang lebih berkualitas. Suatu data mart mendukung konsep
model data tunggal enteprise-wide namun tetap saja data warehouse harus dibangun terlebih
dahulu. Dependent data mart memastikan bahwa pengguna akhir melihat versi yang sama dari
data yang diakses oleh semua pengguna data warehouse lainnya. Tingginya biaya pembuatan
data warehouse membatasi penggunaannya untuk perusahaan-perusahaan besar saja. Namun
sebagai, alternatif banyak perusahaan menggunakan biaya yang lebih rendah, dengan versi data
warehouse skala kecil yang disebut sebagai data mart independen Sebuah data mart independen
adalah data warehouse kecil yang dirancang untuk unit bisnis stratetig (Strategic Business Unit -
SBU) atau departemen, dan sumbernya bukanlah suatu EDW.


7023TAdvancedDatabaseSystems

Sumber Data Operasional

Sumber data operasional (ODS) menyediakan bentuk layanan baru sebuah file
informasi pelanggan (Customer Information File - CIF). Ini merupakan jenis database yang
sering digunakan sebagai pengenalan untuk data warehouse. Berbeda dengan bentuk statis dari
data warehouse, isi dari ODS diperbarui melalui operasi bisnis. Biasanya ODS digunakan untuk
keputusan jangka pendek. melibatkan misi - aplikasi kritis bukan dan bukan untuk jangka
menengah maupun keputusan jangka panjang yang berhubungan dengan suatu EDW. ODS yang
mirip dengan memori jangka pendek dan menysimpan hanya informasi yang sangat baru.
Sebagai perbandingan, data warehouse jangka panjang menyimpan informasi yang lebih
permanen. ODS mengkonsolidasikan data dari dari beberapa sumber mendekati real-time,
pandangan terintegrasi yang volatil, data yang paling mutakhir. Proses exchage, transfer, dan
load (ETL) proses (dibahas kemudian dalam bab ini) untuk ODS adalah identik dengan yang
untuk data warehouse. Akhirnya oper mart (lihat Imhoff, 2011) diciptakan data operasional
pada saat perlu dianalisis secara multidimensional. Data untuk oper mart berasal dari ODS.

Enterprise Data Warehouse (EDW)

Sebuah data warehouse perusahaan (EDW) adalah data warehouse skala besar yang
digunakan di seluruh perusahaan untuk pendukung keputusan. Jenis data warehouse tersebut
menjelaskan bahwa perusahaan dikembangkan, seperti yang dijelaskan dalam contoh kasus
(dibahas di kelas.forum). Sifat skala besar berarti menyediakan integrasi data dari berbagai
sumber ke dalam format standar untuk BI yang efektif dan untuk aplikasi dukungan pengambilan
keputusan, EDW digunakan untuk menyediakan data untuk berbagai jenis DSS, termasuk
manajemen respon pelanggan (Customer Response Management CRM), manajemen rantai
pasokan (Suplay-Chain Management - SCM), manajemen kinerja bisnis (Business Performance
Management - BPM), pemantauan kegiatan usaha (Business Activity Monitoring - BAM),
manajemen siklus hidup produk manajemen (Product Lifecycle Management - PLM),
manajemen pendapatan (Revenue Management RM), dan kadangkala bahkan sampai sistem
manajemen pengetahuan (Knowledge Management System - KMS). Banyak terbukti perusahaan
mendapatkan berbagai keuntungan dari EDW, bila dirancang dan diimplementasikan secara
benar.


7023TAdvancedDatabaseSystems

Metadata

Metadata adalah data tentang data (lihat Sen, 2004, dan Zhao, 2005). Metadata
menggambarkan struktur dan beberapa arti tentang data, sehingga berkontribusi untuk
penggunaan data yang efektif atau tidak efektif. Mehra (2005) menunjukkan bahwa hanya sedikit
organisasi benar-benar memahami tentang metadata, dan lebih sedikit lagi yang memahami
bagaimana merancang dan mengimplementasikan strategi metadata. Secara umum metadata
didefinisikan berdasarkan penggunaan sebagai metadata teknis atau bisnis. Pola (pattern) adalah
cara lain untuk melihat metadata. Menurut pandangan pola (pattern) tersebut kita dapat
membedakan antara metadata sintaksis (yaitu, data yang menggambarkan sintaks data), metadata
struktural (misalnya, data yang menggambarkan struktur data), dan metadata semantik (yaitu,
data yang menjelaskan arti dari data dalam domain spesifik).

Selanjutnya dijelaskan pola metadata tradisional dan wawasan bagaimana menerapkan


strategi yang efektif metadata melalui pendekatan holistik untuk mengintegrasikan metadata
perusahaan. Pendekatan ini meliputi ontologi dan pendaftaran metadata, integrasi informasi
perusahaan (EII), proses ekstraksi, transformasi, dan pemuatan (ETL), dan arsitektur
berorientasi-layanan (Service-oriented Architecture - SOA). Efektivitas, ekstensibilitas,
reuseabilitas, interoperabilitas, efisiensi dan performansi, evolusi, keberpihakan (entitlement),
fleksibilitas, segregasi, antarmuka pengguna, versioning, kesesuaian (versability), dan biaya
maintanance rendah adalah beberapa KEBUTUHAN utama dalam membangun perusahaan yang
sukses dilengkapi dengan metadata.

Menurut Kassam (2002), metadata bisnis terdiri atas informasi untuk meningkatkan
pemahaman kita tentang data traditional (yaitu, terstruktur). Adapun tujuan utama dari metadata
adalah memberikan konteks untuk data yang dilaporkan, yaitu menyediakan pengkayaan
informasi yang mengarah pada penciptaan pengetahuan. Metadata bisnis, meskipun sulit untuk
dibuat secara efisien, namun dapat lebih berpotensi lebih dibandingkan dengan data terstruktur.
Konteksnya bahwa tidak perlu harus sama untuk setiap pengguna. Dalam banyak hal, metadata
membantu dalam konversi data dan informasi menjadi pengetahuan. Metadata membentuk dasar
bagi arsitektur metabusiness (lihat Bell, 2011) Tannenbaum (2002) menjelaskan bagaimana
mengidentifikasi KEBUTUHAN metadata. Vaduva dan Vetterli (2001) memberikan gambaran


7023TAdvancedDatabaseSystems

manajemen metadata untuk data warehousing. Zhao (2005) menjelaskan lima tingkat
kematangan manajemen metadata: (1) ad hoc (2) penemuan (3) pengelolaan (4) optimasi, dan (5)
otomatisasi. Hal ini sangat membantu dalam memahami tingkat di mana sebuah organisasi
adalah bagaimana dan seberapa baik menggunakan metadata yang dimilikinya.

Desain, pembuatan, dan penggunaan data metadata -deskriptif atau ringkasan tentang
data- dan standar yang menyertainya mungkin melibatkan isu-isu etikal. Ada pertimbangan etis
yang terlibat dalam pengumpulan dan kepemilikan informasi yang terdapat dalam metadata,
termasuk masalah kekayaan intelektual dan privasi yang muncul dalam tahap disain,
pengumpulan, dan diseminasi (untuk lebih lanjut, lihat Brody, 2003).

TINJAUAN PROSES DATA WAREHOUSING


Organisasi, swasta dan publik, terus mengumpulkan data, informasi dan pengetahuan
pada tingkat yang semakin cepat dan menyimpannya dalam sistem komputerisasi. Memelihara
dan menggunakan data dan informasi menjadi sangat kompleks, terutama karena masalah
skalabilitas yang muncul. Selain itu, jumlah pengguna yang mengakses informasi terus
meningkat sebagai akibat dari peningkatan kehandalan dan ketersediaan akses jaringan, terutama
internet. Bekerja dengan beberapa database, baik terintegrasi dalam sebuah data warehouse atau
tidak, telah menjadi tugas yang sangat sulit yang membutuhkan keahlian, tetapi dapat
memberikan manfaat yang besar jauh melebihi biaya yang dikeluarkan.

Banyak organisasi perlu membuat data warehouse, penyimpanan data yang besar, time-
series data untuk mendukung pengambilan keputusan. Data yang diimpor dari berbagai sumber
eksternal dan internal dibersihkan dan diorganisasikan dalam cara yang konsisten dengan
kebutuhan organisasi. Setelah data yang dmasukkan dalam data warehouse, data mart dapat
dimuat untuk area tertentu atau departemen. Atau, data mart dapat dibuat lebih dulu, sesuai
kebutuhan, dan kemudian diintegrasikan ke EDW. Seringkali, meskipun data mart tidak
berkembang, tetapi data hanya dimuat pada komputer PC atau dibiarkan dalam keadaan aslinya
untuk manipulasi langsung menggunakan alat BI.


7023TAdvancedDatabaseSystems

Berikut ini adalah komponen utama dari proses data warehousing:

Sumber data. Data yang bersumber dari yang beberapa operasional sistem "legacy"
independen dan kemungkinan dari penyedia data eksternal (seperti kantor sensus.) Data
juga. dapat berasal dari sistem OLTP atau ERP. Data Web dalam bentuk web log juga
mungkin dibutuhkan untuk data warehouse.

Ekstraksi data. Data yang diekstrak dengan menggunakan perangkat lunak yang ditulis
atau perangkat lunak komersial yang biasanya disebut ETL.

Pemuatan Data. Data dimuat ke area tahapan (staging area). Dimana data
ditransformasikan dan dibersihkan. Data kemudian siap untuk dimuat ke dalam data
warehouse

Database Komprehensif. Pada dasarnya, ini adalah EDW untuk mendukung semua
analisis keputusan dengan menyediakan rangkuman yang relevan dan informasi rinci
yang berasal dari berbagai sumber

Metadata. Metadata dipelihara sehingga dapat dilakukan analisis oleh personil IT dan
pengguna akhir. Metadata melibatkan program perangkat lunak tentang data dan aturan
untuk menyusun ringkasan data yang mudah untuk indeks dan pencarian, khusunya
menggunakan perangkat Web.


7023TAdvancedDatabaseSystems

Gambar 1 Kerangka Data Warehouse (Sumber: Turban)

Perangkat Middleware. Perangkat Middleware memungkinkan akses ke data warehouse


dapat dilakukan. Pengguna utama seperti misalnya ara analis perusahaan dapat menulis
sendiri Queries SQL. Orang lain mungkin menggunakan perangkat query yang
dikembangkan untuk mengakses data, seperti misalnya Business Objects. Ada banyak
aplikasi front end dimana pengguna bisnis dapat digunakan untuk berinteraksi dengan
data tersimpan dalam repositori data, termasuk data mining, OLAP, perangkat pelaporan,
dan perangkat visualisasi data.

DATA WAREHOUSING ARSITEKTUR

Ada beberapa dasar arsitektur data warehouse. Pada umumnya arsitektur berbentuk two-
tier atau three-tier tapi kadang-kadang ada hanya one-tier.


7023TAdvancedDatabaseSystems

Hoiffer et al (2007) membedakan ketiga arsitektur ini dengan membagi data warehouse
menjadi tiga bagian:

1. Data warehouse itu sendiri, yang berisi data dan perangkat lunak terkait.

2. Perangkat lunak Akusisi Data (back-end) yang meng-ekstrak data dari sistem legacy dan
sumber eksternal, mengkonsolidasikan dan meringkasnya, serta memuat ke dalam data
warehouse

3. Perangkat lunak Klien (Front-end), yang memungkinkan pengguna untuk mengakses dan
menganalisis data dari perangkat warehouse (DSS / BI / Bisnis Analytics [BA]).

Dalam arsitektur tiga tingkat (three tier), sistem operasional berisi data dan perangkat
lunak untuk akuisisi data dalam satu tier (yaitu, server), data warehouse merupakan tier lain, dan
tingkat ketiga meliputi mesin DSS / BI / BA (yaitu, application server). Dan klien (lihat gambar
2), Data dari warehaouse yang diproses dua kali dan disimpan dalam sebuah database dimensi
tambahan multi, diselenggarakan untuk analisis multidimensi mudah dan presentasi, atau
direplikasi dalam data mart. Keuntungan dari arsitektur tiga tier adalah pemisahan fungsi dari
data warehouse, yang menghilangkan sumber daya kendala dan memungkinkan untuk dengan
mudah membuat data mart.


7023TAdvancedDatabaseSystems

Gambar 2 Arsitektur Three-tier dan Two-tier (Sumber: Turban)

Dalam arsitektur two-tier, mesin DSS secara fisik dijalankan pada platform perangkat
keras yang sama seperti data warehouse (lihat Gambar 2). Oleh karena itu, arsitektur two-tier
lebih ekonomis daripada three-tier, namun arsitektur two-tier dapat memiliki masalah
performansi khusunya untuk data warehouse yang besar yang bekerja dengan data - aplikasi
intensif untuk pendukung pengambilan keputusan. Sebagian besar kebijaksanaan pada
umumnya, mengasumsikan pendekatan absolut, mempertahankan satu solusi dianggap lebih
baik daripada yang lain, meski keadaan lingkungan dan kebutuhan organisasi yang kemungkinan
unik. Untuk lebih melengkapi keputusan arsitektur, banyak konsultan dan vendor perangkat
lunak, fokus pada salah satu bagian dari arsitektur, karena keterbatasan kapasitas dan motivasi
untuk membantu organisasi melalui pilihan yang berdasarkan kebutuhannya. Tapi berbagai
aspek ini banyak dipertanyakan dan dianalisis. Sebagai contoh, Ball (2005) menyediakan kriteria
keputusan untuk organisasi yang berencana mengimplementasikan aplikasi BI dan menentukan
kebutuhan mereka untuk data mart multidimensi namun membutuhkan bantuan menentukan
arsitektur tier yang sesuai. Kriterianya berkisar di sekitar prediksi kebutuhan untuk ruang dan
kecepatan akses (lihat Ball, 2005, untuk rincian).


7023TAdvancedDatabaseSystems

An

Gambar 3 Arsitektur Data Warehouse Berbasis Web (Sumber: Turban)

Data warehousing dan internet adalah dua teknologi kunci yang memberikan solusi
penting untuk mengelola data perusahaan. Integrasi dari kedua teknologi tersebut menghasilkan
data warehousing berbasis web. Pada gambar 3 ditunjukkan arsitektur arsitektur data warehouse
berbasis Web yaitu arsitektur three-tier dan klien pc, server Web dan server Aplikasi. Pada sisi
klien, kebutuhan pengguna adalah koneksi internet dan browser web (sebaiknya perangkat lunak
Java diaktifkan) melalui antarmuka grafis akrab pengguna. (GUI). Internet / extranet / intranet
adalah media komunikasi antara klien dan server. Pada sisi server, server Web yang digunakan
untuk mengelola arus keluar / masuknya informasi antara klien dan server. Untuk itu didukung
oleh kedua server data warehouse dan server aplikasi menawarkan keuntungan yang memadai,
termasuk kemudahan akses, independensi platform dan biaya yang lebih rendah.

Kelompok Vanguard pindah ke arsitektur Web-based, three-tier untuk arsitektur


enterprise untuk mengintegrasikan semua data dan menyediakan pelanggan dengan pandangan
data yang sama seperti pengguna internal (Dragoon, 2003). Demikian juga, Hilton bermigrasi
semua sistem c;ient-server independen ke three-tier data warehouse, menggunakan disain sistem
enterprise Web. Perubahan ini melibatkan investasi sebesar $ 3. 8 juta (termasuk tenaga kerja)
dan mempengaruhi 1,500 pengguna, meningkatkan efisiensi pengolahan (kecepatan) dengan
faktor enam. Pada waktu digelar, Hilton diperkirakan memberikan penghematan sebesar $ 4.5
juta sampai $ 5 juta per tahun.


7023TAdvancedDatabaseSystems

Pada akhirnya Hilton bereksperimen dengan teknologi clustering Dells (yaitu, komputasi
paralel) untuk meningkatkan skalabilitas dan kecepatan (lihat Athens, 2003). Web arsitektur
untuk data warehousing adalah serupa dalam struktur arsitektur data warehousing lainnya,
membutuhkan pilihan disain untuk web data warehouse home site yang terhubungkan ke server
transaksi atau sebagai server terpisah. Kecepatan loading adalah suatu pertimbangan penting
dalam merancang applikasi berbasis web, oleh karena itu, kapasitas server, harus direncanakan
dengan hati-hati.

Beberapa isu yang harus dipertimbangkan saat memutuskan untuk menggunakan arsitektur.
Diantaranya adalah sebagai berikut:

Sistem manajemen database (DBMS) yang harus digunakan?

Sebagian besar data warehouse dibangun dengan menggunakan sistem manajemen database
relasional (RDBMS). Oracle (Oracle Corporation, Oracle.com), SQL Server (Microsoft
Corporation, microsoft com/sql.) Dan DB2 (IBM Corporation,
306.Ibm.com/software/data/db2) adalah yang paling umum digunakan.Masing-masing
produk mendukung kedua client/server dan arsitektur berbasis web.

Proses paralel dan/atau partisi akan

Prosesing paralel memungkinkan beberapa CPU dipergunakan untuk memproses permintaan


query data Warehouse secara bersamaan dan dapat memberikan skalabilitas. Data warehouse
dIsainer harus memutuskan apakah tabel database akan dipartisi (yaitu, dibagi menjadi tabel
kecil) untuk efisiensi akses dan apa kriteria yang akan dipakai. Ini adalah pertimbangan
penting yang diharuskan oleh sejumlah besar data yang terkandung dalam sebuah data
warehouse yang spesifik. Sebuah survei terbaru pada data warehouse paralel dan
didistribusikan dapat ditemukan pada Furtado (2009) Teradata (teradata.com) telah berhasil
mengadopsi dan sering mengomentari pelaksanaan dari pendekatan ini.


7023TAdvancedDatabaseSystems

Akankah alat migrasi data dapat digunakan digunakan untuk memuat data
warehouse

Memindahkan data dari sistem yang ada ke dalam data warehouse adalah tugas yang
membosankan dan melelahkan. Tergantung pada keragaman dan lokasi aset data, migrasi
mungkin merupakan prosedur yang relatif sederhana atau merupakan proyek panjang
berbulan-bulan lamanya. Hasil dari assesment menyeluruh aset data yang ada harus
digunakan untuk menentukan apakah akan menggunakan perangkat migrasi, dan jika
demikian, apa ada kemampuan untuk menggunakan perangkat komersial tersebut.

Alat apa yang akan digunakan untuk mendukung pengambilan data dan analisis?

Seringkali perlu untuk menggunakan alat khusus untuk secara berkala mencari, mengakses,
menganalisis, mengekstrak, mengubah, dan memuat data yang diperlukan ke dalam data
warehouse. Keputusan harus dibuat pada (i) mengembangkan alat migrasi sendiri (Ii)
membeli perangkat dari pihak ketiga, atau (iii) menggunakan perangkat yang disediakan
dengan sistem data warehouse. Penggunaan yang cukup rumit, migrasi real time menjamin
alat khusus ETL dari pihak ketiga.

ALTERNATIF ARSITEKTUR

Sudut pandang disain arsitektur data warehouse secara umum dapat dikategorikan ke
dalam disain data warehouse Enterprise-wide atau Datamart System (Golfarelli dan Rizzi, 2009).
Kami menunjukkan beberapa alternatif desain arsitektur dasar yang tidak EDW murni atau DM
murni, tapi di antara atau di luar struktur arsitektur tradisional. Arsitektur yang baru terkenal
termasuk hub dan spoke dan arsitektur federasi. Lima arsitektur ditunjukkan pada Gambar 4
(bagian a-e) yang diusulkan oleh Aryachandra dan Watson (2006b). Sebelumnya, dalam sebuah
studi yang luas, Sen dan Sinha (2005) mengidentifikasi 15 metodologi yang berbeda disain data
warehousing. Sumber metodologi ini diklasifikasikan menjadi tiga kategori: core-technology
vendors, infrastructure vendors, dan Iinformation-modelling companies.


7023TAdvancedDatabaseSystems

Literatur data warehouse menyediakan diskusi tambahan tentang berbagai arsitektur,


seperti data mart independen, data arsitektur bus dengan terkait data mart dimensional, data mart
bus arsitektur dengan terkait data mart dimensional, dan data federasi mart (lihat Aryachandra
dan Watson 2005 - 2006a). Lihat gambar 5. Dalam data mart mart independen, dikembangkan
untuk beroperasi secara independen satu sama lain, dengan demikian, mereka memiliki definisi
data, dimensi, dan satuan ukuran yang tidak konsisten, sehingga akan sulit untuk menganalisis
data di mart (yaitu, sulit, jika tidak mustahil, untuk mendapatkan "satu versi kebenaran").

Gambar 4 Arsitektur Alternatif untuk Pengembangan Data Warehouse (Sumber: Turban)

Dalam sebuah arsitektur hub-and-spoke, perhatian fokus dalam membangun infrastruktur


scalable dan maintanable, dikembangkan dengan cara yang berulang (iterative), area subyek
berdasarkan area subjek, dan tergantung data mart yang dikembangkan. Sebuah data warehouse
terpusat mirip dengan arsitektur hub-and-spoke tersebut. Kecuali bila tidak ada data mart
dependen. Arsitektur data warehouse terpusat, yang dianjurkan terutama oleh Teradata corp,
menyarankan menggunakan data warehouse tanpa data mart. Pendekatan terpusat memberikan
pengguna dengan akses ke semua data dalam data warehouse tidak membatasi mereka untuk data
mart saja. Di samping pula, mengurangi jumlah data tim teknis yang harus mentransfer atau
mengubah, sehingga menyederhanakan pengelolaan dan administrasi data.


7023TAdvancedDatabaseSystems

Pendekatan federasi adalah konsesi terhadap kekuatan alam yang merusak rencana
terbaik untuk mengembangkan sistem yang sempurna. Menggunakan segala cara yang mungkin
untuk meng-integrasikan sumber analitikal dari berbagai sumber untuk memenuhi perubahan
kebutuhan atau kondisi bisnis. Pada dasarnya, pendekatan federasi melibatkan pengintegrasian
sistem yang berbeda.

Gambar 5 Arsitektur Alternatif untuk Pengembangan Data Warehouse (Sumber: Turban)


7023TAdvancedDatabaseSystems

Dalam arsitektur federasi, struktur pendukung pengambil keputusan tetap berada di


tempat masing-masing, dan data yang di accesed dari sumber-sumber yang diperlukan.
pendekatan federasi didukung oleh vendor middleware yang mengusulkan permintaan
didistribusikan dan bergabung kemampuan. Ini extensible markup language (XML) alat berbasis
menawarkan pengguna pandangan global sumber data terdistribusi. Termasuk data warehouse,
data mart, website, dokumen dan sistem operasional.

Gambar 6 Arsitektur Data Warehouse Enterprise (Sumber: Turban)

Ketika pengguna memilih obyek query untuk pandangan ini dan tekan tombol submit,
perangkat query secara automatis mencari dan mengambil dari sumber-sumber terdistribusi,
menggabungkan hasil, dan menyajikannya kepada pengguna. Karena masalah kualitas kinerja
dan data, kebanyakan ahli sepakat bahwa pendekatan federasi bekerja dengan baik untuk
melengkapi data warehouse, tetapi tidak harus menggantikannya. (lihat Eckerson, 2005).


7023TAdvancedDatabaseSystems

Aryachandra dan Watson (2005) mengidentifikasi 10 faktor yang berpotensi


mempengaruhi keputusan pemilihan arsitektur;

1. Saling ketergantungan informasi antar unit organisasi


2. Kebutuhan informasi manajemen tingkat atas
3. Mendesaknya kebutuhan untuk data warehouse
4. Sifat dan perilaku tugas-tugas pengguna akhir
5. Kendala pada sumber daya
6. Strategis tampilan data sebelum implementasi
7. Kompatibilitas sistem yang ada
8. Persepsi kemampuan staf IT internal
9. Masalah-masalah teknis
10.Faktor-faktor Sosial/Politik

Faktor-faktor ini mirip dengan faktor-faktor keberhasilan yang dijelaskan dalam literatur
untuk proyek-proyek sistem informasi dan DSS dan proyek BI. Masalah teknis, yang melampaui
kemampuan teknologi siap untuk digunakan, adalah penting, tetapi sering tidak sepenting
masalah perilaku, seperti memenuhi kebutuhan informstion atas manajemen dan keterlibatan
pengguna dalam proses pembangunan. (Faktor sosial dan politik) Setiap arsitektur data
warehouse memiliki aplikasi khusus untuk yang paling diperlukan dan paling efektif sehingga
dengan demikian memberikan manfaat maksimal kepada organisasi. Namun, secara keseluruhan,
struktur data mart tampaknya (setidaknya) efektif dalam praktek. Lihat Ariyachandra dan
Watson (2006a) untuk beberapa rincian tambahan.

Arsitektur mana yang terbaik?

Sejak data warehousing menjadi bagian penting dari sebuah perusahaan modern,
pertanyaan tentang arsitektur data warehouse ang terbaik telah menjadi topik diskusi reguler.
Dua guru bidang data warehousing, Bill Inmon dan Ralph Kimball, berada di pusat dari diskusi
ini. Inmon pendukung arsitektur hub-and-spoke. (Misalnya, Corporate Information Factory),
sedangkan


7023TAdvancedDatabaseSystems

Kimball mempromosikan arsitektur data mart bus dengan dimensi yang sesuai. Arsitektur
lainnya tetap dimungkinkan, tetapi dua pilihan pendekatan tersebut tetap merupakan
fundamental, dan masing-masing memiliki pendukung yang kuat. Untuk menjelaskan pertanyaan
controversial tersebut, Aryachandra dan watson (2006b) melakukan studi empiris. Untuk
mengumpulkan data, mereka menggunakan survei berbasis web yang ditujukan kepada individu
yang terlibat dalam implementasi data warehouse. Survei mereka termasuk pertanyaan tentang
responden, perusahaan responden, companys data warehouse, dan keberhasilan dari arsitektur
data warehouse.

Secara total, 454 responden memberikan informasi yang dapat digunakan. perusahaan
yang disurvei berkisar dari kecil (kurang dari $ 10 juta pendapatan) sampai besar (lebih dari $ 10
miliar). Sebagian besar perusahaan yang berlokasi di USA (60%) dan mewakili berbagai
industri, dengan industri jasa keuangan (15%) memberikan tanggapan yang paling. Arsitektur
yang dominan adalah arsitektur hub-and-spoke (39%), diikuti oleh arsitektur bus (26%),
arsitektur terpusat (17%), data mart independen (12%), dan federasi (41%), diikuti oleh
Microsoft ( 19%), dan IBM (18%). Rata-rata pendapatan kotor mereka bervariasi dari $ 3.7
miliar untuk data mart independen, menjadi $ 6 miliar untuk arsitektur federasi.

Langkah-langkah untuk menilai keberhasilan arsitektur:

1. Informasi yang berkualitas


2. Sistem Mutu
3. Dampak Individual
4. Dampak Organisasional

Tabel 1. Rata Skor Penilaian bagi Arsitektur Data Warehouse


7023TAdvancedDatabaseSystems

Pertanyaan menggunakan skala tujuh poin, dengan skor yang lebih tinggi menunjukkan
arsitektur yang lebih sukses. Tabel 1 menunjukkan skor rata-rata untuk ukuran seluruh arsitektur.
Sebagai hasilnya Tudy menunjukkan, data mart independen menunjukkan nilai terendah pada
semua pilihan. Temuan ini menegaskan kebijaksanaan konvensional bahwa data mart
independen adalah solusi arsitektur paling tidak populer. Selanjutnya terendah pada semua
tindakan adalah arsitektur federasi. Perusahaan terkadang memiliki keputusan yang berbeda -
platform dukungan yang dihasilkan dari merger dan akuisisi, dan mereka dapat memilih
pendekatan federasi, setidaknya dalam jangka pendek. Temuan menunjukkan bahwa arsitektur
federasi bukan solusi jangka panjang. Namun apa yang menarik, adalah kemiripan dari rata-rata
dari arsitektur hub, bus-and-spoke dan terpusat memiliki keunggulan lebih satu dari yang lain,
setidaknya didasarkan pada perbandingan sederhana dari langkah-langkah sukses.

Mereka juga mengumpulkan data pada domain (misalnya, bervariasi dari tunduk kepada
sebuah perusahaan yang luas) dan ukuran (yaitu, jumlah data yang disimpan) dari warehouse.
Mereka menemukan bahwa arsitektur hub-and-spoke biasanya lebih banyak digunakan untuk
implementasi enterprise-wide dan warehouse yang lebih besar. Mereka juga meneliti biaya dan
waktu yang dibutuhkan untuk melaksanakan arsitektur yang berbeda. Secara keseluruhan,
arsitektur hub-and-spoke adalah yang paling mahal dan memakan waktu terlama untuk
melaksanakan


7023TAdvancedDatabaseSystems

SIMPULAN
Para pembuat keputusan memerlukan informasi yang dapat diandalkan mengenai operasi
perusahaan, kecenderungan, dan perubahan. Padahal data sering terfragmentasi dalam sistem
operasional yang berbeda-beda, sehingga manajer sering membuat keputusan dengan informasi
parsial, yang dianggap terbaik. Data warehouse dapat membantu melewati rintangan ini dengan
mengakses, mengintegrasikan, dan mengorganisir data operasional kunci dalam bentuk yang
konsisten, dapat diandalkan, tepat waktu, dan tersedia, dimanapun dan kapanpun diperlukan.


7023TAdvancedDatabaseSystems

DAFTAR PUSTAKA
Textbooks
1. Kimball, Ralph.(1998). The Data Warehouse LifecycleToolkit: Expert Methods for
Designing, Developing, and Deploying Data Warehouse. 2nd ed. Wiley Computer
Publishing. ISBN
2. Kimball, Ralph.(2002). The Data Warehouse The Complete Guide to Dimensional
Modeling. 2nd ed. Wiley Computer Publishing. ISBN 0-471-20024-7
3. Connoly Thomas, Begg Carolyn. (2005. Database System: A Practical Approach to
Design, Implementation, and Management 4th edition. Addison Wesley. ISBN: 0-20-
170857-4.
4. Inmon, William H.(2005). Building the Data Warehouse. 4th ed. Wiley Computer
Publishing. ISBN 0-7645-9944-5
5. Turban, Efraim. (2011). Decision Support and Business Intelligence Systems. 9th ed.
Pearson. ISBN 0-13-245323-1
Other Resources
1. http://www.rational.com
2. http://www.omg.org
3. http://www.odmg.org
4. http://www.mhhe.com/ramakhrisnan
5. http://www.jcc.com/sql_stnd.html
6. http://otn.oracle.com
7. http://www.oracle.com
8. http://www.booksite.net/connbeg

Anda mungkin juga menyukai