Anda di halaman 1dari 28

Tugas

Data Warehouse

Arsitektur Data Warehouse

Renhard Soemargono

1562001

PROGRAM STUDI SISTEM INFORMASI

FAKULTAS TEKNOLOGI INFORMASI

UNIVERSITAS ATMA JAYA MAKASSAR

2017

1
Komponen Arsitektur
Pemahaman Arsitektur Data Warehouse
Pengertian Arsitektur
Arsitektur adalah semua struktur yang membawa semua komponen Data Warehouse bersama.
Contohnya dalam sebuah sekolah yang memiliki komponen ruang kelas, ruang guru, tata usaha,
perpustakaan, koridor, pintu, jendela, atap, lapangan, dan komponen lainnya. Ketika semua
komponen tersebut dibawa dan dibangun, struktur yang menyatukan semuanya disebut arsitektur
sekolah.

Dalam Data Warehouse, arsitektur termasuk sejumlah faktor. Arsitektur membutuhkan semua
yang dibutuhkan untuk menyiapkan data dan menyimpan data. Di sisi lain, mencangkup semua
yang dibutuhkan untuk menyiapkan.

Arsitektur Dalam 3 Area Utama


3 area utama dalam data warehouse adalah:

1. Data acquisition (Akuisisi Data)


2. Data storage (Penyimpanan Data)
3. Information delivery (Penyampaian Informasi)

Komponen-komponen dari data warehouse adalah:

1. Source data
2. Data staging
3. Data storage
4. Information delivery
5. Metadata
6. Management and control

Gambar berikut adalah gambar yang menjelaskan pengelompokan komponen-komponen data


warehouse berdasarkan 3 area utama data warehouse.

2
Gambar 1: komponen arsitektur dalam 3 area utama

Karakteristik Unik
Perbedaan Tujuan dan Cakupan
Arsitektur harus mendukung persyaratan untuk menyediakan informasi strategis. Informasi
strategis sangat berbeda dengan informasi yang diperoleh dari sistem operasional. Bila anda
memberikan informasi dari aplikasi operasional, isi dan kuantitas informasi per sesi pengguna
terbatas. Sebagai contoh, pada waktu tertentu, pengguna hanya tertarik pada informasi tentang satu
pelanggan dan semua permintaan terkait. Dari data warehouse, pengguna tertarik untuk
mendapatkan set hasil yang besar. Contoh hasil besar yang ditetapkan dari data warehouse anda
adalah semua penjualan untuk tahun yang ditentukan oleh cabang, produk, dan daerah penjualan.

Oleh karena itu, arsitektur data warehouse harus memiliki komponen yang akan bekerja untuk
memberikan data kepada pengguna dalam volume besar dalam satu sesi. Pada dasarnya, sejauh
mana sistem pendukung keputusan berbeda dari sistem operasional yang secara langsung
diterjemahkan menjadi hanya satu prinsip penting: data warehouse harus memiliki arsitektur yang
berbeda dan lebih rumit.

Dalam penentuan cakupan ada beberapa faktor yang perlu dipertimbangkan. Pertama, anda harus
mempertimbangkan jumlah dan luas sumber data. Berapa banyak sistem warisan yang akan anda

3
ekstrak dari data? Apa sumber eksternal? Apakah anda berencana untuk memasukkan file
departemen, spreadsheet, dan database pribadi? Bagaimana dengan menyertakan data yang
diarsipkan? Ruang lingkup arsitektur dapat diukur lagi dalam bentuk transformasi data dan fungsi
integrasi. Di data warehouse, granularitas data dan volume data juga merupakan pertimbangan
penting.

Namun pertimbangan lain yang serius adalah dampak dari data warehouse yang ada

sistem operasional Karena data ekstraksi, perbandingan, dan rekonsiliasi, anda harus menentukan
seberapa besar dampak negatif yang dimiliki data warehouse terhadap kinerja sistem operasional.
Kapan ekstrak batch anda akan dijalankan dan bagaimana pengaruhnya terhadap sistem sumber
produksi?

Isi Data
Data "read-only" di data warehouse berada di tengah sebagai komponen utama dalam arsitektur.
Dalam sistem operasional, walaupun database penting, kepentingan ini tidak sesuai dengan
penyimpanan data di data warehouse. Sebelum data dibawa ke data warehouse anda dan disimpan
sebagai data read-only, sejumlah fungsi harus dilakukan. Fungsi yang melelahkan dan kritis ini
tidak dibandingkan dengan konversi data yang terjadi dalam sistem operasional.

Di data warehouse anda, anda menyimpan data yang terintegrasi dari berbagai sumber. Setelah
mengekstraksi data, yang dengan sendirinya merupakan proses yang rumit, anda mengubah data,
membersihkannya, dan mengintegrasikannya ke staging area. Baru setelah itu anda memindahkan
data yang terintegrasi ke dalam data warehouse sebagai data read-only. Data operasional bukan
data "read-only".

Selanjutnya, arsitektur data warehouse anda harus mendukung penyimpanan data yang
dikelompokkan menurut subyek bisnis, tidak dikelompokkan menurut aplikasi seperti dalam kasus
sistem operasional. Data di data warehouse anda tidak mewakili potret yang berisi nilai variabel
seperti pada waktu sekarang. Ini berbeda dan berbeda dari kebanyakan sistem operasional.

Ketika kita menyebutkan data historis yang tersimpan di data warehouse, kita bicarakan volume
data sangat besar. Sebagian besar perusahaan memilih untuk menyimpan data yang akan
digunakan kembali 10 tahun di data warehouse. Beberapa perusahaan ingin menyimpan lebih

4
banyak lagi, jika datanya tersedia. Inilah alasan lain mengapa arsitektur data warehouse harus
mendukung volume data yang tinggi.

Analisis Kompleks dan Respon Cepat


Arsitektur data warehouse anda harus mendukung analisis kompleks informasi strategis oleh
pengguna. Proses pencarian informasi dalam sistem operasional menyusut dalam kompleksitas
bila dibandingkan dengan penggunaan informasi dari data warehouse. Sebagian besar
pengambilan informasi online selama sesi oleh pengguna adalah analisis interaktif. Pengguna tidak
menjalankan kueri yang terisolasi, beralih dari data warehouse, dan kembali lagi nanti untuk kueri
berikutnya. Sesi oleh pengguna terus berlanjut dan berlangsung lama karena pengguna biasanya
memulai dengan kueri pada tingkat tinggi, meninjau hasil yang ditetapkan, memulai kueri
berikutnya untuk melihat data dengan cara yang sedikit berbeda, dan seterusnya.

Arsitektur data warehouse anda harus, oleh karena itu, mendukung variasi untuk memberikan
analisis. Pengguna harus bisa mengebor, menggulung, mengiris dan dadu data, dan bermain
dengan Skenario "bagaimana-jika". Pengguna harus memiliki kemampuan untuk meninjau
kumpulan hasil dalam pilihan output yang berbeda. Pengguna tidak lagi puas dengan kumpulan
hasil tekstual atau hasil yang ditampilkan dalam format tabel. Setiap hasil yang ditetapkan dalam
format tabel harus diterjemahkan ke dalam grafik-grafik.

Arsitektur data warehouse anda harus memudahkan pengambilan keputusan strategis dengan
cepat. Harus ada komponen yang sesuai dalam arsitektur untuk mendukung respon cepat oleh
pengguna untuk menghadapi situasi dengan menggunakan informasi yang diberikan oleh data
warehouse anda.

Fleksibel dan Dinamis


Apalagi dalam hal desain dan pengembangan data warehouse, anda tidak tahu semua kebutuhan
bisnis di depan. Dengan menggunakan teknik pembuatan paket informasi, anda dapat menilai
sebagian besar persyaratan dan memodelkan persyaratan data secara dimensional. Namun
demikian, bagian yang hilang dari persyaratan muncul setelah pengguna anda mulai menggunakan
data warehouse. Apa implikasinya? anda harus memastikan arsitektur data warehouse anda cukup
fleksibel untuk mengakomodasi persyaratan tambahan saat muncul.

5
Persyaratan tambahan mencakup item yang tidak terjawab dalam persyaratan bisnis. Apalagi
kondisi bisnis itu sendiri berubah. Sebenarnya, mereka terus berubah. Mengubah kondisi bisnis
memerlukan tambahan persyaratan bisnis untuk dimasukkan ke dalam data warehouse. Jika
arsitektur data warehouse didesain fleksibel dan dinamis, maka data warehouse anda dapat
memenuhi persyaratan ketika dibutuhkan.

Metadata-Driven
Seiring data bergerak dari sistem sumber ke pengguna akhir sebagai informasi strategis dan
berguna, metadata mengelilingi keseluruhan gerakan. Komponen metadata arsitektur menyimpan
data tentang setiap fase gerakan, dan, dalam arti sebenarnya, membuat pergerakan terjadi.

Dalam sistem operasional, tidak ada komponen yang setara dengan metadata di data warehouse.
Kamus data dari DBMS sistem operasi hanyalah bayangan samar dari metadata di data warehouse.
Jadi, dalam arsitektur data warehouse Anda, komponen metadata interleaves dengan dan
menghubungkan komponen lainnya.

Kerangka Arsitektur
Arsitektur Pendukung Arus Data
Sekarang kita ingin mengasosiasikan komponen sebagai pembentuk kerangka kerja untuk
mengkondisikan dan memungkinkan arus data dari awal sampai akhir. Seperti yang anda ketahui
dengan baik, data itu akhirnya mencapai pengguna akhir sebagai informasi strategis yang berguna
dimulai sebagai elemen data yang berbeda dalam berbagai sumber data. Kumpulan data dari
berbagai sumber ini bergerak ke staging area. Data yang diekstraksi melewati proses persiapan
terperinci di staging area sebelum dikirim ke data warehouse untuk disimpan dengan benar. Dari
penyimpanan data warehouse, data yang ditransformasikan menjadi informasi bermanfaat diambil
oleh pengguna atau dikirim ke desktop pengguna sesuai kebutuhan.

6
Gambar 2: Kerangka arsitektur pendukung arus data.

Arsitektur pendukung arus data terdiri atas 3 komponen, yaitu:

1. Data Source. Disini sumber data internal dan eksternal merupakan komponen arsitektur
sumber data. Sumber data mengatur ekstraksi data untuk persiapan dan penyimpanan di
data warehouse. Komponen arsitektur staging data mengatur transformasi, pembersihan,
dan integrasi data.
2. Data Warehouse Repository. Komponen arsitektur penyimpanan data mencakup pemuatan
data dari staging area dan juga menyimpan data dalam format yang sesuai untuk
pengiriman informasi. Komponen arsitektur metadata juga merupakan mekanisme
penyimpanan untuk menampung data tentang data pada setiap titik aliran data dari awal
sampai akhir.
3. End User. Komponen arsitektur pengiriman informasi mencakup data mart, database
multidimensional khusus, dan berbagai macam fasilitas query dan pelaporan.

Modul Manajemen dan Kontrol


Komponen arsitektur ini adalah modul keseluruhan yang mengelola dan mengendalikan
keseluruhan lingkungan data warehouse. Ini adalah komponen payung yang bekerja pada berbagai
tingkatan dan mencakup semua operasi. Komponen ini memiliki dua fungsi utama: pertama-tama
untuk terus memantau semua operasi yang sedang berlangsung, dan selanjutnya masuk dan pulih

7
dari masalah saat terjadi kesalahan. Gambar di bawah menunjukkan bagaimana komponen
manajemen berhubungan dengan dan mengelola semua operasi data warehouse.

Modul manajemen juga mengelola bagian penting dari data warehouse dan memulihkan dari
kegagalan. Layanan manajemen meliputi pemantauan pertumbuhan dan pengarsipan data secara
berkala dari data warehouse. Komponen arsitektur ini juga mengatur keamanan data dan
memberikan akses yang sah ke data warehouse. Selain itu, komponen manajemen berinteraksi
dengan komponen pengiriman informasi pengguna akhir untuk memastikan penyampaian
informasi dilakukan dengan benar.

Arsitektur Teknis
Akuisisi Data
Area ini mencakup seluruh proses penggalian data dari sumber data, memindahkan semua data
yang diekstraksi ke staging area, dan menyiapkan data untuk dibawa ke penyimpanan data
warehouse. Dua komponen arsitektur utama yang diidentifikasi sebelumnya sebagai bagian dari
area ini adalah sumber data dan data staging. Fungsi dan layanan di bidang ini berhubungan dengan
Fungsi dan layanan di bidang ini berhubungan dengan dua komponen arsitektural ini. Variasi
sumber data memiliki dampak langsung terhadap luas dan cakupan fungsi dan layanan. Fungsi
dari akuisisi data adalah data extraction, data transformation, data cleansing, data integration, dan
data staging.

Gambar 3: Akuisisi data pada arsitektur teknis

8
Penyimpanan Data
Area ini mencakup proses pemuatan data dari staging area ke dalam penyimpanan warehouse.
Semua fungsi untuk mengubah dan mengintegrasikan data selesai di area data stage. Data yang
disiapkan di data warehouse seperti produk jadi yang siap ditumpuk di gudang industri.Bahkan
sebelum loading data ke dalam data warehouse, metadata, yang merupakan komponen lain dari
arsitektur, sudah aktif. Selama tahap ekstraksi data dan transformasi data itu sendiri, repositori
metadata terpakai. Gambar di bawah menunjukkan tampilan arsitektur teknis untuk penyimpanan
data yang diringkas.

Gambar 4: Penyimpanan data pada arsitektur teknis

Penyampaian Informasi
Area ini mencakup spektrum yang luas dari berbagai metode pembuatan informasi yang tersedia
bagi pengguna. Bagi pengguna Anda, komponen pengiriman informasi adalah data warehouse.
Mereka tidak berhubungan dengan komponen lainnya secara langsung. Bagi pengguna, kekuatan
arsitektur data warehouse Anda terutama terkonsentrasi pada ketahanan dan fleksibilitas
komponen pengiriman informasi.

9
Komponen penyampaian informasi memudahkan pengguna untuk mengakses informasi baik
secara langsung dari data warehouse perusahaan secara keseluruhan, dari data mart tergantung,
atau dari kumpulan data yang sesuai. Sebagian besar akses informasi di data warehouse adalah
melalui query online dan sesi analisis interaktif. Kendati demikian, data warehouse Anda juga akan
menghasilkan laporan reguler dan tertentu.

Hampir semua data warehouse modern menyediakan pemrosesan analitik online (OLAP). Dalam
kasus ini, data warehouse utama memberi umpan data ke basis data multidimensi berpemilik
multinasional (database MDDB) di mana data yang dirangkum disimpan sebagai informasi multi
dimensi. Pengguna melakukan analisis multidimensi kompleks menggunakan informasi cubes di
MDDBs. Lihat Gambar di bawah untuk melihat secara ringkas arsitektur teknis untuk pengiriman
informasi.

Gambar 5: Penyampaian Informasi pada arsitektur teknis

10
Infrastruktur Sebagai Dasar Data Warehouse
Infrastruktur Pendukung Arsitektur
Infrastruktur data warehouse mencakup semua elemen dasar yang memungkinkan arsitektur
diimplementasikan. Singkatnya, infrastruktur mencakup beberapa elemen seperti perangkat keras
server, sistem operasi, perangkat lunak jaringan, perangkat lunak basis data, LAN dan WAN, alat
vendor untuk setiap komponen arsitektur, orang, prosedur, dan pelatihan.

Unsur-unsur infrastruktur data warehouse dapat dikelompokkan menjadi dua kategori:


infrastruktur operasional dan infrastruktur fisik. Perbedaan ini penting karena elemen dalam setiap
kategori berbeda sifat dan fiturnya dibandingkan dengan kategori lainnya.

Gambar 6: Infrastruktur Pendukung Arsitektur

Infrastruktur Operasional
Infrastruktur operasional untuk mendukung setiap komponen arsitektural terdiri dari:

• People (Orang)
• Procedures (Prosedur)
• Training (Latihan)
• Management software (Perangkat Lunak Manajemen)

Ini bukan orang dan prosedur yang dibutuhkan untuk mengembangkan data warehouse. Inilah
yang dibutuhkan untuk menjaga agar data warehouse tetap berjalan. Unsur-unsur ini sama

11
pentingnya dengan perangkat keras dan perangkat lunak yang menjaga agar data warehouse tetap
berjalan. Mereka mendukung pengelolaan data warehouse dan menjaga efisiensinya.

Pengembang data warehouse banyak memperhatikan elemen perangkat keras dan sistem perangkat
lunak infrastruktur. Memang benar melakukannya. Namun infrastruktur operasional seringkali
terbengkalai. Meskipun Anda mungkin memiliki perangkat keras dan perangkat lunak yang tepat,
data warehouse Anda memerlukan infrastruktur operasional agar berfungsi dengan baik. Tanpa
infrastruktur operasional yang tepat, data warehouse Anda cenderung hanya lemas dan berhenti
menjadi efektif. Perhatikan rincian infrastruktur operasional Anda.

Infrastruktur Fisik
Gambar di bawah menyoroti unsur-unsur utama infrastruktur fisik. Seperti yang Anda tahu, setiap
sistem, termasuk data warehouse Anda, harus memiliki platform keseluruhan untuk tinggal.
Intinya, platform terdiri dari komponen perangkat keras dasar, sistem operasi dengan perangkat
lunak utilitas, jaringan, dan perangkat lunak jaringan. Seiring dengan keseluruhan platform adalah
seperangkat alat yang berjalan di platform yang dipilih untuk melakukan berbagai fungsi dan
layanan komponen arsitektur individu.

Gambar 7: Infrastruktur Fisik

Perangkat Keras dan Sistem Operasi


Perangkat keras dan sistem operasi membuat lingkungan komputasi untuk data warehouse Anda.
Semua pekerjaan ekstraksi data, transformasi, integrasi, dan pementasan berjalan di perangkat
keras yang dipilih berdasarkan sistem operasi yang dipilih. Bila Anda mengangkut data gabungan
dan terpadu dari area pementasan ke data warehouse warehouse Anda, Anda menggunakan
perangkat keras server dan perangkat lunak sistem operasi. Saat kueri dimulai dari workstation

12
klien, perangkat keras server, bersamaan dengan perangkat lunak basis data, menjalankan kueri
dan menghasilkan hasilnya.

Berikut adalah beberapa panduan umum untuk pemilihan perangkat keras, tidak sepenuhnya
spesifik untuk perangkat keras untuk data warehouse.

• Scalability. Ketika data warehouse Anda tumbuh dalam hal jumlah pengguna, jumlah
kueri, dan kompleksitas kueri, pastikan perangkat keras pilihan Anda dapat ditingkatkan.
• Support. Dukungan vendor sangat penting untuk pemeliharaan perangkat keras. Pastikan
dukungan dari vendor perangkat keras berada pada tingkat tertinggi.
• Vendor Reference. Penting untuk memeriksa referensi vendor dengan situs lain yang
menggunakan perangkat keras dari vendor ini. Anda tidak ingin tertangkap basah dengan
data warehouse Anda karena kerusakan perangkat keras saat CEO menginginkan beberapa
analisis kritis selesai.
• Vendor Stability. Periksa stabilitas dan daya tahan vendor.

Selanjutnya mari kita cepat mempertimbangkan beberapa kriteria umum untuk pemilihan sistem
operasi. Pertama-tama, sistem operasi harus kompatibel dengan perangkat keras. Daftar kriteria
sebagai berikut:

• Scalability. Data warehouse tumbuh, dan tumbuh sangat cepat. Seiring dengan perangkat
keras dan perangkat lunak database, sistem operasi harus dapat mendukung peningkatan
jumlah pengguna dan aplikasi.
• Security. Ketika beberapa workstation klien mengakses server, sistem operasi harus dapat
melindungi setiap klien dan sumber daya terkait. Sistem operasi harus menyediakan
lingkungan yang aman bagi setiap klien.
• Reliability. Sistem operasi harus bisa melindungi lingkungan dari malfungsi aplikasi.
• Availbility. Ini adalah konsekuensi wajar untuk keandalan. Lingkungan komputasi harus
terus tersedia setelah pengakhiran aplikasi abnormal.
• Preemptive Multitasking. Perangkat keras server harus dapat menyeimbangkan alokasi
waktu dan sumber daya di antara banyak tugas. Selain itu, sistem operasi harus dapat
membiarkan tugas prioritas yang lebih tinggi mendahului atau mengganggu tugas lain saat
dan kapan diperlukan.

13
• Use multithreaded approach. Sistem operasi harus dapat melayani beberapa permintaan
secara bersamaan dengan mendistribusikan threads ke beberapa prosesor dalam
konfigurasi perangkat keras multiprosesor. Fitur ini sangat penting karena konfigurasi
multiprosesor adalah arsitektur pilihan di lingkungan data warehouse.
• Memory Protection. Sekali lagi, di lingkungan data warehouse, sejumlah besar query
umum terjadi. Itu berarti banyak permintaan akan dijalankan secara bersamaan. Fitur
perlindungan memori dalam sistem operasi mencegah satu tugas melanggar ruang memori
yang lain.

Berikut adalah 3 pilihan umum dalam pemilihan hardware dan sistem operasi.

1. Mainframe
• Sisa perangkat keras dari aplikasi lawas
• Terutama dirancang untuk OLTP dan bukan untuk aplikasi pendukung keputusan
• Tidak hemat biaya untuk pergudangan data
• Tidak mudah terukur
• Jarang digunakan untuk data pergudangan saat sumber daya cadangan terlalu
banyak tersedia untuk data mart kecil
2. Open System Servers
• Server UNIX, media pilihan untuk kebanyakan data warehouse
• Umumnya kuat
• Diadaptasi untuk pemrosesan paralel
3. NT Servers
• Dukung data warehouse berukuran sedang
• Kemampuan pemrosesan paralel terbatas
• Hemat biaya untuk data warehouse berukuran sedang dan kecil

Pemilihan Platform
Platform komputasi adalah kumpulan komponen perangkat keras, sistem operasi, jaringan, dan
perangkat lunak jaringan. Entah itu fungsi sistem OLTP atau sistem pendukung keputusan seperti
data warehouse, fungsinya harus dilakukan pada platform komputasi.

Ada 2 Jenis Platform yaitu:

14
1. Single Platform.

Ini adalah pilihan paling sederhana dan sederhana untuk mengimplementasikan arsitektur
data warehouse. Dalam opsi ini, semua fungsi dari ekstraksi data backend ke pemrosesan
kueri front-end dilakukan pada platform komputasi tunggal. Ini mungkin pendekatan
paling awal, ketika pengembang menerapkan data warehouse pada mainframe,
minicomputer, atau server berbasis UNIX yang ada.

Karena semua operasi dalam perolehan data, penyimpanan data, dan area pengiriman
informasi berlangsung di platform yang sama, opsi ini hampir tidak pernah menemukan
masalah kompatibilitas atau antarmuka apa pun. Data mengalir dengan lancar dari awal
sampai akhir tanpa konversi platform-ke-platform. Tidak ada middleware yang
dibutuhkan. Semua alat bekerja di lingkungan komputasi tunggal.

Di banyak perusahaan, sistem warisan masih berjalan di mainframe atau minis. Beberapa
perusahaan ini telah bermigrasi ke server berbasis UNIX dan yang lainnya beralih ke sistem
ERP di lingkungan klien / server sebagai bagian dari transisi untuk mengatasi tantangan
Y2K. Bagaimanapun, sebagian besar sistem warisan masih berada di mainframe, minis,
atau server berbasis UNIX. Apa hubungan sistem legacy dengan data warehouse? Ingat,
sistem warisan menyumbang sebagian besar data data warehouse. Jika perusahaan-
perusahaan ini ingin mengadopsi solusi satu platform, platform pilihan itu harus berupa
server mainframe, mini, atau UNIX.

Gambar 8: Beberapa platform untuk perusahaan pada umumnya

15
2. Hybrid Option Platform

Setelah memeriksa sistem warisan dan aplikasi yang lebih modern di perusahaan Anda,
kemungkinan besar Anda akan memutuskan bahwa pendekatan satu platform tidak dapat
diterapkan untuk data warehouse Anda. Inilah kesimpulan sebagian besar perusahaan
datang. Di sisi lain, jika perusahaan Anda termasuk dalam kategori di mana platform lawas
akan mengakomodasi data warehouse Anda, maka dengan segala cara, ambil pendekatan
solusi satu platform. Sekali lagi, solusi single-platform, jika memungkinkan, adalah solusi
yang lebih mudah.

Bagi kita semua yang tidak seberuntung itu, kita harus mempertimbangkan pilihan lain.
Mari kita mulai dengan ekstraksi data, operasi besar pertama, dan ikuti arus data sampai
dikonsolidasikan ke gambar beban dan menunggu di area stage. Sekarang kita akan
melangkah melalui arus data dan memeriksa opsi platform.

Gambar 9: Platform untuk akuisisi data

16
Gambar 10: Platform untuk staging area

Server Hardware
Memilih perangkat keras server adalah salah satu keputusan terpenting tim proyek data warehouse
akan dihadapi. Mungkin, untuk kebanyakan gudang, pemilihan perangkat keras server bisa
menjadi keputusan tersulit. Skalabilitas dan kinerja query optimal adalah kuncinya.

Anda tahu bahwa data warehouse Anda ada untuk satu tujuan utama-untuk memberikan informasi
kepada pengguna Anda. Ad hoc, tak terduga, kompleks query dari data warehouse adalah metode
yang paling umum untuk pengiriman informasi. Jika perangkat keras server Anda tidak
mendukung pemrosesan kueri yang lebih cepat, keseluruhan proyek dalam bahaya.

Gambar 11: Pilihan platform sesuai dengan perkembagan data warehouse

17
Ada beberapa pilihan dalam perangkat keras server, diantaranya yaitu:

1. SMP (Symmetric Multiprocessing).


Anda dapat mempertimbangkan opsi ini jika ukuran data warehouse Anda diperkirakan
sekitar dua atau tiga ratus gigabyte dan persyaratan konkurensi masuk akal.
Ciri-Ciri:
• suatu arsitektur yang shared-everything,
• Mesin olah paralel yang paling sederhana.
• Masing-Masing processor mempunyai akses penuh kepada memori secara bersama
melalui suatu umum bus.
• Komunikasi antara processor terjadi melalui memori umum.
• Disk dapat dikontrol oleh semua procesor

Gambar 12: SMP (Symmetric Multiprocessing)


2. Clusters
Anda dapat mempertimbangkan opsi ini jika data warehouse Anda diperkirakan akan
tumbuh dengan baik.Ciri-ciri:
• Masing-Masing node terdiri dari satu atau lebih processor dan berhubungan dengan
memori.
• Memori tidak shared di antara node tapi shared hanya di dalam masing-masing
node.
• Komunikasi terjadi dalam kecepatan tinggi.
• Masing-Masing node mempunyai akses umum ke setiap disk.

18
• Arsitektur ini adalah suatu cluster dari node.

Gambar 13: Cluster


3. MPP (Massively Parallel Processing)
Pertimbangkan opsi ini jika Anda sedang membangun data warehouse berukuran
menengah atau besar di kisaran 400-500 GB. Untuk gudang yang lebih besar di kisaran
terabyte, mencari kombinasi arsitektur khusus.
Ciri-ciri:
• Ini adalah suatu arsitektur yang shared-nothing.
• Arsitektur ini lebih terkait dengan mengakses disk dibanding akses memori.
• Bekerja secara baik dengan suatu sistem operasi yang mendukung akses disk
transparan.
• Jika suatu table database ditempatkan pada disk tertentu, akses ke disk itu
tergantung seluruhnya pada processor yang memiliki disk
• Internode komunikasi adalah dengan koneksi antar processor ke processor lainnya.

Gambar 14: MPP (Massively Parallel Processing)

19
4. ccNUMA or NUMA (Cache-coherent Nonuniform Memory Architecture).
Pilihan ini merupakan pendekatan yang lebih agresif untuk Anda. Anda dapat memutuskan
mesin NUMA yang terdiri dari satu atau dua simpul SMP, namun jika perusahaan Anda
tidak berpengalaman dalam teknologi perangkat keras, opsi ini mungkin tidak sesuai untuk
Anda.
Ciri-ciri:
• Ini adalah arsitektur yang paling baru; dikembangkan pada awal 1990
• NUMA arsitektur seperti suatu SMP besar mematahkan SMPs yang lebih kecil.
Dimana yang lebih mudah untuk dibangun.
• Perangkat keras pertimbangkan semua unit memori sebagai suatu raksasa memori.
Sistem mempunyai memori nyata tunggal menunjuk pada keseluruhan alamat
memori mesin dimulai dengan 1 pada tangkai / node yang pertama dan berllanjut
ke tangkai / node berikutnya. Masing-Masing tangkai / node berisi suatu direktori
alamat memori di dalam tangkai / node tersebut.
• Di dalam arsitektur ini, jumlah waktu yang diperlukan untuk mendapatkan kembali
suatu nilai memori bervariasi sebab tangkai / node yang pertama mungkin
memerlukan nilai yang berada di memori dari tangkai / node ketiga. Hal inilah yang
merupakan alasan mengapa arsitektur ini disebut arsitektur akses memori non
uniform

Gambar 15: ccNUMA or NUMA (Cache-coherent Nonuniform Memory Architecture).

20
Perangkat Lunak Basis Data
Karena data pergudangan menjadi lebih umum, Anda akan melihat fitur data warehouse disertakan
dalam produk perangkat lunak. Itulah yang dilakukan vendor database. Pengaitan terkait data
warehouse menjadi bagian dari penawaran database. Perangkat lunak basis data yang dimulai
untuk digunakan dalam sistem OLTP operasional ditingkatkan untuk memenuhi sistem pendukung
keputusan. DBMS juga telah ditingkatkan untuk mendukung database yang sangat besar.

Beberapa produk RDBMS sekarang termasuk dukungan untuk area akuisisi data dari data
warehouse. Pemuatan dan pengambilan kembali data dari sistem database lain menjadi lebih
mudah. Beberapa vendor telah memberikan perhatian khusus pada fungsi transformasi data. Fitur
replikasi telah diperkuat untuk membantu penyegaran massal dan penambahan data warehouse
secara bertahap.

Bit-dipetakan indeks bisa sangat efektif dalam lingkungan data warehouse untuk indeks pada
bidang yang memiliki sejumlah kecil nilai yang berbeda. Misalnya, dalam tabel database yang
berisi wilayah geografis, jumlah kode wilayah yang berbeda sedikit. Tapi sering, kueri melibatkan
seleksi menurut daerah. Dalam kasus ini, pengambilan dengan indeks yang dipetakan sedikit pada
nilai kode wilayah bisa sangat cepat.

Terlepas dari perangkat tambahan ini, yang lebih penting berhubungan dengan load balancing dan
kinerja query. Kedua fitur ini sangat penting dalam sebuah data warehouse. Data warehouse Anda
adalah query-sentris. Segala sesuatu yang bisa dilakukan untuk meningkatkan kinerja query sangat
diminati. Vendor DBMS menyediakan fitur pemrosesan paralel untuk meningkatkan kinerja kueri.

Pilihan Pemprosesan Paralel


Pilihan pemrosesan paralel dalam perangkat lunak basis data hanya ditujukan untuk mesin dengan
beberapa prosesor. Sebagian besar perangkat lunak database saat ini dapat memparalelkan
sejumlah besar operasi. Operasi ini meliputi: pemuatan data secara massal, pemindaian tabel
penuh, query dengan kondisi pengecualian, query dengan pengelompokan, seleksi dengan nilai
yang berbeda, agregasi, sortasi, pembuatan tabel menggunakan subqueries, membuat dan
membangun kembali indeks, memasukkan baris ke dalam tabel dari tabel lainnya, kendala yang
memungkinkan, transformasi bintang (teknik pengoptimalan saat memproses query melawan

21
skema STAR), dan seterusnya. Perhatikan bahwa ini adalah daftar operasi yang mengesankan yang
dapat diproses RDBMS secara paralel.

Setiap sesi mengakses database melalui proses server. Query dikirim ke DBMS dan pengambilan
data dilakukan dari database. Data diambil dan hasilnya dikirim kembali, semua berada di bawah
kendali proses dedicated server. Perangkat lunak operator dispatcher bertanggung jawab untuk
membelah pekerjaan, mendistribusikan unit yang akan dilakukan di antara kumpulan proses server
query yang ada, dan menyeimbangkan beban. Akhirnya, hasil proses query dirakit dan
dikembalikan sebagai satu set hasil konsolidasi.

Ada beberapa teknik pemprosesan paralel, diantaranya sebagai berikut:

1. Interquery Parallelization
Dalam metode ini, beberapa proses server menangani banyak permintaan secara
bersamaan. Beberapa pertanyaan mungkin dilayani berdasarkan konfigurasi server Anda
dan jumlah prosesor yang tersedia. Anda dapat berhasil memanfaatkan fitur DBMS di
sistem SMP ini, sehingga meningkatkan throughput dan mendukung pengguna yang lebih
bersamaan.
2. Intraquery Parallelization
Dengan menggunakan teknik paralelisasi intraquery, DBMS membagi query ke dalam
operasi tingkat rendah dari indeks membaca, membaca data, menggabungkan data, dan sort
data. Kemudian masing-masing operasi dasar dijalankan secara paralel pada satu prosesor.
Hasil akhir yang ditetapkan adalah konsolidasi hasil intermediasi. Terbagi atas 3 jenis
yaitu:
a. Horizontal Parallelism

Dengan menggunakan teknik paralelisasi intraquery, DBMS membagi query ke dalam


operasi tingkat rendah dari indeks membaca, membaca data, menggabungkan data,
dan sort data. Kemudian masing-masing operasi dasar dijalankan secara paralel pada
satu prosesor. Hasil akhir yang ditetapkan adalah konsolidasi hasil intermediasi.

b. Vertical Parallelism

Semacam ini paralelisme terjadi di antara tugas yang berbeda, bukan hanya satu tugas
dalam kueri seperti dalam kasus paralelisme horizontal. Semua operasi kueri

22
komponen dieksekusi secara paralel, namun dengan cara pipelined. Ini mengasumsikan
bahwa RDBMS memiliki kemampuan untuk menguraikan query menjadi subtugas;
setiap subtugas memiliki semua operasi baca indeks, data dibaca, bergabung, dan sortir.
Kemudian setiap subtugas mengeksekusi data secara serial. Dalam pendekatan ini,
catatan database idealnya diproses dengan satu langkah dan segera diberikan ke
langkah selanjutnya untuk pengolahan, sehingga menghindari waktu tunggu. Tentu
saja, dalam metode ini, DBMS harus memiliki tingkat kecanggihan yang sangat tinggi
dalam menguraikan tugas.

c. Hybrid Method

Dalam metode ini, dekomposisi query mendekripsi query secara horisontal dan
vertikal. Tentu, pendekatan ini menghasilkan hasil terbaik. Anda akan menyadari
pemanfaatan sumber daya, kinerja optimal, dan skalabilitas tinggi.

Gambar 16: Interquery Parallelization dan Intraquery parallelization oleh DBMS.

Pemilihan DBMS
Terlepas dari kriteria bahwa DBMS yang dipilih harus memiliki load balancing dan opsi
pemrosesan paralel, fitur kunci lainnya yang tercantum di bawah ini harus dipertimbangkan saat
memilih DBMS untuk data warehouse Anda.

23
• Query governor—untuk mengantisipasi dan membatalkan permintaan
• Query optimizer—untuk mengurai dan mengoptimalkan kueri pengguna
• Query management—untuk menyeimbangkan eksekusi berbagai jenis query
• Load utility—untuk pemuatan data berkinerja tinggi, pemulihan, dan restart
• Metadata management—dengan katalog data atau kamus aktif
• Scalability—baik dari segi jumlah pengguna maupun volume data
• Extensibility—memiliki ekstensi hibrida ke database OLAP
• Portability—di seluruh platform
• Query tool APIs—untuk alat dari vendor terkemuka
• Administration—memberikan dukungan untuk semua fungsi DBA

Collection of Tools
Pikirkan aplikasi OLTP, mungkin sistem rekening giro di bank umum. Bila Anda, sebagai
pengembang, merancang dan menerapkan aplikasi, berapa banyak perangkat lunak pihak ketiga
yang Anda gunakan untuk mengembangkan aplikasi semacam itu? Tentu saja, jangan hitung
bahasa pemrograman atau software database. Maksud kami alat vendor pihak ketiga lainnya untuk
pemodelan data, perangkat lunak perancangan GUI, dan sebagainya. Anda mungkin menggunakan
beberapa, jika ada sama sekali. Demikian pula, ketika teller bank menggunakan aplikasi ini, dia
mungkin tidak menggunakan perangkat lunak pihak ketiga.

Tapi lingkungan data warehouse berbeda. Bila Anda, sebagai anggota tim proyek,
mengembangkan data warehouse, Anda akan menggunakan alat pihak ketiga untuk tahap
perkembangan yang berbeda. Anda dapat menggunakan generator kode untuk menyiapkan
perangkat lunak dalam rumah untuk ekstraksi data. Saat data warehouse digunakan, pengguna
Anda akan mengakses informasi melalui alat kueri pihak ketiga dan membuat laporan dengan
penulis laporan. Perangkat lunak merupakan bagian infrastruktur yang sangat penting dalam
lingkungan data warehouse.

Alat perangkat lunak tersedia untuk setiap komponen arsitektur data warehouse. Gambar di bawah
menunjukkan kelompok alat yang mendukung berbagai fungsi dan layanan di data warehouse.
Perangkat perangkat lunak sangat penting dalam data warehouse. Seperti yang telah Anda lihat

24
dari gambar ini, alat mencakup semua fungsi utama. Tim proyek data warehouse hanya menulis
sebagian kecil perangkat lunak yang diperlukan untuk melakukan fungsi ini.

Gambar 17: Tools untuk data warehouse

Arsitektur Pertama, Lalu Tools.


Dalam pengembangan data warehouse, abaikan tools, desain arsitektur terlebih dahulu. setelah
arsitektur selesai, pilih tools yang sesuai dengan fungsi dan layanan yang ditetapkan untuk
komponen arsitektural.

Data Modeling
• Memungkinkan pengembang untuk menciptakan dan memelihara model data untuk sistem
sumber dan target database data warehouse. Jika perlu, model data dapat dibuat untuk
staging area.
• Menyediakan kemampuan teknik maju untuk menghasilkan skema database.
• Menyediakan kemampuan reverse engineering untuk menghasilkan data model dari entri
kamus data dari database sumber yang ada.
• Berikan kemampuan pemodelan dimensi kepada perancang data untuk membuat skema
STAR.

25
Data Transformation
• Transformasi data yang diekstraksi ke dalam format dan struktur data yang sesuai.
• Berikan nilai default sesuai spesifikasi.
• Fitur utama meliputi pemisahan lapangan, konsolidasi, standardisasi, dan deduplikasi.

Data Loading
• Load data yang ditransformasikan dan dikonsolidasikan dalam bentuk load images ke
dalam data warehouse warehouse.
• Beberapa pemuat menghasilkan kunci primer untuk tabel yang sedang dimuat.
• Untuk memuat gambar yang tersedia pada mesin RDBMS yang sama dengan data
warehouse, prosedur precode yang tersimpan pada database itu sendiri dapat digunakan
untuk loading.

Data Quality
• Membantu menemukan dan memperbaiki kesalahan data.
• Dapat digunakan pada data di area pementasan atau pada sistem sumber secara langsung.
• Membantu mengatasi ketidakkonsistenan data pada gambar beban.

Queries and Reports


• Izinkan pengguna menghasilkan laporan yang grafis intensif dan canggih.
• Bantu pengguna merumuskan dan menjalankan kueri.
• Dua klasifikasi utama adalah report writer, report servers.

Online Analytical Processing (OLAP)


• Izinkan pengguna menjalankan kueri dimensi kompleks.
• Aktifkan pengguna untuk menghasilkan kueri kalengan.
• Dua kategori pemrosesan analisis online adalah analisis online multidimensional
• pengolahan (MOLAP) dan pemrosesan analitis online relasional (ROLAP). MOLAP
bekerja dengan basis data multidimensi berpemilik yang menerima umpan data dari data
warehouse utama. ROLAP menyediakan kemampuan pemrosesan analisis online dari basis
data relasional dari data warehouse itu sendiri.

26
Alert Systems
• Sorot dan dapatkan perhatian pengguna berdasarkan pengecualian yang ditentukan.
• Sediakan alert dari data warehouse database untuk mendukung keputusan strategis. Tiga
jenis peringatan dasar adalah: dari sistem sumber individual, dari data warehouse
perusahaan terpadu, dan dari data mart individual.

Middleware and Connectivity


• Transparan akses ke sistem sumber di lingkungan yang heterogen.
• Transparan akses ke database dari berbagai jenis pada berbagai platform.
• Alatnya cukup mahal namun terbukti sangat berharga untuk menyediakan interoperabilitas
di antara berbagai komponen data warehouse.

Data Warehouse Management


• Membantu administrator data warehouse dalam pengelolaan sehari-hari.
• Beberapa alat fokus pada proses load dan melacak sejarah load.
• Alat lain melacak jenis dan jumlah kueri pengguna.

27
Sumber
Paulraj Ponniah. 2001. Data Warehousing Fundamentals: a Comprehensive Guide for IT
Professionals. John Wiles and Sons, Inc

28

Anda mungkin juga menyukai