Anda di halaman 1dari 39

BAB 5 Building the Data Warehouse, 4th Edition

DATA WAREHOUSE DAN TEKNOLOGI


Dalam banyak hal, data warehouse memerlukan beberapa fitur teknologi yang sederhana dari operasi sebelumnya. Update secara online pada data warehouse tidak diperlukan, mengunci dan integritas tidak terlalu diperlukan, hanya dasar antarmuka teleprocessing yang sangat diperlukan. Namun, masih banyak terdapat persyaratan teknologi untuk data warehouse, sedangkan bab ini hanya akan membahas beberapa saja. Mengelola data dalam jumlah yang besar Pada data warehouse sebelumnya menghitung kapasitas data dengan terabyte dan petabyte belum diketahui, kapasitas data diukur dalam megabyte dan gigabyte. Setelah data warehousing, semua persepsi berubah. Perkembangan hal yang besar pada hari ini akan menjadi hal yang biasa di hari berikutnya. Membanyaknya volume data yang terjadi pada data warehouse yang diperlukan karena detail dan history bercampur dalam satu lingkungan. Masalah menyimpan dan mengelola volume data dengan kapasitas yang besar sangat penting karena merupakan aspek dari data warehouse. Dengan pemikiran ini, persyaratan teknologi pertama dan paling penting bagi data warehouse adalah kemampuan untuk mengelola data dalam jumlah besar, seperti yang ditunjukkan pada Gambar 5-1. Terdapat banyak pendekatan pada lingkungan data warehouse yang memiliki jumlah data yang besar.

(1) Dewi Kartika (0804505059)

Persyaratan pertama teknologi adalah kemampuan dalam mengelola data

Persyaratan kedua teknologi adalah kemampuan dalam mengelola beberapa media

Persyaratan ketiga teknologi adalah untuk mendapatkan dan memantau data indeks secara bebas dan mudah
Report (Laporan)

Persyaratan keempat teknologi untuk antarmuka baik dalam menirima dan memindahkan data ke teknologi yang lebih banyak variasinya
Gambar 5-1 Beberapa persyaratan dasar untuk mendukung teknologi data warehouse

Sejumlah besar data yang harus dikelola dengan banyak cara misalnya dengan melalui fleksibilitas addressability data yang disimpan di dalam prosesor dan disimpan di dalam penyimpanan disk, melalui indexing, melalui ekstensi data, melalui pengelolaan overflow yang efisien, dan sebagainya. Data dikelola dengan

(2) Dewi Kartika (0804505059)

dua persyaratan fundamental yaitu kemampuan untuk mengelola data dalam jumlah besar sekali dan kemampuan untuk mengelola dengan baik. Beberapa pendekatan dapat digunakan untuk mengelola data dalam jumlah besar tetapi hal itu dilakukan dengan cara yang tidak pasti. Pendekatan yang lain dapat mengatur jumlah besar dan melakukannya dengan cara efisien dan elegan. Agar efektif, teknologi yang digunakan harus memenuhi persyaratan dalam hal volume dan efisiensi. Pada kasus umum, pengembang data warehouse membangun data warehouse dengan asumsi bahwa teknologi yang menjadi rumah data warehouse dapat menangani volume yang diperlukan. Ketika perancang pergi saat desain dan implementasi dalam pemetaan teknologi untuk data warehouse, maka ada masalah dengan teknologi yang mendasarinya. Ketika satu teknologi mendapat masalah, maka diperlukan lebih dari satu teknologi. Teknologi mampu untuk memindahkan data aktif ke dalam data overflow. Tentu saja, di luar masalah dasar teknologi dan efisiensinya adalah biaya penyimpanan dan pengolahan.

Pengelolaan beberapa Media Dalam hubungannya dengan pengelolaan data dalam jumlah besar secara efisien dan penggunaan biaya yang efektif, teknologi yang mendasari data warehouse harus menangani beberapa media penyimpanan. Ini tidak cukup untuk mengelola data warehouse pada DASD saja. Berikut ini adalah hirarki penyimpanan data dalam hal kecepatan akses dan biaya penyimpanan: Main memory Expanded memory Cache DASD Magnetic tape Near line Optical disk Fiche Sangat Cepat Sangat Cepat Sangat Cepat Cepat Kurang Cepat Kurang Cepat* Tidak lambat Lambat Sangat mahal Mahal Mahal Cukup Tidak terlalu mahal Tidak terlalu mahal Tidak terlalu mahal Murah

(3) Dewi Kartika (0804505059)

Volume data dalam data warehouse dan perbedaan akses menentukan bahwa data warehouse berada pada lebih dari satu tingkat penyimpanan. *Tidak cepat untuk mencari rekaman pertama, sangat cepat untuk menemukan semua catatan lainnya di blok tersebut. Pengindeksan dan Monitoring Data Hakikat dari data warehouse adalah akses data yang fleksibel dan tak terduga . Hal ini bermuara pada kemampuan untuk mengakses data dengan cepat dan mudah. Jika data dalam gudang tidak bisa dengan mudah dan efisien diindeks, data warehouse atau data warehouse tidak akan dapat untuk diakses. Tentu saja, desainer melakukan banyak percobaan untuk membuat data yang sefleksibel mungkin, seperti penyebaran data melalui media penyimpanan yang berbeda dan data partisi. Namun teknologi yang mendasari data harus dapat mendukung pengindeksan data dengan mudah juga. Beberapa teknik pengindeksan yang mungkin digunakan adalah dukungan indeks sekunder, dukungan dari indeks yang jarang, dukungan dinamis, indeks sementara, dan sebagainya. Selain itu, biaya membuat dan menggunakan indeks tidak bisa signifikan. Dalam lapisan yang sama, data juga harus dimonitor. Overhead data monitoring tidak dapat membesar dan kompleksitas data monitoring yang begitu besar dapat menghambat program monitoring dari yang dijalankan bila ini diperlukan. Berbeda dengan monitoring pemrosesan transaksi, dimana transaksi sendiri diawasi, data warehouse monitoring kegiatan menentukan data apa yang sudah dan belum digunakan. Monitoring data warehouse menentukan faktor-faktor seperti berikut: Jika reorganisasi perlu dilakukan Jika indeks adalah kurang terstruktur Jika data terlalu banyak atau tidak cukup dalam overflow Komposisi statistik dari akses data Tersedia ruang sisa

Jika teknologi yang mendasari data warehouse tidak mendukung monitoring yang mudah dan data yang efisien pada warehouse,hal ini tidak tepat.
(4) Dewi Kartika (0804505059)

Interface Untuk Banyak Teknologi Komponen lain yang sangat penting dari data warehouse adalah kemampuan baik untuk menerima data dan untuk melewati data ke berbagai teknologi. Data yang dilewatkan ke dalam data warehouse dari lingkungan operasional dan ODS, dan dari data warehouse ke dalam data mart, aplikasi DSS, eksplorasi dan pertambangan data warehouse dan penyimpanan alternatif. Bagian ini harus lancar dan mudah. Teknologi yang mendukung data warehouse secara praktis berguna jika ada kendala utama bagi data yang lewat dari dan ke data warehouse. Selain menjadi efisien dan mudah digunakan, interface ke dan dari data warehouse harus dapat beroperasi dalam mode batch. Beroperasi dalam mode online adalah hal yang menarik, namun tidak terlalu berguna. Biasanya, masa dormansi ada dari saat data tiba di lingkungan operasional sampai data siap untuk diteruskan ke data warehouse. Karena latensi ini, bagian online data ke dalam data warehouse hampir tidak ada (berlawanan dengan pergerakan online data ke dalam kelas I ODS). Interface untuk teknologi yang berbeda memerlukan beberapa pertimbangan: Apakah data melewati dari satu DBMS yang lain dengan mudah? Apakah itu melewati dari satu sistem operasi yang lain dengan mudah? Apakah mengubah format dasar dalam bagian (EBCDIC main frame, ASCII untuk level kecil, dan sebagainya)? Dapatkah bagian dalam proses multidimensi dilakukan dengan mudah? Dapatkah increment dipilih data, seperti menangkap data diubah (CDC) akan berlalu daripada seluruh tabel? Apakah konteks data yang hilang dalam terjemahan sebagai data dipindahkan ke lingkungan lain? Programmer atau design Control dari data Placement Karena efisiensi dari mengakses dan memperbarui, programmer atau desainer harus memiliki kontrol khusus atas penempatan data pada blok fisik atau tingkat halaman, seperti yang ditunjukkan pada Gambar 5-2.
(5) Dewi Kartika (0804505059)

Teknologi yang mendasari data dalam data warehouse dapat menempatkan data pada tempat yang sesuai, bila diperlukan selama teknologi dapat diganti secara eksplisit. Teknologi yang menekankan pada penempatan fisik data tanpa mengesampingkan dari programmer adalah kesalahan yang serius. Programmer atau desainer sering dapat mengatur penempatan fisik dari data sesuai dengan penggunaannya. Dengan demikian, lebih ekonomis dengan pemanfaatan sumber daya dalam pengaksesan data.

Gambar 5-2 persyaratan teknologi lebih untuk data warehouse.

(6) Dewi Kartika (0804505059)

Penyimpanan Paralel dan Pengelolaan Data Salah satu fitur yang paling kuat dalam pengelolaan data warehouse adalah penyimpanan paralel dan manajemen. Ketika data disimpan dan dikelola secara paralel, keuntungan dalam kinerja dapat menjadi dramatis. Selain itu, dengan pendekatan paralel, volume data yang dapat dikelola tumbuh secara signifikan. Sebagai aturan, meningkatkan kinerja berbanding terbalik dengan jumlah perangkat fisik dimana data terdistribusi secara fisik, dengan asumsi ada kemungkinan dalam pengaksesan untuk data. Seluruh masalah penyimpanan paralel dan pengelolaan data adalah satu hal yang kompleks. Secara umum, ketika pengelolaan data dapat diparalelkan, tidak ada batasan untuk volume data yang dapat dikelola. Sebaliknya, batas data yang dapat dikelola adalah batas ekonomi, bukan batas teknis.

Manajemen metadata Seperti disebutkan dalam Bab 3, karena berbagai alasan, metadata menjadi lebih penting dalam data warehouse daripada di lingkungan operasional klasik. Metadata sangat penting karena perbedaan fundamental dalam siklus hidup pengembangan yang berhubungan dengan data warehouse. Data warehouse beroperasi di bawah sebuah siklus, pengembangan kehidupan heuristik iteratif. Agar efektif, pengguna data warehouse harus memiliki akses ke metadata yang akurat dan up to date. Tanpa sumber yang baik dari metadata, tugas analis DSS akan menjadi jauh lebih sulit. Biasanya, teknis metadata menggambarkan data warehouse memiliki hal sebagi berikut: Tabel struktur data warehouse Tabel atribut data warehouse Data sumber data warehouse (sistem catatan) Pemetaan dari sistem catatan ke data warehouse Model data spesifikasi Ekstrak pemotongan (logging) Kegiatan rutin untuk akses data Definisi dan deskripsi data
(7) Dewi Kartika (0804505059)

Hubungan dari satu unit dengan data yang lain

Perlu dicatat bahwa metadata datang dalam varietas yang berbeda. Satu set dari tipe yang dimasuki metadata adalah metadata bisnis versus metadata teknis. Metadata bisnis adalah bahwa metadata yang penggunaannya bernilai bagi para pelaku bisnis. Metadata teknis adalah bahwa metadata yang penggunaannya bernilai bagi para teknisi. Pertimbangan lain metadata adalah bahwa setiap teknologi di lingkungan intelijen bisnis memiliki metadata sendiri. Laporan penulis, alat bisnis intelijen, lingkungan ODS, dan ETL semua memiliki metadata mereka masing-masing. Bahasa Antar Muka Data warehouse memiliki banyak spesifikasi bahasa. Bahasa digunakan oleh programmer dan pengguna terakhir dari DSS untuk mengakses data di dalam data warehouse harus mudah digunakan dan kuat. Tanpa bahasa antarmuka yang kuat, memasuki dan mengakses data pada data warehouse akan menjadi sulit. Selain itu, bahasa yang digunakan untuk mengakses data dalam data warehouse perlu beroperasi secara efisien. Biasanya, bahasa antarmuka pada data warehouse harus mempunyai kemampuan sebagai berikut: Mampu mengakses data pada suatu waktu Mampu mengakses data record pada suatu waktu memastikan bahwa satu atau lebih indeks akan digunakan dalam memenuhi dari query Memiliki SQL Interface Mampu menambahkan, menghapus, atau memperbarui data

Pada kenyataannya, berbagai jenis bahasa tergantung pada pengolahan sedang dilakukan. Ini termasuk bahasa untuk analisis statistik data, dimana data mining dan eksplorasi telah selesai; bahasa yang sederhana untuk akses data; bahasa yang menangani prefabrikasi query, dan bahasa yang mengoptimalkan pada grafis interface. Masing-masing bahasa memiliki kekuatan dan kelemahan sendiri. Karena kompleksitas dari SQL, sangat menarik bagi bahasa interface yang menciptakan dan mengelola query di SQL sehingga pengguna akhir tidak harus
(8) Dewi Kartika (0804505059)

benar-benar tahu atau menggunakan SQL. Dengan kata lain, interface bahasa pada SQL sangat disukai organisasi dan pengguna akhir. Di kebanyakan organisasi, hanya orang teknis yang menulis SQL query secara langsung. Orang yang lain, termasuk pengguna akhir, harus memiliki bahasa interface yang jauh lebih sederhana dari SQL. Efisien Loading Data Sebuah kemampuan teknologi penting dari data warehouse adalah kemampuan untuk memuat data warehouse secara efisien, seperti yang ditunjukkan pada Gambar 5-3. Kebutuhan untuk Kemampuan beban efisien adalah hal yang penting dimana pun, tetapi tidak hanya hal itu yang penting bagi data warehouse yang besar.
Persyaratan teknologi kesembilan : Untuk dapat memuat warehouse yang efisien

Persyaratan teknologi kesepuluh : Untuk dapat menggunakan indeks yang efisien Persyaratan teknologi kesebelas : Untuk dapat menyimpan data dengan cara yang ringkas Persyaratan teknologi keduabelas : Untuk mendukung kunci gabungan

Gambar 5-3 Persyaratan lebih lanjut tentang teknologi.

(9) Dewi Kartika (0804505059)

Data dimasukkan ke sebuah data warehouse dalam dua cara mendasar: catatan pada suatu waktu melalui bahasa interface dengan utilitas. Loading data dengan menggunakan utilitas jauh lebih cepat. Selain itu, indeks harus efisien dimuat pada saat yang sama dengan data yang dimuat. Dalam beberapa kasus, loading dari indeks dapat ditunda untuk menyebarkan beban kerja secara merata. Beban volume loading menjadi masalah, beban sering diparalelkan. Ketika ini terjadi, data yang dimuat dibagi menjadi beberapa aliran pekerjaan. Setelah data input dibagi, setiap aliran pekerjaan dijalankan independen. Dengan demikian, waktu yang dibutuhkan berkurang dengan jumlah pekerjaan yang dibagi menjadi beberapa aliran. Pendekatan lain yang terkait dengan pemuatan efisien dalam jumlah yang sangat besar data staging data sebelum loading. Sebagai aturan, sejumlah besar data yang dikumpulkan ke dalam sebuah daerah buffer sebelum diproses oleh ekstrak / transfer / loading (ETL) software. Data bertahap yang tergabung (mungkin diedit, dirangkum, dan sebagainya) sebelum lolos ke dalam lapisan ETL. Staging data yang diperlukan di mana jumlah data yang besar dan kompleksitas pengolahan tinggi. Yang lainnya kasus untuk area pementasan adalah bahwa kebutuhan untuk mengkoordinasikan penggabungan data. Misalkan data dari sumber ABC siap untuk masuk ke dalam data warehouse pada 09:00. Namun data dari sumber BCD harus digabung dengan ABC. Namun, data dari sumber BCD belum siap sampai 18:00 Data dari ABC kemudian menunggu di pementasan daerah sampai data dari BCD siap untuk diproses. Efisien Indeks Utilasi Tidak hanya teknologi yang mendasari data warehouse dapat dengan mudah mendukung pembuatan dan loading indeks baru, tetapi indeks harus dapat diakses secara efisien. Teknologi dapat mendukung akses indeks efisien dalam beberapa cara : Menggunakan bit maps Memiliki indeks multileveled Menyimpan semua atau sebagian dari suatu indeks dalam memori utama
(10) Dewi Kartika (0804505059)

Memadatkan entri indeks ketika urutan data yang diindeks memungkinkan untuk dilakukan pemadatan Membuat indeks selektif dan range indeks

Selain penyimpanan efisien dan pemindaian indeks, akses data di tingkat penyimpanan utama adalah penting. Sayangnya, hamper tidak banyak ada pilihan untuk mengoptimalkan akses data primer untuk akses data indeks.

Pemadatan Data Intisari keberhasilan dalam lingkungan data warehouse adalah kemampuan untuk mengelola data dalam jumlah besar. Tujuan utamanya adalah kemampuan untuk memadatkan data. Tentu saja, ketika data dipadatkan, dapat disimpan dalam jumlah ruang yang minim. Selain itu, ketika data dapat disimpan dalam ruang kecil, akses data menjadi sangat efisien. Pemadatan data sangat relevan dengan lingkungan data warehouse karena data dalam lingkungan jarang terupdate sekali dimasukkan ke dalam warehouse. Stabilitas data warehouse meminimalkan masalah-masalah manajemen ruang yang muncul ketika data yang telah dipadatkan sedang diperbarui. Keuntungan lain adalah bahwa programmer mendapatkan hasil maksimal dari yang diberikan I/O ketika data disimpan secara padat. Tentu saja, selalu ada yang sesuai dengan masalah decompaction akses data. Sementara benar bahwa proses decompaction membutuhkan overhead, overhead diukur dalam sumber daya CPU, bukan sumber daya I / O. Sebagai aturan, dalam lingkungan data warehouse, sumber daya I / O yang jauh lebih jarang ada daripada sumber daya CPU, sehingga decompaction data bukan masalah besar. Compound Keys Sesuatu yang sederhana (tapi penting), kebutuhan teknologi lingkungan data warehouse adalah kemampuan untuk mendukung compound keys. Compound keys terjadi di lingkungan data warehouse, terutama karena waktu varian data warehouse dan karena hubungan foreign key cukup umum dalam data atomik yang membentuk data warehouse.
(11) Dewi Kartika (0804505059)

Variable-Length Data Persyaratan lain teknologi sederhana namun penting dari lingkungan data warehouse adalah kemampuan untuk mengelola panjang variabel data agar efisien, seperti yang terlihat dalam Gambar 5-4. Variabel panjang data dapat mempengaruhi kinerja ketika terus diperbarui dan diubah. Dimana variable panjang data stabil, seperti pada kasus data warehouse, tidak ada masalah kinerja yang ada. Selain itu, karena berbagai data yang ditemukan di data warehouse, struktur panjang variabel dari data harus didukung.

Persyaratan teknologi ketigabelas : Untuk mengelola panjang variabel data secara efisien

Persyaratan teknologi keempatbelas : untuk dapat menghidupkan dan mematikan lock manager : untuk dapat secara eksplisit mengontrol key manager pada tingkat programmer

Persyaratan teknologi kelimabelas : Untuk melakukan pengolahan indeks

Persyaratan teknologi keenambelas : Untuk dapat mengembalikan sebagian besar data dari media Gambar 5-4 Persyaratan teknologi untuk datawarehouse

(12) Dewi Kartika (0804505059)

Manajemen Kunci Sebuah bagian dari teknologi database adalah lock manager, yang menjamin bahwa dua atau lebih orang tidak memperbarui catatan yang sama pada waktu yang sama. Tapi update tidak dilakukan di data warehouse, melainkan, data disimpan dalam serangkaian catatan snapshot. Ketika perubahan terjadi, record snapshot baru yang ditambahkan, daripada pembaruan dilakukan. Salah satu efek dari key manager adalah bahwa ia memerlukan sejumlah data yang benar, bahkan ketika data tidak diperbarui. Hanya mengubah key manager yang dibutuhkan oleh overhead. Oleh karena itu, untuk

menyederhanakan lingkungan data warehouse, kemampuan untuk selektif dalam mengubah manajer kunci menjadi hidup dan mati sangat diperlukan. Pengolahan Indeks Standar fitur sistem managemen database adalah hanya kemampuan untuk melakukan pengolahan Indeks. Dalam berbagai kesempatan, adalah hal yang mungkin untuk melayani permintaan dengan hanya mencari di indeks tanpa masuk ke sumber data primer. Hal ini, tentu saja, jauh lebih efisien. Meskipun tidak semua DBMS, mengetahui bahwa permintaan dapat dipenuhi hanya dengan mencari di indeks. Teknologi yang optimal untuk lingkungan data warehouse adalah mencari data dalam indeks eksklusif jika permintaan tersebut dapat dirumuskan dan memungkinkan pengguna query untuk menentukan bahwa sebuah query indeks telah ditetapkan. Teknologi DBMS harus menawarkan pengguna akhir DSS suatu pilihan untuk menentukan bahwa jika sebuah query indeks dapat dieksekusi, query dapat dipenuhi dengan cara itu. Mengembalikan dengan cepat Sebuah fitur teknologi lingkungan data warehouse yang sederhana namun penting adalah kemampuan untuk dengan cepat mengembalikan tabel data warehouse dari penyimpanan nonDASD. Ketika restore dapat dilakukan dari penyimpanan sekunderdilakukan penghematan yang cukup besar. Tanpa kemampuan untuk mengembalikan data yang cepat dari penyimpanan sekunder,
(13) Dewi Kartika (0804505059)

praktek standar adalah menggandakan jumlah DASD dan menggunakan satusetengah yang DASD sebagai pemulihan dan memulihkan repositori. Kemampuan restore yang cepat harus mampu mengembalikan baik database secara penuh dan parsial database. Ukuran data ditemukan dalam data warehouse dengan syarat yang hanya database parsial yang bisa diperbaiki. Selain itu, DBMS perlu merasa bahwa kesalahan mungkin telah terjadi secara otomatis. Membiarkan deteksi data yang corup ke pengguna akhir adalah cara proses yang salah. Teknologi lain yang berguna adalah kemampuan untuk membuat alat diagnostik untuk menentukan apa data telah rusak. Alat diagnostik harus beroperasi di dalam data dalam jumlah besar.

Fitur Teknologi Lain Fitur dibahas di sini hanya yang paling penting. Banyak orang lain mendukung data warehouse, tetapi mereka terlalu banyak untuk disebutkan di sini. Perlu dicatat bahwa banyak fitur lainnya pada teknologi DBMS yang ditemukan di DBMS klasik dimana pengolahan transaksi hanya memainkan peran kecil (jika mereka memainkan peran sama sekali) dalam dukungan dari lingkungan data warehouse. Beberapa fitur tersebut meliputi : Integritas transaksi kecepatan tinggi buffering mengunci pada tingkat baris atau halaman Referential integritas tampilan data Partial blok loading

Memang, setiap kali transaksi berbasis DBMS digunakan dalam lingkungan data warehouse, maka diharapkan untuk mematikan fitur tersebut, karena mereka mengganggu pengolahan data yang efisien di dalam data warehouse.

(14) Dewi Kartika (0804505059)

Jenis DBMS dan Data Warehouse Dengan munculnya data warehousing dan pengakuan DSS sebagai sebuah integral bagian dari infrastruktur sistem informasi modern, kelas baru DBMS telah muncul. Kelas ini bisa disebut DBMS data sebuah gudang khusus. Data DBMS gudang-spesifik dioptimalkan untuk data warehousing dan pengolahan DSS. Sebelum data warehouse adalah pemrosesan transaksi, dan kebutuhan dari jenis pengolahan didukung DBMS. Meskipun pengolahan dalam data warehouse sangat berbeda. Pengolahan data warehouse dapat dicirikan sebagai beban dan akses pengolahan. Data terintegrasi, berubah, dan dimuat ke dalam data warehouse dari lingkungan warisan operasional dan BPO. Setelah dalam data warehouse, data terintegrasi diakses dan dianalisis di sana. Sebuah update tidak biasanya dilakukan di data warehouse setelah data tersebut dimuat. Jika koreksi atau penyesuaian yang perlu dibuat untuk data warehouse, mereka dibuat pada saat off, saat analisis tidak ada yang terjadi terhadap data data warehouse. Selain itu, perubahan data saat ini dibuat oleh snapshot. Perbedaan penting lainnya antara lingkungan pemrosesan transaksi database klasik dan lingkungan data warehouse adalah bahwa lingkungan data warehouse cenderung lebih banyak menyimpan data, diukur dalam terabyte dan petabyte, dari database proses transaksi klasik di bawah DBMS. Data warehouse mengelola data dalam jumlah besar karena mengandung berikut ini: Granular, atomik detail Informasi historis Ringkasan data rinci

Dalam kemampuan manajemen data dasar, data warehouse yang dioptimalkan untuk serangkaian parameter yang sangat berbeda dari standar operasional DBMS. Perbedaan pertama dan paling penting antara klasik DBMS dan spesifik DBMS data warehouse adalah bagaimana update dilakukan. Sebuah tujuan umum DBMS klasik yaitu harus dapat menampung tingkat catatan, update transaksi berbasis sebagai bagian usaha normal. Karena recordlevel, update transaksi berbasis fitur biasa dari tujuan umum DBMS, tujuan umum DBMS harus menawarkan fasilitas untuk barang-barang seperti berikut:
(15) Dewi Kartika (0804505059)

Mengunci Commit Tempat pemeriksaan Log tape prosesing deadlock Backout

Tidak hanya fitur ini yang merupakan bagian normal dari DBMS, mereka memerlukan banyak overhead. Menariknya, overhead diperlukan bahkan ketika itu tidak digunakan. Dengan kata lain, update dan locking overhead bergantung pada DBMS yang merupakan keperluan umum DBMS bahkan pada saat read only proses tetap dijalankan. Tergantung pada general purpose DBMS, overhead yang diperlukan untuk update dapat diminimalkan, tetapi tidak dapat sepenuhnya dihilangkan. Untuk spesifik DBMS data warehouse, tidak ada kebutuhan untuk salah satu update overhead. Perbedaan utama kedua antara general purpose DBMS dan DBMS data warehouse khusus berkenaan dengan manajemen dasar data. Untuk DBMS general purpose, pengelolaan data pada tingkat blok termasuk ruang yang disiapkan untuk ekspansi blok untuk berikutnya pada saat pembaruan atau penyisipan. Biasanya, ruang ini disebut sebagai freespace. Untuk general purpose DBMS, mungkin freespace setinggi 50 persen. Untuk spesifik DBMS data warehouse, freespace selalu sama dengan 0 persen karena tidak perlu untuk ekspansi di blok fisik, karena hanya sekali dimuat, update tidak dilakukan di lingkungan data warehouse. Memang, mengingat jumlah data yang akan dikelola dalam data warehouse, tidak masuk akal untuk menyiapkan sejumlah besar ruang yang tidak pernah dapat digunakan. Perbedaan lain yang relevan antara data warehouse dan lingkungan general purpose yang tercermin dalam berbagai jenis pengindeksan DBMS. Lingkungan general purpose DBMS adalah terbatas pada jumlah indeks. Pembatasan ini ada karena sebagai pembaruan dan terjadi insersi, indeks membutuhkan ruang dan manajemen data sendiri. Dalam lingkungan data warehouse di mana tidak ada
(16) Dewi Kartika (0804505059)

update dan ada kebutuhan untuk mengoptimalkan akses data, sehingga membutuhkan banyak indeks. Memang, struktur pengindeksan jauh lebih kuat dan canggih dapat digunakan untuk data pergudangan daripada untuk operasional, database update-oriented. Beyond pengindeksan, update, dan dasar pengelolaan data di tingkat blok fisik, ada beberapa perbedaan yang sangat mendasar lain antara kemampuan pengelolaan data dan filsafat pengolahan transaksi general purpose DBMS dan spesifik DBMS data warehouse. Mungkin perbedaan yang paling mendasar adalah kemampuan untuk mengatur data fisik secara optimal untuk berbagai jenis akses. Sebuah DBMS general purpose biasanya secara fisik mengatur data untuk akses transaksi yang optimal dan manipulasi. Pengorganisasian dalam mode ini memungkinkan berbagai jenis data yang akan dikumpulkan menurut kunci yang sama dan efisien diakses dalam satu atau dua I / O. Data yang optimal untuk akses informasi biasanya memiliki profil fisik yang sangat berbeda. Data yang optimal untuk akses informasi diatur sehingga kejadian yang berbeda dari jenis data yang sama dapat diakses secara efisien di satu atau dua fisik I / O. Data dapat secara fisik dioptimalkan untuk akses transaksi atau akses DSS, tapi tidak keduanya pada saat yang sama. General purpose DBMS transaksi berbasis memungkinkan data yang akan dioptimalkan untuk akses transaksi, dan spesifik DBMS data warehouse memungkinkan data secara fisik dioptimalkan untuk akses DSS dan analisis.

Mengubah Teknologi DBMS Sebuah pertimbangan yang menarik dari gudang informasi telah mengubah teknologi DBMS setelah gudang sudah terisi. Perubahan dimungkinkan dalam rangka untuk beberapa alasan: Teknologi DBMS memungkinkan tersedia hari ini bahwa tidak hanya terdapat pilihan ketika data warehouse pertama kali terisi. Ukuran gudang telah berkembang ke titik bahwa pendekatan teknologi baru diberi ketentuan.

(17) Dewi Kartika (0804505059)

Penggunaan gudang telah meningkat dan berubah menjadi titik bahwa gudang teknologi DBMS saat ini tidak memadai. Keputusan DBMS dasar harus ditinjau kembali dari waktu ke waktu.

Jika keputusan dibuat untuk masuk ke teknologi DBMS baru, apa pertimbangan? Beberapa yang lebih penting berikut: Apakah teknologi DBMS baru memenuhi persyaratan mendatang? Bagaimana konversi dari teknologi DBMS yang lebih tua untuk teknologi DBMS yang lebih baru dilakukan? Bagaimana program transformasi dikonversi?

Dari semua pertimbangan ini, yang terakhir adalah yang paling membingungkan. Mencoba untuk mengubah program transformasi adalah tugas kompleks dalam situasi yang terbaik. Fakta tetap bahwa sekali DBMS telah diimplementasikan untuk data warehouse, ubah pada suatu titik kemudian pada waktu adalah suatu kemungkinan. Tersebut tidak pernah terjadi di dunia pengolahan transaksi; sekali DBMS telah dilaksanakan, bahwa DBMS tinggal selama transaksi dijalankan.

Multidimensional DBMS dan Data Warehouse Salah satu teknologi yang sering dibahas dalam konteks data warehouse adalah pengolahan multidimensi DBMS (kadang-kadang disebut OLAP Prosesing). Multidimensional sistem manajemen database, atau data mart, menyediakan sistem informasi dengan struktur yang memungkinkan suatu organisasi untuk memiliki akses yang sangat fleksibel untuk data, untuk meringkas kecil-kecil dengan berbagai cara, dan untuk mengeksplorasi secara dinamis hubungan antara data ringkasan dan detail. Multidimensional DBMS menawarkan baik fleksibilitas dan kontrol ke pengguna akhir, dan dengan demikian mereka cocok baik di lingkungan DSS. Sebuah hubungan yang sangat menarik dan saling melengkapi ada antara DBMS multidimensi dan data warehouse, seperti yang ditunjukkan pada Gambar 5-5.
(18) Dewi Kartika (0804505059)

Data rinci ditempatkan di sebuah data warehouse menyediakan sumber yang sangat kuat dan nyaman data untuk DBMS multidimensi. Data flow dari data warehouse ke multidimensi DBMS secara teratur sebagai DBMS multidimensi perlu di-refresh secara berkala. Karena warisan data aplikasi terintegrasi karena memasuki data warehouse, DBMS multidimensi tidak perlu untuk mengekstrak dan mengintegrasikan data yang beroperasi pada dari lingkungan operasional. Selain itu, rumah data warehouse di tingkat terendah, menyediakan "landasan" data untuk tingkat terendah analisis bahwa siapa saja yang mau menggunakan DBMS multidimensi.
Keuangan Sedikit ringkasan Pemasaran akunting

Detail saat ini

Gambar 5-5 Struktur klasik dari data warehouse dan bagaimana data detail saat ini dan data departemen (atau DBMS multidimensi, data mart) data yang cocok bersama.

Meskipun terpikir bahwa multidimensi teknologi DBMS harus menjadi teknologi database untuk data warehouse, dalam semua kasus kecuali yang paling tidak biasa, ini adalah suatu kesalahan. Sifat yang paling penting dalam data warehouse tidak ditemukan dalam teknologi DBMS multidimensi. Pertimbangkan perbedaan antara DBMS multidimensi dan data warehouse: Data warehouse memegang sejumlah besar data; DBMS multidimensi memegang setidaknya urutan besarnya kurang data. Data warehouse ditujukan untuk jumlah terbatas akses fleksibel; DBMS multidimensi yang ditujukan untuk akses yang sangat berat dan tak terduga dan analisis data.

(19) Dewi Kartika (0804505059)

Data warehouse berisi data dengan horizon waktu yang sangat panjang (dari 5 sampai 10 tahun); DBMS multidimensi memegang cakrawala waktu yang jauh lebih pendek data.

Data warehouse memungkinkan analis untuk mengakses data dalam mode dibatasi, DBMS multidimensi memungkinkan akses yang tidak terbatas.

Alih-alih data warehouse yang ditempatkan di sebuah DBMS multidimensi, DBMS multidimensi dan data warehouse menikmati hubungan yang saling melengkapi.

Salah satu fitur menarik dari hubungan antara data warehouse dan DBMS multidimensi adalah bahwa data warehouse dapat memberikan dasar untuk data yang sangat rinci yang biasanya tidak ditemukan dalam DBMS multidimensi. Data warehouse dapat mengandung tingkat yang sangat halus detail, yang ringan diringkas sebagai ini dilewatkan sampai ke DBMS multidimensi. Setelah di DBMS multidimensi, data dapat lebih diringkas. Dalam fashion, DBMS multidimensi mempunyai data yang detail. Analis menggunakan DBMS multidimensi dapat menelusuri dalam cara yang fleksibel dan efisien atas semua berbagai tingkat data yang ditemukan di dalamnya. Kemudian, jika diperlukan, analis dapat benar-benar menelusuri ke data warehouse. Dengan menggabungkan data warehouse dan DBMS multidimensi, analis DSS mendapatkan yang terbaik dari kedua dunia. Analis DSS menikmati efisiensi operasi sebagian besar waktu di dunia DBMS multidimensi, sementara pada saat yang sama mampu menelusuri ke tingkat terendah detail. Keuntungan lain adalah bahwa informasi ringkasan dapat dihitung dan dikumpulkan di DBMS multidimensi dan kemudian disimpan di data warehouse. Setelah ini selesai, data ringkasan dapat disimpan dalam data warehouse untuk waktu yang lebih lama daripada jika disimpan dalam DBMS multidimensi. Masih ada cara lain bahwa DBMS multidimensi dan dunia data warehouse saling melengkapi. DBMS multidimensi rumah data melalui panjang sederhana waktu-katakanlah 12 hingga 15 bulan, tergantung pada aplikasi. Pada rumah data
(20) Dewi Kartika (0804505059)

warehouse, data melalui lebih lama waktu 5 sampai 10 tahun. Sedemikian rupa, data warehouse menjadi sumber penelitian untuk analis DBMS multidimensi. Multidimensional DBMS analis memiliki hak mengetahui bahwa data dalam jumlah besar tersedia jika diperlukan, tetapi mereka tidak harus membayar harga untuk menyimpan semua data di lingkungan mereka. Multidimensi DBMSs datang dalam beberapa rasa. Beberapa DBMSs multidimensi beroperasi pada landasan teknologi relasional, dan beberapa beroperasi pada landasan yang optimal teknologi untuk "slicing dan dicing" data, dimana data dapat dianggap sebagai yang ada dalam kubus multidimensional. Pondasi teknologi yang terakhir ini kadang-kadang disebut kubus atau pondasi OLAP. Kedua pondasi dapat mendukung multidimensi DBMS data mart. Tetapi ada beberapa perbedaan antara kedua jenis pondasi teknologi. Berikut adalah fondasi relasional untuk data multidimensi mart DBMS : a. Kekuatan : Dapat mendukung banyak data. Dapat mendukung bergabung dengan data dinamis. Memiliki teknologi yang telah terbukti. Mampu mendukung pengolahan update general purpose. Jika tidak ada yang diketahui dari pola penggunaan data, maka struktur relasional sebagus yang lain. b. Kelemahan: Memiliki kinerja yang kurang optimal. Tidak bisa murni dioptimalkan untuk pengolahan akses.

Berikut adalah dasar kubus untuk multidimensi data mart DBMS: a. Kekuatan: Kinerja yang optimal untuk pemrosesan DSS. Dapat dioptimalkan untuk akses data sangat cepat. Jika pola akses data diketahui, maka struktur data dapat dioptimalkan.

(21) Dewi Kartika (0804505059)

Dapat mudah diringkas dan dipotong kecil-kecil (menyerupai dadu). Dapat diperiksa dengan berbagai cara.

b. Kelemahan: Tidak dapat menangani data hampir sebanyak format relasional standar. Tidak mendukung proses tujuan umum update. Mungkin memakan waktu lama untuk load. Jika akses yang diinginkan pada jalur tidak didukung oleh desain data, struktur yang tidak fleksibel. Dukungan dipertanyakan untuk dinamis bergabung data. Multidimensional DBMS (OLAP) adalah suatu teknologi, sedangkan data warehouse adalah infrastruktur arsitektur, dan hubungan simbiosis ada antara keduanya. Dalam kasus normal, data warehouse yang berfungsi sebagai dasar untuk data yang akan mengalir ke multidimensi DBMS-maka himpunan bagian yang dipilih dari data rinci ke dalam DBMS multidimensi di mana itu dirangkum dan sebaliknya agregat. Namun pada beberapa kalangan, ada pandangan bahwa DBMSs multidimensional tidak memerlukan data warehouse untuk pondasi mereka data. Tanpa data warehouse yang berfungsi sebagai dasar untuk DBMS multidimensi, data mengalir ke DBMS multidimensi datang langsung dari lingkungan, lebih tua warisan aplikasi. Gambar 5-6 menunjukkan aliran data dari lingkungan warisan langsung ke DBMS multidimensi. Desain ini menarik karena sederhana dan mudah dicapai. Seorang pemrogram dapat langsung mulai bekerja di gedung itu.

Keuangan

Aplikasi warisan
Gambar 5-6 Membangun DBMS multidimensi data mart dari aplikasi tanpa current detail

(22) Dewi Kartika (0804505059)

Sayangnya, beberapa perangkap utama dalam arsitektur, seperti yang disarankan oleh Gambar 5-6, tidak begitu jelas. Untuk berbagai alasan, masuk akal untuk memberi feed pada lingkungan DBMS ultidimensional dari tingkat current detail dari data warehouse, daripada feed langsung dari aplikasi warisan lingkungan operasional. Gambar 5-7 menggambarkan feed lingkungan DBMS multidimensi dari tingkat current detail dari lingkungan data warehouse. Tua, warisan data operasional terintegrasi dan berubah ketika mengalir ke dalam data warehouse. Setelah di data warehouse, data terintegrasi disimpan pada tingkat saat ini dari rincian data. Dari tingkat ini, DBMS multidimensi diberi feed. Sekilas, ada mungkin tidak tampak perbedaan yang substantif antara arsitektur ditunjukkan pada Gambar 5-6 dan Gambar 5-7. Bahkan, menempatkan data terlebih dahulu ke dalam data warehouse bahkan mungkin tampak upaya siasia. Namun, ada alasan yang sangat baik mengapa mengintegrasikan data ke dalam data warehouse adalah langkah pertama dalam menciptakan DBMS multidimensi. Pertimbangkan bahwa, dalam kondisi normal, perusahaan akan ingin membangun DBMS beberapa multidimensi. Keuangan akan ingin DBMS multidimensi, seperti akan akuntansi. Pemasaran, penjualan, dan departemen lain akan ingin DBMS mereka sendiri multidimensi. Karena DBMS beberapa multidimensi akan di korporasi, skenario sebelumnya diperlihatkan pada Gambar 5-6 menjadi jauh lebih kompleks. Pada Gambar 5-8, skenario ini telah diperluas menjadi sebuah skenario yang realistis dimana terdapat beberapa DBMS multidimensi secara langsung dan individual makan dari lingkungan sistem warisan.

(23) Dewi Kartika (0804505059)

Keuangan

Detail saat ini

Aplikasi warisan
Gambar 5-7 Aliran data dari lingkungan aplikasi ke tingkat saat detail ke data mart multidimensi DBMS.

Salah Satu Alasan Utama Mengapa Aplikasi Langsung Atas Pendekatan Multidimensional DBMS tidak bisa dijalankan
Keuangan Pemasaran Sumber Daya Manusia Manajemen laporan Penjualan Produksi Teknik Akunting Manufaktur Aktuarial Pengangga ran
Gambar 5-8 Ada banyak aplikasi, dan ada banyak data mart. Aplikasi interface dibutuhkan pada setiap kejadian. Hasil yang detail dengan melewati tingkat saat ini diatur spider web .

(24) Dewi Kartika (0804505059)

Gambar 5-8 menunjukkan bahwa beberapa multidimensi DBMS diberi peninggalan aplikasi yang sama. jadi masalah dari arsitektur ini adalah sebagai berikut : Dalam ekstraksi memerlukan jumlah pembangunan yang sangat besar. setiap departemen multidimensi DBMS yang berbeda harus

mengembangkan program ekstraksi secara khusus. Biasa terjadi saling tumpang tindih dalam pengolahan ekstrak. jumlah pekerjaan pembangunan yang terbuang sangat besar. Ketika multidimensi DBMS masuk dari data warehouse yang diperlukan, hanya satu set program integrasi dan transformasi. Ketika multidimensi DBMs dimasukkan dari lingkungan sistem peninggalan tidak ada yang terintergrasi. Setiap departemen, multidimensi DBMS memiliki interpretasi sendiri bagaimana aplikasi yang berbeda harus diintegrasikan. kemungkinan besar salah satu cara departemen

mengitegrasikan data tidak dengan mengintegrasikan departemen data yang sama. hasilnya tidak ada sumber data yang terintegrasi. Sebaliknya, ketika data warehouse dibangun ada sumber data yang terintegrasi. Jumlah yang diperlukan dalam pekerjaan pembangunan untuk pemeliharaan sangat besar. Dalam perubahan tunggal sebuah peninggalan program aplikasi tunggal banyak yang terekstraksi. Perubahan harus ditampung dimana terdapat banyak program yang terekstraksi. Dengan data warehouse, meminimalkan pengaruh perubahan karena jumlah program minimal harus ditulis untuk pengelola antar muka antara lingkungan peninggalan dan data warehouse. memerlukan jumlah sumber daya perangkat keras yang besar. Hal yang sama data peninggalan yang berurutan dan berkali-kali menyampaikan setiap proses ekstraksi untuk setiap departemen. dalam kasus data warehouse, data peninggalan yang di refresh dilewatkan sekali pada data warehouse. Kompleksitas memindahkan data langsung dari lingkungan peninggalan ke lingkungan multidimensi DBMS menghalangi manajemen metadata yang
(25) Dewi Kartika (0804505059)

efektif dan kontrol. Dengan data warehouse, langsung mengambil dan mengelola kedua metadata. Kurangnya kecocokan data adalah satu masalah. Ketika perbedaan pendapat ada di antara berbagai departemen, masing-masing memiliki multidimensi DBMS sendiri, tidak ada resolusi yang mudah. Dengan data warehouse, konflik resolusi lebih alami dan mudah Setiap kali lingkungan multidimensi DBMS baru harus dibangun. itu harus dibangun dari lingkungan peninggalan, dan jumlah pekerjaan yang dibutuhkan cukup besar. Ketika landasan data dalam data warehouse, bagaimanapun, membangun suatu lingkungan yang multidimensi baru DBMS cepat dan mudah Ketika organisasi mengambil pendekatan jangka pendek, membenarkan data warehouse sulit dilakukan. Biaya jangka panjang pembangunan lingkungan database multidimensi yang banyak sangatlah tinggi. Ketika organisasi mengambil pandangan jangka panjang dan membangun data warehouse, total biaya jangka panjang dari data warehousing dan data mart menurun dengan tajam.

Beberapa di Media Penyimpanan Data Warehouse Salah satu aspek yang menarik dari sebuah data warehouse adalah lingkungan dual sering dibuat ketika sejumlah besar data yang tersebar di lebih dari satu media penyimpanan. Satu lingkungan pengolahan adalah dimana lingkungan DASD yang online disana pengolahan interaktif dilakukan. Lingkungan pengolahan lainnya sering merupakan toko kaset atau lingkungan massa, yang memiliki fitur dasarnya berbeda. Logikanya, kedua lingkungan bergabung membentuk sebuah data warehouse tunggal. Secara fisik, namun, dua lingkungan yang sangat berbeda. Dalam banyak kasus, teknologi yang mendasari yang mendukung lingkungan DASD bukan teknologi yang sama yang mendukung lingkungan toko massa. Pencampuran teknologi dalam lingkungan data warehouse adalah normal dan alami bila dilakukan dengan cara ini.

(26) Dewi Kartika (0804505059)

Namun, ada cara lain bahwa teknologi dapat dibagi yang tidak normal atau alami. Bisa dibayangkan bahwa lingkungan data warehouse, DASD bagian-dibagi atas lebih dari satu teknologi. Dengan kata lain, bagian dari data warehouse DASD berbasis teknologi berada pada satu vendor dan bagian lain dari data warehouse berada pada teknologi vendor database lain. Jika split adalah disengaja dan bagian dari data warehouse yang lebih besar terdistribusi, seperti split baikbaik saja. Tetapi jika pemecahan terjadi karena alasan politik atau sejarah, pemisahan bagian dari data warehouse ke vendor platform yang berbeda tidak dianjurkan

Peran Metadata dalam Lingkungan Data Warehouse Peranan metadata dalam lingkungan data warehouse sangat berbeda dari peran metadata dalam lingkungan operasional. Dalam lingkungan operasional, metadata diperlakukan hampir sebagai tolak ukur dan diturunkan ke tingkat yang sama penting sebagai dokumentasi. Metadata dalam lingkungan data warehouse mengambil peran yang disempurnakan Pentingnya peran dalam lingkungan data warehouse diilustrasikan pada Gambar 5-9. Dua komunitas yang berbeda yang dilayani oleh metadata metadata operasional dan data warehouse. Operasional metadata digunakan oleh profesional IT. Selama bertahun-tahun, TI profesional telah menggunakan metadata santai. TI profesional adalah komputer-melek dan mampu menemukan jalan nya sekitar sistem. Data warehouse, meskipun, melayani masyarakat analis DSS, dan analis DSS biasanya seorang profesional, pertama dan terutama. Biasanya tidak ada yang tinggi melek komputer dalam komunitas analis DSS. Analis DSS membutuhkan bantuan sebanyak mungkin untuk menggunakan lingkungan data warehouse secara efektif, dan metadata melayani tujuan ini cukup baik. Selain itu, metadata adalah hal pertama analis DSS melihat dalam merencanakan cara melakukan pemrosesan analitis informasi. Karena perbedaan dalam melayani masyarakat dan karena peran yang metadata bermain di fungsi pekerjaan seharihari, metadata jauh lebih penting dalam lingkungan data warehouse daripada yang pernah berada di lingkungan operasional
(27) Dewi Kartika (0804505059)

Ada alasan lain mengapa metadata data warehouse adalah penting. Salah satu alasan kekhawatiran seperti mengelola pemetaan antara lingkungan operasional dan lingkungan data warehouse. Gambar 5-10 menggambarkan hal ini.
Operasional

pilihan

wajib

IT profesional

Analis DSS

Gambar 5-9. IT profesional menggunakan metadata secara kasual, analis DSS menggunakan metadata secara teratur dan sebagai langkah pertama dari analisis

Operasional

pemetaan

Gambar 5-10 Pemetaan antara lingkungan operasional dan lingkungan data warehouse merupakan alasan utama untuk kebutuhan metadata, tanpa pemetaan, pengendalian antarmuka sangat sulit

Data mengalami transformasi penting karena berpindah dari lingkungan operasional ke lingkungan data warehouse. Konversi, penyaringan,

summarization, dan perubahan struktural semua terjadi. Ada kebutuhan untuk melacak transformasi, dan metadata di data warehouse adalah tempat yang ideal untuk melakukannya. Pentingnya menyimpan catatan secara hati-hati dari transformasi disorot oleh peristiwa yang terjadi ketika seorang manajer perlu melacak data dari data warehouse kembali ke sumber operasional (yang paling
(28) Dewi Kartika (0804505059)

dalam

proses

drill-down).

Dalam

hal

ini,

catatan

dari

transformasi

menggambarkan dengan tepat bagaimana untuk mendapatkan dari data warehouse ke sumber data operasional. Namun alasan lain yang penting untuk pengelolaan yang cermat metadata dalam lingkungan data warehouse ditunjukkan pada Gambar 5-11. Seperti disebutkan, data dalam data warehouse ada untuk waktu yang panjang span-dari 5 sampai 10 tahun. Selama rentang waktu 5-ke-10 tahun, adalah benar-benar normal untuk data warehouse untuk mengubah strukturnya. Melacak perubahan struktur data dari waktu ke waktu adalah tugas alami untuk metadata dalam data warehouse.
Operasional

struktur konten

struktur konten

Gambar 5-11 Data warehouse berisi data selama periode waktu yang lama dan harus mengelola beberapa struktur atau definisi data. Lingkungan operasional mengasumsikan bahwa hanya ada definisi tunggal yang benar data pada satu waktu.

Kontras gagasan bahwa akan ada banyak struktur data dari waktu ke waktu dalam suasana data warehouse dengan metadata yang ditemukan di lingkungan operasional. Dalam lingkungan operasional, diasumsikan bahwa pada setiap saat satu, ada satu dan hanya satu definisi yang benar dari struktur data.

(29) Dewi Kartika (0804505059)

Konteks dan Konten Di masa lalu, klasik sistem informasi operasional telah memusatkan perhatian mereka pada data yang sangat saat korporasi. Dalam dunia operasional, penekanannya adalah pada berapa banyak saldo rekening sekarang, berapa banyak dalam persediaan sekarang, atau apa status pengiriman adalah sekarang. Tentu saja, setiap organisasi perlu mengetahui informasi tentang saat ini. Tapi ada nilai riil dalam melihat informasi dari waktu ke waktu, seperti yang mungkin dengan data pergudangan. Misalnya, tren menjadi jelas bahwa hanya tidak diamati ketika melihat informasi terkini. Salah satu karakteristik mendefinisikan paling penting dari data warehouse adalah kemampuan untuk menyimpan, mengelola, dan mengakses data dari waktu ke waktu. Dengan spektrum panjang waktu yang merupakan bagian dari sebuah data warehouse berasal dimensi baru data-konteks. Untuk menjelaskan pentingnya informasi kontekstual, contoh adalah dalam rangka. Misalkan manajer meminta laporan dari data warehouse untuk tahun 1995. Laporan ini dihasilkan, dan manajer senang. Bahkan, manajer sangat senang bahwa laporan serupa untuk tahun 1990 adalah diminta. Karena data warehouse membawa informasi sejarah, permintaan tersebut tidak sulit untuk

mengakomodasi. Laporan tahun 1990 yang dihasilkan. Sekarang manajer memegang kedua laporan-satu untuk 1995 dan satu untuk 1990-di tangannya dan menyatakan bahwa laporan bencana. Arsitek data warehouse meneliti laporan dan melihat bahwa laporan keuangan untuk tahun 1995 menunjukkan $ 50 juta dalam pendapatan, sementara laporan tahun 1990 menunjukkan nilai sebesar $ 10.000 untuk kategori yang sama. Manajer menyatakan bahwa tidak ada cara bahwa setiap account atau kategori bisa mengalami peningkatan nilai yang banyak dalam waktu lima tahun. Sebelum menyerah, arsitek data warehouse menunjukkan kepada manajer bahwa ada faktor-faktor relevan lain yang tidak muncul dalam laporan. Pada tahun 1990, ada sumber data yang berbeda dibandingkan pada tahun 1995. Pada tahun 1990, definisi sebuah produk tidak sama dengan tahun 1995. Pada tahun 1990, terdapat wilayah pemasaran yang berbeda dibandingkan pada tahun 1995.
(30) Dewi Kartika (0804505059)

Pada tahun 1990, ada perhitungan yang berbeda, seperti untuk biaya depresiasi, dibandingkan pada tahun 1995. Selain itu, ada banyak pertimbangan eksternal yang berbeda, seperti perbedaan dalam inflasi, perpajakan, prakiraan ekonomi, dan sebagainya. Setelah konteks laporan dijelaskan kepada manajer, isi sekarang tampaknya cukup dapat diterima. Dalam contoh sederhana namun umum di mana isi data berdiri telanjang dari waktu ke waktu, isinya sendiri cukup tak dapat dijelaskan dan luar biasa. Ketika konteks yang ditambahkan pada isi data dari waktu ke waktu, isi dan konteks menjadi sangat mencerahkan. Untuk menafsirkan dan memahami informasi dari waktu ke waktu, dimensi baru seluruh konteks diperlukan. Sementara isi dari informasi tetap penting, perbandingan dan pemahaman informasi lebih mandat waktu itu konteks menjadi mitra sama dengan konten. Dan pada tahun terakhir, konteks telah menjadi dimensi, belum ditemukan informasi yang belum dijelajahi

Tiga Jenis Informasi Kontekstual Tiga tingkat informasi kontekstual harus dikelola informasi kontekstual Simple informasi kontekstual Kompleks informasi kontekstual Eksternal

Simple informasi kontekstual berkaitan dengan struktur dasar data itu sendiri, dan termasuk hal-hal seperti ini : Struktur data Pengkodean data Penamaan konvensi digunakan untuk data Metrik yang menggambarkan data, seperti: Berapa banyak data yang ada Seberapa cepat data tumbuh Apakah sektor dari data tumbuh

(31) Dewi Kartika (0804505059)

Bagaimana data tersebut digunakan

Simple informasi kontekstual telah dikelola di masa lalu oleh kamus, direktori, memonitor sistem, dan sebagainya. Informasi kontekstual Kompleks menggambarkan data yang sama sebagai informasi kontekstual sederhana, tetapi dari perspektif yang berbeda. Jenis informasi alamat aspek data seperti ini : Definisi Produk Pemasaran wilayah Harga Pengemasan Struktur Organisasi Distribusi

Informasi kontekstual kompleks adalah sedikit dari beberapa yang paling berguna dan, pada saat yang sama, beberapa informasi yang paling sulit yaitu merekam. Hal tersebut sulit dipahami karena diambil untuk dipakai sebagai dasar. Hal tersebut begitu mendasar bahwa tidak ada suatu pikiran untuk mendefinisikan apa itu atau bagaimana perubahan dari waktu ke waktu. Namun, dalam jangka panjang, informasi kontekstual kompleks memainkan peran yang sangat penting dalam memahami dan menafsirkan informasi dari waktu ke waktu. Informasi kontekstual eksternal adalah informasi di luar perusahaan yang tetap memainkan peranan penting dalam memahami informasi dari waktu ke waktu. Beberapa contoh informasi kontekstual eksternal meliputi : Prakiraan ekonomi Inflasi Keuangan Perpajakan Pertumbuhan ekonomi Informasi politik Informasi persaingan
(32) Dewi Kartika (0804505059)

Kemajuan teknologi Perpindahan konsumen

Informasi kontekstual eksternal tidak mengatakan langsung tentang perusahaan, tetapi mengatakan segala sesuatu tentang alam semesta yang mana perusahaan harus berjalan dan bersaing. Informasi kontekstual eksternal sangat menarik baik dalam hal yang segera manifestasi dan perubahan dari waktu ke waktu. Seperti informasi kontekstual kompleks, ada upaya terorganisir sangat sedikit untuk merekam dan mengukur informasi tersebut. Hal tersebut begitu besar dan begitu jelas bahwa hal itu diambil untuk diberikan, dan itu adalah dengan cepat dilupakan dan sulit untuk merekonstruksi bila diperlukan.

Merekam dan Mengelola Informasi Kontekstual Jenis kompleks kontekstual dan eksternal suatu informasi sulit untuk direkam dan diukur karena mereka sangat tidak terstruktur. Dibandingkan dengan informasi kontekstual sederhana, jenis kontekstual eksternal dan kompleks sutu informasi tidak terbentuk. Faktor lain yang meringankan adalah bahwa perubahan informasi kontekstual cepat. Hal tersebut terus berubah secara konstan dan keadaan tidak terbentuknya suatu informasi kontekstual eksternal dan kompleks yang membuat jenis informasi yang menyebabkan begitu sulit untuk melakukan sistematisasi.

Melihat Masa Lalu Anda bisa membantah bahwa profesi sistem informasi memiliki informasi kontekstual di masa lalu. Kamus, repositori, direktori, dan perpustakaan adalah semua upaya pengelolaan informasi kontekstual sederhana. Untuk semua upaya, ada beberapa keterbatasan penting dalam upaya yang cepat dalam efektivitas mereka. Beberapa kekurangan tersebut adalah sebagai berikut: Upaya mengelola informasi yang ditujukan pada pengembang sistem informasi, bukan pengguna akhir. Dengan demikian, ada jarak pandang

(33) Dewi Kartika (0804505059)

sangat sedikit kepada pengguna akhir. Akibatnya, pengguna akhir memiliki antusiasme sedikit atau dukungan untuk sesuatu yang tidak jelas. Upaya manajemen kontekstual adalah pasif. Suatu pengembang bisa memilih untuk menggunakan atau tidak menggunakan fasilitas informasi manajemen kontekstual. Banyak memilih untuk bekerja di sekitar fasilitas tersebut. Upaya pada manajemen informasi kontekstual dalam banyak kasus dihapus dari upaya pembangunan. Dalam kasus demi kasus, aplikasi pembangunan dilakukan pada tahun 1965, dan pembukuan data telah dilakukan pada 1985. Pada tahun 1985, tidak ada pembangunan yang lebih. Selanjutnya, orangorang yang dapat membantu dalam mengorganisir dan menemukan informasi kontekstual sudah lama pindah ke pekerjaan lain atau perusahaan. Upaya untuk mengelola informasi kontekstual terbatas hanya informasi kontekstual sederhana. Tidak ada upaya yang dilakukan untuk merekam atau mengelola informasieksternal atau kompleks kontekstual.

Me-refresh Data Warehouse Setelah data warehouse dibangun, perhatian bergeser dari pembangunan data warehouse untuk operasi sehari-hari. Tidak mustahil, penemuan yang dibuat bahwa biaya operasi dan pemeliharaan data warehouse tinggi, dan volume data di warehouse juga betambah lebih cepat dari yang diperkirakan. Kapasitas dan penggunaan tak terduga dari data warehouse dengan pengguna akhir analis DSS menyebabkan persaingan pada server mengelola warehouse. Belum biaya yang tak terduga tyang terkait dengan pengoperasian data warehouse. Apa yang dimulai sebagai kejadian yang terkait dengan perubahan sangat signifikan. Langkah pertama sebagian besar organisasi melakukan refresh data warehouse adalah untuk membaca database yang terdahulu. Untuk beberapa jenis pengolahan dan dalam kondisi tertentu, langsung membaca file yang terdahulu adalah satu-satunya cara refresh dapat dicapai, misalnya, ketika data harus dibaca dari sumber yang berbeda untuk membentuk sebuah unit tunggal yang masuk ke data warehouse. Selain itu, ketika transaksi telah menyebabkan pembaruan secara
(34) Dewi Kartika (0804505059)

simultan file terdahulu, membaca langsung dari data terdahulu mungkin satusatunya cara untuk me-refresh warehouse. Sebagai strategi umum, bagaimanapun, diulang dan langsung membaca dari data warisan sangat mahal. Biaya database warisan langsung dapat digambarkan seperti gunung dalam dua cara. Pertama, warisan DBMS harus online dan aktif selama proses membaca. Jendela peluang untuk pemrosesan sekuensial panjang untuk lingkungan warisan selalu terbatas. Pembukaan windows untuk refresh data warehouse tidak pernah diterima. Kedua, data warisan yang sama rugi melewati berkali-kali. Me-refresh harus diolah 100 persen dari sebuah file warisan ketika hanya 1 atau 2 persen dari berkas warisan benar-benar diperlukan. Hal tersebut sampah kotor sutu sumber daya terjadi setiap kali proses refresh dilakukan. Karena inefisiensi tersebut, berulang kali dan langsung membaca data warisan untuk refresh adalah strategi yang memiliki kegunaan terbatas dan diterapkan. Pendekatan yang lebih menarik adalah untuk menjebak data dalam lingkungan warisan seperti sedang diperbarui. Dengan perangkap data, penelusuran lingkungan data warisan adalah tidak perlu ketika data warehouse harus di-refresh. Selain itu, karena data dapat terambil karena sedang diperbarui, tidak ada perlu memiliki warisan DBMS online untuk pencarian yang lama. Sebaliknya, data yang terjebak dapat diproses secara offline. Dua teknik dasar yang digunakan untuk data perangkap sebagai pembaruan yang terjadi di warisan lingkungan operasional. Salah satu teknik yang disebut replikasi data; tersebut lainnya disebut perubahan data capture, di mana perubahan yang telah terjadi adalah menarik diri dari kaset log atau jurnal diciptakan selama update online. Masing-masing tindakan tersebut memiliki kelebihan dan kontra. Replikasi mensyaratkan bahwa data yang akan terjebak diidentifikasi sebelum update. Kemudian, sebagai pembaruan terjadi, data tersebut terjebak. Pemicu diatur yang menyebabkan kegiatan pembaruan yang akan diambil. Salah satu kelebihan replikasi adalah bahwa proses perekaman dapat secara selektif
(35) Dewi Kartika (0804505059)

dikendalikan. Hanya data yang perlu akan direkam, pada kenyataannya, ditangkap. Keuntungan lain dari replikasi adalah bahwa format data "bersih" dan ditemukan dengan baik. Isi dan struktur data yang telah terperangkap dengan baik didokumentasikan dan mudah dimengerti ke pemrograman. Kelemahan replikasi adalah bahwa saya ekstra I/O terjadi sebagai akibat dari perangkap data dan, karena tidak stabil, sistem membutuhkan perhatian konstan dengan parameter dan pemicu yang perangkap kontrol. Jumlah I /O yang dibutuhkan biasanya trivial. Selain itu, I / O yang dikonsumsi diambil dari performa tinggi, pada saat itu, ketika sistem paling tidak mampu itu. Pendekatan kedua untuk refresh secara efisien yaitu changed data capture (CDC). Salah satu pendekatan untuk CDC adalah dengan menggunakan pita log untuk merekam dan mengidentifikasi perubahan yang telah terjadi sepanjang hari secara online. Dalam pendekatan tersebut, log atau jurnal tape dibaca. membaca log tape ada hal kecil, namun. Banyak hambatan di jalan, termasuk yang berikut: Pita log berisi banyak data asing. Format rekaman log sering misterius. Pita log berisi catatan membentang. Pita log sering berisi alamat bukan nilai data. Pita log mencerminkan keistimewaan dari DBMS dan sangat bervariasi dari satu DBMS yang lain. Hambatan utama dalam CDC, kemudian, dibaca dan dimengerti dari pita log. Tapi sekali kendala yang berlalu, ada beberapa yang sangat menarik manfaat untuk menggunakan log untuk refresh data warehouse. Keuntungan pertama adalah efisiensi. Tidak seperti pengolahan replikasi, log tidak memerlukan pengolahan tape ekstra I / O. Pita log akan ditulis terlepas dari apakah itu akan digunakan untuk refresh data warehouse. Oleh karena itu, tidak incremental I / O yang diperlukan. Keuntungan kedua adalah bahwa pita log merekam semua proses update. Ada tidak perlu kembali dan melakukan ulang parameter ketika perubahan dibuat untuk data warehouse atau lingkungan sistem warisan. Pita log sebagai dasar dan stabil yang Anda bisa dapatkan.
(36) Dewi Kartika (0804505059)

Ada pendekatan kedua untuk CDC: mengangkat data yang diubah dari DBMS sebagai perubahan terjadi. Dalam pendekatan tersebut, perubahan itu tercermin segera. Jadi, membaca tape log menjadi tidak perlu, dan ada penghematan waktu dari saat perubahan terjadi ketika itu tercermin dalam warehouse. Namun, karena lebih banyak sumber daya online yang diperlukan (termasuk perangkat lunak sistem sensitif terhadap perubahan), ada dampak kinerja. Namun, tersebut buffer langsung pendekatan dapat menangani sejumlah besar pengolahan pada

kecepatan yang sangat tinggi. Kemajuan yang dijelaskan di tersebut meniru pola pikir organisasi karena mereka jatuh tempo dalam pemahaman mereka dan operasi dari data warehouse. Pertama, membaca database organisasi warisan langsung untuk me-refresh data warehouse. Kemudian mencoba replikasi. Akhirnya, ekonomi dan efisiensi operasi memimpinnya untuk CDC sebagai cara utama untuk refresh data warehouse. Sepanjang jalan, itu ditemukan bahwa beberapa file membutuhkan membaca langsung. file lainnya karya terbaik dengan replikasi. Namun untuk industri-kekuatan, penuh membosankan, data tujuan umum refresh warehouse, CDC tenun sebagai pendekatan akhir jangka panjang untuk refresh data warehouse.

Pengujian Di lingkungan operasional klasik, dua lingkungan paralel dibuat tinggisatu untuk produksi dan satu untuk pengujian. Lingkungan produksi adalah di mana pengolahan terjadi. Lingkungan pengujian adalah dimana programmer menguji program-program baru dan mengubah program yang ada. Idenya adalah bahwa ketika programmer memiliki kesempatan untuk melihat apakah kode yang mereka telah menciptakan akan bekerja sebelum diizinkan masuk ke lingkungan online hidup.

Hal tersebut sangat luar biasa untuk menemukan lingkungan pengujian serupa di dunia terhadap data warehouse, karena alasan berikut :

(37) Dewi Kartika (0804505059)

Data warehouse yang begitu besar bahwa sebuah perusahaan memiliki waktu sulit membenarkan salah satu dari mereka, apalagi dua dari mereka. Sifat siklus hidup pembangunan data warehouse iteratif. Untuk sebagian besar, program dijalankan dengan cara heuristik, tidak dalam secara berulang. Jika programmer mendapat sesuatu yang salah dalam lingkungan data warehouse (dan programer melakukan), lingkungan sudah diatur sehingga programmer hanya menjalankan ulang itu.

Lingkungan data warehouse, kemudian, adalah dasarnya berbeda dari produksi klasik lingkungan karena, dalam keadaan paling, tes lingkungan sama sekali tidak diperlukan.

Ringkasan Beberapa fitur teknologi yang diperlukan untuk pengolahan data warehouse memuaskan. Hal tersebut termasuk bahasa antarmuka yang kuat, dukungan dari senyawa kunci dan data variabel-panjang, dan kemampuan untuk melakukan hal berikut: Mengelola data dalam jumlah besar Mengelola data pada media yang beragam Indeks dan monitor data mudah Interface dengan sejumlah teknologi yang luas Biarkan programmer untuk menempatkan data secara langsung pada perangkat fisik Menyimpan dan akses data secara paralel Memiliki kontrol metadata dari warehouse Efisien beban warehouse Efisien menggunakan indeks Dukungan kunci Selektif mematikan manajer kunci Cepat memulihkan dari penyimpanan data
(38) Dewi Kartika (0804505059)

Selain itu, arsitek data harus mengenali perbedaan antara transaksi berbasis DBMS dan data warehouse berbasis DBMS. Sebuah transaksi berbasis DBMS berfokus pada pelaksanaan transaksi yang efisien dan memperbarui. DBMS berbasis data warehouse berfokus pada proses query yang efisien dan penanganan beban kerja yang beban dan akses. Teknologi OLAP multidimensional cocok untuk pengolahan data mart dan tidak pengolahan data warehouse. Ketika pendekatan data mart digunakan sebagai basis data ware house, banyak masalah menjadi jelas :

Jumlah program ekstrak tumbuh besar. Setiap database multidimensi baru harus kembali ke lingkungan warisan operasional data sendiri. Tidak ada dasar untuk rekonsiliasi perbedaan dalam analisis. Sejumlah besar data yang berlebihan antara berbagai multidimensi lingkungan DBMS ada.

Akhirnya, metadata dalam lingkungan data warehouse memegang peranan yang sangat berbeda peranan dari metadata di lingkungan warisan operasional.

(39) Dewi Kartika (0804505059)

Anda mungkin juga menyukai