Proses desain database dimulai dengan pandangan perusahaan dari bisnis dan bidang studi
tertentu yang akan dilaksanakan. Pekerjaan yang Anda lakukan pada model bisnis dan logis
menetapkan stage untuk tahap berikutnya dalam proses desain: pengembangan model dimensi
Meskipun entitas-hubungan diagram secara tradisional dikaitkan dengan model yang sangat
dinormalisasi seperti aplikasi OLTP, teknik ini masih berguna untuk desain data warehouse
dalam bentuk pemodelan dimensi. Dalam pemodelan dimensi, bukan mencari untuk menemukan
unit atom informasi (seperti entitas dan atribut) dan semua hubungan antara mereka, Anda
mengidentifikasi informasi yang dimiliki fact tabel (tabel fakta) sentral dan informasi yang
dimiliki tabel dimensi yang terkait. Hierarki potensi dimensi juga diidentifikasi. Hasil dari model
dimensi biasanya model star (bintang) atau snowflake. Desain dimensi adalah dasar dari desain
database untuk data warehouse.
Catatan: Dalam kursus ini, Anda erat mengamati model dimensi star mengambil contoh dari
skema SH
Catatan: Hari ini, sebagian besar skema data warehouse tidak skema bintang atau 3NF skema,
tapi bukannya berbagi karakteristik dari kedua skema; ini disebut model skema sebagai hybrid.
Struktur normalisasi menyimpan jumlah terbesar data dalam jumlah sedikit ruang. Hubungan
entitas pemodelan (ERM) juga berusaha untuk menghilangkan redundansi data. Hal ini sangat
bermanfaat untuk sistem OLTP.
Pemodelan dimensi (DM) adalah desain yang menyajikan data secara intuitif dan memungkinkan
untuk akses kinerja tinggi. Untuk dua alasan, pemodelan dimensi, seperti bintang dan kepingan
salju skema, telah menjadi desain standar untuk data mart dan gudang data.
Dapat memberikan respon yang cepat untuk query dengan optimasi dan pengurangan
jumlah fisik bergabung diperlukan antara fakta dan tabel dimensi.
Berisi metadata sederhana.
Didukung oleh banyak alat front-end
Lambat untuk membangun karena tingkat denormalization
Skema star menyediakan kinerja query yang lebih baik pada biaya bongkar yang lebih kompleks
dan transformasi.
Memberikan analisis cepat di dimensi yang berbeda untuk drilling down, rotasi, dan
perhitungan analitis untuk kubus multidimensi.
Menciptakan desain database yang meningkatkan kinerja
Memungkinkan pengoptimalan database untuk bekerja dengan desain database yang
lebih sederhana untuk menghasilkan rencana eksekusi yang lebih baik.
Parallels bagaimana pengguna akhir biasanya berpikir dan menggunakan data
Menyediakan desain extensible yang mendukung perubahan kebutuhan bisnis
Memperluas pilihan untuk alat data-akses karena beberapa produk memerlukan
desain skema bintang
Catatan:
-
Definisi antara model star dan snowflake bervariasi antara praktisi. Disini,
diasumsikan bahwa model start berisi fact table (table fakta). Sebagai contoh adalah
sales fact dan Product Dimension. Snowflake, disisi lain mempunyai beberapa tingkat
dimensi yaitu suatu hirarki (sebagai contoh, Sales Fact, Product Dimension, and
Product Group).
Slide berisi daftar keuntungan tingkat tinggi menggunakan model dimensi star.
Keuntungan yang lebih spesifik dan karakteristik dari model bintang tercantum
kemudian dalam pelajaran ini.
Hasil penurunan kinerja karena jumlah yang lebih besar dari tabel bergabung
Menyediakan struktur yang lebih mudah untuk mengubah persyaratan perubahan
Apakah lebih cepat pada loading data ke dalam tabel dinormalisasi yang lebih kecil,
dibandingkan dengan loading ke skema bintang tabel denormalized lebih besar
Memungkinkan menggunakan tabel sejarah untuk mengubah data, bukan bidang
tingkat (indikator).
Memiliki struktur metadata kompleks yang lebih sulit untuk alat pengguna akhir
untuk mendukung.
Selain skema star dan snowflake, terdapat model lain yang dapat dipertimbangkan
Konstelasi: Sebuah model konstelasi (juga disebut model galaksi) terdiri dari serangkaian model
star. Sebuah konstelasi adalah fitur desain yang berguna jika Anda memiliki primary fact table
dan ringkasan tabel dari dimensi yang berbeda. Hal ini dapat menyederhanakan desain dengan
memungkinkan Anda untuk berbagi dimensi di antara banyak fact table (tabel fakta).
tidak ada atribut key non primer direplikasi dalam tabel lainnya. Bila dibandingkan dengan
skema star, di skema 3NF biasanya memiliki jumlah yang lebih besar dari tabel (dengan join
table) karena proses normalisasi ini. Skema 3NF biasanya dipilih untuk kinerja beban yang lebih
baik.
Beberapa data warehouse menggunakan desain skema 3NF. Seperti desain skema lain, data
mereka juga dapat langsung diakses dengan menggunakan kode SQL. Mereka mungkin memiliki
penyimpanan data yang lebih efisien dengan harga kinerja query yang lambat disebabkan join
table yang luas. Beberapa perusahaan besar membangun sebuah 3NF central data warehouse
feeding-bergantung star data marts untuk lini bisnis yang spesifik. Ketika sebuah data warehouse
mempunya table yang lebih besar dan fact tables, mereka harus dipartisi, dengan menggunakan
komposit partisi- misalnya, range-hash:
-
Selain itu, parallel execution harus digunakan sehingga bukan satu proses melakukan semua
pekerjaan, banyak proses bekerja secara bersamaan pada unit yang lebih kecil. Parallel degree
seharusnya menjadi power of 2.
Catatan: Operasi partitioning dan parallel tercakup dalam pelajaran berjudul Database Sizing,
Storage, Performance, and Security Considerations.
------translate lg
Seringkali, ukuran yang mungkin diperlukan di gudang, tetapi mungkin tidak tampak aditif. Ini
dikenal sebagai fakta aditif setengah. Persediaan dan suhu kamar adalah dua pengukuran
numerik tersebut. Ini tidak masuk akal untuk menambahkan ini pengukuran numerik dari waktu
ke waktu, tetapi mereka dapat dikumpulkan dengan menggunakan fungsi SQL selain sum
(misalnya, rata-rata). Meskipun skema bintang biasanya berisi satu tabel fakta, skema lain dapat
berisi beberapa tabel fakta.
Apakah Tabel Fakta Factless? Sebuah tabel fakta factless adalah tabel fakta yang tidak
mengandung nilai aditif numerik, tetapi terdiri eksklusif dari kunci. Ada dua jenis factless tabel
fakta: event-pelacakan dan cakupan. Kegiatan-pelacakan tabel record dan track peristiwa yang
telah terjadi, seperti kehadiran kelas mahasiswa ', sedangkan cakupan tabel factless mendukung
model dimensi ketika tabel fakta utama adalah jarang (misalnya, promosi penjualan meja
factless). Dalam kasus terakhir, peristiwa tidak terjadi. Meskipun data fakta promosi dapat
disimpan dalam tabel fakta itu sendiri, menciptakan cakupan tabel fakta factless jauh lebih
efisien karena kompleks banyak-ke-banyak hubungan yang terbentuk melalui dimensi untuk
promosi memerlukan sejumlah besar rinci dengan nilai nol.
Sumber daya manusia: Studi komposisi angkatan kerja sering dilakukan untuk tujuan
pelaporan dan perencanaan. Analisis karyawan dengan karakteristik yang berbeda
dapat dilakukan dengan menggunakan star ilustrasi. Sebagian besar informasi yang
dihasilkan dari jenis meja adalah serangkaian penting. Dalam contoh ilustrasi,
memilih COUNT (EMP FK) memberikan jumlah karyawan, sedangkan memilih
COUNT (SAL FK) memberikan jumlah karyawan dengan gaji kelas tertentu.
Toko ritel: Promosi khas dalam lingkungan ritel. Rantai ritel kelas atas ingin
membandingkan pelanggan yang tidak menanggapi langsung promosi mail ke orangorang yang melakukan pembelian. Sebuah tabel fakta factless mendukung hubungan
antara dimensi pelanggan, produk, promosi, dan waktu.
Mahasiswa yang hadir: tabel fakta Factless dapat digunakan untuk merekam
kehadiran siswa kelas di sebuah perguruan tinggi atau sekolah sistem. Tidak ada fakta
yang terkait dengan ini, itu adalah masalah apakah siswa menghadiri
dasar. Demikian pula, Gaji dan Komisi adalah langkah-langkah dasar, sedangkan kompensasi
bulanan karyawan adalah ukuran berasal.
Dalam sistem OLTP, langkah-langkah yang berasal tidak disimpan, tetapi berasal data dalam
gudang sangat penting karena dukungan yang melekat untuk query. Ketika Anda simpan berasal
data dalam database, nilai-nilai yang segera tersedia untuk analisis melalui query.
Slide show menunjukkan terjemahan dari beberapa bisnis ukuran model bisnis ke dalam fact
tabel Penjualan. Selain itu, setiap langkah dalam tabel fakta isidentified baik sebagai dasar atau
berasal contoh ukuran-untuk, Profit = Sales_amount -Biaya. Nilai berasal dapat dibuat selama
proses ekstraksi atau transformasi.
Mengikuti proses untuk mengidentifikasi base dan derived measure
-
Mengidentifikasi calon facts: Identifikasi semua basis mungkin dan fakta yang
diperoleh. Mengumpulkan semua laporan yang disampaikan dalam proses
wawancara. Anda dapat mengkompilasi sebuah spreadsheet berisi semua fakta yang
terdaftar di laporan atau diminta dalam wawancara. Menangkap nama sebenarnya, di
mana ia diidentifikasi (nama laporan atau wawancara)
Menghapus duplikat facts: Menghilangkan fakta-fakta duplikat. Anda dapat
kelompok fakta duplikat bersama-sama dan kemudian bekerja dengan pengguna
bisnis untuk menghapus duplikat. Anda juga mengidentifikasi dasar dan berasal fakta
Menemukan dan mendokumentasikan perhitungan yang mendasari: Setelah
mengidentifikasi fakta-fakta yang diperoleh, mendokumentasikan rumus yang akan
digunakan dalam perhitungan.
Referensi silang base fact: Anda harus memastikan bahwa semua fakta dasar yang
diperlukan dalam perhitungan termasuk
Memperoleh persetujuan akhir derived fact: Anda harus memastikan bahwa pengguna
bisnis dan manajemen menyetujui daftar fakta-fakta yang diperoleh yang telah
diidentifikasi.
dan tabungan, Anda dapat menambahkan bersama-sama saldo setiap akun pada akhir
hari dan mendapatkan keseimbangan gabungan bermakna. Anda juga dapat
menambahkan saldo rekening bersama di di cabang yang sama untuk gambar dari
total simpanan di setiap lokasi; Namun, Anda tidak dapat menambahkan bersamasama saldo rekening untuk satu pelanggan selama beberapa hari.
Non Aditif: tindakan non Additive tidak dapat secara logis ditambahkan antara
catatan. Data non Aditif dapat numerik dan biasanya dikombinasikan dalam
perhitungan dengan fakta lain (untuk membuatnya aditif) sebelum ditambahkan di
catatan. Margin persen adalah contoh ukuran non aditif. Langkah-langkah non Aditif
juga ditemukan di tabel fakta factless
Dimensi Tabel Karakteristik Dimensi adalah deskripsi tekstual dari atribut bisnis. Tabel dimensi
biasanya lebih kecil dari tabel fakta dan data perubahan lebih jarang. Tabel dimensi memberikan
perspektif mengenai mengapa dan bagaimana transaksi bisnis dan elemen. Meskipun dimensi
umumnya berisi data yang relatif statis, dimensi pelanggan lebih sering diperbarui.
Dimensi Apakah penting untuk Analisis Kunci model dimensi yang kuat terletak pada kekayaan
dimensi atribut karena mereka menentukan bagaimana fakta-fakta dapat dianalisis. Dimensi
dapat dianggap sebagai titik masuk ke "ruang kenyataan." Selalu nama atribut dalam kosakata
pengguna. Dengan cara itu, dimensi akan mendokumentasikan sendiri dan kekuatan ekspresif
akan menjadi jelas
Daftar atribut untuk dimensi Produk bisnis yang terungkap selama fase-model bisnis
Semua informasi sumber data terkait produk-dikumpulkan dan digunakan untuk
membantu menerjemahkan kebutuhan bisnis ke dalam dimensi atribut tabel dimensi
Dalam contoh ini, "ID" bidang (kode yang secara unik mengidentifikasi atribut
produk) dan bidang deskripsi yang tersedia dalam data sumber, dan harus dimasukkan
dalam gudang sehingga pengguna familiar dengan sistem produksi bisa
menyeberang-referensi bidang ID sistem sumber dengan elemen data warehouse
dapat berubah dalam Countries. Dimensi ini disebut sebagai perlahan-lahan berubah dimensi
(SCDs). Data warehouse harus dapat menyimpan baik data saat ini dan sejarah yang sangat
efektif untuk SCDs. Ada tiga cara untuk mengelola perlahan berubah dimensi.
-
Menimpa atribut dimensi yang ada dengan perubahan. Ini tidak mempengaruhi
tombol juga tidak memasukkan catatan
Menambahkan catatan baru setiap kali perubahan data dimensi. Ini menjaga sejarah
dari rekor lama dan akurat partisi sejarah di waktu; Namun, peningkatan yang
signifikan untuk ukuran database yang dikeluarkan. Periksa butir data sangat erat
ketika pertama kali merancang data warehouse; jika tidak, partisi data tidak akan
terjadi dengan benar. Perhatian harus digunakan ketika menerapkan perubahan ini.
Jika ID digunakan sebagai kunci utama, pelanggaran integritas potensial bisa terjadi.
Menjaga informasi record saat ini, tetapi mencakup beberapa bidang kritis ketika
awalnya merancang data warehouse. Bidang ini menyimpan informasi sebelumnya
dan saat ini, dan harus mencakup atribut waktu untuk menandakan kapan perubahan
terjadi sehingga memungkinkan sejarah perubahan harus dipertahankan. Ini harus
jelas bahwa metode ini meningkatkan kompleksitas dan ukuran komponen meja.
Catatan: Oracle Warehouse Builder mendukung semua tiga pilihan untuk mengelola
SCDs.