NIM 1957201058 PRODI : SISTEM INFORMASI MAKUL : SISTEM DATA WAREHOUSE SEMESTER 5
PENILAIAN TENGAH SEMESTER (PTS)
1. Jelaskan Pengertian Data Warehouse Menurut W.H. Inmon dan Richard DH !
Jawaban : Data warehouse adalah kumpulan data yang memiliki sifat subjek berorientasi, terpadu, waktu-varian, dan tetap pada pengumpulan data untuk mendukung proses pengambilan keputusan manajemen.
2. Jelaskan Karekteristik Data Warehouse !
Jawaban : a) Berorientasi Subjek. Data warehouse terorganisasi di seputar subjek kunci (atau entitas-entitas peringkat tinggi) dalam perusahaan, Data warehouse adalah tempat penyimpanan berdasakan subyek bukan berdasakan aplikasi. Subyek merupakan bagian dari suatu perusahaan. Contoh subyek pada perusahaan manufaktur adalah penjualan, konsumen, inventori, daln lain sebagainya. b) Terintegrasi Data yang tersimpan dalam data warehouse didefinisikan menggunakan konversi penamaan yang konsisten, format-format, struktur terkodekan, serta karakteristik- karakteristik yang berhubungan, Sumber data yang ada dalam data warehouse tidak hanya berasal dari database operasional (internal source) tetapi juga berasal dari data diluar sistem (external source). Data pada sumber berbeda dapat di-encode dengan cara yang berbeda. Sebagai contoh, data jenis kelamin dapat di-enkode sebagai 0 dan 1 di satu tempat dan ”m” dan ”f” di tempat lain. c) Memiliki dimensi waktu (Time variant) Data yang tersimpan dalam data warehouse mengandung dimensi waktu yang mungkin digunakan sebagai rekaman bisnis untuk tiap waktu tertentu, Data warehouse menyimpan sejarah (historical data). Bandingkan dengan kebutuhan sistem operasional yang hampir semuanya adalah data mutakhir! Waktu merupakan tipe atau bagian data yang sangat penting didalam data warehouse. Didalam data warehouse sering disimpan macam-macam waktu, seperti waktu suatu transaksi terjadi/dirubah/dibatalkan, kapan efektifnya, kapan masuk ke komputer, kapan masuk ke data warehouse; juga hampir selalu disimpan versinya, misalnya terjadi perubahan definisi kode pos, maka yang lama dan yang baru ada semua didalam data warehouse kita. Sekali lagi, data warehouse yang bagus adalah yang menyimpan sejarah. d) Non-volatile Data yang tersimpan dalam data warehouse diambil dari system operasional yang sedang berjalan, tetapi tidak dapat diperbaharui (di-update) oleh pengguna (bersifat ‘hanya- baca), Sekali masuk kedalam data warehouse, data-data, terutama data tipe transaksi, tidak akan pernah di update atau dihapus (delete) Terlihat, bahwa keempat karakteristik ini saling terkait kesemuanya harus diimplementasikan agar suatu data warehouse bisa efektif memiliki data untuk mendukung pengambilan-keputusan. Dan, implementasi keempat karakteristik ini membutuhkan struktur data dari data warehouse yang berbeda dengan database sistem operasional. e) Ringkas Jika diperlukan, data operasional dikumpulkan ke dalam ringkasan-ringkasan f) Granularity Pada sistem operasional data dibuat secara real-time sehingga untuk mendapatkan informasi langsung dilakukan proses query. Pada data warehouse pada menganalisis harus memperhatikan level-of-detail misalkan perhari, ringkasan perbulan, ringkasan per-tiga-bulan. g) Tidak ternormalisasi Data di dalam sebuah data warehouse biasanya tidak ternormalisasi dan sangat redundan. Dasar dari suatu data warehouse adalah suatu data yang besar yang mengandung informasi bisnis. Data-data yang ada di dalam data warehouse bisa berasal dari banyak sumber, misalkan dari database operasional atau transaksional dan sumber dari luar misalkan dari web, penyedia jasa informasi, dari perusahaan lain, dan lain sebagainya.
3. Sebut dan jelaskan Proses KDD (Knowledge Discovery in Database) !
Jawaban : a) Data Selection Pemilihan( pilih) informasi dari sekumpulan informasi operasional butuh kita coba saat sebelum sesi penggalian data dalam Knowledge D iscovery in Database( KDD) . Informasi hasil pilih yang bisa kita gunakan buat proses data mining. Dan berada dalam sesuatu berkas terpisah dari basis informasi operasional. b) Pre- processing/ Cleaning Saat sebelum proses data mining bisa kita laksanakan , butuh percobaan proses cleaning pada informasi yang jadi fokus Knowledge D iscovery in Database( KDD). Proses cleaning mencakup antara lain membuang duplikasi informasi, mengecek informasi yang inkonsisten, serta membetulkan kesalahan pada informasi, semacam kesalahan cetak. c) Transformation Coding Merupakan proses transformasi pada informasi yang sudah melalui seleksi, sehingga informasi tersebut cocok buat proses data mining. Proses coding dalam Knowledge D iscovery in Database( KDD). Ialah proses kreatif serta sangat bergantung pada tipe ataupun pola data yang hendak kita cari dalam basis informasi. d) Data Mining Data mining merupakan proses mencari pola ataupun data menarik dalam informasi terpilih dengan memakai metode ataupun tata cara tertentu. Teknik- teknik, metode- metode, ataupun algoritma dalam data mining sangat bermacam- macam. Pemilihan tata cara ataupun algoritma yang pas sangat tergantung pada tujuan serta proses Knowledge D iscovery in Database( KDD) secara totalitas. e) Interpretation/ Evaluation Pola data yang hasil dari proses data mining butuh wadah untuk tampil. Dalam wujud yang gampang untuk pemahaman oleh pihak yang berkepentingan. Sesi ini ialah bagian dari proses Knowledge D iccovery in Database( KDD) yang berasal dari interpretation. Sesi ini mencakup pengecekan apakah pola ataupun data yang kita temui berlawanan dengan kenyataan ataupun hipotesis yang terdapat tadinya. 4. Manfaat apa saja yang di dapat dalam sistem data warehouse ! Jawaban : a) Menawarkan kecepatan Data warehouse dibuat untuk pengambilan dan analisa data yang cepat sehingga memungkinkan bisnis dengan cepat mengakses dan menanyakan data yang relevan untuk menginformasikan keputusan organisasi dengan paling baik. b) Ketersediaan, kualitas dan konsistensi Data warehouse menggabungkan informasi dari berbagai sumber menjadi satu sumber kebenaran dalam organisasi. Perusahaan dapat membersihkan dan mengubah informasi dari berbagai sumber tersebut untuk meningkatkan kualitas dan konsistensi sebelum menyimpannya di data warehouse sehingga data tersedia untuk semua jenis laporan. c) Mendukung business intelligence Data warehouse menawarkan akses bisnis yang lebih baik ke informasi. Ini membuat bisnis dapat meningkatkan proses dan membuat keputusan strategis dan operasional yang lebih baik. d) Hemat biaya dan meningkatkan pendapatan Analisa data memiliki dampak positif pada bisnis. Riset menyebutkan bahwa perusahaan yang mengimplementasikan keputusan berdasar data dapat mengalami pertumbuhan rata- rata lebih dari 30% per tahun. e) Membuat prediksi dengan lebih percaya diri Profesional di bidang data dapat menganalisa data bisnis untuk membuat prediksi pasar, mengidentifikasi KPI potensial dan memungkinkan personel inti untuk membuat rencana berdasarkan prediksi tersebut.
5. Dalam data warehouse apakah perbedaan Star Schema dan Snowflake Schema ? Jawaban :
a) Arsitektur Skema Bintang dan Kepingan Salju
Dalam database relasional, skema bintang adalah model arsitektur paling sederhana yang digunakan untuk mengembangkan gudang data dan data mart multidimensi. Seperti namanya, modelnya menyerupai bintang dengan titik-titik yang memancar dari pusat yang berarti tabel fakta adalah pusat dan titik adalah tabel dimensi. Seperti model dimensi lainnya, itu terdiri dari data dalam bentuk fakta dan dimensi. Skema Snowflake, di sisi lain, adalah model arsitektur yang lebih kompleks yang mengacu pada basis data multidimensi dengan susunan tabel yang logis dalam bentuk kepingan salju.. b) Tabel Dimensi Skema kepingan salju sangat mirip dengan skema bintang kecuali dapat memiliki lebih dari satu tabel dimensi yang selanjutnya dinormalisasi menjadi beberapa tabel terkait yang disebut sebagai tabel sub-dimensi. Ini mewakili berbagai tingkat hubungan yang bercabang menjadi pola kepingan salju. Namun, skema bintang menyimpan semua atribut terkait dari suatu dimensi ke dalam satu tabel dimensi denormalized yang membuatnya mudah untuk dipahami dan menangani kueri yang lebih sederhana. c) Model Bisnis Skema Star dan Snowflake Tabel dimensi tidak dapat berisi baris duplikat dalam model database relasional karena fakta sederhana bahwa itu bisa membuat ambiguitas dalam pengambilan. Setiap tabel harus memiliki kolom atau kombinasi kolom yang disebut kunci utama yang secara unik mengidentifikasi semua catatan tabel. Kunci asing adalah kolom atau grup kolom yang menyediakan tautan antara dua tabel. Dalam skema bintang, setiap tabel dimensi memiliki kunci utama yang terkait dengan kunci asing di tabel fakta. Hirarki bisnis dalam skema kepingan salju diwakili oleh kunci utama / hubungan kunci asing antara tabel dimensi. d) Integritas Data dalam Skema Star dan Snowflake Perbedaan utama antara dua model basis data relasional adalah normalisasi. Tabel dimensi dalam skema bintang tidak dinormalisasi, artinya model bisnis akan menggunakan ruang yang relatif lebih banyak untuk menyimpan tabel dimensi dan lebih banyak ruang berarti lebih banyak catatan yang berlebihan yang pada akhirnya akan menyebabkan ketidakkonsistenan. Skema Snowflake, di sisi lain, meminimalkan redundansi data karena tabel dimensi dinormalisasi yang menyumbang catatan redundan yang jauh lebih rendah. Hirarki bisnis dan dimensinya dilestarikan melalui integritas referensial yang berarti hubungan dapat diperbarui secara independen di gudang data. e) Performa Permintaan Skema bintang memiliki lebih sedikit gabungan antara tabel dimensi dan tabel fakta dibandingkan dengan skema kepingan salju yang memiliki banyak gabungan yang menyumbang kompleksitas kueri yang lebih sedikit. Karena dimensi dalam skema bintang dihubungkan melalui tabel fakta pusat, ia memiliki jalur gabungan yang jelas yang berarti waktu respons kueri cepat dan waktu respons cepat berarti kinerja yang lebih baik. Skema Snowflake memiliki jumlah gabungan yang lebih tinggi sehingga waktu respons kueri yang lebih lama yang menghasilkan kueri yang lebih kompleks yang pada akhirnya mengganggu kinerja.