Anda di halaman 1dari 17

E-Learning STMIK Nusa Mandiri Page |1

Copyright © September 2020

Pertemuan 2 : Data Warehousing

Tugas Kelompok

 Buat Kelompok maximal 4 orang/kelompok.


 Pengolahan data menggunakan tools rapidminer
 Menggunakan salahsatu metode data mining
 Dataset menggunakan data public atau private, setiap kelompok beda dataset
 Kumpulkan tugas kelompok tersebut berupa : makalah, dan powerpoint pada
pertemuan 10 dan bisa dipresentasikan.
 Mengumpulkan draft artikel ilmiah.
 Nilai project & presentasi akan menjadi nilai kelompok, keaktifan dan nilai
penguasaan materi.

1. Pengertian Data Warehouse


o Repositori fisik di mana data relasional diorganisasikan secara khusus untuk
menyediakan data yang dibersihkan perusahaan dalam format standar
o Data Warehouse adalah kumpulan desain basis data terintegrasi dan berorientasi
subjek untuk mendukung fungsi DSS, di mana setiap unit data adalah non-volatile dan
relevan dengan waktu tertentu”

2. Karakteristik DW
o Berorientasi pada objek
o Terintegrasi
o Time-variant (time series)
o Nonvolatile
o Diringkas
o Tidak dinormalisasi
o Metadata
o Berbasis web, relational/multi-dimensi
o Client/server
o Real-time dan/atau right-time (aktif)
E-Learning STMIK Nusa Mandiri Page |2
Copyright © September 2020

3. Data Mart

Departmen data warehouse yang hanya menyimpan data yang relevan

o Dependent data mart

Subset yang dibuat langsung dari data warehouse

o Independent data mart

Data warehouse kecil yang dirancang untuk unit bisnis strategis atau departemen

4. Pengertian Data Warehousing


o Operational data stores (ODS)

Suatu tipe database sering digunakan sebagai area sementara untuk suatu data
warehouse

o Oper marts

Mart data operasional.

o Enterprise data warehouse (EDW)

Data warehouse untuk perusahaan.

o Metadata

Suatu data tentang data. Dalam data warehouse, metadata mendeskripsikan konten
datawarehouse dan cara akuisisi dan penggunaannya
E-Learning STMIK Nusa Mandiri Page |3
Copyright © September 2020

5. Kerangka Konseptual DW

No data marts option


Data Applications
Sources (Visualization)
Access
Routine
ERP Business
ETL
Reporting
Process Data mart
(Marketing)
Select

/ Middleware
Legacy Metadata Data/text
Extract mining
Data mart
(Engineering)
Transform Enterprise
POS Data warehouse
OLAP,
Integrate

API
Data mart Dashboard,
(Finance) Web
Other Load
OLTP/wEB
Replication Data mart
(...) Custom built
External
applications
data

6. Arsitektur Umum DW
o Arsitektur Tiga Tingkat (Three-tier architecture)
a) Perangkat lunak akuisisi data (back-end)
b) Data warehouse yang berisi data & perangkat lunak
c) Software Client (front-end) yang memungkinkan pengguna untuk mengakses dan
menganalisis data warehouse

o Arsitektur Dua Tingkat (Two-tier architecture)


a) 2 tingkatan pertama dalam arsitektur tiga tingkat digabungkan menjadi satu

… kadang hanya ada satu tingkat?


E-Learning STMIK Nusa Mandiri Page |4
Copyright © September 2020

Tier 1: Tier 2: Tier 3:


Client workstation Application server Database server

3-tier architecture

Tier 1: Tier 2:
Client workstation Application & database server

2-tier architecture

7. Pertimbangan Arsitektur DW
o Masalah yang perlu dipertimbangkan ketika memutuskan arsitektur mana yang akan
digunakan:
a) Database Management System (DBMS) yang mana yang harus dipakai?
b) Apakah akan menggunakan proses parallel dan/atau partisi?
c) Apakah alat migrasi data akan digunakan untuk memuat data warehouse?
d) Alat apa yang akan digunakan untuk mendukung pengambilan dan analisis data?
E-Learning STMIK Nusa Mandiri Page |5
Copyright © September 2020

8. Arsitektur DW Berbasis Web

Web pages
Application
Server

Client Web
(Web browser) Internet/ Server
Intranet/
Extranet
Data
warehouse

9. Arsitektur Alternatif DW

(a) Independent Data Marts Architecture

ETL
End user
Source Staging Independent data marts
access and
Systems Area (atomic/summarized data)
applications

(b) Data Mart Bus Architecture with Linked Dimensional Datamarts

ETL
Dimensionalized data marts End user
Source Staging
linked by conformed dimentions access and
Systems Area
(atomic/summarized data) applications
E-Learning STMIK Nusa Mandiri Page |6
Copyright © September 2020

(c) Hub and Spoke Architecture (Corporate Information Factory)

ETL
End user
Source Staging Normalized relational
access and
Systems Area warehouse (atomic data)
applications

Dependent data marts


(summarized/some atomic data)

(d) Centralized Data Warehouse Architecture

ETL
Normalized relational End user
Source Staging
warehouse (atomic/some access and
Systems Area
summarized data) applications

(e) Federated Architecture

Data mapping / metadata


End user
Logical/physical integration of access and
Existing data warehouses
common data elements applications
Data marts and legacy systmes
E-Learning STMIK Nusa Mandiri Page |7
Copyright © September 2020

10. Arsitektur Mana yang Paling Baik?


o Bill Inmon Vs. Ralph Kimball
o Enterprise DW Vs. Data Marts approach

Empirical study by Ariyachandra and Watson (2006)

11. Arsitektur Data Warehousing


o Sepuluh faktor yang berpotensi mempengaruhi keputusan pemilihan arsitektur:
o Saling ketergantungan informasi antar unit organisasi
E-Learning STMIK Nusa Mandiri Page |8
Copyright © September 2020

o Kebutuhan informasi manajemen tingkat atas


o Urgensi kebutuhan akan data warehouse
o Sifat tugas end-user
o Kendala pada sumber daya
o Pandangan strategis dari data warehouse sebelum implementasi
o Kompatibilitas dengan sistem yang ada
o Kemampuan yang dirasakan dari staf TI in-house
o Masalah teknis
o Faktor Sosial/politik

12. Enterprise Data Warehouse (by Teradata Corporation)

13. Data Integration and the Extraction, Transformation, and Load (ETL) Process
o Integrasi Data (Data integration)

Integrasi yang terdiri dari tiga proses utama: akses data, federasi data, dan perubahan
tangkapan.

o Enterprise application integration (EAI)


E-Learning STMIK Nusa Mandiri Page |9
Copyright © September 2020

Sebuah teknologi yang menyediakan kendaraan untuk mendorong data dari sumber
sistem ke dalam data warehouse

o Enterprise information integration (EII)

evolving tool space yang menjanjikan integrasi data real-time dari berbagai sumber

o Service-oriented architecture (SOA)

Cara baru untuk mengintegrasikan sistem informasi

Packaged Transient
application data source

Data
warehouse

Legacy
Extract Transform Cleanse Load
system

Data mart
Other internal
applications

Extraction, transformation, and load (ETL) process

14. ETL
o Masalah yang mempengaruhi pembelian alat ETL
 Alat transformasi data mahal
 Alat transformasi data mungkin memiliki kurva belajar yang panjang

o Kriteria penting dalam memilih alat ETL


 Kemampuan untuk membaca dan menulis ke sejumlah sumber data / arsitektur yang
tidak terbatas
 Pengambilan dan pengiriman metadata secara otomatis
 Sejarah kesesuaian dengan standar terbuka
 Antarmuka yang mudah digunakan untuk pengembang dan fungsional user
E-Learning STMIK Nusa Mandiri Page |10
Copyright © September 2020

15. Manfaat DW
o Manfaat langsung dari data warehouse
 Mengizinkan pengguna akhir melakukan analisis ekstensif
 Mengizinkan tampilan konsolidasi data perusahaan
 Informasi yang lebih baik dan lebih tepat waktu
 Peningkatan kinerja sistem
 Penyederhanaan akses data

o Manfaat tidak langsung dari data warehouse


 Meningkatkan pengetahuan bisnis
 Menghadirkan keunggulan kompetitif
 Meningkatkan layanan dan kepuasan pelanggan
 Memfasilitasi pengambilan keputusan
 Membantu dalam mereformasi proses bisnis

16. Pengembangan Data Warehouse


o Pendekatan pengembangan data warehouse
 Model Inmon : Pendekatan EDW (top-down)
 Model Kimball : Pendekatan Data mart (bottom-up)
 Model mana yang terbaik?
 There is no one-size-fits-all strategy to DW
 Salah satu alternative ada pada hosted warehouse
o Struktur Data warehouse:
 The Star Schema vs. Relational
o Real-time pada datawarehouse?
E-Learning STMIK Nusa Mandiri Page |11
Copyright © September 2020

17. DW Development Approaches

18. DW Structure: Star Schema (a.k.a. Dimensional Modeling)


E-Learning STMIK Nusa Mandiri Page |12
Copyright © September 2020

Start Schema Example for an


Automobile Insurance Data Warehouse

Driver Automotive

Facts:
Dimensions: Claim Information Central table that contains
How data will be sliced/
(usually summarized)
diced (e.g., by location,
information; also contains
time period, type of
foreign keys to access each
automobile or driver)
dimension table.

Location Time

19. Pemodelan Dimensi


o Kubus Data

Objek dua dimensi, tiga dimensi, atau lebih tinggi di mana setiap dimensi data mewakili
ukuran yang menarik

 Grain
 Drill-down
 Slicing
E-Learning STMIK Nusa Mandiri Page |13
Copyright © September 2020

20. Praktik Terbaik untuk Mengimplementasikan DW


o Proyek harus sesuai dengan strategi perusahaan
o Harus ada persetujuan penuh untuk proyek
o Sangat penting untuk mengelola ekspektasi user
o Data warehouse harus dibangun secara bertahap
o Kemampuan beradaptasi harus dibangun sejak awal
o Proyek harus dikelola oleh profesional IT dan bisnis (hubungan bisnis-pemasok harus
dikembangkan)
o Hanya memuat data yang telah dibersihkan / berkualitas tinggi
o Jangan mengabaikan persyaratan pelatihan
o Sadar secara politis.
E-Learning STMIK Nusa Mandiri Page |14
Copyright © September 2020

21. Resiko Implementasi DW


o Tidak ada misi atau tujuan
o Kualitas data sumber tidak diketahui
o Keterampilan tidak pada tempatnya
o Anggaran tidak memadai
o Kurangnya perangkat lunak pendukung
o Sumber data tidak dipahami
o Sponsor yang lemah
o Pengguna tidak melek komputer
o Masalah politik atau perang wilayah
o Ekspektasi pengguna yang tidak realistis
o Risiko arsitektur dan desain
o Cakupan creep dan perubahan persyaratan
o Vendor di luar kendali
o Berbagai platform
o Key people meninggalkan proyek
o Kehilangan sponsor
o Terlalu banyak teknologi baru
o Harus memperbaiki sistem operasional
o Lingkungan terdistribusi secara geografis
o Tim geografi dan budaya bahasa

22. Hal yang harus dihindari untuk keberhasilan Implementasi DW


o Dimulai dengan rantai sponsor yang salah
o Menetapkan harapan yang tidak dapat Anda penuhi
o Terlibat dalam perilaku naif secara politis
o Memuat warehouse dengan informasi hanya karena ketersediaan
o mempercayai bahwa desain database data warehouse sama dengan desain DB
transaksional
o Memilih manajer data warehouse yang berorientasi teknologi daripada berorientasi
pengguna
E-Learning STMIK Nusa Mandiri Page |15
Copyright © September 2020

23. Real-time DW (a.k.a. Active Data Warehousing)


o Memungkinkan pembaruan data real-time untuk analisis real-time dan pengambilan
keputusan secara real-time pula sedang berkembang sangat pesat
 Push vs. Pull (of data)
o Memperhatikan real-time BI
 Tidak semua data harus diperbarui terus menerus
 Ketidakcocokan laporan menghasilkan laporan yg terpisah
 Mungkin mahal biaya
 Mungkin juga tidak layak

24. Evolution of DSS & DW

25. Active Data Warehousing (by Teradata Corporation)


E-Learning STMIK Nusa Mandiri Page |16
Copyright © September 2020

26. Comparing Traditional and Active DW

27. Data Warehouse Administration


o Karena ukurannya yang besar dan sifatnya yang intrinsik, DW membutuhkan
pemantauan yang kuat untuk menjaga efisiensi, produktivitas, dan keamanannya.
E-Learning STMIK Nusa Mandiri Page |17
Copyright © September 2020

o Administrasi dan manajemen gudang data yang berhasil memerlukan keterampilan


dan kemahiran yang melampaui apa yang diperlukan oleh administrator basis data
tradisional.
 Membutuhkan keahlian dalam perangkat lunak yang tinggi, perangkat keras, dan
teknologi jaringan berkinerja tinggi

28. DW Scalability and Security


o Scalability

Masalah utama yang berkaitan dengan skalabilitas:

 Jumlah data di warehouse


 Seberapa cepat warehouse diharapkan tumbuh
 Jumlah pengguna bersamaan
 Kompleksitas kueri pengguna

GSkalabilitas yang baik berarti bahwa kueri dan fungsi akses data lainnya akan
tumbuh secara linear dengan ukuran warehouse

o Security
 Penekanan pada keamanan dan privasi

Anda mungkin juga menyukai