• Fakta mentah/deskripsi
dasar dari hal, kejadian, • Informasi yang telah
yang ditangkap, direkam, diorganisasikan dan diproses
disimpan, diklasifikasikan, untuk memperoleh
tetapi tidak Informasi pemahaman, pengalaman,
diorganisasikan untuk pembelajaran yang
tujuan spesifik tertentu terakumulasi sehingga dapat
• Representasi dari dunia • Sekumpulan fakta diaplikasikan dalam
nyata yang dinyatakan (data) yang masalah/proses bisnis tertentu
dalam bentuk angka, diorganisasi dengan • Informasi yang diproses untuk
huruf, simbol, warna, cara tertentu sehingga mengekstrak implikasi kritis
gambar, atau paduan dari dan merefleksikan pengalaman
semua hal tersebut
mempunyai arti bagi masa lampau, menyediakan
penerima penerima dengan
• Data yang telah diolah pengetahuan yang
menjadi sesuatu yang terorganisasi dengan nilai yang
Data berguna bagi si tinggi
penerima
Pengetahuan
Data
1103 22
1142 18 2 2
1156 10 1 11
1173 12 5 5
1180 10 12
1183 22
Informasi
Paul Lane
Data Warehouse
Definisi :
Tujuan :
• Subject oriented
• Integrated
• Time variant
• Non-volatile
Karakteristik Data Warehouse
• Subject oriented
– Data yang disusun menurut subyek berisi hanya informasi yang
penting bagi pemprosesan decision support.
– Database yang semua informasi yang tersimpan di
kelompokkan berdasarkan subyek tertentu misalnya:
pelanggan, gudang, pasar, dsb.
– Semua Informasi tersebut disimpan dalam suatu sistem data
warehouse.
– Data-data di setiap subyek dirangkum ke dalam dimensi,
misalnya : periode waktu, produk, wilayah, dsb, sehingga dapat
memberikan nilai sejarah untuk bahan analisa.
Karakteristik Data Warehouse
• Integrated
Jika data terletak pada berbagai aplikasi yang terpisah dalam suatu
lingkungan operasional, encoding data sering tidak seragam sehinggga
bila data dipindahkan ke data warehouse maka coding akan
diasumsikan sama seperti lazimnya.
Data Warehouse dapat menyimpan data-data yang berasal dari sumber-
sumber yang terpisah kedalam suatu format yang konsisten dan saling
terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa
dipecah-pecah karena data yang ada merupakan suatu kesatuan yang
menunjang keseluruhan konsep data warehouse itu sendiri.
Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti
konsisten dalam penamaan variable, konsisten dalam ukuran variable,
konsisten dalam struktur pengkodean dan konsisten dalam atribut fisik
dari data
Karakteristik Data Warehouse
• Time variant
Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada
rentang waktu tertentu.
Untuk melihat interval waktu yang digunakan dalam mengukur keakuratan
suatu data warehouse, dapat digunakan beberapa cara :
a) menyajikan data warehouse pada rentang waktu tertentu, misalnya antara 5
sampai 10 tahun ke depan.
b) menggunakan variasi/perbedaan waktu yang disajikan dalam data warehouse
baik implicit maupun explicit secara explicit dengan unsur waktu dalam hari,
minggu, bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi
pada setiap akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara
implisit di dalam data tersebut.
c) variasi waktu yang disajikan data warehouse melalui serangkaian snapshot yang
panjang. Snapshot merupakan tampilan dari sebagian data tertentu sesuai
keinginan pemakai dari keseluruhan data yang ada bersifat read-only.
Karakteristik Data Warehouse
• Non-volatile
Data warehouse tidak di-update secara real time tetapi di refresh
dari sistem operasional secara reguler
data yang baru selalu ditambahkan sebagai suplemen bagi
database itu sendiri dari pada sebagai sebuah perubahan.
Database tersebut secara kontinyu menyerap data baru ini,
kemudian secara incremental disatukan dengan data
sebelumnya.
data warehouse hanya ada dua kegiatan memanipulasi data
yaitu loading data (mengambil data) dan akses data (mengakses
data warehouse seperti melakukan query atau menampilan
laporan yang dibutuhkan, tidak ada kegiatan updating data).
Karakteristik Data Warehouse
Non-Volatile
BASISDATA VS DATAWAREHOUSE
BASIS DATA DATA WAREHOUSE
Menangani data saat ini Lebih cenderung menangani data
Data bisa saja disimpan pada masa lalu
beberapa platform Data disimpan dalam satu platform
Data diorganisasikan berdasarkan Data diorganisasikan menutut
fungsi atau operasi seperti subjek seperti pelkanggan atau
penjualan, produksi, dan produk
pemrosesan pesanan Pemrosesan sewaktu-waktu, tak
Pemrosesan bersifat berulang terstruktur, dan bersifat heuristik
Untuk mendukung keputusan harian Untuk mendukung keputusan yang
(operasional) strategis
Melayani banyak pemakai Untuk mendukung pemakai
operasional manajerial yang berjumlah relatif
Berorientasi pada transaksi sedikit
Berorientasi pada analisis
Konsep data warehouse
Proses Data warehouse
Tugas Data Warehouse
On Line Analytical • informasi baik detail maupun hasil summary yang dibutuhkan
dalam proses analisa mudah didapat.
Processing (OLAP
Competitive advantage
• Keuntungan kompetitif dapat dicapai dengan memungkinkannya akses pengambil
keputusan ke data yang sebelumnya sangat tidak mungkin.
Data homogenization
Misalkan untuk menghasilkan view yang terintegrasi dan
terkonsolidasi dari data organisasi, pembuat warehouse
akan lebih tertarik untuk mencari kesamaan dari pada
perbedaan dari data yang digunakan untuk aplikasi yang
berbeda.
High demand for resources
Data warehouse memerlukan tempat penyimpanan
berukuran besar. Menggunakan beberapa database
relasional yang didesain dengan skema star, snowflakes
dan starflakes.
Masalah pada Data Warehouse
Data ownership
Data warehousing dapat mengubah end-user menjadi
ownership data. Data sensitif yang biasanya dapat
digunakan dan diakses oleh departemen tertentu,
kini dapat dilihat oleh departemen lainnya dalam
organisasi.
High maintenance
Data warehouse merupakan sistem yang harus
terpelihara, re-organisasi proses bisnis dan sistem
sumber dapat mempengaruhi data warehouse.
Masalah pada Data Warehouse
Jawa Barat
Produk 3
Produk 2
Produk 1
BASISDATA VS DATAWAREHOUSE
DATA TINGKAT LANJUT (ADVANCE DATA)
DATA SPATIAL
• Data Spatial => Data berupa informasi spasial (keruangan)
• Data Spatial => Data geografis
• Biasanya diperoleh melalui penggunaan satelit, remote sensing
serta GPS.
• Data spasial berisi informasi mengenai bumi termasuk
permukaan bumi, bawah permukaan bumi, perairan, kelautan,
dan bawah atmosfir. Setiap bagian dari data tersebut selain
memberikan gambaran tentang suatu fenomena, juga selalu
dapat memberikan informasi mengenai lokasi dan juga
persebaran dari fenomena tersebut dalam suatu wilayah di
permukaan bumi
DATA TINGKAT LANJUT (ADVANCE DATA)
DATA STREAM
• Data yang sifatnya : Kontinyue, Terurut, Selalu
Berubah, Cepat dan Banyak.
• Contoh Data Stream : Video Streaming, Network
Traffic, Telecommunication, Stock Exchange,
computer intrusions, dll
• Aplikasi data stream : Bidang Telekomunikasi, Bidang
Keamana Jaringan/Komputer, Bidang Ekonomi/Bisnis,
dll
DATA TINGKAT LANJUT (ADVANCE DATA)
DATA SEKUENSIAL
• Data yang sifatnya terurut tanpa melihat aspek waktu
masuknya data.
• Contoh Data Stream : Urutan kedatangan konsumen,
web click stream dan urutan DNA/Protein
• Aplikasi data stream : Bidang Ekonomi/Bisnis, Bidang
Biologi
DATA TINGKAT LANJUT (ADVANCE DATA)
DATA TIME SERIES
• Data yang sifatnya terurut dengan memperhatikan
aspek waktu (hourly, daily, weekly, etc)
• Contoh Data Stream : Stock Exchange, Inventory
Control, data observasi terhada cuaca
• Aplikasi data stream : Bidang Ekonomi/Bisnis, Bidang
Sains
DATA TINGKAT LANJUT (ADVANCE DATA)
DATA BERUPA TEKS
• Data yang mengandung penjelasan tentang sebuah
objek
• Deskripsi objek tersebut biasanya tidak simple (long
sentences/paragraph)
• Biasanya terstruktur, semi terstrukur dan tidak
terstruktur.
• Contoh data Teks: Error reports, warning message,
simmary reports, notes, other documents
• Aplikasi data teks : di Perpustakaan (Katalog)
DATA TINGKAT LANJUT (ADVANCE DATA)
DATA MULTIMEDIA
• Data yang berupa image, audio dan video
• Data multimedia pasti membutuhkan media
penyimpanan yang sangat besar.
• Penerapan data Multimedia:
- Voice Mail Systems
- Picture content based retrieval
- Video on demand
- speech Recognition
DATA TINGKAT LANJUT (ADVANCE DATA)
DATA WORLD WIDE WEB (WWW)
• Data yang diperoleh melalui pengaksesan alamat web
• Data dari web saling terkait dengan web lainnya.
• Data bersifat Tidak terstruktur atau tanpa skema
• Contoh penerapan data berbentuk web : dapat
diketahui pola pengaksesan web dari setiap user,
pengambilan keputusan untuk penempatan iklan
(berdasarkan web yang paling sering dikunjungi), dll
Fact Table
53
Data multidimensi
58
Cube
• Bukan ER Diagram
• Design harus mencerminkan multidimensional
view
– Star Schema
– Snowflake Schema
– Fact Constellation Schema
70
Example of a Star Schema
Order
Product
Order No ProductNO
Order Date ProdName
Fact Table ProdDescr
Customer
OrderNO Category
Customer No CategoryDescription
SalespersonID
Customer Name UnitPrice
CustomerNO
Customer
Address ProdNo Date
City
DateKey DateKey
CityName Date
Salesperson
Quantity City
SalespersonID
SalespersonName Total Price
CityName
City
State
Quota
Country 71
72
Star Schema
73
Mengapa menggunakan Star Schema?
Keuntungan :
• Sebih simple
• Mudah dipahami.
• Hasil dari proses query juga relatif lebih
cepat.
Kerugian :
• boros dalam space.
Example of a Snowflake
Schema
Order
Product
Order No Category
ProductNO
Order Date ProdName CategoryName
Fact Table
ProdDescr CategoryDescr
Customer
Category
OrderNO
Customer No Category
Customer Name
SalespersonID
UnitPrice
Customer CustomerNO
Address Date
ProdNo Month
City DateKey
DateKey Month
Year
Salesperson Date Year
CityName Year
Month
SalespersonID Quantity City
SalespersonName State
Total Price CityName
City StateName
State
Quota Country
79 Country
Snowflake Schema
80
Snowflake Schema
81
Snowflake Schema
83
Fact Constellation
• Fact Constellation
– Ada beberapa tabel fakta yang digunakan
bersama-sama (share) beberapa tabel dimensi.
– Dapat berupa kumpulan skema star
– Untuk Enterprise-wide
– Dikenal juga dengan istilah galaxy schema
84
Integrasi Data
• Integrasi data:
– Mengkombinasikan data dari banyak sumber kedalam suatu
simpanan terpadu
• Integrasi skema
– Mengintegrasikan metadata dari sumber-sumber berbeda
– Problem identifikasi entitas: mengenali entitas dunia nyata
dari banyak sumber-sumber data, misal A.cust-id B.cust-#
• Pendeteksian dan pemecahan konflik nilai data
– Untuk entitas dunia nyata yang sama, nilai-nilai atribut dari
sumber-sumber berbeda adalah berbeda
– Alasan yang mungkin: representasi berbeda, skala berbeda,
misal berat bisa dalam pound atau kilogram
Integrasi Data
Suppose the the mean and standard deviation of the value for
the attribute income are $54,000 and $16,000. With z-score
normalization a value f $73,600 for income is tranformed to
73,600 – 54,000
16,000
= 1.225
• Rumus Standar Deviasi :
Contoh Penghitungan
Misalkan dalam suatu kelas, tinggi badan beberapa orang
siswa yang dijadikan sampel adalah sebagai berikut.
172, 167, 180, 170, 169, 160, 175, 165, 173, 170
Dari data tersebut diketahui bahwa jumlah data (n) = 10, dan
(n - 1) = 9. Selanjutnya dapat dihitung komponen untuk
rumus varian.
• Dari tabel tersebut dapat ketahui:
103
OLAP (Lanjutan…)
104
OLAP : Contoh Data 2 Dimensi
106
Contoh Tabel Pivoting
Rasa Strawberry Mangga Nanas Total
Sirup
Biasa 3.500.000 1.750.000 500.000 5.750.000
Rendah
Kalori 2.300.000 1.500.000 250.000 4.050.000
Total 5.800.000 3.250.000 750.000 9.800.000
107
Hierarki Dimensi untuk Drill-down
Tahun Wilayah
Triwulan Negara
Provinsi
Nama Hari Bulan
Kota
Tanggal
Kecamatan
108
Software OLAP
109
OLAP (On-line analytical
processing)
OLAP adalah suatu sistem atau teknologi yang dirancang untuk
mendukung proses analisis kompleks dalam rangka mengungkapkan
kecenderungan pasar dan faktor-faktor penting dalam bisnis