Anda di halaman 1dari 110

DataWarehouse

Data, Informasi, dan Pengetahuan

• Fakta mentah/deskripsi
dasar dari hal, kejadian, • Informasi yang telah
yang ditangkap, direkam, diorganisasikan dan diproses
disimpan, diklasifikasikan, untuk memperoleh
tetapi tidak Informasi pemahaman, pengalaman,
diorganisasikan untuk pembelajaran yang
tujuan spesifik tertentu terakumulasi sehingga dapat
• Representasi dari dunia • Sekumpulan fakta diaplikasikan dalam
nyata yang dinyatakan (data) yang masalah/proses bisnis tertentu
dalam bentuk angka, diorganisasi dengan • Informasi yang diproses untuk
huruf, simbol, warna, cara tertentu sehingga mengekstrak implikasi kritis
gambar, atau paduan dari dan merefleksikan pengalaman
semua hal tersebut
mempunyai arti bagi masa lampau, menyediakan
penerima penerima dengan
• Data yang telah diolah pengetahuan yang
menjadi sesuatu yang terorganisasi dengan nilai yang
Data berguna bagi si tinggi
penerima

Pengetahuan
Data

Tidak membawa arti, merupakan kumpulan dari


fakta-fakta tentang suatu kejadian
Suatu catatan terstruktur dari suatu transaksi
Merupakan materi penting dalam membentuk
informasi
Data
Data Kehadiran Pegawai

NIP TGL DATANG PULANG

1103 02/07/2013 07:20 15:40


1142 02/07/2013 07:45 15:33
1156 02/07/2013 07:51 16:00
1173 02/07/2013 08:00 15:15
1180 02/07/2013 07:01 16:31
1183 02/07/2013 07:49 17:00
Informasi

Informasi Akumulasi Bulanan Kehadiran Pegawai

NIP MASUK ALPHA CUTI SAKIT TELAT

1103 22
1142 18 2 2
1156 10 1 11
1173 12 5 5
1180 10 12
1183 22
Informasi

Informasi Kondisi Kehadiran Mingguan Pegawai

SENIN SELASA RABU KAMIS JUMAT


TERLAMBAT 7 0 1 0 5
PULANG CEPAT 0 1 1 1 8
IZIN 3 0 0 1 4
ALPHA 1 0 2 0 2
Pengetahuan

Pengetahuan tentang kebiasaan pegawai dalam jam


datang/pulang kerja
Pengetahuan tentang bagaimana teknik
meningkatkan kehadiran pegawai  kebijakan
Kebijakan

Kebijakan penataan jam kerja karyawan khusus


untuk hari senin dan jumat
Peraturan jam kerja:
– Hari Senin dimulai jam 10:00
– Hari Jumat diakhiri jam 14:00
– Sisa jam kerja dikompensasi ke hari lain:
1. Senin pulang setelah maghrib, toh jalanan jakarta
macet total di sore hari (bayar hutang 2 jam)
2. Rabu dan kamis bayar hutang setengah jam di pagi hari
dan setengah jam di sore hari (bayar hutang 2 jam)
JENIS-JENIS DATA
• Basisdata Relasional
• Data Warehouse
• Basisdata Transaksional
• Advance Data:
- Basisdata Spatial - Data Multimedia
- Basisdata Temporal - Data Stream
- Basisdata sekuensial - Data Berbentuk Text
- Basisdata Time-Series - Data world wide web (www)
Siklus Data Warehouse - Data Mining

Sumber: Han, 2007


Definisi Data Warehouse

• Koleksi data yang


mempunyai sifat
berorientasi subjek, • database relasional
terintegrasi, time- Vidette Poe yang didesain lebih
variant, dan bersifat kepada query dan
tetap dari koleksi data analisa dari pada
dalam mendukung • Database yang bersifat proses transaksi,
proses pengambilan analisis dan read only biasanya
keputusan yang digunakan sebagai mengandung history
management. fondasi dari sistem data dari proses
penunjang keputusan transaksi dan bisa
William H. juga data dari
sumber lainnya
Inmon

Paul Lane
Data Warehouse

Definisi :

 Data Warehouse adalah Pusat repositori informasi yang mampu


memberikan database berorientasi subyek untuk informasi yang bersifat
historis yang mendukung DSS (Decision Suport System) dan EIS (Executive
Information System).
 Salinan dari transaksi data yang terstruktur secara spesifik pada query dan
analisa.
 Salinan dari transaksi data yang terstruktur spesifik untuk query dan
laporan

Tujuan :

 Meningkatkan kualitas dan akurasi informasi bisnis dan mengirimkan


informasi ke pemakai dalam bentuk yang dimengerti dan dapat diakses
dengan mudah.
Prinsip Data Warehouse
• Data warehouse adalah koleksi data yang mempunyai sifat
berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap dari
koleksi data dalam mendukung proses pengambilan keputusan
management.
• Data warehouse merupakan database yang bersifat analisis dan
read only yang digunakan sebagai fondasi dari sistem penunjang
keputusan.
• Data warehouse merupakan database relasional yang didesain lebih
kepada query dan analisa dari pada proses transaksi, biasanya
mengandung history data dari proses transaksi dan bisa juga data
dari sumber lainnya.
• Secara fisik data warehouse adalah database, tapi perancangan
data warehouse dan database sangat berbeda.
• Data Warehouse berbentuk multidimensional
Karakteristik Data Warehouse

• Subject oriented
• Integrated
• Time variant
• Non-volatile
Karakteristik Data Warehouse

• Subject oriented
– Data yang disusun menurut subyek berisi hanya informasi yang
penting bagi pemprosesan decision support.
– Database yang semua informasi yang tersimpan di
kelompokkan berdasarkan subyek tertentu misalnya:
pelanggan, gudang, pasar, dsb.
– Semua Informasi tersebut disimpan dalam suatu sistem data
warehouse.
– Data-data di setiap subyek dirangkum ke dalam dimensi,
misalnya : periode waktu, produk, wilayah, dsb, sehingga dapat
memberikan nilai sejarah untuk bahan analisa.
Karakteristik Data Warehouse
• Integrated
 Jika data terletak pada berbagai aplikasi yang terpisah dalam suatu
lingkungan operasional, encoding data sering tidak seragam sehinggga
bila data dipindahkan ke data warehouse maka coding akan
diasumsikan sama seperti lazimnya.
 Data Warehouse dapat menyimpan data-data yang berasal dari sumber-
sumber yang terpisah kedalam suatu format yang konsisten dan saling
terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa
dipecah-pecah karena data yang ada merupakan suatu kesatuan yang
menunjang keseluruhan konsep data warehouse itu sendiri.
 Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti
konsisten dalam penamaan variable, konsisten dalam ukuran variable,
konsisten dalam struktur pengkodean dan konsisten dalam atribut fisik
dari data
Karakteristik Data Warehouse
• Time variant
 Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada
rentang waktu tertentu.
 Untuk melihat interval waktu yang digunakan dalam mengukur keakuratan
suatu data warehouse, dapat digunakan beberapa cara :
a) menyajikan data warehouse pada rentang waktu tertentu, misalnya antara 5
sampai 10 tahun ke depan.
b) menggunakan variasi/perbedaan waktu yang disajikan dalam data warehouse
baik implicit maupun explicit secara explicit dengan unsur waktu dalam hari,
minggu, bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi
pada setiap akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara
implisit di dalam data tersebut.
c) variasi waktu yang disajikan data warehouse melalui serangkaian snapshot yang
panjang. Snapshot merupakan tampilan dari sebagian data tertentu sesuai
keinginan pemakai dari keseluruhan data yang ada bersifat read-only.
Karakteristik Data Warehouse

Time Variant (Rentang Waktu)


Karakteristik Data Warehouse

• Non-volatile
 Data warehouse tidak di-update secara real time tetapi di refresh
dari sistem operasional secara reguler
 data yang baru selalu ditambahkan sebagai suplemen bagi
database itu sendiri dari pada sebagai sebuah perubahan.
Database tersebut secara kontinyu menyerap data baru ini,
kemudian secara incremental disatukan dengan data
sebelumnya.
 data warehouse hanya ada dua kegiatan memanipulasi data
yaitu loading data (mengambil data) dan akses data (mengakses
data warehouse seperti melakukan query atau menampilan
laporan yang dibutuhkan, tidak ada kegiatan updating data).
Karakteristik Data Warehouse

Non-Volatile
BASISDATA VS DATAWAREHOUSE
BASIS DATA DATA WAREHOUSE
 Menangani data saat ini  Lebih cenderung menangani data
 Data bisa saja disimpan pada masa lalu
beberapa platform  Data disimpan dalam satu platform
 Data diorganisasikan berdasarkan  Data diorganisasikan menutut
fungsi atau operasi seperti subjek seperti pelkanggan atau
penjualan, produksi, dan produk
pemrosesan pesanan  Pemrosesan sewaktu-waktu, tak
 Pemrosesan bersifat berulang terstruktur, dan bersifat heuristik
 Untuk mendukung keputusan harian  Untuk mendukung keputusan yang
(operasional) strategis
 Melayani banyak pemakai  Untuk mendukung pemakai
operasional manajerial yang berjumlah relatif
 Berorientasi pada transaksi sedikit
 Berorientasi pada analisis
Konsep data warehouse
Proses Data warehouse
Tugas Data Warehouse

• Pembuatan laporan merupakan salah satu kegunaan data


Pembuatan warehouse yang paling umum dilakukan.
• Dengan menggunakan query sederhana didapatkan laporan
Laporan perhari, perbulan, pertahun atau jangka waktu kapanpun yang
diinginkan.

On Line Analytical • informasi baik detail maupun hasil summary yang dibutuhkan
dalam proses analisa mudah didapat.
Processing (OLAP

• Menebak target pasar


Data mining • Melihat pola beli dari waktu ke waktu
• Profil pelanggan

•Tujuan data warehouse membuat keputusan bisnis


Proses informasi •Data warehouse dapat membuat laporan secara ringkas
•Data warehouse dapat menyajikan laporan dengan rincian dan lengkap
eksekutif •Informasi & data pada laporan data warehouse menjadi target informative
bagi user.
Manfaat Data Warehouse
Data Warehouse biasanya digunakan untuk:
1. Memahami trend bisnis dan membuat perkiraan
keputusan yang lebih baik.
2. Menganalisa informasi mengenai penjualan harian dan
membuat keputusan yang cepat dalam mempengaruhi
performance perusahaan.
Data Warehouse Customer Example
• Salah satu pelanggan AS/400, menemukan kesulitan dalam hal
informasi penjualan yang dibutuhkan untuk dapat memperluas
bisnisnya. Tiap bulan laporan penjualan sederhana tidak tepat waktu
atau tidak mendetail sehingga sangat tidak membantu. Untuk
membantu membuat keputusan bisnis, perusahaan ini perlu dianalisa
latar belakangnya sehingga dapat menemukan titik-titik trends bisnis.
• Dengan AS/400 data warehouse-nya yang baru, para penjual dari
perusahaan ini dapat membentuk strategi penjualan berdasarkan
informasi yang diberikan warehouse. Informasi ini termasuk mengenai
the success of previous promotions, regional trends, product
profitability dan the effect of product packaging.
• Perusahaan lain seperti departemen, seperti keuangan dan operasi,
juga menggunakan warehouse untuk mengidentifikasi dan
menganalisa produk yang berhasil menyeberangi daerah, penjualan
dan waktu. Data warehouse dapat sebagai kunci pembeda dalam
suatu industri-industri yang berbeda.
Aplikasi Data Warehouse meliputi:
1. Sales and marketing analysis across all industries.
2. Inventory turn and product tracking in manufacturing.
3. Kategory manajemen, analisa penjualan, dan perbaikan
analisa program pemasaran yang efektif.
4. Keuntungan dari jalan raya atau analisa resiko
pengemudi dalam hal transportasi.
5. Analisa keuntungan atau resiko penetapan pajak atau
mendenda dalam bank.
6. Analisa tuntutan dari deteksi penggelapan dalam
asuransi.
Operational versus Informational data
• Operational data adalah data yang digunakan untuk
menjalankan bisnis. Data ini mempunyai cirri disimpan,
diperoleh dan diupdate oleh system Online Transactional
Processing (OLTP). Sebagai contoh , system pemesanan,
aplikasi perhitungan atau an order entry application.

• Operational data biasanya disimpan dalam relational


database, tetapi mungkin disimpan dalam legacy hierarchical
atau flat formats as well.
Operational versus Informational data
Karakteristik operational data meliputi:
1. Sering diperbaharui dan transaksi yang bersifat online.
2. Non-historical data (tidak lebih dari tiga sampai dengan enam
bulan lamanya).
3. Optimized for transactional processing.
4. Tingginya normalisasi dalam relasional database untuk
memudahkan pembaharuan, pemeliharaan dan integritas.
Operational versus Informational data
• Informational data biasanya disimpan dalam format yang
membuat analisa lebih mudah. Analysis can be in the form of
decision support (queries), report generation, executive
information systems.
• Informational data dibuat dari operational data kekayaan yang
ada di dalam bisnis anda.
• Informational data adalah apa yang membentuk sebuah data
warehouse.
Operational versus Informational data
Ciri informational data:
1. Summarized operational data.
2. De-normalized and replicated data.
3. Infrequently updated from the operational data.
4. Optimized for decision support applications.
5. Possibly read-only (no updates allowed).
6. Stored on separate system to lessen impact on
operational system.
Metadata
• Informasi mengenai data warehouse dan data yang
diisi ke dalam Data warehouse dibagi dua bagian. Yang
pertama technical data the warehouse uses, dan yang
kedua business data that is of use to the warehouse
users. Semua data ini menunjukkan sebagai metadata,
data about the data.
• The technical data berisi penjelasan tentang
operational database dan penjelasan dari data
warehouse. Dari kedua penjelasan itu, atau skema,
operasi pergerakan data dpat diimplementasikan. Data
ini membantu administrasi data warehouse menjaga
datanya dan mengetahui dari mana semua data
berasal.
Metadata
• The business data membantu pemakai mencari informasi
dalam data warehouse tanpa mengetahui implementasi
databasenya. (This information is presented in business
terms, instead of the terms used by the programmers when
the database was built)
• The business data memberikan informasi kepada pemakai:
1. Pada saat data dipindahkan ke dalam warehouse (how
current it is)
2. Dari mana data berasal. (which operational database).
3. Other information that lets the user know how reliable
the data is.
Keuntungan Data Warehouse

Potential high returns on investment


• Suatu organisasi harus menjalankan sejumlah besar sumberdaya untuk memastikan
kesuksesan implementasi dari data warehouse dengan biaya yang sangat variatif. Nilai
investasi yang ditanamkan lebih cepat kembali dengan menggunakan data warehouse.

Competitive advantage
• Keuntungan kompetitif dapat dicapai dengan memungkinkannya akses pengambil
keputusan ke data yang sebelumnya sangat tidak mungkin.

Increased productivity of corporate decision-makers


• Data warehousing dapat meningkatkan produktivitas pengambil keputusan dengan
membangun database terintegrasi yang konsisten, berorientasi subjek, dan data
history. Dengan memindahkan data kedalam bentuk yang lebih berarti, data
warehouse memungkinkan manajer bisnis untuk menampilkan analisa yang lebih
subtantif, akurat dan konsisten.
Masalah pada Data Warehouse

 Underestimation of resources for data loading


Banyak pengembang meremehkan waktu yang
dibutuhkan untuk extract, clean dan load data kedalam
data warehouse. Proses ini dapat mempengaruhi total
waktu pembangunan secara signifikan.
Hidden problems with source systems
Masalah tersembunyi berkaitan dengan identifikasi sistem
sumber yang menyediakan data warehouse mungkin
ditemukan setelah beberapa waktu tidak terdeteksi.
Pengembang harus menentukan untuk mengatasi
masalah pada data warehouse dan/atau sistem sumber-
nya.
Masalah pada Data Warehouse
 Required data not captured
Proyek warehouse sering menandai kebutuhan akan
data yang tidak ditangkap oleh sistem sumber yang
ada. Organisasi harus memutuskan untuk
memodifikasi antara sistem OLTP atau membuat
sistem untuk menangkap data yang hilang.
 Increased end-user demands
Setelah end-user mendapatkan query dan tools
laporan, maka permintaan dukungan kepada staff IS
akan berkurang. Ini disebabkan karena kesadaran
user akan nilai dan kapabilitas dari data warehouse.
Masalah pada Data Warehouse

 Data homogenization
Misalkan untuk menghasilkan view yang terintegrasi dan
terkonsolidasi dari data organisasi, pembuat warehouse
akan lebih tertarik untuk mencari kesamaan dari pada
perbedaan dari data yang digunakan untuk aplikasi yang
berbeda.
 High demand for resources
Data warehouse memerlukan tempat penyimpanan
berukuran besar. Menggunakan beberapa database
relasional yang didesain dengan skema star, snowflakes
dan starflakes.
Masalah pada Data Warehouse

 Data ownership
Data warehousing dapat mengubah end-user menjadi
ownership data. Data sensitif yang biasanya dapat
digunakan dan diakses oleh departemen tertentu,
kini dapat dilihat oleh departemen lainnya dalam
organisasi.
 High maintenance
Data warehouse merupakan sistem yang harus
terpelihara, re-organisasi proses bisnis dan sistem
sumber dapat mempengaruhi data warehouse.
Masalah pada Data Warehouse

 Long duration projects


Waktu yang dibutuhkan untuk pembuatan data
warehouse relatif lama, oleh sebab itu beberapa
organisasi memilih untuk membuat data-mart yang
mendukung kebutuhan dari departemen atau area
fungsional tertentu.
 Complexity of integration
Banyaknya tools yang digunakan untuk setiap operasi
data warehouse menyebabkan kesulitan dalam peng-
integrasian.
CONTOH DATA WAREHOUSE

Rasa Strawberry Mangga Nanas Total


Sirup
Biasa 3.500.000 1.750.000 500.000 5.750.000
Rendah Tahun n-4
Tahun n-3
Kalori 2.300.000 1.500.000 250.000 4.050.000 Tahun n-2
Tahun n-1
Total 5.800.000 3.250.000 750.000 9.800.000
Jawa Tengah

Jawa Barat

Produk 3

Produk 2

Produk 1
BASISDATA VS DATAWAREHOUSE
DATA TINGKAT LANJUT (ADVANCE DATA)
DATA SPATIAL
• Data Spatial => Data berupa informasi spasial (keruangan)
• Data Spatial => Data geografis
• Biasanya diperoleh melalui penggunaan satelit, remote sensing
serta GPS.
• Data spasial berisi informasi mengenai bumi termasuk
permukaan bumi, bawah permukaan bumi, perairan, kelautan,
dan bawah atmosfir. Setiap bagian dari data tersebut selain
memberikan gambaran tentang suatu fenomena, juga selalu
dapat memberikan informasi mengenai lokasi dan juga
persebaran dari fenomena tersebut dalam suatu wilayah di
permukaan bumi
DATA TINGKAT LANJUT (ADVANCE DATA)
DATA STREAM
• Data yang sifatnya : Kontinyue, Terurut, Selalu
Berubah, Cepat dan Banyak.
• Contoh Data Stream : Video Streaming, Network
Traffic, Telecommunication, Stock Exchange,
computer intrusions, dll
• Aplikasi data stream : Bidang Telekomunikasi, Bidang
Keamana Jaringan/Komputer, Bidang Ekonomi/Bisnis,
dll
DATA TINGKAT LANJUT (ADVANCE DATA)
DATA SEKUENSIAL
• Data yang sifatnya terurut tanpa melihat aspek waktu
masuknya data.
• Contoh Data Stream : Urutan kedatangan konsumen,
web click stream dan urutan DNA/Protein
• Aplikasi data stream : Bidang Ekonomi/Bisnis, Bidang
Biologi
DATA TINGKAT LANJUT (ADVANCE DATA)
DATA TIME SERIES
• Data yang sifatnya terurut dengan memperhatikan
aspek waktu (hourly, daily, weekly, etc)
• Contoh Data Stream : Stock Exchange, Inventory
Control, data observasi terhada cuaca
• Aplikasi data stream : Bidang Ekonomi/Bisnis, Bidang
Sains
DATA TINGKAT LANJUT (ADVANCE DATA)
DATA BERUPA TEKS
• Data yang mengandung penjelasan tentang sebuah
objek
• Deskripsi objek tersebut biasanya tidak simple (long
sentences/paragraph)
• Biasanya terstruktur, semi terstrukur dan tidak
terstruktur.
• Contoh data Teks: Error reports, warning message,
simmary reports, notes, other documents
• Aplikasi data teks : di Perpustakaan (Katalog)
DATA TINGKAT LANJUT (ADVANCE DATA)
DATA MULTIMEDIA
• Data yang berupa image, audio dan video
• Data multimedia pasti membutuhkan media
penyimpanan yang sangat besar.
• Penerapan data Multimedia:
- Voice Mail Systems
- Picture content based retrieval
- Video on demand
- speech Recognition
DATA TINGKAT LANJUT (ADVANCE DATA)
DATA WORLD WIDE WEB (WWW)
• Data yang diperoleh melalui pengaksesan alamat web
• Data dari web saling terkait dengan web lainnya.
• Data bersifat Tidak terstruktur atau tanpa skema
• Contoh penerapan data berbentuk web : dapat
diketahui pola pengaksesan web dari setiap user,
pengambilan keputusan untuk penempatan iklan
(berdasarkan web yang paling sering dikunjungi), dll
Fact Table

• Merepresentasikan proses bisnis, yaitu model proses


bisnis sebagai bentuk (artifact) pada data model.
• Mengandung elemen ‘pengukuran’ atau metrik atau
fakta pada bisnis proses.
– “jumlah penjualan bulanan” pada proses bisnis
Penjualan.
– dll
• Terdapat foreign key untuk tabel dimensi.
• Berisi ribuan kolom
49
Dimension Tables

• Merepresentasikan who, what, where, when and


how of sebuah pengukuran/artifact.
• Merepresentasikan entities yang real, bukan proses
bisnis.
• Memberikan konteks pengukuran (subject)
• Sebagai contoh :
Pada tabel fakta Penjualan. Karakteristik dari
pengukuran ‘jumlah penjualan bulanan’ bisa terdiri
dari lokasi (Where), waktu (When), produk yang
terjual (What).
50
Tabel Relational Karakteristik

• setiap record atau baris merepresentasikan data


mahasiswa yang berbeda-beda.
• Satu baris dengan baris lainnya diidentifikasikan
dengan sebuah key yaitu primary key.
• Sedangkan bagian kolom seperti, nama, alamat,
telepon menyimpan fakta yang sama atau sejenis,
dimana setiap fakta tersebut merujuk pada primary
key.
• Hal inilah yang menunjukkan bahwa tabel relasional
hanya mempunyai satu dimensi.
Multidimensional Data Model

• Data warehouse dan OLAP didasarkan pada


multidimensional data model.
• Model ini merepresentasikan data dalam
bentuk data cube, data dimodelkan dan
ditampilkan sebagai multiple dimension.
• Data cube ini didasarkan pada dimensions
table dan facts table.

53
Data multidimensi

• Data multidimensi adalah “ketika kita dapat melihat sebuah


data dari berbagai sudut pandang atau dimensi”
• Sebagai contoh, penjualan buku dapat dilihat dari segi lokasi
Buku, waktu, lokasi penjualan / toko dan sebagainya.
• Jika digambarkan , maka akan terdapat tiga koordinat yaitu
sumbu x mewakili buku, sumbu y mewakili dimensi waktu
dan sumbu z untuk dimensi lokasi.
• Hal inilah yang menjadi perbedaan mendasar antara tabel
relasional dan data multidimensi.
Contoh Data Multidimensional

• Cube merupakan contoh data multidimensi selain


spreadsheet. Setiap sumbu cube mewakili dimensi-dimensi.
• Terdapat measure yaitu nilai quantitative database yang
ingin dianalisa. Biasanya measure berupa nilai penjualan,
biaya, budget dan sejenisnya. Measure dihitung berdasarkan
dimensi-dimensi dari cube.
• Misalkan meganalisa penjualan buku, total penjualan
(sebagai measure) untuk suatu jenis buku tertentu (dimensi)
pada lokasi / toko buku yang berbeda-beda (lokasi dapat
dipilih sesuai dengan kebutuhan seperti negara, propinsi dll)
pada suatu periode waktu tertentu (hari, minggu,
bulan,tahun, kuartal).
3D data cube, according to the dimension time, location, item

58
Cube

• Representasi kumpulan data dalam


multidimensi
• Meskipun dinamakan cube, namun dapat
merepresentasikan data dalam N-dimensi
• Dengan cube data menjadi lebih mudah
untuk dimanipulasi.
Tabel Fakta dan Tabel Dimensi

• Tabel Fakta berisi measurement atau metric


dari proses bisnis dan foreign key dari tabel
dimensi.
• Tabel Dimensi berisi tektual atribut dari
measurement yang disimpan pada tabel
fakta.
• Tabel dimensi merupakan hierarki, kategori
dan logic yang dapat digunakan untuk
menganalisa measurement dari sudut
pandang tertentu.
Measurement

• Measurement - data kuantitatif


• Misal : Jika anda mempunyai bisnis penjualan
sepeda motor maka measurement dari bisnis
anda adalah “jumlah penjualan motor” atau
“rata-rata penjualan sepeda motor merk x”
• Contoh lain Jika Proses bisnis anda pruduksi
kertas maka measurementnya adalah ” rata-
rata produksi kertas pada suatu mesin” atau
“produksi kertas setiap bulan”
Warehouse Database Schema

• Bukan ER Diagram
• Design harus mencerminkan multidimensional
view
– Star Schema
– Snowflake Schema
– Fact Constellation Schema

70
Example of a Star Schema
Order
Product
Order No ProductNO
Order Date ProdName
Fact Table ProdDescr
Customer
OrderNO Category
Customer No CategoryDescription
SalespersonID
Customer Name UnitPrice
CustomerNO
Customer
Address ProdNo Date
City
DateKey DateKey

CityName Date
Salesperson
Quantity City
SalespersonID
SalespersonName Total Price
CityName
City
State
Quota
Country 71
72
Star Schema

• Model dimana data warehouse terdiri dari


satu tabel pusat yang besar (tabel fakta).
• Ada satu table untuk tiap dimensi
• Pada star schema, satu dimensi diwakili oleh
satu tabel dan masing-masing tabel diwakili
oleh beberapa atribut.

73
Mengapa menggunakan Star Schema?

Menurut Lane (2005, pp. 19-3), kelebihan utama dari star


schema adalah bahwa star schema:
• Menyediakan pemetaan langsung dan intuitif antara
entitas-entitas bisnis yang sedang dianalisa oleh end
users dan desain schema.
• Menyediakan performa teroptimasi untuk star
query umum.
• Didukung oleh banyak business intelligence tools, yang
dapat melakukan antisipasi atau bahkan membutuhkan
agar schema data warehouse berisi tabel-tabel dimensi.
Star Query

• Star query adalah join antara tabel fakta dan sejumlah


tabel dimensi. Setiap tabel dimensi di-join-kan kepada
tabel fakta menggunakan join dari primary
key keforeign key, tetapi tabel-tabel dimensi tidak
saling di-join-kan. Optimizermengenali star query dan
menghasilkan execution plan yang efisien untuk star
query. (Lane, 2005, pp. 19-2)
Star Query

• Tabel fakta umumnya berisi keys dan measures (ukuran).


Contohnya, dalamschema sampel sh, tabel fakta, sales, berisi
ukuran quantity_sold, amount, dan cost,
dankeys cust_id, time_id, prod_id, channel_id, dan promo_id.
Tabel-tabel dimensi antara
laincustomers, times, products, channels, and promotions.
Tabel dimensi products, contohnya, berisi informasi mengenai
setiap nomor produk yang muncul di dalam tabel fakta. (Lane,
2005, pp. 19-2)
• Star join adalah join primary key ke foreign key dari tabel
dimensi ke tabel fakta. (Lane, 2005, pp. 19-2)
Query 1

• SELECT c.cust_city, t.calendar_quarter_desc, SUM(s.amount_sold)


sales_amount
FROM sales s, times t, customers c, channels ch
WHERE s.time_id = t.time_id AND s.cust_id = c.cust_id AND
s.channel_id = ch.channel_id AND c.cust_state_province = ‘CA’
AND ch.channel_desc = ‘Internet’AND t.calendar_quarter_desc IN
(‘1999-01′,’1999-02′)
GROUP BY c.cust_city, t.calendar_quarter_desc;

• Sales adalah tabel fakta sedangkan tabel-tabel lain merupakan


tabel-tabel dimensi. Tabel Sales berisi satu baris untuk setiap
penjualan produk dan karena itu bisa berisi
jutaan record penjualan. Namun hanya beberapa diantaranya yang
dijual kepada konsumen di California melalui Internet untuk kuartal
yang ditentukan.
Star Schema

Keuntungan :
• Sebih simple
• Mudah dipahami.
• Hasil dari proses query juga relatif lebih
cepat.
Kerugian :
• boros dalam space.
Example of a Snowflake
Schema
Order
Product
Order No Category
ProductNO
Order Date ProdName CategoryName
Fact Table
ProdDescr CategoryDescr
Customer
Category
OrderNO
Customer No Category
Customer Name
SalespersonID
UnitPrice
Customer CustomerNO
Address Date
ProdNo Month
City DateKey
DateKey Month
Year
Salesperson Date Year
CityName Year
Month
SalespersonID Quantity City
SalespersonName State
Total Price CityName
City StateName
State
Quota Country
79 Country
Snowflake Schema

80
Snowflake Schema

• Ada mekanisme normalisasi tabel dimensi


• Mudah untuk dimaintain
• Butuh kapasitas penyimpanan yang relatif
lebih kecil
• Efektifitas browsing/select data berkurang
karena harus melibatkan banyak kueri dari
berbagai macam tabel

81
Snowflake Schema

Kelebihan model dimensi snowflake schema :


• ukuran data lebih kecil di dalam tempat penyimpanan,
• lebih mudah dilakukan maintenance dan update,
• proses query lebih cepat pada saat proses ETL.

Kekurangan model dimensi snowflake schema :


• cenderung lebih sulit dipahami karena kompleksitasnya,
• sulit mencari isi karena melihat strukturnya yang
kompleks dan bercabang-cabang.
Fact Constellation

83
Fact Constellation

• Fact Constellation
– Ada beberapa tabel fakta yang digunakan
bersama-sama (share) beberapa tabel dimensi.
– Dapat berupa kumpulan skema star
– Untuk Enterprise-wide
– Dikenal juga dengan istilah galaxy schema

84
Integrasi Data
• Integrasi data:
– Mengkombinasikan data dari banyak sumber kedalam suatu
simpanan terpadu
• Integrasi skema
– Mengintegrasikan metadata dari sumber-sumber berbeda
– Problem identifikasi entitas: mengenali entitas dunia nyata
dari banyak sumber-sumber data, misal A.cust-id  B.cust-#
• Pendeteksian dan pemecahan konflik nilai data
– Untuk entitas dunia nyata yang sama, nilai-nilai atribut dari
sumber-sumber berbeda adalah berbeda
– Alasan yang mungkin: representasi berbeda, skala berbeda,
misal berat bisa dalam pound atau kilogram
Integrasi Data

• Problem: integrasi skema heterogen


• Nama-nama tribut berbeda
cid name byear Customer-ID state
1 Jones 1960 1 NY
2 Smith 1974 2 CA
3 Smith 1950 3 NY

• Unit berbeda: Sales dalam $, sales dalam Yen,


sales dalam DM
Integrasi Data
• Problem: integrasi skema heterogen
• Skala berbeda: Sales dalam dollar versus sales dalam
sen dollar

• Atribut turunan: Annual salary versus monthly salary

cid monthlySalary cid Salary


1 5000 6 50,000
2 2400 7 100,000
3 3000 8 40,000
Integrasi Data
• Problem: ketak-konsistenan karena redundansi
• Customer dengan customer-id 150 punya 3 anak
dalam relation1 dan 4 anak dalam relation2
cid numChildren cid numChildren
1 3 1 4

• Komputasi annual salary dari monthly salary dalam


relation1 tak cocok dengan atribut “annual-salary”
dalam relation2
Penanganan Redundansi
Dalam Integrasi Data

• Data redundan sering terjadi saat integrasi dari


banyak database
– Atribut yang sama bisa memiliki nama berbeda dalam
database berbeda
– Atribut yang satu bisa merupakan suatu atribut “turunan”
dalam tabel lainnya, misal, annual revenue
• Data redundan mungkin bisa dideteksi dengan analisis
korelasi
• Integrasi data hati-hati dari banyak sumber bisa
membantu mengurangi/mencegah redundansi dan
ketak-konsistenan dan memperbaiki kecepatan dan
kualitas mining
ETL (Extract, Transform, Loading)

ETL adalah kumpulan proses menyiapkan data dari operational


source untuk data. Proses ini terdiri
dariextracting, transforming, loading, dan beberapa proses
yang dilakukan sebelum dipublikasikan ke dalam data
warehouse.
Jadi, ETL atau extract, transform, loading adalah fase
pemrosesan data dari sumber data masuk ke dalam data
warehouse.
Tujuan ETL adalah mengumpulkan, menyaring, mengolah dan
menggabungkan datadata yang relevan dari berbagai sumber
untuk disimpan ke dalamdata warehouse. ETL juga dapat
digunakan untuk mengintegrasikan data
ETL (Extract, Transform, Loading)
Dengan sistem yang sudah ada sebelumnya. Hasil dari proses ETL
adalah dihasilkannya data yang memenuhi kriteria data
warehouseseperti data historis, terpadu, terangkum, statis dan
memiliki struktur yang dirancang untuk keperluan proses analisis.
Proses ETL terdiri dari tiga tahap, yaitu :
ETL (Extract, Transform, Loading)
1. Extract
Langkah pertama dari proses ETL adalah proses penarikan
data dari satu atau lebih sistem operasional sebagai sumber
data (bisa diambil dari sistem OLTP, tapi bisa juga dari
sumber data di luar systemdatabase). Kebanyakan
proyek data warehouse menggabungkan data dari sumber-
sumber yang berbeda. Pada hakekatnya, proses ekstraksi
adalah proses penguraian dan pembersihan data yang
diekstrak untuk mendapatkan suatu pola atau struktur data
yang diinginkan.
ETL (Extract, Transform, Loading)
2. Transform
Proses membersihkan data yang telah diambil pada
proses extractsehingga data itu sesuai dengan struktur data
warehouse atau data mart. Hal-hal yang dapat dilakukan
dalam tahap transformasi :
a. Hanya memilih kolom tertentu saja untuk dimasukkan ke
dalam data warehouse.
b. Menerjemahkan nilai berupa kode
(misal, database sumber menyimpan nilai 1 untuk pria
dan 2 untuk wanita, tetapi data warehouse menyimpan
M untuk pria dan F untuk wanita). Proses yang dilakukan
disebut automated data cleansing, tidak ada
pembersihan secara manual selama proses ETL.
ETL (Extract, Transform, Loading)
c. Mengkodekan nilai-nilai ke dalam bentuk bebas ( missal
memetakan ”male” ,”I”, dan ”Mr ke dalam ”M”).
d. Melakukan perhitungan nilai-nilai baru (misal sale_amount
= qty*unit_price).
e. Menggabungkan data dari berbagai sumeber bersama-
sama.
f. Membuat ringkasan dari sekumpulan baris data (misal,
total penjualan untuk setiap bagian).

Kesulitan yang terjadi pada proses transformasi adalah data


harus digabungkan dari beberapa sistem terpisah, harus
dibersihkan sehingga konsisten dan harus diagregasi untuk
mempercepat analisis.
ETL (Extract, Transform, Loading)
3. Load
Fase load merupakan tahapan yang berfungsi untuk
memasukkan data ke dalam target akhir, yaitu ke dalam
suatu data warehouse.
Waktu dan jangkauan untuk mengganti atau menambah data
tergantung pada perancangan data warehouse pada waktu
menganalisa keperluan informasi.
Cara untuk memuat data adalah dengan menjalankan
SQL script secara periodik.
Transformasi Data: Normalisasi
• Normalisasi min-max

• Normalisasi z-score (saat Min, Max tak diketahui)

• Normalisasi dengan penskalaan desimal


v
v'  j dimana j adalah integer terkecil sehingga Max(|v ' |)<1
10
Transformasi Data: Normalisasi
• Normalisasi min-max

Suppose that the minimum and maximum values for the


attribute income are $12,000 and $98,000, respectively. We
would like to map income to the range [0.0, 1.0]. By min-max
normalization, a value of $73,600 for income is transformed to
73,600 – 12,000
98,000 – 12,000
= 0.7163 (1.0 – 0) + 0 = 0.7163
Transformasi Data: Normalisasi
• Normalisasi z-score (saat Min, Max tak diketahui)

Suppose the the mean and standard deviation of the value for
the attribute income are $54,000 and $16,000. With z-score
normalization a value f $73,600 for income is tranformed to
73,600 – 54,000
16,000
= 1.225
• Rumus Standar Deviasi :

Contoh Penghitungan
Misalkan dalam suatu kelas, tinggi badan beberapa orang
siswa yang dijadikan sampel adalah sebagai berikut.
172, 167, 180, 170, 169, 160, 175, 165, 173, 170
Dari data tersebut diketahui bahwa jumlah data (n) = 10, dan
(n - 1) = 9. Selanjutnya dapat dihitung komponen untuk
rumus varian.
• Dari tabel tersebut dapat ketahui:

Dengan demikian, jika dimasukkan ke dalam rumus varian,


maka hasilnya adalah sebagai berikut.

• 25, 75, 100, 500, 150, 250
• Dari penghitungan, diperoleh nilai varian sama dengan 30,32.

Dari nilai tersebut bisa langsung diperoleh nilai standar


deviasi (simpangan baku) dengan cara mengakarkuadratkan
nilai varian.
OLAP

• OnLine Analytical Processing


• Suatu jenis pemrosesan yang memanipulasi
dan menganalisa data bervolume besar dari
berbagai perspektif (multidimensi). OLAP
seringkali disebut analisis data multidimensi.

103
OLAP (Lanjutan…)

• Data multidimensi adalah data yang dapat


dimodelkan sebagai atribut dimensi dan
atribut ukuran
• Contoh atribut dimensi adalah nama barang
dan warna barang, sedangkan contoh atribut
ukuran adalah jumlah barang

104
OLAP : Contoh Data 2 Dimensi

Kota  Kudus Magelang Semarang …


Triwulan â
1 6.000.000 8.500.000 12.500.000 …
2 4.500.000 3.500.000 14.000.000 …
3 7.600.000 5.500.000 13.700.000 …
4 5.400.000 7.200.000 12.800.00 …
105
Kemampuan OLAP
• Konsolidasi (roll up) melibatkan pengelompokan data.
Sebagai contoh kantor-kantor cabang dapat dikelompokkan
menurut kota atau bahkan propinsi. Transaksi penjualan dapat
ditinjau menurut tahun, triwulan, bulan, dan sebagainya.
Kadangkala istilah rollup digunakan untuk menyatakan
konsolidasi
• Drill-down adalah suatu bentuk yang merupakan kebalikan
dari konsolidasi, yang memungkinkan data yang ringkas
dijabarkan menjadi data yang lebih detail
• Slicing and dicing (atau dikenal dengan istilah pivoting)
menjabarkan pada kemampuan untuk melihat data dari
berbagai sudut pandang

106
Contoh Tabel Pivoting
Rasa Strawberry Mangga Nanas Total
Sirup
Biasa 3.500.000 1.750.000 500.000 5.750.000
Rendah
Kalori 2.300.000 1.500.000 250.000 4.050.000
Total 5.800.000 3.250.000 750.000 9.800.000

Sirup Rasa Pendapatan


Biasa Strawberry 3.500.000
Biasa Mangga 1.750.000
Biasa Nanas 500.000
Rendah Kalori Strawberry 2.300.000
Rendah Kalori Mangga 1.500.000
Rendah Kalori Nanas 250.000

107
Hierarki Dimensi untuk Drill-down

Tahun Wilayah

Triwulan Negara

Provinsi
Nama Hari Bulan

Kota
Tanggal

Kecamatan

(a) Hierarki Waktu (b) Hierarki Lokasi

108
Software OLAP

• Express Server (Oracle)


• PowerPlay (Cognos Software)
• Metacube (Informix/Stanford Technology
Group)
• HighGate Project (Sybase)

109
OLAP (On-line analytical
processing)
OLAP adalah suatu sistem atau teknologi yang dirancang untuk
mendukung proses analisis kompleks dalam rangka mengungkapkan
kecenderungan pasar dan faktor-faktor penting dalam bisnis

OLAP ditandai dengan kemampuannya menaikkan atau menurunkan


dimensi data sehingga kita dapat menggali data sampai pada level yang
sangat detail dan memperoleh pandangan yang lebih luas mengenai
objek yang sedang kita analisis.

OLAP secara khusus memfokuskan pada pembuatan data agar dapat


diakses pada saat pendefinisian kembali dimensi.

OLAP dapat digunakan membuat rangkuman dari multidimensi data


yang berbeda, rangkuman baru dan mendapatkan respon secara online,
dan memberikan view dua dimensi pada data cube multidimensi secara
interaktif.

Anda mungkin juga menyukai