Anda di halaman 1dari 34

DATA MINING

1
DATA WAREHOUSE
 Gudang “DATA”
 Integrasi seluruh data dari “topik”
tertentu (tingkat organisasi) dalam
satu kesatuan akses (logik),
sehingga memungkinkan adanya
proses “analisis” terhadap
karakteristik organisasi, dalam
rangka pengambilan keputusan.

2
Karakteristik Umum
 Subject Oriented : orientasi pembuatan model
lebih menekankan aspek “integrasi akses”, bukan
model yang lebih menekankan kemudahan
eksekusi transaksi operational (seperti halnya
pada database).  Data lengkap untuk subject tertentu.
 Integrated : menyatukan data dari berbagai
sumber (heterogenous resources : database,
spread-sheet, file, etc.).  Dapat diakses dari
berbagai sudut pandang.
 Time variant : data teritengrasi dengan deskripsi
“waktu” (historical data).  Data lengkap dari sisi
periode (historical).

3
Data Warehouse - Arsitektur
Executive
Application 2 Information
System
database
informational
read/write
queries
operations
database
read/write
operations
Operational periodic warehouse content Operational
Application 1
Database stocking Database

e
hou s

ic
sto nten se
re

w a eriod
a

co hou
di c w ki ng

ck t
peri o tent stoc

i ng
re
p
con

Application 3 Operational
database Database
read/write Operational Application 4
operations Database database
read/write
operations 4
Data Warehouse - Subject
oriented
 Diorientasikan kepada subjek-subjek utama yang
terkait dengan korporasi yang telah didefinisikan
di dalam model data
 Basis data operasional mengandung sejumlah
subjek yang menjadi kandidat pengelompokan
dalam data warehouse
• Perusahaan asuransi: pelanggan, produk, transaksi atau
aktifitas, policy, claim, rekening, dll.
• Toko buku: pelanggan, buku, majalah, pegawai,
supplier
 Pengorganisasian basis data operasional dapat
dilakukan dengan cara beragam
5
Data Warehouse - Integrated
 Tidak terdapat konsistensi dalam pengkodean,
penamaan, … antara sumber data yang berbeda
 Saat data dipindahkan ke data warehouse, harus
dikonversi ke suatu konvensi tertentu
Warehouse Warehouse

CDs = 1
Cassettes = 2 Prices = US$
8-tracks = 3

DB1 DB2 DB3 DB4 - Tucson DB5 - Toronto


CDs = "CD"
CDs = 2
CDs = 1 Cassettes = Prices =
Cassettes = 1 Prices = US$
Cassettes = 2 "CAS" Canadian$
8-tracks = 3
8-tracks ="8T"

6
Encoding Attribute Measurement
Data Warehouse - Non Volatile
 Data operasional diakses secara
reguler dan manipulasi atau update
juga dilakukan terhadap data dalam
lingkungan pengoperasian
 Data pada data warehouse diload
pada waktu-waktu tertentu dan
diakses. Update terhadap data tidak
pernah muncul di dalam lingkungan
data warehouse
7
Data Warehouse - Time
Variance
 Horizon waktu bagi data warehouse jauh lebih panjang dari
pada yang terdapat di sistem operasional
 Basis data operasional menyimpan nilai current dari data.
Data pada data warehouse akan berbentuk sekumpulan
snapshots yang diambil pada waktu-waktu tertentu
 Struktur kunci dari data operasional tidak selalu
mengandung elemen waktu. Struktur kunci dari data
warehouse selalu mengandung elemen waktu
Þ Konsep-konsep pada basis data temporal berlaku terhadap
data warehouse

8
Alasan Data Warehouse yang
terpisah dari basis data
 Performansi
• organisasi data khusus, metode akses, dan metode
implementasi dibutuhkan untuk mendukung view dan operasi
multidimensi yang merupakan ciri dari OLAP
• query kompleks untuk OLAP akan menurunkan performansi
dari transaksi operasional
• kontrol konkurensi dan pemulihan pada OLTP tidak kompatibel
dengan analisis OLAP
 Fungsi
• data yang hilang: data historis biasanya tidak dikelola basis
data operasional
• konsolidasi data: agregasi dan sumarisasi data dari berbagai
sumber
• kualitas data: terdapat perbedaan representasi, kode, dan
format
9
ARSITEKTUR DW
 PROSES/FASILTIAS UMUM :
• Pemasukan DATA [cleaning, integration,
transformation, and reduction]

• Akses Data (READ)

• Analytical Tools (statistik, dll.).

10
Multitiered Architecture
OLAP
Monitor & Server
metadata Integrator

Analysis
other Extract
Serve Query
Sources Transform
Data Reports
Load
Warehouse Data
Refresh
mining
Operational
DBs
Tools

Data Marts
Data Sources
11
Sumber Data
 Sumber data sering kali sistem-sistem operasional, yang
menyediakan data pada level terendah
 Sumber data didesain untuk penggunaan operasional, dan
bukan untuk kebutuhan pengambilan keputusan  fakta ini
direfleksikan oleh data
 Sumber data yang banyak sering kali berasal dari sistem
yang berbeda yang berjalan di perangkat keras yang
berbeda dengan perangkat lunak yang dibangun in-house
atau sudah dikustomisasi
 Sumber data yang banyak memunculkan sejumlah besar
isu  konflik semantik

12
Data Preprocessing

13
The need of data preprocessing
 Problems with huge real-world
database
• Incomplete data : missing value
• Noise
• Inconsistent

 Influence data mining process,


especially pattern mined

14
Techniques
 Data cleaning
 Data integration
 Data transformation
 Data reduction

 Improve the quality of the pattern


mined and/or the time required for
the actual mining
15
Data Cleaning
Correct the :
 noise data

 Data Inconsistent

 Missing entries

16
Pembersihan Data (Data
Cleaning)
 Hal yang penting bagi data warehouse,
karena data dari berbagai sumber sering
kali ‘kotor’
 Terdapat tiga kelas kakas:
• Migrasi Data: transformasi data sederhana
• Scrubbing Data: menggunakan pengetahuan
yang domain-specific
• Audit Data: menemukan aturan dan
keterhubungan melalui proses pembacaan
(scan) terhadap data (menemukan
keterurutan)
17
Data Cleaning – Missing values
Mengisi data yang hilang (Missing
Values )
• Menggunakan data yang
umum/mungkin
• Menggunakan normalisasi data

18
Data Cleaning – Noise
Kesalahan dalam variabel data
(keanehan data)
 Menghapus data

 berkonsultasi dengan pengguna data

operasional

19
Data Integration
 Menggabungkan data dari berbagai
sumber
 Schema integration: mengidentifikasi
masalah entitas
 Redundancy: mendeteksi data yang
duplikat

20
Data Transformation
 Data diubah kedalam bentuk yang
sesuai

21
Data Reduction
 Memilih data/pengurangan sejumlah
data hingga menjadi bagian-bagian
yang bermakna
 Strategies:
• Data cube aggregation
• Pengurangan data
• Data compression

22
Load dan Refresh
 Loading ke data warehouse mencakup sejumlah
pemrosesan lainnya: memeriksa batasan integritas,
pengurutan, sumarisasi, pembangunan indeks, dll.
 Refreshing sebuah data warehouse berarti mempropagasi
perubahan terhadap data sumber ke data yang tersimpan
di dalam data warehouse
• kapan harus melakukan refresh
 ditentukan oleh penggunaan, tipe dari sumber data, dll.
• bagaimana cara refresh
 data shipping: menggunakan triggers untuk mengubah tabel log
snapshot dan mempropagasi data yang berubah itu ke data
warehouse
 transaction shipping: mengirimkan perubahan yang terdapat di log
transaksi

23
Monitor
 Mendeteksi perubahan yang terjadi
terhadap sumber informasi yang
merupakan “interest” dari data warehouse
• mendefinisikan triggers
• mengawasi perubahan yang terjadi pada file
log
• membuat program
 Mempropagasi perubahan dalam bentuk
yang umum ke integrator

24
Integrator
 Menerima perubahan dari monitor
• mengubah data ke dalam bentuk yang
sesuai dengan skema yang terdapat
pada data warehouse
 Mengintegrasikan perubahan ke
dalam data warehouse
• menggabungkan data dengan data lain
yang telah ada
• menyelesaikan kemungkinan anomali
yang dapat muncul 25
Metadata Repository
 Metadata administratif
• basis data sumber dan isinya
• deskripsi gateway
• skema data warehouse, view, dan definisi data turunan
• dimensi dan hirarki
• query dan laporan yang pre-defined
• lokasi dan isi dari data marts
• partisi data
• ekstraksi data, pembersihan, aturan transformasi, nilai default
• aturan untuk refresh dan purge terhadap data
• profil pengguna dan pengelompokan pengguna
• security: otorisasi pengguna, kontrol akses

26
Struktur Data DW
 DATA CUBE (multi dimentional)
CABANG

PENJUALAN
WAKTU/SAAT
PRODUK

27
CABANG

PENJUALAN
WAKTU/SAAT
PRODUK

Multi-dimensional view (mis.) :


1. Penjualan “produk” dari waktu ke waktu
2. Penjualan “produk” pada masing-masing cabang
3. Produk yang tersedia.
4. Dll.
28
CABANG

Negara

Propinsi
KUSTOMER
Group
Kota
Kategori
Jalan
Nama/orang

Hari
Minggu Nama/produk
Bulan Brand
WAKTU
Kategori

PRODUK

1. Rekapitulasi multi-view / multi-dimensi dapat dilayani


Oleh DB, jika : TERINTEGRASI (dpt diakses secara logik sebagai
Satu kesatuan, LENGKAP (dalam arti sampai ke level primitif,
Yang biasanya dicakup oleh DB OLTP), dan ………..
2. DBMS pada umumnya mengembangkan fasilitas untuk dapat
Mendukung OLAP. 29
Metadata Repository 2
 Data bisnis
• peristilahan dan definisi bisnis
• kepemilikan data
• charging policies
 Metadata operasional
• data lineage: sejarah migrasi data dan urutan
transformasi yang dikenakan
• kekinian data: aktif, archived, purged
• informasi monitoring: statistik penggunaan data
warehouse, laporan kesalahan, audit trails

30
Data Marts
 Sebuah data mart (disebut juga data warehouse
departemental) adalah sebuah sistem yang mengumpulkan
data yang dibutuhkan oleh sebuah departemen atau
aplikasi yang terkait
 Data marts dapat diimplementasikan di dalam data
warehouse dengan cara membuat view yang khusus,
spesifik untuk aplikasi tertentu
 Data marts dapat juga diimplementasikan sebagai
materialized view subjek departemental yang difokuskan
kepada subjek tertentu
• materialized views adalah view yang tupel hasilnya disimpan
 Data marts dapat memiliki representasi yang berbeda dan
menggunakan OLAP engines tersendiri

31
Tools lainnya
 Antar muka pemakai yang
memungkinkan pemakai melakukan
interaksi dengan data warehouse
• untuk query dan pelaporan
• untuk melakukan analisis
• untuk data mining

32
Perancangan Sistem
 Perencanaan kapasitas - pendefinisian arsitektur
 Integrasi servers, media penyimpanan, clients
 Perancangan skema data warehouse, views
 Perancangan organisasi fisik data warehouse: penempatan
data, partisi, metode akses
 Menghubungkan sumber: gateways, ODBC drivers
 Perancangan dan implementasi scripts untuk ekstraksi
data, load, dan refresh
 Pendefinisian metadata dan populasi repository
 Perancangan dan implementasi aplikasi pengguna
 Roll out data warehouse dan aplikasi

33
Pembangunan Data Warehouse
 Top Down
• Membuat rancangan data warehouse
keseluruhan
• Menentukan sumber data dan mekanisme
pengintegrasian data ke data warehouse
 Bottom Up
• Membuat data marts untuk setiap sub sistem
yang ada
• Menggabungkan data marts-data marts yang
telah terbentuk untuk menghasilkan sebuah
data warehouse yang utuh
34

Anda mungkin juga menyukai