Anda di halaman 1dari 42

Basis Data Lanjut – Konsep Data

Warehouse dan Data Mining


Nur Budi Nugraha, S.Kom, M.T.
Problem:
Sumber Informasi Yang Heterogen
“keheterogenan ada dimana-mana”
Database
Personal

World
Database saintifik
Wide
Web
Pustaka Digital
p Antarmuka berbeda
p Representasi data berbeda
p Duplikasi dan ketidak-konsistenan informasi

2/148
Goal: Akses Data Terpadu

Sistem Integrasi

World
Wide
Dabase
Web
Pustaka Digital Database Saintifik Personal

• Mengumpulkan dan mengkombinasikan informasi


• Menyediakan view terintegrasi dan antarmuka user seragam
• Menyokong pemakaian bersama-sama (sharing)
3/148
Pendekatan Warehouse
Klien
• data diintegrasikan
terlebih dahulu
Data
• Disimpan dalam Warehouse
warehouse untuk
query langsung dan
analisa Sistem Integrasi Metadata

...
Extractor/ Extractor/ Extractor/
Monitor Monitor Monitor

...
Sumber Sumber 4/148 Sumber
Integrasi
 Pembersihan Data
 Pemasukan Data
Client Client
 Data yang diperoleh Query & Analisis

Metadata Warehouse

Integrasi

Source Source Source

5/148
Apa Itu Data Warehouse?

 Suatu database penunjang keputusan yang


dikelola secara terpisah dari database
operasional perusahaan.
 Penunjang pemrosesan informasi dengan
menyediakan suatu platform yang kokoh
untuk analisa data yang mengandung histori
dan yang terkonsolidasi

6/148
Apa Itu Data Warehouse?
 “Suatu DW adalah suatu koleksi data yang bisa digunakan
untuk menunjang pengambilan keputusan manajemen, yang
berorientasi subjek (topik), terpadu, time variant, dan tidak
mudah berubah(non volatile)” —W. H. Inmon (Bp. Data
Warehousing)
 Data warehousing adalah proses dimana organisasi
menyari makna dari aset informasi yang dimilikinya melalui
penggunaan data warehouse

7/148
Apa Itu Data Warehouse?
“Suatu data warehouse sederhananya adalah suatu
penyimpanan data tunggal, lengkap dan konsisten, yang
diperoleh dari berbagai sumber dan dibuat tersedia bagi
end user dalam suatu cara yang bisa mereka pahami dan
bisa mereka gunakan dalam suatu konteks bisnis.” - - Barry
Devlin, IBM Consultant

8/148
Properti Data Warehouse?

Subject Integrated
Oriented

Data
Warehouse

Non Volatile Time Variant

9/148
DW: Berorientasi Subjek (Topik)
 Diorganisasikan berdasarkan kegunaan disekitar subjek
bukan aplikasi, misal: customer, product, sales.
 Perhatian dipusatkan pada pemodelan dan analisa data
untuk pembuat keputusan, bukan untuk operasi harian
atau pemrosesan transaksi.
 View sederhana dan ringkas disekitar subjek
pembicaraan disediakan dengan cara memisahkan data-
data yang tidak berkaitan dengan proses penunjang
keputusan

10/148
DW: Terpadu
 Dibangun dengan memadukan banyak sumber data
yang heterogen
 Database relasional, flat file, catatan transaksi on-line.
 Teknik pembersihan dan integrasi data diterapkan
 Menjamin konsistensi penamaan, penyandian struktur, ukuran
atribut, dsb., dari antara sumber-sumber data yang berbeda.
 Misal, tarif hotel: mata uang, pajak, breakfast
covered, dsb.
 Ketika data dipindahkan ke warehouse, data ini telah terkonversi

11/148
DW: Time Variant
 Jangka waktu untuk DW secara significant lebih lama
ketimbang data pada sistem operasional
 Database operasional: data dengan nilai terbaru
 Data dari data warehouse: menyediakan informasi dari suatu
tinjauan historis (misal, 5-10 tahun terakhir)
 Setiap struktur key didalam data dari data warehouse
memuat suatu elemen waktu baik itu yang secara eksplisit
dinyatakan maupun yang secara implisit
 Tetapi setiap struktur key dari data operasional bisa atau
bisa tidak memuat elemen waktu

12/148
DW: Time Variant

Data disimpan dalam sederetan snapshot, yang masing-


m a s i n g m en g g amb a r k an s u at u p er i o d e w a k t u

Time Data
Jan-97 January
Feb-97 February
Mar-97 March

13/148
DW: Non-Volatile
 Penyimpanan data yang secara fisik terpisah
ditransformasikan dari lingkungan operasional
 Pengubahan data operasional tidak terjadi dalam
lingkungan data warehouse

14/148
DW: Non-Volatile
Sistem Data
Operasional Warehouse
insert update

replace
delete
Load/
change update Update
Titik Konsisten
Perubahan konstan Dalam waktu
s Secara tetap diubah s Ditambahkan secara reguler,
s Data berubah sesuai tetapi pemuatan data jarang
kebutuhan, tidak pada sekali diubah secara langsung
suatu jadwal tetap s Namun data warehouse tetap
diperbaharui
15/148
Pengubahan Data

Load pertama kali


Database Warehouse
Database Refresh
Operasional

Refresh

Refresh

16/148
DW vs. DBMS Operasional
 OLTP (on-line transaction processing)
 Tugas utama dari relasi DBMS tradisional
 Operasi harian: purchasing, inventory, banking, manufacturing,
payroll, registration, accounting, dsb.
 OLAP (on-line analytical processing)
 Tugas utama dari sistem data warehouse
 Analisa data dan pengambilan keputusan

17/148
OLTP vs. OLAP
OLTP (DB Standard OLAP(Data Warehouse)
Tipe users profesional IT Pekerja pengetahuan
Fungsi/kegunaan Operasi hari-ke-hari Pendukung keputusan
Rancangan DB Berorientasi
- aplikasi Berorientasi
- subjek
data current, up-to-date historikal,
detail, flat relational ringkas, multidimensional
lokal Terpadu
penggunaan berulang Khusus untuk sesuatu maksud
akses read/write Banyak mengamati

unit kerja Transaksi pendek, sederhana Query kompleks


#record yg diakses puluhan jutaan
#user ribuan ratusan
Ukuran DB 100MB -GB 100GB-TB
metrik throughput transaksi Throughput query, respons

18/148
Arsitektur Warehouse

Klien Klien
Query & Analysis

Warehouse

Integrator Metadata

Extractor/ Extractor/ Extractor/


Monitor Monitor Monitor

Sumber Sumber ... Sumber


19/148
Arsitektur Warehouse
Klien
Sumber Informasi Server Server OLAP
Data Warehouse
OLTP MOLAP
Analysis
DBMS (Multidimensional OLAP)

Query/Reporting

Saring,
Sumber Data
bersihkan,
lainnya Data Mining
transforma-
Data Marts
sikan,
kumpulkan,
muat,
ROLAP
ubah
(Relational OLAP)
20/148
Model Data Multidimensi
 Model data multidimensional dirancang untuk
memfasilitasi analisis dan bukan transaksi
 Umum didalam data warehouse
 Konsep intuitif dari banyak dimensi atau perspektif
pengukuran bisnis atau fakta-fakta
 Melihat sales dari perspektif customer, product dan time
 Model konseptual
 Hypercube – suatu “kubus n-sisi”
 Database adalah suatu kumpulan fakta (titik) dalam
suatu ruang multidimensi

21/148
Model Data Multidimensi
 Suatu fakta memiliki suatu ukuran dimensi
 Besaran yang akan dianalisa, misal, sale, budget
 Sekumpulan dimensi dimana data dianalisa
 Misal, store, product, date yang dikaitkan dengan suatu jumlah sale
 Dimensi membentuk suatu sistem koordinat populasi
 Atribute-atribut dari suatu dimensi bisa berhubungan
dengan urutan parsial
 Hierarki: misal, street > county >city
 Kisi: misal, date> month>year, date>week>year

22/148
Model Data Multidimensi
 Ukuran– data numerik yang akan diamati
 Dimensi– parameter bisnis yang mendefinisikan suatu
transaksi
 Contoh: analis ingin melihat data sales (ukuran)
berdasarkan dimensi geography, time, dan product
 Pemodelan dimensional adalah suatu teknik untuk
menstrukturkan data disekitar konsep bisnis
 Model ER menguraikan “entitas” dan “relasi”
 Model dimensional menguraikan “ukuran” dan
“dimensi”

23/148
Pemodelan Data Warehouse
 Data Warehouse == Pemodelan Dimensional
 OLAP == Query suatu model dimensional
Jika manajer/user berkata:
“Kita menjual PRODUCT dalam berbagai MARKET dan kita
mengukur kinerja kita berdasarkan TIME”

Maka secara konseptual kita


menggambarkan suatu

MARKET
kubus data dalam 3 dimensi,
dimana masing-masing sel
memuat pengukuran. PRODUCT

24/148
Pemodelan Data Warehouse
 Dimensi yang mungkin:
 Time: day, week, month, quarter, year
 Geography / Market (Space) :city, county, state, region,
nation
 Product:brand, model, color, size, weight, ...
 Vendor
 Customer
 Organizational unit / Line of Business
 Salesperson
 View - actual, budget, forecast...
 …
Masing-masing adalah dasar untuk agregasi dan pemecahan

25/148
Dari Tabel dan Spreadsheet menjadi
Kubus Data
 Suatu data warehouse didasarkan kepada suatu model
data multidimensi yang melihat data dalam bentuk suatu
kubus data
 Suatu kubus data seperti Sales memungkinkan data
untuk dimodelkan dan dilihat dari banyak dimensi
 Dimensi tabel, seperti item (item_name, brand, type), atau
time(day, week, month, quarter, year)
 Tabel fakta memuat ukuran (seperti dollars_sold) dan kunci untuk
setiap dimensi tabel terkait

26/148
Contoh Kubus Data

27/148
Contoh Kubus Data

28/148
Data Mining
• Ekstraksi informasi atau pola yang penting atau
menarik dari data yang ada di database yang besar
sehingga menjadi informasi yang sangat berharga
• Proses penemuan yang efisien sebuah pola terbaik
yang dapat menghasilkan sesuatu yang bernilai dari
suatu koleksi data yang sangat besar
Perbedaan data warehouse dan data mining

teknologi data warehouse digunakan untuk melakukan OLAP (On-line Analytical Processing) ,
sedangkan data mining digunakan untuk melakukan information discovery
Arsitektur Data Mining
Tahap pemprosesan dalam Data Mining

Knowledge Discovery In Database (KDD)


Tahapan Proses KDD
Data Selection

– Menciptakan himpunan data target , pemilihan


himpunan data, atau memfokuskan pada subset variabel atau
sampel data, dimana penemuan (discovery) akan dilakukan.

– Pemilihan (seleksi) data dari sekumpulan data


operasional perlu dilakukan sebelum tahap penggalian
informasi dalam KDD dimulai. Data hasil seleksi yang akan
digunakan untuk proses data mining, disimpan dalam suatu
berkas, terpisah dari basis data operasional.
Tahapan Proses KDD
Pre-processing/ Cleaning
– Pemprosesan pendahuluan dan pembersihan data merupakan
operasi dasar seperti penghapusan noise dilakukan.

– Sebelum proses data mining dapat dilaksanakan, perlu


dilakukan proses cleaning pada data yang menjadi fokus
KDD.

– Proses cleaning mencakup antara lain membuang duplikasi


data, memeriksa data yang inkonsisten, dan memperbaiki
kesalahan pada data, seperti kesalahan cetak (tipografi).

– Dilakukan proses enrichment, yaitu proses “memperkaya”


data yang sudah ada dengan data atau informasi lain yang
relevan dan diperlukan untuk KDD, seperti data atau
informasi eksternal.
Tahapan Proses KDD
Transformation
– Pencarian fitur-fitur yang berguna untuk
mempresentasikan data bergantung kepada goal yang
ingin dicapai.

– Merupakan proses transformasi pada data yang telah


dipilih, sehingga data tersebut sesuai untuk proses data
mining. Proses ini merupakan proses kreatif dan sangat
tergantung pada jenis atau pola informasi yang akan
dicari dalam basis data
Tahapan Proses KDD
Data mining
– Pemilihan tugas data mining; pemilihan goal dari
proses
KDD misalnya klasifikasi, regresi, clustering, dll.

– Pemilihan algoritma data mining untuk pencarian


(searching)

– Proses Data mining yaitu proses mencari pola atau


informasi menarik dalam data terpilih dengan
menggunakan teknik atau metode tertentu. Teknik,
metode, atau algoritma dalam data mining sangat
bervariasi. Pemilihan metode atau algoritma yang tepat
sangat bergantung pada tujuan dan proses KDD secara
keseluruhan.
Tahapan Proses KDD
Interpretation/ Evaluation
– Penerjemahan pola-pola yang dihasilkan dari data
mining.

– Pola informasi yang dihasilkan dari proses data mining


perlu ditampilkan dalam bentuk yang mudah dimengerti
oleh pihak yang berkepentingan.

– Tahap ini merupakan bagian dari proses KDD yang


mencakup pemeriksaan apakah pola atau informasi
yang ditemukan bertentangan dengan fakta atau
hipotesa yang ada sebelumnya.
Arsitektur Data Mining
Keterangan :
1. Data cleaning (Pembersihan Data) : untuk membuang
data yang tidak konsisten dan noise)
2. Data integration : penggabungan data dari beberapa
sumber
3. Data Mining Engine : Mentranformasikan data menjadi
bentuk yang sesuai untuk di mining
4. Pattern evaluation : untuk menemukan yang bernilai
melalui knowledge base
5. Graphical User Interface (GUI) : untuk end user
Model Data Mining

•Prediction Methods
–Menggunakan beberapa variabel untuk
memprediksi sesuatu atau suatu nilai yang
akan datang.
•Description Methods
– Mendapatkan pola penafsiran
(humaninterpretable
patterns) untuk menjelaskan
data.
Penerapan Data Mining di Perusahaan
Analisa Perusahaan dan Manajemen Resiko
 Perencanaan Keuangan dan Evaluasi Aset
Data Mining dapat membantu untuk melakukan analisis dan prediksi cash flow serta
melakukan contingent claim analysis untuk mengevaluasi aset. Selain itu juga dapat
menggunakannya untuk analisis trend.
 Perencanaan Sumber Daya (Resource Planning)
Dengan melihat informasi ringkas (summary) serta pola pembelanjaan dan pemasukan
dari masing-masing resource, dapat memanfaatkannya untuk melakukan resource
planning.
 Persaingan (Competition)
 Sekarang ini banyak perusahaan yang berupaya untuk dapat melakukan competitive
intelligence. Data Mining dapat membantu untuk memonitor pesaing-pesaing dan
melihat market direction mereka.
 dapat melakukan pengelompokan customer dan memberikan variasi
harga/layanan/bonus untuk masing-masing grup.
 Menyusun strategi penetapan harga di pasar yang sangat kompetitif. Hal ini diterapkan
oleh perusahaan minyak REPSOL di Spanyol dalam menetapkan harga jual gas di
pasaran.
Referensi
 Edward Purba. Konsep dan Teknik Data Mining : Data
Warehouse & Teknologi OLAP.
Tugas
 Review Paper – Rancang Bangun Data Warehouse
 Paper asli dikumpulkan
 Dikumpulkan : 2 Januari 2017

Anda mungkin juga menyukai