Anda di halaman 1dari 35

DATA MINING (PENGGALIAN DATA)

Oleh : Dr. Meilita Tryana Sembiring, ST, MT / Ivo Andika Hasugian, ST, MT

Pertemuan ke-7
Data warehouse & OLAP
KNOWLEDGE DISCOVERY (KDD) PROCESS
• This is a view from typical database
systems and data warehousing
Pattern Evaluation
communities
• Data mining plays an essential role in
the knowledge discovery process Data Mining

Task-relevant Data

Data Warehouse Selection

Data Cleaning

Data Integration
2

Databases
DATA MINING IN BUSINESS INTELLIGENCE

Increasing potential
to support
business decisions End User
Decision
Making

Data Presentation Business


Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses


DBA
Data Sources 3
Paper, Files, Web documents, Scientific experiments, Database Systems
KDD PROCESS: A TYPICAL VIEW FROM ML AND STATISTICS

Input Data Data Pre- Data Post-


Processing Mining Processing

Data integration Pattern discovery Pattern evaluation


Normalization Association & correlation Pattern selection
Feature selection Classification Pattern interpretation
Clustering
Dimension reduction Pattern visualization
Outlier analysis
…………

• This is a view from typical machine learning and statistics communities 4


EXAMPLE: MEDICAL DATA MINING

• Health care & medical data mining – often adopted such a view in statistics
and machine learning
• Preprocessing of the data (including feature extraction and dimension
reduction)
• Classification or/and clustering processes
• Post-processing for presentation

5
PENGENALAN DATA WAREHOUSE
PENGERTIAN DATA WAREHOUSE

• Data warehouse adalah koleksi data yang mempunyai sifat berorientasi


subjek, terintegrasi, time-variant, dan bersifat tetap dari koleksi data dalam
mendukung proses pengambilan keputusan management.
• Datawarehouse merupakan database yang bersifat analisis dan read only
yang digunakan sebagai fondasi dari sistem penunjang keputusan.
• Data warehouse merupakan database relasional yang didesain lebih kepada
query dan analisa dari pada proses transaksi, biasanya mengandung history
data dari proses transaksi dan bisa juga data dari sumber lainnya.
DATA WAREHOUSE
• Data warehouse adalah basis data yang menyimpan data
sekarang dan data masa lalu yang berasal dari berbagai
sistem operasional dan sumber yang lain (sumber eksternal)
yang menjadi perhatian penting bagi manajemen dalam
organisasi dan ditujukan untuk keperluan analisis dan
pelaporan manajemen dalam rangka pengambilan keputusan

• Data warehouse digunakan untuk mendukung pengambilan


keputusan, bukan untuk melaksanakan pemrosesan transaksi

• Data warehouse hanya berisi informasi-informasi yang relevan


bagi kebutuhan pemakai yang dipakai untuk pengambilan
keputusan
SIFAT DATA WAREHOUSE
• Multidimensional yang berarti bahwa terdapat banyak
lapisan kolom dan baris.
Tahun n-4
Tahun n-3
Tahun n-2
Tahun n-1

Jawa Tengah

Jawa Barat

Produk 3

Produk 2

Produk 1

Berdasarkan susunan data seperti itu, amatlah mudah untuk memperoleh


jawaban atas pertanyaan seperti: “Berapakah jumlah produk 1 terjual di
Jawa Tengah pada tahun n-3?”
MANFAAT
• Pembuatan laporan
Pembuatan laporan merupakan salah satu kegunaan data
warehouse yang paling umum dilakukan. Dengan
menggunakan query sederhana didapatkan laporan perhari,
perbulan, pertahun atau jangka waktu kapanpun yang
diinginkan.
• On-Line Analytical Processing (OLAP)
Dengan adanya data warehouse,semua informasi baik detail
maupun hasil summary yang dibutuhkan dalam proses analisa
mudah didapat.

• OLAP mendayagunakan konsep data multi dimensi dan


memungkinkan para pemakai menganalisa data sampai
mendetail
• Fasilitas lain yang ada pada sofware OLAP adalah fasilitas rool-up dan drill-
down.
• Drill-downadalah kemampuan untuk melihat detail dari suatu informasi dan
Roll-up adalah kebalikannya.
• Data mining
Data mining merupakan proses untuk menggali(mining)
pengetahuan dan informasi baru dari data yang berjumlah
banyak pada data warehouse. Data mining merupakan
teknologi yang diharapkan dapat menjembatani komunikasi
antara data dan pemakainya.
RAMELHO

• Datadiorganisir dengan baik untuk query analisis dan sebagai bahan untuk
pemrosesan transaksi.

• Perbedaan diantara struktur data yang heterogen pada beberapa sumber


yang terpisah dapat diatasi.
• Aturan untuk transformasi data diterapkan untuk memvalidasi dan
mengkonsolidasi data apabila data dipindahkan dari database OLTP ke
data warehouse.

• Masalah keamanan dan kinerja bisa dipecahkan tanpa perlu mengubah


sistem produksi.
SEAN NOLAN,TOM HUGUELET

• Kemampuan untuk mengakses data yang besar

• Kemampuan untuk memiliki data yang konsisten

• Kemampuan kinerja analisa yang cepat

• Mengetahui adanya hasil yang berulang-ulang


• Menemukan adanya celah pada business knowledge atau
business process.

• Mengurangi biaya administrasi

• Memberi wewenang pada semua anggota dari perusaahan


dengan menyediakan kepada mereka informasi yang
dibutuhkan agar kinerja bisa lebih efektif
ISTILAH-ISTILAH YANG BERHUBUNGAN DENGAN
DATA WAREHOUSE
• Data Mart
Adalah suatu bagian pada data warehouse yang mendukung pembuatan
laporan dan analisa data pada suatu unit, bagian atau operasi pada suatu
perusahaan.
• On-Line Analytical Processing(OLAP)
Merupakan suatu pemrosesan database yang menggunakan
tabel fakta dan dimensi untuk dapat menampilkan berbagai
macam bentuk laporan, analisis, query dari data yang
berukuran besar.
• On-Line Transaction Processing(OLTP)
Merupakan suatu pemrosesan yang menyimpan data
mengenai kegiatan operasional transaksi sehari-hari.
• Dimension Table
Tabel yang berisikan kategori dengan ringkasan data detail yang dapat
dilaporkan. Seperti laporan laba pada tabel fakta dapat dilaporkan
sebagai dimensi waktu(yang berupa perbulan, perkwartal dan pertahun).
• Fact Table
Merupakan tabel yang umumnya mengandung angka dan
data history dimana key (kunci) yang dihasilkan sangat unik,
karena key tersebut terdiri dari foreign key(kunci asing) yang
merupakan primary key (kunci utama) dari beberapa
dimension table yang berhubungan
• DSS
Merupkan sistem yang menyediakan informasi kepada
pengguna yang menjelaskan bagaimana sistem ini dapat
menganalisa situasi dan mendukung suatu keputusan yang
baik.
ARSITEKTUR DATA WAREHOUSE

• Penerapanawal dari arsitektur data warehouse dibuat berdasarkan konsep


bahwa data warehouse mengambil data dari berbagai sumber dan
memindahkannya ke dalam pusat pengumpulan data yang besar. Konsep ini
sebenarnya lebih cenderung kepada sebuah lingkungan mainframe yang
terpusat.
3 JENIS DASAR SISTEM DATA WAREHOUSE

• Functional Data Warehouse (Data Warehouse Fungsional)


Kata operasional disini merupakan database yang diperoleh
dari kegiatan sehari-hari.
Data warehouse dibuat lebih dari satu dan dikelompokkan
berdasar fungsi-fungsi yang ada di dalam perusahaan
seperti fungsi keuangan(financial),marketing,personalia dan
lain-lain
• Keuntungandari bentuk data warehouse seperti ini adalah,
sistem mudah dibangun dengan biaya relatif murah
sedangkan kerugiannya adalah resiko kehilangan konsistensi
data dan terbatasnya kemampuan dalam pengumpulan data
bagi pengguna
BENTUK DATA WAREHOUSE FUNGSIONAL
CENTRALIZED DATAWAREHOUSE
(DATA WAREHOUSE TERPUSAT)

• Bentukini terlihat seperti bentuk data warehouse fungsional, namun terlebih


dahulu sumber data dikumpulkan dalam satu tempat terpusat, kemudian data
disebar ke dalam fungsinya masing-masing, sesuai kebutuhan persuhaan.
• Datawarehouse terpusat ini, biasa digunakan oleh perusahaan yang belum
memiliki jaringan eksternal
• Keuntungan dari bentuk ini adalah data benar-benar terpadu karena
konsistensinya yang tinggi sedang kerugiannya adalah biaya yang mahal
serta memerlukan waktu yang cukup lama untuk membangun
BENTUK DATA WAREHOUSE TERPUSAT
DISTRIBUTED DATA WAREHOUSE
(DATA WAREHOUSE TERDISTRIBUSI)

Pada data warehouse terdistribusi ini, digunakan gateway


yang berfungsi sebagai jembatan penghubung antara data
warehouse dengan workstation yang menggunakan sistem
beraneka ragam.
Dengan sistem terdistribusi seperti ini memungkinkan
perusahaan dapat mengakses sumber data yang berada
diluar lokasi perusahaan(eksternal)
• Keuntungannyaadalah data tetap konsisten karena sebelum
data digunakan data terlebih dahulu di sesuaikan atau
mengalami proses sinkronisasi.
• Sedangkan kerugiannya adalah lebih kompleks untuk
diterapkan karena sistem operasi dikelola secara terpisah
juga biaya nya yang paling mahal dibandingkan dengan dua
bentuk data warehouse lainnya
BENTUK DATA WAREHOUSE TERDISTRIBUSI

Anda mungkin juga menyukai