Anda di halaman 1dari 30

Knowledge Discovery on

Database and Data Warehouse


Goldie Gunadi, S.Kom., M.Kom
Definisi Knowledge Discovery in
Database (KDD)
Knowledge discovery in databases (KDD) adalah
keseluruhan proses untuk mencari dan
mengidentifikasi pola (pattern) dalam data,
dimana pola yang ditemukan dapat bermanfaat
dan dapat dimengerti.
KDD berhubungan dengan teknik integrasi,
interpretasi dan visualisasi dari pola-pola
sejumlah kumpulan data.
Tahapan Proses KDD
Pemilihan Data (Selection)
• Menciptakan himpunan data target, pemilihan
himpunan data, atau memfokuskan pada subset
variabel atau sampel data, dimana penemuan
(discovery) akan dilakukan.
• Hasil seleksi disimpan dalam suatu berkas,
terpisah dari basis data operasional.
Pre-processing / Cleaning
• Pre-processing dan cleaning data merupakan
operasi dasar yang dilakukan seperti
penghapusan noise.
• Proses cleaning mencakup antara lain
membuang duplikasi data, memeriksa data yang
inkonsisten, dan memperbaiki kesalahan pada
data, seperti kesalahan cetak.
• Data bisa diperkaya dengan data atau informasi
ekternal yang relevan.
Transformation
• Merupakan proses integrasi pada data yang
telah dipilih, sehingga data sesuai untuk proses
data mining.
• Merupakan proses yang sangat tergantung pada
jenis atau pola informasi yang akan dicari dalam
basis data.
Data mining
• Pemilihan tugas data mining merupakan pemilihan
goal dari proses KDD misalnya karakterisasi,
klasifikasi, regresi, clustering, asosiasi, dll.
• Proses Data Mining yaitu proses mencari pola atau
informasi menarik dalam data terpilih dengan
menggunakan teknik, metode atau algoritma
tertentu yang bervariasi.
• Pemilihan teknik, metode atau algoritma yang tepat
sangat bergantung pada tujuan dan proses KDD
secara keseluruhan.
Interpretation/ Evaluation
• Yaitu penerjemahan pola-pola yang dihasilkan
dari data mining.
• Pola informasi yang dihasilkan perlu
ditampilkan dalam bentuk yang mudah
dimengerti.
• Tahap ini melakukan pemeriksaan apakah pola
atau informasi yang ditemukan bertentangan
dengan fakta atau hipotesa yang ada
sebelumnya.
Data Pre-processing : Alat dan Metode
• Sampling : menyeleksi subset representatif
dari populasi data yang besar.
• Transformation : memanipulasi data mentah
untuk menghasilkan input tunggal.
• Denoising : menghilangkan noise dari data
• Normalization : mengorganisasi data untuk
pengaksesan yang lebih spesifik
• Feature Extraction : membuka spesifikasi
data yang signifikan dalam konteks tertentu.
Data Reduction
• Data reduction merupakan teknik yang
digunakan untuk mentransformasi dari data
mentah ke bentuk format data yang lebih
berguna. Sebagai contoh groupping, counting,
summing dan averaging data.
• Data reduction dilakukan untuk mengatasi
ukuran data yang terlalu besar yang dapat
menimbulkan ketidakefisienan proses dan
peningkatan biaya pemrosesan.
Definisi Data Warehouse
Data Warehouse adalah pusat informasi yang
mampu memberikan database berorientasi
subyek untuk informasi yang bersifat historis yang
mendukung DSS (Decision Support System) dan
EIS (Executive Information System).
Tujuan Data Warehouse
Meningkatkan kualitas dan akurasi
informasi bisnis dan mengirimkan
informasi ke pemakai dalam bentuk
yang dimengerti dan dapat diakses
dengan mudah.
Arsitektur Data Warehouse
Kegunaan Data Warehouse
• Pembuatan Laporan
Dapat menghasilkan laporan per periode.
• Menganalisis data (OLAP)
Melakukan analisis bisnis untuk menyelidiki
kecenderungan pasar dan faktor penyebabnya.
• Data Mining
Mencari pola dan hubungan data untuk
mengambil keputusan
• Proses Informasi Eksekutif
Mencari informasi kunci yang penting
Ciri-ciri Data Warehouse
• Subject Oriented
▫ Data disusun dan dikelompokkan berdasarkan
subyek yang berisi hanya informasi yang penting
bagi pemrosesan decision support.
▫ Subyek dirangkum ke dalam dimensi, misalnya :
periode waktu, produk, wilayah, dsb,.
Ciri-ciri Data Warehouse (2)
• Integrated
▫ Jika data terletak pada berbagai aplikasi yang
terpisah,encoding data sering tidak seragam sehinggga
bila data dipindahkan ke data warehouse maka coding
akan diasumsikan sama
• Time-variant
▫ Data warehouse adalah tempat untuk storing data
selama 5 sampai 10 tahun atau lebih
• Non Volatile
▫ Data tidak dapat diperbaharui atau dirubah tetapi
hanya dapat dilihat.
ETL (Extraction, Transformation,
Loading)
Proses ETL (Extraction,
Transformation, Loading) merupakan
proses yang harus dilalui dalam
pembentukan data warehouse
(Kimball, 2004).
Ekstraksi Data (Extract)
Ekstraksi data adalah proses dimana data diambil atau
diekstrak dari berbagai sistem operasional, baik
menggunakan query, atau aplikasi ETL. Terdapat
beberapa fungsi ekstraksi data, yaitu :

• Ekstraksi data secara otomatis dari aplikasi sumber.


• Penyaringan atau seleksi data hasil ekstraksi.
• Pengiriman data dari berbagai platform aplikasi ke
sumber data.
• Perubahan format layout data dari format aslinya.
• Penyimpanan dalam file sementara untuk penggabungan
dengan hasil ekstraksi dari sumber lain.
Transformasi Data (Transformation)
Transformasi adalah proses dimana data mentah (raw data) hasil
ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang
berlaku. Langkah-langkah dalam transformasi data adalah sebagai
berikut :

• Memetakan data input dari skema data aslinya ke skema data


warehouse.
• Melakukan konversi tipe data atau format data.
• Pembersihan serta pembuangan duplikasi dan kesalahan data.
• Penghitungan nilai-nilai derivat atau mula-mula.
• Penghitungan nilai-nilai agregat atau rangkuman.
• Pemerikasaan integritas referensi data.
• Pengisian nilai-nilai kosong dengan nilai default.
• Penggabungan data.
Pengisian Data (Loading)
Proses terakhir yang perlu dilakukan adalah
proses pemuatan data yang didapatkan dari hasil
transformasi ke dalam data warehouse. Cara
untuk memuat data adalah dengan menjalankan
SQL script secara periodik.
Arsitektur ETL
Definisi Data Mart
• Data Mart adalah subset dari data warehouse
yang mendukung kebutuhan informasi dari
departemen atau fungsi bisnis tertentu.
• Data Mart adalah struktur data yang
cakupannya lebih kecil dari data warehouse
dimana data dibagi berdasarkan kebutuhan
informasi setiap departemen.
Arsitektur Data Mart
OLAP
OLAP (Online Analitycal Processing) adalah
teknologi yang memproses data di dalam database
dalam struktur multidimensi, menyediakan
jawaban yang cepat untuk query dan analisis yang
kompleks. Data yang disajikan biasanya
merupakan suatu fungsi agregasi seperti
summary, max, min, average dan lain-lain.
Arsitektur OLAP
Database Multidimensi
Database multidimensi utama digunakan untuk
analisis dan aplikasi data mining. Database
multidimensi adalah suatu bentuk database di mana
data disimpan dalam cell dan posisi setiap cell
didefinisikan oleh sejumlah hierarki disebut dimensi.
Setiap cell merupakan event bisnis, dan nilai dimensi
menunjukkan kapan dan di mana event tersebut
terjadi. Struktur menyimpan nilai-nilai agregat serta
nilai-nilai dasar, biasanya dalam format terkompresi
array multidimensi, bukan di tabel RDBMS. Nilai
agregat adalah ringkasan precomputed dari nilai-nilai
dasar.
Keuntungan Database Multidimensi
• Database multidimensi biasanya digunakan untuk
intelijen bisnis (BI), terutama untuk pengolahan analisis
online (OLAP) dan data mining (DM).
• Keuntungan menggunakan database multidimensi untuk
OLAP dan DM daripada database relasional seperti
menyimpan data dimensi (DSS) adalah bahwa mereka
menggunakan sedikit ruang disk dan memiliki kinerja
yang lebih baik.
• Database multidimensi melakukan lebih baik pada
operasi OLAP karena agregat precalculated dan karena
cara data disimpan secara fisik (terkompresi Format
array multidimensi dengan posisi offset) meminimalkan
jumlah operasi IO (membaca disk), dibandingkan
dengan menyimpan tabel dalam RDBMS.
Data Warehouse / Data Mart VS OLTP
Data Warehouse / Data Mart OLTP
Menyimpan data historis Menyimpan data saat ini

Menyimpan detailed, lightly, highly, Menyimpan detailed data


summary data

Data bersifat statis Data bersifat dinamis

Mengarah pada analisis Mengarah pada transaksi

Berorientasi pada subjek Berorientasi pada aplikasi

Mendukung keputusan strategi Mendukung keputusan sehari-hari

Pemakai manajerial dalam tingkat Pemakai operasional dalam jumlah


yang relatif rendah yang besar
OLTP vs OLAP
OLTP OLAP
Tujuan Mengotomatisasi bisnis Mengoptimalkan bisnis
Penggunaan Proses transaksi Pelaporan, Analisis, Modeling,
Perencanaan

Skema Dua dimensi, Normalisasi Multi Dimensi, Hirarki


Navigasi Didasarkan pada langkah kerja Didasarkan pada cara user
transaksi menganalisis

Penghitunga Agregasi, Matriks Sederhana Agregasi, Matriks, Dimensi


n saling silang, Perumusan,
Prosedural
Implementas Lambat dalam penyebaran, dan Cepat dalam penyebaran, adan
i mudah untuk diubah datanya susah untuk diubah datanya

Anda mungkin juga menyukai