Pertemuan 2
Hari Purwanto
hari_1271@yahoo.co.id
Course Outline
1. KDD & Data Warehouse
2. Beda KDD dan Data Mining
3. Tahapan Dalam KDD
4. Data Warehouse
5. Data
KDD & Data Warehouse
Beda KDD dan Data Mining ?
Definisi sederhana dari KDD adalah proses dalam
mengidentifikasi pola-pola di dalam data secara
yang valid, berguna dan tentunya dapat
dimengerti.
Sedangkan definisi dari data mining adalah
ekstraksi pola atau model dari data yang diamati.
Meskipun data mining ada pada inti dari proses
discovery knowledge, tetapi data mining ini
biasanya mengambil hanya sebagian kecil
(diperkirakan 15% sampai 25%) dari proses secara
menyeluruh.
Tahapan Dalam KDD
Tahapan Dalam KDD (lanjutan…)
Pemilihan Data (Data Preprocessing/Cleaning)
• Pemprosesan pendahuluan dan pembersihan data merupakan
operasi dasar seperti penghapusan noise dilakukan.
Transformasi Data
• Pencarian fitur-fitur yang berguna untuk
mempresentasikan data bergantung kepada goal yang
ingin dicapai.
• Merupakan proses transformasi pada data yang telah
dipilih, sehingga data tersebut sesuai untuk proses
data mining. Proses ini merupakan proses kreatif dan
sangat tergantung pada jenis atau pola informasi yang
akan dicari dalam basis data
Tahapan Dalam KDD (lanjutan…)
Data Mining
• Pemilihan tugas data mining; pemilihan goal dari proses
KDD misalnya klasifikasi, regresi, clustering, dll.
• Pemilihan algoritma data mining untuk pencarian
(searching)
• Proses Data mining yaitu proses mencari pola atau
informasi menarik dalam data terpilih dengan
menggunakan teknik atau metode tertentu. Teknik,
metode, atau algoritma dalam data mining sangat
bervariasi. Pemilihan metode atau algoritma yang tepat
sangat bergantung pada tujuan dan proses KDD secara
keseluruhan.
Tahapan Dalam KDD (lanjutan…)
Interpretasi/Evaluasi
• Penerjemahan pola-pola yang dihasilkan dari data
mining.
• Pola informasi yang dihasilkan dari proses data mining
perlu ditampilkan dalam bentuk yang mudah dimengerti
oleh pihak yang berkepentingan.
• Tahap ini merupakan bagian dari proses KDD yang
mencakup pemeriksaan apakah pola atau informasi
yang ditemukan bertentangan dengan fakta atau
hipotesa yang ada sebelumnya.
Pengantar Data Warehouse
1. Mengapa Kita Perlu Data Warehouse
2. Data Warehouse
3. Sejarah Data Warehouse
4. Karakteristik Data Warehouse
5. Istilah-istilah Data Warehouse
6. Arsitektur Data Warehouse
7. Data
Mengapa Kita Perlu
Data Warehouse?
Permasalahan Database Saat ini
Ketika organisasi memiliki kantor lebih dari satu,
setiap kantor akan membuat DBMS sendiri.
• Jikalau development tidak dikontrol secara terpusat,
coding untuk DBMS antar cabang akan berbeda.
Sangat sulit mengintegrasi database untuk informasi tertentu.
Walaupun semua nama variable mengarah ke attribute
yang sama, integrasi dari database tetap menyulitkan
• Objek yang sama (misal, tabel pelanggan) kemungkinan
memiliki fields yang berbeda.
Di satu table terdiri dari,
- Costumer name, address1, address2, address3, customerid
Di table yang laen
- Customer name, address1, address2, city, state, country, costumerid
Permasalahan Database Saat ini
Permasalahan lain: unit dari ukuran
• Misal: unit untuk mata uang di database indonesia
adalah rupiah, sedangkan di database di singapore
menggunakan mata uang dollar singapore
• Jadi akses data dan konsolidasi data dari dua database
tidak dapat langsung dilakukan.
E-R model untuk data operasional menjadi lebih
kompleks dan sangat sulit untuk dipelajari.
Solusi :
DATA WAREHOUSE
Apa itu Data Warehouse?
Data Warehouse adalah koleksi data yang mempunyai
sifat berorientasi subjek, terintegrasi, time-variant, dan
bersifat tetap dari koleksi data dalam mendukung
proses pengambilan keputusan management.
Data Warehouse merupakan teknik baru yang powerful
yang membuatnya untuk mengekstrak data operasional
yang diarsipkan dan mengatasi ketidakkonsistenan dari
format-format data warisan yang berbeda.
Sejarah Data Warehouse
Pada tahun 1970-an aplikasi komersial pertama dibangun untuk
operasi bisnis sehari-hari
• Sistem ini dibangun pada computer mainframe, yang sangat
mahal
• Sistem ini fokus pada bagaimana menyisipkan data baru dan
membaca data secara berurutan menggunakan magnetic
tapes
Muncul sistem managemen database pertama yang
mengorganisasi data secara hirarki atau dalam bentuk jaringan
• COBOL membuat laporan membutuhkan waktu
Pada saat data dapat diakses secara langsung, mulai dibangun
sistem pemrosesan transaksi secara online (OLTP)
Sejarah Data Warehouse
Pada saat sistem OLTP dibangun untuk effisiensi
pengumpulan data, tantangan utama adalah
seberapa bagus data ini bisa interprestasikaan.
Tahun 1980-an, mulai dilakukan tinjauan bisnis
secara menyeluruh
• Entreprise Data Warehouse pertama
BILL INMON Bapaknya Data WareHousing
Karakteristik Data Warehouse
Subject Oriented
Data warehouse berorientasi subjek, artinya data
warehouse berorientasi terhadap subjek-subjek
utama dalam suatu perusahaan, misalnya
perusahaan asuransi menggunakan data
warehouse yang mengorganisasi data mereka
sebagai customer, premi dan klaim daripada
dengan produk-produk berbeda (otomotif, jiwa,
dan sebagainya).
Dapat juga dikatakan bahwa data warehouse
didesain untuk membantu dalam menganalisis
data berdasarkan subjek-subjek tertentu sehingga
hanya data yang benar-benar diperlukan yang
dimasukkan ke dalam data warehouse.
Karakteristik Data Warehouse (……)
Integrated
Ketika data menempati aplikasi2 yang terpisah dalam
lingkungan operasional, pengkodean data seringkali tidak
konsisten.
Contoh : Dalam satu aplikasi, Gender mungkin dikodekan “m”
dan “f”, ada juga 0 dan 1.
Saat data dipindahkan kedalam data warehouse, maka data
akan dikonvensikan pengkodean dengan konsisiten, misalnya
menjadi “m” dan “f”.
Data warehouse dapat menyimpan data-data yang berasal dari
sumber-sumber yang terpisah ke dalam suatu format yang
konsisten dan saling terintegrasi satu sama lain. Data tidak
dapat dipecah-pecah karena data yang ada merupakan suatu
kesatuan yang menunjang keseluruhan konsep data
warehouse itu sendiri.
Karakteristik Data Warehouse
Non Volatile
Data-data dalam sebuah Data Warehouse tidak
dapat diubah (tidak dapat di-update). Data-data
tersebut merupakan data historis yang digunakan
untuk memenuhi kebutuhan analisis, bukan untuk
menangani transaksi seperti pada basis data
transaksional pada umumnya. Hanya ada dua
operasi initial loading of data dan access of data.
Karakteristik Data Warehouse
Time Variant
Data yang berada di dalam data warehouse akurat
dan valid pada titik waktu tertentu atau dalam
interval waktu tertentu (hanya pada saat proses
ETL/update).
Setiap data yang dimasukkan ke data warehouse
pasti memiliki dimensi waktu. Dimensi waktu ini
akan dipergunakan sebagai pembanding dalam
perhitungan untuk menghasilkan laporan yang
diinginkan.
Selain itu, dengan menggunakan dimensi waktu,
pembuat keputusan dapat mengenal
kecenderungan dan pola dari suatu data.
Istilah-istilah Data Warehouse
1. Data Mart
Bagian dari data warehouse yang mendukung kebutuhan pada
tingkat departemen atau fungsi bisnis tertentu dalam
perusahaan. Karakteristik yang membedakan data mart dan
data warehouse adalah sebagai berikut (Connolly, Begg,
Strachan 1999).
• Data Transaksi
Merupakan tipe khusus dari record data, dimana tiap
record (transaksi) meliputi satu set item.
Tipe Himpunan Data (Data Set)
TID Items
1 Bread, Coke, Milk
2 Mineral Water, Bread
3 Mineral Water, Coke, Diaper, Milk
4 Mineral Water, Bread, Diaper, Milk
5 Coke, Diaper, Milk
• Data Graph
Merupakan data dalam bentuk graph yang terdiri dari
simpul (node) dan rusuk (edge).
Tipe Himpunan Data (Data Set)
• Data Terurut
Data-data yang memperhatikan urutan nilai-nilainya.
Yang termasuk data terurut adalah Genomic Sequence
Data atau Spatio Temporal Data