Anda di halaman 1dari 16

KNOWLEGDE DISCOVERY IN

DATABASE (KDD)
Pertemuan 2
Pendahuluan
Hampir setiap aktifitas kita pada saat ini menghasilkan data seperti berbelanja, mermedia social,
servis kendaraan, pengiriman dokumen dan lain sebagainya. Data yang dihasilkan tersebut tidak
sedikit dan semakin hari semakin menumpuk. Sebelum populernya Knowlegde Discovery In
Database (KDD)/ data mining/big data, data-data dibiarkan begitu saja, dianggap sampah dan
dibuang karena dianggap tidak bermanfaat. Perkembangan pengetahuan dan teknologi mulai
mengubah anggapan bahwa data hanya sampah yang tidak bermanfaat. Namun pada era saat ini
era industry 4.0) data banyak digunakan dalam berbagai bidan salah satunya dalam bisnis,
pembuatan kebijakan, pengambilan keputusan.
Apa Itu KNOWLEGDE DISCOVERY IN DATABASE
(KDD) ???
Knowledge Discovery in Database (KDD)
merupakan proses penemuan pengetahuan
dalam database. Secara lengkap KDD
didefinisikan sebagai proses ekstraksi atau
identifikasi pola, pengetahuan dan informasi
potensial dari sekumpulan data yang besar.
Pengetahuan dan informasi yang dihasilkan
dari KDD bersifat sah, baru, mudah dimengerti,
dan bermanfaat.
Tahapan Proses KDD
Proses penemuan pengetahuan dalam database atau Knowledge Discovery in
Database (KDD) tentu saja memerlukan data. Data yang digunakan adalah data
yang sudah terpisah dengan data operasional.
1.Data Cleaning and Integration
• Data cleaning (Pembersihan data) bertujuan untuk menghilangkan noise dan data yang tidak
konsisten
• Data integration (Penggabungan data) bertujuan untuk menggabungkan data-daya yang berasal
dari berbagai sumber.
Tren yang populer di industri informasi adalah melakukan pembersihan data dan penggabungan
data sebagai langkah preprocessing, di mana data yang dihasilkan disimpan dalam data warehouse.

2. Data Selection and transformation


• Data selection (Seleksi data) berfungsi untuk mengambil data dari database yang relevan dengan
tugas analisis.
• Data transformation (Transformasi data) berfungsi mentransformasikan dan mengkonsolidasikan
data ke dalam bentuk yang sesuai untuk penambangan dengan melakukan operasi ringkasan atau
agregasi.
Terkadang transformasi dan konsolidasi data dilakukan sebelum proses seleksi data, khususnya
dalam kasus warehousing (pergudangan data). Data reduction (pengurangan data) juga dapat
dilakukan untuk mendapatkan representasi yang lebih kecil dari data asli tanpa mengorbankan
integritasnya.
3. Data Mining
• Data mining (penambangan data) merupakan proses penting di mana metode cerdas diterapkan
untuk mengekstrak pola data.

4. Evaluation and presentation


• Pattern Evaluation (Evaluasi pola) berfungsi untuk mengidentifikasi pola-pola yang benar-benar
menarik yang mewakili pengetahuan berdasarkan ukuran-ukuran yang menarik.
• Knowledge presentation (Presentasi pengetahuan) digunakan untuk memvisualisasikan dan
merepresentasikan pengetahuan yang ditambang kepada pengguna.

Langkah 1 dan langkah 2 merupakan bentuk-bentuk pengolahan awal (preprocessing) data, untuk
persiapan data mining. Langkah data mining dapat berinteraksi dengan pengguna atau basis
pengetahuan. Pola-pola yang menarik disajikan kepada pengguna dan dapat disimpan sebagai
pengetahuan baru di basis pengetahuan.

Dari uraian di atas dapat diketahui bahwa data mining merupakan salah satu langkah dalam proses
KDD. Namun, dalam industri, media, dan di lingkungan penelitian, istilah data mining sering
digunakan untuk merujuk pada keseluruhan proses KDD. (mungkin karena istilah data mining lebih
pendek daripada Knowledge Discovery in Database)
DATA MINING
DATA MINING MENURUT AHLI
• (Suntoro, 2019) data mining adalah proses untuk mendapatkan
informasi yang berguna dari basis data yang besar dan perlu
diekstraksi agar menjadi informasi baru dan dapat membantu dalam
pengambilan keputusan
• (Witten, 2016) Data mining adalah proses menganalisa data dari yang
berbeda dan menyimpulkannya menjadi informasi atau pengetahuan
atau pola yang penting untuk meningkatkan keuntungan,
memperkecil biaya pengeluaran, atau bahkan keduanya
• (Davies, 2004) data mining adalah penambangan atau penemuan
informasi baru dengan mencari pola atau aturan tertentu dari
sejumlah data yang sangat besar
Data mining adalah suatu proses pengerukan/penggalian atau
pengumpulan informasi penting dari suatu data yang besar untuk
mendapatkan informasi baru dan dapat membantu dalam pengambilan
keputusan
Data mining salah satu bidang ilmu yang perkembangannya sangat
pesat, perkembangan tersebut disebabkan oleh beberapa factor, antara
lain :
1. Semakin tingginya kesadaran akan pentingnya data
2. Perkembangan kumpulan data yang begitu cepat
3. Peningkatan akses internet
4. Perkembangan hardware dan software
Mengapa Memerlukan Data Mining ??

Mengapa Tidak Analisis Data Biasa??


Alasan Mengapa Tidak Analisis Data Biasa??
• Jumlah Algoritma sangat besar
 Algoritma harus scalable (mampu menangani penambahan beban--misalnya penambahan
volume data atau jumlah pengguna--tanpa penurunan kinerja yang berarti)
• Dimensi yang sangat besar : ribuan field (kumpulan dari karakter yang
membentuk satu arti)
• Data Kompleks
 Aliran data dan sensor
 Data terstruktur, graph,diagram
 Database dari berbagai sumber
 Spasial (peta), text
• Banjir data
Twitter: 8000an tweet per detik  600 juta tweet per hari.
Facebook: 30 milyar item (link, status, note, foto dst) per bulan. 500 juta user
menghabiskan 700 milyar menit per bulan di situs FB.
Indomaret: 4500an gerai, asumsikan 3 transaksi per menit = 12 juta transaksi per
hari se Indonesia.
Kartu kredit visa: berlaku di 200 negara. 10 ribu transaksi per detik  850 juta
transaksi per hari
Kita tenggelam dalam data,
tapi haus akan ilmu!
Keuntungan Data Mining
• Perusahaan fokus ke informasi yg berharga di
datawarehouse/databasenya.
• Meramalkan masa depan  perusahaan dapat mempersiapkan diri
Contoh
Midwest grocery chain menggunakan DM untuk menganalisisi pola
pembelian: saat pria membeli popok di hari Kamis dan Sabtu, mereka
juga membeli minuman.

Analisis lebih lanjut: pembeli ini belanja di hari kamis dan sabtu, tapi
di hari kamis jumlah item lebih sedikit. Kesimpulan yang diambil:
pembeli membeli minuman untuk dihabiskan saat weekend.

Tindak lanjut: menjual minuman dengan harga full di hari Kamis dan
Sabtu. Mendekatkan posisi popok dan minuman.

Anda mungkin juga menyukai