KNOWLEDGE DISCOVERY IN DATABASES Bertalya Universitas Gunadarma 2009 Data Mining (DM) DM merupakan suatu proses penjelajahan otomatis untuk mendapatkan informasi berguna dalamsuatu repositori data yang sangat besar. DM merupakan bagian yg terintegrasi dari Knowledge Discovery in Databases (KDD). KDD terbagi atas 3 tahap secara global yakni Data preprocessing Data mining Postprocessing DM dan KDD 2 Tahap-tahap pada KDD Data preprocessing, bertujuan mentransformasikan data mentah ke format yg sesuai utk analisis. Terdiri atas proses seleksi fitur, reduksi dimensionalitas, normalisasi dan subsetting data Postprocessing, bertujuan untuk menjamin bahwa hasil proses data mining yg diintegrasikan pada sistem penunjang keputusan, benar2 hasil yg valid. Terdiri atas proses penapisan pola, visualisasi dan interpretasi pola DM dan KDD 3 (KDD) Proses transformasi data mentah menjadi informasi berguna DM dan KDD 4 Tahap-tahap Detail pada KDD Seleksi proses penyeleksian atau segmentasi data menurut beberapa kriteria, mis. Orang-orang yang mempunyai mobil Preprocessing proses pembersihan data, dimana informasi yg tidak dibutuhkan dibuang, Mis. J enis kelamin pasien utk analisis kehamilan Data dikonfigurasi ulang untuk memastikan format yg konsisten krn berasal dari berbagai sumber. Mis. J enis kelamin disimpan dgn bentuk f atau m dan 1 atau 0 DM dan KDD 5 Tahap2 pada KDD (lanj.) Transformasi proses transformasi sehingga data menjadi berguna dan dapat ditelusuri. Data Mining proses yg berfokus pada ekstraksi pola2 data. Pola dapat didefinisikan sebagai sekumpulan fakta2 (data) F, bahasa L, dan beberapa measure of certainty (pengukuran kepastian) C. Suatu pola dinyatakan S dalamL menggambarkan keterhubungan antara subset Fs dari F dgn kepastian c dimana S adalah simpel dibandingkan perhitungan semua fakta dalamFs. DM dan KDD 6 Tahap2 pada KDD (lanj.) Interpretasi & Evaluasi pola diidentifikasi sistem, lalu diinterpretasikan sebagai pengetahuan yg dapat digunakan utk mendukung pengambilan keputusan manusia, contoh tugas prediksi & klasifikasi, meringkas konten suatu database menjelaskan fenomena yg diamati DM dan KDD 7 Isu / Masalah DM Sistemdata mining bertumpu pada database2 yg memasok data mentah sebagai masukan. Masalah yg timbul a.l : Informasi yg terbatas Database dirancang utk tujuan berbeda dgn DM. Atribut2nya sederhana. Data yg tidak lengkap menimbulkan masalah karena apabila tidak terdapat atribut2 penting utk pengetahuan domain aplikasi tertentu, hal ini akan mengakibatkan kesulitan utk mendapatkan pengetahuan yg tepat utk domain tertentu. Contoh, tidak dapat mendiagnosa penyakit malaria dari database pasien apabila database tersebut tidak terdapat hasil pengukuran sel darah merah pasien DM dan KDD 8 Isu / Masalah DM (lanj.) Nilai data yg hilang atau noise Biasanya database terkontaminasi oleh kesalahan sehingga tidak dapat sepenuhnya dinyatakan bahwa database mempunyai data yg benar. Ketidakpastian Ketidakpastian merujuk pada tingkat kesalahan dan noise pada data Bidang yg tidak relevan & termodifikasi serta ukurannya Database cenderung sangat besar & dinamis, dimana kontennya selalu berubah2 (ditambah, dimodifikasi & dihapus). DM dan KDD 9 Isu / Masalah DM (lanj.) Masalahnya bagaimana menyakinkan bahwa aturan yg ada tetap up-to-date & konsisten dgn informasi yg ada. Selain itu, bidang database terkadang tidak relevan dgn fokus pencarian data. Contoh, kode pos merupakan hal dasar utk menyatakan hubungan mengenai sesuatu secara geografis, seperti penjualan produk. DM dan KDD 10 Arsitektur DM DM dan KDD 11 Graphical user interface Pattern evaluation Data mining engine Database or data warehouse server Knowledge-base Databases Databases Data Warehouse Data cleaning & data integration Filtering Data pada DM Database relasional Data warehouse Database transaksi Database lanjut & repositori informasi Database berorientasi objek & database relasional Database Spasial DataTime-series & data temporal Database teks & database multimedia Database heterogen & database legal WWW DM dan KDD 12