Anda di halaman 1dari 11

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA

Modul I INTRODUCTION to DATA MINING

I.1 TUJUAN PRAKTIKUM 1. Mahasiswa dapat mengetahui tentang Knowledge Discovery in Databases 2. Mahasiswa dapat mengetahui tentang Data Mining dan aplikasinya dalam dunia industri 3. Mahasiswa dapat mengaplikasikan teknik teknik Data Mining dalam dunia industri

I.2 LANDASAN TEORI 1.2.1 Knowledge Discovery in Databases (KDD)

Gambar 1.1 Tahapan-tahapan dalam proses KDD

Knowledge discovery in databases (KDD) adalah keseluruhan proses untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti. KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi dari pola-pola sejumlah kumpulan data (Osmar R. Zaane, 1999).

Ada beberapa tahapan dalam proses KDD, yaitu: 1. Selection Pemilihan atau penyeleksian data dari sekumpulan data operasional yang dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Dalam tahapan ini, kita memilih data-data seperti apa saja yang kita butuhkan untuk diproses lebih lanjut. 2. Preprocessing Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atributatribut data yang tidak relevan dengan hipotesa data mining yang kita miliki. Datadata yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya. Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga akan mempengaruhi performasi dari sistem data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya. 3. Transformation Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut binning. Disini juga dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknikteknik data mining tertentu yang tergantung pada tahapan ini. 4. Data mining Data mining merupakan proses untuk mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. 5. Interpretation and evaluation Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti. Tahap ini merupakan bagian dari proses KDD yang

mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya. KDD proses dapat melibatkan iterasi yang signifikan dan dapat berisi perulangan antara dua langkah. Dasar dari langkah- langkah digambarkan dalam gambar 1.1. Langkah-langkah awal dalam KDD difokuskan pada langkah keempat yaitu data mining. Meskipun demikian, langkah-langkah yang lain juga sama pentingnya (bahkan mungkin lebih penting) dalam keberhasilan aplikasi KDD. Setelah mendefinisikan dan memperkenalkan proses KDD, selanjutnya kita akan membahas tentang komponenkomponen data mining. 1.2.2 Data Mining Concept Dengan kecanggihan teknologi yang semakin meningkat, kini database mampu untuk menyimpan data berkapasitas terabytes atau sama dengan 1,000,000,000,000 bytes data. Dalam kumpulan data yang sangat banyak ini, tersimpan informasi tersembunyi yang merupakan strategi penting. Kelimpahan data, berpasangan dengan kebutuhan untuk tools analisis data yang kuat, telah digambarkan sebagai sebuah situasi kaya data tapi miskin informasi. Pertumbuhan yang cepat, data dengan jumlah yang banyak, dikumpulkan dan disimpan dalam database yang luas dan banyak, jauh melebihi kemampuan manusia untuk memahami tanpa tools yang kuat. Sebagai hasil, data dikumpulkan di database yang luas menjadi kuburan data, yaitu tempat penyimpanan data yang jarang di kunjungi kembali.

Gambar 1.2 Illustration of Rich data but Poor information

Konsekuensinya, keputusan-keputusan yang penting sering dibuat tidak berdasarkan data yang kaya informasi yang disimpan di database tapi cukup pada intuisi pembuat keputusan, dipermudah karena pembuat keputusan tidak mempunyai tools untuk menggali pengetahuan yang berharga dan disimpan dalam data yang berjumlah besar. Dalam penambahan, menimbang teknologi-teknologi expert sistem sekarang, dimana tipicalnya dipercayakan kepada pengguna (user) atau expert domain untuk menginputkan pengetahuan secara manual ke dasar pengetahuan. Sayangnya, prosedur ini cenderung berat sebelah dan error, dan menghabiskan banyak waktu dan biaya. Tools data mining dengan tampilan analisis data barangkali bisa mengungkap pola-pola data yang penting, memberi kontribusi yang besar untuk strategi-strategi bisnis,pengetauanpengetahuan dasar, penelitian ilmiah dan medis. Pelebaran jarak antara data dan informasi untuk sebuah pengembangan sistematis dari tools data mining yang akan merubah kuburan data menjadi tambang emas dari pengetahuan.

Gambar 1.3 Data mining - searching for knowledge in your data. Perkembangan luar biasa yang terus-menerus tentang discovery knowledge

mengakibatkan perlu dilakukannya penambangan data. Hal ini disebabkan oleh: 1. Kebutuhan akan informasi (atau pengetahuan) sebagai pendukung pengambilan keputusan untuk membuat solusi bisnis dan dukungan infrastruktur dibidang teknologi informasi meningkat. 2. Ledakan pertumbuhan pada pengumpulan data. 3. Banyak data yang dikumpulkan dan digudangkan, misal data penjualan di supermarket, transaksi bank/ kartu kredit, data nilai mahasiswa dan alumni dll. 4. Ketersediaan data transaksi dalam volume yang besar.

5. Ketersediaan teknologi informasi dalam skala yang terjangkau dan sudah dapat diadopsi secara luas. 6. Ketersediaan akses data yang meningkat (data dapat dikumpulkan dan disimpan dengan kecepatan tinggi). 7. Tekanan persaingan yang kuat untuk meningkatkan market share. 8. Pertumbuhan yang besar di tenaga komputer dan kapasitas penyimpanan. 9. Komputer menjadi alat yang lebih murah dan lebih powerful. 10. Teknik-teknik tradisional tidak dapat diterapkan untuk jumlah data yang besar. 11. Data mining dapat digunakan untuk reduksi data di bidang keilmuwan.

1.2.3

Mini Scale Data Mining Pada sisi lain, ada suatu konsep data mining dalam skala yang lebih kecil dimana

konsep ini mempunyai perbedaan dalam input data. Dalam data mining, data input didapat dari file penyimpanan data. Tetapi pada konsep data mining dalam skala yang lebih kecil, data input hanya bisa didapatkan dari analisis bisnis. Dalam aplikasi statistik tradisional, ukuran sample relatif kecil, data dikumpulkan dengan hati-hati, hasil contoh menyediakan suatu basis untuk kesimpulan, keganjilan lebih sering tidak diselesaikan, dan model lebih terstruktur. Di dalam data mining, ukuran sample dapat dalam ukuran yang besar: data menyebar dan historis ( secara rutin dicatat), sample digunakan untuk pelatihan, pengesahan, dan pengujian ( bukan kesimpulan formal); keganjilan merupakan suatu hal yang penting; dan model sering tidak

terstruktur. Lebih lanjut, data preparation termasuk kumpulan data, pembersihan dan penilaian, definisi dan pemilihan variabel merupakan proses yang sulit dan menggambarkan 60 - 80% dari proses dalam data mining.

1.2.4

Definisi Data Mining Berdasarkan Gartner Group, Data mining adalah proses dari penemuan hubungan

baru yang penuh makna, pola dan kecendrungan oleh penyelidikan melalui sekumpulan data yang sangat besar yang disimpan di gudang, penggunaan teknologi pengenalan pola sebaik teknik statistik dan matematik.

Selain itu, ada beberapa definisi lain tentang Data Mining, yaitu: a. Data mining adalah analisis dari (dalam cakupan luas) observasi data uji untuk menemukan hubungan yang tidak terduga dan untuk meringkaskan data dalam cara baru yang dapat dimengerti dan berguna bagi pemilik data. b. Data mining adalah dasar cabang dari ilmu pengetahuan yang menggabungkan teknik dari pembelajaran mesin, penemuan pola, statistik, database dan visulisasi untuk menyelesaikan persoalan dari pengambilan informasi dari database yang besar. c. Data mining adalah suatu bidang interdisciplinary yang bersama-sama membawa teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk menunjuk isu dalam penyaringan informasi dari data yang berukuran besar" (Evangelos Simoudis dalam Cabena et Al.). d. Data Mining adalah proses dalam menemukan pengetahuan menarik dari sejumlah data besar yang tersimpan dalam tiap database, gudang data, atau tempat penyimpanan informasi lain. e. Data Mining adalah ekstraksi dari prediksi informasi tersembunyi dari database yang berukuran besar. f. Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. g. Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya

1.2.5

Hubungan Data Mining dengan Ilmu Lain Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan

untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar 1.4 menunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistic, database dan juga information retrieval.

Gambar 1.4 Hubungan data mining dengan ilmu-ilmu lainnya Beberapa teknik yang sering disebut-sebut dalam literatur data mining seperti klasifikasi, neural network, genetic algorithm dll sudah lama dikenal di dunia kecerdasan buatan. Statistik memberikan kontribusi pada data mining dengan teknik-teknik untuk menyeleksi data dan evaluasi hasil data mining selain teknik-teknik data mining seperti klasterisasi. Yang membedakan persepsi terhadap data mining adalah perkembangan teknik-teknik data mining untuk aplikasi pada database skala besar. Sebelum populernya data mining, teknik-teknik tersebut pada umumnya diterapkan untuk data skala kecil saja. Selain itu beberapa teknik dari bidang database untuk transformasi data juga merupakan bagian integral dari proses data mining. Akhir-akhir ini ada beberapa bidang ilmu seperti information retrieval yang juga terlibat dalam proses data mining untuk mengekstrak sumber data bagi data mining dari sumber-sumber seperti teks dan website.

1.2.6

Pre-processing Data Pre-processing data adalah tahapan sebelum suatu data diproses, dapat berupa

pembersihan data, transformasi data, atau yang lainnya. Mengapa pre-processing data perlu dilakukan? Biasanya, data yang digunakan belum baik, penyebabnya antara lain: 1. Incomplete 2. Noisy diharapkan. 3. Inconsisten ketidakcocokan dalam penggunaan kode atau nama. kekurangan nilai-nilai atribut atau atribut tertentu lainnya. berisi kesalahan atau nilai-nilai outlier yang menyimpang dari yang

Tujuan Data Mining agar bermanfaat, database harus mengalami preprocessing, dalam wujud data yang bersih dan transformasi data. Data Mining sering berhadapan dengan data yang belum dilihat bertahun-tahun, sehingga sebagian besar data berisi nilainilai bidang yang sudah berakhir, yang tidak lagi relevan, atau yang hilang. Sasarannya adalah untuk memperkecil GIGO: untuk memperkecil sampah yang masuk ke dalam model kita sehingga kita dapat memperkecil jumlah sampah yang dikeluarkan.Untuk mendapatkan data yang baik, ada beberapa kriteria yang diperhatikan, antara lain: 1. Accuracy 2. Completeness 3. Consistency 4. Timeliness 5. Value added Metode metode yang digunakan dalam data pre-processing, antara lain: 1. Data cleaning Menghilangkan nilai-nilai data yang salah, memperbaiki kekacauan data dan memeriksa data yang tidak konsisten. 2. Data integrasi Menggabungkan data dari beberapa sumber (database, data cube, atau file) ke dalam penyimpanan data yang sesuai. 3. Data transformasi Normalisasi dan pengumpulan data sehingga menjadi sama. 4. Data reduksi Menguraikan data ke dalam bentuk yang lebih kecil ukurannya tetapi tetap menghasilkan hasil analitis yang sama. 5. Data diskretisasi Bagian dari data reduksi tetapi memiliki arti penting tersendiri, terutama untuk data numerik. 6. Interpretability 7. Accessibility 8. Contextual 9. Representational

Gambar 1.5 Pre-processing Data

1.2.7

Aplikasi Data Mining Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan

seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik. Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya: 1. Menembak target pasar Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya. 2. Melihat pola beli pemakai dari waktu ke waktu Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single account ke joint account (rekening bersama)

dan kemudian setelah itu pola beli-nya berbeda dengan ketika dia masih bujangan. 3. Cross-Market Analysis Kita dapat memanfaatkan data mining untuk melihat hubungan antara penjualan satu produk dengan produk lainnya, contohnya: a. Dari pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola? b. Dari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita bisa mengetahui dampak jika kita tidak lagi menjual IndoMie. 4. Profil Customer Data mining dapat membantu untuk melihat profil customer/ pembeli/ nasabah sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja. 5. Identifikasi Kebutuhan Customer Kita dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk bergabung/membeli.

1.2.8

Data Mining Techniques

Beberapa teknik Data Mining yang sering digunakan dalam dunia indutri antara lain: 1. Clustering Analisis cluster merupakan salah satu teknik data mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen daripada obyek yang berada pada kelompok yang berbeda.. 2. Association Rule (Market Basket Analysis)

Association Rule adalah teknik data mining yang digunakan untuk menemukan aturan assosiatif antara suatu kombinasi item. Salah satu contoh penerapan Association Rule adalah Market Basket Analysis. 3. Classification Klasifikasi merupakan proses untuk menemukan sekumpulan model yang menjelaskan dan membedakan kelas-kelas data, sehingga model tersebut dapat digunakan untuk memprediksi nilai suatu kelas yang belum diketahui pada sebuah objek. 4. Regression (Predictive) Analisis regresi meruapakan teknik untuk membantu menganalisis hubungan antara suatu peristiwa atau keadaan yang terjadi akibat peristiwa yang lain.

1.3 Daftar Pustaka 1. Han,Jiawei. Data Mining Concept and Techniques. Presentation. http://www.cs.sfu.ca/~han/dmbook 2. Han, Jiawei and Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2000 (ebook) 3. Osmar R. Zaane, 1999, Introduction to Data Mining 4. U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R.Uthurusamy, 7395. Menlo Park, Calif.: AAAI Press.

Anda mungkin juga menyukai