Chapter 1
REFERENCES
Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques. 2006. Department of Computer Science University of Illinois at Urbana-Champaign. www.cs.uiuc.edu/~hanj Srinivasan Parthasarathy. Introduction to Data Mining . Prentice Hall Prof. S. Sudarshan. An Introduction to Data Mining. CSE Dept, IIT Bombay Fairuzabadi, M. Data Mining. 2009. http://fairuzelsaid.wordpress.com
Data Mining Sulidar Fitri, Ms.C
Introduction
Data is produced at a phenomenal rate Our ability to store has grown Users expect more sophisticated information How? UNCOVER HIDDEN INFORMATION DATA MINING
Data Mining
Data Mining
Objective: Fit data to a model Potential Result: Higher-level meta information that may not be obvious when looking at raw data Alternative names
Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc.
Data Mining Sulidar Fitri, Ms.C
5
Query
Poorly defined No precise query language
Output
Output
Query Examples
Database
Find all credit applicants with last name of Smith.
Identify customers who have purchased more than $10,000 in the last month. Find all customers who have purchased milk
Data Mining
Find all credit applicants who are poor credit
risks. (classification) Identify customers with similar buying habits. (Clustering) Find all items which are frequently purchased with milk. (association rules)
Data Mining Sulidar Fitri, Ms.C
8
Applications
Banking: loan/credit card approval
predict good customers based on old customers
Targeted marketing:
identify likely responders to promotions
Applications (continued)
Medicine: disease outcome, effectiveness of treatments
analyze patient disease history: find relationship between diseases
Applications
Data analysis and decision support Market analysis and management Target marketing, customer relationship management (CRM), market basket analysis, cross selling, market segmentation Risk analysis and management Forecasting, customer retention, improved underwriting, quality control, competitive analysis Fraud detection and detection of unusual patterns (outliers) Other Applications Text mining (news group, email, documents) and Web mining
Target marketing
Find clusters of model customers who share the same characteristics: interest, income level, spending habits, etc., Determine customer purchasing patterns over time
Data Mining
13
Data Mining
Data Mining
Prentice Hall
15
Data Mining
Data Mining
Proses KDD
1.Data Selection Menciptakan himpunan data target , pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan(discovery) akan dilakukan. Pemilihan(seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahappenggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional. Data Mining Sulidar Fitri, Ms.C
2. Pre-processing/ Cleaning Pemprosesan pendahuluan dan pembersihan data merupakan operasi dasar seperti penghapusan noise dilakukan. Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak(tipografi). Dilakukan proses enrichment, yaitu proses memperkaya data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal
Data Mining Sulidar Fitri, Ms.C
3.Transformation Pencarian fitur-fitur yang berguna untuk mempresentasikan data bergantung kepada goal yang ingin dicapai. Merupakan proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses ini merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data
Data Mining Sulidar Fitri, Ms.C
4.Data mining Pemilihan tugas data mining; pemilihan goal dari proses KDD misalnya klasifikasi, regresi, clustering, dll. Pemilihan algoritma data mining untuk pencarian (searching) Proses Data mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan
Data Mining Sulidar Fitri, Ms.C
5. Interpretation/ Evaluation Penerjemahan pola-pola yang dihasilkan dari data mining. Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya
Data Mining Sulidar Fitri, Ms.C
End User
Decision Making
Data Presentation Visualization Techniques Data Mining Information Discovery
Business Analyst Data Analyst
Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems
Data Mining
DBA
Database Technology
Statistics
Machine Learning
Pattern Recognition
Data Mining
Visualization
Algorithm
Other Disciplines
Data Mining
Relational Data Model SQL Association Rule Algorithms Data Warehousing Scalability Techniques
DATA MINING
Klasifikasi
Clustering
Association Rules
Data Mining Sulidar Fitri, Ms.C
Digunakan untuk segmentasi customer, pemodelan bisnis, analisa kartu kredit, dll. Contoh: Perusahaan kartu kredit ingin memprediksi customer berdasarkan tipe pembayaran
Data Mining
Teknik yang berguna untuk mengeksplorasi data. Digunakan pada saat banyak kasus dan tidak memiliki pengelompokan secara alami Cluster adalah kumpulan obyek data yang mirip satu sama lain.
Data Mining
Sering disebut dengan market basket analysis, digunakan untuk menemukan relasi atau korelasi diantara himpunan item2. Paling banyak digunakan untuk menganalisa data dalam rangka keperluan strategi pemasaran, desain katalog. Tipe association rule bisa dinyatakan sebagai misal: 70% dari orang orang yang membeli mie, juice dan saus akan membeli juga roti tawar.
Data Mining Sulidar Fitri, Ms.C