Anda di halaman 1dari 30

STMIK AMIKOM Yogyakarta

Chapter 1

Introduction to Data Mining


Define data mining Data mining vs.Database databases Basic data mining tasks

Sulidar Fitri, M.Sc


Data Mining

September 23, 2013

Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

REFERENCES

Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques. 2006. Department of Computer Science University of Illinois at Urbana-Champaign. www.cs.uiuc.edu/~hanj Srinivasan Parthasarathy. Introduction to Data Mining . Prentice Hall Prof. S. Sudarshan. An Introduction to Data Mining. CSE Dept, IIT Bombay Fairuzabadi, M. Data Mining. 2009. http://fairuzelsaid.wordpress.com
Data Mining Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Introduction
Data is produced at a phenomenal rate Our ability to store has grown Users expect more sophisticated information How? UNCOVER HIDDEN INFORMATION DATA MINING

Data Mining

Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

What is Data Mining


Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basisdata. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basisdata. Datamining terutama digunakan untuk mencari pengetahuan yang terdapat dalam basis data yang besar sehingga sering disebut Knowledge Discovery in Databases (KDD).
Data Mining Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Data Mining
Objective: Fit data to a model Potential Result: Higher-level meta information that may not be obvious when looking at raw data Alternative names
Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence, etc.
Data Mining Sulidar Fitri, Ms.C
5

STMIK AMIKOM Yogyakarta

Why Data Mining?


The Explosive Growth of Data: from terabytes to petabytes Data collection and data availability Automated data collection tools, database systems, Web, computerized society Major sources of abundant data: Business: Web, e-commerce, transactions, stocks, Science: Remote sensing, bioinformatics, scientific simulation, Society and everyone: news, digital cameras,

We are drowning in data, but starving for knowledge!


Necessity is the mother of inventionData miningAutomated analysis of massive data sets
Data Mining Sulidar Fitri, Ms.C
6

Database Processing vs. Data Mining Processing


Query
Well defined SQL

Query
Poorly defined No precise query language

Output

Output

Precise Subset of database


Data Mining

Fuzzy Not a subset of database


Prentice Hall

Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Query Examples

Database
Find all credit applicants with last name of Smith.
Identify customers who have purchased more than $10,000 in the last month. Find all customers who have purchased milk

Data Mining
Find all credit applicants who are poor credit
risks. (classification) Identify customers with similar buying habits. (Clustering) Find all items which are frequently purchased with milk. (association rules)
Data Mining Sulidar Fitri, Ms.C
8

STMIK AMIKOM Yogyakarta

MANFAAT DATA MINING


Untuk menangani meledaknya volume data. Bagaimana mana menyimpannya, mengestraknya serta memanfaaatkannya. Data mining juga diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan bisnis. Dapat digunakan untuk mengcapture, menganlisis serta menyimpan data yang bersifat real-time dan sangat besar. Metode alternatif yang dapat digunakan untuk mengolah data mentah, ketika metode konvensional tidak fisibel untuk dilakukan karena volume data yang diolah Databesarnya Mining Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Applications
Banking: loan/credit card approval
predict good customers based on old customers

Customer relationship management:


identify those who are likely to leave for a competitor.

Targeted marketing:
identify likely responders to promotions

Fraud detection: telecommunications, financial transactions


from an online stream of event identify fraudulent events

Manufacturing and production:


automatically adjust knobs when process parameter changes
Data Mining Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Applications (continued)
Medicine: disease outcome, effectiveness of treatments
analyze patient disease history: find relationship between diseases

Molecular/Pharmaceutical: identify new drugs Scientific data analysis:


identify new galaxies by searching for sub clusters

Web site/store design and promotion:


find affinity of visitor to pages and modify layout
Data Mining Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Applications
Data analysis and decision support Market analysis and management Target marketing, customer relationship management (CRM), market basket analysis, cross selling, market segmentation Risk analysis and management Forecasting, customer retention, improved underwriting, quality control, competitive analysis Fraud detection and detection of unusual patterns (outliers) Other Applications Text mining (news group, email, documents) and Web mining

Stream data mining


Bioinformatics and bio-data analysis
Data Mining Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Ex. 1: Market Analysis and Management


Where does the data come from?Credit card transactions, loyalty cards, discount coupons, customer complaint calls, plus (public) lifestyle studies

Target marketing
Find clusters of model customers who share the same characteristics: interest, income level, spending habits, etc., Determine customer purchasing patterns over time

Data Mining

Sulidar Fitri, Ms.C

13

Data Mining Models and Tasks

Data Mining

Sulidar Fitri, Ms.C

Ex: Time Series Analysis


Example: Stock Market Predict future values Determine similar patterns over time Classify behavior

Data Mining

Prentice Hall

Sulidar Fitri, Ms.C

15

STMIK AMIKOM Yogyakarta

Data Mining and KDD


Knowledge Discovery in Databases (KDD): process of finding useful information and patterns in data. Data Mining: Use of algorithms to extract the information and patterns derived by the KDD process.

Data Mining

Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Knowledge Discovery (KDD) Process


Data miningcore of knowledge discovery process
Transformation
Data Warehouse Data Cleaning Selection Data Integration Databases Pattern Evaluation

Data Mining Task-relevant Data

Data Mining

Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Proses KDD

1.Data Selection Menciptakan himpunan data target , pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan(discovery) akan dilakukan. Pemilihan(seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahappenggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional. Data Mining Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

2. Pre-processing/ Cleaning Pemprosesan pendahuluan dan pembersihan data merupakan operasi dasar seperti penghapusan noise dilakukan. Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak(tipografi). Dilakukan proses enrichment, yaitu proses memperkaya data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal
Data Mining Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

3.Transformation Pencarian fitur-fitur yang berguna untuk mempresentasikan data bergantung kepada goal yang ingin dicapai. Merupakan proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses ini merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data
Data Mining Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

4.Data mining Pemilihan tugas data mining; pemilihan goal dari proses KDD misalnya klasifikasi, regresi, clustering, dll. Pemilihan algoritma data mining untuk pencarian (searching) Proses Data mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan
Data Mining Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

5. Interpretation/ Evaluation Penerjemahan pola-pola yang dihasilkan dari data mining. Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya
Data Mining Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Data Mining and Business Intelligence


Increasing potential to support business decisions

End User

Decision Making
Data Presentation Visualization Techniques Data Mining Information Discovery
Business Analyst Data Analyst

Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems
Data Mining

DBA

Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Data Mining: Confluence of Multiple Disciplines

Database Technology

Statistics

Machine Learning
Pattern Recognition

Data Mining

Visualization

Algorithm

Other Disciplines

Data Mining

Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Data Mining Development


Similarity Measures Hierarchical Clustering IR Systems Imprecise Queries Textual Data Web Search Engines Bayes Theorem Regression Analysis EM Algorithm K-Means Clustering Time Series Analysis

Relational Data Model SQL Association Rule Algorithms Data Warehousing Scalability Techniques

DATA MINING

Algorithm Design Techniques Algorithm Analysis Data Structures


HIGH PERFORMANCE
Data Mining

Neural Networks Decision Tree Algorithms

Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

METODE DATA MINING

Berdasarkan fungsi yang dilakukan:

Klasifikasi
Clustering

Association Rules
Data Mining Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Digunakan untuk segmentasi customer, pemodelan bisnis, analisa kartu kredit, dll. Contoh: Perusahaan kartu kredit ingin memprediksi customer berdasarkan tipe pembayaran

Data Mining

Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Teknik yang berguna untuk mengeksplorasi data. Digunakan pada saat banyak kasus dan tidak memiliki pengelompokan secara alami Cluster adalah kumpulan obyek data yang mirip satu sama lain.

Data Mining

Sulidar Fitri, Ms.C

STMIK AMIKOM Yogyakarta

Sering disebut dengan market basket analysis, digunakan untuk menemukan relasi atau korelasi diantara himpunan item2. Paling banyak digunakan untuk menganalisa data dalam rangka keperluan strategi pemasaran, desain katalog. Tipe association rule bisa dinyatakan sebagai misal: 70% dari orang orang yang membeli mie, juice dan saus akan membeli juga roti tawar.
Data Mining Sulidar Fitri, Ms.C

Anda mungkin juga menyukai