Anda di halaman 1dari 75

Fahri Firdausillah

fahri.firdausillah@dsn.dinus.ac.id
Fajar Agung Nugroho
kifajaranugroho@gmail.com
Ika Novita Dewi
ikadewiku@gmail.com
Outline

1. Teori Seputar Data Mining

2. Pengenalan RapidMiner

3. Praktek Penggunaan RapidMiner


… SEPUTAR DATA MINING …
Kenapa Data Mining?

Rasio Pertumbuhan Data Tingginya jumlah dan Kemampuan analisis


varian data manusia sangat terbatas
Kenapa Data Mining? cont’d

Customer mana yang


CRM
loyal dan mana yang
mulai melirik ke
kompetitor

Fraud detection
Targeted marketing:

Transaksi mana yang


Terdapat 100.000 data mengandung unsur
calon pelanggan, siapa penipuan? Dan
diantara mereka yang mana yang asli.
paling cocok diberikan
promosi?

Data Mining membantu menemukan informasi tersebut


What “Creature” is Data Mining
• Data mining (penemuan
pengetahuan berdasarkan data)
– Penggalian pengetahuan atau pola
yang menarik (non-trivial, implisit,
sebelumnya tidak diketahui, dan
berpotensi tinggi) dari gunungan
data.
• Dapat disebut juga
– Knowledge Discovery, Knowledge
Extraction, Data/Pattern Analysis,
Data Acheology, Data Dredging,
Information Harvesting, Business
Intelligence, dan lain sebagainya
Ingat Data Mining …
• Bukan query / statistik sederhana.
• Bukan pekerjaan harian.
• Memerlukan data khusus yang seringkali berbeda dengan
data yang digunakan setiap hari.
• Ilmu yang sangat panjang, lebar, tinggi, luas dan tidak
akan habis dipelajari hanya dalam waktu satu hari, satu
minggu, satu bulan, atau bahkan satu tahun.
Contoh Penggunaan DM
Perbankan: penerimaan • Memprediksi customer yang baik berdasarkan
proposal kredit pola customer yang lama.

Customer Relationship • Mengidentifikasi pelanggan yang berpotensial


Management (CRM): berpaling ke kompetitor.

• Mengetahui metode perawatan paling cocok


Medical Treatment
berdasarkan log data pasien

• Mengidentifikasi penyakit berdasarkan gejala


Desease Identification
yang dialami pasien

Pola Penyebaran • Mengetahui pola penyebaran penyakit


Penyakit berdasarkan demografi log pasien
Teknik Dasar Data Mining
Anomaly
Detection

Sequential
Classification
Pattern Mining

Association
Summarization
Rules

Regression Clustering
Association Rules
• Association Rules adalah teknik data mining yang digunakan untuk
mencari frekuensi kemunculan bersama beberapa item dalam suatu
kejadian.
• Teknik ini menggunakan ambang batas “Support” untuk
mengidentifikasi frekuensi set item. Dan juga ambang batas
“Confidence” yang merupakan probabilitas kemunculan suatu item
jika item yang lain muncul.
Contoh Association Rules (Apriori)
Classification
DataSet

age income student credit_rating buys_computer


<=30 high no fair no
<=30 high no excellent no
31…40 high no fair yes
>40 medium no fair yes
>40 low yes fair yes
>40 low yes excellent no
31…40 low yes excellent yes
<=30 medium no fair no
<=30 low yes fair yes
>40 medium yes fair yes
<=30 medium yes excellent yes
31…40 medium no excellent yes
31…40 high yes fair yes
>40 medium no excellent no
Induksi Decision Tree
Output: A Decision Tree for “buys_computer”

Age

<= 30 31 > 40 > 40

Credit
Student Beli
Rating

No Yes Excellent Fair

Tidak Beli Tidak Beli


INTRODUCTION TO RAPIDMINER
Apa itu RapidMiner

• RapidMiner adalah perangkat lunak untuk eksperimen


Data Mining.
• RapidMiner adalah perangkat lunak open-source yang
dapat dikostumisasikan dengan mudah.
• RapidMiner menyediakan banyak teknik untuk
melakukan data mining dan juga untuk mengolah data.
• RapidMiner dapat menggunakan data dari CSV, Excel,
Database, dan lain sebagainya.
Welcome Perspective
Design Perspective
Operators and Repositories View
Process View
Parameter View
Parameters View
Help and Comment View
Overview View
Problems and Log View
Creating a New Process
Import Files
Metadata View
Result Perspective
Result Perspective cont’d
Result Perspective cont’d
Sorting
Table
Plotter
Plotter cont’d
Graph
Mode
Text
Special View
PRAKTIKUM RAPIDMINER 5.0
Persiapan 1 (Training Data)
Zoo dataset*
– 86 samples
– 17 attributes Label
Attributes
– 1 Label
Samples
Persiapan 2 (Prediction Data)

15 prediction data
Urutan Langkah

Membuat Mengeksekusi
Proses Baru Data Validasi Hasil

Mengimpor Menerapkan
Data CSV Algoritma
Membuat Proses Baru
Membuat Proses Baru cont’d
Import File Training Data- Step 1
Import File Training Data- Step 2
Import File Training Data- Step 3
Import File Training Data- Step 4
Import File Training Data- Step 5
Import File Prediction Data- Step 1
Import File Prediction Data- Step 2
Import File Prediction Data- Step 3
Import File Prediction Data- Step 4
Import File Prediction Data- Step 5
Eksekusi Data
Eksekusi Data (Viewing Result)
Eksekusi Data (Viewing Result) cont’d
Eksekusi Data (Viewing Result) cont’d
Menerapkan Algoritma Klasifikasi
Hasil
Hasil cont’d
Prediksi Data
Prediksi Data cont’d
Hasil Prediksi
Split Validation
Split Validation cont’d
Split Validation cont’d
Split Validation cont’d

Double clicks
Split Validation cont’d
Split Validation cont’d
Result
Cross Validation
Cross Validation
Cross Validation Result
*References

• www.rapid-i.com
• http://archive.ics.uci.edu/ml/datasets/Zoo
• http://www.neuralmarkettrends.com/index.php/tutorials

Anda mungkin juga menyukai