Anda di halaman 1dari 26

CRoss-Industry Standard Process

for Data Mining


(CRISP-DM)
Pengertian Data Mining

Proses pencarian pola data yang tidak diketahui atau tidak diperkirakan sebelumnya.
~Adelman~

Proses pengidentifikasian sekumpulan data yang tersimpan dalam tempat penyimpanan,


melalui teknik-teknik pengenalan pola seperti matematika dan teknik statistik.
~Gartner Group~

Merupakan serangkaian proses pencarian nilai, lebih dari suatu kumpulan data yang berisi
pengetahuan dan belum pernah diungkap secara manual.
~Iko Pramudiono~
Contoh Data Mining
KDD SEMMA CRISP-DM
Knowledge Discovery in Sample, Explore Cross Industry Standard
Databases Modify,Model and Assess Process

“Pada saat ini ketiga proses (KDD, SEMMA dan CRISP-DM) tersebut sering digunakan sebagai analisa berfikir
agar data mining dapat digunakan dengan baik dari hulu hingga hilir
Phases
Summary of Correspondences between KDD, SEMMA and CRISP-DM

KDD SEMMA CRISP-DM


Pre KDD Business understanding

Selection Sample
Data Understanding
Pre Processing Explore

Tranformation Modify Data preparation

Data mining Model Modeling

Interpretation/Evaluasi Assessment Evaluation

Post KDD Deployment


Overview CRISP-DM

1. Memahami Tujuan dari Bisnis


2. Memahami Data yang akan diolah
3. Mengidentifikasi Data
4. Pengaplikasian Model data
5. Pengujian dan Evaluasi data
6. Proses Knowledge Presentation
Phases and Tasks CRISP-DM
Phases and Tasks DMAIC
Define Measure Analyze Improve Control

Klarifikasi dan Merencanakan Mengidentifikasi dan Mengendalikan KPOV


Piloting solusi pada
Menetapkan Y pengambilan data memprioritaskan x dan KPIV
skala kecil
Menetapkan Validasi system (akar masalah )
Dokumentasikan
target Y pengukuran Implementasi solusi
Proyek
Mengidentifikasi Non secara menyeluruh
Menentukan Memetakan Value Added Activities Hitung ulang
VoC/ VoB Value Stream Verifikasi hasil Value Creation
Mencari solusi perbaikan (dampak
Menentukan ruang
Identifikasi Quick Wins potensial dan dari solusi )
lingkup proyek Rencanakan duplikasi
memprioritaskan solusi solusi
Mengambil data untuk
Membentuk Tim Melakukan uji hipotesa
mengukur kondisi
(base line) Y dan x’s “y vs x” Project Closing dan
Project Plan Handover ke Process
Mengukur kestabilan & Owner
Hitung Value kapabilitas proses
Creation
Update Project
Charter
CRISP-DM: Siklus
• Business Understanding
menentukan tujuan dan mendefinisikan masalah dari data mining
• Data Understanding
mengumpulkan data awal dan identifikasi data kualitas

• Data Preparation
Table, record and attribute selection, Data transformation and cleaning

• Modeling
Modeling techniques selection and application, Parameters calibration
• Evaluation
evaluasi dari hasil agar selaras dengan tujuan bisnis

• Deployment
implementasi (penyebaran) dari data mining
Business Understanding
Business
Understanding
• Statement Tujuan Bisnis
• Statement Tujuan Data Mining
Data Understanding

• Statement Strategi Sukses Data Preparation

MODELING
Berfokus pada pemahaman tujuan dan persyaratan
proyek dari perspektif bisnis, maka mengubah Evaluation
pengetahuan ini ke dalam definisi masalah data mining
dan rencana awal yang dirancang untuk mencapai tujuan Deployment
Business Understanding
Business
Understanding
Penentuan tujuan proyek dan kebutuhan secara detail dalam
lingkup bisnis atau unit penelitian secara keseluruhan
Data Understanding

Contoh : Data Preparation

• Tujuan Bisnis: “Meningkatkan penjualan katalog untuk


pelanggan yang sudah ada.” MODELING

• Tujuan Data Minning: “Memprediksi berapa banyak katalog Evaluation


yang dapat pelanggan beli, mengingat pembelian mereka
selama tiga tahun terakhir, informasi demografis (usia, gaji, kota)
dan harga item.” Deployment
Business Understanding
Business
Understanding
• Menerjemahkan tujuan dan batasan menjadi formula dari
permasalahan data minning
Data Understanding
- Benar-benar memahami, dari perspektif bisnis, apa yang klien
benar-benar ingin capai
Data Preparation
- Mengungkap faktor penting, di awal, yang dapat
mempengaruhi hasil proyek
- Mengabaikan langkah ini adalah dapat mengeluarkan banyak MODELING

usaha memproduksi jawaban yang benar untuk pertanyaan


yang salah Evaluation

• Menyiapkan strategi awal untuk mencapai tujuan Deployment


Data Understanding
Business
Understanding
• Explore Data
Data Understanding
• Verifikasi Kualitas
Data
• Mencari Outliers Data Data Preparation

MODELING
Mulai dengan pengumpulan data awal dan hasil dengan kegiatan
untuk mendapatkan data yang terintegrasi , untuk mengidentifikasi Evaluation
masalah kualitas data, untuk menemukan wawasan pertama ke
dalam data atau untuk mendeteksi subset menarik untuk
membentuk hipotesis untuk informasi yang tersembunyi Deployment
Data Understanding
Business
• Mengumpulkan data, jika data berasal dari lebih Understanding
dari satu database maka dilakukan proses integrasi
Data Understanding

• Mengembangkan analisis penyelidikan data


untuk mengenali lebih lanjut data dan pencarian Data Preparation
pengetahuan awal

MODELING
• Jika diinginkan, pilih sebagian kecil grup data yang
mungkin mengandung pola dari permasalahan.
Evaluation

• Jika diinginkan, pilih sebagian kecil grup data yang


Deployment
mungkin mengandung pola dari permasalahan.
Data Preparation
Business
- Koleksi data Understanding

- Penilaian Data Understanding


- Konsolidasi dan Pembersihan
- Pilihan data Data Preparation

- Transformasi MODELING

Mencakup semua kegiatan untuk membangun data set akhir dari data
Evaluation
mentah awal. tugas persiapan data kemungkinan akan dilakukan
beberapa kali dan tidak dalam urutan yang ditentukan. Tugas meliputi
tabel, catatan dan seleksi atribut serta transformasi dan pembersihan Deployment
data untuk alat pemodelan.
Data Preparation
Business
• Menyiapkan data awal, kumpulan dan yang akan digunakan Understanding
untuk keseluruhan fase berikutnya atau proses seleksi data
Data Understanding

• Pilih kasus dan variabel yang akan dianalisis, sesuai


dengan analisis yang akan dilakukan Data Preparation

MODELING
• Lakukan perubahan pada variabel jika diperlukan

Evaluation

• Siapkan data awal hingga siap untuk perangkat permodelan


atau Data Transformation Deployment
MODELING
Business
• Pilih dan aplikasikan teknik permodelan yang sesuai. Understanding

Data Understanding
• Kalibrasi aturan model untuk mengoptimalkan hasil.
Data Preparation

• Dapat menggunakan beberapa teknik yang sama untuk


permasalahan yang sama MODELING

• Dapat kembali ke fase pengolahan data jika diperlukan untuk Evaluation


menjadikan data ke dalam bentuk kebutuhan tertentu
Deployment
Evaluation
Business
• Mengevaluasi satu atau lebih model yang digunakan dalam fase Understanding
permodelan atau proses Evaluation Pattern
Data Understanding

• Menetapkan apakah model tadi sudah sesuai dengan tujuan pada


Data Preparation
fase awal.

MODELING
• Menentukan apakah terdapat permasalahan penting dari bisnis atau
penelitian yang tidak tertangani dengan baik
Evaluation

• Mengambil keputusan berkaitan dengan penggunaan hasil dari data


mining Deployment
Deployment
• Menentukan bagaimana manfaat dari hasil data Business
Understanding

• Siapa yang memerlukan hasil tersebut Data Understanding

• Seberapa sering hasil dapat digunakan


Data Preparation

• Menyebarkan hasil Data mining , dan memanfaatkan hasil sebagai


aturan bisnis (SOP) MODELING

Dari hasil data yang di peroleh, perlu pengelompokan data dan Evaluation

dirangkai agar dapat menyesuaikan kebutuhan user dan


dapat melakukan proses data mining secara berulang Deployment
Deployment
Business
• Rencana Penyebaran Understanding

- mengambil hasil evaluasi dan menyimpulkan strategi untuk penyebaran


Data Understanding
- Mendokumentasikan prosedur unruk penyebaran berikutnya

Data Preparation

• Rencana Pemantauan dan Pemeliharaan


MODELING
- Penting apabila hasil data mining menjadi bagian dari bisnis
- membantu untuk menghindari kesalahan penggunaan hasil data mining
Evaluation
- Membutuhkan laporan saat proses pemantauan
- Memperhitungkan jenis penyebaran tertentu
Deployment
Deployment
Business
Understanding
• Menghasilkan Laporan Akhir
- Pemimpin Proyek dan anggotanya membuat laporan akhir (kesimpulan) Data Understanding
- Bisa jadi hanya ringkasan dan pengalaman proyek
- Bisa jadi Presentasi akhir dari hasil data mining Data Preparation

MODELING
• Ulasan Proyek
- Menilai apa yang benar dan apa yang salah , apa yang sudah sesuai Evaluation
tujuan , dan apa yang masih harus di tingkatkan
Deployment
Contoh CRISP-DM: Analisa biaya perawatan pasien rawat inap
Business Understanding Phase
Tujuannya adalah menekan biaya perawatan pasien tanpa mengurangi kualitas pelayanan
Data Understanding Phase
Data kunjungan pasien rawat inap RSUP Cipto dengan jaminan Jamkesmas (01-01-2009 s/d 30-09-2010)
-Jumlah Data 8383 pasien
Data Preparation Phase
Peneliti melalukan data cleaning hingga memilih 2022 data pasien
Atribut : Age, Gender, Marital status, Job Class, Organisasi Unit, Mortability, Primary Diagnosa, Procedure, LOS, Cost
Modeling Phase
Peneliti menerapkan Analisa teknik :
-Attibute Importance (AI) untuk mengetahui peringkat atribut terhadap pola biaya dan kunjungan pasien
-Algoritma Naive bayes memprediksi pola biaya kunjungan pasien yang akan datang
Evaluation Phase
Diterapkan model scoring untuk data yang akan di test (sample 25 pasien)
Deployment Phase
Penerapan pola biaya baru
Contoh CRISP-DM: Analisa Kasus Klaim Garansi Mobil
Business Understanding Phase
Tujuannya adalah untuk mengurangi biaya yang berkaitan dengan klaim garansi dan meningkatkan kepuasan pelanggan
Data Understanding Phase
Peneliti menggunakan informasi 7 juta kendaraan
-Informasi bagaimana dan dimana kendaraan dibangun
-Iinformasi jaminan Klaim
Data Preparation Phase
Peneliti memilah kasus dan variabel yang diinginkan
Modeling Phase
Peneliti menerapkan teknik-teknik :
-Bayesian Network (Permodelan ketergantungan pada klaim garansi)
-Associtions Rules (Cara alami menyelidiki ketergantungan pada klaim garansi)
Evaluation Phase
Para peneliti tersebut menyarankan untuk melakukan design ulang dari database demi membuat database
tersebut dapat digunakan untuk knowledge discovery / data mining
Deployment Phase
mendevelop sebuah system intranet yang mempunyai kemampuan data mining untuk semua karyawan perusahaan
SUMMARY

• Karena data proses data mining harus terpercaya ,


dapat berulang dan bisa di gunakan orang lain
meskipun tanpa pengalaman .

WHY CRISP-DM ? • Siklus langkah penyusunan lebih mudah

• Alur data yang di proses lebih aman karena proses


inspection di lakukan berulang dan saling melengkapi

• Masing-masing sub saling ter-integrasi


TERIMA KASIH

Anda mungkin juga menyukai