Anda di halaman 1dari 4

CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING

(CRISP-DM)

Data Mining sebagai salah satu cabang ilmu yang relatif baru mempunyai potensi
pengembangan yang sangat besar dan diprediksi akan menjadi salah satu yang paling
revolusioner pada dekade ini. Data Mining sendiri merupakan sebuah proses ekstraksi
informasi untuk menemukan pola (pattern recognition) yang penting pada tumpukan data
dalam database sehingga menjadi pengetahuan (knowledge discovery). Fungsi-fungsi
dalam data mining antara lain: fungsi deskripsi, fungsi estimasi, fungsi Prediksi, fungsi
Klasifikasi, fungsi Clustering dan fungsi asosiasi.
Clustering digunakan untuk pengelompokan data secara alamiah berdasarkan
kemiripan pada objek data dan sebaliknya meminimalkan kemiripan terhadap kluster lain.
Clustering adalah pengelompokan menggunakan teknik unsupervised learning dimana
tidak diperlukan pelatihan pada metode tersebut atau dengan kata lain, tidak ada fase
learning serta tidak menggunakan pelabelan pada setiap kelompok.
Proses data mining harus terukur, dapat dipercaya dan memenuhi suatu standar
yang telah disepakati. CRISP-DM adalah standarisasi data mining yang disusun oleh tiga
penggagas data mining market. Yaitu Daimler Chrysler (Daimler-Benz), SPSS (ISL), NCR.
Kemudian dikembangkan pada berbagai workshopsantara.
A. CRISP-DM
CRISP-DM (CRoss-Industry Standard Process for Data Mining) merupakan suatu
konsorsium perusahaan yang didirikan oleh Komisi Eropa pada tahun 1996 dan telah
ditetapkan sebagai proses standar dalam data mining yang dapat diaplikasikan di berbagai
sektor industri. Metodologi ini membantu organisasi dan profesional data untuk
merencanakan, melaksanakan, dan mengelola proyek analisis data dengan lebih terstruktur
dan efisien.
CRISP-DM dapat digunakan untuk menerapkan proses data science secara sistematis
dan terstruktur. Fase-fase CRISP-DM dapat membantu tim data science dalam memahami
kebutuhan bisnis, mengumpulkan data, mempersiapkan data, mengembangkan model,
mengevaluasi model, dan menerapkan model. Proses data mining berdasarkan CRISP-DM
terdiri dari 6 fase. Yaitu:
1. Business Understanding
Business Understanding adalah pemahaman tentang substansi dari kegiatan data
mining yang akan dilakukan, kebutuhan dari perspektif bisnis. Kegiatannya antara
lain: menentukan sasaran atau tujuan bisnis, memahami situasi bisnis,
menentukan tujuan data mining dan membuat perencanaan strategi serta jadwal
penelitian.
2. Data Understanding
Data Understanding adalah fase mengumpulkan data awal, mempelajari data untuk
bisa mengenal data yang akan dipakai,mengidentifikasikan masalah yang berkaitan
dengan kwalitas data, mendeteksi subset yang menarik dari data untuk membuat
hipotesa awal.
3. Data preparation
Data preparation sering disebut sebagai fase yang padat karya. Aktivitas yang
dilakukan antara lain memilih tabledan field yang akan ditransformasikan ke alam
database baru untuk bahan data mining(set data mentah).
4. Modeling
Modeling adalah fase menentukan tehnik data mining yang digunakan,
menentukan tools data mining, teknik data mining, algoritma data mining,
menentukan parameter dengan nilai yang optimal.
5. Evaluation
Evaluation adalah fase interpretasi terhadap hasil data mining yang ditunjukan dalam
proses pemodelan pada fase sebelumnya. Evaluasi dilakukan secara mendalam
dengan tujuan menyesuaikan model yang didapat agar sesuai dengan sasaran
yang ingin dicapai dalam fase pertama.
6. Deployment
Deployment atau penyebaran adalah fase penyusunan laporan atau presentasi dari
pengetahuan yang didapat dari evaluasi pada proses data mining.

B. Implementasi CRISP-DM Dalam Data Science

1. Memastikan bahwa proyek data science sesuai dengan kebutuhan


bisnis: Fase Business Understanding CRISP-DM menekankan pentingnya memahami
kebutuhan bisnis sebelum memulai proyek data science. Hal ini membantu
memastikan bahwa proyek data science menghasilkan hasil yang diinginkan oleh
bisnis.
2. Mengumpulkan dan mempersiapkan data yang berkualitas: Fase Data
Understanding dan Data Preparation CRISP-DM membantu tim data science dalam
mengumpulkan dan mempersiapkan data yang berkualitas untuk proses data
mining.
3. Mengembangkan model data mining yang akurat dan
interpretatif: Fase Modeling dan Evaluation CRISP-DM membantu tim data science
dalam mengembangkan model data mining yang akurat dan interpretatif.
4. Menerapkan model data mining dalam lingkungan
operasional: Fase Deployment CRISP-DM membantu tim data science dalam
menerapkan model data mining dalam lingkungan operasional.

Contoh penggunaan CRISP-DM dalam data science:


1. Sebuah perusahaan retail dapat menggunakan CRISP-DM untuk mengembangkan
model data mining yang dapat memprediksi kemungkinan seorang pelanggan akan
membeli produk tertentu.
2. Sebuah bank dapat menggunakan CRISP-DM untuk mengembangkan model data
mining yang dapat mengidentifikasi transaksi yang mencurigakan.
3. Sebuah pemerintah dapat menggunakan CRISP-DM untuk mengembangkan model
data mining yang dapat memprediksi kemungkinan terjadinya bencana alam.
C. Kelebihan dan Kekurangan CRISP-DM
Kelebihan CRISP-DM
1. Merupakan model proses standar yang diakui secara luas: CRISP-DM adalah model
proses standar yang telah digunakan oleh banyak organisasi di seluruh dunia. Hal ini
membuatnya menjadi model proses yang terpercaya dan dapat diandalkan.

2. Merupakan model proses yang fleksibel: CRISP-DM adalah model proses yang
fleksibel yang dapat disesuaikan dengan kebutuhan proyek data mining. Proyek data
mining yang berbeda mungkin memerlukan fase CRISP-DM yang berbeda.

3. Membantu memastikan bahwa proyek data mining sesuai dengan kebutuhan bisnis:
CRISP-DM menekankan pentingnya memahami kebutuhan bisnis sebelum memulai
proyek data mining. Hal ini membantu memastikan bahwa proyek data mining
menghasilkan hasil yang diinginkan oleh bisnis.

4. Memiliki banyak dokumentasi dan dukungan yang tersedia: Ada banyak dokumentasi
dan dukungan yang tersedia untuk CRISP-DM. Hal ini dapat membantu tim data
mining dalam memahami dan menerapkan model proses.
Kekurangan CRISP-DM
1. Merupakan model proses yang kompleks: CRISP-DM adalah model proses yang
kompleks yang dapat memakan waktu untuk diterapkan. Proyek data mining yang
kecil atau sederhana mungkin tidak memerlukan semua fase CRISP-DM.

2. Merupakan model proses yang berfokus pada data: CRISP-DM berfokus pada data
yang akan digunakan untuk data mining. Hal ini dapat menyebabkan tim data mining
mengabaikan faktor-faktor penting lainnya, seperti kebutuhan bisnis dan tujuan
proyek.

3. Tidak mencakup semua aspek data mining: CRISP-DM tidak mencakup semua aspek
data mining, seperti pemilihan fitur dan interpretasi model. Tim data mining
mungkin perlu menggunakan model proses lain untuk mencakup aspek-aspek ini.

4. Tidak selalu cocok untuk proyek data mining yang gesit: Proyek data mining yang
gesit sering kali membutuhkan iterasi yang cepat dan perubahan yang sering. CRISP-
DM mungkin tidak cocok untuk proyek-proyek ini karena model prosesnya yang
linier.

Meskipun CRISP-DM memiliki beberapa kekurangan, ia tetap menjadi model proses


yang berharga untuk data mining. CRISP-DM dapat membantu tim data mining
dalam memahami dan menerapkan proyek data mining yang sukses.

Anda mungkin juga menyukai