Anda di halaman 1dari 28

Pengenalan Data

Mining
• Mampu memahami konsep data mining
Capaian • Memahami proses-proses dalam data mining
Belajar • Memahami konsep klasifikasi
• Memahami konsep clustering
• Merupakan langkah penting dalam proses
penemuan pengetahuan.
• Dapat juga disebut proses dalam pencarian
pola yang menarik serta pengetahuan dari
Data Mining data dalam jumlah yang besar.
• Sumber data termasuk databasae, data
warehouse, Web, repositori informasi
lainnya, atau data yang langsung dimasukkan
ke dalam sistem secara dinamis.
• Jutaan data yang terkumpul setiap harinya
membuat data-data tersebut menumpuk
dengan jumlah yang sangat besar.
Pentingnya • Data tersebut sangat dibutuhkan untuk
menunjang pengambilan keputusan dalam
Data Mining sebuah organisasi dimana data yang ada
diolah menggunakan data mining.
• Data mining dapat dilihat sebagai hasil dari
evolusi alami teknologi informasi.
• Data mining sangat membantu dalam menentukan hubungan
dan pola antar data, namun hal tersebut tidak bekerja dengan
sendirinya dan tidak mengeliminasi syarat-syarat dalam
memahami data, metode analisis, dan pengetahuan mengenai
What Can bisnis.

Data • Data mining mengekstrak informasi tersembunyi dari data,


tetapi tidak dapat menilai nilai dari informasi tersebut.

Mining Do • Contoh:
Data mining dapat membantu dalam menentukan bahwa laki-
and Not laki dengan pendapatan antara Rp. 4.000.000 - Rp. 10.000.000
yang terkontribusi pada jurnal, diharapkan untuk membeli
Do? produk ini dan itu. Informasi ini dapat membantu dalam
mengembangkan strategi pemasaran. Namun, tidak semua
populasi yang diidentifikasi melalui data mining tersebut akan
membeli produk tersebut dengan mudah hanya karena berada di
kategori yang sama.
• Database Data /DBMS
Terdiri dari kumpulan data yang saling terkait, yang dikenal sebagai
database, dan sekumpulan program perangkat lunak untuk mengelola
dan mengakses data. Relational database merupakan kumpulan table-
table, yang masing-masing ditandai dengan kode unik.
Masing-masing table memiliki atribut dan terdiri dari baris yang banyak.
Baris dalam tabel merepresentasikan sebuah objek yang
diidentifikasikan oleh kode unik.

Source Data
1. Mengembangkan sebuah pemahaman dari
tujuan proyek data mining tersebut
2. Mendapatkan dataset yang akan dianalisis

Tahap-tahap
3. Mengeksplor, membersihkan dan pre-
process data.
4. Mengurangi dimensi data apabila diperlukan
dalam Data 5. Menentukan tugas-tugas data mining

Mining
6. Membagi data (supervised task)
7. Menentukan Teknik data mining yang akan
digunakan
8. Menerapkan algoritma untuk melakukan
tugasnya
9. Menginterpretasikan hasil dari algoritma
yang telah digunakan
10. Mengembangkan model
• Fase pendefinisian masalah : Fokus utama dari fase pertama dari

Proses-proses proses data mining adalah untuk memahami persyaratan dan


tujuan dari proyek tersebut. Setelah proyek ditentukan, dapat
dalam Data dirumuskan sebagai masalah data mining. Setelah itu, rencana
implementasi awal dapat dikembangkan.
Mining • Fase pemahaman data : Dalam tahap ini, data dikumpulkan dari
sumber-sumber yang tersedia dan agar pendatan yang tepat
dilakukan beberapa kegiatan penting seperti pemuatan data dan
integrasi data. Setelah ini, data tersebut dianalisis dengan cermat
untuk menentukan apakah data tersebut akan mengatasi masalah
bisnis atau tidak. Oleh karena itu, data tambahan dapat
ditambahkan atau dihapus untuk menyelesaikan masalah secara
efektif. Pada tahap ini data yang hilang juga diidentifikasi.
• Fase persiapan data : Fase ini umumnya menghabiskan sekitar 90%
dari waktu proyek. Setelah sumber data yang tersedia diidentifikasi,
mereka perlu dipilih, dibersihkan, dibangun dan diformat ke dalam
bentuk yang diinginkan untuk diproses lebih lanjut.
Proses-proses • Fase pemodelan : Dalam fase ini, algoritma data mining yang
berbeda diterapkan untuk membangun model. Algoritma data
dalam Data mining yang sesuai dipilih dan diterapkan pada data yang diberikan
untuk mencapai tujuan solusi yang diusulkan.
Mining (2) • Fase evaluasi : Pada tahap evaluasi, hasil model dievaluasi untuk
menentukan apakah model tersebut memenuhi tujuan bisnis yang
dinyatakan semula atau tidak. Untuk ini, data yang diberikan dibagi
menjadi set data pelatihan dan pengujian. Model dilatih pada data
pelatihan dan diuji pada data pengujian. Jika akurasi model pada
data pengujian tidak memadai maka seseorang kembali ke tahap
sebelumnya untuk menyempurnakan area yang mungkin menjadi
alasan akurasi rendah.
• Fase penerapan : Dalam fase ini, wawasan dan informasi berharga
yang diperoleh dari data perlu disajikan sedemikian rupa sehingga
pemangku kepentingan dapat menggunakannya kapan pun mereka
mau.
KDD (Knowledge Discovery Data)
KDD berhubungan dengan teknik integrasi dan penemuan
ilmiah, interprestasi dan visualisasi dari pola-pola sejumlah
kumpulan data.
• Data Cleaning : untuk membersihkan data yang belum bersih dan
tidak konsisten.
• Data Integration : tahap penggabungan data-data yang relevan yang
didapat dari berbagai sumber.
• Data Selection : pemilihan data yang relevan dari database dalam
memenuhi capaian analisis.
• Data Transformation : data akan ditransformasikan dan digabungkan
kedalam format yang sesuai untuk proses data mining dengan cara
melakukan ringkasan atau operasi pengumpulan.
• Data Mining : proses yang mana metode intelijen akan diterapkan
untuk menghasilkan pola data.
• Pattern Evaluation : untuk mengidentifikasi pola yang benar-benar
menarik yang merepresentasikan pengetahuan berdasarkan ukuran
ketertarikan.
• Knowledge Presentation : Teknik visualisasi dan representasi
pengetahuan digunakan untuk menjelaskan pengetahuan yang telah
diolah kepada pengguna.
Proses CRISP-
DM
Proses Data Mining : CRISP-DM

Step 1 : Pemahaman Bisnis


• Pemahaman menyeluruh tentang kebutuhan manajerial akan pengetahuan baru dan spesifikasi dari tujuan
bisnis.
• Menentukan tujuan:
- Apa karakteristik umum dari pelanggan yang baru saja kehilangan kita dari pesaing kita?
- Apa profil khas pelanggan kami, dan berapa nilai yang diberikan masing-masing dari mereka kepada kami?
• Rencana proyek dikembangkan untuk menemukan pengetahuan seperti:
- Menentukan orang-orang yang bertanggung jawab untuk mengumpulkan dan menganalisis data, dan
melaporkan temuan.
- Menetapkan anggaran untuk mendukung studi.
Proses CRISP-DM

Step 2 : Pemahaman Data


• Identifikasi data yang relevan dari berbbagi database
• Mengidentifikasi data dan memilih fase.
• Analis harus jelas dan ringkas tentang deskripsi tugas data mining, sehingga data yang paling relevan
dapat diidentifikasi.
• Analis harus membangun pemahaman yang mendalam mengenai sumber data dan variable,
1. Sumber data : dimana data yang relevan tersimpan dan akan diambil, proses pengumpulan datanya
apakah otomatis atau manual, siapa yang akan mengumpulkan data, serta seberapa sering data
diperbaharui.
2. Variabel : menentukan variable yang paling relevan, apakah variable tidak bergantung satu sama
lainnya
Proses CRISP-DM

• Beberapa Teknik statistik dan grafik yang biasanya digunakan dalam menganaliss yaitu:
1. Ringkasan statistic sederhana dari setiap variable (variable numerik rata-rata, nilai minimum atau maksimum dari median,
standar deviasi
2. Analisis korelasi
3. Histogram
• Identifikasi dan pemiliha sumber data yang cermat serta variable yang paling relevan dapat mempermudah algoritme data mining
untuk menemukan pola pengetahuan yang berguna dengan cepat.
• Data kuantitatif dan kualitatif
• Sumber data untuk aplikasi bisnis:
1. Demografis (pendapatan, Pendidikan, umur, dan lainnya)
2. Data sosiografi (minat, kelompok keanggotaan, hiburan, dan lainnya)
3. Data transaksi (Riwayat penjualan, jumlah pengeluaran kartu-kredit, cek yang dikeluarkan, dan lainnya.
Proses CRISP-DM
Langkah 3 : Persiapan Data (Data Preparation)
• Tujuan: untuk mengambil data yang diidentifikasi pada langkah sebelumnya dan mempersiapkannya untuk dianalisis dengan metode data mining.
• Menghabiskan paling banyak waktu dan tenaga (kira-kira 80% dari total waktu yang dihabiskan untuk proyek data mining, karena:
- Data dunia nyata umumnya tidak lengkap (tidak memiliki nilai atribut, tidak memiliki atribut minat tertentu)
- Noisy (mengandung kesalahan dan pencilan/outlier)
- Tidak konsisten/inconsistent data (mengandung perbedaan dalam kode atau nama)
1. Fase 1 : Konsolidasi Data (Data Consolidation). Data yang relevan dikumpulkan dari sumber yang diidentifikasi, memilih variable yang diperlukan,
dan mengintegrasikan dari berbagi sumber data.
2. Fase 2: Pembersihan data (Data Celaning). Dalam fase ini data dibersihkan, nilai set data diidentifikasi dan ditangani, menghubungkan nilai yang
hilang dan mengurangi kebisingan (noise) dalam data, inkonsistensi pada data harus ditangani dengan menggunakan pengetahuan domain dan
atau pendapat dari para ahli.
3. Fase 3 : Tranformasi Data (Data Transformation). Data dinormalisasikan antara beberapa niali minimum dan maksimum untuk semua variabel.
4. Fase 4 : Reduksi Data (Data Reduction). Data dengan jumlah yang banyak sangat diinginkan oleh analis namun tidak semua data yang ada
diperlukan. Oleh karena itu data yang terlalu banyak bisa mnejadi masalah dan sebaiknya beberapa data yang tidak dibuthkan dihilangkan.
Mengurangi jumah atribut dapat dilakukan dengan menggunakan sampel acak, mengurangi jumlah record, menyeimbangkan data miring
menggunakan stratified sampling.
Proses CRISP-DM

Langkah 4: Membangun Model (Model Building)


- Berbagai Teknik pemodelan dipilih dan diterapkan pada kumpulan data yang telah disiapkan untuk
memenuhi kebutuhan bisnis tertentu
- Penilaian dan analisis komparatif terhadap berbagai model yang telah dibangun
- Menggunakan berbagai jenis model yang layak Bersama dengan eksperimen yang terdefinisi dengan
baik dan strategi penilaian untuk mengidentifikasi metode terbaik untuk tujuan tertentu
- Bergantung pada kebutuhan bisnis, tugas DM dapat berupa prediksi (classification/regression),
asosiasi, atau tipe cluster.
- Masing-masing tugas data mining dapat menggunakan berbagai metode dan algoritma data mining
seperti decision tree (untuk klasifikasi), k-means (untuk clustering), dan algoritma apriori (association
rule mining).
Proses CRISP-DM

Langkah 5 : Percobaan dan Evaluasi (Testing and Evaluation)


- Model dinilai dan dievalusai akurasi dan keumumannya.
- Cara pengujian dan evaluasi:
1. Menilai sejauh mana model yang telah dipilih memenuhi tujuan bisnis dan sejauh mana tujuan
tersebut terepenuhi oleh modell
2. Pengujian model yang dikembangkan. Namun waktu dan anggaran kemungkinan memiliki
keterbatasan.
- Tugas yang kritis dan menantang. Tidak ada penambahan tugas data mining sampai nilai bisnis
diidentifikasi dan dikenali. Menentukan nilai bisnis dari pola pengetahuan yang ditemukan.
Bergantung pada interaksi antara analis data, analis bisnis, dan pembuat keputusan.
Proses CRISP-DM

Langkah 6 : Penerapan (Deployment)


- Data mining dapat digunakan untuk mem-verifikasi hipotesis yang sudah ada sebelumnya. Data
mining dapat digunakan untuk memverifikasi hipotesis yang dipegang sebelumnya, atau untuk
penemuan pengetahuan (identifikasi hubungan yang tidak terduga dan berguna). Melalui
pengetahuan yang ditemukan pada fase awal proses CRISP-DM, model suara dapat diperoleh
yang kemudian dapat diterapkan pada operasi bisnis untuk berbagai tujuan, termasuk prediksi
atau identifikasi situasi utama. Model-model ini perlu dipantau untuk perubahan kondisi operasi,
karena apa yang mungkin benar hari ini memliki kemungkinan tidak benar di tahun yang akan
datang. Jika perubahan signifikan benar-benar terjadi, model harus diulang. Hasil proyek data
mining dicatat atau didokumentasikan sehingga bukti yang terdokumentasi dapat digunakan
untuk studi yang akan dating.
SEMMA

Sample Explore Modify Model Assess


Mengambil sebuah Memeriksa dataset Mentransformasikan Mencocokan model Membandingkan
sampel dari dataset, secara statistic variable-variable dan prediktif beberapa model”
membaginya ke mapun grafik. memeperbaiki data- menggunakan
dalam training, data yang hilang. validation dataset.
validation dan test
set.
Contoh Pengaplikasian Data
Mining
• Mesing pencari (search engine) seperti Google menerima ratusan juta kueri tiap harinya. Kueri
tersebut menggambarkan informasi apa yang dibutuhkan oleh pengguna mesin pencari
tersebut. Pengetahuan baru yang berguna dapat dipelajari mesin pencari dari begitu banyak
koleksi kueri yang dikumpulkan dari pengguna dari waktu ke waktu. Menariknya, beberapa pola
yang ditemukan dalam kueri penelusuran pengguna dapat mengungkapkan pengetahuan tak
ternilai yang tidak dapat diperoleh dengan membaca item data individu saja.
• CRM (Manajemen Hubungan Pelanggan) adalah tentang mendapatkan dan mempertahankan
pelanggan serta meningkatkan loyalitas pelanggan dan menerapkan strategi yang berfokus
pada pelanggan. Untuk menjaga hubungan yang tepat dengan pelanggan, perusahaan perlu
mengumpulkan data dan menganalisis informasi. Di sinilah data mining memainkan perannya.
Dengan teknologi data mining, data yang dikumpulkan dapat digunakan untuk analisis. Alih-alih
bingung ke mana harus fokus untuk mempertahankan pelanggan, para pencari solusi
mendapatkan hasil yang disaring.
• Educational Data MIning, berkaitan dengan metode pengembangan yang menemukan
pengetahuan dari data yang berasal dari Lingkungan pendidikan. Sasaran EDM diidentifikasi
sebagai memprediksi perilaku belajar siswa di masa depan, mempelajari efek dukungan
pendidikan, dan memajukan pengetahuan ilmiah tentang pembelajaran. Data mining dapat
digunakan oleh suatu institusi untuk mengambil keputusan yang akurat dan juga untuk
memprediksi hasil siswa. Dengan hasil ini lembaga dapat fokus pada apa yang diajarkan dan
bagaimana mengajar. Pola belajar siswa dapat ditangkap dan digunakan untuk
mengembangkan teknik mengajar mereka.
• Klasifikasi dan prediksi adalah dua bentuk analisis
data yang dapat digunakan untuk mengekstrak
model yang menggambarkan kelas data penting
atau untuk memprediksi tren data di masa depan.
• Dalam klasifikasi terdapat 2 kemungkinan yang
bersifat ya dan tidak. Sebagai contoh, perusahaan
kartu kredit ingin meminjamkan sebuah pinjaman
Klasifikasi kepada nasabah, Riwayat dari nasabah tersebut
harus dianalisis yang terdiri dari pendapatan,
pengeluaran, tabungan dan lainnya yang dapat
mempengaruhi dalam pengelompokan apakah
nasabah tersebut akan menjadi nasabah yang
berpotensi tidak membayar pinjaman maupun
sebaliknya [0=default,1=non-default].
Contoh Penagaplikasian Klasifikasi
Clustering

• Cluster adalah kumpulan record yang serupa satu sama lain, dan berbeda dengan
record di cluster lain. Pengelompokan berbeda dari klasifikasi karena tidak ada variabel
target untuk pengelompokan.
• Teknik ini digunakan untuk menganalisis objek data tanpa label kelas
• Pada beberapa kasus, label kelas bisa saja tidak muncul diawal. Klustering dapat
digunakan untuk menghasilkan label kelas pada kelompok data.
• Manfaat dari penggunaan clustering yaitu dapat berdadptasi dengan perubahan dan
membantu memilih fitur yang berguna yang membedakan kelompok yang berbeda.
• Pengelompokan juga disebut segmentasi data di beberapa aplikasi karena
pengelompokan mempartisi kumpulan data yang besar menjadi beberapa kelompok
sesuai dengan kemiripannya.
Contoh Clustering

Gambar di atas merupakan pengelompokan data pelanggan pada 3 lokasi dalam kota yang sama

• Clustering sering dilakukan sebagai langkah awal dalam proses data mining, dengan
cluster yang dihasilkan digunakan sebagai input lebih lanjut ke teknik hilir yang
berbeda, seperti jaringan neural.
Pengaplikasian Clustering
• Analisis cluster telah banyak digunakan di berbagai aplikasi, termasuk riset pasar,
pengenalan pola, dan analisis data.
• Dalam bisnis, pengelompokan dapat membantu pemasar menemukan kelompok
yang berbeda dalam basis pelanggan mereka dan mengkarakterisasi kelompok
pelanggan berdasarkan pola pembelian.
• Dalam biologi, clustering dapat digunakan untuk mendapatkan taksonomi
(pengelompokan) tumbuhan dan hewan, mengkategorikan gen dengan fungsi
serupa, dan memperoleh wawasan tentang struktur yang melekat dalam populasi.
• Pengelompokan juga dapat membantu dalam mengidentifikasi area dengan
penggunaan lahan serupa dalam database observasi bumi dan dalam identifikasi
kelompok rumah di kota menurut jenis rumah, nilai, dan lokasi geografis, serta
identifikasi kelompok asuransi mobil. pemegang polis dengan biaya klaim rata-rata
yang tinggi.
Alhamdulillah

Anda mungkin juga menyukai