Mining
• Mampu memahami konsep data mining
Capaian • Memahami proses-proses dalam data mining
Belajar • Memahami konsep klasifikasi
• Memahami konsep clustering
• Merupakan langkah penting dalam proses
penemuan pengetahuan.
• Dapat juga disebut proses dalam pencarian
pola yang menarik serta pengetahuan dari
Data Mining data dalam jumlah yang besar.
• Sumber data termasuk databasae, data
warehouse, Web, repositori informasi
lainnya, atau data yang langsung dimasukkan
ke dalam sistem secara dinamis.
• Jutaan data yang terkumpul setiap harinya
membuat data-data tersebut menumpuk
dengan jumlah yang sangat besar.
Pentingnya • Data tersebut sangat dibutuhkan untuk
menunjang pengambilan keputusan dalam
Data Mining sebuah organisasi dimana data yang ada
diolah menggunakan data mining.
• Data mining dapat dilihat sebagai hasil dari
evolusi alami teknologi informasi.
• Data mining sangat membantu dalam menentukan hubungan
dan pola antar data, namun hal tersebut tidak bekerja dengan
sendirinya dan tidak mengeliminasi syarat-syarat dalam
memahami data, metode analisis, dan pengetahuan mengenai
What Can bisnis.
Mining Do • Contoh:
Data mining dapat membantu dalam menentukan bahwa laki-
and Not laki dengan pendapatan antara Rp. 4.000.000 - Rp. 10.000.000
yang terkontribusi pada jurnal, diharapkan untuk membeli
Do? produk ini dan itu. Informasi ini dapat membantu dalam
mengembangkan strategi pemasaran. Namun, tidak semua
populasi yang diidentifikasi melalui data mining tersebut akan
membeli produk tersebut dengan mudah hanya karena berada di
kategori yang sama.
• Database Data /DBMS
Terdiri dari kumpulan data yang saling terkait, yang dikenal sebagai
database, dan sekumpulan program perangkat lunak untuk mengelola
dan mengakses data. Relational database merupakan kumpulan table-
table, yang masing-masing ditandai dengan kode unik.
Masing-masing table memiliki atribut dan terdiri dari baris yang banyak.
Baris dalam tabel merepresentasikan sebuah objek yang
diidentifikasikan oleh kode unik.
Source Data
1. Mengembangkan sebuah pemahaman dari
tujuan proyek data mining tersebut
2. Mendapatkan dataset yang akan dianalisis
Tahap-tahap
3. Mengeksplor, membersihkan dan pre-
process data.
4. Mengurangi dimensi data apabila diperlukan
dalam Data 5. Menentukan tugas-tugas data mining
Mining
6. Membagi data (supervised task)
7. Menentukan Teknik data mining yang akan
digunakan
8. Menerapkan algoritma untuk melakukan
tugasnya
9. Menginterpretasikan hasil dari algoritma
yang telah digunakan
10. Mengembangkan model
• Fase pendefinisian masalah : Fokus utama dari fase pertama dari
• Beberapa Teknik statistik dan grafik yang biasanya digunakan dalam menganaliss yaitu:
1. Ringkasan statistic sederhana dari setiap variable (variable numerik rata-rata, nilai minimum atau maksimum dari median,
standar deviasi
2. Analisis korelasi
3. Histogram
• Identifikasi dan pemiliha sumber data yang cermat serta variable yang paling relevan dapat mempermudah algoritme data mining
untuk menemukan pola pengetahuan yang berguna dengan cepat.
• Data kuantitatif dan kualitatif
• Sumber data untuk aplikasi bisnis:
1. Demografis (pendapatan, Pendidikan, umur, dan lainnya)
2. Data sosiografi (minat, kelompok keanggotaan, hiburan, dan lainnya)
3. Data transaksi (Riwayat penjualan, jumlah pengeluaran kartu-kredit, cek yang dikeluarkan, dan lainnya.
Proses CRISP-DM
Langkah 3 : Persiapan Data (Data Preparation)
• Tujuan: untuk mengambil data yang diidentifikasi pada langkah sebelumnya dan mempersiapkannya untuk dianalisis dengan metode data mining.
• Menghabiskan paling banyak waktu dan tenaga (kira-kira 80% dari total waktu yang dihabiskan untuk proyek data mining, karena:
- Data dunia nyata umumnya tidak lengkap (tidak memiliki nilai atribut, tidak memiliki atribut minat tertentu)
- Noisy (mengandung kesalahan dan pencilan/outlier)
- Tidak konsisten/inconsistent data (mengandung perbedaan dalam kode atau nama)
1. Fase 1 : Konsolidasi Data (Data Consolidation). Data yang relevan dikumpulkan dari sumber yang diidentifikasi, memilih variable yang diperlukan,
dan mengintegrasikan dari berbagi sumber data.
2. Fase 2: Pembersihan data (Data Celaning). Dalam fase ini data dibersihkan, nilai set data diidentifikasi dan ditangani, menghubungkan nilai yang
hilang dan mengurangi kebisingan (noise) dalam data, inkonsistensi pada data harus ditangani dengan menggunakan pengetahuan domain dan
atau pendapat dari para ahli.
3. Fase 3 : Tranformasi Data (Data Transformation). Data dinormalisasikan antara beberapa niali minimum dan maksimum untuk semua variabel.
4. Fase 4 : Reduksi Data (Data Reduction). Data dengan jumlah yang banyak sangat diinginkan oleh analis namun tidak semua data yang ada
diperlukan. Oleh karena itu data yang terlalu banyak bisa mnejadi masalah dan sebaiknya beberapa data yang tidak dibuthkan dihilangkan.
Mengurangi jumah atribut dapat dilakukan dengan menggunakan sampel acak, mengurangi jumlah record, menyeimbangkan data miring
menggunakan stratified sampling.
Proses CRISP-DM
• Cluster adalah kumpulan record yang serupa satu sama lain, dan berbeda dengan
record di cluster lain. Pengelompokan berbeda dari klasifikasi karena tidak ada variabel
target untuk pengelompokan.
• Teknik ini digunakan untuk menganalisis objek data tanpa label kelas
• Pada beberapa kasus, label kelas bisa saja tidak muncul diawal. Klustering dapat
digunakan untuk menghasilkan label kelas pada kelompok data.
• Manfaat dari penggunaan clustering yaitu dapat berdadptasi dengan perubahan dan
membantu memilih fitur yang berguna yang membedakan kelompok yang berbeda.
• Pengelompokan juga disebut segmentasi data di beberapa aplikasi karena
pengelompokan mempartisi kumpulan data yang besar menjadi beberapa kelompok
sesuai dengan kemiripannya.
Contoh Clustering
Gambar di atas merupakan pengelompokan data pelanggan pada 3 lokasi dalam kota yang sama
• Clustering sering dilakukan sebagai langkah awal dalam proses data mining, dengan
cluster yang dihasilkan digunakan sebagai input lebih lanjut ke teknik hilir yang
berbeda, seperti jaringan neural.
Pengaplikasian Clustering
• Analisis cluster telah banyak digunakan di berbagai aplikasi, termasuk riset pasar,
pengenalan pola, dan analisis data.
• Dalam bisnis, pengelompokan dapat membantu pemasar menemukan kelompok
yang berbeda dalam basis pelanggan mereka dan mengkarakterisasi kelompok
pelanggan berdasarkan pola pembelian.
• Dalam biologi, clustering dapat digunakan untuk mendapatkan taksonomi
(pengelompokan) tumbuhan dan hewan, mengkategorikan gen dengan fungsi
serupa, dan memperoleh wawasan tentang struktur yang melekat dalam populasi.
• Pengelompokan juga dapat membantu dalam mengidentifikasi area dengan
penggunaan lahan serupa dalam database observasi bumi dan dalam identifikasi
kelompok rumah di kota menurut jenis rumah, nilai, dan lokasi geografis, serta
identifikasi kelompok asuransi mobil. pemegang polis dengan biaya klaim rata-rata
yang tinggi.
Alhamdulillah