Pertemuan 2

DATA MINING
Bidang Ilmu dalam Data Mining

• Database – Data Mining : Data yang digali/dicari informasinya bersumber dari
database.
• Statistik – Data Mining : Dalam pengambilan keputusan, statistik
membutuhkan data mulai dari pengumpulan data, pengambilan sample data,
menganalisa, dan mempresentasikan output menggunakan teknik statistic
• Pencarian informasi – Data Mining : pencarian informasi merupakan salah satu
kegiatan dalam proses data mining yang meliputi interpretasi, analisis dan
penyimpanan data.
• Atificial Intelligent – Data Mining : Salah satu cabang dari Atificial Intelligent
adalah mechine learning. Mechine learning merupakan disiplin ilmu yang
penting dalam data mining dimana sistem komputer belajar dari training data
yang digunakan.
Fungsi Data Mining
Data mining pada dasarnya memiliki empat fungsi dasar yaitu :
• Fungsi Prediksi (prediction)
Data mining dapat memberikan prediksi kepada kita, melalui prosesnya yang dapat menemukan
pola dari data, untuk menemukan pola ini data mining akan menggunakan beberapa variable
untuk memprediksikan variable lain yang tidak diketahui jenis atau nilainya.
• Fungsi Deskripsi (description)
Fungsi deskripsi dari Data Mining berjalan dengan cara menemukan suatu karakteristik penting
dari sebuah data dalam suatu basis data
• Fungsi Klasifikasi (classification)
Klasifikasi dalam Data Mining merupakan proses yang digunakan untuk menemukan model atau
fungsi untuk menggambarkan Class atau konsep dari suatu data. Pada proses Klasifikasi ini Data
mining akan mendeskripsikan data yang penting dan juga dapat meramalkan kecenderungan data
pada masa depan.
• Clustering
Clustrering adalah sebuah pengelompokan data yang tidak berdasarkan kelas data tertentu.
sebuah kluster merupakan kumpulan record memiliki kemiripan dari data yang satu dengan yang
lainnya. dan memiliki perbedaan dari data kluster yang lainnya.Tujuan dari Clustering ini adalah
untuk dapat menghasilkan pengelompokan objek/data yang mirip.
Kategori Dalam Data Mining
Data Mining dibagi menjadi 2 kategori (Han dan Kamber, 2006) :

1. Deskriptif  bahwa data mining dilakukan untuk mencari pola-pola yang
dapat dipahami manusia yang menjelaskan karakteristik data. Misalnya
pencarian kelompok barang yang sering dibeli bersamaan pada data transaksi.
2. Prediktif  maksudnya data mining dilakukan untuk membentuk sebuah
model pengetahuan yang akan digunakan untuk melakukan prediksi. Misalnya
untuk memprediksi pengunjung online sebuah website komersial berdasarkan
perilakunya apakah pengunjung ini akan membeli produk website tersebut.
Teknik Pembelajaran Data Mining
Teknik yang digunakan dalam data mining erat kaitannya dengan “penemuan”
(discovery) dan “pembelajaran” (learning) yang terbagi dalam dua metode
utama pembelajaran yaitu :
• Supervised Learning
• Unsupervised Learning
1. Supervised Learning
Supervised Learning adalah teknik yang paling banyak digunakan. Teknik ini sama
dengan “programming by example”. Teknik ini melibatkan fase pelatihan dimana
data pelatihan historis yang karakter–karakternya dipetakan ke hasil-hasil yang
telah diketahui diolah dalam algoritma data mining. Proses ini melatih algoritma
untuk mengenali variable–variable dan nilai–nilai kunci yang nantinya akan
digunakan sebagai dasar dalam membuat perkiraan–perkiraan ketika diberikan
data baru.
Contoh Supervised Learning
• Contoh Supervised Learning adalah ketika Anda memiliki sejumlah buku yang
sudah dilabeli dengan kategori tertentu. Misalnya, kategori buku novel seperti
Digital Fortress, Inferno, Deception Point. Kategori buku akademik, seperti
Pengantar Teknologi Informasi, R in Action, Rekayasa Perangkat Lunak. Kategori
biografi antara lain Anne Frank, Abraham Lincoln dan Mandela. Selanjutnya,
ketika Anda membeli sejumlah buku baru, maka Anda harus mengindentifikasi isi
dari buku tersebut, dan memasukannya dalam kategori. Ketika Anda membeli
buku Logika fuzzy, Anda pasti akan memasukan buku tersebut ke dalam buku
akademik.
2. Unsupervised Learning
Teknik pembelajaran ini tidak melibatkan fase pelatihan seperti yang terdapat
pada supervised learning. Teknik ini bergantung pada penggunaan algoritma yang
mendeteksi semua pola, seperti associations dan sequences, yang muncul dari
kriteria penting yang spesifik dalam data masukan. Pendekatan ini mengarah pada
pembuatan banyak aturan (rules) yang mengkarakterisasikan penemuan
associations, clusters, dan segments. Aturan–aturan ini kemudian dianalisis untuk
menemukan hal–hal yang penting
Contoh Unsupervised Learning
• Contoh Anggaplah Anda belum pernah membeli buku sama sekali, namun dalam satu hari,
Anda membeli banyak tumpukan buku dan ingin membaginya kedalam beberapa kategori
agar nantinya mudah dicari. Anda akan mengidentifikasi buku buku mana yang mirip.
Dalam hal ini, kita memilih pendekatan buku berdasarkan isinya. Misalnya anda memiliki
buku Twilight, Inferno, Harry Potter, Pengantar Teknologi Informasi, Sistem Pendukung
Keputusan, Rekayasa Perangkat Lunak, Anne Frank, Abraham Lincoln dan Mandela. Anda
akan mengklasifikasikan buku Pengantar Teknologi Informasi, R in Action, Rekayasa
Perangkat Lunak Anda ke dalam buku akademik karena keperluannya untuk kuliah. Untuk
melakukan hal itu Anda perlu algoritma yang mendukung untuk pengimplementasian dari
metode tersebut.
• Kesimpulannya dari penjelasan di supervised dan unsupervised learning
diatas adalah jika anda memiliki data data sebelumnya dan memiliki
variabel target yang akan diklasifikasikan, maka Anda dapat memakai
metode supervised learning. Jika Anda ingin membagi data — data tersebut
ke dalam beberapa kelompok maka Anda memakai metode unsupervised
learning.
Algoritma Supervised Learning
• Decision tree
• Nearest — Neighbor Classifier
• Naive Bayes Classifier
• Artificial Neural Network
• Support Vector Machine
• Fuzzy K-Nearest Neighbor
Algoritma Unsupervised Learning
• K-Means
• Hierarchical Clustering
• DBSCAN
• Fuzzy C-Means
• Self-Organizing Map
Deccision Tree
• Decision tree (pohon keputusan) adalah salah satu metode klasifikasi yang paling
populer, karena mudah untuk diinterpretasi oleh manusia. Decision tree adalah model
prediksi menggunakan struktur pohon atau struktur berhirarki.
Ada tiga elemen dalam satu decision tree, yaitu:

1. root node (akar): titik awal pada decision tree
2. branches (ranting): berbagai pilihan tindakan
3. leaf node (daun): kemungkinan hasil atas setiap tindakan
Contoh Deccision Tree
Klasifikasi hewan vertebrata
Hewan vertebrata adalah hewan yang memiliki tulang belakang.

Hewan vertebrata terbagi menjadi 2 suhu tubuh panas dan dingin . Jika
suhu hewan tersebut dingin dia buka mamalia, sedangkan jika suhu
hewan panas dan melahirkan maka hewan tersebut mamalia . Dan jika
Contoh Deccision Tree (2)
Tindakan saat membutuhkan uang

Kelebihan Decision Tree
• mudah dimengerti dan dianalisis

• bisa dibuat secara numerik atau kategorik
• hanya memerlukan sedikit pemrosesan data di awal pembuatan
• mudah untuk dibuat kesimpulan
Kekurangan Decision Tree
• rentan terhadap kesalahan dalam masalah klasifikasi karena ada banyak

pilihan
• penghitungan bisa menjadi sangat kompleks, terutama jika banyak nilai
tidak pasti
Latihan
• Pada hari ini, Senin 18 September 2022 saya mengikuti sebuah seminar,
namun karena dari pagi harinya saya belum sarapan dan perut terasa lapar
sedangkan waktu makan siang baru tersedia jam 12.30 maka dari itu saya
memutuskan akan ijin keluar terlebih dahulu untuk mencari makan diluar
tempat seminar. Namun sebagai konsekuensi dari keputusan yang saya ambil,
saya akan tertinggal materi dalam seminar tersebut.
Gambarkan logika keputusannya berdasarkan kasus diatas !

Pertemuan 2

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pertemuan 2

Diunggah oleh

Hak Cipta:

Format Tersedia

DATA MINING

Bidang Ilmu dalam Data Mining

Data Mining dibagi menjadi 2 kategori (Han dan Kamber, 2006) :

Ada tiga elemen dalam satu decision tree, yaitu:

Hewan vertebrata adalah hewan yang memiliki tulang belakang.

Tindakan saat membutuhkan uang

• mudah dimengerti dan dianalisis

• rentan terhadap kesalahan dalam masalah klasifikasi karena ada banyak

Gambarkan logika keputusannya berdasarkan kasus diatas !

Anda mungkin juga menyukai