Anda di halaman 1dari 36

TEKNIK/FUNGSIONAL DATA MINING

Deskripsi Estimasi Prediksi Klasifikasi Cluster/Segmentasi Asosiasi


Dirangkum Oleh: Annisa Arfani Yusuf, S.SI

DESKRIPSI
Terkadang peneliti dan analis secara sederhana ingin

mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.
(Larose dalam Kusrini dan Luthfi, 2009)

Deskripsi (Lanj)
Ketika kita diberikan sekumpulan data, kita akan sulit

untuk menangkap arti dari kumpulan data tersebut. Sehingga diperlukan cara agar data tersebut mudah dibaca untuk mendapatkan gambaran mengenai data tersebut. Terdapat beberapa cara untuk memberikan gambaran mengenai sekumpulan data secara ringkas.

Deskripsi (Lanj)
Deskripsi Grafis mendeskripsikan data dalam bentuk gambar. Diagram Titik Histogram Deskripsi Lokasi memberikan informasi mengenai data pada

posisi tempat tertentu. Mean (Rata-rata) Median Modus Kuartil, Desil dan Persentil
Deskripsi Keberagaman memberikan nilai keberagaman pada

data. Range (Rentang) Varians dan Standar Deviasi

Deskripsi Deskripsi Grafis


Diagram Titik
Pada diagram ini, setiap data digambarkan sebagai sebuah titik

Histogram
Pada diagram ini, setiap data digambarkan dengan grafis batangan.

Nilai UAS
100 90 80 70 60 50 40 30 20 10 0 0 5 10 15 20 Nilai UAS 100 90 80 70 60 50 40 30 20 10 0

Nilai UAS

Nilai UAS

Ari Billy Cindy Dita Erwin Farida Giovani Henri Indah Joko Kevin Linda Monika Nia Olbert

Deskripsi Deskripsi Lokasi


Meskipun deskripsi grafis sudah menggambarkan karakteristik data, sifatnya masih terlalu kasar dan kurang praktis untuk dilakukan. Kita memerlukan angka yang cukup mewakili data dan diperoleh secara praktis daripada grafis.

Deskripsi Deskripsi Lokasi


Mean yakni mengambil nilai rata-rata pada suatu kumpulan data.

Rumus:

Median yakni mencari nilai tengah pada satu kumpulan data yang

diurutkan. Modus yakni nilai yang paling sering muncul pada suatu kumpulan data.

Deskripsi Deskripsi Lokasi


Kuartil adalah data yang membagi kumpulan data terurut

menjadi 4 bagian yang sama. Terdapat tiga macam Kuartil, yakni Kuartil Bawah (Q1), Kuartil Tengah (Q2), dan Kuartil Atas (Q3). Rumus Kuartil untuk Data Tunggal Ganjil:
Desil adalah nilai yang membagi data menjadi 10 bagian

yang sama banyak dari data terurut. Rumus Desil untuk Data Tunggal :
Persentil merupakan pembagian data dengan 100

bagian. Rumus Persentil Data Tunggal :

Deskripsi Deskripsi Keberagaman


Range (rentang) menyatakan besarnya rentang jarak

antara data terkecil dengan data terbesar. Rentang yang besar menandakan bahwa data relatif beragam dan sebaliknya. Varians dan Standar Deviasi. Ukuran varians menggunakan prinsip pencarian jarak antara setiap data dengan pusatnya (mean). Rumus Varians : Standar Deviasi = akar dari varians Hasil perhitungan varians dan standar deviasi dari Tabel A dan Tabel B.

Deskripsi Deskripsi Keberagaman Varians dan Standar Deviasi

ESTIMASI
Konsep atau algoritma pada estimasi hampir sama

dengan klasifikasi, kecuali variabel target lebih ke arah numerik daripada ke arah kategori. Estimasi nilai dari variabel target ditentukan berdasarkan nilai dari variabel prediksi (atribut). Estimasi juga memiliki sedikit persamaan dengan prediksi, yakni untuk memperkirakan suatu hal. Sebagai contoh akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. Algoritma estimasi yang biasa digunakan adalah: Linear Regression, Neural Network, Support Vector Machine.

Estimation Example
Estimasi Performasi CPU Example: 209 different computer configurations
Cycle time (ns) MYCT 1 2 208 209 480 480 512 1000 8000 4000 32 0 0 0 0 0 67 45 125 29 Main memory (Kb) MMIN 256 8000 MMAX 6000 32000 Cache (Kb) CACH 256 32 16 8 Channels CHMIN CHMAX 128 32 Performance PRP 198 269

Source : Romi Wahono

PREDIKSI
Prediksi hampir sama dengan klasifikasi dan estimasi,

kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. Dikatakan hampir sama dengan klasifikasi karena menghasilkan perkiraan yang berbentuk kategorial. Dikatakan hampir sama dengan estimasi karena memiliki sama-sama bersifat perkiraan, hanya saja hasil pada prediksi menunjukkan hasil pada masa yang akan datang. Pada prediksi, data yang digunakan merupakan data rentet waktu (data time series). Algoritma yang sering digunakan Algoritma C4.5, Neural Network, dan seluruh algoritma yang dapat digunakan untuk estimasi.

Contoh Kasus Prediksi


Prediksi potensi akademik mahasiswa yang akan datang

berdasarkan nilai IPK mahasiswa selama beberapa semester. Prediksi harga beras dalam tiga bulan yang akan datang. Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah kecepatan dinaikan. Prediksi potensi penjualan barang-barang elektronik tahun depan berdasarkan penjualan tiga tahun sebelumnya. Prediksi harga saham dalam beberapa bulan ke depan berdasarkan performansi perusahaan dan data-data ekonomi.

Source: http://www.geo.mtu.edu

KLASIFIKASI
Klasifikasi merupakan suatu pekerjaan menilai objek data untuk

memasukannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu : a. pembangunan model sebagai prototipe untuk disimpan sebagai memori. b. penggunaan model tersebut untuk melakukan pengenalan/klasifikasi/prediksi pada suatu objek data lain agar dapat diketahui di kelas mana objek data tersebut dalam model yang sudah disimpannya. Contoh : bagaimana melakukan diagnosis penyakit kulit kanker melanoma, yaitu dengan melakukan pembangunan model berdasarkan data latih (data training) yang ada, kemudian menggunakan model tersebut untuk mengidentifikasi penyakit pasien baru sehingga diketahui apakah pasien tersebut menderita kanker atau tidak. Algoritma yang sering digunakan : Nave Bayes, K-Nearest Neighbor, C4.5 Algorithm, Artificial Neural Network, dll.

Masukan Data Latih (x,y)

Algoritma Pelatihan

Pembangunan Model

Masukan Data Uji (x,?)

Peneriapan Model

Keluaran Data Uji (x,y)

Berdasarkan gambar Proses Pekerjaan Klasifikasi, diketahui terdapat dua langkah proses didalamnya, yakni:
Langkah membangun model klasifikasi dari data latih yang diberikan, disebut juga proses pelatihan

Induksi

Deduksi

Langkah untuk menerapkan model tersebut pada data uji sehingga kelas yang sesungguhnya dari data uji dapat diketahui, disebut juga proses prediksi.

Sebuah sistem klasifikasi diharapkan dapat melakukan klasifikasi seluruh dataset dengan benar, tetapi tidak dapat dimungkiri bahwa kinerja suatu sistem tidak bisa 100% benar, sehingga sistem klasifikasi juga harus diukur kinerjanya!

Gunakan Matriks Konfusi!

Matriks konfusi merupakan tabel pencatat hasil kerja klasifikasi.

Contoh : Matriks konfusi yang melakukan klasifikasi masalah biner (dua kelas)
Kelas asli (i) Kelas = 1 Kelas = 0 Kelas hasil prediksi (j) Kelas = 1 Kelas = 0

Setiap sel dalam matriks menyatakan jumlah rekord/data dari kelas i yang hasil prediksinya masuk ke kelas j.
Misalnya, sel adalah jumlah data dalam kelas 1 yang secara benar dipetakan ke kelas 1, dan adalah data dalam kelas 1 yang dipetakan secara salah ke kelas 0 .

Sehingga dapat diketahui bahwa : dan adalah data yang diklasifikasikan dengan benar dan adalah data yang diklasifikasikan secara salah

Kuantitas matriks konfusi dapat diringkas menjadi dua nilai, yaitu akurasi dan laju eror Jumlah data yang diklasifikasi secara benar dapat digunakan untuk mengetahui akurasi hasil prediksi. Jumlah data yang diklasifikasi secara salah dapat digunakan untuk mengetahui laju eror hasil prediksi.

Akurasi =

+ + + +

Laju Eror =

+ + + +

Contoh Studi Kasus Klasifikasi


Petugas peminjaman uang di sebuah bank memprediksi

pemohon mana yang aman dan mana yang beresiko untuk diberi pinjaman Para petani menentukan jagung produktif dan jagung non-produktif Mengklasifikasi pasien pengidap penyakit kanker dan yang tidak mengidap penyakit kanker. Periset di bidang medis memprediksi jenis pengobatan apa yang cocok diberikan kepada seorang pasien dengan penyakit tertentu.

CLUSTERRING (PENGELOMPOKAN)
Clusterring merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki kemiripan dengan record-record dalam cluster lain. Clusterring kadang juga disebut segmentation atau partitioning.

Label kelas telah diketahui. (supervised classification)

Label kelas setiap data belum diketahui. (unsupervised classification)

Pengelompokan yang melakukan pemisahan/pemecahan/segmentasi data ke dalam sejumlah kelompok menurut karakteristik tertentu yang diinginkan. Pengelompokan diharapkan dapat diketahui kelompok data kemudian diberi label sesuai keinginan

Itulah Clusterring!

Hasil pengelompokan yang berbeda untuk data yang sama (Prasetyo, 2012)

Tujuan Clusterring
Pemahaman
Proses pengelompokan hanyalah sebagai proses awal kemudian dilanjutkan dgn pengerjaan inti seperti summarization, pelabelan kelas pada setiap kelompok, dsb.

Biologi
Information Retrieval Bisnis

Mengelompokan hewan menurut karakter tertentu secara hierarkis (spesies, genus, suku, ordo, kelas, filum, kerajaan)
Mengelompokkan kata kunci misalnya movie diberikan hasil halaman yg dibedakan dalam kategori seperti genre, stars, theaters, dsb Memecah pelanggan ke dalam kelompokkelompok kecil untuk analisis dan strategi pemasaran

Summarization Penggunaan
Tujuan utamanya mencari prototipe kelompok yang paling representatif terhadap data, memberikan abstraksi dari setiap objek data dalam kelompok di mana sebuah data terletak di dalamnya.

Membuat prototipe yang dapat mewakili kondisi seluruh data, misalnya mengambil rata-rata dan standar deviasi dari suatu data. Data-data dalam kelompok yg sama dapat dikompresi dan diwakili oleh indeks prototipe dari tiap kelompok. Setiap objek direpresentasikan dgn indeks prototipe yg dikaitkan dgn sebuah kelompok. Komputasi pencarian tetangga terdekat dapat digantikan dengan prototipe terrdekat. Hal ini dapat mengurangi waktu komputasi secara signifikan.

Kompresi
Pencarian tetangga terdekat secara efisien

Jenis-jenis Clusterring
Pengelompokan Hierarki Menurut struktur Pengelompokan Partitioning
Membagi set data ke dalam sejumlah kelompok yang tidak overlap antara satu kelompok dengan kelompok yang lain. Artinya setiap data hanya menjadi anggota satu kelompok. Algoritma : K-Means dan DBSCAN Sebuah data dipastikan hanya menjadi anggota satu kelompok dan tidak menjadi anggota kelompok yang lain. Algoritma : K-Means dan DBSCAN Membolehkan sebuah data menjadi anggota di lebih dari satu kelompok. Algoritma : Fuzzy C-Means, pengelompokan hierarki. Satu data tunggal bisa dianggap sebuah kelompok, dua atau lebih kelompok kecil dapat bergabung menjadi sebuah kelompok besar, dst hingga membentuk sebuah kelompok

Menurut keanggotaan data dalam kelompok

Eksklusif

Tumpang tindih

Komplet Menurut kategori kekompakan Parsial

Jika semua data bisa bergabung menjadi satu (dalam konteks penyekatan), bisa dikatakan semua data kompak menjadi satu kelompok. Namun jika ada satu atau dua (sedikit) data yang tidak ikut bergabung dalam kelompok mayoritas, data tersebut dikatakan memiliki perilaku menyimpang, yang dikenal sebagai outlier, noise, atau uninterested background.

Penerapan Clusterring
Kedokteran
Mengelompokan jenis-jenis penyakit berbahaya berdasarkan karakteristik/sifatsifat penyakit pasien Mengelompokan jenis-jenis makanan berdasarkan kandungan kalori, vitamin, dan protein.

Kesehatan

Klimatologi

Mengetahui pola angin dan kondisi cuaca di udara sehingga bisa diketahui wilayah-wilayah yang rentan terhadap cuaca buruk, dan sebagainya.
Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar Melakukan pengelompokan terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar

Pemasaran

Biologi

ASOSIASI
Asosiasi atau yang sering disebut sebagai Association rules (Aturan asosiasi) berkenaan dengan studi mengenai apa bersama apa.

Contohnya adalah transaksi di supermarket. Misalnya pelanggan ibu rumah tangga yang membeli minyak, susu, dan telur, jarang menyertai pembelian tersebut dengan buku dan topi. Seseorang yang membeli susu bayi juga membeli sabun bayi.

Association rules juga sering dinamakan market basket analysis karena berasal dari studi tentang database transaksi pelanggan untuk menentukan kebiasaan suatu produk dibeli bersama dengan produk apa.

Manajemen dapat membuat keputusan kapan waktu yang tepat untuk promosi barang

Bagaimana strategi untuk menghabiskan barang yang kurang laku

Manajemen pembelian barang yang sebaiknya dibeli bersama-sama

Meningkatkan strategi dengan cara memberikan bonus satu barang jika melakukan pembelian barang lain.

IDT 1 2 Telur, Beras

Item Minyak, Topi, Beras, Telur

3
4 5 6

Telur, Minyak, Beras, Buku


Buku, Minyak, Topi Beras, Telur, Topi, Minyak Telur, Minyak, Beras IDT

Data Transaksi Keranjang Belanja

Beras

Buku

Minyak

Telur

Topi

7
8

Telur, Minyak, Buku


Beras, Buku

1
2 3

1
1 1 0 1 1 0 1

0
0 1 1 0 0 1 1

0
1 1 1 1 1 1 0

1
1 1 0 1 1 1 0

0
1 0 1 1 0 0 0

Representasi Biner untuk Data Keranjang Belanja

4 5 6 7 8

Sifat penting dalam itemset (kumpulan item di keranjang belanja dalam jumlah kosong atau lebih) adalah support count, yang didefinisikan sebagai jumlah transaksi yang berisi itemset tertentu.

Secara matematis, support count dinotasikan sebagai (X) . Sementara itemset X dapat dinyatakan sebagai (X) = |{ | X , T}| Keterangan: T = Transaksi = Transaksi ke-I | . | = jumlah item dalam set

Contoh :

Support count untuk {Beras, Minyak} adalah 4, karena ada 4 transaksi yang berisi {Beras, Minyak}

Association rule adalah pernyataan implikasi bentuk X Y , di mana X disebut antecedent dan B disebut consequent. Kekuatan assocation rule dapat diukur dengan support dan confidence.

Apakah Support dan Confidence ? Support digunakan untuk menentukan seberapa banyak aturan dapat diterapkan pada set data !!

Confidence digunakan untuk menentukan seberapa sering item di dalam Y muncul dalam transaksi berisi X !!

RUMUS

Support,s(XY) =

( )

Confidence,c(XY) =

( ) ()

Contoh: X = {Beras, Telur} , Y = {Minyak} XY = {Beras, Telur, Minyak} ada 4 N (total transaksi) = 8
s(XY) = 4/8 = 0.5 c(XY) = 4/5 = 0.8

{roti,mentega} {susu} (support = 40%, confidence = 50%)


Artinya : 50% dari transaksi di database yang memuat item roti dan mentega juga memuat item susu. Sedangkan 40% dari seluruh transaksi yang ada di database memuat ketiga item tersebut "Seorang konsumen yang membeli roti dan mentega punya kemungkinan 50% untuk juga membeli susu. Aturan tersebut cukup akurat karena mewakili 40% dari catatan transaksi yang ada."

Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan asosiasi yang memenuhi syarat minimum untuk support (minimum support/minsup = minsup) dan syarat minimum untuk confidence (minimum confidence/mincof = mincof).
Strategi umum yang diadopsi oleh banyak algoritma penggalian aturan asosiasi adalah memecah masalah ke dalam dua pekerjaan utama, yaitu: 1. frequent itemset generation tujuannya adalah mencari semua itemset yang memenuhi ambang batas minsup. Itemset itu disebut itemset frekuen (itemset yang paling sering muncul). 2. rule generation tujuannya adalah mengekstrak aturan dengan confidence tinggi dari itemset frekuen yang ditemukan dalam langkah sebelumnya. Aturan ini kemudian disebut aturan yang kuat (strong rule).

Sumber
AB, Adam. Data Mining I. Bahan Ajar. Universitas Darma

Persada http://mynameadam.files.wordpress.com/2012/11/datamin ingi_p12-compatibility-mode.pdf Kusrini dan Luthfi. 2009. Algoritma Data Mining. Yogyakarta: ANDI Prasetyo, Eko. 2012. DATA MINING Konsep dan Aplikasi Menggunakan MATLAB. Yogyakarta: ANDI Santosa, Budi. 2007. DATA MINING: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu Wahono, Romi. Bahan Ajar http://lintang.staff.gunadarma.ac.id/Downloads/files/34245 /Introduction_DM_RSW_1.pdf

Anda mungkin juga menyukai