DESKRIPSI
Terkadang peneliti dan analis secara sederhana ingin
mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.
(Larose dalam Kusrini dan Luthfi, 2009)
Deskripsi (Lanj)
Ketika kita diberikan sekumpulan data, kita akan sulit
untuk menangkap arti dari kumpulan data tersebut. Sehingga diperlukan cara agar data tersebut mudah dibaca untuk mendapatkan gambaran mengenai data tersebut. Terdapat beberapa cara untuk memberikan gambaran mengenai sekumpulan data secara ringkas.
Deskripsi (Lanj)
Deskripsi Grafis mendeskripsikan data dalam bentuk gambar. Diagram Titik Histogram Deskripsi Lokasi memberikan informasi mengenai data pada
posisi tempat tertentu. Mean (Rata-rata) Median Modus Kuartil, Desil dan Persentil
Deskripsi Keberagaman memberikan nilai keberagaman pada
Histogram
Pada diagram ini, setiap data digambarkan dengan grafis batangan.
Nilai UAS
100 90 80 70 60 50 40 30 20 10 0 0 5 10 15 20 Nilai UAS 100 90 80 70 60 50 40 30 20 10 0
Nilai UAS
Nilai UAS
Ari Billy Cindy Dita Erwin Farida Giovani Henri Indah Joko Kevin Linda Monika Nia Olbert
Rumus:
Median yakni mencari nilai tengah pada satu kumpulan data yang
diurutkan. Modus yakni nilai yang paling sering muncul pada suatu kumpulan data.
menjadi 4 bagian yang sama. Terdapat tiga macam Kuartil, yakni Kuartil Bawah (Q1), Kuartil Tengah (Q2), dan Kuartil Atas (Q3). Rumus Kuartil untuk Data Tunggal Ganjil:
Desil adalah nilai yang membagi data menjadi 10 bagian
yang sama banyak dari data terurut. Rumus Desil untuk Data Tunggal :
Persentil merupakan pembagian data dengan 100
antara data terkecil dengan data terbesar. Rentang yang besar menandakan bahwa data relatif beragam dan sebaliknya. Varians dan Standar Deviasi. Ukuran varians menggunakan prinsip pencarian jarak antara setiap data dengan pusatnya (mean). Rumus Varians : Standar Deviasi = akar dari varians Hasil perhitungan varians dan standar deviasi dari Tabel A dan Tabel B.
ESTIMASI
Konsep atau algoritma pada estimasi hampir sama
dengan klasifikasi, kecuali variabel target lebih ke arah numerik daripada ke arah kategori. Estimasi nilai dari variabel target ditentukan berdasarkan nilai dari variabel prediksi (atribut). Estimasi juga memiliki sedikit persamaan dengan prediksi, yakni untuk memperkirakan suatu hal. Sebagai contoh akan dilakukan estimasi tekanan darah sistolik pada pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat badan, dan level sodium darah. Algoritma estimasi yang biasa digunakan adalah: Linear Regression, Neural Network, Support Vector Machine.
Estimation Example
Estimasi Performasi CPU Example: 209 different computer configurations
Cycle time (ns) MYCT 1 2 208 209 480 480 512 1000 8000 4000 32 0 0 0 0 0 67 45 125 29 Main memory (Kb) MMIN 256 8000 MMAX 6000 32000 Cache (Kb) CACH 256 32 16 8 Channels CHMIN CHMAX 128 32 Performance PRP 198 269
PREDIKSI
Prediksi hampir sama dengan klasifikasi dan estimasi,
kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. Dikatakan hampir sama dengan klasifikasi karena menghasilkan perkiraan yang berbentuk kategorial. Dikatakan hampir sama dengan estimasi karena memiliki sama-sama bersifat perkiraan, hanya saja hasil pada prediksi menunjukkan hasil pada masa yang akan datang. Pada prediksi, data yang digunakan merupakan data rentet waktu (data time series). Algoritma yang sering digunakan Algoritma C4.5, Neural Network, dan seluruh algoritma yang dapat digunakan untuk estimasi.
berdasarkan nilai IPK mahasiswa selama beberapa semester. Prediksi harga beras dalam tiga bulan yang akan datang. Prediksi persentase kenaikan kecelakaan lalu lintas tahun depan jika batas bawah kecepatan dinaikan. Prediksi potensi penjualan barang-barang elektronik tahun depan berdasarkan penjualan tiga tahun sebelumnya. Prediksi harga saham dalam beberapa bulan ke depan berdasarkan performansi perusahaan dan data-data ekonomi.
Source: http://www.geo.mtu.edu
KLASIFIKASI
Klasifikasi merupakan suatu pekerjaan menilai objek data untuk
memasukannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu : a. pembangunan model sebagai prototipe untuk disimpan sebagai memori. b. penggunaan model tersebut untuk melakukan pengenalan/klasifikasi/prediksi pada suatu objek data lain agar dapat diketahui di kelas mana objek data tersebut dalam model yang sudah disimpannya. Contoh : bagaimana melakukan diagnosis penyakit kulit kanker melanoma, yaitu dengan melakukan pembangunan model berdasarkan data latih (data training) yang ada, kemudian menggunakan model tersebut untuk mengidentifikasi penyakit pasien baru sehingga diketahui apakah pasien tersebut menderita kanker atau tidak. Algoritma yang sering digunakan : Nave Bayes, K-Nearest Neighbor, C4.5 Algorithm, Artificial Neural Network, dll.
Algoritma Pelatihan
Pembangunan Model
Peneriapan Model
Berdasarkan gambar Proses Pekerjaan Klasifikasi, diketahui terdapat dua langkah proses didalamnya, yakni:
Langkah membangun model klasifikasi dari data latih yang diberikan, disebut juga proses pelatihan
Induksi
Deduksi
Langkah untuk menerapkan model tersebut pada data uji sehingga kelas yang sesungguhnya dari data uji dapat diketahui, disebut juga proses prediksi.
Sebuah sistem klasifikasi diharapkan dapat melakukan klasifikasi seluruh dataset dengan benar, tetapi tidak dapat dimungkiri bahwa kinerja suatu sistem tidak bisa 100% benar, sehingga sistem klasifikasi juga harus diukur kinerjanya!
Contoh : Matriks konfusi yang melakukan klasifikasi masalah biner (dua kelas)
Kelas asli (i) Kelas = 1 Kelas = 0 Kelas hasil prediksi (j) Kelas = 1 Kelas = 0
Setiap sel dalam matriks menyatakan jumlah rekord/data dari kelas i yang hasil prediksinya masuk ke kelas j.
Misalnya, sel adalah jumlah data dalam kelas 1 yang secara benar dipetakan ke kelas 1, dan adalah data dalam kelas 1 yang dipetakan secara salah ke kelas 0 .
Sehingga dapat diketahui bahwa : dan adalah data yang diklasifikasikan dengan benar dan adalah data yang diklasifikasikan secara salah
Kuantitas matriks konfusi dapat diringkas menjadi dua nilai, yaitu akurasi dan laju eror Jumlah data yang diklasifikasi secara benar dapat digunakan untuk mengetahui akurasi hasil prediksi. Jumlah data yang diklasifikasi secara salah dapat digunakan untuk mengetahui laju eror hasil prediksi.
Akurasi =
+ + + +
Laju Eror =
+ + + +
pemohon mana yang aman dan mana yang beresiko untuk diberi pinjaman Para petani menentukan jagung produktif dan jagung non-produktif Mengklasifikasi pasien pengidap penyakit kanker dan yang tidak mengidap penyakit kanker. Periset di bidang medis memprediksi jenis pengobatan apa yang cocok diberikan kepada seorang pasien dengan penyakit tertentu.
CLUSTERRING (PENGELOMPOKAN)
Clusterring merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki kemiripan dengan record-record dalam cluster lain. Clusterring kadang juga disebut segmentation atau partitioning.
Pengelompokan yang melakukan pemisahan/pemecahan/segmentasi data ke dalam sejumlah kelompok menurut karakteristik tertentu yang diinginkan. Pengelompokan diharapkan dapat diketahui kelompok data kemudian diberi label sesuai keinginan
Itulah Clusterring!
Hasil pengelompokan yang berbeda untuk data yang sama (Prasetyo, 2012)
Tujuan Clusterring
Pemahaman
Proses pengelompokan hanyalah sebagai proses awal kemudian dilanjutkan dgn pengerjaan inti seperti summarization, pelabelan kelas pada setiap kelompok, dsb.
Biologi
Information Retrieval Bisnis
Mengelompokan hewan menurut karakter tertentu secara hierarkis (spesies, genus, suku, ordo, kelas, filum, kerajaan)
Mengelompokkan kata kunci misalnya movie diberikan hasil halaman yg dibedakan dalam kategori seperti genre, stars, theaters, dsb Memecah pelanggan ke dalam kelompokkelompok kecil untuk analisis dan strategi pemasaran
Summarization Penggunaan
Tujuan utamanya mencari prototipe kelompok yang paling representatif terhadap data, memberikan abstraksi dari setiap objek data dalam kelompok di mana sebuah data terletak di dalamnya.
Membuat prototipe yang dapat mewakili kondisi seluruh data, misalnya mengambil rata-rata dan standar deviasi dari suatu data. Data-data dalam kelompok yg sama dapat dikompresi dan diwakili oleh indeks prototipe dari tiap kelompok. Setiap objek direpresentasikan dgn indeks prototipe yg dikaitkan dgn sebuah kelompok. Komputasi pencarian tetangga terdekat dapat digantikan dengan prototipe terrdekat. Hal ini dapat mengurangi waktu komputasi secara signifikan.
Kompresi
Pencarian tetangga terdekat secara efisien
Jenis-jenis Clusterring
Pengelompokan Hierarki Menurut struktur Pengelompokan Partitioning
Membagi set data ke dalam sejumlah kelompok yang tidak overlap antara satu kelompok dengan kelompok yang lain. Artinya setiap data hanya menjadi anggota satu kelompok. Algoritma : K-Means dan DBSCAN Sebuah data dipastikan hanya menjadi anggota satu kelompok dan tidak menjadi anggota kelompok yang lain. Algoritma : K-Means dan DBSCAN Membolehkan sebuah data menjadi anggota di lebih dari satu kelompok. Algoritma : Fuzzy C-Means, pengelompokan hierarki. Satu data tunggal bisa dianggap sebuah kelompok, dua atau lebih kelompok kecil dapat bergabung menjadi sebuah kelompok besar, dst hingga membentuk sebuah kelompok
Eksklusif
Tumpang tindih
Jika semua data bisa bergabung menjadi satu (dalam konteks penyekatan), bisa dikatakan semua data kompak menjadi satu kelompok. Namun jika ada satu atau dua (sedikit) data yang tidak ikut bergabung dalam kelompok mayoritas, data tersebut dikatakan memiliki perilaku menyimpang, yang dikenal sebagai outlier, noise, atau uninterested background.
Penerapan Clusterring
Kedokteran
Mengelompokan jenis-jenis penyakit berbahaya berdasarkan karakteristik/sifatsifat penyakit pasien Mengelompokan jenis-jenis makanan berdasarkan kandungan kalori, vitamin, dan protein.
Kesehatan
Klimatologi
Mengetahui pola angin dan kondisi cuaca di udara sehingga bisa diketahui wilayah-wilayah yang rentan terhadap cuaca buruk, dan sebagainya.
Mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar Melakukan pengelompokan terhadap ekspresi dari gen, untuk mendapatkan kemiripan perilaku dari gen dalam jumlah besar
Pemasaran
Biologi
ASOSIASI
Asosiasi atau yang sering disebut sebagai Association rules (Aturan asosiasi) berkenaan dengan studi mengenai apa bersama apa.
Contohnya adalah transaksi di supermarket. Misalnya pelanggan ibu rumah tangga yang membeli minyak, susu, dan telur, jarang menyertai pembelian tersebut dengan buku dan topi. Seseorang yang membeli susu bayi juga membeli sabun bayi.
Association rules juga sering dinamakan market basket analysis karena berasal dari studi tentang database transaksi pelanggan untuk menentukan kebiasaan suatu produk dibeli bersama dengan produk apa.
Manajemen dapat membuat keputusan kapan waktu yang tepat untuk promosi barang
Meningkatkan strategi dengan cara memberikan bonus satu barang jika melakukan pembelian barang lain.
3
4 5 6
Beras
Buku
Minyak
Telur
Topi
7
8
1
2 3
1
1 1 0 1 1 0 1
0
0 1 1 0 0 1 1
0
1 1 1 1 1 1 0
1
1 1 0 1 1 1 0
0
1 0 1 1 0 0 0
4 5 6 7 8
Sifat penting dalam itemset (kumpulan item di keranjang belanja dalam jumlah kosong atau lebih) adalah support count, yang didefinisikan sebagai jumlah transaksi yang berisi itemset tertentu.
Secara matematis, support count dinotasikan sebagai (X) . Sementara itemset X dapat dinyatakan sebagai (X) = |{ | X , T}| Keterangan: T = Transaksi = Transaksi ke-I | . | = jumlah item dalam set
Contoh :
Support count untuk {Beras, Minyak} adalah 4, karena ada 4 transaksi yang berisi {Beras, Minyak}
Association rule adalah pernyataan implikasi bentuk X Y , di mana X disebut antecedent dan B disebut consequent. Kekuatan assocation rule dapat diukur dengan support dan confidence.
Apakah Support dan Confidence ? Support digunakan untuk menentukan seberapa banyak aturan dapat diterapkan pada set data !!
Confidence digunakan untuk menentukan seberapa sering item di dalam Y muncul dalam transaksi berisi X !!
RUMUS
Support,s(XY) =
( )
Confidence,c(XY) =
( ) ()
Contoh: X = {Beras, Telur} , Y = {Minyak} XY = {Beras, Telur, Minyak} ada 4 N (total transaksi) = 8
s(XY) = 4/8 = 0.5 c(XY) = 4/5 = 0.8
Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan asosiasi yang memenuhi syarat minimum untuk support (minimum support/minsup = minsup) dan syarat minimum untuk confidence (minimum confidence/mincof = mincof).
Strategi umum yang diadopsi oleh banyak algoritma penggalian aturan asosiasi adalah memecah masalah ke dalam dua pekerjaan utama, yaitu: 1. frequent itemset generation tujuannya adalah mencari semua itemset yang memenuhi ambang batas minsup. Itemset itu disebut itemset frekuen (itemset yang paling sering muncul). 2. rule generation tujuannya adalah mengekstrak aturan dengan confidence tinggi dari itemset frekuen yang ditemukan dalam langkah sebelumnya. Aturan ini kemudian disebut aturan yang kuat (strong rule).
Sumber
AB, Adam. Data Mining I. Bahan Ajar. Universitas Darma
Persada http://mynameadam.files.wordpress.com/2012/11/datamin ingi_p12-compatibility-mode.pdf Kusrini dan Luthfi. 2009. Algoritma Data Mining. Yogyakarta: ANDI Prasetyo, Eko. 2012. DATA MINING Konsep dan Aplikasi Menggunakan MATLAB. Yogyakarta: ANDI Santosa, Budi. 2007. DATA MINING: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu Wahono, Romi. Bahan Ajar http://lintang.staff.gunadarma.ac.id/Downloads/files/34245 /Introduction_DM_RSW_1.pdf