Klasifikasi
Dalam data mining dikenal sebuah istilah klasifikasi, klasifikasi menurut
definisi dari sumber adalah
Definisi Data
Untuk mengetahui definisi dari data dalam klasifikasi mari kita lihat tabel
dibawah ini
2 2 3
1. instance : data itu sendiri, setiap instance akan memiliki atribut dan
class
2. atribut : atribut adalah keterangan yang dikandung dalam data itu
sendiri, setiap data bisa memiliki lebih dari 1 atribut. biasanya atribut
menggunakan variabel diskrit
Tahapan
Evaluasi, pada tahapan ini hasil dari penerapan model pada tahapan
sebelumnya dievaluasi menggunakan parameter terukur untuk
menentukan apakah model tersebut dapat diterima
Pembangunan Model
Dalam tahapan ini dibuat sebuah model yang dapat melakukan klasifikasi
dari training data,
Jika didapatkan training data sebagai berikut
7 Mata Ya Ya Tidak Ya Ya
ng
3 Muda Ya Ya Ya Tidak Ya
7 Matang Ya Ya Tidak Ya Ya
No LS ? Keadaan
Nyata
1 Tidak Tidak
2 Sedikit Sedikit
3 Ya Ya
4 Ya Ya
5 Tidak Tidak
6 Sedikit Sedikit
7 Ya Ya
8 Tidak Ya
Evaluasi Model
Decision tree
Berikut ini merupakan contoh dari salah satu kasus resiko kredit (credit risk)
yang menggunakan decision tree untuk menentukan apakah seorang
potential customer dengan karakteristik saving, asset dan income tertentu
memiliki good credit risk atau bad credit risk.
Dapat dilihat pada gambar tersebut, bahwa target variable dari decision tree
tersebut atau variable yang akan diprediksi adalah credit risk dengan
menggunakan predictor variable : saving, asset, dan income. Setiap nilai
atribut dari predictor variable akan memiliki cabang menuju predictor
variable selanjutnya, dan seterusnya hingga tidak dapat dipecah dan menuju
pada target variable.
Jika tidak terdapat pemisahan lagi yang mungkin dilakukan, maka algoritma
decision tree akan berhenti membentuk decision node yang baru.
Seharusnya setiap branches diakhiri dengan pure leaf node, yaitu leaf
node dengan target variable yang bersifat unary untuk setiap records pada
node tersebut, di mana untuk setiap nilai predictor variable yang sama akan
memiliki nilai target variable yang sama. Tetapi, terdapat kemungkinan
decision node memiliki diverse atributes, yaitu bersifat nonunary untuk
nilai target variablenya, di mana untuk setiap record dengan nilai predictor
variable yang sama ternyata memiliki nilai target variable yang berbeda.
Kondisi tersebut menyebabkan tidak dapat dilakukan pencabangan lagi
berdasarkan nilai predictor variable. Sehingga solusinya adalah membentuk
leaf node yang disebut diverse leaf node, dengan menyatakan level
kepercayaan dari diverse leaf node tersebut. Misalnya untuk contoh data
berikut ini :
Dapat dilihat dari contoh perhitungan di atas, bahwa yang memiliki nilai
goodness of split * (s/t) + yang terbesar, yaitu split 4 dengan nilai 0.64275.
Oleh karena itu split 4 lah yang akan digunakan pada root node, yaitu split
dengan : assets = low dengan assets = {medium, high}.
Untuk penentuan pencabangan, dapat dilihat bahwa dengan assets=low
maka didapatkan pure node leaf, yaitu bad risk (untuk record 2 dan 7).
Sedangkan untuk assets = {medium, high} masih terdapat 2 nilai, yaitu
good credit risk dan bad credit risk. Sehingga pencabangan untuk assets =
{medium, high} memiliki decision node baru. Adapun pemilihan split yang
akan digunakan, yaitu dengan menyusun perhitungan nilai (s/t) yang baru
tanpa melihat split 4, record 2 dan 7.
Trend
Trend adalah keadaan data yang menaik atau menurun dari waktu ke waktu.
Ada beberapa tehnik dalam membuat model trend. Tehnik yang sering
digunakan adalah metoda kuadrat terkecil (least square method). Model
trend linier perkiraan adalah sebagai berikut:
Hasil perkiraan penjualan berdasarkan trend tidak memperhatikan adanya
pengaruh variasi musiman. Jika hasil penjualan sepatu pada kenyataannya
dipengaruhi oleh adanya variasi musiman, maka hasil perkiraan penjualan
yang hanya didasarkan oleh faktor trend menjadi kurang baik.
Variasi musiman
Jika data time series dipengaruhi oleh variasi musiman, maka diperlukan
metoda peramalan yang lebih baik yang memperhatikan keterlibatan variasi
musiman didalam data.
Untuk keperluan analisa seringkali data time series dinyatakan dalam bentuk
angka indeks. Apabila kita ingin menunjukkan ada tidaknya gerakan
musiman perlu dibuat indeks musiman (seasonal index). Indeks musiman
adalah suatu angka yang bervariasi terhadap nilai dasar 100. Jika suatu
periode musiman mempunyai nilai indeks 100, nilai ini menunjukan bahwa
pada bulan tersebut tidak ada pengaruh musiman. Ada beberapa metode
untuk menghitung angka indeks musiman, antara lain adalah metode rata-
rata sederhana (simple average method).
Pada dasarnya ada 3 komponen yang membentuk pola suatu data serial
waktu. Ketiga komponen tersebut adalah gerakan trend, musiman
(seasonal) dan siklis (cyclical). Dekomposisi mengasumsikan bahwa data
dibentuk seperti berikut ini:
Y = T x S x C x I
Regresi
Non-linier
Prediksi
Penelitian Bidang Prediksi Lama Studi
Setiap mahasiswa mempunyai lama studi yang bisa sama ataupun
berbeda dengan mahasiswa lain dengan berbagai faktor penyebab. Seperti
penelitian yang dilakukan oleh Nuqson Masykur Huda, dalam penelitiannya
aplikasi data mining unutk menampilkan tingkat kelulusan mahasiswa
dengan studi kasus FMIPA Universitas Diponegoro menyebutkan bahwa data
proses masuk, asal sekolah, kota asal dan program studi menjadi
pertimbangan dalam menghitung tingkat kelulusan. Nuqson dalam
penelitiannya menggunakan metoda associasion rule serta algoritma apriori.
Dimana dalam metoda dan algoritma ini masing-masing faktor tersebut
dicari nilai support dan confidence nya sehingga akan diperoleh faktor mana
yang paling berperan atau paling mempunyai pengarauh yang cukup besar
berkaitan dengan tingkat kelulusan mahasiswa.
Sedangkan menurut Muhamad Hanief Meinanda dkk, dalam
penelitiannya tentang prediksi masa studi sarjana dengan artificial neural
network menyebutkan bahwa masa studi seorang sarjana dipengaruhi oleh
IPK, jumlah matakuliah yang diambil, jumah matakuliah yang mengulang,
jumlah matakuliah tertentu. Metoda penelitian yang digunakan merupakan
adopsi dari CRISP-DM atau Cross-Idustry Standard Process for Data Mining,
dimana di dalamnya terdapat enam fase yaitu Businnes Understanding,Data
Understanding, Data Preparation, Modeling, Evaluation dan Deployment.
Dalam. Setelah memahami masalahnya kemudian melakukan processing
data dengan membuat cross-tabulation, koreksi data yang misclasification ,
mising value maupun outlier.
1. Melakukan studi kepustakaan terhadap berbagai referensi yang berkaitan
dengan penelitian yang dilakukan. Topik-topik yang dikaji antara lain meliputi
: database, data mining, klasifikasi, dan beberapa algoritma lain yang
mungkin dapat digunakan, serta perangkat lunak yang digunakan untuk
proses mining.
2. Menyiapkan data-data yang dibutuhkan, yaitu data berkaitan dengan
identitas pribadi dari mahasiswa dan nilai matakuliah yang telah ditempuh
oleh mahasiswa hingga mencapai 146 sks dan telah dinyatakan lulus. Data
nilai matakuliah yang telah ditempuh hanya diambil sampai dengan
semester IV dan kemudian dihitung indeks prestasinya (IPK) secara kumulatif
sampai dengan semester IV.. Data ini nantinnya merupakan data training
dan testing. Mendapatkan tahun lulus dari setiap mahasiswa yang telah lulus
tadi sebagai acuan untuk menentukan criteria tepat waktu lulus atau tidak.
3. Mengolah data yang telah disiapkan menggunakan beberapa perangkat
lunak bantu seperti Excel, MySql.
4. Membuat kesimpulan dari hasil pengolahan data dan mining data yang telah
dilakukan untuk memghasilkan informasi mengenai prediksi lama studi dari
mahasiswa maupun informasi lain yang dapat digunakan sebagai bahan
analisa untuk pengambilan keputusan.
Zurada, J.M. (1992), Sistem saraf tiruan atau jaringan saraf tiruan
adalah sistem selular fisik yang dapat memperoleh, menyimpan dan
menggunakan pengetahuan yang didapatkan dari pengalaman.
Syaraf Biologi
Elemen yang paling mendasar dari jaringan saraf adalah sel saraf. Sel-
sel saraf inilah membentuk bagian kesadaran manusia yang meliputi
beberapa kemampuan umum. Pada dasarnya sel saraf biologi
menerima masukan dari sumber yang lain dan mengkombinasikannya
dengan beberapa cara, melaksanakan suatu operasi yang non-linear
untuk mendapatkan hasil dan kemudian mengeluarkan hasil akhir
tersebut.
Dalam tubuh manusia terdapat banyak variasi tipe dasar sel saraf,
sehingga proses berpikir manusia menjadi sulit untuk direplikasi secara
elektrik. Sekalipun demikian, semua sel saraf alami mempunyai empat
komponen dasar yang sama. Keempat komponen dasar ini diketahui
berdasarkan nama biologinya yaitu, dendrit, soma, akson, dan
sinapsis. Dendrit merupakan suatu perluasan dari soma yang
menyerupai rambut dan bertindak sebagai saluran masukan. Saluran
masukan ini menerima masukan dari sel saraf lainnya melalui sinapsis.
Soma dalam hal ini kemudian memproses nilai masukan menjadi
sebuah output yang kemudian dikirim ke sel saraf lainnya melalui
akson dan sinapsis.
Sel saraf-sel saraf ini terhubung satu dengan yang lainnya melalui
sinapsis. Sel saraf dapat menerima rangsangan berupa sinyal
elektrokimiawi dari sel saraf-sel saraf yang lain. Berdasarkan
rangsangan tersebut, sel saraf akan mengirimkan sinyal atau tidak
berdasarkan kondisi tertentu. Konsep dasar semacam inilah yang ingin
dicoba para ahli dalam menciptakan sel tiruan.
Sejarah JST
Komponen Neuron
2. Buatlah tahapan (susunan) pengerjaan yang harus dilakukan didalam algoritma didalam
model Deskripsi :
Klastering
Clustering Dengan Pendekatan Partisi
K-Means
Penjelasan lengkap tentang k-means dapat juga dilihat pada Yudi Agustas K-
Means Page.
Klik Yudi Agustas Mixture Modelling Page untuk penjelasan lebih rinci.
Dimana:
Neighborhood Clustering
Sequence Clustering
Spectral Clustering
Analisa Faktor
Similarity Measure
Feature Discretisation
Feature Selection
Feature Scaling
Clustering Implementation
Summarization
Tabel 1
Maksudnya apaan nih coooyyyy????
Oke, kita tetep bikin 10 transaksi, tapi kita jabarin lagi noh item-item yang
ada di soal tadi. Hayoooo ada berapa item di soal tadiiiii???
Yak, ada 5 item!! Ada susu, teh, gula, roti dan kopi. Masukin dah tu ke dalem
tabel, jadilah kayak tabel di atas.
Nah terus yg di checklist itu apa ya?
Ya itu kita liat aja di soal. Pada transaksi 1, ada item apa aja coba??? ada
susu, teh, gula. Ya udah deh tinggal di checklist doank. Begitu seterusnya
ampe transaksi 10 ^_____^. Nah, kalau udah jangan lupa dijumlahin dah tu
tiap kolomnya :D
------------------------------------------------------------------------------------------------------------
---------------
2 ITEM
Tabel 2
Maksudnya apa sih tu tabel???abstrak banget >,<
Oke, sabar donk. Jadi gini. Tadi kan udah kita jabarin di Tabel 1 bahwa ada 5
item yaitu susu, teh, gula, roti dan kopi. Nah, dari 5 item itu kita
kombinasikan atau gampangnya kita bikin kemungkinannya, tapi jumlahnya
2 item aja. Hasilnya seperti Tabel 2 diatas.
Tabel 3
Sebelumnya kan kita bikin kombinasi tapi hanya 2 item. Sekarang kita buat
kombinasi 3 item.
1. Liat Tabel 1
2. Cari aja di tiap transaksi yang checklist-nya ada 3. Nah, itu yang diambil
*gampangnya sih gitu*
3. jangan lupa dijumlahin :D *sama kayak yang 2 item tadi*
------------------------------------------------------------------------------------------------------------
-----------
2. Menentukan Pola Frekuensi Tinggi
2 ITEM
Tabel 4
1. Liat Tabel 2
2. Kumpulin data yang tulisannya warna merah dalam 1 tabel. Jadilah Tabel 4
3. Liat rumus support (A) di atas :D
4. susu, gula-----------4/10 = 40% ............ dapet darimana tuh??
(4 didapat dari jumlah kombinasi 'susu,gula' di Tabel 2 dan 10 didapat dari
jumlah transaksi lalu dikali 100%). Begitu seterusnya ^____^
------------------------------------------------------------------------------------------------------------
--------------
3 ITEM
Tabel 5
1. Liat Tabel 3
2. Simpen data yang tulisannya berwarna merah (Min.Support=2) ke
dalam 1 tabel. Jadilah Tabel 5.
3. Perhitungan sama seperti pada kombinasi 2 ITEM sebelumnya.
------------------------------------------------------------------------------------------------------------
------------
3. Menentukan Aturan Asosiasi
2 ITEM
Tabel 6
1. Lihat Tabel 2
2. Satu (1) Kombinasi terdiri dari 2 Aturan. Pada Tabel 2 terdiri dari 6
Kombinasi (yg Min.Supp=2), otomatis ada 12 Aturan.
Contoh: Pada Tabel 2, kombinasi 1 yaitu 'susu,gula', maka kita buat kalimat
menjadi 'Jika membeli susu maka membeli gula'. Aturan ke-2 tinggal dibalik
saja menjadi 'Jika membeli gula maka membeli susu '. Begitu seterusnya.
3. Lihat Rumus Confidence sebelumnya.
4. Jika membeli susu maka membeli gula-------------------4/6 =
67%...............dapet darimane tuh???
(4 didapat dari jumlah kombinasi 'susu,gula' pada Tabel 2 dan 6 didapat
dari jumlah transaksi pembelian susu pada Tabel 1 lalu dikali 100%)
5. Jika membeli gula maka membeli susu-------------------4/8 = 50%.........kok
bisa gitu?????
(4 tetap didapat dari jumlah kombinasi 'susu,gula' pada Tabel 2 sedangkan
8 didapat dari jumlah transaksi gula pada Tabel 1 lalu dikali 100% )
#muntahkambing
------------------------------------------------------------------------------------------------------------
----------
3 ITEM
Tabel 7
1. Karena ini 3 ITEM, jadi 1 Kombinasi terdiri dari 3 Aturan. Lihat Tabel 3
2. Pada Tabel 3, ada 'gula,kopi,susu' yg memenuhi syarat Min.Supp=2, jadi
kalimat 'Jika membeli gula+kopi maka membeli susu'. Begitu seterusnya
*kombinasikan saja*
3. Jika membeli gula+kopi maka membeli susu-----------2/3 =
67%.......pegimane caranya tuh???
(2 didapat dari jumlah kombinasi 'gula,kopi,susu' yg sudah memenuhi syarat
Min.Supp=2 pada Tabel 3 dan 3 didapat dari jumlah kombinasi gula+kopi
pada Tabel 2 lalu dikali 100% ).
4. Gitu aja terus :D
------------------------------------------------------------------------------------------------------------
-------------
4. Aturan Final
Tabel 8
Sequence Discovery
Desain arsitektur yang dibangun dalam penelitian
Pr e pr oc e s s ing
We bs ite :
www.fa pe r ta .unja .
a c .id
U se r Kl i k
Pro g ra m L o g
Sis te m We b
Tr a f f ik
Pa tte rn An a ysi s
Pa tte rn D i sco ve ry
1. Tahapan Preprocessing
a. Pembersihan data
pengunjung.
b. Seleksi data
untuk diseleksi..
Seputar Pertanian= 5
2. Pattern Discovery
3. Pattern analysis
sering dikunjungi.
User
L o a d D a ta
Pa ra me te r a n a l i si s
apriori
Mi n i mu m Su p p o r t
Mi n i mu m C o n fi d e n ce
2. Diagram Sequence
gambar 4.
User
A nta r m uk a
A plik a s i
D a t a A pr ior i
Pr os e s A tur a n
A s os ia s i
Vi e w An ta rmu ka Ap l i ka si
Sh o w An ta rmu ka Ap l i ka si
L o a d D a ta
Sh o w L o a d d a ta
In p u t Mi n _ su p p o r t
In p u t Mi n _ co n fi d e n ce
Sh o w Mi n _ su p p o r t
Sh o w Mi n _ co n fi d e n ce
Pe rh i tu n g a n Mi n _ su p p o r t
Pe r h i tu n g a n Mi n _ co n fi d e n ce
H a si l Atu r a n Aso si a si
3. Diagram Aktivitas