Ordinal
𝑑𝑖𝑠𝑡 = (𝑝𝑘 − 𝑞𝑘 )
𝑘=1
Dimana n adalah jumlah dimensi (atribut) dan pk dan qk adalah atribut
(komponen) ke-k, atau objek data p dan q. Jika skala nilai dari objek-objek
yang diukur berbeda maka diperlukan standarisasi.
Minskowski distance, merupakan generalisasi dari Euclidean distance dan
dinyatakan dengan persamaan:1
𝑛 𝑟 𝑟
𝑑𝑖𝑠𝑡 = 𝑝𝑘 − 𝑞𝑘
𝑘=1
Pengukuran jarak (distance) dari dua objek
(Lanjutan)
Mahalanobis distance, dinyatakandenganpersamaan:
−1
maℎ𝑎𝑙𝑎𝑛𝑜𝑏𝑖𝑠(𝑝, 𝑞) = 𝑝 − 𝑞 (𝑝 − 𝑞)𝑟
Dimana S merupakanmatrikskovarian (covariance matrix) dari data
input X
𝑛
1
= (𝑥𝑖,𝑗 − 𝑥𝑗 )(𝑥𝑖𝑘 − 𝑥𝑘 )
𝑗,𝑘 𝑛−1
𝑖=1
Pengukuran similaritas dari dua objek (Lanjutan)
Similaritas, mempunyai beberapa sifat:
1. s(p,q) = 1 (ormaximum similarity) only if p=q
2. S(p,q) = s(q,p) for all p and 1. (Symmetry) dimana s(p,q) merupakan
similaritas antara titik-titik (objek data), p dan q.
Beberapa metode yang digunakan untuk menghitung similaritas dua
buah objek, diantaranya:
Simple matching (SMC) dan jaccard coefficients(J)
Metode yang dapat digunakan untuk menghitung similaritas dua
vektor biner. Misalkan objek-objek p dan q hanya mempunyai atribut
biner. Similaritas antara dua vektor biner dapat dihitung dengan
kuantitas berikut:
Pengukuran similaritas dari dua objek (Lanjutan)
Simple matching (SMC) dan jaccard coefficients(J)
M01 : jumlah atribut dimana p adalah 0 dan q adalah 1
M10 : jumlah atribut dimana p adalah 1 dan q adalah 0
M00 : jumlah atribut dimana p adalah 0 dan q adalah 0
M11 : jumlah atribut dimana p adalah 1 dan q adalah 1
Correlation
Digunakanuntukmengukurhubunganobjeksecara linier.
Untukmenghitung correlation,
perludilakukanperhitungancovarianceantaraduaobjektersebutdengan
persamaansebagaiberikut:
𝑛
1
𝑐𝑜𝑣 𝑝, 𝑞 = (𝑝𝑘 − 𝑝)(𝑞𝑘 − 𝑞 )
𝑛−1
𝑘−1
dimana𝑝, 𝑞 adalah mean darimasing-masingobjek, jika𝜎𝑝 adalah
standard deviasidarivektor p dan𝜎𝑞 adalah standard deviasidarivektor
q, makapersamaan correlation dariduavektor p dan q adalah:
𝑐𝑜𝑣(𝑝, 𝑞)
𝑐𝑜𝑟𝑟 𝑝, 𝑞 =
𝜎𝑝 ∙ 𝜎𝑞
Klasifikasi
Klasifikasi merupakan proses pembelajaran suatu fungsi tujuan
(target) yang memetakan tiap himpunan atribut x ke satu dari label
kelas y yang didefinisikan sebelumnya. Fungsi target disebut juga
model klasifikasi.
Ada dua jenis model klasifikasi, yaitu:
Pemodelan deskriptif: model klasifikasi yang dapat berfungsi sebagai
suatu alat penjelasan untuk membedakan objek-objek dalam kelas-
kelas yang berbeda
Pemodelan prediktif: model klasifikasi yang dapat digunakan untuk
memprediksi label kelas record yang tidak diketahui
Klasifikasi (Lanjutan)
Teknik klasifikasi cocok untuk memprediksi atau menggambarkan data-
set dengan tipe biner atau nominal. Teknik ini kurang efektif digunakan
untuk tipe data ordinal (misal, untuk mengklasifikasikan anggota yang
berpenghasilan rendah, sedang, atau tinggi) karena teknik ini tidak
mempertimbangkan secara implisit urutan dalam katagori data.
Pembayar
an
yes no
{1,4,7} {2,3,5,6,8,9,10}
Contoh pembentukan pohon keputusan dengan
algoritma hunt
4. Ulangi langkah pengecekan langkah 2 untuk setiap Dt. Misalkan
Dt=(pembayaran=‘yes’)={1,4,7}
5. Karena Dt terletak pada kelas yang sama yaitu kelas ‘No’, maka
simpul t dimana Dt berada menjadi simpul daun dengan label ‘No’
Pembayar
an
yes no
No {2,3,5,6,8,9,10}
Contoh pembentukan pohon keputusan dengan
algoritma hunt
6. Ulangi langkah pengecekan langkah 2 untuk Pembay
setiap Dt. Misalkan aran
Dt=Dt(pembayaran=‘no’)={2,3,5,6,8,9,10}
7. Dt={2,3,5,6,8,9,10} tidak terletak pada satu
kelas, maka dilakukan proses splitting dengan yes no
menggunakan salah satu atribut sisa,
misalkan atribut ‘status’. Karena atribut
‘status’ mempunyai 3 nilai atribut yaitu No
‘single’,’married’, dan ‘divorced’, maka status
himpunan Dt dibagi menjadi 3 subhimpunan:
Dt(status=‘single’)={3,8,10}
S D
Dt(status=‘married’)={2,6,9} M
Dt(status=‘divorced’)={5}
Record {2,6,9} terletak pada kelas yang sama {3,8,10} No Yes
yaitu kelas ‘No’, demikian juga {5} terletak
pada kelas ‘yes’, maka keduanya menjadi
simpul daun
Contoh pembentukan pohon keputusan dengan
algoritma hunt Pem
bayar
an
8. Dt={3,8,10} tidak terletak pada satu yes no
kelas, maka dilakukan proses splitting
dengan menggunakan salah satu No
atribut, misalkan atribut status
‘pendapatan’. Atribut ‘pendapatan’ D
merupakan atribut numerik, maka S
M
perlu dilakukan proses diskritisasi
untuk merubahnya menjadi atribut Penda No Yes
katagorikal. Misalkan pendapatan patan
dibagi dalam dua nilai atribut yaitu
‘<=80’ dan ‘>80’, maka himpunan Dt >80
dibagi menjadi dua subhimpunan: <=80
Dt(pendapatan<=80)={3} Yes
No
Dt(pendapatan>80)={8,10}