Machine Learning
Input
x1
x2
:
xD
Model
Output
y(x,w)
Klasifikasi,
regresi,
clustering,
dll
Learning
Diberikan data pelatihan xi , i = 1 sd N, dan/atau ti , i = 1 as N
Supervised Learning. Data pelatihan disertai target, yaitu {xi, ti}, i = 1
sd N. Tujuan pembelajaran adalah membangun model yang dapat
menghasilkan output yang benar untuk suatu data input, misal untuk
pengklasifikasian (classification) dan regresi (regression)
Supervised Learning
Regresi
Nilai output ti bernilai kontinu (riil)
Bertujuan memprediksi output dari
data baru dengan akurat
Klasifikasi
Nilai output ti bernilai diskrit (kelas)
Bertujuan mengklasifikasi data baru
dengan akurat
4
Model Linear
Model yang umum digunakan untuk menyelesaikan masalah klasifikasi dan
regresi adalah model linear, yaitu model yang merupakan kombinasi linear
dari fungsi basis:
Dimana x = (x1, x2, ..., xD)T adalah variabel input, dan w = (w0, w1, ..., wD)T
adalah parameter, (x) adalah fungsi basis, M adalah jumlah total parameter
dari model
Biasanya, 0(x) = 1, sehingga w0 berfungsi sebagai bias
Ada banyak pilihan yang mungkin untuk fungsi basis (x), misal fungsi linear,
fungsi polinomial, fungsi gaussian, fungsi sigmoidal, dll
5
Model Linear
Kutukan Dimensi
y x , w=w 0 w 1 xw 2 x w 3 x
D3
Model Linear
Pendekatan Alternatif
Model Linear
Pendekatan Nonparametrik
Metode Kernel
Fungsi Kernel : Definisi
Metode Kernel
Fungsi Kernel : Contoh
Metode Kernel
Fungsi Kernel : Keuntungan
Metode Kernel
Fungsi Kernel : Penggunaan
kelas R1
kelas R2
Decision Boundary /
Decision Surface
13
14
16
17
Kenapa maksimum ?
Berdasarkan intuisi, margin
maksimum adalah pilihan yang
aman karena jika terjadi sedikit
kesalahan pada data maka akan
memberikan kemungkinan terkecil
terjadi kesalahan klasifikasi
Berdasarkan teori, yang
merupakan basis dari metode
SVM, maksimum margin akan
memberikan kapabilitas
generalisasi terbaik (VC theory,
1960-1990)
18
t n w x n b = 1
t n w x n b 1
20
s.t.
1
2
w
2
T
t n w x n b1, n=1, .. , N
1
2
w
2
T
t n w x n b1, n=1, .. , N
s.t.
maka bentuk primal dari masalah optimasi untuk soft margin adalah:
N
arg min
w ,b
s.t.
1
2
w C n
2
n=1
T
t n w x n b1n , n=1,.. , N
n 0
Lw , b , a =
1
2
T
w C n a n {t n w x n b1n } n n
2
n=1
n=1
n=1
25
Lw , b ,a =
1
2
T
w C n a n {t n w x n b1n } n n
2
n=1
n=1
n=1
L
= w a n t n x n = 0
w
n=1
L
=
b
a n t n x n
n=1
an t n
w =
= 0
0 =
n=1
L
= C an n = 0
n
an t n
n=1
a n = C n
26
L w ,b , a =
1
w2 C n a n {t n w T x n b1n } n n
2
n=1
n=1
n=1
sehingga menjadi:
N
a = 1 a n a m t n t m x nT x n a n a m t n t m x n T x n b a n t n a n
L
2 n=1 m=1
n=1 m=1
n=1 m=1
n=1
N
n=1
n=1 m=1
a n 2 a n a m t n t m x n T x m
N
a n 2 a n a m t n t m k x n , x m
n=1
n=1 m=1
27
arg max L a =
a
s.t.
a n 12 a n a m t n t m k x n , x m
n=1
n=1 m=1
0a n C , n=1,.. , N
N
a n t n=0
n=1
29
Misal solusi dari pemrograman kuadrat bentuk dual tersebut adalah a*,
maka:
N
w =
a n t n x n
n=1
N
y x = w xb =
a n t n x nT xb
n=1
a n t n k x , x n b
n=1
Hanya data dengan an* > 0 (support vectors) yang berperan pada model
decision boundary diatas, sehingga dapat ditulis menjadi:
y x =
am t m k x , x m b
mS
30
[ KKT S1]
[ KKT S2]
[ KKT S3]
[ KKT S4]
[ KKT S5]
[ KKT S6 ]
31
32
t n a m t m k x n , x m b = 1 b =
mS
1
t a t k x n , x m
N S n S n m S m m
33
34
36
Referensi
(1) C. H. Bishop. Pattern Recognition and Machine Learning, Springer, 2006
(Bab 7.1, Bab 7.1.1, Bab 7.1.3, Appendix E)
(2) J. C. Platt. Fast training of support vector machines using sequential
minimal optimization. In B. Schoelkopf, C. J. C. Burges, and A. J. Smola
(Eds), Advances in Kernel Methods Support Vector Learning, pp. 185208, MIT Press, 1999
(3) R. E. Fan, P. H. Chen, C. J. Lin. Working set selection using second order
information for training SVM. Journal of Machine Learning Research 6,
1889-1918, 2005
(4) T. Joachim. Making Large-Scale SVM Learning Practical. In B. Schoelkopf,
C. J. C. Burges, and A. J. Smola (Eds), Advances in Kernel Methods
Support Vector Learning, pp. 169-184, MIT Press, 1999