Anda di halaman 1dari 28

Subscribe to DeepL Pro to translate larger documents.

Visit www.DeepL.com/pro for more information.

Panduan bagi orang awam untuk mesin


vektor pendukung (SVM)

R. Berwick, Desa Idiot

SVM: Generasi Baru


Algoritma Pembelajaran

• Sebelum tahun 1980:


– Hampir semua metode pembelajaran mempelajari permukaan
keputusan linier.
– Metode pembelajaran linear memiliki sifat teoritis yang bagus
• 1980's
– Pohon keputusan dan NN memungkinkan pembelajaran
yang efisien dari permukaan keputusan non-linear
– Sedikit dasar teori dan semua menderita kekurangan lokal
• 1990's
– Algoritma pembelajaran yang efisien untuk fungsi non-
linear berdasarkan teori pembelajaran komputasi yang
dikembangkan
– Sifat teoretis yang bagus.

1
Gagasan Utama

• Dua perkembangan independen dalam dekade terakhir


– Pemisahan baru yang efisien dari wilayah non-linear
yang menggunakan "fungsi kernel": generalisasi
'kemiripan' ke jenis ukuran kemiripan baru berdasarkan
produk titik
– Penggunaan masalah optimasi kuadratik untuk
menghindari masalah 'minimum lokal' dengan jaring
saraf
– Algoritma pembelajaran yang dihasilkan adalah
algoritma pengoptimalan, bukan pencarian yang
serakah

Organisasi

• Ide dasar mesin vektor pendukung: sama seperti


jaring saraf satu lapis atau banyak lapis
– Hyperplane optimal untuk pola yang
dapat dipisahkan secara linier
– Memperluas pola yang tidak dapat dipisahkan
secara linier dengan transformasi data asli
untuk dipetakan ke dalam ruang baru - fungsi
Kernel
• Algoritma SVM untuk pengenalan pola

2
Vektor Dukungan

• Vektor pendukung adalah titik data yang berada


paling dekat dengan permukaan keputusan (atau
hyperplane)
• Mereka adalah titik data yang paling sulit untuk
diklasifikasikan
• Mereka memiliki hubungan langsung dengan
lokasi optimal dari permukaan keputusan
• Kita dapat menunjukkan bahwa hyperplane yang
optimal berasal dari kelas fungsi dengan
"kapasitas" terendah = jumlah fitur/parameter
independen yang dapat kita putar-putar
[perhatikan bahwa ini adalah materi 'ekstra' yang
tidak dibahas dalam kuliah... Anda tidak perlu
mengetahui ini]

Ingat kembali dari jaring 1 lapis: Bidang Pemisah


yang mana?

• Secara umum, banyak


solusi yang mungkin
untuk a, b, c (jumlah yang
tak terbatas!)
• Support Vector Machine
(SVM) menemukan
solusi optimal

3
Mesin Vektor Pendukung
(Support Vector Machine/SVM)
Vektor
- SVM memaksimalkan margin pendukung
(terminologi Winston: 'jalan') di
sekitar hyperplane pemisah.
- Fungsi keputusan sepenuhnya
ditentukan oleh subset (biasanya
sangat kecil) dari sampel pelatihan,
vektor pendukung.
- Ini menjadi masalah pemrograman Memaksi
kuadratik yang mudah diselesaikan malkan
margin
dengan metode standar

Pemisahan dengan Pesawat Terbang

• Asumsikan pemisahan linier untuk saat ini (kita akan


mengendurkannya nanti)
• dalam 2 dimensi, dapat dipisahkan dengan garis
- dalam dimensi yang lebih tinggi, membutuhkan pesawat hiper

4
Masukan/keluaran umum untuk SVM sama
seperti untuk jaring saraf, tetapi dengan satu
tambahan penting...
Masukan: set sampel pasangan pelatihan (masukan,
keluaran); panggil fitur sampel masukan x1, x2... xn, dan hasil
keluaran y.
Biasanya, terdapat banyak sekali fitur input xi.

Keluaran: set bobot w (atau wi), satu untuk setiap fitur, yang
kombinasi liniernya memprediksi nilai y. (Sejauh ini, sama
seperti jaring saraf...)
Perbedaan penting: kita menggunakan optimasi
memaksimalkan margin ('lebar jalan') untuk mengurangi
jumlah bobot yang bukan nol menjadi hanya beberapa bobot
yang sesuai dengan fitur-fitur penting yang 'penting' dalam
menentukan garis pemisah (hyperplane)... bobot yang bukan
nol ini sesuai dengan vektor pendukung (karena mereka
'mendukung' hyperplane pemisah)

Kasus 2-D

Tentukan a, b, c, sedemikian
sehingga
ax + dengan ≥ c untuk titik
merah
ax + by ≤ (atau < ) c untuk titik
hijau.

5
Hyperplane mana yang harus dipilih?

• Banyak solusi yang mungkin untuk a, b, c.


• Beberapa metode menemukan
hyperplane pemisah, tetapi bukan yang
optimal (misalnya, neural net)
• Tapi: Hal-hal apa saja yang
seharusnya memengaruhi
optimalitas?
– Semua poin?
• Regresi linier
• Jaring saraf
– Atau hanya "titik-titik sulit" yang
dekat dengan batas keputusan
• Mesin vektor pendukung

Mendukung Vektor lagi untuk kasus yang dapat


dipisahkan secara linier

• Vektor pendukung adalah elemen-elemen dari set


pelatihan yang akan mengubah posisi hyperplane
pemisah jika dihilangkan.
• Vektor pendukung adalah elemen penting dari set pelatihan
• Masalah menemukan hyper plane yang optimal adalah
masalah optimasi dan dapat diselesaikan dengan teknik
optimasi (kami menggunakan pengali Lagrange untuk
membuat masalah ini menjadi bentuk yang dapat
diselesaikan secara analitis).

6
Vektor Pendukung: Vektor input yang hanya menyentuh batas
margin (jalan) - dilingkari di bawah ini, ada 3 di antaranya (atau,
lebih tepatnya, 'ujung' vektor)
T
w0Tx + b0 = 1 w0 x + b0 = -1
at
au d
X X

X X

X
X

Di sini, kami telah menunjukkan vektor dukungan yang sebenarnya,


v1, v2, v3, bukan hanya 3 titik yang dilingkari di ujung ekor vektor
dukungan. d menunjukkan 1/2 dari 'lebar' jalan

d
X X
v1

v2

X X
v3

X
X

7
Definisi
Tentukan hiperplane H sedemikian
sehingga: H1

≥ -1
w-xi+b ≤ +1ketika
ketikayiyi==+1
-1 H0

H1 dan H2 adalah
H2
d+

bidangnya: d-
H
H1 : w-xi+b = +1
H2 : w-xi+b = -1
Titik-titik pada bidang H1 dan
H2 adalah ujung-ujung dari
Support Vectors
antara,
Bidang diH0mana w-xi+b
adalah =0dalam
median
d+ = jarak terpendek ke titik positif terdekat d- =
jarak terpendek ke titik negatif terdekat
Margin (selokan) dari hyperplane pemisah adalah d+ + d-.

Memindahkan vektor
pendukung
memindahkan batas
keputusan

Memindahkan vektor lainnya


tidak berpengaruh

Algoritme pengoptimalan untuk menghasilkan bobot berjalan


sedemikian rupa sehingga hanya vektor pendukung yang menentukan
bobot dan dengan demikian batas

8
Mendefinisikan Hyperplane pemisah

• Bentuk persamaan yang mendefinisikan permukaan


keputusan yang memisahkan kelas-kelas adalah bentuk
hyperplane:
wTx + b = 0
– w adalah vektor bobot
– x adalah vektor masukan
– b adalah bias
• Memungkinkan kita untuk menulis
wTx + b ≥ 0 untuk di = +1
wTx + b < 0 untuk
di = -1

Beberapa definisi akhir

• Margin of Separation (d): pemisahan antara hyperplane


dan titik data terdekat untuk vektor bobot w dan bias b
yang diberikan.
• Optimal Hyperplane (margin maksimal): hyperplane
tertentu yang margin pemisahannya d dimaksimalkan.

9
Memaksimalkan margin (alias lebar
jalan)
Kami menginginkan pengklasifikasi H1
(pemisah linier) dengan margin sebesar H0
H2
mungkin.
Ingat kembali jarak dari sebuah titik (x0 , y0 ) ke d+
sebuah garis: Ax + By + c = 0 adalah: |Ax0 +By0 d-
+c|/sqrt(A2+B2), jadi, Jarak antara H0 dan H1
adalah
|w-x+b|/|w|=1/|w||,
Dengan demikian, jarakjadi total antara H dan H
1 2
adalah 2/||w||

Untuk memaksimalkan margin, kita perlu meminimalkan ||w||. Dengan


syarat tidak ada titik data antara H1 dan H2 :
xi-w+b ≥ +1 ketika yi =+1
xi-w+b ≤ -1 ketika yi =-1 Dapat digabungkan menjadi: yi(xi-w) ≥
1

Sekarang kita harus menyelesaikan


masalah pemrograman kuadratik
• Masalahnya adalah: meminimalkan ||w||, s.t. batas
diskriminasi dipatuhi, yaitu, min f(x) s.t. g(x) = 0, yang
dapat kita tulis ulang sebagai:
min f: ½ ||w||2 (Perhatikan bahwa ini adalah fungsi kuadratik)
s.t. g: yi(w-xi)-b = 1 atau [yi(w-xi)-b] - 1 =0

Ini adalah masalah optimasi yang dibatasi


Hal ini dapat diselesaikan dengan metode pengganda Lagrangian
Karena berbentuk kuadratik, permukaannya berbentuk
parabola, dengan hanya satu minimum global (sehingga
menghindari masalah yang kami alami dengan jaring
saraf!)

10
meratakan
Contoh: parabola 2+x2+2y2 s.t. x+y=1

Intuisi: temukan perpotongan dua fungsi f, g pada


titik singgung (perpotongan = kedua batasan
terpenuhi; titik singgung = turunannya adalah 0);
ini akan menjadi min (atau maks) untuk f s.t.
batasan g terpenuhi

Parabola pipih f: 2x2+2y2 = 0 dengan batasan yang


ditumpangkan g: x +y = 1

Meminimalkan ketika garis kendala g (ditunjukkan dalam warna hijau)


bersinggungan dengan garis kontur elips bagian dalamz dari f
(ditunjukkan dalam warna merah) - perhatikan arah panah
gradien.

11
parabola pipih f: 2+x2+2y2 = 0 dengan batasan yang
ditumpangkan g: x +y = 1; pada solusi singgung p, vektor gradien
f,g sejajar (tidak ada kemungkinan perpindahan ke kenaikan f yang
juga membuat Anda tetap berada di wilayah g)

Meminimalkan ketika garis kendala g bersinggungan dengan garis


kontur elips bagian dalam dari f

Dua kendala

1. Batasan normal paralel (= batasan gradien pada


f, g solusi s.t. adalah maks, atau min)
2. g(x)=0 (solusi juga berada pada garis kendala)

Kita sekarang menyusun ulang ini dengan


menggabungkan f, g sebagai fungsi Lagrangian
baru dengan memperkenalkan 'variabel kendur'
baru yang dilambangkan dengan a atau (lebih
sering dilambangkan dengan α dalam literatur)

12
Menjelaskan kembali kondisi ini

• Ingin mencari titik solusi p di mana


∇f ( p) = ∇ λg(
p) g(x) = 0

• Atau, menggabungkan keduanya sebagai


Langrangian L & membutuhkan turunan dari L
menjadi nol:
L(x, a) = f (x) - ag(x)
∇(x, a) = 0

Pada solusi p

• Garis pembatas g dan garis kontur f harus


bersinggungan
• Jika keduanya bersinggungan, vektor
gradiennya (tegak lurus) sejajar
• Gradien g harus 0 - yaitu, pendakian paling curam
& tegak lurus dengan f
• Gradien f juga harus searah dengan g

13
Bagaimana Langrangian
memecahkan kendala
pengoptimalan
L(x, a) = f (x) - ag(x) di mana
∇(x, a) = 0
Derivatif parsial dengan x memulihkan batasan
normal paralel
Derivatif parsial dengan λ memulihkan g(x,y)=0

Secara
umum, L(x, a) = f (x) + !i i
ai g
(x)

Secara
umum
Gradien min dari
f kondisi kendala g

L(x, a) = f (x) + !i ai gi
(x) sebuah fungsi dari n + m variabel
n untuk x, m untuk a. Diferensiasi menghasilkan n + m persamaan, masing-
masing
diset ke 0. Persamaan n yang dibedakan untuk setiap xi memberikan kondisi
gradien; persamaan m yang dibedakan untuk setiap ai memulihkan batasan gi

Dalam kasus kita, f(x): ½|| w||2 ; g(x): yi(w-xi +b)-1=0 sehingga
Lagrangiannya adalah:

min L= ½|| w||2 - Σai[yi(w-xi +b)-1] wrt w, b


Kita perluas yang terakhir untuk mendapatkan bentuk L berikut
ini:
min L= ½|| w||2 - Σaiyi(w-xi +b) +Σai wrt w, b

14
Formulasi Lagrangian
• Jadi dalam masalah
l
SVM, Lagrangiannya
l
adalah1
" a y (x ⋅ w + b) +" a
2
min LP = 2 w - ii i i
i=1 i=1

s.t. ∀i, ai ≥ 0 di mana l adalah jumlah titik


pelatihan
kita sifat bahwa
• Dari
дLP
= wturunan
- ∑a ly x =di0 min = 0
dapatk дw i =1
iii

an:

дLP l
= =0
ai yi
дb i =1
sehingga
l l
w= ! ai yi xi
, ! ai yi
=
i=1 i=1
0

Ada apa dengan bisnis Lp ini?

• Hal ini menunjukkan bahwa ini adalah bentuk


utama dari masalah optimasi
• Kita akan benar-benar menyelesaikan masalah
optimasi dengan menyelesaikan dual dari
masalah asli ini
• Apa yang dimaksud dengan formulasi ganda ini?

15
Masalah Dual Lagrangian: alih-alih meminimalkan w, b, dengan
batasan yang melibatkan a, kita dapat memaksimalkan a
(variabel ganda) d e n g a n t u n d u k pada hubungan yang
diperoleh sebelumnya untuk w dan b

Solusi kami harus memenuhi kedua hubungan ini:


l l
w= ! ai yi xi
, ! ai yi
=
i=1 i=1
0
Dengan mengganti w dan b kembali ke persamaan awal, kita dapat
menghilangkan ketergantungan pada w dan b.
Pertama-tama, perhatikan bahwa kita sudah memiliki jawaban untuk
berapa bobot w yang seharusnya: bobot tersebut merupakan kombinasi
linear dari input pelatihan dan output pelatihan, xi d a n yi, serta nilai a.
Sekarang kita akan menyelesaikan masalah a dengan mendiferensialkan
masalah ganda dengan a, dan mengaturnya menjadi nol. Kebanyakan
dari a akan berubah menjadi bernilai nol. Nilai a yang tidak nol akan
sesuai dengan vektor dukungan

Masalah utama:
l l

" a y x( ⋅ w + b )+ "
2
min LP= w 1
2
- ii i
ai
i=1 i=1

s.t. ∀i ai ≥ 0

l l
w= !
i=1
ai yi xi
, ! ai yi
=
i=1
Masalah 0
ganda: l 1 l
max L (a ) =
D i
!
i=1
a-
i
2
!
i=1
aayy x⋅x
ijij ( i j )
l

s.t. ! ai yi
= 0 & ai ≥ 0
i=1

(perhatikan bahwa kami telah menghapus


ketergantungan pada w dan b)

16
Masalah ganda
• Teorema Kuhn-Tucker: solusi yang kita temukan di
sini akan sama dengan solusi untuk masalah aslinya
• T: Tapi mengapa kita melakukan ini????
(mengapa tidak menyelesaikan masalah aslinya
saja????)
• Jawab: Karena ini akan memungkinkan kita untuk
menyelesaikan masalah dengan menghitung hasil
kali dalam dari xi, xj (yang akan sangat penting
nantinya ketika kita ingin menyelesaikan masalah
klasifikasi yang tidak dapat dipisahkan secara linier)

Masalah Ganda
Masalah ganda:
l l

max LD(a )i = !
i=1
1
(
ai - ! ai j iaj y y x i ⋅ x j
2 i=1
)
l

s.t. ! ai yi
= 0 & ai ≥ 0
i=1

Perhatikan bahwa yang kita miliki hanyalah hasil


perkalian titik dari xi, xj
Jika kita mengambil turunan dari a dan
menetapkannya sama dengan nol, kita mendapatkan
!ai yi = 0 kita dapat menyelesaikan ai:
solusi berikut, sehingga
i =1
l
0 ≤ ai ≤ C

17
Dengan mengetahui ai, kita dapat
menemukan bobot w untuk margin
maksimal yang memisahkan
hyperplane:
w= ! l ai yi xi
i=1

Dan sekarang, setelah melatih dan menemukan w dengan


metode ini, dengan titik u yang tidak diketahui yang
diukur pada fitur xi, kita dapat mengklasifikasikannya
dengan melihat tanda dari:
f (x) = w-u + b = (!l ai yi xi -u) + b
i =1

Ingat: sebagian besar bobot wi, yaitu huruf a, akan bernilai nol
Hanya vektor dukungan (pada selokan atau margin) yang akan
memiliki nilai bukan nol
bobot atau a - ini mengurangi dimensi solusi

Produk dalam, kemiripan, dan SVM


Mengapa kernel inner product harus dilibatkan dalam
pengenalan pola menggunakan SVM, atau sama sekali?
– Intuisi adalah bahwa produk dalam memberikan
beberapa ukuran 'kemiripan'
– Hasil kali dalam 2D antara 2 vektor dengan panjang satuan
mengembalikan kosinus sudut di antara keduanya = seberapa
'jauh' jaraknya
misalnya x = [1, 0] T , y = [0, 1] T
yaitu jika keduanya sejajar, hasil kali dalamnya adalah 1 (sama sekali
mirip)
xT y = x-y = 1
Jika keduanya tegak lurus (sama sekali tidak sama), hasil kali
bagian dalamnya adalah 0 (jadi tidak boleh berkontribusi pada
pengklasifikasi yang benar)
xT- y = x-y = 0

18
Wawasan tentang produk
dalam l l
Anggap saja kita
memaksimalkan
i=1
1 sedang mencoba
LD(a )i = ! a -i ! a a yi j yi j x ⋅ x i
2bentuknya:
i=1
( j )
l
s.t. ! ai yi = 0 & ai ≥ 0
i=1
Klaimnya adalah bahwa fungsi ini akan dimaksimalkan jika kita memberikan nilai bukan
nol pada a yang sesuai dengan vektor pendukung, yaitu yang 'penting' dalam menetapkan
margin lebar maksimum ('jalan'). Nah, perhatikan seperti apa bentuknya. Perhatikan terlebih
dahulu dari kondisi batasan bahwa semua a bernilai positif. Sekarang mari kita pikirkan
beberapa kasus.
Kasus 1. Jika dua fitur xi , xj sama sekali berbeda, dot product mereka adalah 0, dan mereka
tidak berkontribusi pada L.
Kasus 2. Jika dua fitur xi, xj benar-benar sama, maka dot product mereka adalah 0. Ada 2 sub-
kasus.
Sub-kasus 1: baik xi, dan xj memprediksi nilai keluaran yang sama yi (baik +1 atau -
1). Maka yi x yj selalu bernilai 1, dan nilai dari aiajyiyjxixj akan bernilai positif. Tetapi ini akan
mengurangi nilai L (karena akan mengurangi jumlah suku pertama). Jadi, algoritma ini
menurunkan nilai
vektor fitur serupa yang membuat prediksi yang sama.
Subkasus 2: xi, dan xj membuat prediksi yang berlawanan tentang nilai keluaran yi
(yaitu, salah satunya adalah
+1, yang lain -1), tetapi sebaliknya sangat mirip: maka hasil kali aiajyiyjxix adalah negatif dan
kita menguranginya, jadi ini menambah jumlah, memaksimalkannya. Inilah contoh-contoh
yang kita cari: contoh-contoh penting yang membedakan kedua kelas tersebut.

Wawasan tentang produk dalam, secara


grafis: 2 sangat
vektor xi, xj yang sangat mirip yang
memprediksi kelas yang berbeda
cenderung memaksimalkan lebar margin

xj
xi

19
2 vektor yang mirip tetapi memprediksi
kelas yang sama adalah mubazir

xi xj

2 vektor yang berbeda (ortogonal) tidak


dihitung sama sekali

xj
xi

20
Tapi... apakah kita sudah selesai???

Tidak Dapat Dipisahkan Secara


Linier!

Temukan garis yang


menghukum poin pada "sisi
yang salah"

21
Transformasi untuk
memisahkan
φ
φ (x) φ (x)
ox φ (o)
o x φ (x)
x φ (x)
o φ (o)
x φ (x)
o x φ (o)
o
φ (o) φ (x)
x x φ (o) φ (x)
o φ (o) φ (o)

X F

SVM Non-Linear

• Idenya adalah untuk mendapatkan pemisahan secara linear


dengan memetakan data ke ruang dimensi yang lebih tinggi
- Himpunan berikut ini tidak dapat dipisahkan dengan
fungsi linier, tetapi dapat dipisahkan dengan fungsi
kuadratik
(x - a)(x - b) = x2 - (a + b)x + ab
a
b

- Jadi jika kita


memetakan
kita mendapatkan
x � ⎨x2 , x⎬
pemisahan linier

22
Masalah dengan SVM linier

=-1
=+1

Bagaimana jika fungsi keputusannya tidak linier? Transformasi apa yang akan
memisahkannya?

Jawab: koordinat kutub!


SVM non-linear
Trik Kernel Bayangkan sebuah fungsi ϕ yang memetakan data ke
dalam ruang lain: ϕ = Radial
Radial Η
→Η
=-1
=+1
ϕ

=-1
=+1

Ingatlah fungsi yang ingin kita optimalkan: Ld = ∑ai - ½∑ai ajyiyj (xi-xj) di mana (xi-xj) adalah hasil
perkalian titik dari dua vektor fitur. Jika kita mengubahnya menjadi ϕ, alih-alih menghitung ini
dot product (xi-xj) kita harus menghitung (ϕ (xi) - ϕ (xj)). Tapi bagaimana kita bisa melakukan ini?
Ini mahal dan memakan waktu (misalkan ϕ adalah polinomial kuartik... atau lebih buruk lagi,
kita tidak mengetahui fungsinya secara eksplisit. Nah, ini dia cara yang lebih mudah:
Jika ada sebuah "fungsi kernel" K sedemikian rupa sehingga K(xi, xj) = ϕ (xi) - ϕ (xj), maka kita
tidak perlu mengetahui
atau menghitung ϕ sama sekali!!! Artinya, fungsi kernel mendefinisikan inner product dalam
ruang yang ditransformasikan. Atau, mendefinisikan kesamaan dalam ruang yang
ditransformasikan.

23
SVM non-linear
Jadi, fungsi yang akhirnya kami optimalkan adalah:
Ld = ∑ai - ½∑aiaj yiyjK(xi-xj),

Contoh kernel: Kernel polinomial


K(xi, xj) = (xi-xj + 1)p, di mana p adalah parameter yang dapat disetel
Catatan: Mengevaluasi K hanya membutuhkan satu penambahan dan
satu eksponensial lebih banyak daripada dot product aslinya

Contoh untuk SVM Non Linear

K (x, y ) = (x ⋅ y
x,)y ) = exp⎨- x−y
p
K (+1

2

2σ 2

K (x, y) = tanh (κ x ⋅ y - δ )

Pertama adalah polinomial (termasuk x-x sebagai


kasus khusus) Kedua adalah fungsi basis radial
(gaussian)
Ketiga adalah sigmoid (fungsi aktivasi jaringan

saraf)

24
Kita sudah melihat transformasi nonlinier
seperti itu...

• Apa itu???

• tanh(β0 xTxi + β )1

• Ini adalah
transformasi
sigmoid (untuk
jaring saraf)
• Jadi, SVM
menggantikan jaring
saraf! (tapi tanpa
masalah...)

Kernel Produk Bagian Dalam

Jenis Mesin Vektor Inner Product Kernel Produk bagian dalam


Pendukung K(x, xi), I = 1, 2, ..., N yang biasa

Mesin pembelajaran (xTxi + 1)p Daya p ditentukan


polinomial secara apriori oleh
pengguna

Fungsi dasar radial exp(1/(2σ2)||x-xi|2) Lebar σ2 ditentukan


(RBF) secara apriori

Jaring saraf dua lapis tanh (β0xTxi + β1) Sebenarnya hanya


berfungsi untuk
beberapa nilai β0 dan
β1

25
Kernel menggeneralisasi gagasan
'kesamaan produk dalam'

Perhatikan bahwa kita dapat mendefinisikan kernel


lebih dari sekadar vektor: string, pohon, struktur, ...
pada kenyataannya, apa saja

Ide yang sangat hebat: digunakan dalam membandingkan


DNA, struktur protein, struktur kalimat, dll.

Contoh untuk SVM Non Linear 2 - Kernel


Gaussian

Linier

Gaussian

26
Kernel rbf nonlinier

Kegembiraan Admiral dengan fungsi


kernel yang berbeda

27
Pencocokan berlebih oleh SVM

Setiap titik adalah vektor pendukung... terlalu banyak kebebasan untuk


dibengkokkan agar sesuai dengan data pelatihan - tidak ada generalisasi.
Sebenarnya, SVM memiliki cara 'otomatis' untuk menghindari
masalah seperti itu, tetapi kita tidak akan membahasnya di sini... lihat
buku karya Vapnik, 1995. (Kami menambahkan fungsi penalti untuk
kesalahan yang dibuat setelah pelatihan dengan melakukan over-
fitting: ingatlah bahwa jika seseorang melakukan over-fitting, maka ia
akan cenderung membuat kesalahan pada data baru.
Fn penalti ini dapat dimasukkan ke dalam masalah pemrograman
kuadratik secara langsung. Anda tidak perlu mengetahui hal ini untuk
kursus ini).

28

Anda mungkin juga menyukai