Svm-Notes-Long-08 Id

Subscribe to DeepL Pro to translate larger documents.
Visit www.DeepL.com/pro for more information.
Panduan bagi orang awam untuk mesin

vektor pendukung (SVM)
R. Berwick, Desa Idiot
SVM: Generasi Baru

Algoritma Pembelajaran
• Sebelum tahun 1980:

– Hampir semua metode pembelajaran mempelajari permukaan
keputusan linier.
– Metode pembelajaran linear memiliki sifat teoritis yang bagus
• 1980's
– Pohon keputusan dan NN memungkinkan pembelajaran
yang efisien dari permukaan keputusan non-linear
– Sedikit dasar teori dan semua menderita kekurangan lokal
• 1990's
– Algoritma pembelajaran yang efisien untuk fungsi non-
linear berdasarkan teori pembelajaran komputasi yang
dikembangkan
– Sifat teoretis yang bagus.
1
Gagasan Utama
• Dua perkembangan independen dalam dekade terakhir

– Pemisahan baru yang efisien dari wilayah non-linear
yang menggunakan "fungsi kernel": generalisasi
'kemiripan' ke jenis ukuran kemiripan baru berdasarkan
produk titik
– Penggunaan masalah optimasi kuadratik untuk
menghindari masalah 'minimum lokal' dengan jaring
saraf
– Algoritma pembelajaran yang dihasilkan adalah
algoritma pengoptimalan, bukan pencarian yang
serakah
Organisasi
• Ide dasar mesin vektor pendukung: sama seperti

jaring saraf satu lapis atau banyak lapis
– Hyperplane optimal untuk pola yang
dapat dipisahkan secara linier
– Memperluas pola yang tidak dapat dipisahkan
secara linier dengan transformasi data asli
untuk dipetakan ke dalam ruang baru - fungsi
Kernel
• Algoritma SVM untuk pengenalan pola
2
Vektor Dukungan
• Vektor pendukung adalah titik data yang berada

paling dekat dengan permukaan keputusan (atau
hyperplane)
• Mereka adalah titik data yang paling sulit untuk
diklasifikasikan
• Mereka memiliki hubungan langsung dengan
lokasi optimal dari permukaan keputusan
• Kita dapat menunjukkan bahwa hyperplane yang
optimal berasal dari kelas fungsi dengan
"kapasitas" terendah = jumlah fitur/parameter
independen yang dapat kita putar-putar
[perhatikan bahwa ini adalah materi 'ekstra' yang
tidak dibahas dalam kuliah... Anda tidak perlu
mengetahui ini]
Ingat kembali dari jaring 1 lapis: Bidang Pemisah

yang mana?
• Secara umum, banyak

solusi yang mungkin
untuk a, b, c (jumlah yang
tak terbatas!)
• Support Vector Machine
(SVM) menemukan
solusi optimal
3
Mesin Vektor Pendukung
(Support Vector Machine/SVM)
Vektor
- SVM memaksimalkan margin pendukung
(terminologi Winston: 'jalan') di
sekitar hyperplane pemisah.
- Fungsi keputusan sepenuhnya
ditentukan oleh subset (biasanya
sangat kecil) dari sampel pelatihan,
vektor pendukung.
- Ini menjadi masalah pemrograman Memaksi
kuadratik yang mudah diselesaikan malkan
margin
dengan metode standar
Pemisahan dengan Pesawat Terbang
• Asumsikan pemisahan linier untuk saat ini (kita akan

mengendurkannya nanti)
• dalam 2 dimensi, dapat dipisahkan dengan garis
- dalam dimensi yang lebih tinggi, membutuhkan pesawat hiper
4
Masukan/keluaran umum untuk SVM sama
seperti untuk jaring saraf, tetapi dengan satu
tambahan penting...
Masukan: set sampel pasangan pelatihan (masukan,
keluaran); panggil fitur sampel masukan x1, x2... xn, dan hasil
keluaran y.
Biasanya, terdapat banyak sekali fitur input xi.
Keluaran: set bobot w (atau wi), satu untuk setiap fitur, yang
kombinasi liniernya memprediksi nilai y. (Sejauh ini, sama
seperti jaring saraf...)
Perbedaan penting: kita menggunakan optimasi
memaksimalkan margin ('lebar jalan') untuk mengurangi
jumlah bobot yang bukan nol menjadi hanya beberapa bobot
yang sesuai dengan fitur-fitur penting yang 'penting' dalam
menentukan garis pemisah (hyperplane)... bobot yang bukan
nol ini sesuai dengan vektor pendukung (karena mereka
'mendukung' hyperplane pemisah)
Kasus 2-D
Tentukan a, b, c, sedemikian
sehingga
ax + dengan ≥ c untuk titik
merah
ax + by ≤ (atau < ) c untuk titik
hijau.
5
Hyperplane mana yang harus dipilih?
• Banyak solusi yang mungkin untuk a, b, c.

• Beberapa metode menemukan
hyperplane pemisah, tetapi bukan yang
optimal (misalnya, neural net)
• Tapi: Hal-hal apa saja yang
seharusnya memengaruhi
optimalitas?
– Semua poin?
• Regresi linier
• Jaring saraf
– Atau hanya "titik-titik sulit" yang
dekat dengan batas keputusan
• Mesin vektor pendukung
Mendukung Vektor lagi untuk kasus yang dapat

dipisahkan secara linier
• Vektor pendukung adalah elemen-elemen dari set

pelatihan yang akan mengubah posisi hyperplane
pemisah jika dihilangkan.
• Vektor pendukung adalah elemen penting dari set pelatihan
• Masalah menemukan hyper plane yang optimal adalah
masalah optimasi dan dapat diselesaikan dengan teknik
optimasi (kami menggunakan pengali Lagrange untuk
membuat masalah ini menjadi bentuk yang dapat
diselesaikan secara analitis).
6
Vektor Pendukung: Vektor input yang hanya menyentuh batas
margin (jalan) - dilingkari di bawah ini, ada 3 di antaranya (atau,
lebih tepatnya, 'ujung' vektor)
T
w0Tx + b0 = 1 w0 x + b0 = -1
at
au d
X X
X X
X
X
Di sini, kami telah menunjukkan vektor dukungan yang sebenarnya,

v1, v2, v3, bukan hanya 3 titik yang dilingkari di ujung ekor vektor
dukungan. d menunjukkan 1/2 dari 'lebar' jalan
d
X X
v1
v2
X X
v3
X
X
7
Definisi
Tentukan hiperplane H sedemikian
sehingga: H1
≥ -1
w-xi+b ≤ +1ketika
ketikayiyi==+1
-1 H0
H1 dan H2 adalah
H2
d+
bidangnya: d-
H
H1 : w-xi+b = +1
H2 : w-xi+b = -1
Titik-titik pada bidang H1 dan
H2 adalah ujung-ujung dari
Support Vectors
antara,
Bidang diH0mana w-xi+b
adalah =0dalam
median
d+ = jarak terpendek ke titik positif terdekat d- =
jarak terpendek ke titik negatif terdekat
Margin (selokan) dari hyperplane pemisah adalah d+ + d-.
Memindahkan vektor
pendukung
memindahkan batas
keputusan
Memindahkan vektor lainnya

tidak berpengaruh
Algoritme pengoptimalan untuk menghasilkan bobot berjalan

sedemikian rupa sehingga hanya vektor pendukung yang menentukan
bobot dan dengan demikian batas
8
Mendefinisikan Hyperplane pemisah
• Bentuk persamaan yang mendefinisikan permukaan

keputusan yang memisahkan kelas-kelas adalah bentuk
hyperplane:
wTx + b = 0
– w adalah vektor bobot
– x adalah vektor masukan
– b adalah bias
• Memungkinkan kita untuk menulis
wTx + b ≥ 0 untuk di = +1
wTx + b < 0 untuk
di = -1
Beberapa definisi akhir
• Margin of Separation (d): pemisahan antara hyperplane

dan titik data terdekat untuk vektor bobot w dan bias b
yang diberikan.
• Optimal Hyperplane (margin maksimal): hyperplane
tertentu yang margin pemisahannya d dimaksimalkan.
9
Memaksimalkan margin (alias lebar
jalan)
Kami menginginkan pengklasifikasi H1
(pemisah linier) dengan margin sebesar H0
H2
mungkin.
Ingat kembali jarak dari sebuah titik (x0 , y0 ) ke d+
sebuah garis: Ax + By + c = 0 adalah: |Ax0 +By0 d-
+c|/sqrt(A2+B2), jadi, Jarak antara H0 dan H1
adalah
|w-x+b|/|w|=1/|w||,
Dengan demikian, jarakjadi total antara H dan H
1 2
adalah 2/||w||
Untuk memaksimalkan margin, kita perlu meminimalkan ||w||. Dengan

syarat tidak ada titik data antara H1 dan H2 :
xi-w+b ≥ +1 ketika yi =+1
xi-w+b ≤ -1 ketika yi =-1 Dapat digabungkan menjadi: yi(xi-w) ≥
1
Sekarang kita harus menyelesaikan

masalah pemrograman kuadratik
• Masalahnya adalah: meminimalkan ||w||, s.t. batas
diskriminasi dipatuhi, yaitu, min f(x) s.t. g(x) = 0, yang
dapat kita tulis ulang sebagai:
min f: ½ ||w||2 (Perhatikan bahwa ini adalah fungsi kuadratik)
s.t. g: yi(w-xi)-b = 1 atau [yi(w-xi)-b] - 1 =0
Ini adalah masalah optimasi yang dibatasi

Hal ini dapat diselesaikan dengan metode pengganda Lagrangian
Karena berbentuk kuadratik, permukaannya berbentuk
parabola, dengan hanya satu minimum global (sehingga
menghindari masalah yang kami alami dengan jaring
saraf!)
10
meratakan
Contoh: parabola 2+x2+2y2 s.t. x+y=1
Intuisi: temukan perpotongan dua fungsi f, g pada

titik singgung (perpotongan = kedua batasan
terpenuhi; titik singgung = turunannya adalah 0);
ini akan menjadi min (atau maks) untuk f s.t.
batasan g terpenuhi
Parabola pipih f: 2x2+2y2 = 0 dengan batasan yang

ditumpangkan g: x +y = 1
Meminimalkan ketika garis kendala g (ditunjukkan dalam warna hijau)

bersinggungan dengan garis kontur elips bagian dalamz dari f
(ditunjukkan dalam warna merah) - perhatikan arah panah
gradien.
11
parabola pipih f: 2+x2+2y2 = 0 dengan batasan yang
ditumpangkan g: x +y = 1; pada solusi singgung p, vektor gradien
f,g sejajar (tidak ada kemungkinan perpindahan ke kenaikan f yang
juga membuat Anda tetap berada di wilayah g)
Meminimalkan ketika garis kendala g bersinggungan dengan garis

kontur elips bagian dalam dari f
Dua kendala
1. Batasan normal paralel (= batasan gradien pada

f, g solusi s.t. adalah maks, atau min)
2. g(x)=0 (solusi juga berada pada garis kendala)
Kita sekarang menyusun ulang ini dengan

menggabungkan f, g sebagai fungsi Lagrangian
baru dengan memperkenalkan 'variabel kendur'
baru yang dilambangkan dengan a atau (lebih
sering dilambangkan dengan α dalam literatur)
12
Menjelaskan kembali kondisi ini
• Ingin mencari titik solusi p di mana

∇f ( p) = ∇ λg(
p) g(x) = 0
• Atau, menggabungkan keduanya sebagai

Langrangian L & membutuhkan turunan dari L
menjadi nol:
L(x, a) = f (x) - ag(x)
∇(x, a) = 0
Pada solusi p
• Garis pembatas g dan garis kontur f harus

bersinggungan
• Jika keduanya bersinggungan, vektor
gradiennya (tegak lurus) sejajar
• Gradien g harus 0 - yaitu, pendakian paling curam
& tegak lurus dengan f
• Gradien f juga harus searah dengan g
13
Bagaimana Langrangian
memecahkan kendala
pengoptimalan
L(x, a) = f (x) - ag(x) di mana
∇(x, a) = 0
Derivatif parsial dengan x memulihkan batasan
normal paralel
Derivatif parsial dengan λ memulihkan g(x,y)=0
Secara
umum, L(x, a) = f (x) + !i i
ai g
(x)
Secara
umum
Gradien min dari
f kondisi kendala g
L(x, a) = f (x) + !i ai gi
(x) sebuah fungsi dari n + m variabel
n untuk x, m untuk a. Diferensiasi menghasilkan n + m persamaan, masing-
masing
diset ke 0. Persamaan n yang dibedakan untuk setiap xi memberikan kondisi
gradien; persamaan m yang dibedakan untuk setiap ai memulihkan batasan gi
Dalam kasus kita, f(x): ½|| w||2 ; g(x): yi(w-xi +b)-1=0 sehingga
Lagrangiannya adalah:
min L= ½|| w||2 - Σai[yi(w-xi +b)-1] wrt w, b

Kita perluas yang terakhir untuk mendapatkan bentuk L berikut
ini:
min L= ½|| w||2 - Σaiyi(w-xi +b) +Σai wrt w, b
14
Formulasi Lagrangian
• Jadi dalam masalah
l
SVM, Lagrangiannya
l
adalah1
" a y (x ⋅ w + b) +" a
2
min LP = 2 w - ii i i
i=1 i=1
s.t. ∀i, ai ≥ 0 di mana l adalah jumlah titik

pelatihan
kita sifat bahwa
• Dari
дLP
= wturunan
- ∑a ly x =di0 min = 0
dapatk дw i =1
iii
an:
∑
дLP l
= =0
ai yi
дb i =1
sehingga
l l
w= ! ai yi xi
, ! ai yi
=
i=1 i=1
0
Ada apa dengan bisnis Lp ini?
• Hal ini menunjukkan bahwa ini adalah bentuk

utama dari masalah optimasi
• Kita akan benar-benar menyelesaikan masalah
optimasi dengan menyelesaikan dual dari
masalah asli ini
• Apa yang dimaksud dengan formulasi ganda ini?
15
Masalah Dual Lagrangian: alih-alih meminimalkan w, b, dengan
batasan yang melibatkan a, kita dapat memaksimalkan a
(variabel ganda) d e n g a n t u n d u k pada hubungan yang
diperoleh sebelumnya untuk w dan b
Solusi kami harus memenuhi kedua hubungan ini:

l l
w= ! ai yi xi
, ! ai yi
=
i=1 i=1
0
Dengan mengganti w dan b kembali ke persamaan awal, kita dapat
menghilangkan ketergantungan pada w dan b.
Pertama-tama, perhatikan bahwa kita sudah memiliki jawaban untuk
berapa bobot w yang seharusnya: bobot tersebut merupakan kombinasi
linear dari input pelatihan dan output pelatihan, xi d a n yi, serta nilai a.
Sekarang kita akan menyelesaikan masalah a dengan mendiferensialkan
masalah ganda dengan a, dan mengaturnya menjadi nol. Kebanyakan
dari a akan berubah menjadi bernilai nol. Nilai a yang tidak nol akan
sesuai dengan vektor dukungan
Masalah utama:
l l
" a y x( ⋅ w + b )+ "
2
min LP= w 1
2
- ii i
ai
i=1 i=1
s.t. ∀i ai ≥ 0
l l
w= !
i=1
ai yi xi
, ! ai yi
=
i=1
Masalah 0
ganda: l 1 l
max L (a ) =
D i
!
i=1
a-
i
2
!
i=1
aayy x⋅x
ijij ( i j )
l
s.t. ! ai yi
= 0 & ai ≥ 0
i=1
(perhatikan bahwa kami telah menghapus

ketergantungan pada w dan b)
16
Masalah ganda
• Teorema Kuhn-Tucker: solusi yang kita temukan di
sini akan sama dengan solusi untuk masalah aslinya
• T: Tapi mengapa kita melakukan ini????
(mengapa tidak menyelesaikan masalah aslinya
saja????)
• Jawab: Karena ini akan memungkinkan kita untuk
menyelesaikan masalah dengan menghitung hasil
kali dalam dari xi, xj (yang akan sangat penting
nantinya ketika kita ingin menyelesaikan masalah
klasifikasi yang tidak dapat dipisahkan secara linier)
Masalah Ganda
Masalah ganda:
l l
max LD(a )i = !
i=1
1
(
ai - ! ai j iaj y y x i ⋅ x j
2 i=1
)
l
s.t. ! ai yi
= 0 & ai ≥ 0
i=1
Perhatikan bahwa yang kita miliki hanyalah hasil

perkalian titik dari xi, xj
Jika kita mengambil turunan dari a dan
menetapkannya sama dengan nol, kita mendapatkan
!ai yi = 0 kita dapat menyelesaikan ai:
solusi berikut, sehingga
i =1
l
0 ≤ ai ≤ C
17
Dengan mengetahui ai, kita dapat
menemukan bobot w untuk margin
maksimal yang memisahkan
hyperplane:
w= ! l ai yi xi
i=1
Dan sekarang, setelah melatih dan menemukan w dengan

metode ini, dengan titik u yang tidak diketahui yang
diukur pada fitur xi, kita dapat mengklasifikasikannya
dengan melihat tanda dari:
f (x) = w-u + b = (!l ai yi xi -u) + b
i =1
Ingat: sebagian besar bobot wi, yaitu huruf a, akan bernilai nol
Hanya vektor dukungan (pada selokan atau margin) yang akan
memiliki nilai bukan nol
bobot atau a - ini mengurangi dimensi solusi
Produk dalam, kemiripan, dan SVM

Mengapa kernel inner product harus dilibatkan dalam
pengenalan pola menggunakan SVM, atau sama sekali?
– Intuisi adalah bahwa produk dalam memberikan
beberapa ukuran 'kemiripan'
– Hasil kali dalam 2D antara 2 vektor dengan panjang satuan
mengembalikan kosinus sudut di antara keduanya = seberapa
'jauh' jaraknya
misalnya x = [1, 0] T , y = [0, 1] T
yaitu jika keduanya sejajar, hasil kali dalamnya adalah 1 (sama sekali
mirip)
xT y = x-y = 1
Jika keduanya tegak lurus (sama sekali tidak sama), hasil kali
bagian dalamnya adalah 0 (jadi tidak boleh berkontribusi pada
pengklasifikasi yang benar)
xT- y = x-y = 0
18
Wawasan tentang produk
dalam l l
Anggap saja kita
memaksimalkan
i=1
1 sedang mencoba
LD(a )i = ! a -i ! a a yi j yi j x ⋅ x i
2bentuknya:
i=1
( j )
l
s.t. ! ai yi = 0 & ai ≥ 0
i=1
Klaimnya adalah bahwa fungsi ini akan dimaksimalkan jika kita memberikan nilai bukan
nol pada a yang sesuai dengan vektor pendukung, yaitu yang 'penting' dalam menetapkan
margin lebar maksimum ('jalan'). Nah, perhatikan seperti apa bentuknya. Perhatikan terlebih
dahulu dari kondisi batasan bahwa semua a bernilai positif. Sekarang mari kita pikirkan
beberapa kasus.
Kasus 1. Jika dua fitur xi , xj sama sekali berbeda, dot product mereka adalah 0, dan mereka
tidak berkontribusi pada L.
Kasus 2. Jika dua fitur xi, xj benar-benar sama, maka dot product mereka adalah 0. Ada 2 sub-
kasus.
Sub-kasus 1: baik xi, dan xj memprediksi nilai keluaran yang sama yi (baik +1 atau -
1). Maka yi x yj selalu bernilai 1, dan nilai dari aiajyiyjxixj akan bernilai positif. Tetapi ini akan
mengurangi nilai L (karena akan mengurangi jumlah suku pertama). Jadi, algoritma ini
menurunkan nilai
vektor fitur serupa yang membuat prediksi yang sama.
Subkasus 2: xi, dan xj membuat prediksi yang berlawanan tentang nilai keluaran yi
(yaitu, salah satunya adalah
+1, yang lain -1), tetapi sebaliknya sangat mirip: maka hasil kali aiajyiyjxix adalah negatif dan
kita menguranginya, jadi ini menambah jumlah, memaksimalkannya. Inilah contoh-contoh
yang kita cari: contoh-contoh penting yang membedakan kedua kelas tersebut.
Wawasan tentang produk dalam, secara

grafis: 2 sangat
vektor xi, xj yang sangat mirip yang
memprediksi kelas yang berbeda
cenderung memaksimalkan lebar margin
xj
xi
19
2 vektor yang mirip tetapi memprediksi
kelas yang sama adalah mubazir
xi xj
2 vektor yang berbeda (ortogonal) tidak

dihitung sama sekali
xj
xi
20
Tapi... apakah kita sudah selesai???
Tidak Dapat Dipisahkan Secara

Linier!
Temukan garis yang

menghukum poin pada "sisi
yang salah"
21
Transformasi untuk
memisahkan
φ
φ (x) φ (x)
ox φ (o)
o x φ (x)
x φ (x)
o φ (o)
x φ (x)
o x φ (o)
o
φ (o) φ (x)
x x φ (o) φ (x)
o φ (o) φ (o)
X F
SVM Non-Linear
• Idenya adalah untuk mendapatkan pemisahan secara linear

dengan memetakan data ke ruang dimensi yang lebih tinggi
- Himpunan berikut ini tidak dapat dipisahkan dengan
fungsi linier, tetapi dapat dipisahkan dengan fungsi
kuadratik
(x - a)(x - b) = x2 - (a + b)x + ab
a
b
- Jadi jika kita

memetakan
kita mendapatkan
x � ⎨x2 , x⎬
pemisahan linier
22
Masalah dengan SVM linier
=-1
=+1
Bagaimana jika fungsi keputusannya tidak linier? Transformasi apa yang akan
memisahkannya?
Jawab: koordinat kutub!

SVM non-linear
Trik Kernel Bayangkan sebuah fungsi ϕ yang memetakan data ke
dalam ruang lain: ϕ = Radial
Radial Η
→Η
=-1
=+1
ϕ
=-1
=+1
Ingatlah fungsi yang ingin kita optimalkan: Ld = ∑ai - ½∑ai ajyiyj (xi-xj) di mana (xi-xj) adalah hasil
perkalian titik dari dua vektor fitur. Jika kita mengubahnya menjadi ϕ, alih-alih menghitung ini
dot product (xi-xj) kita harus menghitung (ϕ (xi) - ϕ (xj)). Tapi bagaimana kita bisa melakukan ini?
Ini mahal dan memakan waktu (misalkan ϕ adalah polinomial kuartik... atau lebih buruk lagi,
kita tidak mengetahui fungsinya secara eksplisit. Nah, ini dia cara yang lebih mudah:
Jika ada sebuah "fungsi kernel" K sedemikian rupa sehingga K(xi, xj) = ϕ (xi) - ϕ (xj), maka kita
tidak perlu mengetahui
atau menghitung ϕ sama sekali!!! Artinya, fungsi kernel mendefinisikan inner product dalam
ruang yang ditransformasikan. Atau, mendefinisikan kesamaan dalam ruang yang
ditransformasikan.
23
SVM non-linear
Jadi, fungsi yang akhirnya kami optimalkan adalah:
Ld = ∑ai - ½∑aiaj yiyjK(xi-xj),
Contoh kernel: Kernel polinomial

K(xi, xj) = (xi-xj + 1)p, di mana p adalah parameter yang dapat disetel
Catatan: Mengevaluasi K hanya membutuhkan satu penambahan dan
satu eksponensial lebih banyak daripada dot product aslinya
Contoh untuk SVM Non Linear
K (x, y ) = (x ⋅ y
x,)y ) = exp⎨- x−y
p
K (+1
⎬
2
2σ 2
K (x, y) = tanh (κ x ⋅ y - δ )
Pertama adalah polinomial (termasuk x-x sebagai

kasus khusus) Kedua adalah fungsi basis radial
(gaussian)
Ketiga adalah sigmoid (fungsi aktivasi jaringan
saraf)
24
Kita sudah melihat transformasi nonlinier
seperti itu...
• Apa itu???
• tanh(β0 xTxi + β )1
• Ini adalah
transformasi
sigmoid (untuk
jaring saraf)
• Jadi, SVM
menggantikan jaring
saraf! (tapi tanpa
masalah...)
Kernel Produk Bagian Dalam
Jenis Mesin Vektor Inner Product Kernel Produk bagian dalam

Pendukung K(x, xi), I = 1, 2, ..., N yang biasa
Mesin pembelajaran (xTxi + 1)p Daya p ditentukan

polinomial secara apriori oleh
pengguna
Fungsi dasar radial exp(1/(2σ2)||x-xi|2) Lebar σ2 ditentukan

(RBF) secara apriori
Jaring saraf dua lapis tanh (β0xTxi + β1) Sebenarnya hanya

berfungsi untuk
beberapa nilai β0 dan
β1
25
Kernel menggeneralisasi gagasan
'kesamaan produk dalam'
Perhatikan bahwa kita dapat mendefinisikan kernel

lebih dari sekadar vektor: string, pohon, struktur, ...
pada kenyataannya, apa saja
Ide yang sangat hebat: digunakan dalam membandingkan

DNA, struktur protein, struktur kalimat, dll.
Contoh untuk SVM Non Linear 2 - Kernel

Gaussian
Linier
Gaussian
26
Kernel rbf nonlinier
Kegembiraan Admiral dengan fungsi

kernel yang berbeda
27
Pencocokan berlebih oleh SVM
Setiap titik adalah vektor pendukung... terlalu banyak kebebasan untuk

dibengkokkan agar sesuai dengan data pelatihan - tidak ada generalisasi.
Sebenarnya, SVM memiliki cara 'otomatis' untuk menghindari
masalah seperti itu, tetapi kita tidak akan membahasnya di sini... lihat
buku karya Vapnik, 1995. (Kami menambahkan fungsi penalti untuk
kesalahan yang dibuat setelah pelatihan dengan melakukan over-
fitting: ingatlah bahwa jika seseorang melakukan over-fitting, maka ia
akan cenderung membuat kesalahan pada data baru.
Fn penalti ini dapat dimasukkan ke dalam masalah pemrograman
kuadratik secara langsung. Anda tidak perlu mengetahui hal ini untuk
kursus ini).
28

Svm-Notes-Long-08 Id

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Svm-Notes-Long-08 Id

Diunggah oleh

Hak Cipta:

Format Tersedia

Subscribe to DeepL Pro to translate larger documents.

Visit www.DeepL.com/pro for more information.

Panduan bagi orang awam untuk mesin

R. Berwick, Desa Idiot

SVM: Generasi Baru

• Sebelum tahun 1980:

• Dua perkembangan independen dalam dekade terakhir

• Ide dasar mesin vektor pendukung: sama seperti

• Vektor pendukung adalah titik data yang berada

Ingat kembali dari jaring 1 lapis: Bidang Pemisah

• Secara umum, banyak

Pemisahan dengan Pesawat Terbang

• Asumsikan pemisahan linier untuk saat ini (kita akan

• Banyak solusi yang mungkin untuk a, b, c.

Mendukung Vektor lagi untuk kasus yang dapat

• Vektor pendukung adalah elemen-elemen dari set

Di sini, kami telah menunjukkan vektor dukungan yang sebenarnya,

Memindahkan vektor lainnya

Algoritme pengoptimalan untuk menghasilkan bobot berjalan

• Bentuk persamaan yang mendefinisikan permukaan

Beberapa definisi akhir

• Margin of Separation (d): pemisahan antara hyperplane

Untuk memaksimalkan margin, kita perlu meminimalkan ||w||. Dengan

Sekarang kita harus menyelesaikan

Ini adalah masalah optimasi yang dibatasi

Intuisi: temukan perpotongan dua fungsi f, g pada

Parabola pipih f: 2x2+2y2 = 0 dengan batasan yang

Meminimalkan ketika garis kendala g (ditunjukkan dalam warna hijau)

Meminimalkan ketika garis kendala g bersinggungan dengan garis

1. Batasan normal paralel (= batasan gradien pada

Kita sekarang menyusun ulang ini dengan

• Ingin mencari titik solusi p di mana

• Atau, menggabungkan keduanya sebagai

• Garis pembatas g dan garis kontur f harus

min L= ½|| w||2 - Σai[yi(w-xi +b)-1] wrt w, b

s.t. ∀i, ai ≥ 0 di mana l adalah jumlah titik

Ada apa dengan bisnis Lp ini?

• Hal ini menunjukkan bahwa ini adalah bentuk

Solusi kami harus memenuhi kedua hubungan ini:

(perhatikan bahwa kami telah menghapus

Perhatikan bahwa yang kita miliki hanyalah hasil

Dan sekarang, setelah melatih dan menemukan w dengan

Produk dalam, kemiripan, dan SVM

Wawasan tentang produk dalam, secara

2 vektor yang berbeda (ortogonal) tidak

Tidak Dapat Dipisahkan Secara

Temukan garis yang

• Idenya adalah untuk mendapatkan pemisahan secara linear

- Jadi jika kita

Jawab: koordinat kutub!

Contoh kernel: Kernel polinomial

Contoh untuk SVM Non Linear

Pertama adalah polinomial (termasuk x-x sebagai

Kernel Produk Bagian Dalam

Jenis Mesin Vektor Inner Product Kernel Produk bagian dalam

Mesin pembelajaran (xTxi + 1)p Daya p ditentukan

Fungsi dasar radial exp(1/(2σ2)||x-xi|2) Lebar σ2 ditentukan

Jaring saraf dua lapis tanh (β0xTxi + β1) Sebenarnya hanya

Perhatikan bahwa kita dapat mendefinisikan kernel

Ide yang sangat hebat: digunakan dalam membandingkan

Contoh untuk SVM Non Linear 2 - Kernel

Kegembiraan Admiral dengan fungsi

Setiap titik adalah vektor pendukung... terlalu banyak kebebasan untuk