Algoritma 26.: Memerlukan
Algoritma 26.: Memerlukan
Algoritma 26.: Memerlukan
6 Privasi Data 1
14: z: = z - 1
15: sampai z = 0
antara partisi database terdistribusi dan jumlah tetangga yang diperlukan k, yang merupakan parameter
penting dari algoritme yang sedang dipertimbangkan. Oleh karena itu, kami memutuskan untuk melakukan
pengujian untuk nilai yang berbeda dari k
dan berbagai jumlah partisi V. Kami berasumsi bahwa setiap kumpulan data memiliki sejumlah objek
permanen dan mereka telah dibagi rata di antara kumpulan data tersebut
V. node.
Ide di balik pemilihan kumpulan data adalah untuk memeriksa perilaku metode yang diusulkan pada
kebanyakan tolok ukur yang beragam. Oleh karena itu, kami memilih set ukuran sampel berdimensi tinggi,
kecil, dua set yang sangat banyak dengan sejumlah kecil fitur, dan satu set tipikal, yang memungkinkan
kami untuk mencakup berbagai kemungkinan kehidupan nyata dan membuat pengujian kami lebih
berorientasi praktis. Lebih lanjut, semua set data dari UCI Machine Learning Repository dijelaskan di
Lampiran.
Semua percobaan dilakukan pada CPU Intel Core Duo T5800 2,0 GHz dengan memori RAM 3 GB
di lingkungan R. k- Algoritma NN diambil dari paket khusus, sehingga memastikan bahwa hasil mencapai
efisiensi terbaik dan kinerja tidak menurun oleh implementasi yang buruk.
Sebagai perbandingan, kami memilih metode berikut yang dijelaskan di bagian sebelumnya:
Angka dari 2.12 hingga 2.15 menunjukkan waktu pelaksanaan yang diusulkan k- Modifikasi NN
untuk setiap database.
waktu]
20 60
15 50
10 40
5 30
0 20
1 2 4 5 7 1 2 4 5 6 7
3 6 3
35 200
30
waktu]
150
waktu]
25
20 100
15
50
10
5 0
1 2 4 5 7 1 2 4 5 6 7
3 6 3
Gambar 2.12 Kompleksitas waktu untuk dataset Arcene (searah jarum jam, mulai dari kiri atas: NQ, RQ, SBO, SQ)
• Pengamatan yang paling penting adalah waktu klasifikasi maksimum secara keseluruhan. Tidak lebih dari
15 menit untuk kumpulan data yang sangat banyak (sekitar 50.000 objek) saat menggunakan metode paling
aman yang diperkenalkan dalam makalah ini. Pendekatan lain sangat jarang menyertakan waktu komputasi
mereka, tetapi dalam
semua kasus yang disajikan setidaknya beberapa kali lebih besar.
• Kami mengamati waktu komputasi berkurang sesuai dengan peningkatan jumlah node.
Pengurangan ini signifikan untuk sejumlah kecil node (antara 2 dan 4 node), tetapi peningkatan
jumlah node lebih lanjut tidak menghasilkan perolehan waktu komputasi yang signifikan.
120 V=2 280 V=2
V=4 260 V=4
100 V=6 V=6
V=8 240 V=8
220
80
200
180
60
waktu]
waktu]
160
140
40
120
20 100
80
0 60
1 2 4 5 7 1 2 4 5 6 7
3 6 3
80 600
500
60
waktu]
waktu]
400
40 300
200
20
100
0 0
1 2 4 5 7 1 2 4 5 6 7
3 6 3
Gambar 2.13 Kompleksitas waktu untuk dataset Dewasa (searah jarum jam, mulai dari kiri atas: NQ, RQ, SBO, SQ)
waktu]
60
20
50
15
10 40
5 30
0 20
1 2 4 5 7 1 2 4 5 6 7
3 6 3
waktu]
30
150
20
100
10
50
0 0
1 2 4 5 6 7 1 2 4 5 6 7
3 3
Gambar 2.14 Kompleksitas waktu untuk dataset Letter Recognition (searah jarum jam, mulai dari kiri atas: NQ, RQ,
SBO, SQ).
25 V=2 60 V=2
V=4 55 V=4
V=6 V=6
20 V=8 50 V=8
45
15 40
35
waktu]
waktu]
10 30
25
5 20
15
0 10
1 2 4 5 6 7 2 3 4 5 6 7
3 1
15 100
waktu]
80
waktu]
10
60
40
5
20
0 0
1 2 4 5 7 1 2 4 5 6 7
3 6 3
Gambar 2.15 Kompleksitas waktu untuk kumpulan data Urutan Gen sambungan-sambungan (searah jarum jam,
mulai dari kiri atas: NQ, RQ, SBO, SQ)
• Dengan meningkatnya tingkat privasi, kompleksitas komputasi dari metode yang diperkenalkan juga
meningkat. Namun, perbedaan antara metode NQ dan RQ secara praktis tidak terlihat. Perlu
diperhatikan, bahwa kedua algoritme tersebut memberikan privasi pada level yang berbeda. RQ
menyediakan
privasi yang lebih tinggi di hampir tidak ada biaya komputasi tambahan. Di sisi lain, perbedaan
• antara privasi data global (RQ) dan
pendekatan privasi pandangan lokal (SBO, SQ) sangat signifikan, karena perusahaan
biaya putasional naik beberapa kali lebih besar.
• Pengamatan menarik tentang algoritma SBO dan SQ dapat disimpulkan, dan algoritma tersebut
menawarkan privasi pada tingkat tertinggi (privasi tampilan lokal). SQ hampir empat kali lebih lambat
dari SBO. Namun hal ini dapat dijelaskan dengan pendekatan kompleks pada query database,
yang ditawarkan oleh SQ. Sebagai gantinya, untuk waktu komputasi yang lebih lama itu
meningkatkan peluang
mengungkapkan jumlah objek sekecil mungkin pada masing-masing sisinya.
• Untuk NQ, RQ dan SBO, digunakan pada dataset dengan jumlah fitur yang sedikit, waktu
komputasi yang lebih sedikit bergantung pada k parameter. Ini berbeda hanya untuk database
Arcene, dengan fitur ruang berdimensi tinggi (10000). Pada kasus ini, k parameter sangat
berkorelasi dengan waktu eksekusi. Di sisi lain, ketergantungan ini selalu sangat kuat untuk
algoritma SQ.
Hasil percobaan tidak mengejutkan kami, karena kami memperkirakan bahwa tingkat privasi yang lebih
tinggi membutuhkan biaya komputasi yang lebih tinggi. Namun, perlu dicatat bahwa biaya komputasi
tambahan lebih rendah dari yang biasanya dilaporkan
dalam literatur. Tentu saja, kita harus ingat bahwa keputusan tentang memilih tingkat privasi yang
sesuai harus dibuat oleh pengguna.
Atas dasar analisis yang diberikan di atas, kami dapat menyimpulkan saran berikut untuk algoritma
dan aplikasi yang diusulkan. Karena perbedaan minimal dalam kompleksitas waktu antara algoritme NQ
dan RQ, disarankan untuk selalu menggunakan metode kedua yang diusulkan, karena metode ini
menawarkan privasi yang lebih tinggi dengan hampir tanpa biaya tambahan. Dalam hal memilih tingkat
privasi tampilan lokal, pilihan yang lebih baik tergantung pada aplikasi. Jika pengguna khawatir tentang
waktu eksekusi, maka metode NBO direkomendasikan. Ini menawarkan privasi tingkat tinggi dengan
biaya komputasi sekitar dua-tiga kali lebih sedikit dan juga berkorelasi lemah dengan ukuran k parameter.
Jika kompleksitas komputasi bukan merupakan masalah tetapi privasi maksimum diperlukan, metode
SQ harus menjadi pilihan yang tepat.
Di bagian ini, kami menghadapi masalah menjaga privasi untuk tugas pengenalan pola. Sementara
itu, representasi biner klasik dari privasi menurut kami memiliki keterbatasan yang kuat dan menyisakan
sedikit pilihan bagi pengguna. Selain itu, kami mengusulkan definisi baru tentang privasi dan taksonomi
asli dari algoritme pelestarian privasi. Selain itu, membagi gagasan privasi menjadi 5 tingkat
memungkinkan kami memperkenalkan kerangka kerja yang fleksibel yang dapat disesuaikan dengan
kebutuhan pribadi dan menawarkan keseimbangan antara keselamatan dan biaya komputasi. Kami
juga membahas empat modifikasi k- Algoritme NN, yang mempertimbangkan taksonomi privasi yang
disebutkan di atas. Pada dasarnya. proposisi kami dievaluasi berdasarkan eksperimen komputer dan
yang dilakukan oleh kumpulan data tolok ukur yang beragam. Berdasarkan hasil eksperimen, kami
merumuskan rekomendasi untuk implementasi praktis dari metode yang diusulkan. Yang terpenting dari
semuanya, kami menyatakan bahwa tingkat keamanan yang baik dapat dicapai tanpa menggunakan
algoritme tambahan yang memakan waktu. Memperkenalkan modifikasi yang menyertakan tugas
menjaga privasi ke dalam klasifikasi jarak minimal yang mampu menyajikan tugas yang cepat dan
efisien untuk masalah tersebut. Kami percaya bahwa konsep yang diusulkan dapat berguna dalam
memproses proyek nyata dari sistem pengenalan komputer terdistribusi,
3
Kemungkinan lain dari hibridisasi adalah menggunakan kelompok klasifikasi untuk membuat keputusan
bersama. Bab ini memperkenalkan topik ini dan menyajikan pengenalan singkat tentang komponen
utama klasifikasi gabungan, seperti topologi, pembentukan ensemble, dan aturan kombinasi. Beberapa
metode desain kelas, pembelajaran, dan evaluasi akan disajikan juga.
3.1 Motivasi
Ada banyak proposisi tentang bagaimana mengotomatiskan proses klasifikasi [92]. Namun demikian,
tidak ada algoritma pengenalan pola tunggal yang sesuai untuk semua tugas yang kita hadapi, karena
setiap kelas memiliki domain kompetensi sendiri [407]. Biasanya, kita dapat memiliki kumpulan klasifikasi
yang berbeda untuk memecahkan masalah tertentu yang kita miliki. Oleh karena itu, metode yang
mampu mengeksploitasi kekuatan klasifikasi individu telah banyak dipertimbangkan dalam penelitian
intensif [167]. Perlu dicatat bahwa area inkompetensi (yaitu, bagian dari ruang fitur di mana semua
klasifikasi individu membuat keputusan yang salah) biasanya kecil [286]. Hal ini dapat menyebabkan
bahwa meskipun klasifikasi individu tidak memiliki kualitas yang tinggi, mereka dapat menghasilkan
klasifikasi gabungan yang cukup baik, seperti yang digambarkan pada Gambar 3.1.
Pendekatan yang disajikan disebut sistem kelas ganda, yang juga disebut gabungan kelas atau
ensembel kelas [214], dan komponen utamanya digambarkan pada Gambar 3.2. Dalam konsep ini,
upaya terbesar terkonsentrasi pada penggabungan keluaran dari kelas dasar. Dari perspektif sejarah,
prototipe pertama dari sistem gabungan adalah demokrasi Yunani (artinya pemerintah rakyat) keputusan
bahwa warga negara memiliki suara yang sama dalam setiap keputusan yang memengaruhi kehidupan
mereka. Orang Yunani percaya pada kebijaksanaan orang banyak, yaitu, sementara penaksir individu
agak tidak tepat, aturan mayoritas menghasilkan keputusan bersama dari masyarakat, dijelaskan oleh
Sir Francis Galton 1 yang mengamati bahwa kerumunan di pekan raya kabupaten secara akurat
menebak
6 6
4
4 4
2
2 2
0
0 0
−2
−2 −2
−4
−4 −4
−6
−6 −6
−8
−8 −8
Set Pisang
8
−2
−4
−6
−8
−10
−15 −10 −5 0 5 10
ansambel
kelas 1
pengklasifikasi 2 kombinasi
obyek keputusan
aturan
pengklasifikasi n
berat seekor lembu ketika tebakan individu mereka dirata-ratakan. Kesimpulan serupa dibuat di [352], di
mana Surowiecki menyatakan bahwa pengumpulan informasi dalam kelompok sering menghasilkan
keputusan yang lebih baik daripada pendapat anggota individu. Secara umum diterima bahwa karya
paling awal yang mempertimbangkan kualitas pengambilan keputusan oleh sekelompok klasifikasi
berasal dari
Teorema Juri Condorcet ( 1785) memperkirakan kemungkinan kesalahan klasifikasi dari sekelompok
pemilih independen [331]. Konsep ini pertama kali dikemukakan oleh Chow [56], yang membuktikan
bahwa keputusan kelas independen dengan bobot yang ditentukan secara tepat adalah optimal. Pada
tahun 1979, Dasarathy dan Sheela menggabungkan kelas linier dan satu k- Klasifikasi NN [73],
menyarankan untuk mengidentifikasi wilayah ruang fitur di mana klasifikasi tidak setuju. Kemudian,
jawaban dari klasifikasi yang terbentuk diberikan oleh k- Klasifikasi NN untuk objek dari wilayah konflik
dan oleh kelas linier untuk objek yang tersisa. Strategi seperti itu secara signifikan menurunkan biaya
eksploitasi secara keseluruhan
sistem klasifikasi. Ini adalah pekerjaan pertama yang memperkenalkan konsep pemilihan kelas, tetapi
ide yang sama telah dikembangkan secara independen pada tahun 1981 oleh Rastrigin dan
Erenstein [300], yang mengusulkan kelas gabungan berdasarkan pada partisi ruang fitur dan menetapkan
setiap partisi ke kelas individu yang mencapai yang terbaik klasifikasi akurasi di atasnya.
Karya relevan awal lainnya merumuskan kesimpulan mengenai kualitas klasifikasi gabungan, seperti
[135], di mana ensembel jaringan saraf dianggap atau [422] di mana penulis berurusan dengan
pemungutan suara mayoritas dan diterapkan pada pengenalan tulisan tangan. Turner [379] menunjukkan
bahwa rata-rata keluaran dari sejumlah tak terbatas dari klasifikasi tidak bias dan independen dapat
menyebabkan respon yang sama seperti klasifikasi Bayes yang optimal (1,19). Ho [146] menggarisbawahi
bahwa fungsi kombinasi keputusan harus menerima representasi yang berguna dari keputusan setiap
kelas. Secara khusus, mereka mempertimbangkan beberapa metode berdasarkan peringkat keputusan,
seperti penghitungan Borda. Akhirnya, karya tengara dikhususkan untuk mengantongi [39] dan
meningkatkan [327, 105], yang mampu menghasilkan klasifikasi yang kuat [182], di PAC ( Mungkin
Kira-kira Benar) teori [12] akal, atas dasar yang lemah.
Saat ini beberapa sistem klasifikasi (MCS) disorot oleh artikel review sebagai topik hangat dan tren
yang menjanjikan dalam pengenalan pola [167, 274,
286, 287, 308], dan ulasan ini termasuk buku-buku oleh Kuncheva [214], Rokach [309], Seni dan Edler
[330], Zhou [433], dan Baruque dan Corchado [21]. Bahkan buku pegangan pembelajaran mesin umum
yang canggih, seperti [92, 9, 32], mencakup presentasi ekstensif dari konsep dan arsitektur kelas
gabungan.
Penting untuk diperhatikan bahwa desain MCS tidak berbeda dari aplikasi pengenalan pola klasik
[119], di mana kami memilih fitur yang paling berharga dan memilih metode klasifikasi terbaik dari
kumpulan fitur yang tersedia. Desain ensembel kelas bertujuan untuk membuat satu set kelas yang
saling melengkapi / beragam dan menetapkan metode fusi yang sesuai, yang dapat menggabungkan
keluaran masing-masing kelas secara optimal.
Tabel 3.1 Perbandingan pendekatan tradisional dan gabungan untuk desain kelas
Kami harus menyebutkan karya Ho [145], yang membedakan dua pendekatan utama:
• Optimalisasi cakupan berfokus pada pembuatan satu set klasifikasi yang saling melengkapi, yang
dapat digabungkan untuk mencapai ac-
kurasi menggunakan fungsi kombinasi keputusan tetap.
• Pengoptimalan keputusan berkonsentrasi pada perancangan dan pelatihan fungsi kombinasi
keputusan yang tepat sementara satu set klasifikasi individu diberikan sebelumnya [311].
Berdasarkan tinjauan pustaka, kami dapat membuat daftar keuntungan dari pendekatan yang disebutkan di atas
sebagai [83]:
Kami dapat membedakan masalah penting yang harus dipertimbangkan saat membangun MCS
yang mengelompokkannya ke dalam masalah berikut:
3.2 Topologi
Mayoritas klasifikasi gabungan mewakili topologi paralel, yang memiliki latar belakang metodologi yang
baik [214]. Topologi seperti itu digambarkan pada Gambar 3.3.
Dalam topologi ini, setiap kelas diumpankan dengan data masukan yang sama, sehingga keputusan akhir
dari klasifikasi gabungan dibuat berdasarkan keluaran yang dihasilkan.
3.3 Ensemble Kelas 99
kelas 1
pengklasifikasi 2
obyek
.
. kombinasi keputusan
. aturan
pengklasifikasi n
klasifikasi individu diperoleh secara independen. Alternatifnya adalah topologi serial (atau bersyarat) yang
disajikan pada Gambar 3.4, di mana klasifikasi diberi peringkat. Ketika kelas utama tidak dapat dipercaya
untuk mengklasifikasikan objek tertentu (misalnya, karena dukungan / kepercayaan rendah dalam
hasilnya), data kemudian diumpankan ke kelas sekunder [225, 297] dll. Topologi ini memadai bila biaya
eksploitasi kelas adalah penting. Klasifikasi utama akan menjadi yang paling murah secara komputasi,
setelah keputusannya tidak dapat diandalkan dan datanya kemudian dimasukkan ke dalam kelas yang
berurutan yang biaya eksploitasinya biasanya lebih tinggi [110]. Model ini dapat diterapkan ke klasifikasi
dengan apa yang disebut opsi tolak juga [20]. Dalam [369] klasifikasi pertama dalam pipa memberikan
perkiraan kepastian klasifikasi, sehingga sampel data yang tidak pasti dikirim ke data yang berurutan,
terspesialisasi dalam kasus yang lebih sulit. Kami melihat kesamaan pendekatan tersebut dengan
seperangkat aturan [59] atau daftar keputusan [305], ketika kami menganggap setiap aturan sebagai
klasifikasi. Lebih lanjut, kami dapat mengusulkan topologi hybrid tetapi kurang memanfaatkan yang terbaik
dari setiap topologi.
Memilih anggota ansambel kelas dengan jenis komponen yang berbeda adalah fitur utama dari desain
sistem yang dipertimbangkan, karena kita harus memperhatikan bahwa selain meningkatkan
kompleksitas komputasi dan menggabungkan klasifikasi serupa seharusnya tidak berkontribusi banyak
pada gabungan kelas yang sedang dibangun. Sebuah ensemble ideal terdiri dari klasifikasi individu
yang saling melengkapi yang ditandai dengan keragaman dan akurasi yang tinggi [207], karena kami
berharap bahwa akurasi kelas gabungan meningkat sesuai dengan peningkatan keragaman kelompok
kelas individu [430]. Pertama, klasifikasi harus dipilih untuk mendapatkan hasil yang positif dari fusi
mereka. Pada Gambar 3.5, disajikan pasangan baik dan buruk dari masing-masing klasifikasi.
12 12
10 10
8 8
6 6
4 4
2 2
0 0
−2 −2
−4 −4
−6 −6
−8 −8
−10 −10
0 2 4 6 8 10 12 0 2 4 6 8 10 12
12 12
10 10
8 8
6 6
4 4
2 2
0 0
−2 −2
−4 −4
−6 −6
−8 −8
−10 −10
0 2 4 6 8 10 12 0 2 4 6 8 10 12
Gambar 3.5 Pasangan baik (di kiri) dan buruk (di kanan) dari berbagai kelas
Banyak algoritme yang mencakup subjek ini terinspirasi oleh panduan tentang cara merancang
perangkat lunak yang andal, di antaranya [277, 42, 338] layak disebutkan. Strategi untuk menghasilkan
ansambel harus menjamin peningkatan keragamannya. Namun, masalah bagaimana mengukur
keragaman kelas masih menjadi topik penelitian terbuka. Brown dkk. [43] perhatikan bahwa kita dapat
memastikan keragaman menggunakan pendekatan keragaman secara implisit atau eksplisit. Kelompok
pertama metode mencakup teknik klasifikasi individu yang dihasilkan secara independen, biasanya
didasarkan pada teknik acak, sedangkan kelompok kedua berfokus pada optimalisasi susunan
ansambel menggunakan metrik keragaman. Untuk kasus kedua,
Untuk masalah regresi, varian keluaran anggota ensemble biasanya digunakan sebagai ukuran
keragaman, karena terbukti bahwa kesalahan model gabungan berdasarkan rata-rata tertimbang
keluaran model individu dapat dikurangi sesuai dengan peningkatan keanekaragaman [207, 382 ].
Sebuah studi menarik tentang bagaimana mengelola korelasi dalam ansambel penaksir regresi
disajikan di [44]. Untuk masalah klasifikasi, kami masih menunggu hasil teoritis tersebut dan banyak
ukuran keragaman telah diusulkan sampai sekarang. Di satu sisi adalah intuitif bahwa peningkatan
keragaman harus mengarah pada akurasi yang lebih baik dari sistem gabungan, tetapi di sisi lain tidak
ada bukti formal dari ketergantungan ini [210], seperti yang dikonfirmasi oleh berbagai hasil
eksperimental yang disajikan dalam [ 27]. Dalam [42] penulis mengusulkan bahwa kesalahan voting
mayoritas klasifikasi terutama terdiri dari akurasi individu, keragaman yang baik, dan keragaman yang
buruk. Keragaman yang baik berdampak positif pada pengurangan kesalahan ansambel sedangkan
keanekaragaman yang buruk berdampak sebaliknya.
Dalam [332] Sharkley dkk. mengusulkan empat tingkat keragaman berdasarkan jawaban aturan
pemungutan suara mayoritas, kesalahan kebetulan, dan kemungkinan setidaknya satu jawaban yang
benar dari anggota ensemble. Brown dkk. [43] mencerminkan bahwa itu tidak sesuai untuk kasus di mana
keragaman ansambel berbeda di subruang yang berbeda dari ruang fitur. Juga, mereka mengusulkan
taksonomi berikut untuk ukuran keragaman:
• Pengukuran keragaman non-pairwise membandingkan kelas yang diberikan dari ensembel dengan
outputnya.
Mari kita sajikan ukuran keragaman terpopuler menurut taksonomi yang dirumuskan di atas.
Membiarkan N 11 singkatan dari jumlah objek dari kumpulan data tertentu yang diklasifikasikan dengan benar oleh
klasifikasi Ψ saya dan Ψ k, N 00 adalah jumlah objek yang salah diklasifikasikan oleh Ψ saya dan Ψ k. N 01 menunjukkan jumlah
sementara Ψ k membuat keputusan yang benar dan N 10 adalah jumlah kesalahan yang dilakukan
oleh Ψ k sementara Ψ saya benar. Anggaplah kita memiliki kolam Π dari n indi-
klasifikasi individual Π = Ψ 1, Ψ 2, ..., Ψ n dan n- elemen set pembelajaran LS ( 1.11) yang kami inginkan.
NN11-0N0 10 01 (3.1)
Q (Ψ, Ψ) =
N
D saya k N 11 N 00 + N 10 N 01
Q D mengambil 0 untuk klasifikasi independen dan nilai positif ketika klasifikasi memutuskan serupa
untuk sebagian besar objek, dan nilai negatif jika mereka
tidak setuju pada sebagian besar contoh. Untuk ansambel n klasifikasi, rata-rata Q statistik atas
semua pasangan klasifikasi adalah
2
Q Sebuah( Π) = (3.2)
n ∑- 1 ∑ n
n (n Q D( Ψ saya, Ψ
1)- k)
i=1k=i+1
• kappa-statistik [ 244]
κ (Ψ, Ψ) = N N +1N1 -
2( 00) -(N 0+ N 1) (3.3)
D saya k
N2 (N 0+ N 1)
N 11 N 00 - N 01 N 10
CC (Ψ saya, Ψ k) = √
(N 11 + N 10) ( N 11 + N 01) ( N 00 + N 10) ( N 00 + N 01)
(3.4)
• Ukuran ketidaksepakatan [ 336]
N +0 1N 10
Dis (Ψ saya, Ψ k) = (3.5)
N 11 + N 01 + N 10 + N
00
N 00
DF (Ψ saya, Ψ k) = (3.6)
N 11 + N 01 + N 10 + N 00
Membiarkan
n
∑
π (x k) = (1 - [ Ψ l ( x k) = saya k]) (3.7)
l=1
• Varians Kohavi-Wolpert [ 191], terinspirasi oleh dekomposisi bias-varians dari kesalahan klasifikasi
[118]
N ( )( )
1 ∑ π (x k)
KW (Π) = n - π (x k)
(3.8)
Nn 2 n n
k=1
∑N
π k ( n - π (x k))
κ (Π) = 1 - (∑ k = 1 ( )) (3.9)
N
∑N
( n - 1) π (x k) 1 - 1 π (x k)
Nn
k=1 k=1
N∑ (-1 ( ))
1 ∑M 1
E (Π) = π (x k) catatan π (x k) (3.10)
N N N
k=1i=1
karakteristik terkait dengan varian X 0 dan kesulitan θ dapat didefinisikan dengan menggunakan
penduga varians populasi
• ( )•2 ( ( ))
1 •∑ π ∑ π (x
2
N(x k) 1
k) N
θ (Π) = • - (3.11)
N n N n
k=1 k=1
nl (l - 1) p saya
∑
n (n - 1)
GD (Π) = 1 - l = 1 ∑ (3.12)
n lp l
n
l=1
dimana p l singkatan dari probabilitas itu l klasifikasi yang dipilih secara acak dari
Π akan gagal pada contoh yang dipilih secara acak.
• Keragaman Kegagalan Bertepatan adalah modifikasi dari Keragaman Umum, yang juga
diusulkan oleh Partridge dan Krzanowski [277]
•
0
•( p 0=1
)
CFD (Π) = • 1 ∑n n - (3.13)
l pl p 0<
•1 - p 0 l = 1 n - 1 1
Ia mengembalikan 0 sebagai pool Π tidak beragam, dan juga mengembalikan 1 jika setiap kelas memiliki
contoh yang berbeda.
Analisis beberapa ukuran keragaman dapat ditemukan, misalnya, dalam [216, 334, 358], ini
menghubungkannya dengan konsep margin klasifikasi, dan menunjukkan keterbatasannya serta sumber
hasil empiris yang membingungkan. Kuncheva dan Whitaker [216] menunjukkan bahwa tidak ada
hubungan yang jelas antara ukuran keragaman yang diketahui dan akurasi klasifikasi gabungan. Di sisi
lain, perlu digarisbawahi bahwa secara naluriah terdapat hubungan antara keberagaman
kumpulan kelas dan ensembel kelas yang terbentuk atas dasar itu, tetapi formulasi ukuran keberagaman
yang tepat masih menunggu formulasi yang tepat. Oleh karena itu, mengembangkan langkah-langkah
keberagaman masih menjadi tantangan besar bagi komunitas pengenalan pola.
Masalah penting lainnya terletak pada bagaimana menghasilkan kumpulan klasifikasi yang beragam. Menurut
[214, 119], kita dapat memaksakan keragaman kumpulan klasifikasi individu dengan memanipulasi input, output,
atau model mereka.
Semua konsep ini didasarkan pada asumsi bahwa klasifikasi yang dilatih pada input yang berbeda
saling melengkapi, dan kita dapat membedakan tiga pendekatan umum:
Menggunakan pendekatan pertama dapat disebabkan oleh beberapa alasan sebagai privasi data ketika kita ingin
belajar berdasarkan data terdistribusi yang disimpan dalam database yang berbeda [90, 202, 231], dijelaskan
sebagian pada bab sebelumnya. Selain itu, kita harus memperhatikan bahwa penggunaan data terdistribusi dapat
menimbulkan batasan hukum atau komersial yang tidak memungkinkan untuk berbagi kumpulan data mentah dan
menggabungkannya ke dalam repositori umum [2]. Untuk memastikan privasi, kita dapat melatih klasifikasi individu
pada setiap database secara independen dan menggabungkan keluarannya menggunakan prinsip klasifikasi hybrid
[392].
Alasan kedua sangat terkait dengan masalah analisis data besar [279]. Database yang sangat
besar tidak memungkinkan untuk menghasilkan klasifikasi secara efektif, jadi kita harus menggunakan
teknik probe untuk melatih klasifikasi berdasarkan partisi dataset asli. Salah satu pendekatan yang
terkenal adalah komite yang divalidasi silang yang membutuhkan minimalisasi partisi yang tumpang
tindih [207].
Konsep input kelas individu sering digunakan dalam kekurangan contoh pembelajaran, dan
beberapa teknik penting diusulkan yang berasal dari bootstraping [327], bagging [39] atau boosting [105,
326, 336, 286]. Juga, metode mencoba menjawab pertanyaan jika sekumpulan pelajar yang lemah
dapat menghasilkan satu yang kuat. Pendekatan pertama mengusulkan untuk secara independen
menghasilkan beberapa kumpulan data berdasarkan yang asli menggunakan pengambilan sampel
dengan teknik penggantian. Kemudian berdasarkan set pembelajaran, kelas individu dilatih. Untuk
membuat keputusan akhir dari kumpulan klasifikasi, aturan pemungutan suara mayoritas digunakan.
Selanjutnya, pseudocode dari bagging disajikan di Alg. 27.
Algoritma 27. Pseudocode mengantongi
Memerlukan: LS - set pembelajaran,
∑T
Ψ (x) = [ Ψ t ( x) = i]
argmax.dll
saya ∈M t=1
Pendekatan peningkatan diwakili oleh algoritma paling terkenal AdaBoost ( Peningkatan Adaptif) [ 106]
mengusulkan untuk menghasilkan beberapa himpunan pembelajaran secara berulang, dan dalam objek
iterasi tertentu yang diklasifikasikan secara salah dalam iterasi sebelumnya harus tenggelam dengan
probabilitas yang lebih tinggi. Keputusan terakhir dibuat atas dasar aturan voting tertimbang. Selanjutnya,
ide untuk meningkatkan dan implementasi yang paling populer AdaBoost ditunjukkan di Alg. 28 dan Alg.
29 masing-masing.
6: berakhir untuk
Untuk membuat keputusan tentang x menggunakan aturan kombinasi berdasarkan keluaran dari
Ψ 1, Ψ 2, ..., Ψ T, yaitu,
Ψ (x) = F ( Ψ 1 ( x), Ψ 2 ( x), ..., Ψ T ( x))
Fitur yang dipilih kemudian digunakan untuk melatih kumpulan klasifikasi untuk memastikan
keragaman kumpulan. Ada beberapa proposisi berdasarkan prinsip ini, seperti Subruang Acak [ 143, 144]
atau Atribut Bagging [ 46]. Itu Subruang Acak Konsep digunakan untuk beberapa jenis klasifikasi individu
sebagai klasifikasi linier [337] atau klasifikasi jarak minimal [375, 23]. Sementara itu,
Random Forrest [ 40] penggunaan Subruang Acak pendekatan untuk keputusan acak
Algoritma 29. Pseudocode AdaBoost
Memerlukan: LS - set pembelajaran, dimana M = {- 1, 1}, train method
() - metode pembelajaran kelas,
T - jumlah iterasi
Memastikan: Ψ 1, Ψ 2, ..., Ψ T kolam T klasifikasi
1: untuk k: = 1 untuk N melakukan
1
2: D 1 ( k) =
N
3: berakhir untuk
1- εt k=1
7: α t = 1 ln
2
εt
8: Normalisasi t: = 0
9: untuk k: = 1 untuk N melakukan
Ψ (x) = tanda
∑
α t Ψ t ( x)
T
t=1
pohon yang menggunakan keacakan saat memilih atribut “terbaik” dalam induksi pohon keputusan (lihat
baris 10 di Alg. 10). Perlu ditunjukkan bahwa beberapa proposisi menarik yang didedikasikan untuk
kelas satu kelas disajikan oleh Nanni [257] atau metode hierarki pembuatan ensemble berdasarkan
pemisahan ruang fitur dan kemudian menetapkan klasifikasi biner (seperti Mendukung Mesin Vektor)
disajikan secara lokal di [359, 372]. Selanjutnya, pseudocode dari file Subruang Acak kerangka kerja
disajikan di Alg. 30.
Konsep penting lainnya dari pemilihan kelas mengasumsikan spesialisasi lokal dari klasifikasi
individu. Menurut proposal ini, satu klasifikasi yang mencapai hasil terbaik dipilih dari kumpulan untuk
setiap partisi ruang fitur yang dibatasi. Jawabannya diperlakukan sebagai jawaban sistem, untuk semua
objek yang termasuk dalam partisi. Metodologi ini dijelaskan oleh Rastrigin dan Erenstein [300].
Proposal tertentu berdasarkan ide ini mengasumsikan spesialisasi lokal dari klasifikasi tertentu dan
hanya mencari solusi optimal secara lokal [18, 62, 119, 125, 318], sementara metode lain mengusulkan
untuk membagi
Algoritma 30. Pseudocode Subruang Acak
Memerlukan: LS - set pembelajaran,
fitur ruang dan memilih (atau melatih) kelas untuk setiap partisi. Kita bisa membedakannya
• Pemilihan klasifikasi statis [ 22] sebagai hubungan yang disebutkan antara wilayah kompetensi
dan kelas yang ditugaskan tetap. Kuncheva melamar Pengelompokan dan Seleksi ( Algoritma CS)
[209] yang mempartisi ruang fitur sesuai dengan algoritma pengelompokan yang diberikan,
kemudian CS memilih klasifikasi individu terbaik untuk setiap kluster berdasarkan kualitas lokalnya.
Sementara itu, Jackowski dan Wozniak [163] melamar Pemisahan dan Seleksi Adaptif
Algoritma (AdaSS) yang menggabungkan partisi ruang fitur dan menetapkan klasifikasi ke setiap
partisi menjadi satu proses terintegrasi. Keuntungan utama AdaSS adalah bahwa algoritma pelatihan
mempertimbangkan bentuk suatu area untuk menentukan isi suatu kelas, dan sebaliknya wilayah
tersebut menyesuaikan dengan kompetensi klasifikasi. Juga, Lee et al. [229] menggunakan ukuran
entropi fuzzy untuk mempartisi ruang fitur dan memilih fitur yang relevan dengan keterpisahan yang
baik untuk masing-masing fitur. Setelah itu, kami akan melakukannya
Kita harus memperhatikan bahwa baik ensembel kelas statis [348, 393, 431] dan yang dinamis [194,
378, 434] banyak digunakan untuk klasifikasi aliran data.
Output yang Berbeda
Pendekatan lain yang mampu menegakkan akurasi keragaman tinggi dari masing-masing klasifikasi
terkait dengan manipulasi keluaran mereka, dan itu berarti bahwa setiap klasifikasi individu dilatih untuk
mengenali beberapa kelas saja. Pada dasarnya, metode kombinasi harus memulihkan seluruh
rangkaian label kelas,
Misalnya, masalah klasifikasi kelas jamak dapat diuraikan menjadi masalah klasifikasi dua kelas dalam
jumlah terbatas [366]. Ada beberapa proposisi tentang bagaimana menghasilkan kelas jamak dengan
menggabungkan keluaran dari kelas biner [84]. Biasanya kombinasi dibuat atas dasar aturan tetangga
terdekat sederhana, yang menemukan kelas terdekat, dalam arti tertentu, dengan keluaran dari
klasifikasi biner. Umumnya, variasi yang paling umum dari kombinasi klasifikasi biner adalah Satu-lawan-Satu
( OAO) (juga dikenal sebagai
Satu-Versus-Satu ( OVO)) dan Satu-Melawan-Semua ( OAA) (juga dikenal sebagai OneVersus-All ( OVA))
[91]. Dalam model ini, setidaknya satu kelas biner sesuai dengan setiap kelas. Hipotesis bahwa vektor
fitur yang diberikan milik kelas yang dipilih diuji terhadapnya yang termasuk dalam salah satu kelas
lainnya. Metode OAA biasanya diimplementasikan sebagai apa yang disebut Pemenang Mengambil
Semua ( WTA). Setiap kelas dilatih dalam contoh kelas yang berbeda menjadi kelas pertama, dan
semua kelas lainnya sesuai dengan kelas kedua. Juga, hasil akhir dicapai dengan aturan maksimum
pada
nilai-nilai dukungan untuk setiap kelas.
Selain itu, Dieterich dan Bakiri [84] mengusulkan model kombinasi yang disebut ECOC ( Kesalahan
Mengoreksi Kode Output), dan dalam model ini setiap kelas biner menghasilkan urutan kode 1 dan -1
untuk setiap kelas tergantung pada model yang digunakan, misalnya, mari kita pertimbangkan masalah
klasifikasi 8 kelas, di mana kelas 1, 4, dan 7 dikaitkan dengan kode kelas - 1, dan sisanya dengan kode
kelas
1, maka kata sandi yang dihasilkan oleh klasifikasi tertentu (terkait dengan kolom dalam matriks
ECOC) terlihat sebagai berikut [ - 1, 1, 1, - 1, 1, 1, - 1, 1]. Selanjutnya konstruksi matriks ECOC disajikan
pada
Tab. 3.2.
Ψ Ψ 2 Ψ n
...
ECOC memilih kelas dengan jarak Hamming terkecil ke kata kodenya, yaitu,
•∑
n
Ψ ECOC ( x)
=
• (3.14)
M
• (1 - tanda( cw k ( i) Ψ saya( x))) •
argmax.dll • •
k=1 • i=1 •
2
dimana cw k( saya) berdiri untuk saya- posisi ke kata sandi cw k.
Jarak lain dapat digunakan a √ baiklah, seperti Euclidean [292]
√ n
√∑
Ψ ECOC ( x) = arg maks √ ( cw k ( saya) - Ψ saya( x)) 2 (3.15)
M
k=1
i=1
Review metode lain yang mungkin untuk menggunakan jarak dapat ditemukan di [433]. Passerini
dkk. [278] menerapkan skema ini dengan lancar untuk mendukung mesin vektor. Perlu disebutkan bahwa
Allwein et al. [7] mengusulkan representasi yang sedikit berbeda dari matriks ECOC dengan
menambahkan 0 jika kelas tertentu binarize masalah melewatkan kelas tertentu, yaitu, dalam contoh yang
disebutkan di atas dari masalah klasifikasi 8 kelas, misalkan kelas 1, 4, dikaitkan dengan kelas kode
- 1, dan kelas 2, 5 dan 8 dengan kode kelas 1, maka kata sandi yang dihasilkan oleh klasifikasi tertentu
(terkait dengan kolom dalam matriks ECOC) terlihat sebagai berikut [ - 1, 1, 0, - 1, 1, 0, 0, 1]. Sementara itu,
Wilk dan Wozniak [403] mengusulkan bagaimana menerapkan pendekatan fuzzy pada representasi ECOC.
Baru-baru ini, beberapa proposisi menarik tentang bagaimana menggabungkan klasifikasi biner telah
diajukan. Wu et al. [420] menggunakan kopling berpasangan, Friedman menggunakan aturan Max-Win
[107], dan Hüllermeier mengusulkan prosedur pemungutan suara tertimbang adaptif [155]. Sebuah survei
yang sangat menarik tentang ansambel kelas biner diterbitkan baru-baru ini oleh Galar et al. [113]. Perlu
disebutkan bahwa model klasifikasi satu kelas adalah kasus khusus dari klasifikasi biner, juga disebut
deskripsi data, karena ia dilatih tanpa adanya sampel yang berlawanan. Juga, tujuan utamanya adalah untuk
mendeteksi anomali atau keadaan selain yang ada untuk kelas target [365]. Untuk menggabungkan
klasifikasi tersebut, metode khas yang dikembangkan untuk klasifikasi biner digunakan dalam [362], tetapi
perlu disebutkan, misalnya, pekerjaan oleh Wilk dan Wozniak di mana penulis memulihkan tugas klasifikasi
kelas jamak menggunakan kumpulan klasifikasi satu kelas dan sistem inferensi fuzzy [403]. Namun, metode
kombinasi yang didedikasikan untuk klasifikasi satu kelas masih menunggu perhatian yang tepat [120].
Umumnya, kita dapat melatih klasifikasi individu berdasarkan model klasifikasi yang berbeda atau
berbagai versi model. Proposisi pertama memanfaatkan bias yang berbeda dari model klasifikasi
individu [407] dalam satu kelas gabungan. Dalam kasus ini, ketika kita memiliki kumpulan klasifikasi
heterogen, kita harus berhati-hati dalam memilih aturan kombinasi. Kita dapat menggabungkan label
kelas, tetapi jika kita menggabungkan keluaran kontinu kita harus menormalkannya misalnya,
menggunakan pendekatan fuzzy [403].
Kami juga dapat menggunakan versi yang berbeda dari model yang sama, karena banyak algoritma
pembelajaran mesin (misalnya, induksi pohon keputusan) [295] yang de facto algoritma pencarian heuristik dan
yang tidak menjamin bahwa klasifikasi optimal ditemukan. Secara khusus, pendekatan penggabungan yang
memulai algoritme pembelajaran mesin dari titik yang berbeda merupakan proposisi yang menarik, dan kami
dapat menghasilkan kumpulan klasifikasi seperti itu dengan injeksi derau sebagai contoh berikut. Adapun
jaringan saraf [152], kita dapat melatih kumpulan jaringan di mana masing-masing jaringan dilatih
berdasarkan bobot awal yang dipilih secara acak. Adapun pohon keputusan, kita dapat memilih pengujian di
antara pengujian yang mungkin untuk node tertentu secara acak sesuai dengan nilai kriteria pemisahan.
Jelas bahwa lebih banyak tidak berarti lebih baik, terutama dalam kasus klasifikasi gabungan. Zhou
et al. [432] mempresentasikan analisis yang sesuai untuk masalah regresi, di mana mereka
merumuskan kondisi setelah menghapus satu model dari ensemble memiliki dampak positif untuk
kinerja ensemble.
P. Sebuah( Ψ 3) menunjukkan akurasi klasifikasi dan biarkan Ψ 1 menjadi kelas terbaik dari kolam renang Π. Probabilitas
akurasi dari ensembel kelas diberikan oleh
rumus berikut:
+ P. Sebuah( Ψ (3.16)
1) ( 1 - P. Sebuah( Ψ 2)) P. Sebuah( Ψ 3) + ( 1 - P. Sebuah( Ψ 1)) P. Sebuah( Ψ P. Sebuah( Ψ 3)
2)
Ini adalah kemungkinan bahwa setidaknya dua klasifikasi membuat keputusan yang tepat. Juga,
mudah untuk memberikan contoh ketika akurasi ensem-
ble lebih rendah dari kelas terbaik dari pool, misalnya if P. Sebuah( Ψ 1)
= 0,8, P. Sebuah( Ψ 2) = 0,7, dan P. Sebuah( Ψ 3) = 0,6 lalu P. Sebuah( Π) = 0,788 < P. Sebuah( Ψ 1). Contoh serupa juga
dapat ditemukan di [214]. Mari kita coba
ditions untuk akurasi probabilitas masing-masing klasifikasi dalam kumpulan yang kombinasi mereka
dapat berdampak positif terhadap kinerja keseluruhan dari ensembel. Menurut 3.16, ada baiknya
menggabungkan klasifikasi jika ensembel kelas mencapai akurasi yang lebih tinggi daripada kelas
individu terbaik.
lebih baik, yaitu P. Sebuah( Π)> P. Sebuah( Ψ 1), dan selanjutnya kita dapat merumuskan kondisi sebagai berikut:
P. Sebuah( Ψ 2) P. Sebuah( Ψ 3)
Sebagaimana dibahas di atas, pertimbangan memiliki sifat teoretis saja, dan lebih baik kecuali untuk
tugas-tugas praktis. Oleh karena itu kita harus mengusulkan metode yang biasanya didasarkan pada
metrik yang disebutkan untuk memilih ansambel yang paling berharga apa yang disebut "pemangkasan
ansambel" [247] di bagian sebelumnya. Karena kompleksitas komputasi yang tinggi dari pemangkasan
ansambel, beberapa pendekatan yang diusulkan menurut [377]:
3.3 Pemangkasan Ensemble 1
1
( P. Sebuah( Ψ 2) P. Sebuah( Ψ 3)) / ( 1 + 2 P. Sebuah( Ψ 2) P. Sebuah( Ψ 3) - P. Sebuah( Ψ 2) - P. Sebuah( Ψ 3)) - P. Sebuah( Ψ 1)
0.95
0.8
Ψ 2)
Sebuah(
0,75
P.
0.7
0.65
0.6
0,55
0,5
0,5 0,55 0.6 0.65 0.7 0,75 0.8 0.85 0.9 0.95 1
P. Sebuah( Ψ 3)
Gambar 3.6 Ketergantungan antara keakuratan klasifikasi individu terbaik dalam kumpulan tiga klasifikasi dan
sisanya
• Metode berbasis peringkat gunakan ukuran evaluasi untuk peringkat klasifikasi dan pilih hanya yang
terbaik pertama. Sebagai kriteria evaluasi, ukuran keragaman biasanya digunakan. Margineantu dan
Ditterich mengusulkan untuk menggunakan kappa-statistik yang disebutkan (3.3) untuk memesan setiap
kemungkinan pasangan klasifikasi dan memilih sejumlah model terbaik [244]. Dalam karya yang sama,
penulis mengusulkan untuk menerapkan Mengurangi-Kesalahan Pemangkasan menambahkan sejumlah
klasifikasi tetap satu per satu ke ensembel sesuai dengan akurasinya, dan kemudian memproses tahap
berikutnya dari algoritme secara berulang untuk memeriksa bahwa jika mengganti klasifikasi yang dipilih
dengan kelas yang tidak dipilih dapat meningkatkan akurasi ensembel. Menggunakan pendekatan
pembelajaran penguatan untuk ini
- Satu klaster dari tiap klaster dipilih, misalnya klaster yang paling jauh dari klaster yang tersisa
[121], atau paling akurat di klaster tertentu [293]. Masalah pentingnya adalah bagaimana
memperbaiki jumlah cluster yang berdampak pada kinerja ensemble [228]. Lebih lanjut, ada karya
penting dari Inoue dan Narihisa [158] yang menerapkan SOM ( Pengorganisasian Diri
menggunakan teknik heuristik [318, 17], algoritme evolusioner [432, 112], atau
teknik kompetitif berdasarkan validasi silang [71] untuk menyebutkan hanya beberapa. Untuk tugas
klasifikasi, biaya untuk memperoleh nilai fitur (yang dapat diartikan sebagai harga untuk
pemeriksaan atau waktu yang diperlukan untuk mengumpulkan data untuk pengambilan keputusan)
memainkan peran kunci, dan ini harus dipertimbangkan selama pemangkasan ansambel.
Sementara itu, Krawczyk dan Wozniak menggunakan pendekatan genetik untuk membentuk
ansambel dengan kesalahan klasifikasi minimal dalam batas biaya tetap [201], sedangkan
Jackowski et al. [161] mengusulkan kriteria baru berdasarkan proposisi EG2 [268] yang disajikan
pada Tab.2.2. Di satu sisi, ia mempertimbangkan akurasi ensembel, tetapi di sisi lain biayanya
terkait dengan jumlah biaya perolehan atribut yang digunakan oleh masing-masing klasifikasi.
6: berakhir untuk
Masalah penting lainnya dari desain klasifikasi gabungan adalah pilihan metode pengambilan keputusan
kolektif, dan biasanya blok ini disebut aturan kombinasi, penggabung, atau fuser. Seperti disebutkan
sebelumnya, beberapa karya mempertimbangkan kualitas peramal sebagai model kombinasi referensi
[408]. Ini adalah model kombinasi abstrak, di mana jika setidaknya salah satu klasifikasi individu
mengenali objek dengan benar, maka komite mereka menunjuk ke kelas yang benar juga. Beberapa
penelitian menggunakan peramal dalam percobaan komparatif untuk menunjukkan batas kualitas komite
klasifikasi [379], dan untuk beberapa metode fusi itu adalah batas sebenarnya [419]. Namun, kita harus
sangat berhati-hati, karena jika kita mempertimbangkan masalah dikotomi dimana kita memiliki dua
klasifikasi individu yang kita miliki: kelas acak dan kelas kedua yang selalu mengembalikan keputusan
yang berlawanan, maka peramal tidak pernah salah. Oleh karena itu, ini bukan model referensi yang
baik, dan harus diperhatikan bahwa kualitasnya tidak berhubungan dengan kualitas kelas Bayes yang
optimal. Juga Raudys [301] memperhatikan itu peramal adalah sejenis ukuran kualitas dari kelompok
klasifikasi individu tertentu. Mari kita sistematisasi metode fusi kelas.
3.4 Aturan Kombinasi 1
1
3.4.1 Taksonomi
Kita dapat membedakan beberapa taksonomi dari aturan kombinasi sebagai blok kombinasi terlatih dan
tidak terlatih, atau fuser berdasarkan label kelas atau fungsi pendukung. Kami akan fokus pada yang
kedua, tetapi kami juga akan membahas metode pelatihan fuser yang dipilih.
Kelompok metode pertama mencakup algoritma pemungutan suara [31, 422]. Keputusan dibuat sesuai dengan
cara yang digambarkan pada Gambar 3.7
kelas 1
label kelas
pengklasifikasi 2
obyek
. label kelas
. kombinasi keputusan
. aturan
label kelas
pengklasifikasi n
Awalnya, hanya skema pemungutan suara mayoritas yang diterapkan, dan ada tiga versi utama
pemungutan suara mayoritas:
• Setidaknya lebih dari separuh jumlah klasifikasi setuju (mayoritas sederhana) Jumlah suara
• terbanyak setuju, baik jumlah suara tersebut melebihi 50% atau tidak (suara jamak,
suara terbanyak)
Kelas gabungan membuat keputusan menurut aturan voting mayoritas menggunakan rumus berikut
n
∑
Ψ (x) = argmax.dll [ Ψ n ( x) = i] (3.18)
saya ∈M
k=1
di mana [] menunjukkan tanda kurung Inverson. Contoh voting mayoritas dan perbandingannya dengan
oracle combiner disajikan pada Gambar 3.8.
Kesalahan pemungutan suara mayoritas (untuk klasifikasi yang salah dengan probabilitas yang sama,
tetapi kesalahannya independen bersama) diperkirakan pada tahun 1794 menurut persamaan Bernoullis,
dan hasil ini dikenal sebagai Teorema Juri Condorcet [ 331]. Mari kita asumsikan bahwa kita memiliki
kumpulan kelas seperti itu
Π = {Ψ 1, Ψ 2, ..., Ψ n} dan
∀ k ∈ { 1, ..., n} P e ( Ψ k) = p (3.19)
kemudian
n+1(
)
∑2 n n -1
P. e ( Ψ) = p k( 1 - p) n + 2 -k (3.20)
n-1 2+
1
k= 2+
1
k
Ketergantungan antara kualitas suara mayoritas dengan sekelompok klasifikasi membuat kesalahan
independen bersama dengan kualitas dan kardinalitas yang sama dari kelompok tersebut digambarkan
pada Gambar. 3.9. Perlu dicatat bahwa Vardeman dan Morris menggarisbawahi bahwa pengamatan ini
adalah " relevan hanya jika diterapkan pada kesalahan yang independen bersama (tidak hanya tidak
berkorelasi, atau ekuivalen, independen berpasangan) (dan tidak pada klasifikasi) ”[390]. Banyak
kesimpulan yang diketahui mengenai kualitas klasifikasi dari klasifikasi yang dianggap telah diturunkan
secara analitik, tetapi ini biasanya hanya valid di bawah batasan yang kuat, seperti kasus tertentu dari
suara mayoritas [135] atau pembuatan asumsi yang sesuai. Namun, dalam banyak kasus asumsi dan
batasan seperti itu tidak terlalu berguna untuk menyelesaikan masalah praktis. Di sini, kami harus
menyebutkan karya-karya itu
pengklasifikasi # 1
pengklasifikasi # 2
pengklasifikasi # 3
peramal
Gambar 3.8 Keputusan yang dibuat oleh sekelompok klasifikasi menggunakan oracle dan aturan voting mayoritas untuk masalah
mainan
0,5
0.45
0.4
0.35
0.3
Ψ)
0.25
e(
k=1
P.
0.2
0.15 k=5
k=3 k = 51
0.1 k = 31 k = 101
k = 11
0,05 k = 151
0
0 0,05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0,5
p
Gambar 3.9 Ketergantungan antara kualitas suara mayoritas dengan kumpulan klasifikasi dan kardinalitasnya
menurut (3.20)
yang mengusulkan pelatihan beban, yang tampaknya menjadi metode alternatif yang menarik [408, 413].
Karya-karya selanjutnya difokuskan pada kualitas klasifikasi dari klasifikasi gabungan diturunkan
secara analitis, tetapi mereka biasanya hanya valid di bawah batasan yang kuat [135], yang tidak berguna
dari sudut pandang praktis. Ada banyak metode pemungutan suara yang berbeda sebagai pemungutan
suara mayoritas yang disebutkan di atas [422] dan jenis yang lebih maju berdasarkan bobot pentingnya
keputusan yang datang dari anggota komite tertentu [214, 386]. Memperlakukan proses pemilihan bobot
sebagai proses pembelajaran terpisah adalah metode alternatif [138, 158]. Selain itu, Shlien [335]
menggabungkan pohon keputusan yang mencapai konsensus menggunakan teori Dempster dan Shafer,
dan Wozniak [411] melatih fuser menggunakan metode pelatihan yang mirip dengan pembelajaran
perceptron. Pseudocode dari proposisi terakhir ditampilkan di Alg. 32.
n
∑
Ψ (x) = argmax.dll [ Ψ k ( x) = j] w k, (3.21)
j ∈M
k=1
dimana w k adalah bobot yang ditetapkan ke kelas Ψ k dan [] singkatan dari kurung Inverson.
Mari kita perhatikan bahwa bobot yang digunakan dalam (3.21) memainkan peran kunci dalam menetapkan
P. Sebuah Ψ
wk∝ k (3.22)
1 - P. Sebuah( Ψ k)
Jelas bahwa untuk model pemungutan suara tersebut di atas tidak mungkin untuk mendapatkan klasifikasi
yang lebih baik dari pada peramal, tetapi satu-satunya model yang didasarkan (parsial) pada label kelas yang dapat
mencapai hasil yang lebih baik daripada peramal
adalah kelas yang menghasilkan keputusan berdasarkan label kelas yang diberikan oleh kumpulan n klasifikasi
individu dan nilai vektor fitur. Itu disajikan pada Gambar.
3.10. Dengan kata lain, dalam hal ini keputusan penggabungan kelas juga bergantung pada nilai vektor
fitur. Selain itu, model yang dijelaskan dianggap di beberapa makalah sebagai [301, 302, 158].
Algoritma 32. Perhitungan Bobot Adaptif
Memerlukan: LS - set pembelajaran,
5: berakhir untuk
6: ulang
7: memperkirakan P. Sebuah( Ψ (t)), dimana Ψ (t) adalah gabungan kelas menggunakan sebuah pool Π dan set
28: w i: = w saya( T)
29: berakhir untuk
label kelas
pengklasifikasi 2
obyek
. label kelas
kombinasi
. aturan keputusan
.
label kelas
pengklasifikasi n
nilai attrubute
Gambar 3.10 Fuser berdasarkan label kelas dan informasi tambahan tentang nilai atribut
Itu Ruang Pengetahuan Perilaku ( Metode BKS) diusulkan oleh Huang dan Suen [153], dan tahap
pelatihan BKS bertujuan untuk menetapkan label paling populer dari satu set pembelajaran ke
masing-masing n- kombinasi dari respon klasifikasi individu. Tahap penting dari proses ini adalah
menetapkan label ke yang diberikan n- kombinasi dari respon klasifikasi individu. Dalam kasus keputusan
yang ambigu, jika lebih dari satu kelas diklasifikasikan oleh kumpulan klasifikasi individu sebagai kelas
lainnya, kita harus menetapkan keputusan secara acak atau memilih kelas dengan dukungan tertinggi
(misalnya, kemungkinan besar). Lebih baik jika kita bisa mendapatkan nilai dukungan, atau kita bisa
menggunakan keputusan paling populer di antara klasifikasi individu. Selain itu, pseudocode BKS
disajikan di Alg. 33, dan contoh singkat diberikan dalam Contoh 3.2. Jumlah n-
kombinasi cukup tinggi M n, jadi BKS membutuhkan perangkat pembelajaran yang cukup besar. Estimasi
analitis ketergantungan antara kesalahan BKS dan ukuran himpunan pembelajaran disajikan di [303]
Biarkan pembelajaran berikut ini ditetapkan untuk tugas dua klasifikasi kelas
• •
• •
7 8 9 1 0, 0 ), ( x 11 , 0 ) , ( x 12 , 0),
•(x 1, 0), ( x 2 , 0), ( x 3 , 0), ( x 4 , 0 ), ( x 5, 0 ) , ( x 6 ,0 ), •
LS = •
1 ) , ( x 23, 1), ( x 24, 1), •
• ( x •
• 13, 1), ( x 14, 1), ( x 15, 1), ( x 16, 1), ( x 17, 1), ( x 18, 1), • • ( x 19, 1), ( x 20, 1), ( x 21, 1), ( x 22,
•
( x 25, 1), ( x 26, 1), ( x 27, 1), ( x 28, 1), ( x 29, 1), ( x 30, 1)
Jika kita memiliki objek untuk diklasifikasikan, maka kita harus meminta setiap klasifikasi individu untuk
keputusannya dan kemudian mengembalikan keputusan akhir menurut Tab. 3.4.
Algoritma 33. Metode Ruang Pengetahuan Perilaku
Req L u S kemarahan: Π = {Ψ 1, Ψ 2, ..., Ψ n} - kumpulan kelas dasar
- set pembelajaran
Memastikan: berlabel M n n- kombinasi label kelas yang dikembalikan oleh masing-masing kelas
si fi ers dari Π
1: indeks: = 1
2: untuk k 1: = 1 untuk M melakukan
4: ...
6: c 1 [ indeks]: = k 1
7: c 2 [ indeks]: = k 2
8: ...
9: c n [ indeks]: = k n
10: indeks: = indeks + 1
11: berakhir untuk
∑M
19: jika l [indeks, k] = 0 kemudian
k=1
32: Untuk membuat keputusan tentang x gunakan aturan keputusan berikut Ψ (x) =
Ψ (Ψ 1( x), Ψ 2( x), ..., Ψ n( x))
Tabel 3.3 Klasifikasi contoh dari LS untuk Contoh 3.2
contoh Ψ 1 Ψ2 Ψ3 contoh Ψ 1 Ψ2 Ψ3
x1 0 1 0 x 16 1 0 1
x2 1 1 0 x 17 1 0 0
x3 1 0 1 x 18 1 1 0
x4 0 0 0 x 19 0 0 1
x5 0 1 1 x 20 1 0 1
x6 1 0 1 x 21 1 1 0
x7 1 0 0 x 22 1 0 0
x8 1 0 0 x 23 0 0 1
x9 0 0 1 x 24 0 1 1
x 10 1 1 1 x 25 0 0 1
x 11 1 1 0 x 26 1 1 0
x 12 1 0 1 x 27 1 0 1
x 13 0 1 0 x 28 0 0 1
x 14 0 1 0 x 29 1 1 0
x 15 1 0 1 x 30 1 1 1
Tabel 3.4 Jumlah contoh dan label untuk setiap kombinasi yang mungkin dari tanggapan klasifikasi individu untuk
Contoh 3.2
0 0 0 1 0 0
0 0 1 1 4 1
0 1 0 2 2 0 karena 0 adalah la- paling populer
bel di antara klasifikasi individu
0 1 1 0 1 1
1 0 0 2 2 0 karena 0 adalah la- paling populer
bel di antara klasifikasi individu
1 0 1 3 4 1
1 1 0 2 4 1
1 1 1 1 1 1 karena 1 adalah la- paling populer
bel di antara klasifikasi individu
Proposisi menarik lainnya dirumuskan oleh Ruta dan Gabrys [317]. Mereka melamar Organisasi
Multistage dengan Voting Mayoritas ( MOMV), dan yang merupakan sejenis sistem pemungutan suara dua
tahap. Pada tahap pertama, masing-masing klasifikasi dikelompokkan berdasarkan keluarannya, dan
masing-masing kelompok memilih
keputusannya sendiri. Kemudian keputusan terakhir dibuat atas dasar keputusan kelompok dengan menggunakan aturan
pemungutan suara yang sama. Kerangka kerja ini dapat diperpanjang dengan menambahkan tahapan pemungutan suara
berikutnya dengan mengelompokkan keputusan dari kelompok, dll. Menarik bahwa klasifikasi seperti itu dapat mengungguli
Akhirnya, kami harus menjelaskan Generalisasi Bertumpuk (Bertumpuk) [ 406], yang merupakan
kerangka kerja paling umum untuk kombinasi klasifikasi berdasarkan label kelas. Banyak pendekatan yang
disajikan sebelumnya sebagai pemungutan suara berbobot, dapat dikenali sebagai penumpukan, dan juga
perlu dicatat bahwa penumpukan tidak dibatasi oleh peramal aturan kombinasi. Juga, ide tentang algoritme
digambarkan dalam Alg. 34, tapi mari kita jelaskan secara singkat.
3:
¯: = L ¯ S̄ ∪ (( Ψ 1 ( x k), Ψ 2 ( x k), ..., Ψ N ( x k))), j k)
4: berakhir untuk (
5: Ψ ← melatih L) ¯ S̄
6:
7: Untuk membuat keputusan tentang x gunakan aturan keputusan berikut Ψ (x) =
Ψ (Ψ 1( x), Ψ 2( x), ..., Ψ n( x))
Pada dasarnya pelatihan dibagi menjadi dua tahap. Fase pertama terkait dengan pelatihan klasifikasi individu,
dan fase kedua bertanggung jawab untuk melatih aturan kombinasi (juga disebut meta-class atau meta-level class).
Kita dapat membayangkan bahwa kumpulan klasifikasi individu diberikan sebelumnya, tetapi untuk pelatihan
aturan kombinasi kita memerlukan perangkat pembelajaran juga. Biasanya jika kita menggunakan satu set
pembelajaran, kita harus melindungi kelas agar tidak terlalu pas. Oleh karena itu, disarankan untuk mengecualikan
kumpulan data yang digunakan untuk pelatihan aturan kombinasi dari kumpulan data yang digunakan untuk
pelatihan kelas individu, misalnya, dengan menggunakan validasi silang. Kami harus menyebutkan bahwa
penumpukan biasanya menggunakan kumpulan kelas yang heterogen untuk memastikan keragamannya selama
pembelajaran, atau kami dapat melatih mereka secara mandiri dan menggunakan kumpulan pembelajaran hanya
untuk pelatihan aturan kombinasi.
3.4.3 Pelaku Berdasarkan Diskriminan
Kelompok kedua dari metode pengambilan keputusan kolektif didasarkan pada apa yang disebut fungsi
pendukung. Pertama, file Borda 2 menghitung [ 146] harus disebutkan, yang membuat keputusan dengan
memberikan masing-masing kelas sejumlah poin yang sesuai dengan posisi di mana ia diurutkan oleh
masing-masing kelas. Ide tersebut disajikan dalam contoh berikut.
Contoh 3.3. Mari kita pertimbangkan masalah klasifikasi lima kelas, dan mari kita asumsikan
bahwa kami memiliki tiga klasifikasi yang dapat kami gunakan, Ψ 1, Ψ 2, dan Ψ 3, yang dapat mengembalikan peringkat untuk
setiap kelas untuk observasi tertentu. Contoh yang diberikan x milik kelas
pangkat
Ψ1 Ψ2 Ψ nilai
2 1 2 5
1 3 4 4
5 4 1 3
4 5 5 2
3 2 3 1
Kemudian keputusan terakhir dikembalikan dengan menggunakan kelas gabungan Hitungan borda
adalah kelas 1.
Mari kita perhatikan bahwa metode pemungutan suara hanya menggunakan kelas dengan peringkat paling tinggi, maka hitungan
Bentuk utama dari fungsi pendukung adalah belakang probabilitas [92], terkait dengan model
probabilistik dari tugas pengenalan pola yang diberikan [6, 31, 185], tetapi secara umum nilai fungsi
tersebut adalah ukuran dukungan yang diberikan untuk kelas yang dibedakan, sebagai keluaran
jaringan saraf atau fungsi keanggotaan fuzzy. Ada banyak pendekatan yang menangani masalah ini
sebagai [299], di mana fuser proyektif yang optimal disajikan. Opitz dan Shavlik [271]
2 Jean-Charles, chevalier de Borda (1733 1799) seorang matematikawan Perancis, fisikawan, ilmuwan politik, dan
pelaut.
Tabel 3.6 Peringkat dikembalikan oleh klasifikasi dari Contoh 3.3
pangkat
Ψ1 Ψ2 Ψ 3 nilai
2 3 2 5
1 1 1 4
5 4 4 3
4 5 5 2
3 2 3 1
gabungan keluaran jaringan saraf sesuai dengan akurasinya. Rokach dan Maimon [310] menerapkan
Naïı̈ve Bayes sebagai metode kombinasi. Beberapa sifat analitis dan evaluasi eksperimental metode
agregasi disajikan dalam [109, 138, 379, 412]. Pada dasarnya metode agregasi yang tidak
memerlukan prosedur pembelajaran menggunakan operator sederhana sebagai nilai maksimum,
minimum, jumlah, atau rata-rata. Namun, menurut pekerjaan Duin's [93], mereka biasanya tunduk
pada kondisi yang sangat ketat, yang sangat membatasi penggunaan praktisnya. Juga, kerangka dari
klasifikasi gabungan berdasarkan fungsi pendukung dari masing-masing klasifikasi digambarkan pada
Gambar. 3.11. Perlu disebutkan bahwa pendekatan penting yang disebut 'campuran pakar' [165, 164]
menggabungkan keluaran klasifikasi 'menggunakan apa yang disebut fungsi gerbang tergantung pada
input klasifikasi. Selain itu, Tresp dan Taniguchi [376] mengusulkan fungsi bobot linier untuk model ini.
Berdasarkan model tersebut, Cheeseman [51] mengusulkan campuran Gaussian.
pengklasifikasi
memilih 1 keputusan dasar dari
obyek komputasi hasil hitung keputusan
nilai-nilai umum
diskriminan
hitung
nilai-nilai diskriminan
hitung
nilai-nilai diskriminan
Mari kita asumsikan bahwa setiap klasifikasi individu membuat keputusan berdasarkan nilai-nilai
diskriminan. Membiarkan F ( l) ( i, x) menunjukkan fungsi yang ditugaskan ke kelas saya untuk nilai tertentu x,
dan yang digunakan oleh l- kelas th Ψ ( l).
n n
∑ ∑
F l ( x) = w l F l, aku ( x) dan w l = 1. (3.24)
l=1 i=1
Mari kita pertimbangkan kemungkinan pemberian bobot [416]:
1. Bobot bergantung pada klasifikasi - ini adalah pendekatan tradisional di mana bobot dihubungkan
dengan kelas dan masing-masing diskriminan dari l - th
kelas diberi bobot dengan nilai yang sama w l. Estimasi kesalahan probabilitas dari klasifikasi
tersebut dapat ditemukan di [412].
2. Bobot bergantung pada klasifikasi dan vektor fitur - bobot w l( x) adalah sebagai-
masuk ke l- kelas th dan untuk diberikan x yang memiliki nilai yang sama
untuk setiap penjahat yang digunakan olehnya.
3. Bobot tergantung pada kelas dan nomor kelas - bobot w l, aku ditugaskan
ke l - kelas th dan saya- kelas th. Untuk kelas tertentu, bobot
ditugaskan untuk kelas yang berbeda bisa berbeda.
4. Bobot bergantung pada kelas, nomor kelas, dan vektor fitur - bobot
w l, aku ( x) ditugaskan ke l- kelas th, tapi untuk diberikan x nilainya bisa beragam untuk diskriminan
berbeda yang ditugaskan untuk setiap kelas.
Wozniak dan Zmyslony [419] berpendapat bahwa arah yang paling menjanjikan adalah bahwa
bobot bergantung pada nomor klasifikasi dan label kelas, karena kasus di mana bobot bergantung pada
vektor fitur adalah de facto masalah estimasi fungsi yang membutuhkan asumsi tambahan tentangnya
dan yang biasanya mengarah ke kasus estimasi fungsi parametrik. Kasus yang dipertimbangkan tidak
memerlukan asumsi tambahan dan perumusan tugas pengoptimalan cukup sederhana. Mereka
mengusulkan dua implementasi sederhana dari aturan kombinasi. Yang pertama dalam bentuk
perceptron satu lapis dapat dilatih sesuai dengan prosedur tipikal, dan model fuser yang patut dicontoh
digambarkan pada Gambar 3.12.
Pendekatan lain yang diajukan oleh penulis yang sama [413] menggunakan pendekatan evolusioner, dan
bobotnya dapat direpresentasikan sebagai berikut
W = [W 1, W 2, ..., W n] (3.25)
dimana
Ide prosedur pembelajaran menggunakan algoritma evolusi standar [13, 14], yang digambarkan
pada Gambar. 3.13
Untuk setiap anggota populasi, nilai fungsi kesesuaian Q (W)
dihitung menurut
dimana Ψ (W) menunjukkan klasifikasi gabungan menggunakan bobot yang diwakili oleh W
dan P. Sebuah singkatan dari frekuensi kesalahan yang dilakukan pada set pembelajaran.
F
pengklasifikasi # 1 1,1 w 1,1
F 1,2 w 1,2
F
.
1
.
F.1, n w 1, n
.
.
. keputusan saya
. .
. .
F M, 1 .
F M, 2 .
w M, 1
pengklasifikasi #n w M, 2
.
F M
.
F.M N w MN
MULAILAH
BERHENTI
Gambar 3.13 Ide algoritma optimasi bobot kelas berdasarkan pendekatan evolusioner
1. Sejumlah anggota tertentu yang dicirikan oleh kebugaran tertinggi diambil dari populasi. Elit
dimasukkan ke dalam populasi keturunan, tidak diperlakukan dengan mutasi, persilangan, maupun
prosedur seleksi.
2. Mutasi melibatkan penambahan vektor angka yang dibuat secara acak sesuai dengan
distribusi kerapatan normal (dengan mean sama dengan 0 dan deviasi standar disetel ke 1).
3. Operator crossover menghasilkan satu o anggota pegas berdasarkan dua orang tua menurut
aturan crossover dua titik.
4. Seleksi individu dari populasi dibentuk dengan menggabungkan populasi keturunan dan sekumpulan
individu yang diciptakan oleh mutasi dan persilangan. Probabilitas pemilihan individu tertentu
sebanding dengan nilai kesesuaiannya, menurut aturan pemilihan roda roulette.
5. Dihitung sejumlah gambar agar jumlah penduduk baru sama dengan jumlah penduduk sebelumnya,
termasuk elite yang sudah dipromosikan sebelumnya.
6. Tujuan utama dari prosedur penilaian overtraining adalah untuk menghentikan proses optimasi, jika
pembelajaran lebih lanjut dapat menyebabkan hilangnya kemampuan generalisasi. Juga satu set
validasi digunakan untuk menghitung kesesuaian individu dengan cara yang sama, seperti untuk
penilaian populasi biasa.
7. Prosedur menghentikan proses pengoptimalan, jika penurunan hasil yang diperoleh oleh individu
terbaik diamati selama sejumlah siklus pembelajaran berikutnya.
Jika kita mempertimbangkan masalah pengenalan dua kelas hanya untuk dua kasus terakhir di mana
bobot bergantung pada kelas dan nomor kelas, adalah mungkin untuk menghasilkan kelas majemuk yang
dapat mencapai kualitas yang lebih baik daripada
peramal satu. Namun, ketika kita mempertimbangkan lebih dari dua masalah pengenalan kelas, mungkin saja
semua kasus yang disebutkan di atas mendapatkan hasil yang lebih baik daripada peramal satu [419]. Pada
bagian selanjutnya, kami akan menunjukkan beberapa sifat analitik metode fusi berdasarkan diskriminan.
Metode yang disebutkan di atas dievaluasi berdasarkan eksperimen komputer, dan hasilnya dapat
ditemukan di [413, 410].
Semua percobaan dilakukan di lingkungan Matlab menggunakan Optimization Toolbox dan
PRTools [385]. Untuk setiap percobaan kami memutuskan untuk membentuk ansambel homogen, yaitu,
ansambel yang terdiri dari lima kelas Parzen yang lemah (kelas-kelas dilatih pada subset yang dipilih
secara acak dari TS). Kualitas kelas tunggal (SB) terbaik dalam ensembel juga disajikan pada Gambar
3.14. Metode kombinasi berikut telah diuji:
• peramal
Perlu disebutkan bahwa campuran para ahli, yang dikemukakan oleh Jacobs al. [165, 164], dibahas
et dalam [138], dan diperpanjang oleh Jordan et al. [174] siapa
metode ahli campuran hierarki yang diusulkan. Pada dasarnya, metode yang diusulkan berdasarkan
pada memecah dan menaklukkan prinsip dan campuran para ahli
50
40
30
20
10
0
peramal MV NN AE SB
30
29
28
27
26
25
24
23
22
21
20
peramal MV NN AE SB
45
40
35
30
peramal MV NN AE SB
Gambar 3.14 Kesalahan klasifikasi (%) aturan kombinasi yang dipilih untuk kumpulan data tolok ukur berikut: Sirkural
(atas), Haberman (tengah), dan Higleyman (bawah)
mengusulkan untuk memilih klasifikasi yang paling kompeten (ahli) untuk kelas tertentu dan untuk observasi
tertentu diawasi oleh yang disebut jaringan gerbang. Oleh karena itu, dapat dikenali sebagai pemilihan dinamis
dari klasifikasi. Juga, keputusan akhir dari sistem semacam itu dibuat atas dasar pengambilan sampel
kelompok klasifikasi sesuai dengan kompetensi mereka, keputusan klasifikasi yang paling kompeten, atau
rata-rata tertimbang, di mana bobot bergantung pada kompetensi klasifikasi individu untuk masalah yang
diberikan, yaitu , mereka bergantung x dan label kelas. Masalah paling penting terkait dengan model yang
dibahas adalah bagaimana melatihnya, dan metode pengoptimalan yang biasanya digunakan untuk
pembelajaran jaringan saraf diterapkan untuk menangani masalah ini sebagai penurunan gradien [96]. Selain
itu, ide penting lain yang disajikan dalam [373], penulis mengusulkan untuk menggunakan fungsi pendukung
untuk kerangka generalisasi bertumpuk yang disajikan di Alg. 34.
Kuncheva dkk. diusulkan Template Keputusan kerangka kerja untuk fusi kelas [211], yang
memperkirakan profil paling khas dari jawaban individu untuk setiap kelas. Keputusan tentang objek
tertentu x dibuat berdasarkan ukuran kesamaan, yang mengembalikan kelas yang paling mirip saya diwakili
oleh keputusan
template DT saya ke objek. Representasinya dalam bentuk DP (x) dapat diberikan dengan rumus berikut
DP (x) = • (3.28)
•
•
• . ... . •
. . •
. ... .
F M, 1 ( x) F M, 2 ( x) ... F M N( x)
Pseudocode dari Template Keputusan metode disajikan di Alg. 35. Ukuran kesamaan S memainkan
peran penting selama pengambilan keputusan. Kuncheva dkk. [211] membuat diskusi dan
perbandingan berdasarkan eksperimen komputer, dan beberapa ukuran telah diterapkan, seperti jarak
Euclidian kuadrat negatif atau logika fuzzy. Juga, Rogova [307] mengusulkan fuser Dempster-Shafer,
dan yang dapat dikenali sebagai sejenis Template Keputusan metode menggunakan jarak kesamaan
berdasarkan teori bukti Dempster-Shafer [423].
Pada bagian ini, kami akan menyajikan beberapa karakteristik aturan kombinasi berdasarkan fungsi
pendukung. Pertama, mari kita ambil masalah pengenalan dua kelas.
-
lem menjadi pertimbangan, dimana saya menunjukkan kelas yang benar dan saya menunjukkan yang salah. Sementara itu, kami
dikalikan dengan bobot yang bergantung pada klasifikasi serta vektor fitur x hanya dan mengambil nilai dalam [0,1].
Mari kita asumsikan bahwa semua klasifikasi individu membuat keputusan yang salah, maka tidak mungkin untuk
menghasilkan fuser yang mengklasifikasikan objek dengan benar, yaitu, tidak mungkin untuk mengungguli objek. peramal.
Algoritma 35. Metode Template Keputusan
Req L u S kemarahan: Π = {Ψ 1, Ψ 2, ..., Ψ n} - kumpulan kelas dasar
- set pembelajaran
6: DT k = DT k + [ k = j saya] DP (x saya)
7: berakhir untuk
8: berakhir untuk
12:
13: Untuk membuat keputusan tentang x gunakan aturan keputusan berikut Ψ (x) =
Teorema 3.1
n n
∑ ∑
w k F i, k ( x) < w k F i, k ( x). (3.30)
k=1 k=1
n ( )
∑
w k F i, k ( x) - F i, k ( x) < 0. (3.31)
k=1
Karena
∑n
∀ k ∈ { 1, ..., n} w k ≥ 0 dan w k> 0
k=1
Contoh 3.4. Mari kita pertimbangkan masalah pengenalan tiga kelas dan kita memiliki tiga klasifikasi individu
yang dapat kita gunakan. Mari kita asumsikan itu diberikan x termasuk dalam kelas 3. Dukungan untuk
setiap kelas dan kelas disajikan pada Tab.3.7.
tidak dapat mengklasifikasikan objek dengan benar. Mari kita pertimbangkan klasifikasi gabungan berdasarkan diskriminan
menggunakan rata-rata fungsi pendukung yang diberikan oleh masing-masing klasifikasi. Dalam kasus kami, dukungan yang
diberikan oleh kelas ini untuk setiap kelas terlihat sebagai berikut:
Meskipun, fuser yang didasarkan pada diskriminan dapat menghasilkan keputusan yang benar
meskipun semua klasifikasi individu salah, pendekatan ini tidak menjamin bahwa fuser berkinerja lebih baik. peramal
aturan kombinasi. Pengamatan ini sangat menarik karena model ini dikenal seperti yang disajikan
sebelumnya - campuran ahli,
dan beberapa karya [174] mengenalinya sebagai pendekatan yang sangat fleksibel dan efektif untuk menghasilkan fuser
terlatih.
Mari kita pertimbangkan lagi masalah pengenalan dua kelas yang serupa, dan dalam hal ini kita
menggunakan bobot yang bergantung pada kelas dan nomor kelas. Mari kita asumsikan bahwa semua klasifikasi
individu membuat keputusan yang salah. Maka dimungkinkan untuk menghasilkan fuser yang menunjuk ke kelas
yang benar, yaitu, kita dapat menghasilkan fuser yang mengungguli peramal.
Teorema 3.2
∃ W jika ∀ l ∈ { 1, ... n} Ψ l ( x) = i lalu Psi (x) = i yaitu F saya( x) <F saya( x). ( 3.32)
Bukti. Karena nilai kelas gabungan pada kelas yang benar itu berarti
n n
∑ ∑
w i, l F aku, l ( x)> w i, l Fi, l (x). (3.33)
l=1 l=1
Mari kita asumsikan bahwa bobot dan fungsi pendukung dinormalisasi yaitu,
karena itu
n n
∑ ∑
w aku, l ( 1 - F aku, l ( x))> w i, l F aku, l ( x) (3.35)
l=1 l=1
dan akhirnya
Dari bentuk terakhir dari pertidaksamaan, kita dapat melihat bahwa dimungkinkan untuk mendapatkan hasil
yang benar pada akhirnya meskipun semua klasifikasi salah, karena jumlah bobot yang ditetapkan ke kelas yang
menunjuk pada kelas yang benar lebih besar daripada yang ada pada fungsi pendukung untuk yang salah. Mari
kita perhatikan bahwa kesimpulan ini juga mencakup kasus ketika bobot bergantung pada klasifikasi, nomor kelas
dan nilai vektor fitur, karena ini adalah kasus khusus dari model yang disebutkan di atas.
Kita harus menggarisbawahi lagi bahwa teorema 3.2 hanya menunjukkan kemungkinan untuk mendapatkan
hasil seperti itu. Dalam kasus praktis, biasanya tidak mungkin untuk menetapkan bobot secara analitis, jadi kami ingin
menerapkan metode numerik yang efektif untuk memecahkan masalah ini, yaitu, algoritma pelatihan aturan
kombinasi.
Menurut teori keputusan Bayes, setiap kelas memiliki kesalahan yang tidak lebih kecil dari
kesalahan kelas optimal [80]. Mari kita coba memperkirakan kesalahan yang dibuat oleh kelas (3.23),
yaitu dalam kaitannya dengan kelas optimal. Karena tujuan ini, mari kita rumuskan teorema yang
memperkirakan
batas atas kesalahan yang dibuat oleh klasifikasi Ψ l. Kelas ini membuat keputusan atas dasar belakang penaksir
probabilitas P. l ( i | x) ( probabilitas posterior adalah kasus khusus dari fungsi pendukung, yaitu, F aku, l ( x) =
P. l ( i | x)).
Mari kita asumsikan juga bahwa penduga ini diturunkan dengan akurasi ε l( x), yaitu
∀ x ∈ X ∧ ∀ k ∈M | P. l ( k | x) - P (i | x) | ≤ ε l ( x) (3.37)
Teorema 3.3 ∫
P. e ( Ψ l) - P. e ( Ψ ∗) ≤ 2 ε l ( x) f (x) dx, (3.38)
Bukti. Mari kita pertimbangkan kasus yang lebih buruk di mana kelas membuat keputusan berbeda dari kelas
optimal
∀x∈X P. l ( j | x) = maks
k ∈M P. l ( k | (3.40)
x)
∧ P (i | x) = maks
k ∈M P (l | x) ∧ j = i
Kemudian dianggap klasifikasi, untuk nilai yang diberikan dari vektor fitur x,
membuat kesalahan P. e ( Ψ l ( x)) = 1 - P. l ( j | x), jika kelas yang dipertimbangkan membuat keputusan
berbeda dari kelas Bayes, yaitu, penaksir belakang
probabilitas yang digunakan oleh kelas yang dianggap lebih tinggi untuk kelas selain
kelas optimal. Membiarkan j menunjukkan nomor kelas yang ditunjukkan oleh algoritma Ψ l. Atas dasar asumsi
yang kami buat
P (j | x) - ε l ( x) ≤ P. l ( j | x) ≤ P (j | x) + ε l ( x), (3.41)
karena itu
Di sisi lain, untuk nilai yang sama x, algoritma Bayes menunjuk pada kelas saya dan ketimpangan
berikut terjadi
P (i | x) - ε l ( x) ≤ P. l ( i | x) ≤ P (i | x) + ε l ( x), (3.43)
Menyamakan pertidaksamaan (3.42) dan (3.44), kami memperoleh estimasi batas atas dari kesalahan
klasifikasi dalam kaitannya dengan klasifikasi Bayes.
P. e ( Ψ l ( x)) - P. e ( Ψ ∗ ( x)) ≤ 2 ε l ( x) + P. l ( i | x) - P. l ( j |
x). (3.45)
Mari kita perhatikan juga itu sejak class Ψ l membuat keputusan j, kemudian
Pl (i | x) - P. l ( j | x) < 0, (3.46)
karena itu
∫∑
P. e ( Ψ) - P. e ( Ψ ∗) ≤ M w l ε l ( x) f (x) dx. (3,49)
2
Xl=1
Bukti. Sejak masing-masing l kelas untuk membuat keputusan menggunakan belakang penaksir probabilitas
dengan akurasi ε l( x), lalu kelas umum, yang menggunakan
es tertimbang ∑ timator diturunkan menurut rumus (3.24), akan diturunkan
n
∫∑ n
w l ε l ( x) f (x) dx.
Xl=1
Sebagai hasil dari pertimbangan di atas, kami memperoleh estimasi batas atas dari kesalahan
yang dibuat oleh kelas terbobot umum, dan estimasi batas bawahnya ditentukan oleh kesalahan dari
klasifikasi Bayes yang optimal. Perhatikan bahwa estimasi batas atas tidak akan lebih tinggi dari
estimasi kelas terburuk dari grup dan akan lebih baik daripada estimasi kelas terbaik grup, karena
∑
min w k ε k ( x) ≤ m (3,50)
l ∈ { 1, ... n} ε l ( x) ≤ n l ∈ 1{,k.a..pna} kε
k=
1 l( x).
Kesimpulan di atas hanya mengacu pada estimasi batas atas dari kesalahan, tetapi mereka tidak memberi
tahu kita apa pun tentang kualitas klasifikasi dalam kaitannya dengan klasifikasi sederhana. Hambatan di
sini sebagian besar mengakibatkan tidak menyadari fungsi estimasi kesalahan, ε (x) untuk setiap belakang penaksir
probabilitas. Mari kita catat bahwa adalah mungkin untuk mendapatkan klasifikasi, dimana estimasi batas
atas dari kesalahan akan lebih kecil daripada setiap klasifikasi sederhana. Karena tujuan ini, bobot yang
menentukan kekuatan, yang mana setiap kelas mengambil bagian dalam keputusan bersama, tidak boleh
konstan, tetapi bobot ini harus menjadi fungsi dari argumen. x. Namun, seperti disebutkan sebelumnya,
fungsinya
ε (x) tidak diketahui untuk klasifikasi yang diinginkan, jadi pemilihan fungsi bobot,
w l( x) untuk setiap kelas, harus dibuat secara independen untuk setiap tugas pengambilan keputusan. Pada dasarnya
fungsi tersebut memiliki karakter heuristik dan tentunya harus demikian
diturunkan oleh para ahli yang terampil dan mereka yang mendasarkan pada pengalaman dan intuisi mereka.
Selain itu, kualitas fungsi tersebut harus diverifikasi oleh komputer
3.5 Pembelajaran Kelas Hibrid untuk Kasus Parametrik 1
3
percobaan. Perhatikan juga bahwa bentuk koefisien bobot yang diusulkan disarankan untuk
dipertimbangkan, untuk nilai yang diberikan x, klasifikasi terbaik (paling akurat) dapat ditemukan dalam
literatur di bawah pemilihan klasifikasi nama [214, 408].
Sebagaimana disebutkan pada bab pertama, aturan probabilistik yang diberikan oleh pakar adalah
de facto kumpulan kendala yang harus dipenuhi oleh distribusi probabilitas yang sesuai. Mari kita coba
untuk mendefinisikan klasifikasi optimal untuk batasan yang dirumuskan ini, dan ini dapat dianggap
sebagai algoritma - yang rata-rata kemungkinan membuat keputusan yang salah untuk himpunan
distribusi probabilitas yang
memenuhi res R tr S konflik dalam aturan sangat minim.
Ayo Φ ( ) menunjukkan himpunan semua distribusi yang memenuhi batasan
diberikan oleh aturan yang ditetapkan RS dan F ( X, J) menunjukkan distribusi probabilitas
( X, J). Dalam pengertian ini, algoritma yang optimal Ψ ∗
RS terlihat sebagai berikut
∑ ∑
P. e( ΨR∗S) = min P. e( Ψ RS) (3.51)
Ψ RS
F ( X, J) Φ (R∈S) F ( X, J) ∈ Φ (RS)
dimana P. e( Ψ RS) menunjukkan kemungkinan kesalahan klasifikasi dari algoritme Ψ RS. Tidak mudah untuk merumuskan
algoritma untuk bentuk aturan umum, dan kami akan melakukannya
menunjukkan bagaimana meningkatkan kualitas klasifikasi berdasarkan estimasi parametrik belakang probabilitas
dengan mempertimbangkan batasan yang terkandung dalam aturan ahli. Salah satu metode terpenting
untuk estimasi probabilitas adalah estimasi parametrik yang disebutkan dalam detik. 1.4.1. Kami akan
memberikan contoh sederhana untuk mengilustrasikan pendekatan yang ditetapkan pembelajaran untuk
memperkirakan parameter yang tidak diketahui dari distribusi probabilitas dan secara bersamaan
mempertimbangkan batasan yang diberikan oleh aturan ahli. Sementara itu, masalah estimasi pertama kali
dirumuskan dalam
[157] untuk interpretasi aturan probabilistik
({1.30}) dan (1.31), dan kami akan mempertimbangkan tugas klasifikasi dua kelas ( M =
1, 2) dan satu atribut kontinu x ∈. Mari kita asumsikan juga bahwa file sebelumnya
probabilitas p 1 dan p 2. Selain itu, fungsi kerapatan bersyarat adalah normal dengan varian sama dengan
1 dan nilai mean yang tidak diketahui m 1 dan m 2
f 1 ( x) √1 exp 2 1, f 2 ( x) √1 exp - ( x - m) 2 2
(3.52)
= 2π - ( x - m)
= 2π 2
2
Mari kita pertimbangkan batasan yang diberikan oleh aturan berikut sesuai dengan aturan tipe III
(1.31)
JIKA X = x 1 LALU J = 1
DENGAN kemungkinan p saya( x 1) lebih besar dari β dan kurang dari β,
saya
saya
√ p 1 exp - ( x-m
2
1)
β
2
β1 (3.53)
1
√p exp - 2 √ p 2 exp - ( x-m
( x - m 1) 2+ 2
2)
π 1
2π 2 2π 2
β ( 1 - p 1) β
2 ln 1 p ( x - m) 2 -2( x - m) 1 2 ln 1 ( 1 - p 1) (3.54)
2
1( 1 - β) p 1 ( 1 - β 1)
1
2
2
0
m
−2
−4
−6
−6 −4 −2 0 2 4 6
m
1
Gambar 3.15 Interpretasi grafis dari batasan yang diberikan oleh aturan (3.54)
Perhatikan bahwa batasan ini membuat area terbatas yang sesuai dengan hiperbola dengan
persamaan
( x - m 2) 2 - ( x - m) 2 + k = 0 1 (3.55)
dimana k Bilangan positif jika limit yang diberikan pakar lebih kecil dari sebelumnya probabilitas,
sedangkan angka negatif sebaliknya. Ketika batas sama dengan sebelumnya probabilitas kelas maka
batasan ini mengambil bentuk
( m 1 - m 2) ( m 1 + m 2 + 2 x) = 0 (3.56)
Untuk kasus lain, pembatasan dalam aturan persamaan pada solusi hiperbola yang benar ditetapkan
dengan (3.56). Mari kita bahas, berdasarkan contoh numerik, bagaimana menggunakan batasan yang
diberikan oleh aturan dalam praktiknya.
Contoh 3.5. Mari kita asumsikan bahwa kita mengetahui sebelumnya probabilitas kelas p 1 = 2
dan p
3
2=1
3, dan fungsi kepadatan probabilitas bersyarat adalah normal
dengan varian yang sama sama dengan 1 dan disajikan dalam (3.52). Juga, tidak diketahui
parameter adalah nilai rata-rata m 1 dan m 2 dari distribusi. Nilai sebenarnya adalah m 1= 0, m 2= 1.
JIKA X = 0 LALU J = 1 DENGAN probabilitas lebih besar dari 0,75 dan kurang dari 0,80,
Kami memiliki satu set pelatihan yang terdiri dari 15 elemen dan disajikan di Tab. 3.8. Elemen
dihasilkan menurut distribusi (3.52), dan proporsi elemen dari dua kelas sesuai dengan sebelumnya probabilitas.
Mari kita bahas beberapa kemungkinan kasus. Pertama, kami akan memperkirakan tidak diketahui
parameter m 1 dan m 2 tetapi tidak mempertimbangkan batasan yang diberikan oleh aturan, maka kita akan
membahas bagaimana memasukkan batasan dalam solusi.
Untuk menentukan parameter yang tidak diketahui, kami menggunakan Metode Kemungkinan Maksimum ( MLM)
[37]disebutkan dalam bagian 1.4.1. Mari kita selesaikan tugas pertama dengan mengabaikan batasan yang
ditentukan dalam aturan. Tugas memperkirakan
parameter yang tidak diketahui m 1 dan m 2 independen dan dapat diuraikan menjadi dua masalah
terpisah. Fungsi kemungkinan maksimum untuk file
karakteristik kepadatan x di kelas 1.
10 √
∏ 1 - ( x - m) 2
f (LS 1; m 1) = exp ( saya1) (3.57)
2π 2
i=1
∏
15 √
- ( x - smaya) 2 2)
f (LS 2; m 2) = 1 exp ( (3.58)
2π 2
i = 11
Menggunakan data dari set pembelajaran yang disajikan di Tab. 3.8, kami mengerti
f (LS 2; m 2) = - 5 m 2
2+ 4.33660 m 1 - 3.71080
(3.60)
Mereka mengarah ke solusi berikut (dilambangkan dengan solusi MLM)
m 1 = 0,46433, m 2 = 0.43366.
Nilai-nilai yang dihasilkan secara signifikan berbeda dari nilai-nilai distribusi yang darinya objek
pembelajaran dihasilkan. Tentunya hal tersebut tidak mengherankan bagi kami, karena perangkat
pembelajarannya sangat kecil.
p 1 f 1 ( 0)
0,75 ≤ ≤ 0.80 (3.61)
p 1 f 1 ( 0) + p 2 f 2 (
0)
9
ln () ≤ m 2 - m 21≤ ln (4)2 (3.62)
4
yang berarti bahwa solusi tersebut harus memenuhi batasan berikut
√ √
- ln (4) + m 2 1 ≤ m 2 ≤ ln (4) + m 2 1
(3.63)
dan √ √
9 9
- ln () + m 2 1 ≤ m 2 ≤ ln () + m 2 1
(3.64)
4 4
dan m 2 diformulasikan secara independen, dan oleh karena itu kami tidak dapat menilai pasangan parameter
secara bersamaan. Di sini, Kami mengusulkan dua pendekatan:
1. Mengestimasi nilai satu parameter (menggunakan MLM), kemudian mencari estimator terbaik dari
parameter yang tersisa yang menjamin pasangan parameter tersebut memenuhi batasan
aturan.
2. Merumuskan kriteria kualitas umum, seperti kombinasi linier dari kriteria pengoptimalan (misalnya,
fungsi kemungkinan) dan menyelesaikan masalah pengoptimalan nonlinier dengan kendala
ketidaksetaraan. Pendekatan ini disebut metode pembobotan [94, 252].
3
1
2
0
m
−1
−2
−3
−3 −2 −1 0 1 2 3
m
1
Penentuan nilai optimal suatu parameter, maka nilai parameter terbaik kedua
Mari kita sajikan solusi untuk kasus pertama. Menurut (3.59), penduga dari m 1 = 0,46433. Menggunakan
kendala (3.62), kami dapatkan
9
ln ( ≤ m 2
- 2 1 6. 5 ≤ ln ( 4) (3.65)
4 2
√ √
m 2 ∈ [−√ 1.1707, −√ 1,0265] ∪ [ 1,0265, 1,1707] (3.66)
Pada interval pertama fungsinya meningkat secara monoton, sedangkan untuk interval kedua
menurun secara monoton. Oleh karena itu, cukup memeriksa nilai parameter di akhir interval pertama
dan di awal interval kedua. Mereka masing-masing
f (LS 2; −√
√ 1,0265) = - 4.44926
f (LS 2; 1,0265) = - 13,23699
Jadi, solusi (dilambangkan sebagai MLM-m1-R1) dari soal, seperti yang dirumuskan di atas, adalah
pasangan berikut
m 1 = 0.46433 m 2 = 1.01316
Mari pertimbangkan kemungkinan lain. Mari kita perbaiki m 2= 0.43366 dan tentukan
nilai dari m 1( 3.62).
0
−5
−10
−15
−20
−25
−30
−35
−40
0,5 1
m 2
0,5
0
0 m 1
−0,5
−0,5
−1 −1
9
ln ( ≤ 0.18806 - m 2 ≤ l 4) n ( (3,67)
4 1
- 0,62284 ≤ m 2 ≤ - 1. 1982
1 (3.68)
Tidaklah mungkin untuk menentukan parameter yang diberikan oleh pasangan m 1 dan
m 2 untuk kasus ini, dan alasannya dapat ditemukan serta pada Gambar. 3.16 ( m 2 = 0,43366 tidak memotong
area mana pun yang ditentukan oleh aturan yang diberikan).
Mari kita usulkan kriteria sebagai jumlah dari kriteria (3.59) dan (3.60)
- 10 m 2
1 -5m2 2+ 9.2866 m 1 + 4.3366 m 2 - 12.8554 (3,69)
yang digambarkan pada Gambar 3.17. Oleh karena itu, kami dapat merumuskan kriteria menggunakan bobot yang
berbeda yang ditetapkan ke (3.59) dan (3.59), tetapi dalam kasus ini kami tidak memiliki premis tambahan untuk
menetapkan nilai yang sesuai, atau pengetahuan ahli tambahan. Bobot yang digunakan untuk membentuk kriteria
dapat dianggap sebagai jenis kepentingan kriteria tunggal, yaitu nilai dapat menyatakan parameter mana yang
digunakan.
lebih penting bagi kami. Menentukan nilai parameter yang optimal m 1 dan
m 2 turun untuk memecahkan masalah optimasi nonlinier dengan kendala ketidaksetaraan [265]. Selain
itu, fungsi (3.69) adalah fungsi tujuan dengan aktif
kendala
m2 (3.70)
2 -m2 1 ≤ ln (4)
9
m2 (3.71)
1 -m2 2 ≤ ln ()
4
Masalah tersebut dapat diselesaikan dengan menggunakan metode Karush-Kuhn-Tucker, dan kami
menyelesaikan tugas tersebut menggunakan metode numerik bawaan lingkungan Matlab dan paket
Optimization Toolbox [Zal2000]. Sebagai hasil dari prosedur numerik, kami menerima solusi berikut
(dilambangkan sebagai CC-R1)
m 1 = 0,3637, m 2 = 0,9712
Kemudian mari kita asumsikan bahwa pakar merumuskan aturan tambahan, yang terlihat sebagai berikut
JIKA X = 1 LALU J = 2 DENGAN probabilitas lebih besar dari 0,45 dan kurang dari 0,50.
apa artinya
() ()
18 ≤ ( 1 - m) 2 - ( 1 - m 2 ≤ ln 1
2 ln 1 2) (3.72)
11 - 4
Mari batasi pertimbangan kita pada kasus kriteria umum. Jika kita menggunakan kriteria umum
(3.69) dan kendala yang disebutkan di atas (3.72), maka kita mendapatkan solusi berikut (dilambangkan
sebagai CC-R2)
m 1 = - 0,0335, m 2 = 0.7116
Namun, jika kami mempertimbangkan kedua kriteria tersebut, kami mendapatkan solusi berikut (dilambangkan
sebagai CC-R1R2)
m 1 = - 0,0026, m 2 = 0,9005
Area keputusan aturan dan solusi yang dijelaskan digambarkan pada Gambar.
3.18 dan disajikan di Tab. 3.9, di mana jarak Euclidian tambahan antara solusi dan nilai parameter
nyata ditampilkan.
Perhatikan bahwa penduga parameter diperoleh Metode Kemungkinan Maksimum tanpa
memperhatikan batasan aturan, serta pendekatan yang dilambangkan sebagai MLM-m1-R1, yang
memperhitungkan batasan ini, jauh dari nilai parameter sebenarnya, karena ukuran sampel yang kecil.
Namun, bahkan untuk sampel sekecil itu yang menggunakan kriteria umum dan dengan
mempertimbangkan batasan yang terdapat dalam aturan, penduga yang diperoleh, cukup dekat dengan
nilai sebenarnya. Selain itu, mempertimbangkan batasan yang terdapat dalam kedua aturan tersebut
sangat meningkatkan solusi. Meskipun demikian, harus kita sadari bahwa perbaikan ini dimungkinkan,
karena kita memiliki batasan yang cukup tepat dan ahli yang merumuskannya tanpa kesalahan.
Namun, dalam masalah diagnostik yang sebenarnya, hal itu tidak selalu dijamin, dan alasannya telah
disebutkan di bagian selanjutnya. 2.2. Jika aturan diberikan oleh ahli manusia,
2
1.5
1
2
m
0,5
−0,5
−0,5 0 0,5 1
m
1
Gambar 3.18 Visualisasi batasan yang ditentukan oleh aturan ahli dan solusi yang diperoleh. Bintang simbol adalah
singkatan dari solusi MLM, segitiga untuk MLM-m1R1, persegi untuk CC-R1, titik CC-R2, dan x untuk CC-R1R2.
Tabel 3.9 Perbandingan berbagai pendekatan yang disajikan dalam Contoh 3.5
aturan (dengan yang lain atau dengan distribusi probabilitas nyata). Lebih lanjut, ruang lingkup contoh
tidak menarik kesimpulan umum tentang kegunaan metode, karena mereka harus dikonfirmasi oleh
studi analitis atau eksperimental yang terperinci. Selain itu, sejauh menyangkut perangkat pembelajaran
kecil, pendekatan semacam itu mampu membantu peserta didik untuk meningkatkan modelnya.
4
Dalam bab ini, kami fokus pada metode yang dipilih dari hibridisasi kelas. Pertama, kami menyajikan
kasus khusus dari pendekatan pemilihan kelas statis yang mengarah ke kelas gabungan berdasarkan
partisi ruang fitur dan menetapkan kelas yang dipilih ke setiap partisi. Sementara itu, kami membahas
bagaimana melatihnya dan kemudian secara singkat membahas kualitasnya. Setelah itu, kita
berkonsentrasi pada kasus tugas klasifikasi biner yang disebut klasifikasi satu kelas, yang mampu
melatih klasifikasi tanpa adanya contoh yang berlawanan, dan kita membuang masalah dengan
mempertimbangkan cara menghasilkan klasifikasi gabungan untuk klasifikasi kelas jamak dan satu kelas.
tugas. Selanjutnya, topik penting yang dikhususkan untuk sistem klasifikasi untuk data yang tidak
seimbang disebutkan. Juga, kami segera menyebutkan topik terakhir yang terkait dengan klasifikasi aliran
data yang saat ini tampaknya menjadi tugas klasifikasi yang penting. Akhirnya, Kami memperkenalkan
masalah tentang bagaimana menggunakan metode yang disajikan pada bab sebelumnya, ke tugas
klasifikasi di mana karakteristik probabilitas data berubah selama eksploitasi kelas. Fenomena ini, yang
disebut penyimpangan konsep, biasanya berdampak negatif pada kualitas klasifikasi.
Pada topik pertama, kami menyajikan klasifikasi gabungan berdasarkan partisi ruang fitur, dan untuk
setiap partisi, satu klasifikasi ditugaskan untuk membuat keputusan di seluruh sistem klasifikasi.
Pendekatan semacam itu agak intuitif dan dapat dipahami dari sudut pandang praktis. Mari kita berikan
contoh untuk domain medis. Jika kita sakit maka kita biasanya meminta pertolongan dokter keluarga.
Jika dia kompeten dalam domain yang terkait dengan gangguan kita (kompeten di wilayah tertentu dari
ruang fitur yang sesuai dengan gejala kita), maka dokter dapat membuat keputusan tentang gangguan
kita dan mengambil tindakan terapeutik. Jika tidak, tidak ada tindakan positif lebih lanjut yang dapat
dilakukan secara efektif jika dokter keluarga tidak kompeten, yaitu area kompetensi gejala kita di mana
kompetensinya lemah, kemudian dokter merujuk kita
10
5 area 1
0
x2
area 2
−5
−10
0 2 4 6
x1 8 10 12
10
5 area 1
0
x2
area 2
−5
−10
0 2 4 6
x1 8 10 12
10
5 area 1
0
x2
area 2
−5
−10
0 2 4 6
x1 8 10 12
Gambar 4.1 Contoh ilustrasi dari dua klasifikasi biner yang memiliki kompetensi lokal untuk partisi ruang fitur yang
berbeda
4.1.1 Model Klasifikasi
Model klasifikasi mengasumsikan bahwa feature space X dibagi menjadi satu set H konstituen [217],
yaitu,
H X̂ h, ∀ k, l ∈ { 1, ..., H}, k = l, X̂ k ∩ X l
⋃
ˆ=∅
X= (4.1)
h=1
dimana X̂ h menunjukkan h- konstituen (cluster). Aturan keputusan dari klasifikasi gabungan tersebut Ψ terlihat
sebagai berikut
dimana Ψ̄ h adalah kelas yang ditugaskan ke h- cluster th (disebut klasifikasi area). Tidak ada batasan
untuk jenis klasifikasi, dan ini bisa sederhana
klasifikasi, klasifikasi majemuk, atau klasifikasi gabungan juga. Metode klasifikasi seperti itu konsisten
dengan pendekatan pemilihan klasifikasi statis yang mencoba meningkatkan kekuatan lokal dari
masing-masing klasifikasi, dijelaskan secara singkat pada bab sebelumnya. Sedangkan jumlah cluster
yang harus diperhatikan H,
yang merupakan parameter yang dipilih secara sewenang-wenang, memainkan peran penting untuk
akurasi klasifikasi gabungan. Di satu sisi, jumlah cluster yang lebih besar memungkinkan eksplorasi yang
lebih luas dari kompetensi lokal dari klasifikasi area. Di sisi lain, hal itu bisa membuat kelas menghadapi
masalah overftting.
Mari kita bahas proposisi tentang bagaimana melatih kelas yang disebutkan di atas. Pertama, mari kita
segera mengkarakterisasi Pengelompokan dan Seleksi metode, dan itu adalah salah satu proposisi diketahui
pertama yang dikhususkan untuk topik ini.
Kuncheva mengusulkan metode pelatihan satu tahap sederhana, yang disebut Pengelompokan dan Seleksi ( Algoritma
CS) [209], yang mempartisi ruang fitur dengan menggunakan metode pengelompokan dan kemudian
menetapkan klasifikasi yang paling kompeten secara lokal dari sebuah kumpulan ke masing-masing kluster.
Selain itu, kumpulan dapat diberikan di muka atau dibuat berdasarkan pemberian LS. Pseudocode CS
dijelaskan di Alg. 36.
• Algoritme CS menggunakan metode pengelompokan untuk membagi ruang fitur berdasarkan objek dari
LS [ 166], tetapi tidak dianggap sebagai kriteria yang menilai apakah objek yang termasuk dalam cluster
yang dihasilkan dapat dengan mudah dipisahkan oleh suatu klasifikasi dari kumpulan klasifikasi individu
yang tersedia. Contohnya dapat ditunjukkan pada Gambar 4.2, yang mengilustrasikan karakteristik yang
disebutkan di atas [418]. Melalui penggunaan metode pengelompokan dengan kriteria tradisional, kluster
yang dihasilkan terdiri dari objek yang serupa, tetapi kami tidak dapat menjamin bahwa mereka dapat
dipisahkan dengan mudah,
Algoritma 36. Pseudocode Pengelompokan dan Pemilihan
Memerlukan: LS- set pembelajaran
t {rain method () - metode pembelajaran kelas atau kumpulan kelas terlatih Π = Ψ 1, Ψ 2, ..., Ψ n},
7: berakhir jika
10: kesalahan: = 1
11: indeks: = 0
12: untuk k: = 1 untuk n melakukan
16: indeks: = n
17: berakhir jika
19: Ψ̄ h: = Ψ indeks
20: Π H: = Π H + Ψ̄ h
• Partisi ruang fitur dan pemilihan klasifikasi dilakukan secara berurutan, jadi ada kekurangan umpan
balik di antara fase-fase CS. Pada dasarnya, adalah mungkin untuk menemukan klaster terbaik
untuk klaster yang telah ditetapkan sebelumnya, tetapi tidak mungkin untuk menyesuaikan bentuk
klaster dengan kompetensi klaster terpilih yang ditugaskan ke klaster. Jadi, tidak ada jaminan
bahwa model yang diperoleh dengan partisi yang diusulkan adalah yang paling efektif
satu.
• Batasan terakhir dari algoritma CS adalah bahwa hanya satu klasifikasi individu yang ditugaskan
ke setiap cluster, yang secara signifikan membatasi keuntungan dari kumpulan klasifikasi yang ada,
dari mana satu set komite dapat disusun setiap cluster, yang juga meningkatkan hasil yang dicapai.
Gambar 4.2 Contoh ilustrasi dari Pengelompokan dan Seleksi algoritma (di sebelah kiri) untuk masalah mainan
(tugas klasifikasi dua kelas) dengan dua klasifikasi individu. Daerah abu-abu dan putih menggambarkan cluster
yang diperoleh berdasarkan metode pengelompokan dengan kriteria kesamaan tradisional. Kotak hitam sesuai
dengan pusat massa sedangkan garis solid menunjukkan batas keputusan dari klasifikasi yang diberikan. Gambar
kiri menyajikan kelompok yang berbeda yang dapat lebih baik mengeksploitasi kompetensi masing-masing klasifikasi.
Untuk menyederhanakan penyajian algoritme ini, kami hanya menangani fitur berkelanjutan.
Namun, metode yang disajikan dapat dengan mudah disesuaikan dengan masalah di mana atribut
diskrit digunakan juga.
Representasi Klasifir
Kromosom Ch (s) mewakili s- Model kelas majemuk yang terdiri dari dua komponen. Komponen pertama
mencakup satu set sentroid C ( s)
dan mewakili partisi ruang fitur ke dalam H cluster, dan yang kedua
komponen W (s) termasuk definisi dari klasifikasi gabungan untuk masing-masing cluster.
dimana
Beberapa modifikasi AdaSS yang diusulkan, misalnya, Wozniak dan Krawczyk [418] menggunakan
agregasi tertimbang dari fungsi pendukung kelas individu di mana bobot tergantung pada kelas dan
nomor kelas (3.25),
yaitu,
• •
h)). . . w 1, n ( SH)
••w s, h) w s,
W (s, h) = •
1w,1 ( 1,2 ( SH)) . . .. w 2, n• ( SH) • . (4.6)
. .
s, h. . ) w .
• 2,1 ( 2,2 (
. .
•
. . •,
w M, 1 ( s, h) w M, 2 ( SH)) . . . w M N( SH)
Membiarkan anggota (C (s), x) menunjukkan fungsi yang mengembalikan indeks cluster yang diberikan x
milik
H
anggota (C (s), x) = argmin dist (x, C (s, h)), (4.7)
h=1
dimana dist menunjukkan metrik jarak sebagai jarak Euclidean. Dalam kasus seri, yaitu kapan x adalah
jarak yang sama dari lebih dari satu sentroid, nomor kelas terendah dikembalikan. Menurut definisi (4.7)
kita dapat merumuskan kembali (4.1) sebagai berikut:
Ψ (x) = Ψ̄ anggota (C (s), x n) ( x n). (4.8)
Prosedur pelatihan kelas membutuhkan satu set pembelajaran LS yang mana termasuk
N contoh berlabel (1.11). Mari kita pisahkan secara acak LS menjadi dua subset: set pelatihan TS yang
digunakan selama pelatihan, sedangkan subset kedua VS,
disebut set validasi, digunakan untuk melindungi model pelatihan dari overfitting [9]
| TS | = K dan | VS | = N - K. (4.9)
Kriteria
Kriteria pengoptimalan akan mengevaluasi s- kualitas kelas gabungan yang diwakili oleh kromosom Ch
(s)
1∑K[ ]
Q (Ch (s), TS) ( Ψ anggota (C (s, h), x k) ( x k) = j k), (4.10)
K
=
k=1
Algoritma
Untuk membangun hubungan multilateral antara bentuk dan posisi bidang kompetensi dan bobot kelas,
prosedur pelatihan diimplementasikan sebagai salah satu tugas optimasi gabungan. Ini bertujuan untuk
meminimalkan tingkat kesalahan klasifikasi dari sistem yang dievaluasi selama set pelatihan, yang
memungkinkan untuk memilih bobot yang mencerminkan kepentingan kelas dalam ansambel dan secara
bersamaan menyesuaikan posisi dan bentuk area yang beradaptasi dengan kompetensi kelas area.
Seperti disebutkan sebelumnya, pendekatan evolusioner digunakan untuk menemukan solusi terbaik,
tetapi masalah tersebut juga dapat diselesaikan oleh pemecah pengoptimalan lainnya.
Setiap prosedur yang digunakan oleh algoritma pelatihan yang dilakukan pada kromosom (4.3) harus
memperhitungkan fakta bahwa masing-masing bagiannya memiliki sifat yang cukup berbeda. Oleh karena
itu, kami menegakkan aturan bahwa informasi tidak akan dipertukarkan antar bagian kromosom yang
diproses oleh operator pseudogenetik. Gambaran umum dari algoritma disajikan sebagai pseudocode di
Alg. 37.
Parameter kontrol tambahan yang tidak terdaftar di Alg. 37 diuraikan sebagai berikut:
- set validasi,
S - ukuran populasi
H - jumlah cluster
T - jumlah iterasi
V - batas atas iterasi algoritma dengan kualitas yang menurun
Π = {Ψ 1, Ψ 2, ..., Ψ n} - kumpulan klasifikasi individu
Memastikan: Ψ
1: Inisialisasi Populasi;
2: V. c: = 0
3: Q t: = 0
4: untuk t = 1 untuk T melakukan
5: Q t - 1: = Q t
6: Evaluasi Populasi selama TS
7: s ∗: = argmax.dll Q (Ch (s), TS)
s ∈ { 1, ..., S}
8: Q t: = Q (c (s ∗), VS)
9: jika Q t < Q t - 1 kemudian
10: V. c: = V. c + 1
11: jika V. c= V. kemudian
12: istirahat
14: lain
15: V. c: = 0
16: berakhir jika
17: Mutasi;
18: Crossover;
19: Seleksi dan Reproduksi;
20: berakhir untuk
• Inisialisasi
Inisialisasi melibatkan pengaturan parameter untuk algoritme dan secara acak membuat kromosom
generasi pertama. Setiap kromosom dalam satu generasi dievaluasi menurut nilai fungsi
kesesuaiannya (4.10) untuk menentukan kromosom elit. s ∗. AdaSS dimulai dengan menghasilkan
populasi individu. Besar kecilnya populasi merupakan parameter masukan dan pada dasarnya
dipilih secara sewenang-wenang. Secara umum, ukuran populasi yang lebih besar mampu
membuat pengoptimalan yang lebih komprehensif, tetapi upaya komputasi yang lebih tinggi yang
diperlukan untuk pemrosesan relatif tidak dapat dihindari. Oleh karena itu, ukuran populasi harus
dipilih sebagai perdagangan yang wajar. Selain itu, individu dalam populasi diisi dengan nomor
yang dipilih secara acak sehubungan dengan kendala berikut:
n
∑
w i, k ( s, h) = 1 ∀ h ∈ { 1,. . . , H} dan ∀ saya ∈M (4.11)
k=1
2. Semua sentroid C (s, h) harus jatuh ke dalam ruang yang dibatasi oleh batas-
ruang fitur khusus untuk masalah pengenalan yang diberikan di tangan.
N
c ( l) ( SH) ∈ < min x ( l), m N kapak x ( l)> , ∀ h ∈ { 1,. . . , H} dan ∀ l ∈ { 1,. . .
, d} k
k=1k k=1 (4.12)
yaitu, kromosom dengan skor tertinggi Ch (s ∗) dari generasi saat ini ditempatkan ke dalam populasi
keturunan, tanpa membiarkan perubahan apa pun pada strukturnya, seperti persilangan, atau
mengalami mutasi, di mana
• Mutasi
Operator mutasi mengubah anggota yang sedang diproses dengan menambahkan beberapa
perubahan acak ke kromosomnya. Setiap komponen kromosom diproses secara terpisah dan
dapat diubah dengan probabilitas tertentu yaitu perubahan bersamaan dengan kemajuan optimasi
sesuai dengan:
t
P. c ( t) = p mut T
(4.14)
P. w ( t) = p mut - P. c ( t),
Tujuan utama dari prosedur ini adalah untuk melindungi class dari overftting. Prosedurnya
menggunakan VS untuk menghitung kesesuaian kromosom elit, Q (Ch (s), VS), dengan cara yang
sama seperti untuk penilaian populasi biasa (4.10). Prosedur menghentikan proses pengoptimalan
jika kerusakan hasil yang diperoleh oleh kromosom dengan skor tertinggi diamati selama proses V. siklus
belajar selanjutnya. Selanjutnya, garis dari 7 sampai 15 di Alg. 37 bertanggung jawab untuk
melindungi
terlalu pas.
• Pengolahan pasca
Dalam versi asli AdaSS, langkah postprocessing bertanggung jawab untuk mengembalikan
kromosom terbaik yang telah dievaluasi Ch (s ∗) ( 4.13).
Jackowski dkk. [162] mengusulkan dua ekstensi penting dari AdaSS yang disebut AdaSS +. Seperti
yang telah disebutkan sebelumnya, jumlah bidang kompetensi H
memainkan peran penting dalam eksplorasi kompetensi lokal kelas. Dalam algoritme AdaSS asli, H dipilih
secara sewenang-wenang. Meskipun demikian, karena sulit untuk memilih angkanya dengan tepat,
penulis memutuskan untuk menerapkan perpanjangan prosedur pelatihan, yang menyesuaikan H secara
otomatis. Di awal prosedur pelatihan, nilai awal H disetel, yang mungkin ditingkatkan selama proses
pengoptimalan. Juga, modifikasi ini membutuhkan perubahan yang dalam pada operator pseudogenetik
[14]
• Mutasi. Dengan asumsi itu akan menyuntikkan beberapa keacakan ke dalam kromosom. Prosedur mutasi
dapat dibagi menjadi dua bagian yang diluncurkan secara berurutan:
dan C (s, h) dari konstituen yang ada yang dipilih secara acak. Meskipun demikian, prosedur tersebut tidak
diluncurkan secara otomatis, tetapi kemungkinannya meningkat seiring waktu dan berbanding lurus
dengan jumlah generasi T. Prosedur mutasi kedua adalah operator mutasi standar [14] yang digunakan
untuk mempengaruhi vektor bilangan real, yaitu menambahkan beberapa gangguan acak yang dihasilkan
sesuai
ke distribusi Gaussian.
• Prosedur crossover. Ini bertukar data antara dua orang tua untuk membentuk kromosom anak.
Karena kromosom dalam AdaSS + terdiri dari dua bagian (4.3), keduanya diperlakukan dengan
operator crossover dua titik standar [14], di mana titik potong dipilih secara acak. Meskipun
demikian, perlu diingat bahwa populasi dapat terdiri dari individu-individu dengan panjang bagian
kromosom yang berbeda, karena
mutasi operator kebetulan menyesuaikan nomor bidang kompetensi. Oleh karena itu, hanya
kromosom dengan panjang yang sama yang dapat diproses oleh persilangan. Untuk menjaga
batasan kedua, bagian bobot kromosom dinormalisasi.
Kebaruan penting kedua dari AdaSS + yang dimasukkan ke dalam algoritme asli adalah perluasan dari
fase pasca pemrosesan, yang juga bertanggung jawab atas penyetelan yang baik dari klasifikasi dasar
untuk memanfaatkan kompetensi lokal dari masing-masing klasifikasi. Oleh karena itu, kinerja sistem
dapat ditingkatkan dengan meningkatkan kompetensi lokalnya. Selain itu, prosesnya dapat dilakukan
dengan dua cara:
• Menyetel setiap ansambel area dengan melatih lebih lanjut kelas-kelas dasarnya
menggunakan contoh dari set pelatihan yang termasuk dalam area tertentu, Membangun kembali setiap
• ansambel area dengan melatih kelas dasar dari awal menggunakan contoh dari set pelatihan yang
termasuk dalam area tertentu.
Dalam kasus modifikasi yang diusulkan AdaSS +, yang menilai secara otomatis jumlah cluster, nilai
awal parameter H selalu sama dengan 3 dan jumlah iterasi tanpa perbaikan setelah itu daerah baru
dibuat sesuai dengan aturan prosedur mutasi.
Untuk metode tuning AdaSS + yang didasarkan pada perbaikan individu dari klasifikasi dasar
setelah jumlah dan bentuk cluster ditetapkan, kita perlu menjelaskan bagaimana perbaikan model
dilakukan. Jelas bahwa ini tergantung pada jenis klasifikasi dasar yang digunakan. Untuk SVM,
algoritma pembelajaran inkremental digunakan.
Untuk meringkas semua model yang diperiksa dalam percobaan dengan singkatan yang digunakan disajikan di
bawah ini:
Semua percobaan dilakukan di lingkungan R [367], dengan algoritma klasifikasi yang diambil dari
paket khusus, sehingga memastikan bahwa hasil mencapai efisiensi terbaik dan bahwa kinerja tidak
menurun dengan implementasi yang tidak kompeten. Semua tes dilakukan dengan uji-F berpasangan 5
x 2 yang divalidasi silang [8]. Selain itu, uji peringkat Friedman [79] dilakukan untuk perbandingan atas
beberapa kumpulan data benchmark.
Hasil percobaan disajikan di Tab. 4.1. Kesimpulan berikut dapat ditarik atas dasar eksperimen.
AdaSS + dalam sebagian besar kasus mengungguli bagging dan boosting. Pemilihan otomatis dari
• jumlah bidang kompetensi, menyesuaikan bentuk dan posisinya, bersama dengan model fusi kelas
berbobot memungkinkan pembuatan pemetaan yang sangat fleksibel yang mencerminkan
kompetensi kelas dasar.
Detail lebih lanjut tentang eksperimen pada AdaSS dan AdaSS + dapat ditemukan di [162].
Modifikasi menarik lainnya yang berfokus pada modifikasi Peka-biaya dari AdaSS diusulkan oleh
Jackowski et al. [161]. Dalam penetapan kelas, hal itu mempertimbangkan kualitas suatu klasifikasi
kawasan, tetapi di sisi lain biaya eksploitasinya dianggap sebagai biaya perolehan fitur yang digunakan
oleh klasifikasi kawasan tertentu. Ini mengarah ke representasi berikut
• •