Algoritma 26.: Memerlukan

Anda mungkin juga menyukai

Anda di halaman 1dari 65

2.

6 Privasi Data 1

Algoritma 26. Langkah kueri


Memerlukan: V. s - kumpulan node termasuk set pembelajaran terdistribusi, V. - jumlah node,
k - jumlah tetangga (parameter) dari k- Algoritma NN, observasi x
Memastikan: NN s - sekumpulan dari k contoh pembelajaran terdekat ke x
1: NN s ← set k contoh yang dibuat secara acak di node utama dan menunjukkan
mereka sebagai kumpulan objek terbaik 2: ulang

3: pilih node acak V. r dari V. s set 4:


z: = k
5: contoh di query = ∅
6: ulang
7: kirim objek no. z dari NN s untuk V. r
8: bandingkan dengan objek di node
9: jika ada contoh yang lebih dekat di V. r untuk x dari objek no. z dari NN s kemudian
10: tambahkan contoh ini ke contoh dalam kueri
11: lain
12: z: = 0
13: berakhir jika

14: z: = z - 1
15: sampai z = 0

16: NN s ← NN s ∪ contoh dalam kueri


17: NN s ← itu k terbaik (terdekat dengan x) contoh 18:
V. s: = V. s - V. r
19: sampai V. s = ∅
20: jika NN s) termasuk objek acak kemudian
21: ulangi prosedurnya
22: berakhir jika

antara partisi database terdistribusi dan jumlah tetangga yang diperlukan k, yang merupakan parameter
penting dari algoritme yang sedang dipertimbangkan. Oleh karena itu, kami memutuskan untuk melakukan
pengujian untuk nilai yang berbeda dari k
dan berbagai jumlah partisi V. Kami berasumsi bahwa setiap kumpulan data memiliki sejumlah objek
permanen dan mereka telah dibagi rata di antara kumpulan data tersebut
V. node.
Ide di balik pemilihan kumpulan data adalah untuk memeriksa perilaku metode yang diusulkan pada
kebanyakan tolok ukur yang beragam. Oleh karena itu, kami memilih set ukuran sampel berdimensi tinggi,
kecil, dua set yang sangat banyak dengan sejumlah kecil fitur, dan satu set tipikal, yang memungkinkan
kami untuk mencakup berbagai kemungkinan kehidupan nyata dan membuat pengujian kami lebih
berorientasi praktis. Lebih lanjut, semua set data dari UCI Machine Learning Repository dijelaskan di
Lampiran.

Semua percobaan dilakukan pada CPU Intel Core Duo T5800 2,0 GHz dengan memori RAM 3 GB
di lingkungan R. k- Algoritma NN diambil dari paket khusus, sehingga memastikan bahwa hasil mencapai
efisiensi terbaik dan kinerja tidak menurun oleh implementasi yang buruk.
Sebagai perbandingan, kami memilih metode berikut yang dijelaskan di bagian sebelumnya:

• Kueri normal (NQ)


• Kueri berperingkat (RQ)
• Kumpulan objek terbaik (SBO) Langkah
• kueri (SQ)

Angka dari 2.12 hingga 2.15 menunjukkan waktu pelaksanaan yang diusulkan k- Modifikasi NN
untuk setiap database.

50 V=2 120 V=2


45 V=4 110 V=4
V=6 V=6
40 V=8 100 V=8
35 90
30 80
25 70
waktu]

waktu]
20 60
15 50
10 40
5 30

0 20
1 2 4 5 7 1 2 4 5 6 7
3 6 3

jumlah tetangga [k] jumlah tetangga [k]

50 V=2 300 V=2


V=4 V=4
45 V=6
250 V=6
V=8
40 V=8

35 200

30
waktu]

150
waktu]

25

20 100

15
50
10

5 0
1 2 4 5 7 1 2 4 5 6 7
3 6 3

jumlah tetangga [k] jumlah tetangga [k]

Gambar 2.12 Kompleksitas waktu untuk dataset Arcene (searah jarum jam, mulai dari kiri atas: NQ, RQ, SBO, SQ)

Beberapa pengamatan menarik dapat dilakukan berdasarkan hasil eksperimen:

• Pengamatan yang paling penting adalah waktu klasifikasi maksimum secara keseluruhan. Tidak lebih dari
15 menit untuk kumpulan data yang sangat banyak (sekitar 50.000 objek) saat menggunakan metode paling
aman yang diperkenalkan dalam makalah ini. Pendekatan lain sangat jarang menyertakan waktu komputasi
mereka, tetapi dalam
semua kasus yang disajikan setidaknya beberapa kali lebih besar.
• Kami mengamati waktu komputasi berkurang sesuai dengan peningkatan jumlah node.
Pengurangan ini signifikan untuk sejumlah kecil node (antara 2 dan 4 node), tetapi peningkatan
jumlah node lebih lanjut tidak menghasilkan perolehan waktu komputasi yang signifikan.
120 V=2 280 V=2
V=4 260 V=4
100 V=6 V=6
V=8 240 V=8
220
80
200
180
60
waktu]

waktu]
160
140
40
120

20 100
80
0 60
1 2 4 5 7 1 2 4 5 6 7
3 6 3

jumlah tetangga [k] jumlah tetangga [k]

120 V=2 900 V=2


V=4 V=4
V=6 800
100 V=6
V=8
700 V=8

80 600

500
60
waktu]

waktu]
400

40 300

200
20
100

0 0
1 2 4 5 7 1 2 4 5 6 7
3 6 3

jumlah tetangga [k] jumlah tetangga [k]

Gambar 2.13 Kompleksitas waktu untuk dataset Dewasa (searah jarum jam, mulai dari kiri atas: NQ, RQ, SBO, SQ)

50 V=2 110 V=2


45 V=4 V=4
100
V=6 V=6
40 V=8 90 V=8
35
80
30
70
25
waktu]

waktu]

60
20
50
15

10 40

5 30

0 20
1 2 4 5 7 1 2 4 5 6 7
3 6 3

jumlah tetangga [k] jumlah tetangga [k]

60 V=2 350 V=2


V=4 V=4
V=6 300 V=6
50
V=8 V=8
250
40
200
waktu]

waktu]

30
150
20
100

10
50

0 0
1 2 4 5 6 7 1 2 4 5 6 7
3 3

jumlah tetangga [k] jumlah tetangga [k]

Gambar 2.14 Kompleksitas waktu untuk dataset Letter Recognition (searah jarum jam, mulai dari kiri atas: NQ, RQ,
SBO, SQ).
25 V=2 60 V=2
V=4 55 V=4
V=6 V=6
20 V=8 50 V=8
45
15 40

35
waktu]

waktu]
10 30
25
5 20

15

0 10
1 2 4 5 6 7 2 3 4 5 6 7
3 1

jumlah tetangga [k] jumlah tetangga [k]

25 V=2 160 V=2


V=4 V=4
V=6 140 V=6
20 V=8 V=8
120

15 100
waktu]

80

waktu]
10
60

40
5
20

0 0
1 2 4 5 7 1 2 4 5 6 7
3 6 3

jumlah tetangga [k] jumlah tetangga [k]

Gambar 2.15 Kompleksitas waktu untuk kumpulan data Urutan Gen sambungan-sambungan (searah jarum jam,
mulai dari kiri atas: NQ, RQ, SBO, SQ)

• Dengan meningkatnya tingkat privasi, kompleksitas komputasi dari metode yang diperkenalkan juga
meningkat. Namun, perbedaan antara metode NQ dan RQ secara praktis tidak terlihat. Perlu
diperhatikan, bahwa kedua algoritme tersebut memberikan privasi pada level yang berbeda. RQ
menyediakan
privasi yang lebih tinggi di hampir tidak ada biaya komputasi tambahan. Di sisi lain, perbedaan
• antara privasi data global (RQ) dan
pendekatan privasi pandangan lokal (SBO, SQ) sangat signifikan, karena perusahaan
biaya putasional naik beberapa kali lebih besar.
• Pengamatan menarik tentang algoritma SBO dan SQ dapat disimpulkan, dan algoritma tersebut
menawarkan privasi pada tingkat tertinggi (privasi tampilan lokal). SQ hampir empat kali lebih lambat
dari SBO. Namun hal ini dapat dijelaskan dengan pendekatan kompleks pada query database,
yang ditawarkan oleh SQ. Sebagai gantinya, untuk waktu komputasi yang lebih lama itu
meningkatkan peluang
mengungkapkan jumlah objek sekecil mungkin pada masing-masing sisinya.
• Untuk NQ, RQ dan SBO, digunakan pada dataset dengan jumlah fitur yang sedikit, waktu
komputasi yang lebih sedikit bergantung pada k parameter. Ini berbeda hanya untuk database
Arcene, dengan fitur ruang berdimensi tinggi (10000). Pada kasus ini, k parameter sangat
berkorelasi dengan waktu eksekusi. Di sisi lain, ketergantungan ini selalu sangat kuat untuk
algoritma SQ.

Hasil percobaan tidak mengejutkan kami, karena kami memperkirakan bahwa tingkat privasi yang lebih
tinggi membutuhkan biaya komputasi yang lebih tinggi. Namun, perlu dicatat bahwa biaya komputasi
tambahan lebih rendah dari yang biasanya dilaporkan
dalam literatur. Tentu saja, kita harus ingat bahwa keputusan tentang memilih tingkat privasi yang
sesuai harus dibuat oleh pengguna.
Atas dasar analisis yang diberikan di atas, kami dapat menyimpulkan saran berikut untuk algoritma
dan aplikasi yang diusulkan. Karena perbedaan minimal dalam kompleksitas waktu antara algoritme NQ
dan RQ, disarankan untuk selalu menggunakan metode kedua yang diusulkan, karena metode ini
menawarkan privasi yang lebih tinggi dengan hampir tanpa biaya tambahan. Dalam hal memilih tingkat
privasi tampilan lokal, pilihan yang lebih baik tergantung pada aplikasi. Jika pengguna khawatir tentang
waktu eksekusi, maka metode NBO direkomendasikan. Ini menawarkan privasi tingkat tinggi dengan
biaya komputasi sekitar dua-tiga kali lebih sedikit dan juga berkorelasi lemah dengan ukuran k parameter.
Jika kompleksitas komputasi bukan merupakan masalah tetapi privasi maksimum diperlukan, metode
SQ harus menjadi pilihan yang tepat.

Di bagian ini, kami menghadapi masalah menjaga privasi untuk tugas pengenalan pola. Sementara
itu, representasi biner klasik dari privasi menurut kami memiliki keterbatasan yang kuat dan menyisakan
sedikit pilihan bagi pengguna. Selain itu, kami mengusulkan definisi baru tentang privasi dan taksonomi
asli dari algoritme pelestarian privasi. Selain itu, membagi gagasan privasi menjadi 5 tingkat
memungkinkan kami memperkenalkan kerangka kerja yang fleksibel yang dapat disesuaikan dengan
kebutuhan pribadi dan menawarkan keseimbangan antara keselamatan dan biaya komputasi. Kami
juga membahas empat modifikasi k- Algoritme NN, yang mempertimbangkan taksonomi privasi yang
disebutkan di atas. Pada dasarnya. proposisi kami dievaluasi berdasarkan eksperimen komputer dan
yang dilakukan oleh kumpulan data tolok ukur yang beragam. Berdasarkan hasil eksperimen, kami
merumuskan rekomendasi untuk implementasi praktis dari metode yang diusulkan. Yang terpenting dari
semuanya, kami menyatakan bahwa tingkat keamanan yang baik dapat dicapai tanpa menggunakan
algoritme tambahan yang memakan waktu. Memperkenalkan modifikasi yang menyertakan tugas
menjaga privasi ke dalam klasifikasi jarak minimal yang mampu menyajikan tugas yang cepat dan
efisien untuk masalah tersebut. Kami percaya bahwa konsep yang diusulkan dapat berguna dalam
memproses proyek nyata dari sistem pengenalan komputer terdistribusi,
3

Hibridisasi Klasi fier

Kemungkinan lain dari hibridisasi adalah menggunakan kelompok klasifikasi untuk membuat keputusan
bersama. Bab ini memperkenalkan topik ini dan menyajikan pengenalan singkat tentang komponen
utama klasifikasi gabungan, seperti topologi, pembentukan ensemble, dan aturan kombinasi. Beberapa
metode desain kelas, pembelajaran, dan evaluasi akan disajikan juga.

3.1 Motivasi

Ada banyak proposisi tentang bagaimana mengotomatiskan proses klasifikasi [92]. Namun demikian,
tidak ada algoritma pengenalan pola tunggal yang sesuai untuk semua tugas yang kita hadapi, karena
setiap kelas memiliki domain kompetensi sendiri [407]. Biasanya, kita dapat memiliki kumpulan klasifikasi
yang berbeda untuk memecahkan masalah tertentu yang kita miliki. Oleh karena itu, metode yang
mampu mengeksploitasi kekuatan klasifikasi individu telah banyak dipertimbangkan dalam penelitian
intensif [167]. Perlu dicatat bahwa area inkompetensi (yaitu, bagian dari ruang fitur di mana semua
klasifikasi individu membuat keputusan yang salah) biasanya kecil [286]. Hal ini dapat menyebabkan
bahwa meskipun klasifikasi individu tidak memiliki kualitas yang tinggi, mereka dapat menghasilkan
klasifikasi gabungan yang cukup baik, seperti yang digambarkan pada Gambar 3.1.

Pendekatan yang disajikan disebut sistem kelas ganda, yang juga disebut gabungan kelas atau
ensembel kelas [214], dan komponen utamanya digambarkan pada Gambar 3.2. Dalam konsep ini,
upaya terbesar terkonsentrasi pada penggabungan keluaran dari kelas dasar. Dari perspektif sejarah,
prototipe pertama dari sistem gabungan adalah demokrasi Yunani (artinya pemerintah rakyat) keputusan
bahwa warga negara memiliki suara yang sama dalam setiap keputusan yang memengaruhi kehidupan
mereka. Orang Yunani percaya pada kebijaksanaan orang banyak, yaitu, sementara penaksir individu
agak tidak tepat, aturan mayoritas menghasilkan keputusan bersama dari masyarakat, dijelaskan oleh
Sir Francis Galton 1 yang mengamati bahwa kerumunan di pekan raya kabupaten secara akurat
menebak

1 Sir Francis Galton (1822-1911) - seorang polymath Victoria Inggris.

M. Wo´ źniak, Klasifikasi Hybrid, 95


Studi di Computational Intelligence 519, DOI: 10.1007 /
978-3-642-40997-4_3, © c Springer-Verlag Berlin Heidelberg 2014
9 3 Hibridisasi Klasis
6
Set Pisang Set Pisang Set Pisang
8 6 8

6 6
4

4 4
2

2 2
0

0 0

−2

−2 −2

−4
−4 −4

−6
−6 −6

−8
−8 −8

−10 −10 −10


−15 −10 −5 0 5 10 −15 −10 −5 0 5 10 −15 −10 −5 0 5 10

Set Pisang
8

−2

−4

−6

−8

−10
−15 −10 −5 0 5 10

Gambar 3.1 Area keputusan teladan dari masing-masing klasifikasi

ansambel

kelas 1

pengklasifikasi 2 kombinasi
obyek keputusan
aturan

pengklasifikasi n

Gambar 3.2 Gambaran umum dari sistem kelas ganda

berat seekor lembu ketika tebakan individu mereka dirata-ratakan. Kesimpulan serupa dibuat di [352], di
mana Surowiecki menyatakan bahwa pengumpulan informasi dalam kelompok sering menghasilkan
keputusan yang lebih baik daripada pendapat anggota individu. Secara umum diterima bahwa karya
paling awal yang mempertimbangkan kualitas pengambilan keputusan oleh sekelompok klasifikasi
berasal dari
Teorema Juri Condorcet ( 1785) memperkirakan kemungkinan kesalahan klasifikasi dari sekelompok
pemilih independen [331]. Konsep ini pertama kali dikemukakan oleh Chow [56], yang membuktikan
bahwa keputusan kelas independen dengan bobot yang ditentukan secara tepat adalah optimal. Pada
tahun 1979, Dasarathy dan Sheela menggabungkan kelas linier dan satu k- Klasifikasi NN [73],
menyarankan untuk mengidentifikasi wilayah ruang fitur di mana klasifikasi tidak setuju. Kemudian,
jawaban dari klasifikasi yang terbentuk diberikan oleh k- Klasifikasi NN untuk objek dari wilayah konflik
dan oleh kelas linier untuk objek yang tersisa. Strategi seperti itu secara signifikan menurunkan biaya
eksploitasi secara keseluruhan
sistem klasifikasi. Ini adalah pekerjaan pertama yang memperkenalkan konsep pemilihan kelas, tetapi
ide yang sama telah dikembangkan secara independen pada tahun 1981 oleh Rastrigin dan
Erenstein [300], yang mengusulkan kelas gabungan berdasarkan pada partisi ruang fitur dan menetapkan
setiap partisi ke kelas individu yang mencapai yang terbaik klasifikasi akurasi di atasnya.

Karya relevan awal lainnya merumuskan kesimpulan mengenai kualitas klasifikasi gabungan, seperti
[135], di mana ensembel jaringan saraf dianggap atau [422] di mana penulis berurusan dengan
pemungutan suara mayoritas dan diterapkan pada pengenalan tulisan tangan. Turner [379] menunjukkan
bahwa rata-rata keluaran dari sejumlah tak terbatas dari klasifikasi tidak bias dan independen dapat
menyebabkan respon yang sama seperti klasifikasi Bayes yang optimal (1,19). Ho [146] menggarisbawahi
bahwa fungsi kombinasi keputusan harus menerima representasi yang berguna dari keputusan setiap
kelas. Secara khusus, mereka mempertimbangkan beberapa metode berdasarkan peringkat keputusan,
seperti penghitungan Borda. Akhirnya, karya tengara dikhususkan untuk mengantongi [39] dan
meningkatkan [327, 105], yang mampu menghasilkan klasifikasi yang kuat [182], di PAC ( Mungkin
Kira-kira Benar) teori [12] akal, atas dasar yang lemah.

Saat ini beberapa sistem klasifikasi (MCS) disorot oleh artikel review sebagai topik hangat dan tren
yang menjanjikan dalam pengenalan pola [167, 274,
286, 287, 308], dan ulasan ini termasuk buku-buku oleh Kuncheva [214], Rokach [309], Seni dan Edler
[330], Zhou [433], dan Baruque dan Corchado [21]. Bahkan buku pegangan pembelajaran mesin umum
yang canggih, seperti [92, 9, 32], mencakup presentasi ekstensif dari konsep dan arsitektur kelas
gabungan.
Penting untuk diperhatikan bahwa desain MCS tidak berbeda dari aplikasi pengenalan pola klasik
[119], di mana kami memilih fitur yang paling berharga dan memilih metode klasifikasi terbaik dari
kumpulan fitur yang tersedia. Desain ensembel kelas bertujuan untuk membuat satu set kelas yang
saling melengkapi / beragam dan menetapkan metode fusi yang sesuai, yang dapat menggabungkan
keluaran masing-masing kelas secara optimal.

Perbandingan pendekatan tradisional dan gabungan disajikan di Tab. 3.1.

Tabel 3.1 Perbandingan pendekatan tradisional dan gabungan untuk desain kelas

preprocessing pemilihan model pengolahan pasca


kelas tradisional memilih si fi er evaluasi kelas yang pal ing tepat
atribut berharga makan model keputusan
kelas gabungan memilih evaluasi kelas yang paling tep at memilih yang paling tepat
makan individu yang berharga kombinasi
kelas aturan

Kami harus menyebutkan karya Ho [145], yang membedakan dua pendekatan utama:
• Optimalisasi cakupan berfokus pada pembuatan satu set klasifikasi yang saling melengkapi, yang
dapat digabungkan untuk mencapai ac-
kurasi menggunakan fungsi kombinasi keputusan tetap.
• Pengoptimalan keputusan berkonsentrasi pada perancangan dan pelatihan fungsi kombinasi
keputusan yang tepat sementara satu set klasifikasi individu diberikan sebelumnya [311].

Berdasarkan tinjauan pustaka, kami dapat membuat daftar keuntungan dari pendekatan yang disebutkan di atas

sebagai [83]:

• Banyak makalah melaporkan bahwa pendekatan gabungan dapat meningkatkan kinerja


keseluruhan dibandingkan dengan klasifikasi individu terbaik, karena mereka mampu
memanfaatkan kekuatan unik dari masing-masing klasifikasi individu. Dalam beberapa kasus
(misalnya, pemungutan suara mayoritas oleh sekelompok klasifikasi independen), karakteristik
mereka telah dibuktikan secara analitis [379]. Selain itu, MCS melindungi dari pemilihan kelas
terburuk untuk a
sampel kecil [243].
• Banyak algoritme pembelajaran mesin (misalnya, C4.5 yang didasarkan pada konsep pohon keputusan
induksi top down) de facto algoritma pencarian heuristik, yang tidak dapat menjamin bahwa model
yang optimal ditemukan sepenuhnya. Oleh karena itu, pendekatan gabungan, yang dapat memulai
pencarian dari berbagai titik
ruang pencarian, tampaknya menjadi proposisi yang menarik.
• Klasifikasi gabungan dapat digunakan dalam lingkungan komputasi yang efisien, seperti arsitektur
komputer paralel dan multithread [402]. Area lain yang menarik dari aplikasi adalah sistem
komputasi terdistribusi (P2P, GRID) [177], terutama dalam kasus database yang dipartisi untuk
alasan privasi dan hanya keputusan akhir yang tersedia di setiap node jaringan komputer.

Kami dapat membedakan masalah penting yang harus dipertimbangkan saat membangun MCS
yang mengelompokkannya ke dalam masalah berikut:

• Mengusulkan topologi, yaitu interkoneksi antar klasifikasi individu


di ansambel.
• Memilih kumpulan klasifikasi individu yang beragam dan saling melengkapi untuk
ansambel.
• Merancang aturan kombinasi (fuser), bertujuan untuk menciptakan mekanisme itu
dapat memanfaatkan kekuatan dari klasifikasi yang dipilih dan menggabungkannya secara optimal.

3.2 Topologi

Mayoritas klasifikasi gabungan mewakili topologi paralel, yang memiliki latar belakang metodologi yang
baik [214]. Topologi seperti itu digambarkan pada Gambar 3.3.

Dalam topologi ini, setiap kelas diumpankan dengan data masukan yang sama, sehingga keputusan akhir
dari klasifikasi gabungan dibuat berdasarkan keluaran yang dihasilkan.
3.3 Ensemble Kelas 99

kelas 1

pengklasifikasi 2

obyek
.
. kombinasi keputusan

. aturan

pengklasifikasi n

Gambar 3.3 Contoh topologi paralel dari klasifikasi gabungan

obyek kelas 1 kelas 2 kelas ...


keputusan
classifer n

Gambar 3.4 Contoh topologi serial dari klasifikasi gabungan

klasifikasi individu diperoleh secara independen. Alternatifnya adalah topologi serial (atau bersyarat) yang
disajikan pada Gambar 3.4, di mana klasifikasi diberi peringkat. Ketika kelas utama tidak dapat dipercaya
untuk mengklasifikasikan objek tertentu (misalnya, karena dukungan / kepercayaan rendah dalam
hasilnya), data kemudian diumpankan ke kelas sekunder [225, 297] dll. Topologi ini memadai bila biaya
eksploitasi kelas adalah penting. Klasifikasi utama akan menjadi yang paling murah secara komputasi,
setelah keputusannya tidak dapat diandalkan dan datanya kemudian dimasukkan ke dalam kelas yang
berurutan yang biaya eksploitasinya biasanya lebih tinggi [110]. Model ini dapat diterapkan ke klasifikasi
dengan apa yang disebut opsi tolak juga [20]. Dalam [369] klasifikasi pertama dalam pipa memberikan
perkiraan kepastian klasifikasi, sehingga sampel data yang tidak pasti dikirim ke data yang berurutan,
terspesialisasi dalam kasus yang lebih sulit. Kami melihat kesamaan pendekatan tersebut dengan
seperangkat aturan [59] atau daftar keputusan [305], ketika kami menganggap setiap aturan sebagai
klasifikasi. Lebih lanjut, kami dapat mengusulkan topologi hybrid tetapi kurang memanfaatkan yang terbaik
dari setiap topologi.

3.3 Ensemble Kelas

Memilih anggota ansambel kelas dengan jenis komponen yang berbeda adalah fitur utama dari desain
sistem yang dipertimbangkan, karena kita harus memperhatikan bahwa selain meningkatkan
kompleksitas komputasi dan menggabungkan klasifikasi serupa seharusnya tidak berkontribusi banyak
pada gabungan kelas yang sedang dibangun. Sebuah ensemble ideal terdiri dari klasifikasi individu
yang saling melengkapi yang ditandai dengan keragaman dan akurasi yang tinggi [207], karena kami
berharap bahwa akurasi kelas gabungan meningkat sesuai dengan peningkatan keragaman kelompok
kelas individu [430]. Pertama, klasifikasi harus dipilih untuk mendapatkan hasil yang positif dari fusi
mereka. Pada Gambar 3.5, disajikan pasangan baik dan buruk dari masing-masing klasifikasi.
12 12

10 10

8 8

6 6

4 4

2 2

0 0

−2 −2

−4 −4

−6 −6

−8 −8

−10 −10

0 2 4 6 8 10 12 0 2 4 6 8 10 12

12 12

10 10

8 8

6 6

4 4

2 2

0 0

−2 −2

−4 −4

−6 −6

−8 −8

−10 −10

0 2 4 6 8 10 12 0 2 4 6 8 10 12

Gambar 3.5 Pasangan baik (di kiri) dan buruk (di kanan) dari berbagai kelas

Banyak algoritme yang mencakup subjek ini terinspirasi oleh panduan tentang cara merancang
perangkat lunak yang andal, di antaranya [277, 42, 338] layak disebutkan. Strategi untuk menghasilkan
ansambel harus menjamin peningkatan keragamannya. Namun, masalah bagaimana mengukur
keragaman kelas masih menjadi topik penelitian terbuka. Brown dkk. [43] perhatikan bahwa kita dapat
memastikan keragaman menggunakan pendekatan keragaman secara implisit atau eksplisit. Kelompok
pertama metode mencakup teknik klasifikasi individu yang dihasilkan secara independen, biasanya
didasarkan pada teknik acak, sedangkan kelompok kedua berfokus pada optimalisasi susunan
ansambel menggunakan metrik keragaman. Untuk kasus kedua,

3.3.1 Ukuran Keragaman

Untuk masalah regresi, varian keluaran anggota ensemble biasanya digunakan sebagai ukuran
keragaman, karena terbukti bahwa kesalahan model gabungan berdasarkan rata-rata tertimbang
keluaran model individu dapat dikurangi sesuai dengan peningkatan keanekaragaman [207, 382 ].
Sebuah studi menarik tentang bagaimana mengelola korelasi dalam ansambel penaksir regresi
disajikan di [44]. Untuk masalah klasifikasi, kami masih menunggu hasil teoritis tersebut dan banyak
ukuran keragaman telah diusulkan sampai sekarang. Di satu sisi adalah intuitif bahwa peningkatan
keragaman harus mengarah pada akurasi yang lebih baik dari sistem gabungan, tetapi di sisi lain tidak
ada bukti formal dari ketergantungan ini [210], seperti yang dikonfirmasi oleh berbagai hasil
eksperimental yang disajikan dalam [ 27]. Dalam [42] penulis mengusulkan bahwa kesalahan voting
mayoritas klasifikasi terutama terdiri dari akurasi individu, keragaman yang baik, dan keragaman yang
buruk. Keragaman yang baik berdampak positif pada pengurangan kesalahan ansambel sedangkan
keanekaragaman yang buruk berdampak sebaliknya.
Dalam [332] Sharkley dkk. mengusulkan empat tingkat keragaman berdasarkan jawaban aturan
pemungutan suara mayoritas, kesalahan kebetulan, dan kemungkinan setidaknya satu jawaban yang
benar dari anggota ensemble. Brown dkk. [43] mencerminkan bahwa itu tidak sesuai untuk kasus di mana
keragaman ansambel berbeda di subruang yang berbeda dari ruang fitur. Juga, mereka mengusulkan
taksonomi berikut untuk ukuran keragaman:

• Pengukuran berpasangan rata-rata ukuran antara setiap kelas individu


berpasangan dalam ansambel,

• Pengukuran keragaman non-pairwise membandingkan kelas yang diberikan dari ensembel dengan
outputnya.

Mari kita sajikan ukuran keragaman terpopuler menurut taksonomi yang dirumuskan di atas.

Pengukuran Keragaman Berpasangan

Membiarkan N 11 singkatan dari jumlah objek dari kumpulan data tertentu yang diklasifikasikan dengan benar oleh

klasifikasi Ψ saya dan Ψ k, N 00 adalah jumlah objek yang salah diklasifikasikan oleh Ψ saya dan Ψ k. N 01 menunjukkan jumlah

kesalahan yang dilakukan oleh Ψ saya

sementara Ψ k membuat keputusan yang benar dan N 10 adalah jumlah kesalahan yang dilakukan
oleh Ψ k sementara Ψ saya benar. Anggaplah kita memiliki kolam Π dari n indi-
klasifikasi individual Π = Ψ 1, Ψ 2, ..., Ψ n dan n- elemen set pembelajaran LS ( 1.11) yang kami inginkan.

• Statistik-Q [ 216] diperkenalkan oleh G.


Yule

NN11-0N0 10 01 (3.1)
Q (Ψ, Ψ) =
N
D saya k N 11 N 00 + N 10 N 01

Q D mengambil 0 untuk klasifikasi independen dan nilai positif ketika klasifikasi memutuskan serupa
untuk sebagian besar objek, dan nilai negatif jika mereka
tidak setuju pada sebagian besar contoh. Untuk ansambel n klasifikasi, rata-rata Q statistik atas
semua pasangan klasifikasi adalah

2
Q Sebuah( Π) = (3.2)
n ∑- 1 ∑ n
n (n Q D( Ψ saya, Ψ
1)- k)

i=1k=i+1

• kappa-statistik [ 244]

κ (Ψ, Ψ) = N N +1N1 -
2( 00) -(N 0+ N 1) (3.3)
D saya k
N2 (N 0+ N 1)

dimana N = N 11 + N 01 + N 10 + N 00, N 0 = ( N 00 + N 10) ( N 00 + N 01),


dan N 1=( N 11 + N 10) ( N 11 + N 01)
Juga, κ D mengambil 0 jika pasangan klasifikasi selalu setuju dan 0 jika setuju
kebetulan.
• Koefisien korelasi [ 339]

N 11 N 00 - N 01 N 10
CC (Ψ saya, Ψ k) = √
(N 11 + N 10) ( N 11 + N 01) ( N 00 + N 10) ( N 00 + N 01)
(3.4)
• Ukuran ketidaksepakatan [ 336]

N +0 1N 10
Dis (Ψ saya, Ψ k) = (3.5)
N 11 + N 01 + N 10 + N
00

Dis (Ψ saya, Ψ k) ∈ [ 0, 1] meningkat sesuai dengan pertumbuhan keragaman antara


klasifikasi.
• Pengukuran kesalahan ganda [ 121, 210] dirumuskan oleh Giacinto dan Roli
dan itu mengungkapkan frekuensi kesalahan klasifikasi dari kedua klasifikasi

N 00
DF (Ψ saya, Ψ k) = (3.6)
N 11 + N 01 + N 10 + N 00

Ukuran Keragaman Non-berpasangan

Membiarkan

n

π (x k) = (1 - [ Ψ l ( x k) = saya k]) (3.7)
l=1

menjadi jumlah klasifikasi dari Π yang salah diklasifikasikan x k.

• Varians Kohavi-Wolpert [ 191], terinspirasi oleh dekomposisi bias-varians dari kesalahan klasifikasi
[118]

N ( )( )
1 ∑ π (x k)
KW (Π) = n - π (x k)
(3.8)
Nn 2 n n
k=1

• Mengukur keandalan antar-penilai (antar-klasifikasi) [ 101],

∑N
π k ( n - π (x k))
κ (Π) = 1 - (∑ k = 1 ( )) (3.9)
N
∑N
( n - 1) π (x k) 1 - 1 π (x k)
Nn
k=1 k=1

• Ukuran entropi [ 68] diusulkan oleh Cunningham dan Carney, sebagai


Sebuah L v S Hapus entropi keputusan klasifikasi individu untuk setiap contoh di

N∑ (-1 ( ))
1 ∑M 1
E (Π) = π (x k) catatan π (x k) (3.10)
N N N
k=1i=1

• Ukur kesulitan [ 135] diperkenalkan oleh Hansen a {nd Salamo}


n. Membiarkan
X 0 menjadi variabel acak diskrit mengambil nilai dari 0 1
, 1 dan
nn, ...,
adalah proporsi dalam kelompok klasifikasi yang mengklasifikasikan dengan benar objek input yang
digambar secara independen sesuai dengan distribusi kepadatan probabilitas tanpa syarat f (x). Kuncheva
dan Whitaker [216] mengamati bahwa kumpulan klasifikasi tidak beragam jika beberapa objek sulit
diklasifikasikan dengan benar untuk semua klasifikasi dan objek lainnya mudah untuk semua
klasifikasi. Selain itu, jika objek sulit untuk beberapa klasifikasi tetapi mudah untuk klasifikasi lainnya,
maka keragaman kumpulan tinggi. Seperti yang kita lihat, file

karakteristik terkait dengan varian X 0 dan kesulitan θ dapat didefinisikan dengan menggunakan
penduga varians populasi
• ( )•2 ( ( ))
1 •∑ π ∑ π (x
2

N(x k) 1
k) N
θ (Π) = • - (3.11)

N n N n
k=1 k=1

• Keragaman yang digeneralisasikan diusulkan oleh Partridge dan Krzanowski [277], ia


mengembalikan nilai maksimum jika kegagalan satu kelas disertai dengan klasifikasi yang benar
oleh klasifikasi lain dan keragaman minimum terjadi ketika kegagalan satu kelas disertai dengan
kegagalan klasifikasi lain.

nl (l - 1) p saya

n (n - 1)
GD (Π) = 1 - l = 1 ∑ (3.12)
n lp l

n
l=1

dimana p l singkatan dari probabilitas itu l klasifikasi yang dipilih secara acak dari
Π akan gagal pada contoh yang dipilih secara acak.

• Keragaman Kegagalan Bertepatan adalah modifikasi dari Keragaman Umum, yang juga
diusulkan oleh Partridge dan Krzanowski [277]

0
•( p 0=1
)
CFD (Π) = • 1 ∑n n - (3.13)
l pl p 0<
•1 - p 0 l = 1 n - 1 1

Ia mengembalikan 0 sebagai pool Π tidak beragam, dan juga mengembalikan 1 jika setiap kelas memiliki
contoh yang berbeda.

Analisis beberapa ukuran keragaman dapat ditemukan, misalnya, dalam [216, 334, 358], ini
menghubungkannya dengan konsep margin klasifikasi, dan menunjukkan keterbatasannya serta sumber
hasil empiris yang membingungkan. Kuncheva dan Whitaker [216] menunjukkan bahwa tidak ada
hubungan yang jelas antara ukuran keragaman yang diketahui dan akurasi klasifikasi gabungan. Di sisi
lain, perlu digarisbawahi bahwa secara naluriah terdapat hubungan antara keberagaman
kumpulan kelas dan ensembel kelas yang terbentuk atas dasar itu, tetapi formulasi ukuran keberagaman
yang tepat masih menunggu formulasi yang tepat. Oleh karena itu, mengembangkan langkah-langkah
keberagaman masih menjadi tantangan besar bagi komunitas pengenalan pola.

3.3.2 Jaminan Keanekaragaman

Masalah penting lainnya terletak pada bagaimana menghasilkan kumpulan klasifikasi yang beragam. Menurut
[214, 119], kita dapat memaksakan keragaman kumpulan klasifikasi individu dengan memanipulasi input, output,
atau model mereka.

Input Data yang berbeda

Semua konsep ini didasarkan pada asumsi bahwa klasifikasi yang dilatih pada input yang berbeda
saling melengkapi, dan kita dapat membedakan tiga pendekatan umum:

1. Menggunakan partisi data yang berbeda

2. Menggunakan kumpulan fitur yang berbeda

3. Mempertimbangkan spesialisasi lokal dari masing-masing klasifikasi

Menggunakan pendekatan pertama dapat disebabkan oleh beberapa alasan sebagai privasi data ketika kita ingin
belajar berdasarkan data terdistribusi yang disimpan dalam database yang berbeda [90, 202, 231], dijelaskan
sebagian pada bab sebelumnya. Selain itu, kita harus memperhatikan bahwa penggunaan data terdistribusi dapat
menimbulkan batasan hukum atau komersial yang tidak memungkinkan untuk berbagi kumpulan data mentah dan
menggabungkannya ke dalam repositori umum [2]. Untuk memastikan privasi, kita dapat melatih klasifikasi individu
pada setiap database secara independen dan menggabungkan keluarannya menggunakan prinsip klasifikasi hybrid
[392].

Alasan kedua sangat terkait dengan masalah analisis data besar [279]. Database yang sangat
besar tidak memungkinkan untuk menghasilkan klasifikasi secara efektif, jadi kita harus menggunakan
teknik probe untuk melatih klasifikasi berdasarkan partisi dataset asli. Salah satu pendekatan yang
terkenal adalah komite yang divalidasi silang yang membutuhkan minimalisasi partisi yang tumpang
tindih [207].

Konsep input kelas individu sering digunakan dalam kekurangan contoh pembelajaran, dan
beberapa teknik penting diusulkan yang berasal dari bootstraping [327], bagging [39] atau boosting [105,
326, 336, 286]. Juga, metode mencoba menjawab pertanyaan jika sekumpulan pelajar yang lemah
dapat menghasilkan satu yang kuat. Pendekatan pertama mengusulkan untuk secara independen
menghasilkan beberapa kumpulan data berdasarkan yang asli menggunakan pengambilan sampel
dengan teknik penggantian. Kemudian berdasarkan set pembelajaran, kelas individu dilatih. Untuk
membuat keputusan akhir dari kumpulan klasifikasi, aturan pemungutan suara mayoritas digunakan.
Selanjutnya, pseudocode dari bagging disajikan di Alg. 27.
Algoritma 27. Pseudocode mengantongi
Memerlukan: LS - set pembelajaran,

metode kereta api () - metode pembelajaran kelas,


T - jumlah iterasi
Memastikan: Ψ 1, Ψ 2, ..., Ψ T kolam T kelas 1: untuk t: = 1 untuk T melakukan

2: Ψ t ← metode ke reta api (contoh bootstrap dari LS)


3: berakhir untuk

Untuk membuat keputusan tentang x gunakan aturan keputusan berikut

∑T
Ψ (x) = [ Ψ t ( x) = i]
argmax.dll
saya ∈M t=1

di mana [] menunjukkan tanda kurung Inverson

Pendekatan peningkatan diwakili oleh algoritma paling terkenal AdaBoost ( Peningkatan Adaptif) [ 106]
mengusulkan untuk menghasilkan beberapa himpunan pembelajaran secara berulang, dan dalam objek
iterasi tertentu yang diklasifikasikan secara salah dalam iterasi sebelumnya harus tenggelam dengan
probabilitas yang lebih tinggi. Keputusan terakhir dibuat atas dasar aturan voting tertimbang. Selanjutnya,
ide untuk meningkatkan dan implementasi yang paling populer AdaBoost ditunjukkan di Alg. 28 dan Alg.
29 masing-masing.

Algoritma 28. Pseudocode penguat


Memerlukan: LS - set pembelajaran,

metode kereta api () - metode pembelajaran kelas,


T - jumlah iterasi
Memastikan: Ψ 1, Ψ 2, ..., Ψ T kolam T klasifikasi 1: menginisialisasi
distribusi D 1

2: untuk t: = 1 untuk T melakukan

3: Ψ t ← metode ke reta ( LS, D t)


4: menghitung kesalahan ε t dari Ψ t menggunakan LS dan D t

5: Hitung ulang D t + 1 menggunakan D t dan ε t

6: berakhir untuk

Untuk membuat keputusan tentang x menggunakan aturan kombinasi berdasarkan keluaran dari

Ψ 1, Ψ 2, ..., Ψ T, yaitu,
Ψ (x) = F ( Ψ 1 ( x), Ψ 2 ( x), ..., Ψ T ( x))

Fitur yang dipilih kemudian digunakan untuk melatih kumpulan klasifikasi untuk memastikan
keragaman kumpulan. Ada beberapa proposisi berdasarkan prinsip ini, seperti Subruang Acak [ 143, 144]
atau Atribut Bagging [ 46]. Itu Subruang Acak Konsep digunakan untuk beberapa jenis klasifikasi individu
sebagai klasifikasi linier [337] atau klasifikasi jarak minimal [375, 23]. Sementara itu,

Random Forrest [ 40] penggunaan Subruang Acak pendekatan untuk keputusan acak
Algoritma 29. Pseudocode AdaBoost
Memerlukan: LS - set pembelajaran, dimana M = {- 1, 1}, train method
() - metode pembelajaran kelas,
T - jumlah iterasi
Memastikan: Ψ 1, Ψ 2, ..., Ψ T kolam T klasifikasi
1: untuk k: = 1 untuk N melakukan
1
2: D 1 ( k) =
N
3: berakhir untuk

4: untuk t: = 1 untuk T melakukan

5: Ψ t ← metode ke reta ( LS, D t)



6: menghitung kesalahan ε t=
N
D t ( k) [Ψ (x k) = j k] {[] menunjukkan tanda kurung Inverson}

1- εt k=1

7: α t = 1 ln
2
εt
8: Normalisasi t: = 0
9: untuk k: = 1 untuk N melakukan

10: D t + 1 ( k): = D t ( k) exp - α t Ψ t ( x k) saya k


11: Normalisasi t: = Normalisasi t + D t + 1 ( k)
12: berakhir untuk

13: untuk k: = 1 untuk N melakukan


D t + 1 ( k)
14: D t + 1 ( k): =
Normalisasi t
15: berakhir untuk

16: berakhir untuk

Untuk membuat iklan ( ecision tentang) x aturan keputusan berikut

Ψ (x) = tanda

α t Ψ t ( x)
T

t=1

pohon yang menggunakan keacakan saat memilih atribut “terbaik” dalam induksi pohon keputusan (lihat
baris 10 di Alg. 10). Perlu ditunjukkan bahwa beberapa proposisi menarik yang didedikasikan untuk
kelas satu kelas disajikan oleh Nanni [257] atau metode hierarki pembuatan ensemble berdasarkan
pemisahan ruang fitur dan kemudian menetapkan klasifikasi biner (seperti Mendukung Mesin Vektor)

disajikan secara lokal di [359, 372]. Selanjutnya, pseudocode dari file Subruang Acak kerangka kerja
disajikan di Alg. 30.
Konsep penting lainnya dari pemilihan kelas mengasumsikan spesialisasi lokal dari klasifikasi
individu. Menurut proposal ini, satu klasifikasi yang mencapai hasil terbaik dipilih dari kumpulan untuk
setiap partisi ruang fitur yang dibatasi. Jawabannya diperlakukan sebagai jawaban sistem, untuk semua
objek yang termasuk dalam partisi. Metodologi ini dijelaskan oleh Rastrigin dan Erenstein [300].
Proposal tertentu berdasarkan ide ini mengasumsikan spesialisasi lokal dari klasifikasi tertentu dan
hanya mencari solusi optimal secara lokal [18, 62, 119, 125, 318], sementara metode lain mengusulkan
untuk membagi
Algoritma 30. Pseudocode Subruang Acak
Memerlukan: LS - set pembelajaran,

metode kereta api () - metode pembelajaran kelas,


T - jumlah iterasi,
s jumlah fitur yang dipilih s ≤ d yaitu, ukuran subruang
Memastikan: Ψ 1, Ψ 2, ..., Ψ T kolam T kelas 1: untuk t: = 1 untuk T melakukan

2: x t ← dipilih secara acak s kombinasi set fitur x


3: Ψ t ← metode ke reta ( LS) hanya menggunakan set atribut x t
4: berakhir untuk

Untuk membuat keputusan tentang x gunakan aturan keputusan berikut Ψ (x) =


∑T
argmax.dll [ Ψ t ( x t) = saya]
saya ∈M t=1

di mana [] menunjukkan tanda kurung Inverson

fitur ruang dan memilih (atau melatih) kelas untuk setiap partisi. Kita bisa membedakannya

• Pemilihan klasifikasi statis [ 22] sebagai hubungan yang disebutkan antara wilayah kompetensi
dan kelas yang ditugaskan tetap. Kuncheva melamar Pengelompokan dan Seleksi ( Algoritma CS)
[209] yang mempartisi ruang fitur sesuai dengan algoritma pengelompokan yang diberikan,
kemudian CS memilih klasifikasi individu terbaik untuk setiap kluster berdasarkan kualitas lokalnya.
Sementara itu, Jackowski dan Wozniak [163] melamar Pemisahan dan Seleksi Adaptif

Algoritma (AdaSS) yang menggabungkan partisi ruang fitur dan menetapkan klasifikasi ke setiap
partisi menjadi satu proses terintegrasi. Keuntungan utama AdaSS adalah bahwa algoritma pelatihan
mempertimbangkan bentuk suatu area untuk menentukan isi suatu kelas, dan sebaliknya wilayah
tersebut menyesuaikan dengan kompetensi klasifikasi. Juga, Lee et al. [229] menggunakan ukuran
entropi fuzzy untuk mempartisi ruang fitur dan memilih fitur yang relevan dengan keterpisahan yang
baik untuk masing-masing fitur. Setelah itu, kami akan melakukannya

perhatikan baik-baik masalah ini di bab berikutnya.


• Pemilihan kelas dinamis dimana kompetensi klasifikasi individu dihitung dalam klasifikasi
[148, 190, 81, 122]. Ada beberapa proposisi menarik yang memperluas konsep ini, misalnya,
dengan menggunakan komite yang telah dipilih sebelumnya dari masing-masing kelas dan
membuat keputusan akhir berdasarkan aturan pemungutan suara [75]. Dalam [404, 405]
penulis mengusulkan pemilihan ansambel dinamis berdasarkan ukuran kompetensi asli
menggunakan klasifikasi yang disebut klasifikasi referensi acak.

Kita harus memperhatikan bahwa baik ensembel kelas statis [348, 393, 431] dan yang dinamis [194,
378, 434] banyak digunakan untuk klasifikasi aliran data.
Output yang Berbeda

Pendekatan lain yang mampu menegakkan akurasi keragaman tinggi dari masing-masing klasifikasi
terkait dengan manipulasi keluaran mereka, dan itu berarti bahwa setiap klasifikasi individu dilatih untuk
mengenali beberapa kelas saja. Pada dasarnya, metode kombinasi harus memulihkan seluruh
rangkaian label kelas,
Misalnya, masalah klasifikasi kelas jamak dapat diuraikan menjadi masalah klasifikasi dua kelas dalam
jumlah terbatas [366]. Ada beberapa proposisi tentang bagaimana menghasilkan kelas jamak dengan
menggabungkan keluaran dari kelas biner [84]. Biasanya kombinasi dibuat atas dasar aturan tetangga
terdekat sederhana, yang menemukan kelas terdekat, dalam arti tertentu, dengan keluaran dari
klasifikasi biner. Umumnya, variasi yang paling umum dari kombinasi klasifikasi biner adalah Satu-lawan-Satu
( OAO) (juga dikenal sebagai

Satu-Versus-Satu ( OVO)) dan Satu-Melawan-Semua ( OAA) (juga dikenal sebagai OneVersus-All ( OVA))
[91]. Dalam model ini, setidaknya satu kelas biner sesuai dengan setiap kelas. Hipotesis bahwa vektor
fitur yang diberikan milik kelas yang dipilih diuji terhadapnya yang termasuk dalam salah satu kelas
lainnya. Metode OAA biasanya diimplementasikan sebagai apa yang disebut Pemenang Mengambil
Semua ( WTA). Setiap kelas dilatih dalam contoh kelas yang berbeda menjadi kelas pertama, dan
semua kelas lainnya sesuai dengan kelas kedua. Juga, hasil akhir dicapai dengan aturan maksimum
pada
nilai-nilai dukungan untuk setiap kelas.

Selain itu, Dieterich dan Bakiri [84] mengusulkan model kombinasi yang disebut ECOC ( Kesalahan
Mengoreksi Kode Output), dan dalam model ini setiap kelas biner menghasilkan urutan kode 1 dan -1
untuk setiap kelas tergantung pada model yang digunakan, misalnya, mari kita pertimbangkan masalah
klasifikasi 8 kelas, di mana kelas 1, 4, dan 7 dikaitkan dengan kode kelas - 1, dan sisanya dengan kode
kelas
1, maka kata sandi yang dihasilkan oleh klasifikasi tertentu (terkait dengan kolom dalam matriks
ECOC) terlihat sebagai berikut [ - 1, 1, 1, - 1, 1, 1, - 1, 1]. Selanjutnya konstruksi matriks ECOC disajikan
pada
Tab. 3.2.

Tabel 3.2 Kata sandi ECOC yang patut dicontoh

Ψ Ψ 2 Ψ n

...

cw 1 - codeword untuk kelas 1 -1 1 ... -1


cw 2 - codeword untuk kelas 2 1 1 ... 1
. ...
.
. ·· ······
·

cw M - kata sandi untuk kelas M - 1 -1 ... 1

ECOC memilih kelas dengan jarak Hamming terkecil ke kata kodenya, yaitu,

•∑
n

Ψ ECOC ( x)
=
• (3.14)
M
• (1 - tanda( cw k ( i) Ψ saya( x))) •
argmax.dll • •
k=1 • i=1 •
2
dimana cw k( saya) berdiri untuk saya- posisi ke kata sandi cw k.
Jarak lain dapat digunakan a √ baiklah, seperti Euclidean [292]

√ n
√∑
Ψ ECOC ( x) = arg maks √ ( cw k ( saya) - Ψ saya( x)) 2 (3.15)
M

k=1
i=1

Review metode lain yang mungkin untuk menggunakan jarak dapat ditemukan di [433]. Passerini
dkk. [278] menerapkan skema ini dengan lancar untuk mendukung mesin vektor. Perlu disebutkan bahwa
Allwein et al. [7] mengusulkan representasi yang sedikit berbeda dari matriks ECOC dengan
menambahkan 0 jika kelas tertentu binarize masalah melewatkan kelas tertentu, yaitu, dalam contoh yang
disebutkan di atas dari masalah klasifikasi 8 kelas, misalkan kelas 1, 4, dikaitkan dengan kelas kode

- 1, dan kelas 2, 5 dan 8 dengan kode kelas 1, maka kata sandi yang dihasilkan oleh klasifikasi tertentu
(terkait dengan kolom dalam matriks ECOC) terlihat sebagai berikut [ - 1, 1, 0, - 1, 1, 0, 0, 1]. Sementara itu,
Wilk dan Wozniak [403] mengusulkan bagaimana menerapkan pendekatan fuzzy pada representasi ECOC.
Baru-baru ini, beberapa proposisi menarik tentang bagaimana menggabungkan klasifikasi biner telah
diajukan. Wu et al. [420] menggunakan kopling berpasangan, Friedman menggunakan aturan Max-Win
[107], dan Hüllermeier mengusulkan prosedur pemungutan suara tertimbang adaptif [155]. Sebuah survei
yang sangat menarik tentang ansambel kelas biner diterbitkan baru-baru ini oleh Galar et al. [113]. Perlu
disebutkan bahwa model klasifikasi satu kelas adalah kasus khusus dari klasifikasi biner, juga disebut
deskripsi data, karena ia dilatih tanpa adanya sampel yang berlawanan. Juga, tujuan utamanya adalah untuk
mendeteksi anomali atau keadaan selain yang ada untuk kelas target [365]. Untuk menggabungkan
klasifikasi tersebut, metode khas yang dikembangkan untuk klasifikasi biner digunakan dalam [362], tetapi
perlu disebutkan, misalnya, pekerjaan oleh Wilk dan Wozniak di mana penulis memulihkan tugas klasifikasi
kelas jamak menggunakan kumpulan klasifikasi satu kelas dan sistem inferensi fuzzy [403]. Namun, metode
kombinasi yang didedikasikan untuk klasifikasi satu kelas masih menunggu perhatian yang tepat [120].

Model yang Berbeda

Umumnya, kita dapat melatih klasifikasi individu berdasarkan model klasifikasi yang berbeda atau
berbagai versi model. Proposisi pertama memanfaatkan bias yang berbeda dari model klasifikasi
individu [407] dalam satu kelas gabungan. Dalam kasus ini, ketika kita memiliki kumpulan klasifikasi
heterogen, kita harus berhati-hati dalam memilih aturan kombinasi. Kita dapat menggabungkan label
kelas, tetapi jika kita menggabungkan keluaran kontinu kita harus menormalkannya misalnya,
menggunakan pendekatan fuzzy [403].

Kami juga dapat menggunakan versi yang berbeda dari model yang sama, karena banyak algoritma
pembelajaran mesin (misalnya, induksi pohon keputusan) [295] yang de facto algoritma pencarian heuristik dan
yang tidak menjamin bahwa klasifikasi optimal ditemukan. Secara khusus, pendekatan penggabungan yang
memulai algoritme pembelajaran mesin dari titik yang berbeda merupakan proposisi yang menarik, dan kami
dapat menghasilkan kumpulan klasifikasi seperti itu dengan injeksi derau sebagai contoh berikut. Adapun
jaringan saraf [152], kita dapat melatih kumpulan jaringan di mana masing-masing jaringan dilatih
berdasarkan bobot awal yang dipilih secara acak. Adapun pohon keputusan, kita dapat memilih pengujian di
antara pengujian yang mungkin untuk node tertentu secara acak sesuai dengan nilai kriteria pemisahan.

3.3.3 Pemangkasan Ensemble

Jelas bahwa lebih banyak tidak berarti lebih baik, terutama dalam kasus klasifikasi gabungan. Zhou
et al. [432] mempresentasikan analisis yang sesuai untuk masalah regresi, di mana mereka
merumuskan kondisi setelah menghapus satu model dari ensemble memiliki dampak positif untuk
kinerja ensemble.

{ Ckeopnutotuhs3a.n} 1b.eMrdaarsiaprekratinmabtaunragnkapnemanusnagmutbaenl sudaerarhmanaayoyraitnags dtearndiri


dari tiga kelas Π = Ψ 1, Ψ 2, Ψ 3 membuat
kesalahan klasifikasi individu secara bersama-sama independen. Membiarkan P. Sebuah( Ψ 1), P. Sebuah( Ψ 2), dan

P. Sebuah( Ψ 3) menunjukkan akurasi klasifikasi dan biarkan Ψ 1 menjadi kelas terbaik dari kolam renang Π. Probabilitas
akurasi dari ensembel kelas diberikan oleh
rumus berikut:

P. Sebuah( Π) = P. Sebuah( Ψ 1) P. Sebuah( Ψ 2) P. Sebuah( Ψ 3) + P. Sebuah( Ψ 1) P. Sebuah( Ψ 2) ( 1 - P. Sebuah( Ψ 3)) +

+ P. Sebuah( Ψ (3.16)
1) ( 1 - P. Sebuah( Ψ 2)) P. Sebuah( Ψ 3) + ( 1 - P. Sebuah( Ψ 1)) P. Sebuah( Ψ P. Sebuah( Ψ 3)
2)

Ini adalah kemungkinan bahwa setidaknya dua klasifikasi membuat keputusan yang tepat. Juga,
mudah untuk memberikan contoh ketika akurasi ensem-
ble lebih rendah dari kelas terbaik dari pool, misalnya if P. Sebuah( Ψ 1)

= 0,8, P. Sebuah( Ψ 2) = 0,7, dan P. Sebuah( Ψ 3) = 0,6 lalu P. Sebuah( Π) = 0,788 < P. Sebuah( Ψ 1). Contoh serupa juga
dapat ditemukan di [214]. Mari kita coba
ditions untuk akurasi probabilitas masing-masing klasifikasi dalam kumpulan yang kombinasi mereka
dapat berdampak positif terhadap kinerja keseluruhan dari ensembel. Menurut 3.16, ada baiknya
menggabungkan klasifikasi jika ensembel kelas mencapai akurasi yang lebih tinggi daripada kelas
individu terbaik.
lebih baik, yaitu P. Sebuah( Π)> P. Sebuah( Ψ 1), dan selanjutnya kita dapat merumuskan kondisi sebagai berikut:

P. Sebuah( Ψ 2) P. Sebuah( Ψ 3)

1 + 2 P. Sebuah( Ψ 2) P. Sebuah( Ψ 3) - P. Sebuah( Ψ 2) - P. Sebuah( Ψ -P (3.17)


3)
(ΨSe)bu<ah
01

Interpretasi grafis dari ketergantungan tersebut disajikan pada Gambar 3.6.

Sebagaimana dibahas di atas, pertimbangan memiliki sifat teoretis saja, dan lebih baik kecuali untuk
tugas-tugas praktis. Oleh karena itu kita harus mengusulkan metode yang biasanya didasarkan pada
metrik yang disebutkan untuk memilih ansambel yang paling berharga apa yang disebut "pemangkasan
ansambel" [247] di bagian sebelumnya. Karena kompleksitas komputasi yang tinggi dari pemangkasan
ansambel, beberapa pendekatan yang diusulkan menurut [377]:
3.3 Pemangkasan Ensemble 1
1
( P. Sebuah( Ψ 2) P. Sebuah( Ψ 3)) / ( 1 + 2 P. Sebuah( Ψ 2) P. Sebuah( Ψ 3) - P. Sebuah( Ψ 2) - P. Sebuah( Ψ 3)) - P. Sebuah( Ψ 1)

0.95

0.9 P. Sebuah( Ψ 1) = 0,55


P. Sebuah( Ψ 1) = 0.65
P. Sebuah( Ψ 1) = 0,75
P. Sebuah( Ψ 1) = 0.85
0.85
P. Sebuah( Ψ 1) = 0.95

0.8
Ψ 2)
Sebuah(

0,75
P.

0.7

0.65

0.6

0,55

0,5
0,5 0,55 0.6 0.65 0.7 0,75 0.8 0.85 0.9 0.95 1
P. Sebuah( Ψ 3)

Gambar 3.6 Ketergantungan antara keakuratan klasifikasi individu terbaik dalam kumpulan tiga klasifikasi dan
sisanya

• Metode berbasis peringkat gunakan ukuran evaluasi untuk peringkat klasifikasi dan pilih hanya yang
terbaik pertama. Sebagai kriteria evaluasi, ukuran keragaman biasanya digunakan. Margineantu dan
Ditterich mengusulkan untuk menggunakan kappa-statistik yang disebutkan (3.3) untuk memesan setiap
kemungkinan pasangan klasifikasi dan memilih sejumlah model terbaik [244]. Dalam karya yang sama,
penulis mengusulkan untuk menerapkan Mengurangi-Kesalahan Pemangkasan menambahkan sejumlah
klasifikasi tetap satu per satu ke ensembel sesuai dengan akurasinya, dan kemudian memproses tahap
berikutnya dari algoritme secara berulang untuk memeriksa bahwa jika mengganti klasifikasi yang dipilih
dengan kelas yang tidak dipilih dapat meningkatkan akurasi ensembel. Menggunakan pendekatan
pembelajaran penguatan untuk ini

tugas disajikan di [276].


• Metode berbasis pengelompokan terdiri dari dua fase. Pada fase pertama, mereka
mengelompokkan kumpulan klasifikasi menurut kriteria sebagai ukuran Coincident [121] atau
Double-fault diversity [216]. Fase selanjutnya bertanggung jawab untuk pemangkasan setiap cluster.
Dua pendekatan utama dapat ditemukan:
- Kelas baru dilatih untuk setiap cluster [16]

- Satu klaster dari tiap klaster dipilih, misalnya klaster yang paling jauh dari klaster yang tersisa
[121], atau paling akurat di klaster tertentu [293]. Masalah pentingnya adalah bagaimana
memperbaiki jumlah cluster yang berdampak pada kinerja ensemble [228]. Lebih lanjut, ada karya
penting dari Inoue dan Narihisa [158] yang menerapkan SOM ( Pengorganisasian Diri

Pemetaan) jaringan saraf tiruan untuk masalah yang sedang dipertimbangkan.


• Pemangkasan berbasis pengoptimalan disajikan di Alg. 31, dan metode
pertimbangkan pemangkasan ansambel sebagai masalah pengoptimalan dan kebanyakan dari mereka

menggunakan teknik heuristik [318, 17], algoritme evolusioner [432, 112], atau
teknik kompetitif berdasarkan validasi silang [71] untuk menyebutkan hanya beberapa. Untuk tugas
klasifikasi, biaya untuk memperoleh nilai fitur (yang dapat diartikan sebagai harga untuk
pemeriksaan atau waktu yang diperlukan untuk mengumpulkan data untuk pengambilan keputusan)
memainkan peran kunci, dan ini harus dipertimbangkan selama pemangkasan ansambel.
Sementara itu, Krawczyk dan Wozniak menggunakan pendekatan genetik untuk membentuk
ansambel dengan kesalahan klasifikasi minimal dalam batas biaya tetap [201], sedangkan
Jackowski et al. [161] mengusulkan kriteria baru berdasarkan proposisi EG2 [268] yang disajikan
pada Tab.2.2. Di satu sisi, ia mempertimbangkan akurasi ensembel, tetapi di sisi lain biayanya
terkait dengan jumlah biaya perolehan atribut yang digunakan oleh masing-masing klasifikasi.

Algoritma 31. Kerangka pemangkasan ansambel


Memerlukan: kumpulan kelas dasar Π init
Memastikan: kumpulan kelas dasar yang dipilih Π, dimana | Π | ≤ | Π init |
1: Π = ∅
2: untuk setiap kemungkinan kombinasi Π init melakukan

3: jika kombinasi tertentu dari Π init lebih baik dari Π kemudian


4: Π = kombinasi tertentu dari Π init
5: berakhir jika

6: berakhir untuk

3.4 Aturan Kombinasi

Masalah penting lainnya dari desain klasifikasi gabungan adalah pilihan metode pengambilan keputusan
kolektif, dan biasanya blok ini disebut aturan kombinasi, penggabung, atau fuser. Seperti disebutkan
sebelumnya, beberapa karya mempertimbangkan kualitas peramal sebagai model kombinasi referensi
[408]. Ini adalah model kombinasi abstrak, di mana jika setidaknya salah satu klasifikasi individu
mengenali objek dengan benar, maka komite mereka menunjuk ke kelas yang benar juga. Beberapa
penelitian menggunakan peramal dalam percobaan komparatif untuk menunjukkan batas kualitas komite
klasifikasi [379], dan untuk beberapa metode fusi itu adalah batas sebenarnya [419]. Namun, kita harus
sangat berhati-hati, karena jika kita mempertimbangkan masalah dikotomi dimana kita memiliki dua
klasifikasi individu yang kita miliki: kelas acak dan kelas kedua yang selalu mengembalikan keputusan
yang berlawanan, maka peramal tidak pernah salah. Oleh karena itu, ini bukan model referensi yang
baik, dan harus diperhatikan bahwa kualitasnya tidak berhubungan dengan kualitas kelas Bayes yang
optimal. Juga Raudys [301] memperhatikan itu peramal adalah sejenis ukuran kualitas dari kelompok
klasifikasi individu tertentu. Mari kita sistematisasi metode fusi kelas.
3.4 Aturan Kombinasi 1
1
3.4.1 Taksonomi

Kita dapat membedakan beberapa taksonomi dari aturan kombinasi sebagai blok kombinasi terlatih dan
tidak terlatih, atau fuser berdasarkan label kelas atau fungsi pendukung. Kami akan fokus pada yang
kedua, tetapi kami juga akan membahas metode pelatihan fuser yang dipilih.

3.4.2 Fuser Berdasarkan Tanggapan Klasis

Kelompok metode pertama mencakup algoritma pemungutan suara [31, 422]. Keputusan dibuat sesuai dengan
cara yang digambarkan pada Gambar 3.7

kelas 1

label kelas

pengklasifikasi 2

obyek
. label kelas

. kombinasi keputusan

. aturan

label kelas

pengklasifikasi n

Gambar 3.7 Fuser berdasarkan label kelas

Awalnya, hanya skema pemungutan suara mayoritas yang diterapkan, dan ada tiga versi utama
pemungutan suara mayoritas:

• Semua klasifikasi setuju (voting dengan suara bulat)

• Setidaknya lebih dari separuh jumlah klasifikasi setuju (mayoritas sederhana) Jumlah suara
• terbanyak setuju, baik jumlah suara tersebut melebihi 50% atau tidak (suara jamak,
suara terbanyak)

Kelas gabungan membuat keputusan menurut aturan voting mayoritas menggunakan rumus berikut

n

Ψ (x) = argmax.dll [ Ψ n ( x) = i] (3.18)
saya ∈M
k=1

di mana [] menunjukkan tanda kurung Inverson. Contoh voting mayoritas dan perbandingannya dengan
oracle combiner disajikan pada Gambar 3.8.
Kesalahan pemungutan suara mayoritas (untuk klasifikasi yang salah dengan probabilitas yang sama,
tetapi kesalahannya independen bersama) diperkirakan pada tahun 1794 menurut persamaan Bernoullis,
dan hasil ini dikenal sebagai Teorema Juri Condorcet [ 331]. Mari kita asumsikan bahwa kita memiliki
kumpulan kelas seperti itu
Π = {Ψ 1, Ψ 2, ..., Ψ n} dan
∀ k ∈ { 1, ..., n} P e ( Ψ k) = p (3.19)

kemudian

n+1(
)
∑2 n n -1

P. e ( Ψ) = p k( 1 - p) n + 2 -k (3.20)
n-1 2+
1

k= 2+
1
k
Ketergantungan antara kualitas suara mayoritas dengan sekelompok klasifikasi membuat kesalahan
independen bersama dengan kualitas dan kardinalitas yang sama dari kelompok tersebut digambarkan
pada Gambar. 3.9. Perlu dicatat bahwa Vardeman dan Morris menggarisbawahi bahwa pengamatan ini
adalah " relevan hanya jika diterapkan pada kesalahan yang independen bersama (tidak hanya tidak
berkorelasi, atau ekuivalen, independen berpasangan) (dan tidak pada klasifikasi) ”[390]. Banyak
kesimpulan yang diketahui mengenai kualitas klasifikasi dari klasifikasi yang dianggap telah diturunkan
secara analitik, tetapi ini biasanya hanya valid di bawah batasan yang kuat, seperti kasus tertentu dari
suara mayoritas [135] atau pembuatan asumsi yang sesuai. Namun, dalam banyak kasus asumsi dan
batasan seperti itu tidak terlalu berguna untuk menyelesaikan masalah praktis. Di sini, kami harus
menyebutkan karya-karya itu

kelas yang benar

pengklasifikasi # 1

pengklasifikasi # 2

pengklasifikasi # 3

peramal

pemungutan suara mayoritas

Gambar 3.8 Keputusan yang dibuat oleh sekelompok klasifikasi menggunakan oracle dan aturan voting mayoritas untuk masalah
mainan

0,5

0.45

0.4

0.35

0.3
Ψ)

0.25
e(

k=1
P.

0.2

0.15 k=5
k=3 k = 51
0.1 k = 31 k = 101
k = 11
0,05 k = 151

0
0 0,05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0,5
p

Gambar 3.9 Ketergantungan antara kualitas suara mayoritas dengan kumpulan klasifikasi dan kardinalitasnya
menurut (3.20)
yang mengusulkan pelatihan beban, yang tampaknya menjadi metode alternatif yang menarik [408, 413].

Karya-karya selanjutnya difokuskan pada kualitas klasifikasi dari klasifikasi gabungan diturunkan
secara analitis, tetapi mereka biasanya hanya valid di bawah batasan yang kuat [135], yang tidak berguna
dari sudut pandang praktis. Ada banyak metode pemungutan suara yang berbeda sebagai pemungutan
suara mayoritas yang disebutkan di atas [422] dan jenis yang lebih maju berdasarkan bobot pentingnya
keputusan yang datang dari anggota komite tertentu [214, 386]. Memperlakukan proses pemilihan bobot
sebagai proses pembelajaran terpisah adalah metode alternatif [138, 158]. Selain itu, Shlien [335]
menggabungkan pohon keputusan yang mencapai konsensus menggunakan teori Dempster dan Shafer,
dan Wozniak [411] melatih fuser menggunakan metode pelatihan yang mirip dengan pembelajaran
perceptron. Pseudocode dari proposisi terakhir ditampilkan di Alg. 32.

Kelas gabungan Ψ membuat keputusan berdasarkan rumus berikut:

n

Ψ (x) = argmax.dll [ Ψ k ( x) = j] w k, (3.21)
j ∈M
k=1

dimana w k adalah bobot yang ditetapkan ke kelas Ψ k dan [] singkatan dari kurung Inverson.

Mari kita perhatikan bahwa bobot yang digunakan dalam (3.21) memainkan peran kunci dalam menetapkan

kualitas Ψ. Ada banyak penelitian yang didedikasikan untuk konfigurasi bobot,

misalnya, dalam [379, 135] penulis mengusulkan untuk melatih fuser.


Kami dapat membedakan jenis pemungutan suara berbobot berikut:

1. Bobot w k ditugaskan ke klasifikasi - misalnya, Kuncheva [214] menyatakan


bahwa bobot harus ditetapkan sesuai

P. Sebuah Ψ
wk∝ k (3.22)
1 - P. Sebuah( Ψ k)

dimana P. Sebuah Ψ k menunjukkan probabilitas keakuratan k- kelas th.


2. Bobot w k, j ditugaskan untuk setiap kelas dan setiap kelas.
3. Bobot w k ( x) ditugaskan ke setiap kelas, setiap kelas, dan sebagai tambahan
mereka bergantung pada nilai vektor fitur x.
4. Bobot w k, j ( x) ditugaskan ke setiap kelas, setiap kelas, dan penambahan-
sekutu mereka bergantung pada nilai fitur x.

Jelas bahwa untuk model pemungutan suara tersebut di atas tidak mungkin untuk mendapatkan klasifikasi
yang lebih baik dari pada peramal, tetapi satu-satunya model yang didasarkan (parsial) pada label kelas yang dapat
mencapai hasil yang lebih baik daripada peramal
adalah kelas yang menghasilkan keputusan berdasarkan label kelas yang diberikan oleh kumpulan n klasifikasi
individu dan nilai vektor fitur. Itu disajikan pada Gambar.
3.10. Dengan kata lain, dalam hal ini keputusan penggabungan kelas juga bergantung pada nilai vektor
fitur. Selain itu, model yang dijelaskan dianggap di beberapa makalah sebagai [301, 302, 158].
Algoritma 32. Perhitungan Bobot Adaptif
Memerlukan: LS - set pembelajaran,

Sebuah Π = {Ψ 1, Ψ 2, ..., Ψ n} - kumpulan klasifikasi individu


T - jumlah iterasi
Memastikan: set bobot yang ditetapkan untuk klasifikasi dalam Π - w 1, w 2, ..., w n
1: t: = 0
2: untuk i: = 1 untuk n melakukan
1
3: w saya( t): =
n
4: memperkirakan P. Sebuah( Ψ saya)

5: berakhir untuk

6: ulang
7: memperkirakan P. Sebuah( Ψ (t)), dimana Ψ (t) adalah gabungan kelas menggunakan sebuah pool Π dan set

dari bobot { w 1 ( t), w 2 ( t), ..., w n ( t)} menormalkan: =


8: 0
9: t: = t + 1
10: untuk i: = 1 untuk n melakukan ( )
P. Sebuah( Ψ saya) - P. Sebuah( Ψ (t - 1)) ( t + γ)
11: w saya( t): = w saya( t - 1) +

12: jika w saya( t)> 0 kemudian

13: menormalkan: = menormalkan + w saya( t)


14: lain
15: w saya( t): = 0
16: berakhir jika

17: berakhir untuk

18: jika menormalkan ≤ 0 kemudian

19: w saya( T): = w saya( t - 1)


20: t: = T
21: lain
22: untuk i: = 1 untuk n melakukan
w saya( t)
23: w saya( t): =
menormalkan
24: berakhir untuk

25: berakhir jika

26: sampai t <T


27: untuk i: = 1 untuk n melakukan

28: w i: = w saya( T)
29: berakhir untuk

Untuk membuat keputusan tentang x gunakan aturan keputusan berikut Ψ (x) =


∑T
argmax.dll w t [ Ψ t ( x) = i], di mana [] menunjukkan tanda kurung Inverson
saya ∈M t=1
kelas 1

label kelas

pengklasifikasi 2

obyek
. label kelas
kombinasi
. aturan keputusan

.
label kelas

pengklasifikasi n

nilai attrubute

Gambar 3.10 Fuser berdasarkan label kelas dan informasi tambahan tentang nilai atribut

Itu Ruang Pengetahuan Perilaku ( Metode BKS) diusulkan oleh Huang dan Suen [153], dan tahap
pelatihan BKS bertujuan untuk menetapkan label paling populer dari satu set pembelajaran ke
masing-masing n- kombinasi dari respon klasifikasi individu. Tahap penting dari proses ini adalah
menetapkan label ke yang diberikan n- kombinasi dari respon klasifikasi individu. Dalam kasus keputusan
yang ambigu, jika lebih dari satu kelas diklasifikasikan oleh kumpulan klasifikasi individu sebagai kelas
lainnya, kita harus menetapkan keputusan secara acak atau memilih kelas dengan dukungan tertinggi
(misalnya, kemungkinan besar). Lebih baik jika kita bisa mendapatkan nilai dukungan, atau kita bisa
menggunakan keputusan paling populer di antara klasifikasi individu. Selain itu, pseudocode BKS
disajikan di Alg. 33, dan contoh singkat diberikan dalam Contoh 3.2. Jumlah n-

kombinasi cukup tinggi M n, jadi BKS membutuhkan perangkat pembelajaran yang cukup besar. Estimasi
analitis ketergantungan antara kesalahan BKS dan ukuran himpunan pembelajaran disajikan di [303]

Contoh 3.2. Contoh metode BKS

Biarkan pembelajaran berikut ini ditetapkan untuk tugas dua klasifikasi kelas

• •
• •
7 8 9 1 0, 0 ), ( x 11 , 0 ) , ( x 12 , 0),
•(x 1, 0), ( x 2 , 0), ( x 3 , 0), ( x 4 , 0 ), ( x 5, 0 ) , ( x 6 ,0 ), •
LS = •
1 ) , ( x 23, 1), ( x 24, 1), •
• ( x •
• 13, 1), ( x 14, 1), ( x 15, 1), ( x 16, 1), ( x 17, 1), ( x 18, 1), • • ( x 19, 1), ( x 20, 1), ( x 21, 1), ( x 22,

( x 25, 1), ( x 26, 1), ( x 27, 1), ( x 28, 1), ( x 29, 1), ( x 30, 1)

dan kumpulan klasifikasi individu Π = Ψ 1, Ψ 2, Ψ 2. Klasifikasi objek dari LS disajikan di Tab.3.3.

Jika kita memiliki objek untuk diklasifikasikan, maka kita harus meminta setiap klasifikasi individu untuk
keputusannya dan kemudian mengembalikan keputusan akhir menurut Tab. 3.4.
Algoritma 33. Metode Ruang Pengetahuan Perilaku
Req L u S kemarahan: Π = {Ψ 1, Ψ 2, ..., Ψ n} - kumpulan kelas dasar
- set pembelajaran

Memastikan: berlabel M n n- kombinasi label kelas yang dikembalikan oleh masing-masing kelas
si fi ers dari Π
1: indeks: = 1
2: untuk k 1: = 1 untuk M melakukan

3: untuk k 2: = 1 untuk M melakukan

4: ...

5: untuk k n: = 1 untuk M melakukan

6: c 1 [ indeks]: = k 1
7: c 2 [ indeks]: = k 2
8: ...

9: c n [ indeks]: = k n
10: indeks: = indeks + 1
11: berakhir untuk

12: berakhir untuk

13: berakhir untuk

14: untuk k: = 1 untuk N melakukan

15: Temukan indeks untuk itu

c 1 [ indeks] = Ψ 1 ( x k) ∧ c 2 [ indeks] = Ψ 2 ( x k) ∧, ..., ∧ c n [ indeks] = Ψ n ( x k)


16: l [indeks, i k]: = l [indeks, i k] + 1
17: berakhir untuk

18: untuk indeks: = 1 untuk M n melakukan

∑M
19: jika l [indeks, k] = 0 kemudian
k=1

20: label [indeks] ← pilih label dari M secara acak 21:


lain
22: label ← temukan kumpulan label paling populer yang terkait dengan indeks,
23: jika | label | > 1 kemudian

24: label [indeks] ← pilih label dari label secara acak


25: lain jika | label | = 1 kemudian

26: label [indeks] ← dapatkan hanya label dari label


27: lain
28: ← Dapatkan itu paling populer label dari
{ lca1b[eiln[dinedkesk],sc] 2[ indeks], ..., c n[ indeks]} atau pilih secara acak
29: berakhir jika

30: berakhir jika

31: berakhir untuk

32: Untuk membuat keputusan tentang x gunakan aturan keputusan berikut Ψ (x) =
Ψ (Ψ 1( x), Ψ 2( x), ..., Ψ n( x))
Tabel 3.3 Klasifikasi contoh dari LS untuk Contoh 3.2

contoh Ψ 1 Ψ2 Ψ3 contoh Ψ 1 Ψ2 Ψ3
x1 0 1 0 x 16 1 0 1
x2 1 1 0 x 17 1 0 0
x3 1 0 1 x 18 1 1 0
x4 0 0 0 x 19 0 0 1
x5 0 1 1 x 20 1 0 1
x6 1 0 1 x 21 1 1 0
x7 1 0 0 x 22 1 0 0
x8 1 0 0 x 23 0 0 1
x9 0 0 1 x 24 0 1 1
x 10 1 1 1 x 25 0 0 1
x 11 1 1 0 x 26 1 1 0
x 12 1 0 1 x 27 1 0 1
x 13 0 1 0 x 28 0 0 1
x 14 0 1 0 x 29 1 1 0
x 15 1 0 1 x 30 1 1 1

Tabel 3.4 Jumlah contoh dan label untuk setiap kombinasi yang mungkin dari tanggapan klasifikasi individu untuk
Contoh 3.2

benda dari benda dari


Ψ Ψ Ψ 3 kelas 0 kelas 1 beri label pada komentar

0 0 0 1 0 0
0 0 1 1 4 1
0 1 0 2 2 0 karena 0 adalah la- paling populer
bel di antara klasifikasi individu

0 1 1 0 1 1
1 0 0 2 2 0 karena 0 adalah la- paling populer
bel di antara klasifikasi individu

1 0 1 3 4 1
1 1 0 2 4 1
1 1 1 1 1 1 karena 1 adalah la- paling populer
bel di antara klasifikasi individu

Proposisi menarik lainnya dirumuskan oleh Ruta dan Gabrys [317]. Mereka melamar Organisasi
Multistage dengan Voting Mayoritas ( MOMV), dan yang merupakan sejenis sistem pemungutan suara dua
tahap. Pada tahap pertama, masing-masing klasifikasi dikelompokkan berdasarkan keluarannya, dan
masing-masing kelompok memilih
keputusannya sendiri. Kemudian keputusan terakhir dibuat atas dasar keputusan kelompok dengan menggunakan aturan

pemungutan suara yang sama. Kerangka kerja ini dapat diperpanjang dengan menambahkan tahapan pemungutan suara

berikutnya dengan mengelompokkan keputusan dari kelompok, dll. Menarik bahwa klasifikasi seperti itu dapat mengungguli

pemungutan suara mayoritas menggunakan kumpulan klasifikasi individu asli.

Akhirnya, kami harus menjelaskan Generalisasi Bertumpuk (Bertumpuk) [ 406], yang merupakan
kerangka kerja paling umum untuk kombinasi klasifikasi berdasarkan label kelas. Banyak pendekatan yang
disajikan sebelumnya sebagai pemungutan suara berbobot, dapat dikenali sebagai penumpukan, dan juga
perlu dicatat bahwa penumpukan tidak dibatasi oleh peramal aturan kombinasi. Juga, ide tentang algoritme
digambarkan dalam Alg. 34, tapi mari kita jelaskan secara singkat.

Algoritma 34. Menumpuk


Memerlukan: Π = {Ψ 1, Ψ 2, ..., Ψ n} - kumpulan klasifikasi dasar atau metode mereka
l L aerSni-nsget pembelajaran

kereta () - algoritma pelatihan untuk aturan kombinasi


Ens ure: Ψ (x) = Ψ (Ψ 1 ( x), Ψ 2 ( x), ..., Ψ n ( x))
1: L ¯ S̄ = ∅
2: untuk L k S: = 1 untuk N melakukan

3:
¯: = L ¯ S̄ ∪ (( Ψ 1 ( x k), Ψ 2 ( x k), ..., Ψ N ( x k))), j k)
4: berakhir untuk (

5: Ψ ← melatih L) ¯ S̄
6:
7: Untuk membuat keputusan tentang x gunakan aturan keputusan berikut Ψ (x) =
Ψ (Ψ 1( x), Ψ 2( x), ..., Ψ n( x))

Pada dasarnya pelatihan dibagi menjadi dua tahap. Fase pertama terkait dengan pelatihan klasifikasi individu,
dan fase kedua bertanggung jawab untuk melatih aturan kombinasi (juga disebut meta-class atau meta-level class).
Kita dapat membayangkan bahwa kumpulan klasifikasi individu diberikan sebelumnya, tetapi untuk pelatihan
aturan kombinasi kita memerlukan perangkat pembelajaran juga. Biasanya jika kita menggunakan satu set
pembelajaran, kita harus melindungi kelas agar tidak terlalu pas. Oleh karena itu, disarankan untuk mengecualikan
kumpulan data yang digunakan untuk pelatihan aturan kombinasi dari kumpulan data yang digunakan untuk
pelatihan kelas individu, misalnya, dengan menggunakan validasi silang. Kami harus menyebutkan bahwa
penumpukan biasanya menggunakan kumpulan kelas yang heterogen untuk memastikan keragamannya selama
pembelajaran, atau kami dapat melatih mereka secara mandiri dan menggunakan kumpulan pembelajaran hanya
untuk pelatihan aturan kombinasi.
3.4.3 Pelaku Berdasarkan Diskriminan

Kelompok kedua dari metode pengambilan keputusan kolektif didasarkan pada apa yang disebut fungsi
pendukung. Pertama, file Borda 2 menghitung [ 146] harus disebutkan, yang membuat keputusan dengan
memberikan masing-masing kelas sejumlah poin yang sesuai dengan posisi di mana ia diurutkan oleh
masing-masing kelas. Ide tersebut disajikan dalam contoh berikut.

Contoh 3.3. Mari kita pertimbangkan masalah klasifikasi lima kelas, dan mari kita asumsikan
bahwa kami memiliki tiga klasifikasi yang dapat kami gunakan, Ψ 1, Ψ 2, dan Ψ 3, yang dapat mengembalikan peringkat untuk

setiap kelas untuk observasi tertentu. Contoh yang diberikan x milik kelas

1, dan hasil klasifikasi disajikan pada Tab. 3.5.

Tabel 3.5 Peringkat dikembalikan oleh klasifikasi dari Contoh 3.3

pangkat

Ψ1 Ψ2 Ψ nilai
2 1 2 5
1 3 4 4
5 4 1 3
4 5 5 2
3 2 3 1

Mari menghitung peringkat untuk setiap kelas:

peringkat untuk kelas-1 4 + 5 + 3 = 12 peringkat

untuk kelas-2 5 + 1 + 5 = 11 peringkat untuk

kelas-3 1 + 4 + 1 = 6 peringkat untuk kelas-4 2

+ 3 + 4 = peringkat 9 untuk kelas-5 3 + 2 + 2 = 8

Kemudian keputusan terakhir dikembalikan dengan menggunakan kelas gabungan Hitungan borda
adalah kelas 1.

Mari kita perhatikan bahwa metode pemungutan suara hanya menggunakan kelas dengan peringkat paling tinggi, maka hitungan

Borda mampu mengungguli peramal, Misalnya, jika peringkat untuk Contoh

3.3 terlihat seperti yang disajikan pada Tab. 3.6.

Bentuk utama dari fungsi pendukung adalah belakang probabilitas [92], terkait dengan model
probabilistik dari tugas pengenalan pola yang diberikan [6, 31, 185], tetapi secara umum nilai fungsi
tersebut adalah ukuran dukungan yang diberikan untuk kelas yang dibedakan, sebagai keluaran
jaringan saraf atau fungsi keanggotaan fuzzy. Ada banyak pendekatan yang menangani masalah ini
sebagai [299], di mana fuser proyektif yang optimal disajikan. Opitz dan Shavlik [271]

2 Jean-Charles, chevalier de Borda (1733 1799) seorang matematikawan Perancis, fisikawan, ilmuwan politik, dan

pelaut.
Tabel 3.6 Peringkat dikembalikan oleh klasifikasi dari Contoh 3.3

pangkat

Ψ1 Ψ2 Ψ 3 nilai
2 3 2 5
1 1 1 4
5 4 4 3
4 5 5 2
3 2 3 1

gabungan keluaran jaringan saraf sesuai dengan akurasinya. Rokach dan Maimon [310] menerapkan
Naïı̈ve Bayes sebagai metode kombinasi. Beberapa sifat analitis dan evaluasi eksperimental metode
agregasi disajikan dalam [109, 138, 379, 412]. Pada dasarnya metode agregasi yang tidak
memerlukan prosedur pembelajaran menggunakan operator sederhana sebagai nilai maksimum,
minimum, jumlah, atau rata-rata. Namun, menurut pekerjaan Duin's [93], mereka biasanya tunduk
pada kondisi yang sangat ketat, yang sangat membatasi penggunaan praktisnya. Juga, kerangka dari
klasifikasi gabungan berdasarkan fungsi pendukung dari masing-masing klasifikasi digambarkan pada
Gambar. 3.11. Perlu disebutkan bahwa pendekatan penting yang disebut 'campuran pakar' [165, 164]
menggabungkan keluaran klasifikasi 'menggunakan apa yang disebut fungsi gerbang tergantung pada
input klasifikasi. Selain itu, Tresp dan Taniguchi [376] mengusulkan fungsi bobot linier untuk model ini.
Berdasarkan model tersebut, Cheeseman [51] mengusulkan campuran Gaussian.

memilih keputusan dasar dari


komputasi hasil

pengklasifikasi
memilih 1 keputusan dasar dari
obyek komputasi hasil hitung keputusan
nilai-nilai umum
diskriminan

hitung
nilai-nilai diskriminan

memilih keputusan dasar dari


komputasi hasil

hitung
nilai-nilai diskriminan

Gambar 3.11 Ide dari klasifikasi gabungan. berdasarkan fungsi pendukung


.
.
penggolong n

Mari kita asumsikan bahwa setiap klasifikasi individu membuat keputusan berdasarkan nilai-nilai
diskriminan. Membiarkan F ( l) ( i, x) menunjukkan fungsi yang ditugaskan ke kelas saya untuk nilai tertentu x,
dan yang digunakan oleh l- kelas th Ψ ( l).

Kelas gabungan Ψ (x) menggunakan aturan keputusan berikut [164]

Ψ (x) = i jika F saya( x) = maks (3.23)


k∈ FMk ( k,
dimana
x),

n n
∑ ∑
F l ( x) = w l F l, aku ( x) dan w l = 1. (3.24)
l=1 i=1
Mari kita pertimbangkan kemungkinan pemberian bobot [416]:

1. Bobot bergantung pada klasifikasi - ini adalah pendekatan tradisional di mana bobot dihubungkan
dengan kelas dan masing-masing diskriminan dari l - th
kelas diberi bobot dengan nilai yang sama w l. Estimasi kesalahan probabilitas dari klasifikasi
tersebut dapat ditemukan di [412].
2. Bobot bergantung pada klasifikasi dan vektor fitur - bobot w l( x) adalah sebagai-
masuk ke l- kelas th dan untuk diberikan x yang memiliki nilai yang sama
untuk setiap penjahat yang digunakan olehnya.

3. Bobot tergantung pada kelas dan nomor kelas - bobot w l, aku ditugaskan
ke l - kelas th dan saya- kelas th. Untuk kelas tertentu, bobot
ditugaskan untuk kelas yang berbeda bisa berbeda.
4. Bobot bergantung pada kelas, nomor kelas, dan vektor fitur - bobot
w l, aku ( x) ditugaskan ke l- kelas th, tapi untuk diberikan x nilainya bisa beragam untuk diskriminan
berbeda yang ditugaskan untuk setiap kelas.

Wozniak dan Zmyslony [419] berpendapat bahwa arah yang paling menjanjikan adalah bahwa
bobot bergantung pada nomor klasifikasi dan label kelas, karena kasus di mana bobot bergantung pada
vektor fitur adalah de facto masalah estimasi fungsi yang membutuhkan asumsi tambahan tentangnya
dan yang biasanya mengarah ke kasus estimasi fungsi parametrik. Kasus yang dipertimbangkan tidak
memerlukan asumsi tambahan dan perumusan tugas pengoptimalan cukup sederhana. Mereka
mengusulkan dua implementasi sederhana dari aturan kombinasi. Yang pertama dalam bentuk
perceptron satu lapis dapat dilatih sesuai dengan prosedur tipikal, dan model fuser yang patut dicontoh
digambarkan pada Gambar 3.12.

Pendekatan lain yang diajukan oleh penulis yang sama [413] menggunakan pendekatan evolusioner, dan
bobotnya dapat direpresentasikan sebagai berikut

W = [W 1, W 2, ..., W n] (3.25)

dimana

W i = [ w 1, saya, w 2, saya, ..., w 2, saya] (3.26)

Ide prosedur pembelajaran menggunakan algoritma evolusi standar [13, 14], yang digambarkan
pada Gambar. 3.13
Untuk setiap anggota populasi, nilai fungsi kesesuaian Q (W)
dihitung menurut

Q (W) = P. Sebuah( Ψ (W)) (3.27)

dimana Ψ (W) menunjukkan klasifikasi gabungan menggunakan bobot yang diwakili oleh W
dan P. Sebuah singkatan dari frekuensi kesalahan yang dilakukan pada set pembelajaran.
F
pengklasifikasi # 1 1,1 w 1,1

F 1,2 w 1,2
F
.
1
.

F.1, n w 1, n

pilih keputusan dengan dukungan maksimal


pengklasifikasi # 2

.
.
. keputusan saya
. .
. .
F M, 1 .
F M, 2 .

w M, 1
pengklasifikasi #n w M, 2
.
F M
.

F.M N w MN

Gambar 3.12 Fuser diimplementasikan sebagai perceptron satu lapis

MULAILAH

Menyiapkan parameter generasi Populasi Penilaian populasi

Mempromosikan elit Operator evolusi (mutasi, saling silang) Penilaian populasi


Gambar
Melindungi dari overtraining

tidak kondisi keluar Iya

BERHENTI

Gambar 3.13 Ide algoritma optimasi bobot kelas berdasarkan pendekatan evolusioner

Ciri-ciri metode yang diusulkan dapat diuraikan sebagai berikut:

1. Sejumlah anggota tertentu yang dicirikan oleh kebugaran tertinggi diambil dari populasi. Elit
dimasukkan ke dalam populasi keturunan, tidak diperlakukan dengan mutasi, persilangan, maupun
prosedur seleksi.

2. Mutasi melibatkan penambahan vektor angka yang dibuat secara acak sesuai dengan
distribusi kerapatan normal (dengan mean sama dengan 0 dan deviasi standar disetel ke 1).
3. Operator crossover menghasilkan satu o anggota pegas berdasarkan dua orang tua menurut
aturan crossover dua titik.
4. Seleksi individu dari populasi dibentuk dengan menggabungkan populasi keturunan dan sekumpulan
individu yang diciptakan oleh mutasi dan persilangan. Probabilitas pemilihan individu tertentu
sebanding dengan nilai kesesuaiannya, menurut aturan pemilihan roda roulette.

5. Dihitung sejumlah gambar agar jumlah penduduk baru sama dengan jumlah penduduk sebelumnya,
termasuk elite yang sudah dipromosikan sebelumnya.

6. Tujuan utama dari prosedur penilaian overtraining adalah untuk menghentikan proses optimasi, jika
pembelajaran lebih lanjut dapat menyebabkan hilangnya kemampuan generalisasi. Juga satu set
validasi digunakan untuk menghitung kesesuaian individu dengan cara yang sama, seperti untuk
penilaian populasi biasa.
7. Prosedur menghentikan proses pengoptimalan, jika penurunan hasil yang diperoleh oleh individu
terbaik diamati selama sejumlah siklus pembelajaran berikutnya.

Jika kita mempertimbangkan masalah pengenalan dua kelas hanya untuk dua kasus terakhir di mana
bobot bergantung pada kelas dan nomor kelas, adalah mungkin untuk menghasilkan kelas majemuk yang
dapat mencapai kualitas yang lebih baik daripada

peramal satu. Namun, ketika kita mempertimbangkan lebih dari dua masalah pengenalan kelas, mungkin saja
semua kasus yang disebutkan di atas mendapatkan hasil yang lebih baik daripada peramal satu [419]. Pada
bagian selanjutnya, kami akan menunjukkan beberapa sifat analitik metode fusi berdasarkan diskriminan.

Metode yang disebutkan di atas dievaluasi berdasarkan eksperimen komputer, dan hasilnya dapat
ditemukan di [413, 410].
Semua percobaan dilakukan di lingkungan Matlab menggunakan Optimization Toolbox dan
PRTools [385]. Untuk setiap percobaan kami memutuskan untuk membentuk ansambel homogen, yaitu,
ansambel yang terdiri dari lima kelas Parzen yang lemah (kelas-kelas dilatih pada subset yang dipilih
secara acak dari TS). Kualitas kelas tunggal (SB) terbaik dalam ensembel juga disajikan pada Gambar
3.14. Metode kombinasi berikut telah diuji:

• peramal

• voting mayoritas (MV)


• metode agregasi berdasarkan bobot yang bergantung pada kelas dan nomor kelas

- dilatih oleh algoritma evolusioner (AE)


-diimplementasikan sebagai one-layer perceptron (NN)

Perlu disebutkan bahwa campuran para ahli, yang dikemukakan oleh Jacobs al. [165, 164], dibahas
et dalam [138], dan diperpanjang oleh Jordan et al. [174] siapa
metode ahli campuran hierarki yang diusulkan. Pada dasarnya, metode yang diusulkan berdasarkan
pada memecah dan menaklukkan prinsip dan campuran para ahli
50

40

30

20

10

0
peramal MV NN AE SB

30

29

28

27

26

25

24

23

22

21

20
peramal MV NN AE SB

45

40

35

30

peramal MV NN AE SB

Gambar 3.14 Kesalahan klasifikasi (%) aturan kombinasi yang dipilih untuk kumpulan data tolok ukur berikut: Sirkural
(atas), Haberman (tengah), dan Higleyman (bawah)
mengusulkan untuk memilih klasifikasi yang paling kompeten (ahli) untuk kelas tertentu dan untuk observasi
tertentu diawasi oleh yang disebut jaringan gerbang. Oleh karena itu, dapat dikenali sebagai pemilihan dinamis
dari klasifikasi. Juga, keputusan akhir dari sistem semacam itu dibuat atas dasar pengambilan sampel
kelompok klasifikasi sesuai dengan kompetensi mereka, keputusan klasifikasi yang paling kompeten, atau
rata-rata tertimbang, di mana bobot bergantung pada kompetensi klasifikasi individu untuk masalah yang
diberikan, yaitu , mereka bergantung x dan label kelas. Masalah paling penting terkait dengan model yang
dibahas adalah bagaimana melatihnya, dan metode pengoptimalan yang biasanya digunakan untuk
pembelajaran jaringan saraf diterapkan untuk menangani masalah ini sebagai penurunan gradien [96]. Selain
itu, ide penting lain yang disajikan dalam [373], penulis mengusulkan untuk menggunakan fungsi pendukung
untuk kerangka generalisasi bertumpuk yang disajikan di Alg. 34.

Kuncheva dkk. diusulkan Template Keputusan kerangka kerja untuk fusi kelas [211], yang
memperkirakan profil paling khas dari jawaban individu untuk setiap kelas. Keputusan tentang objek
tertentu x dibuat berdasarkan ukuran kesamaan, yang mengembalikan kelas yang paling mirip saya diwakili
oleh keputusan
template DT saya ke objek. Representasinya dalam bentuk DP (x) dapat diberikan dengan rumus berikut

DP (x) = • (3.28)

• F 1,1 ( x) F 1,2 ( x). . . F 1, n ( x)


• F 2,1 ( x) F 2,2 ( x). . . F 2, n ( x) •


• . ... . •
. . •
. ... .

F M, 1 ( x) F M, 2 ( x) ... F M N( x)

Pseudocode dari Template Keputusan metode disajikan di Alg. 35. Ukuran kesamaan S memainkan
peran penting selama pengambilan keputusan. Kuncheva dkk. [211] membuat diskusi dan
perbandingan berdasarkan eksperimen komputer, dan beberapa ukuran telah diterapkan, seperti jarak
Euclidian kuadrat negatif atau logika fuzzy. Juga, Rogova [307] mengusulkan fuser Dempster-Shafer,
dan yang dapat dikenali sebagai sejenis Template Keputusan metode menggunakan jarak kesamaan
berdasarkan teori bukti Dempster-Shafer [423].

Sifat Analitis dari Aturan Kombinasi yang Dipilih

Pada bagian ini, kami akan menyajikan beberapa karakteristik aturan kombinasi berdasarkan fungsi
pendukung. Pertama, mari kita ambil masalah pengenalan dua kelas.
-
lem menjadi pertimbangan, dimana saya menunjukkan kelas yang benar dan saya menunjukkan yang salah. Sementara itu, kami

menganggap fuser menggunakan diskriminan dari masing-masing klasifikasi

dikalikan dengan bobot yang bergantung pada klasifikasi serta vektor fitur x hanya dan mengambil nilai dalam [0,1].
Mari kita asumsikan bahwa semua klasifikasi individu membuat keputusan yang salah, maka tidak mungkin untuk
menghasilkan fuser yang mengklasifikasikan objek dengan benar, yaitu, tidak mungkin untuk mengungguli objek. peramal.
Algoritma 35. Metode Template Keputusan
Req L u S kemarahan: Π = {Ψ 1, Ψ 2, ..., Ψ n} - kumpulan kelas dasar
- set pembelajaran

ukuran kesamaan S untuk fase keputusan


Memastikan: DT 1, DT 2, ..., DT M - templat keputusan untuk masing-masing kelas 1: untuk k: = 1 untuk M melakukan

2: DT k ← M × n matriks nol 3: berakhir untuk

4: untuk i: = 1 untuk N melakukan

5: untuk k: = 1 untuk M melakukan

6: DT k = DT k + [ k = j saya] DP (x saya)
7: berakhir untuk

8: berakhir untuk

9: untuk k: = 1 untuk M melakukan


1
10: DT k = DT k
N k
11: berakhir untuk

12:
13: Untuk membuat keputusan tentang x gunakan aturan keputusan berikut Ψ (x) =

arg M maks S (DP (x), DT


k) k = 1

Teorema 3.1

∀ x jika ∀ l ∈ { 1, ... n} Ψ l ( x) = i lalu Ψ l ( x) = i yaitu, F saya( x) <F saya( x). ( 3.29)

Bukti. Artinya itu

n n
∑ ∑
w k F i, k ( x) < w k F i, k ( x). (3.30)
k=1 k=1

Mari tulis (3.30) sebagai

n ( )

w k F i, k ( x) - F i, k ( x) < 0. (3.31)
k=1

Karena

∑n
∀ k ∈ { 1, ..., n} w k ≥ 0 dan w k> 0
k=1

dan semua klasifikasi individu membuat kesalahan

∀ k ∈ 1, ..., n ( F i, k ( x) - F i, k ( x)) < 0

oleh karena itu (3.29) selalu benar.


Membuat fuser di mana bobot hanya bergantung pada klasifikasi juga memberikan hasil yang sama, karena
ini adalah kasus khusus dari model yang disebutkan di atas. Sedangkan untuk masalah pengenalan tiga kelas,
situasinya terlihat berbeda, karena dimungkinkan untuk mendapatkan hasil yang benar bahkan jika semua
klasifikasi menunjuk pada kelas yang salah, apa yang dapat disajikan dengan contoh berikut.

Contoh 3.4. Mari kita pertimbangkan masalah pengenalan tiga kelas dan kita memiliki tiga klasifikasi individu
yang dapat kita gunakan. Mari kita asumsikan itu diberikan x termasuk dalam kelas 3. Dukungan untuk
setiap kelas dan kelas disajikan pada Tab.3.7.

Tabel 3.7 Nilai fungsi pendukung yang patut dicontoh

Kelas Dukungan untuk kelas


1 2 3
Ψ 1 ( x) 0.34 0.36 0.30
Ψ 2 ( x) 0,50 0.10 0.40
Ψ 3 ( x) 0,09 0.46 0.45

Mari perhatikan itu Ψ 1( x) = 2, Ψ 2 ( x) = 1, dan Ψ 3 ( x) = 2, dan itu berarti


semua klasifikasi membuat kesalahan tentang x, yaitu, setiap fuser berdasarkan nomor kelas

tidak dapat mengklasifikasikan objek dengan benar. Mari kita pertimbangkan klasifikasi gabungan berdasarkan diskriminan

menggunakan rata-rata fungsi pendukung yang diberikan oleh masing-masing klasifikasi. Dalam kasus kami, dukungan yang

diberikan oleh kelas ini untuk setiap kelas terlihat sebagai berikut:

F 1 ( x) = 0,31, F 2 ( x) = 0,31, F 3 ( x) = 0,38,

yang artinya x diklasifikasikan dengan benar.

Meskipun, fuser yang didasarkan pada diskriminan dapat menghasilkan keputusan yang benar
meskipun semua klasifikasi individu salah, pendekatan ini tidak menjamin bahwa fuser berkinerja lebih baik. peramal
aturan kombinasi. Pengamatan ini sangat menarik karena model ini dikenal seperti yang disajikan
sebelumnya - campuran ahli,
dan beberapa karya [174] mengenalinya sebagai pendekatan yang sangat fleksibel dan efektif untuk menghasilkan fuser

terlatih.

Mari kita pertimbangkan lagi masalah pengenalan dua kelas yang serupa, dan dalam hal ini kita
menggunakan bobot yang bergantung pada kelas dan nomor kelas. Mari kita asumsikan bahwa semua klasifikasi
individu membuat keputusan yang salah. Maka dimungkinkan untuk menghasilkan fuser yang menunjuk ke kelas
yang benar, yaitu, kita dapat menghasilkan fuser yang mengungguli peramal.

Teorema 3.2

∃ W jika ∀ l ∈ { 1, ... n} Ψ l ( x) = i lalu Psi (x) = i yaitu F saya( x) <F saya( x). ( 3.32)
Bukti. Karena nilai kelas gabungan pada kelas yang benar itu berarti

n n
∑ ∑
w i, l F aku, l ( x)> w i, l Fi, l (x). (3.33)
l=1 l=1

Mari kita asumsikan bahwa bobot dan fungsi pendukung dinormalisasi yaitu,

∀ l ∈ { 1, ..., n} ∀ x F aku, l ( x) + F aku, l ( x) = 1 dan W i, l + w i, l = 1. (3.34)

karena itu

n n
∑ ∑
w aku, l ( 1 - F aku, l ( x))> w i, l F aku, l ( x) (3.35)
l=1 l=1

dan akhirnya

w saya, 1 + ... + w i, n> F saya, 1 ( x) + ... + F di( x). (3.36)

Dari bentuk terakhir dari pertidaksamaan, kita dapat melihat bahwa dimungkinkan untuk mendapatkan hasil
yang benar pada akhirnya meskipun semua klasifikasi salah, karena jumlah bobot yang ditetapkan ke kelas yang
menunjuk pada kelas yang benar lebih besar daripada yang ada pada fungsi pendukung untuk yang salah. Mari
kita perhatikan bahwa kesimpulan ini juga mencakup kasus ketika bobot bergantung pada klasifikasi, nomor kelas
dan nilai vektor fitur, karena ini adalah kasus khusus dari model yang disebutkan di atas.

Kita harus menggarisbawahi lagi bahwa teorema 3.2 hanya menunjukkan kemungkinan untuk mendapatkan

hasil seperti itu. Dalam kasus praktis, biasanya tidak mungkin untuk menetapkan bobot secara analitis, jadi kami ingin

menerapkan metode numerik yang efektif untuk memecahkan masalah ini, yaitu, algoritma pelatihan aturan

kombinasi.

Menurut teori keputusan Bayes, setiap kelas memiliki kesalahan yang tidak lebih kecil dari
kesalahan kelas optimal [80]. Mari kita coba memperkirakan kesalahan yang dibuat oleh kelas (3.23),
yaitu dalam kaitannya dengan kelas optimal. Karena tujuan ini, mari kita rumuskan teorema yang
memperkirakan
batas atas kesalahan yang dibuat oleh klasifikasi Ψ l. Kelas ini membuat keputusan atas dasar belakang penaksir
probabilitas P. l ( i | x) ( probabilitas posterior adalah kasus khusus dari fungsi pendukung, yaitu, F aku, l ( x) =
P. l ( i | x)).
Mari kita asumsikan juga bahwa penduga ini diturunkan dengan akurasi ε l( x), yaitu

∀ x ∈ X ∧ ∀ k ∈M | P. l ( k | x) - P (i | x) | ≤ ε l ( x) (3.37)

Membiarkan P. e( Ψ l) menunjukkan probabilitas kesalahan Ψ l dan P. e ( Ψ ∗) menunjukkan probabilitas kesalahan dari


klasifikasi Bayes Ψ ∗.

Teorema 3.3 ∫
P. e ( Ψ l) - P. e ( Ψ ∗) ≤ 2 ε l ( x) f (x) dx, (3.38)

dimana f (x) menunjukkan kepadatan probabilitas tak bersyarat dari x


M

f (x) = p k f k ( x). (3.39)
k=1

Bukti. Mari kita pertimbangkan kasus yang lebih buruk di mana kelas membuat keputusan berbeda dari kelas
optimal

∀x∈X P. l ( j | x) = maks
k ∈M P. l ( k | (3.40)
x)
∧ P (i | x) = maks
k ∈M P (l | x) ∧ j = i

Kemudian dianggap klasifikasi, untuk nilai yang diberikan dari vektor fitur x,
membuat kesalahan P. e ( Ψ l ( x)) = 1 - P. l ( j | x), jika kelas yang dipertimbangkan membuat keputusan
berbeda dari kelas Bayes, yaitu, penaksir belakang
probabilitas yang digunakan oleh kelas yang dianggap lebih tinggi untuk kelas selain
kelas optimal. Membiarkan j menunjukkan nomor kelas yang ditunjukkan oleh algoritma Ψ l. Atas dasar asumsi
yang kami buat

P (j | x) - ε l ( x) ≤ P. l ( j | x) ≤ P (j | x) + ε l ( x), (3.41)

karena itu

P. e ( Ψ l ( x)) ≤ 1 - P. l ( j | x) + ε l ( x). (3.42)

Di sisi lain, untuk nilai yang sama x, algoritma Bayes menunjuk pada kelas saya dan ketimpangan
berikut terjadi

P (i | x) - ε l ( x) ≤ P. l ( i | x) ≤ P (i | x) + ε l ( x), (3.43)

Memanfaatkan fakta bahwa probabilitas kesalahan untuk klasifikasi Bayes adalah


diberikan oleh P. e ( Ψ ∗ ( x)) = 1 - P (i | x), dimana saya adalah nomor kelas yang ditunjukkan oleh algoritma Bayes, yang

akhirnya kita miliki

P. e ( Ψ ∗ ( x)) ≥ 1 - P. l ( i | x) - ε l ( x). (3.44)

Menyamakan pertidaksamaan (3.42) dan (3.44), kami memperoleh estimasi batas atas dari kesalahan
klasifikasi dalam kaitannya dengan klasifikasi Bayes.

P. e ( Ψ l ( x)) - P. e ( Ψ ∗ ( x)) ≤ 2 ε l ( x) + P. l ( i | x) - P. l ( j |
x). (3.45)

Mari kita perhatikan juga itu sejak class Ψ l membuat keputusan j, kemudian

Pl (i | x) - P. l ( j | x) < 0, (3.46)

karena itu

P. e ( Ψ l ( x)) - P. e ( Ψ ∗ ( x)) ≤ 2 ε l ( (3,47)


x).

Mari kita turunkan estimasi batas atas ∫ kesalahan rata-rata kelas

P. e ( Ψ l) - P. e ( Ψ ∗) = E (P e ( Ψ l ( x)) - P. e ( Ψ ∗ ( x))) = 2 ε ( l) ( x) f (x) dx. (3.48)


X
X
Mari kita gunakan teorema di atas untuk memperkirakan kesalahan kelas (3.23) dan (3.24), di
mana fungsi pendukung ditafsirkan sebagai belakang probabilitas.

Teorema 3.4. Membiarkan P. e ( Ψ) menunjukkan probabilitas rata-rata kesalahan klasifikasi, yang


membuat keputusan menurut (3.24). Estimasi atas dari
perbedaan antara kesalahan yang disebutkan di atas dan kesalahan klasifikasi Bayes diberikan oleh
rumus

∫∑
P. e ( Ψ) - P. e ( Ψ ∗) ≤ M w l ε l ( x) f (x) dx. (3,49)
2

Xl=1

Bukti. Sejak masing-masing l kelas untuk membuat keputusan menggunakan belakang penaksir probabilitas
dengan akurasi ε l( x), lalu kelas umum, yang menggunakan
es tertimbang ∑ timator diturunkan menurut rumus (3.24), akan diturunkan
n

dengan akurat w l ε l ( x). Estimasi batas atas dari kesalahan


l=1
klasifikasi umum dalam kaitannya dengan kelas optimal, menurut Teorema 3.3, diberikan oleh

∫∑ n

w l ε l ( x) f (x) dx.

Xl=1

Sebagai hasil dari pertimbangan di atas, kami memperoleh estimasi batas atas dari kesalahan
yang dibuat oleh kelas terbobot umum, dan estimasi batas bawahnya ditentukan oleh kesalahan dari
klasifikasi Bayes yang optimal. Perhatikan bahwa estimasi batas atas tidak akan lebih tinggi dari
estimasi kelas terburuk dari grup dan akan lebih baik daripada estimasi kelas terbaik grup, karena


min w k ε k ( x) ≤ m (3,50)
l ∈ { 1, ... n} ε l ( x) ≤ n l ∈ 1{,k.a..pna} kε
k=
1 l( x).

Kesimpulan di atas hanya mengacu pada estimasi batas atas dari kesalahan, tetapi mereka tidak memberi
tahu kita apa pun tentang kualitas klasifikasi dalam kaitannya dengan klasifikasi sederhana. Hambatan di
sini sebagian besar mengakibatkan tidak menyadari fungsi estimasi kesalahan, ε (x) untuk setiap belakang penaksir
probabilitas. Mari kita catat bahwa adalah mungkin untuk mendapatkan klasifikasi, dimana estimasi batas
atas dari kesalahan akan lebih kecil daripada setiap klasifikasi sederhana. Karena tujuan ini, bobot yang
menentukan kekuatan, yang mana setiap kelas mengambil bagian dalam keputusan bersama, tidak boleh
konstan, tetapi bobot ini harus menjadi fungsi dari argumen. x. Namun, seperti disebutkan sebelumnya,
fungsinya

ε (x) tidak diketahui untuk klasifikasi yang diinginkan, jadi pemilihan fungsi bobot,
w l( x) untuk setiap kelas, harus dibuat secara independen untuk setiap tugas pengambilan keputusan. Pada dasarnya
fungsi tersebut memiliki karakter heuristik dan tentunya harus demikian

diturunkan oleh para ahli yang terampil dan mereka yang mendasarkan pada pengalaman dan intuisi mereka.
Selain itu, kualitas fungsi tersebut harus diverifikasi oleh komputer
3.5 Pembelajaran Kelas Hibrid untuk Kasus Parametrik 1
3
percobaan. Perhatikan juga bahwa bentuk koefisien bobot yang diusulkan disarankan untuk
dipertimbangkan, untuk nilai yang diberikan x, klasifikasi terbaik (paling akurat) dapat ditemukan dalam
literatur di bawah pemilihan klasifikasi nama [214, 408].

3.5 Pembelajaran Kelas Hibrid untuk Kasus Parametrik

Sebagaimana disebutkan pada bab pertama, aturan probabilistik yang diberikan oleh pakar adalah

de facto kumpulan kendala yang harus dipenuhi oleh distribusi probabilitas yang sesuai. Mari kita coba
untuk mendefinisikan klasifikasi optimal untuk batasan yang dirumuskan ini, dan ini dapat dianggap
sebagai algoritma - yang rata-rata kemungkinan membuat keputusan yang salah untuk himpunan
distribusi probabilitas yang
memenuhi res R tr S konflik dalam aturan sangat minim.
Ayo Φ ( ) menunjukkan himpunan semua distribusi yang memenuhi batasan
diberikan oleh aturan yang ditetapkan RS dan F ( X, J) menunjukkan distribusi probabilitas
( X, J). Dalam pengertian ini, algoritma yang optimal Ψ ∗
RS terlihat sebagai berikut

∑ ∑
P. e( ΨR∗S) = min P. e( Ψ RS) (3.51)
Ψ RS

F ( X, J) Φ (R∈S) F ( X, J) ∈ Φ (RS)

dimana P. e( Ψ RS) menunjukkan kemungkinan kesalahan klasifikasi dari algoritme Ψ RS. Tidak mudah untuk merumuskan
algoritma untuk bentuk aturan umum, dan kami akan melakukannya

menunjukkan bagaimana meningkatkan kualitas klasifikasi berdasarkan estimasi parametrik belakang probabilitas
dengan mempertimbangkan batasan yang terkandung dalam aturan ahli. Salah satu metode terpenting
untuk estimasi probabilitas adalah estimasi parametrik yang disebutkan dalam detik. 1.4.1. Kami akan
memberikan contoh sederhana untuk mengilustrasikan pendekatan yang ditetapkan pembelajaran untuk
memperkirakan parameter yang tidak diketahui dari distribusi probabilitas dan secara bersamaan
mempertimbangkan batasan yang diberikan oleh aturan ahli. Sementara itu, masalah estimasi pertama kali
dirumuskan dalam
[157] untuk interpretasi aturan probabilistik

({1.30}) dan (1.31), dan kami akan mempertimbangkan tugas klasifikasi dua kelas ( M =
1, 2) dan satu atribut kontinu x ∈. Mari kita asumsikan juga bahwa file sebelumnya
probabilitas p 1 dan p 2. Selain itu, fungsi kerapatan bersyarat adalah normal dengan varian sama dengan
1 dan nilai mean yang tidak diketahui m 1 dan m 2

f 1 ( x) √1 exp 2 1, f 2 ( x) √1 exp - ( x - m) 2 2
(3.52)
= 2π - ( x - m)
= 2π 2
2

Mari kita pertimbangkan batasan yang diberikan oleh aturan berikut sesuai dengan aturan tipe III
(1.31)

JIKA X = x 1 LALU J = 1
DENGAN kemungkinan p saya( x 1) lebih besar dari β dan kurang dari β,
saya
saya
√ p 1 exp - ( x-m
2
1)

β
2

β1 (3.53)
1
√p exp - 2 √ p 2 exp - ( x-m
( x - m 1) 2+ 2
2)
π 1

2π 2 2π 2

β ( 1 - p 1) β
2 ln 1 p ( x - m) 2 -2( x - m) 1 2 ln 1 ( 1 - p 1) (3.54)
2

1( 1 - β) p 1 ( 1 - β 1)
1

Interpretasi grafis dari pembatasan tersebut ditunjukkan pada Gambar 3.15.

2
2

0
m

−2

−4

−6
−6 −4 −2 0 2 4 6
m
1

Gambar 3.15 Interpretasi grafis dari batasan yang diberikan oleh aturan (3.54)

Perhatikan bahwa batasan ini membuat area terbatas yang sesuai dengan hiperbola dengan
persamaan

( x - m 2) 2 - ( x - m) 2 + k = 0 1 (3.55)

dimana k Bilangan positif jika limit yang diberikan pakar lebih kecil dari sebelumnya probabilitas,
sedangkan angka negatif sebaliknya. Ketika batas sama dengan sebelumnya probabilitas kelas maka
batasan ini mengambil bentuk

( m 1 - m 2) ( m 1 + m 2 + 2 x) = 0 (3.56)

Untuk kasus lain, pembatasan dalam aturan persamaan pada solusi hiperbola yang benar ditetapkan
dengan (3.56). Mari kita bahas, berdasarkan contoh numerik, bagaimana menggunakan batasan yang
diberikan oleh aturan dalam praktiknya.
Contoh 3.5. Mari kita asumsikan bahwa kita mengetahui sebelumnya probabilitas kelas p 1 = 2
dan p
3
2=1
3, dan fungsi kepadatan probabilitas bersyarat adalah normal
dengan varian yang sama sama dengan 1 dan disajikan dalam (3.52). Juga, tidak diketahui
parameter adalah nilai rata-rata m 1 dan m 2 dari distribusi. Nilai sebenarnya adalah m 1= 0, m 2= 1.

Awalnya kami mendapat satu aturan ahli

JIKA X = 0 LALU J = 1 DENGAN probabilitas lebih besar dari 0,75 dan kurang dari 0,80,

Kami memiliki satu set pelatihan yang terdiri dari 15 elemen dan disajikan di Tab. 3.8. Elemen
dihasilkan menurut distribusi (3.52), dan proporsi elemen dari dua kelas sesuai dengan sebelumnya probabilitas.

Tabel 3.8 Perangkat pembelajaran yang digunakan dalam contoh

x saya x saya x saya

1 0,48014 1 6 0,52464 1 11 0,56740 2


2 0.66816 1 7 -0.01179 1 12 -0.66560 2 3 -
0.9 0.07832 1 8
1314 1 13 1.12530 2
4 0.88917 1 9 0.05594 1 14 1.28770 2
5 2.30930 1 10 -1.10710 1 15 -0.14650 2

Mari kita bahas beberapa kemungkinan kasus. Pertama, kami akan memperkirakan tidak diketahui

parameter m 1 dan m 2 tetapi tidak mempertimbangkan batasan yang diberikan oleh aturan, maka kita akan
membahas bagaimana memasukkan batasan dalam solusi.

Kasus tanpa mempertimbangkan batasan yang ditentukan dalam aturan

Untuk menentukan parameter yang tidak diketahui, kami menggunakan Metode Kemungkinan Maksimum ( MLM)
[37]disebutkan dalam bagian 1.4.1. Mari kita selesaikan tugas pertama dengan mengabaikan batasan yang
ditentukan dalam aturan. Tugas memperkirakan

parameter yang tidak diketahui m 1 dan m 2 independen dan dapat diuraikan menjadi dua masalah
terpisah. Fungsi kemungkinan maksimum untuk file
karakteristik kepadatan x di kelas 1.

10 √
∏ 1 - ( x - m) 2
f (LS 1; m 1) = exp ( saya1) (3.57)
2π 2
i=1

dan untuk kelas 2


15 √
- ( x - smaya) 2 2)
f (LS 2; m 2) = 1 exp ( (3.58)
2π 2

i = 11
Menggunakan data dari set pembelajaran yang disajikan di Tab. 3.8, kami mengerti

f (LS 1; m 1) = - 10 m 2 1+ 9.28657 m 1 - 9.14461 (3.59)

f (LS 2; m 2) = - 5 m 2
2+ 4.33660 m 1 - 3.71080
(3.60)
Mereka mengarah ke solusi berikut (dilambangkan dengan solusi MLM)

m 1 = 0,46433, m 2 = 0.43366.

Nilai-nilai yang dihasilkan secara signifikan berbeda dari nilai-nilai distribusi yang darinya objek
pembelajaran dihasilkan. Tentunya hal tersebut tidak mengherankan bagi kami, karena perangkat
pembelajarannya sangat kecil.

Kasus batas yang ditentukan dalam aturan

Mari pertimbangkan batasan yang diberikan dalam aturan

p 1 f 1 ( 0)
0,75 ≤ ≤ 0.80 (3.61)
p 1 f 1 ( 0) + p 2 f 2 (
0)

Atas dasar (3.53)

9
ln () ≤ m 2 - m 21≤ ln (4)2 (3.62)
4
yang berarti bahwa solusi tersebut harus memenuhi batasan berikut
√ √
- ln (4) + m 2 1 ≤ m 2 ≤ ln (4) + m 2 1
(3.63)

dan √ √
9 9
- ln () + m 2 1 ≤ m 2 ≤ ln () + m 2 1
(3.64)
4 4

Batas yang ditunjukkan ditunjukkan pada Gambar 3.16.


Seperti yang dapat kita lihat, solusi yang diterima dalam kasus sebelumnya memang memenuhi syarat.

strain. Terlebih lagi, kriteria untuk menilai kualitas parameter m 1

dan m 2 diformulasikan secara independen, dan oleh karena itu kami tidak dapat menilai pasangan parameter
secara bersamaan. Di sini, Kami mengusulkan dua pendekatan:

1. Mengestimasi nilai satu parameter (menggunakan MLM), kemudian mencari estimator terbaik dari
parameter yang tersisa yang menjamin pasangan parameter tersebut memenuhi batasan
aturan.

2. Merumuskan kriteria kualitas umum, seperti kombinasi linier dari kriteria pengoptimalan (misalnya,
fungsi kemungkinan) dan menyelesaikan masalah pengoptimalan nonlinier dengan kendala
ketidaksetaraan. Pendekatan ini disebut metode pembobotan [94, 252].
3

1
2

0
m

−1

−2

−3
−3 −2 −1 0 1 2 3
m
1

Gambar 3.16 Batasan yang diberikan oleh aturan (3.62)

Penentuan nilai optimal suatu parameter, maka nilai parameter terbaik kedua

Mari kita sajikan solusi untuk kasus pertama. Menurut (3.59), penduga dari m 1 = 0,46433. Menggunakan
kendala (3.62), kami dapatkan

9
ln ( ≤ m 2
- 2 1 6. 5 ≤ ln ( 4) (3.65)
4 2

apa artinya itu

√ √
m 2 ∈ [−√ 1.1707, −√ 1,0265] ∪ [ 1,0265, 1,1707] (3.66)

Pada interval pertama fungsinya meningkat secara monoton, sedangkan untuk interval kedua
menurun secara monoton. Oleh karena itu, cukup memeriksa nilai parameter di akhir interval pertama
dan di awal interval kedua. Mereka masing-masing

f (LS 2; −√
√ 1,0265) = - 4.44926
f (LS 2; 1,0265) = - 13,23699

Jadi, solusi (dilambangkan sebagai MLM-m1-R1) dari soal, seperti yang dirumuskan di atas, adalah
pasangan berikut

m 1 = 0.46433 m 2 = 1.01316

Mari pertimbangkan kemungkinan lain. Mari kita perbaiki m 2= 0.43366 dan tentukan
nilai dari m 1( 3.62).
0

−5

−10

−15

−20

−25

−30

−35

−40

0,5 1
m 2
0,5
0

0 m 1

−0,5
−0,5

−1 −1

Gambar 3.17 Interpretasi grafis dari kriteria (3.69)

9
ln ( ≤ 0.18806 - m 2 ≤ l 4) n ( (3,67)
4 1

apa yang menyebabkan ketidaksamaan yang tidak konsisten berikut ini

- 0,62284 ≤ m 2 ≤ - 1. 1982
1 (3.68)
Tidaklah mungkin untuk menentukan parameter yang diberikan oleh pasangan m 1 dan
m 2 untuk kasus ini, dan alasannya dapat ditemukan serta pada Gambar. 3.16 ( m 2 = 0,43366 tidak memotong
area mana pun yang ditentukan oleh aturan yang diberikan).

Penentuan pasangan parameter optimal berdasarkan kriteria umum

Mari kita usulkan kriteria sebagai jumlah dari kriteria (3.59) dan (3.60)

- 10 m 2
1 -5m2 2+ 9.2866 m 1 + 4.3366 m 2 - 12.8554 (3,69)

yang digambarkan pada Gambar 3.17. Oleh karena itu, kami dapat merumuskan kriteria menggunakan bobot yang
berbeda yang ditetapkan ke (3.59) dan (3.59), tetapi dalam kasus ini kami tidak memiliki premis tambahan untuk
menetapkan nilai yang sesuai, atau pengetahuan ahli tambahan. Bobot yang digunakan untuk membentuk kriteria
dapat dianggap sebagai jenis kepentingan kriteria tunggal, yaitu nilai dapat menyatakan parameter mana yang
digunakan.

lebih penting bagi kami. Menentukan nilai parameter yang optimal m 1 dan
m 2 turun untuk memecahkan masalah optimasi nonlinier dengan kendala ketidaksetaraan [265]. Selain
itu, fungsi (3.69) adalah fungsi tujuan dengan aktif
kendala

m2 (3.70)
2 -m2 1 ≤ ln (4)
9
m2 (3.71)
1 -m2 2 ≤ ln ()

4
Masalah tersebut dapat diselesaikan dengan menggunakan metode Karush-Kuhn-Tucker, dan kami
menyelesaikan tugas tersebut menggunakan metode numerik bawaan lingkungan Matlab dan paket
Optimization Toolbox [Zal2000]. Sebagai hasil dari prosedur numerik, kami menerima solusi berikut
(dilambangkan sebagai CC-R1)

m 1 = 0,3637, m 2 = 0,9712

Kemudian mari kita asumsikan bahwa pakar merumuskan aturan tambahan, yang terlihat sebagai berikut

JIKA X = 1 LALU J = 2 DENGAN probabilitas lebih besar dari 0,45 dan kurang dari 0,50.

apa artinya
() ()
18 ≤ ( 1 - m) 2 - ( 1 - m 2 ≤ ln 1
2 ln 1 2) (3.72)
11 - 4

Mari batasi pertimbangan kita pada kasus kriteria umum. Jika kita menggunakan kriteria umum
(3.69) dan kendala yang disebutkan di atas (3.72), maka kita mendapatkan solusi berikut (dilambangkan
sebagai CC-R2)

m 1 = - 0,0335, m 2 = 0.7116

Namun, jika kami mempertimbangkan kedua kriteria tersebut, kami mendapatkan solusi berikut (dilambangkan
sebagai CC-R1R2)

m 1 = - 0,0026, m 2 = 0,9005

Area keputusan aturan dan solusi yang dijelaskan digambarkan pada Gambar.
3.18 dan disajikan di Tab. 3.9, di mana jarak Euclidian tambahan antara solusi dan nilai parameter
nyata ditampilkan.
Perhatikan bahwa penduga parameter diperoleh Metode Kemungkinan Maksimum tanpa
memperhatikan batasan aturan, serta pendekatan yang dilambangkan sebagai MLM-m1-R1, yang
memperhitungkan batasan ini, jauh dari nilai parameter sebenarnya, karena ukuran sampel yang kecil.
Namun, bahkan untuk sampel sekecil itu yang menggunakan kriteria umum dan dengan
mempertimbangkan batasan yang terdapat dalam aturan, penduga yang diperoleh, cukup dekat dengan
nilai sebenarnya. Selain itu, mempertimbangkan batasan yang terdapat dalam kedua aturan tersebut
sangat meningkatkan solusi. Meskipun demikian, harus kita sadari bahwa perbaikan ini dimungkinkan,
karena kita memiliki batasan yang cukup tepat dan ahli yang merumuskannya tanpa kesalahan.
Namun, dalam masalah diagnostik yang sebenarnya, hal itu tidak selalu dijamin, dan alasannya telah
disebutkan di bagian selanjutnya. 2.2. Jika aturan diberikan oleh ahli manusia,
2

1.5

1
2
m

0,5

−0,5
−0,5 0 0,5 1
m
1

Gambar 3.18 Visualisasi batasan yang ditentukan oleh aturan ahli dan solusi yang diperoleh. Bintang simbol adalah
singkatan dari solusi MLM, segitiga untuk MLM-m1R1, persegi untuk CC-R1, titik CC-R2, dan x untuk CC-R1R2.

Tabel 3.9 Perbandingan berbagai pendekatan yang disajikan dalam Contoh 3.5

metode diperkirakan m 1 dipe rkirakan m 2 jarak da ri nilai nyata


Solusi MLM 0.4643 0.4337 0.7324
MLM-m1-R1 0.4643 1.0132 0.4645
CC-R1 0.3637 0,9712 0.3648
CC-R2 - 0,0335 0.7116 0,2903
CC-R1R2 0,0026 0,9005 0,0995

aturan (dengan yang lain atau dengan distribusi probabilitas nyata). Lebih lanjut, ruang lingkup contoh
tidak menarik kesimpulan umum tentang kegunaan metode, karena mereka harus dikonfirmasi oleh
studi analitis atau eksperimental yang terperinci. Selain itu, sejauh menyangkut perangkat pembelajaran
kecil, pendekatan semacam itu mampu membantu peserta didik untuk meningkatkan modelnya.
4

Aplikasi Pilihan Klasifikasi Hybrid

Dalam bab ini, kami fokus pada metode yang dipilih dari hibridisasi kelas. Pertama, kami menyajikan
kasus khusus dari pendekatan pemilihan kelas statis yang mengarah ke kelas gabungan berdasarkan
partisi ruang fitur dan menetapkan kelas yang dipilih ke setiap partisi. Sementara itu, kami membahas
bagaimana melatihnya dan kemudian secara singkat membahas kualitasnya. Setelah itu, kita
berkonsentrasi pada kasus tugas klasifikasi biner yang disebut klasifikasi satu kelas, yang mampu
melatih klasifikasi tanpa adanya contoh yang berlawanan, dan kita membuang masalah dengan
mempertimbangkan cara menghasilkan klasifikasi gabungan untuk klasifikasi kelas jamak dan satu kelas.
tugas. Selanjutnya, topik penting yang dikhususkan untuk sistem klasifikasi untuk data yang tidak
seimbang disebutkan. Juga, kami segera menyebutkan topik terakhir yang terkait dengan klasifikasi aliran
data yang saat ini tampaknya menjadi tugas klasifikasi yang penting. Akhirnya, Kami memperkenalkan
masalah tentang bagaimana menggunakan metode yang disajikan pada bab sebelumnya, ke tugas
klasifikasi di mana karakteristik probabilitas data berubah selama eksploitasi kelas. Fenomena ini, yang
disebut penyimpangan konsep, biasanya berdampak negatif pada kualitas klasifikasi.

4.1 Fitur Pemisahan Ruang

Pada topik pertama, kami menyajikan klasifikasi gabungan berdasarkan partisi ruang fitur, dan untuk
setiap partisi, satu klasifikasi ditugaskan untuk membuat keputusan di seluruh sistem klasifikasi.
Pendekatan semacam itu agak intuitif dan dapat dipahami dari sudut pandang praktis. Mari kita berikan
contoh untuk domain medis. Jika kita sakit maka kita biasanya meminta pertolongan dokter keluarga.
Jika dia kompeten dalam domain yang terkait dengan gangguan kita (kompeten di wilayah tertentu dari
ruang fitur yang sesuai dengan gejala kita), maka dokter dapat membuat keputusan tentang gangguan
kita dan mengambil tindakan terapeutik. Jika tidak, tidak ada tindakan positif lebih lanjut yang dapat
dilakukan secara efektif jika dokter keluarga tidak kompeten, yaitu area kompetensi gejala kita di mana
kompetensinya lemah, kemudian dokter merujuk kita

M. Wo´ źniak, Klasifikasi Hybrid,


141
Studi di Computational Intelligence 519, DOI: 10.1007 /
978-3-642-40997-4_4, © c Springer-Verlag Berlin Heidelberg 2014
1 4 Aplikasi Pilihan Klasifikasi Hybrid
4
ke spesialis dari domain di mana gejala kami sebagian besar cocok, misalnya, ke ahli jantung. Contoh
sederhana yang menggambarkan intuisi untuk pendekatan ini disajikan pada Gambar 4.1. Dua
klasifikasi biner disajikan, dan kualitas klasifikasi untuk keseluruhan ruang fitur tidak terlalu tinggi.
Namun, masing-masing sangat kompeten untuk wilayah ruang fitur tertentu.

10

5 area 1

0
x2

area 2
−5

−10
0 2 4 6
x1 8 10 12

10

5 area 1

0
x2

area 2
−5

−10
0 2 4 6
x1 8 10 12

10

5 area 1

0
x2

area 2
−5

−10
0 2 4 6
x1 8 10 12

Gambar 4.1 Contoh ilustrasi dari dua klasifikasi biner yang memiliki kompetensi lokal untuk partisi ruang fitur yang
berbeda
4.1.1 Model Klasifikasi

Model klasifikasi mengasumsikan bahwa feature space X dibagi menjadi satu set H konstituen [217],
yaitu,

H X̂ h, ∀ k, l ∈ { 1, ..., H}, k = l, X̂ k ∩ X l

ˆ=∅
X= (4.1)
h=1

dimana X̂ h menunjukkan h- konstituen (cluster). Aturan keputusan dari klasifikasi gabungan tersebut Ψ terlihat
sebagai berikut

Ψ (x) = i jika Ψ̄ h ( x) = i dan x ∈ X̂ h. (4.2)

dimana Ψ̄ h adalah kelas yang ditugaskan ke h- cluster th (disebut klasifikasi area). Tidak ada batasan
untuk jenis klasifikasi, dan ini bisa sederhana
klasifikasi, klasifikasi majemuk, atau klasifikasi gabungan juga. Metode klasifikasi seperti itu konsisten
dengan pendekatan pemilihan klasifikasi statis yang mencoba meningkatkan kekuatan lokal dari
masing-masing klasifikasi, dijelaskan secara singkat pada bab sebelumnya. Sedangkan jumlah cluster
yang harus diperhatikan H,
yang merupakan parameter yang dipilih secara sewenang-wenang, memainkan peran penting untuk
akurasi klasifikasi gabungan. Di satu sisi, jumlah cluster yang lebih besar memungkinkan eksplorasi yang
lebih luas dari kompetensi lokal dari klasifikasi area. Di sisi lain, hal itu bisa membuat kelas menghadapi
masalah overftting.
Mari kita bahas proposisi tentang bagaimana melatih kelas yang disebutkan di atas. Pertama, mari kita
segera mengkarakterisasi Pengelompokan dan Seleksi metode, dan itu adalah salah satu proposisi diketahui
pertama yang dikhususkan untuk topik ini.

4.1.2 Algoritma Pengelompokan dan Pemilihan

Kuncheva mengusulkan metode pelatihan satu tahap sederhana, yang disebut Pengelompokan dan Seleksi ( Algoritma
CS) [209], yang mempartisi ruang fitur dengan menggunakan metode pengelompokan dan kemudian
menetapkan klasifikasi yang paling kompeten secara lokal dari sebuah kumpulan ke masing-masing kluster.
Selain itu, kumpulan dapat diberikan di muka atau dibuat berdasarkan pemberian LS. Pseudocode CS
dijelaskan di Alg. 36.

Fitur terpenting dari algoritma CS dapat dijelaskan sebagai berikut:

• Algoritme CS menggunakan metode pengelompokan untuk membagi ruang fitur berdasarkan objek dari
LS [ 166], tetapi tidak dianggap sebagai kriteria yang menilai apakah objek yang termasuk dalam cluster
yang dihasilkan dapat dengan mudah dipisahkan oleh suatu klasifikasi dari kumpulan klasifikasi individu
yang tersedia. Contohnya dapat ditunjukkan pada Gambar 4.2, yang mengilustrasikan karakteristik yang
disebutkan di atas [418]. Melalui penggunaan metode pengelompokan dengan kriteria tradisional, kluster
yang dihasilkan terdiri dari objek yang serupa, tetapi kami tidak dapat menjamin bahwa mereka dapat
dipisahkan dengan mudah,
Algoritma 36. Pseudocode Pengelompokan dan Pemilihan
Memerlukan: LS- set pembelajaran

t {rain method () - metode pembelajaran kelas atau kumpulan kelas terlatih Π = Ψ 1, Ψ 2, ..., Ψ n},

clustering method () - metode pengelompokan


error estimator () - metode estimasi kesalahan kelas untuk partisi tertentu
H - jumlah cluster
Memastikan: C = {c 1, c 2, ..., c H} - set H - kumpulan sentroid mewakili cluster,
Π H = Ψ̄ 1, Ψ̄ ¯
2, ..., Ψ H - kumpulan klasifikasi area yang ditetapkan untuk setiap cluster
1: Π h = ∅
2: jika Π = ∅
kemudian

3: untuk k: = 1 untuk n melakukan

4: Ψ k ← metode kereta ( k, LS)


5: Π: = Π + Ψ k
6: berakhir untuk

7: berakhir jika

8: C ← metode pengelompokan ( LS, H)


9: untuk h: = 1 untuk H melakukan

10: kesalahan: = 1

11: indeks: = 0
12: untuk k: = 1 untuk n melakukan

13: kesalahan h ← penaksir kesalahan ( Ψ k, LS, X̂ h)

14: jika kesalahan h< kesalahan kemudian

15: kesalahan h: = kesalahan

16: indeks: = n
17: berakhir jika

18: berakhir untuk

19: Ψ̄ h: = Ψ indeks
20: Π H: = Π H + Ψ̄ h

21: berakhir untuk

Untuk membuat keputusan tentang x gunakan aturan keputusan (4.2)

• Partisi ruang fitur dan pemilihan klasifikasi dilakukan secara berurutan, jadi ada kekurangan umpan
balik di antara fase-fase CS. Pada dasarnya, adalah mungkin untuk menemukan klaster terbaik
untuk klaster yang telah ditetapkan sebelumnya, tetapi tidak mungkin untuk menyesuaikan bentuk
klaster dengan kompetensi klaster terpilih yang ditugaskan ke klaster. Jadi, tidak ada jaminan
bahwa model yang diperoleh dengan partisi yang diusulkan adalah yang paling efektif

satu.
• Batasan terakhir dari algoritma CS adalah bahwa hanya satu klasifikasi individu yang ditugaskan
ke setiap cluster, yang secara signifikan membatasi keuntungan dari kumpulan klasifikasi yang ada,
dari mana satu set komite dapat disusun setiap cluster, yang juga meningkatkan hasil yang dicapai.
Gambar 4.2 Contoh ilustrasi dari Pengelompokan dan Seleksi algoritma (di sebelah kiri) untuk masalah mainan
(tugas klasifikasi dua kelas) dengan dua klasifikasi individu. Daerah abu-abu dan putih menggambarkan cluster
yang diperoleh berdasarkan metode pengelompokan dengan kriteria kesamaan tradisional. Kotak hitam sesuai
dengan pusat massa sedangkan garis solid menunjukkan batas keputusan dari klasifikasi yang diberikan. Gambar
kiri menyajikan kelompok yang berbeda yang dapat lebih baik mengeksploitasi kompetensi masing-masing klasifikasi.

4.1.3 Pemisahan dan Seleksi Adaptif

Mempertimbangkan kekurangan CS yang disajikan, Jackowski dan Wozniak mengusulkan Pemisahan


dan Seleksi Adaptif ( AdaSS) [163], yang menggabungkan fitur partisi ruang dan klasifikasi yang
ditetapkan ke dalam satu proses terintegrasi dalam mencari parameter terbaik untuk model. Keuntungan
utama dari pendekatan ini adalah bahwa algoritme pelatihan mempertimbangkan bentuk dan posisi
suatu area untuk menentukan isi dari sebuah kelas, dan secara relatif area tersebut beradaptasi
dengan kompetensi dari klasifikasi. Selain itu, klasifikasi gabungan digunakan untuk menetapkan
keputusan setiap klasifikasi wilayah (dalam versi asli penulis menggunakan pemungutan suara
mayoritas dari klasifikasi yang dipilih dari kumpulan klasifikasi individu). Sudah jelas bahwa tujuan
dari tugas pengoptimalan yang kompleks ini adalah untuk meminimalkan kesalahan klasifikasi.
Selanjutnya, AdaSS menggunakan pendekatan evolusioner [14] untuk melatih kelas (4.1), dan komponen
utama terdiri dari representasi kelas,

Untuk menyederhanakan penyajian algoritme ini, kami hanya menangani fitur berkelanjutan.
Namun, metode yang disajikan dapat dengan mudah disesuaikan dengan masalah di mana atribut
diskrit digunakan juga.

Representasi Klasifir

Kromosom Ch (s) mewakili s- Model kelas majemuk yang terdiri dari dua komponen. Komponen pertama
mencakup satu set sentroid C ( s)
dan mewakili partisi ruang fitur ke dalam H cluster, dan yang kedua
komponen W (s) termasuk definisi dari klasifikasi gabungan untuk masing-masing cluster.

Ch (s) = [C (s), W (s)], (4.3)

dimana

C (s) = [C (s, 1), C (s, 2), ..., C (s, H)]


dan
W (s) = [W (s, 1), W (s, 2), ..., W (s, H)].

Setiap C (s, h) diwakili oleh sentroid

C (s, h) = {c ( 1) ( s, h), c ( 2) ( s, h), ..., c ( d) ( SH)},


(4.4)
dimana d adalah dimensi ruang fitur (1.2).
Awalnya AdaSS mengusulkan untuk menetapkan kelas gabungan menggunakan aturan voting
mayoritas. Artinya, itu

W (s, h) = [w 1 ( s, h), w 2 ( s, h), ..., w n ( SH)] (4,5)

dimana w k ( s, h) = 1 jika Ψ k digunakan untuk membentuk komite klasifikasi untuk h- th


kelas area diwakili oleh s- kromosom th Ψ̄ h( s) dan w k ( s, h) = 0 sebaliknya.

Beberapa modifikasi AdaSS yang diusulkan, misalnya, Wozniak dan Krawczyk [418] menggunakan
agregasi tertimbang dari fungsi pendukung kelas individu di mana bobot tergantung pada kelas dan
nomor kelas (3.25),
yaitu,
• •
h)). . . w 1, n ( SH)
••w s, h) w s,
W (s, h) = •
1w,1 ( 1,2 ( SH)) . . .. w 2, n• ( SH) • . (4.6)
. .
s, h. . ) w .
• 2,1 ( 2,2 (
. .

. . •,
w M, 1 ( s, h) w M, 2 ( SH)) . . . w M N( SH)

yang diubah menjadi vektor

W (s, h) = [w 1,1 ( SH), . . . , w 1, M ( s, h), w 2,1 ( SH), . . . , w n, M ( SH)].

Membiarkan anggota (C (s), x) menunjukkan fungsi yang mengembalikan indeks cluster yang diberikan x
milik

H
anggota (C (s), x) = argmin dist (x, C (s, h)), (4.7)
h=1

dimana dist menunjukkan metrik jarak sebagai jarak Euclidean. Dalam kasus seri, yaitu kapan x adalah
jarak yang sama dari lebih dari satu sentroid, nomor kelas terendah dikembalikan. Menurut definisi (4.7)
kita dapat merumuskan kembali (4.1) sebagai berikut:
Ψ (x) = Ψ̄ anggota (C (s), x n) ( x n). (4.8)

Prosedur pelatihan kelas membutuhkan satu set pembelajaran LS yang mana termasuk
N contoh berlabel (1.11). Mari kita pisahkan secara acak LS menjadi dua subset: set pelatihan TS yang
digunakan selama pelatihan, sedangkan subset kedua VS,
disebut set validasi, digunakan untuk melindungi model pelatihan dari overfitting [9]

| TS | = K dan | VS | = N - K. (4.9)

Kriteria

Kriteria pengoptimalan akan mengevaluasi s- kualitas kelas gabungan yang diwakili oleh kromosom Ch
(s)

1∑K[ ]
Q (Ch (s), TS) ( Ψ anggota (C (s, h), x k) ( x k) = j k), (4.10)
K
=
k=1

di mana [] menunjukkan tanda kurung Inverson.

Algoritma

Untuk membangun hubungan multilateral antara bentuk dan posisi bidang kompetensi dan bobot kelas,
prosedur pelatihan diimplementasikan sebagai salah satu tugas optimasi gabungan. Ini bertujuan untuk
meminimalkan tingkat kesalahan klasifikasi dari sistem yang dievaluasi selama set pelatihan, yang
memungkinkan untuk memilih bobot yang mencerminkan kepentingan kelas dalam ansambel dan secara
bersamaan menyesuaikan posisi dan bentuk area yang beradaptasi dengan kompetensi kelas area.
Seperti disebutkan sebelumnya, pendekatan evolusioner digunakan untuk menemukan solusi terbaik,
tetapi masalah tersebut juga dapat diselesaikan oleh pemecah pengoptimalan lainnya.

Setiap prosedur yang digunakan oleh algoritma pelatihan yang dilakukan pada kromosom (4.3) harus
memperhitungkan fakta bahwa masing-masing bagiannya memiliki sifat yang cukup berbeda. Oleh karena
itu, kami menegakkan aturan bahwa informasi tidak akan dipertukarkan antar bagian kromosom yang
diproses oleh operator pseudogenetik. Gambaran umum dari algoritma disajikan sebagai pseudocode di
Alg. 37.
Parameter kontrol tambahan yang tidak terdaftar di Alg. 37 diuraikan sebagai berikut:

1. p mut - kemungkinan mutasi


2. p co - probabilitas persilangan
3. δ - faktor rentang mutasi

Mari kita jelaskan langkah-langkah yang dipilih dari algoritme AdaSS.


Algoritma 37. Gambaran umum algoritma AdaSS
Req V. u S kemarahan: TS - perlengkapan latihan,

- set validasi,
S - ukuran populasi
H - jumlah cluster
T - jumlah iterasi
V - batas atas iterasi algoritma dengan kualitas yang menurun
Π = {Ψ 1, Ψ 2, ..., Ψ n} - kumpulan klasifikasi individu
Memastikan: Ψ

1: Inisialisasi Populasi;
2: V. c: = 0
3: Q t: = 0
4: untuk t = 1 untuk T melakukan

5: Q t - 1: = Q t
6: Evaluasi Populasi selama TS
7: s ∗: = argmax.dll Q (Ch (s), TS)
s ∈ { 1, ..., S}

8: Q t: = Q (c (s ∗), VS)
9: jika Q t < Q t - 1 kemudian
10: V. c: = V. c + 1
11: jika V. c= V. kemudian

12: istirahat

13: berakhir jika

14: lain
15: V. c: = 0
16: berakhir jika

17: Mutasi;
18: Crossover;
19: Seleksi dan Reproduksi;
20: berakhir untuk

21: Evaluasi Populasi selama TS


22: Proses pasca

• Inisialisasi
Inisialisasi melibatkan pengaturan parameter untuk algoritme dan secara acak membuat kromosom
generasi pertama. Setiap kromosom dalam satu generasi dievaluasi menurut nilai fungsi
kesesuaiannya (4.10) untuk menentukan kromosom elit. s ∗. AdaSS dimulai dengan menghasilkan
populasi individu. Besar kecilnya populasi merupakan parameter masukan dan pada dasarnya
dipilih secara sewenang-wenang. Secara umum, ukuran populasi yang lebih besar mampu
membuat pengoptimalan yang lebih komprehensif, tetapi upaya komputasi yang lebih tinggi yang
diperlukan untuk pemrosesan relatif tidak dapat dihindari. Oleh karena itu, ukuran populasi harus
dipilih sebagai perdagangan yang wajar. Selain itu, individu dalam populasi diisi dengan nomor
yang dipilih secara acak sehubungan dengan kendala berikut:

1. Jika kita menggunakan (4.6) maka untuk setiap kromosom Ch (s)

n

w i, k ( s, h) = 1 ∀ h ∈ { 1,. . . , H} dan ∀ saya ∈M (4.11)
k=1

2. Semua sentroid C (s, h) harus jatuh ke dalam ruang yang dibatasi oleh batas-
ruang fitur khusus untuk masalah pengenalan yang diberikan di tangan.
N
c ( l) ( SH) ∈ < min x ( l), m N kapak x ( l)> , ∀ h ∈ { 1,. . . , H} dan ∀ l ∈ { 1,. . .
, d} k
k=1k k=1 (4.12)

• Seleksi dan Reproduksi


Langkah ini menghasilkan satu set pegas yang mempertahankan semua kendala dan implikasi
yang dihasilkan dari logika model dan nilai parameter input. Kromosom untuk generasi berikutnya
dipilih menggunakan skema pemilihan roda roulette [126] untuk menerapkan pemilihan acak
proporsional sesuai dengan nilai fungsi kesesuaiannya (4.10), dan set pelatihan dieksploitasi untuk
tujuan ini. Untuk menghindari kehilangan dasar dalam menemukan kromosom dengan skor
tertinggi, elitisme [344] telah diterapkan,

yaitu, kromosom dengan skor tertinggi Ch (s ∗) dari generasi saat ini ditempatkan ke dalam populasi
keturunan, tanpa membiarkan perubahan apa pun pada strukturnya, seperti persilangan, atau
mengalami mutasi, di mana

s ∗ = argmax.dll Q (Ch (s), TS) (4.13)


s ∈ { 1, ..., S}

• Mutasi
Operator mutasi mengubah anggota yang sedang diproses dengan menambahkan beberapa
perubahan acak ke kromosomnya. Setiap komponen kromosom diproses secara terpisah dan
dapat diubah dengan probabilitas tertentu yaitu perubahan bersamaan dengan kemajuan optimasi
sesuai dengan:

t
P. c ( t) = p mut T
(4.14)
P. w ( t) = p mut - P. c ( t),

dimana t adalah indeks iterasi dari algoritme, P. c ( t) adalah mutasi


probabilitas vektor sentroid selama t- langkah ke, dan P. w ( t) adalah probabilitas mutasi vektor bobot
selama t- langkah ke-th.
Menurut skema, pada fase awal pengoptimalan, penekanan khusus ditempatkan pada pencarian
kemungkinan partisi ruang fitur. Selama kemajuan pembelajaran, perhatian dialihkan ke klasifikasi
yang ditetapkan ke partisi dan penyesuaian halusnya. Mutasi melibatkan penambahan vektor
bilangan yang dihasilkan secara acak sesuai dengan distribusi kerapatan normal (dengan mean
sama dengan 0 dan

deviasi standar disetel ke δ).


• Crossover
Semua kromosom (kecuali kromosom elit) adalah
berpasangan, dan dengan probabilitas p bersama, itu menyeberang menurut aturan dua titik [126].
• Melindungi dari pemasangan yang berlebihan

Tujuan utama dari prosedur ini adalah untuk melindungi class dari overftting. Prosedurnya
menggunakan VS untuk menghitung kesesuaian kromosom elit, Q (Ch (s), VS), dengan cara yang
sama seperti untuk penilaian populasi biasa (4.10). Prosedur menghentikan proses pengoptimalan
jika kerusakan hasil yang diperoleh oleh kromosom dengan skor tertinggi diamati selama proses V. siklus
belajar selanjutnya. Selanjutnya, garis dari 7 sampai 15 di Alg. 37 bertanggung jawab untuk
melindungi

terlalu pas.
• Pengolahan pasca
Dalam versi asli AdaSS, langkah postprocessing bertanggung jawab untuk mengembalikan
kromosom terbaik yang telah dievaluasi Ch (s ∗) ( 4.13).

Jackowski dkk. [162] mengusulkan dua ekstensi penting dari AdaSS yang disebut AdaSS +. Seperti
yang telah disebutkan sebelumnya, jumlah bidang kompetensi H
memainkan peran penting dalam eksplorasi kompetensi lokal kelas. Dalam algoritme AdaSS asli, H dipilih
secara sewenang-wenang. Meskipun demikian, karena sulit untuk memilih angkanya dengan tepat,
penulis memutuskan untuk menerapkan perpanjangan prosedur pelatihan, yang menyesuaikan H secara
otomatis. Di awal prosedur pelatihan, nilai awal H disetel, yang mungkin ditingkatkan selama proses
pengoptimalan. Juga, modifikasi ini membutuhkan perubahan yang dalam pada operator pseudogenetik
[14]

• Mutasi. Dengan asumsi itu akan menyuntikkan beberapa keacakan ke dalam kromosom. Prosedur mutasi
dapat dibagi menjadi dua bagian yang diluncurkan secara berurutan:

1. Meningkatkan jumlah bidang kompetensi


2. Mutasi bagian kromosom yang ada
Yang pertama membandingkan tingkat kesalahan klasifikasi yang diperoleh individu terpilih dengan
hasil yang diperoleh pada generasi sebelumnya. Jika tidak ada peningkatan yang terlihat pada
generasi terakhir, algoritme dapat memperluas jumlah area kompetensi untuk meningkatkan
eksibilitas batasannya. Oleh karena itu, panjangnya C dan W (s) dalam kromosom bertambah dan
konstituen baru diisi dengan salinan W (s, h)

dan C (s, h) dari konstituen yang ada yang dipilih secara acak. Meskipun demikian, prosedur tersebut tidak
diluncurkan secara otomatis, tetapi kemungkinannya meningkat seiring waktu dan berbanding lurus
dengan jumlah generasi T. Prosedur mutasi kedua adalah operator mutasi standar [14] yang digunakan
untuk mempengaruhi vektor bilangan real, yaitu menambahkan beberapa gangguan acak yang dihasilkan
sesuai
ke distribusi Gaussian.
• Prosedur crossover. Ini bertukar data antara dua orang tua untuk membentuk kromosom anak.
Karena kromosom dalam AdaSS + terdiri dari dua bagian (4.3), keduanya diperlakukan dengan
operator crossover dua titik standar [14], di mana titik potong dipilih secara acak. Meskipun
demikian, perlu diingat bahwa populasi dapat terdiri dari individu-individu dengan panjang bagian
kromosom yang berbeda, karena
mutasi operator kebetulan menyesuaikan nomor bidang kompetensi. Oleh karena itu, hanya
kromosom dengan panjang yang sama yang dapat diproses oleh persilangan. Untuk menjaga
batasan kedua, bagian bobot kromosom dinormalisasi.

Kebaruan penting kedua dari AdaSS + yang dimasukkan ke dalam algoritme asli adalah perluasan dari
fase pasca pemrosesan, yang juga bertanggung jawab atas penyetelan yang baik dari klasifikasi dasar
untuk memanfaatkan kompetensi lokal dari masing-masing klasifikasi. Oleh karena itu, kinerja sistem
dapat ditingkatkan dengan meningkatkan kompetensi lokalnya. Selain itu, prosesnya dapat dilakukan
dengan dua cara:

• Menyetel setiap ansambel area dengan melatih lebih lanjut kelas-kelas dasarnya
menggunakan contoh dari set pelatihan yang termasuk dalam area tertentu, Membangun kembali setiap
• ansambel area dengan melatih kelas dasar dari awal menggunakan contoh dari set pelatihan yang
termasuk dalam area tertentu.

Di kedua kasus, kumpulan klasifikasi dasar dikalikan dengan membuat nya


copy untuk setiap bidang kompetensi.
Studi perbandingan versi AdaSS dan hasil eksperimen komputer pada berbagai kumpulan data
benchmark dan jenis klasifikasi dasar dibahas dalam [162]. Mari kita secara singkat menyajikan
hasil eksperimen yang dipilih, tetapi pertama-tama mari kita gambarkan pengaturan eksperimen.

Nilai parameter prosedur pelatihan AdaSS + adalah sebagai berikut:

• Ukuran populasi - S = 200 Jumlah


• iterasi - T = 100
• Kemungkinan mutasi - p mut = 0,7: 0,3
• Probabilitas crossover - p co = 0.3: 0.7 Faktor rentang
• mutasi - δ = 0.2

Dalam kasus modifikasi yang diusulkan AdaSS +, yang menilai secara otomatis jumlah cluster, nilai
awal parameter H selalu sama dengan 3 dan jumlah iterasi tanpa perbaikan setelah itu daerah baru
dibuat sesuai dengan aturan prosedur mutasi.

Untuk metode tuning AdaSS + yang didasarkan pada perbaikan individu dari klasifikasi dasar
setelah jumlah dan bentuk cluster ditetapkan, kita perlu menjelaskan bagaimana perbaikan model
dilakukan. Jelas bahwa ini tergantung pada jenis klasifikasi dasar yang digunakan. Untuk SVM,
algoritma pembelajaran inkremental digunakan.

Untuk meringkas semua model yang diperiksa dalam percobaan dengan singkatan yang digunakan disajikan di

bawah ini:

• SB - Kelas terbaik tunggal yang dipilih dari Π


• CS - Clustering and Selection - menggunakan identik Π sebagai AdaSS dan AdaSS +
• MV - Voting Mayoritas menggunakan semua klasifikasi dari Π
• AdaSS (3) - AdaSS standar dengan tiga bidang kompetensi
• AdaSS (5) - AdaSS standar dengan lima bidang kompetensi
• AdaSS (7) - AdaSS standar dengan tujuh bidang kompetensi AdaSS + T0- AdaSS + dengan
• pemilihan otomatis jumlah pesaing
daerah tence
• AdaSS + T 1 - AdaSS + dengan pemilihan otomatis jumlah com-
daerah petence dan tuning setiap ansambel daerah dengan pelatihan lebih lanjut nya
kelas dasar
• AdaSS + T 2 - AdaSS + dengan pemilihan otomatis jumlah bidang kompetensi dan pembangunan
kembali setiap kelompok bidang dengan pelatihan dasar
kelas dari goresan

Semua percobaan dilakukan di lingkungan R [367], dengan algoritma klasifikasi yang diambil dari
paket khusus, sehingga memastikan bahwa hasil mencapai efisiensi terbaik dan bahwa kinerja tidak
menurun dengan implementasi yang tidak kompeten. Semua tes dilakukan dengan uji-F berpasangan 5
x 2 yang divalidasi silang [8]. Selain itu, uji peringkat Friedman [79] dilakukan untuk perbandingan atas
beberapa kumpulan data benchmark.

Hasil percobaan disajikan di Tab. 4.1. Kesimpulan berikut dapat ditarik atas dasar eksperimen.

• AdaSS mampu secara signifikan mengungguli prediktor terbaik tunggal


dari kelompok kelas dan CS juga.
• Tidak ada korelasi yang stabil antara peningkatan jumlah cluster
dan peningkatan / penurunan kinerja, tetapi prosedur otomatis
memilih sejumlah besar bidang kompetensi pada kesempatan yang jarang.
• Akhirnya, perbandingan AdaSS dan AdaSS + terhadap metode ensemble pesaing lainnya harus
dilakukan. Tidaklah mengherankan bahwa pemungutan suara mayoritas berkinerja paling buruk,
karena keputusan akhir dengan kombinasi label kelas memperlakukan semua klasifikasi secara sama
terlepas dari kinerjanya. Oleh karena itu, klasifikasi lemah mempengaruhi keputusan pada tingkat yang
sama dengan yang kuat. Bagging dan boosting menyajikan hasil yang relatif serupa dengan AdaSS asli,
tetapi harus ditekankan bahwa pengamatan yang paling penting adalah itu

AdaSS + dalam sebagian besar kasus mengungguli bagging dan boosting. Pemilihan otomatis dari
• jumlah bidang kompetensi, menyesuaikan bentuk dan posisinya, bersama dengan model fusi kelas
berbobot memungkinkan pembuatan pemetaan yang sangat fleksibel yang mencerminkan
kompetensi kelas dasar.

Detail lebih lanjut tentang eksperimen pada AdaSS dan AdaSS + dapat ditemukan di [162].
Modifikasi menarik lainnya yang berfokus pada modifikasi Peka-biaya dari AdaSS diusulkan oleh
Jackowski et al. [161]. Dalam penetapan kelas, hal itu mempertimbangkan kualitas suatu klasifikasi
kawasan, tetapi di sisi lain biaya eksploitasinya dianggap sebagai biaya perolehan fitur yang digunakan
oleh klasifikasi kawasan tertentu. Ini mengarah ke representasi berikut

• •

• Sebuah 1( h. , x ( 1)) · · · S.e.buah 1( h, x ( .d)) •


SEBUAH h = • . (4.15)
. .
.
•,
.
Sebuah n ( h, x ( 1)) · · · Sebuah n ( h, x ( d))

Anda mungkin juga menyukai