Anda di halaman 1dari 34

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

19 BELAJAR DI SARAF
DAN JARINGAN KEPERCAYAAN

Di mana kita melihat bagaimana melatih jaringan kompleks dari elemen komputasi
sederhana, sehingga mungkin menjelaskan cara kerja otak.

Bab ini dapat dilihat dalam dua cara. Dari sudut pandang komputasi, ini adalah tentang metode
merepresentasikan fungsi menggunakan jaringan elemen komputasi aritmatika sederhana, dan tentang
metode untuk mempelajari representasi tersebut dari contoh. Jaringan ini mewakili fungsi dengan
cara yang sama seperti sirkuit yang terdiri dari gerbang logika sederhana mewakili fungsi Boolean.
Representasi seperti itu sangat berguna untuk fungsi kompleks dengan output bernilai kontinu
dan sejumlah besar input yang bising, di mana teknik berbasis logika dalam Bab terkadang
mengalami kesulitan.
Dari sudut pandang biologis, bab ini adalah tentang model matematika untuk operasi
dari otak. Elemen komputasi aritmatika sederhana sesuai dengan: sel itu
melakukan pemrosesan informasi dalam jaringan secara keseluruhan sesuai dengan
JARINGAN SARAF kumpulan neuron yang saling berhubungan. Untuk alasan ini, jaringan disebutsaraf Selain sifat
komputasinya yang berguna, jaringan saraf mungkin menawarkan kesempatan terbaik untuk memahami
banyak fenomena psikologis yang muncul dari struktur dan operasi spesifik otak. Oleh karena itu, kita akan
memulai bab ini dengan pandangan singkat tentang apa yang diketahui tentang otak,
karena ini memberikan banyak motivasi untuk mempelajari jaringan saraf. Dalam arti, kita
dengan demikian berangkat dari niat kami, yang dinyatakan dalam Bab untuk berkonsentrasi pada tindakan
rasional daripada meniru manusia. Tujuan yang saling bertentangan ini telah menjadi ciri studi jaringan saraf
sejak makalah pertama tentang topik tersebut oleh McCulloch dan Pitts (1943). Secara metodologis, tujuan dapat
didamaikan dengan mengakui fakta bahwa manusia (dan hewan lain) melakukanberpikir, dan menggunakan
kekuatan pikiran mereka untuk bertindak cukup berhasil dalam domain kompleks di mana agen berbasis komputer
saat ini akan hilang. Adalah instruktif untuk mencoba melihat bagaimana mereka melakukannya.
Bagian tersebut kemudian menyajikan model-model ideal yang menjadi pokok kajian. Jaringan
lapisan tunggal sederhana yang disebutperceptrontercakup dalam Bagian 19.3, dan jaringan multilayer
umum dalam Bagian 19.4. Bagian 19.5 menggambarkan berbagai penggunaan jaringan saraf.

Nama-nama lain yang telah digunakan untuk bidang ini antara lain pemrosesan terdistribusi paralel, saraf
komputasi, jaringan adaptif, dan komputasi kolektif.Harus ditekankan bahwa ini adalah saraf tiruan jaringan; tidak ada
upaya untuk membangun elemen komputasi dari jaringan hewan.

563
564 Bab 19. Belajar di Neural and Belief Networks

Tema jaringan dilanjutkan di Bagian di mana kita membahas metode untuk belajar
jaringan kepercayaan dari contoh. Hubungannya lebih dalam daripada kesamaan dangkal yang tersirat oleh
kata hanya dua bidang yang berbagi beberapa metode pembelajaran, tetapi di beberapa
kasus, dapat ditunjukkan bahwa jaringan sarafadalah jaringan.

BAGAIMANA OTAK BEKERJA

Cara yang tepat di mana otak memungkinkan pikiran adalah salah satu misteri besar ilmu pengetahuan. Telah
dihargai selama ribuan tahun bahwa pukulan keras di kepala dapat menyebabkan ketidaksadaran, kehilangan
ingatan sementara, atau bahkan kehilangan mental permanen. Hal ini menunjukkan bahwa
otak entah bagaimana terlibat dalam pemikiran. Juga telah lama diketahui bahwa otak manusia entah
bagaimana berbeda; di sekitar 335 SM Aristoteles menulis, "Dari semua hewan, manusia memiliki otak
terbesar dalam proporsi nya Tetap saja, itu tidak sampai pertengahan abad kedelapan belas
bahwa otak secara luas diakui sebagai pusat kesadaran, dan baru pada akhir abad
kesembilan belas wilayah fungsional otak hewan mulai dipetakan. Sebelum abad
kesembilan belas, calon lokasi untuk kursi kesadaran termasuk jantung, limpa, dan
tubuh pineal, pelengkap kecil otak yang ada di semua vertebrata.
NEURON Kita tahu bahwasaraf,atau sel saraf, adalah unit fungsional dasar dari semua jaringan sistem
" saraf, termasuk otak. Setiap neuron terdiri dari badan sel, atausoma,yang mengandung inti sel.
Bercabang dari badan sel adalah sejumlah serat yang disebutdendritdan satu serat panjang yang
AXON disebutakson.Dendrit bercabang menjadi jaringan lebat di sekitar sel, sedangkan akson
membentang untuk waktu yang lama sekitar satu sentimeter (100 kali diameter
badan sel), dan sejauh satu meter dalam kasus yang ekstrim. Akhirnya, akson juga bercabang
menjadi untaian dan yang terhubung ke dendrit dan badan sel neuron lain. Itu
sinapsis sambungan penghubung disebut asinapsis.Setiap neuron membentuk sinapsis dengan selusin
hingga seratus ribu neuron lainnya. Gambar menunjukkan bagian-bagian dari neuron.
Sinyal disebarkan dari neuron ke neuron melalui reaksi elektrokimia yang rumit. Zat
pemancar kimia dilepaskan dari sinapsis dan masuk ke dendrit, menaikkan atau menurunkan
potensial listrik badan sel. Ketika potensial mencapai ambang batas, pulsa listrik ataupotensial
POTENSI TINDAKAN aksidikirim ke bawah akson. Pulsa menyebar di sepanjang cabang akson, akhirnya mencapai
sinapsis dan melepaskan pemancar ke dalam tubuh sel lain. Sinapsis yang meningkatkan
RANGSANG potensi disebutrangsang,dan yang menurunkannya disebutpenghambatan.Mungkin temuan
Hambatan yang paling signifikan adalah bahwa koneksi sinaptik menunjukkan
KELIATAN perubahan kekuatan koneksi dalam menanggapi pola rangsangan
hubungan. Neuron juga membentuk koneksi baru dengan neuron lain, dan terkadang seluruh kumpulan
neuron dapat bermigrasi dari satu tempat ke tempat lain. Mekanisme ini diperkirakan membentuk
dasar untuk belajar di otak.
Sebagian besar pemrosesan informasi berlangsung di korteks serebral, lapisan luar otak. Unit
organisasi dasar tampaknya merupakan modul jaringan berbentuk tong sekitar 0,5 mm in

Sejak itu, telah ditemukan bahwa beberapa spesies dari dan paus memiliki otak yang relatif lebih besar. yang besar
ukuran otak manusia sekarang dianggap diaktifkan sebagian oleh perbaikan baru-baru ini dalam sistem pendinginnya.
Bagian Cara Kerja Otak 565

Arborisasi aksonal

Akson dari sel lain

sinapsis

Badan sel atau Soma

Gambar 19.1 Bagian-bagian sel saraf atau neuron. Pada kenyataannya, panjang akson seharusnya
kira-kira kali diameter badan sel.

diameter, memperluas kedalaman penuh korteks, yaitu sekitar 4 mm pada manusia. Sebuah modul berisi
sekitar 2000 neuron. Diketahui bahwa area otak tertentu memiliki fungsi tertentu. Pada tahun 1861, Pierre
Paul Broca mampu menunjukkan bahwa konvolusi frontal kiri ketiga dari korteks serebral penting untuk
AFASIA bicara dan bahasa dengan studinya tentang pasien dengan ketidakmampuan untuk berbicara, sering
disebabkan oleh kerusakan otak. Ini segera mengarah pada eksperimen bedah pada hewan yang
memetakan hubungan antara area korteks dan kontrol motorik tertentu. Kami sekarang memiliki beberapa
data tentang pemetaan antara area otak dan bagian tubuh yang mereka kendalikan, atau dari mana mereka
menerima input sensorik. Pemetaan seperti itu tampaknya dapat berubah secara radikal selama beberapa
minggu, dan beberapa hewan tampaknya memiliki banyak peta. Lebih-lebih lagi, kami tidak sepenuhnya
mengerti bagaimana area lain dapat mengambil alih fungsi ketika satu area rusak. Hampir tidak ada teori
tentang bagaimana memori individu disimpan.
• Hal yang benar-benar menakjubkan adalah itukumpulan sel sederhana dapat mengarah pada
* pikiran, tindakan, dan kesadaran.Neurobiologi jauh dari teori kesadaran yang lengkap, tetapi bahkan
jika ada beberapa proses listrik atau kimia penting yang telah diabaikan, kesimpulan yang
menakjubkan adalah sama:otak menyebabkan pikiran(Searle, 1992). Satu-satunya teori alternatif yang
nyata adalah mistisisme: bahwa ada alam mistis di mana pikiran beroperasi yang berada di luar ilmu
fisika.

Membandingkan otak dengan komputer digital

Otak dan komputer digital melakukan tugas yang sangat berbeda, dan memiliki sifat yang berbeda. Gambar
menunjukkan bahwa ada lebih banyak neuron di otak manusia pada umumnya daripada bit di stasiun kerja
komputer kelas atas. Kita dapat memperkirakan bahwa ini tidak akan bertahan lama, karena otak manusia
berkembang sangat lambat, sedangkan memori komputer berkembang pesat. di mana saja
566 Bab 19. Belajar di Neural and Belief Networks

Komputer Otak manusia

Satuan komputasi 1 CPU, gerbang neuron


Unit penyimpanan bit RAM, disk bit neuron, 10 sinapsis
Waktu siklus detik detik

Bandwidth bit/detik bit/detik


Pembaruan neuron/dtk

Gambar 19.2 Perbandingan kasar dari sumber daya komputasi mentah yang tersedia untuk komputer
(sekitar dan

kasus, perbedaan dalam kapasitas penyimpanan kecil dibandingkan dengan perbedaan kecepatan switching dan
paralelisme. Chip komputer dapat mengeksekusi instruksi dalam puluhan nanodetik, sedangkan
neuron membutuhkan milidetik untuk menyala. Namun, otak lebih dari sekadar menebus ini, karena semua
neuron dan sinapsis aktif secara bersamaan, sedangkan kebanyakan komputer saat ini hanya memiliki satu atau
paling banyak beberapa CPU. Jaringan saraf yang menjalankan komputer serial membutuhkan ratusan
siklus untuk memutuskan apakah satu unit mirip neuron akan menyala, sedangkan di otak nyata,semuaneuron
lakukan ini dalam satu langkah. Dengan demikian,meskipun komputer sejuta kali lebih cepat dalam kecepatan peralihan
mentah, otak pada akhirnya menjadi satu miliar kali lebih cepat dalam apa yang dilakukannya.Salah satu daya tarik
pendekatan jaringan saraf adalah harapan bahwa perangkat dapat dibangun yang menggabungkan paralelisme
otak dengan kecepatan switching komputer. Pengembangan perangkat keras skala penuh akan bergantung
pada menemukan keluarga algoritma jaringan saraf yang menyediakan dasar untuk investasi jangka panjang.
Otak dapat melakukan hal yang kompleks wajah, untuk kurang dari satu detik,
yang hanya cukup waktu untuk beberapa ratus siklus. Komputer serial membutuhkan miliaran siklus
untuk melakukan tugas yang sama kurang baik. Jelas, disanaadalahkesempatan untuk paralelisme besar-besaran di sini.
Jaringan saraf dapat menyediakan model untuk komputasi paralel besar-besaran yang lebih berhasil
daripada pendekatan "paralelisasi" algoritma serial tradisional.
Otak lebih toleran terhadap kesalahan daripada komputer. Kesalahan perangkat keras yang membalik satu bit
dapat merusak seluruh perhitungan, tetapi sel-sel otak mati sepanjang waktu tanpa efek buruk pada
keseluruhan fungsi otak. Memang benar ada berbagai penyakit dan trauma yang dapat mempengaruhi
otak, tetapi sebagian besar, otak berhasil mengatasi selama 70 atau 80 tahun tanpa perlu
untuk mengganti kartu memori, hubungi saluran layanan pabrikan, atau reboot. Selain itu, otak terus-menerus
dihadapkan dengan input baru, namun berhasil melakukan sesuatu dengannya. Program komputer
jarang bekerja dengan baik dengan input baru, kecuali jika programmer sangat berhati-hati. Itu daya tarik ketiga
ANGGUN dari jaringan saraf adalahdegradasi anggun:mereka cenderung mengalami penurunan kinerja yang bertahap dan
DEGRADASI
bukannya tajam seiring dengan memburuknya kondisi.
Daya tarik terakhir dari jaringan saraf adalah bahwa mereka dirancang untuk dilatih menggunakan
algoritma pembelajaran induktif. (Bertentangan dengan kesan yang diberikan oleh media populer, tentu
saja, jaringan saraf jauh dari satu-satunya sistem yang mampu belajar.) Setelah jaringan diinisialisasi, dapat
dimodifikasi untuk meningkatkan kinerjanya pada input/output Sejauh
bahwa algoritma pembelajaran dapat dibuat umum dan efisien, ini meningkatkan nilai jaringan saraf
sebagai model psikologis, dan menjadikannya alat yang berguna untuk menciptakan berbagai macam
aplikasi berkinerja tinggi.
Bagian 19.2. Jaringan Saraf 567

JARINGAN

UNIT Jaringan saraf terdiri dari sejumlah node, atauunit,dihubungkan olehlink.Setiap tautan memiliki
LINK nomorbobotterkait dengannya. Bobot adalah sarana utama penyimpanan jangka panjang dalam
BOBOT jaringan saraf, dan pembelajaran biasanya dilakukan dengan memperbarui bobot. Beberapa unit
terhubung ke lingkungan eksternal, dan dapat ditetapkan sebagai unit input atau output. Bobot
dimodifikasi untuk mencoba membawa perilaku input/output jaringan lebih sesuai dengan
lingkungan yang menyediakan input.
Setiap unit memiliki satu set tautan input dari unit lain, satu set tautan keluaran ke unit lain, arus
TINGKAT AKTIVASI tingkat aktivasi,dan sarana untuk menghitung tingkat aktivasi pada langkah waktu berikutnya,
diberikan masukan dan bobotnya. Idenya adalah bahwa setiap unit melakukan perhitungan lokal berdasarkan input
dari tetangganya, tetapi tanpa perlu kontrol global atas set unit secara keseluruhan. Dalam praktiknya,
sebagian besar implementasi jaringan saraf dalam perangkat lunak dan menggunakan kontrol sinkron
untuk memperbarui semua unit dalam urutan tetap.
Untuk membangun jaringan saraf untuk melakukan beberapa tugas, pertama-tama seseorang harus memutuskan
berapa banyak unit yang akan digunakan, jenis unit apa yang sesuai, dan bagaimana unit dihubungkan untuk membentuk
jaringan. Satu kemudian menginisialisasi bobot jaringan, dan melatih bobot menggunakan algoritma pembelajaran yang
diterapkan pada serangkaian contoh pelatihan untuk Penggunaan contoh juga menyiratkan
bahwa seseorang harus memutuskan bagaimana mengkodekan contoh dalam hal input dan output dari jaringan.

Notasi
Jaringan saraf memiliki banyak bagian, dan untuk merujuknya kita perlu memperkenalkan berbagai
notasi matematika. Untuk kenyamanan, ini diringkas dalam Gambar

Elemen komputasi sederhana

Gambar 19.4 menunjukkan unit tipikal. Setiap unit melakukan perhitungan sederhana: ia menerima
sinyal dari tautan inputnya dan menghitung tingkat aktivasi baru yang dikirimkannya sepanjang
setiap tautan keluarannya. Perhitungan tingkat aktivasi didasarkan pada nilai setiap sinyal input yang
diterima dari node tetangga, dan bobot pada setiap link input. Perhitungan dibagi menjadi dua
FUNGSI MASUKAN komponen. Pertama adalahlinierkomponen yang disebutfungsi masukan, jumlah yang
tertimbang dari
menghitung
nilai input unit. Kedua adalahnonlinierkomponen itupengaktifan
PENGAKTIFAN
FUNGSI fungsi,g,yang mengubah jumlah tertimbang menjadi nilai akhir yang berfungsi sebagai nilai aktivasi unit.
Biasanya, semua unit dalam jaringan menggunakan fungsi aktivasi yang sama. Latihan 19.3 menjelaskan
mengapa penting untuk memiliki komponen nonlinier.
Total bobot input adalah jumlah aktivasi input dikali bobotnya masing-masing:

Dalam bab ini, kita akan mengasumsikan bahwa semua contoh diberi label dengan output yang benar. Dalam Bab 20, kita akan melihat bagaimana
mengendurkan asumsi ini.
568 Bab 19. Belajar di Neural and Belief Networks

Notasi Arti
Nilai aktivasi unitsaya(juga output dari unit)
Vektor nilai aktivasi untuk input ke unitsaya

g Pengaktifan
Turunan dari fungsi aktivasi
Error (selisih antara output dan target) untuk unit
Error misalnyae

SAYA, Aktivasi unit di lapisan masukan


Saya Vektor aktivasi semua unit input
r Vektor input misalnyae
Jumlah tertimbang dari input ke

N Jumlah total unit dalam jaringan


HAI Aktivasi unit output tunggal perceptron
Aktivasi a di lapisan keluaran
HAI Vektor aktivasi semua unit di lapisan output
t Ambang batas untuk fungsi langkah

T Target (diinginkan) output untuk perceptron Target


T vektor ketika ada beberapa unit output Vektor
T target misalnyae

Berat pada tautan dari kesatuan ke unitsaya Bobot


dari unit r ke output dalam perceptron Vektor bobot
w, yang mengarah ke unitsaya Vektor dari semua bobot
w dalam jaringan

Gambar 19.3 Notasi jaringan saraf. Subskrip menunjukkan unit; superskrip menunjukkan contoh.

Keluaran

Tautan

Pengaktifan
'. .
Memasukkan
Keluaran
pemberian minyak suci r unction

Gambar 19.4 Satuan.


Bagian 19.2. Jaringan Saraf 569

di mana ekspresi akhir menggambarkan penggunaan notasi vektor. Dalam notasi ini, bobot pada link ke
nodesayadilambangkan dengan W, himpunan nilai input disebut dan produk titik dilambangkan
jumlah produk berpasangan.
Langkah komputasi dasar di setiap unit menghitung nilai aktivasi baru untuk
unit dengan menerapkan fungsi aktivasi, g, ke hasil fungsi input:

=g

Model yang berbeda diperoleh dengan menggunakan fungsi matematika yang berbeda untukg.Tiga umum
pilihannya adalah langkah, tanda, dan fungsi, diilustrasikan pada Gambar 19.5. Fungsi langkah
memiliki ambang batastsedemikian rupa sehingga menghasilkan 1 ketika input lebih besar dari dan keluaran
0 sebaliknya. Motivasi biologisnya adalah bahwa 1 mewakili penembakan pulsa ke bawah
akson, dan 0 menunjukkan tidak ada penembakan. Ambang batas mewakili total input tertimbang minimum
diperlukan untuk menyebabkan neuron menyala. Versi ambang batas dari fungsi tanda dan sigmoid dapat
juga akan didefinisikan.

Dalam kebanyakan kasus, kita akan merasa nyaman secara matematis untuk mengganti ambang batas dengan
bobot input ekstra. Ini memungkinkan elemen pembelajaran yang lebih sederhana karena hanya perlu khawatir tentang
menyesuaikan bobot, daripada menyesuaikan bobot dan ambang batas. Jadi, alih-alih memiliki
ambangtuntuk setiap unit, kami menambahkan input tambahan yang aktivasinya tetap pada Berat ekstra
terkait dengan melayani fungsi ambang batas dit,dengan ketentuan = Kemudian

semua unit dapat memiliki ambang tetap pada 0. Secara matematis, dua representasi untuk ambang
sepenuhnya setara:

= = di mana =tdan=

+1 +1

(a) Fungsi langkah (b) Fungsi tanda (c) Fungsi sigmoid

Gambar 19.5 Tiga fungsi aktivasi yang berbeda untuk unit.

=' - . — .
=
1
570 Bab 19. Belajar di Neural and Belief Networks

Kita bisa merasakan pengoperasian unit individu dengan membandingkannya dengan gerbang
logika. Salah satu motivasi asli untuk desain unit individu (McCulloch dan Pitts, 1943) adalah kemampuan
mereka untuk mewakili fungsi dasar Boolean. Gambar menunjukkan bagaimana fungsi Boolean DAN, ATAU,
danBUKANdapat diwakili oleh unit dengan bobot dan ambang batas yang sesuai. Ini penting karena itu
berarti kita dapat menggunakan unit-unit ini untuk membangun jaringan untuk menghitung fungsi Boolean
apa pun dari input.

P=1 P=1

P=1 P=1
DAN ATAU BUKAN

Gambar 19.6 Unit dengan fungsi langkah untuk fungsi aktivasi dapat bertindak sebagai gerbang logika, diberikan:
ambang batas dan bobot yang sesuai.

Struktur jaringan
Ada berbagai jenis struktur jaringan, yang masing-masing menghasilkan sifat komputasi yang
sangat berbeda. Perbedaan utama yang harus dibuat adalah antaraumpan majudanberulang
BERULANG jaringan. Dalam jaringan feed-forward, link bersifat searah, dan tidak ada siklus. Dalam jaringan
berulang, tautan dapat membentuk topologi arbitrer. Secara teknis, jaringan feed-forward
adalah grafik asiklik terarah (DAG). Kami biasanya akan berurusan dengan jaringan yang
tersusun berlapis-lapis. Dalam jaringan feed-forward berlapis, setiap unit hanya terhubung ke unit berikutnya
lapisan; tidak ada tautan antar unit di lapisan yang sama, tidak ada tautan mundur ke lapisan sebelumnya, dan
tidak ada tautan yang melewati lapisan. Gambar menunjukkan contoh yang sangat sederhana dari jaringan feed-
forward berlapis. Jaringan ini memilikidualapisan; karena unit input (simpul persegi) hanya berfungsi untuk
meneruskan aktivasi ke lapisan berikutnya, mereka tidak dihitung (walaupun beberapa penulis akan
menggambarkan ini sebagai jaringan tiga lapis).
Arti penting dari kurangnya siklus adalah bahwa komputasi dapat berjalan secara seragam dari unit
input ke unit output. Aktivasi dari langkah waktu sebelumnya tidak berperan dalam perhitungan, karena
tidak diumpankan kembali ke unit sebelumnya. Oleh karena itu, jaringan feed-forward hanya menghitung
fungsi dari nilai input yang bergantung pada bobot memilikitidak ada keadaan internallainnya

daripada bobot itu sendiri. Jaringan tersebut dapat mengimplementasikan versi adaptif dari agen refleks sederhana
atau mereka dapat berfungsi sebagai komponen agen yang lebih kompleks. Dalam bab ini, kita akan fokus pada
jaringan feed-forward karena mereka relatif dipahami dengan baik.
Jelas, otak tidak bisa menjadi jaringan feed-forward, kalau tidak kita tidak akan memiliki memori jangka
pendek. Beberapa daerah otak sebagian besar feed-forward dan agak berlapis, tetapi ada back-connection yang
merajalela. Dalam terminologi kami, otak adalah jaringan yang berulang. Karena aktivasi diumpankan kembali ke
unit yang menyebabkannya, jaringan berulang memiliki status internal yang disimpan di
tingkat aktivasi unit. Ini juga berarti bahwa perhitungan bisa jauh lebih tidak teratur
Bagian 19.2. Jaringan Saraf 571

daripada di jaringan feed-forward. Jaringan berulang dapat menjadi tidak stabil, atau berosilasi, atau menunjukkan
perilaku kacau. Mengingat beberapa nilai input, diperlukan waktu lama untuk menghitung output yang stabil, dan
pembelajaran menjadi lebih sulit. Di sisi lain, jaringan berulang dapat menerapkan desain agen yang lebih kompleks
dan dapat memodelkan sistem dengan status. Karena jaringan berulang memerlukan beberapa metode
matematika yang cukup canggih, kami hanya dapat memberikan beberapa petunjuk di sini.
HOPFIELD
JARINGAN jaringanmungkin kelas jaringan berulang yang paling dipahami. Mereka
menggunakandua arahkoneksi dengansimetrisbobot (yaitu, = semua unit keduanya
unit masukan dan keluaran; fungsi aktivasigadalah fungsi tanda; dan tingkat aktivasi hanya dapat ±
ASOSIASI
PENYIMPANAN
Sebuah jaringan Hopfield berfungsi sebagaiasosiatif pelatihan pada satu set
contoh, stimulus baru akan menyebabkan jaringan menjadi pola aktivasi yang sesuai
dengan contoh di set pelatihan yangpaling miriprangsangan baru. Misalnya, jika set
pelatihan terdiri dari satu set foto, dan stimulus baru adalah bagian kecil dari salah
satu foto, maka jaringan level akan mereproduksi foto dari mana
sepotong diambil. Perhatikan bahwa foto-foto asli tidak disimpan secara terpisah dalam jaringan; setiap
bobot adalah penyandian sebagian dari semua foto. Salah satu hasil teoretis yang paling menarik adalah
bahwa jaringan Hopfield dapat dengan andal menyimpan hingga contoh pelatihan, di manaNadalah
jumlah unit dalam jaringan.
MESIN
Mesin Boltzmannjuga menggunakan bobot simetris, tetapi sertakan unit yang bukan merupakan
input maupun unit keluaran (lih. unit berlabel dan pada Gambar 19.7). Mereka juga menggunakanstokastik
fungsi aktivasi, sehingga probabilitas output menjadi 1 adalah beberapa fungsi dari input tertimbang total.
Oleh karena itu, mesin Boltzmann menjalani transisi status yang menyerupai simulasi
pencarian anil untuk konfigurasi yang paling mendekati set pelatihan (lihat Bab 4).
Ternyata mesin Boltzmann secara formal identik dengan kasus khusus jaringan kepercayaan yang
dievaluasi dengan algoritma simulasi stokastik (lihat Bagian
Kembali ke jaringan feed-forward, ada satu lagi perbedaan penting yang harus dibuat.
Periksa Gambar yang menunjukkan topologi jaringan saraf yang sangat sederhana. Di sebelah
UNIT MASUKAN kiri adalahunit masukan.Nilai aktivasi masing-masing unit ini ditentukan oleh lingkungan. Di
UNIT KELUARAN ujung kanan jaringan ada empatunit keluaran.Di antara, node berlabel dan
UNIT TERSEMBUNYI tidak memiliki hubungan langsung dengan dunia luar. Ini disebutunit tersembunyi,karena tidak dapat
diamati secara langsung dengan memperhatikan perilaku input/output jaringan. Beberapa jaringan, disebut
PERCEPTRONS perceptron,tidak memiliki unit tersembunyi. Ini membuat masalah belajar lebih sederhana, tetapi itu berarti
bahwa perceptron sangat terbatas dalam apa yang dapat mereka wakili. Jaringan dengan satu atau lebih
MULTILAYER
JARINGAN lapisan unit tersembunyi disebutjaringan multilayer.Dengan satu (cukup besar) lapisan unit tersembunyi,
dimungkinkan untuk merepresentasikan fungsi kontinu dari input; dengan dua lapisan, bahkan fungsi
diskontinu dapat direpresentasikan.
Dengan struktur tetap dan fungsi aktivasi tetap g, fungsi yang diwakili oleh jaringan
feed-forward dibatasi untuk memiliki struktur parameter tertentu. Bobot yang dipilih
untuk jaringan menentukan fungsi mana yang benar-benar terwakili. Misalnya, jaringan
pada Gambar menghitung fungsi berikut:

(19.1)
di managadalah fungsi aktivasi, dan merupakan output dari nodesaya.Perhatikan bahwa karena
fungsi aktivasignonlinier, seluruh jaringan mewakili fungsi nonlinier yang kompleks. Jika kamu
572 Bab 19. Belajar di Neural and Belief Networks

Gambar 19.7 Jaringan feed-forward yang sangat sederhana, dua lapis dengan dua input, dua tersembunyi
node, dan satu output node.

anggap bobot sebagai parameter atau koefisien dari fungsi ini, makapembelajaran hanya menjadi proses
penyetelan parameter agar sesuai dengan data dalam pelatihan proses yang ahli statistik
NONLINEAR
REGRESI
panggilanregresi nonlinier.Dari sudut pandang statistik, inilah yang dilakukan jaringan saraf.

Struktur jaringan yang optimal

Sejauh ini kami telah mempertimbangkan jaringan dengan struktur tetap, ditentukan oleh beberapa otoritas luar.
Ini adalah titik lemah potensial, karena pilihan struktur jaringan yang salah dapat menyebabkan kinerja yang buruk.
Jika kita memilih jaringan yang terlalu kecil, maka model tidak akan mampu merepresentasikan fungsi yang
diinginkan. Jika kita memilih jaringan yang terlalu besar, itu akan dapat
menghafal semua contoh dengan membentuk tabel pencarian besar, tetapi tidak akan menggeneralisasi dengan baik ke
input yang belum pernah terlihat sebelumnya. Dengan kata lain, seperti semua model statistik, jaringan saraf tunduk pada
ketika ada terlalu banyak parameter (yaitu, bobot) dalam model. Kami melihat
ini pada Gambar 18.2 (halaman 530), di mana model parameter tinggi (b) dan (c) cocok untuk semua data, tetapi
mungkin tidak menggeneralisasi sebaik model parameter rendah (d).
Diketahui bahwa jaringan feed-forward dengan satu lapisan tersembunyi dapat mendekati setiap fungsi
input yang berkelanjutan, dan jaringan dengan dua lapisan tersembunyi dapat mendekati semua fungsi input.
fungsi sama sekali. Namun, jumlah unit di setiap lapisan dapat tumbuh secara eksponensial dengan jumlah input. Sampai
NERFS saat ini, kami tidak memiliki teori yang baik untuk mengkarakterisasi NERF, atau Jaringan yang Dapat Diwakili Secara Efisien
yang dapat didekati dengan sejumlah kecil unit.
Kita dapat menganggap masalah menemukan struktur jaringan yang baik sebagai masalah pencarian. Satu
pendekatan yang telah digunakan adalah dengan menggunakanalgoritma genetika(Bab 20) untuk mencari
ruang struktur jaringan. Namun, ini adalah ruang yang sangat besar, dan mengevaluasi keadaan dalam ruang
berarti menjalankan seluruh protokol pelatihan jaringan saraf, sehingga pendekatan ini sangat intensif CPU. Oleh
karena itu, lebih umum untuk melihat pencarian mendaki bukit yang secara selektif memodifikasi struktur jaringan
yang ada. Ada dua cara untuk melakukannya: mulai dengan jaringan besar dan buat lebih kecil,
atau mulai dengan yang kecil dan membuatnya lebih besar.
Jaringan pembacaan kode pos yang dijelaskan pada halaman 586 menggunakan pendekatan yang disebutoptimal
kerusakan otakuntuk menghilangkan bobot dari model full-connected awal. Setelah jaringan
Bagian 19.3. Perceptron 573

awalnya dilatih, pendekatan teori informasi mengidentifikasi pilihan koneksi yang optimal yang
dapat dijatuhkan (yaitu, bobot diatur ke nol). Jaringan kemudian dilatih ulang, dan jika
berkinerja baik atau lebih baik, proses ini diulang. Proses ini mampu menghilangkan 3/4 dari
bobot, dan meningkatkan kinerja keseluruhan pada data uji. Selain menghapus koneksi, Anda
juga dapat menghapus yang tidak banyak berkontribusi pada hasil.
Beberapa algoritma telah diusulkan untuk menumbuhkan jaringan yang lebih besar dari yang lebih kecil. Itu
algoritma ubin dan menarik karena mirip dengan keputusan
algoritma pembelajaran pohon. Idenya adalah untuk memulai dengan satu unit yang melakukan yang terbaik untuk menghasilkan

output yang benar pada sebanyak mungkin contoh pelatihan. Unit berikutnya ditambahkan untuk
menangani contoh bahwa unit pertama salah. Algoritme hanya menambahkan unit sebanyak yang
diperlukan untuk mencakup semua contoh.
Teknik validasi silangdari Bab jaringan berguna memutuskan kapan kita telah menemukan

dengan ukuran yang tepat.

19.3 PERCEPTRONS

Jaringan feed-forward berlapis pertama kali dipelajari pada akhir 1950-an dengan namaperceptron.
Meskipun jaringan dari semua ukuran dan topologi dipertimbangkan, satu-satunya elemen pembelajaran

pada saat itu untuk jaringan berlapis tunggal, jadi di situlah sebagian besar upaya dihabiskan. Saat
ini, nama perceptron digunakan sebagai sinonim untuk jaringan feed-forward satu lapis. Sisi kiri
Gambar menunjukkan jaringan perceptron seperti itu. Perhatikan bahwa setiap unit keluaran adalah independen

dari berat hanya mempengaruhi salah satu output. Itu berarti kita bisa membatasi
mempelajari perceptron dengan satu unit output, seperti di sisi kanan Gambar 19.8, dan menggunakan beberapa di
antaranya untuk membangun perceptron multi-output. Untuk kenyamanan, kita dapat menghapus subskrip, yang
menunjukkan unit keluaran sebagaiHAIdan bobot dari input keHAIsebagaiWj.Aktivasi masukan
diberikan oleh Oleh karena itu, aktivasi unit output adalah

O= =

di mana, seperti yang dibahas sebelumnya, kami telah mengasumsikan bobot tambahanWountuk memberikan ambang batas untuk

fungsi langkah, dengan= —

Apa yang dapat diwakili oleh perceptron?

Kami melihat pada Gambar 19.6 bahwa unit dapat mewakili fungsi Boolean sederhana AND, OR, dan NOT,
dan oleh karena itu jaringan unit feed-forward dapat mewakili fungsi Boolean apa pun, jika kami
mengizinkan lapisan dan unit yang cukup. Tetapi fungsi Boolean apa yang dapat direpresentasikan dengan
perceptron satu lapis?
Beberapa fungsi Boolean yang kompleks dapat direpresentasikan. Misalnya,fungsi mayoritas,
yang menghasilkan 1 hanya jika lebih dari setengah inputnya dapat diwakili oleh perceptron
dengan masing-masing = 1 dan ambang = Ini akan membutuhkan pohon keputusan dengan node.
574 Bab 19. Belajar di Neural and Belief Networks

HAI

Memasukkan Keluaran Memasukkan Keluaran

Satuan Satuan Satuan Satuan

Jaringan Perceptron Perceptron tunggal

Gambar 19.8 Perceptron.

Perceptron, dengan 1 unit bobot, memberikan representasi yang jauh lebih ringkas dari ini
dan fungsi. Menurut pisau cukur, kami berharap perceptron melakukan banyak hal
pekerjaan yang lebih baik untuk mempelajari fungsi mayoritas, seperti yang akan segera kita lihat.

Sayangnya, ternyata perceptron sangat terbatas dalam fungsi Boolean yang dapat mereka wakili.
Masalahnya adalah bahwa setiap masukanljhanya dapat mempengaruhi keluaran akhir dalam satu arah,
tidak peduli berapa nilai masukan lainnya. Pertimbangkan beberapa vektor masukan a. Misalkan vektor ini
memiliki = 0 dan vektor tersebut menghasilkan 0 sebagai output. Selanjutnya, misalkan ketika
diganti dengan 1, output berubah menjadi 1. Ini menyiratkan bahwawjharus positif. Ini juga menyiratkan
bahwa tidak mungkin ada vektor input b yang outputnya adalah 1 ketikabj =0, tetapi outputnya adalah 0
ketikabjdiganti dengan Karena batasan ini berlaku untuk setiap input, hasilnya adalah batasan parah dalam
jumlah total fungsi yang dapat direpresentasikan. Misalnya, perceptron tidak dapat mewakili fungsi untuk
memutuskan apakah akan menunggu meja di restoran atau tidak (ditunjukkan sebagai pohon keputusan
pada Gambar.
Sedikit geometri membantu memperjelas apa yang sedang terjadi. Gambar 19.9 menunjukkan tiga
fungsi Boolean yang berbeda dari dua input, fungsi AND, OR, dan XOR. Setiap fungsi direpresentasikan
sebagai plot dua dimensi, berdasarkan nilai dari dua input. Titik-titik hitam menunjukkan suatu titik di ruang
input di mana nilai fungsinya dan titik-titik putih menunjukkan titik di mana nilainya adalah 0. Seperti yang
akan kami jelaskan secara singkat, sebuah perceptron dapat mewakili suatu fungsi hanya jika ada
beberapa garis yang memisahkan semua titik putih dari titik hitam. Fungsi seperti ini disebutdapat dipisahkan secara
LINEAR
TERPISAH linier.Dengan demikian, perceptron dapat mewakili AND dan OR, tetapi tidak XOR.
Bagian 19.3. Perceptron 575

'
• .H • H HAI

SEBUAH

0 1 0 0

(sebuah) dan (b) atau (c) xor

Gambar 19.9 Pemisahan linier dalam perceptron.

Fakta bahwa perceptron hanya dapat mewakili fungsi yang dapat dipisahkan secara linier mengikuti
langsung dari Persamaan (19.2), yang mendefinisikan fungsi yang dihitung oleh Sebuah keluaran perceptron

a 1 hanya jika W • I > 0. Ini berarti bahwa seluruh ruang masukan dibagi dua sepanjang batas yang ditentukan oleh
W • I = 0, yaitu, sebuah bidang dalam ruang masukan dengan koefisien yang diberikan oleh bobot.
Denganninput, ruang inputnya adalah dan keterpisahan linier bisa jadi agak sulit untuk
membayangkannterlalu besar. Paling mudah untuk memahami untuk kasus di manan = 2.Dalam Gambar
satu "bidang" yang mungkin memisahkan adalah garis putus-putus yang ditentukan oleh persamaan

atau
Wilayah di atas garis, di mana outputnya adalah Oleh karena itu diberikan oleh

atau, dalam notasi vektor,

Dengan tiga input, bidang pemisah masih dapat divisualisasikan. Angka menunjukkan contoh
dalam tiga dimensi. Fungsi yang ingin kita nyatakan adalah benar jika dan hanya jika sebagian kecil dari
ketiga inputnya benar. Bidang pemisah yang diarsir didefinisikan oleh persamaan

+/2 + /3 = 1,5

Kali ini output positif terletak di bawah bidang, di wilayah


+ (-/2)+
Angka menunjukkan unit untuk mengimplementasikan fungsi.

Mempelajari fungsi yang dapat dipisahkan secara linier

Seperti halnya elemen kinerja lainnya, pertanyaan tentang apa yang dapat diwakili oleh perceptron adalah sebelum
pertanyaan tentang apa yang dapat mereka pelajari. Kita baru saja melihat bahwa suatu fungsi dapat diwakili oleh a
perceptron jika dan hanya jika dapat dipisahkan secara linear. Itu adalah berita yang relatif buruk, karena tidak
banyak fungsi yang dapat dipisahkan secara linier. Kabar baiknya (relatif) adalah bahwaada perceptron
algoritma yang akan mempelajari fungsi yang dapat dipisahkan secara linier, diberikan contoh pelatihan yang cukup.
576 Bab 19. Belajar di Neural and Belief Networks

(a) Memisahkan pesawat (b) Bobot dan ambang batas

Gambar 19.10 Pemisahan linier dalam tiga fungsi "minoritas".

Sebagian besar algoritma pembelajaran jaringan saraf, termasuk metode pembelajaran perceptron, mengikuti
skema hipotesis-terbaik-saat ini (CBH) dijelaskan dalam Bab Dalam hal ini, hipotesis
adalah jaringan, ditentukan oleh nilai bobot saat ini. Jaringan awal memiliki secara acak
bobot yang ditetapkan, biasanya dari kisaran Jaringan kemudian diperbarui untuk mencoba membuat

itu sesuai dengan contoh. Hal ini dilakukan dengan membuat penyesuaian kecil pada bobot untuk
mengurangi perbedaan antara nilai yang diamati dan yang diprediksi. Perbedaan utama dari
algoritma logis adalah kebutuhan untuk mengulangi fase pembaruan beberapa kali untuk setiap
EPOCHS contoh untuk mencapai konvergensi. Biasanya, proses pembaruan dibagi menjadi:zaman.Setiap
epoch melibatkan memperbarui semua bobot untuk semua contoh. Skema umum ditampilkan sebagai
JARINGAN SARAF-PELAJARAN dalam Gambar
Untuk perceptron, aturan pembaruan bobot sangat sederhana. Jika keluaran yang diprediksi untuk
unit keluaran tunggal adalahHAI,dan output yang benar seharusnyaT,maka kesalahan diberikan oleh

salah =

Jika kesalahannya positif, maka kita perlu meningkatkanHAI;jika negatif, kita perlu mengurangi0.Sekarang
setiap unit input berkontribusi terhadap total input, jadi positif, peningkatanwjakan cenderung meningkat
HAI,dan negatif, kenaikanwjakan cenderung menurunHAI.Dengan demikian, kita dapat mencapai
efek yang kita inginkan dengan aturan berikut:

Wj Wj + axljxBerbuat salah

TINGKAT BELAJAR di mana istilah a adalah konstanta yang disebutkecepatan belajar.Aturan ini adalah sedikit varian dari
PERCEPTRON aturan belajar perceptrondiusulkan oleh Frank Rosenblatt pada tahun 1960. Rosenblatt membuktikan bahwa
ATURAN PEMBELAJARAN

sistem pembelajaran yang menggunakan aturan pembelajaran perceptron akan konvergen ke sekumpulan bobot
yang mewakili contoh dengan benar, selama contoh mewakili fungsi yang dapat dipisahkan secara linier.
Teorema konvergensi perceptron menciptakan banyak kegembiraan ketika itu
diumumkan. Orang-orang kagum bahwa prosedur sederhana seperti itu dapat dengan benar mempelajari fungsi
apa pun yang tidak menyenangkan, dan ada harapan besar bahwa mesin cerdas dapat dibuat dari
Bagian 19.3. Perceptron 577

fungsi kembalijaringan

jaringan jaringan dengan bobot yang ditetapkan secara acak


ulang
untuk setiapedi melakukan

HAI e)
T nilai keluaran yang diamati darie
perbarui bobot dijaringanberdasarkan O, dan T
akhir

sampaisemua contoh diprediksi dengan benar atau kriteria berhenti tercapai


kembalijaringan

Gambar 19.11 Metode pembelajaran jaringan saraf umum: sesuaikan bobot hingga diprediksi
nilai output O dan nilai sebenarnya T setuju.

perceptron. Tidak sampai bahwa Minsky dan Papert melakukan apa yang seharusnya—
langkah pertama: menganalisis kelas fungsi yang dapat direpresentasikan. Buku merekaPerceptron(Minsky dan Papert,
1969) dengan jelas menunjukkan batas-batas fungsi yang dapat dipisahkan secara linier.
Dalam retrospeksi, teorema konvergensi perceptron seharusnya tidak mengejutkan. Itu perceptron sedang
melakukanpenurunan gradienmencari melalui ruang bobot (lihat Bab 4). Ini cukup mudah untuk menunjukkan
bahwa ruang bobot tidak memiliki minimum lokal. Asalkan parameter kecepatan belajar tidak terlalu besar untuk
menyebabkan "overshooting", pencarian akan bertemu pada bobot yang benar. Singkatnya, pembelajaran
perceptron itu mudah karena ruang fungsi yang dapat direpresentasikan itu sederhana.
Kita dapat memeriksa perilaku belajar perceptron dengan menggunakan metode membangun kurva
belajar, seperti yang dijelaskan dalam Bab Ada sedikit perbedaan antara deskripsi contoh yang digunakan
untuk jaringan saraf dan yang digunakan untuk metode berbasis atribut lainnya seperti pohon keputusan.
Dalam jaringan saraf, semua input adalah bilangan real dalam beberapa rentang tetap, sedangkan pohon
keputusan memungkinkan atribut multinilai dengan kumpulan nilai diskrit. Misalnya, atribut untuk jumlah
pelanggan di restoran memiliki nilaiTidak ada, danPenuh.Ada
pengkodean lokal dua cara untuk menangani ini. Di sebuahpengkodean lokal,kami menggunakan unit input tunggal dan memilih yang sesuai

jumlah nilai yang berbeda sesuai dengan nilai atribut diskrit. Misalnya, kita dapat menggunakan Tidak ada=0,0,
DISTRIBUSI
pengkodean
Beberapa =0,5, danPenuh =1.0. Di sebuahpengkodean terdistribusi,kami menggunakan satu unit input untuk
setiap nilai atribut, menyalakan unit yang sesuai dengan nilai yang benar.
Gambar 19.12 menunjukkan kurva belajar untuk perceptron pada dua masalah yang berbeda. Di sebelah
kiri, kami menunjukkan kurva untuk mempelajari fungsi mayoritas dengan input Boolean (yaitu, fungsi
menghasilkan 1 jika 6 atau lebih input adalah 1). Seperti yang kita harapkan, perceptron mempelajari fungsi dengan
cukup cepat karena fungsi mayoritas dapat dipisahkan secara linear. Di sisi lain, pohon keputusan pelajar tidak
membuat kemajuan, karena fungsi mayoritas sangat sulit (walaupun bukan tidak mungkin) untuk direpresentasikan
sebagai pohon keputusan. Di sebelah kanan gambar, kita memiliki situasi yang berlawanan. ItuAkan menunggu
masalah mudah direpresentasikan sebagai pohon keputusan, tetapi tidak linier dapat dipisahkan. Algoritme
perceptron menggambar bidang terbaik yang dapat melalui data, tetapi dapat mengelola akurasi tidak lebih dari
65%.
578 Bab 19. Belajar di Neural and Belief Networks

1 1

0.9 0.9

0.8 Perceptron
83 6
Pohon keputusan
C
£ 0,7 0,7
sebuah

8 0.6- _ Perceptron 8 0.6 V


pohon

0,5 0,5

0.4 0.4
( 20 30 40 50 60 70 80 90 )0 C 10 20 30 40 50 60 70 80 90 100
Ukuran set pelatihan Ukuran set pelatihan

(sebuah) (b)

Gambar 19.12 Membandingkan kinerja perceptron dan keputusan (a) Perceptron


lebih baik dalam mempelajari fungsi mayoritas (b) Pohon keputusan lebih baik dalam belajar
dari predikat untuk contoh restoran.

JARINGAN FEED-FORWARD MULTILAYER

Rosenblatt dan lain-lain menggambarkan jaringan feed-forward multilayer di akhir tapi konsentrasi-

menilai penelitian mereka pada perceptron single-layer. Ini terutama karena kesulitan
menemukan cara yang masuk akal untuk memperbarui bobot antara input dan unit tersembunyi; sedangkan
sinyal kesalahan dapat dihitung untuk unit output, lebih sulit untuk melihat apa sinyal kesalahan
seharusnya untuk unit tersembunyi. Ketika bukuPerceptronditerbitkan, Minsky dan Papert
menyatakan bahwa itu adalah "masalah penelitian penting" untuk menyelidiki jaringan multilayer lebih
teliti, meskipun mereka berspekulasi bahwa "tidak ada alasan untuk menganggap bahwa salah satu kebajikan
perceptrons] terbawa ke versi banyak lapis." Dalam arti tertentu, mereka benar. Algoritma
pembelajaran untuk jaringan multilayer tidak efisien atau tidak dijamin untuk konvergen ke optimal
global. Di sisi lain, hasil teori pembelajaran komputasi memberi tahu kita bahwa mempelajari fungsi
umum dari contoh adalah masalah yang sulit dipecahkan dalam kasus terburuk, terlepas dari
metode, jadi kita tidak perlu terlalu kecewa.
PROPAGASI KEMBALI Metode paling populer untuk belajar dalam jaringan multilayer disebutpropagasi balik.
Ini pertama kali ditemukan dioleh Bryson dan Ho, tetapi kurang lebih diabaikan sampai
1980-an. Alasan untuk ini mungkin sosiologis, tetapi mungkin juga berkaitan dengan
persyaratan komputasi algoritma pada masalah nontrivial.

Pembelajaran Propagasi Kembali

Misalkan kita ingin membangun jaringan untuk masalah restoran. bahwa Kami telah melihat Kami
perceptron tidak memadai, jadi kami akan mencoba jaringan dua lapis. memiliki sepuluh atribut
Bagian 19.4. Jaringan Umpan Maju 579

Unit keluaran

Unit tersembunyi

Unit masukan

Gambar 19.13 Jaringan feed-forward dua lapis untuk masalah restoran.

menjelaskan setiap contoh, jadi kita akan membutuhkan sepuluh unit input. Berapa banyak unit tersembunyi yang dibutuhkan? Dalam

Gambar kami menunjukkan jaringan dengan empat unit tersembunyi. Ini ternyata tepat untuk
masalah ini. Masalah memilih jumlah unit tersembunyi yang tepat sebelumnya masih belum dipahami dengan baik.
Kami membahas apa yang diketahui di halaman 572.
Belajar dalam jaringan seperti itu berlangsung dengan cara yang sama seperti contoh input adalah
disajikan ke jaringan, dan jika jaringan menghitung vektor output yang cocok dengan target, tidak ada yang
dilakukan. Jika ada kesalahan (perbedaan antara output dan target), maka bobotnya disesuaikan untuk
mengurangi kesalahan ini.Triknya adalah menilai kesalahan atas kesalahan dan membaginya di antara
bobot yang berkontribusi.Dalam perceptron, ini mudah, karena hanya ada satu bobot antara setiap input
dan output. Tetapi dalam jaringan multilayer, ada banyak bobot yang menghubungkan setiap input ke
output, dan masing-masing bobot ini berkontribusi pada lebih dari satu output.
Algoritma back-propagation adalah pendekatan yang masuk akal untuk membagi kontribusi setiap bobot. Seperti
dalam algoritma pembelajaran perceptron, kami mencoba untuk meminimalkan kesalahan antara setiap output target dan
output yang sebenarnya dihitung oleh: Pada lapisan keluaran, pembaruan bobot
aturan ini sangat mirip dengan aturan untuk perceptron. Ada dua perbedaan: aktivasi unit
tersembunyi digunakan sebagai ganti nilai input; dan aturan berisi istilah untuk gradien
fungsi aktivasi. Jika adalah kesalahan - di simpul keluaran, lalu pembaruan bobot
aturan untuk tautan dari untuk menyatukansayaadalah

+ kapak xx
di manag'adalah turunan dari fungsi aktivasig.Kami akan merasa nyaman untuk mendefinisikan istilah kesalahan
baru yang untuk node keluaran didefinisikan sebagai = Aturan pembaruan kemudian menjadi

+ ai (19.3)
Untuk memperbarui koneksi antara unit input dan unit tersembunyi, kita perlu mendefinisikan kuantitas
yang analog dengan istilah kesalahan untuk node output. Di sinilah kita melakukan kesalahan
backpropagation. Idenya tersembunyi jadalah "bertanggung jawab" untuk beberapa bagian dari kesalahan dalam

Sebenarnya, kami meminimalkan kuadrat kesalahan; Bagian 19.4 menjelaskan alasannya, tetapi hasilnya hampir sama.
580 Bab 19. Belajar di Neural and Belief Networks

setiap node output yang terhubung. Dengan demikian, nilai dibagi menurut
kekuatan koneksi antara simpul tersembunyi dan simpul keluaran, dan disebarkan kembali untuk
memberikan nilai bagi lapisan tersembunyi. Aturan propagasi untuk nilai A adalah sebagai berikut:

= / • (19.4)
saya
Sekarang aturan pembaruan bobot untuk bobot antara input dan lapisan tersembunyi hampir identik
dengan aturan pembaruan untuk lapisan output:

+ Q xx
Algoritma rinci ditunjukkan pada Gambar Dapat diringkas sebagai berikut:

• Hitung nilai A untuk unit output menggunakan kesalahan yang diamati.


• Dimulai dengan lapisan keluaran, ulangi hal berikut untuk setiap lapisan dalam jaringan, sampai lapisan
tersembunyi paling awal tercapai:

- Menyebarkan nilai A kembali ke lapisan sebelumnya.


- Perbarui bobot antara dua lapisan.
Ingatlah bahwa dalam menghitung kesalahan yang diamati untuk contoh yang diberikan, NEURAL-
NETWORK-LEARNING pertama-tama memasukkan contoh ke input jaringan untuk menghitung nilai output
yang diprediksi. Selama perhitungan ini, adalah ide yang baik untuk menyimpan beberapa nilai antara yang
dihitung di setiap unit. Secara khusus, caching gradien aktivasi di setiap unit mempercepat
fase back-propagation berikutnya sangat besar.
Sekarang kami memiliki metode pembelajaran untuk jaringan multilayer, kami dapat menguji klaim kami bahwa
menambahkan lapisan tersembunyi membuat jaringan lebih ekspresif. Dalam Gambar kami menunjukkan dua kurva.

KURVA PELATIHAN Yang pertama adalahkurva pelatihan,yang menunjukkan kesalahan kuadrat rata-rata pada set pelatihan yang
diberikan dari 100 contoh restoran selama proses pembaruan bobot. Hal ini menunjukkan bahwa melakukan

memang konvergen menjadi sangat cocok dengan data pelatihan. Kurva kedua adalah kurva pembelajaran
standar untuk data restoran, dengan satu pengecualian kecil: the bukan lagi proporsinya
jawaban yang benar pada set tes, karena unit sigmoid tidak memberikan output 0/1. Sebagai gantinya, kami
menggunakan kesalahan kuadrat rata-rata pada set tes, yang kebetulan bertepatan dengan proporsi
jawaban yang benar dalam kasus 0/1. Kurva jelas menunjukkan bahwa jaringan mampu belajar di domain
restoran; memang, kurvanya sangat mirip dengan untuk pembelajaran pohon keputusan, meskipun agak
lebih dangkal.

Propagasi balik sebagai pencarian penurunan gradien

Kami telah memberikan beberapa alasan sugestif mengapa persamaan back-propagation masuk akal. Ternyata
persamaan juga dapat diberikan interpretasi yang sangat sederhana sebagai metode untuk melakukanpenurunan
PERMUKAAN KESALAHAN gradiendalam ruang berat. Dalam hal ini, gradien berada padapermukaan kesalahan: permukaan yang
menggambarkan kesalahan pada setiap contoh sebagai fungsi dari semua bobot dalam jaringan. Contoh
permukaan kesalahan ditunjukkan pada Gambar 19.16. Himpunan bobot saat ini mendefinisikan sebuah titik pada
permukaan ini. Pada titik itu, kita melihat kemiringan permukaan sepanjang sumbu yang terbentuk
oleh masing-masing berat. Ini dikenal sebagaiturunan parsialpermukaan sehubungan dengan masing-masing
banyak kesalahan akan berubah jika kami membuat perubahan kecil dalam berat. Kami kemudian mengubah
Bagian 19.4. Jaringan Feed-Forward Multilayer 581

fungsi contoh, a)kembalijaringan dengan bobot yang dimodifikasi


masukan:jaringan,jaringan multilayer
contoh,satu set berpasangan

kecepatan belajar

ulang
untuk setiapedicontohmelakukan

/ *Hitung output untuk contoh ini * I


HAI
/ *Hitung kesalahan dan untuk unit di lapisan keluaran * /
-
/ *Perbarui bobot yang mengarah ke lapisan keluaran * /
— +o x x x
untuk setiap lapisan dalam melakukan

/ *Hitung error pada setiap node * /

/ * Perbarui bobot yang mengarah ke lapisan * saya

+ axx
akhir

akhir

sampaijaringantelah menyatu
kembalijaringan

Gambar 19.14 Algoritma back-propagation untuk memperbarui bobot dalam jaringan multilayer.

'
p
Kesalahan total pada set pelatihan

.
% benar pada set tes

00
ppo

multilayer jaringan
Pohon keputusan
p
p

50 100 150 200 250 300 350 4C ) 20 30 40 50 60 70 80 90


0

Jumlah zaman Ukuran set pelatihan

(sebuah) (b)

Gambar 19.15 (a) Kurva pelatihan menunjukkan pengurangan kesalahan secara bertahap saat bobot dimodifikasi
selama beberapa zaman, untuk satu set contoh tertentu di kurva (b) Pembelajaran komparatif
restoran untuk propagasi mundur dan pembelajaran pohon keputusan.
582 Bab 19. Belajar di Neural and Belief Networks

Gambar 19.16 Permukaan kesalahan untuk pencarian penurunan gradien dalam ruang bobot. Kapan =sebuahdan

= b,kesalahan pada set pelatihan diminimalkan.

bobot dalam jumlah yang sebanding dengan kemiringan di setiap arah. Ini menggerakkan jaringan secara
keseluruhan ke arah penurunan paling curam pada permukaan kesalahan.
Pada dasarnya, ini adalah kuncinya:back-propagation menyediakan cara membagi perhitungan
gradien di antara unit, sehingga perubahan setiap bobot dapat dihitung dengan unit yang bobotnya
dilampirkan, hanya dengan menggunakan informasi lokal.Seperti halnya pencarian gradient descent, back-
propagation memiliki masalah dengan efisiensi dan konvergensi, seperti yang akan kita bahas segera.
Meskipun demikian, dekomposisi algoritma pembelajaran merupakan langkah besar menuju
dan mekanisme pembelajaran yang masuk akal secara biologis.
Untuk kecenderungan matematis, kita sekarang akan menurunkan persamaan propagasi balik dari prinsip
pertama. Kita mulai dengan fungsi kesalahan itu sendiri. Karena bentuknya yang nyaman, kami menggunakan
jumlah kesalahan kuadrat di atas nilai output:

Wawasan kuncinya, sekali lagi, adalah bahwa nilai output adalah fungsi dari bobot (lihat Persamaan
tion (19.1), misalnya). Untuk jaringan dua lapis umum, kita dapat menulis:

(19.5)
Bagian 19.4. Jaringan Feed-Forward Multilayer 583

Perhatikan bahwa meskipun istilah di baris pertama mewakili ekspresi yang kompleks, itu tidak
bergantung pada Juga, hanya satu istilah dalam penjumlahan di atas tergantung pada tertentu
jadi semua suku lainnya diperlakukan sebagai konstanta sehubungan dengan dan akan hilang ketika
terdiferensiasi. Oleh karena itu, ketika kita membedakan baris pertama sehubungan dengan kita peroleh

dengan didefinisikan seperti sebelumnya. Derivasi gradien terhadap sedikit lebih


kompleks, tetapi memiliki hasil yang serupa:

dE

Untuk mendapatkan aturan pembaruan untuk bobot, kita harus ingat bahwa objeknya adalahmemperkecil
kesalahan, jadi kita perlu mengambil langkah kecil ke arahdi depanke gradien.
Ada satu pengamatan teknis kecil yang harus dilakukan tentang aturan pembaruan ini. Mereka membutuhkan
turunan dari fungsi aktivasig,jadi kita tidak bisa menggunakan fungsi tanda atau langkah. Kembali-
jaringan propagasi biasanya menggunakan fungsi sigmoid, atau beberapa variannya. sigmoidnya
juga memiliki properti nyaman bahwa turunannya = - g),jadi sedikit perhitungan ekstra
diperlukan untuk menemukan

Diskusi
Mari kita mundur sejenak dari matematika yang menyenangkan dan biologi yang menarik, dan tanyakan apakah
pembelajaran propagasi balik dalam jaringan multilayer adalah metode yang baik untuk pembelajaran mesin. Kita
dapat memeriksa rangkaian masalah yang sama yang muncul di Bab

Ekspresi:Jaringan saraf jelas merupakan representasi berbasis atribut, dan tidak


memiliki kekuatan ekspresif dari representasi logis umum. Mereka sangat cocok untuk
input dan output terus menerus, tidak seperti kebanyakan sistem pohon keputusan. Kelas multilayer
jaringansecara keseluruhandapat mewakili fungsi yang diinginkan dari sekumpulan atribut, tetapi tertentu
jaringan mungkin memiliki terlalu sedikit unit tersembunyi. Ternyata unit tersembunyi diperlukan untuk
mewakili semua fungsi Boolean darinmasukan. Ini seharusnya tidak terlalu mengejutkan. Jaringan seperti itu
memiliki bobot, dan kita membutuhkan setidaknya 2" bit untuk menentukan Boolean
fungsi. Dalam praktiknya, sebagian besar masalah dapat diselesaikan dengan bobot yang lebih sedikit. Merancang sebuah

topologi yang baik, bagaimanapun, adalah seni hitam.

Efisiensi komputasi:Efisiensi komputasi tergantung pada jumlah komputasi


Jika adam
waktu stasiun yang diperlukan untuk melatih jaringan agar sesuai dengan serangkaian contoh yang
diberikan. contoh, dan |W| bobot, setiap zaman membutuhkan waktu. Namun, dalam komputasi-

teori pembelajaran nasional telah menunjukkan bahwa jumlah kasus terburuk dari zaman dapat eksponensial dalam
n,jumlah input. Dalam praktiknya, waktu untuk konvergensi sangat bervariasi, dan beragam teknik telah
dikembangkan untuk mencoba mempercepat proses menggunakan bermacam-macam.
parameter merdu. Minima lokal di permukaan kesalahan juga menjadi masalah. Jaringan cukup sering
bertemu untuk memberikan keluaran "ya" atau "tidak" yang konstan, mana saja yang paling umum
584 Bab 19. Belajar di Neural and Belief Networks

dalam set pelatihan. Dengan biaya beberapa perhitungan tambahan, metode simulasi anil
(Bab 4) dapat digunakan untuk memastikan konvergensi ke optimum global.
0 Seperti yang telah kita lihat dalam eksperimen kami pada data restoran, jaringan saraf
bisa berbuat baik dari generalisasi. Seseorang dapat mengatakan, agak melingkar, bahwa mereka akan—
menggeneralisasi dengan baik untuk itu mereka sangat cocok. Ini tampaknya menjadi fungsi dalam
di mana interaksi antara input tidak terlalu rumit, dan output bervariasi dengan lancar
dengan input. Tidak ada teorema yang harus dibuktikan di sini, tetapi tampaknya
jaringan saraf memiliki keberhasilan yang wajar dalam sejumlah masalah dunia nyata.
Sensitivitas terhadap kebisingan:Karena jaringan saraf pada dasarnya melakukan regresi nonlinier, mereka sangat
toleran terhadap noise dalam data input. Mereka hanya menemukan yang paling cocok mengingat
batasan topologi jaringan. Di sisi lain, seringkali berguna untuk memiliki beberapa ide
derajat kepastian nilai keluaran. Jaringan saraf tidak memberikan probabilitas
distribusi nilai keluaran. Untuk tujuan ini, jaringan kepercayaan tampaknya lebih tepat.
Transparansi:Jaringan saraf pada dasarnya adalah kotak hitam. Bahkan jika jaringan melakukan pekerjaan
yang baik dalam memprediksi kasus baru, banyak pengguna tetap tidak puas karena mereka akan
tidak tahumengapanilai output yang diberikan masuk akal. Jika nilai keluaran mewakili, untuk
Misalnya, keputusan untuk melakukan operasi jantung terbuka, maka penjelasannya harus jelas.
Dengan pohon keputusan dan representasi logis lainnya, output dapat dijelaskan sebagai derivasi
logis dan dengan banding ke satu set kasus tertentu yang mendukung keputusan. Ini
saat ini tidak mungkin dengan jaringan saraf.
Pengetahuan sebelumnya:Seperti yang kami sebutkan di Bab 18, sistem pembelajaran sering kali dapat mengambil manfaat
dari pengetahuan sebelumnya yang tersedia bagi pengguna atau pakar. Pengetahuan sebelumnya dapat berarti

perbedaan antara belajar dari beberapa contoh yang dipilih dengan baik dan gagal mempelajari apa pun.
Sayangnya, karena kurangnya transparansi, cukup sulit untuk menggunakan pengetahuan seseorang untuk
"memprioritaskan" jaringan untuk belajar lebih baik. Beberapa penyesuaian topologi jaringan
dapat contoh, saat melatih gambar visual, biasanya hanya terhubung
kumpulan kecil piksel terdekat ke unit mana pun di lapisan tersembunyi pertama. Di sisi lain, "aturan
praktis" seperti itu bukan merupakan amekanismedimana pengetahuan yang telah terkumpul sebelumnya
dapat digunakan untuk belajar dari pengalaman berikutnya. Ada kemungkinan bahwa metode
pembelajaran untuk jaringan kepercayaan dapat mengatasi masalah ini (lihat Bagian 19.6).

Semua pertimbangan ini menunjukkan bahwa jaringan feed-forward sederhana, meskipun sangat menjanjikan
sebagai alat konstruksi untuk mempelajari pemetaan input/output yang kompleks, tidak memenuhi kebutuhan kita
akan teori pembelajaran yang komprehensif dalam bentuknya yang sekarang. Para peneliti di bidang psikologi,
ilmu komputer teoretis, statistik, fisika, dan biologi bekerja keras untuk mengatasi kesulitan tersebut.

19.5 APLIKASI JARINGAN SARAF

Di bagian ini, kami hanya memberikan beberapa contoh dari banyak aplikasi penting dari neural
jaringan. Dalam setiap kasus, desain jaringan merupakan hasil eksperimen selama beberapa bulan oleh
para peneliti. Dari contoh-contoh ini, dapat dilihat bahwa jaringan saraf memiliki
Bagian 19.5. Aplikasi Jaringan Syaraf 585

penerapan yang luas, tetapi mereka tidak dapat secara ajaib memecahkan masalah tanpa memikirkan
bagian dari perancang jaringan. Pernyataan John Denker bahwa "jaringan saraf adalah cara terbaik kedua untuk
melakukan apa saja" mungkin berlebihan, tetapi memang benar bahwa jaringan saraf memberikan kinerja yang
lumayan pada banyak tugas yang akan sulit untuk diselesaikan secara eksplisit dengan yang lain.
teknik pemrograman. Kami mendorong pembaca untuk bereksperimen dengan algoritma jaringan saraf
untuk merasakan apa yang terjadi ketika data tiba di jaringan yang tidak siap.

Pengucapan
Pengucapan teks bahasa Inggris tertulis oleh komputer adalah masalah yang menarik dalam linguistik, serta
tugas dengan hasil komersial yang tinggi. Biasanya dilakukan dengan terlebih dahulu memetakan teks
streaming ke suara kemudian meneruskan fonem ke elektronik
penghasil ucapan. Masalah yang kita bahas di sini adalah mempelajari pemetaan dari teks ke fonem.
Ini adalah tugas yang baik untuk jaringan saraf karena sebagian besar "aturan" hanya
kira-kira benar. Misalnya, meskipun huruf biasanya sesuai dengan suara [k], huruf itu
diucapkan [k] dikucingdan [s] disen.
Program NETtalk (Sejnowski dan Rosenberg, 1987) adalah jaringan saraf yang belajar
mengucapkan teks tertulis. Input adalah urutan karakter yang disajikan dalam jendela yang meluncur
melalui teks. Setiap saat, input menyertakan karakter yang akan diucapkan bersama dengan tiga
karakter sebelum dan sesudahnya. Setiap karakter sebenarnya adalah 29 input untuk setiap

dari 26 huruf, dan masing-masing satu untuk bagian yang kosong, titik, dan tanda baca lainnya. Ada 80 yang disembunyikan

unit dalam versi yang hasilnya dilaporkan. Lapisan keluaran terdiri dari fitur-fitur suara yang akan dihasilkan:
apakah itu tinggi atau rendah, bersuara atau tidak bersuara, dan sebagainya. Terkadang, dibutuhkan dua
huruf atau lebih untuk menghasilkan satu suara; dalam hal ini, output yang benar untuk huruf kedua
bukanlah apa-apa.
Pelatihan terdiri dari teks 1024 kata yang telah ditranskripsikan dengan tangan ke dalam fitur
fonemik yang tepat. NETtalk belajar tampil dengan akurasi 95%di set pelatihansetelah 50 melewati
data pelatihan. Orang mungkin berpikir bahwa NETtalk harus tampil di pada teks itu
telah dilatih. Tetapi program apa pun yang mempelajari kata-kata individual daripada keseluruhan teks secara keseluruhan
pasti akan mendapat skor kurang dari 100%. Kesulitan muncul dengan kata-kata seperti yang di beberapa
kasus harus diucapkan berima dengantitisandan kadang sukatempat tidur.Sebuah program yang terlihat
di hanya jendela terbatas kadang-kadang akan mendapatkan kata-kata seperti itu salah.
Begitu banyak kemampuan jaringan untuk mereproduksi data pelatihan. Bagaimana dengan kinerja
generalisasi? Ini agak mengecewakan. Pada data uji, akurasi NETtalk turun menjadi 78%, tingkat yang dapat
dipahami, tetapi jauh lebih buruk daripada program yang tersedia secara komersial. Tentu saja, sistem komersial
membutuhkan pengembangan selama bertahun-tahun, sedangkan NETtalk hanya membutuhkan beberapa lusin
jam waktu pelatihan ditambah beberapa bulan eksperimen dengan berbagai desain jaringan. Namun, ada teknik
lain yang membutuhkan pengembangan lebih sedikit dan kinerjanya sama baiknya. Misalnya, jika kita
menggunakan input untuk menentukan probabilitas menghasilkan fonem tertentu yang diberikan karakter saat ini
dan sebelumnya dan kemudian menggunakan model Markov untuk menemukan urutan fonem dengan probabilitas
maksimal, kita melakukan hal yang sama seperti NETtalk.
NETtalk mungkin adalah demonstrasi "unggulan" yang mengubah banyak ilmuwan, khususnya
dalam psikologi kognitif, menjadi penyebab penelitian jaringan saraf. Sebuah analisis post hoc
586 Bab 19. Belajar di Neural and Belief Networks

menunjukkan bahwa ini bukan karena itu adalah program yang sangat sukses, melainkan karena itu memberikan
pameran yang bagus untuk filosofi jaringan saraf. Penulisnya juga memiliki bakat dramatis: mereka merekam
rekaman NETtalk yang dimulai dengan ucapan yang buruk dan mengoceh, dan kemudian secara bertahap
meningkat ke titik di mana hasilnya dapat dimengerti. Tidak seperti generator ucapan konvensional, yang
menggunakan suara tenor midrange untuk menghasilkan fonem, mereka menggunakan generator bernada tinggi.
Rekaman itu memberikan kesan yang jelas tentang seorang anak yang sedang belajar berbicara.

Pengenalan karakter tulisan tangan

Dalam salah satu aplikasi terbesar jaringan saraf hingga saat ini, Le Cunet (1989) telah menerapkan

menyebutkan jaringan yang dirancang untuk membaca kode pos pada amplop yang dialamatkan dengan tangan. Sistem ini

menggunakan praprosesor yang menempatkan dan mengelompokkan masing-masing digit dalam jaringan harus
mengidentifikasi angka itu sendiri. sebuah x piksel array sebagai input,tigalapisan tersembunyi, a
pengkodean keluaran terdistribusi dengan unit keluaran untuk angka 0-9. Lapisan tersembunyi berisi 768, Jaringan
dan 30 unit, masing-masing. beban,
yang terhubung sepenuhnya dengan ukuran ini akan berisi 200.000
dan tidak mungkin untuk dilatih. Sebaliknya, jaringan dirancang dengan koneksi
dimaksudkan untuk bertindak sebagaidetektor fitur.Misalnya, setiap unit di lapisan tersembunyi pertama dihubungkan
oleh 25 tautan ke wilayah 5 x 5 di input. Selanjutnya lapisan tersembunyi dibagi menjadi 12 kelompok yang terdiri dari 64
unit; dalam setiap kelompok 64 unit, setiap unit menggunakansamaset 25 beban. Oleh karena itu lapisan tersembunyi dapat
mendeteksi hingga 12 fitur berbeda, yang masing-masing dapat terjadi di mana saja pada gambar masukan. Secara
keseluruhan, jaringan lengkap hanya menggunakan 9760 bobot.
Jaringan dilatih pada 7300 contoh, dan diuji pada 2000. Salah satu properti menarik dari jaringan
dengan penyandian keluaran terdistribusi adalah ia dapat menampilkan kebingungan atas jawaban yang
benar dengan menyetel dua atau lebih unit keluaran ke nilai tinggi. Setelah menolak sekitar 12% dari set uji
sebagai marjinal, menggunakan ambang kebingungan, kinerja pada kasus yang tersisa mencapai 99%, yang
dianggap memadai untuk sistem penyortiran surat otomatis. Jaringan terakhir telah diimplementasikan
dalam VLSI khusus, memungkinkan huruf diurutkan dengan kecepatan tinggi.

Menyetir

ALVINN (Kendaraan Darat Otonom Dalam Jaringan Saraf Tiruan) (Pomerleau, adalah jaringan saraf
yang telah berkinerja cukup baik dalam domain di mana beberapa pendekatan lain telah gagal. Ia belajar
mengemudikan kendaraan di sepanjang jalur tunggal di jalan raya dengan mengamati kinerja pengemudi manusia.
Kami menjelaskan sistem secara singkat di halaman 26, tetapi di sini kami melihat di bawah tenda.
ALVINN digunakan untuk mengontrol kendaraan NavLab di Carnegie Mellon University. NavLab 1 adalah
mobil van Chevy, dan NavLab 2 adalah pengangkut personel HMMWV Angkatan Darat AS. Kedua kendaraan secara
khusus dilengkapi dengan kemudi yang dikendalikan komputer, akselerasi, dan pengereman. Sensor termasuk
video stereo warna, pemindai laser range finder, radar, dan navigasi inersia. Para peneliti mengendarai kendaraan
dan memantau kemajuan komputer dan kendaraan itu sendiri. (Berada di dalam
kendaraan adalah insentif besar untuk memastikan program tidak
Sinyal dari kamera video kendaraan diproses sebelumnya untuk menghasilkan array nilai piksel
yang terhubung ke grid unit input 30 x 32 dalam jaringan saraf. Outputnya adalah lapisan 30
unit, masing-masing sesuai dengan arah kemudi. Unit keluaran dengan aktivasi tertinggi
Bagian 19.5. Aplikasi Jaringan Syaraf 587

adalah arah yang akan dikemudikan kendaraan. Jaringan juga memiliki lapisan lima unit tersembunyi yang
sepenuhnya terhubung ke lapisan input dan output.
Tugas ALVINN adalah menghitung fungsi yang memetakan dari satu gambar video jalan di depannya ke
arah kemudi. Untuk mempelajari fungsi ini, kita memerlukan beberapa pasangan gambar/arah pelatihan dengan
arah yang benar. Untungnya, mudah untuk mengumpulkan data ini hanya dengan menyuruh manusia
mengemudikan kendaraan dan merekam pasangan gambar/arah. Setelah mengumpulkan sekitar lima menit data
pelatihan (dan menerapkan algoritma untuk sekitar sepuluh

menit), ALVINN siap mengemudi sendiri.


Satu poin bagus layak disebutkan. Ada masalah potensial dengan metodologi pelatihan berdasarkan
pengemudi manusia: manusia itu terlalu baik. Jika manusia tidak pernah menyimpang dari jalur yang benar
maka tidak akan ada contoh pelatihan yang menunjukkan bagaimana memulihkan diri saat Anda keluar
jalur. ALVINN memperbaiki masalah ini dengan memutar setiap gambar video untuk membuat tampilan
tambahan seperti apa jalan akan terlihat dari posisi sedikit ke kanan atau kiri.
Hasil pelatihan sangat mengesankan. ALVINN telah mengemudi dengan kecepatan hingga 70 jarak
untuk

hingga 90 mil di jalan raya umum dekat Pittsburgh. Ia juga melaju dengan kecepatan normal di jalan tanah
satu jalur, jalur sepeda beraspal, dan dua jalur jalan pinggiran kota.
ALVINN tidak dapat mengemudi pada jenis jalan yang belum dilatih, dan juga tidak terlalu kuat
sehubungan dengan perubahan kondisi pencahayaan atau kehadiran kendaraan lain. Lebih banyak lagi
kemampuan dipamerkan oleh sistem MANIAC (Jochemet 1993). MANIAC adalah
jaringan saraf tiruan yang memiliki dua atau lebih model ALVINN sebagai subnet yang masing-masing telah dilatih
untuk jenis jalan tertentu. MANIAC mengambil output dari setiap subnet dan menggabungkannya dalam lapisan
tersembunyi kedua. Dengan pelatihan yang sesuai, MANIAC dapat bekerja dengan baik pada semua jenis jalan yang
subnet komponennya telah dilatih.
Beberapa kendaraan otonom sebelumnya menggunakan algoritme penglihatan tradisional yang menggunakan
berbagai teknik pemrosesan gambar di seluruh pemandangan untuk menemukan jalan dan kemudian mengikutinya. Sistem
seperti itu mencapai kecepatan tertinggi 3 atau 4 Mengapa ALVINN terbukti berhasil?
Ada dua alasan. Pertama dan terpenting, jaringan saraf ukuran ini menjadi
elemen kinerja. efisien Setelah dilatih, ALVINN mampu menghitung kemudi baru
arah dari gambar video 10 kali per detik. Ini penting karena memungkinkan adanya kelonggaran
dalam sistem. Arah kemudi individu dapat melenceng 10% dari ideal selama sistem mampu
melakukan koreksi dalam beberapa persepuluh detik. Kedua, penggunaan algoritma pembelajaran
lebih tepat untuk domain ini daripada rekayasa pengetahuan atau pemrograman lurus. Tidak ada
teori mengemudi yang baik, tetapi mudah untuk mengumpulkan sampel pasangan input/output dari
pemetaan fungsional yang diinginkan. Ini mendukung algoritma pembelajaran, tetapi tidak harus
untuk jaringan saraf. Tetapi mengemudi adalah domain yang terus-menerus dan berisik di mana
hampir semua fitur input menyumbangkan beberapa informasi yang berguna; ini berarti bahwa
jaringan saraf adalah pilihan yang lebih baik daripada, katakanlah, pohon keputusan. Tentu saja,
ALVINN dan MANIAC adalah agen refleks murni,
keberadaan lalu lintas lainnya. Penelitian saat ini oleh Pomerleau dan anggota kelompok lainnya
ditujukan untuk menggabungkan keahlian tingkat rendah ALVINN dengan pengetahuan simbolis
tingkat tinggi. Sistem hibrida semacam ini menjadi lebih umum saat bergerak ke dunia nyata (fisik).

Pengecualian penting adalah karya Dickmanns dan Zapp (1987), yang kendaraan otonomnya melaju beberapa ratus mil dengan kecepatan 75
mph menggunakan pemrosesan gambar tradisional dan penyaringan Kalman untuk melacak batas jalur.
588 Bab 19. Belajar di Neural and Belief Networks

19.6 METODE BAYESIAN UNTUK BELAJAR JARINGAN KEPERCAYAAN

Bagian V membuat kasus pentingnya representasi probabilistik dari pengetahuan yang tidak pasti, dan
jaringan kepercayaan disajikan sebagai elemen kinerja umum dan berguna berdasarkan teori probabilitas.
Pada bagian ini, kita membahas masalah umum belajar pengetahuan probabilistik, dan masalah khusus
jaringan kepercayaan belajar. Kita akan melihat bahwa pandangan Bayesian tentang pembelajaran sangat
kuat, memberikan solusi umum untuk masalah kebisingan, dan optimal
ramalan. Kami juga akan menemukan kesejajaran yang mencolok antara jaringan kepercayaan dan jaringan
saraf dalam kemampuan mereka untuk metode pembelajaran gradien-turunan lokal. Sebagian besar bagian
ini cukup matematis, meskipun pelajaran umum dapat dipahami tanpa terjun ke detail. Mungkin
bermanfaat pada titik ini untuk meninjau materi di Bab 14 dan 15.

pembelajaran bayesian

PEMBELAJARAN BAYESIAN pembelajaran bayesianmemandang masalah membangun hipotesis dari data sebagai submasalah dari
masalah yang lebih mendasar dalam membuat prediksi. Idenya adalah menggunakan hipotesis sebagai
perantara antara data dan prediksi. Pertama, probabilitas setiap hipotesis diperkirakan, mengingat data.
Prediksi kemudian dibuat dari hipotesis, menggunakan probabilitas posterior dari hipotesis untuk
menimbang prediksi. Sebagai contoh sederhana, pertimbangkan masalah memprediksi cuaca besok.
Misalkan ahli yang tersedia dibagi menjadi dua kubu: beberapa mengusulkan model A, dan beberapa
mengusulkan model B. Metode Bayesian, daripada memilih antara A dan B, memberikan bobot untuk
masing-masing berdasarkan kemungkinannya. Kemungkinannya akan tergantung pada bagaimana banyak
data yang diketahui mendukung masing-masing dari dua model.
Misalkan kita memiliki dataDdan hipotesis membuat , dan yang kami minati
prediksi tentang kuantitas yang tidak diketahuiX. menentukan Selanjutnya, anggaplah bahwa masing-masing

distribusi lengkap untukX.Lalu kita punya

=V =

Persamaan ini menjelaskan pembelajaran Bayesian penuh, dan mungkin memerlukan perhitungan untuk semua

Hai.Dalam kebanyakan kasus, ini tidak dapat diatasi; dapat ditunjukkan, bagaimanapun, bahwa tidak ada cara yang lebih baik untuk

membuat prediksi.
Pendekatan yang paling umum adalah dengan menggunakankemungkinan besarhipotesis, yaituHaiitu

POSTERIORI
SEBUAH
memaksimalkan Ini sering disebutmaksimum a posterioriatau hipotesis MAP

Masalahnya sekarang adalah menemukan Dengan menerapkan aturan Bayes, kita dapat menulis ulang sebagai berikut:

=
P(D)
Perhatikan bahwa dalam membandingkan hipotesis,P(D)tetap. Oleh karena itu, untuk menemukan kita hanya perlu
memaksimalkan pembilang pecahan.
Istilah pertama, mewakili probabilitas bahwa kumpulan data tertentu ini akan memiliki
telah diamati, diberikan sebagai model dasar dunia. Suku kedua mewakili
Bagian 19.6. Metode Bayesian untuk Mempelajari Jaringan Kepercayaan 589

probabilitas sebelumnya ditugaskan untuk model yang diberikan. Argumen tentang sifat dan signifikansi distribusi
probabilitas sebelumnya ini, dan hubungannya dengan preferensi untuk hipotesis yang lebih sederhana
pisau cukur), telah mengamuk tak terkendali dalam statistik dan komunitas pembelajaran
selama beberapa dekade. Satu-satunya kebijakan yang masuk akal tampaknya adalah untuk
menetapkan probabilitas sebelumnya berdasarkan beberapa ukuran kesederhanaan pada
hipotesis, sehingga prior dari seluruh ruang hipotesis bertambah. Dari
tentu saja, jika priornya adalahjugabias, maka kita dapatkan dimana sebagian besar data diabaikan.
Ada trade-off yang hati-hati.
Dalam beberapa kasus,seragamjaringan sebelum lebih dari kepercayaan tampaknya tepat, seperti yang akan kita
lihat. Dengan prior yang seragam, kita hanya perlu memilih yang memaksimalkan Ini disebut
MAKSIMUM-
KEMUNGKINAN
kemungkinan maksimum(ML) hipotesis,

Masalah pembelajaran jaringan kepercayaan

Masalah pembelajaran untuk jaringan kepercayaan datang dalam beberapa varietas. Struktur jaringan dapat
berupadiketahuiatautidak dikenal,dan variabel dalam jaringan dapat menjaditampakatautersembunyi.

0 Struktur yang diketahui, dapat diamati sepenuhnya:Dalam hal ini, satu-satunya bagian adalah himpunan

tabel probabilitas bersyarat. Ini dapat diperkirakan secara langsung menggunakan statistik dari kumpulan
contoh. Beberapa sistem jaringan kepercayaan menggabungkan pembaruan otomatis entri tabel
probabilitas bersyarat untuk kasus yang terlihat.

Struktur tidak diketahui, sepenuhnya dapat diamati:Dalam hal ini, masalahnya adalah untuk
merekonstruksi topologi jaringan. Masalah ini dapat dilemparkan sebagai pencarian melalui ruang
struktur, dipandu oleh kemampuan masing-masing struktur untuk memodelkan data dengan benar.
Menyesuaikan data ke struktur tertentu mengurangi masalah struktur tetap, dan nilai probabilitas
MAP atau ML dapat digunakan sebagai heuristik untuk penelusuran hill-climbing atau simulasi anil.
Struktur yang diketahui, variabel tersembunyi:Kasus ini analog dengan pembelajaran jaringan saraf.
Kami membahas metode untuk masalah ini di bagian berikutnya.

Struktur tidak diketahui, variabel tersembunyi:Ketika beberapa variabel terkadang atau selalu
tidak dapat diamati, teknik sebelumnya untuk memulihkan struktur menjadi sulit untuk diterapkan,
karena pada dasarnya memerlukan rata-rata semua kemungkinan kombinasi nilai dari variabel yang
tidak diketahui. Saat ini, tidak ada algoritma umum yang bagus untuk masalah ini.

Jaringan pembelajaran dengan struktur tetap

Pengalaman dalam membangun jaringan kepercayaan untuk aplikasi telah menunjukkan bahwa menemukan topologi jaringan
seringkali merupakan bagian yang mudah. Manusia merasa mudah untuk mengatakan apa yang menyebabkan apa, tetapi sulit untuk
menempatkan angka pasti pada tautan. Hal ini terutama benar ketika beberapa variabel tidak dapat diamati secara langsung dalam
kasus yang sebenarnya. Oleh karena itu, masalah pembelajaran "struktur yang diketahui, variabel tersembunyi" menjadi sangat
penting.
Orang mungkin bertanya mengapa masalah tidak dapat direduksi menjadi kasus yang dapat diamati sepenuhnya dengan menghilangkan

memberi nama variabel tersembunyi menggunakan ("rata-rata Ada dua alasan untuk
ini. Pertama, belum tentu ada variabel tertentu yang tersembunyi di semua yang diamati
590 Bab 19. Belajar di Neural and Belief Networks

kasus (walaupun kami tidak mengesampingkan hal ini). Kedua, jaringan dengan variabel tersembunyi bisa
lebih kompakdaripada jaringan yang sepenuhnya dapat diamati. Angka menunjukkan contoh. Jika
domain yang mendasarinya memiliki struktur lokal yang signifikan, maka dengan variabel tersembunyi dimungkinkan untuk
memanfaatkan struktur itu untuk menemukan representasi yang lebih ringkas untuk distribusi bersama pada
variabel yang bisa diamati. Ini, pada gilirannya, memungkinkan untuk belajar dari lebih sedikit contoh.

Gambar 19.17 Jaringan dengan variabel tersembunyi (berlabelH),dan yang sesuai sepenuhnya
jaringan yang dapat diamati. Jika variabelnya adalah Boolean, maka jaringan variabel tersembunyi membutuhkan nilai
probabilitas bersyarat yang independen, sedangkan jaringan yang sepenuhnya dapat diamati membutuhkan 27.

Jika kita mendekati masalah ini dalam istilah Bayesian, maka "hipotesis" adalah
kemungkinan tugas lengkap yang berbeda untuk semua entri tabel probabilitas bersyarat (CPT).
Kami akan berasumsi bahwa semua kemungkinan penugasan memiliki kemungkinan yang sama apriori, yang
berarti bahwa kami mencari hipotesis kemungkinan maksimum. Artinya, kami ingin menemukan himpunan entri
CPT yang memaksimalkan probabilitas data,
Metode yang akan kita gunakan untuk melakukan ini sangat mirip dengan metode penurunan gradien untuk saraf
jaringan. Kami akan menulis probabilitas data sebagai fungsi dari entri CPT, dan kemudian
menghitung gradien. Seperti halnya jaringan saraf, kita akan menemukan bahwa gradien dapat dihitung
secara lokal oleh setiap node menggunakan informasi yang tersedia dalam kursus normal perhitungan
jaringan kepercayaan. Dengan demikian, entri CPT analog dengan bobot, dan adalah (terbalik)
analog dengan kesalahanE.Sistem jaringan kepercayaan yang dilengkapi dengan skema pembelajaran semacam ini
ADAPTIF
PROBABILISTIK disebutjaringan probabilistik adaptif(APN).
JARINGAN
Misalkan kita memiliki set pelatihan D = dimana setiap kasus terdiri dari
penugasan nilai ke beberapa subset dari variabel dalam jaringan. Kami berasumsi bahwa setiap kasus
diambil secara independen dari beberapa distribusi mendasar yang kami coba modelkan. Masalah
adalah untuk menyesuaikan probabilitas bersyarat dalam jaringan untuk memaksimalkan kemungkinan data. Kami
akan menulis kemungkinan ini sebagai Pembaca harus ingat bahwa di sini
benar-benar yaitu, probabilitas menurut distribusi bersama yang ditentukan oleh himpunan
dari semua nilai probabilitas bersyarat dalam jaringan. Untuk membangun algoritma hill-climbing
untuk memaksimalkan kemungkinan, kita perlu menghitung turunan dari kemungkinan sehubungan
dengan masing-masing nilai probabilitas bersyarat di w.
Ternyata paling mudah untuk menghitung turunan dari logaritma kemungkinan.
Karena kemungkinan log secara monoton terkait dengan kemungkinan itu sendiri, maksimum pada
Bagian 19.6. Metode Bayesian untuk Mempelajari Jaringan Kepercayaan 591

permukaan kemungkinan log juga maksimum pada permukaan kemungkinan. Kami menghitung gradien
menggunakan turunan parsial, memvariasikan satu nilai sambil menjaga yang lain

~ ~
kita dapat menghitung secara terpisah kontribusi gradien dari setiap kasus dan menjumlahkan hasilnya.
Sekarang tujuannya adalah untuk menemukan ekspresi untuk kontribusi gradien dari satu kasus, sehingga
kontribusi dapat dihitung hanya dengan menggunakan informasi lokal ke simpul yang terkait. Membiarkan menjadi
entri spesifik dalam tabel probabilitas bersyarat untuk sebuah nodeXdiberikan nya
variabel induk U. Kami akan menganggap bahwa itu adalah entri untuk kasusX =diberikan U =

= P(X =|kamu = =
Untuk mendapatkan ekspresi dalam hal informasi lokal, kami memperkenalkanXdan U dengan merata-
ratakan nilai yang mungkin:

Untuk tujuan kita, sifat penting dari ekspresi ini adalah bahwa hanya muncul dalam bentuk linier.
Bahkan, hanya muncul dalam satu istilah dalam penjumlahan, yaitu istilah untuk dan Untuk ini
istilah,P(x \u) hanya karena itu

P(Dj) P(Dj)
Manipulasi lebih lanjut mengungkapkan bahwa perhitungan gradien dapat "membonceng" pada perhitungan probabilitas
posterior yang dilakukan dalam jaringan kepercayaan yang normal. perhitungan
probabilitas variabel jaringan diberikan data yang diamati. Untuk melakukan ini, kami menerapkan
teorema persamaan di atas, menghasilkan

| \
~ P(Xi, ~
Dalam sebagian besar implementasi inferensi jaringan kepercayaan, istilah j adalah baik

Itu
dihitung secara langsung atau mudah diperoleh dengan menjumlahkan sejumlah kecil entri tabel. vektor gradien
lengkap diperoleh dengan menjumlahkan ekspresi di atas atas kasus data untuk memberikan komponen gradien
sehubungan dengan masing-masing untuk kemungkinan seluruh set pelatihan. Dengan demikian, informasi yang
diperlukan untuk menghitung gradien dapat diturunkan langsung dari perhitungan normal yang dilakukan oleh
jaringan kepercayaan saat bukti baru diperoleh.
Setelah kami memiliki ekspresi gradien yang dapat dihitung secara lokal, kami dapat menerapkan jenis metode hill-
climbing atau simulasi anil yang sama seperti yang digunakan untuk jaringan saraf. Belajar dengan jaringan kepercayaan
memiliki keuntungan bahwa seorang ahli manusia dapat dengan mudah menyediakan struktur untuk

Kita juga perlu memasukkan batasan bahwa nilai probabilitas bersyarat untuk setiap kasus pengkondisian yang diberikan
harus tetap dinormalisasi. Sebuah analisis formal menunjukkan bahwa turunan dari sistem dibatasi (di mana jumlah kolom
ke satu) adalah sama dengan proyeksi ortogonal dari turunan tak terbatas ke permukaan kendala.
592 Bab 19. Belajar di Neural and Belief Networks

jaringan yang mencerminkan struktur kausal domain. Pengetahuan sebelumnya ini akan membantu
jaringan untuk belajar lebih cepat dari serangkaian contoh yang diberikan. Apalagi hasil belajarnya
lebih mudah dipahami, dan, karena probabilitas dihasilkan, hasilnya dapat digunakan dalam pengambilan
keputusan yang rasional.
Seseorang juga dapat menggunakan metode penurunan gradien dalam kaitannya dengan algoritma yang dirancang

untuk menghasilkan struktur jaringan. Karena algoritme seperti itu biasanya bekerja dengan mengevaluasi struktur kandidat
untuk kemampuannya dalam memodelkan data, seseorang dapat dengan mudah menggunakan penurunan gradien untuk
menemukan kecocokan terbaik antara setiap struktur kandidat dan data.

Perbandingan jaringan kepercayaan dan jaringan saraf

Mengingat kesamaan yang erat antara jaringan kepercayaan (khususnya variasi adaptif) dan jaringan saraf,
perbandingan terperinci dilakukan. Kedua formalisme tersebut dapat dibandingkan sebagai representasi
sistem tasi, sistem inferensi, dan sistem pembelajaran.
Baik jaringan saraf dan jaringan kepercayaan adalah representasi berbasis atribut. Kedua pegangan
input diskrit dan kontinu, meskipun algoritma untuk menangani variabel kontinu dalam jaringan kepercayaan
kurang berkembang. Perbedaan utama adalah bahwa jaringan kepercayaan adalah perwakilan lokal. representasi,
sedangkan jaringan saraf adalah representasi terdistribusi. Node dalam jaringan kepercayaan mewakili
proposisi dengan semantik yang terdefinisi dengan baik dan hubungan probabilistik yang terdefinisi dengan baik
dengan proposisi lain. Unit dalam jaringan saraf, di sisi lain, biasanya tidak mewakili proposisi tertentu. Sekalipun
demikian, kalkulasi yang dibawa oleh jaringan tidak memperlakukan proposisi dengan cara yang bermakna secara
semantik. Dalam istilah praktis, ini berarti bahwa manusia tidak dapat membangun atau memahami representasi
jaringan saraf. Semantik keyakinan yang terdefinisi dengan baik
jaringan juga berarti bahwa mereka dapat dibangun secara otomatis oleh program yang memanipulasi
representasi orde pertama.
Perbedaan representasional lainnya adalah bahwa variabel jaringan kepercayaan memilikiduaukuran
dari rentang nilai untuk proposisi, dan probabilitas yang ditetapkan untuk masing-
masing Output dari jaringan saraf dapat dilihat sebagai:salah satupeluang a
dari nilai-nilai tersebut.

Variabel Boolean, atau nilai eksak untuk variabel kontinu, tetapi jaringan saraf tidak dapat menangani
probabilitas dan variabel multinilai atau kontinu secara bersamaan.
Sebagai kesimpulan mereka sudah jaringan saraf
dapat dieksekusi dalam waktu linier, sedangkan inferensi jaringan kepercayaan umum adalah Lebih dekat
inspeksi, ini bukan keuntungan yang jelas seperti yang terlihat, karena jaringan saraf dalam beberapa kasus harus lebih
besar secara eksponensial untuk mewakili pemetaan input/output yang sama dengan jaringan kepercayaan (jika tidak, kita
akan dapat menyelesaikannya dengan susah payah masalah dalam waktu polinomial). Secara praktis, jaringan saraf apa pun
yang dapat dilatih cukup kecil sehingga inferensinya cepat, sedangkan tidak sulit untuk membangun jaringan kepercayaan
yang membutuhkan waktu lama untuk dijalankan. Salah satu aspek penting lain dari jaringan kepercayaan adalah
fleksibilitasnya, dalam arti bahwa setiap saat setiap subset variabel dapat diperlakukan sebagai input, dan subset lainnya
sebagai output, sedangkan jaringan saraf feedforward memiliki
masukan dan keluaran tetap.
Sehubungan dengan pembelajaran, perbandingan sulit dilakukan karena jaringan probabilistik
adaptif (APN) adalah perkembangan yang sangat baru. Seseorang dapat mengharapkan waktu per iterasi APN
menjadi lebih lambat, karena melibatkan proses inferensi. Di sisi lain, manusia (atau bagian lain dari
Bagian 19.7. Ringkasan 593

agen) dapat memberikan pengetahuan awal untuk proses pembelajaran APN dalam bentuk struktur
jaringan nilai probabilitas bersyarat. Karena ini mengurangi ruang hipotesis, seharusnya
memungkinkan APN untuk belajar dari contoh yang lebih sedikit. Juga, kemampuan jaringan kepercayaan untuk mewakili
proposisi secara lokal dapat berarti bahwa mereka berkumpul lebih cepat ke representasi yang benar dari domain yang
memiliki lokal. di mana setiap proposisi secara langsung dipengaruhi oleh hanya sebagian kecil
sejumlah proposisi lainnya.

19.7 RINGKASAN

Belajar dalam representasi jaringan yang kompleks saat ini merupakan salah satu topik terpanas dalam
sains. Ini menjanjikan untuk memiliki aplikasi luas dalam ilmu komputer, neurobiologi, psikologi, dan fisika.
Bab ini telah menyajikan beberapa ide dan teknik dasar, dan memberikan gambaran tentang dasar-dasar
matematika. Poin-poin dasarnya adalah sebagai berikut:

• Jaringan sarafadalah model komputasi yang memiliki beberapa sifat otak: it terdiri
dari banyak unit sederhana yang bekerja secara paralel tanpa kontrol pusat. Koneksi
antar unit memiliki bobot numerik yang dapat dimodifikasi oleh elemen pembelajaran.

• Perilaku jaringan saraf ditentukan oleh topologi koneksi dan sifat unit individu.Umpan-
majujaringan, di mana koneksi membentuk grafik asiklik, adalah yang paling sederhana
untuk dianalisis. Jaringan feed-forward mengimplementasikan fungsi state-free.
• Sebuah perseptronadalah jaringan feed-forward dengan satu lapisan unit, dan hanya dapat mewakili dapat
dipisahkan secara linierfungsi. Jika data dapat dipisahkan secara linier,aturan belajar perceptrondapat
digunakan untuk memodifikasi bobot jaringan agar sesuai dengan data secara tepat.

• Umpan-maju multilayerjaringan dapat mewakili fungsi apapun, diberikan unit yang cukup.

• Propagasi balikalgoritma pembelajaran bekerja pada jaringan feed-forward multilayer, menggunakan


penurunan gradien dalam ruang berat untuk meminimalkan kesalahan output. Konvergen ke
solusi optimal lokal, dan telah digunakan dengan beberapa keberhasilan dalam berbagai aplikasi.
Namun, seperti semua teknik mendaki bukit, tidak ada jaminan bahwa itu akan menemukan solusi
global. Selain itu, konvergensinya seringkali sangat lambat.

• Pembelajaran Bayesianmetode dapat digunakan untuk mempelajari representasi fungsi probabilistik,


khususnya jaringan kepercayaan. Metode pembelajaran Bayesian harus menukar kepercayaan sebelumnya
dalam hipotesis dengan tingkat kesesuaiannya dengan data yang diamati.

• Ada berbagai masalah pembelajaran yang terkait dengan jaringan kepercayaan, tergantung pada
apakah strukturnya tetap atau tidak diketahui, dan apakah variabel tersembunyi atau dapat diamati.

• Dengan struktur tetap dan variabel tersembunyi, pembelajaran jaringan kepercayaan memiliki kemiripan
yang luar biasa dengan pembelajaran jaringan saraf. Metode penurunan gradien dapat digunakan, tetapi
jaringan kepercayaan juga memiliki keuntungan dari semantik yang dipahami dengan baik untuk node
individu. Hal ini memungkinkan pemberian pengetahuan awal guna mempercepat proses pembelajaran.
594 Bab 19. Belajar di Neural and Belief Networks

CATATAN BIBLIOGRAFI DAN SEJARAH

McCulloch dan Pitts memperkenalkan ide dasar menganalisis aktivitas saraf melalui
ambang batas dan jumlah tertimbang. Teori sibernetika dan kontrol awal (Wiener, 1948), berdasarkan
gagasan loop umpan balik negatif, berperan sebagai model untuk belajar di jaringan saraf.Itu
dari Perilaku(Hebb, 1949) berpengaruh dalam mempromosikan hipotesis bahwa manusia
dan memori jangka panjang hewan dimediasi oleh perubahan permanen pada sinapsis.Desain untuk Otak(
Ashby, 1952) mengemukakan gagasan bahwa kecerdasan dapat diciptakan dengan menggunakan
perangkat yang belajar melalui semacam pencarian lengkap.
Minsky dan Papert hlm. ix-x) menyebutkan mesin yang dibuat oleh Minsky di itu
mungkin merupakan sistem pembelajaran jaringan saraf nyata pertama yang pernah dibuat. Disertasi
doktoral Minsky (1954) melanjutkan eksplorasi jaringan saraf. Nama yang tepat "Pandemonium" sistem
(Selfridge, 1959; melibatkan distribusi yang relatif berbutir halus
rezim kontrol yang mengingatkan pada jaringan saraf. Cragg dan Temperley 1955) menggambar paralel

di antara jaringan saraf dan "sistem spin" dalam fisika. (1961)


merancang teori statistik pembelajaran dalam jaringan saraf, menggambar pada statistik klasik
mekanika. Von Neumann memberikan perbandingan antara fungsi otak
dan pengoperasian komputer digital. Frank Rosenblatt gaya menemukan yang modern

jaringan saraf, terdiri dari unit ambang yang dapat dilatih.


Perangkat serupa disebut (untuk "Linear Adaptif") ditemukan hampir sama
waktu (Janda dan 1960; Janda, Hawkins memberikan sejarah rinci awal
bekerja dalam "sistem yang mengatur diri sendiri" atau "sibernetika saraf", begitu pendekatan ini kemudian disebut.
Frank Rosenblatt menemukan bukti pertama dari teorema konvergensi perceptron,
meskipun telah diramalkan oleh karya matematika murni di luar konteks neural
jaringan 1954; Motzkin dan Schoenberg, 1954). Dua buku bagus pada periode ini
penelitian adalah (Rosenblatt, 1962) danMesin Pembelajaran(Nilsson, 1965).
Buku Nilsson sangat komprehensif dan rinci. Baru-baru ini telah diterbitkan ulang sebagai
Itu Dasar Matematika Mesin Pembelajaran(Nilsson, 1990) dengan pengenalan baru oleh
Sejnowski dan Halbert White.
Sebagian besar pekerjaan di jaringan saraf sebelum tahun 1970 berfokus pada tipe perceptron satu
lapis mesin, tetapi ada beberapa pengecualian. Mesin multilayer yang dirancang oleh Widrow disebut
1962). Mesin multilayer awal lainnya dijelaskan dalam dan
Sanna, 1960; gambaet 1961).
Publikasi Perceptron(Minsky dan Papert, 1969) menandai berakhirnya sebuah era. Itu
penulis sangat kritis terhadap eksperimen yang tidak terarah dan kurangnya ketelitian matematika yang
menjadi ciri sebagian besar karya awal tentang perceptron. Mereka menetapkan kriteria pemisahan linier
untuk tugas-tugas yang dapat diselesaikan oleh perceptron satu lapis, sehingga menjelaskan kegagalan
upaya awal dalam memecahkan masalah yang melanggar kriteria ini. Minsky dan Papert juga memberikan
beberapa hasil pada sistem multilayer awal. Dalam Epilog untuk edisi yang diperluas dariPerceptron (Minsky
dan Papert, mereka dengan tegas membantah tuduhan bahwa penerbitan edisi pertama
bertanggung jawab atas musim dingin perceptron yang panjang di berpendapat bahwa penelitian perceptron memiliki

sudah kehilangan momentumnya dan edisi pertama hanya menjelaskan fenomena ini. Mereka menegaskan
kembali janji jangka panjang dari penelitian jaringan saraf yang sehat secara matematis, sementara di
Bagian 19.7. Ringkasan 595

saat yang sama mengkritik koneksionisme kontemporer sekitar tahun 1988 karena kurangnya ketelitian yang sama yang telah
mengganggu pekerjaan perceptron awal.

Makalah di (Hinton dan Anderson, berdasarkan konferensi di San Diego pada tahun 1979,
dapat dianggap sebagai menandai kebangkitan koneksionisme. Itu (Paralel
Pemrosesan Terdistribusi) antologi (Rumelhartet 1986) benar-benar menempatkan jaringan saraf di
peta bagi banyak peneliti, serta mempopulerkan algoritma back-propagation. Beberapa
kemajuan memungkinkan hal ini. (1982) menganalisis jaringan simetris menggunakan statistik
mekanika dan analogi dari fisika. Mesin Boltzmann (Hinton dan Sejnowski, 1983;
Hinton dan Sejnowski, 1986) dan analisis jaringan saraf menggunakan teori fisik kacamata
spin magnetik (Amitet jaringan syaraf
1985) memperketat hubungan antara mekanika statistik dan tidak
hanya wawasan matematika yang berguna tetapi jugakehormatan.
Teknik back-propagation telah ditemukan cukup awal (Bryson dan Ho, ditemukan tapi itu
kembali beberapa kali (Werbos, Parker, 1985). Minsky dan Papert (1988) mengkritik
aturan delta umum sebagai varian langsung dari pendakian bukit sederhana, seperti halnya perceptron
algoritma pembelajaran telah.
Ekspresi jaringan multilayer diselidiki oleh Cybenko 1989),
yang menunjukkan bahwa dua lapisan tersembunyi cukup untuk mewakili fungsi apa pun dan satu lapisan
cukup untuk mewakili apa punkontinufungsi. Hasil ini, meskipun meyakinkan, tidak terlalu menarik ketika
seseorang menyadari bahwa mereka dicapai dengan mengalokasikan koleksi unit yang terpisah untuk
mewakili nilai output untuk setiap wilayah kecil dari ruang input (besar secara eksponensial).
Masalah menemukan struktur yang baik untuk jaringan multilayer telah diatasi dengan menggunakan
algoritma genetika oleh Harp et al. (1990) dan oleh dkk. (1989). "Kerusakan otak yang optimal"
metode untuk menghapus koneksi yang tidak berguna adalah dengan LeCun et al. (1989), dan Sietsma dan Dow (1988) menunjukkan bagaimana

menghapus unit yang tidak berguna. Algoritma ubin untuk menumbuhkan struktur yang lebih besar adalah dengan dan

(1989). Algoritma serupa yang menumbuhkan topologi yang sedikit berbeda diusulkan oleh
Marchanddkk.(1990) dan oleh Frean (1990).
Kompleksitas pembelajaran jaringan saraf telah diselidiki oleh para peneliti dalam teori pembelajaran
komputasi. Beberapa hasil paling awal diperoleh oleh Judd (1990), yang menunjukkan bahwa masalah umum
untuk menemukan sekumpulan bobot yang konsisten dengan sekumpulan contoh adalah NP- lengkap, bahkan di
bawah asumsi yang sangat ketat. pelatihan itu bahkanjaringan tiga simpuldan Ron Rivest
adalah terbukti
Hasil ini menunjukkan bahwa ruang berat
dapat berisi jumlah eksponensial minimum lokal, jika tidak, pendakian bukit dimulai ulang secara acak
algoritma akan dapat menemukan optimum global dalam waktu polinomial.
Salah satu topik yang sangat menarik saat ini dalam penelitian jaringan saraf adalah penggunaan perangkat
keras paralel khusus, termasuk komputasi analog. Sistem dapat menggunakan VLSI analog (Alspectoret
1987; Madu, optoelektronika Al, atau eksotis, sepenuhnya

teknologi komputasi optik seperti modulasi cahaya spasial dan Psaltis,


1988).
Jaringan saraf merupakan bidang studi yang luas dengan banyak sumber daya yang
tersedia untuk penyelidik. Mungkin buku teks terbaik yang tersedia adalahPengantar Teori
Komputasi Saraf(Hertzet 1991), yang menekankan hubungan dengan mekanika statistik
(penulisnya adalah fisikawan).Organisasi Diri dan Memori Asosiatif(Kohonen, 1989) memberikan latar
belakang matematika yang cukup besar. Untuk sistem saraf biologis, pengenalan yang sangat menyeluruh
adalah et 1991). Pengantar yang baik untuk fungsi detail individu
596 Bab 19. Belajar di Neural and Belief Networks

neuron adalah (Miles, 1969). Artikel oleh Cowan dan Sharp (1988b; 1988a) menyajikan survei
inklusif dari sejarah penelitian jaringan saraf. Bibliografi yang sangat lengkap tersedia di
(Wasserman dan Oetzel, 1990).
Konferensi paling penting di lapangan adalah konferensi NIPS (Neural Information Processing
Conference) tahunan, yang prosidingnya diterbitkan sebagai seriKemajuan dalam Pemrosesan
Informasi Saraf dimulai dengan (Touretzky, 1989). Penelitian saat ini juga muncul
dalam Konferensi Bersama Internasional tentang Jaringan Saraf Jurnal utama untuk bidang ini
meliputi:saraf saraf Transaksi IEEE di Jaringan Syaraf Tiruan;itu
Sistem;danKonsep dalam Ilmu Saraf.
Topik jaringan kepercayaan pembelajaran baru-baru ini mendapat perhatian. Untuk
kasus yang sepenuhnya dapat diamati, Spiegelhalter, Dawid, Lauritzen, dan Cowell (Spiegelhalter
et 1993) memberikan analisis menyeluruh tentang dasar statistik modifikasi jaringan kepercayaan
menggunakan sebelumnya. Mereka juga memberikan pendekatan heuristik untuk kasus variabel tersembunyi.
Pearl (1988, Bab 8) menjelaskan algoritma untuk mempelajari polytree dengan struktur yang tidak diketahui dan
variabel yang dapat diamati sepenuhnya. Heckerman, Geiger, dan Chickering menggambarkan elegan

dan algoritma heuristik yang efektif untuk memulihkan struktur jaringan umum di gedung yang
sepenuhnya dapat diamati pada karya Cooper dan Herskovits Untuk kasus tersembunyi
variabel dan struktur yang tidak diketahui, lihat (Spirteset
Masalah umum memulihkan distribusi dari data dengan nilai yang hilang dan tersembunyi
variabel ditangani oleh algoritma EM (Dempsteret 1977). Algoritma dalam
bab (Russelet 1994) dapat dilihat sebagai varian dari EM di mana fase "memaksimalkan" adalah
dilakukan dengan metode gradien-mengikuti. Lauritzen juga mempertimbangkan penerapan
EM ke jaringan kepercayaan. Algoritme mengikuti gradien untuk belajar jaringan(kepercayaan

jaringan di mana setiap CPT mewakili fungsi yang sama sebagai unit jaringan saraf standar) adalah
diusulkan oleh Radford yang kemudian menunjukkan bahwa Mesin Boltzmann adalah spesial
kasus jaringan kepercayaan. Neal adalah orang pertama yang menunjukkan hubungan yang sangat dekat
antara jaringan saraf dan kepercayaan.

LATIHAN

19.1Membangun dengan tangan jaringan saraf yang menghitung fungsi XOR dari dua input. Pastikan untuk
menentukan jenis unit yang Anda gunakan.

19.2Kita tahu bahwa perceptron sederhana tidak dapat mewakili XOR (atau, umumnya, fungsi paritas dari
inputnya). Jelaskan apa yang terjadi pada bobot perceptron fungsi langkah empat masukan, dimulai dengan
semua bobot yang ditetapkan sebagai contoh fungsi paritas tiba.

19.3Misalkan Anda memiliki jaringan saraf dengan fungsi aktivasi linier. Artinya, untuk setiap unit
outputnya konstanckali jumlah tertimbang dari input.
sebuah. Asumsikan bahwa jaringan memiliki satu lapisan tersembunyi. Untuk penugasan yang diberikan pada
bobot W, tuliskan persamaan untuk nilai unit pada lapisan keluaran sebagai fungsi dari W dan

Anda mungkin juga menyukai