Anda di halaman 1dari 16

Deep Learning untuk Model Prediksi Dengan Big Data

Herlinda y sihombing
193130503006
Jurusan teknik informatika
Fakultas Teknik
Universitas Palangkaraya
2022

Abstrak
Model pembelajaran mendalam mewakili paradigma pembelajaran baru dalam
kecerdasan buatan (AI) dan pembelajaran mesin. Hasil terobosan baru-baru ini
dalam analisis gambar dan pengenalan ucapan telah menghasilkan minat yang
sangat besar di bidang ini karena juga aplikasi di banyak domain lain yang
menyediakan data besar tampaknya mungkin dilakukan. Sisi negatifnya,
metodologi matematika dan komputasi yang mendasari model pembelajaran
mendalam sangat menantang, terutama bagi ilmuwan interdisipliner. Untuk
alasan ini, kami menyajikan dalam makalah ini tinjauan pendahuluan tentang
pendekatan pembelajaran mendalam termasuk Deep Feedforward Neural
Networks (D-FFNN), Convolutional Neural Networks (CNNs), Deep Belief
Networks (DBNs), Autoencoder (AEs), dan Long Short- Jaringan Term Memory
(LSTM). Model-model ini membentuk arsitektur inti utama dari model
pembelajaran mendalam yang saat ini digunakan dan seharusnya termasuk
dalam kotak alat ilmuwan data mana pun. Yang penting, blok bangunan
arsitektur inti tersebut dapat disusun secara fleksibel— dengan cara yang
hampir mirip Lego—untuk membangun arsitektur jaringan khusus aplikasi
baru. Oleh karena itu, pemahaman dasar tentang arsitektur jaringan ini penting
untuk dipersiapkan untuk perkembangan AI di masa mendatang.
Kata kunci: pembelajaran mendalam, kecerdasan buatan, pembelajaran mesin,
jaringan saraf, model prediksi, ilmu data
Abstract
Deep learning models stand for a new learning paradigm in artificial intelligence (AI) and
machine learning. Recent breakthrough results in image analysis and speech recognition
have generated a massive interest in this field because also applications in many other
domains providing big data seem possible. On a downside, the mathematical and
computational methodology underlying deep learning models is very challenging,
especially for interdisciplinary scientists. For this reason, we present in this paper an
introductory review of deep learning approaches including Deep Feedforward Neural
Networks (D-FFNN), Convolutional Neural Networks (CNNs), Deep Belief
Networks (DBNs), Autoencoders (AEs), and Long Short-Term Memory (LSTM)
networks. These models form the major core architectures of deep learning models
currently used and should belong in any data scientist’s toolbox. Importantly, those
core architectural building blocks can be composed flexibly—in an almost Lego-like
manner—to build new application-specific network architectures. Hence, a basic
understanding of these network architectures is important to be prepared for future
developments in AI.Keywords: deep learning, artificial intelligence, machine
learning, neural networks, prediction models, data science

1.PENDAHULUAN

Kita hidup di era data besar di mana semua bidang sains dan industri
menghasilkan data dalam jumlah besar. Ini menghadapkan kita pada tantangan
yang belum pernah terjadi sebelumnya mengenai analisis dan interpretasi
mereka. Untuk alasan ini, ada kebutuhan mendesak akan pembelajaran mesin
baru dan metode kecerdasan buatan yang dapat membantu dalam memanfaatkan
data tersebut. Pembelajaran mendalam (DL) adalah metodologi baru yang saat
ini menerima banyak perhatian (Hinton et al., 2006). DL menggambarkan
keluarga algoritme pembelajaran daripada metode tunggal yang dapat
digunakan untuk mempelajari model prediksi kompleks, misalnya jaringan saraf
multi-layer dengan banyak unit tersembunyi (LeCun et al., 2015). Yang penting,
pembelajaran mendalam telah berhasil diterapkan pada beberapa masalah
aplikasi. Misalnya, metode pembelajaran mendalam mencetak rekor klasifikasi
digit tulisan tangan dari kumpulan data MNIST dengan tingkat kesalahan
0,21% (Wan et al., 2013). Area aplikasi lebih lanjut termasuk pengenalan
gambar (Krizhevsky et al., 2012a; LeCun et al., 2015), pengenalan suara (Graves
et al., 2013), pemahaman bahasa alami (Sarikaya et al., 2014), pemodelan
akustik (Mohamed et al., 2011) dan biologi komputasi (Leung et al., 2014;
Alipanahi et al., 2015; Zhang S. et al., 2015; Smolander et al., 2019a,b).

2. METODE PENELITIAN
Model jaringan saraf tiruan telah digunakan sejak sekitar tahun 1950-an
(Rosenblatt, 1957); namun, gelombang jaringan saraf Gambaran umum fungsi
aktivasi yang sering digunakan untuk model neuron.Model jaringan saraf tiruan
telah digunakan sejak sekitar tahun 1950-an (Rosenblatt, 1957); namun,
gelombang jaringan saraf pembelajaran dalam saat ini dimulai sekitar tahun
2006 (Hinton et al.,
Karakteristik umum dari banyak variasi model pembelajaran mendalam yang
diawasi dan tidak diawasi adalah bahwa model inimemiliki banyak lapisan
neuron tersembunyi yang dipelajari,
1. Neocognitron sangat mirip dengan arsitektur perkembangan
utama jaringan syaraf tiruan : garis

Sejarah jaringan saraf panjang, dan banyak orang telah berkontribusi terhadap
perkembangannya selama beberapa dekade. Mengingat ledakan minat dalam
pembelajaran mendalam baru-baru ini, tidak mengherankan bahwa penugasan
kredit untuk perkembangan utama bukanlah hal yang tidak kontroversial.
Berikut ini, kami bertujuan pada presentasi yang tidak memihak yang hanya
menyoroti kontribusi yang paling terkenal.
Pada tahun 1943, model matematika pertama dari sebuahneuron diciptakan
olehMcCulloch dan Pitts (1943). Model ini bertujuan untuk memberikan
formulasi abstrak untuk fungsi neuron tanpa meniru mekanisme biofisik yang
nyata neuron biologis. Menarik untuk dicatat bahwa model ini tidak
mempertimbangkan pembelajaran.
Pada tahun 1949, ide pertama tentang pembelajaran bermotivasi biologis
dalam jaringan saraf diperkenalkan olehHebb (1949). Pembelajaran Hebbian
adalah bentuk pembelajaran jaringan saraf tanpa pengawasan.
Pada tahun 1957, Perceptron diperkenalkan olehRosenblatt(1957). Perceptron
adalah jaringan saraf lapisan tunggal yang berfungsi sebagai pengklasifikasi
biner linier. Dalam bahasa modern JST, Perceptron menggunakan fungsi
Heaviside sebagai fungsi aktivasi (lihatTabel 1).
Pada tahun 1960, aturan Delta Learning untuk mempelajari Perceptron
diperkenalkan olehJanda dan Hoff (1960). Aturan Pembelajaran Delta, juga
dikenal sebagai aturan Pembelajaran Widrow & Hoff atau aturan Least Mean
Square, adalah aturan pembelajaran penurunan gradien untuk memperbarui
bobot neuron. Ini adalah kasus khusus dari algoritma backpropagation.
Pada tahun 1968, metode yang disebutMetode Kelompok Penanganan Data
(GMDH) untuk pelatihan jaringan saraf diperkenalkan oleh Ivakhnenko
(1968). Jaringan ini secara luas dianggap sebagai jaringan pembelajaran
mendalam pertama di dunia Feedforward Multilayer PerceptronTipe. Misalnya
kertas (Ivakhnenko, 1971) menggunakan jaringan GMDH yang dalam dengan
8 lapisan.Menariknya, jumlah lapisan dan unit per lapisan dapat dipelajari dan
tidak ditetapkan sejak awal.
Pada tahun 1969, makalah penting olehMinsky dan Papert (1969) diterbitkan
yang menunjukkan bahwa masalah XOR tidak dapat dipelajari oleh
Perceptron karena tidak dapat dipisahkan secara linear. Ini memicu fase jeda
untuk jaringan saraf yang disebut "musim dingin AI".
Pada tahun 1974, error backpropagation (BP) telah disarankan untuk
digunakan dalam jaringan saraf (Werbos, 1974) untuk pembelajaran berbobot
secara terawasi dan diterapkan diWerbos (1981). Namun, metode itu sendiri
lebih tua (lihat misalnya,Linnainmaa, 1976).
Pada tahun 1980, jaringan saraf berlapis-lapis hierarkis untuk
pengenalan pola visual disebutNeokognitrondiperkenalkan oleh Fukushima
(1980). Setelah jaringan GMDH yang dalam (lihat di atas), the
Neokognitrondianggap sebagai NN buatan kedua yang pantas mendapatkan
atribut tersebutdalam.Itu diperkenalkanNN konvolusional
(hari ini disebut CNN). Neocognitron sangat mirip dengan arsitektur
modern,diawasi,Deep Feedforward Neural Networks (D-FFNN) (Fukushima,
2013).
Pada tahun 1982, Hopfield memperkenalkan jaringan saraf memori yang dapat
dialamatkan konten, yang sekarang disebut Jaringan Hopfield ( Hopfield, 1982).
Jaringan Hopfield adalah contoh untuk jaringan saraf berulang.
Pada tahun 1986, backpropagation muncul kembali di kertas olehRumelhart
dkk. (1986). Mereka menunjukkan secara eksperimental bahwa algoritme
pembelajaran ini dapat menghasilkan representasi internal yang berguna dan,
karenanya, dapat digunakan untuk tugas pembelajaran jaringan syaraf umum.
Pada tahun 1987, Terry Sejnowski memperkenalkan algoritma NETtalk
(Sejnowski dan Rosenberg, 1987). Program ini mempelajari cara mengucapkan
kata-kata bahasa Inggris dan dapat meningkat seiring waktu.
Pada tahun 1989, Jaringan Syaraf Konvolusional dilatih dengan algoritme
backpropagation untuk mempelajari digit tulisan tangan (LeCun et al., 1989).
Sistem serupa kemudian digunakan untuk membaca cek tulisan tangan dan kode
pos, memproses cek yang diuangkan di Amerika Serikat pada akhir 90-an dan
awal 2000-an.
Catatan: Pada 1980-an, gelombang kedua penelitian jaringan saraf muncul
sebagian besar melalui gerakan yang disebut koneksionisme ( Fodor dan
Pylyshyn, 1988). Gelombang ini berlangsung hingga pertengahan 1990-an.
Pada tahun 1991, Hochreiter mempelajari masalah mendasar dari setiap
jaringan pembelajaran mendalam, yang berkaitan dengan masalah tidak dapat
dilatih dengan algoritma backpropagation (Hochreiter, 1991). Studinya
mengungkapkan bahwa sinyal disebarkan oleh backpropagation baik menurun
atau meningkat tanpa batas. Jika terjadi pembusukan, ini sebanding dengan
kedalaman jaringan. Ini sekarang dikenal sebagai masalah gradien menghilang
atau meledak.
Pada tahun 1992, solusi parsial pertama untuk masalah ini telah disarankan
olehSchmidhuber (1992). Idenya adalah untuk melatih RNN dengan cara yang
tidak diawasi untuk mempercepat pembelajaran yang diawasi berikutnya.
Jaringan yang dipelajari memiliki lebih dari 1.000 lapisan dalam jaringan saraf
berulang.
Pada tahun 1995, jaringan saraf berosilasi telah diperkenalkan di Wang dan
Terman (1995). Mereka telah digunakan dalam berbagai aplikasi seperti
segmentasi gambar dan ucapan dan menghasilkan deret waktu yang kompleks
(Wang dan Terman, 1997; Hoppensteadt dan Izhikevich, 1999; Wang dan
Brown, 1999; Soman et al., 2018).
Pada tahun 1997, model terawasi pertama untuk pembelajaran RNN
diperkenalkan olehHochreiter dan Schmidhuber (1997), yang disebut Memori
Jangka Pendek Panjang (LSTM). LSTM mencegah masalah sinyal kesalahan
yang membusuk antar lapisan dengan membuat jaringan LSTM "mengingat"
informasi untuk jangka waktu yang lebih lama.
Pada tahun 1998, algoritma Stochastic Gradient Descent (pembelajaran
berbasis gradien) digabungkan dengan algoritma backpropagation untuk
meningkatkan pembelajaran di CNN (LeCun et al., 1989). Akibatnya, LeNet-5,
jaringan konvolusional 7 tingkat, diperkenalkan untuk mengklasifikasikan angka
tulisan tangan pada cek.
Pada tahun 2006, secara luas dianggap sebagai tahun terobosan karena pada
Hinton et al. ( 2006)ditunjukkan bahwa jaringan saraf yang disebut Deep Belief
Networks dapat dilatih secara efisien dengan menggunakan strategi yang disebut
pra-pelatihan lapisan serakah. Ini memprakarsai gelombang ketiga jaringan saraf
yang juga menggunakan istilah tersebutpembelajaran yang mendalampopuler.
modern,diawasi,Deep Feedforward Neural Networks (D-FFNN) (Fukushima,
2013).
Pada tahun 1982, Hopfield memperkenalkan jaringan saraf memori yang dapat
dialamatkan konten, yang sekarang disebut Jaringan Hopfield ( Hopfield, 1982).
Jaringan Hopfield adalah contoh untuk jaringan saraf berulang.
Pada tahun 1986, backpropagation muncul kembali di kertas olehRumelhart
dkk. (1986). Mereka menunjukkan secara eksperimental bahwa algoritme
pembelajaran ini dapat menghasilkan representasi internal yang berguna dan,
karenanya, dapat digunakan untuk tugas pembelajaran jaringan syaraf umum.
Pada tahun 1987, Terry Sejnowski memperkenalkan algoritma NETtalk
(Sejnowski dan Rosenberg, 1987). Program ini mempelajari cara mengucapkan
kata-kata bahasa Inggris dan dapat meningkat seiring waktu.
Pada tahun 1989, Jaringan Syaraf Konvolusional dilatih dengan algoritme
backpropagation untuk mempelajari digit tulisan tangan (LeCun et al., 1989).
Sistem serupa kemudian digunakan untuk membaca cek tulisan tangan dan kode
pos, memproses cek yang diuangkan di Amerika Serikat pada akhir 90-an dan
awal 2000-an.Catatan: Pada 1980-an, gelombang kedua penelitian jaringan saraf
muncul sebagian besar melalui gerakan yang disebut koneksionisme ( Fodor dan
Pylyshyn, 1988). Gelombang ini berlangsung hingga pertengahan 1990-an.
Pada tahun 1991, Hochreiter mempelajari masalah mendasar dari setiap
jaringan pembelajaran mendalam, yang berkaitan dengan masalah tidak dapat
dilatih dengan algoritma backpropagation (Hochreiter, 1991). Studinya
mengungkapkan bahwa sinyal disebarkan oleh backpropagation baik menurun
atau meningkat tanpa batas. Jika terjadi pembusukan, ini sebanding dengan
kedalaman jaringan. Ini sekarang dikenal sebagai masalah gradien menghilang
atau meledak.
Pada tahun 1992, solusi parsial pertama untuk masalah ini telah disarankan
olehSchmidhuber (1992). Idenya adalah untuk melatih RNN dengan cara yang
tidak diawasi untuk mempercepat pembelajaran yang diawasi berikutnya.
Jaringan yang dipelajari memiliki lebih dari 1.000 lapisan dalam jaringan saraf
berulang.
Pada tahun 1995, jaringan saraf berosilasi telah diperkenalkan di Wang dan
Terman (1995). Mereka telah digunakan dalam berbagai aplikasi seperti
segmentasi gambar dan ucapan dan menghasilkan deret waktu yang kompleks
(Wang dan Terman, 1997; Hoppensteadt dan Izhikevich, 1999; Wang dan
Brown, 1999; Soman et al., 2018).
Pada tahun 1997, model terawasi pertama untuk pembelajaran RNN
diperkenalkan olehHochreiter dan Schmidhuber (1997), yang disebut Memori
Jangka Pendek Panjang (LSTM). LSTM mencegah masalah sinyal kesalahan
yang membusuk antar lapisan dengan membuat jaringan LSTM "mengingat"
informasi untuk jangka waktu yang lebih lama.
Pada tahun 1998, algoritma Stochastic Gradient Descent (pembelajaran
berbasis gradien)
digabungkan dengan algoritma backpropagation untuk meningkatkan
pembelajaran di CNN (LeCun et al., 1989). Akibatnya, LeNet-5, jaringan
konvolusional 7 tingkat, diperkenalkan untuk mengklasifikasikan angka tulisan
tangan pada cek.
Pada tahun 2006, secara luas dianggap sebagai tahun terobosan karena pada
Hinton et al. (2006)ditunjukkan bahwa jaringan saraf yang disebut Deep Belief
Networks dapat dilatih secara efisien dengan menggunakan strategi yang
disebut pra-pelatihan lapisan serakah. Ini memprakarsai gelombang ketiga
jaringan saraf yang juga menggunakan istilah tersebutpembelajaran yang
mendalam populer.

Tahun 2012, Alex Krizhevsky memenangkan Tantangan Pengenalan Visual


Skala Besar ImageNet dengan menggunakan AlexNet, Jaringan Syaraf
Konvolusional yang memanfaatkan GPU dan ditingkatkan dari LeNet5 (lihat di
atas) (LeCun et al., 1989). Keberhasilan ini memulai kebangkitan jaringan saraf
konvolusional dalam komunitas pembelajaran mendalam (lihat Neocognitron).
Pada tahun 2014, jaringan permusuhan generatif diperkenalkan di Goodfellow
dkk. (2014). Idenya adalah bahwa dua jaringan saraf bersaing satu sama lain
dengan cara seperti permainan. Secara keseluruhan, ini membentuk model
generatif yang dapat menghasilkan data baru. Ini disebut "ide paling keren
dalam pembelajaran mesin dalam 20 tahun terakhir" oleh Yann LeCun.
Pada tahun 2019, Yoshua Bengio, Geoffrey Hinton, dan Yann LeCun
dianugerahi Penghargaan Turing untuk terobosan konseptual dan teknik yang
menjadikan jaringan saraf dalam sebagai komponen penting komputasi.
Pembaca yang tertarik dengan sejarah awal jaringan saraf yang lebih rinci
dirujukSchmidhuber (2015).
evolusi publikasi terkait pembelajaran mendalam dari database publikasi Web of
Science. Secara khusus, angka tersebut menunjukkan jumlah publikasi yang
bergantung pada tahun publikasi untuk DL, deep learning; CNN, jaringan saraf
konvolusional; DBN, jaringan kepercayaan mendalam; LSTM, memori jangka
pendek yang panjang; AEN, penyandi otomatis; dan MLP, perceptron berlapis-
lapis. Dua garis putus-putus diskalakan dengan faktor 5 (deep learning) dan 3
(convolutional neural network), yaitu, secara keseluruhan, untuk deep learning
kami menemukan mayoritas publikasi (total 30, 230).
Menariknya, sebagian besar di bidang ilmu komputer (52,1%) dan teknik
(41,5%). Di bidang aplikasi, pencitraan medis (6,2%), robotika (2,6%), dan biologi
komputasi (2,5%) mendapat perhatian paling besar.
Pada bagian berikut, kita akan membahas semua metode ini secara lebih rinci
karena mewakili metodologi inti pembelajaran mendalam. Selain itu, kami
menyajikan informasi latar belakang tentang jaringan saraf tiruan umum sejauh
ini diperlukan untuk pemahaman yang lebih baik tentang metode DL.
2. Arsitektur jaringan syaraf
Artificial Neural Networks (ANNs) adalah model matematika yang dimotivasi
oleh fungsi otak. Namun, model yang kita diskusikan berikut ini tidak bertujuan
untuk menyediakan model yang realistis secara biologis. Sebaliknya, tujuan dari
model ini adalah untuk menganalisis data
2.1. Model Neuron Buatan
Entitas dasar dari setiap jaringan saraf adalah model neuron. Ide dasar dari
model neuron adalah bahwa input,x,bersama dengan bias,bditimbang oleh,w, lalu
diringkas bersama. Bias,b,adalah nilai skalar sedangkan inputxdan bobot
wbernilai vektor, yaitu,x∈Rndanw∈Rndengann∈N sesuai dengan dimensi
masukan. Perhatikan bahwa istilah bias tidak selalu ada tetapi terkadang
dihilangkan. Jumlah dari istilah-istilah ini, yaitu,z =wTx+bkemudian membentuk
argumen dari fungsi aktivasi, φ, yang menghasilkan output dari model neuron,
y = φ z = φwTx+b
Mempertimbangkan hanya argumen φ satu memperoleh fungsi diskriminan linier
(Webb dan Copsey, 2011).
Fungsi aktivasi, φ, (juga dikenal sebagai fungsi satuan atau fungsi transfer)
melakukan transformasi non-linear dariz.DiTabel 1, kami memberikan ikhtisar
tentang fungsi aktivasi yang sering digunakan.
Fungsi aktivasi ReLU disebut Rectified Linear Unit atau rectifier (Nair dan
Hinton, 2010). Fungsi aktivasi ReLU adalah fungsi aktivasi paling populer untuk
jaringan saraf dalam.
Fungsi aktivasi lain yang bermanfaat adalah fungsi softmax ( Lawrence et al.,
1997):

2.2. Jaringan saraf umpan maju


Untuk membangun jaringan saraf (NN), neuron harus terhubung satu sama lain.
Arsitektur paling sederhana dari NN adalah
2.3. Jaringan Syaraf Berulang
Keluarga model Recurrent Neural Network (RNN) memiliki dua subclass yang
dapat dibedakan berdasarkan perilaku pemrosesan sinyalnya. Yang pertama
berisi jaringan berulang impuls terbatas (FRN) dan jaringan berulang impuls
tak terbatas kedua (IIRN). Perbedaannya adalah bahwa FRN diberikan oleh
grafik asiklik terarah (DAG) yang dapat dibuka gulungannya dalam waktu dan
diganti dengan Jaringan Neural Feedforward, sedangkan IIRN adalah grafik
siklik terarah (DCG) yang tidak dapat dibuka gulungannya.
2.4. Jaringan Hopfield Jaringan Hopfield (HN) (Hopfield, 1982)
Kelemahannya adalah peningkatan ketidaktepatan. Namun, Ada berbagai macam
arsitektur jaringan berbeda yang digunakan sebagai model pembelajaran
mendalam. PengikutMeja 2tidak bertujuan untuk memberikan daftar lengkap,
tetapi mencakup model paling populer yang saat ini digunakan (Yosua, 2009;
LeCun et al., 2015).disusun oleh jaringan lain. Misalnya, CDBN didasarkan pada
RBM dan CNN (Lee et al., 2009); DBM didasarkan pada RBM ( Salakhutdinov
dan Hinton, 2009); DBN didasarkan pada RBM dan MLP; dAE adalah
Autoencoder stokastik yang dapat ditumpuk satu sama lain untuk membuat
Autoencoder denoising (SdAE) bertumpuk.Pada bagian berikut, kita membahas
arsitektur inti utama. Deep Feedforward Neural Networks (D-FFNN),
Convolutional Neural Networks (CNNs), Deep Belief Networks (DBNs),
Autoencoders (AEs), dan Long Short-Term Memory networks (LSTMs) lebih
detail.

3. Jaringan Syaraf Feed Forward Dalam

Dapat dibuktikan bahwa Feedforward Neural Network dengan satu lapisan


tersembunyi dan jumlah neuron yang terbatas dapat mendekati setiap fungsi
kontinu pada subset kompak dariRn(Hornik, 1991). Ini disebutteorema
pendekatan universal.Alasan penggunaan FFNN dengan lebih dari satu lapisan
tersembunyi adalah karena teorema aproksimasi universal tidak memberikan
informasi tentang cara mempelajari jaringan semacam itu, yang ternyata sangat
sulit. Masalah terkait yang berkontribusi pada kesulitan mempelajari jaringan
semacam itu adalah bahwa lebarnya dapat menjadi sangat besar secara
eksponensial. Menariknya, teorema aproksimasi universal juga dapat dibuktikan
untuk FFNN dengan banyak lapisan tersembunyi dan sejumlah neuron
tersembunyi (Lu et al., 2017) yang algoritma pembelajarannya telah ditemukan.
Oleh karena itu, D-FFNN digunakan sebagai pengganti FFNN (dangkal) karena
alasan praktis untuk dapat dipelajari.

4. Jaringan syaraf konvolusionaJ

AConvolutional Neural Network (CNN) adalah Jaringan Neural Feedforward


khusus yang menggunakan lapisan konvolusi, ReLU, dan penyatuan. CNN
standar biasanya terdiri dari beberapa lapisan Jaringan Neural Feedforward
termasuk lapisan konvolusi, penyatuan, dan lapisan yang terhubung sepenuhnya.
Biasanya, dalam JST tradisional, setiap neuron dalam satu lapisan terhubung ke
semua neuron di lapisan berikutnya, sedangkan setiap koneksi adalah
parameter dalam jaringan. Ini dapat menghasilkan sejumlah besar parameter.
Alih-alih menggunakan lapisan yang terhubung sepenuhnya, CNN
menggunakan konektivitas lokal antar neuron, yaitu, sebuah neuron hanya
terhubung ke neuron terdekat di lapisan berikutnya. Ini dapat secara signifikan
mengurangi jumlah parameter dalam jaringan.
4.1. Lapisan yang Terhubung Sepenuhnya
Lapisan yang terhubung sepenuhnya adalah unit dasar lapisan
tersembunyi di FFNN. Menariknya, juga untuk arsitektur CNN tradisional,
lapisan yang terhubung penuh sering ditambahkan antara lapisan kedua dari
belakang dan lapisan keluaran untuk memodelkan lebih lanjut hubungan non-
linear dari fitur masukan ( Krizhevsky et al., 2012b; Simonyan dan Zisserman,
2014; Szegedy et al., 2015). Namun, baru-baru ini manfaat dari hal ini telah
dipertanyakan karena banyaknya parameter yang diperkenalkan oleh hal ini,
yang berpotensi menyebabkan overfitting (Simonyan dan Zisserman, 2014).
Akibatnya, semakin banyak peneliti mulai membangun arsitektur CNN
tanpa lapisan yang terhubung sepenuhnya menggunakan teknik lain seperti
penyatuan waktu maksimum (Lin et al., 2013; Kim, 2014) untuk menggantikan
peran lapisan linier.
4.2. Varian Penting CNN
4.2.1. VGGNet
VGGNet (Simonyan dan Zisserman, 2014) adalah pelopor dalam
mengeksplorasi bagaimana kedalaman jaringan memengaruhi kinerja CNN.
VGGNet diusulkan oleh Visual Geometry Group dan Google DeepMind, dan
mereka mempelajari arsitektur dengan kedalaman 19 (misalnya, dibandingkan
dengan 11 untuk AlexNet Krizhevsky et al., 2012b).

VGG19 memperluas jaringan dari delapan lapisan berat (struktur yang


diusulkan oleh AlexNet) menjadi 19 lapisan berat dengan menambahkan 11
lapisan konvolusional lagi. Secara total, parameter meningkat dari 61 juta
menjadi 144 juta, namun, lapisan yang terhubung sepenuhnya menempati
sebagian besar parameter. Menurut hasil yang mereka laporkan, tingkat
kesalahan turun dari 29,6 menjadi 25,5 dengan regrading top-1 val.error
(persentase berapa kali pengklasifikasi tidak memberikan kelas yang benar
dengan skor tertinggi) pada dataset ILSVRC, dan dari 10,4 menjadi 8,0
mengenai top -5 val.error (persentase kali pengklasifikasi tidak menyertakan
kelas yang benar di antara 5 teratasnya) pada dataset ILSVRC di ILSVRC2014.
Ini menunjukkan bahwa struktur CNN yang lebih dalam mampu mencapai hasil
yang lebih baik daripada
4.2.2. Lapisan Konvolusi
Lapisan convolutional adalah bagian penting dalam membangun jaringan
saraf convolutional. Mirip dengan lapisan tersembunyi
Cara paling intuitif untuk meningkatkan kinerja Convolutional Neural Network
adalah menumpuk lebih banyak lapisan dan menambahkan lebih banyak
parameter ke lapisan (Simonyan dan Zisserman, 2014). Namun, ini akan
menimbulkan dua masalah besar. Salah satunya adalah terlalu banyak
parameter akan menyebabkan overfitting, dan yang lainnya adalah model
menjadi sulit untuk dilatih. GoogleLeNet (Szegedy et al., 2015) diperkenalkan
oleh Google. Sampai pengenalan awal, arsitektur CNN tradisional yang canggih
terutama berfokus pada peningkatan ukuran dan kedalaman jaringan saraf, yang
juga meningkatkan biaya komputasi jaringan. Sebaliknya, GoogLeNet
memperkenalkan arsitektur untuk mencapai performa canggih dengan struktur
jaringan yang ringan.
Ide yang mendasari arsitektur jaringan awal adalah untuk menjaga
jaringan sejarang mungkin sambil memanfaatkan fitur perhitungan matriks
cepat yang disediakan oleh komputer. Ide ini memfasilitasi struktur awal
pertama
beberapa lapisan paralel termasuk 1×1 lilitan dan 3×3 max pooling beroperasi
pada level yang sama pada input. Setiap terowongan (yaitu satu operasi
sekuensial terpisah) memiliki lapisan anak yang berbeda, termasuk 3×3 lilitan,
5×5 konvolusi dan 1×1 lapisan konvolusi. Semua hasil dari masing-masing
terowongan digabungkan menjadi satu di lapisan keluaran. Dalam arsitektur ini,
konvolusi 1x1 digunakan untuk menurunkan skala gambar input sambil
menyimpan informasi input (Lin et al., 2013). Mereka berargumen bahwa
menggabungkan semua fitur yang diekstrak oleh filter berbeda sesuai dengan
gagasan bahwa informasi gambar harus diproses pada skala yang berbeda dan
hanya fitur agregat yang harus dikirim ke tingkat berikutnya. Oleh karena itu,
level selanjutnya dapat mengekstrak fitur dari skala yang berbeda. Lebih-lebih
lagi,
5. Jaringan kepercayaan dalam
Deep Belief Network (DBN) adalah model yang menggabungkan berbagai
jenis jaringan saraf satu sama lain untuk membentuk model jaringan saraf baru.
Secara khusus, DBN mengintegrasikan Restricted Boltzmann Machines
(RBM) dengan Deep Feedforward Neural Networks (D-FFNN). RBM
membentuk unit input sedangkan D-FFNN membentuk unit output. Seringkali,
RBM ditumpuk satu sama lain, yang berarti
5.1. Fase Pra-pelatihan: Tanpa pengawasan
Secara teoritis, jaringan saraf dapat dipelajari dengan menggunakan metode
yang diawasi saja. Namun, dalam praktiknya ditemukan bahwa proses
pembelajaran seperti itu bisa sangat lambat. Untuk alasan ini, pembelajaran
tanpa pengawasan digunakan untuk menginisialisasi parameter model.
Algoritma pembelajaran jaringan saraf standar (backpropagation) pada
awalnya hanya mampu mempelajari arsitektur dangkal. Namun, dengan
menggunakan Mesin Boltzmann yang Dibatasi untuk inisialisasi parameter
tanpa pengawasan, seseorang memperoleh pelatihan jaringan saraf yang lebih
efisien (Hinton et al., 2006).
5.2. Fase Penyetelan Halus: Diawasi
Setelah inisialisasi parameter jaringan saraf, seperti yang dijelaskan pada
langkah sebelumnya, ini sekarang dapat disesuaikan. Untuk langkah ini,
pendekatan pembelajaran terawasi digunakan, yaitu label sampel, dihilangkan
pada tahap pra-pelatihan, sekarang digunakan.Untuk mempelajari model,
seseorang meminimalkan fungsikesalahan (juga disebut fungsi kerugian atau
terkadang fungsi tujuan). Contoh untuk fungsi error tersebut adalah mean
squared error (MSE).
6. Autoencoder
Autoencoder adalah model jaringan saraf tanpa pengawasan yang digunakan
untuk pembelajaran representasi, misalnya, pemilihan fitur atau pengurangan
dimensi. Properti umum autoencoder adalah bahwa ukuran lapisan input dan
output sama dengan arsitektur simetris (Hinton dan Salakhutdinov, 2006). Ide
dasarnya adalah mempelajari pemetaan dari pola masukanxke pengkodean
baruc=h(x), yang idealnya memberikan pola keluaran yang sama dengan pola
masukan, yaitu,x≈y=g(c). Oleh karena itu, pengkodeanc, yang biasanya
memiliki dimensi lebih rendah darix, memungkinkan untuk mereproduksi (atau
kode untuk)x.
7. Jaringan memori jangka pendek dan panjng
Jaringan memori jangka pendek (LSTM) diperkenalkan oleh Hochreiter dan
Schmidhuber pada tahun 1997 (Hochreiter dan Schmidhuber, 1997). LSTM
adalah varian dari RNN yang memiliki kemampuan untuk mengatasi
kekurangan RNN yang tidak bekerja dengan baik, misalnya saat menangani
ketergantungan jangka panjang (Makam, 2013). Selain itu, LSTM menghindari
masalah gradien menghilang atau meledak (Hochreiter, 1998; Gers et al., 1999

7.1. Struktur Jaringan LSTM Dengan GerbangLupa


struktur model jaringan LSTM yang tidak digulung (Wang et al., 2016). Dalam
model ini, masukan dan keluaran diatur secara vertikal, sedangkan informasi
disampaikan secara horizontal sepanjang deret waktu.
Dalam jaringan LSTM standar, entitas dasar disebut unit LSTM atau blok
memori (Gers et al., 1999). Setiap unit terdiri dari sel, bagian memori dari unit,
dan tiga gerbang: gerbang input, gerbang keluaran, dan gerbang lupa (juga
disebut gerbang keep) (Ger

7.2. LSTM lubang intip


Gerbang keluaranHait−1dalam jaringan LSTM tradisional ditutup. Kemudian
output dari jaringanh(t−1)pada waktu (t -1) akan menjadi 0, menurut
Persamaan (29), dan pada langkah waktu berikutnyat,it
8. Aplikasi
LSTM memiliki berbagai aplikasi dalam pembuatan teks, klasifikasi teks,
terjemahan bahasa atau teks gambar (Hwang dan Sung, 2015; Vinyals et al.,
2015). DiGambar 16, model pengklasifikasi LSTM untuk klasifikasi teks
ditampilkan. Pada gambar ini, input struktur LSTM pada setiap langkah waktu
adalah vektor penyisipan kataVsaya, yang merupakan pilihan umum untuk
masalah klasifikasi teks. Teknik penyisipan kata memetakan kata atau frasa
dalam kosakata ke vektor yang terdiri dari bilangan real. Beberapa teknik
penyematan kata yang umum termasuk word2vec, GloVe, FastText, d
9. DISKUSI
9.1 Karakteristik Umum DeepLearning
Properti umum untuk semua model pembelajaran mendalam adalah bahwa
mereka melakukan apa yang disebut pembelajaran representasi. Kadang ini juga
9.2 Perbedaan Antara Model
Saat ini, CNN adalah model pembelajaran mendalam yang mendominasi
untuk tugas visi komputer (LeCun et al., 2015). Mereka efektif ketika data
terdiri dari larik di mana nilai terdekat dalam larik berkorelasi satu sama lain,
misalnya, seperti halnya untuk gambar, video, dan data suara.
Lapisan konvolusional dapat dengan mudah memproses input dimensi tinggi
dengan menggunakan konektivitas lokal dan bobot bersama, sementara lapisan
penyatuan dapat menurunkan sampel input tanpa kehilangan informasi penting.
Setiap lapisan konvolusional mampu mengubah gambar masukan menjadi
kelompok
9.3 Model yang Dapat Diinterpretasikan vs. Model Kotak Hitam
Model apa pun dalam ilmu data dapat dikategorikan sebagai model
inferensialatau amodel prediksi (Breiman, 2001; Shmueli, 2010). Model
inferensial tidak hanya membuat prediksi tetapi juga menyediakan struktur yang
dapat ditafsirkan. Oleh karena itu, ini adalah model dari proses prediksi itu
sendiri, misalnya model kausal.
9.4 Data Besar vs. Data Kecil
Dalam statistika, bidang desain eksperimental berkaitan dengan penilaian apakah
ukuran sampel yang tersedia cukup untuk melakukan analisis tertentu (untuk
contoh praktis lihat Stupnikov et al., 2016). Sebaliknya, untuk semua metode
yang dibahas dalam makalah ini, kami berasumsi bahwa kami berada dalam
domain data besar yang menyiratkan sampel yang cukup. Ini sesuai dengan kasus
ideal. Namun, kami ingin menunjukkan bahwa untuk aplikasi praktis, seseorang
perlu menilai situasi ini kasus per kasus untuk memastikan data yang tersedia
(masing-masing ukuran sampel) cukup untuk menggunakan model pembelajaran
mendalam. Sayangnya, masalah ini tidak terwakili dengan baik dalam literatur
saat ini. Sebagaiaturan praktis,model pembelajaran mendalam biasanya
berkinerja baik untuk puluhan
9.5 Tipe Data
Masalah terkait dengan masalah ukuran sampel yang dibahas di atas adalah
jenis data. Contoh untuk tipe data yang berbeda adalah data teks, data gambar,
data audio, data jaringan atau data pengukuran/sensor (misalnya dari genomik)
untuk menyebutkan beberapa saja. Satu
9.6 Model Lanjutan Lebih Lanjut
Terakhir, kami ingin menekankan bahwa ada model jaringan deep learning
tambahan namun lebih maju, yang berada di luar arsitektur inti. Misalnya,
pembelajaran mendalam dan pembelajaran penguatan telah digabungkan satu
sama lain untuk membentuk pembelajaran penguatan mendalam (Mnih et al.,
2015; Arulkumaran et al., 2017; Henderson et al., 2018). Model seperti itu telah
menemukan aplikasi dalam masalah robotika, game, dan perawatan kesehatan.
3. KESIMPULAN
Ulasan pengantar untuk model pembelajaran mendalam termasuk Deep
Feedforward Neural Networks, (D-FFNN), Convolutional Neural Networks
(CNNs), Deep Belief Networks (DBNs), Autoencoders (AE) dan jaringan
Memori Jangka Pendek Panjang (LSTM). Model-model ini dapat dianggap
sebagai arsitektur inti yang saat ini mendominasi pembelajaran mendalam.
Selain itu, kami membahas konsep terkait yang diperlukan untuk pemahaman
teknis model ini, misalnya Mesin Boltzmann yang Dibatasi dan perambatan
balik yang tangguh.Mengingat fleksibilitas arsitektur jaringan yang
memungkinkan " Seperti Lego‖konstruksi model baru, model jaringan saraf
yang tidak terbatas dapat dibangun dengan memanfaatkan elemen blok
bangunan arsitektur inti yang dibahas dalam ulasan ini. Oleh karena itu,
pemahaman dasar tentang elemen-elemen ini adalah kunci untuk melengkapi
pengembangan AI di masa depan.
REFERENSI
Carreira-Perpinan, MA, dan Hinton, GE (2005). ―Pada divergensi kontrastif
belajar‖ diProsiding Lokakarya Internasional Kesepuluh tentang Kecerdasan
Alipanahi, B., Delong, A., Weirauch, MT, dan Frey, BJ (2015).

Memprediksi spesifisitas urutan protein pengikat DNA dan RNA dengan


pembelajaran mendalam.Nat. Bioteknologi.33, 831–838. doi: 10.1038/n
bt.3300An, J., dan Cho, S. (2015).Deteksi Anomali Berbasis Variational
Autoencoder MenggunakanProbabilitas Rekonstruksi.Kuliah Khusus tentang IE
2.Arulkumaran, K., Deisenroth, MP, Brundage, M., dan Bharath, AA
(2017).Pembelajaran penguatan mendalam: survei singkat.Proses Sinyal IEEE.
Mag.34, 26– 38. doi: 10.1109/MSP.2017.2743240Bergmeir, C., dan Benitez, JM
(2012). Jaringan saraf di R menggunakansimulator jaringan saraf stuttgart:
RSNNS.J.stat. Lembutw.46, 1–26. doi: 10.18637/jss.v046.i07Biran, O., dan
Kapas, C. (2017). ―Penjelasan dan pembenaran dalam mesin
belajar: survei,‖ diLokakarya IJCAI-17 tentang AI yang Dapat Dijelaskan
(XAI).Vol. 8, 1. Bottou, L. (2010). ―Pembelajaran mesin skala besar dengan
penurunan gradien stokastik,‖
diProsiding COMPSTAT'2010 (Peloncat), 177–186.Breiman, L. (2001).
Pemodelan statistik: dua budaya (dengan komentar dan rejoinder oleh
penulis).Stat. Sains.16, 199–231. doi: 10.1214/ss/ 1009213726 Cao, C., Liu, F.,
Tan, H., Song, D., Shu, W., Li, W., dkk. (2018). Pembelajaran mendalam dan
aplikasinya dalam biomedis.Genomics Proteomik Bioinform.16, 17–32. doi:
10.1016/j.gpb.2017.07.003
Cao, S., Lu, W., dan Xu, Q. (2016). ―Jaringan saraf yang dalam untuk
mempelajari grafik
representasi‖, dalamKonferensi AAAI Ketiga Puluh tentang Kecerdasan
Buatan.Buatan dan Statistik (Mengutip), 33–40. Charles, AS, Olshausen, BA,
dan Rozell, CJ (2011).

Mempelajari kode jarang untuk citra hiperspektral.IEEE J. Pilih. Atas. Proses


Sinyal.5, 963–978. doi: 10.1109/JSTSP.2011. 2149497
Chen, T., Li, M., Li, Y., Lin, M., Wang, N., Wang, M., dkk. (2015). Mxnet:
fleksibel dan perpustakaan pembelajaran mesin yang efisien untuk sistem
terdistribusi yang heterogen. Chimera (2019).Pydbm.arXiv:1512.01274.
Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F.,
Schwenk, H., dkk. (2014). Mempelajari representasi frase menggunakan rnn
encoderdecoder untuk terjemahan mesin statistik.arXiv
[Pracetak].arXiv:1406.1078. doi: 10.3115/v1/D14-1179
Chollet, F. (2015).Keras.Tersedia online di: https://github.com/fchollet/
keras Cohen, G., Afshar, S., Tapson, J., and van Schaik, A. (2017). Emnis: an
perpanjangan mnist ke surat tulisan tangan.arXiv[Pracetak].arXiv:1702.05373.
doi: 10.1109/IJCNN.2017.7966217
Dai, J., Wang, Y., Qiu, X., Ding, D., Zhang, Y., Wang, Y., dkk. (2018). BigDL: a
kerangka pembelajaran mendalam terdistribusi untuk data besar.
arXiv:1804.05839. [Dataset] Abadi, M., Agarwal, A., Barham, P., Brevdo, E.,
Chen, Z., Citro, C., et al.
(2016). Tensorflow: Pembelajaran mesin skala besar pada sistem terdistribusi
heterogen. arXiv:1603.04467.[Dataset] Bondarenko, Y. (2017).Mesin Boltzman.
[Dataset] Candel, A., Pramar, V., LeDell, E., dan Arora, A. (2015).Pembelajaran
Mendalam
Dengan H2O.

Anda mungkin juga menyukai