Anda di halaman 1dari 65

PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK BERTINGKAT

MENGGUNAKAN FUZZY C-MEANS (FCM)


UNTUK IDENTIFIKASI PEMBICARA

Oleh :
Vicky Zilvan
G64103043

Pembimbing :
Ir. Agus Buono, M.Si., M.Kom.
Dr. Ir. Sri Nurdiati, M.Sc.
Materi Presentasi

Pendahuluan
Tinjauan Pustaka
Metode Penelitian
Hasil dan Pembahasan
Kesimpulan dan Saran
Daftar Pustaka
Demo
PENDAHULUAN
Latar Belakang

Pengenalan pola masih menjadi kajian yang menarik


bagi para peneliti.

Tidak hanya untuk keperluan penelitian maupun


peningkatan produktifitas kerja saja, tetapi lebih
mengarah pada kebutuhan di era high technology

Speech processing memiliki beberapa cabang kajian,


salah satunya adalah identifikasi pembicara.
Latar Belakang (lanjutan)

Beberapa motode untuk melakukan identifikasi, antara


lain:
Dynamic Time Warping (DTW),
Model Markov Tersembunyi,
Vector Quantization (VQ),
Bayesian classifiers,
algoritma K-Means clustering
jaringan syaraf tiruan,
logika Fuzzy,
gabungan dari beberapa metode.
Latar Belakang (lanjutan)

Metode yang akan pakai untuk melakukan identifikasi


pembicara :

Fuzzy C-Means (FCM)

Probabilistic Neural Network (PNN)


Tujuan

Mengembangkan model Probabilistic Neural Network


bertingkat menggunakan Fuzzy C-Means (FCM) untuk
identifikasi pembicara.
Membandingan tingkat akurasi model antara suara yang
diberi tambahan noise dan yang tidak diberi tambahan
noise.
Membandingan tingkat akurasi model yang
menggunakan threshold dan tingkat akurasi model yang
tidak menggunakan threshold.
Manfaat

Memberikan informasi mengenai tingkat akurasi


Probabilistic Neural Network Bertingkat Menggunakan
Fuzzy C-Means (FCM) untuk Identifikasi Pembicara.

Model yang dihasilkan diharapkan dapat digunakan untuk


mengembangkan sistem identifikasi yang bersifat tertutup
dan bergantung pada teks.
Ruang Lingkup

Pembahasan difokuskan pada tahap pemodelan


pembicara dengan Probabilistic Neural Network
Bertingkat Menggunakan Fuzzy C-Means (FCM), tidak
pada pemrosesan sinyal analog sebagai praproses
sistem.

Pada penelitian ini, parameter FCM yang akan


dicobakan adalah :
Banyaknya cluster = 3,
Error terkecil yang diharapkan = 110,
Pengkat pembobot = 2,
Maksimum iterasi = 100.
Ruang Lingkup (lanjutan)

Ekstraksi ciri sinyal suara menggunakan Mel-Frequency


Cepstrum Coefficients (MFCC).

Identifikasi bersifat tertutup dan bergantung pada teks .


TINJAUAN PUSTAKA
Jenis Pengenalan Pembicara

Berdasarkan jenis aplikasinya (Campbell 1997) :


1. Identifikasi pembicara
Proses mengenali seseorang berdasarkan suaranya.

2. Verifikasi pembicara
Proses memeriksa identitas yang diklaimkan
seseorang berdasarkan suaranya.
Jenis Pengenalan Pembicara (lanjutan)

Identifikasi pembicara dibagi dua, yaitu :


1. Identifikasi tertutup
suara masukan yang akan dikenali merupakan bagian
dari sekumpulan suara pembicara yang telah
terdaftar atau diketahui.
2. Identifikasi terbuka
suara masukan boleh tidak ada pada kumpulan suara
pembicara yang telah terdaftar.
Jenis Pengenalan Pembicara (lanjutan)

Berdasarkan aspek kebahasaan (Ganchev 2005) :


1. Pengenalan pembicara bergantung teks
pembicara harus mengucapkan kata atau kalimat
yang sama baik pada pelatihan maupun pengujian.
2. Pengenalan pembicara bebas teks
pembicara tidak harus mengucapkan kata atau
kalimat yang sama baik pada pelatihan maupun
pengujian.
Dijitalisasi Gelombang Suara

Proses mengubah masukan suara dari gelombang analog


menjadi representasi data dijital disebut dijitasi suara.

Proses dijitasi suara terdiri dari dua tahap


Sampling, yaitu proses pengambilan nilai setiap
jangka waktu tertentu.
S = Fs * T
Kuantisasi, yaitu menyimpan nilai amplitudo ini ke
dalam representasi nilai 8 bit atau 16 bit.
Signal to Noise Ratio (SNR)

Konsep yang mendefinisikan perbandingan antara


kekuatan sinyal dengan kekuatan noise yang merusak
sinyal.
Secara umum, SNR didefinisikan sebagai:

Pada desibel, SNR didefinisikan sebagai :


Mel Frequency Cepstrum Coefficients (MFCC)

Digunakan sebagai praproses sekaligus untuk


menganalisis fitur suara.

Didasarkan pada variasi yang telah diketahui dari


jangkauan kritis telinga manusia dengan frekuensi.

Tujuan utama MFCC adalah untuk meniru perilaku


telinga manusia.
Mel Frequency Cepstrum Coefficients (MFCC)

Diagram blok proses Mel Frequency Cepstrum


Coefficients
Fuzzy C-Means (FCM)

Menurut Jang et al. (1997), Fuzzy C-Means merupakan


algoritma clustering data di mana setiap titik data masuk
dalam sebuah cluster dengan ditandai oleh derajat
keanggotaan.

Teknik ini pertamakali diperkenalkan oleh Jim Bezdek


pada tahun 1981.
Fuzzy C-Means (FCM) (Lanjutan)
.

Berikut tahapan clustering menggunakan algoritma FCM:

1.Inisialisasi keanggotaan matriks U yang berisi derajat


keanggotan terhadap cluster dengan nilai antara 0 dan 1,
sehingga
c

u
i 1
ij 1, j 1,..., n

2. Penghitungan c sebagai pusat cluster, ci , i = 1, , c


dengan menggunakan
n
((uij ) m x j )
j 1
ci
n
(uij ) m
j 1
Fuzzy C-Means (FCM) (Lanjutan)
.

3. Penghitungan fungsi objektif (Ji):


c c n
J (U , c1 ,..., cc ) J i uijm d ij2 ,
i 1 i 1 j

di mana:
uij adalah elemen matriks U yang bernilai antara 0 dan 1,
dij = ||ci - xj|| adalah jarak antara pusat cluster ke-i dan titik data ke-j,
ci adalah pusat cluster ke-i,
m [1,~ ] adalah parameter fuzzifikasi.

Kemudian kondisi berhenti dicek :


Jika (|Jt Jt-1| < nilai toleransi terkecil yang diharapkan)
atau (t > maksimal iterasi) maka proses berhenti.
Jika tidak : t = t + 1, mengulangi langkah 3.
Fuzzy C-Means (FCM) (Lanjutan)
.

4. Penghitungan matriks U baru menggunakan


formula berikut:
1
u ij
2
.

d ij m 1


d kj
k 1
Probabilistic Neural Network

Diperkenalkan oleh Donald F. Specht tahun 1990 dalam


tulisannya berjudul Probabilistic Neural Network yang
merupakan Penyempurnaan ide-ide sebelumnya yang
telah dilakukannya sejak 1966.

Probabilistic Neural Network dirancang menggunakan ide


dari teori probabilitas klasik yaitu pengklasifikasi Bayesian
dan estimator pengklasifikasi Parzen untuk Probability
Density Function.
Probabilistic Neural Network (lanjutan)

Input layer
vektor masukan.

Pattern layer
d x j xij
f ( x) k
j 1 hj , dengan

k z e 0.5*z .
2

Summation layer
n d
p ( x)
1
k x j xij
2 d / 2 h1h2 ...hd n i 1 j 1 h j

Decision layer
max(px)
METODE PENELITIAN
Blok Diagram Identifikasi Pembicara
Data Suara

Data yang digunakan adalah gelombang suara yang telah


direkam dan didijitasi dari 10 pembicara, 5 laki-laki dan 5
perempuan dengan rentang usia 20-25 tahun.

Masing-masing pembicara diambil suaranya dalam jangka


waktu yang sama dan tanpa pengarahan (unguided).

Untuk melihat keakuratan model yang dibagun terhadap


identifikasi tertutup, digunakan 30 data suara dari 6
pembicara lainnya.
Data Suara (lanjutan)

Kombinasi pembagian data pengujian dan data pelatihan setiap


pembicara untuk jumlah data yang sama

Data pelatihan Data pengujian Jenis data

20 30
30 20 Data asli
40 10
20 30
30 20 Data dengan SNR 30 dB
40 10
20 30
30 20 Data dengan SNR 20 dB
40 10
Data Suara (lanjutan)

Kombinasi proporsi data pelatihan dengan jumlah data pengujian


yang sama untuk setiap pembicara

Data pelatihan Data pengujian Jenis data

20 20
30 20 Data asli
40 20
20 20
30 20 Data dengan SNR 30 dB
40 20
20 20
30 20 Data dengan SNR 20 dB
40 20
Ekstraksi Ciri Sinyal Suara Dengan MFCC

Pada implementasi MFCC, kecuali tahap frame blocking,


digunakan fungsi dari Auditory Toolbox yang
dikembangkan oleh Slanley pada tahun 1998.

Fungsi ini menggunakan lima parameter, yaitu :


1. Input : masukan suara yang berasal dari setiap
pembicara

2. Sampling rate : banyaknya nilai yang diambil dalam


satu detik. Dalam penelitian ini digunakan sampling
rate sebesar 16000 Hz
Ekstraksi Ciri Sinyal Suara Dengan MFCC
(lanjutan)

3. Time frame : waktu yang diinginkan untuk satu frame


(dalam milidetik). Time frame yang digunakan adalah
30 ms.

4. Lap : overlaping yang diinginkan (harus kurang dari


satu). Lap yang digunakan sebesar 0.5.

5. Cepstral coefficient yaitu jumlah cepstrum yang


diinginkan sebagai output. Cepstral coefficient yang
digunakan sebanyak 13.
Probabilistic Neural Network Bertingkat
Menggunakan Fuzzy C-Means (FCM)

Input layer merupakan matriks berukuran 13 66 yang


berasal dari suara pembicara yang akan diidentifikasi
yang telah mengalami proses ekstraksi ciri sinyal suara.

Pada model yang akan dikembangkan ini, data untuk


pelatihan dari masing-masing pembicara di-cluster-kan
menggunakan Fuzzy C-Means (FCM), dimana parameter
FCM yang akan dicobakan adalah:
Banyaknya cluster = 3,
Error terkecil yang diharapkan = 110,
Pangkat pembobot = 2,
Maksimum iterasi = 100.
Probabilistic Neural Network Bertingkat
Menggunakan Fuzzy C-Means (FCM) (lanjutan)

Kemudian, data setiap cluster yang terbentuk akan


digunakan oleh PNN sebagai data setiap kelas.

Setiap keluaran dari pattern layer akan dijumlahkan


dengan keluaran dari pattern layer lainnya yang satu
kelas.

Dari summation diperoleh nilai terbesar untuk suatu


kelas.

Nilai terbesar ini mencerminkan bahwa suara yang


diujikan diidentifikasi sebagai pembicara kelas tersebut.
Probabilistic Neural Network Bertingkat
Menggunakan Fuzzy C-Means (FCM) (lanjutan)
Hasil Identifikasi

Hasil identifikasi merupakan bagian akhir dari identifikasi


pembicara yang berupa identifikasi pemilik suara
berdasarkan input suara yang diujikan. Identifikasi yang
dimaksud adalah apakah suara yang diujikan
diidentifikasi sebagai pembicara 1, 2, 3, 4, 5, 6, 7, 8, 9,
atau 10.
Penggunaan Threshold

Threshold merupakan suatu nilai yang berguna untuk


membatasi apakah suatu data uji dapat diidentifikasi
sebagai pembicara yang memiliki suatu kelas atau tidak,
apabila data uji tersebut mempunyai nilai terbesar di
kelas tersebut dibandingkan dengan kelas lainnya.
Lingkungan Pengembangan

Perangkat keras
Prosesor AMD Duron 850 MHz, memori DDR 256 MB,
harddisk 40 GB, keyboard dan mouse, monitor,
backphone with mic.

Perangkat Lunak
Sistem operasi Windows XP Profesional dan Matlab 6.5
HASIL DAN PEMBAHASAN
Data Suara

Data diambil menggunakan fungsi wavrecord pada


Matlab, dan disimpan menjadi file berekstensi WAV
dengan fungsi wavwrite.
Setiap pembicara mengucapkan kata komputer
sebanyak 60 kali sehingga didapat 600 data suara.
Setiap suara diambil tanpa pengarahan (unguided)
dengan sampling rate 16000 Hz
Untuk mendapatkan data yang memiliki noise, data yang
telah dikumpulkan sebelumnya disalin dua kali kemudian
ditambahkan noise dengan SNR 30 dB dan 20 dB.
Data non-model didapatkan dengan cara yang sama.
Ekstraksi Ciri Sinyal Suara Dengan MFCC

Fungsi dari Auditory Toolbox untuk ekstraksi ciri sinyal


suara dengan MFCC terdiri atas lima parameter, yaitu
input, sampling rate, time frame, lap, dan cepstral
coefficient.

Pemilihan nilai time frame, lap, dan cepstral coefficient


berturut-turut sebesar 30 ms, 0.5, dan 13 didasarkan
pada penelitian sebelumnya yang dilakukan
Mandasari(2005) dan Purnamasari(2006).
Ekstraksi Ciri Sinyal Suara Dengan MFCC

Pada tahap Frame Blocking, sinyal suara dibagi menjadi


66 frame dimana tiap frame terdiri atas 13 sample.

Proses selanjutnya adalah Windowing, yaitu


meminimalkan diskontinuitas sinyal pada awal dan akhir
tiap frame. Window yang digunakan adalah hamming
window dengan persamaan
w(n)=0.54-0.46cos(2n/12), 0 n 12.
Ekstraksi Ciri Sinyal Suara Dengan MFCC

Dilakukan konversi tiap frame dengan 13 sample dari


time domain menjadi frequency domain.

Dilakukan perhitungan mel-frequency untuk frekuensi f


dalam Hz:
Mel(f) = 2595*log10(1+f/700)

Konversi log mel spectrum ke domain waktu. Hasilnya


disebut mel frequency cepstrum coefficients.
Ekstraksi Ciri Sinyal Suara Dengan MFCC

Hasil dari analisis fitur suara MFCC ini adalah 13


koefisien mel cepstrum untuk masing-masing frame.
Dengan demikian setiap data suara menjadi matriks
berukuran 13 x 66.
Pemilihan Nilai Smoothing Parameter

Data asli
Pemilihan Nilai Smoothing Parameter

Data asli
20 data pelatihan
dipilih nilai a sebesar 8.3
30 data pelatihan
dipilih nilai a yang berada pada selang [7.8,8.1] atau
atau pada selang [10.5,11]
40 data pelatihan
dipilih nilai a yang berada pada selang [7.5,13.5]
Pemilihan Nilai Smoothing Parameter

Data dengan SNR 30 dB


Pemilihan Nilai Smoothing Parameter

Data dengan SNR 30 dB


20 data pelatihan
dipilih nilai a yang berada pada selang [11.4,11.6]
30 data pelatihan
dipilih nilai a yang berada pada selang [2.1,4.5]
40 data pelatihan
dipilih nilai a a yang berada pada selang [2.1,5.2]
Pemilihan Nilai Smoothing Parameter

Data dengan SNR 20 dB


Pemilihan Nilai Smoothing Parameter

Data dengan SNR 20 dB


20 data pelatihan
dipilih nilai a yang berada pada selang selang
[12.7,12.9] atau pada selang [13.5,14.3]
30 data pelatihan
dipilih nilai a sebesar 8.4
40 data pelatihan
dipilih nilai a yang berada pada selang selang
[6.1,6.9] atau pada selang [9.9,10.5].
Hasil Identifikasi dengan Menggunakan Nilai
SmootihngParameter yang Telah Dipilih

Tingkat akurasi setiap model dengan jumlah data yang sama


Tingkat
Banyak Banyak Jenis
Akurasi
Data Pelatihan Data Pengujian Data
(%)

20 30 70

30 20 82 Data asli

40 10 96

20 30 76.67
Data dengan SNR 30
30 20 80.5 dB
40 10 89

20 30 58.33
Data dengan SNR 20
30 20 60 dB
40 10 59
Tingkat akurasi setiap model dengan jumlah data
yang sama
Hasil Identifikasi dengan Menggunakan Nilai
SmootihngParameter yang Telah Dipilih

Tingkat akurasi setiap model dengan jumlah data yang sama


Tingkat
Banyak Banyak Jenis
Akurasi
Data Pelatihan Data Pengujian Data
(%)
20 20 67
30 20 82 Data asli
40 20 96
20 20 73
Data dengan SNR
30 20 77
30 dB
40 20 85.5
20 20 48.5
Data dengan SNR
30 20 49.5
20 dB
40 20 60
Tingkat akurasi setiap model dengan jumlah data
yang sama
Hasil Identifikasi Menggunakan Threshold

Hasil identifikasi 40 data pelatihan untuk 10 data pengujian pada data asli
dengan menggunakan threshold
Perbandingan tingkat akurasi model dengan
menggunakan threshold dan dengan model yang
tidak menggunakan threshold
Hasil Identifikasi Menggunakan Threshold
(lanjutan)

Hasil identifikasi 40 data pelatihan untuk 30 data pengujian non-


model pada data asli dengan menggunakan threshold
KESIMPULAN DAN SARAN
Kesimpulan

Diperoleh suatu model Probabilistic Neural Network


Bertingkat Menggunakan Fuzzy C-Means (FCM) untuk
identifikasi pembicara.

Hasil identifikasi dengan menggunakan data asli, data


dengan SNR sebesar 30 dB, atau data dengan SNR
sebesar 20 dB berbeda.

Hasil identifikasi tanpa threshold dan dengan threshold


berbeda dimana dengan threshold akan memberikan
hasil yang lebih akurat.
Saran

Pada penelitian ini, model yang dikembangkan belum


cukup mampu menangani identifikasi pembicara
dengan suara yang ber-noise cukup tinggi. Oleh karena
itu, untuk penelitian selanjutnya disarankan untuk
mencoba suatu metode ekstraksi ciri suara yang telah
terbukti mampu memisahkan antara suara asli dari
seorang pembicara dan noise yang merusak suara
tersebut.
Daftar Pustaka

Campbell,Jr JP. 1997. Speaker Recognition: A Tutorial.


Proceeding IEEE, Vol 85 No.9, hal 1437-1461,
September 1997.

Cox, E. 2005. Fuzzy Modelling and Genetic Algorithms


for Data Mining and Exploration. USA: Academic Press.
Do MN. 1994. Digital Signal Processing Mini-Project: An
Automatic Speaker Recognition System. Audio Visual
Communications Laboratory, Swiss Federal Institute of
Technology, Laussanne,Switzerland.
http://lcavwww.epfl.ch/~minhdo/asr_project.pdf [12 Juli
2006].

Fausett L. 1994. Fundamentals of Neural Networks


Architectures, Algorithm, and Applications. New Jersey:
Prentice Hall.
Ganchev, TD. 2005. Speaker Recognition [Tesis].
Greece: Wire Communication Laboratory, Department of
Computer and Electrical Engineering, University of
Patras.
http://wcl.ee.upatras.gr/ai/papers/Ganchev_PhDThesis.P
DF
[16 November 2006].

Jang JSR, Sun CT, Mizutani Eiji. 1997. Neuro-Fuzzy and


Soft Computing. London: Prentice-Hall International,
Inc.
Jurafsky D, Martin JH. 2000. Speech and Language
Processing An Introduction to Natural Language
Processing, Computational Linguistic, and Speech
Recognition. New Jersey: Prentice Hall.

Mandasari Y. 2005. Pengembangan Model Markov


Tersembunyi untuk Pengenalan kata Berbahasa
Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer
Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor.
Purnamasari W. 2006. Pengembangan Model Markov
Tersembunyi Untuk Identifikasi Pembicara. [Skripsi].
Bogor: Departemen Ilmu Komputer Fakultas Matematika
dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.

Sarimollaoglu et al. 2004. A Text-independent Speaker


Identification System Using Probabilistic Neural Network.
http://bayrak.ualr.edu/symsel/mustafa/docs/CCCT_2004.
pdf
[19 September 2006].
Terima Kasih

Anda mungkin juga menyukai