PNN FCM

PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK BERTINGKAT
MENGGUNAKAN FUZZY C-MEANS (FCM)

UNTUK IDENTIFIKASI PEMBICARA
Oleh :
Vicky Zilvan
G64103043
Pembimbing :
Ir. Agus Buono, M.Si., M.Kom.
Dr. Ir. Sri Nurdiati, M.Sc.
Materi Presentasi
Pendahuluan
Tinjauan Pustaka
Metode Penelitian
Hasil dan Pembahasan
Kesimpulan dan Saran
Daftar Pustaka
Demo
PENDAHULUAN
Latar Belakang
Pengenalan pola masih menjadi kajian yang menarik

bagi para peneliti.
Tidak hanya untuk keperluan penelitian maupun

peningkatan produktifitas kerja saja, tetapi lebih
mengarah pada kebutuhan di era high technology
Speech processing memiliki beberapa cabang kajian,

salah satunya adalah identifikasi pembicara.
Latar Belakang (lanjutan)
Beberapa motode untuk melakukan identifikasi, antara

lain:
Dynamic Time Warping (DTW),
Model Markov Tersembunyi,
Vector Quantization (VQ),
Bayesian classifiers,
algoritma K-Means clustering
jaringan syaraf tiruan,
logika Fuzzy,
gabungan dari beberapa metode.
Latar Belakang (lanjutan)
Metode yang akan pakai untuk melakukan identifikasi

pembicara :
Fuzzy C-Means (FCM)
Probabilistic Neural Network (PNN)

Tujuan
Mengembangkan model Probabilistic Neural Network

bertingkat menggunakan Fuzzy C-Means (FCM) untuk
identifikasi pembicara.
Membandingan tingkat akurasi model antara suara yang
diberi tambahan noise dan yang tidak diberi tambahan
noise.
Membandingan tingkat akurasi model yang
menggunakan threshold dan tingkat akurasi model yang
tidak menggunakan threshold.
Manfaat
Memberikan informasi mengenai tingkat akurasi

Probabilistic Neural Network Bertingkat Menggunakan
Fuzzy C-Means (FCM) untuk Identifikasi Pembicara.
Model yang dihasilkan diharapkan dapat digunakan untuk

mengembangkan sistem identifikasi yang bersifat tertutup
dan bergantung pada teks.
Ruang Lingkup
Pembahasan difokuskan pada tahap pemodelan

pembicara dengan Probabilistic Neural Network
Bertingkat Menggunakan Fuzzy C-Means (FCM), tidak
pada pemrosesan sinyal analog sebagai praproses
sistem.
Pada penelitian ini, parameter FCM yang akan

dicobakan adalah :
Banyaknya cluster = 3,
Error terkecil yang diharapkan = 110,
Pengkat pembobot = 2,
Maksimum iterasi = 100.
Ruang Lingkup (lanjutan)
Ekstraksi ciri sinyal suara menggunakan Mel-Frequency

Cepstrum Coefficients (MFCC).
Identifikasi bersifat tertutup dan bergantung pada teks .

TINJAUAN PUSTAKA
Jenis Pengenalan Pembicara
Berdasarkan jenis aplikasinya (Campbell 1997) :

1. Identifikasi pembicara
Proses mengenali seseorang berdasarkan suaranya.
2. Verifikasi pembicara
Proses memeriksa identitas yang diklaimkan
seseorang berdasarkan suaranya.
Jenis Pengenalan Pembicara (lanjutan)
Identifikasi pembicara dibagi dua, yaitu :

1. Identifikasi tertutup
suara masukan yang akan dikenali merupakan bagian
dari sekumpulan suara pembicara yang telah
terdaftar atau diketahui.
2. Identifikasi terbuka
suara masukan boleh tidak ada pada kumpulan suara
pembicara yang telah terdaftar.
Jenis Pengenalan Pembicara (lanjutan)
Berdasarkan aspek kebahasaan (Ganchev 2005) :

1. Pengenalan pembicara bergantung teks
pembicara harus mengucapkan kata atau kalimat
yang sama baik pada pelatihan maupun pengujian.
2. Pengenalan pembicara bebas teks
pembicara tidak harus mengucapkan kata atau
kalimat yang sama baik pada pelatihan maupun
pengujian.
Dijitalisasi Gelombang Suara
Proses mengubah masukan suara dari gelombang analog

menjadi representasi data dijital disebut dijitasi suara.
Proses dijitasi suara terdiri dari dua tahap

Sampling, yaitu proses pengambilan nilai setiap
jangka waktu tertentu.
S = Fs * T
Kuantisasi, yaitu menyimpan nilai amplitudo ini ke
dalam representasi nilai 8 bit atau 16 bit.
Signal to Noise Ratio (SNR)
Konsep yang mendefinisikan perbandingan antara

kekuatan sinyal dengan kekuatan noise yang merusak
sinyal.
Secara umum, SNR didefinisikan sebagai:
Pada desibel, SNR didefinisikan sebagai :

Mel Frequency Cepstrum Coefficients (MFCC)
Digunakan sebagai praproses sekaligus untuk

menganalisis fitur suara.
Didasarkan pada variasi yang telah diketahui dari

jangkauan kritis telinga manusia dengan frekuensi.
Tujuan utama MFCC adalah untuk meniru perilaku

telinga manusia.
Mel Frequency Cepstrum Coefficients (MFCC)
Diagram blok proses Mel Frequency Cepstrum

Coefficients
Fuzzy C-Means (FCM)
Menurut Jang et al. (1997), Fuzzy C-Means merupakan

algoritma clustering data di mana setiap titik data masuk
dalam sebuah cluster dengan ditandai oleh derajat
keanggotaan.
Teknik ini pertamakali diperkenalkan oleh Jim Bezdek

pada tahun 1981.
Fuzzy C-Means (FCM) (Lanjutan)
.
Berikut tahapan clustering menggunakan algoritma FCM:
1.Inisialisasi keanggotaan matriks U yang berisi derajat

keanggotan terhadap cluster dengan nilai antara 0 dan 1,
sehingga
c
u
i 1
ij 1, j 1,..., n
2. Penghitungan c sebagai pusat cluster, ci , i = 1, , c

dengan menggunakan
n
((uij ) m x j )
j 1
ci
n
(uij ) m
j 1
.
3. Penghitungan fungsi objektif (Ji):

c c n
J (U , c1 ,..., cc ) J i uijm d ij2 ,
i 1 i 1 j
di mana:
uij adalah elemen matriks U yang bernilai antara 0 dan 1,
dij = ||ci - xj|| adalah jarak antara pusat cluster ke-i dan titik data ke-j,
ci adalah pusat cluster ke-i,
m [1,~ ] adalah parameter fuzzifikasi.
Kemudian kondisi berhenti dicek :

Jika (|Jt Jt-1| < nilai toleransi terkecil yang diharapkan)
atau (t > maksimal iterasi) maka proses berhenti.
Jika tidak : t = t + 1, mengulangi langkah 3.
.
4. Penghitungan matriks U baru menggunakan

formula berikut:
1
u ij
2
.

d ij m 1

d kj
k 1
Probabilistic Neural Network
Diperkenalkan oleh Donald F. Specht tahun 1990 dalam

tulisannya berjudul Probabilistic Neural Network yang
merupakan Penyempurnaan ide-ide sebelumnya yang
telah dilakukannya sejak 1966.
Probabilistic Neural Network dirancang menggunakan ide

dari teori probabilitas klasik yaitu pengklasifikasi Bayesian
dan estimator pengklasifikasi Parzen untuk Probability
Density Function.
Probabilistic Neural Network (lanjutan)
Input layer
vektor masukan.
Pattern layer
d x j xij
f ( x) k
j 1 hj , dengan

k z e 0.5*z .
2
Summation layer
n d
p ( x)
1
k x j xij
2 d / 2 h1h2 ...hd n i 1 j 1 h j

Decision layer
max(px)
METODE PENELITIAN
Blok Diagram Identifikasi Pembicara
Data Suara
Data yang digunakan adalah gelombang suara yang telah

direkam dan didijitasi dari 10 pembicara, 5 laki-laki dan 5
perempuan dengan rentang usia 20-25 tahun.
Masing-masing pembicara diambil suaranya dalam jangka

waktu yang sama dan tanpa pengarahan (unguided).
Untuk melihat keakuratan model yang dibagun terhadap

identifikasi tertutup, digunakan 30 data suara dari 6
pembicara lainnya.
Data Suara (lanjutan)
Kombinasi pembagian data pengujian dan data pelatihan setiap

pembicara untuk jumlah data yang sama
Data pelatihan Data pengujian Jenis data
20 30
30 20 Data asli
40 10
20 30
30 20 Data dengan SNR 30 dB
40 10
20 30
40 10
Data Suara (lanjutan)
Kombinasi proporsi data pelatihan dengan jumlah data pengujian

yang sama untuk setiap pembicara
Data pelatihan Data pengujian Jenis data
20 20
30 20 Data asli
40 20
20 20
40 20
20 20
40 20
Ekstraksi Ciri Sinyal Suara Dengan MFCC
Pada implementasi MFCC, kecuali tahap frame blocking,

digunakan fungsi dari Auditory Toolbox yang
dikembangkan oleh Slanley pada tahun 1998.
Fungsi ini menggunakan lima parameter, yaitu :

1. Input : masukan suara yang berasal dari setiap
pembicara
2. Sampling rate : banyaknya nilai yang diambil dalam

satu detik. Dalam penelitian ini digunakan sampling
rate sebesar 16000 Hz
(lanjutan)
3. Time frame : waktu yang diinginkan untuk satu frame

(dalam milidetik). Time frame yang digunakan adalah
30 ms.
4. Lap : overlaping yang diinginkan (harus kurang dari

satu). Lap yang digunakan sebesar 0.5.
5. Cepstral coefficient yaitu jumlah cepstrum yang

diinginkan sebagai output. Cepstral coefficient yang
digunakan sebanyak 13.
Probabilistic Neural Network Bertingkat
Menggunakan Fuzzy C-Means (FCM)
Input layer merupakan matriks berukuran 13 66 yang

berasal dari suara pembicara yang akan diidentifikasi
yang telah mengalami proses ekstraksi ciri sinyal suara.
Pada model yang akan dikembangkan ini, data untuk

pelatihan dari masing-masing pembicara di-cluster-kan
menggunakan Fuzzy C-Means (FCM), dimana parameter
FCM yang akan dicobakan adalah:
Banyaknya cluster = 3,
Error terkecil yang diharapkan = 110,
Pangkat pembobot = 2,
Maksimum iterasi = 100.
Menggunakan Fuzzy C-Means (FCM) (lanjutan)
Kemudian, data setiap cluster yang terbentuk akan

digunakan oleh PNN sebagai data setiap kelas.
Setiap keluaran dari pattern layer akan dijumlahkan

dengan keluaran dari pattern layer lainnya yang satu
kelas.
Dari summation diperoleh nilai terbesar untuk suatu

kelas.
Nilai terbesar ini mencerminkan bahwa suara yang

diujikan diidentifikasi sebagai pembicara kelas tersebut.
Menggunakan Fuzzy C-Means (FCM) (lanjutan)
Hasil Identifikasi
Hasil identifikasi merupakan bagian akhir dari identifikasi

pembicara yang berupa identifikasi pemilik suara
berdasarkan input suara yang diujikan. Identifikasi yang
dimaksud adalah apakah suara yang diujikan
diidentifikasi sebagai pembicara 1, 2, 3, 4, 5, 6, 7, 8, 9,
atau 10.
Penggunaan Threshold
Threshold merupakan suatu nilai yang berguna untuk

membatasi apakah suatu data uji dapat diidentifikasi
sebagai pembicara yang memiliki suatu kelas atau tidak,
apabila data uji tersebut mempunyai nilai terbesar di
kelas tersebut dibandingkan dengan kelas lainnya.
Lingkungan Pengembangan
Perangkat keras
Prosesor AMD Duron 850 MHz, memori DDR 256 MB,
harddisk 40 GB, keyboard dan mouse, monitor,
backphone with mic.
Perangkat Lunak
Sistem operasi Windows XP Profesional dan Matlab 6.5
HASIL DAN PEMBAHASAN
Data Suara
Data diambil menggunakan fungsi wavrecord pada

Matlab, dan disimpan menjadi file berekstensi WAV
dengan fungsi wavwrite.
Setiap pembicara mengucapkan kata komputer
sebanyak 60 kali sehingga didapat 600 data suara.
Setiap suara diambil tanpa pengarahan (unguided)
dengan sampling rate 16000 Hz
Untuk mendapatkan data yang memiliki noise, data yang
telah dikumpulkan sebelumnya disalin dua kali kemudian
ditambahkan noise dengan SNR 30 dB dan 20 dB.
Data non-model didapatkan dengan cara yang sama.
Fungsi dari Auditory Toolbox untuk ekstraksi ciri sinyal

suara dengan MFCC terdiri atas lima parameter, yaitu
input, sampling rate, time frame, lap, dan cepstral
coefficient.
Pemilihan nilai time frame, lap, dan cepstral coefficient

berturut-turut sebesar 30 ms, 0.5, dan 13 didasarkan
pada penelitian sebelumnya yang dilakukan
Mandasari(2005) dan Purnamasari(2006).
Pada tahap Frame Blocking, sinyal suara dibagi menjadi

66 frame dimana tiap frame terdiri atas 13 sample.
Proses selanjutnya adalah Windowing, yaitu

meminimalkan diskontinuitas sinyal pada awal dan akhir
tiap frame. Window yang digunakan adalah hamming
window dengan persamaan
w(n)=0.54-0.46cos(2n/12), 0 n 12.
Dilakukan konversi tiap frame dengan 13 sample dari

time domain menjadi frequency domain.
Dilakukan perhitungan mel-frequency untuk frekuensi f

dalam Hz:
Mel(f) = 2595*log10(1+f/700)
Konversi log mel spectrum ke domain waktu. Hasilnya

disebut mel frequency cepstrum coefficients.
Hasil dari analisis fitur suara MFCC ini adalah 13

koefisien mel cepstrum untuk masing-masing frame.
Dengan demikian setiap data suara menjadi matriks
berukuran 13 x 66.
Pemilihan Nilai Smoothing Parameter
Data asli
Data asli
20 data pelatihan
dipilih nilai a sebesar 8.3
30 data pelatihan
dipilih nilai a yang berada pada selang [7.8,8.1] atau
atau pada selang [10.5,11]
40 data pelatihan
dipilih nilai a yang berada pada selang [7.5,13.5]
Data dengan SNR 30 dB


20 data pelatihan
30 data pelatihan
40 data pelatihan
dipilih nilai a a yang berada pada selang [2.1,5.2]


20 data pelatihan
dipilih nilai a yang berada pada selang selang
[12.7,12.9] atau pada selang [13.5,14.3]
30 data pelatihan
dipilih nilai a sebesar 8.4
40 data pelatihan
dipilih nilai a yang berada pada selang selang
[6.1,6.9] atau pada selang [9.9,10.5].
Hasil Identifikasi dengan Menggunakan Nilai
SmootihngParameter yang Telah Dipilih
Tingkat akurasi setiap model dengan jumlah data yang sama

Tingkat
Banyak Banyak Jenis
Akurasi
Data Pelatihan Data Pengujian Data
(%)
20 30 70
30 20 82 Data asli
40 10 96
20 30 76.67
Data dengan SNR 30
30 20 80.5 dB
40 10 89
20 30 58.33
Data dengan SNR 20
30 20 60 dB
40 10 59
Tingkat akurasi setiap model dengan jumlah data
yang sama
Hasil Identifikasi dengan Menggunakan Nilai
SmootihngParameter yang Telah Dipilih
Tingkat akurasi setiap model dengan jumlah data yang sama

Tingkat
Banyak Banyak Jenis
Akurasi
Data Pelatihan Data Pengujian Data
(%)
20 20 67
30 20 82 Data asli
40 20 96
20 20 73
Data dengan SNR
30 20 77
30 dB
40 20 85.5
20 20 48.5
Data dengan SNR
30 20 49.5
20 dB
40 20 60
Tingkat akurasi setiap model dengan jumlah data
yang sama
Hasil Identifikasi Menggunakan Threshold
Hasil identifikasi 40 data pelatihan untuk 10 data pengujian pada data asli
dengan menggunakan threshold
Perbandingan tingkat akurasi model dengan
menggunakan threshold dan dengan model yang
tidak menggunakan threshold
Hasil Identifikasi Menggunakan Threshold
(lanjutan)
Hasil identifikasi 40 data pelatihan untuk 30 data pengujian non-

model pada data asli dengan menggunakan threshold
KESIMPULAN DAN SARAN
Kesimpulan
Diperoleh suatu model Probabilistic Neural Network

Bertingkat Menggunakan Fuzzy C-Means (FCM) untuk
identifikasi pembicara.
Hasil identifikasi dengan menggunakan data asli, data

dengan SNR sebesar 30 dB, atau data dengan SNR
sebesar 20 dB berbeda.
Hasil identifikasi tanpa threshold dan dengan threshold

berbeda dimana dengan threshold akan memberikan
hasil yang lebih akurat.
Saran
Pada penelitian ini, model yang dikembangkan belum

cukup mampu menangani identifikasi pembicara
dengan suara yang ber-noise cukup tinggi. Oleh karena
itu, untuk penelitian selanjutnya disarankan untuk
mencoba suatu metode ekstraksi ciri suara yang telah
terbukti mampu memisahkan antara suara asli dari
seorang pembicara dan noise yang merusak suara
tersebut.
Daftar Pustaka
Campbell,Jr JP. 1997. Speaker Recognition: A Tutorial.

Proceeding IEEE, Vol 85 No.9, hal 1437-1461,
September 1997.
Cox, E. 2005. Fuzzy Modelling and Genetic Algorithms

for Data Mining and Exploration. USA: Academic Press.
Do MN. 1994. Digital Signal Processing Mini-Project: An
Automatic Speaker Recognition System. Audio Visual
Communications Laboratory, Swiss Federal Institute of
Technology, Laussanne,Switzerland.
http://lcavwww.epfl.ch/~minhdo/asr_project.pdf [12 Juli
2006].
Fausett L. 1994. Fundamentals of Neural Networks

Architectures, Algorithm, and Applications. New Jersey:
Prentice Hall.
Ganchev, TD. 2005. Speaker Recognition [Tesis].
Greece: Wire Communication Laboratory, Department of
Computer and Electrical Engineering, University of
Patras.
http://wcl.ee.upatras.gr/ai/papers/Ganchev_PhDThesis.P
DF
[16 November 2006].
Jang JSR, Sun CT, Mizutani Eiji. 1997. Neuro-Fuzzy and

Soft Computing. London: Prentice-Hall International,
Inc.
Jurafsky D, Martin JH. 2000. Speech and Language
Processing An Introduction to Natural Language
Processing, Computational Linguistic, and Speech
Recognition. New Jersey: Prentice Hall.
Mandasari Y. 2005. Pengembangan Model Markov

Tersembunyi untuk Pengenalan kata Berbahasa
Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer
Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Pertanian Bogor.
Purnamasari W. 2006. Pengembangan Model Markov
Tersembunyi Untuk Identifikasi Pembicara. [Skripsi].
Bogor: Departemen Ilmu Komputer Fakultas Matematika
dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.
Sarimollaoglu et al. 2004. A Text-independent Speaker

Identification System Using Probabilistic Neural Network.
http://bayrak.ualr.edu/symsel/mustafa/docs/CCCT_2004.
pdf
[19 September 2006].
Terima Kasih

PNN FCM

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

PNN FCM

Diunggah oleh

Hak Cipta:

Format Tersedia

PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK BERTINGKAT

MENGGUNAKAN FUZZY C-MEANS (FCM)

Pengenalan pola masih menjadi kajian yang menarik

Tidak hanya untuk keperluan penelitian maupun

Speech processing memiliki beberapa cabang kajian,

Beberapa motode untuk melakukan identifikasi, antara

Metode yang akan pakai untuk melakukan identifikasi

Fuzzy C-Means (FCM)

Probabilistic Neural Network (PNN)

Mengembangkan model Probabilistic Neural Network

Memberikan informasi mengenai tingkat akurasi

Model yang dihasilkan diharapkan dapat digunakan untuk

Pembahasan difokuskan pada tahap pemodelan

Pada penelitian ini, parameter FCM yang akan

Ekstraksi ciri sinyal suara menggunakan Mel-Frequency

Identifikasi bersifat tertutup dan bergantung pada teks .

Berdasarkan jenis aplikasinya (Campbell 1997) :

Identifikasi pembicara dibagi dua, yaitu :

Berdasarkan aspek kebahasaan (Ganchev 2005) :

Proses mengubah masukan suara dari gelombang analog

Proses dijitasi suara terdiri dari dua tahap

Konsep yang mendefinisikan perbandingan antara

Pada desibel, SNR didefinisikan sebagai :

Digunakan sebagai praproses sekaligus untuk

Didasarkan pada variasi yang telah diketahui dari

Tujuan utama MFCC adalah untuk meniru perilaku

Diagram blok proses Mel Frequency Cepstrum

Menurut Jang et al. (1997), Fuzzy C-Means merupakan

Teknik ini pertamakali diperkenalkan oleh Jim Bezdek

Berikut tahapan clustering menggunakan algoritma FCM:

1.Inisialisasi keanggotaan matriks U yang berisi derajat

2. Penghitungan c sebagai pusat cluster, ci , i = 1, , c

3. Penghitungan fungsi objektif (Ji):

Kemudian kondisi berhenti dicek :

4. Penghitungan matriks U baru menggunakan

Diperkenalkan oleh Donald F. Specht tahun 1990 dalam

Probabilistic Neural Network dirancang menggunakan ide

Data yang digunakan adalah gelombang suara yang telah

Masing-masing pembicara diambil suaranya dalam jangka

Untuk melihat keakuratan model yang dibagun terhadap

Kombinasi pembagian data pengujian dan data pelatihan setiap

Data pelatihan Data pengujian Jenis data

Kombinasi proporsi data pelatihan dengan jumlah data pengujian

Data pelatihan Data pengujian Jenis data

Pada implementasi MFCC, kecuali tahap frame blocking,

Fungsi ini menggunakan lima parameter, yaitu :

2. Sampling rate : banyaknya nilai yang diambil dalam

3. Time frame : waktu yang diinginkan untuk satu frame

4. Lap : overlaping yang diinginkan (harus kurang dari

5. Cepstral coefficient yaitu jumlah cepstrum yang

Input layer merupakan matriks berukuran 13 66 yang

Pada model yang akan dikembangkan ini, data untuk

Kemudian, data setiap cluster yang terbentuk akan

Setiap keluaran dari pattern layer akan dijumlahkan

Dari summation diperoleh nilai terbesar untuk suatu

Nilai terbesar ini mencerminkan bahwa suara yang

Hasil identifikasi merupakan bagian akhir dari identifikasi

Threshold merupakan suatu nilai yang berguna untuk

Data diambil menggunakan fungsi wavrecord pada

Fungsi dari Auditory Toolbox untuk ekstraksi ciri sinyal

Pemilihan nilai time frame, lap, dan cepstral coefficient

Pada tahap Frame Blocking, sinyal suara dibagi menjadi

Proses selanjutnya adalah Windowing, yaitu