Anda di halaman 1dari 2

Wa'alaikumsalam,

Hmm, masalah teknis... saya coba ingat-ingat lagi.


Cerita tentang sistem/aplikasi yang pernah saya bangun, sbb: Pembicara 6 orang.
Setiap pembicara direkam sebanyak 15 kali, 10 diantaranya (setiap pembicara) dij
adikan sebagai data training dan 5 sisanya dijadikan sebagai data testing. Seben
arnya, perekaman setiap orang yang direkam suaranya bisa lebih dari 15 kali berg
antung apakah sewaktu rekam suara, pengucapan yang dilakukan seperti yang dihara
pkan, misalnya sewaktu rekam tidak terjadi noise (bunyi pintu atau suara orang b
atuk atau ada suara berisik), pengucapan dalam rentang waktu 2 detik, artinya pe
ngucapan tidak dilakukan sebelum sesi rekam (ditandai dengan klik tombol rekam)
atau terlambat mengucapan setelah sesi berakhir...dengan kata lain, gelombang su
ara tidak berada dalam rentang waktu 2 detik itu. Semestinya, gelombang suara be
rada dalam rentang waktu 2 detik.
Supaya rekaman tidak berulang-ulang... kondisikan ruang rekam bebas noise dan pe
ngucapannya pada sesi yang diharapkan. Kepada pengucap diarahkan teknis-teknis s
ebagaimana seharusnya. Kenapa harus "bebas" noise, karena sistem akan kurang "ro
bust" apabila ada noise. Dalam berbagai kajian, alangkah bagusnya bila ada prose
s untuk mereduksi noise, tetapi metode reduksi noise yang tersedia terhitung rum
it terutama apabila menggunakan "single" microphone..., metode yang lebih gampan
g apabila menggunakan multiple microphone, tapi hanya mudah bagi mereka yang bis
a merancang interface microphone khusus atau membelinya apabila ada... jika tida
k demikian, lupakan saja karena rumitnya metodenya.
Untuk mendapatkan data suara, buatlah aplikasi khusus perekaman. Setiap huruf Hi
jaiyah ditampilkan di layar aplikasi. Setiap huruf yang akan diucapkan diawali d
engan pengeklikan tombol rekam dan setelah setiap perekaman, gelombang suara dar
i perekaman ucapan sebelumnya ditampilkan agar langsung dapat diketahui apakah d
ata rekaman itu benar (sah)... saya kurang tahu pasti untuk aplkasi Anda, berapa
kali perekaman setiap orang (ingat setiap orang harus mengucapkan 30 (?) huruf
Hijaiyah, sebaiknya terpisah-pisah... 1 huruf 1 kali ucap, bukan langsung bersam
bung)... mungkin bagusnya dipikirkan layaknya berapa kali (?). Misalnya 3 kali s
ehingga setiap orang akan mengucapkan sebanyak 30 huruf x 3 kali ulangan.
Di dalam speaker identification dikenal istilah text-dependent dan text-independ
ent (Coba baca Furui, S., 1997a atau Furui, S., 1997b). Aplikasi yang saya bangu
n tergolong text-dependent yang artinya ucapan direkam berdasarkan text tertentu
yang telah ditetapkan. Sedangkan text-independent, ucapan direkam terhadap text
bebas.
Saran saya, lakukan perekaman untuk masing-masing 30 huruf Hijaiyah, artinya set
iap orang direkam (sah/benar) untuk masing-masing 30 huruf. Selanjutnya, rekamla
h untuk beberapa kategori pengucap, misalnya beberapa anak laki-laki dan perempu
an, beberapa remaja laki-laki dan perempuan, beberapa orang dewasa laki-laki dan
perempuan dan beberapa manula laki-laki dan perempuan. Hal ini bertujuan agar m
enampung sejumlah karakteristik dari gelombang suara yang berbeda-beda dari seju
mlah kelompok tersebut. Salah satunya, dalam literatur disebutkan bahwa formant
(frekuensi) gelombang suara perempuan lebih tinggi daripada laki-laki (buktinya
gelombang suara perempuan lebih singkat/pendek dan aplitudonya lebih besar darip
ada lagi-laki). Terkait ini dapat dibaca buku Fundamentals of Speech Recognition
(Rabiner, L.R. dan Juang B.H., 1993) atau sumber lain... saya sudah lupa persis
nya.
Untuk model HMM nya, ada 30 huruf Hijaiyah berarti ada 30 model HMM yang akan di
bangun. Sedangkan pada aplikasi yang saya bangun, 6 pengucap (pembicara) akan me
nghasilkan 6 model HMM.
Pada tahap testing (dugaan saya), siapapun yang mengucapkan salah satu huruf aka
n dikenali (dipadani) oleh sistem/aplikasi sebagai satu huruf Hijaiyah dan ditam
pilkan di layar aplikasi. Tingkat akurasi (identifikasi) adalah persentasi keber
hasilan aplikasi dalam mengidentifikasi secara benar dari setiap huruf yang diuc

apkan (asumsi bila dilafadzkan berarti durasi baik pada saat perekaman data trai
ning maupun data testing akan lebih lama daripada bila diucapkan biasa/datar).
Demikian penjelasan yang dapat saya berikan semoga bertambah paham.
Wassalam,
Mahyus Ihsan

Anda mungkin juga menyukai