Anda di halaman 1dari 9

SPEECH RECOGNITION

Speech recognition merupakan teknologi mesin berbasis


kecerdasan buatan yang mampu mengidentifikasi kalimat lisan
dan mengubahnya ke dalam bentuk teks. Teknologi ini juga
dikenal dengan Speech-To-Text (STT) dan automatic speech
recognition (ASR).
CARA KERJA SPEECH
RECOGNITION

biasanya melibatkan langkah-langkah berikut :

G I N YA R D I N T E R N AT I O N A L C O .
FA C I L I TATO R : M A R C E L I N E A N D E R S O N M AY 0 2 , 2 0 2 5
1. PEREKAMAN SUARA:
Langkah pertama adalah merekam suara pengguna.
Pengguna mengucapkan kata-kata atau kalimat yang
ingin dikenali oleh sistem speech recognition.
Perekaman suara bisa dilakukan melalui mikrofon atau
sumber suara lainnya.

G I N YA R D I N T E R N AT I O N A L C O .
FA C I L I TATO R : M A R C E L I N E A N D E R S O N M AY 0 2 , 2 0 2 5
2.PEMROSESAN
DIGITAL:
Pemrosesan Digital: Suara yang direkam kemudian
dikonversi menjadi sinyal digital. Proses ini melibatkan
penggunaan teknik seperti Analog-to-Digital Conversion
(ADC) untuk mengubah suara analog menjadi format
digital yang dapat diproses oleh komputer.

M AY 0 2 , 2 0 2 5
3. PEMROSESAN AWAL:
Sinyal suara digital yang diperoleh kemudian melalui tahap pemrosesan awal. Tahap ini
termasuk penghilangan kebisingan, normalisasi volume, dan penghapusan frekuensi yang tidak
relevan. Tujuan dari tahap ini adalah untuk memperbaiki kualitas suara dan meningkatkan
kemampuan sistem untuk mengenali suara dengan akurat.
4. EKSTRAKSI
FITUR:
Setelah pemrosesan awal, karakteristik unik dari
suara diekstrak untuk digunakan dalam
pengenalan. Fitur-fitur seperti frekuensi, energi,
atau durasi suara diproses untuk mewakili sifat
akustik suara yang berbeda.

G I N YA R D I N T E R N AT I O N A L C O .
FA C I L I TATO R : M A R C E L I N E A N D E R S O N M AY 0 2 , 2 0 2 5
5. PEMODELAN 6. PENGENALAN
SUARA: SUARA:
Pada tahap ini, model suara dibuat menggunakan Setelah model suara dibuat, sistem speech recognition
teknik seperti Hidden Markov Models (HMM) atau membandingkan fitur yang diekstraksi dari suara yang
Deep Neural Networks (DNN). Model ini berisi direkam dengan pola yang ada di dalam model suara.
informasi tentang karakteristik suara yang diambil dari Kecocokan antara fitur suara dan model yang ada
sejumlah besar contoh suara pelatihan. digunakan untuk mengidentifikasi kata-kata atau
kalimat yang diucapkan.

M AY 0 2 , 2 0 2 5
7. OUTPUT TEKS:

Hasil pengenalan suara kemudian dikonversi menjadi teks tertulis. Teks inilah yang
kemudian dapat digunakan dalam berbagai aplikasi, seperti pengenalan perintah suara
dalam asisten virtual, input teks dalam pesan teks, atau transkripsi wawancara dalam
bidang pengenalan suara medis.

Anda mungkin juga menyukai