Selamat datang di Scribd!

Easy Does It: Robust Spectro-Temporal Many-Stream ASR Without Fine Tuning Streams

Diunggah oleh

0% menganggap dokumen ini bermanfaat (0 suara)

47 tayangan28 halaman

A large percentage of neurons in the primary auditory cortex (A1) respond differently to upwardversus downward-moving ripples in the spectrogram of the input. Spectro-temporal receptive fields (STRFs) capture spectral and temporal modulations speech recognition and discrimination.

Deskripsi Asli:

Judul Asli

Gabor presentation

Hak Cipta

Format Tersedia

PDF, TXT atau baca online dari Scribd

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Laporkan Dokumen Ini

Hak Cipta:

Attribution Non-Commercial (BY-NC)

Format Tersedia

Unduh sebagai PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

0% menganggap dokumen ini bermanfaat (0 suara)

47 tayangan28 halaman

Easy Does It: Robust Spectro-Temporal Many-Stream ASR Without Fine Tuning Streams

Diunggah oleh

Jom Kantapon

Hak Cipta:

Attribution Non-Commercial (BY-NC)

Format Tersedia

Unduh sebagai PDF, TXT atau baca online dari Scribd

Tandai sebagai konten tidak pantas

Lompat ke Halaman

Anda di halaman 1dari 28

Cari di dalam dokumen

Easy Does It: Robust Spectro-Temporal ManyStream ASR without Fine Tuning Streams

Ravuri, Morgan, UC Berkeley

Presented by JJ

Motivation
Physiological experiments in different mammal species : a large percentage of neurons in the primary auditory cortex (A1) respond differently to upwardversus downward-moving ripples in the spectrogram of the input (Depireux et al., 2001).

Spectro-temporal receptive fields (STRFs) : individual neurons are sensitive to specific spectrotemporal modulation frequencies in the incoming sound signal

Introduction
Cortically-inspired TF features, which capture spectral and temporal modulations speech recognition and discrimination. Basically, spectro-temporal features are derived from filtering spectrograms with particular filters. In this case, the GABOR filter is applied to the auditory spectrogram.

Example

Gabor Filters

Example
Gaussian envelope

Gabor Filters

complex sinusoid s(n, k)

1D Gabor

Gaussian envelope

complex sinusoid s(n, k)

Gaussian envelope

2D Gabor
complex sinusoid s(n, k)

Example
Gaussian envelope

Gabor Filters

complex sinusoid s(n, k)

Their Gabor Filters

Dummy

parameters

indices

Tons of Combinations!

System
Stream

Stream

Merge MLP outputs

PCA

MFCC

Output

System
Stream

Stream

Merge MLP outputs

PCA

MFCC

Output

System
Stream

Stream

MLP (Multilayer Perceptron) The structure of the MLP depends on the type of feature and corpus.
Number of input units Spectral 567 9 Cepstral 351 9

56D Merge MLP outputs 56D

frames of context

hidden units

160 for Aurora2 500 for Number95 56

PCA
32D 45D MFCC Output
output units

System
Stream

Stream

56D Merge MLP outputs 56D

The outputs of the MLP stream provide an estimate of the posterior probability distribution for phones. Then, combine each of these phone probability estimates across streams by inverse entropy.

PCA
32D 71D MFCC Output

System
Stream

Stream

then apply the KL Transform to the log probabilities of the merged MLPs

56D Merge MLP outputs 56D

PCA
32D 71D MFCC Output Principal Components Analysis

System
Stream

Stream

56D Merge MLP outputs 56D

PCA
32D 71D MFCC Output

then apply the KL Transform to the log probabilities of the merged MLPs reduced to 32D orthogonalized the features are mean and variance normalized by utterance finally appended to the MFCC feature

System
Features HMM
Stream

Stream

56D Merge MLP outputs 56D

PCA
32D 71D MFCC 39D Output 32D

Experiments
Database Aurora 2 (0 20 dB) Numbers95 consists of various numeric portions extracted from telephone dialogues . vocabulary size of 32 words training set contains 3590 utterances of clean data, totaling roughly 3 hrs 2 test sets contains 1227 utterances. The first contains only clean data The second contains the same utterances with noise added at five SNR (20dB, 15dB, 10dB, 5dB, and 0dB). Additive noise Baseline 39 MFCC 4-stream system 28-stream system

Uni-modulation system 150 stream spectral only and spectral/cepstral

Metric: Word Error Rate (WER)

Results
Aurora 2

Numbers 95

Results
Aurora 2

Numbers 95

Results
Aurora 2

Numbers 95

Results
Aurora 2

Discussion 1

Numbers 95

Results
Aurora 2

Discussion 2

Numbers 95

Results
Aurora 2

Discussion 3

Numbers 95

Results
Aurora 2

Numbers 95

Future Work
Stream

Stream

56D Merge MLP outputs 56D

Not just additive noise Another TF feature might not work Log-mel filterbank? Or power like PNCC? How to combine MLP? Inverse Entropy?

PCA
32D 71D MFCC 39D Output 32D

Anda mungkin juga menyukai

Audio Source Separation and Speech Enhancement
Dari Everand
Audio Source Separation and Speech Enhancement
Emmanuel Vincent
Belum ada peringkat
CELP
Dokumen23 halaman
CELP
ANeek181
Belum ada peringkat
Software Radio: Sampling Rate Selection, Design and Synchronization
Dari Everand
Software Radio: Sampling Rate Selection, Design and Synchronization
Elettra Venosa
Belum ada peringkat
ELEC301x Review Lecture Notes
Dokumen12 halaman
ELEC301x Review Lecture Notes
erdoganaaa
Belum ada peringkat
Some Case Studies on Signal, Audio and Image Processing Using Matlab
Dari Everand
Some Case Studies on Signal, Audio and Image Processing Using Matlab
Dr. Hedaya Mahmood Alasooly
Belum ada peringkat
Speech Recognition: Harshavardhana T G
Dokumen7 halaman
Speech Recognition: Harshavardhana T G
Envi Sustainers
Belum ada peringkat
Robust Pitch Detection Using DCT Based Spectral Autocorrelation
Dokumen20 halaman
Robust Pitch Detection Using DCT Based Spectral Autocorrelation
sudhakar rai
Belum ada peringkat
Speech Coders For Wireless Communication
Dokumen53 halaman
Speech Coders For Wireless Communication
Vikas Ps
Belum ada peringkat
Fundamentals of Digital Signal Processing: Dr. D. K. Mohanta
Dokumen48 halaman
Fundamentals of Digital Signal Processing: Dr. D. K. Mohanta
Kalamchety Ravikumar Srinivasa
100% (1)
DTSP
Dokumen4 halaman
DTSP
Babloo Pandey
Belum ada peringkat
Scs Mit Feb18
Dokumen38 halaman
Scs Mit Feb18
pavan2446
Belum ada peringkat
Master's Thesis Defense: Comparison of Noncoherent Detectors For SOQPSK and GMSK in Phase Noise Channels
Dokumen55 halaman
Master's Thesis Defense: Comparison of Noncoherent Detectors For SOQPSK and GMSK in Phase Noise Channels
Haider Asadi
Belum ada peringkat
Lecture - 01 - Introduction
Dokumen33 halaman
Lecture - 01 - Introduction
Ali Hassan
Belum ada peringkat
Sistem Telekomunikasi
Dokumen30 halaman
Sistem Telekomunikasi
Cindy Putry Maharani
Belum ada peringkat
EEE3218 New
Dokumen116 halaman
EEE3218 New
Eclipse GAMING
Belum ada peringkat
DEMO PPT
Dokumen35 halaman
DEMO PPT
shuklchitrank
Belum ada peringkat
Echo Cancellation Using Adaptive Filtering: by Thanis Tridhavee and Steve Vuco
Dokumen25 halaman
Echo Cancellation Using Adaptive Filtering: by Thanis Tridhavee and Steve Vuco
Èmøñ AlesandЯo Khan
Belum ada peringkat
Elec9123 DSP Design
Dokumen7 halaman
Elec9123 DSP Design
Sydney Finest
Belum ada peringkat
A Comparison - Of.acoustic - Absortion.coefficient - Measuring.in - Situ.method (Andrew.R.barnard)
Dokumen8 halaman
A Comparison - Of.acoustic - Absortion.coefficient - Measuring.in - Situ.method (Andrew.R.barnard)
Raphael Lemos
Belum ada peringkat
Demon Analysis PDF
Dokumen21 halaman
Demon Analysis PDF
Bùi Trường Giang
100% (1)
Lecture 7 - Automatic Speech Recognition
Dokumen58 halaman
Lecture 7 - Automatic Speech Recognition
Rhona Hazel
Belum ada peringkat
Digital Signal Processing & Applications: Subject Code - ECN-312
Dokumen24 halaman
Digital Signal Processing & Applications: Subject Code - ECN-312
surendra parla
Belum ada peringkat
Bae LPC10
Dokumen18 halaman
Bae LPC10
Juanchu Soto
Belum ada peringkat
Eee2005 Digital-Signal-Processing Eth 2.0!0!40 Eee 2005 Digital Signal Processing
Dokumen3 halaman
Eee2005 Digital-Signal-Processing Eth 2.0!0!40 Eee 2005 Digital Signal Processing
Anhilesh
Belum ada peringkat
We Are Intechopen, The World'S Leading Publisher of Open Access Books Built by Scientists, For Scientists
Dokumen19 halaman
We Are Intechopen, The World'S Leading Publisher of Open Access Books Built by Scientists, For Scientists
Curso Comando 092
Belum ada peringkat
306 - 06599672-Icee 2013
Dokumen6 halaman
306 - 06599672-Icee 2013
Ali Dehghan Firoozabadi
Belum ada peringkat
Speaker Recognition System Based On VQ in MATLAB Environment
Dokumen8 halaman
Speaker Recognition System Based On VQ in MATLAB Environment
manishscry
Belum ada peringkat
Bae LPC10
Dokumen18 halaman
Bae LPC10
Adnan Shehzad
Belum ada peringkat
IOSRJEN (WWW - Iosrjen.org) IOSR Journal of Engineering
Dokumen5 halaman
IOSRJEN (WWW - Iosrjen.org) IOSR Journal of Engineering
IOSRJEN : hard copy, certificates, Call for Papers 2013, publishing of journal
Belum ada peringkat
Linear & Non-Linear Filtering, Fast Fourier Transformation Theory, State Estimation, Pattern Recognition, Identification Theory
Dokumen34 halaman
Linear & Non-Linear Filtering, Fast Fourier Transformation Theory, State Estimation, Pattern Recognition, Identification Theory
A. Andaya Lestari
Belum ada peringkat
Introduction To Telephony: Eric Fleischman
Dokumen22 halaman
Introduction To Telephony: Eric Fleischman
Tarek Al Ashhab
Belum ada peringkat
Temporal Patterns (Traps) in Asr of Noisy Speech
Dokumen4 halaman
Temporal Patterns (Traps) in Asr of Noisy Speech
Susanta Sarangi
Belum ada peringkat
EC2307 Questions
Dokumen7 halaman
EC2307 Questions
Asokan Chinnasamy
Belum ada peringkat
University of Kentucky: EE 422G - Signals and Systems Laboratory
Dokumen5 halaman
University of Kentucky: EE 422G - Signals and Systems Laboratory
amina sayah
Belum ada peringkat
PRINCIPLES OF COMMUNICATION SYSTEMS Syllabus
Dokumen3 halaman
PRINCIPLES OF COMMUNICATION SYSTEMS Syllabus
Ravishankara Maritammanahally
0% (1)
Lab1 Filter Design 2024
Dokumen5 halaman
Lab1 Filter Design 2024
KT Chan
Belum ada peringkat
Development of A Novel Voice Verification System Using Wavelets
Dokumen22 halaman
Development of A Novel Voice Verification System Using Wavelets
Babu Shaik
Belum ada peringkat
Wavelet Analysis of Circadian Oscillations: Tanya Leise Mathematics Amherst College
Dokumen33 halaman
Wavelet Analysis of Circadian Oscillations: Tanya Leise Mathematics Amherst College
Karthik Patamata
Belum ada peringkat
Epoch-Modeling and Simulation of An All
Dokumen40 halaman
Epoch-Modeling and Simulation of An All
raducu2009
Belum ada peringkat
Implementing Loudness Models in Matlab
Dokumen5 halaman
Implementing Loudness Models in Matlab
Pro Acoustic
Belum ada peringkat
Multimedia Systems: Sreeraj K. P. Asst. Professor, Dec, Rset
Dokumen27 halaman
Multimedia Systems: Sreeraj K. P. Asst. Professor, Dec, Rset
sujith_mathew
Belum ada peringkat
ZCR Based Identification of Voiced Unvoiced and Silent Parts of Speech Signal in Presence of Background Noise
Dokumen30 halaman
ZCR Based Identification of Voiced Unvoiced and Silent Parts of Speech Signal in Presence of Background Noise
Sivaranjan Goswami
Belum ada peringkat
Digital Filter Design (FIR) Using Frequency Sampling Method: Abstract
Dokumen10 halaman
Digital Filter Design (FIR) Using Frequency Sampling Method: Abstract
RaviKiran
Belum ada peringkat
Automatic Recognition of Analog and Digital Modulation Signals Using Doe Filter
Dokumen6 halaman
Automatic Recognition of Analog and Digital Modulation Signals Using Doe Filter
Ahmed Refaey
Belum ada peringkat
Application of Microphone Array For Speech Coding in Noisy Environment
Dokumen5 halaman
Application of Microphone Array For Speech Coding in Noisy Environment
scribd1235207
Belum ada peringkat
Review On ELEC333: Spring 2011 Nico & Wilber
Dokumen63 halaman
Review On ELEC333: Spring 2011 Nico & Wilber
Kevin Chen
Belum ada peringkat
Assignment #1
Dokumen1 halaman
Assignment #1
Omar
Belum ada peringkat
1.DSP Introduction
Dokumen16 halaman
1.DSP Introduction
Shubham Bhalerao
Belum ada peringkat
Digital Signal Processing
Dokumen2 halaman
Digital Signal Processing
Anonymous HyOfbJ6
0% (1)
LAB 1: Overview of DSP LAB (EEE 3218) Objectives
Dokumen16 halaman
LAB 1: Overview of DSP LAB (EEE 3218) Objectives
mjrahimi.eee2020
Belum ada peringkat
T - C S E I C: WO Hannel Peech Nhancement AND Mplementation Onsiderations
Dokumen180 halaman
T - C S E I C: WO Hannel Peech Nhancement AND Mplementation Onsiderations
pravin2275767
Belum ada peringkat
Unit 4
Dokumen58 halaman
Unit 4
Sugumar Sar Durai
Belum ada peringkat
System Design RF
Dokumen47 halaman
System Design RF
write2arshad_m
Belum ada peringkat
IJCER (WWW - Ijceronline.com) International Journal of Computational Engineering Research
Dokumen6 halaman
IJCER (WWW - Ijceronline.com) International Journal of Computational Engineering Research
International Journal of computational Engineering research (IJCER)
Belum ada peringkat
CE I - Module 4 - Part 2
Dokumen31 halaman
CE I - Module 4 - Part 2
Renjeesh bkl
Belum ada peringkat
Equalization Ed Us at
Dokumen50 halaman
Equalization Ed Us at
Ignatious Mohan
Belum ada peringkat
Signal Analysis For Radio Monitoring
Dokumen40 halaman
Signal Analysis For Radio Monitoring
Nectaria Gizani
Belum ada peringkat
EE-432 Wireless Communications (3+0) : Instructor Dr. Shahryar Saleem Week 11 Lecture 3
Dokumen26 halaman
EE-432 Wireless Communications (3+0) : Instructor Dr. Shahryar Saleem Week 11 Lecture 3
Akira Mannahel
Belum ada peringkat
Digital Signal Processing Notes
Dokumen159 halaman
Digital Signal Processing Notes
uttam
Belum ada peringkat
Word Recognition Device: C.K. Liang & Oliver Tsai ECE 345 Final Project TA: Inseop Lee Project Number: 22
Dokumen21 halaman
Word Recognition Device: C.K. Liang & Oliver Tsai ECE 345 Final Project TA: Inseop Lee Project Number: 22
Bruno Garcia Tejada
Belum ada peringkat
Learning Activity 3 / Actividad de Aprendizaje 3 Evidence: Cell Phones For Sale / Evidencia: Celulares A La Venta
Dokumen3 halaman
Learning Activity 3 / Actividad de Aprendizaje 3 Evidence: Cell Phones For Sale / Evidencia: Celulares A La Venta
Kaventinas SAS
Belum ada peringkat
Socmed Report
Dokumen45 halaman
Socmed Report
Farhah Syahira
Belum ada peringkat
Ebara Centrifugal Pumps 3 Series
Dokumen82 halaman
Ebara Centrifugal Pumps 3 Series
insalatina
Belum ada peringkat
Coursera KTLNF9NLR4CS PDF
Dokumen1 halaman
Coursera KTLNF9NLR4CS PDF
Victor Jimenez
Belum ada peringkat
Icon Line Trimmer - ICPLT26 Operator Manual
Dokumen10 halaman
Icon Line Trimmer - ICPLT26 Operator Manual
Anirudh Merugu
67% (3)
Arabic Songs and Arabic Music
Dokumen3 halaman
Arabic Songs and Arabic Music
arabicsongsorg
Belum ada peringkat
Carrier Water Cooled Package Unit - tcm177-85755
Dokumen9 halaman
Carrier Water Cooled Package Unit - tcm177-85755
Ravindra Jadhav
Belum ada peringkat
Unix Fundamentals
Dokumen47 halaman
Unix Fundamentals
djay sharma
Belum ada peringkat
Islami Bank Bangladesh Limited Term Pape
Dokumen29 halaman
Islami Bank Bangladesh Limited Term Pape
Mehedi Hasan
Belum ada peringkat
The Evolving Role of The Chief Growth Officer
Dokumen8 halaman
The Evolving Role of The Chief Growth Officer
hello
Belum ada peringkat
Oracle Process Execution
Dokumen552 halaman
Oracle Process Execution
Vineeth
Belum ada peringkat
4 - An Introductory Handbook On CBTC - April 2021
Dokumen118 halaman
4 - An Introductory Handbook On CBTC - April 2021
rupadhyaay
Belum ada peringkat
Text Information and Media
Dokumen66 halaman
Text Information and Media
Paula Camille Vega
Belum ada peringkat
MP 4055/Mp 5055/Mp 6055series / DSM 2640/2650/2660Sp (D287/D288/D289/D293/D294/D295) Parts Catalog
Dokumen177 halaman
MP 4055/Mp 5055/Mp 6055series / DSM 2640/2650/2660Sp (D287/D288/D289/D293/D294/D295) Parts Catalog
Никита
Belum ada peringkat
Motor Saver Model 601 Voltage Monitor: Subsection 3A: Top Drive Operation
Dokumen1 halaman
Motor Saver Model 601 Voltage Monitor: Subsection 3A: Top Drive Operation
Alex Ramirez
Belum ada peringkat
1 - Case Interview Marathon Workshop
Dokumen6 halaman
1 - Case Interview Marathon Workshop
Hải Anh Nguyễn Lương
Belum ada peringkat
Test Case Parking Cost Calculator
Dokumen7 halaman
Test Case Parking Cost Calculator
Nevena Kostadinović
Belum ada peringkat
Advanced Process Technology Ultra Low On-Resistance Dynamic DV/DT Rating 175°C Operating Temperature Fast Switching Fully Avalanche Rated
Dokumen8 halaman
Advanced Process Technology Ultra Low On-Resistance Dynamic DV/DT Rating 175°C Operating Temperature Fast Switching Fully Avalanche Rated
Liver Haro Orellanes
Belum ada peringkat
Cryptocurrency From Shari'ah Perspective
Dokumen18 halaman
Cryptocurrency From Shari'ah Perspective
Ana Fiena
Belum ada peringkat
Whirlpool 7mwt9601ww0 Manual de Usuario
Dokumen12 halaman
Whirlpool 7mwt9601ww0 Manual de Usuario
MARTIN CABRERA
Belum ada peringkat
Section 20 - Brickwork: Complying With MS 522 and Section D
Dokumen8 halaman
Section 20 - Brickwork: Complying With MS 522 and Section D
mon
Belum ada peringkat
Digital Communication Systems by Simon Haykin-100
Dokumen6 halaman
Digital Communication Systems by Simon Haykin-100
matilda
Belum ada peringkat
Daria
Dokumen1 halaman
Daria
Bojan Dimishkovski
Belum ada peringkat
TM-1861 AVEVA Administration (1.4) System Administration Rev 1.0
Dokumen106 halaman
TM-1861 AVEVA Administration (1.4) System Administration Rev 1.0
praveen jangir
100% (2)
A4Q Selenium Tester Foundation Answer Sheet - Mock Exam V1.3
Dokumen17 halaman
A4Q Selenium Tester Foundation Answer Sheet - Mock Exam V1.3
Matías Peña
Belum ada peringkat
Intern Report-3
Dokumen77 halaman
Intern Report-3
manish
Belum ada peringkat
Caterpillar Cs 551 Cs 553 CP 553 Parts Manual
Dokumen23 halaman
Caterpillar Cs 551 Cs 553 CP 553 Parts Manual
zugenkzz
33% (3)
Research Paper Front Cover
Dokumen7 halaman
Research Paper Front Cover
orotmbbkf
100% (1)
Forcepoint Next Generation Firewall NGFW Administrator Virtual Instructor-Led Training September2020
Dokumen5 halaman
Forcepoint Next Generation Firewall NGFW Administrator Virtual Instructor-Led Training September2020
lakbabi1035
Belum ada peringkat
Energy Research: at The State University of New York
Dokumen10 halaman
Energy Research: at The State University of New York
dani
Belum ada peringkat