Anda di halaman 1dari 125

Speech Recognition Based on a Bayesian Approach

ベイズ的手法にもとづく音声認識

February 2006

Graduate School of Science and Engineering Waseda University

Shinji Watanabe

ABSTRACT

Speech recognition is a very important technology, which functions as a human interface that con- verts speech information into text information. Conventional speech recognition systems have been developed by many researchers using a common database. Therefore, currently available systems relate to the specific environment of the database, which lacks robustness. This lack of robustness is an obstacle as regards applying speech recognition technology in practice, and im- proving robustness has been a common worldwide challenge in the fields of acoustic and language studies. Acoustic studies have taken mainly two directions: the improvement of acoustic mod- els beyond the conventional Hidden Markov Model (HMM), and the improvement of the acoustic model learning method beyond the conventional Maximum Likelihood (ML) approach. This the- sis addresses the challenge in terms of improving the learning method by employing a Bayesian approach. This thesis defines the term “Bayesian approach” to include a consideration of the posterior distribution of any variable, as well as the prior distribution. That is to say, all the variables introduced when models are parameterized, such as model parameters and latent variables, are regarded as probabilistic variables, and their posterior distributions are obtained based on the Bayes rule. The difference between the Bayesian and ML approaches is that the estimation target is the distribution function in the Bayesian approach whereas it is the parameter value in the ML approach. Based on this posterior distribution estimation, the Bayesian approach can generally achieve more robust model construction and classification than an ML approach. In fact, the Bayesian approach has the following three advantages:

Effective utilization of prior knowledge through prior distributions (prior utilization)

Model selection in the sense of maximizing a probability for the posterior distribution of model complexity (model selection)

Robust classification by marginalizing model parameters (robust classification)

However, the Bayesian approach requires complex integral and expectation computations to obtain posterior distributions when models have latent variables. The acoustic model in speech recogni- tion has the latent variables included in an HMM and a Gaussian Mixture Model (GMM) . There- fore, the Bayesian approach cannot be applied to speech recognition without losing the above advantages. For example, the Maximum A Posteriori based framework approximates the posterior distribution of the parameter, which loses two of the above advantages although MAP can utilize prior information. Bayesian Information Criterion and Bayesian Predictive Classification based

i

ii

ABSTRACT

frameworks partially realize Bayesian advantages for model selection and robust classification, re- spectively, in speech recognition by approximating the posterior distribution calculation. However, these frameworks cannot benefit from both advantages simultaneously. Recently, a Variational Bayesian (VB) approach was proposed in the learning theory field, which avoids complex computations by employing the variational approximation technique. In the VB approach, approximate posterior distributions (VB posterior distributions) can be obtained effectively by iterative calculations similar to the expectation-maximization algorithm in the ML approach, while the three advantages provided by the Bayesian approaches are still retained. This thesis proposes a total Bayesian framework, Variational Bayesian Estimation and Clustering for speech recognition (VBEC), where all acoustic procedures of speech recognition (acoustic model- ing and speech classification) are based on the VB posterior distribution. VBEC is based on the following four formulations:

1. Setting the output and prior distributions for the model parameters of the standard acoustic models represented by HMMs and GMMs (setting)

2. Estimating the VB posterior distributions for the model parameters based on the VB Baum- Welch algorithm similar to the conventional ML based Baum-Welch algorithm (training)

3. Calculating VBEC objective functions, which are used for model selection (selection)

4. Classifying speech based on a predictive distribution, which is analytically derived as the Student’s t-distribution from the marginalization of model parameters based on the VB pos- terior distribution (classification).

VBEC performs the model construction process, which includes model setting, training and selec- tion (1st, 2nd and 3rd), and the classification process (4th) based on the Bayesian approach. Thus, VBEC can be regarded as a total Bayesian framework for speech recognition. This thesis introduces the above four formulations, and show the effectiveness of the Bayesian approach through speech recognition experiments. The first set of experiments show the effec- tiveness of the Bayesian acoustic model construction including the prior utilization and model selection. This work shows the effectiveness of the prior utilization for the sparse training data problem. This thesis also shows the effectiveness of the model selection for clustering context- dependent HMM states and selecting the GMM components, respectively. The second set of ex- periments achieve the automatic determination of acoustic model topologies by expanding the Bayesian model selection function in the above acoustic model construction. The topologies are determined by clustering context-dependent HMM states and by selecting the GMM components simultaneously, and the process takes much less time than conventional manual construction with the same level of performance. The final set of experiments focus on the classification process, and show the effectiveness of VBEC as regards the problem of the mismatch between training and input speech by applying the robust classification advantages to an acoustic model adaptation task.

ABSTRACT IN JAPANESE

計算機上での音情報理解の中で最も重要な技術の一つが,音情報をテキスト情報に変換する 音声認識技術である.従来の音声認識は研究者間で共通のデータベースを用いることにより 限られた環境で性能を競い合うという研究スタイルにより大きく発展を遂げた.しかし,実 現されたシステムはモデルパラメータ数百万におよぶ超巨大なものであり,限られた環境に 特化されたシステムであるゆえに,頑健性を大きく欠落している.そのため, 頑健性の点か ら音声認識の実用化にまだまだ大きな壁が存在し, いかにして音声認識システムの頑健性を 向上させるかは,世界共通の課題となっている.そのような取り組みは音響的及び言語的両 視点から研究されており,特に音響的視点においては,モデル化の観点から,従来の隠れマ ルコフモデル (HMM) にもとづく音響モデルをいかに改良するか,及び,学習理論の観点か ら,従来の最尤学習にもとづく音響モデル学習をいかに改良するか,という 2 つの方向性が 存在する.本研究は, 学習理論の観点から, ベイズ的手法にもとづいた頑健な音声認識実現を 取り組む. 本論文で扱うベイズ的手法は単に事前確率分布を最尤推定法に取り入れるだけでなく,分 布パラメータや隠れ変数といった,モデルのパラメトリック表現において導入された全ての 変数を確率変数とみなし,その事後確率分布をベイズの定理から推定して利用する手法であ る. そのため,従来のパラメータ推定にもとづく最尤推定法とは推定対象をパラメータ値で はなく分布関数とする点が大きく異なる.この事後確率分布推定にもとづいて,ベイズ的手 法は, 音声認識で広く用いられている最尤学習に比べてより頑健なモデル構築・識別が可能 であるといわれている.実際に,ベイズ的手法には大きく分けて 3 つの利点がある.

事前確率分布を介した事前知識の効率的な利用(事前知識の活用)

モデル構造の多様性を確率変数とみなすことによる,事後確率最大化の意味での与え られた学習データに適したモデル構造の選択 (モデル選択)

モデルパラメータの周辺化による頑健な識別 (頑健な識別)

しかし隠れ変数存在下で事後確率分布を正確に推定するためには,モンテ・カルロシュミレー ションなどの数値的手法が必要である.音声認識用音響モデルは,音素コンテクストからな る多数のカテゴリーを持ち,総計数百万に及ぶパラメータが相互に依存し,また HMM や多 次元の混合ガウス分布モデル (GMM) を通して多数の隠れ変数を内包する.このような複雑 なモデルを数値的手法で扱う場合,莫大な計算量を必要とするため,音声認識におけるベイ ズ的手法の実現は大変困難であった.そのため,従来音声認識で実現されてきた事後確率最 大化法やベイズ的予測識別法,ベイズ情報量基準法などはいずれも,事後確率分布の推定を

iii

iv

ABSTRACT IN JAPANESE

行わない近似的実現手法に過ぎず,先に挙げたベイズ的手法の利点を全て内包するものでは なかった. 近年,変分ベイズ法にもとづく近似的事後確率分布 (VB 事後確率分布とよぶ) 推定法が提 案され,隠れ変数存在下においても期待値最大化アルゴリズムにより効率よくモデル学習が できるようになった.本研究では,この変分ベイズ法を元に最尤法にもとづく音声認識を発 展させ,従来の近似的なベイズ的手法を内包する本格的なベイズ音声認識 VBEC(Variational

Bayesian Estimation and Clustering for speech recognition) を構築した. VBEC は大きく分けて

4 つの定式化よりなる.

1. HMM および GMM を用いて表現される音響モデルに対して,出力確率分布とそのモ デルパラメータに対する事前確率分布の設定 (設定)

2. 従来の最尤学習法にもとづく Baum-Welch アルゴリズムと同様の VB 版の Baum-Welch アルゴリズムを構築して,モデルパラメータに対する VB 事後確率分布を推定 (学習)

3. 学習データに応じた適切なモデル構造の選択のための VB 評価関数の算出 (選択)

4. VB 事後確率分布と出力確率分布をもとにモデルパラメータに関して周辺化を行い,予 測分布が Student t 分布として解析的にもとまることを示し,その予測分布をもとに した識別 (識別)

これにより,1 から 3 のモデルの設定・学習・選択による音響モデル構築過程及び 4 の識別 過程,つまり音声認識の音響モデルに対する全ての過程がベイズ的手法で実現される.従っ て VBEC は本格的なベイズ音声認識であるといえる. 本研究はこの 4 つの定式化を紹介すると共に,それによって実現されるベイズ法の利点 についてそれぞれ実験を用いて検証し,有効性を示す.はじめに,モデルの設定・学習・選択 (1 から 3) を用いて,ベイズ的手法を首尾一貫して利用した音響モデル構築を実現する.そ れにより,少量学習データでの本手法の優位性を示すとともに,音素環境依存の HMM 状態 クラスタリング問題及び GMM 混合数決定におけるモデル選択機能効果を示す.次に,上記 音響モデル構築過程におけるモデル選択を発展させ,HMM 状態クラスタリング及び GMM 混合数の決定を同時に最適化することにより,音響モデル構造の自動決定を実現する.本手 法は,計算機のみによる高性能な音響モデルの自動構築を実現し,さらに従来の人手を用い たモデル構築手法と比較して計算時間を大幅に削減することができる.最後に,モデル識別 に注目し,実現される頑健な識別効果を音響モデル適応実験に応用することにより,実用的 タスクでの VBEC の有効性を示す.

Contents

ABSTRACT

 

i

ABSTRACT IN JAPANESE

 

iii

CONTENTS

 

v

LIST OF NOTATIONS

 

ix

LIST OF FIGURES

 

xiii

LIST OF TABLES

xv

1 Introduction

1

1.1

Background

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

1

1.2

Goal

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

3

1.3

Overview

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

3

2 Formulation

 

7

2.1 Maximum likelihood and Bayesian approach

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

2.2 Variational Bayesian (VB) approach

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

10

 

2.2.1 VB-EM algorithm

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

10

2.2.2 VB posterior distribution for model structure

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

12

2.3 Variational Bayesian Estimation and Clustering for speech recognition (VBEC)

.

.

13

 

2.3.1 Output and prior distributions

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

14

2.3.2 VB Baum-Welch algorithm

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

16

2.3.3 VBEC objective function .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

20

2.3.4 VB posterior based Bayesian predictive classification .

.

.

.

.

.

.

.

.

.

.

.

22

2.4 .

Summary

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

24

3 Bayesian acoustic model construction

 

25

3.1 Introduction

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

25

3.2 Efficient VB Baum-Welch algorithm

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

26

3.3 Clustering context-dependent HMM states using VBEC .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

27

 

3.3.1

Phonetic decision tree clustering .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

29

v

vi

CONTENTS

3.3.2 Maximum likelihood approach

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

31

3.3.3 Information criterion approach

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

32

3.3.4 VBEC approach

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

33

3.4 Determining the number of mixture components using VBEC .

.

.

.

.

.

.

.

.

.

.

.

34

3.5 Experiments .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

36

3.5.1 Prior utilization .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

37

3.5.2 Prior parameter dependence

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

40

3.5.3 Model selection for HMM states

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

41

3.5.4 Model selection for Gaussian mixtures .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

42

3.5.5 Model selection over HMM states and Gaussian mixtures .

.

.

.

.

.

.

.

.

.

44

3.6 Summary

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

45

4 Determination of acoustic model topology

 

47

4.1 Introduction

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

47

4.2 Determination of acoustic model topology using VBEC .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

48

4.2.1 Strategy for reaching optimum model topology

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

48

4.2.2 HMM state clustering based on Gaussian mixture model

.

.

.

.

.

.

.

.

.

.

50

4.2.3 Estimation of inheritable node statistics

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

51

4.2.4 Monophone HMM statistics estimation

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

52

4.3 Preliminary experiments

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

54

4.3.1 Maximum likelihood manual construction

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

54

4.3.2 VBEC automatic construction based on 2-phase search

.

.

.

.

.

.

.

.

.

.

.

56

4.4 Experiments .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

57

4.4.1 Determination of acoustic model topology using VBEC

.

.

.

.

.

.

.

.

.

.

57

4.4.2 Computational efficiency .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

60

4.4.3 Prior parameter dependence

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

63

4.5 Summary

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

64

5 Bayesian speech classification

 

65

5.1 Introduction

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

65

5.2 Bayesian predictive classification using VBEC .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

66

5.2.1 Predictive distribution

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

66

5.2.2 Student’s t-distribution

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

69

5.2.3 Relationship between Bayesian prediction approaches

.

.

.

.

.

.

.

.

.

.

.

71

5.3 Experiments .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

71

5.3.1 Bayesian predictive classification in total Bayesian framework

 

72

5.3.2 Supervised speaker adaptation

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

74

5.3.3 Computational efficiency

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

76

5.4 Summary

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

77

CONTENTS

vii

6

Conclusions

 

79

6.1 Review of work

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

79

6.2 Related work

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

79

6.3 Future work

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

80

6.4 Summary

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

81

ACKNOWLEDGMENTS

 

83

ACKNOWLEDGMENTS IN JAPANESE

 

85

BIBLIOGRAPHY

 

87

LIST OF WORK

93

APPENDICES

97

 

A.1

Upper bound of Kullback-Leibler divergence for posterior distributions

 

.

.

.

.

.

.

97

 

A.1.1

A.1.2

A.1.3

Model parameter

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

97

Latent variable

Model structure .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

98

99

 

A.2

Variational calculation for VB posterior distributions

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

99

 

A.2.1

A.2.2

A.2.3

Model parameter

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 100

Latent variable

Model structure .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 101

. 102

 

A.3

VB posterior calculation

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 103

 

A.3.1

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 103

 

A.4

Model parameter Latent variable

.

. Student’s t-distribution using VB posteriors

A.3.2

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 105

. 106

LIST OF NOTATIONS

Abbreviations

ML

:

Maximum Likelihood (page i)

HMM

:

Hidden Markov Model (page i)

GMM

:

Gaussian Mixture Model (page i)

VB

:

Variational Bayes (page ii)

VBEC

:

Variational Bayesian Estimation and Clustering for speech recognition (page ii)

EM

:

Expectation-Maximization (page 1)

MAP

:

Maximum A Posteriori (page 1)

BIC

;

Bayesian Information Criterion (page 3)

MDL

:

Minimum Description Length (page 3 )

BPC

:

Bayesian Predictive Classification (page 3)

VB-BPC

:

VB posterior based BPC (page 4)

LVCSR

:

Large Vocabulary Continuous Speech Recognition (page 8)

MFCC

:

Mel Frequency Cepstrum Coefficients (page 10)

RHS

:

Right Hand Side (page 23)

MLC

:

ML-based Classification (page 23)

IWR

:

Isorated Word Recognition (page 36)

JNAS

:

Japanese Newspaper Article Sentences (page 36)

MMIXTURE

:

GMM based phonetic decision tree method utilizing

MSINGLE

:

Gaussian mixture statistics of monophone HMM (page 53) GMM based phonetic decision tree method utilizing

AMP

:

single Gaussian statistics of monophone HMM (page 53) Acoustic Model Plant (page 61)

δ BPC

:

Dirac δ posterior based BPC (page 67)

UBPC

:

Uniform posterior based BPC (page 67)

SOLON

:

NTT Speech recognizer with OutLook On the Next generation (page 72)

CSJ

:

Corpus of Spontaneous Japanese (page 75)

SI

:

Speaker Independent (page 75)

ix

x

LIST OF NOTATIONS

Abbreviations of organizations

ASJ

:

Acoustical Society of Japan (page 37)

JEIDA

:

Japan Electronic Industry Development Association (page 37)

IEEE

:

Institute of Electrical and Electronic Engineers

SSPR

:

Spontaneous Speech Processing and Recognition

NIPS

:

Neural Information Processing Systems

ICSLP

:

International Conference on Spoken Language Processing

ICASSP

:

International Conference on Acoustics, Speech, and Signal Processing

IEICE :

Institute of Electronics, Information and Communication Engineers

General notations

p(·), q(·)

O

x

Θ

m

Z

c

Speech recognition notations

e

E

t

T e

d

D

O t ∈ R D

e

O = {O e t |t = 1,

,

T e , e = 1,

x t ∈ R D

x = {x t |t = 1,

W

, T }

 

:

Probabilistic distribution functions

:

Set of feature vectors of training data

:

Set of feature vectors of input data

:

Set of model parameters

:

Model structure index

:

Set of latent variables

:

Category index

 

:

:

Speech example index Number of speech examples

:

Frame index

:

Number of frames in example e

:

Dimension index

:

Number of dimensions

:

Feature vector of training speech at frame t of example e

,

E}

:

Set of feature vectors of training speech

 

:

Feature vector of input speech at frame t

:

Set of feature vectors of input speech

:

Sentence (word sequence)

LIST OF NOTATIONS

xi

Acoustic model notations

i, j

J

k

L

s e t

S = {s e t |t = 1,

t

v e

V

a ij

w jk

jk