JPH087594B2

JPH087594B2 - 音声認識装置

Info

Publication number: JPH087594B2
Application number: JP2088011A
Authority: JP
Inventors: 芳春阿部; 邦男中島
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1990-04-02
Filing date: 1990-04-02
Publication date: 1996-01-29
Anticipated expiration: 2011-01-29
Also published as: JPH03287200A

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は入力音声を認識する音声認識装置に関する
ものである。

〔従来の技術〕

第６図は例えば特許願（昭和63年９月30日出願、発明
の名称；音声認識装置及び学習方法、出願人；三菱電機
（株）、出願番号63−246367）あるいは電子情報通信学
会論文誌（「線形音素文脈モデルを用いた音声認識方
法」平成元年８月25日発行）に示された音声認識技術に
基づいて構成された大語彙を対象単語とする音声認識装
置を示す構成ブロック図である。第６図において、１は
入力音声を分析する音声分析手段、２は認識対象単語を
記述した記号系列（音素系列）が記載されている単語辞
書、３は単語辞書２に記述された記号系列から該記号系
列の表す音声のモデルを該記号系列並びに入力音声の特
徴から得られる音素のコンテキストに依存して生成する
モデル生成手段、４はモデル生成手段３で生成された音
声モデル中で入力音声に対する尤度を計算する尤度計算
手段、５は上記尤度の高い音声モデルの記号系列を選択
する候補選択手段である。

次にこの従来例の動作について説明する。入力された
音声は、音声分析手段１で特徴ベクトル系列に変換され
る。モデル生成手段３は単語辞書２に記述された認識対
象単語の各記号系列について、この特徴ベクトル系列及
び記号系列から音素のコンテキスト情報を抽出すると共
に、この音素のコンテキスト情報に基づいて音素のコン
テキストを考慮した単語のモデルを生成する。尤度計算
手段４はこのように生成された各単語モデルについて、
特徴ベクトル系列に対する尤度を計算する。候補選択手
段５はその中で尤度の高い単語モデルの記号系列をＮ個
選択し、認識結果として出力する。

〔発明が解決しようとする課題〕

まず、以上のように構成された従来の音声認識装置
は、音素のコンテキストによる音声の変動を吸収できる
ため単語辞書中の記号系列の表す単語は高精度で認識で
きるが、一般の文章でよく現れる単語辞書に記載されて
いない専門用語や新語、活用形、複合語などは認識でき
ない。

そこで、単語辞書を用いず、音声の分析フレーム毎に
記号間の任意の遷移を許すグラフ構造を参照して、任意
の記号系列を生成し、単語辞書にない音声を認識する方
法を採用する必要がある。

ところが、この認識方法は、音素のコンテキストによ
る音声の変動を考慮していない音声モデルの生成部を用
いる音声認識装置に適用されているが、記号列の候補
（仮説）の中に正しい仮説が含まれるように多くの仮説
を各フレームで残す必要があるため、分析フレームが増
えるにしたがって急速に生成される仮説の数が増え、認
識処理に必要なメモリや計算処理量が制限を越えて事実
上認識処理ができなくなり、実用にならないという問題
がある。

一方、本発明に係る音素のコンテキストに依存した音
声モデルの生成部を用いる場合には、各フレームで残す
仮説の数を比較的少なくできるが、それでも、フレーム
毎に仮説の生成を行うため、生成される仮説の数が依然
かなり多いという問題点が残る。

次に、ところで、認識対象を、単語辞書中の単語から
任意の記号系列に広げると当然類似の音声が増大するた
め、音声認識処理で得られる尤度だけに頼ると認識率が
低下してくるので、言語知識を利用した言語処理によっ
て、認識率の改善を図る必要がある。

本発明の目的である任意の記号系列を対象とする音声
認識装置のための言語処理として、記号系列の確率を訓
練文章中から得られる統計量から計算してこれを利用し
て、記号系列を選択する方法があり、中でも、２重マル
コフモデルを用いる方法（トライグラムモデルとも呼ば
れる）に関して、参考文献（中川著「確率モデルによる
音声認識」、113〜120頁）で述べられているごとく技術
の蓄積がある。

この技術は、基本的に、記号系列の確率を記号の３つ
組み、２つ組みの出現頻度を利用して計算する方法であ
るが、記号系列中の３つ以上離れた所の記号間の相関が
考慮されないため訓練文章から得られる言語知識を十分
に活かしていないという問題がある。逆に、この点を改
善するために、この方法を４つ組み以上の出現頻度を利
用するように拡張するには、例えば４つ組みの数は記号
数を24として24×24×24×24＝331776であるから、４つ
組みを訓練するには膨大な訓練データが必要になり、も
しある４つ組みが一つも訓練データ中に現れないとする
とその４つ組みを含む音声は、その記号系列の確率計算
結果が０となってしまい、認識できないという問題があ
る。

この発明は上記のような問題点を解決するためになさ
れたもので、生成される仮説の数を少なくし、任意の記
号系列に対応する音声を効率的に認識することができる
音声認識装置を得ることを目的とする。

〔課題を解決するための手段〕

この発明の請求項１に係る音声認識装置は、入力音声
の記号系列と音声区間の終端時刻とからなる仮説を保持
する仮説テーブル21と、この仮説テーブル21から終端時
刻の仮説を選択する仮説選択手段22と、この仮説選択手
段22の選択した仮説の記号系列に所定の記号を結合して
新たな仮説の記号系列を生成する仮説生成手段23と、こ
の仮説生成手段23の生成した記号系列に対応する音声モ
デルを該生成された記号系列の音素のコンテキストに依
存して生成するモデル生成手段３と、このモデル生成手
段３の生成する音声モデルと、入力音声の特徴とを比較
し尤度が極大となる音声区間の終端時刻を検出しこの終
端時刻に基づき新しい仮説を生成して上記仮説テーブル
21に登録する仮説登録手段41と、上記仮説テーブル21か
ら候補の記号系列を選択し音声認識結果として出力する
候補選択手段５とを備えたものである。また、請求項２
にかかる装置は、請求項１の構成に加え、前記候補選択
手段５が選択した仮説の記号系列をもとに、記号系列に
関する確率を求め、求めた確率から尤度を計算して、最
も尤度の高いものを識別結果として出力する言語処理装
置６を設けたものである。

〔作用〕請求項１の装置においては、仮説テーブル21は入力音
声の記号系列と音声区間の終端時刻とからなる仮説を保
持する。仮説選択手段22は仮説テーブル21から終端時刻
の仮説を選択する。仮説生成手段23は仮説選択手段22の
選択した仮説の記号系列に所定の記号を結合して新たな
仮説の記号系列を生成する。モデル生成手段３は仮説成
長手段23の生成した記号系列に対応する音声モデルを該
生成された記号系列の音素のコンテキストに依存して生
成する。仮説登録手段41はモデル生成手段３の生成する
音声モデルと入力音声の特徴とを比較し尤度が極大とな
る音声区間の終端時刻を検出しこの終端時刻に基づき新
しい仮説を生成して上記仮説テーブル21に登録する。候
補選択手段５は仮説テーブル21から候補の記号系列を選
択し音声認識結果として出力する。請求項２の装置にお
いては、言語処理装置は、候補選択手段で選択された仮
説の記号系列に関する確率を求めて、求めた確率から尤
度を計算し、最も尤度の高いものを結果として出力す
る。

〔実施例〕

第１図は請求項１の発明の一実施例に係る音声認識装
置の構成ブロック図である。第１図において、第６図に
示す構成要素に対応するものには同一の符号を付し、そ
の説明を省略する。

第１図において、21は、記号系列と音声区間の終端時
刻からなる仮説を保持する仮説テーブルであり、仮説の
記号系列Ｗとこの記号系列に対する音声モデルが極大の
尤度を持って整合する音声区間の終端時刻Ｅとその時の
尤度Ｓとからなる３項組＜Ｗ、Ｅ、Ｓ＞を仮説として保
持する。また、22は仮説テーブル21から終端時刻ｔの仮
説を選択する仮説選択手段、23は仮説選択手段22の選択
した仮説の記号系列に所定の記号を結合して新たな記号
系列を生成する仮説生成手段、３は仮説生成手段23の生
成する記号系列に対して音素のコンテキストに依存する
音声モデルを生成するモデル生成手段、41はモデル生成
手段３で生成された音声モデル中で入力音声に対する尤
度を計算し尤度が極大となる音声区間の終端時刻Ｅを検
出する仮説登録手段である。

また、第２図は、この実施例の音声認識装置の動作を
説明するためのフローチャートである。

次にこの実施例の動作について第２図を用いて説明す
る。

入力された音声は、音声分析手段１で特徴ベクトル時
系列Ｘ（ｔ）（時刻ｔ＝1,2,・・・,T）に変換される。

まず、音声が入力されると、初期状態において、（１）仮説テーブル21はクリアされ（ステップS1）、空
の記号系列Ｗ＝ε、終端時刻Ｅ＝１、尤度Ｓ＝∝からなる仮説＜ε,1,∝＞
が登録される。

次に、時刻ｔ＝1,2,・・・,Tについて、以下の動作を
行う。

（２）仮説選択手段22は仮説テーブル21から終端時刻Ｅ
がｔに等しく尤度Ｓの大きいＢ個の仮説Hb（ｂ＝1,2,・
・・,B）を選択する（ステップS2）。

（３）仮説生成手段23は、これらの仮説Hb（ｂ＝1,2,・
・・,B）について、その記号系列Ｗの末尾に記号ｑ（ｑ
＝1,2,・・・,Q、Ｑは記号の種類、本実施例ではこのよ
うに記号は自然数で表される）を結合し新しい記号系列
Ｗ′＝Ｗ‖ｑ（Ｘ‖ｑ（Ｘ‖Ｙは記号系列ＸとＹの連結
を表す）を生成する（ステップS3）。

（４）モデル生成手段３はこの記号系列Ｗ′に対応する
音声モデルを音素のコンテキストに依存して生成し、仮
説登録手段41に送る。仮説登録手段41はモデル生成手段
３の生成した音声モデルの尤度を始端時刻を１、終端時
刻をｔからｔ＋32（32は最大音素継続時間）の範囲で変
えて、尤度が最大となる終端時刻Ｅ′とその尤度Ｓ′を
計算し（ステップS3）、新しい仮説＜Ｗ′,E′,S′＞を
生成して、仮説テーブル21に追加登録する（ステップS
4）。

最後に、候補選択手段５は、仮説テーブル21から、終
端時刻ＥがＴである仮説を選択し、尤度の大きい方から
Ｎ個の仮説の記号系列を認識結果として出力する。

第３図は、請求項２の発明の一実施例の構成ブロック
図である。第３図において、第１図に示す構成要素に対
応するものには同一の符号を付し、その説明を省略す
る。第３図において、６は候補選択部５で選択されたＮ
個の仮説の記号系列を入力とし、記号系列の確率を計算
し、尤度に記号系列の確率から求められる尤度を計算し
て、認識結果を出力する言語処理装置である。

第４図は、この言語処理装置６における入力の記号系
列を計算する部分の構成ブロック図である。第４図にお
いて、601は部分記号系列の出現頻度を記憶する記憶手
段、602は長さＬの記号系列の総出現頻度を記憶する記
憶手段、603は記憶手段601と記憶手段602の記憶内容を
参照し、入力記号系列の確率を計算する計算手段であ
る。

即ち、計算手段603は、入力の記号系列を部分記号系
列に分割し、入力の記号系列の確率を、該部分記号系列
の確率と、該部分記号系列の間の遷移の確率との積の該
分割に関する最大値を出力する。

第５図は、記憶手段601のデータ構造を説明するため
の図である。第５図において、601T1,601T21,601T211等
は左欄に部分記号系列の出現頻度、右欄に後続の表への
ポインターが記憶された記号種類Ｑ個の行からなる表で
あり、これらの表がポインターによって結ばれたリスト
構造によって部分記号系列と出現頻度が記憶される。な
お、表601T1はリスト構造の先頭の表である。この表に
よって、例えば部分記号系列/2121/の出現頻度は表601T
2121の第１行の左欄C2121に記憶された値として、ま
た、例えば記号系列/12/の出現頻度は表601T11の第２行
左欄C12に記憶された値として得られる。

次に、計算手段603において記号系列Ｗの確率の計算
方法について第４図及び第５図を用いて説明する。

まず記号系列の部分記号系列への分割について説明す
る。例えば、記号系列としての音素系列/arajuru/の可
能な分割として、１分割では、arajuruの１通り、２分
割では、ａ‖rajuru、ar‖ajuru、ara‖juru、araj‖ur
u、araju‖ru、arajur‖ｕの６通り、３分割では、ａ‖
ｒ‖ajuru、ａ‖ra‖juru、ａ‖raj‖uru、ａ‖raju‖r
u、ａ‖rajur‖ｕ、ar‖ａ‖juru、ar‖aj‖uru、ar‖a
ju‖ru、ar‖ajur‖ｕ、ara‖ｊ‖uru、ara‖ju‖ru、a
ra‖jur‖ｕ、araj‖ｕ‖ru、araj‖ur‖ｕ、araju‖ｒ
‖ｕの15通り、４分割では、ａ‖ｒ‖ａ‖juru、ａ‖ｒ
‖aj‖uru、ａ‖ｒ‖aju‖ru、ａ‖ｒ‖ajur‖ｕ、ａ‖
ra‖ｊ‖uru、ａ‖ra‖ju‖ru、ａ‖ra‖jur‖ｕ、ａ‖
raj‖ｕ‖ru、ａ‖raj‖ur‖ｕ、ａ‖raju‖ｒ‖ｕ、ar
‖ａ‖ｊ‖uru、ar‖ａ‖ju‖ru、ar‖ａ‖jur‖ｕ、ar
‖aj‖ｕ‖ru、ar‖aj‖ur‖ｕ、ar‖aju‖ｒ‖ｕ、ara
‖ｊ‖ｕ‖ru、ara‖ｊ‖ur‖ｕ、ara‖ju‖ｒ‖ｕ、ar
aj‖ｕ‖ｒ‖ｕの20通り、５分割では、ａ‖ｒ‖ａ‖ｊ
‖uru、ａ‖ｒ‖ａ‖ju‖ru、ａ‖ｒ‖ａ‖jur‖ｕ、ａ
‖ｒ‖aj‖ｕ‖ru、ａ‖ｒ‖aj‖ur‖ｕ、ａ‖ｒ‖aju
‖ｒ‖ｕ、ａ‖ra‖ｊ‖ｕ‖ru、ａ‖ra‖ｊ‖ur‖ｕ、
ａ‖ra‖ju‖ｒ‖ｕ、ａ‖raj‖ｕ‖ｒ‖ｕ、ar‖ａ‖
ｊ‖ｕ‖ru、ar‖ａ‖ｊ‖ur‖ｕ、ar‖ａ‖ju‖ｒ‖
ｕ、ar‖aj‖ｕ‖ｒ‖ｕ、ara‖ｊ‖ｕ‖ｒ‖ｕの15通
り、６分割では、ａ‖ｒ‖ａ‖ｊ‖ｕ‖ru、ａ‖ｒ‖ａ
‖ｊ‖ur‖ｕ、ａ‖ｒ‖ａ‖ju‖ｒ‖ｕ、ａ‖ｒ‖aj‖
ｕ‖ｒ‖ｕ、ａ‖ra‖ｊ‖ｕ‖ｒ‖ｕ、ar‖ａ‖ｊ‖ｕ
‖ｒ‖ｕの６通り、７分割では、ａ‖ｒ‖ａ‖ｊ‖ｕ‖
ｒ‖ｕの１通りの合計64通りの分割方法がある。

一般に、長さＬの記号系列Ｗのｎ個の部分系列への分
割の仕方は、通りあるため、長さＬの記号系列Ｗの任意個の部分系列
への分割の仕方は、全部で、通りある。

次に計算手段603について説明する。

まず、入力の記号系列Ｗをｎ個部分記号系列Wi（ｉ＝
1,2,・・・,n）に分割するときの入力の記号系列の確率
Pn（Ｗ）を、で定義する。ここで、Ｐ（Wi）は部分記号系列Wiの確
率、また、Ｐ（Wi→Wi＋１）は部分記号系列Wiから部分
記号系列Wi＋１への遷移確率であり、Ｐ（Wi）は、記憶
手段601に記憶されたWiの出現頻度Ｃ（Wi）と記憶手段6
02に記憶されたWiの長さ（|Wi|で表す）と同じ記号系列
の総出現頻度Ct（|Wi|）との比Ｐ（Wi）＝Ｃ（Wi）/Ct（|Wi|）として計算され、また、Ｐ（Wi→Wi＋１）は、Wiの末尾のＭ個の記号か
らなる記号列（W1とする）とWi＋１の先頭１個の記号か
らなる記号列（W2とする）との間の遷移確率によって近
似して、として計算される。

例えば、音素系列/arajuru/の２分割araj‖uruに対す
る確率は Pn（ara‖juru）＝Ｐ（ara）・Ｐ（juru）・Ｐ（ara→j
uru）となる。

ここで、Ｐ（ara）＝Ｃ（ara）/Ct（|ara|）＝Ｃ（ara）/Ct（３）Ｐ（juru）＝Ｃ（juru）/Ct（|juru|）＝Ｃ（juru）/Ct（４）また、Ｍ＝２として、Ｐ（ara→juru）＝Ｃ（ra‖ｊ）/C（ra）＝Ｃ（raj）/C（ra）よって、 Pn（ara‖juru）＝（Ｃ（ara）/Ct（３））・（Ｃ（juru）／ Ct（４））・（Ｃ（raj）/C（ra））として計算される。

計算手段603は、前記のような入力の記号系列のすべ
ての分割の中で、上述のように定義された確率Pn（Ｗ）
の最大値Pmax（Ｗ）を入力の記号系列の確率Ｐ（Ｗ）と
して計算する。即ち、計算手段603は、この最大確率Pma
x（Ｗ）を、動的計画法に基づき、漸化式：Ｇ（１）＝１Ｇ（ｊ＋１）＝max G（ｋ＋１）＊Ｐ（Ｗ［k:j−１］）ｋ＝ｊ−N,j−１ *C(W[k-M:k-1]‖W[k:k])/C(W[k-M:k-1]) （ｊ＝1,2,・・・・,L）を解き、 Pmax（Ｗ）＝Ｇ（Ｌ＋１）とすることによって効率的に計算する。ここで、Ｗ［s:
e］は記号系列Ｗ中のｓ番目からｅ番目までの記号から
なる部分記号系列を示す。但し、ｓが０以下のときはｓ
＝１とみなす。またＮは部分記号系列の最大の長さで記
憶手段601の記憶容量の制限によって本実施例ではＮ＝
７としている。

これによって、計算手段603は、例えば上述の音素系
列/arajuru/の分割でいえば、仮に、訓練文章中の音素
系列/ara/および/juru/の出現頻度がかなり高く、音素
系列/arajuru/の出現頻度が０ならば、/arajuru/はara
‖juruと分割するときの確率を出力すると予想される。

このように上記一実施例の音声認識装置においては、
仮説選択手段は仮説テーブルから終端時刻ｔの仮説だけ
を選択することによって生成される仮説の数を少なく
し、仮説生成手段はこれらの仮説に記号を結合して新た
な記号系列を生成することによって任意の記号系列に対
する音声の認識を可能とし、モデル生成手段は仮説生成
手段によって生成された新たな記号系列に対応する音素
のコンテキストに依存した音声モデルを生成することに
よって高精度の照合により正しい仮説がビーム内に残る
度合を高め、仮説登録手段は音声モデルの尤度が極大と
なる終端時刻を検出することによって生成される仮説の
数を少なくするようにしている。

また、上記他の実施例の音声認識装置における言語処
理装置においては、記憶手段は訓練文章中の記号系列の
出現頻度を記憶し、計算手段は入力の記号系列を前記記
憶手段中に出現頻度を持つ部分記号系列に分割し、その
出現頻度によって入力の記号系列の確率を計算し、訓練
データ中にない記号系列の確率を計算するようにしてい
る。

なお、以上の説明では、単語を認識対象とする場合に
ついて説明したが、単語に限らず、文節や、文章を認識
対象としても構わない。また、音声を記述するための記
号体系としては、音素を自然数で表したものとして説明
したが、音素に限らず他の記号例えば異音を表すための
記号を含む記号体系によっても構わない。もちろん、記
号は文字であってもよい。また、言語処理装置はその処
理の過程で最大確率を与える入力記号系列の分割に関す
る情報を同時に出力するようにできるのでこれを記号系
列の自動分割に応用することもできる。

〔発明の効果〕

以上のように請求項１の発明によれば、入力音声の記
号系列と音声区間の終端時刻とからなる仮説を保持する
仮説テーブルと、この仮説テーブルから終端時刻の仮説
を選択する仮説選択手段と、この仮説選択手段の選択し
た仮説の記号系列に所定の記号を結合して新たな仮説の
記号系列を生成する仮説生成手段と、この仮説生成手段
の生成した記号系列に対応する音声モデルを該生成され
た記号系列の音素のコンテキストに依存して生成するモ
デル生成手段と、このモデル生成手段の生成する音声モ
デルと入力音声の特徴と比較し尤度が極大となる音声区
間の終端時刻を検出しこの終端時刻に基づき新しい仮説
を生成して上記仮説テーブルに登録する仮説登録手段
と、上記仮説テーブルから候補の記号系列を選択し音声
認識結果として出力する候補選択手段とを備えて構成し
たので、仮説テーブルから終端時刻の仮説だけを選択す
ることによって生成される仮説の数が少なくなり、ま
た、これらの仮説に記号を結合して新たな記号系列を生
成することによって任意の記号系列に対する音声の認識
を可能とし、更に仮説生成手段によって生成された新た
な記号系列に対応する音素のコンテキストに依存した音
声モデルを生成することによって高精度の照合により正
しい仮説がビーム内に残る度合が高められ、音声モデル
の尤度が極大となる終端時刻を仮説登録手段で検出する
ことによって生成される仮説の数が少なくなる。したが
って、本発明によれば、任意の記号系列に対応する音声
を効率的に認識できるという効果が得られる。また、請
求項２による言語処理装置を備えたものでは、記号系列
の自動分割が行える。

【図面の簡単な説明】

第１図は請求項１の発明の一実施例に係る音声認識装置
の構成ブロック図、第２図はこの実施例の動作を説明す
るためのフローチャート、第３図は請求項２の発明の一
実施例に係る音声認識装置の構成ブロック図、第４図は
第３図中の言語処理装置の入力記号系列の確率を計算す
る部分の構成ブロック図、第５図はこの実施例における
記憶手段のデータ構造の説明図、第６図は従来の音声認
識装置の構成ブロック図である。３……モデル生成手段、５……候補選択手段、21……仮
説テーブル、22……仮説選択手段、23……仮説生成手
段、41……仮説登録手段。

Claims

【特許請求の範囲】

【請求項１】入力音声の記号系列と音声区間の終端時刻
とからなる仮説を保持する仮説テーブルと、この仮説テ
ーブルから終端時刻の仮説を選択する仮説選択手段と、
この仮説選択手段の選択した仮説の記号系列に所定の記
号を結合して新たな仮説の記号系列を生成する仮説生成
手段と、この仮説生成手段の生成した記号系列に対応す
る音声モデルを該生成された記号系列の音素のコンテキ
ストに依存して生成するモデル生成手段と、このモデル
生成手段の生成する音声モデルと前記入力音声の特徴と
を比較し尤度が極大となる音声区間の終端時刻を検出し
この終端時刻に基づき新しい仮説を生成して上記仮説テ
ーブルに登録する仮説登録手段と、上記仮説テーブルか
ら候補の記号系列を選択し音声認識結果として出力する
候補選択手段とを備えたことを特徴とする音声認識装
置。
【請求項２】前記候補選択手段が選択した仮説の記号系
列をもとに、記号系列に関する確率を求め、求めた確率
から尤度を計算して、最も尤度の高いものを識別結果と
して出力する言語処理装置を設けたことを特徴とする請
求項第１項に記載の音声認識装置。