JPH0372997B2

JPH0372997B2 -

Info

Publication number: JPH0372997B2
Application number: JP61065028A
Authority: JP
Inventors: Toyohisa Kaneko; Masaaki Watanuki
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1986-03-25
Filing date: 1986-03-25
Publication date: 1991-11-20
Also published as: EP0241183B1; DE3774605D1; US4876720A; EP0241183A1; JPS62232000A

Description

【発明の詳細な説明】Ａ産業上の利用分野この発明は確率的な手法を利用する音声認識装
置に関し、とくに認識精度を劣下させることなく
簡易に音声の認識を行えるようにしたものであ
る。

Ｂ従来の技術確率的に音声を認識する手法としては、マルコ
フ・モデルに基づくものが知られている。マルコ
フ・モデルに基づく音声認識では、複数の状態
と、状態の間の遷移と、これら遷移の各々が生起
する確率と、遷移の各々でラベルの各々が出力さ
れる確率とを有する確率モデルを利用する。たと
えば単語ごとにこのような確率モデルを設け、そ
れぞれの確率パラメータを学習により確定する。
認識時には、未知入力音声から得たラベル系列を
確率モデルの各々にマツチングさせて、そのラベ
ル系列の生起する蓋然性の最も高い確率モデルの
単語を認識結果とする。このような手法について
はたとえばIEEE会報第64巻（1976年）532〜556
頁所載のエフ・ジエリネクの論文“統計的方法に
より連続音声認識”（F.Jelinek，“Continuous
Speech Recognition by Statistical Methods”，
Proceedings of the IEEE，Vol.64，1976，
pp.532−556）に記載されている。

ところでマルコフ・モデルに基づく音声認識で
は確率パラメータを学習により確定する際に多く
の学習用データを必要とするとともに、学習に要
する計算時間も無視できないものである。

なおこの発明の他の先行技術としては、 (1) 日本音響学会昭和58年度春期研究発表会講演
論文集（昭和58年３月）151〜152頁所載の金子
等の論文“リニア・マツチングとDPマツチン
グを組み合わせた大語彙認識法” (2) ASSPに関するIEEE会報、ASSP−31巻、５
号（1983年10月）所載の金子等の論文“大語彙
孤立発声認識への階層的決定アプローチ”（T.
Kaneko，et.al.“Ａ Hierarchical Decision
Approach to Large−Vocabulary Discrete
Utterance Recognition”，IEEE
Transactions on ASSP，Vo1.ASSP−31，No.
５，October 1983） (3) 日本音響学会研究会試料S80−19（昭和55年
６月）148〜155頁所載の藤崎等の論文“単語音
声認識における処理の高速化と話者適応” (4) ICASSP83、1021〜1024頁所載のデイ・ケ
ー・バートン等の論文“ベクトル量子化を用い
た孤立単語認識の一般化”（D.K.Burton，et.
al.，“Ａ Generalization of Isolated Word
Recognition Using Vector Quantization”，
ICASSP 83，pp.1021−1024）がある。これらは単語を時間軸に沿つて分割する
ことを示している。しかし、これらには、分割し
たブロツクごとnoベル出力確率を得、ブロツク
ごとにラベル出力確率に基づいて確率的に音声認
識を行うことについては何ら記載がない。

Ｃ発明が解決しようとする問題点この発明は以上の事情を考慮してなされたもの
であり、確率的な手法に基づく音声認識装置であ
りながら、簡易に学習を行え、また認識に要する
計算時間も少なくてすむものを提供することを目
的としている。

Ｄ問題点を解決するための手段この発明では以上の目的を達成するために認識
単位たとえば認識語彙中の単語の各々のＮ個のブ
ロツク（第１小部分）ごとに、ラベルの各々が生
じる確率が推定される。この推定は、学習用デー
タ中のラベルのヒストグラムを認識単位の各々の
Ｎ個のブロツク別に生成し、このヒストグラムを
正規化して得る。未知入力単位もＮ個のブロツク
（第２小部分）に分割され、これらＮ個のブロツ
クが認識単位の各々のＮ個のブロツクとそれぞれ
線型にマツチングさせられる。マツチングさせら
れた未知入力単位のブロツクと所定の認識単位の
ブロツクとの間では、その認識単位のブロツクに
関して推定されている確率に基づいてゆう度が計
算される。すなわち未知入力単位の当該ブロツク
中のラベルごとに、当該認識単位のブロツクの推
定確率値を参照して、そのラベルが当該認識単位
のブロツクで発生する確率を決定する。このよう
な確率を未知入力単位の当該ブロツクにわたつて
求め、ブロツク単位のゆう度を求め、さらにこの
ブロツク単位のゆう度を１認識単位にわたつて総
合してその認識単位に関する全体のゆう度とす
る。そして全体のゆう度の一番大きな認識単位を
認識結果とする。

この発明ではラベルの出力される確率の記述が
極めて単純であるため、それを学習により求める
のも簡単であるし、認識時の計算も簡単である。
マツチングは基本的には線型であるけれど、時間
的なゆらぎを確率的な表現の採用により吸収する
ことができ、時間的なゆらぎに起因する誤認識を
抑えることができる。

Ｅ実施例以下、この発明を不特定話者の孤立発声単語音
声認識システムに適用した一実施例について図面
を参照しながら説明しよう。

第１図はこの一実施例を全体として示してお
り、この第１図において、音声データがマイクロ
ホン１および増幅器２を介してアナログ・デジタ
ル（Ａ／Ｄ）変換器３に供給される。音声データ
としては学習用データと未知単語データとがあ
る。Ａ／Ｄ変換器３は音声データを8KHzでサン
プリングしてデジタル・データに変換する。この
デジタル・データは特徴量抽出装置４に供給さ
れ、LPC分析により特徴量に変換される。この
特徴量は14n秒ごとに生成されてラベル付装置５
に供給される。ラベル付装置５はプロトタイプ辞
書６を参照してラベル付けを行つていく。すなわ
ちプロトタイプ辞書６にはラベル・アルフアベツ
ト｛f_i｝とこれに対応する特徴量のプロトタイプ
とが表示されており、入力特徴量と最も近いプロ
トタイプを有するラベルf_iが判別されて出力され
ていく。なお、ラベル・アルフアベツトの要素数
はたとえば32であり、ラベルのプロトタイプは20
秒の発声中の特徴量をランダムにサンプリングし
て得る。

ラベル付装置５からのラベルf_iは切替手段７を
介して学習装置８または認識装置９に供給され
る。切替手段７の入力端７ｃは学習時には学習装
置８がわの切替端子７ａに接続され、認識時には
認識装置９がわの切替端子７ｂに接続されるよう
になつている。学習装置８は学習用データから得
たラベル系列を処理して予備選択テーブル１０お
よび確率テーブル１１をそれぞれ確定する。予備
選択テーブル１０は認識対象語彙中の単語w_jを
時間軸に沿つて等分して得たブロツクb_jkにおい
てラベルf_iの各々が出力される確率ｐ（ｉ、ｊ、
ｋ）を表示するものである。なお、実際には計算
の適宜上確率テーブル１１には確率ｐにかえて
log ｐが表示されている。

認識装置９は予備選択テーブル１０および確率
テーブル１１を参照しながら未知単語の発声から
得られたラベル系列を処理し、後に詳述する２段
階の認識動作を実行して認識結果を得る。この認
識結果はたとえば陰極線管１２上に表示される。

なお、一点鎖線のブロツク１３で囲まれた部分
は実際にはパーソナル・コンピユータたとえば
IBM社製のPC XT上にソフトウエアとして実現
されている。ハードウエアで実現する場合には、
一点鎖線のブロツク１３中の実線のブロツクから
なる構成を採用すればよい。これらブロツクはソ
フトウエアの機能の各々に対応するものであり、
それぞれの詳細な説明は第２Ａ図、第２Ｂ図また
は第３図の対応するステツプの説明に譲ることと
する。なお、理解を容易にするために、実線のブ
ロツクには第２Ａ図、第２Ｂ図または第３図の対
応するステツプと同一の番号を付した。

また一点鎖線のブロツク１４で囲まれた部分は
パーソナル・コンピユータに付加される信号処理
ボードにより構成することができる。

つぎにこのシステムの学習について第２Ａ図お
よび第２Ｂ図を参照しながら説明しよう。なお、
このシステムは不特定話者用であるので、複数人
たとえば10人〜数10人の学習話者の発声に基づい
て学習を行う。各話者は順番に学習用データを入
力していく。具体的な態様では話者は認識対象語
彙中の単語w_jの各々について一度に複数個たと
えば３つの発声を行つていく。

学習では、まず単語w_jのブロツクb_jk別に学習
用データにおけるラベルf_iのヒストグラムｈ（ｉ、
ｊ、ｋ）を求める。第２Ａ図はこのヒストグラム
ｈ（ｉ、ｊ、ｋ）の生成手順を示す。第２Ａ図に
おいて、最初にすべての単語w_jの最大発声長Ｌ
（ｊ）、最小発声長ｌ（ｊ）およびｊの初期設定が
行われる（ステツプ15）。すなわちＬ（ｊ）＝−∞、
ｌ（ｊ）＝＋∞、ｊ＝０とされる。つぎに単語w_j
を３度発声するように陰極線管１２（第１図）上
に表示がなされ（ステツプ16）、これに応じて話
者が発声を行う。この発声に対し、順次Ａ／Ｄ変
換、特徴量抽出およびラベル付処理が行われる
（ステツプ17〜19）。こののち必要であれば最大発
声長Ｌ（ｊ）および最小発声長ｌ（ｊ）の更新が行
われる（ステツプ20）。すなわち今回の３個の発
声のうち最長のものが最大発声長Ｌ（ｊ）より長
ければ、その値を新しい最大発声長Ｌ（ｊ）とす
る、同様に今回の３個の発声のうち最小のものが
最小発声長ｌ（ｊ）より短かければ、その値を新
しい最小発声長ｌ（ｊ）とするのである。

つぎに発声長の正規化およびブロツク・セグメ
ンテーシヨンを各発声について行う（ステツプ21
および22）。発声長の正規化は１個の発声に含ま
れるラベルの個数を所定の数Nf（＝No×Nb、
Noは正の整数、Nbはブロツクb_jkの個数）にし、
単純にブロツク・セグメンテーシヨンを行えるよ
うにするものである。もちろん、ラベルの単位で
なく、それより小さな単位でセグメンテーシヨン
を行つてもよいけれども、そのようにするとヒス
トグラムの計算が複雑になるきらいがある。具体
的な例では、ブロツクの個数Nbを８とし、正の
整数Noを10とし、１個の発声が80個のラベルを
含むように正規化を行つている。これを第４図に
示す。第４図の例は発声長正規化前の発声が90個
のラベルを含む場合を示している。第４図から理
解されるように正規化前のラベルはスキツプされ
ることがある。具体的な例では、正規化後の時刻
ｔ（＝０〜79、時間の単位はラベルの発生する間
隔である）のラベルｆ（ｔ）は、＝「（ｔ×
90）／80＋0.5」として、正規化前の時刻のラ
ベルｆ（）となつている。ここで「α」はαの
小数点以下を切り捨てることを示す。上の式を模
式的に示せば第５図に示すようになる。上の式は
一般化して＝「（ｔ×_f）／N_f＋0.5」で表わさ
れる。ただし、N_fは正規化後のラベル数、_fは
正規化前のラベル数である。なお第４図は_f＝
90であり、_f＞N_fであるけれど、_f≦N_fでもよ
い。

ブロツク・セグメンテーシヨンは第６図に示す
ように正規化後の発声をブロツクb_jkに等分する
ことである。

以上のステツプ16〜23は認識対象語彙中のすべ
ての単語w_jについて実行される（ステツプ24お
よび25）。第２Ａ図のヒストグラム生成の手順は
一人の話者に関して示されている。この手順を複
数の話者に対して実行することにより、特定の話
者に傾よることのないヒストグラムｈ（ｉ、ｊ、
ｋ）を生成することができる。

このようにして特定話者に傾ることがないヒス
トグラムｈ（ｉ、ｊ、ｋ）を作成したのちこれを
正規化して単語w_jのブロツクb_jkでラベルf_iを出力
する確率ｐ（ｉ、ｊ、ｋ）を第２Ｂ図に示すよう
に計算する（ステツプ26）。確率ｐ（ｉ、ｊ、ｋ）
はｐ(i、j、k)＝ｈ（ｉ、ｊ、ｋ）／〓〓（ｉ、ｊ、ｋ
）により求める。

なお、第２Ａ図のブロツク・セグメンテーシヨ
ンおよびヒストグラム計算のステツプ22および23
はたとえば第７図に示すように行うことができ
る。第７図はブロツクb_jkの個数を８、ブロツク
b_jk内のラベルf_iの個数を10とした場合を示してい
る。第７図においてc₁およびc₂はカウンタの値を
示し、当初ゼロにされている（ステツプ27）。c₁
はラベルが到来する都度＋１増分され（ステツプ
29）、10に達するとゼロにリセツトされる（ステ
ツプ31）。c₂はc₁がリセツトされる都度＋１増分
される（ステツプ31）。ステツプ30および32でそ
れぞれブロツクb_jkの区切りおよび発声の終端を
判別しながら、時刻ｔ＝10c₂＋c₁ごとにヒストグ
ラムｈ（ｉ（10c₂＋c₁）、ｊ、c₂）を＋１増分する。
なお、ｉ（ｔ）は時刻tt（ｔ＝０〜79、時間の単位
はラベルの発生する間隔である）におけるラベル
番号を示す。

つぎに未知入力の認識について第３図を参照し
ながら説明しよう。

第３図において未知単語ｘのデータが入力され
ると（ステツプ33）、このデータが順次Ａ／Ｄ変
換、特徴量抽出およびラベル付け処理を施される
（ステツプ34、35および36）。こののち未知単語ｘ
の発声長が判別され（ステツプ37）、後段の予備
選択ステツプ40で用いられる。また未知単語ｘの
発声長は第２Ａ図のステツプ21と同様の手法で正
規化される（ステツプ38）。

予備選択ステツプ40では具体的には未知単語の
発声長Length（ｘ）に対し単語w_jがｉ(j)・(1-Δ)＜Length（ｘ）＜Ｌ（ｊ）・（１＋Δ）を満たすかどうかを予備選択テーブル１０（第１
図）を参照して判別する。なおΔは小さな値であ
り、たとえば0.2である。もし、この条件が満た
されない場合には単語w_jを認識結果の候補から
外すように、ゆう度を−∞とする（ステツプ43）。
条件を満たす場合には未知単語ｘの発声を第２Ａ
図のステツプ22と同様にブロツクb_jkに分割し
（ステツプ41）、こののちゆう度計算を行う（ステ
ツプ42）。未知単語ｘに対する単語w_jのゆう度
LH（ｊ）は LH（ｊ）＝_T 〓^t=0 log ｐ(i(t)、j(t)、k) で求められる。

以上のステツプ40〜43はすべての単語w_jにつ
いて実行され（ステツプ39、44および45）、すべ
ての単語w_jのゆう度LH（ｊ）が求まる。このの
ち最大のゆう度LH（ｊ）を有する単語が認識結
果として出力される（ステツプ46）。

なお、この発明は上述実施例に限定されるもの
でなくその趣旨を逸脱しない範囲で種々の変更が
可能である。たとえば上述実施例パーソナル・コ
ンピユータ上にソフトウエアとして実現されてい
るけれども、ハードウエアにより実現するように
できることはもちろんである。

また、上述実施例はバンキング・システムや地
下鉄案内システム等を念頭においた不特定話者の
音声認識であるけれども、特定話者用のシステム
としてもよいことはもちろんである。

また認識精度を向上させるためにスムージング
処理を施こすようにしてもよい。たとえばラベル
の出力確率がゼロの場合にはε＝10^-7程度の値で
置き換えたり、ラベル間のコンフユージヨンを考
慮してヒストグラムを計算しなおすようにしても
よい。

Ｆ発明の効果以上説明したように、この発明によれば、ラベ
ルの出力確率を極めて単純に表現しているので、
その学習を簡易に行え、また認識時の計算量も小
さく抑えることができる。また時間的なゆらぎに
起因するエラーを確率的な表現の採用により吸収
することができるので誤認識を抑えることができ
る。

【図面の簡単な説明】

第１図はこの発明の一実施例を全体として示す
ブロツク図、第２Ａ図および第２Ｂ図は第１図の
学習装置８を説明するためのフローチヤート、第
３図は第１図の認識装置９を説明するためのフロ
ーチヤート、第４図、第５図、第６図および第７
図は第２Ａ図の要部を説明する図である。５……ラベル付装置、１０……予備選択テーブ
ル、１１……確率テーブル、４１……ブロツク・
セグメンテーシヨンのブロツク、４２……ゆう度
計算のブロツク。

Claims

【特許請求の範囲】１音声を信号処理装置で所定の微小時間間隔ご
とに量子化し、量子化した音声データに応じたラ
ベルを生成して音声認識の前処理を行う音声認識
装置において、認識語彙中の単語の各々を所定の比率でＮ分割
（Ｎは２以上の整数）して形成される上記単語の
各々の単語部分の各々において上記ラベルの各々
が生じるラベル出力確率を記憶する記憶手段と、未知入力音声に応じて生成されたラベル系列を
上記所定の比率でＮ個のラベル系列部分に分割す
る手段と、上記レベル系列中のラベルごとに、その属する
ラベル系列部分に対応する上記単語部分の上記ラ
ベル出力確率を上記記憶手段から取り出し累積し
て尤度を計算する手段と、上記尤度が最大になる上記単語を認識結果とす
る手段とを有することを特徴とする音声認識装
置。２上記未知入力音声の長さに応じて上記認識結
果の候補を予備選択する予備選択手段を有する特
許請求の範囲第１項記載の音声認識装置。３上記尤度を計算する手段は上記単語に関して
取り出された確率値の対数の和を計算して上記尤
度を得る特許請求の範囲第１項記載の音声認識装
置。