JPH02150899A

JPH02150899A - 音声認識方式

Info

Publication number: JPH02150899A
Application number: JP63305789A
Authority: JP
Inventors: Tsuneo Nitta; 恒雄新田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1988-12-02
Filing date: 1988-12-02
Publication date: 1990-06-11
Also published as: DE68924134D1; EP0372400A3; EP0372400A2; DE68924134T2; CA2004435A1; CA2004435C; US5133012A; EP0372400B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

［発明の目的］（産業上の利用分野）本発明は入力音声を高精度に認識することのできる音声
認識方式に関する。（従来の技術）近時、音声の認識処理に対する研究が種々進められてお
り、その認識性能の向上には目覚ましいものがある。こ
の音声認識処理は、基本的には入力音声を音響分析して
その特徴パラメータを求め、この特徴パラメータと音韻
辞書との照合により複数の候補からなる音韻系列とその
音韻系列を得た類似度とを求め、この音韻系列から単語
を識別処理することにより行われる。このような音声認
識処理の一方式として、例えば本発明者等が先に提唱し
た特願昭８１−２２７９８１号等に示すように、上記音
韻系列を予め単語毎に作成された遷移ネットワークを通
して単語照合を行う音声認識方式がある。第４図はこのような音声認識処理の処理手続きを示す図
である。この図に示されるように、入力音声はまず音響
分析部１にてＢＰＦ　（バンドパス・フィルタ）分析、
或いはＬＰＧ　（線形予測）分析されてその特徴パラメ
ータが求められた後、音声セグメント抽出部２に与えら
れて音声セグメント辞書３に予め登録された各音声セグ
メントの標準パターンと照合される。尚、音声セグメン
トとしては、音素や音節、ＶＣＶ（Ｖ；母音、Ｃ；子音
）、或いはこれらの複合単位が用いられることが多い。この音声セグメント照合によって、複数の候補からなる
音声セグメント系列（以後、セグメント・ラティスと呼
ぶ）が求められ、その類似度と共に単語照合部４に与え
られる。しかして単語照合部４では上記セグメント・ラティスか
ら単語を識別処理する。具体的には単語辞書５に格納さ
れている各単語についての遷移ネットワークを順に読出
し、この遷移ネットワークに上記セグメント・ラティス
を通すことにより、そのセグメント・ラティスが示す入
力音声に該当する単語を候補単語として求める。そして
各候補単語についてそれぞれ求められるスコアから最適
単語を認識結果として求めることにより、その処理を進
める。具体的には、例えば第７図に示すように求められた入力
音声のセグメント系列に対して、そのセグメント系列の
候補が第５図および第６図に示すような遷移ネットワー
クを通過するか否かを調べて単語照合するものとなって
いる。ここで第７図に示す入力音声のセグメント系列は、単語
音声「いいえ」を発声した際のパワー系列、スペクトル
パターン系列、第１位から第５位までの音声セグメント
系列を示したものである。尚、ここで用いられている音声セグメントは、（０）か
ら（９）までの数字と「はい、いいえ。もう−度、どうぞ、訂正、おわり」とからなる１６単語
音声に対する次のようなセグメントからなる。

【１】音響特徴セグメント無音（Ｑ）、Ｂｕｚｚ　（先行声帯音）、無声音（Ｆ）

【２】持続性セグメント母音定常部、摩擦子音部などＡＡＩＡ、　ＡＡ２Ａ、　ＩＩＩＡ、　ｌ１２Ａ、　ｌ
ｌ３Ａ、　ＩＸＩＡ、　ＵＵＩＡ。ＵＵ２Ａ、　ＵＸＩＡ、　ＥＥＩＡ、　ＥＥ２Ａ、　０
ＯＩＡ、　００２＾、　ＮＮＩＡ。ＮＮ２Ａ、　５ＳＩＡ、　ＩＩＨＤ、　ＸＬＩ＾、　Ｘ
ＮＩＡ、　ＢＺＩＡ、　Ｘ、ＸＩＡ

【３】子音セグメン
ト子音部と母音への渡りを含む区間ＱＩＩＣ，ＱＯＩＣ，ＫＩＪＩＣ，５ＡＩＤ、　５ＥＩ
Ｄ、　Ｃｒ１Ｄ、　ＴＥＩＣ。ＮＡＩＢ、　ＮｌＩＣ，ＩＩＡＩＣ，ＭＯＩＢ、　ＲＩ
２Ｂ、　ＲＯＩＢ、　ＲＯ２Ｂ。ＧＯＬＤ、　ＺＥＩＤ、　ＺＯ２Ｃ，ＤＯＩＣ，ＤＯ２
Ｃ，ＱＹＩＤ、　ＫＹＩＤ

【４】音節境界セグメント母音境界ＡｌＩＣ，ＡＮＩＡ、　ＩＥＩＣ，ＥＩＩＣ，０ＩＩＣ
。０ＮＬＡ、　０ＵＩＣ，ＹＵＩＤ、　ＹＯＩＤ母音−子
音境界ＡＮ２＾、　ＡＲＩＡ、　ＩＤＩＡ、　Ｅｌ？ｌＡ、　
ＥＳＩＡ、　０ＺＩＡ母音−無音境界ＡＱＩＡ、　　ＩＱＩ＾、　　ＵＱＩＡ、　　ＥＱＩＡ
、　　０ＱＩＡ、　　ＮＱＩＡ

【５】その他のセグメン
ト母音の脱落や上記

【１】〜

【４】に示すセグメント以外
の変形に対応するセグメントＫＱＩＣ，ＡＱＩＢ、　ＱＩＸＣ尚、これらのセグメント名の最後に示す英記号は、各セ
グメントを構成する音声パターンのパラメータ次元数と
そのフレーム数とを示すもので、Ａ鞠（１６，４）　、
Ｂ−（１２，８）　、Ｃ−（１０，８）　、Ｄ−（８，
１０）である。しかして単語照合は上述した音声セグメントによって示
される音声セグメント系列を単語毎に作成されて単語辞
書５に格納されている遷移ネットワークにそれぞれ通す
ことにより行われる。即ち、各単語についての遷移ネッ
トワークは、単語の音素列から容易に記述できる標準的
なバスや、無声化などに対応した分岐のほか、音声パタ
ーンの変形が大きい場合にも正解が得られるように、学
習データに現れた変形を表現した分岐が用意されている
。また遷移ネットワークに対する探索がベストファース
ト（ｂｅｓｔ　ｆ’Ｉｒ５ｔ）的に行えるように、変形
の大きな分岐はど、その探索順序は後方におかれている
。第５図は認識対象とする単語「いいえ」の遷移ネットワ
ークを示すものである。上述した第７図に示す音声セグ
メント系列をこの遷移ネットワークに通した場合には、
最初に無音から「い」に渡る音声セグメントを示す“Ｑ
ｌ”　（第７図における第５．第６フレームに相当）が
現れるので、ネットワークにおける状態ＳＯから状態８
１へのバスが形成される。続いて持続的な「い」を示す
“１１″が一定フレーム以上継続するので（第７図にお
ける第７〜第２３フレームに相当）、状態８１からのバ
スにより状態Ｓ２へと遷移する。そして最後に「え」に
相当する“ＥＥ“が一定フレーム以上続くことから（第
７図における第２４〜第４０フレームに相当）、状！！
３３２からのバスによって状態Ｓ３へと遷移し、単語の
終端（第７図における第４１フレームに相当）に到達し
て、単語「いいえ」の探索を終了する。この「いいえ」
についての遷移ネットワークの通過により、入力音声が
単語「いいえ」であるとの照合結果が求められる。ところがこの第７図に示す音声セグメント系列の例では
、上述した「いいえ」についての遷移ネットワークのみ
ならず、第６図に示すような数字単語「２（に）」につ
いての遷移ネットワークをも通過する。これを具体的に
見ると、最初に「に」の先頭の“Ｎ１°　（第７図に示
す第９〜第１１フレームに相当）が現れ、ネットワーク
の状態がＳｏから状態Ｓ１へと遷移する。続いて継続的
な母音「い」に相当する“ＩＩ“が一定フレーム数以上
現れるので（第７図における第１２〜第３９フレームに
相当）、上記状態Ｓ１からのバスによって状態Ｓ２へと
遷移し、最後に母音「い」から無音へ渡るセグメント“
ＩＱ”を経て、その単語終端に達する。この結果、入力
音声が単語ｒ２（Ｅ）Ｊを示しているとの単語照合結果
も得られることになる。従って各単語についての遷移ネ
ットワークの探索だけからは複数の単語候補が出現し、
人力音声を高精度に単語照合することができなくなる。そこで従来では全ての単語について探索（遷移ネットワ
ーク処理）を終了したとき、各単語についてのスコアを
それぞれ計算し、これらのスコアを相互に比較すること
により最終的な照合結果を求めることが試みられている
。例えば「いいえ」については音声セグメント″Ｑｌ’
　　“１１“　”ＥＥ”についてそれぞれ求められてい
る類似度の最大値を平均した値をスコアとして求め１、
また「に」については“Ｎｌ”　　“１１“からなる２
つのセグメントの各類似度の最大値を平均した値をスコ
アとして求め、これらのスコア比較することによりその
最終的な判定を行なうことが試みられている。然し乍ら、上述した単純なスコアの計算だけでは「いい
え」に比べて「に」のスコアが大きくなることがあり、
入力音声を「に」であると誤判定してしまう虞れがあっ
た。つまり音声セグメント系列全体のスコアによる判定
だけでは、類似した単語間に生じる誤りを防ぐことは難
しいと云う問題があった。即ち、上述した音声認識処理
の過程において類似した複数の単語が候補単語として求
められた場合、各候補単語にどのようなスコア付けを行
なうかによってその認識性能が大きく左右されると云う
問題があった。しかして従来、各音声セグメントのスコア（類似度や距
離値）から単語のスコアを計算する手法として、代表的
には ■　音声セグメントのスコアの統計的な分布から各音声
セグメントの尤度を計算し、その累積値を単語スコアと
する手法。 ■　入力された複数の候補を含む音声セグメント系列を
もとに各音声セグメントの環境を考慮して単語スコアを
計算する手法とが知られている。上記■の統計的な分布から単語スコアを計算する手法は
、音声セグメントの出現確率を求めるベイズ決定法や、
電子情報通信学会論文誌　’８８／９Ｖｏ１．Ｊ７１−
Ｄ　Ｎａ９　　ｒ単語遷移ネッ・トワークと音声セグメ
ントの選択的スコアリングによる連続単語認識」に述べ
られるような最大類似度を用いたスコアリングの手法が
知られている。また■のセグメント環境を考慮して単語
スコアを計算する手法としては、アーティフィシャル学
インテリジェンス［Ａｒｔｌｆｌｃｌａｌ　　Ｉｎｔｅ
ｌｌｉｇｅｎｃｅｌ　　Ｖｏ！、１８　　Ｎｏ、３　　
（１９８２゜Ｍａｙ）　ｒオブティマル・サーチ・スト
ラテジイズ赤フォー・スピーチ・アンダースタンディン
グ・コントロール［Ｏｐｔｌｍａｌ　５ｅａｒｃｈ　Ｓ
ｔｒａｔｅｇｉｅｓ　ｆ’ｏｒＳｐｅｅｃｈ　Ｕｎｄｅ
ｒｓｔａｎｄｌｎｇ　Ｃｏｎｔｒｏｌ］　Ｊに紹介され
るように、入力セグメント中の最大のスコアを持つセグ
メントの値で、各セグメントのスコアを正規化するショ
ートフォール争スコアリング法して知られている。このようなスコアリングの手法は、前者■の場合、大量
のデータからの統計的な類似・どの分布を利用している
ことから長期的な観点に立脚したスコアリング戦略と云
え、また後者■の場合には各音声セグメントがおかれて
いる環境状態に基づいていることから短期的な観点に立
脚したその時点では最良のスコアリング戦略であると云
える。ところが実際にこれらの手法を音声認識に適用した場合
、前者■の手法では出現頻度の少ない単語の入力音声区
間における語頭や語尾に対応する部分てセグメントのス
コアが低くなる傾向がある為、正解単語に対するスコア
が小さくなり、この結果、誤認識が生じ易くなると云う
不具合がある。また後者■の手法を適用した場合には、上述した不具合
が解消されるものの、音声の過渡的な区間に対応する部
分に沸出すことの多いセグメントのスコアが大きく評価
され易くなり、この結果、誤認識の原因となると云う不
具合が生じ易かった。（発明が解決しようとする課題）このように従来の音声認識方式にあっては、音響分析お
よび音声セグメント抽出によって求められた入力音声の
セグメント・ラティスを単語毎に準備された遷移ネット
ワークを通して単語認識する際、その認識処理の過程で
複数の類似単語候補にどのようにスコアリングするかに
よって認識性能が大きく左右され、例えば出現頻度の少
ない単語や音声の過渡的な区間に対応する部分に沸出す
ことの多いセグメントに対して如何に対処するかと云う
点で大きな課題が残されている。本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、スコアリングの手法の改善を図
り、これによって単語認識率を高めるようにした高性能
な音声認識方式を提供することにある。［発明の構成］（課題を解決するための手段）本発明に係る音声認識方式は、入力音声信号を音響分析
し、この音響分析により求められた上記人力音声信号の
特徴パラメータから複数の候補音声セグメントを抽出し
た後、これらの候補音声セグメントを単語毎に作成され
た遷移ネットワークを通して単語照合を行うようにした
音声認識方式において、遷移ネットワークを用いた単語照合時に、セグメントの
類似度または距離値の統計的な分布を考慮して求められ
る、例えばセグメントの出現確率に基づいて、或いは最
大類似度正規化法を用いて求められる長期的戦略スコア
と、人力セグメント系列の中におけるセグメントの環境
を考慮して、例えばショートフォール・スコアリング法
を用いて求められる求められる短期的戦略スコアとを用
い、例えばこれらの長期的戦略スコアと短期的戦略スコ
アとを荷重平均する等して各候補単語についての単語選
択の為のスコア付けを行なうようにしたことを特徴とす
るものである。（作　用）このようなスコアリングの手法を導入した本方式によれ
ば、例えばセグメントの出現確率に基づいて、或いは最
大類似度正規化法を用いて求められる統計的な分布を考
慮した長期的戦略スコアと、例えばショートフォール・
スコアリング法を用いて求められる求められる入力セグ
メント系列の中におけるセグメントの環境を考慮した短
期的戦略スコアとを用いて各候補単語をそれぞれスコア
リングするので、長期的戦略スコアが低くなり易い出現
頻度の低い単語であり、でも、一般的には短期的戦略ス
コアが高くなることからその誤認識を防ぐことが可能と
なる。また音声の過渡的な区間に対応する部分に沸出す
ことの多いセグメントを持つ候補単語で短期的戦略スコ
アからだけではスコアが高くなる場合あっても、長期的
戦略スコアの導入によりそのスコアを低く抑えることが
できるので、上記候補単語に対する誤認識の発生を抑え
ることが可能となる。具体的には第７図に示す入力音声「いいえ」にあっては
、前述したように単語「いいえ」の遷移ネットワークと
、単語「２（に）」の遷移ネットワークのそれぞれを通
ることがある。このときショートフォール・スコアリン
グ法を採用した場合には、「いいえ」については音声セ
グメント［ＱＩ］。［＋１］、　［ＥＥ］のそれぞれの類似度と、同じフレ
ームの第１順位のセグメントの類似度との差の最大値を
平均した値がそのスコアとして求められ、同様にして「
に」ついては音声セグメント［旧］、　［１１］のそれ
ぞれの類似度と、同じフレームの第１順位のセグメント
の類似度との差の最大値を平均した値がそのスコアとし
て求められる。そしてこれらの最大値を平均した値（ス
コア）を相互に比較することで前記入力音声の単語識別
が行なわれることになるが、例えばこの場合には「いい
え」のスコア［−０，１］に比較して「に」のスコア［
０，０１の方が大きくなり、入力音声ｒいいえ」が「に
」として誤認識されることがある。しかしこの入力音声「いいえ」に対して長期的戦略スコ
アリングの１つである最大類似度正規化法を用いた場合
には、例えば音声セグメント［ＱＩ］。［＋１］、　［ＥＥ］の各類似度の最大値を予め求めら
れている最大類似度値で正規化した値を平均した値と、
音声セグメント［Ｎ１１．　Ｅｌ＋］の各類似度の最大
値を同じく予め求められている最大類似度値で正規化し
た値を平均した値とをそれぞれのスコアとして比較する
ことになるので、確実に上記人力音声「いいえ」を単語
「いいえ」として認識することが可能となる。これに対して単語音声「２（に）」を発声した場合、上
述した例とは逆に「２．（に）」の遷移ネットワークを
通過することのみならず、「いいえ」の遷移ネットワー
クをも通過する。このような場合、上述したショートフ
ォール・スコアリング法を採用することで正解が得られ
るが、反対に最大類似度正規化法を適用した場合、例え
ば「に」のスコア［−６，８］に比較して「いいえ」の
スコア［−２゜８］の方が大きくなり、この結果、「い
いえ」と誤認識される可能性がある。この点、本方式では上述した長期的戦略スコアと短期的
戦略スコアとを用い、例えば単語（ｋ）についてのスコ
アＱ　（ｋ）をＱ　（ｋ）　　−μ　Σ　　（Ｓｉ−Ｓｌｌ）＋　　（
１−μ）　　Σ　　（Ｓ　　１　−　　Ｓ　５ａｘｉ）
として両者を所定の重み係数μ（０≦μ≦ｌ）の下で荷
重平均して求めるので、上記長期的戦略スコアが持つ不
具合と短期的戦略スコアが持つ不具合とを相互に補った
スコアを求めることが可能となる。この結果、総合的に類似単語間での誤認識の発生を抑え
、その認識性能の向上を図ることが可能となる。（実施例）以下、図面を参照して本発明の一実施例に係る音声認識
方式につき説明する。第１図は実施例方式を適用して実現される音声認識装置
の概略構成を示すもので、基本的には第４図に示した従
来装置と同様に構成され、単語照合部４で求められる複
数の候補単語について、単語評価部６にて最大類似度テ
ーブル７を参照して上記各候補単語に付されたスコアの
値から認識結果としての単語を選択決定するように構成
される。第１図において音響分析部１は入力音声を、例えば８　
ＫＨｚのサンプリング周波数で１２ビツトのディジタル
データにＡ／Ｄ変換した後、その音声パワーとＬＰＧ分
析パラメータを計算している。この音響分析部ｌにおける音響分析処理は、例えば窓長
を３２５ｓｅｃ、フレーム周期を１０１１Ｓｅｅ、分析
次数を１２次、ＬＰＧパワースペクトラムおよびＬＰＧ
メルケプストラムの項数をそれぞれ１６として行われる
。音声セグメント抽出部２は、音声セグメント辞書３に音
声セグメント単位に用意した直交化辞書セットと前記音
響分析部ｌで求められた人力音声の特徴パラメータとの
間で、その類似度の計算を時間軸に対して連続的に行い
、音声セグメント系列を求める。具体的には次に示すよ
うな複合ＬＰＧメルケブストラム類似尺度を用いて音声
セグメントの系列が求められる。（Ｋｌ）尚、ＣはＬＰＧメルケブストラムであり、λ　瀾。 φ（ＫＡ？よそれぞれセグメント名に１の固有値とその
固有ベクトルである。また（　　　）は内積を示し、１
１１１はノルムを示している。しかしてこのように求められる音声セグメント系列は前
記第７図に示すような第１位から第５位までのセグメン
ト名ＬＣＡＴ（Ｎ１．Ｊ）と、そのセグメント名ＬＣＡ
Ｔ（旧、Ｊ）を得た類似度値ＬＳＩＭ（Ｎ１．Ｊ）とに
よって示される。尚、上記Ｎ１は（１〜５）の値を取る
セグメント順位である。またこの音声セグメント抽出部２では前記音響分析部ｌ
で求められている音声パワー、パワースペクトラムとＬ
ＰＧメルケブストラムの１次の項から、無音［Ｑ（Ｊ）
コ、声帯音区間［Ｂ（Ｊ）コ、無声［Ｆ（Ｊ）］　、パ
ワーの谷［Ｄ（Ｊ）］の各音響特徴系列をそれぞれ抽出
しており、これらのセグメント情報を上記セグメント系
列（セグメント名ＬＣＡＴ（旧。ｊ）、およびその類似度値ＬＳＩ旧旧、Ｊ）　；　Ｎｌ
は１〜５からなる順位）と共に単語照合部４へ送ってい
る。尚、ここでは音声セグメント系列と呼ぶ際は、特に断り
のない限り上記音響特徴系列を含むものとする。しかして単語照合部４は、認識対象とする各単語の遷移
ネットワークを前記単語辞書５から読出し、この遷移ネ
ットワークに前記音声セグメント系列を通すことによっ
て逐次単語照合を行う。ここで各単語についての遷移ネ
ットワークの一般的構造を第２図を参照して説明すると
、状態Ｓｒｓにおける遷移条件Ｃ（ｓ）はＣ（＋）　−（Ｌｌｌ（ａ）　、　Ｔ目（ｍ）　、　Ｌ
ＯＩ（１１）　。ＬＭＳＫｉ（１）、　　Ｌ２１（１）、　　Ｔ２１（膳
）。Ｌ　３１（■）、　　Ｔａ２（１）、　　Ｔφ（ｍ）。ＮＩＸ（膳）　　　　　　　　　　　　　　　　　　　
　）として与えられる。遷移条件Ｃ（ｓ）は時刻Ｈにお
いて、先ず入力音声セグメント系列Ｑ（月）、Ｂ（Ｊｌ
）。Ｐ（Ｊ　ｔ）　、Ｄ（Ｊ　ｌ）　、　オヨびＬＣＡＴ（
Ｎ１．Ｊｌ）　（７）　Ｎ１−１．ＮＩＸ（７）範囲の
セグメントに対して、以下の探索を行うことを示してい
る。（１）　　セグメントＬ　１１（１）　　［１−１，２
，・・・］が、セセグメント系列（ｍ）よりも上位にあ
り、且つセグメントＬ　ＭＳＸＩ（ｓ）も存在しないフ
レームが連続してＴ　１１（ｓ＋）個あるとき、状態Ｓ
ｓから状態Ｓｍ＋１への遷移が許される。ここでセグメ
ントＬｏｔ（１）としては、通常、１つ前の状態Ｓ−一
１で指定されたセグメントＬ　１１（■）が使用される
。尚、セグメントＬＯ１（ｓ）　、　　ＬＭＳＫＩ（麿
）　、　　Ｌ３１（ｉ）は空の場合もあり得る。（２）　　次に上記条件を満足しない場合は、状態Ｓ１
から出ている他のバスを時計方向に辿りながら、その状
ＢＳ厳に止まれるか否かをチエツクする。この際、セグ
メントＬ　２１（１）　　［一般的にはセグメントＬ　
０１（層）と同じセグメント］についてはＴ２１（−）
回、セグメントＬ　３１（ｓ）についてはＴａ２（１）
回までそれらのバスを通して自分自身の状態Ｓ１１に戻
ることができるようになっている。また遷移φは無条件にその状態に止まれることを意味す
るが、それが許される回数（Ｔφ（１））は各状態毎に
制限されている。そして状態遷移の後は、次のフレーム」ｌ＋１へ進み、
遷移ネットワークに対する探索を続行する。また自分自身の状態Ｓ■への遷移も許されない場合は、
その探索を打ち切り、次の単語の照合へ向かう。尚、この遷移ネットワーク探索の途中では、各状態毎に
以下に述べるスコアと時刻の値を保持する。即ち、セグ
メントＬ　１１（ｓ）　、　Ｌ　２１（ｍ）のバスを通
る際には、例えば類似度値に等しい各々のスコア５ＣＲ
Ｉ　（Ｓ　ｓ）、　５ＣＲ２（Ｓ　ｍ）　［１つ前の状
態のスコア５ＣＲＩ　（Ｓ履−１）に対応する］を計算
し、その最大値を保持する。尚、スコア５ＣＲ２（Ｓ謄
）がスコア５ＣＲＩ　（Ｓｓ）よりも大きい場合には、
その置換えが行なわれる。そしてその最大値を与えたフ
レームの第１順位のスコア（類似度）　５ＣＲＯ（Ｓ■
）と共に次段の単語評価部６に転送する。しかして単語評価部６は、前述したスコアリングの式に
従い、上記音声セグメントのスコアＳＣＲ１と第１順位
のセグメントのスコア５ＣＲＯ１、および最大類似度テ
ーブル７に登録されているスコア５ＣＲｉａｘ　Ｉを用
いて単語ｋについてのスコアをＱ　（ｋ）を計算する。即ち、前述したスコアリングの演算式について簡単に説
明すると、Ｓｌはスコア計算に関与する音声セグメント
の類似度を示しており、Ｎはその個数である。またＳｌ
ｉは類似度ＳＩの出現したフレーム、即ち、その音声セ
グメントが最大値をとるフレームにおける第１順位の音
声セグメントの類似度である。この式における第１項に
より、短期的戦略に立脚するショートフォール・スコア
が累積されて短期的戦略スコアが求められ、また第２項
にて長期的戦略に立脚して最大類似度にて正規化された
スコアが累積されて長期的戦略スコアが求められる。そ
してこれらの短期的戦略スコアと長期的戦略スコアとを
所定の重み係数μ（０≦μ≦１）の下で荷重平均するこ
とにより候補単語についてのスコアが計算されるように
なっている。具体的には各候補単語についての音声セグメントのスコ
アと、第１順位のセグメントのスコアとを順に５ＣＲＩ
、　５ＣＲＯＩ　　［１−１，２，〜、Ｎ］　とし、こ
れと最大類似度テーブル７にセグメント毎に準備されて
いる最大類似度スコア５ＣＲｓａｘ　ｉとから、例えば
重み係数μを［０，８５］として、単語ｋについてのス
コアＱ　（ｋ）をＱ（ｋ）　−０，８５Σ　（ＳＣＲＩ−８ＣＲＯＩ　）
＋０．１５Σ　　（ＳＣＲＩ−９ＣＲｍａｘｌ　　）と
して計算する。そしてこのようにして各単語についてそ
れぞれ計算されたスコアＱ　（ｋ）が相互に対比され、
その値が最大となる単語が認識結果として求められる。このようなスコアリングを行なって単語認識を行なう本
方式によれば、セグメントの類似度等の統計的な分布を
考慮して求められる長期的戦略コアと、入力セグメント
系列の中におけるセグメント環境を考慮して求められる
短期的戦略スコアの双方を用いて候補単語に対するスコ
アリングを行なうので、入力音声を高性能に認識するに
非常に適したスコアを得ることができ、誤認識の発生率
を効果的に抑えることが可能となる。具体的には、前述
した数字を含む１６単語の音声を対象とし、電話を通し
て収集した男性７５名の音声を用い、その内の５０名の
音声を認識辞書の学習に、残り２５名の音声をその評価
に用いたところ次のような実験結果を得た。この実験は
、前述した第１図に示す如く構成された装置を用い、先
ず学習試料から目視により先に提示した６６種の音声セ
グメントを切出し、その主成分分析により直交化辞書を
作成した。その後、上記学習試料に対して上記直交化辞
書との間で時間軸方向に連続してマツチングを行ない、
これによって得られたセグメント・ラティスを使用して
単語毎の遷移ネットワークを作成した。このような遷移
ネットワークを用い、前述したスコアリング法により重
み係数μを変えながらその認識結果を求めたところ第３
図に示すような実験結果を得た。尚、第３図において縦軸はエラー率を示し、横軸は荷重
平均の重み係数μを示している。Ｕ−Ｏは長期的戦略か
らのスコアリングである最大類似度正規化法だけを用い
た場合を示しており、μ−１は短期的戦略であるショー
トフォール・スコアリングだけを用いた場合を示Ｌ２て
いる。この実験結果から明らかなように本方式によるスコアリ
ング法によれば、長期的戦略スコアと短期的戦略スコア
とを組合わせて用いることにより誤認識の発生を抑え、
その認識性能を高め得ることが分る。特にこの実験結果
からは、重み係数μの値を［０，５〜０．９５１に定め
れば認識性能の向上を図り得ることがわかり、望ましく
は［０，８５〜０．９５］に設定すれば良いことがわか
る。このように本発明によれば、長期的戦略スコアと短期的
戦略スコアの双方を考慮して候補単語に対するスコアリ
ングを行なうので、類似単語間での誤認識の発生を効果
的に抑えることができる等の実用上多大なる効果が奏せ
られる。尚、本発明は上述した実施例に限定されるものではない
。例えば音声セグメントとしては音声学的に意味のある
セグメントを認識処理単位として定めれば良いものであ
り、孤立発声された単語音声のみならず、連続発声され
た単語音声を認識対象とすることも可能である。また長
期的戦略スコアと短期的戦略スコアとの組合せの手法も
上述した例（荷重平均）に限定されるものではない。そ
の他、本発明はその要旨を逸脱しない範囲で種々変形し
て実施することができる。［発明の効果］以上説明したように本発明によれば、候補単語に適切な
スコアを与えて音声認識における誤判定を少なくするこ
とができ、その認識性能の向上を図ることができる等の
多大なる効果が奏せられる。

【図面の簡単な説明】

第１図は本発明の一実施例に係る音声認識方式を適用し
た音声認識装置の概略構成図、第２図は実施例装置にお
いて用いられる遷移ネットワークの基本的な遷移条件を
示す図、第３図は実施例方式におけるスコアリング法を
用いた音声認識処理の実験結果を示す図、第４図は従来
一般的な音声認識装置の構成図、第５図および第６図は
異なる単語についての従来一般的な遷移ネットワークの
構造例を示す図、第７図は音声セグメント系列の例を示
す図である。 ■・・・音響分析部、２・・・音声セグメント抽出部、
３・・・音声セグメント辞書、４・・・単語照合部、５
・・・単語辞書（遷移ネットワーク）、６・・・単語評
価部、７・・・最大類似度テーブル。

Claims

【特許請求の範囲】

（１）入力音声信号を音響分析する手段と、この音響分
析により求められた上記入力音声信号の特徴パラメータ
から複数の候補音声セグメントを抽出する手段と、これ
らの候補音声セグメントを単語毎に作成された遷移ネッ
トワークを通して単語照合を行う手段とを備えた音声認
識方式において、遷移ネットワークを用いた単語照合時
に、セグメントの類似度または距離値の統計的な分布を
考慮して求められる長期的戦略スコアと、入力セグメン
ト系列の中におけるセグメントの環境を考慮して求めら
れる短期的戦略スコアとを用い、各候補単語についての
単語選択の為のスコア付けを行なうことを特徴とする音
声認識方式。
（２）長期的戦略スコアは、セグメントの出現確率に基
づいて、或いは最大類似度正規化法を用いて求められる
ものである請求項第（１）項記載の音声認識方式。
（３）短期的戦略スコアは、ショートフォール・スコア
リング法を用いて求められるものである請求項第（１）
項記載の音声認識方式。