JPH02150899A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPH02150899A JPH02150899A JP63305789A JP30578988A JPH02150899A JP H02150899 A JPH02150899 A JP H02150899A JP 63305789 A JP63305789 A JP 63305789A JP 30578988 A JP30578988 A JP 30578988A JP H02150899 A JPH02150899 A JP H02150899A
- Authority
- JP
- Japan
- Prior art keywords
- word
- score
- segment
- short
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
[発明の目的]
(産業上の利用分野)
本発明は入力音声を高精度に認識することのできる音声
認識方式に関する。 (従来の技術) 近時、音声の認識処理に対する研究が種々進められてお
り、その認識性能の向上には目覚ましいものがある。こ
の音声認識処理は、基本的には入力音声を音響分析して
その特徴パラメータを求め、この特徴パラメータと音韻
辞書との照合により複数の候補からなる音韻系列とその
音韻系列を得た類似度とを求め、この音韻系列から単語
を識別処理することにより行われる。このような音声認
識処理の一方式として、例えば本発明者等が先に提唱し
た特願昭81−227981号等に示すように、上記音
韻系列を予め単語毎に作成された遷移ネットワークを通
して単語照合を行う音声認識方式がある。 第4図はこのような音声認識処理の処理手続きを示す図
である。この図に示されるように、入力音声はまず音響
分析部1にてBPF (バンドパス・フィルタ)分析、
或いはLPG (線形予測)分析されてその特徴パラメ
ータが求められた後、音声セグメント抽出部2に与えら
れて音声セグメント辞書3に予め登録された各音声セグ
メントの標準パターンと照合される。尚、音声セグメン
トとしては、音素や音節、VCV(V;母音、C;子音
)、或いはこれらの複合単位が用いられることが多い。 この音声セグメント照合によって、複数の候補からなる
音声セグメント系列(以後、セグメント・ラティスと呼
ぶ)が求められ、その類似度と共に単語照合部4に与え
られる。 しかして単語照合部4では上記セグメント・ラティスか
ら単語を識別処理する。具体的には単語辞書5に格納さ
れている各単語についての遷移ネットワークを順に読出
し、この遷移ネットワークに上記セグメント・ラティス
を通すことにより、そのセグメント・ラティスが示す入
力音声に該当する単語を候補単語として求める。そして
各候補単語についてそれぞれ求められるスコアから最適
単語を認識結果として求めることにより、その処理を進
める。 具体的には、例えば第7図に示すように求められた入力
音声のセグメント系列に対して、そのセグメント系列の
候補が第5図および第6図に示すような遷移ネットワー
クを通過するか否かを調べて単語照合するものとなって
いる。 ここで第7図に示す入力音声のセグメント系列は、単語
音声「いいえ」を発声した際のパワー系列、スペクトル
パターン系列、第1位から第5位までの音声セグメント
系列を示したものである。 尚、ここで用いられている音声セグメントは、(0)か
ら(9)までの数字と「はい、いいえ。 もう−度、どうぞ、訂正、おわり」とからなる16単語
音声に対する次のようなセグメントからなる。
認識方式に関する。 (従来の技術) 近時、音声の認識処理に対する研究が種々進められてお
り、その認識性能の向上には目覚ましいものがある。こ
の音声認識処理は、基本的には入力音声を音響分析して
その特徴パラメータを求め、この特徴パラメータと音韻
辞書との照合により複数の候補からなる音韻系列とその
音韻系列を得た類似度とを求め、この音韻系列から単語
を識別処理することにより行われる。このような音声認
識処理の一方式として、例えば本発明者等が先に提唱し
た特願昭81−227981号等に示すように、上記音
韻系列を予め単語毎に作成された遷移ネットワークを通
して単語照合を行う音声認識方式がある。 第4図はこのような音声認識処理の処理手続きを示す図
である。この図に示されるように、入力音声はまず音響
分析部1にてBPF (バンドパス・フィルタ)分析、
或いはLPG (線形予測)分析されてその特徴パラメ
ータが求められた後、音声セグメント抽出部2に与えら
れて音声セグメント辞書3に予め登録された各音声セグ
メントの標準パターンと照合される。尚、音声セグメン
トとしては、音素や音節、VCV(V;母音、C;子音
)、或いはこれらの複合単位が用いられることが多い。 この音声セグメント照合によって、複数の候補からなる
音声セグメント系列(以後、セグメント・ラティスと呼
ぶ)が求められ、その類似度と共に単語照合部4に与え
られる。 しかして単語照合部4では上記セグメント・ラティスか
ら単語を識別処理する。具体的には単語辞書5に格納さ
れている各単語についての遷移ネットワークを順に読出
し、この遷移ネットワークに上記セグメント・ラティス
を通すことにより、そのセグメント・ラティスが示す入
力音声に該当する単語を候補単語として求める。そして
各候補単語についてそれぞれ求められるスコアから最適
単語を認識結果として求めることにより、その処理を進
める。 具体的には、例えば第7図に示すように求められた入力
音声のセグメント系列に対して、そのセグメント系列の
候補が第5図および第6図に示すような遷移ネットワー
クを通過するか否かを調べて単語照合するものとなって
いる。 ここで第7図に示す入力音声のセグメント系列は、単語
音声「いいえ」を発声した際のパワー系列、スペクトル
パターン系列、第1位から第5位までの音声セグメント
系列を示したものである。 尚、ここで用いられている音声セグメントは、(0)か
ら(9)までの数字と「はい、いいえ。 もう−度、どうぞ、訂正、おわり」とからなる16単語
音声に対する次のようなセグメントからなる。
【1】音響特徴セグメント
無音(Q)、Buzz (先行声帯音)、無声音(F)
【2】持続性セグメント
母音定常部、摩擦子音部など
AAIA、 AA2A、 IIIA、 l12A、 l
l3A、 IXIA、 UUIA。 UU2A、 UXIA、 EEIA、 EE2A、 0
OIA、 002^、 NNIA。 NN2A、 5SIA、 IIHD、 XLI^、 X
NIA、 BZIA、 X、XIA
l3A、 IXIA、 UUIA。 UU2A、 UXIA、 EEIA、 EE2A、 0
OIA、 002^、 NNIA。 NN2A、 5SIA、 IIHD、 XLI^、 X
NIA、 BZIA、 X、XIA
【3】子音セグメン
ト 子音部と母音への渡りを含む区間 QIIC,QOIC,KIJIC,5AID、 5EI
D、 Cr1D、 TEIC。 NAIB、 NlIC,IIAIC,MOIB、 RI
2B、 ROIB、 RO2B。 GOLD、 ZEID、 ZO2C,DOIC,DO2
C,QYID、 KYID
ト 子音部と母音への渡りを含む区間 QIIC,QOIC,KIJIC,5AID、 5EI
D、 Cr1D、 TEIC。 NAIB、 NlIC,IIAIC,MOIB、 RI
2B、 ROIB、 RO2B。 GOLD、 ZEID、 ZO2C,DOIC,DO2
C,QYID、 KYID
【4】音節境界セグメント
母音境界
AlIC,ANIA、 IEIC,EIIC,0IIC
。 0NLA、 0UIC,YUID、 YOID母音−子
音境界 AN2^、 ARIA、 IDIA、 El?lA、
ESIA、 0ZIA母音−無音境界 AQIA、 IQI^、 UQIA、 EQIA
、 0QIA、 NQIA
。 0NLA、 0UIC,YUID、 YOID母音−子
音境界 AN2^、 ARIA、 IDIA、 El?lA、
ESIA、 0ZIA母音−無音境界 AQIA、 IQI^、 UQIA、 EQIA
、 0QIA、 NQIA
【5】その他のセグメン
ト 母音の脱落や上記
ト 母音の脱落や上記
【1】〜
【4】に示すセグメント以外
の変形に対応するセグメント KQIC,AQIB、 QIXC 尚、これらのセグメント名の最後に示す英記号は、各セ
グメントを構成する音声パターンのパラメータ次元数と
そのフレーム数とを示すもので、A鞠(16,4) 、
B−(12,8) 、C−(10,8) 、D−(8,
10)である。 しかして単語照合は上述した音声セグメントによって示
される音声セグメント系列を単語毎に作成されて単語辞
書5に格納されている遷移ネットワークにそれぞれ通す
ことにより行われる。即ち、各単語についての遷移ネッ
トワークは、単語の音素列から容易に記述できる標準的
なバスや、無声化などに対応した分岐のほか、音声パタ
ーンの変形が大きい場合にも正解が得られるように、学
習データに現れた変形を表現した分岐が用意されている
。また遷移ネットワークに対する探索がベストファース
ト(best f’Ir5t)的に行えるように、変形
の大きな分岐はど、その探索順序は後方におかれている
。 第5図は認識対象とする単語「いいえ」の遷移ネットワ
ークを示すものである。上述した第7図に示す音声セグ
メント系列をこの遷移ネットワークに通した場合には、
最初に無音から「い」に渡る音声セグメントを示す“Q
l” (第7図における第5.第6フレームに相当)が
現れるので、ネットワークにおける状態SOから状態8
1へのバスが形成される。続いて持続的な「い」を示す
“11″が一定フレーム以上継続するので(第7図にお
ける第7〜第23フレームに相当)、状態81からのバ
スにより状態S2へと遷移する。そして最後に「え」に
相当する“EE“が一定フレーム以上続くことから(第
7図における第24〜第40フレームに相当)、状!!
332からのバスによって状態S3へと遷移し、単語の
終端(第7図における第41フレームに相当)に到達し
て、単語「いいえ」の探索を終了する。この「いいえ」
についての遷移ネットワークの通過により、入力音声が
単語「いいえ」であるとの照合結果が求められる。 ところがこの第7図に示す音声セグメント系列の例では
、上述した「いいえ」についての遷移ネットワークのみ
ならず、第6図に示すような数字単語「2(に)」につ
いての遷移ネットワークをも通過する。これを具体的に
見ると、最初に「に」の先頭の“N1° (第7図に示
す第9〜第11フレームに相当)が現れ、ネットワーク
の状態がSoから状態S1へと遷移する。続いて継続的
な母音「い」に相当する“II“が一定フレーム数以上
現れるので(第7図における第12〜第39フレームに
相当)、上記状態S1からのバスによって状態S2へと
遷移し、最後に母音「い」から無音へ渡るセグメント“
IQ”を経て、その単語終端に達する。この結果、入力
音声が単語r2(E)Jを示しているとの単語照合結果
も得られることになる。従って各単語についての遷移ネ
ットワークの探索だけからは複数の単語候補が出現し、
人力音声を高精度に単語照合することができなくなる。 そこで従来では全ての単語について探索(遷移ネットワ
ーク処理)を終了したとき、各単語についてのスコアを
それぞれ計算し、これらのスコアを相互に比較すること
により最終的な照合結果を求めることが試みられている
。例えば「いいえ」については音声セグメント″Ql’
“11“ ”EE”についてそれぞれ求められてい
る類似度の最大値を平均した値をスコアとして求め1、
また「に」については“Nl” “11“からなる2
つのセグメントの各類似度の最大値を平均した値をスコ
アとして求め、これらのスコア比較することによりその
最終的な判定を行なうことが試みられている。 然し乍ら、上述した単純なスコアの計算だけでは「いい
え」に比べて「に」のスコアが大きくなることがあり、
入力音声を「に」であると誤判定してしまう虞れがあっ
た。つまり音声セグメント系列全体のスコアによる判定
だけでは、類似した単語間に生じる誤りを防ぐことは難
しいと云う問題があった。即ち、上述した音声認識処理
の過程において類似した複数の単語が候補単語として求
められた場合、各候補単語にどのようなスコア付けを行
なうかによってその認識性能が大きく左右されると云う
問題があった。 しかして従来、各音声セグメントのスコア(類似度や距
離値)から単語のスコアを計算する手法として、代表的
には ■ 音声セグメントのスコアの統計的な分布から各音声
セグメントの尤度を計算し、その累積値を単語スコアと
する手法。 ■ 入力された複数の候補を含む音声セグメント系列を
もとに各音声セグメントの環境を考慮して単語スコアを
計算する手法とが知られている。 上記■の統計的な分布から単語スコアを計算する手法は
、音声セグメントの出現確率を求めるベイズ決定法や、
電子情報通信学会論文誌 ’88/9Vo1.J71−
D Na9 r単語遷移ネッ・トワークと音声セグメ
ントの選択的スコアリングによる連続単語認識」に述べ
られるような最大類似度を用いたスコアリングの手法が
知られている。また■のセグメント環境を考慮して単語
スコアを計算する手法としては、アーティフィシャル学
インテリジェンス[Artlflclal Inte
lligencel Vo!、18 No、3
(1982゜May) rオブティマル・サーチ・スト
ラテジイズ赤フォー・スピーチ・アンダースタンディン
グ・コントロール[Optlmal 5earch S
trategies f’orSpeech Unde
rstandlng Control] Jに紹介され
るように、入力セグメント中の最大のスコアを持つセグ
メントの値で、各セグメントのスコアを正規化するショ
ートフォール争スコアリング法して知られている。 このようなスコアリングの手法は、前者■の場合、大量
のデータからの統計的な類似・どの分布を利用している
ことから長期的な観点に立脚したスコアリング戦略と云
え、また後者■の場合には各音声セグメントがおかれて
いる環境状態に基づいていることから短期的な観点に立
脚したその時点では最良のスコアリング戦略であると云
える。 ところが実際にこれらの手法を音声認識に適用した場合
、前者■の手法では出現頻度の少ない単語の入力音声区
間における語頭や語尾に対応する部分てセグメントのス
コアが低くなる傾向がある為、正解単語に対するスコア
が小さくなり、この結果、誤認識が生じ易くなると云う
不具合がある。 また後者■の手法を適用した場合には、上述した不具合
が解消されるものの、音声の過渡的な区間に対応する部
分に沸出すことの多いセグメントのスコアが大きく評価
され易くなり、この結果、誤認識の原因となると云う不
具合が生じ易かった。 (発明が解決しようとする課題) このように従来の音声認識方式にあっては、音響分析お
よび音声セグメント抽出によって求められた入力音声の
セグメント・ラティスを単語毎に準備された遷移ネット
ワークを通して単語認識する際、その認識処理の過程で
複数の類似単語候補にどのようにスコアリングするかに
よって認識性能が大きく左右され、例えば出現頻度の少
ない単語や音声の過渡的な区間に対応する部分に沸出す
ことの多いセグメントに対して如何に対処するかと云う
点で大きな課題が残されている。 本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、スコアリングの手法の改善を図
り、これによって単語認識率を高めるようにした高性能
な音声認識方式を提供することにある。 [発明の構成] (課題を解決するための手段) 本発明に係る音声認識方式は、入力音声信号を音響分析
し、この音響分析により求められた上記人力音声信号の
特徴パラメータから複数の候補音声セグメントを抽出し
た後、これらの候補音声セグメントを単語毎に作成され
た遷移ネットワークを通して単語照合を行うようにした
音声認識方式において、 遷移ネットワークを用いた単語照合時に、セグメントの
類似度または距離値の統計的な分布を考慮して求められ
る、例えばセグメントの出現確率に基づいて、或いは最
大類似度正規化法を用いて求められる長期的戦略スコア
と、人力セグメント系列の中におけるセグメントの環境
を考慮して、例えばショートフォール・スコアリング法
を用いて求められる求められる短期的戦略スコアとを用
い、例えばこれらの長期的戦略スコアと短期的戦略スコ
アとを荷重平均する等して各候補単語についての単語選
択の為のスコア付けを行なうようにしたことを特徴とす
るものである。 (作 用) このようなスコアリングの手法を導入した本方式によれ
ば、例えばセグメントの出現確率に基づいて、或いは最
大類似度正規化法を用いて求められる統計的な分布を考
慮した長期的戦略スコアと、例えばショートフォール・
スコアリング法を用いて求められる求められる入力セグ
メント系列の中におけるセグメントの環境を考慮した短
期的戦略スコアとを用いて各候補単語をそれぞれスコア
リングするので、長期的戦略スコアが低くなり易い出現
頻度の低い単語であり、でも、一般的には短期的戦略ス
コアが高くなることからその誤認識を防ぐことが可能と
なる。また音声の過渡的な区間に対応する部分に沸出す
ことの多いセグメントを持つ候補単語で短期的戦略スコ
アからだけではスコアが高くなる場合あっても、長期的
戦略スコアの導入によりそのスコアを低く抑えることが
できるので、上記候補単語に対する誤認識の発生を抑え
ることが可能となる。 具体的には第7図に示す入力音声「いいえ」にあっては
、前述したように単語「いいえ」の遷移ネットワークと
、単語「2(に)」の遷移ネットワークのそれぞれを通
ることがある。このときショートフォール・スコアリン
グ法を採用した場合には、「いいえ」については音声セ
グメント[QI]。 [+1]、 [EE]のそれぞれの類似度と、同じフレ
ームの第1順位のセグメントの類似度との差の最大値を
平均した値がそのスコアとして求められ、同様にして「
に」ついては音声セグメント[旧]、 [11]のそれ
ぞれの類似度と、同じフレームの第1順位のセグメント
の類似度との差の最大値を平均した値がそのスコアとし
て求められる。そしてこれらの最大値を平均した値(ス
コア)を相互に比較することで前記入力音声の単語識別
が行なわれることになるが、例えばこの場合には「いい
え」のスコア[−0,1]に比較して「に」のスコア[
0,01の方が大きくなり、入力音声rいいえ」が「に
」として誤認識されることがある。 しかしこの入力音声「いいえ」に対して長期的戦略スコ
アリングの1つである最大類似度正規化法を用いた場合
には、例えば音声セグメント[QI]。 [+1]、 [EE]の各類似度の最大値を予め求めら
れている最大類似度値で正規化した値を平均した値と、
音声セグメント[N11. El+]の各類似度の最大
値を同じく予め求められている最大類似度値で正規化し
た値を平均した値とをそれぞれのスコアとして比較する
ことになるので、確実に上記人力音声「いいえ」を単語
「いいえ」として認識することが可能となる。 これに対して単語音声「2(に)」を発声した場合、上
述した例とは逆に「2.(に)」の遷移ネットワークを
通過することのみならず、「いいえ」の遷移ネットワー
クをも通過する。このような場合、上述したショートフ
ォール・スコアリング法を採用することで正解が得られ
るが、反対に最大類似度正規化法を適用した場合、例え
ば「に」のスコア[−6,8]に比較して「いいえ」の
スコア[−2゜8]の方が大きくなり、この結果、「い
いえ」と誤認識される可能性がある。 この点、本方式では上述した長期的戦略スコアと短期的
戦略スコアとを用い、例えば単語(k)についてのスコ
アQ (k)を Q (k) −μ Σ (Si−Sll)+ (
1−μ) Σ (S 1 − S 5axi)
として両者を所定の重み係数μ(0≦μ≦l)の下で荷
重平均して求めるので、上記長期的戦略スコアが持つ不
具合と短期的戦略スコアが持つ不具合とを相互に補った
スコアを求めることが可能となる。 この結果、総合的に類似単語間での誤認識の発生を抑え
、その認識性能の向上を図ることが可能となる。 (実施例) 以下、図面を参照して本発明の一実施例に係る音声認識
方式につき説明する。 第1図は実施例方式を適用して実現される音声認識装置
の概略構成を示すもので、基本的には第4図に示した従
来装置と同様に構成され、単語照合部4で求められる複
数の候補単語について、単語評価部6にて最大類似度テ
ーブル7を参照して上記各候補単語に付されたスコアの
値から認識結果としての単語を選択決定するように構成
される。 第1図において音響分析部1は入力音声を、例えば8
KHzのサンプリング周波数で12ビツトのディジタル
データにA/D変換した後、その音声パワーとLPG分
析パラメータを計算している。 この音響分析部lにおける音響分析処理は、例えば窓長
を325sec、フレーム周期を1011See、分析
次数を12次、LPGパワースペクトラムおよびLPG
メルケプストラムの項数をそれぞれ16として行われる
。 音声セグメント抽出部2は、音声セグメント辞書3に音
声セグメント単位に用意した直交化辞書セットと前記音
響分析部lで求められた人力音声の特徴パラメータとの
間で、その類似度の計算を時間軸に対して連続的に行い
、音声セグメント系列を求める。具体的には次に示すよ
うな複合LPGメルケブストラム類似尺度を用いて音声
セグメントの系列が求められる。 (Kl) 尚、CはLPGメルケブストラムであり、λ 瀾。 φ(KA?よそれぞれセグメント名に1の固有値とその
固有ベクトルである。また( )は内積を示し、1
111はノルムを示している。 しかしてこのように求められる音声セグメント系列は前
記第7図に示すような第1位から第5位までのセグメン
ト名LCAT(N1.J)と、そのセグメント名LCA
T(旧、J)を得た類似度値LSIM(N1.J)とに
よって示される。尚、上記N1は(1〜5)の値を取る
セグメント順位である。 またこの音声セグメント抽出部2では前記音響分析部l
で求められている音声パワー、パワースペクトラムとL
PGメルケブストラムの1次の項から、無音[Q(J)
コ、声帯音区間[B(J)コ、無声[F(J)] 、パ
ワーの谷[D(J)]の各音響特徴系列をそれぞれ抽出
しており、これらのセグメント情報を上記セグメント系
列(セグメント名LCAT(旧。 j)、およびその類似度値LSI旧旧、J) ; Nl
は1〜5からなる順位)と共に単語照合部4へ送ってい
る。 尚、ここでは音声セグメント系列と呼ぶ際は、特に断り
のない限り上記音響特徴系列を含むものとする。 しかして単語照合部4は、認識対象とする各単語の遷移
ネットワークを前記単語辞書5から読出し、この遷移ネ
ットワークに前記音声セグメント系列を通すことによっ
て逐次単語照合を行う。ここで各単語についての遷移ネ
ットワークの一般的構造を第2図を参照して説明すると
、状態Srsにおける遷移条件C(s)は C(+) −(Lll(a) 、 T目(m) 、 L
OI(11) 。 LMSKi(1)、 L21(1)、 T21(膳
)。 L 31(■)、 Ta2(1)、 Tφ(m)。 NIX(膳)
)として与えられる。遷移条件C(s)は時刻Hにお
いて、先ず入力音声セグメント系列Q(月)、B(Jl
)。 P(J t) 、D(J l) 、 オヨびLCAT(
N1.Jl) (7) N1−1.NIX(7)範囲の
セグメントに対して、以下の探索を行うことを示してい
る。 (1) セグメントL 11(1) [1−1,2
,・・・]が、セセグメント系列(m)よりも上位にあ
り、且つセグメントL MSXI(s)も存在しないフ
レームが連続してT 11(s+)個あるとき、状態S
sから状態Sm+1への遷移が許される。ここでセグメ
ントLot(1)としては、通常、1つ前の状態S−一
1で指定されたセグメントL 11(■)が使用される
。尚、セグメントLO1(s) 、 LMSKI(麿
) 、 L31(i)は空の場合もあり得る。 (2) 次に上記条件を満足しない場合は、状態S1
から出ている他のバスを時計方向に辿りながら、その状
BS厳に止まれるか否かをチエツクする。この際、セグ
メントL 21(1) [一般的にはセグメントL
01(層)と同じセグメント]についてはT21(−)
回、セグメントL 31(s)についてはTa2(1)
回までそれらのバスを通して自分自身の状態S11に戻
ることができるようになっている。 また遷移φは無条件にその状態に止まれることを意味す
るが、それが許される回数(Tφ(1))は各状態毎に
制限されている。 そして状態遷移の後は、次のフレーム」l+1へ進み、
遷移ネットワークに対する探索を続行する。 また自分自身の状態S■への遷移も許されない場合は、
その探索を打ち切り、次の単語の照合へ向かう。 尚、この遷移ネットワーク探索の途中では、各状態毎に
以下に述べるスコアと時刻の値を保持する。即ち、セグ
メントL 11(s) 、 L 21(m)のバスを通
る際には、例えば類似度値に等しい各々のスコア5CR
I (S s)、 5CR2(S m) [1つ前の状
態のスコア5CRI (S履−1)に対応する]を計算
し、その最大値を保持する。尚、スコア5CR2(S謄
)がスコア5CRI (Ss)よりも大きい場合には、
その置換えが行なわれる。そしてその最大値を与えたフ
レームの第1順位のスコア(類似度) 5CRO(S■
)と共に次段の単語評価部6に転送する。 しかして単語評価部6は、前述したスコアリングの式に
従い、上記音声セグメントのスコアSCR1と第1順位
のセグメントのスコア5CRO1、および最大類似度テ
ーブル7に登録されているスコア5CRiax Iを用
いて単語kについてのスコアをQ (k)を計算する。 即ち、前述したスコアリングの演算式について簡単に説
明すると、Slはスコア計算に関与する音声セグメント
の類似度を示しており、Nはその個数である。またSl
iは類似度SIの出現したフレーム、即ち、その音声セ
グメントが最大値をとるフレームにおける第1順位の音
声セグメントの類似度である。この式における第1項に
より、短期的戦略に立脚するショートフォール・スコア
が累積されて短期的戦略スコアが求められ、また第2項
にて長期的戦略に立脚して最大類似度にて正規化された
スコアが累積されて長期的戦略スコアが求められる。そ
してこれらの短期的戦略スコアと長期的戦略スコアとを
所定の重み係数μ(0≦μ≦1)の下で荷重平均するこ
とにより候補単語についてのスコアが計算されるように
なっている。 具体的には各候補単語についての音声セグメントのスコ
アと、第1順位のセグメントのスコアとを順に5CRI
、 5CROI [1−1,2,〜、N] とし、こ
れと最大類似度テーブル7にセグメント毎に準備されて
いる最大類似度スコア5CRsax iとから、例えば
重み係数μを[0,85]として、単語kについてのス
コアQ (k)を Q(k) −0,85Σ (SCRI−8CROI )
+0.15Σ (SCRI−9CRmaxl )と
して計算する。そしてこのようにして各単語についてそ
れぞれ計算されたスコアQ (k)が相互に対比され、
その値が最大となる単語が認識結果として求められる。 このようなスコアリングを行なって単語認識を行なう本
方式によれば、セグメントの類似度等の統計的な分布を
考慮して求められる長期的戦略コアと、入力セグメント
系列の中におけるセグメント環境を考慮して求められる
短期的戦略スコアの双方を用いて候補単語に対するスコ
アリングを行なうので、入力音声を高性能に認識するに
非常に適したスコアを得ることができ、誤認識の発生率
を効果的に抑えることが可能となる。具体的には、前述
した数字を含む16単語の音声を対象とし、電話を通し
て収集した男性75名の音声を用い、その内の50名の
音声を認識辞書の学習に、残り25名の音声をその評価
に用いたところ次のような実験結果を得た。この実験は
、前述した第1図に示す如く構成された装置を用い、先
ず学習試料から目視により先に提示した66種の音声セ
グメントを切出し、その主成分分析により直交化辞書を
作成した。その後、上記学習試料に対して上記直交化辞
書との間で時間軸方向に連続してマツチングを行ない、
これによって得られたセグメント・ラティスを使用して
単語毎の遷移ネットワークを作成した。このような遷移
ネットワークを用い、前述したスコアリング法により重
み係数μを変えながらその認識結果を求めたところ第3
図に示すような実験結果を得た。 尚、第3図において縦軸はエラー率を示し、横軸は荷重
平均の重み係数μを示している。U−Oは長期的戦略か
らのスコアリングである最大類似度正規化法だけを用い
た場合を示しており、μ−1は短期的戦略であるショー
トフォール・スコアリングだけを用いた場合を示L2て
いる。 この実験結果から明らかなように本方式によるスコアリ
ング法によれば、長期的戦略スコアと短期的戦略スコア
とを組合わせて用いることにより誤認識の発生を抑え、
その認識性能を高め得ることが分る。特にこの実験結果
からは、重み係数μの値を[0,5〜0.951に定め
れば認識性能の向上を図り得ることがわかり、望ましく
は[0,85〜0.95]に設定すれば良いことがわか
る。 このように本発明によれば、長期的戦略スコアと短期的
戦略スコアの双方を考慮して候補単語に対するスコアリ
ングを行なうので、類似単語間での誤認識の発生を効果
的に抑えることができる等の実用上多大なる効果が奏せ
られる。 尚、本発明は上述した実施例に限定されるものではない
。例えば音声セグメントとしては音声学的に意味のある
セグメントを認識処理単位として定めれば良いものであ
り、孤立発声された単語音声のみならず、連続発声され
た単語音声を認識対象とすることも可能である。また長
期的戦略スコアと短期的戦略スコアとの組合せの手法も
上述した例(荷重平均)に限定されるものではない。そ
の他、本発明はその要旨を逸脱しない範囲で種々変形し
て実施することができる。 [発明の効果] 以上説明したように本発明によれば、候補単語に適切な
スコアを与えて音声認識における誤判定を少なくするこ
とができ、その認識性能の向上を図ることができる等の
多大なる効果が奏せられる。
の変形に対応するセグメント KQIC,AQIB、 QIXC 尚、これらのセグメント名の最後に示す英記号は、各セ
グメントを構成する音声パターンのパラメータ次元数と
そのフレーム数とを示すもので、A鞠(16,4) 、
B−(12,8) 、C−(10,8) 、D−(8,
10)である。 しかして単語照合は上述した音声セグメントによって示
される音声セグメント系列を単語毎に作成されて単語辞
書5に格納されている遷移ネットワークにそれぞれ通す
ことにより行われる。即ち、各単語についての遷移ネッ
トワークは、単語の音素列から容易に記述できる標準的
なバスや、無声化などに対応した分岐のほか、音声パタ
ーンの変形が大きい場合にも正解が得られるように、学
習データに現れた変形を表現した分岐が用意されている
。また遷移ネットワークに対する探索がベストファース
ト(best f’Ir5t)的に行えるように、変形
の大きな分岐はど、その探索順序は後方におかれている
。 第5図は認識対象とする単語「いいえ」の遷移ネットワ
ークを示すものである。上述した第7図に示す音声セグ
メント系列をこの遷移ネットワークに通した場合には、
最初に無音から「い」に渡る音声セグメントを示す“Q
l” (第7図における第5.第6フレームに相当)が
現れるので、ネットワークにおける状態SOから状態8
1へのバスが形成される。続いて持続的な「い」を示す
“11″が一定フレーム以上継続するので(第7図にお
ける第7〜第23フレームに相当)、状態81からのバ
スにより状態S2へと遷移する。そして最後に「え」に
相当する“EE“が一定フレーム以上続くことから(第
7図における第24〜第40フレームに相当)、状!!
332からのバスによって状態S3へと遷移し、単語の
終端(第7図における第41フレームに相当)に到達し
て、単語「いいえ」の探索を終了する。この「いいえ」
についての遷移ネットワークの通過により、入力音声が
単語「いいえ」であるとの照合結果が求められる。 ところがこの第7図に示す音声セグメント系列の例では
、上述した「いいえ」についての遷移ネットワークのみ
ならず、第6図に示すような数字単語「2(に)」につ
いての遷移ネットワークをも通過する。これを具体的に
見ると、最初に「に」の先頭の“N1° (第7図に示
す第9〜第11フレームに相当)が現れ、ネットワーク
の状態がSoから状態S1へと遷移する。続いて継続的
な母音「い」に相当する“II“が一定フレーム数以上
現れるので(第7図における第12〜第39フレームに
相当)、上記状態S1からのバスによって状態S2へと
遷移し、最後に母音「い」から無音へ渡るセグメント“
IQ”を経て、その単語終端に達する。この結果、入力
音声が単語r2(E)Jを示しているとの単語照合結果
も得られることになる。従って各単語についての遷移ネ
ットワークの探索だけからは複数の単語候補が出現し、
人力音声を高精度に単語照合することができなくなる。 そこで従来では全ての単語について探索(遷移ネットワ
ーク処理)を終了したとき、各単語についてのスコアを
それぞれ計算し、これらのスコアを相互に比較すること
により最終的な照合結果を求めることが試みられている
。例えば「いいえ」については音声セグメント″Ql’
“11“ ”EE”についてそれぞれ求められてい
る類似度の最大値を平均した値をスコアとして求め1、
また「に」については“Nl” “11“からなる2
つのセグメントの各類似度の最大値を平均した値をスコ
アとして求め、これらのスコア比較することによりその
最終的な判定を行なうことが試みられている。 然し乍ら、上述した単純なスコアの計算だけでは「いい
え」に比べて「に」のスコアが大きくなることがあり、
入力音声を「に」であると誤判定してしまう虞れがあっ
た。つまり音声セグメント系列全体のスコアによる判定
だけでは、類似した単語間に生じる誤りを防ぐことは難
しいと云う問題があった。即ち、上述した音声認識処理
の過程において類似した複数の単語が候補単語として求
められた場合、各候補単語にどのようなスコア付けを行
なうかによってその認識性能が大きく左右されると云う
問題があった。 しかして従来、各音声セグメントのスコア(類似度や距
離値)から単語のスコアを計算する手法として、代表的
には ■ 音声セグメントのスコアの統計的な分布から各音声
セグメントの尤度を計算し、その累積値を単語スコアと
する手法。 ■ 入力された複数の候補を含む音声セグメント系列を
もとに各音声セグメントの環境を考慮して単語スコアを
計算する手法とが知られている。 上記■の統計的な分布から単語スコアを計算する手法は
、音声セグメントの出現確率を求めるベイズ決定法や、
電子情報通信学会論文誌 ’88/9Vo1.J71−
D Na9 r単語遷移ネッ・トワークと音声セグメ
ントの選択的スコアリングによる連続単語認識」に述べ
られるような最大類似度を用いたスコアリングの手法が
知られている。また■のセグメント環境を考慮して単語
スコアを計算する手法としては、アーティフィシャル学
インテリジェンス[Artlflclal Inte
lligencel Vo!、18 No、3
(1982゜May) rオブティマル・サーチ・スト
ラテジイズ赤フォー・スピーチ・アンダースタンディン
グ・コントロール[Optlmal 5earch S
trategies f’orSpeech Unde
rstandlng Control] Jに紹介され
るように、入力セグメント中の最大のスコアを持つセグ
メントの値で、各セグメントのスコアを正規化するショ
ートフォール争スコアリング法して知られている。 このようなスコアリングの手法は、前者■の場合、大量
のデータからの統計的な類似・どの分布を利用している
ことから長期的な観点に立脚したスコアリング戦略と云
え、また後者■の場合には各音声セグメントがおかれて
いる環境状態に基づいていることから短期的な観点に立
脚したその時点では最良のスコアリング戦略であると云
える。 ところが実際にこれらの手法を音声認識に適用した場合
、前者■の手法では出現頻度の少ない単語の入力音声区
間における語頭や語尾に対応する部分てセグメントのス
コアが低くなる傾向がある為、正解単語に対するスコア
が小さくなり、この結果、誤認識が生じ易くなると云う
不具合がある。 また後者■の手法を適用した場合には、上述した不具合
が解消されるものの、音声の過渡的な区間に対応する部
分に沸出すことの多いセグメントのスコアが大きく評価
され易くなり、この結果、誤認識の原因となると云う不
具合が生じ易かった。 (発明が解決しようとする課題) このように従来の音声認識方式にあっては、音響分析お
よび音声セグメント抽出によって求められた入力音声の
セグメント・ラティスを単語毎に準備された遷移ネット
ワークを通して単語認識する際、その認識処理の過程で
複数の類似単語候補にどのようにスコアリングするかに
よって認識性能が大きく左右され、例えば出現頻度の少
ない単語や音声の過渡的な区間に対応する部分に沸出す
ことの多いセグメントに対して如何に対処するかと云う
点で大きな課題が残されている。 本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、スコアリングの手法の改善を図
り、これによって単語認識率を高めるようにした高性能
な音声認識方式を提供することにある。 [発明の構成] (課題を解決するための手段) 本発明に係る音声認識方式は、入力音声信号を音響分析
し、この音響分析により求められた上記人力音声信号の
特徴パラメータから複数の候補音声セグメントを抽出し
た後、これらの候補音声セグメントを単語毎に作成され
た遷移ネットワークを通して単語照合を行うようにした
音声認識方式において、 遷移ネットワークを用いた単語照合時に、セグメントの
類似度または距離値の統計的な分布を考慮して求められ
る、例えばセグメントの出現確率に基づいて、或いは最
大類似度正規化法を用いて求められる長期的戦略スコア
と、人力セグメント系列の中におけるセグメントの環境
を考慮して、例えばショートフォール・スコアリング法
を用いて求められる求められる短期的戦略スコアとを用
い、例えばこれらの長期的戦略スコアと短期的戦略スコ
アとを荷重平均する等して各候補単語についての単語選
択の為のスコア付けを行なうようにしたことを特徴とす
るものである。 (作 用) このようなスコアリングの手法を導入した本方式によれ
ば、例えばセグメントの出現確率に基づいて、或いは最
大類似度正規化法を用いて求められる統計的な分布を考
慮した長期的戦略スコアと、例えばショートフォール・
スコアリング法を用いて求められる求められる入力セグ
メント系列の中におけるセグメントの環境を考慮した短
期的戦略スコアとを用いて各候補単語をそれぞれスコア
リングするので、長期的戦略スコアが低くなり易い出現
頻度の低い単語であり、でも、一般的には短期的戦略ス
コアが高くなることからその誤認識を防ぐことが可能と
なる。また音声の過渡的な区間に対応する部分に沸出す
ことの多いセグメントを持つ候補単語で短期的戦略スコ
アからだけではスコアが高くなる場合あっても、長期的
戦略スコアの導入によりそのスコアを低く抑えることが
できるので、上記候補単語に対する誤認識の発生を抑え
ることが可能となる。 具体的には第7図に示す入力音声「いいえ」にあっては
、前述したように単語「いいえ」の遷移ネットワークと
、単語「2(に)」の遷移ネットワークのそれぞれを通
ることがある。このときショートフォール・スコアリン
グ法を採用した場合には、「いいえ」については音声セ
グメント[QI]。 [+1]、 [EE]のそれぞれの類似度と、同じフレ
ームの第1順位のセグメントの類似度との差の最大値を
平均した値がそのスコアとして求められ、同様にして「
に」ついては音声セグメント[旧]、 [11]のそれ
ぞれの類似度と、同じフレームの第1順位のセグメント
の類似度との差の最大値を平均した値がそのスコアとし
て求められる。そしてこれらの最大値を平均した値(ス
コア)を相互に比較することで前記入力音声の単語識別
が行なわれることになるが、例えばこの場合には「いい
え」のスコア[−0,1]に比較して「に」のスコア[
0,01の方が大きくなり、入力音声rいいえ」が「に
」として誤認識されることがある。 しかしこの入力音声「いいえ」に対して長期的戦略スコ
アリングの1つである最大類似度正規化法を用いた場合
には、例えば音声セグメント[QI]。 [+1]、 [EE]の各類似度の最大値を予め求めら
れている最大類似度値で正規化した値を平均した値と、
音声セグメント[N11. El+]の各類似度の最大
値を同じく予め求められている最大類似度値で正規化し
た値を平均した値とをそれぞれのスコアとして比較する
ことになるので、確実に上記人力音声「いいえ」を単語
「いいえ」として認識することが可能となる。 これに対して単語音声「2(に)」を発声した場合、上
述した例とは逆に「2.(に)」の遷移ネットワークを
通過することのみならず、「いいえ」の遷移ネットワー
クをも通過する。このような場合、上述したショートフ
ォール・スコアリング法を採用することで正解が得られ
るが、反対に最大類似度正規化法を適用した場合、例え
ば「に」のスコア[−6,8]に比較して「いいえ」の
スコア[−2゜8]の方が大きくなり、この結果、「い
いえ」と誤認識される可能性がある。 この点、本方式では上述した長期的戦略スコアと短期的
戦略スコアとを用い、例えば単語(k)についてのスコ
アQ (k)を Q (k) −μ Σ (Si−Sll)+ (
1−μ) Σ (S 1 − S 5axi)
として両者を所定の重み係数μ(0≦μ≦l)の下で荷
重平均して求めるので、上記長期的戦略スコアが持つ不
具合と短期的戦略スコアが持つ不具合とを相互に補った
スコアを求めることが可能となる。 この結果、総合的に類似単語間での誤認識の発生を抑え
、その認識性能の向上を図ることが可能となる。 (実施例) 以下、図面を参照して本発明の一実施例に係る音声認識
方式につき説明する。 第1図は実施例方式を適用して実現される音声認識装置
の概略構成を示すもので、基本的には第4図に示した従
来装置と同様に構成され、単語照合部4で求められる複
数の候補単語について、単語評価部6にて最大類似度テ
ーブル7を参照して上記各候補単語に付されたスコアの
値から認識結果としての単語を選択決定するように構成
される。 第1図において音響分析部1は入力音声を、例えば8
KHzのサンプリング周波数で12ビツトのディジタル
データにA/D変換した後、その音声パワーとLPG分
析パラメータを計算している。 この音響分析部lにおける音響分析処理は、例えば窓長
を325sec、フレーム周期を1011See、分析
次数を12次、LPGパワースペクトラムおよびLPG
メルケプストラムの項数をそれぞれ16として行われる
。 音声セグメント抽出部2は、音声セグメント辞書3に音
声セグメント単位に用意した直交化辞書セットと前記音
響分析部lで求められた人力音声の特徴パラメータとの
間で、その類似度の計算を時間軸に対して連続的に行い
、音声セグメント系列を求める。具体的には次に示すよ
うな複合LPGメルケブストラム類似尺度を用いて音声
セグメントの系列が求められる。 (Kl) 尚、CはLPGメルケブストラムであり、λ 瀾。 φ(KA?よそれぞれセグメント名に1の固有値とその
固有ベクトルである。また( )は内積を示し、1
111はノルムを示している。 しかしてこのように求められる音声セグメント系列は前
記第7図に示すような第1位から第5位までのセグメン
ト名LCAT(N1.J)と、そのセグメント名LCA
T(旧、J)を得た類似度値LSIM(N1.J)とに
よって示される。尚、上記N1は(1〜5)の値を取る
セグメント順位である。 またこの音声セグメント抽出部2では前記音響分析部l
で求められている音声パワー、パワースペクトラムとL
PGメルケブストラムの1次の項から、無音[Q(J)
コ、声帯音区間[B(J)コ、無声[F(J)] 、パ
ワーの谷[D(J)]の各音響特徴系列をそれぞれ抽出
しており、これらのセグメント情報を上記セグメント系
列(セグメント名LCAT(旧。 j)、およびその類似度値LSI旧旧、J) ; Nl
は1〜5からなる順位)と共に単語照合部4へ送ってい
る。 尚、ここでは音声セグメント系列と呼ぶ際は、特に断り
のない限り上記音響特徴系列を含むものとする。 しかして単語照合部4は、認識対象とする各単語の遷移
ネットワークを前記単語辞書5から読出し、この遷移ネ
ットワークに前記音声セグメント系列を通すことによっ
て逐次単語照合を行う。ここで各単語についての遷移ネ
ットワークの一般的構造を第2図を参照して説明すると
、状態Srsにおける遷移条件C(s)は C(+) −(Lll(a) 、 T目(m) 、 L
OI(11) 。 LMSKi(1)、 L21(1)、 T21(膳
)。 L 31(■)、 Ta2(1)、 Tφ(m)。 NIX(膳)
)として与えられる。遷移条件C(s)は時刻Hにお
いて、先ず入力音声セグメント系列Q(月)、B(Jl
)。 P(J t) 、D(J l) 、 オヨびLCAT(
N1.Jl) (7) N1−1.NIX(7)範囲の
セグメントに対して、以下の探索を行うことを示してい
る。 (1) セグメントL 11(1) [1−1,2
,・・・]が、セセグメント系列(m)よりも上位にあ
り、且つセグメントL MSXI(s)も存在しないフ
レームが連続してT 11(s+)個あるとき、状態S
sから状態Sm+1への遷移が許される。ここでセグメ
ントLot(1)としては、通常、1つ前の状態S−一
1で指定されたセグメントL 11(■)が使用される
。尚、セグメントLO1(s) 、 LMSKI(麿
) 、 L31(i)は空の場合もあり得る。 (2) 次に上記条件を満足しない場合は、状態S1
から出ている他のバスを時計方向に辿りながら、その状
BS厳に止まれるか否かをチエツクする。この際、セグ
メントL 21(1) [一般的にはセグメントL
01(層)と同じセグメント]についてはT21(−)
回、セグメントL 31(s)についてはTa2(1)
回までそれらのバスを通して自分自身の状態S11に戻
ることができるようになっている。 また遷移φは無条件にその状態に止まれることを意味す
るが、それが許される回数(Tφ(1))は各状態毎に
制限されている。 そして状態遷移の後は、次のフレーム」l+1へ進み、
遷移ネットワークに対する探索を続行する。 また自分自身の状態S■への遷移も許されない場合は、
その探索を打ち切り、次の単語の照合へ向かう。 尚、この遷移ネットワーク探索の途中では、各状態毎に
以下に述べるスコアと時刻の値を保持する。即ち、セグ
メントL 11(s) 、 L 21(m)のバスを通
る際には、例えば類似度値に等しい各々のスコア5CR
I (S s)、 5CR2(S m) [1つ前の状
態のスコア5CRI (S履−1)に対応する]を計算
し、その最大値を保持する。尚、スコア5CR2(S謄
)がスコア5CRI (Ss)よりも大きい場合には、
その置換えが行なわれる。そしてその最大値を与えたフ
レームの第1順位のスコア(類似度) 5CRO(S■
)と共に次段の単語評価部6に転送する。 しかして単語評価部6は、前述したスコアリングの式に
従い、上記音声セグメントのスコアSCR1と第1順位
のセグメントのスコア5CRO1、および最大類似度テ
ーブル7に登録されているスコア5CRiax Iを用
いて単語kについてのスコアをQ (k)を計算する。 即ち、前述したスコアリングの演算式について簡単に説
明すると、Slはスコア計算に関与する音声セグメント
の類似度を示しており、Nはその個数である。またSl
iは類似度SIの出現したフレーム、即ち、その音声セ
グメントが最大値をとるフレームにおける第1順位の音
声セグメントの類似度である。この式における第1項に
より、短期的戦略に立脚するショートフォール・スコア
が累積されて短期的戦略スコアが求められ、また第2項
にて長期的戦略に立脚して最大類似度にて正規化された
スコアが累積されて長期的戦略スコアが求められる。そ
してこれらの短期的戦略スコアと長期的戦略スコアとを
所定の重み係数μ(0≦μ≦1)の下で荷重平均するこ
とにより候補単語についてのスコアが計算されるように
なっている。 具体的には各候補単語についての音声セグメントのスコ
アと、第1順位のセグメントのスコアとを順に5CRI
、 5CROI [1−1,2,〜、N] とし、こ
れと最大類似度テーブル7にセグメント毎に準備されて
いる最大類似度スコア5CRsax iとから、例えば
重み係数μを[0,85]として、単語kについてのス
コアQ (k)を Q(k) −0,85Σ (SCRI−8CROI )
+0.15Σ (SCRI−9CRmaxl )と
して計算する。そしてこのようにして各単語についてそ
れぞれ計算されたスコアQ (k)が相互に対比され、
その値が最大となる単語が認識結果として求められる。 このようなスコアリングを行なって単語認識を行なう本
方式によれば、セグメントの類似度等の統計的な分布を
考慮して求められる長期的戦略コアと、入力セグメント
系列の中におけるセグメント環境を考慮して求められる
短期的戦略スコアの双方を用いて候補単語に対するスコ
アリングを行なうので、入力音声を高性能に認識するに
非常に適したスコアを得ることができ、誤認識の発生率
を効果的に抑えることが可能となる。具体的には、前述
した数字を含む16単語の音声を対象とし、電話を通し
て収集した男性75名の音声を用い、その内の50名の
音声を認識辞書の学習に、残り25名の音声をその評価
に用いたところ次のような実験結果を得た。この実験は
、前述した第1図に示す如く構成された装置を用い、先
ず学習試料から目視により先に提示した66種の音声セ
グメントを切出し、その主成分分析により直交化辞書を
作成した。その後、上記学習試料に対して上記直交化辞
書との間で時間軸方向に連続してマツチングを行ない、
これによって得られたセグメント・ラティスを使用して
単語毎の遷移ネットワークを作成した。このような遷移
ネットワークを用い、前述したスコアリング法により重
み係数μを変えながらその認識結果を求めたところ第3
図に示すような実験結果を得た。 尚、第3図において縦軸はエラー率を示し、横軸は荷重
平均の重み係数μを示している。U−Oは長期的戦略か
らのスコアリングである最大類似度正規化法だけを用い
た場合を示しており、μ−1は短期的戦略であるショー
トフォール・スコアリングだけを用いた場合を示L2て
いる。 この実験結果から明らかなように本方式によるスコアリ
ング法によれば、長期的戦略スコアと短期的戦略スコア
とを組合わせて用いることにより誤認識の発生を抑え、
その認識性能を高め得ることが分る。特にこの実験結果
からは、重み係数μの値を[0,5〜0.951に定め
れば認識性能の向上を図り得ることがわかり、望ましく
は[0,85〜0.95]に設定すれば良いことがわか
る。 このように本発明によれば、長期的戦略スコアと短期的
戦略スコアの双方を考慮して候補単語に対するスコアリ
ングを行なうので、類似単語間での誤認識の発生を効果
的に抑えることができる等の実用上多大なる効果が奏せ
られる。 尚、本発明は上述した実施例に限定されるものではない
。例えば音声セグメントとしては音声学的に意味のある
セグメントを認識処理単位として定めれば良いものであ
り、孤立発声された単語音声のみならず、連続発声され
た単語音声を認識対象とすることも可能である。また長
期的戦略スコアと短期的戦略スコアとの組合せの手法も
上述した例(荷重平均)に限定されるものではない。そ
の他、本発明はその要旨を逸脱しない範囲で種々変形し
て実施することができる。 [発明の効果] 以上説明したように本発明によれば、候補単語に適切な
スコアを与えて音声認識における誤判定を少なくするこ
とができ、その認識性能の向上を図ることができる等の
多大なる効果が奏せられる。
第1図は本発明の一実施例に係る音声認識方式を適用し
た音声認識装置の概略構成図、第2図は実施例装置にお
いて用いられる遷移ネットワークの基本的な遷移条件を
示す図、第3図は実施例方式におけるスコアリング法を
用いた音声認識処理の実験結果を示す図、第4図は従来
一般的な音声認識装置の構成図、第5図および第6図は
異なる単語についての従来一般的な遷移ネットワークの
構造例を示す図、第7図は音声セグメント系列の例を示
す図である。 ■・・・音響分析部、2・・・音声セグメント抽出部、
3・・・音声セグメント辞書、4・・・単語照合部、5
・・・単語辞書(遷移ネットワーク)、6・・・単語評
価部、7・・・最大類似度テーブル。
た音声認識装置の概略構成図、第2図は実施例装置にお
いて用いられる遷移ネットワークの基本的な遷移条件を
示す図、第3図は実施例方式におけるスコアリング法を
用いた音声認識処理の実験結果を示す図、第4図は従来
一般的な音声認識装置の構成図、第5図および第6図は
異なる単語についての従来一般的な遷移ネットワークの
構造例を示す図、第7図は音声セグメント系列の例を示
す図である。 ■・・・音響分析部、2・・・音声セグメント抽出部、
3・・・音声セグメント辞書、4・・・単語照合部、5
・・・単語辞書(遷移ネットワーク)、6・・・単語評
価部、7・・・最大類似度テーブル。
Claims (3)
- (1)入力音声信号を音響分析する手段と、この音響分
析により求められた上記入力音声信号の特徴パラメータ
から複数の候補音声セグメントを抽出する手段と、これ
らの候補音声セグメントを単語毎に作成された遷移ネッ
トワークを通して単語照合を行う手段とを備えた音声認
識方式において、遷移ネットワークを用いた単語照合時
に、セグメントの類似度または距離値の統計的な分布を
考慮して求められる長期的戦略スコアと、入力セグメン
ト系列の中におけるセグメントの環境を考慮して求めら
れる短期的戦略スコアとを用い、各候補単語についての
単語選択の為のスコア付けを行なうことを特徴とする音
声認識方式。 - (2)長期的戦略スコアは、セグメントの出現確率に基
づいて、或いは最大類似度正規化法を用いて求められる
ものである請求項第(1)項記載の音声認識方式。 - (3)短期的戦略スコアは、ショートフォール・スコア
リング法を用いて求められるものである請求項第(1)
項記載の音声認識方式。
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63305789A JPH02150899A (ja) | 1988-12-02 | 1988-12-02 | 音声認識方式 |
| EP89122127A EP0372400B1 (en) | 1988-12-02 | 1989-11-30 | Speech recognition system |
| US07/443,485 US5133012A (en) | 1988-12-02 | 1989-11-30 | Speech recognition system utilizing both a long-term strategic and a short-term strategic scoring operation in a transition network thereof |
| DE68924134T DE68924134T2 (de) | 1988-12-02 | 1989-11-30 | Spracherkennungssystem. |
| CA002004435A CA2004435C (en) | 1988-12-02 | 1989-12-01 | Speech recognition system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63305789A JPH02150899A (ja) | 1988-12-02 | 1988-12-02 | 音声認識方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH02150899A true JPH02150899A (ja) | 1990-06-11 |
Family
ID=17949374
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63305789A Pending JPH02150899A (ja) | 1988-12-02 | 1988-12-02 | 音声認識方式 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US5133012A (ja) |
| EP (1) | EP0372400B1 (ja) |
| JP (1) | JPH02150899A (ja) |
| CA (1) | CA2004435C (ja) |
| DE (1) | DE68924134T2 (ja) |
Families Citing this family (28)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6236964B1 (en) * | 1990-02-01 | 2001-05-22 | Canon Kabushiki Kaisha | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data |
| JP2795719B2 (ja) * | 1990-03-07 | 1998-09-10 | 富士通株式会社 | 認識距離の差に基づく最良優先探索処理方法 |
| DE4111995A1 (de) * | 1991-04-12 | 1992-10-15 | Philips Patentverwaltung | Schaltungsanordnung zur spracherkennung |
| JP2870224B2 (ja) * | 1991-06-19 | 1999-03-17 | 松下電器産業株式会社 | 音声認識方法 |
| US5606645A (en) * | 1992-02-28 | 1997-02-25 | Kabushiki Kaisha Toshiba | Speech pattern recognition apparatus utilizing multiple independent sequences of phonetic segments |
| US5822728A (en) * | 1995-09-08 | 1998-10-13 | Matsushita Electric Industrial Co., Ltd. | Multistage word recognizer based on reliably detected phoneme similarity regions |
| US6266640B1 (en) * | 1996-08-06 | 2001-07-24 | Dialogic Corporation | Data network with voice verification means |
| US7406084B2 (en) * | 1997-09-19 | 2008-07-29 | Nokia Siemens Networks Gmbh & Co. Kg | Flexible software architecture for a call processing system |
| US8202094B2 (en) * | 1998-02-18 | 2012-06-19 | Radmila Solutions, L.L.C. | System and method for training users with audible answers to spoken questions |
| US8938688B2 (en) * | 1998-12-04 | 2015-01-20 | Nuance Communications, Inc. | Contextual prediction of user words and user actions |
| US7881936B2 (en) * | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
| US7679534B2 (en) | 1998-12-04 | 2010-03-16 | Tegic Communications, Inc. | Contextual prediction of user words and user actions |
| US7712053B2 (en) | 1998-12-04 | 2010-05-04 | Tegic Communications, Inc. | Explicit character filtering of ambiguous text entry |
| US7720682B2 (en) * | 1998-12-04 | 2010-05-18 | Tegic Communications, Inc. | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
| US7319957B2 (en) * | 2004-02-11 | 2008-01-15 | Tegic Communications, Inc. | Handwriting and voice input with automatic correction |
| DE19857070A1 (de) * | 1998-12-10 | 2000-06-15 | Michael Mende | Verfahren und Vorrichtung zur Ermittlung einer orthographischen Wiedergabe eines Textes |
| US6629073B1 (en) | 2000-04-27 | 2003-09-30 | Microsoft Corporation | Speech recognition method and apparatus utilizing multi-unit models |
| US6662158B1 (en) * | 2000-04-27 | 2003-12-09 | Microsoft Corporation | Temporal pattern recognition method and apparatus utilizing segment and frame-based models |
| JP3542026B2 (ja) * | 2000-05-02 | 2004-07-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体 |
| US8583440B2 (en) | 2002-06-20 | 2013-11-12 | Tegic Communications, Inc. | Apparatus and method for providing visual indication of character ambiguity during text entry |
| US20050192802A1 (en) * | 2004-02-11 | 2005-09-01 | Alex Robinson | Handwriting and voice input with automatic correction |
| US8095364B2 (en) | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
| KR100883652B1 (ko) * | 2006-08-03 | 2009-02-18 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템 |
| US8024191B2 (en) * | 2007-10-31 | 2011-09-20 | At&T Intellectual Property Ii, L.P. | System and method of word lattice augmentation using a pre/post vocalic consonant distinction |
| US20090132237A1 (en) * | 2007-11-19 | 2009-05-21 | L N T S - Linguistech Solution Ltd | Orthogonal classification of words in multichannel speech recognizers |
| CN104538028B (zh) * | 2014-12-25 | 2017-10-17 | 清华大学 | 一种基于深度长短期记忆循环神经网络的连续语音识别方法 |
| CN107492382B (zh) | 2016-06-13 | 2020-12-18 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
| WO2023209598A1 (en) * | 2022-04-27 | 2023-11-02 | Cochlear Limited | Dynamic list-based speech testing |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS58130393A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声認識装置 |
| JPS5972496A (ja) * | 1982-10-19 | 1984-04-24 | 株式会社東芝 | 単音識別装置 |
| JPS59121100A (ja) * | 1982-12-28 | 1984-07-12 | 株式会社東芝 | 連続音声認識装置 |
| JPS59121098A (ja) * | 1982-12-28 | 1984-07-12 | 株式会社東芝 | 連続音声認識装置 |
| US4868879A (en) * | 1984-03-27 | 1989-09-19 | Oki Electric Industry Co., Ltd. | Apparatus and method for recognizing speech |
| JPH0760318B2 (ja) * | 1986-09-29 | 1995-06-28 | 株式会社東芝 | 連続音声認識方式 |
| US4803729A (en) * | 1987-04-03 | 1989-02-07 | Dragon Systems, Inc. | Speech recognition method |
| EP0311022B1 (en) * | 1987-10-06 | 1994-03-30 | Kabushiki Kaisha Toshiba | Speech recognition apparatus and method thereof |
| JPH01167898A (ja) * | 1987-12-04 | 1989-07-03 | Internatl Business Mach Corp <Ibm> | 音声認識装置 |
-
1988
- 1988-12-02 JP JP63305789A patent/JPH02150899A/ja active Pending
-
1989
- 1989-11-30 DE DE68924134T patent/DE68924134T2/de not_active Expired - Fee Related
- 1989-11-30 EP EP89122127A patent/EP0372400B1/en not_active Expired - Lifetime
- 1989-11-30 US US07/443,485 patent/US5133012A/en not_active Expired - Fee Related
- 1989-12-01 CA CA002004435A patent/CA2004435C/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| DE68924134D1 (de) | 1995-10-12 |
| EP0372400A3 (en) | 1991-10-09 |
| EP0372400A2 (en) | 1990-06-13 |
| DE68924134T2 (de) | 1996-02-01 |
| CA2004435A1 (en) | 1990-06-02 |
| CA2004435C (en) | 1994-04-19 |
| US5133012A (en) | 1992-07-21 |
| EP0372400B1 (en) | 1995-09-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH02150899A (ja) | 音声認識方式 | |
| Zissman et al. | Automatic language identification | |
| Goldwater et al. | Which words are hard to recognize? Prosodic, lexical, and disfluency factors that increase speech recognition error rates | |
| Hazen | Automatic language identification using a segment-based approach | |
| Moro-Velazquez et al. | Study of the Performance of Automatic Speech Recognition Systems in Speakers with Parkinson's Disease. | |
| EP0925579B1 (de) | Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem | |
| US8352263B2 (en) | Method for speech recognition on all languages and for inputing words using speech recognition | |
| JPS59226400A (ja) | 音声認識装置 | |
| WO2008033095A1 (en) | Apparatus and method for speech utterance verification | |
| US20210353218A1 (en) | Machine Learning Systems and Methods for Multiscale Alzheimer's Dementia Recognition Through Spontaneous Speech | |
| JPH07506198A (ja) | 複合エキスパート | |
| EP0265692A1 (en) | System for continuous speech recognition | |
| Fredouille et al. | Acoustic-phonetic decoding for speech intelligibility evaluation in the context of head and neck cancers | |
| Lee et al. | Predicting Severity of Voice Disorder from DNN-HMM Acoustic Posteriors. | |
| Abdo et al. | Semi-automatic segmentation system for syllables extraction from continuous Arabic audio signal | |
| Rajpal et al. | Native Language Identification Using Spectral and Source-Based Features. | |
| Lee et al. | Korean dialect identification based on an ensemble of prosodic and segmental feature learning for forensic speaker profiling | |
| Mermelstein | A phonetic-context controlled strategy for segmentation and phonetic labeling of speech | |
| Wang et al. | A multi-space distribution (MSD) approach to speech recognition of tonal languages. | |
| Sadanandam | HMM based language identification from speech utterances of popular indic languages using spectral and prosodic features HMM based language identification from speech utterances of popular indic languages using spectral and prosodic features | |
| US20120116764A1 (en) | Speech recognition method on sentences in all languages | |
| Muthusamy et al. | A review of research in automatic language identification | |
| Sigmund | Search for keywords and vocal elements in audio recordings | |
| JP3277522B2 (ja) | 音声認識方法 | |
| Pandey et al. | Fusion of spectral and prosodic information using combined error optimization for keyword spotting |