JPH05158493A

JPH05158493A - 音声認識装置

Info

Publication number: JPH05158493A
Application number: JP3324930A
Authority: JP
Inventors: Hitoshi Iwamida; 均岩見田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-12-10
Filing date: 1991-12-10
Publication date: 1993-06-25

Abstract

(57)【要約】【目的】本発明は、ユーザの入力する音声情報の表す文
字列を認識して出力していくよう動作する音声認識装置
に関し、正確な認識結果を少ない音声情報の入力回数で
もって得られるようにすることを目的とする。【構成】登録されてある音声標準パターンと認識対象の
音声パターンとの尤度を局所尤度列を求めつつ評価し
て、最も尤度の高い音声標準パターンに対応する文字列
を特定して出力していく音声認識装置において、認識結
果の文字列を分割するとともに、求められた局所尤度列
をその分割に対応して分割する分割部１２と、分割され
た各局所尤度列の代表値を算出することで、分割された
各文字部分に対応付けられる尤度を算出する算出部１３
とを備え、認識結果の文字列を出力していくときに、算
出部１３により算出された尤度を対応する文字部分に関
連付けて出力していくように構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ユーザの入力する音声
情報が予め登録されてある文字列のどれに対応するのか
を認識して、その認識結果をユーザに対して出力してい
くよう動作する音声認識装置に関し、特に、正確な認識
結果を少ない音声情報の入力回数でもって得られるよう
にする音声認識装置に関するものである。

【０００２】近年、オペレータの発声する音声情報を認
識して、その認識結果に従って対象物の自動振り分け等
の処理を実行していくようなシステムが普及しつつあ
る。このようなシステムに用いられる音声認識装置は、
オペレータの発声する音声情報が予め登録されてある文
字列のどれに対応するのかを認識していくとともに、オ
ペレータは、その認識結果が正しいものでない場合に
は、正しい認識結果が得られるまで音声情報の発声を繰
り返していくことになる。これから、このような音声認
識装置では、オペレータの希望する認識結果が少ない音
声情報の発声回数でもって得られるようにする構成を採
っていく必要がある。

【０００３】

【従来の技術】ユーザの入力する音声情報が予め登録さ
れてある文字列のどれに対応するのかを認識して、その
認識結果をユーザに対して表示していくよう動作する音
声認識装置では、従来、１位の認識結果の文字列を表示
する構成を採るか、上位複数個の認識結果の文字列を表
示する構成を採っている。

【０００４】そして、ユーザは、この認識結果がいずれ
も正しいものでないときには、再度音声情報を発声して
音声認識装置に入力していくことになる。

【０００５】

【発明が解決しようとする課題】このように、従来の音
声認識装置では、ただ単に認識結果となる文字列を表示
する構成を採るだけであることから、ユーザは、音声認
識装置がどの音声情報部分で誤認識したのかを知るすべ
がなく、音声認識装置が誤認識した場合、やみくもに音
声情報の入力を繰り返していくことになる。これから、
正しい認識結果を得られるまでに、音声情報を何回も入
力していかなくてはならないことが起こるという問題点
があったのである。

【０００６】本発明はかかる事情に鑑みてなされたもの
であって、正確な認識結果を少ない音声情報の入力回数
でもって得られるようにする新たな音声認識装置の提供
を目的とするものである。

【０００７】

【課題を解決するための手段】図１に本発明の原理構成
を図示する。図中、１は本発明を具備する音声認識装
置、２は音声認識装置１の認識結果を出力する出力装置
である。

【０００８】音声認識装置１は、標準パターン管理部１
０と、認識部１１と、分割部１２と、算出部１３と、出
力部１４とを備える。この標準パターン管理部１０は、
入力されてくる可能性のある音声信号の持つ音声パター
ンを文字列との対応関係をとりつつ音声標準パターンと
して管理する。認識部１１は、認識対象の音声信号の音
声パターンが与えられるときに、その音声パターンと標
準パターン管理部１０に管理されている音声標準パター
ンとの尤度を局所尤度列を求めつつ評価して、認識対象
の音声信号の表す文字列を認識する。

【０００９】分割部１２は、認識部１１の認識した文字
列を分割するとともに、その分割に対応して認識部１１
により求められた局所尤度列を分割する。分割部１２
は、この分割処理にあたって、時間を基準として認識結
果の文字列を分割していくことがあり、また、音素又は
音節を基準として認識結果の文字列を分割していくこと
がある。

【００１０】算出部１３は、分割部１２により分割され
た各局所尤度列の代表値を算出することで、分割部１２
により分割された各文字部分に対応付けられる尤度を算
出する。出力部１４は、出力装置２に認識結果を出力す
る。

【００１１】

【作用】本発明では、ユーザが認識対象となる音声情報
を発声することで、認識部１１に認識対象の音声パター
ンが与えられると、認識部１１は、その音声パターンと
標準パターン管理部１０に管理されている音声標準パタ
ーンとの尤度を局所尤度列を求めつつ評価して、最も尤
度の高い音声標準パターン、あるいは上位複数個の音声
標準パターンに対応する文字列を認識対象の音声情報の
表す文字列として認識する。

【００１２】このようにして、認識部１１により認識結
果の文字列が求められると、分割部１２は、その認識結
果の文字列を例えば音素を基準にして分割するととも
に、その分割に対応して認識部１１により求められた局
所尤度列を分割し、この分割処理を受けて、算出部１３
は、分割部１２により分割された各局所尤度列の例えば
平均値を算出していくことで、分割部１２により分割さ
れた各文字部分に対応付けられる尤度を算出する。

【００１３】そして、出力部１４は、この算出部１３の
算出結果を受けて、認識部１１の認識した認識結果の文
字列を出力していくときに、算出された尤度を対応する
各文字部分に関連付けて出力していく。このとき、算出
された尤度の内の相対的に高い１つ又は複数の尤度と、
この尤度に対応付けられる文字部分との双方又はいずれ
か一方を、他の文字部分についての出力形態とは異なる
出力形態で出力していくよう処理することがある。

【００１４】このように、本発明の音声認識装置１で
は、ただ単に認識結果となる文字列を表示するのではな
くて、認識処理により求められた各文字部分の尤度を関
連付けて表示する構成を採るものであることから、ユー
ザは、認識結果が誤りであることで音声情報を再入力す
るときにあって、どの音声情報部分に注意して発声すべ
きかを知ることができるので、音声情報を何回も入力し
ていかなくても済むようになるのである。

【００１５】

【実施例】以下、実施例に従って本発明を詳細に説明す
る。図２に、本発明の一実施例を図示する。図中、１は
本発明に係る音声認識装置の一実施例、２ａは音声認識
装置１の認識結果を出力するディスプレイ装置、３はユ
ーザの発声する単語音声情報を電気信号に変換すること
で単語音声信号を生成するマイクロフォンである。

【００１６】この実施例の音声認識装置１は、音声入力
部１５と、周波数分析部１６と、標準周波数パターン管
理部１０ａと、照合部１１ａと、音素分割部１２ａと、
音素尤度算出部１３ａと、認識結果表示制御部１４ａと
を備える。

【００１７】この音声入力部１５は、マイクロフォン３
の変換した単語音声信号をＡ／Ｄ変換する。周波数分析
部１６は、音声入力部１５によりＡ／Ｄ変換された単語
音声信号をある適当な周期毎に周波数分析することで時
間周波数パターン（各時間でどのような周波数特性を持
つのかを表示する）を得る。標準周波数パターン管理部
１０ａは、図１の標準パターン管理部１０に対応するも
のであって、入力されてくる可能性のある単語音声信号
の持つ典型的な時間周波数パターンを単語文字列との対
応関係をとりつつ標準周波数パターンとして管理する。

【００１８】照合部１１ａは、図１の認識部１１に相当
するものであって、例えばＤＰマッチングのような照合
手法を用いて、周波数分析部１６の分析する時間周波数
パターンと、標準周波数パターン管理部１０ａの管理す
る標準周波数パターンとを照合して、最も尤度（類似
度）の高い単語文字列を特定して音素分割部１２ａに出
力するとともに、その照合の際に求めた局所尤度列（最
適照合経路上の局所尤度の列）を音素分割部１２ａに出
力する。

【００１９】音素分割部１２ａは、図１の分割部１２に
相当するものであって、照合部１１ａにより求められた
単語文字列を音素毎に分割するとともに、その分割に対
応して、照合部１１ａにより求められた局所尤度列を音
素毎に分割する。音素尤度算出部１３ａは、図１の算出
部１３に相当するものであって、音素分割部１２ａによ
り分割された音素毎の局所尤度列の平均値を算出するこ
とで音素毎の尤度を算出する。認識結果表示制御部１４
ａは、図１の出力部１４に相当するものであって、ディ
スプレイ装置２ａに対して認識結果を出力する。

【００２０】次に、このように構成される実施例の動作
処理について詳細に説明する。ユーザが認識対象となる
単語音声情報を発声すると、音声入力部１５が、マイク
ロフォン３により電気信号に変換された単語音声信号を
Ａ／Ｄ変換し、周波数分析部１６が、このＡ／Ｄ変換さ
れた単語音声信号をある適当な周期毎に周波数分析する
ことで時間周波数パターンを得る。

【００２１】このようにして、ユーザの発声した音声情
報の時間周波数パターンが得られると、照合部１１ａ
は、周波数分析部１６の分析する時間周波数パターン
と、標準周波数パターン管理部１０ａの管理する標準周
波数パターンとを照合して、最も尤度の高い単語文字列
を特定して音素分割部１２ａに出力するとともに、その
照合の際に求めた局所尤度列を音素分割部１２ａに出力
する。

【００２２】この照合部１１ａによる単語文字列の出力
処理を受けて、音素分割部１２ａは、受け取った単語文
字列を音素毎に分割するとともに、その分割に対応し
て、照合部１１ａにより求められた局所尤度列を音素毎
に分割し、この音素分割部１２ａによる局所尤度列の分
割処理を受けて、音素尤度算出部１３ａは、分割された
音素毎の局所尤度列の平均値を算出することで音素毎の
尤度を算出する。

【００２３】そして、認識結果表示制御部１４ａは、照
合部１１ａの認識した認識結果の単語文字列をディスプ
レイ装置２ａに表示していくとともに、この音素尤度算
出部１３ａの算出結果を受けて、算出された音素毎の尤
度を認識結果の単語文字列の対応する音素に関連付けて
表示していくよう制御する。

【００２４】このようにして、ユーザが例えば「ＣＨＩ
ＢＡ（千葉）」という単語音声情報を発声するときにあ
って、照合部１１ａが「ＳＨＩＧＡ（滋賀）」と認識す
る場合でもって説明するならば、音素分割部１２ａは、
認識結果の「ＳＨＩＧＡ」を音素を単位に分割すること
で「／ＳＨ／，／Ｉ／，／Ｇ／，／Ａ／」を得て、音素
尤度算出部１３ａは、例えば、「ＳＨ」の尤度が“１
０”で、「Ｉ」の尤度が“５”で、「Ｇ」の尤度が
“４”で、「Ａ」の尤度が“１２”であることを算出
し、これらの処理結果を受けて、認識結果表示制御部１
４ａは、図３に示すように、ディスプレイ装置２ａのデ
ィスプレイ画面上に、認識結果の単語文字列である「Ｓ
ＨＩＧＡ」と、その「ＳＨＩＧＡ」を構成する各音素の
尤度とを関連付けて表示していくよう制御するのであ
る。

【００２５】この表示制御に従い、ユーザは、「ＣＨＩ
ＢＡ」の「ＣＨ」が「ＳＨ」に誤認識され、「ＣＨＩＢ
Ａ」の「Ｂ」が「Ｇ」に誤認識されていることを知ると
きにあって、「ＳＨ」の尤度が高いことを知ることがで
きるので、次に「ＣＨＩＢＡ」を再入力するときには、
高い尤度でもって間違えられた「ＣＨ」に注意しなが
ら、「ＣＨＩＢＡ」を発声していくようにすればよいこ
とを知ることができるのである。

【００２６】この図３に示す表示例では、単に、音素尤
度算出部１３ａにより算出された尤度を認識結果の単語
文字列の各音素に対応付けて表示していく構成例でもっ
て示したが、例えば、相対的に高い尤度を他の尤度とは
別の色で表示させたりフリッカ表示させたり、あるいは
その尤度に対応付けられる音素も別の色で表示させたり
フリッカ表示させたりすると、ユーザの注意を促すのに
便利なものとなる。

【００２７】このように、本発明の音声認識装置１で
は、ただ単に認識結果となる文字列を表示するのではな
くて、認識処理により求められた各文字部分の尤度を関
連付けて表示する構成を採ることを特徴とするものであ
る。

【００２８】図示実施例について説明したが、本発明は
これに限定されるものではない。例えば、実施例では、
単語音声情報の認識処理を例にして本発明を説明した
が、本発明はこれに限られることなく、文節等の音声認
識処理についてもそのまま適用することが可能である。

【００２９】また、実施例では、音素を基準にして認識
結果の文字列を分割していくことで開示したが、本発明
はこれに限られることなく、音節や時間を基準にして認
識結果の文字列を分割していく構成を採ることも可能で
ある。例えば時間を基準にして分割すると、ユーザは発
声する音声情報の前半部分に注意すべきであるとか、後
半部分に注意すべきであるとかいう情報が表示されるこ
とになるのである。

【００３０】

【発明の効果】以上説明したように、本発明によれば、
音声認識装置にあって、認識結果の文字列を表示すると
きに、認識処理により求められた各文字部分の尤度を関
連付けて表示する構成を採るものであることから、ユー
ザは、認識結果が誤りであることで音声情報を再入力す
るときにあって、どの音声情報部分に注意して発声すべ
きかを知ることができるので、音声情報を何回も入力し
ていかなくても済むようになるのである。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明の一実施例である。

【図３】認識結果の表示例の説明図である。

【符号の説明】

１音声認識装置２出力装置１０標準パターン管理部１１認識部１２分割部１３算出部１４出力部

Claims

【特許請求の範囲】

【請求項１】予め登録されてある音声標準パターン
と、認識対象の音声パターンとの尤度を局所尤度列を求
めつつ評価して、最も尤度の高い音声標準パターン、あ
るいは上位複数個の音声標準パターンに対応する文字列
を特定して出力していく音声認識装置において、認識結果の文字列を分割するとともに、求められた局所
尤度列を該分割に対応して分割する分割部(12)と、上記分割部(12)により分割された各局所尤度列の代表値
を算出することで、上記分割部(12)により分割された各
文字部分に対応付けられる尤度を算出する算出部(13)と
を備え、認識結果の文字列を出力していくときに、上記算出部(1
3)により算出された尤度を対応する文字部分に関連付け
て出力していくよう処理することを、特徴とする音声認識装置。
【請求項２】請求項１記載の音声認識装置において、分割部(12)は、時間を基準として認識結果の文字列を分
割していくよう処理することを、特徴とする音声認識装置。
【請求項３】請求項１記載の音声認識装置において、分割部(12)は、音素又は音節を基準として認識結果の文
字列を分割していくよう処理することを、特徴とする音声認識装置。
【請求項４】請求項１、２又は３記載の音声認識装置
において、認識結果の文字列を出力していくときに、算出部(13)に
より算出された尤度の内の相対的に高い１つ又は複数の
尤度と、該尤度に対応付けられる文字部分との双方又は
いずれか一方を、他の文字部分についての出力形態とは
異なる出力形態で出力していくよう処理することを、特徴とする音声認識装置。