JPS6312000A

JPS6312000A - 音声認識装置

Info

Publication number: JPS6312000A
Application number: JP61156635A
Authority: JP
Inventors: 武志則松
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1986-07-03
Filing date: 1986-07-03
Publication date: 1988-01-19
Anticipated expiration: 2009-12-12
Also published as: JPH06100919B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、認識候補音声を導き出す不特定話者用の音声
認識装置に関するものである。

従来の技術一般に、不特定話者用音声認識装置では、多人数の多数
の音声パタンをクラスタリング手法によりグループ分け
し、それらの代表パタンを標準パタンとして登録し、入
力音声パタンと辞書に蓄えられたすべての標準パタンと
の間で類似度を計算した後、類似度の最大となる標準パ
タンを認識候補音声とする方法が行なわれている。二つ
の音声パタンの類似度を計算するためには動的計画法（
ダイナミック−プログラミング法）を用いて、二つのパ
タンの時間軸を非線形に伸縮するパタンマツチング（以
下、ＤＰマツチングと記す。）が使用されている。特に
、単語音声認識装置では、このＤＰマツチング法により
高い認識率を得ている。（例えば、［ダイナミック　プ
ログラミングオプティミゼインヨン　フォ　スポークン
　ワード　レコダ＝　ン、　７　Ｊ　（Ｈ，５ａｋｏａ
　ａｎｄ　Ｓ、Ｃ：ｈｉｂａ。

”　Ｄｙｎａｍｉｃ　ｐｒｏｇｒａｍｍｉｎｇ　Ｏｐｔ
ｉｍｉｚａｔｉｏｎ　ｒｏｒｓｐｏｒｋａｎ　ｗｏｒｄ
　ｒｅｃｏｇｎｉｔｉｏｎ”、　工ＥＥＥ　ｔｒａｎｓ
。

人ｃｏｕｓｔｉｃ、５ｐｅｅｃｈ、Ｓｉｇｎａｌ　　Ｐ
ｒｏｃｅｓｓｉｎｇ、Ｖｏｌ。

ム５ＳＰ−２７ｐｐ、３３６−３４９．１９７９）　）
発明が解決しようとする問題点しかしながら上記の音声認識装置では、話者の発声の仕
方９個人差及び音声区間検出の誤り等により語頭部ある
いは語尾部の欠落したパタンか入力された場合には、欠
落のないパタンとパタンマツチングを行うことになり類
似度が低くなり誤認識が生じやすくなるという問題点を
有していた。

例えば、ｒＦＵＫＵＯＫＡ（福岡）」と発声する場合を
考えると語頭部のＦＨの部分は発声の仕方９個人差等に
より有声化したり無声化したりする０無声化した場合に
はＦＵの部分のエネルギー値は非常に小さくなり、主に
音声のエネルギー値系列により音声区間を検出する音声
認識装置では、誤ってＦＵの部分が欠落したｒＫＵＯＫ
Ａ」の区間だけを音声区間として検出する可能性が高く
なる。そのため標準パタンのｒＦＵＫＵＯＫＡ　」との
パタンマツチングを行ってもその類似度が低くなり誤認
識が生じやすくなる。このように従来の音声認識装置で
は音声区間の検出を誤った場合に、いかに認識率の低下
を防ぐかが問題であった。

本発明は上記問題点に鑑み、発声の仕方により語頭部２
語尾部の欠落の可能性のあるパタンについて、音声区間
の検出を誤った場合でも精度良く認識することのできる
音声認識装置を提供するものである。

問題点を解決するための手段上記目的を達するために本発明の音声認識装置は、入力
音声のエネルギー系列から音声区間を検出する音声区間
検出手段と、多人数の多数の音声パタンから代表的なパ
タンを認識対象音声ごとに複数個ずつ選び出し、それら
を標準パタンとして決定する標準パタン決定手段と、標
準パタンの記憶されているアドレス及びパタン長を管理
する標準パタン管理手段と、発声の仕方９個人差により
語頭部１語尾部の欠落する可能性のあるパタン全欠落の
ない標準パタンの一部分として管理する部分パタン管理
手段と、入力音声と前記標準パタン管理手段と部分パタ
ン管理手段により管理された各パタンとの間でパタンマ
ツチングを行い、類似度の最大となるパタンを認識候補
音声とするパタンマツチング手段を備えたものである。

作用本発明は上記に述べた構成によって、あらかじめ語頭部
１語尾部の欠落の可能性のあるパタンについて、欠落の
生じたパタンを欠落のない標準パタンの一部分として管
理し、欠落のない標準パタン及び欠落の生じた代表パタ
ンの部分パタンと入力音声との間でパタンマツチングを
行い認識候補音声を導き出すことにより、語頭部２語尾
部の検出の難しいパタンについて音声区間検出を誤った
場合にも精度良く認識する事ができる。また、欠落のあ
るパタンを欠落のない標準パタンの一部分として管理す
ることにより標準パタンのメモリ容量が増加することを
防止する事ができる。

実施例以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。

第１図は本発明の一実施例における音声認識装置のブロ
ック図である。第１図において、１は音声入力部で、話
者の音声がマイクロホン等を通して入力される。２は音
声分析手段で、入力された音声信号から特徴ベクトルの
時系列及びエネルギー系列を抽出する。３は音声区間検
出手段で、音声のエネルギー系列から音声区間部分を検
出する。

４は標準パタン決定手段で、多人数の多数の音声パタン
を分析し、それらの代表パタンを標準パタンとして決定
する。６は各標準パタンのメモリ位置、パタン長を管理
する標準パタン管理手段、６は語頭部２語尾部の欠落し
たパタンを標準パタン管理手段６で管理されている標準
パタンの一部分として管理する部分パタン管理手段、７
は入力パタンと各標準パタン及び各部分パタンとの間で
パタンマツチングを行うパタンマツチング手段、８はパ
タンマツチング手段７の結果から導き出した認識候補音
声を音声合成等により話者に知らせる認識結果出力部で
ある。

第２図は本実施例の構成を示す回路図で、上記の音声区
間検出手段３、標準パタン管理手段６゜部分パタン管理
手段６．パタンマツチング手段７をマイクロコンピュー
タ２３で実現した構成を示すものである。第２図におい
て、１１は音声の入力を行なうマイクロホン、１２はマ
イクロホン１１から入力された音声信号をアナログ−デ
ィジタル変換するアナログ／ディジタル変換器（以下Ａ
／Ｄ変換器という。）、１３は音声分析部、１４は音声
区間検出部、１５は入力音声の特徴ベクトルの時系列を
記憶する入力パタンメモリ、１７は標準パタンのなかで
語頭部１語尾部の欠落の可能性のあるパタンについて、
欠落の生じたパタンを標準パタンの部分パタンとして管
理する標準パタンの部分パタン管理テーブル、１８は標
準パタン決定手段６により決定された各標準パタンを管
理する標準パタン管理テーブル、１９はすべての標準パ
タンの特徴ベクトルの時系列を記憶する標準パタンメモ
リ、２０は認識結果判定部、２１は得られた認識候補音
声の音声を合成する音声合成部、２２は音声合成部２１
で得られた音声合成部を出力するスピーカである。

第３図は本実施例のマイクロコンピュータの動作を説明
するための要部フローチャートである。

以上の構成による本実施例の動作を、第３図のフローチ
ャートに清って詳細に説明する。

まず、ステップ３１でマイクロホン１１から音声を入力
し、人／Ｄ変換器１２で音声信号をアナログ−ディジタ
ル変換したあと、音声分析部１３で音声パタンの特徴ベ
クトル（例えば、１０次元の線形予測係数）の時系列と
エネルギー系列を求める。ステップ３２では、音声分析
部１３で得られたエネルギー系列からエネルギー値がし
きい値を上回る区間が一定時間Ｔ８ｆｃ超え、しかも語
頭前部９語尾後部にそれぞれ一定時間Ｔ１．Ｔ２以上の
しきい値人。を下回る区間が存在するとき一定時間Ｔ。

を超える区間を音声区間として検出し、ステップ３３で
入力パタンメモリ１６にその特徴ベクトルの時系列を記
憶する。

なお、あらかじめ標準パタン決定手段４により認識対象
音声の各々に対して、多人数の多数の音声パタンより代
表的なパタンを複数個ずつ決定し、標準パタンメモリ１
９にそれらのパタンを記憶している。また、標準パタン
管理テーブル１８には、標準パタンメモリ１９の各パタ
ンを管理するだめのアドレス及びパタン長を記憶してお
り、標準パタンの部分パタン管理テーブル１７には、標
準パタンのうち語頭部２語尾部の欠落の可能性のあるパ
タンをあらかじめ調べておき、欠落の生じた時のパタン
を欠落のない標準パタンの部分パタンとして管理するた
めに、その標準パタンメモリ１９上のアドレス及びその
パタン長を記憶している０即ち、標準パタンメモリ１９
には欠落のない代表パタンとしての標準パタンの特徴ベ
クトルの時系列のみが記憶されているだけであり、語頭
部２語尾部の欠落した部分パタンか必要なときは、標準
パタンの部分パタン管理テーブル１７に従い標準パタン
メ゛モリ１９内の部分パタンの部分のみを取り出せばよ
い。

ステップ３４では、標準パタン管理テーブル１８に従っ
て標準パタンメモリ１９上の最初のパタンをＤＰマツチ
ング部１６のメモリにロードし、次にステップ３５で入
力パタンメモリ１６に記憶された入力パタンとステップ
３４でロードされた標準パタンとの間でＤＰマツチング
を行う。ステップ３６では、標準パタン管理テーブル１
８に従い、すべての標準パタンとステップ３４．３５の
処理を終了したかを調べ、終了していなければステップ
３４に戻り同様の処理を続ける。

ステップ３６の条件を満足すると、次はステップ３７で
部分パタン管理テーブル１７に従い、最初の部分パタン
を標準パタンメモリ１９からＤＰマツチング部１６のメ
モリ上にロードし、ステップ３８でＤＰマツチングを実
行する。その後、ステップ３９で標準パタンの部分パタ
ン管理テーブル１７に従い、すべての部分パタンとステ
ップ３７．３８の処理を終了したかをチェックし、終了
していなければステップ３７の処理に戻る。

すべての標準パタン及び部分パタンとのＤＰマツチング
が終了すると、ステップ４ｏに進み、認識結果判定部２
ｏで、ＤＰマツチング部１６で得られた各標準パタン及
び部分パタンとの類似度のうち最大値を与えるパタンを
認識候補音声として判定する。さらに、ステップ４１で
音声合成部２１を起動させ認識結果判定部２ｏで得られ
た認識候補音声を合成し、スピーカ２２に出力すること
により話者に認識候補音声を通知する。

なお、本実施例では、標準パタン管理テーブルと部分パ
タン管理テーブルとを別々に持ったが、部分パタン管理
テーブルを標準パタン管理テーブルの中の一部と考えれ
ば管理テーブル一つで同様の処理を行うことができる。

以上のように本実施例によれば、標準パタンを管理する
標準パタン管理手段と、語頭部１語尾部の欠落する可能
性のあるパタンについて欠落の生じた時のパタンを欠落
のない標準パタンの一部分として管理する部分パタン管
理手段とを持ち、語頭部２語尾部の検出を誤った場合に
も、部分パタンとパタンマツチングすることにより正し
く認識を行うことができる。

また、語頭部９語尾部の不安定な標準パタンについては
欠落の生じたパタンを欠落のない代表パタン一つで管理
することができるのでテンプレートを増やす必要がなく
、メモリの有効利用がはかれる。

発明の効果以上のように本発明は、多人数の多数の音声パタンから
代表的なパタンを各認識対象音声に複数個ずつ選択し、
標準パタンとして決定する標準パタン決定手段と、各標
準パタンのメモリ上のアドレスとパタン長を管理する標
準パタン管理手段と、標準パタンのうち語頭部２語尾部
の欠落の可能性のあるパタンについて欠落の生じたとき
のパタンを、欠落のない標準パタンの一部分としてその
アドレスとパタン長を標準パタン一つで管理する部分パ
タン管理手段とを持ち、入力パタンと各標準パタン及び
各部分パタンとの間でパタンマツチングを行い類似度が
最大となるパタンを認識候補音声とすることにより、音
声区間検出の際に誤って語頭部１語尾部が欠落したパタ
ンを大刀した場合でも部分パタン管理手段により管理さ
れた部分パタンとパタンマツチングを行うことにより精
度良く認識を行うことのできる音声認識装置を提供する
ことができる。

また、欠落の生じたパタンを欠落のない標準パタンを代
表パタンとして代表パタン一つで管理することにより、
テンプレート数を増加させることなく音声区間検出を誤
った場合にも正しく認識することのできる音声認識装置
を提供することができる。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識装置の構成
を示すブロック図、第２図は同装置の構成を示す回路ブ
ロック図、第３図は同装置の動作説明のための要部フロ
ーチャートである。２・・・・・・音声分析手段、３・・・・・・音声区間
検出手段、４・・・・・・標準パタン決定手段、６・・
・・・・標準パタン管理手段、６・・・・・・部分パタ
ン管理手段、７・・・・・・パタンマツチング手段、１
１・・・・・・マイクロボン、１５・・・・・・入力パ
タンメモリ、１７・旧・・部分パタン管理−ｙ−−７”
ル、１８・・・・・・標準パタン管理テーブル、１９・
・・・・・標準パタンメモリ、２２・・川・スピーカ、
２３・・・・・・マイクロコンピュータ。

Claims

【特許請求の範囲】

入力音声からエネルギー系列を含む特徴ベクトルの時系
列を抽出する音声分析手段と、前記音声分析手段により
得られたエネルギー系列から音声区間を検出する音声区
間検出手段と、多人数の多数の音声パタンから代表的な
パタンを選択し、音声認識対象音声ごとに複数個ずつ標
準パタンとして決定する標準パタン決定手段と、前記標
準パタン決定手段により決定された各標準パタンの記憶
されているメモリ上のアドレス、パタン長を管理する標
準パタン管理手段と、発声の仕方、個人差によって音声
パタンの語頭部あるいは語尾部が欠落する可能性のある
認識対象音声の標準パタンに関して、欠落のないパタン
を代表パタンとして、欠落のあるパタンの標準パタンは
代表パタンの一部分としてその記憶されているメモリ上
のアドレス、パタン長を管理する部分パタン管理手段と
、前記標準パタン管理手段により管理された各標準パタ
ン、及び前記部分パタン管理手段により管理された標準
パタンの各部分パタンと入力音声パタンとの間でパタン
マッチングを行い類似度が最大となるパタンを認識候補
音声とするパタンマッチング手段とを備えたことを特徴
とする音声認識装置。