JPH01310399A

JPH01310399A - 音声認識装置

Info

Publication number: JPH01310399A
Application number: JP63141069A
Authority: JP
Inventors: Tsuneo Nitta; 恒雄新田; Akira Nakayama; 昭中山
Original assignee: Toshiba Corp; Toshiba Computer Engineering Corp
Current assignee: Toshiba Corp; Toshiba Computer Engineering Corp
Priority date: 1988-06-08
Filing date: 1988-06-08
Publication date: 1989-12-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

［発明の目的］（産業上の利用分野）本発明は音声認識装置に関する。（従来の技術）音声認識装置は、発声者が発生した音声を入力して、そ
の音声信号から音声区間を検出し、この音声区間の信号
を時間的に正規化して得た特徴量と標準パターンとの間
で類似度′ａ算を行ない、最も高いスコアを示すカテゴ
リを音声認識結果として出力する装置であって、人間の
音声を利用した操作により自動的に作動を行なう種々の
装置に使用されている。しかして、音声認識装置を使用した音声認識では、その
前処理として発声者が発生した音声における音声区間、
を検出する処理を行なうことが必要である。従来の音声認識装置において音声区間を検出するために
は、発声者の音声をマイクロフォンから入力し、入力し
た音声を分析して得た音響的特徴パラメータに基づいて
、適宜なしきい値を利用して音声区間の始端と終端を検
出して音声区間を検出することが行なわれている。（発明が解決しようとする課題）しかしながら、このような従来の音声認識装置における
音声区間の検出の方法においては、外部騒音が大きい環
境では、発声者が発生した音声に加え°て外部の騒音が
一緒にマイクロフォンに入力されることがある。この場
合には、音声の分析時微量も、本来の音声の成分とそれ
以外の外部騒音の成分とが重畳してしまうために、正確
な音声区間の検出が困難となる可能性がある。これは特
に騒音レベルが大きい場合や突発的なノイズが発生する
場合に顕著である。本発明は前記事情に基づいてなされたもので、外部騒音
に影響されることなく音声区間の検出を正確に行なうこ
とができる音声認識装置を提供することを目的とする。［発明の構成］（課題を解決するための手段）前記目的を達成するために本発明の音声認識装置は、発
声者の器とマイクロフォンとの間の距離を検出する距離
センサと、この距離センサで検出した信号をデジタル量
に変換する距離計算手段と、この距離計算手段で出力さ
れた信号の距離時系列から安定した距ｉｌｉｔｍを抽出
し唇およびその付近部の動きから音声の発声区間を検出
する発声区間検出手段とを備え、発声区間検出部で検出
した発声区間を音声区間の次候補とすることを特徴とす
るものである。（作用）すなわち、距離センサが、発声者が発声した時の唇とマ
イクロフォンとの間の距離を検出し、Ｂが動いている区
間を発声者が音声を発生している区間とみなして音声区
間の次候補としてエントリする。これにより外部騒音が
大きい環境下において、マイクから入力した大きな騒音
を含む音声信号から音声区間を検出することが困難な場
合でも、発声区間を利用して正確に音声区間を検出する
ことができる。（実施例）以下本発明の実施例を図面を参照して説明する。本発明の音声認識装置の構成の一実施例を第１図につい
て説明する。図中１はマイクロフォン２と距離センサ３とを一体に取
付けたマイクロフォン装置！で、第２図で示すように発
声者２１が装着して使用する。音声入力部であるマイク
ロフォン２は接話形のもので、発声者２１の唇２２の前
方の一定距離を置いた位置に設けられる。距離センサ３
はマイクロフォン２と発声者２１の唇２２との間の距離
を測定するセンサで、発声時に唇２２およびその付近部
が動くことによりマイクロフォン２と唇２２との間の距
離が変化するので、その距離の変化を検出する。このた
め、距離センサ３はマイクロフォン２と唇２２との距離
を正確に検出できる位置に設けられる。距離センサ３と
しては、赤外線センサ、超音波センサなどを使用するが
、なかでも赤外線センサはノイズが少なく好適である。マイクロフォン２と距離センサ３は支持部材１ａにより
一体に支持され、この支持部材１ａは発声者２１が装着
するようになっている。なお、このマイクロフォン２と
距離センサ３は信号線（図示せず）を介して装置本体に
信号を送るようになっている。４は音響分析部で、マイクロフォン２から入力した音声
信号を受け、その音響的特徴パラメータを抽出して、そ
の信号を音声区間検出部５に出力するものである。音声
区間検出部５は、音響分析部４からの信号を受けて音声
信号を検出し、その信号を時間正規化部８に出力するも
のである。６は距離計算部で、前記距離センサ３からの検出信号を
受けてデジタル量に変換し、その信号を発声区間検出１
部７に出力するものである。発声区間検出部７は距離計
算部６からの信号を受けて発声区間を検出し、その信号
を時間正規化部８に出力するものである。８は時間正規化部で、音声区間検出部５および発声区間
検出部７から夫々出力された音声区間信号と発声区間信
号を受け、夫々の信号から時間的に正規化した特徴量を
得て類似度演算部９に出力するものである。類似度演算
部９は時間正規化部８からの信号を受けて標準パターン
１０との間で類似度演算を行なうものである。このように構成された音声認識装置により音声認識を行
なう場合について説明する。マイクロフォン装置１を装着した発声者２１が発生した
音声はマイクロフォン２に入力され、この音声信号は音
響分析部４で音響的特徴パラメータが抽出される。抽出
された特徴量の信号は音声区間検出部５に出力され、音
声区間検出部５において特徴量の一部（例えばパワー系
列）を用いて、適応的に決定されているしきい値により
音声区間の始端と終端を検出する。この音声区間信号は
時間規格化部８に出力される。一方、マイクロフォン装置１に設けた距離センサ３は発
声者２１が音声を発声した時の唇２２およびその付近部
の動きに伴うマイクロフォン２と唇２２との間の距離の
変化を検出し、その検出信号を距離計算部６に出力する
。距離計算部６ではこの検出信号をデジタル量に変換し
て発声区間検出部７に出力する。発声区間検出部７では
、適応的に決定されるしきい値を用いて、マイクロフォ
ン２と８２２との間の距離変動が最も大きい区間を検出
して、これを発声区間とみなす。この発声区間信号は前
記音声区間検出部５から出力された音声区間信号の次候
補として時間規制化部８に出力される。時間規制化部８では、音声区間検出部５と発声区間検出
部７から夫々出力された音声区間信号と発声区間信号を
受けて、前記音響分析部４で抽出された特徴ｆｆ１（例
えばバンドパス出力部）を、音声区間内と発声区間内で
時間的に正規化した２通りの特徴量を得、この信号を類
似度演算部９に出力する。類似度演算部９では、これら
２通りの特徴量と標準パターン１０との間で類似度演算
を行ない、最も高いスコアを示すカテゴリを音声認識結
果として出力する。ここで、発声者２１が発生した音声に基づく音声区間を
求めるとともに、音声発生時の唇２２およびその付近部
の動きに着目して発声区間を求め、この発生区間を音声
区間の次候補に使用するものとしてノミネートしておく
から、外部騒音が大きくマイクロフォン２に音声に加え
て外部騒音も一緒に入力されて分析時微量から音声区間
を検出するのが困難な場合には、発声区間を利用して音
声区間を求めることができる。求めた音声区間は、本来
の音声区間と合致する正確なものである。次に、発声区間検出部７と音声区間検出部５の動作を説
明して、本発明装置の特徴を説明する。第２図は、距離計算部６で出力されたマイクロフォン２
と発声者２１の唇２２の間の距離から発声区間を探索す
る音声区間検出部７の内部処理のフローの概要を示して
いる。まず、マイクロフォン２と唇２２との間の時系列
データＤ　（ｎ）に対して平滑化処理を行ない安定した
距離変動量の時系列ｄ　（ｎ）を抽出する（ＳＰＩ）。次にこの時系列ｄ　（ｎ）のｎ−１〜１０の区間で、無
発声区間とみなせる時の平均距離ｄ＾を算出しく５Ｐ２
）、これに適応的に決めたオフセットｄｏを加算したし
きい値ｄＴｌｌ　（−ｄＴ　＋　ｄｏ　）を決定する（
Ｓ　Ｐ　３）。発声区間ＳＡ、ＳＥの探索は、ｄ　（ｎ）　＞　ｄ　Ｔ
ｌｌの区間が連続して数フレーム以上続いた時、初めて
ｄ　（ｎ）　＞　ｄ　Ｔｌｌになった位置を始端とし、
さらにｄ　（ｎ）　＞　ｄ　Ｔｌｌの区間が連続して１
０数フレーム以上続いた後にｄ　（ｎ）　＜　ｄ　Ｔｌ
ｌの区間が連続して数フレーム以上続いた時、初めてｄ
　（ｎ）　＜　ｄ　Ｔｌｌとなった位置を終端と決定し
、このＳＡ、ＳＥの区間を発声区間として時間規制化部
８へ信号を送る（ＳＦ３）。また、音声区間検出部５も同様な手法によって音声区間
を探索する。この場合、マイクロフォン２から入力され
た音声信号から抽出した特徴量により決定され、その特
徴量は必ずしも音声によるものだけでなく、マイクロフ
ォン周辺の外部ノイズ成分が含まれることがある。第３図および第４図は、大きな外部ノイズが音声区間の
前後にある場合の発声区間検出部７と音声区間検出部の
処理の様子を示す線図である。第３図で示す発声区間検
出部７による検出発声区間ＳＡ、ＳＥは、マイクロフォ
ンと唇との間の変動距離から探索されたものであるから
、外部ノイズの影響を全く受けずに、発声者の口の動き
から音声が発生されたとみなされる区間を検出すること
ができる。一方、第４図で示す音声区間検出部５の処理
では、適応的に決定されたしきいｉｉ　ｐ　Ｔ１１を用
いてもノイズ成分のために正確な音声区間ＳＴ。ＥＴの検出は不可能となり、ノイズ成分を含んだ区間Ｓ
Ｆ、ＥＦが誤検出される。音声区間の検出は、音声認識
装置にとっては致命的なエラーとなる。この様な事態を
避けるために、外部ノイズが比較的大きな環境において
も、外部ノイズ音に影響されることがない発声区間ＳＡ
、ＥＡを音声区間の次候補としてエントリすることによ
り、より安定した高い認識率の音声認識装置を実現する
ことができる。なお、本発明は前述した実施例に限定されず、要旨を変
更しない範囲で種々変形して実施することができる。音
声入力用のマイクロフォンとしては通常使用される接話
型のマイクロフォンに限定されず、本発明装置を適用す
る音声取込みを行なう装置により変更される。例えば電
話受話器をマイクロフォンとして使用できる。この場合
には、電話受話機を一定位置に固定し、また距離センサ
を電話受話器に一体に取付ける。

【発明の効果】

以上説明したように本発明の音声認識装置によれば、発
声者が発声した時における発声者のぽとマイクロフォン
との間の距離の変動を距離センサで測定して、Ｂが動い
た区間を発声区間として検出し、音声区間の次候補とし
てエントリすることにより、大きな騒音の環境下におい
てマイクロフォンから入力した発声の音声から音声区間
の検出が困難であ、る場合にも、発声区間を利用して外
部騒音に影響されることなく音声区間を正確に検出する
ことができ、使用環境に制約されることのない高い認識
率と安定した精度を得ることができる。

【図面の簡単な説明】

第１図は本発明の音声認識装置の一実施例を示すシステ
ム構成図、第２図は同実施例におけるマイクロフォン装
置を示す説明図、第３図はこの実施例における発声区間
検出部の処理を示すフローチャート、第４図は発声区間
検出部による発声区間の検出の状態を示す線図、第５図
は音声区間検出部による音声区間の検出の状態を示す線
図である。１・・・マイクロフォン装置、２・・・マイクロフォン
、３・・・距離センサ、４・・・音響分析部、５・・・
音声区間検出部、６・・・距離計算部、７・・・発声区
間検出部、８・・・時間正規化部、９・・・類似度演算
部。出願人代理人　弁理士　鈴江武彦第２図第３図第４図第５図

Claims

【特許請求の範囲】

発声者が発生した音声をマイクロフォンから入力して、
その音声信号から音声区間を検出し、この音声区間の信
号を時間的に正規化して得た特徴量と標準パターンとの
間で類似度演算を行なって音声認識を行なう装置におい
て、前記発声者の唇とマイクロフォンとの間の距離を検
出する距離センサと、この距離センサで検出した信号を
デジタル量に変換する距離計算手段と、この距離計算手
段で出力された信号の距離時系列から安定した距離量を
抽出し前記唇およびその付近部の動きから前記音声の発
声区間を検出する発声区間検出手段とを備え、前記発声
区間検出部で検出した発声区間を前記音声区間の次候補
とすることを特徴とする音声認識装置。