JPH0962293A

JPH0962293A - 音声認識対話装置および音声認識対話処理方法

Info

Publication number: JPH0962293A
Application number: JP7212248A
Authority: JP
Inventors: Yasunaga Miyazawa; 康永宮沢; Mitsuhiro Inazumi; 満広稲積; Hiroshi Hasegawa; 浩長谷川; Isanaka Edatsune; 伊佐央枝常; Osamu Urano; 治浦野
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1995-08-21
Filing date: 1995-08-21
Publication date: 1997-03-07
Anticipated expiration: 2015-08-21
Also published as: US5983186A; JP3674990B2

Abstract

(57)【要約】（修正有）【課題】スリープモードの設定、スリープモード時の
消費電力の削減、環境中の雑音レベルに対応した応答出
力レベルの設定、入力音声レベルに対応した応答出力レ
ベルの設定を可能とする。【解決手段】入力音信号を音信号分析部２で分析し特
徴データを発生し、単語検出部３により標準音声特徴デ
ータ記憶部４に登録した認識可能な単語の標準音声特徴
データと音声特徴データを比較し、入力音信号が認識可
能な単語である場合、該単語に対する単語検出データを
出力し、該検出データを受け、音声理解会話制御部５に
より入力音声の意味を理解し、該に対応した応答内容を
決定し出力する音声認識対話装置において、入力音信号
の音信号波形を基に入力音信号のパワーの入力音信号パ
ワー検出手段９を設け、装置がスリープモード時、入力
音信号のパワーが予定しきい値以上で、該入力音信号が
認識可能な単語の音声との判断時、スリープモードから
動作モードとする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声を認識し、その認
識結果に対応した応答や特定動作を行う音声認識対話装
置および音声認識対話処理方法に関する。

【０００２】

【従来の技術】この種の音声認識装置においては、特定
話者のみの音声を認識可能な特定話者音声認識装置と不
特定話者の音声を認識可能な不特定話者音声認識装置が
ある。

【０００３】特定話者音声認識装置は、或る特定の話者
が認識可能な単語を一単語ずつ所定の手順に従って入力
することによって、その特定話者の標準的な音声信号パ
ターンを登録しておき、登録終了後、特定話者が登録し
た単語を話すと、その入力音声を分析した特徴パターン
と登録された特徴パターンとを比較して音声認識を行う
ものである。この種の音声認識対話装置の一例として音
声認識玩具がある。たとえば、音声指令となる複数の命
令語として、「おはよう」、「おやすみ」、「こんにち
わ」などの言葉を１０単語程度、その玩具を使用する子
どもが予め登録しておき、話者がたとえば「おはよう」
というと、その音声信号と、登録されている「おはよ
う」の音声信号を比較して、両音声信号が一致したと
き、音声指令に対する定められた電気信号を出力し、こ
れに基づいて玩具に特定動作を行わせるものである。

【０００４】このような特定話者音声認識装置は、特定
話者かあるいはそれに近い音声パターンを有する音声し
か認識されず、また、初期設定として、認識させたい単
語を一単語ずつすべて登録させる必要がありその手間は
極めて面倒であった。

【０００５】これに対して、不特定話者音声認識装置
は、多数（たとえば、２００人程度）の話者が発話した
音声を用いて、前記したような認識対象単語の標準音声
特徴データを予め作成して記憶（登録）させておき、こ
れら予め登録された認識可能な単語に対して、不特定な
話者の発する音声を認識可能としたものである。

【０００６】

【発明が解決しようとする課題】このような音声認識装
置において、音声認識手段として特定話者音声認識ある
いは不特定音声認識のいずれを用いたものをにあって
も、スイッチを入れて始めて認識動作とそれに対する応
答動作が可能となるのが一般的である。

【０００７】しかしながら、音声認識装置の種類によっ
ては、装置が常に音声の入力を待っている状態にあっ
て、ユーザがその都度スイッチをオンすることなく音声
入力を検出して認識動作を可能とすれば、より利便性の
高いものとなる。たとえば、音声認識を利用したぬいぐ
るみなどの玩具にあっては、通常時から音声入力待機状
態、いわゆるスリープモードとしておき、子どもがのぬ
いぐるみの名前を呼ぶことにより、即座に応答するよう
にしておけば、玩具としてはきわめて完成度の高いもの
となる。これは、玩具のみならず音声認識を利用する電
子機器すべてについても同様である。

【０００８】このように、通常時はスリープモードとし
ておき、入力音声を検出して認識動作を行わせる場合に
おける課題として、消費電力を如何に抑えるか、あるい
は、入力された音信号が認識すべき音声か雑音かを識別
して、認識すべき音声に対してのみ動作するようにする
というようなことが挙げられる。特に、玩具などの場合
は、乾電池で作動するものが殆どであるため、電池の消
耗を如何に少なくするかというのは大きな課題であり、
また、製品の価格もできるだけ安価なものとする必要が
あることから、実用化するための技術的な制約もきわめ
て多いというのが現状であった。

【０００９】本発明はこれらの課題を解決するためにな
されたもので、通常時はスリープモードとして認識可能
な音声の入力があった場合にのみ、それを検出して認識
動作を可能とするとともに、スリープモード時の消費電
力を極力抑え、また、使用環境に雑音が存在しても認識
すべき音声を高精度に認識できるようにし、しかも、安
価に実用化を可能とすることを目的としている。

【００１０】

【課題を解決するための手段】本発明の音声認識対話装
置は、音声などの音信号を入力する音信号入力手段と、
この音信号入力手段により入力された音信号を分析して
特徴データを発生する音信号分析部と、予め登録された
認識可能な単語の標準音声特徴データを記憶する標準音
声特徴データ記憶手段と、前記音信号分析手段からの特
徴データを入力し、前記標準音声特徴データ記憶手段の
記憶内容と比較し、入力音信号が認識可能な単語の音声
であった場合、その認識可能な単語に対する単語検出デ
ータを出力する単語検出手段と、この単語検出手段から
の単語検出データを受けて、入力された音声の意味を理
解し、それに対応した応答内容を決定するとともに各種
制御を行う音声理解会話制御手段と、この音声理解会話
制御手段によって決定された応答内容に基づいた音声合
成出力を発生する音声合成手段と、この音声合成手段か
らの音声合成出力を外部に出力する音声出力手段と、前
記音信号入力手段からの音信号波形を基に入力音信号の
パワーを検出する入力音信号パワー検出手段とを有し、
装置をスリープモードとするためのスリープモード要求
が出されると、装置をスリープモードとする設定を行
い、装置がスリープモードとなっている場合において、
前記入力音信号パワー検出手段によって検出された入力
音信号のパワーが予め定められたしきい値以上で、か
つ、その入力音信号が前記認識可能な単語の音声である
か否かを判断する処理を行い、入力音信号のパワーが前
記しきい値以上で、かつ、その入力音信号が前記認識可
能な単語の音声であると判断された場合に、装置をスリ
ープモードから動作モードとすることを特徴としてい
る。

【００１１】前記スリープモードから動作モードとする
際の入力音信号のパワー検出は、スリープモード時にお
けるパワー検出を前記予め設定されたしきい値を基準と
して所定時間行い、当該しきい値より大きいレベルの入
力音信号が所定時間連続的に存在し、かつ、その入力音
信号が認識可能な単語の音声でないと判断された場合
は、当該入力音信号は環境中に存在する定常的な雑音と
判断する。

【００１２】また、前記スリープモードから動作モード
とする際の入力音信号のパワー検出は、スリープモード
時におけるパワー検出を前記予め設定されたしきい値を
基準として所定時間行い、当該しきい値より大きいレベ
ルの入力音信号が所定時間連続的に存在し、かつ、その
入力音信号が認識可能な単語の音声でないと判断された
場合は、当該入力音信号は環境中に存在する定常的な雑
音と判断するとともに、前記しきい値を当該定常的な雑
音レベルよりも大きい値に更新するようにする。

【００１３】また、本発明の音声認識対話装置は、音声
などの音信号を入力する音信号入力手段と、この音信号
入力手段により入力された音信号を分析して特徴データ
を発生する音信号分析部と、予め登録された認識可能な
単語の標準音声特徴データを記憶する標準音声特徴デー
タ記憶手段と、前記音信号分析手段からの特徴データを
入力し、前記標準音声特徴データ記憶手段の記憶内容と
比較し、入力音信号が認識可能な単語の音声であった場
合、その認識可能な単語に対する単語検出データを出力
する単語検出手段と、この単語検出手段からの単語検出
データを受けて、入力された音声の意味を理解し、それ
に対応した応答内容を決定するとともに各種制御を行う
音声理解会話制御手段と、この音声理解会話制御手段に
よって決定された応答内容に基づいた音声合成出力を発
生する音声合成手段と、この音声合成手段からの音声合
成出力を外部に出力する音声出力手段と、前記音信号入
力手段からの音信号波形を基に入力音信号のパワーを検
出する入力音信号パワー検出手段とを有し、前記入力音
信号パワー検出手段からのパワー信号を基に、環境中の
雑音レベルを判断し、その雑音レベルの大きさに対応し
た音声レベルによる応答内容出力を行うことを特徴とし
ている。

【００１４】そして、前記入力音信号のパワー信号を基
に環境中の雑音レベルを判断する手段として、雑音除去
用のしきい値を設定し、このしきい値を基準にして所定
時間パワーの検出を行い、当該しきい値より大きいレベ
ルの入力音信号が所定時間連続的に存在し、かつ、その
入力音信号が認識可能な単語の音声でないと判断された
場合は、当該入力音信号は環境中に存在する定常的な雑
音と判断するとともに、前記しきい値を当該定常的な雑
音レベルよりも大きい値に更新し、或る時点におけるし
きい値の大きさを基に、その時点における雑音レベルを
判断するようにする。

【００１５】また、本発明の音声認識対話装置は、音声
などの音信号を入力する音信号入力手段と、この音信号
入力手段により入力された音信号を分析して特徴データ
を発生する音信号分析部と、予め登録された認識可能な
単語の標準音声特徴データを記憶する標準音声特徴デー
タ記憶手段と、前記音信号分析手段からの特徴データを
入力し、前記標準音声特徴データ記憶手段の記憶内容と
比較し、入力音信号が認識可能な単語の音声であった場
合、その認識可能な単語に対する単語検出データを出力
する単語検出手段と、この単語検出手段からの単語検出
データを受けて、入力音声の意味を理解し、それに対応
した応答内容を決定するとともに各種制御を行う音声理
解会話制御手段と、この音声理解会話制御手段によって
決定された応答内容に基づいた音声合成出力を発生する
音声合成手段と、この音声合成手段からの音声合成出力
を外部に出力する音声出力手段と、前記音信号入力手段
からの音信号波形を基に入力音信号のパワーを検出する
入音信号パワー検出手段と、を有し、前記入力音信号パ
ワー検出手段からのパワー信号を基に、入力音信号のパ
ワーに対応した音声レベルによる応答内容出力を行うこ
とを特徴としている。

【００１６】また、本発明の音声認識対話処理方法は、
音声などの音信号を入力する音信号入力手段により入力
された音信号を分析して特徴データを発生し、この特徴
データと予め登録された認識可能な単語に対する標準音
声特徴データとを比較し、音信号が認識可能な単語の音
声であった場合、その単語に対応する単語検出データを
出力し、この単語検出データを受けて、入力音声の意味
を理解し、それに対応した応答内容を決定して、この決
定された応答内容に基づいた音声合成出力を発生する音
声認識応答出力発生工程と、前記音信号入力手段からの
音信号波形を基に入力音信号のパワーを検出する入力音
信号パワー検出工程ととを有し、装置をスリープモード
とするためのスリープモード要求が出されると、装置を
スリープモードとする設定を行い、装置がスリープモー
ドとなっている場合において、前記入力音信号パワー検
出工程によって検出された入力音信号のパワーが予め定
められたしきい値以上で、かつ、その入力音信号が前記
認識可能な単語の音声であるか否かを判断する処理を行
い、入力音信号のパワーが前記しきい値以上で、かつ、
その入力音信号が前記認識可能な単語の音声であると判
断された場合に、装置をスリープモードから動作モード
とすることを特徴としている。

【００１７】前記スリープモードから動作モードとする
際の入力音信号のパワー検出は、スリープモード時にお
けるパワー検出を前記予め設定されたしきい値を基準と
して所定時間行い、当該しきい値より大きいレベルの入
力音信号が所定時間連続的に存在し、かつ、その入力音
信号が認識可能な単語の音声でないと判断された場合
は、当該入力音信号は環境中に存在する定常的な雑音と
判断する。

【００１８】また、前記スリープモードから動作モード
入力音信号のパワー検出は、スリープモード時における
パワー検出を前記予め設定されたしきい値を基準として
所定時間行い、当該しきい値より大きいレベルの入力音
信号が所定時間連続的に存在し、かつ、その入力音信号
が認識可能な単語の音声でないと判断された場合は、当
該入力音信号は環境中に存在する定常的な雑音と判断す
るとともに、前記しきい値を当該定常的な雑音レベルよ
りも大きい値に更新するようにする。

【００１９】また、本発明の音声認識対話処理方法は、
音声などの音信号を入力する音信号入力手段により入力
された音信号を分析して特徴データを発生し、この特徴
データと予め登録された認識可能な単語の標準音声特徴
データとを比較し、音信号が認識可能な単語の音声であ
った場合、その単語に対応する単語検出データを出力
し、この単語検出データを受けて、入力音声の意味を理
解し、それに対応した応答内容を決定して、この決定さ
れた応答内容に基づいた音声合成出力を発生する音声認
識応答出力発生工程と、前記音信号入力手段からの音信
号波形を基に入力音信号のパワーを検出する入力音信号
パワー検出工程とを有し、前記入力音信号パワー検出工
程からのパワー信号を基に、環境中の雑音レベルを判断
し、その雑音レベルの大きさに対応した音声レベルによ
る応答内容出力を行うことを特徴としている。

【００２０】前記入力音信号のパワー信号を基に環境中
の雑音レベルを判断する手段として、雑音除去用のしき
い値を設定し、このしきい値を基準にして所定時間パワ
ーの検出を行い、当該しきい値より大きいレベルの入力
音信号が所定時間連続的に存在し、かつ、その入力音信
号が認識可能な単語の音声でないと判断された場合は、
当該入力音信号は環境中に存在する定常的な雑音と判断
するとともに、前記しきい値を当該定常的な雑音レベル
よりも大きい値に更新し、或る時点におけるしきい値の
大きさを基に、その時点における雑音レベルを判断する
ようにする。

【００２１】また、本発明の音声認識対話処理方法は、
音声などの音信号を入力する音信号入力手段により入力
された音信号を分析して特徴データを発生し、この特徴
データと予め登録された認識可能な単語の標準音声特徴
データとを比較し、音信号が認識可能な単語の音声であ
った場合、その単語に対応する単語検出データを出力
し、この単語検出データを受けて、入力音声の意味を理
解し、それに対応した応答内容を決定して、この決定さ
れた応答内容に基づいた音声合成出力を発生する音声認
識応答出力発生工程と、前記音信号入力手段からの音信
号波形を基に入力音信号のパワーを検出する入力音信号
パワー検出工程とを有し、前記入力音信号パワー検出工
程からのパワー信号を基に、入力音信号のパワーに対応
した音声レベルによる応答内容出力を行うことを特徴と
している。

【００２２】

【作用】以上のように、本発明は、スリープモード要求
により装置がスリープモードとなっている場合におい
て、前記入力音信号のパワーが予め定められたしきい値
以上で、かつ、その入力音信号が前記認識可能な単語の
音声であるか否かを判断する処理を行い、入力音信号の
パワーが前記しきい値以上で、かつ、その入力音信号が
前記認識可能な単語の音声であると判断された場合に、
装置をスリープモードから動作モードとするようにして
いる。したがって、入力音信号が或る一定以上のレベル
を有し、かつ、認識単語である場合のみにスリープモー
ドから動作モードとすることができ、レベルの小さい雑
音あるいはレベルが大きくても認識単語でない場合は、
動作モードとはしないため、雑音などの影響を受けるこ
となく認識すべき単語のみを認識応答処理対象とするこ
とができる。また、スリープモード時は音信号入力部や
入力音信号パワー検出部などの消費電力の小さい部分の
みが作動状態にあるので、スリープモード時における消
費電力をきわめて小さいものとすることができる。

【００２３】また、しきい値より大きいレベルの入力音
信号が所定時間連続的に存在し、かつ、その入力音信号
が認識可能な単語の音声でないと判断された場合は、当
該入力音信号は環境中に存在する定常的な雑音と判断す
る。これにより、環境中に或るレベルを有して長い時間
連続して存在するような音声は雑音であると判断するこ
とができ、環境中に定常的に存在する雑音の影響を受け
ないようにすることができる。

【００２４】また、しきい値を環境中に存在する定常的
な雑音レベルよりも大きい値に更新するようにしたの
で、雑音レベルに応じたしきい値の設定ができ、これに
より、環境中の雑音が最初に設定されたしきい値よりも
大きい場合にも、雑音であることを的確に判断すること
ができる。

【００２５】また、入力音信号パワー検出手段からのパ
ワー信号を基に、環境中の雑音レベルを判断し、その雑
音レベルの大きさに対応した音声レベルによる応答内容
出力を行うようにしている。したがって、環境中の雑音
レベルが大きいときは、大きな音声レベルによる応答内
容出力を発生することができ、環境中に多少の雑音が存
在しても応答内容を聞き取りやすくすることができる。

【００２６】そして、しきい値を当該定常的な雑音レベ
ルよりも大きい値に更新し、或る時点におけるしきい値
の大きさを基に、その時点における雑音レベルを判断す
るようにしたので、雑音レベルの大きさの指標をしきい
値により得ることができ、簡単に現時点の雑音レベルの
大きさを判断することができる。また、雑音レベルが変
動してもそれに対応した音声レベルによる応答出力を発
生することができ、環境中の雑音に、より一層適応した
音声レベルでの応答出力とすることができる。

【００２７】また、入力音信号のパワーに対応した音声
レベルによる応答内容出力を行うようにしたことによ
り、話者が大きな声で問いかけたときには大きな声で応
答し、話者が小さな声で問いかけたときは小さな声で応
答するという動作を行うことにより、状況に応じた音声
レベルでの対話が可能となる。

【００２８】

【実施例】以下、本発明の実施例を図面を参照して説明
する。なお、この実施例では、本発明を玩具に適用した
場合を例にとり、特にここでは、幼児用の玩具として、
たとえば、犬などのぬいぐるみに適用した場合について
説明する。また、不特定話者の音声を認識可能な不特定
話者音声認識装置に本発明を適用した例について説明す
る。

【００２９】（第１の実施例）図１は本発明の第１の実
施例を説明する構成図である。図１は本発明の実施例を
説明する構成図であり、概略的には、音信号入力部１、
音信号分析部２、単語検出部３、標準音声特徴データ記
憶部４、音声理解会話制御部５、応答データ記憶部６、
音声合成部７、音声出力部８、入力音信号パワー検出部
９などから構成されている。なお、これらの構成要素の
うち、音信号分析部２、単語検出部３、標準音声特徴デ
ータ記憶部４、音声理解会話制御部５、応答データ記憶
部６、音声合成部７などは、犬のぬいぐるみの腹部内に
収納され、音信号入力部（マイクロホン）１はぬいぐる
みのたとえば耳の部分、音声出力部（スピーカ）７はた
とえば口の部分に設けられる。これら各部におけるそれ
ぞれの機能などについては、以下に順次説明する。

【００３０】前記音信号入力部１は、話者の話す音声な
ど音信号（雑音なども含まれる）を入力するもので、図
示されていないがマイクロホン、増幅器、ローパスフィ
ルタ、Ａ／Ｄ変換器などから構成され、マイクロホンか
ら入力された音信号を、増幅器、ローパスフィルタを通
して適当な音声波形としたのち、Ａ／Ｄ変換器によりデ
ィジタル信号（たとえば、１２ＫＨｚ．１６ｂｉｔ）に
変換して出力し、その出力を音信号分析部１２に送る。
音信号分析部１２では、音信号入力部１から送られてき
た波形信号を、演算器（ＣＰＵ）を用いて短時間毎に周
波数分析を行い、周波数の特徴を表す数次元の特徴ベク
トルを抽出（LPCーCEPSTRUM係数が一般的）し、この特
徴ベクトルの時系列（以下、特徴ベクトル列という）を
出力する。

【００３１】また、前記標準音声特徴データ記憶部４
は、１つ１つの単語に対し多数（たとえば、２００人程
度）の話者が発話した音声を用いて予め作成した認識対
象単語の標準パターンを記憶（登録）しているＲＯＭで
ある。ここでは、ぬいぐるみを例にしているので、認識
対象単語は１０単語程度とし、その単語としては、たと
えば、「おはよう」、「おやすみ」、「こんにちは」、
「明日」、「天気」など挨拶に用いる言葉が多いが、こ
れに限定されるものではなく、色々な単語を登録するこ
とができ、登録単語数も１０単語に限られるものではな
い。

【００３２】単語検出部３は図示されていないが主に演
算器（ＣＰＵ）と処理プログラムを記憶しているＲＯＭ
から構成され、標準音声特徴データ記憶部４に登録され
ている単語が、入力された音声中のどの部分にどれくら
いの確かさで存在するかを検出するものである。この単
語検出部３としては、隠れマルコフモデル（ＨＭＭ）方
式やＤＰマッチング方式などを用いることも可能である
が、ここでは、ＤＲＮＮ（ダイナミックリカレント
ニューラルネットワーク）方式によるキーワードスポ
ッティング処理技術（この技術に関しては、本出願人が
特開平６ー４０９７、特開平６ー１１９４７６により、
すでに特許出願済みである。）を用いて、不特定話者に
よる連続音声認識に近い音声認識を可能とするための単
語検出データを出力するものであるとする。

【００３３】この単語検出部３の具体的な処理につい
て、図２を参照しながら簡単に説明する。単語検出部３
は、標準音声特徴データ記憶部４に登録されている単語
が、入力音信号（この場合、入力音信号は音声であると
する）のどの部分にどれくらいの確かさで存在するかを
検出するものである。今、話者から「明日の天気は、・
・・」というような音声が入力され、図２（ａ）に示す
ような音声信号が出力されたとする。この「明日の天気
は、・・・」の文節のうち、「明日」と「天気」がこの
場合のキーワードとなり、これらは、予め登録されてい
る１０単語程度の登録単語の１つとして、標準音声特徴
データ記憶部４にそのパターンが記憶されている。そし
て、これら登録単語をたとえば１０単語としたとき、こ
れら１０単語（これを、単語１、単語２、単語３、・・
・とする）に対応して各単語を検出するための信号が出
力されていて、その検出信号の値などの情報から、入力
された音声中にどの程度の確かさで対応する単語が存在
するかを検出する。つまり、「天気」という単語（単語
１）が入力された音声中に存在したときに、その「天
気」という信号を待っている検出信号が、同図（ｂ）の
如く、入力音声の「天気」の部分で立ち上がる。同様
に、「明日」という単語（単語２）が入力音声中に存在
したときに、その「明日」という信号を待っている検出
信号が、同図（ｃ）の如く、入力された音声の「明日」
の部分で立ち上がる。同図（ｂ），（ｃ）において、0.
9あるいは0.8といった数値は、確からしさ（近似度）を
示す数値であり、0.9や0.8といった高い数値であれば、
その高い確からしさを持った登録単語は、入力された音
声に対する認識候補であるということができる。つま
り、「明日」という登録単語は、同図（ｃ）に示すよう
に、入力された音声信号の時間軸上のｗ１の部分に0.8
という確からしさで存在し、「天気」という登録単語
は、同図（ｂ）に示すように、入力された音声信号の時
間軸上のｗ２の部分に0.9という確からしさで存在する
ことがわかる。

【００３４】また、この図２の例では、「天気」という
入力に対して、同図（ｄ）に示すように、単語３（この
単語３は「何時」という登録単語であるとする）を待つ
信号も、時間軸上のｗ２の部分に、ある程度の確からし
さ（その数値は0.6程度）を有して立ち上がっている。
このように、入力された音声信号に対して同一時刻上
に、２つ以上の登録単語が認識候補として存在する場合
には、最も近似度（確からしさを示す数値）の高い単語
を認識単語として選定する方法、各単語間の相関規則を
表した相関表を予め作成しておき、この相関表により、
いずれか１つの単語を認識単語として選定する方法など
を用いて、或る１つの認識候補単語を決定する。たとえ
ば、前者の方法で認識候補を決定するとすれば、この場
合は、時間軸上のｗ２の部分に対応する近似度は、「天
気」を検出する検出信号の近似度が最も高いことから、
その部分の入力音声に対する認識候補は「天気」である
との判定を行う。なお、これらの近似度を基に入力され
た音声の認識は音声理解会話制御部５にて行う。

【００３５】音声理解識会話制御部５は、主に演算器
（ＣＰＵ）と処理プログラムを記憶しているＲＯＭから
構成され、単語検出部３からの単語検出データを入力し
て、その単語検出データを基に、音声を認識し（入力さ
れた音声全体の意味を理解し）、ＲＯＭで構成される応
答データ記憶部６を参照して、入力された音声の意味に
応じた応答内容を決定し、音声合成部（主にＣＰＵとＲ
ＯＭで構成される）７および音声出力部８へ出力信号を
送る。たとえば、単語検出部３からの図２（ｂ）〜
（ｅ）に示すような検出データ（これをワードラティス
という。このワードラティスは、登録単語名、近似度、
単語の始点ｓと終点ｅを示す信号などが含まれる）が入
力されると、まず、そのワードラティスを基に、入力さ
れた音声の中のキーワードとしての単語を１つまたは複
数個決定する。この例では、入力された音声は「明日の
天気は・・・」であるので、「明日」と「天気」が検出
されることになり、この「明日」と「天気」のキーワー
ドから「明日の天気は・・・」という連続的な音声の内
容を理解し、それに対応した応答内容を選んで出力す
る。なお、この場合、応答内容としては、「明日の天気
は晴れだよ」というような応答内容となるが、これは、
ここでは図示されていない状態検出手段（温度検出部、
気圧検出部、カレンダ部、計時部など）が設けられてい
て、たとえば、天気に関する情報であれば、気圧検出部
からの気圧の変化の状況を基に天気の変化を判断し、気
圧が上昇傾向であればそれに対応した応答内容を応答デ
ータ記憶部６から読み出すようにする。同様に、気温、
時間、日付などに関する応答も可能となる。

【００３６】また、以上説明したキーワードスポッティ
ング処理による連続音声認識に近い音声認識処理は、日
本語だけでなく他の言語においても適用可能である。た
とえば、使用する言語が英語であるとすれば、登録され
ている認識可能な単語は、たとえば、“good mornin
g”、“time”、“tommorow”、“good night”などが
一例として挙げられ、これら認識可能な登録単語の特徴
データが、標準音声特徴データ記憶部４に記憶されてい
る。そして今、話者が「what time is it now」と
問いかけた場合、この「what time is it now」の
文節のうち、単語「time」がこの場合のキーワードとな
り、「time」という単語が入力された音声の中に存在し
たときに、その「time」の音声信号を待っている検出信
号が、入力された音声の「time」の部分で立ち上がる。
そして、単語検出部３からの検出データ（ワードラティ
ス）が入力されると、まず、そのワードラティスを基
に、入力された音声の中のキーワードとしての単語を１
つまたは複数個決定する。この例では、入力された音声
は、「what time is it now」であるので、「tim
e」がキーワードとして検出されることになり、このキ
ーワードを基に、「what time is it now」という
連続的な音声の内容を理解する。

【００３７】なお、前記した音声分析、単語検出、音声
理解会話制御、音声合成などの制御を行うＣＰＵはそれ
ぞれに設けてもよいが、ここでは、図１に示すように、
これら全ての処理を行う１台のメインのＣＰＵ１０を設
け、この１台のＣＰＵ１０で本発明の全体の処理を行う
ものとして説明する。

【００３８】以上は入力された音声（話者の話す音声）
に対する認識および応答動作の一例であるが、このよう
な音声認識対話装置において、本発明における第１の実
施例では、通常時はスリープモードとしておき、認識す
べき音声が入力されたときにその入力音声を検出してそ
れを認識するという処理を行う。以下、第１の実施例に
ついて説明する。

【００３９】図１で示した入力音信号パワー検出部９
は、音信号入力部１から出力される入力音信号（雑音な
ども含まれる）のパワーを検出するものであり、たとえ
ば、図３（ａ）で示すような入力音信号波形からそのパ
ワー信号を同図（ｂ）の如く検出する。この入力音信号
パワー検出部９は、装置がスリープモード時あるいは動
作モード時に係わらず常に音信号入力部１で取り込まれ
た入力音信号のパワーを検出可能な状態にある。

【００４０】ところで、装置をスリープモードとするた
めの初期設定手段としては、たとえば、ぬいぐるみの電
池をセットすると自動的にスリープモードとする手段
や、スリープモード設定スイッチあるいはスリープモー
ド切替スイッチを設け、この設定スイッチをオンするか
あるいは切替スイッチを設定モード側に切り替えるかし
てスリープモードとするなど種々の手段が考えられる。
このいずれかの手段によりスリープモードの設定が行わ
れると、前記ＣＰＵに対してスリープモード要求が出さ
れ、フラグがスリープモード側に設定されスリープモー
ドに入る。また、スリープモードの初期設定を行ったあ
と、ぬいぐるみとの対話終了後にスリープモードとする
には、一定時間、話者の問いかけがない場合、あるい
は、話者がぬいぐるみに対して、たとえば「静かに」や
「おやすみ」というと装置側ではそれをスリープモード
要求と判断して前記したように、フラグをスリープモー
ド側に設定しスリープモードとする。

【００４１】このような構成において、その処理を図４
のフローチャートを参照しながら説明する。

【００４２】まず、スリープモードの初期設定は既にな
されているものとする。このスリープモード時において
も、入力音信号パワー検出部９は常に音信号入力部１で
取り込まれた音信号のパワーを検出可能となっている
が、この時点では装置のＣＰＵ１０は非動作状態にあ
る。

【００４３】そして今、音信号入力部１が何らかの音信
号を入力し、音信号入力部１から、たとえば図３（ａ）
のような音信号波形が出力されたとする。これにより、
入力音信号パワー検出部９では、入力音信号パワーの検
出処理を次のように行う。

【００４４】すなわち、入力音信号パワー検出手段９で
は、入力音信号のパワーが予め設定されたしきい値ｔｈ
１より大きいか否かを判断し（ステップｓ１）、入力音
信号のパワーがしきい値ｔｈ１より大きくなった時点
で、音信号の入力があったことを示す信号をＣＰＵ１０
に出力する（図３（ｂ）の時刻ｔ１）。これにより、Ｃ
ＰＵ１０は立ち上がり（ステップｓ２）、時刻ｔ１から
所定時間（１０msec程度）後に、音声分析部２では音信
号入力部１からの信号を基に音声分析処理を行う（ステ
ップｓ３）。なお、図３（ｂ）からもわかるように、音
信号が入力された時点ｔ０から音信号分析処理がスター
トするまでの間に約２０数msec程度の時間を要するた
め、実際の音信号分析処理は音信号が入力されて２０数
msec後から開始されるが、単語認識処理には特に影響を
与えるものではない。

【００４５】そして、前記音信号分析結果を用いて標準
音声特徴データとの比較により単語検出処理（ステップ
ｓ４）を行った後、現在、装置の状態がスリープモード
か動作モードかを判断する（ステップｓ５）。このスリ
ープモードか動作モードかの判断は、フラグを見ること
により判断するもので、この場合、フラグはスリープモ
ードの設定となっているため、前記単語検出データを用
いて入力音信号が予め登録された認識可能なキーワード
であるか否かの判断を行う（ステップｓ６）。この判断
において、入力音信号がキーワードでないと判断される
と、入力音信号は雑音、あるいは、ぬいぐるみに対する
問いかけとは異なる何らかの音声であるとみなして、Ｃ
ＰＵ１０を立ち下げる処理を行い（ステップｓ７）、ス
テップｓ１に戻り、再び、音信号入力を待つ状態とな
る。

【００４６】一方、前記ステップｓ６の判断処理におい
て、入力音信号がキーワードの音声であると判断された
場合は、装置をスリープモードから動作モードとするた
めのフラグの設定を行う（ステップｓ８）。たとえば、
入力音信号が「おはよう」というキーワードの音声であ
るとすると、ここで初めて装置のモードは動作モードに
切り替わって、その入力された音声に対する音声理解会
話制御処理を行う（ステップｓ９）。そして、入力され
た音声が一発話分終了したか否かを判断して（ステップ
ｓ１０）、終了していなければ、音信号分析処理（ステ
ップｓ３）に処理が戻る。一方、入力音声が一発話分終
了したと判断されると、スリープモード要求が有りか否
かの判断処理（ステップｓ１１）に処理が移る。前記入
力音声が一発話分終了したか否かというのは、具体的に
は、ある一つの会話が終了したか否かということであ
る。たとえば、話者が「おはよう」と問いかけると、ぬ
いぐるみから「おはよう、今日は早起きだね」といった
応答がなされ、さらに、会話が続く場合もある。このよ
うに、会話が続く間は、音声入力は終了していないと判
断し、話者の問いかけた内容の音信号分析を行い（ステ
ップｓ３）、単語検出処理を行う（ステップｓ４）。な
お、この場合は、すでにスリープモードではなく動作モ
ードとなっているため、単語検出処理（ステップｓ４）
の後、直接、音声理解会話制御処理（ステップｓ９）に
入る。これは、通常の音声認識処理動作であり、前記し
たように、キーワードスポッティング処理により、話者
の発する音声からキーワードとなる単語を認識して、そ
れに対応する応答内容を出力するという動作を行う。

【００４７】そして、一連の会話（一発話）が終了する
と、スリープモード要求があったか否かを判断（ステッ
プｓ１１）する。このスリープモード要求があったか否
かの判断は、たとえば、話者がぬいぐるみに対して、
「静かに」や「おやすみ」と言った場合、あるいは一定
時間音声入力がない場合はスリープモード要求と判断す
る。これらのスリープモード要求のうちのいずれかのス
リープモード要求がない場合は、会話がさらに続くとも
のとして、話者の問いかけに対する応答出力を発生し
（ステップｓ１２）、ステップｓ３からの処理を繰り返
す。一方、前記いずれかのスリープモード要求があった
場合は、必要に応じて応答出力を発し（ステップｓ１
３）たのち、フラグをスリープモードに設定する（ステ
ップｓ１４）。これにより、装置はスリープモードとな
って（ステップｓ１５）、再び、ステップｓ１の状態に
戻る。なお、前記ステップ１３の処理は、たとえば、前
記したスリープ要求が「おやすみ」であった場合は、ぬ
いぐるみからも「おやすみ」と応答した後に、フラグを
スリープモードに設定する。

【００４８】以上のように、装置（この場合、ぬいぐる
み）をスリープモードとしておくことにより、話者がそ
のぬいぐるみと会話をしようとする場合、スイッチをわ
ざわざオンしたりすることなく、認識可能な単語によっ
て問いかければ、ぬいぐるみはそれに対して応答を行
う。たとえば、子どもがスイッチをオンすることなく、
ぬいぐるみの名前（登録されているものとする）を呼ぶ
だけで、ぬいぐるみは名前を呼ばれたことに対する何ら
かの応答を行うということも可能である。

【００４９】また、玩具だけでなく、音声を認識して作
動する電子機器などに適用すれば、スイッチをオンする
手間を省いて単に予め定めた何らかの音声を発すること
により、それに対応した動作を行わせることも可能とな
り、その適用範囲はきわめて広いものとなる。

【００５０】また、本発明では、スリープモード時にお
いては、ＣＰＵ１０は非動作状態にあり、音信号入力部
１と入力音信号パワー検出部９のみが動作可能状態とな
っている。この種の装置において、ＣＰＵ１０の消費電
力は大きいが、これに比べて、音信号入力部１と入力音
信号パワー検出部９などの消費電力はきわめて小さいの
が普通である。本発明の場合、ある一定レベル以上の音
信号が入力されると、一時的にＣＰＵ１０は立ち上がる
が、その入力音信号が仮に音声であっったとしても、そ
の音声が認識単語でないと判断されると、ＣＰＵ１０は
直ちに立ち下がるようになっている。そして、一定レベ
ル以上のパワーを有し、かつ、認識可能な単語（キーワ
ード）の音声が入力されて初めて動作モードとなるよう
にしている。従って、スリープモード時における消費電
力をきわめて低く抑えることができる。

【００５１】ところで、前記入力音信号パワー検出部９
において、入力音信号のパワーを或るしきい値と比較し
て、しきい値以上となったとき入力音信号検出とするの
は、環境中に存在する雑音などの影響を受けないように
するためである。以下これについて説明する。

【００５２】たとえば、高速道路の付近における自動車
の連続的な走行音、あるいは、工事中における連続的な
騒音などが環境中に存在している場合、これらの騒音を
入力音信号有りとみなしてＣＰＵ１０を立ち上げるのは
好ましくない。これに対処するために、しきい値を設定
し、しきい値以上の音信号が入力されたときにだけＣＰ
Ｕ１０を立ち上げる（モードとしては、この時点ではま
だスリープモードである）ようにする。なお、このとき
騒音レベルの変動に対応できるように、しきい値も更新
可能としておく。

【００５３】すなわち、スリープモードの初期設定とし
て、前記したように、電池を入れたとき、あるいは、何
らかのスイッチによりスリープモードの設定を行ったと
きにスリープモードの初期設定がなされるが、この状態
で認識すべき音声がしばらくの間入力されないで、前記
したような定常的な雑音が連続的に入力されている場合
がある。たとえば、図５（ａ）に示すように、時刻ｔ０
からしばらくの間、定常的な雑音による入力音信号波形
Ａ１が出力され、その後、たとえば「おはよう」という
認識可能単語の音声波形Ａ２が出力されたとする。同図
（ｂ）はその入力音信号（音声も含む）に対するパワー
信号である。このとき、最初に設定されたしきい値がｔ
ｈ１であるとすると、雑音レベルがこのしきい値ｔｈ１
よりも大きいと、図４のフローチャートにおけるステッ
プｓ２からステップｓ６の処理、つまり、ＣＰＵ１０が
立ち上がり、その雑音に対しても音信号分析を行ったの
ち、単語検出、キーワードか否かの判定を行うという処
理が行われる。しかし、入力音信号はこの場合、雑音で
あって、キーワードの音声ではないため、しばらくの間
は、ステップｓ１からステップｓ６の処理が繰り返して
行われることになる。このような処理が一定時間継続し
た場合は、入力音信号は雑音であると判断して、しきい
値をｔｈ１より高い値ｔｈ２に設定し直す（図５（ｂ）
参照）。

【００５４】そして、新たに設定されたしきい値ｔｈ２
よりも大きいレベルの音信号が入力され、かつ、その入
力音信号が認識単語（キーワード）の音声であると判定
されると、フラグがスリープモードから動作モードに切
り替わり、その時点で初めて装置は動作モードとなる。

【００５５】このように、しきい値を雑音レベルに応じ
て変えて行くことにより、長時間継続的に続く定常的な
雑音の影響を受けないで、認識すべき音声のみを確実に
検出することができる。

【００５６】（第２の実施例）以上説明した第１の実施
例では、入力音信号のパワーを検出して音信号の入力を
判断し、音信号が入力されたときのみ、ＣＰＵ１０を一
旦、立ち上げて、その入力音信号がキーワードであるか
否かの判定を行い、キーワードであると判定された場合
に、動作モードとし、認識処理及び応答制御処理などの
一連の処理を行う場合について説明したが、この第２の
実施例では、環境中に雑音が存在する場合、雑音レベル
の大きさに応じて応答レベルを設定する処理、および、
入力された音声のパワーを検出して、そのパワーの大き
さに基づいた応答レベルを設定する処理について説明す
る。

【００５７】まず、環境中に雑音が存在する場合、雑音
レベルの大きさに応じて応答レベルを設定をする例につ
いて説明する。これを実現するために、雑音の大きさを
判断する指標として、前記したしきい値を用いる。つま
り、前記第１の実施例では、雑音の影響を受けないよう
に設定されたしきい値は最初はｔｈ１、その後の雑音レ
ベルの大きさに対応して新たに設定されたしきい値はｔ
ｈ２（ｔｈ１＜ｔｈ２）である。

【００５８】このしきい値は雑音レベルの大きさに対応
して設定されるものであるから、その時点におけるしき
い値は雑音レベルの大きさを表す指標として用いること
ができる。すなわち、現在どのしきい値が用いられてい
るかをＣＰＵ１０側で判断し、そのしきい値に対応した
応答出力レベルを予め設定しておくことにより、その時
点における雑音レベルに応じた応答出力レベルにより応
答内容を出力することができる。

【００５９】たとえば、今、しきい値がｔｈ１であった
とすると、雑音レベルはそれほど大きくないと判断し、
それに応じて予め設定された応答出力レベルで応答内容
の出力を行う。また、しきい値がｔｈ２であったとする
と、雑音レベルは少し大きくなったと判断し、それに応
じて予め設定された応答出力レベルで応答内容の出力を
行う。このように、環境に存在する雑音レベルの大きさ
に応じた応答出力レベルを設定することにより、雑音レ
ベルがある程度大きいときは大きな音で応答するので、
環境中に多少の雑音レベルがあっても応答内容が聞き取
りやすくなる。

【００６０】次に、入力音信号のパワーの大きさに基づ
いた応答レベルを設定する例について説明する。これ
は、話者が大きな声で問いかけたときには大きな声で応
答し、話者が小さな声で問いかけたときは小さな声で応
答するという動作を行うものである。たとえば、深夜な
ど周囲が静かなときには、他の人に迷惑がかからないよ
うに、話者と装置は互いに小さな声で対話をするのが望
ましい。逆に、騒音環境においてはある程度の音量で対
話を行うのが自然である。また、耳の遠い人は大きな声
で話すのが一般的であり、その場合には大きな声で応答
するのが望ましい。このような点を踏まえて、入力音信
号のレベルを検出してそのレベルに応じた応答出力レベ
ルを設定するようにする。

【００６１】話者が深夜に、たとえば、「いま何時」と
小さな声で問いかけたとする。ここで、装置がスリープ
モードとなっていても、「何時」という単語が認識可能
な登録単語であり、かつ、その時点のしきい値より信号
レベルが大きければ、ＣＰＵ１０は動作モードとなり、
認識応答動作が可能な状態となる。そして、ＣＰＵ１０
の動作時は、常に、入力音信号のパワー信号が入力さ
れ、ＣＰＵ１０ではそのパワー信号を監視して現時点の
入力音信号のパワーを知ることができる。これにより、
その「いま何時」という音声のパワー信号を、たとえば
予め設定した何段階かのしきい値と比較して、その比較
結果を基に、ＣＰＵ１０では入力された音声のパワーに
応じた応答出力を発生するというような処理を行う。す
なわち、入力された音声レベルが大きければそれに応じ
て大きな音声レベルによる応答出力、入力された音声レ
ベルが小さければそれに応じて小さな音声レベルによる
応答出力によって応答内容を発生する。この場合、話者
が小さな声で「いま何時」と問いかけているので、たと
えば、「いま、１１時だよ」といった応答内容を小さな
音声レベルで出力する。

【００６２】このように、話者が大きな声で問いかけた
ときには大きな声で応答し、話者が小さな声で問いかけ
たときは小さな声で応答する処理を行うことにより、前
記したように、たとえば、深夜など周囲が静かなときに
は、他の人に迷惑がかからないように、そのときの状況
に応じた音量での対話が可能となる。

【００６３】なお、以上説明した環境中に雑音が存在す
る場合、雑音レベルの大きさに応じて応答レベルを設定
する処理、および、入力音信号のパワーをを検出して、
そのパワーの大きさに基づいた応答レベルを設定する処
理は、両者とも第１の実施例で説明したスリープモード
の設定が可能な装置に適用可能であることは勿論である
が、スリープモードの設定を可能としない装置において
も適用できる。

【００６４】また、本発明は不特定話者音声認識装置に
適用した例で説明したが、特定話者音声認識装置にも適
用できる。

【００６５】また、以上の各実施例では、本発明を玩具
としてぬいぐるみに適用した例を説明したが、ぬいぐる
みに限られるものではなく。他の玩具にも適用できるこ
とは勿論であり、さらに、玩具だけではなく、ゲーム機
や、日常使われる様々な電子機器などにも適用でき、そ
の適用範囲は極めて広いものと考えられる。

【００６６】

【発明の効果】以上説明したように、本発明の音声認識
対話装置は、請求項１によれば、入力された音信号を分
析して特徴データを発生し、この特徴データと予め登録
された認識可能な単語の標準音声特徴データとを比較
し、入力された音信号が認識可能な単語である場合、そ
の単語に対する単語検出データを出力し、この単語検出
データを受けて、入力された音声の意味を理解し、それ
に対応した応答内容を決定して出力する手段、入力音信
号の音信号波形を基に入力音信号のパワーを検出する入
力音信号パワー検出手段を設け、装置をスリープモード
とするためのスリープモード要求により装置がスリープ
モードとなっている場合において、前記入力音信号のパ
ワーが予め定められたしきい値以上で、かつ、その入力
音信号が前記認識可能な単語の音声であるか否かを判断
する処理を行い、入力音信号のパワーが前記しきい値以
上で、かつ、その入力音信号が前記認識可能な単語の音
声であると判断された場合に、装置をスリープモードか
ら動作モードとするようにしたので、入力音信号が或る
一定以上のレベルを有した認識単語の音声である場合の
みにスリープモードから動作モードとすることができ、
信号レベルの小さい雑音あるいは信号レベルが大きくて
も認識単語でない場合は、動作モードとはしないため、
雑音などの影響を受けることなく認識すべき単語の音声
のみを認識応答処理対象とすることができ、また、スリ
ープモード時は消費電力の小さい部分のみが作動状態に
あるので、スリープモード時における消費電力をきわめ
て小さいものとすることができる。すなわち、本発明で
は、スリープモード時は音信号入力部と、入力音信号パ
ワー検出部などの消費電力の小さい部分のみが動作可能
状態にあり、ある一定レベル以上の音信号が入力される
と、一時的にＣＰＵは立ち上がるが、その入力音信号が
認識単語の音声でないと判断されると、ＣＰＵは直ちに
立ち下がるようになっている。そして、一定レベル以上
のパワーを有し、かつ、認識可能な単語（キーワード）
の音声が入力されて初めて動作モードとなるようにして
いるため、スリープモード時における消費電力をきわめ
て低く抑えることができる。

【００６７】請求項２によれば、前記スリープモードか
ら動作モードとする際の入力音信号のパワー検出は、ス
リープモード時におけるパワー検出を前記予め設定され
たしきい値を基準として所定時間行い、当該しきい値よ
り大きいレベルの入力音信号が所定時間連続的に存在
し、かつ、その入力音信号が認識可能な単語の音声でな
いと判断された場合は、当該入力音信号は環境中に存在
する定常的な雑音と判断するようにしたので、環境中に
或るレベルを有して長い時間連続して存在するような音
信号は雑音であると判断することができ、このような雑
音の影響を受けないようにすることができる。

【００６８】請求項３によれば、前記スリープモードか
ら動作モードとする際の入力音信号のパワー検出は、ス
リープモード時におけるパワー検出を前記予め設定され
たしきい値を基準として所定時間おこない、当該しきい
値より大きいレベルの入力音信号が所定時間連続的に存
在し、かつ、その入力音信号が認識可能な単語も音声で
ないと判断された場合は、当該入力音信号は環境中に存
在する定常的な雑音と判断するとともに、前記しきい値
を当該定常的な雑音レベルよりも大きい値に更新するよ
うにしたので、環境中に或るレベルを有して長い時間連
続して存在するような音声に対しては、その音信号のレ
ベルを検出してそのレベルに応じたしきい値の設定がで
き、これにより、環境中の雑音が最初に設定されたしき
い値よりも大きい場合にも、雑音であることを的確に判
断することができ、環境中に定常的に存在するような雑
音の影響を受けないようにすることができる。

【００６９】請求項４によれば、入力された音信号を分
析して特徴データを発生し、この特徴データと予め登録
された認識可能な単語の標準音声特徴データとを比較
し、入力された音信号が認識可能な単語である場合、そ
の単語に対する単語検出データを出力し、この単語検出
データを受けて、入力された音声の意味を理解し、それ
に対応した応答内容を決定して出力する手段、入力音信
号の音信号波形を基に入力音信号のパワーを検出する入
力音信号パワー検出手段を設け、前記入力音信号パワー
検出手段からのパワー信号を基に、環境中の雑音レベル
を判断し、その雑音レベルの大きさに対応した音声レベ
ルによる応答内容出力を行うようにしたので、環境中の
雑音レベルが大きいときは、大きな音声レベルによる応
答内容出力を発生することができ、環境中に多少の雑音
が存在しても応答内容を聞き取りやすくすることができ
る。

【００７０】請求項５によれば、前記入力音信号のパワ
ー信号を基に環境中の雑音レベルを判断する手段とし
て、雑音除去用のしきい値を設定し、このしきい値を基
準にして所定時間パワーの検出を行い、当該しきい値よ
り大きいレベルの入力音信号が所定時間連続的に存在
し、かつ、その入力音信号が認識可能な単語の音声でな
いと判断された場合は、当該入力音信号は環境中に存在
する定常的な雑音と判断するとともに、前記しきい値を
当該定常的な雑音レベルよりも大きい値に更新し、或る
時点におけるしきい値の大きさを基に、その時点におけ
る雑音レベルを判断するようにしたので、雑音レベルの
大きさの指標をしきい値により得ることができ、簡単に
現時点の雑音レベルの大きさを判断することができる。
また、雑音レベルが変動してもそれに対応した音声レベ
ルによる応答出力を発生することができ、環境中の雑音
に、より一層適応した音声レベルでの応答出力とするこ
とができる。

【００７１】請求項６によれば、入力された音声を分析
して音声特徴データを発生し、この音声特徴データと予
め登録された認識可能な単語の標準音声特徴データとを
比較し、入力された音信号が認識可能な単語である場
合、その単語に対する単語検出データを出力し、この単
語検出データを受けて、入力された音声の意味を理解
し、それに対応した応答内容を決定して出力する手段、
入力音信号の音信号波形を基に入力音信号のパワーを検
出する入力音信号パワー検出手段を設け、この入力音信
号パワー検出手段からのパワー信号を基に、入力音信号
のパワーに対応した音声レベルによる応答内容出力を行
うようにしたので、話者が大きな声で問いかけたときに
は大きな声で応答し、話者が小さな声で問いかけたとき
は小さな声で応答するという動作を行うことにより、た
とえば、深夜など周囲が静かなときには、他の人に迷惑
がかからないように、話者と装置は互いに小さな声で対
話が可能となり、逆に、騒音環境においてはそれに適応
した音量での対話が可能となる。

【００７２】また、本発明の音声認識対話処理方法は、
請求項７によれば、入力された音信号を分析して特徴デ
ータを発生し、この特徴データと予め登録された認識可
能な単語の標準音声特徴データとを比較し、入力された
音信号が認識可能な単語である場合、その単語に対する
単語検出データを出力し、この単語検出データを受け
て、入力された音声の意味を理解し、それに対応した応
答内容を決定して出力する工程、入力音信号の音信号波
形を基に入力音信号のパワーを検出する入力音信号パワ
ー検出工程を設け、装置をスリープモードとするための
スリープモード要求により装置がスリープモードとなっ
ている場合において、前記入力音信号のパワーが予め定
められたしきい値以上で、かつ、その入力音信号が前記
認識可能な単語の音声であるか否かを判断する処理を行
い、入力音信号のパワーが前記しきい値以上で、かつ、
その入力音信号が前記認識可能な単語の音声であると判
断された場合に、装置をスリープモードから動作モード
とするようにしたので、入力音信号が或る一定以上のレ
ベルを有した認識単語の音声である場合のみにスリープ
モードから動作モードとすることができ、信号レベルの
小さい雑音あるいは信号レベルが大きくても認識単語で
ない場合は、動作モードとはしないため、雑音などの影
響を受けることなく認識すべき単語のみを認識応答処理
対象とすることができ、また、スリープモード時は消費
電力の小さい部分のみが作動状態にあるので、スリープ
モード時における消費電力をきわめて小さいものとする
ことができる。すなわち、本発明では、スリープモード
時は音信号入力部と、入力音信号パワー検出部などの消
費電力の小さい部分のみが動作可能状態にあり、ある一
定レベル以上の音声が入力されると、一時的にＣＰＵは
立ち上がるが、その入力音信号が認識単語でないと判断
されると、ＣＰＵは直ちに立ち下がるようになってい
る。そして、一定レベル以上のパワーを有し、かつ、認
識可能な単語（キーワード）の音声が入力されて初めて
動作モードとなるようにしているため、スリープモード
時における消費電力をきわめて低く抑えることができ
る。

【００７３】請求項８によれば、前記スリープモードか
ら動作モードとする際の入力音信号のパワー検出は、ス
リープモード時におけるパワー検出を前記予め設定され
たしきい値を基準として所定時間行い、当該しきい値よ
り大きいレベルの入力音信号が所定時間連続的に存在
し、かつ、その入力音信号が認識可能な単語の音声でな
いと判断された場合は、当該入力音信号は環境中に存在
する定常的な雑音と判断するようにしたので、環境中に
或るレベルを有して長い時間連続して存在するような音
信号は雑音であると判断することができ、このような雑
音の影響を受けないようにすることができる。

【００７４】請求項９によれば、前記スリープモードか
ら動作モードとする際の入力音信号のパワー検出は、ス
リープモード時におけるパワー検出を前記予め設定され
たしきい値を基準として所定時間おこない、当該しきい
値より大きいレベルの入力音信号が所定時間連続的に存
在し、かつ、その入力音信号が認識可能な単語でないと
判断された場合は、当該入力音信号は環境中に存在する
定常的な雑音と判断するとともに、前記しきい値を当該
定常的な雑音レベルよりも大きい値に更新するようにし
たので、環境中に或るレベルを有して長い時間連続して
存在するような音信号に対しては、その音信号のレベル
を検出してそのレベルに応じたしきい値の設定ができ、
これにより、環境中の雑音が最初に設定されたしきい値
よりも大きい場合にも、雑音であることを的確に判断す
ることができ、環境中に定常的に存在するような雑音の
影響を受けないようにすることができる。

【００７５】請求項１０によれば、入力された音信号を
分析して特徴データを発生し、この特徴データと予め登
録された認識可能な単語の標準音声特徴データとを比較
し、入力された音信号が認識可能な単語である場合、そ
の単語に対する単語検出データを出力し、この単語検出
データを受けて、入力された音声の意味を理解し、それ
に対応した応答内容を決定して出力する工程、入力音信
号の音声波形を基に入力音信号のパワーを検出する入力
音信号パワー検出工程を設け、この入力音信号パワー検
出工程からのパワー信号を基に、環境中の雑音レベルを
判断し、この雑音レベルの大きさに対応した音声レベル
による応答内容出力を行うようにしたので、環境中の雑
音レベルが大きいときは、大きな音声レベルによる応答
内容出力を発生することができ、環境中に多少の雑音が
存在しても応答内容を聞き取りやすくすることができ
る。

【００７６】請求項１１によれば、前記入力音信号のパ
ワー信号を基に環境中の雑音レベルを判断する手段とし
て、雑音除去用のしきい値を設定し、このしきい値を基
準にして所定時間パワーの検出を行い、当該しきい値よ
り大きいレベルの入力音信号が所定時間連続的に存在
し、かつ、その入力音信号が認識可能な単語の音声でな
いと判断された場合は、当該入力音信号は環境中に存在
する定常的な雑音と判断するとともに、前記しきい値を
当該定常的な雑音レベルよりも大きい値に更新し、或る
時点におけるしきい値の大きさを基に、その時点におけ
る雑音レベルを判断するようにしたので、雑音レベルの
大きさの指標をしきい値により得ることができ、簡単に
現時点の雑音レベルの大きさを判断することができる。
また、雑音レベルが変動してもそれに対応した音声レベ
ルによる応答出力を発生することができ、環境中の雑音
に対して、より一層適応した音声レベルでの応答出力と
することができる。

【００７７】請求項１２によれば、入力された音信号を
分析して特徴データを発生し、この特徴データと予め登
録された認識可能な単語の標準音声特徴データとを比較
し、入力された音信号が認識可能な単語である場合、そ
の単語に対する単語検出データを出力し、この単語検出
データを受けて、入力された音声の意味を理解し、それ
に対応した応答内容を決定して出力する工程、入力音信
号の音信号波形を基に入力音信号のパワーを検出する入
力音信号パワー検出工程を設け、この入力音信号パワー
検出工程からのパワー信号を基に、入力音信号のパワー
に対応した音声レベルによる応答内容出力を行うように
したので、話者が大きな声で問いかけたときには大きな
声で応答し、話者が小さな声で問いかけたときは小さな
声で応答するという動作を行うことにより、たとえば、
深夜など周囲が静かなときには、他の人に迷惑がかから
ないように、話者と装置は互いに小さな声で対話が可能
となり、逆に、騒音環境においてはそれに適応した音量
での対話が可能となる。

【図面の簡単な説明】

【図１】本発明の第１の実施例の構成を説明するブロッ
ク図。

【図２】単語検出部による単語検出処理および音声理解
会話制御部による音声認識処理を説明する図。

【図３】入力音信号波形とそのパワー信号の一例を示す
図。

【図４】同実施例における処理を説明するフローチャー
ト。

【図５】第１、第２の実施例における雑音レベルに応じ
たしきい値設定および応答出力レベル設定する例を説明
する図。

【符号の説明】

１・・・音信号入力部２・・・音信号分析部３・・・単語検出部４・・・標準音声特徴データ記憶部５・・・音声理解会話制御部６・・・応答データ記憶部７・・・音声合成部８・・・音声出力部９・・・入力音信号パワー検出部１０・・・ＣＰＵｔｈ１，ｔｈ２・・・しきい値

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 3/00 ５６１Ｇ１０Ｌ 3/00 ５６１Ｇ 5/02 5/02 Ｊ (72)発明者枝常伊佐央長野県諏訪市大和３丁目３番５号セイコーエプソン株式会社内 (72)発明者浦野治長野県諏訪市大和３丁目３番５号セイコーエプソン株式会社内

Claims

【特許請求の範囲】

【請求項１】音声などの音信号を入力する音信号入力
手段と、この音信号入力手段により入力された音信号を分析して
特徴データを発生する音信号分析部と、予め登録された認識可能な単語の標準音声特徴データを
記憶する標準音声特徴データ記憶手段と、前記音信号分析手段からの特徴データを入力し、前記標
準音声特徴データ記憶手段の記憶内容と比較し、入力音
信号が認識可能な単語の音声であった場合、その認識可
能な単語に対する単語検出データを出力する単語検出手
段と、この単語検出手段からの単語検出データを受けて、入力
された音声の意味を理解し、それに対応した応答内容を
決定するとともに各種制御を行う音声理解会話制御手段
と、この音声理解会話制御手段によって決定された応答内容
に基づいた音声合成出力を発生する音声合成手段と、この音声合成手段からの音声合成出力を外部に出力する
音声出力手段と、前記音信号入力手段からの音信号波形を基に入力音信号
のパワーを検出する入力音信号パワー検出手段と、を有し、装置をスリープモードとするためのスリープモード要求
が出されると、装置をスリープモードとする設定を行
い、装置がスリープモードとなっている場合において、
前記入力音信号パワー検出手段によって検出された入力
音信号のパワーが予め定められたしきい値以上で、か
つ、その入力音信号が前記認識可能な単語の音声である
か否かを判断する処理を行い、入力音信号のパワーが前
記しきい値以上で、かつ、その入力音信号が前記認識可
能な単語の音声であると判断された場合に、装置をスリ
ープモードから動作モードとすることを特徴とする音声
認識対話装置。
【請求項２】前記スリープモードから動作モードとす
る際の入力音信号のパワー検出は、スリープモード時に
おけるパワー検出を前記予め設定されたしきい値を基準
として所定時間行い、当該しきい値より大きいレベルの
入力音信号が所定時間連続的に存在し、かつ、その入力
音信号が認識可能な単語の音声でないと判断された場合
は、当該入力音信号は環境中に存在する定常的な雑音と
判断することを特徴とする請求項１記載の音声認識対話
装置。
【請求項３】前記スリープモードから動作モードとす
る際の入力音信号のパワー検出は、スリープモード時に
おけるパワー検出を前記予め設定されたしきい値を基準
として所定時間行い、当該しきい値より大きいレベルの
入力音信号が所定時間連続的に存在し、かつ、その入力
音信号が認識可能な単語の音声でないと判断された場合
は、当該入力音信号は環境中に存在する定常的な雑音と
判断するとともに、前記しきい値を当該定常的な雑音レ
ベルよりも大きい値に更新することを特徴とする請求項
１記載の音声認識対話装置。
【請求項４】音声などの音信号を入力する音信号入力
手段と、この音信号入力手段により入力された音信号を分析して
特徴データを発生する音信号分析部と、予め登録された認識可能な単語の標準音声特徴データを
記憶する標準音声特徴データ記憶手段と、前記音信号分析手段からの特徴データを入力し、前記標
準音声特徴データ記憶手段の記憶内容と比較し、入力音
信号が認識可能な単語の音声であった場合、その認識可
能な単語に対する単語検出データを出力する単語検出手
段と、この単語検出手段からの単語検出データを受けて、入力
された音声の意味を理解し、それに対応した応答内容を
決定するとともに各種制御を行う音声理解会話制御手段
と、この音声理解会話制御手段によって決定された応答内容
に基づいた音声合成出力を発生する音声合成手段と、この音声合成手段からの音声合成出力を外部に出力する
音声出力手段と、前記音信号入力手段からの音信号波形を基に入力音信号
のパワーを検出する入力音信号パワー検出手段と、を有し、前記入力音信号パワー検出手段からのパワー信号を基
に、環境中の雑音レベルを判断し、その雑音レベルの大
きさに対応した音声レベルによる応答内容出力を行うこ
とを特徴とする音声認識対話装置。
【請求項５】前記入力音信号のパワー信号を基に環境
中の雑音レベルを判断する手段として、雑音除去用のし
きい値を設定し、このしきい値を基準にして所定時間パ
ワーの検出を行い、当該しきい値より大きいレベルの入
力音信号が所定時間連続的に存在し、かつ、その入力音
信号が認識可能な単語の音声でないと判断された場合
は、当該入力音信号は環境中に存在する定常的な雑音と
判断するとともに、前記しきい値を当該定常的な雑音レ
ベルよりも大きい値に更新し、或る時点におけるしきい
値の大きさを基に、その時点における雑音レベルを判断
することを特徴とする請求項４記載の音声認識対話装
置。
【請求項６】音声などの音信号を入力する音信号入力
手段と、この音信号入力手段により入力された音信号を分析して
特徴データを発生する音信号分析部と、予め登録された認識可能な単語の標準音声特徴データを
記憶する標準音声特徴データ記憶手段と、前記音信号分析手段からの特徴データを入力し、前記標
準音声特徴データ記憶手段の記憶内容と比較し、入力音
信号が認識可能な単語の音声であった場合、その認識可
能な単語に対する単語検出データを出力する単語検出手
段と、この単語検出手段からの単語検出データを受けて、入力
音声の意味を理解し、それに対応した応答内容を決定す
るとともに各種制御を行う音声理解会話制御手段と、この音声理解会話制御手段によって決定された応答内容
に基づいた音声合成出力を発生する音声合成手段と、この音声合成手段からの音声合成出力を外部に出力する
音声出力手段と、前記音信号入力手段からの音信号波形を基に入力音信号
のパワーを検出する入音信号パワー検出手段と、を有し、前記入力音信号パワー検出手段からのパワー信号を基
に、入力音信号のパワーに対応した音声レベルによる応
答内容出力を行うことを特徴とする音声認識対話装置。
【請求項７】音声などの音信号を入力する音信号入力
手段により入力された音信号を分析して特徴データを発
生し、この特徴データと予め登録された認識可能な単語
に対する標準音声特徴データとを比較し、音信号が認識
可能な単語の音声であった場合、その単語に対応する単
語検出データを出力し、この単語検出データを受けて、
入力音声の意味を理解し、それに対応した応答内容を決
定して、この決定された応答内容に基づいた音声合成出
力を発生する音声認識応答出力発生工程と、前記音信号入力手段からの音信号波形を基に入力音信号
のパワーを検出する入力音信号パワー検出工程と、を有し、装置をスリープモードとするためのスリープモード要求
が出されると、装置をスリープモードとする設定を行
い、装置がスリープモードとなっている場合において、
前記入力音信号パワー検出工程によって検出された入力
音信号のパワーが予め定められたしきい値以上で、か
つ、その入力音信号が前記認識可能な単語の音声である
か否かを判断する処理を行い、入力音信号のパワーが前
記しきい値以上で、かつ、その入力音信号が前記認識可
能な単語の音声であると判断された場合に、装置をスリ
ープモードから動作モードとすることを特徴とする音声
認識対話処理方法。
【請求項８】前記スリープモードから動作モードとす
る際の入力音信号のパワー検出は、スリープモード時に
おけるパワー検出を前記予め設定されたしきい値を基準
として所定時間行い、当該しきい値より大きいレベルの
入力音信号が所定時間連続的に存在し、かつ、その入力
音信号が認識可能な単語の音声でないと判断された場合
は、当該入力音信号は環境中に存在する定常的な雑音と
判断することを特徴とする請求項７記載の音声認識対話
処理方法。
【請求項９】前記スリープモードから動作モード入力
音信号のパワー検出は、スリープモード時におけるパワ
ー検出を前記予め設定されたしきい値を基準として所定
時間行い、当該しきい値より大きいレベルの入力音信号
が所定時間連続的に存在し、かつ、その入力音信号が認
識可能な単語の音声でないと判断された場合は、当該入
力音信号は環境中に存在する定常的な雑音と判断すると
ともに、前記しきい値を当該定常的な雑音レベルよりも
大きい値に更新することを特徴とする請求項７記載の音
声認識対話処理方法。
【請求項１０】音声などの音信号を入力する音信号入
力手段により入力された音信号を分析して特徴データを
発生し、この特徴データと予め登録された認識可能な単
語の標準音声特徴データとを比較し、音信号が認識可能
な単語の音声であった場合、その単語に対応する単語検
出データを出力し、この単語検出データを受けて、入力
音声の意味を理解し、それに対応した応答内容を決定し
て、この決定された応答内容に基づいた音声合成出力を
発生する音声認識応答出力発生工程と、前記音信号入力手段からの音信号波形を基に入力音信号
のパワーを検出する入力音信号パワー検出工程と、を有し、前記入力音信号パワー検出工程からのパワー信号を基
に、環境中の雑音レベルを判断し、その雑音レベルの大
きさに対応した音声レベルによる応答内容出力を行うこ
とを特徴とする音声認識対話処理方法。
【請求項１１】前記入力音信号のパワー信号を基に環
境中の雑音レベルを判断する手段として、雑音除去用の
しきい値を設定し、このしきい値を基準にして所定時間
パワーの検出を行い、当該しきい値より大きいレベルの
入力音信号が所定時間連続的に存在し、かつ、その入力
音信号が認識可能な単語の音声でないと判断された場合
は、当該入力音信号は環境中に存在する定常的な雑音と
判断するとともに、前記しきい値を当該定常的な雑音レ
ベルよりも大きい値に更新し、或る時点におけるしきい
値の大きさを基に、その時点における雑音レベルを判断
することを特徴とする請求項１０記載の音声認識対話処
理方法。
【請求項１２】音声などの音信号を入力する音信号入
力手段により入力された音信号を分析して特徴データを
発生し、この特徴データと予め登録された認識可能な単
語の標準音声特徴データとを比較し、音信号が認識可能
な単語の音声であった場合、その単語に対応する単語検
出データを出力し、この単語検出データを受けて、入力
音声の意味を理解し、それに対応した応答内容を決定し
て、この決定された応答内容に基づいた音声合成出力を
発生する音声認識応答出力発生工程と、前記音信号入力手段からの音信号波形を基に入力音信号
のパワーを検出する入力音信号パワー検出工程と、を有し、前記入力音信号パワー検出工程からのパワー信号を基
に、入力音信号のパワーに対応した音声レベルによる応
答内容出力を行うことを特徴とする音声認識対話処理方
法。