JPH07264103A

JPH07264103A - 音声の重畳検出方法及び装置とその検出装置を利用する音声入出力装置

Info

Publication number: JPH07264103A
Application number: JP4958394A
Authority: JP
Inventors: Hiroyuki Nishi; 宏之西; Mikio Kitai; 幹雄北井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1994-03-18
Filing date: 1994-03-18
Publication date: 1995-10-13

Abstract

(57)【要約】【目的】本発明は、音声入出力装置により出力される
音声と、音声入出力装置の利用者により入力される音声
との重畳を高精度に検出する方法及び装置の提供を目的
とする。【構成】本発明の音声入出力装置における音声の重畳
検出方法は、音声出力部３０より出力される出力音声の
パワーの値と、音声入力部４０に入力される入力音声の
パワーの値を算出するステップと、出力音声のパワーの
値と入力音声のパワーの値の差を算出するステップと、
出力音声のパワーの値と入力音声のパワー値の差に応じ
て、出力音声のエコーが入力音声に重畳しているかどう
かを検出するステップとからなる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入出力媒体として音声
を利用する音声入出力装置において、装置から出力され
る音声と、利用者から入力される音声とが同時に発生す
る音声の重畳を検出する方法に係り、特に、エコーキャ
ンセラの学習等に利用され得る、高精度な音声の重畳の
検出方法に関する。

【０００２】更に、本発明は、かかる音声の重畳の検出
装置及び音声の重畳を検出し得る音声入出力装置にも関
する。

【０００３】

【従来の技術】従来の音声入力及び音声出力を行う音声
入出力システムにおいて、システムの出力する音声は、
利用者側に置かれたスピーカとマイクの空間的音響結
合、或いは、利用者が電話機を利用する場合の電話機回
路の回り込みにより、利用者の発声した音声に重畳され
てシステムに入力される。このような重畳により、従来
のシステムにおいて、利用者の発声する音声を認識し、
明瞭な音声を蓄積することは困難であった。このため、
システムが発声するモードと、ユーザが発声するモード
とは時間的に明確に分離され、システムの音声出力中に
は、屡々、利用者からの発声が受け付けられない状態と
されている。

【０００４】しかし、このようにシステムの動作モード
をシステムの発声するモードと、ユーザからの発声を入
力するモードとに分離しても、かかるシステムの制約に
関して利用者の理解は必ずしも得られない。更に、実際
にシステムを運用する際、かかるシステムの制約に従う
利用方法を利用者に強いることは利用者にとって酷であ
る。従って、システムから音声が発声されている間に利
用者が発話を開始することを実際的に防止することは困
難である。

【０００５】そこで、例えば、武田等による“連続音声
認識に基づく内線番号案内システムの試作”、日本音響
学会講演論文集、平成５年３月、ページ７９〜８０に記
載される如く、システムの音声出力中にも利用者からの
発声を許容するようエコーキャンセラを利用する方法が
周知である。かかる引用文献では、連続音声入力に基づ
く電話番号案内装置の音声認識部に、電話回線経由で生
じるシステム音声の回り込みを除去するためのエコーキ
ャンセラが設けられている。

【０００６】更に、永田等による“実時間音声対話シス
テムにおける合成音キャンセルについて”、日本音響学
会講演論文集、平成４年３月、ページ１４５〜１４６に
は、システムからの合成音の出力中にユーザからの発話
入力（のキーワード）を切り出すため、合成音をキャン
セルするためにＬＭＳアルゴリズムに基づく適応フィル
タが利用され、かかるＬＭＳアルゴリズムの収束安定性
を改善するよう音声の無音部でフィルタの適応を停止す
る方法が記載されている。

【０００７】このように、エコーキャンセラを利用する
場合、例えば、上記の引用文献における適応フィルタの
如く、エコーパスを推定する機構のパラメータを学習す
るための学習用データが必要になる。かかる学習の方法
として、例えば、音声出力側からインパルス信号を出力
し、このインパルス信号への応答を直接収録してインパ
ルス応答を求める方法、或いは、音声出力側から白色雑
音を出力し、その応答を求める方法等が周知である。し
かし、音響的な特性、又は、回路的な特性が屡々変動す
る音声対話システムにおいて、かかる学習処理は対話の
度になされる必要がある。

【０００８】

【発明が解決しようとする課題】上記従来の技術のシス
テムによれば、エコーパスの推定機構を調整するパラメ
ータの学習等のエコーキャンセラの学習が対話の度に必
要とされるので、かかる従来のシステムは、マン・マシ
ーンインタフェースの観点から利用者にとって負担が大
きい。従って、学習のための処理が通常の対話と別個に
行われる学習方法ではなく、システムから利用者に対し
て送出される最初のメッセージの音声と、その音声に対
応して入力されるエコーとがエコーキャンセラの学習に
利用される方法が現実的で望ましい。しかし、システム
から送出される最初のメッセージによって学習を行う方
法においても、利用者がエコーキャンセラの学習中に発
話を行うと学習用データに利用者の音声が重畳されるの
で、エコーキャンセラのパラメータの学習は正確に行わ
れないという欠点がある。

【０００９】本発明の目的は、上記の従来技術の問題点
に鑑み、音声入出力装置により出力される音声と、音声
入出力装置の利用者により入力される音声との重畳を高
精度に検出する方法及び装置を提供することである。

【００１０】本発明の更なる目的は、エコーキャンセラ
の学習に用いられる音声データ中に利用者の音声が重畳
しているか否かを検出する有効な特徴パラメータの算出
方法を提供することである。

【００１１】音声入出力装置で扱われる音声の波形自体
は、エコーの影響を含むためエコーキャンセラのパラメ
ータ学習用の学習データとして利用し得ない。また、音
声信号の周波数領域の情報、例えば、ＬＰＣケプストラ
ム等も、エコーにより信号の周波数特性が変形される。
従って、システムより出力される音声と、この出力され
た音声がエコーによってシステムに入力された音声との
周波数領域における距離は、エコーによって変形されて
システムに入力された音声の周波数成分に大幅に依存す
る。そのため、例えば、音声に係る特徴データを所定の
閾値により分類するような簡単な方法により、システム
より出力される音声と、利用者よりシステムに入力され
る音声との重畳を判定することはできない。

【００１２】本発明の更なる目的は、システムより出力
される音声がエコーによりシステムに再び入力される音
声の周波数特性に依存することなく、上記の特徴パラメ
ータを評価してシステムより出力される音声と、利用者
よりシステムに入力される音声との重畳を判定する基準
を設けることを目的とする。

【００１３】本発明の更なる目的は、エコーキャンセラ
の学習のために利用者に特定の操作を行なわせることな
く、エコーキャンセラの学習用データが正確に得られ
る、音声の重畳の検出方法を利用するエコーキャンセラ
の学習用データの獲得方法を提供することである。

【００１４】

【課題を解決するための手段】図１は、本発明の音声の
重畳検出方法の原理を説明する図であり、出力音声を生
成して出力する音声出力部３０と、入力音声を入力する
音声入力部４０とよりなる、音声を利用して入出力を行
なう音声入出力装置において、音声出力部３０より出力
される出力音声のパワーの値と、音声入力部４０に入力
される入力音声のパワーの値を算出するステップと、出
力音声のパワーの値と入力音声のパワーの値の差を算出
するステップと、出力音声のパワーの値と入力音声のパ
ワー値の差に応じて、出力音声のエコーが入力音声に重
畳しているかどうかを検出するステップとからなる。

【００１５】出力音声を生成して出力する音声出力部３
０と、入力音声を入力する音声入力部４０とよりなり、
音声を入出力の媒体として利用する音声入出力装置にお
ける本発明の音声の重畳検出装置は、音声出力部３０よ
り出力される出力音声のパワーを算出する出力音声パワ
ー計算手段６０と、音声入力部４０に入力される入力音
声のパワーを算出する入力音声パワー計算手段７０と、
出力音声のパワーと入力音声のパワーのパワー差を算出
する音声パワー差計算手段８０と、音声パワー差計算手
段８０により算出されたパワー差に応じて、出力音声の
エコーが入力音声に重畳しているかどうかを検出する重
畳検出手段２０とからなる。

【００１６】更に、本発明の音声入出力装置は、出力音
声を利用者に送出する生成する出力音声生成手段３０
と、利用者から入力される入力音声を認識、又は蓄積す
る入力音声処理手段４０と、入力音声処理手段３０及び
出力音声生成手段４０の動作のタイミングを制御する対
話シーケンス制御手段５０よりなる。更に、本発明の音
声入出力装置は、出力音声生成手段３０より出力された
出力音声のパワーの対数値を計算する出力音声対数パワ
ー計算手段６０と、入力音声処理手段４０より入力され
た入力音声のパワーの対数値を計算する入力音声対数パ
ワー計算手段７０と、出力音声対数パワー計算手段６０
により計算された出力音声のパワーの対数値と、入力音
声対数パワー計算手段７０により計算された入力音声の
パワーの対数値の差を計算する対数パワー差計算手段８
０と、対数パワー差計算手段８０により計算された差が
比較される閾値を格納する閾値格納手段９０とを有し、
対話シーケンス制御手段５０は、対数パワー差計算手段
８０により計算された差と閾値格納手段９０に格納され
た閾値との大小関係に応じて、出力音声生成手段３０よ
り生成された出力音声と利用者の入力音声が重畳する両
発話が生じているかどうかを判定し、両発話が生じてい
るかどうかに応じて入力音声処理手段３０及び出力音声
生成手段４０の動作のタイミングを制御する。

【００１７】

【作用】本発明の検出方法によれば、エコーによる周波
数特性の変形により生ずるシステムの出力音声と、エコ
ーにより入力される入力音声との距離を利用して、エコ
ーにより入力された入力音声の中に利用者の発声による
音声が重畳されているか否かを判定する。その際、音声
のパワー情報、例えば、対数パワーの差を上記の距離情
報として利用すると、かかる対数パワーは、システムに
より入力された音声の周波数特性に依存する変形は小さ
いので、得られるエコーによる周波数特性の変形の入力
される音声の周波数成分への依存性は低い。

【００１８】更に、対数パワー情報は、音声のもつ広範
囲なダイナミックレンジにおいて特性を維持するために
広いダイナミックレンジにおいて利用でき、重畳部分の
検出処理は簡易化がなされる。

【００１９】

【実施例】以下、図面と共に本発明の実施例を詳細に説
明する。

【００２０】図２は本発明の第１実施例による電話自動
応答システムの音声入出力装置の構成を示す図である。
本発明の第１実施例による電話自動応答システムの音声
入出力装置２００は、利用者が使用する電話機１２０に
接続される、例えば２線式の電話回線１１０と、２線式
の電話回線１１０に接続され２線式回線と４線式回線の
変換を行う２線４線変換回路１００と、利用者に出力す
る音声信号を生成する出力音声生成部３０と、利用者か
ら入力された音声を認識又は蓄積する入力音声処理部４
０と、入力音声処理部４０における音声の入力処理と、
出力音声生成部３０における音声の生成処理とを対話の
手順に応じて制御する対話シーケンス制御部５０とより
なり、利用者からの音声を入力し、利用者に対して音声
信号を出力する。

【００２１】上記の電話自動応答システムの２線４線変
換回路１００において、例えば、音声入出力装置２００
から出力された音声信号の側音成分の如きエコーが、利
用者から音声入出力装置２００への入力信号に重畳され
る。

【００２２】図３は、装置からの発話と利用者からの発
話との関係を説明する図である。同図に示す如く、装置
から発生される音声信号の有無と、利用者から発生され
る音声信号の有無に応じて、装置からの音声信号だけが
ある状態Ａ、利用者からの音声信号だけがある状態Ｂ、
装置からの音声信号と利用者からの音声信号の両方があ
る状態ＡＢ、及び装置と利用者のいずれからも音声が発
生されていない状態Ｏの４通りの状態が存在する。ここ
に、状態ＡＢが所謂両発話区間に相当している。一方、
エコーキャンセラのパラメータの学習に利用できる状態
は、装置からの音声信号だけが存在する状態Ａである。
従って、状態Ａであると判定できる区間の学習データだ
けが確実に効率良く収集されることが望ましい。

【００２３】一方、音声入出力装置２００は、図２に示
されたＸ点及びＹ点における音声信号を得ることができ
る。図４は、本発明の第１実施例による対話システムの
音声入出力装置２００における状態判定の一例を説明す
る図である。本発明の第１実施例の装置２００によれ
ば、上記のＸ点で得られる音声データ、即ち、装置から
の送話音声が有音であるか無音であるかと、上記のＹ点
で得られる音声データが有音であるか無音であるかとに
基づいて状態が判定される。図４に示す如く、Ｘ点の音
声データが無音であり、Ｙ点の音声データが有音である
場合、状態は「状態Ｂ」であると判定され、Ｘ点の音声
データが無音であり、Ｙ点の音声データが無音である場
合、状態は「状態Ｏ」であると判定される。一方、「状
態Ａ」と「状態ＡＢ」は、いずれの場合も、Ｘ点の音声
データとＹ点の音声データが共に有音である。従って、
「状態Ａ」であるか、「状態ＡＢ」であるかは、音声デ
ータが有音であるか無音であるかだけに基づいて判定さ
れ得ない。

【００２４】本発明の第１実施例によれば、音声入出力
装置２００は、更に、出力音声生成部３０から出力され
た出力音声信号のパワー、例えば、音声信号のパワーの
対数値（以下では、対数パワーと呼ぶ）を計算する出力
音声対数パワー計算部６０と、入力音声処理部４０から
入力された入力音声信号の対数パワーを計算する入力音
声対数パワー計算部７０と、出力音声対数パワー計算部
６０により計算された出力音声の対数パワーの値と、入
力音声対数パワー計算部７０により計算された入力音声
の対数パワーの値との差を計算する対数パワー差計算部
８０とを含む。音声信号の特徴パラメータとして、かか
る信号のパワーは、エコーによる周波数の変形の影響が
少ないので、出力音声生成部３０から出力された音声信
号と、入力音声処理部４０に入力される音声信号との間
の信号パワーの差は、これらの信号間の類似性を判定す
るのに都合の良い距離関数を与える。尚、パワーの値そ
のものだけではなく、パワーの値の対数値の如く、パワ
ーの値を変形して利用しても良い。

【００２５】上記の如く、出力音声生成部３０から出力
された音声信号と、入力音声処理部４０に入力される音
声信号との距離関数を利用することにより、この距離関
数の値に応じて上記の２つの信号の類似性、即ち、出力
された音声信号のエコーが、入力される音声信号に重畳
されているか否かが判定される。

【００２６】本発明の第１実施例の音声入出力装置２０
０は、対数パワー差計算部８０により計算された対数パ
ワーの値の差に応じて装置からの出力音声と利用者から
の入力音声が同時に発生するダブルトーク（両発話）区
間であるか否かを判断する閾値を格納する閾値格納部９
０を有し、この装置２００の対話シーケンス制御部５０
は、対数パワー差計算部８０により計算された対数パワ
ーの値の差がかかる閾値より大きい場合、出力音声生成
部３０より生成された出力音声信号が利用者により入力
される音声信号に重畳されていると判定する。

【００２７】例えば、対話シーケンス制御部５０は、シ
ステムが音声を出力している間に入力された音声は、状
態Ａ又は状態ＡＢのいずれかであり、システムの音声出
力がない間に入力された音声は、状態Ｏ又はＢであると
判定する。これにより、出力音声生成部３０からの音声
信号の出力と、入力音声処理部４０による音声信号の受
信の切替えのタイミングが制御され得る。

【００２８】更に、対話シーケンス制御部５０において
判定された結果は、対数パワー差計算部８０に送られる
ので、対数パワー差計算部８０は、対話の状態が、状態
Ａ、Ｂ、ＡＢ又はＯのいずれであるかを認識し得る。

【００２９】例えば、電話自動応答システムのエコー経
路の特性を推定する音声入出力装置２００のエコーキャ
ンセラの学習用データの収集は、音声信号を出力音声生
成部３０より出力し、この出力された音声信号のエコー
成分が入力音声処理部４０により受信されることにより
行なわれる。このようにエコーキャンセラの学習用デー
タを収集する場合、エコー成分のみが受信され、利用者
により出力される音声信号は含まれていないことが望ま
しい。従って、上記の本発明の第１実施例の音声入出力
装置２００の対話シーケンス制御部５０により判定され
た音声信号の重畳の有無に応じて、入力音声処理部４０
に入力された音声信号の中からエコーキャンセラの学習
用データとして利用する音声信号を選択し、選択された
音声信号に基づいてエコーキャンセラのパラメータの学
習を行なうことができる。

【００３０】以下に、本発明の第２実施例による対数パ
ワーの入出力差に基づく状態識別の方法を説明する。上
記の「状態Ａ」及び「状態ＡＢ」を識別するために、電
話機の側音特性と受話特性の影響を利用する。ここで、
側音特性は、装置２００から利用者への音声の側音成分
の特性を示し、受話特性は、回線から装置２００への音
声の特性を示す。これらの特性は、一般に、回路構成と
線路条件とが反映された伝達関数として表現される。本
発明の第２実施例においては、音声データのパワーの情
報が取り扱われること、及び、処理の簡単化を考慮し、
入力データは一定のパワー減衰の影響を受けることを仮
定して伝達関数の定式化を行う。図２に示された音声入
出力装置２００の出力音声信号の側音のパワー減衰係数
をα、利用者から回線１１０を介して受信される受話音
声信号のパワー減衰係数をβ、装置２００から利用者へ
の送話音声信号のパワーをＰ_O、装置２００に入力され
る受話音声信号のパワーをＰ_i、及び電話機１２０と回
線１１０との接続点における利用者の発声する音声信号
のパワーをＰ_uとすると、状態Ａと状態ＡＢのパワー
と、状態識別のための判定関数が以下の通り得られる。

【００３１】状態Ａ、即ち、ユーザが発声していない区
間のパワーは：

【００３２】

【数１】

【００３３】と表わされる。ここで、受話音声信号の対
数パワーと送話音声信号の対数パワーの差Ｑ：

【００３４】

【数２】

【００３５】が得られ、この関数Ｑを判定関数とする。

【００３６】一方、状態ＡＢ、即ち、ユーザが発声して
いる区間のパワーは：

【００３７】

【数３】

【００３８】と表わされる。ここで、利用者の音声信号
と装置の送話音声信号との相関の状況に係わらず（３）
式に示す近似が成立するものと仮定する。更に、受話音
声信号の対数パワーと送話音声信号の対数パワーの差
Ｑ：

【００３９】

【数４】

【００４０】が得られ、この関数Ｑを判定関数とする。

【００４１】上記の式（４）において、右辺第１項ｌｏ
ｇαは、２線４線変換回路の特性により定まる負の定数
であり、右辺第２項も負である。従って、式（４）と式
（２）を比較すると、所定の閾値Ｔｈに対して、

【００４２】

【数５】

【００４３】ならば状態ＡＢであり、

【００４４】

【数６】

【００４５】であれば、状態Ａであると判定できる。

【００４６】上記の判定において利用される閾値は、検
出性能が最大となるよう、例えば、事後確率に基づいて
設定しても良い。状態Ａのパワー差Ｑの分布：Ｐ（Ｏ_Q
｜Ａ）と、状態ＡＢのパワー差Ｑの分布：Ｐ（Ｏ_Q｜Ａ
Ｂ）を用いると、Ｑが得られたときの状態Ａの事後確
率：Ｐ（Ａ｜Ｏ_Q）及び状態ＡＢの事後確率：Ｐ（ＡＢ
｜Ｏ_Q）が、次の通り得られる。

【００４７】

【数７】

【００４８】

【数８】

【００４９】上記の如く得られた事後確率の大小関係を
利用することにより、状態Ａと状態ＡＢとの識別が可能
になる。

【００５０】図５は、本発明の第２実施例の対話システ
ムにおいて得られた状態Ａと状態ＡＢとの分布の一例を
示す図ある。式（５）及び式（６）を使用して上記の事
後確率を求める際、同図に示された分布の値をそのまま
利用することができる。或いは、かかる第２実施例の変
形として、かかる分布を、例えば、正規分布のような解
析的な分布のパラメータとしてこの分布を表現して、そ
のパラメータを上式（５）及び（６）に代入することに
より、状態Ａ及び状態ＡＢの事後確率を得ることも可能
である。

【００５１】図６は、本発明の第３実施例による対話シ
ステムの構成を示す図である。図６に示す対話システム
は、図２に示した本発明の第１実施例による電話自動応
答システムの２線４線変換回路１００をスピーカ１５０
とマイクロホン１６０に変更して得られる。図６に示す
システムにおいて、音声入出力装置２００からスピーカ
１５０を介して出力された音声信号は、音響空間を経て
一定量減衰され、マイクロホン１６０を介して再度音声
入出力装置２００に入力され、出力された音声信号のエ
コーを形成する。

【００５２】本発明の第３実施例の対話システムにおい
て、本発明の第１実施例による電話自動応答システムと
同様に、音声入出力装置２００は、出力音声生成部３０
から出力された出力音声信号のパワー、例えば、音声信
号の対数パワーを計算する出力音声対数パワー計算部６
０と、入力音声処理部４０から入力された入力音声信号
の対数パワーを計算する入力音声対数パワー計算部７０
と、出力音声対数パワー計算部６０により計算された出
力音声の対数パワーの値と、入力音声対数パワー計算部
７０により計算された入力音声の対数パワーの値との差
を計算する対数パワー差計算部８０とを含む。

【００５３】更に、本発明の第３実施例の音声入出力装
置２００は、対数パワー差計算部８０により計算された
対数パワーの値の差に応じて装置からの出力音声と利用
者からの入力音声が同時に発生するダブルトーク（両発
話）区間であるか否かを判断する閾値を格納する閾値格
納部９０を有し、この装置２００の対話シーケンス制御
部５０は、対数パワー差計算部８０により計算された対
数パワーの値の差がかかる閾値より大きい場合、出力音
声生成部３０より生成された出力音声信号が利用者によ
り入力される音声信号に重畳されていると判定する。

【００５４】

【発明の効果】上記の説明の如く、本発明によれば、音
声信号の特徴パラメータとして、音声信号のパワー値が
利用されるので、負荷の少ない演算処理により高精度に
両発話区間か否かが検出され得る。

【００５５】更に、音声入出力装置と利用者の両方が発
話している両発話区間の検出により、音声入出力装置の
エコーキャンセラの学習が、装置と利用者との通常の対
話中に行なえるので、かかる学習に伴う利用者の負担が
低減される。

【図面の簡単な説明】

【図１】本発明の原理を説明する図である。

【図２】本発明の第１実施例による電話自動応答システ
ムの構成を示す図である。

【図３】発話の状態の分類を説明する図である。

【図４】本発明の第１実施例の有音無音による状態判定
の例を説明する図である。

【図５】本発明の第２実施例による状態Ａと状態ＡＢの
分布を説明する図である。

【図６】本発明の第３実施例による対話システムの構成
を示す図である。

【図７】従来技術の説明図である。

【符号の説明】

２０重畳検出手段３０出力音声生成手段４０入力音声処理手段５０対話シーケンス制御手段６０出力音声パワー計算手段７０入力音声パワー計算手段８０パワー差計算手段９０閾値格納手段１００２線４線変換回路１１０電話回線１２０電話機１４０エコーキャンセラ１５０スピーカ１６０マイクロホン

Claims

【特許請求の範囲】

【請求項１】出力音声を生成して出力する音声出力部
と、入力音声を入力する音声入力部とよりなる、音声を
利用して入出力を行なう音声入出力装置において、該音声出力部より出力される該出力音声のパワーの値
と、該音声入力部に入力される該入力音声のパワーの値
を算出するステップと、該出力音声のパワーの値と該入力音声のパワーの値の差
を算出するステップと、該出力音声のパワーの値と該入力音声のパワー値の該差
に応じて、該出力音声のエコーが該入力音声に重畳して
いるかどうかを検出するステップとからなる、音声の重
畳検出方法。
【請求項２】出力音声を生成して出力する音声出力部
と、入力音声を入力する音声入力部とよりなり、音声を
入出力の媒体として利用する音声入出力装置において、該音声出力部より出力される該出力音声のパワーを算出
する出力音声パワー計算手段と、該音声入力部に入力される該入力音声のパワーを算出す
る入力音声パワー計算手段と、該出力音声のパワーと該入力音声のパワーのパワー差を
算出する音声パワー差計算手段と、該音声パワー差計算手段により算出された該パワー差に
応じて、該出力音声のエコーが該入力音声に重畳してい
るかどうかを検出する重畳検出手段とからなる、音声の
重畳検出装置。
【請求項３】前記出力音声パワー計算手段は；該出力
音声のパワーの対数値を算出し、前記入力音声パワー計算手段は；該入力音声のパワーの
対数値を算出し、前記音声パワー差計算手段は；該出力音声のパワーの対
数値と該入力音声のパワーの対数値の差を算出すること
を特徴とする、請求項２記載の音声の重畳検出装置。
【請求項４】前記重畳検出手段は；前記音声パワー差
計算手段により算出された前記パワー差が比較される所
定の閾値を格納する閾値格納手段を更に有し、該パワー差と該閾値の大小関係に応じて前記出力音声の
エコーが前記入力音声に重畳しているかどうかを検出す
ることを特徴とする、請求項２記載の音声の重畳検出装
置。
【請求項５】前記重畳検出手段は、前記音声の重畳の
有無に対応する前記パワー差の事後確率の大小関係に応
じて、該音声の重畳の状態を判定することを特徴とする
請求項２記載の音声の重畳検出装置。
【請求項６】出力音声を利用者に送出する生成する出
力音声生成手段と、該利用者から入力される入力音声を
認識、又は蓄積する入力音声処理手段と、該入力音声処
理手段及び該出力音声生成手段の動作のタイミングを制
御する対話シーケンス制御手段とよりなる、音声入出力
装置であって、該出力音声生成手段から出力された該出力音声のパワー
の対数値を計算する出力音声対数パワー計算手段と、該入力音声処理手段から入力された該入力音声のパワー
の対数値を計算する入力音声対数パワー計算手段と、該出力音声対数パワー計算手段により計算された該出力
音声のパワーの対数値と、該入力音声対数パワー計算手
段により計算された該入力音声のパワーの対数値の差を
計算する対数パワー差計算手段と、該対数パワー差計算手段により計算された該差が比較さ
れる閾値を格納する閾値格納手段とを有し、該対話シーケンス制御手段は、該対数パワー差計算手段
により計算された該差と該閾値格納手段に格納された該
閾値との大小関係に応じて、該出力音声生成手段より生
成された出力音声と該利用者の入力音声が重畳する両発
話が生じているかどうかを判定し、該両発話が生じてい
るかどうかに応じて該入力音声処理手段及び該出力音声
生成手段の動作のタイミングを制御することを特徴とす
る音声入出力装置。
【請求項７】前記出力音声のエコーの影響を除去する
エコーキャンセラを更に有し、前記対話シーケンス制御部は、該エコーキャンセラのパ
ラメータの学習の際、該出力音声に前記入力音声が重畳
されていない場合、該出力音声に対応するデータを該エ
コーキャンセラの学習用データとして取得し、前記両発
話が生じていると判定された場合、該出力音声に対応す
るデータを該エコーキャンセラのパラメータの学習用デ
ータとして取得しないことを特徴とする請求項６記載の
音声入出力装置。
【請求項８】前記出力音声生成手段及び前記入力音声
処理手段とに接続される２線４線変換回路と、該２線４線変換回路に接続され、前記利用者に前記出力
音声を出力し、前記入力音声を入力する電話機とを更に
有し、前記エコーキャンセラは、前記出力音声の側音成分の前
記入力音声への重畳を除去することを特徴とする請求項
７記載の音声入出力装置。
【請求項９】前記出力音声を前記利用者に出力するス
ピーカと、該利用者から前記入力音声を入力するマイクロホンとを
更に有し、前記エコーキャンセラは、該スピーカから音響空間を介
して該マイクロホンに入力される前記出力音声のエコー
の前記入力音声への重畳を除去することを特徴とする請
求項７記載の音声入出力装置。