JPH07264103A - 音声の重畳検出方法及び装置とその検出装置を利用する音声入出力装置 - Google Patents

音声の重畳検出方法及び装置とその検出装置を利用する音声入出力装置

Info

Publication number
JPH07264103A
JPH07264103A JP4958394A JP4958394A JPH07264103A JP H07264103 A JPH07264103 A JP H07264103A JP 4958394 A JP4958394 A JP 4958394A JP 4958394 A JP4958394 A JP 4958394A JP H07264103 A JPH07264103 A JP H07264103A
Authority
JP
Japan
Prior art keywords
voice
output
input
power
logarithmic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4958394A
Other languages
English (en)
Inventor
Hiroyuki Nishi
宏之 西
Mikio Kitai
幹雄 北井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP4958394A priority Critical patent/JPH07264103A/ja
Publication of JPH07264103A publication Critical patent/JPH07264103A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

(57)【要約】 【目的】 本発明は、音声入出力装置により出力される
音声と、音声入出力装置の利用者により入力される音声
との重畳を高精度に検出する方法及び装置の提供を目的
とする。 【構成】 本発明の音声入出力装置における音声の重畳
検出方法は、音声出力部30より出力される出力音声の
パワーの値と、音声入力部40に入力される入力音声の
パワーの値を算出するステップと、出力音声のパワーの
値と入力音声のパワーの値の差を算出するステップと、
出力音声のパワーの値と入力音声のパワー値の差に応じ
て、出力音声のエコーが入力音声に重畳しているかどう
かを検出するステップとからなる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入出力媒体として音声
を利用する音声入出力装置において、装置から出力され
る音声と、利用者から入力される音声とが同時に発生す
る音声の重畳を検出する方法に係り、特に、エコーキャ
ンセラの学習等に利用され得る、高精度な音声の重畳の
検出方法に関する。
【0002】更に、本発明は、かかる音声の重畳の検出
装置及び音声の重畳を検出し得る音声入出力装置にも関
する。
【0003】
【従来の技術】従来の音声入力及び音声出力を行う音声
入出力システムにおいて、システムの出力する音声は、
利用者側に置かれたスピーカとマイクの空間的音響結
合、或いは、利用者が電話機を利用する場合の電話機回
路の回り込みにより、利用者の発声した音声に重畳され
てシステムに入力される。このような重畳により、従来
のシステムにおいて、利用者の発声する音声を認識し、
明瞭な音声を蓄積することは困難であった。このため、
システムが発声するモードと、ユーザが発声するモード
とは時間的に明確に分離され、システムの音声出力中に
は、屡々、利用者からの発声が受け付けられない状態と
されている。
【0004】しかし、このようにシステムの動作モード
をシステムの発声するモードと、ユーザからの発声を入
力するモードとに分離しても、かかるシステムの制約に
関して利用者の理解は必ずしも得られない。更に、実際
にシステムを運用する際、かかるシステムの制約に従う
利用方法を利用者に強いることは利用者にとって酷であ
る。従って、システムから音声が発声されている間に利
用者が発話を開始することを実際的に防止することは困
難である。
【0005】そこで、例えば、武田等による“連続音声
認識に基づく内線番号案内システムの試作”、日本音響
学会講演論文集、平成5年3月、ページ79〜80に記
載される如く、システムの音声出力中にも利用者からの
発声を許容するようエコーキャンセラを利用する方法が
周知である。かかる引用文献では、連続音声入力に基づ
く電話番号案内装置の音声認識部に、電話回線経由で生
じるシステム音声の回り込みを除去するためのエコーキ
ャンセラが設けられている。
【0006】更に、永田等による“実時間音声対話シス
テムにおける合成音キャンセルについて”、日本音響学
会講演論文集、平成4年3月、ページ145〜146に
は、システムからの合成音の出力中にユーザからの発話
入力(のキーワード)を切り出すため、合成音をキャン
セルするためにLMSアルゴリズムに基づく適応フィル
タが利用され、かかるLMSアルゴリズムの収束安定性
を改善するよう音声の無音部でフィルタの適応を停止す
る方法が記載されている。
【0007】このように、エコーキャンセラを利用する
場合、例えば、上記の引用文献における適応フィルタの
如く、エコーパスを推定する機構のパラメータを学習す
るための学習用データが必要になる。かかる学習の方法
として、例えば、音声出力側からインパルス信号を出力
し、このインパルス信号への応答を直接収録してインパ
ルス応答を求める方法、或いは、音声出力側から白色雑
音を出力し、その応答を求める方法等が周知である。し
かし、音響的な特性、又は、回路的な特性が屡々変動す
る音声対話システムにおいて、かかる学習処理は対話の
度になされる必要がある。
【0008】
【発明が解決しようとする課題】上記従来の技術のシス
テムによれば、エコーパスの推定機構を調整するパラメ
ータの学習等のエコーキャンセラの学習が対話の度に必
要とされるので、かかる従来のシステムは、マン・マシ
ーンインタフェースの観点から利用者にとって負担が大
きい。従って、学習のための処理が通常の対話と別個に
行われる学習方法ではなく、システムから利用者に対し
て送出される最初のメッセージの音声と、その音声に対
応して入力されるエコーとがエコーキャンセラの学習に
利用される方法が現実的で望ましい。しかし、システム
から送出される最初のメッセージによって学習を行う方
法においても、利用者がエコーキャンセラの学習中に発
話を行うと学習用データに利用者の音声が重畳されるの
で、エコーキャンセラのパラメータの学習は正確に行わ
れないという欠点がある。
【0009】本発明の目的は、上記の従来技術の問題点
に鑑み、音声入出力装置により出力される音声と、音声
入出力装置の利用者により入力される音声との重畳を高
精度に検出する方法及び装置を提供することである。
【0010】本発明の更なる目的は、エコーキャンセラ
の学習に用いられる音声データ中に利用者の音声が重畳
しているか否かを検出する有効な特徴パラメータの算出
方法を提供することである。
【0011】音声入出力装置で扱われる音声の波形自体
は、エコーの影響を含むためエコーキャンセラのパラメ
ータ学習用の学習データとして利用し得ない。また、音
声信号の周波数領域の情報、例えば、LPCケプストラ
ム等も、エコーにより信号の周波数特性が変形される。
従って、システムより出力される音声と、この出力され
た音声がエコーによってシステムに入力された音声との
周波数領域における距離は、エコーによって変形されて
システムに入力された音声の周波数成分に大幅に依存す
る。そのため、例えば、音声に係る特徴データを所定の
閾値により分類するような簡単な方法により、システム
より出力される音声と、利用者よりシステムに入力され
る音声との重畳を判定することはできない。
【0012】本発明の更なる目的は、システムより出力
される音声がエコーによりシステムに再び入力される音
声の周波数特性に依存することなく、上記の特徴パラメ
ータを評価してシステムより出力される音声と、利用者
よりシステムに入力される音声との重畳を判定する基準
を設けることを目的とする。
【0013】本発明の更なる目的は、エコーキャンセラ
の学習のために利用者に特定の操作を行なわせることな
く、エコーキャンセラの学習用データが正確に得られ
る、音声の重畳の検出方法を利用するエコーキャンセラ
の学習用データの獲得方法を提供することである。
【0014】
【課題を解決するための手段】図1は、本発明の音声の
重畳検出方法の原理を説明する図であり、出力音声を生
成して出力する音声出力部30と、入力音声を入力する
音声入力部40とよりなる、音声を利用して入出力を行
なう音声入出力装置において、音声出力部30より出力
される出力音声のパワーの値と、音声入力部40に入力
される入力音声のパワーの値を算出するステップと、出
力音声のパワーの値と入力音声のパワーの値の差を算出
するステップと、出力音声のパワーの値と入力音声のパ
ワー値の差に応じて、出力音声のエコーが入力音声に重
畳しているかどうかを検出するステップとからなる。
【0015】出力音声を生成して出力する音声出力部3
0と、入力音声を入力する音声入力部40とよりなり、
音声を入出力の媒体として利用する音声入出力装置にお
ける本発明の音声の重畳検出装置は、音声出力部30よ
り出力される出力音声のパワーを算出する出力音声パワ
ー計算手段60と、音声入力部40に入力される入力音
声のパワーを算出する入力音声パワー計算手段70と、
出力音声のパワーと入力音声のパワーのパワー差を算出
する音声パワー差計算手段80と、音声パワー差計算手
段80により算出されたパワー差に応じて、出力音声の
エコーが入力音声に重畳しているかどうかを検出する重
畳検出手段20とからなる。
【0016】更に、本発明の音声入出力装置は、出力音
声を利用者に送出する生成する出力音声生成手段30
と、利用者から入力される入力音声を認識、又は蓄積す
る入力音声処理手段40と、入力音声処理手段30及び
出力音声生成手段40の動作のタイミングを制御する対
話シーケンス制御手段50よりなる。更に、本発明の音
声入出力装置は、出力音声生成手段30より出力された
出力音声のパワーの対数値を計算する出力音声対数パワ
ー計算手段60と、入力音声処理手段40より入力され
た入力音声のパワーの対数値を計算する入力音声対数パ
ワー計算手段70と、出力音声対数パワー計算手段60
により計算された出力音声のパワーの対数値と、入力音
声対数パワー計算手段70により計算された入力音声の
パワーの対数値の差を計算する対数パワー差計算手段8
0と、対数パワー差計算手段80により計算された差が
比較される閾値を格納する閾値格納手段90とを有し、
対話シーケンス制御手段50は、対数パワー差計算手段
80により計算された差と閾値格納手段90に格納され
た閾値との大小関係に応じて、出力音声生成手段30よ
り生成された出力音声と利用者の入力音声が重畳する両
発話が生じているかどうかを判定し、両発話が生じてい
るかどうかに応じて入力音声処理手段30及び出力音声
生成手段40の動作のタイミングを制御する。
【0017】
【作用】本発明の検出方法によれば、エコーによる周波
数特性の変形により生ずるシステムの出力音声と、エコ
ーにより入力される入力音声との距離を利用して、エコ
ーにより入力された入力音声の中に利用者の発声による
音声が重畳されているか否かを判定する。その際、音声
のパワー情報、例えば、対数パワーの差を上記の距離情
報として利用すると、かかる対数パワーは、システムに
より入力された音声の周波数特性に依存する変形は小さ
いので、得られるエコーによる周波数特性の変形の入力
される音声の周波数成分への依存性は低い。
【0018】更に、対数パワー情報は、音声のもつ広範
囲なダイナミックレンジにおいて特性を維持するために
広いダイナミックレンジにおいて利用でき、重畳部分の
検出処理は簡易化がなされる。
【0019】
【実施例】以下、図面と共に本発明の実施例を詳細に説
明する。
【0020】図2は本発明の第1実施例による電話自動
応答システムの音声入出力装置の構成を示す図である。
本発明の第1実施例による電話自動応答システムの音声
入出力装置200は、利用者が使用する電話機120に
接続される、例えば2線式の電話回線110と、2線式
の電話回線110に接続され2線式回線と4線式回線の
変換を行う2線4線変換回路100と、利用者に出力す
る音声信号を生成する出力音声生成部30と、利用者か
ら入力された音声を認識又は蓄積する入力音声処理部4
0と、入力音声処理部40における音声の入力処理と、
出力音声生成部30における音声の生成処理とを対話の
手順に応じて制御する対話シーケンス制御部50とより
なり、利用者からの音声を入力し、利用者に対して音声
信号を出力する。
【0021】上記の電話自動応答システムの2線4線変
換回路100において、例えば、音声入出力装置200
から出力された音声信号の側音成分の如きエコーが、利
用者から音声入出力装置200への入力信号に重畳され
る。
【0022】図3は、装置からの発話と利用者からの発
話との関係を説明する図である。同図に示す如く、装置
から発生される音声信号の有無と、利用者から発生され
る音声信号の有無に応じて、装置からの音声信号だけが
ある状態A、利用者からの音声信号だけがある状態B、
装置からの音声信号と利用者からの音声信号の両方があ
る状態AB、及び装置と利用者のいずれからも音声が発
生されていない状態Oの4通りの状態が存在する。ここ
に、状態ABが所謂両発話区間に相当している。一方、
エコーキャンセラのパラメータの学習に利用できる状態
は、装置からの音声信号だけが存在する状態Aである。
従って、状態Aであると判定できる区間の学習データだ
けが確実に効率良く収集されることが望ましい。
【0023】一方、音声入出力装置200は、図2に示
されたX点及びY点における音声信号を得ることができ
る。図4は、本発明の第1実施例による対話システムの
音声入出力装置200における状態判定の一例を説明す
る図である。本発明の第1実施例の装置200によれ
ば、上記のX点で得られる音声データ、即ち、装置から
の送話音声が有音であるか無音であるかと、上記のY点
で得られる音声データが有音であるか無音であるかとに
基づいて状態が判定される。図4に示す如く、X点の音
声データが無音であり、Y点の音声データが有音である
場合、状態は「状態B」であると判定され、X点の音声
データが無音であり、Y点の音声データが無音である場
合、状態は「状態O」であると判定される。一方、「状
態A」と「状態AB」は、いずれの場合も、X点の音声
データとY点の音声データが共に有音である。従って、
「状態A」であるか、「状態AB」であるかは、音声デ
ータが有音であるか無音であるかだけに基づいて判定さ
れ得ない。
【0024】本発明の第1実施例によれば、音声入出力
装置200は、更に、出力音声生成部30から出力され
た出力音声信号のパワー、例えば、音声信号のパワーの
対数値(以下では、対数パワーと呼ぶ)を計算する出力
音声対数パワー計算部60と、入力音声処理部40から
入力された入力音声信号の対数パワーを計算する入力音
声対数パワー計算部70と、出力音声対数パワー計算部
60により計算された出力音声の対数パワーの値と、入
力音声対数パワー計算部70により計算された入力音声
の対数パワーの値との差を計算する対数パワー差計算部
80とを含む。音声信号の特徴パラメータとして、かか
る信号のパワーは、エコーによる周波数の変形の影響が
少ないので、出力音声生成部30から出力された音声信
号と、入力音声処理部40に入力される音声信号との間
の信号パワーの差は、これらの信号間の類似性を判定す
るのに都合の良い距離関数を与える。尚、パワーの値そ
のものだけではなく、パワーの値の対数値の如く、パワ
ーの値を変形して利用しても良い。
【0025】上記の如く、出力音声生成部30から出力
された音声信号と、入力音声処理部40に入力される音
声信号との距離関数を利用することにより、この距離関
数の値に応じて上記の2つの信号の類似性、即ち、出力
された音声信号のエコーが、入力される音声信号に重畳
されているか否かが判定される。
【0026】本発明の第1実施例の音声入出力装置20
0は、対数パワー差計算部80により計算された対数パ
ワーの値の差に応じて装置からの出力音声と利用者から
の入力音声が同時に発生するダブルトーク(両発話)区
間であるか否かを判断する閾値を格納する閾値格納部9
0を有し、この装置200の対話シーケンス制御部50
は、対数パワー差計算部80により計算された対数パワ
ーの値の差がかかる閾値より大きい場合、出力音声生成
部30より生成された出力音声信号が利用者により入力
される音声信号に重畳されていると判定する。
【0027】例えば、対話シーケンス制御部50は、シ
ステムが音声を出力している間に入力された音声は、状
態A又は状態ABのいずれかであり、システムの音声出
力がない間に入力された音声は、状態O又はBであると
判定する。これにより、出力音声生成部30からの音声
信号の出力と、入力音声処理部40による音声信号の受
信の切替えのタイミングが制御され得る。
【0028】更に、対話シーケンス制御部50において
判定された結果は、対数パワー差計算部80に送られる
ので、対数パワー差計算部80は、対話の状態が、状態
A、B、AB又はOのいずれであるかを認識し得る。
【0029】例えば、電話自動応答システムのエコー経
路の特性を推定する音声入出力装置200のエコーキャ
ンセラの学習用データの収集は、音声信号を出力音声生
成部30より出力し、この出力された音声信号のエコー
成分が入力音声処理部40により受信されることにより
行なわれる。このようにエコーキャンセラの学習用デー
タを収集する場合、エコー成分のみが受信され、利用者
により出力される音声信号は含まれていないことが望ま
しい。従って、上記の本発明の第1実施例の音声入出力
装置200の対話シーケンス制御部50により判定され
た音声信号の重畳の有無に応じて、入力音声処理部40
に入力された音声信号の中からエコーキャンセラの学習
用データとして利用する音声信号を選択し、選択された
音声信号に基づいてエコーキャンセラのパラメータの学
習を行なうことができる。
【0030】以下に、本発明の第2実施例による対数パ
ワーの入出力差に基づく状態識別の方法を説明する。上
記の「状態A」及び「状態AB」を識別するために、電
話機の側音特性と受話特性の影響を利用する。ここで、
側音特性は、装置200から利用者への音声の側音成分
の特性を示し、受話特性は、回線から装置200への音
声の特性を示す。これらの特性は、一般に、回路構成と
線路条件とが反映された伝達関数として表現される。本
発明の第2実施例においては、音声データのパワーの情
報が取り扱われること、及び、処理の簡単化を考慮し、
入力データは一定のパワー減衰の影響を受けることを仮
定して伝達関数の定式化を行う。図2に示された音声入
出力装置200の出力音声信号の側音のパワー減衰係数
をα、利用者から回線110を介して受信される受話音
声信号のパワー減衰係数をβ、装置200から利用者へ
の送話音声信号のパワーをPO 、装置200に入力され
る受話音声信号のパワーをPi 、及び電話機120と回
線110との接続点における利用者の発声する音声信号
のパワーをPu とすると、状態Aと状態ABのパワー
と、状態識別のための判定関数が以下の通り得られる。
【0031】状態A、即ち、ユーザが発声していない区
間のパワーは:
【0032】
【数1】
【0033】と表わされる。ここで、受話音声信号の対
数パワーと送話音声信号の対数パワーの差Q:
【0034】
【数2】
【0035】が得られ、この関数Qを判定関数とする。
【0036】一方、状態AB、即ち、ユーザが発声して
いる区間のパワーは:
【0037】
【数3】
【0038】と表わされる。ここで、利用者の音声信号
と装置の送話音声信号との相関の状況に係わらず(3)
式に示す近似が成立するものと仮定する。更に、受話音
声信号の対数パワーと送話音声信号の対数パワーの差
Q:
【0039】
【数4】
【0040】が得られ、この関数Qを判定関数とする。
【0041】上記の式(4)において、右辺第1項lo
gαは、2線4線変換回路の特性により定まる負の定数
であり、右辺第2項も負である。従って、式(4)と式
(2)を比較すると、所定の閾値Thに対して、
【0042】
【数5】
【0043】ならば状態ABであり、
【0044】
【数6】
【0045】であれば、状態Aであると判定できる。
【0046】上記の判定において利用される閾値は、検
出性能が最大となるよう、例えば、事後確率に基づいて
設定しても良い。状態Aのパワー差Qの分布:P(OQ
|A)と、状態ABのパワー差Qの分布:P(OQ |A
B)を用いると、Qが得られたときの状態Aの事後確
率:P(A|OQ )及び状態ABの事後確率:P(AB
|OQ )が、次の通り得られる。
【0047】
【数7】
【0048】
【数8】
【0049】上記の如く得られた事後確率の大小関係を
利用することにより、状態Aと状態ABとの識別が可能
になる。
【0050】図5は、本発明の第2実施例の対話システ
ムにおいて得られた状態Aと状態ABとの分布の一例を
示す図ある。式(5)及び式(6)を使用して上記の事
後確率を求める際、同図に示された分布の値をそのまま
利用することができる。或いは、かかる第2実施例の変
形として、かかる分布を、例えば、正規分布のような解
析的な分布のパラメータとしてこの分布を表現して、そ
のパラメータを上式(5)及び(6)に代入することに
より、状態A及び状態ABの事後確率を得ることも可能
である。
【0051】図6は、本発明の第3実施例による対話シ
ステムの構成を示す図である。図6に示す対話システム
は、図2に示した本発明の第1実施例による電話自動応
答システムの2線4線変換回路100をスピーカ150
とマイクロホン160に変更して得られる。図6に示す
システムにおいて、音声入出力装置200からスピーカ
150を介して出力された音声信号は、音響空間を経て
一定量減衰され、マイクロホン160を介して再度音声
入出力装置200に入力され、出力された音声信号のエ
コーを形成する。
【0052】本発明の第3実施例の対話システムにおい
て、本発明の第1実施例による電話自動応答システムと
同様に、音声入出力装置200は、出力音声生成部30
から出力された出力音声信号のパワー、例えば、音声信
号の対数パワーを計算する出力音声対数パワー計算部6
0と、入力音声処理部40から入力された入力音声信号
の対数パワーを計算する入力音声対数パワー計算部70
と、出力音声対数パワー計算部60により計算された出
力音声の対数パワーの値と、入力音声対数パワー計算部
70により計算された入力音声の対数パワーの値との差
を計算する対数パワー差計算部80とを含む。
【0053】更に、本発明の第3実施例の音声入出力装
置200は、対数パワー差計算部80により計算された
対数パワーの値の差に応じて装置からの出力音声と利用
者からの入力音声が同時に発生するダブルトーク(両発
話)区間であるか否かを判断する閾値を格納する閾値格
納部90を有し、この装置200の対話シーケンス制御
部50は、対数パワー差計算部80により計算された対
数パワーの値の差がかかる閾値より大きい場合、出力音
声生成部30より生成された出力音声信号が利用者によ
り入力される音声信号に重畳されていると判定する。
【0054】
【発明の効果】上記の説明の如く、本発明によれば、音
声信号の特徴パラメータとして、音声信号のパワー値が
利用されるので、負荷の少ない演算処理により高精度に
両発話区間か否かが検出され得る。
【0055】更に、音声入出力装置と利用者の両方が発
話している両発話区間の検出により、音声入出力装置の
エコーキャンセラの学習が、装置と利用者との通常の対
話中に行なえるので、かかる学習に伴う利用者の負担が
低減される。
【図面の簡単な説明】
【図1】本発明の原理を説明する図である。
【図2】本発明の第1実施例による電話自動応答システ
ムの構成を示す図である。
【図3】発話の状態の分類を説明する図である。
【図4】本発明の第1実施例の有音無音による状態判定
の例を説明する図である。
【図5】本発明の第2実施例による状態Aと状態ABの
分布を説明する図である。
【図6】本発明の第3実施例による対話システムの構成
を示す図である。
【図7】従来技術の説明図である。
【符号の説明】
20 重畳検出手段 30 出力音声生成手段 40 入力音声処理手段 50 対話シーケンス制御手段 60 出力音声パワー計算手段 70 入力音声パワー計算手段 80 パワー差計算手段 90 閾値格納手段 100 2線4線変換回路 110 電話回線 120 電話機 140 エコーキャンセラ 150 スピーカ 160 マイクロホン

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 出力音声を生成して出力する音声出力部
    と、入力音声を入力する音声入力部とよりなる、音声を
    利用して入出力を行なう音声入出力装置において、 該音声出力部より出力される該出力音声のパワーの値
    と、該音声入力部に入力される該入力音声のパワーの値
    を算出するステップと、 該出力音声のパワーの値と該入力音声のパワーの値の差
    を算出するステップと、 該出力音声のパワーの値と該入力音声のパワー値の該差
    に応じて、該出力音声のエコーが該入力音声に重畳して
    いるかどうかを検出するステップとからなる、音声の重
    畳検出方法。
  2. 【請求項2】 出力音声を生成して出力する音声出力部
    と、入力音声を入力する音声入力部とよりなり、音声を
    入出力の媒体として利用する音声入出力装置において、 該音声出力部より出力される該出力音声のパワーを算出
    する出力音声パワー計算手段と、 該音声入力部に入力される該入力音声のパワーを算出す
    る入力音声パワー計算手段と、 該出力音声のパワーと該入力音声のパワーのパワー差を
    算出する音声パワー差計算手段と、 該音声パワー差計算手段により算出された該パワー差に
    応じて、該出力音声のエコーが該入力音声に重畳してい
    るかどうかを検出する重畳検出手段とからなる、音声の
    重畳検出装置。
  3. 【請求項3】 前記出力音声パワー計算手段は;該出力
    音声のパワーの対数値を算出し、 前記入力音声パワー計算手段は;該入力音声のパワーの
    対数値を算出し、 前記音声パワー差計算手段は;該出力音声のパワーの対
    数値と該入力音声のパワーの対数値の差を算出すること
    を特徴とする、請求項2記載の音声の重畳検出装置。
  4. 【請求項4】 前記重畳検出手段は;前記音声パワー差
    計算手段により算出された前記パワー差が比較される所
    定の閾値を格納する閾値格納手段を更に有し、 該パワー差と該閾値の大小関係に応じて前記出力音声の
    エコーが前記入力音声に重畳しているかどうかを検出す
    ることを特徴とする、請求項2記載の音声の重畳検出装
    置。
  5. 【請求項5】 前記重畳検出手段は、前記音声の重畳の
    有無に対応する前記パワー差の事後確率の大小関係に応
    じて、該音声の重畳の状態を判定することを特徴とする
    請求項2記載の音声の重畳検出装置。
  6. 【請求項6】 出力音声を利用者に送出する生成する出
    力音声生成手段と、該利用者から入力される入力音声を
    認識、又は蓄積する入力音声処理手段と、該入力音声処
    理手段及び該出力音声生成手段の動作のタイミングを制
    御する対話シーケンス制御手段とよりなる、音声入出力
    装置であって、 該出力音声生成手段から出力された該出力音声のパワー
    の対数値を計算する出力音声対数パワー計算手段と、 該入力音声処理手段から入力された該入力音声のパワー
    の対数値を計算する入力音声対数パワー計算手段と、 該出力音声対数パワー計算手段により計算された該出力
    音声のパワーの対数値と、該入力音声対数パワー計算手
    段により計算された該入力音声のパワーの対数値の差を
    計算する対数パワー差計算手段と、 該対数パワー差計算手段により計算された該差が比較さ
    れる閾値を格納する閾値格納手段とを有し、 該対話シーケンス制御手段は、該対数パワー差計算手段
    により計算された該差と該閾値格納手段に格納された該
    閾値との大小関係に応じて、該出力音声生成手段より生
    成された出力音声と該利用者の入力音声が重畳する両発
    話が生じているかどうかを判定し、該両発話が生じてい
    るかどうかに応じて該入力音声処理手段及び該出力音声
    生成手段の動作のタイミングを制御することを特徴とす
    る音声入出力装置。
  7. 【請求項7】 前記出力音声のエコーの影響を除去する
    エコーキャンセラを更に有し、 前記対話シーケンス制御部は、該エコーキャンセラのパ
    ラメータの学習の際、該出力音声に前記入力音声が重畳
    されていない場合、該出力音声に対応するデータを該エ
    コーキャンセラの学習用データとして取得し、前記両発
    話が生じていると判定された場合、該出力音声に対応す
    るデータを該エコーキャンセラのパラメータの学習用デ
    ータとして取得しないことを特徴とする請求項6記載の
    音声入出力装置。
  8. 【請求項8】 前記出力音声生成手段及び前記入力音声
    処理手段とに接続される2線4線変換回路と、 該2線4線変換回路に接続され、前記利用者に前記出力
    音声を出力し、前記入力音声を入力する電話機とを更に
    有し、 前記エコーキャンセラは、前記出力音声の側音成分の前
    記入力音声への重畳を除去することを特徴とする請求項
    7記載の音声入出力装置。
  9. 【請求項9】 前記出力音声を前記利用者に出力するス
    ピーカと、 該利用者から前記入力音声を入力するマイクロホンとを
    更に有し、 前記エコーキャンセラは、該スピーカから音響空間を介
    して該マイクロホンに入力される前記出力音声のエコー
    の前記入力音声への重畳を除去することを特徴とする請
    求項7記載の音声入出力装置。
JP4958394A 1994-03-18 1994-03-18 音声の重畳検出方法及び装置とその検出装置を利用する音声入出力装置 Pending JPH07264103A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4958394A JPH07264103A (ja) 1994-03-18 1994-03-18 音声の重畳検出方法及び装置とその検出装置を利用する音声入出力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4958394A JPH07264103A (ja) 1994-03-18 1994-03-18 音声の重畳検出方法及び装置とその検出装置を利用する音声入出力装置

Publications (1)

Publication Number Publication Date
JPH07264103A true JPH07264103A (ja) 1995-10-13

Family

ID=12835247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4958394A Pending JPH07264103A (ja) 1994-03-18 1994-03-18 音声の重畳検出方法及び装置とその検出装置を利用する音声入出力装置

Country Status (1)

Country Link
JP (1) JPH07264103A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8761385B2 (en) 2004-11-08 2014-06-24 Nec Corporation Signal processing method, signal processing device, and signal processing program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8761385B2 (en) 2004-11-08 2014-06-24 Nec Corporation Signal processing method, signal processing device, and signal processing program
US9301048B2 (en) 2004-11-08 2016-03-29 Nec Corporation Signal processing method, signal processing device, and signal processing program
US10453471B2 (en) 2004-11-08 2019-10-22 Nec Corporation Signal processing method, signal processing device, and signal processing program

Similar Documents

Publication Publication Date Title
EP0809841B1 (en) Voice activity detection
JP4098842B2 (ja) 音声作動プロンプト・インタラプト機能を備えたプロンプト・インタラプト・システム及び調整可能にエコーを打ち消す方法
US5864804A (en) Voice recognition system
EP1058925B1 (en) System and method for noise-compensated speech recognition
US7392188B2 (en) System and method enabling acoustic barge-in
US6098040A (en) Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
US4811399A (en) Apparatus and method for automatic speech recognition
EP0671099A1 (en) A voice activity detector for an echo suppressor and an echo suppressor
JP5649488B2 (ja) 音声判別装置、音声判別方法および音声判別プログラム
JP2005084253A (ja) 音響処理装置、方法、プログラム及び記憶媒体
US20080249779A1 (en) Speech dialog system
US20070198268A1 (en) Method for controlling a speech dialog system and speech dialog system
US6725193B1 (en) Cancellation of loudspeaker words in speech recognition
JP2019020678A (ja) ノイズ低減装置および音声認識装置
JPH09252268A (ja) 音声および雑音の除去装置、音声認識装置
JPH07264103A (ja) 音声の重畳検出方法及び装置とその検出装置を利用する音声入出力装置
JP2005338454A (ja) 音声対話装置
KR100194765B1 (ko) 반향 제거를 이용한 음성 인식 시스템 및 그 방법
JP2003516673A (ja) 端末通信システムのエコー処理装置
JPH09127982A (ja) 音声認識装置
JPH11298382A (ja) ハンズフリー装置
JPH04301697A (ja) 音声認識装置
JP2708913B2 (ja) 音声検出出力装置
HK1005520B (en) Voice activity detection
JPH10240284A (ja) 音声検出方法及び装置