JPS60247697A

JPS60247697A - 音声対話装置

Info

Publication number: JPS60247697A
Application number: JP59103625A
Authority: JP
Inventors: 千本　浩之; 洋一竹林
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1984-05-24
Filing date: 1984-05-24
Publication date: 1985-12-07
Also published as: JPH0518118B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は音声入力による情報処理システムに用いられる
音声認識応答装置に関する。

〔発明の技術的背景とその問題点〕

近年、音声認識、合成技術の発達が目覚ましく、例えば
連続音％認識や不特定話者を対象とした音声ｍ識が可能
となシ、また一方、精度の高い音声合成が可能となって
いる。

この様な技術を用いて電話公衆回線による各種のサービ
スを行なう電話音声応答サービス、例えは銀行における
預金残高の照会等が關発されておシ、その有用性が注目
されている。ところでこの穐のシステムのユーザは不特
定多数であシ、例えば老人、子供のようにシステムに不
慣れな人もいれば１日に細口も利用する熟練した人もい
る。これにもかかわらず、従来のシステムでは音声応答
の内容（様式）が固定的であり、又ユーザが音声を入力
した時から音声応答が出力されるまでの時間や音声応答
の速度も一定である為、全てのユーザにとって扱い易い
ものとは云えず、人間と機械との対話が円滑になされて
いなかった。例えば電話による銀行の預金残高照会サー
ビスにおいては、ユーザが口座番号「１２３・・・」を
電話口で音声入力する場合に「ピー」という入力要求信
号音が聞えると先ず「１」と云う。すると１０秒程度経
った後に「１」というＮ認のための音声応答が聞える。

続いてユーザが「２」と云う。・・という様にこの種の
システムに慣れたユーザにとっては応答時間が冗長で苛
立しさが生じたシ、或いは慣れていないユーザにとって
は応答内容が分シ難いという欠点があった。

〔発明の目的〕

本発明の目的は、人間と機械との対話を円滑に行なうこ
とが可能となる音声認識応答装置を提供することにある
。

〔発明の概要〕

本発明は、音声信号を入力するための入力手段と、この
入力手段より入力された音声信号を音声パターンとして
分析するとともに音声応答信号を検出する音声検出手段
と、この音声検出手段によシ分相された音声パターンを
認識する音声認識手段と、この音声ｉ！識手段より出力
された音声パターンのｇ識結果に基いて音声応答信号を
出力するとともに音声入力要求信号を出力する音声出力
手段と、この音声出力手段より出力された音声入力要求
信号及び前記音声検出手段よシ出力された音声区間信号
の時間データを測定する測定手段とを備え、前記音声出
力手段は前記測定手段より出力された時間データに基き
音声応答信号を制御して出力することを特徴とするもの
である。

〔発明の効果〕

本発明によれば、各ユーザに応じて適切な応答を与える
ことが可能になる為に、人間と機械の対話を円滑に行う
ことが出来、ユーザにとっては実用性が向上する。

〔発明の実施例〕

以下、図面を参照しながら本発明の実施例について説明
する。

第１図は本発明の第１の実施例の概略構成図、第２図は
音声入力要求Ｐと音声入力へと音声応答へのタイミング
を模式化した模式図、第３図は本゛発明の第１の実施例
の処理フロー図である。この第１の実施例は音声入力要
求が出力されてからユーザにより音声が入力されるまで
の時間を測定し、その時間に応じて音声応答を制御して
出力するものである。第１図の点線内の各ブロックは音
声認識応答装置を構成し、この入出力は図示しないサー
ビス端末に接続されている。例えはユーザがサービス端
末である電話器よシ所定の電話番号を入力すると受話器
を通して［預金残高照会サービスを行ないます。ピーと
いう信号音が関えたら口座番号を１つずつ順に答えて下
さい」という応答が音声応答出力部７よシ送られる。こ
の時点からの音声入力と応答のヤシとシに本発明が適用
される。

先ず第１図の音声入力開始要求ｓ８より音声入力要求信
号Ｐが図示しない端末へ出力されるが、これは同時にタ
イミング測定部３にも送られる（第３図ステップ１１）
。タイミング測定部３はこの音声入力要求信号Ｐを入力
した時点を測定する。ユーザ側では音声入力要求信号で
ある「ピー」という信号音を聞く゛と、「１」という音
声を受話器よシ入力する（第３図ステップ１２）。この
入力音声鳥は分析器１に入力されるとＡ／Ｄ変換、スペ
クトル分析処理などが行なわれて、入力された音声信号
が特徴パラメータの系列（音声）くターン）に変換され
る（第３図ステップ１３）。音声区間検出部２では、分
析器１よシ出力された特徴ノくラメータ系列（音声パタ
ーン）のエネルギー情報を利用して音声パターン中の始
端と終端を検出し音声区間を切シ出すものである（第３
図ステップ１４）。この音声区間検出部は音声パターン
の始端、終端を検出した時点でその始端信号、終端信号
を各々タイミング測定部３へ送る。タイミング測定部３
ではこの始端信号を入力した時点を測定すると共に、先
程の音声入力要求信号Ｐを入力した時点から始端信号を
入力した時点までの時間Ｔ、を計算する（第２図ＴＩ＋
第３図ステップ１５）。一方、音声区間検出部２は切シ
出した音声パターン（特徴パラメータ系列）を音声認識
部４へ送る。音声認識部４では入力した音声パターンに
対して予め辞書メモリー５に登録された音声辞書を利用
してその認識を行なうものである（第３図ステップ１６
　’）。この認識は例えば類似度計算法によって行われ
る。この音声認識部４による音声パターンの認識結果は
タイミング測定部３により計算されたＴ１と共に音声応
答制御部６へ送られる。この音声応答制御部６はＴ、の
長さに基いて（第３図ステップ１７　）音声応答鳥を制
御して出力するものであるが、この制御の方法には以下
の３通シがある。

（１）音声応答制御部６はタイミング測定部３よシＴ１
と共に終端信号を入力した時点データを入力する。そし
て音声応答制御部６はＴ１の長さに応じて終端信号の入
力時点から音声応＠鳥を出力する時点までの時間Ｔｌｌ
　（第２図’ｒｓ）の長さを可変制御する。つまＤＴｔ
が予め定められた時間長より短い場合は、ユーザが「ビ
ー」という信号音が聞えるとただちに音声を発声したこ
とになり、ユーザがシステムに熟線しているか又は急い
でいるものと思われる。このため応答音声も早めに端末
へ出力する必要が有シ（第３図ステップ１８）、Ｔ３の
時間長を既定の長さよシ短くする。又、Ｔ１が予め定め
られた時間長より長い場合は、ユーザが「ビー」という
信号音が聞こえた後、かなシ経りてから音声を発声した
ことになシ、ユーザがシステムに慣れていないか又は時
間的に余裕があるものと思われる。このため応答音声も
遅めに端末へ出力する必要が有り（第３図ステップ１９
）、Ｔ３の時間長を既定の長さより長くする。

叩　音声応答制御部６はＴ、の長さに応じて音声応答−
を出力する時間（応答速度）を可変制御する（第２図Ｔ
４）。つまりＴＩが予め定められた時間長より短い場合
は上述の理由によシ応答速度を速くして音声応答鳥を出
力する。Ｔ、が予め定められた時間長より長い場合は上
述の理由により応答速度を遅くして鳥を出力する。この
際に、規則合成方式によって音声応答４が出力される場
合には、規則合成の為の種々のパラメータ（アクセント
。

ピッチ等）の速度を制御する。また録音編集方式によっ
てＲ２が出力される場合には、予め録音された発話速度
の異なる単語や音声素片を選択する様にして応答速度を
制御する。

（ｍ）　音声応答制御部６はＴ１の長さに応じて音声応
答鳥の内容（表現形式）を制御する（第２図鳥）。

例えばユーザが発信音「ビー」が聞えてから「１」と発
声したものとすると、これに対する確認のための音声応
答鳥を出力する場合に、Ｔ１の長さが予め定められた時
間長よりも短い場合には上述した理由によシ「１」とい
り応答を出力する。Ｔ１が予め定められた時間よシ長い
場合には上述した理由によシ「１ですね、分シました。

」という応答を出力する。つｔｂ音声応答制御部６は入
力された音声パターンの認識結果として「１」を音声認
識部４よシ受は取るが、「１」という確認のための音声
応答の表現形式を変えて出力するものである。

ζうして（ｌ　ｌ　（ＩＩ　ｌ　（ｉｉｉ）によってＴ
ｓ　Ｉ　Ｔ４１　Ｒ１の制御方法が決定されると（第３
図ステップ２０）、音声応答出力部７は音声応答制御部
６の指示により音声応答４を出力する（第３図ステップ
２１　）。

この様に構成された本実施例では、第２図の模式図に示
すように入力要求信号Ｐから音声入力鵬までの時間Ｔ、
に応じて、音声入力−から音声応答鳥までの時間Ｔ３を
変化させたり、音声応答への応答時間Ｔ４を変化させた
シ、音声応答への表現形式を変化させるので、システム
の使用法に慣れているユーザや、急いでいるユーザには
応答までの時間を短くしたシ応答を早口にしたシ、内容
を簡潔にしたり出来、システムの使用法に慣れていない
ユーザや時間的に余裕のあるユーザには、応答までの時
間を長くしたり、応答をゆっくりした口調にしたり、内
容を丁寧にすることが出来る。又、上述した音声応答制
御部による（ｉ　）　（ｉｆ）　（ｉｉｉ）の制御を個
々に行わずに組合せて行なうことも可能である。

こうすることによシ人間と機械との対話の円滑化を図る
ことが出来る。

次に本発明の第２の実施例について図面を参照して説明
する。第４図は本発明の第２の実施例の概略構成図、第
す図は第２の実施例の処理フロー図である。第２の実施
例は第２図に示されるように入力要求信号から音声入力
開始までの時間Ｔ１と音声人力Ｒ，の発声時間Ｔ２とを
検出して音声応答への出力を制御するようにしたもので
ある。第４図に示す構成は、第１図の構成と比較して、
分析部１、音声区間検出部２、タイミング測定部３、音
声認識部４、辞書メモリ５、音声応答制御部６、音声応
答出力部７、音声入力開始要求部８は同じものであシ、
これらに発話時間測定部９を付加したものである。つま
シ音声区間検出部２は入力された音声パターンの始端、
終端を検出した時点でこれらの始端信号、終端信号を各
々タイミング測定部３へ送ると共に発話時間測定部９へ
も送る。

発話時間測定部９では始端信号を入力した時点から終端
信号を入力した時点までの時間Ｔ、をめる（第５図ステ
ップ２２）。音声応答制御部６ではタイミング測定部３
によ請求められたＴ１と発話時間測定部９によ請求めら
れたＴ２を入力する。音声応答制御部６ではとのＴ２を
予め定められた時間長と比較しく第５図ステップ２３）
その結果、及び上述したＴ、の時間長の比較結果に応じ
て音声応答の出力を制御する。すなわち発声時間Ｔ２が
予め定められた時間長より短い場合は、ユーザがシステ
ムに慣れているか急いでいる為に早口で発声したものと
見なし上述した様に第２図に示す時間Ｔ３　＋　Ｔ４を
短くしたり音声応答鳥の内容を簡潔なものとする（第５
図ステップ２４）。Ｔ、が予め定められた時間長より長
い場合は、ユーザがシステムに慣れていないか時間的に
余裕がある為にゆつ〈シと遅日で発声したものと見なし
、第２図に示す時間Ｔ、　、　Ｔ。

を長くしたり音声応答−の内容を丁寧なものとする（第
５図ステップ２５）。

この様に第２の実施例によれば、第２図に示す時間ＴＩ
とＴ！を測定しこの結果に対応して音声応答鳥の出力を
制御するので、第１の実施例に比べて更にユーザの性格
や発声の時の情況を良く反映させた応答が可能となる為
に、ユーザと機械の対話の自然性をよシ一層高めること
が出来る。

上述した第１．第２の実施例においては、音声入力開始
要求信号Ｐが音声入力開始要求部８より出力されるもの
としたが、これを音声応答出力部１より出力させ、更に
応答音声と入力要求音声を連続して出力させることも出
来る。つまりユーザからの発声と機械からの応答を次々
と連続させて行なうものである（第５図フローの点線）
。第６図は入力要求を含んだ応答音声と入力音声のタイ
ミングを模式化した模式図である。この図において、Ｒ
ｏ、Ｒ−ｉ、Ｒ４，Ｒｅは各入力要求を含んだ応答音声
、”＋　、　’％　、　Ｒｓはユーザからの入力音声で
ある。例えば上述した残高照会サービスにおいて、ＲＯ
ｒ口座番号の数字を１つずつ順に御願いします」Ｔｈ＋
ｒｘ」 −「１ですね。分９ました。次の番号を御願いします」
Ｂｒ２Ｊというものである。この様に応答の出力方法を変形させ
た場合にも、第２の実施例と同様に、応答音声から入力
音声までの時間Ｔ３．Ｔｌｌ、Ｔ０、入力音声の発話時
間Ｔ２　＋　Ｔ６　＋　Ｔ１０を測定することにより、
入力音声から応答音声までの時間Ｔ８　＋　Ｔ７　＋　
Ｔ１１　、応答音声の発話時間Ｔ２　＋　Ｔ６　＋　Ｔ
ｌＧ　＋　ＴＩ２　、応答音声の内容ＲＯ、Ｒｔ　、Ｒ
４，”６を変化させることが出来る。上述した実施例を
この様に変形することにより音声入力と応答がスピーデ
ィに行なわれ、更に回線使用のコストが削減でき、経済
的価値が絶大となる。

同、本発明は上記実施例に限定されるものではない。例
えばタイミング測定部が時間Ｔ１とＴ、の両方を測定し
てもよい。又、入力要求信号から入力音声までの時間の
履歴の惰報、すなわち細口かの時間測定を行なってユー
ザの性格をはつきシと検出できた後に応答出力を変化さ
せてもよい。更に発話時間測定は発話速度測定でもよい
し応答出力として音声だけではな（ＣＲＴ、プリンタ等
を利用して行ってもよい。入力音声の認識処理や音声合
成の方法は従来よシ知られた種々の方式を適宜採用すれ
ばよい。要するに本発明はその要旨を逸脱しない範囲で
種々変形して実施することができる。

【図面の簡単な説明】

第１図は本発明の第１の実施例の概略構成図、第２図は
入力要求と入力音声及び応答音声のタイミングの模式図
、第３図は第１の実施例の処理フロー図、第４図は本発
明の第２の実施例の概略構成図、第５図は第２の実施例
の処理フロー図、第６図は会話型の連続入力応答形式の
タイミングの模式図である。１　・分析部　２・音声区間検出部３・・タイミング測定部　４・・音声認識部５　辞書メ
モリ　６・・音声応答制御部７・・音声応答出力部　８
．音声入力開始要求部９・・発話時間測定部代理人　弁理士　則　近　憲　佑　（ほか１名）第１図第２図第３図第４図第６図

Claims

【特許請求の範囲】（１ン　音声信号を入力するための入力手段と、この入
力手段よシ入力された音声信号を音声バメーンとして分
析するとともに音声区間信号を検出する音声検出手段と
、この音声検出手段により分析された音声パターンを認
識する音声認識手段と、この音声認識手段より出力され
た音声パターンの認識結果に基いて音声応答装置を出力
するとともに音声入力要求信号を出力する音声出力手段
と、この音声出力手段よシ出力された音声入力要求信号
を入力した時点から前記音声検出手段よシ出力された音
声区間信号の始端信号を入力した時点までの時間、前記
音声検出手段よシ出力された音声区間信号の始端信号を
入力した時点から終端信号を入力した時点までの時間の
いずれか又は両方を測定する測定手段とを備え、前記音
声出力手段社前記測定手段より出力された測定結果に基
いて音声応答信号の発生態様を変化させて出力すること
を特徴とする音声認識応答装置。（２）音声応答信号の発生態様は、音声応答の内容、音
声応答信号の出力時間、前記測定手段が音声区間信号の
終端信号を入力した時点から前記音声出力手段が音声応
答信号を出力する時点までの時間のいずれか又は複数で
ある特許請求の範囲第１項記載の音声ｇ識応答装置。