JPH1125112A

JPH1125112A - 対話音声処理方法及び装置、記録媒体

Info

Publication number: JPH1125112A
Application number: JP9180159A
Authority: JP
Inventors: Otoya Shirotsuka; 音也城塚
Original assignee: N T T DATA KK; NTT Data Corp
Current assignee: N T T DATA KK; NTT Data Group Corp
Priority date: 1997-07-04
Filing date: 1997-07-04
Publication date: 1999-01-29

Abstract

(57)【要約】【課題】収録された対話音声から必要部分の情報を効
率的に再生できるようにする改良された対話音声処理装
置を提供する。【解決手段】分割処理部１は、時系列順に入力される
対話音声を音声処理して複数の音声データを生成する。
項目内容記録処理部２は、対話音声のインデックスとな
るデータ項目（話題）に対してその内容を対応付ける。
データ項目対応付け処理部３は、データ項目と音声デー
タ群との対応付けを行い、音声データセットをデータ項
目毎にデータ蓄積部４に格納する。対話内容再生部６
は、データ蓄積部４から必要なデータ項目についての音
声データセットのみを索出して対話内容を再生する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば、対話音声
を収録しておいて、事後的に対話音声を効率的に再生し
て対話内容を把握するための音声データ処理技術に関す
る。

【０００２】

【従来の技術】対話型音声処理技術を応用したサービス
システムにおいて、顧客と対話しながら顧客対応記録の
作成を行う受付担当者の支援装置が知られている。この
支援装置では、予め決められた顧客対応のデータ項目を
受付担当者がキーボードで入力したり、メニューを選択
することによって、顧客データの入力や顧客対応記録の
作成を行う。サービス担当者は、受付担当者が作成した
顧客対応記録に記入されている顧客の要求をみてその顧
客への応対内容を決定し、必要な措置をとる。

【０００３】

【発明が解決しようとする課題】ところで、サービス担
当者は、受付担当者から伝達された情報が顧客への対処
を行う上で不十分であった場合は、再度、顧客に問い合
わせを行う必要が生じる。この場合、顧客にとっては、
すでに受付担当者に対して話した内容と同じ内容を再度
サービス担当者に話さなければならないため、煩わしい
ものとなる。このような問題の解決法としては、顧客と
受付担当者との対話をすべて収録しておき、伝達された
情報が足りない場合に、サービス担当者が事後的に対話
内容を把握できるようにすることが考えられる。しか
し、この手法では、収録された対話のうち実際に必要と
なる部分は非常に短いにもかかわらず、対話全体を聞か
なければならないという事態が生じる。そのため、対話
が長い場合や、複数の対話が収録されている場合は、サ
ービス担当者が対話音声を聞きとるまで時間がかかって
しまうという間題点があった。

【０００４】このような問題は、顧客と受付担当者との
対話内容をサービス担当者が事後的に把握する用途のほ
か、単に対話内容の概略を知るという目的で、収録され
た対話音声を聞く場合にも同様に生じる。

【０００５】そこで本発明の課題は、収録された対話音
声から必要部分の情報を効率的に再生できるようにする
改良された対話音声処理方法を提供することにある。本
発明の他の課題は、上記対話音声処理方法の実施に適し
た装置、及びこの装置を汎用のコンピュータ装置上で実
現するための記録媒体を提供することにある。

【０００６】

【課題を解決するための手段】上記課題を解決する本発
明の対話音声処理方法は、コンピュータ装置を用いた方
法であって、入力された対話音声を複数の音声データに
分割し、分割された各音声データを話題毎に対応付けて
蓄積するとともに、蓄積された音声データから特定の話
題に対応する音声データ群を選択的に読み出して対話内
容を再生する過程を含むことを特徴とする。この方法に
よれば、話題についての音声データ群のみを検索して再
生できるので、検索効率が向上するとともに、すべての
音声データを時系列に再生する場合に比べて対話内容の
把握に要する時間を格段に短縮することができる。

【０００７】また、本発明の他の対話音声処理方法は、
入力された対話音声を複数の音声データに分割し、予め
話題毎に定められたキーワードが含まれているかどうか
を個々の音声データ毎に判定して、当該音声データを前
記判定結果と対応付けて蓄積するとともに、蓄積された
音声データから前記キーワードを含む音声データを蓄積
順に読み出して対話内容を再生する過程を含むことを特
徴とする。この方法によれば、キーワードが含まれる、
即ち重要度が比較的高いと推定される音声データに基づ
いて対話内容が時系列に再生されるので、対話内容の概
要を把握することが可能となる。

【０００８】なお、キーワードに予め優先順位をつけて
おき、優先順位の高いキーワードに対応する音声データ
を優先的に再生するようにしても良い。

【０００９】また、上記他の課題を解決する第１構成の
対話音声処理装置は、対話音声を入力する音声入力手段
と、入力された対話音声を所定の処理単位毎に分割して
複数の音声データを生成する手段と、前記生成された複
数の音声データをそれぞれ対話内容のインデックスとな
るデータ項目に対応付けて蓄積する手段とを備え、前記
蓄積された複数の音声データから前記データ項目毎の対
応音声データ群を索出するように構成されたことを特徴
とする。

【００１０】第２構成の対話音声処理装置は、対話音声
を入力する音声入力手段と、入力された対話音声を所定
の処理単位毎に分割して複数の音声データを生成する手
段と、予め話題毎に定めたキーワードが個々の音声デー
タに存在するかどうかを判定する手段と、前記判定の結
果情報を当該音声データに付与して蓄積する手段とを備
え、前記蓄積された複数の音声データから前記キーワー
ドを含む音声データ群を蓄積順に索出するように構成さ
れたことを特徴とする。

【００１１】第３構成の対話音声処理装置は、対話音声
を入力する音声入力手段と、入力された対話音声を所定
の処理単位毎に分割して複数の音声データを生成する手
段と、予め話題毎に定めたキーワードが個々の音声デー
タに存在するかどうかを判定する手段と、個々の音声デ
ータに前記判定の結果情報を付与するとともに、各音声
データをそれぞれ対話内容のインデックスとなるデータ
項目に対応付けて蓄積する手段とを備え、前記蓄積され
た複数の音声データから前記データ項目毎またはキーワ
ード毎に対応音声データ群を索出するように構成された
ことを特徴とする。

【００１２】なお、各対話音声処理装置において、好ま
しくは、索出された対応音声データ群に基づいて対話内
容を再生する再生手段をさらに備える。

【００１３】さらに、上記他の課題を解決する本発明の
記録媒体は、コンピュータ装置に下記の処理を実行させ
るプログラムを当該コンピュータ装置が読み取り可能な
形態で記録してなる記録媒体である。（１）対話音声を入力する音声入力処理、（２）入力さ
れた対話音声を所定の処理単位毎に分割して複数の音声
データを生成する処理、（３）予め話題毎に定めたキー
ワードが個々の音声データに存在するかどうかを判定す
る処理、（４）前記生成された音声データにそれぞれ前
記判定の結果情報を付与するとともに各音声データを対
話内容のインデックスとなるデータ項目と対応付けて蓄
積する処理、（５）前記蓄積された音声データを前記デ
ータ項目毎またはキーワード毎に索出して対話内容を再
生する処理。

【００１４】

【発明の実施の形態】以下、本発明を、顧客と受付担当
者との間で交わされる対話音声を対象とする対話音声処
理装置に適用した場合の実施の形態を詳細に説明する。
図１は、本実施形態による対話音声処理装置の概略構成
図である。この対話音声処理装置は、コンピュータ装置
が所定のプログラムを読み込んで実行することにより形
成される、分割処理部１、項目内容記録処理部２、デー
タ項目対応付け処理部３、データ蓄積部４、キーワード
検出部５、及び対話内容再生部６の機能を備えて構成さ
れる。なお、各機能ブロック１〜６を形成するためのプ
ログラムは、通常、当該コンピュータ装置の内部記憶装
置あるいは外部記憶装置に格納され、随時読み取られて
実行されるようになっているが、当該コンピュータ装置
とは分離可能な記録媒体、例えばＣＤ−ＲＯＭやＦＤ等
に格納され、使用時に上記内部記憶装置または外部記憶
装置にインストールされて随時実行に供されるものであ
っても良い。

【００１５】本実施形態による対話音声は、電話等を通
じて本装置に入力される顧客及び受付担当者の音声であ
る。分割処理部１は、入力された対話音声を適当な処理
単位の音声データに分割し、各音声データに連続の番号
を付与する。音声データの分割は、例えば発話と発話の
間の任意の長さ以上の無音区間を用いて行うことができ
る。多くの場合、対話音声は、一方の話者が話し始めて
から他方の話者が話し始めるまでを一区間の音声データ
として分割される。勿論、他の手法によって分割処理を
行うことも可能である。

【００１６】項目内容記録処理部２は、入力された対話
音声から予め定められた顧客対応データ項目（以下、デ
ータ項目と略す）の内容を抽出し、抽出結果をデータ項
目対応付け処理部３に渡す。対話音声からの項目内容の
抽出は、音声自動認識処理等によって行うことが可能で
ある。例えば、本装置を操作する受付担当者がデータ項
目を顧客に尋ねるようにし、顧客による返答部分の音声
を音声認識処理して当該顧客についてのデータ項目の内
容を把握する。あるいは、音声自動認識処理等によら
ず、受付担当者が顧客と直接会話し、その会話中にデー
タ項目に関する内容が含まれていた場合、これを図示し
ないキーボードによって項目内容記録処理部２への項目
内容として入力するようにしても良い。

【００１７】データ項目対応付け処理部３は、顧客と受
付担当者との間の話題のインデックスとなるデータ項目
と、項目内容記録処理部２で抽出された各項目内容とを
対応付けるとともに、分割処理部１からの音声データ
（付与された番号）と上記データ項目とを対応付け、そ
れらを一連の顧客対応データとしてデータ蓄積部４に蓄
積する。また、各データ項目について、受付担当者によ
る、あるキー入力（キーボードによる入力、以下同じ）
があった時点以前で、かつ、一つ前のデータ項目のキー
入力があった時点よりも後に話された一連の音声データ
のすべてを、そのデータ項目と対応付けておく。

【００１８】キーワード検出部５は、予め対話に出現す
ると予想されるキーワードのリストを話題毎、つまりデ
ータ項目毎に保持しており、分割された音声データ中に
上記キーワードが含まれるかどうかをキーワード認識処
理により調べて、その有無の情報を音声データに対応付
けてデータ蓄積部４に蓄積する。このキーワード認識処
理は、音声データの分割処理と平行して行えるように、
マルチタスク形式で実行する。

【００１９】対話内容再生部６は、データ蓄積部４に蓄
積されている複数の音声データからデータ項目毎あるい
はキーワード毎に該当するものを探索して所定順に並
べ、対話内容を再生するものである。再生に際しては、
通常、音響手法が用いられるが、音声データを音声認識
処理してこれを文字情報化、符号化、図形化してディス
プレイ表示する等の方法を採用することもできる。音声
データの探索についてはテキストサーチ等の検索手法を
採用することができる。

【００２０】次に、本実施形態の対話音声処理装置（以
下、本装置）において、音声データを蓄積する場合の処
理を図２を参照して説明する。本装置における音声デー
タの蓄積処理は、顧客が電話回線をつないでから切断す
るまで続くものとする。

【００２１】本装置では、回線が切断されていないこと
を確認した後（ステップＳ１：Ｎｏ）、キー入力及び音
声入力を待つ（ステップＳ２：Ｎｏ、ステップＳ３：Ｎ
ｏ）。音声が入力された場合は（ステップＳ３：Ｙｅ
ｓ）、図示しない記録領域への音声データ毎の記録処理
を行う（ステップＳ４）。この処理は音声入力が終了す
るまで繰り返し行われる（ステップＳ５：Ｎｏ）。音声
入力が終了すると（ステップＳ５：Ｙｅｓ）、入力音声
から分割された一連の音声データについての番号付与処
理を行う（ステップＳ６）。以上の処理は、分割処理部
１で行われる。ステップＳ２において、キー入力があっ
た場合、例えばあるデータ項目に関して２つの音声デー
タが使用され、そのデータ項目についてのキー入力があ
った場合は、データ項目対応付け処理部３で、そのデー
タ項目と音声データとの対応付け処理を行う（ステップ
Ｓ７）。その後、キーワード検出部５で、キーワード認
識処理及び音声データ中のキーワードの有無を検出し、
検出結果をデータ蓄積部４に蓄積する（ステップＳ
８）。これらの一連の処理を回線切断があるまで繰り返
す。

【００２２】以上の処理を、顧客が、購入したパーソナ
ルコンピュータに関する相談を本装置の受付担当者に対
して行う場合に適用した場合について具体的に説明す
る。図３は、この例における対話の流れとそのときの音
声データの内容を示す図である。この例では、顧客と受
付担当者との間で交わされる対話が、それぞれ分割処理
部１において複数の音声データに分割され、各音声デー
タに連続番号「００００」〜「００１３」が付与され
る。また、データ項目に対応した音声データ群、すなわ
ち音声データセットの開始音声データ「００００」がデ
ータ蓄積部４の該当領域に記録される。対話が進行し、
顧客の名前が分かった段階で、受付担当者は、データ項
目「顧客名」に「いそべ」という顧客名をキー入力し、
これらの音声データセット（０００１〜０００２）をデ
ータ蓄積部４の該当領域に蓄積する。同様に、データ項
目「用件」に「メモリー型番問い合わせ」、データ項目
「対象ハードウェア」にパソコンの種類「ＸＸ−Ｙ
Ｙ」、データ項目「連絡先」に顧客の電話番号「０３−
２４５６−７７７７」をそれぞれキー入力し、それぞれ
のデータ項目についての音声データセットをデータ蓄積
部４の該当領域に蓄積する。

【００２３】本対話に基づいて作成されたデータ項目と
その内容の対応関係を表すデータ（顧客対応データ）の
例を図４に示す。本実施形態では、そのデータ項目につ
いての区切り情報であるキー入力を完了した時点で、そ
れ以前で最も新しく発声された音声データを当該データ
項目についての音声データセットの終了音声データとす
る。これにより音声データセットの範囲とその対応先の
項目とが決定する。

【００２４】キーワード検出部５は、音声データセット
の範囲とその対応先の項目とが決定した時点、例えばデ
ータ項目「用件」についていえば、その内容「メモリー
型番問い合わせ」がキー入力された時点で、音声データ
セット「０００３」〜「０００５」が、そのデータ項目
「用件」に対応した音声データであると判定し、その音
声データ「０００３」〜「０００５」に対してキーワー
ド認識処理を行う。このキーワード認識処理は、事前に
登録されたキーワードのリストに基づいて行う。図５
は、このリストの例を示す図であり、例えばデータ項目
「用件」に対応したキーワードとして登録されているも
のに、「パソコン」、「聞きたい」、「型番」、「教え
て」・・・がある。キーワード検出部５は、例えばデー
タ項目「用件」についてのキーワードが含まれている音
声データとして音声データ「０００３」および「０００
５」を選定し、音声データ「０００４」にはキーワード
が含まれていないと判定する。これらの結果は図６に示
すように、データ項目名、項目内容、対応音声データ
（一つまたは複数の音声データの番号、音声データファ
イル名、それぞれの音声データ中のキーワード含有の有
無の情報（１＝有／０＝無））の組データとして、デー
タ蓄積部４に蓄積される。

【００２５】ところで、図３の例では、受付担当者によ
って４つのデータ項目の情報がキー入力されている。し
かし、顧客が話した内容のうち、購入時期である「昨年
９月」、購入場所である「ＸＸ電器」、購入予定のメモ
リーの容量である「８Ｍから４０Ｍへの変更」という情
報については、受付担当者がキー入力を行っていない。
また、顧客の電話番号は誤ってキー入力されている。こ
のような場合、サービス担当者が受付担当者の作成した
顧客対応データを基に回答をしようとすると、情報が不
足したり、回答すべき情報が誤ってしまうことが予想さ
れる。この場合、サービス担当者は、以下のようにして
対応することになる。

【００２６】まず、生産時期によってメモリーの型番が
違う事実がある場合、製品番号や購入時期を正しく知る
必要がある。このときは、すでに収録されている「用
件」の部分の音声データセットをデータ蓄積部４から索
出して対話内容再生部６で再生し、商品の購入時期を知
ることにより、商品の生産時期と、正しいメモリーの型
番を判断する。また、顧客対応データの「連絡」項目の
電話番号に電話をかけた場合、受付担当者がキー入力を
間違ったために顧客につながらない。この場合は、顧客
対応データの「連絡先」項目に対応した音声データセッ
トを選択的にデータ蓄積部４より索出し、これを対話内
容再生部６で再生して確認することにより、顧客が発し
た正しい電話番号を知ることができるようになる。

【００２７】さらに、対話の内容の概略を聞く場合は、
キーワードを含有する音声データのみを、時間的に古い
ものからデータ蓄積部４から索出して並び替えし、これ
を対話内容再生部６で再生することにより、その概略を
迅速に把握することができるようになる。図７は、図３
の対話例からキーワードを含む音声データのみを抜き出
して作成した対話内容の例である。下線をひかれた単語
が、予め登録されたキーワードである。図７から明らか
なように、図３の対話内容に比べて格段に短い内容にな
っている。しかも、必要な会話内容についてはすべて網
羅されているので、対話内容の正しい把握が可能にな
る。

【００２８】なお、対話内容の再生に際しては、音声デ
ータをソーティングしたうえで再生したり、任意の法則
によりキーワードに優先順位をつけておき、優先順位の
高いキーワードに対応する音声データから順に再生する
ようにすることも可能である。このようにすれば、関心
のある順に対話音声を把握できるようになり、目的に合
致した利用形態を実現することができるようになる。

【００２９】以上説明したように、本実施形態の対話音
声処理装置では、顧客と受付担当者との間で交わされる
対話音声を分割して複数の音声データを生成するととも
に、予め決めておいたデータ項目毎の音声データセット
毎に対応付けて蓄積し、該当データ項目毎の再生を可能
にしたので、対話内容を事後的に把握するときに、従来
のように対話の初めから通して音声を聞く必要がなくな
り、必要な情報を取得するための労力と所要時間を節約
することができるようになる。

【００３０】また、分割した音声データの中で、対話内
容に関して重要なもの、例えば、予め話題毎に定めたキ
ーワードを含んだ音声データのみを時系列上に並べて対
話の概略内容を再生できるようにしたので、対話内容を
簡潔に理解することが可能になる。

【００３１】なお、本実施形態では、顧客と受付担当者
との対話音声を例に挙げて説明したが、この例に限ら
ず、任意の対話に対しても本発明を適用することが可能
であることはいうまでもないことである。

【００３２】

【発明の効果】以上の説明から明らかなように、本発明
によれば、対話音声を収録する際に対話音声を複数の音
声データに分割し、話題毎の音声データセットとして蓄
積するようにしたので、知りたい話題についての情報が
含まれる可能性がある話題部分の音声データセットのみ
を再生することが可能になる。

【００３３】また、本発明によれば、蓄積された複数の
音声データから所要のキーワードが含まれる音声データ
を選択的に索出して再生することができるので、対話内
容を全体的に要約して把握することが可能となる。特
に、キーワードを含む音声データを、対話の時系列順に
再生することで、もとの対話音声の流れに沿った再生が
可能になり、対話内容を正しく理解できるようになる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る対話音声処理装置の
概略機能説明図。

【図２】本実施形態の対話音声処理装置の処理手順説明
図。

【図３】顧客と対話音声処理装置の受付担当者との間の
対話の流れとそのときの音声データの内容を示す説明
図。

【図４】本実施形態による顧客対応データの説明図。

【図５】予め設定されたキーワードリストの内容例を示
す説明図。

【図６】データ蓄積部に蓄積される組データの内容例を
示す説明図。

【図７】キーワード抽出によって再生された対話音声の
説明図。

【符号の説明】

１分割処理部２項目内容記録処理部３データ項目対応付け処理部４データ蓄積部５キーワード検出部６対話内容再生部

Claims

【特許請求の範囲】

【請求項１】入力された対話音声を複数の音声データ
に分割し、分割された音声データを話題毎の音声データ
セットとして蓄積するとともに、蓄積された音声データ
から特定の話題に対応する音声データセットを選択的に
索出して対話内容を再生する過程を含む、コンピュータ
装置を用いた対話音声処理方法。
【請求項２】前記音声データセットの範囲は、個々の
話題について前回の区切り情報の決定後に入力された音
声データを開始音声データとし、次の区切り情報の決定
以前の最新に入力された音声データを終了音声データと
して決定することを特徴とする請求項１記載の対話音声
処理方法。
【請求項３】入力された対話音声を複数の音声データ
に分割し、予め話題毎に定められたキーワードが含まれ
ているかどうかを個々の音声データ毎に判定して、当該
音声データを前記判定結果と対応付けて蓄積するととも
に、蓄積された音声データから前記キーワードを含む音
声データを蓄積順に読み出して対話内容を再生する過程
を含む、コンピュータ装置を用いた対話音声処理方法。
【請求項４】前記キーワードに予め優先順位をつけて
おき、優先順位の高いキーワードに対応する音声データ
を優先的に再生することを特徴とする請求項３記載の対
話音声処理方法。
【請求項５】対話音声を入力する音声入力手段と、入力された対話音声を所定の処理単位毎に分割して複数
の音声データを生成する手段と、前記生成された複数の音声データをそれぞれ対話内容の
インデックスとなるデータ項目に対応付けて蓄積する手
段とを備え、前記蓄積された複数の音声データから前記データ項目毎
の対応音声データ群を索出するように構成された対話音
声処理装置。
【請求項６】対話音声を入力する音声入力手段と、入力された対話音声を所定の処理単位毎に分割して複数
の音声データを生成する手段と、予め話題毎に定めたキーワードが個々の音声データに存
在するかどうかを判定する手段と、前記判定の結果情報を当該音声データに付与して蓄積す
る手段とを備え、前記蓄積された複数の音声データから前記キーワードを
含む音声データ群を蓄積順に索出するように構成された
対話音声処理装置。
【請求項７】対話音声を入力する音声入力手段と、入力された対話音声を所定の処理単位毎に分割して複数
の音声データを生成する手段と、予め話題毎に定めたキーワードが個々の音声データに存
在するかどうかを判定する手段と、個々の音声データに前記判定の結果情報を付与するとと
もに、各音声データをそれぞれ対話内容のインデックス
となるデータ項目に対応付けて蓄積する手段とを備え、前記蓄積された複数の音声データから前記データ項目毎
またはキーワード毎に対応音声データ群を索出するよう
に構成された対話音声処理装置。
【請求項８】索出された対応音声データ群に基づいて
対話内容を再生する再生手段をさらに備えてなる請求項
５ないし７のいずれかの項記載の対話音声処理装置。
【請求項９】対話音声を入力する音声入力処理と、入力された対話音声を所定の処理単位毎に分割して複数
の音声データを生成する処理と、予め話題毎に定めたキーワードが個々の音声データに存
在するかどうかを判定する処理と、前記生成された音声データにそれぞれ前記判定の結果情
報を付与するとともに各音声データを対話内容のインデ
ックスとなるデータ項目と対応付けて蓄積する処理と、前記蓄積された音声データを前記データ項目毎またはキ
ーワード毎に索出して対話内容を再生する処理とをコン
ピュータ装置に実行させるプログラムを当該コンピュー
タ装置が読み取り可能な形態で記録してなる記録媒体。