JP2011087005A

JP2011087005A - 通話音声要約生成システム、その方法及び通話音声要約生成プログラム

Info

Publication number: JP2011087005A
Application number: JP2009236486A
Authority: JP
Inventors: Hideo Matsuo; 英夫松尾; Kazuhito Yokouchi; 一仁横内
Original assignee: NEIKUSU KK
Current assignee: NEIKUSU KK
Priority date: 2009-10-13
Filing date: 2009-10-13
Publication date: 2011-04-28

Abstract

【課題】大規模なハードウエア資源を要することなく、音声通話から簡明な要約文を生成し、生成された要約文の迅速な確認又は照査を実現する。
【解決手段】通話の呼情報を参照することにより各発話の話者を識別し、識別された一方の話者のみの通話音声データを通話音声データから選択する話者選択部と、通話音声データ中から音声認識の対象とされるべき重要文を定義する重要文辞書を参照して、選択された通話音声データを音声認識して、通話音声テキストを抽出する音声認識部と、抽出された通話音声テキストに要約文テンプレートを適用し、抽出された通話音声テキスト中の冗長箇所を削除して要約文テキストに変換する要約文生成部を備える。
【選択図】図５

Description

本発明は、通話音声要約生成システム、その方法及び通話音声要約生成プログラムに関する。より詳細には、例えば顧客の電話と応対担当者の電話との間でなされた通話を録音蓄積して管理するＣｕｓｔｏｍｅｒＲｅｌａｔｉｏｎｓｈｉｐＭａｎａｇｅｍｅｎｔ（ＣＲＭ）システムにおいて、対話によりなされた音声通話の要約を生成し、生成された要約を表示、更新及び出力可能とするための技術に関する。

顧客と事業者との間でなされた通話音声を事業者側において録音して管理する各種技術が提案されている。

例えば、顧客からの電話応対部署であるコールセンタにおけるオペレータの通話内容をデータ化して録音すると共に検索するための、中央集中型通話録音システムにおいては、一般に、事業者が運営するコールセンタ等の構内には、公衆電話交換回線網（ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ：ＰＳＴＮ）からの発信及び着信が集中する交換機（ＰＢＸ）が設置され、この交換機により音声通話が、コールセンタ構内の複数の固定電話に分配される。このため、この交換機から分岐する通話録音サーバを設ければ、通話を録音蓄積することができる。オペレータ側には、電話応対用内線電話と共に、ＰＣなどの端末装置が設けられてよく、このオペレータ端末装置には、発話者が告げた顧客名をキーとして顧客情報を検索する機能や、当該顧客の過去の通話履歴を表示する機能が備えられてよい。

特開平８−２１２２２８号公報

ところで、音声データファイルに録音蓄積された顧客とオペレータとの間の音声通話の概要を、１回の電話応対ごとに、応対履歴として記録保持し、通話終了後にこの応対履歴を閲覧及び報告書として出力可能とすることが要請される。なぜならば、例えば、顧客に電話応対を行ったオペレータ自身やその管理者等は、顧客とオペレータとの間の通話内容を視認により迅速に確認し、必要に応じて複数の後方処理に振り分けることが必要であるし、他方、例えば、オペレータの電話応対における品質やコンプライアンスの管理者は、法規上或いはコンプライアンス上禁止される語句又は文章をオペレータが顧客に対して発話していないかの照査を迅速に行うことがまた必要であるからである。また、この応対履歴は、確認、照査を迅速に行うため、一覧性に優れ、かつ記憶容量も小さいテキストファイルで記録保持されることが要請される。

従来においては、コールセンタのオペレータは、通話終了後に、電話応対を中断して、終了した通話の要約を応対履歴として手動でデータファイルに入力しなければならず、作業効率が低かった。

ところで、一般に要約文生成のソースは、文書テキスト、音声等多様であるが、音声データからの要約文生成技術において、音声データファイル中の音声を音声認識処理により文字コード化し、文字コード化された音声テキストデータから要約文を生成する技術が公知である。

例えば、特許文献１は、ビデオテープレコーダ（ＶＴＲ）により記録媒体に録音された音声を音声認識して文字コード列に変換し、この音声認識された文字コード列中の文の構成要素の重要度、典型的には名詞・動詞・助詞・形容詞等の品詞別、主格・目的格・述部等の句別に付与された重要度、を予め登録された重要度テーブルを参照することにより判定し、重要度が高いと判定された文中構成要素を組み合わせることで要約文を自動生成する技術を開示する。

しかしながら、特許文献１に開示された技術をコールセンタにおける電話応対業務に適用することは困難である。なぜなら、顧客とオペレータ間の音声通話は、通常、顧客情報の取得・確認、問い合わせ内容の取得・確認、問い合わせへの回答内容の取得・確認、顧客の理解度及び免責内容の提示・確認等、多くの段階を経るため不可避的に冗長であり、また、同じ発話内容が繰り返され、結果対話が長時間に亘ることも多い。このため、顧客とオペレータとの間でなされた音声通話の全音声データをそのまま入力として音声認識した上で要約文を生成したのでは、音声認識処理及び要約文生成処理の負荷が高く、処理終了までに長時間を要するばかりか、ＣＰＵやメモリ等の多くのハードウエア資源を必要とするためハードウエア設備を不可避的に高額化させる。

またそもそも、コールセンタ業務においては、多数のオペレータの各人について終日通話音声が録音蓄積されていくため、これら蓄積された膨大な通話録音データの全てを通話音声テキストデータに変換し、この通話音声テキストデータを要約して要約文を生成することは、事実上困難である。

より深刻なことに、上記のとおり顧客とオペレータとの間の音声通話は、例えば問い合わせ文書や原稿を読み上げることによる発話等、容易に洗練され得る要約文作成源と異なり、冗長であり、繰り返し部分が多く、かつ対話が長時間に亘るという特性を有するため、この音声通話をそのまま音声認識して得られる音声通話テキストに公知の要約文作成技術を適用しても、生成される要約文もまた不可避的に冗長かつ長文となってしまう不都合があり、利便性が乏しかった。

本発明は、上記課題に鑑みてされたものであり、その目的は、通話、典型的には顧客の電話と応対担当者の電話との間でなされた通話を録音蓄積し管理するＣＲＭシステムに好適な、大規模なハードウエア資源を要することなく、音声通話から簡明な要約文を生成し、生成された要約文を迅速に確認又は照査可能な通話音声要約生成システム、その方法及び通話音声要約生成プログラムを提供する点にある。

本発明の他の目的は、音声認識辞書へのわずかなメンテナンス作業で、高速に、通話音声からの要約文の自動生成を可能とする点にある。

本発明の他の目的は、要約を作成すべき音声通話が大容量かつ長時間に亘る場合であっても、迅速な確認又は照査に耐え得る程度に短縮された要約文を得る点にある。

本願発明者らは、コールセンタ業務における顧客とオペレータとの間の音声通話から応対履歴としての要約を得るに際し、一方の発話者、典型的にはオペレータの発話のみから応対履歴を要約するに足る情報が効率的に得られるとの知見を得た。

また、顧客とオペレータ間の音声通話は、通常、顧客情報の取得・確認、問い合わせ内容の取得・確認、問い合わせへの回答内容の取得・確認、顧客の理解度及び免責内容の提示・確認等、多くの段階を経るものの、要約文生成源としては、一方の発話者の発話文集合のうちの一部の発話文で必要な情報が十分に得られるとの知見を得た。

かかる知見に基づき、本願発明においては、通話音声全体を音声認識することに替えて、音声認識対象を予め絞り込む。具体的には、顧客の発話を捨象して音声認識対象とせず、オペレータの発話のみを音声認識の対象として選択する。従って、このオペレータ発話の通話音声のみが要約文作成源とされる。

好適には、オペレータの発話に係る通話音声データを音声認識するために参照される音声認識辞書には、業務ごと想定される重要文のみを辞書登録し、この重要文に対応する通話音声データのみが、音声認識結果として要約文生成源とされるよう構成されてよい。

さらに本願発明においては、音声認識により得られた通話音声テキストの冗長性を排除する。

好適には、この応対履歴の要約文は、より簡明な要約とするため、通常の話し言葉から、例えば体言止め等を用いた報告書調の文章へ変換されてよい。

また、本願発明においては、音声認識を経た音声通話テキストを解析し、時系列上後方でなされた発話を優先して要約文作成を行ってよく、例えば、同一内容の発話が繰り返し出現する場合には、前方の発話を文書ごと削除してもよい。

本発明のある特徴によれば、通話の呼情報を参照することにより、前記通話内の各発話の話者を識別し、識別された一方の話者のみの通話音声データを、通話音声データから選択する話者選択部と、選択された通話音声データ中から音声認識の対象とされるべき重要文を定義する重要文辞書と、前記重要文辞書を参照することにより、前記選択された通話音声データを音声認識して、前記重要文辞書に定義された重要文に相当する通話音声テキストを抽出する音声認識部と、前記重要文と対応する要約文のテンプレートを記憶するテンプレート記憶部と、抽出された通話音声テキストに前記要約文テンプレートを適用し、抽出された通話音声テキスト中の冗長箇所を削除して要約文テキストに変換する要約文生成部と、変換された要約文テキストを１通話ごと要約文データベースに格納する要約文格納部とを具備することを特徴とする通話音声要約生成サーバ装置が提供される。

上記通話音声要約生成サーバ装置は、前記要約文テキストに含まれるべき重要語を定義する重要語テーブルと、前記通話音声テキストから前記重要語を検出し、検出された重要語に従って前記通話の結果を示す通話種別を決定する通話種別決定部と、前記要約文テキストを決定された通話種別と共に視認可能に出力する出力部とを具備してよい。

上記通話音声要約生成サーバ装置は、前記要約文テキストに含まれるべき重要語を、該重要語の重要度と共に定義する第２の重要語テーブルと、生成されるべき要約文の最大長の閾値を保持し、前記要約文生成部から得られる要約文のテキスト長が前記閾値を越える場合に、前記第２の重要語テーブルを参照して、前記要約文を複数に区切って得られる要約文セグメントごとに前記重要度を加算し、加算された前記重要度が低い要約文セグメントを削除することにより、前記要約文を前記閾値内のテキスト長に短縮して、短縮要約文を得る要約文短縮部とを具備してよい。

前記要約文生成部は、１の通話ごとに、１の要約文を生成してよい。

上記通話音声要約生成サーバ装置は、前記要約文を更新入力可能に表示出力し、更新入力された要約文を、前記要約文データベースに書き戻すと共に、更新された要約文を参照して、前記重要文辞書を必要に応じて更新する要約文更新部を具備してよい。

本発明の他の特徴によれば、話者選択部と、重要文辞書と、音声認識部と、テンプレート記憶部と、要約文生成部と、要約文格納部とを具備する通話音声要約生成サーバ装置が実行する通話音声要約生成方法であって、前記話者選択部により、通話の呼情報を参照することにより、前記通話内の各発話の話者を識別し、識別された一方の話者のみの通話音声データを、通話音声データから選択するステップと、前記音声認識部により、選択された通話音声データ中から音声認識の対象とされるべき重要文を定義する重要文辞書を参照することにより、前記選択された通話音声データを音声認識して、前記重要文辞書に定義された重要文に相当する通話音声テキストを抽出するステップと、テンプレート記憶部により、前記重要文と対応する要約文のテンプレートを記憶するステップと、前記要約文生成部により、抽出された通話音声テキストに前記要約文テンプレートを適用し、抽出された通話音声テキスト中の冗長箇所を削除して要約文テキストに変換するステップと、前記要約文格納部により、変換された要約文テキストを１通話ごと要約文データベースに格納するステップとを含むことを特徴とする通話音声要約生成方法が提供される。

本発明の他の特徴によれば、通話音声要約生成処理をコンピュータに実行させるための通話音声要約生成プログラムであって、該プログラムは、前記コンピュータに、通話の呼情報を参照することにより、前記通話内の各発話の話者を識別し、識別された一方の話者のみの通話音声データを、通話音声データから選択する話者選択処理と、選択された通話音声データ中から音声認識の対象とされるべき重要文を定義する重要文辞書を参照することにより、前記選択された通話音声データを音声認識して、前記重要文辞書に定義された重要文に相当する通話音声テキストを抽出する音声認識処理と、前記重要文と対応する要約文のテンプレートを記憶するテンプレート記憶処理と、抽出された通話音声テキストに前記要約文テンプレートを適用し、抽出された通話音声テキスト中の冗長箇所を削除して要約文テキストに変換する要約文生成処理と、変換された要約文テキストを１通話ごと要約文データベースに格納する要約文格納処理とを含む処理を実行させるためのものであることを特徴とする通話音声要約生成プログラムが提供される。

本発明によれば、音声認識サーバは、顧客の発話を捨象して音声認識対象とせず、オペレータの発話に係る通話音声データのみを音声認識して通話音声テキストを得、通話要約生成サーバは、この通話音声テキストを要約文作成源として通話の要約を自動生成する。

また、音声認識サーバは、予め通話中に出現することが想定され、かつ要約文に含まれるべき重要情報を含む重要文が辞書登録される重要文辞書を参照して、音声通話から重要文に相当する通話音声テキストを得、通話要約生成サーバは、この得られた通話音声テキストを要約文作成源として通話の要約を自動生成する。

さらに、通話要約生成サーバは、通話音声テキスト内の冗長性を排除して通話の要約を自動生成する。

これにより、通話、典型的には顧客の電話と応対担当者の電話との間でなされた通話を録音蓄積し管理するＣＲＭシステムに好適な、大規模なハードウエア資源を要することなく、音声通話から簡明な要約文を生成し、生成された要約文を迅速に確認又は照査可能な通話音声の要約文生成が実現される。

また、音声認識辞書へのわずかなメンテナンス作業で、高速に、通話音声からの要約文の自動生成が可能となる。

さらに、要約を作成すべき音声通話が大容量かつ長時間に亘る場合であっても、迅速な確認又は照査に耐え得る程度に短縮された要約文を得ることが可能となる。

従って、本発明に係る通話音声要約生成システム、その方法及び通話音声要約生成プログラムによれば、追加的設備をほとんど要することなく、通話履歴、典型的には顧客とオペレータとの間の通話応対履歴の可用性が向上し、応対の品質管理及び監査をわずかな労力で正確に実現することができ、事業者のＣＲＭ向上に資する。

本発明の一実施形態に係る通話音声要約生成システムのネットワーク構成の一例を示すブロック図である。本実施形態に係る顧客電話端末７からコールセンタ内オペレータ電話端末９ａへの着呼から呼切断までの１通話内の電話応対シーケンスと、通話音声認識処理及び通話音声要約処理の処理タイミングの一例を示す図である。本実施形態に係るコールセンタ内オペレータ電話端末９ａから顧客電話端末７への着呼から呼切断までの１通話内の電話応対シーケンスと、通話音声認識処理及び通話音声要約処理の処理タイミングの一例を示す図である。本発明の一実施形態に係る図１に示される音声認識サーバ５及び通話要約生成サーバ６内の各コンポーネントにより実行される、本実施形態に係る通話音声要約生成処理の詳細を非限定的一例として示すフローチャートである。図１に示される本実施形態に係る通話要約生成サーバ６内の機能構成の非限定的一例を示す機能ブロック図である。不要語テーブルが定義する不要語の非限定的一例を示す図である。業務ごとに定義される重要文の非限定的一例を示す図である。要約文テンプレート６３内に記述される要約文テンプレートの非限定的一例を示す図である。要約文テンプレート６３内に記述される要約文テンプレートの非限定的一例を示す図である。業務ごとに定義される重要度テーブルの非限定的一例を示す図である。重要語テーブル６１に定義される重要語と、導出されるべき応対種別との対応を定義する応対種別導出テーブルの他の非限定的一例を示す図である。冗長性排除部６２が、不要語排除のため参照する不要語テーブルの他の例を示す図である。冗長性排除部６２及び／又は要約文生成部６３が適宜参照し得る整形テーブルの一例を示す図である。本実施形態に係る通話要約生成処理に入力される音声通話データの一例を示す図である。図１４に記載される音声通話データから生成される通話要約文の一例を示す図である。通話要約照会ＰＣ端末９ｂ又は他の入力装置から入力される要約文照会に応答して、通話要約照会ＰＣ端末９ｂ又は他の出力装置に表示出力される通話要約文表示画面の非限定的一例を示す模式図である。本実施形態に係る各サーバ装置のハードウエア構成の一例を示すブロック図である。

以下、添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能及び構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

＜本実施形態のネットワーク構成＞
図１は、本発明の実施形態に係る通話音声要約生成システムのネットワーク構成の非限定的一例を示す。通話音声要約生成システムは、ＰＢＸ（交換機）１、音声取得サーバ２、通話録音サーバ３、制御サーバ４、音声認識サーバ５、通話要約生成サーバ６、顧客電話端末７、ＰＳＴＮ（公衆電話網）８、オペレータ電話端末９ａ、通話要約照会ＰＣ端末9ｂを具備する。通話音声要約生成システム中、ＰＢＸ（交換機）１、音声取得サーバ２、通話録音サーバ３、制御サーバ４、音声認識サーバ５、通話要約生成サーバ６、オペレータ電話端末９ａ、通話要約照会ＰＣ端末９ｂの全部或いは一部は、コールセンタ内に設置され、ＬＡＮ／ＷＡＮ等のイントラネット１１ｄ等のＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）網により相互接続されてよい。或いは代替的に、音声取得サーバ２、通話録音サーバ３、制御サーバ４、音声認識サーバ５、通話要約生成サーバ６、及びこれらサーバが備える通話音声ファイル３１、呼情報データベース３２、顧客情報データベース３３、重要文辞書５１、通話音声テキストファイル５２、重要語テーブル６１、不要語テーブル６２、要約文テンプレート６３、要約文データベース６４の全部或いは一部は、インターネット等の遠隔ＩＰ接続を介して適宜コールセンタ外部に設置されてもよい。特に、コールセンタのオペレータ以外の管理者等が通話要約照会ＰＣ端末9ｂを操作して要約文データベース６４内の応対履歴である通話音声要約の照会及び更新処理を行う場合には、通話要約照会ＰＣ端末9ｂは、オペレータ電話端末９ａの近傍に設置される必要はなく、遠隔ＩＰ接続を介して適宜コールセンタ外部に設置されることが好適である。

ＰＢＸ１は、コールセンタ内の内線電話を収容し、これら内線電話同士を接続すると共に、各オペレータ電話端末９ａを、構内回線１１ａ、１１ｂ、１１ｃ・・・を介してＰＳＴＮ（公衆電話網）８に回線交換接続して、各オペレータ電話端末９ａと顧客電話端末７との通話を実現する。

音声取得サーバ２は、ＰＢＸ１に分岐接続され、各オペレータ電話端末９ａと顧客電話端末７との通話音声を取得すると共に、取得された音声をオペレータ電話端末９ａの番号（例えば内線番号）と対応付けて各サーバに供給する。代替的に、この音声取得サーバ２は、ＰＳＴＮ８の終端装置（ＤＳＵ）とＰＢＸ１との間の回線に分岐接続されてもよい。

通話録音サーバ３は、制御サーバ４の制御の下、着呼後に音声取得サーバ２から供給される取得音声を、必要に応じて圧縮し、取得された音声データを、例えばＮＡＳ（ＮｅｔｗｏｒｋＡｐｐｌｉａｎｃｅＳｔｏｒａｇｅ）等の大規模外部記憶装置により構成されるデータベースに蓄積保存する。

好適には、通話録音サーバ３は、音声取得サーバ２からアナログ音声が供給された場合、このアナログ音声波形を電圧で表したものを所定のビット深度と所定のサンプリング周波数でサンプリングすることによりデジタル音声に変換し、通話音声ファイル３１に蓄積保存する。

このデジタル音声データは、圧縮後に通話音声ファイル３１に蓄積保存されてよい。録音音声の圧縮には、種々の公知の手法を種々の圧縮率で用いることができ、非限定的一例として、モノラル５分の１圧縮、モノラル１０分の１圧縮、或いはステレオ無圧縮などにより録音音声が圧縮される。代替的に、通話録音サーバ３は、音声取得サーバ２から供給される音声データを変換圧縮することなく、通話音声ファイルに蓄積保存してもよい。

通話録音サーバ３はまた、通話音声ファイル３１内に蓄積保存された通話音声ファイルに関連付けて、呼情報ファイル３２に通話の制御情報として取得される呼情報を書き出す。この呼情報は、ＰＢＸ１への着呼時にＰＢＸ１により取得される。取得される呼情報とは、例えば、着信開始情報（着信開始タイムスタンプを含む）、発信開始情報（発信開始タイムスタンプを含む）、通話開始情報（通話開始タイムスタンプを含む）、通話終了情報（通話終了タイムスタンプを含む）等の呼制御情報と、発信元電話番号、発信先電話番号、発信元チャネル番号、発信者番号、着信チャネル番号、着信電話番号（着信先内線番号等）等の呼識別情報とを含む。

この呼情報はさらに、録音された通話内の発話が、インバウンド、すなわち顧客側からの発話であるか、アウトバウンド、すなわちオペレータ側からの発話であるかの極性を識別する話者識別情報を含む。この話者識別情報は、ＰＢＸ１により取得可能であり、例えばＩＳＤＮの場合には、回線終端装置（ＤｉｇｉｔａｌＳｅｒｖｉｃｅＵｎｉｔ：ＤＳＵ）の物理的なピン位置として把握可能である。また、ＳＩＰ（ＳｅｓｓｉｏｎＩｎｉｔｉａｔｉｏｎＰｒｏｔｏｃｏｌ）プロトコルの場合には、呼生成の際のセッション構成時に把握可能であり、具体的には、例えば、セッション構成時に、発呼側から着呼側送信されるＩｎｖｉｔｅコマンド中で、セッション開始に必要な情報を記述するＳＤＰ（ＳｅｓｓｉｏｎＤｅｓｃｒｉｐｔｉｏｎＰｒｏｔｏｃｏｌ）内に発呼側が受信に使用するＩＰアドレスとポート番号を指定し、一方これに応答して着呼側から発呼側へ送信される２００ＯＫメッセージ中のＳＤＰ内に着呼側が受信に使用するＩＰアドレスとポート番号を指定し、このそれぞれ指定されたＩＰアドレスとポート番号を使用してＲＴＰ（ＲｅａｌｔｉｍｅＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ）プロトコル上音声データが送受信される。このため、これら発呼側及び着呼側がそれぞれ受信に使用するＩＰアドレスとポート番号を取得することにより、１通話内の発話それぞれの話者識別情報を得ることができ、１通話内の顧客の発話とオペレータの発話とを必要に応じて区別或いは分離することができる。

これら呼情報は、好適には、ＣＴＩ（ＣｏｍｐｕｔｅｒＴｅｌｅｐｈｏｎｙＩｎｔｅｇｒａｔｉｏｎ）プロトコルを実装した制御サーバ４上ないしオペレータＰＣ端末装置上で稼動するＣＴＩプログラムと連動して、これらの表示装置上に呼情報をリアルタイムに表示してよい。

通話録音サーバ３はまた、すでに応対履歴のある顧客を中心とする顧客の情報が事前登録された顧客情報データベース３３を備える。この顧客情報は、顧客を識別する個人情報であって、例えば顧客氏名、住所、登録された顧客電話番号、生年月日、年齢層、性別、その他顧客属性、製品購入履歴、応対履歴等を含むものとし、オペレータが操作可能な端末装置に、オペレータの指示入力に応じて適宜表示出力され得る。

なお、通話録音サーバ３は、構内回線１１ｄに接続するのに換えて、代替的に、例えばＰＳＴＮ８とＰＢＸ１との間に接続されてよく、このように構成すれば、通話録音サーバ３は、上記の話者識別情報を直接取得することができる。さらに代替的に、音声取得サーバ２を別途設置することなく、通話録音サーバ３は構内回線に接続され、構内回線に供給される通話音声を直接取得してよい。

制御サーバ４は、音声取得サーバ２、通話録音サーバ３、音声認識サーバ５及び通話要約生成サーバ６から供給されるデータ及び制御情報に基づいて、これらサーバが実行する処理、これらサーバ間のデータトラフィック及び制御情報の送受信を制御する。代替的に、音声認識サーバ５及び通話要約生成サーバ６は、通話録音サーバ３が保有する通話音声ファイル３１や呼情報ファイル３２へのアクセスや通話要約照会ＰＣ端末９ｂへのインターフェースを、制御サーバ４を介することなく、直接提供してもよい。

音声認識サーバ５は、重要文辞書５１と、通話音声テキストファイル５２とを備える。

音声認識サーバ５は、通話音声ファイル３１に蓄積保存された通話音声データを１通話分ごと読み出して解析して特徴量を抽出し、重要文辞書５１を参照して、公知の音声認識技術を適用して通話音声データを文字コード列に変換し、さらに変換された文字コード列を通話音声テキストとして通話音声テキストファイル５２に出力する。一例として、通話音声データ中の必要に応じて変換処理された音声波形から抽出される特徴量を、予め定義されている音素ごとの参照音響パターンと比較処理することにより、音声波形データを文字コード列に変換することができる。代替的に、音声認識サーバ５は、通話音声ファイル３１を読み出すことなく、音声取得サーバ２から、直接通話音声データを取得してよい。

重要文辞書５１には、予め音声認識の対象と想定され、かつ要約文に含まれるべき重要情報を含む重要文のデータのみが定義されているため、重要文辞書５１に定義された重要文に相当する通話音声データの音素列のみが抽出されて意味付けされる。従って、読み出された通話音声データのうち、この定義された重要文に相当する通話音声データ箇所のみが通話音声テキストに変換され、音声認識結果として出力される。

音声認識サーバ５は、呼情報データベース３２を参照して、１通話内の話者識別情報を判別することにより、１通話内の発話のそれぞれの発話者が顧客であるかオペレータであるかを識別し、オペレータの発話であると識別された発話の通話音声データのみを音声認識して、通話音声テキストに変換する。このように構成すれば、高負荷な音声認識を行う音声認識サーバ５内におけるハードウエア資源が低減でき、音声認識処理が短時間で終了できると共に通話音声テキストファイル５１の容量も削減でき、さらに、通話要約生成サーバ６における要約文生成処理も高速化できると共に高精度の要約文生成が可能となる。

通話要約生成サーバ６は、通話音声テキストファイル５１に格納された１通話分ごとの通話音声テキスト、好適には１通話内のオペレータ発話の通話音声テキストを読み出し、以下に詳述される要約文生成処理を実行することにより生成された通話要約文を、要約文データベース６４に出力する。

この１通話ごとに生成される要約文は、適宜、照会入力に応答して、通話要約照会ＰＣ端末９ｂ等のディスプレイ装置やプリンタ装置等の出力装置に出力可能であり、好適には、呼情報からデコードされた通話開始時間、通話終了時間、通話の発信者識別情報（顧客から着信した通話か、オペレータから発信した通話かを識別する情報）等と関連付けて出力されてよい。好適には、通話要約照会ＰＣ端末９ｂ等に表示出力される要約文は、操作者の修正入力により、適宜更新され得る。この更新結果を学習し、重要文辞書５１、重要語テーブル６１、不要語テーブル６２、及び要約文テンプレート６３を適宜更新することにより、より高精度かつ簡明な要約文を生成することが可能となる。

通話要約生成サーバ６は、重要語テーブル６１と、不要語テーブル６２と、要約文テンプレート６３と、要約文データベース６４とを備える。重要語テーブル６１は、予め、要約文内にキーワードとして記述されるべき重要語を、好適にはその重要度と共に定義する。さらに好適には、この重要語テーブルは、コールセンタ業務が受託する業種ごと、かつ事業者ごとに定義されてよい。

不要語テーブル６２は、通話音声テキストから削除されるべき語を定義する。好適には、通話要約生成サーバ６は、通話音声テキスト中の語を報告書調の他の語に置き換える置換テーブルを参照して要約文を生成してよい。

要約文テンプレート６３は、要約文テンプレートを、好適には応対種別ごとに定義する。この要約文テンプレートは、話し言葉である通話音声テキストを、簡明に理解可能な報告書調の文章に変換し、かつ一覧的に視認可能な程度のテキスト長の要約文を得るために参照される。通話要約生成サーバ６は、この要約文テンプレート６３を参照し、１又は複数の通話音声テキスト文を、応対種別ごとに定義された所定の要約文テンプレートに置き換えた上で、通話音声テキスト中に出現するキーワード、例えば商品名、日時、価格等をこの要約文テンプレート中に挿入して、要約文データベース６４に格納すべき要約文を生成する。

なお、図１におけるＰＢＸ１は、ＰＳＴＮ１等の公衆電話交換回線網を介して顧客通話端末４に接続されているが、これに替えて、或いはこれに加えて、ＩＰ網接続機能を備えることにより、ＶｏＩＰ（ＶｏｉｃｅＯｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）ネットワーク等の音声パケット通信ネットワークを介して、ＩＰ電話機能を備える顧客ＩＰ通話端末に接続されてよく、この場合、音声取得サーバ２は、顧客ＩＰ通話端末及びオペレータ電話端末９ａ間の音声通話を取得することができる。顧客電話端末７は、固定電話機或いは携帯電話機のいずれであってもよい。

また、図１に示すネットワーク及びハードウエアの構成は一例に過ぎず、各サーバ及びデータベースを必要に応じて一体としてもよく、各コンポーネントをＡＳＰ（ＡｐｐｌｉｃａｔｉｏｎＳｅｒｖｉｃｅＰｒｏｖｉｄｅｒ）等の外部に設置してもよい。

＜本実施形態における電話応対シーケンスの一例＞
図２は、必要に応じて制御サーバ４による制御の下実行される、本実施形態に係る通話音声要約生成システムにおける、顧客電話端末７からコールセンタ内オペレータ電話端末９ａへの着呼から呼切断までの１通話内の電話応対シーケンスと、通話音声認識処理及び通話音声要約処理の処理タイミングとを、非限定的一例として示す。

図２において、まず顧客電話端末７からオペレータ電話端末９ａに着呼し、顧客電話端末７から、顧客の発話により、一例として問い合わせを内容とする通話メッセージがオペレータ電話端末９ａに送信される（ステップＳ１）。なお言うまでもなく、送信される通話メッセージはあらゆる内容であってよく、他の例として相談を内容としてもよい。オペレータ電話端末９ａから、オペレータの発話により、問い合わせ元の顧客を識別する情報、例えば氏名、住所、連絡先電話番号、生年月日等を確認する旨の通話メッセージが顧客電話端末７に送信される。

音声認識サーバ５は、当該通話の呼情報中の話者識別情報を参照することにより、このオペレータの発話による顧客を識別する情報を確認する通話メッセージを取得し（ステップＳ２）、この取得した通話メッセージに音声認識処理を適用することにより、音声通話テキストに変換する（ステップＳ３）。ステップＳ３における音声認識処理、及び後述されるステップＳ６、ステップＳ８、ステップＳ１２におけるそれぞれの音声認識処理は、オペレータ電話端末９ａから顧客電話端末７への通話メッセージの送信に続いて実行されてもよく、代替的に、通話音声が蓄積保存された通話音声ファイル３１から非同期的に対象となる通話のオペレータ発話音声を読み出した後に実行されてもよい。

ステップＳ４に戻り、顧客電話端末７から顧客の発話により問い合わせ内容を含む通話メッセージがオペレータ電話端末９ａに送信される（ステップＳ４）。

オペレータ電話端末９ａから、オペレータの発話により、顧客からの問い合わせ内容を確認する通話メッセージが顧客電話端末７に送信される。音声認識サーバ５は、当該通話の呼情報中の話者識別情報を参照することにより、このオペレータの発話による問い合わせ内容を確認する通話メッセージを取得し（ステップＳ５）、この取得した通話メッセージに音声認識処理を適用することにより、音声通話テキストに変換する（ステップＳ６）。

これに続き、オペレータ電話端末９ａから、オペレータの発話により、顧客からの問い合わせ内容に応答する情報を提供する通話メッセージが顧客電話端末７に送信される。音声認識サーバ５は、当該通話の呼情報中の話者識別情報を参照することにより、このオペレータの発話による問い合わせ内容に応答する情報を提供する通話メッセージを取得し（ステップＳ７）、この取得した通話メッセージに音声認識処理を適用することにより、音声通話テキストに変換する（ステップＳ８）。

この問い合わせ内容に応答する情報を提供した後、オペレータ電話端末９ａから、オペレータの発話により、顧客が提供した情報を理解したか、さらにどの程度理解したかを確認する旨の通話メッセージが顧客電話端末７に送信される。音声認識サーバ５は、当該通話の呼情報中の話者識別情報を参照することにより、このオペレータの発話による顧客が提供した情報を理解したか、さらにどの程度理解したかを確認する旨の通話メッセージを取得し（ステップＳ９）、この取得した通話メッセージに音声認識処理を適用することにより、音声通話テキストに変換する（ステップＳ１０）。

これに応答して、顧客電話端末７から顧客の発話により理解度確認に応答する通話メッセージがオペレータ電話端末９ａに送信される（ステップＳ１１）。

これに続き、オペレータ電話端末９ａから、オペレータの発話により、顧客からの理解度確認を復唱する通話メッセージが顧客電話端末７に送信される。音声認識サーバ５は、当該通話の呼情報中の話者識別情報を参照することにより、このオペレータの発話による理解度確認を復唱する通話メッセージを取得し（ステップＳ１２）、この取得した通話メッセージに音声認識処理を適用することにより、音声通話テキストに変換する（ステップＳ１３）。

呼切断により、音声認識サーバ５は、１通話分の音声認識された通話音声テキストを、通話要約生成サーバ６に送信する（ステップＳ１４）。代替的に、音声認識サーバ５は、通話要約生成サーバ６に呼切断の事象を通知するメッセージを送信し、該メッセージを受信した通話要約生成サーバ６が、通話音声テキストファイル５１から直接呼切断された通話に対応する音声通話テキストを読み出してもよい。

通話要約生成サーバ６は、音声認識サーバ５から供給される通話音声テキストを入力とし、通話音声要約処理を実行して、要約文を生成する（ステップＳ１５）。生成された要約文は、その記述内容に応じて、オペレータないし管理者にフィードバックされ、例えば資料送付、社内エスカレーション等の次工程決定のため参照される（ステップＳ１６）。

図３は、図２とは着呼方向を逆とし、必要に応じて制御サーバ４による制御の下実行される、本実施形態に係る通話音声要約生成システムにおける、コールセンタ内オペレータ電話端末９ａから顧客電話端末７への着呼から呼切断までの１通話内の電話応対シーケンスと、通話音声認識処理及び通話音声要約処理の処理タイミングとを、非限定的一例として示す。

図３において、まずオペレータ電話端末９ａから顧客電話に着呼し、オペレータ電話端末９ａから、オペレータの発話により、通話メッセージが顧客電話端末７に送信される（ステップＳ２１）。なお言うまでもなく、送信される通話メッセージはあらゆる内容であってよく、例えば商品又はサービスの販売促進や督促等を内容としてもよい。オペレータ電話端末９ａから、オペレータの発話により、問い合わせ元の顧客を識別する情報、例えば氏名、住所、連絡先電話番号、生年月日等を確認する旨の通話メッセージが顧客電話端末７に送信される。音声認識サーバ５は、当該通話の呼情報中の話者識別情報を参照することにより、このオペレータの発話による顧客を識別する情報を確認する通話メッセージを取得し（ステップＳ２２）、この取得した通話メッセージに音声認識処理を適用することにより、音声通話テキストに変換する（ステップＳ２３）。ステップＳ２３における音声認識処理、及び後述されるステップＳ２５、ステップＳ２９におけるそれぞれの音声認識処理は、オペレータ電話端末９ａから顧客電話端末７への通話メッセージの送信に続いて実行されてもよく、代替的に、通話音声が蓄積保存された通話音声ファイル３１から非同期的に対象となる通話のオペレータ発話音声を読み出した後に実行されてもよい。

ステップＳ２４に戻り、オペレータ電話端末９ａからオペレータの発話により、例えば商品照会や督促等の情報を提供する通話メッセージが顧客電話端末７に送信される。音声認識サーバ５は、当該通話の呼情報中の話者識別情報を参照することにより、このオペレータの発話による情報を提供する通話メッセージを取得し（ステップＳ２４）、この取得した通話メッセージに音声認識処理を適用することにより、音声通話テキストに変換する（ステップＳ２５）。

この情報を提供した後、オペレータ電話端末９ａから、オペレータの発話により、顧客が提供した情報を理解したか、さらにどの程度理解したかを確認する旨の通話メッセージが顧客電話端末７に送信される。音声認識サーバ５は、当該通話の呼情報中の話者識別情報を参照することにより、このオペレータの発話による顧客が提供した情報を理解したか、さらにどの程度理解したかを確認する旨の通話メッセージを取得し（ステップＳ２６）、この取得した通話メッセージに音声認識処理を適用することにより、音声通話テキストに変換する（ステップＳ２７）。

これに応答して、顧客電話端末７から顧客の発話により理解度確認に応答する通話メッセージがオペレータ電話端末９ａに送信される（ステップＳ２８）。

これに続き、オペレータ電話端末９ａから、オペレータの発話により、顧客からの理解度確認を復唱する通話メッセージが顧客電話端末７に送信される。音声認識サーバ５は、当該通話の呼情報中の話者識別情報を参照することにより、このオペレータの発話による理解度確認を復唱する通話メッセージを取得し（ステップＳ２９）、この取得した通話メッセージに音声認識処理を適用することにより、音声通話テキストに変換する（ステップＳ３０）。

呼切断により、音声認識サーバ５は、１通話分の音声認識された通話音声テキストを、通話要約生成サーバ６に送信する（ステップＳ３１）。代替的に、音声認識サーバ５は、通話要約生成サーバ６に呼切断の事象を通知するメッセージを送信し、該メッセージを受信した通話要約生成サーバ６が、通話音声テキストファイル５１から直接呼切断された通話に対応する音声通話テキストを読み出してもよい。

通話要約生成サーバ６は、音声認識サーバ５から供給される通話音声テキストを入力とし、音声要約処理を実行して、要約文を生成する（ステップＳ３２）。生成された要約文は、その記述内容に応じて、オペレータないし管理者にフィードバックされ、例えば資料送付、社内エスカレーション等の次工程決定のため参照される（ステップＳ３３）。

＜本実施形態に係る通話音声認識処理及び通話音声要約生成処理詳細＞
図４は、図１に示される音声認識サーバ５及び通話要約生成サーバ６内の各コンポーネントにより実行される、本実施形態に係る通話音声認識処理及び通話音声要約生成処理の詳細を非限定的一例として示す。

図５は、図１に示される本実施形態に係る通話要約生成サーバ６内の機能構成の非限定的一例を示す。

図５において、通話要約生成サーバ６は、応対種別決定部６１と、冗長性排除部６２と、要約文生成部６３と、要約文短縮部６４と、要約文格納部６５とを備える。冗長性排除部６２は、さらに、不要語削除部６２１と、冗長文削除部６２２とを備え、要約文生成部６３は、さらに、文体変換部６３１を備える。

図４及び図５を参照して、音声認識サーバ５は、通話音声ファイル３１から顧客とオペレータとの間の１通話分の通話音声ファイルを読み出し、呼情報データベース３２を参照して、呼情報中の話者識別情報を判定し、読み出された通話音声ファイル中の発話のそれぞれについて、発話者を識別する（ステップＳ４１）。音声認識サーバ５は、さらに、識別された発話者がオペレータである発話の通話音声部分のみを、音声認識対象の通話音声データとして選択する（ステップＳ４２）。

選択された、発話者がオペレータである通話音声データが音声認識サーバ５に備えられた音声認識エンジンに入力され、音声認識サーバ５は、重要文辞書５１を参照して、入力された通話音声データを音声認識処理及び形態素解析処理し、認識結果として得られた通話音声テキストを、通話音声テキストファイル５２に出力する（ステップＳ４３）。

重要文辞書５１は、オペレータの発話に係る通話音声データを音声認識するために参照されるが、この重要文辞書５１には、業務ごと、重要文、すなわち通話中に出現することが想定され、かつ要約文に含まれるべき文章のみが辞書登録される。従って、ステップＳ４２から出力される通話音声データのうち、この重要文に相当する通話音声データのみが、音声認識結果として要約文生成源とされる。このため、音声認識辞書に汎用的な語を多数登録することが不要となり、音声認識辞書のメンテナンスが容易化されると共に、音声認識辞書ファイルの容量も削減される。

音声認識サーバ５は、オペレータ発話のうち、重要文辞書５１に登録された重要文のみを音声認識して通話音声テキストに変換してもよく、代替的に、重要文辞書５１に登録された重要文（ないし重要句、重要語）を含むオペレータの１発話内容全体を音声認識してもよく、後者の場合には、音声認識サーバ５は、重要文辞書５１の他、さらに一般的な音声認識用辞書を備えてよい。

非限定的一例として、重要文辞書５１は、例えばコールセンタ対象業務が受発注業務であれば、商品の受発注に関する重要文として、「『○○』を『△△』ですね。」（『○○』には商品名称、『△△』には商品購入個数がそれぞれ挿入される。）、「「ご希望の商品ですが、『××』にお届け致します。」（『××』には年月日が挿入される。）商品の問い合わせに関する重要文として、「お問い合わせのご用件は、『○○』製品に付属のリモコンの操作方法についてですね。」等が定義されてよい。その他、コールセンタ対象業務に応じて、重要文辞書５１は、販促業務であれば、この他訪問日時調整に関する重要文を、督促業務であれば、滞納状況確認文、支払い督促文等を、受発注業務であれば、受注文、発注文等を、相談業務であれば、問い合わせ文、クレーム文、意見感想文等を、それぞれ定義してよい。

図７ａ、図７ｂ、図７ｃは、それぞれ、販促業務についての重要文、督促業務についての重要文、相談業務（製造業、流通業における）についての重要文の非限定的一例を示す。

図７ａを参照して、販促業務についての重要文として、重要文辞書５１には、「お忙しい所、恐れ入りますが、『商品』のご案内を２・３分程、お時間をいただけますか。」、「それでは、『商品』をご説明させていただきます。」、「それでは、『日時』にお伺いさせていただきます。」、「畏まりました。『商品』について、ご興味がないと言う事ですね。」等が定義される（なお、本明細書において、『』内には包括的名称が記述され、要約文生成の際には、通話音声から得られた具体的名称ないし記載が埋め込まれる。）
図７ｂを参照して、督促業務についての重要文として、重要文辞書５１には、「今月分のご返済ですが、未だにご入金の確認ができておりません。」、「至急、お支払いいただきますよう、お願い申し上げます。」、「『月日』までにご入金いただけない場合は、やむを得ず法的手段をとるほか、遅延損害金、延滞損害金、延滞利息、請求手数料を加算させていただくこともございますので、ご了承下さい。」等が定義される。

図７ｃを参照して、相談業務についての重要文として、重要文辞書５１には、「ご迷惑おかけして申し訳ありません。」、「『商品』をお使いになって、異臭がしたとの事ですね。」、「早急に調査しまして、担当より折り返しお電話させていただきます。」、「ご自宅にお伺いさせていただきたいのですが、よろしいでしょうか。」、「それでは、『月日』にご自宅にお伺いさせていただきます。」、「『駅名』の側で『商品』を扱っているお店をご紹介致します。」等が定義される。

音声認識サーバ５は、図７ａないし図７ｃに例示されるこれらの重要文に対応する通話音声テキストを、通話音声テキストファイル５２を介して通話要約サーバ６に供給する。

図４及び図５に戻り、通話要約生成サーバ６内の応対種別決定部６１は、通話音声テキストファイル５２から音声認識された通話音声テキストを読み出して、重要語テーブル６１を参照し、重要語テーブル６１に予め登録された重要語と通話音声テキストとを比較することにより、当該通話における応対種別を決定し（ステップＳ４４）、決定された応対種別を冗長性排除部６２及び要約文生成部６３に供給する。

この応対種別は、当該通話の結論、結果ないし事後に執るべき対処を示すものであり、非限定的一例として、販促業務の応対種別としては、「商品説明」、「訪問ＯＫ」、「訪問ＮＧ」、「担当不在」、「再コール」、「資料送付」等と規定され、督促業務の応対種別としては、「滞納確認」、「支払いＯＫ」、「支払いＮＧ」、「要相談」、「本人不在」、「再コール」、「督促郵送」等と規定され、受発注業務の応対種別としては、「受注」、「発注」、「問い合わせ」、「クレーム」、「転送」、「受注なし」等と規定され、相談業務の応対種別としては、「問い合わせ」、「クレーム」、「販売店紹介」、「転送」等と規定されてよい。

図１１は、重要語テーブル６１に定義される重要語と、導出されるべき応対種別との対応を定義する応対種別導出テーブルの他の非限定的一例を示す。図１１を参照して、１又は複数の重要語の組み合わせにより、最左欄に規定される応対種別が導出できる。

次に、通話要約生成サーバ６内の冗長性排除部６２は、不要語テーブル６２を参照し、音声認識された通話音声テキスト中の冗長性を排除して簡明化された通話音声テキストを要約文生成部６３に供給する（ステップＳ４５）。

より詳細には、冗長性排除部６２内の不要語削除部６２１は、不要語テーブル６２中に格納される、要約文生成源から削除されるべき不要語を定義する不要語テーブルを参照して、通話音声テキストから不要語を削除する。

好適には、不要語削除部６２１は、不要語テーブルに定義される不要語の他、さらに単独で意味が把握できない不明語を削除してよい。

図６は、不要語テーブルが定義する不要語の非限定的一例を示す。図６を参照して、不要語テーブル６２には、「えー、」等の間投詞、「いつもお世話になっております。」等の定型挨拶文等が不要語として定義されている。

なお、重要文辞書５１に事前登録される重要文が十分に洗練されている場合には、冗長性排除部６２には、不要語からなる文の通話音声テキストの多くは供給されることはない。しかしながら、この場合にあっても、通話テキスト文が、不要語と重要文とを共に含む場合、不要語削除部６２１は、通話テキスト文中の不要語を、不要語テーブル６２を参照して削除することができる。一例として、「それでは、ご注文内容を復唱させていただきます。」との通話音声テキストが供給されたと想定すると、「それでは、」を不要語テーブル６２に登録しておけば、後段の「ご注文内容を復唱させていただきます。」との重要文のみを抽出して、要約生成源を短縮化することができる。

冗長性排除部６２内の冗長文排除部６２２は、１通話分の通話音声テキストから、同一ないし類似内容を記述する文（ないし句、語等の意味を有する纏まりであってもよい）が複数回出現した場合に、重複する文を適宜削除する。好適には、冗長文排除部６２２は、１通話分の通話音声テキスト中に同一ないし類似内容を記述する文等が複数回出現した場合には、通話開始から終了までの時系列上前方に出現した文を削除し、最後に出現した文を残してよい。通話終了時点に近い文が、より応対の最終的な結論を記述する蓋然性が高いとの知見によるものである。

好適には、冗長文排除部６２２は、さらに、応対種別が判別できない文章を削除してよい。

図４及び図５に戻り、要約文生成部６３中の文体変換部６３１は、話し言葉で記述された通話音声テキストを報告調の文章に整形し、さらに要約文生成部６３は、要約文テンプレート６３を参照して決定された応対種別に対応する要約文テンプレートを通話音声テキストに適用することにより、冗長性排除部６２から供給される通話音声テキストから要約文を生成する（ステップＳ４６）。

好適には、要約文生成部６３は、冗長性排除部６２から複数文が供給された場合に、１個の文が供給された場合と同様、１個の要約文を生成してよい。

要約文生成部６３は、通話音声テキストを報告調の簡潔な文体、例えば体言止めの文体に変換する。

図８ａないしｃ、及び図９ａないしｃは、要約文テンプレート６３内に記述される要約文テンプレートの非限定的一例を示す。

図８ａは、販促業務について、得られた応対種別に応じて、通話音声テキストを報告調の文体に変換する非限定的一例を示す。図８ａを参照して、要約文生成部６３は、「商品説明」の応対種別の場合は、通話音声テキスト「それでは、『商品』を説明させていただきます。」を、「『商品』を説明。」と、「訪問ＯＫ」の応対種別の場合は、通話音声テキスト「それでは、『日時』にお伺いさせていただきます。」を、「『日時』に訪問アポ。」と、それぞれ変換する。図８ｂは、督促業務についての文体変換例を、図８ｃは、相談業務についての文体変換例を、それぞれ示す。

図９ａは、販促業務について、得られた応対種別に応じて、複数の通話音声テキスト文から、１個の要約文を生成する非限定的一例を示す。図９ａを参照して、要約文生成部６３は、２個の通話音声テキスト文「それでは、『商品』をご説明させていただきます。」、及び「畏まりました。『商品』について、ご興味がないという事ですね。」を、「『商品』を説明したが、興味なしとの回答。」と変換する。同様に、要約文生成部６３は、２つの通話音声テキスト文「それでは、『商品』をご説明させていただきます。」、及び「それでは、『日時』にお伺いさせていただきます。」を、「『商品』を説明し、『日時』に訪問アポ。」と変換する。図９ｂは、督促業務についての要約文生成例を、図９ｃは、相談業務についての要約文生成例を、それぞれ示す。

図４及び図５に戻り、要約文短縮部６４は、要約文生成部６３により生成された要約文が所定長、例えば所定文字数の閾値を超えた場合に、該閾値内の要約文長となるよう、要約文を短縮する（ステップＳ４７）。

好適には、要約文短縮部６４は、通話要約文が一覧表示される照会結果画面において、１通話の要約文表示用に設けられた出力欄に要約文全文がスクロールを要することなく表示可能な文字数以内に要約文を短縮してよい。これにより、要約文確認のための追加操作が不要となり、要約文の迅速な視認が可能となる。

より詳細には、要約文短縮部６４は、重要語テーブル６１を参照して、要約文中に出現する重要語に付与された重要度に基づいて、要約文を短縮してよい。

図１０ａないしｃは、業務ごとに定義される重要度テーブル６１の非限定的一例を示す。

図１０ａは、販促業務について、定義される重要度テーブル６１の非限定的一例を示す。図１０ａを参照して、「『商品』（商品の固有名称）」、「『日時』（特定日時）」には９０点が付与され、「特約条項」、「資産運用利回り」、「自己契約の禁止」、「告知義務違反」、「告知義務」等、重要事項やコンプライアンスに高い相関を持つ重要語には７０点が付与され、一方「地震保険」、「財形保険」、「財形年金保険」、「個人賠償責任保険」、「個人年金保険」、「国内旅行傷害保険」等、商品の一般名称には５０点が付与される。図１０ｂは、督促業務についての重要度テーブルの例を、図１０ｃは、相談業務についての重要度テーブルの例を、それぞれ示す。

一例として、要約文短縮部６４は、冗長性排除部６２から供給される通話音声テキスト文を、句点（「。」）ごとに区切り、１通話音声テキスト文ごとに文中出現する重要語の重要度を加算し、高い重要度が算出された通話音声テキスト文を優先的に選択してよい。

図４及び図５に戻り、要約文格納部６５は、要約文短縮部６４から供給される要約文を、要約文データベース６４に格納する（ステップＳ４８）。

図１２は、冗長性排除部６２が、不要語排除のため参照する不要語テーブルの他の例を示す。図１２を参照して、他の例による不要語テーブルは、不要語として通話音声テキストから削除されるべき、語句を定義する。

図１３は、冗長性排除部６２及び／又は要約文生成部６３が適宜参照し得る置換テーブルの一例を示す。図１３を参照して、冗長性排除部６２及び／又は要約文生成部６３は、左欄に記述される変換前の語句を、右欄に記述される変換後の語句に変換してよい。

図１４は、上記の通話要約生成処理に入力される音声通話データを、図１５は、図１４に記載される音声通話データから生成される通話要約文を、それぞれ非限定的一例として示す。

図１６は、通話要約照会ＰＣ端末９ｂ又は他の入力装置から入力される要約文照会に応答して、通話要約照会ＰＣ端末９ｂ又は他の出力装置に表示出力される通話要約文表示画面の非限定的一例を示す。図１６には、３件の通話の要約文がリスト表示されており、好適には、それぞれの通話に対応する表示ボタン１６１、１６２、１６３を押下入力すると、録音された音声通話の全部又は一部が音声出力されてよい。

好適には、それぞれの通話要約文に対応する応対種別が、対応する通話要約文と共に表示出力されてよい。

上記ではコールセンタ業務の例を説明したが、本実施形態は、通話を用いるあらゆる応対業務やその他の通話履歴取得に適用することが可能である。変形例として、例えば、営業担当員が、携帯電話或いは固定電話で、所属企業の電話番号に発呼し、所属企業内或いは外部に配設された音声応答システムが提供する音声ガイダンスに従って、訪問内容や営業実績などを発話し、この発話を録音して本実施形態に係る通話要約文生成システムに供給すれば、出力される要約文を、営業日報として利用することもできる。

＜本実施形態に係る通話音声要約生成システムのハードウエア構成＞
図１７は、本実施形態に係る各サーバ装置のハードウエア構成の一例を示すブロック図である。図１７に示されるコンピュータ装置１１０である各サーバ装置において、ＣＰＵ１１１は、ＲＯＭ１１４および／またはハードディスクドライブ１１６に格納されたプログラムに従い、ＲＡＭ１１５を一次記憶用ワークメモリとして利用して、システム全体を制御する。さらに、ＣＰＵ１１１は、マウス１１２ａまたはキーボード１１２を介して入力される利用者の指示に従い、ハードディスクドライブ１１６に格納されたプログラムに基づき、本実施形態に係る通話音声要約生成処理及び通話音声要約照会処理を実行する。ディスプレイインタフェイス１１３には、ＣＲＴやＬＣＤなどのディスプレイが接続され、ＣＰＵ１１１が実行する通話音声要約生成処理及び通話音声要約照会処理のための入力待ち受け画面、処理経過や処理結果、検索結果などが表示される。リムーバブルメディアドライブ１１７は、主に、リムーバブルメディアからハードディスクドライブ１１６へファイルを書き込んだり、ハードディスクドライブ１１６から読み出したファイルをリムーバブルメディアへ書き込む場合に利用される。リムーバブルメディアとしては、フロッピディスク(ＦＤ)、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ、ＤＶＤ−Ｒ／Ｗ、ＤＶＤ−ＲＡＭやＭＯ、あるいはメモリカード、ＣＦカード、スマートメディア、ＳＤカード、メモリスティックなどが利用可能である。

プリンタインタフェイス１１８には、レーザビームプリンタやインクジェットプリンタなどのプリンタが接続される。ネットワークインタフェイス１１９は、コンピュータ装置をネットワークへ接続するためのインターフェースである。

なお、本実施形態に係る各サーバ装置及び通話音声要約照会ＰＣ端末９ｂに対する入力手段は、マウス１１２ａあるいはキーボード１１２に限定されることなく、任意のポインティングデバイス、例えばトラックボール、トラックパッド、タブレットなどを適宜用いることができる。携帯情報端末を本実施形態に係るサーバ装置及び通話音声要約照会ＰＣ端末９ｂに接続される入出力装置として用いる場合には、入力部をボタンやモードダイヤル等で構成してもよい。

また、図１７に示した本実施形態に係る各サーバのハードウエア構成は一例に過ぎず、その他の任意のハードウエア構成を用いることができることはいうまでもない。

殊に、本実施形態に係る通話音声要約生成処理及び通話音声要約照会処理の全部又は一部は、上記コンピュータ端末装置１１０あるいはＰＤＡ等の携帯情報端末装置等によって実現されてもよく、コンピュータ端末装置等とサーバー装置とをＢｌｕｅｔｏｏｔｈ（登録商標）等の無線、あるいはインターネット（ＴＣＰ／ＩＰ）、公共電話網（ＰＳＴＮ）、統合サービス・ディジタル網（ＩＳＤＮ）等の有線通信回線で相互接続した、インターネットあるいは任意の周知のローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）からなるネットワークシステムによって通話録音処理及び音声キーワード照合処理の一部又は全部が実現されてもよい。

以上のとおり、本実施形態によれば、音声認識サーバは、顧客の発話を捨象して音声認識対象とせず、オペレータの発話に係る通話音声データのみを音声認識して通話音声テキストを得、通話要約生成サーバは、この通話音声テキストを要約文作成源として通話の要約を自動生成する。

本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらすすべての実施形態をも含み、その要旨を逸脱しない範囲で多様な改良ないし変更が可能である。例えば、本実施形態において開示された通話録音処理、音声認識処理、通話音声要約生成処理、及び通話音声要約照会処理は、それぞれ本実施形態に係る通話音声要約生成システムに単独で実装されてもよく、任意の組み合わせで実装されてもよい。

さらに、本発明の範囲は、請求項１により画される発明の特徴の組み合わせに限定されるものではなく、すべての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。

ＰＢＸ１
音声取得サーバ２
通話録音サーバ３
制御サーバ４
音声認識サーバ５
通話要約生成サーバ６
顧客電話端末７
ＰＳＴＮ８
オペレータ電話端末９ａ
通話要約照会ＰＣ端末９ｂ
構内回線１１ａ，１１ｂ，１１ｃ
通話音声ファイル３１
呼情報データベース３２
顧客情報データベース３３
重要文辞書５１
通話音声テキストファイル５２
重要語テーブル６１
不要語テーブル６２
要約文テンプレート６３
要約文データベース６４

Claims

通話の呼情報を参照することにより、前記通話内の各発話の話者を識別し、識別された一方の話者のみの通話音声データを、通話音声データから選択する話者選択部と、
選択された通話音声データ中から音声認識の対象とされるべき重要文を定義する重要文辞書と、
前記重要文辞書を参照することにより、前記選択された通話音声データを音声認識して、前記重要文辞書に定義された重要文に相当する通話音声テキストを抽出する音声認識部と、
前記重要文と対応する要約文のテンプレートを記憶するテンプレート記憶部と、
抽出された通話音声テキストに前記要約文テンプレートを適用し、抽出された通話音声テキスト中の冗長箇所を削除して要約文テキストに変換する要約文生成部と、
変換された要約文テキストを１通話ごと要約文データベースに格納する要約文格納部とを具備する
ことを特徴とする通話音声要約生成サーバ装置。
上記通話音声要約生成サーバ装置は、
前記要約文テキストに含まれるべき重要語を定義する重要語テーブルと、
前記通話音声テキストから前記重要語を検出し、検出された重要語に従って前記通話の結果を示す通話種別を決定する通話種別決定部と、
前記要約文テキストを決定された通話種別と共に視認可能に出力する出力部とを具備する
ことを特徴とする請求項１に記載の通話音声要約生成サーバ装置。
上記通話音声要約生成サーバ装置は、
前記要約文テキストに含まれるべき重要語を、該重要語の重要度と共に定義する第２の重要語テーブルと、
生成されるべき要約文の最大長の閾値を保持し、前記要約文生成部から得られる要約文のテキスト長が前記閾値を越える場合に、前記第２の重要語テーブルを参照して、前記要約文を複数に区切って得られる要約文セグメントごとに前記重要度を加算し、加算された前記重要度が低い要約文セグメントを削除することにより、前記要約文を前記閾値内のテキスト長に短縮して、短縮要約文を得る要約文短縮部とを具備する
ことを特徴とする請求項１又は２に記載の通話音声要約生成サーバ装置。
前記要約文生成部は、１の通話ごとに、１の要約文を生成する
ことを特徴とする請求項１ないし３のいずれか記載の通話音声要約生成サーバ装置。
上記通話音声要約生成サーバ装置は、
前記要約文を更新入力可能に表示出力し、更新入力された要約文を、前記要約文データベースに書き戻すと共に、更新された要約文を参照して、前記重要文辞書を必要に応じて更新する要約文更新部を具備する
ことを特徴とする請求項１ないし４のいずれか記載の通話音声要約生成サーバ装置。
話者選択部と、重要文辞書と、音声認識部と、テンプレート記憶部と、要約文生成部と、要約文格納部とを具備する通話音声要約生成サーバ装置が実行する通話音声要約生成方法であって、
前記話者選択部により、通話の呼情報を参照することにより、前記通話内の各発話の話者を識別し、識別された一方の話者のみの通話音声データを、通話音声データから選択するステップと、
前記音声認識部により、選択された通話音声データ中から音声認識の対象とされるべき重要文を定義する重要文辞書を参照することにより、前記選択された通話音声データを音声認識して、前記重要文辞書に定義された重要文に相当する通話音声テキストを抽出するステップと、
テンプレート記憶部により、前記重要文と対応する要約文のテンプレートを記憶するステップと、
前記要約文生成部により、抽出された通話音声テキストに前記要約文テンプレートを適用し、抽出された通話音声テキスト中の冗長箇所を削除して要約文テキストに変換するステップと、
前記要約文格納部により、変換された要約文テキストを１通話ごと要約文データベースに格納するステップとを含む
ことを特徴とする通話音声要約生成方法。
上記通話音声要約生成方法は、
通話種別決定部により、前記通話音声テキストから、前記要約文テキストに含まれるべき重要語を定義する重要語テーブルを参照して、前記重要語を検出し、検出された重要語に従って前記通話の結果を示す通話種別を決定するステップと、
出力部により、前記要約文テキストを決定された通話種別と共に視認可能に出力するステップとを含む
ことを特徴とする請求項６に記載の通話音声要約生成方法。
上記通話音声要約生成方法は、
要約文短縮部により、生成されるべき要約文の最大長の閾値を保持し、前記要約文生成部から得られる要約文のテキスト長が前記閾値を越える場合に、前記要約文テキストに含まれるべき重要語を該重要語の重要度と共に定義する第２の重要語テーブルを参照して、前記要約文を複数に区切って得られる要約文セグメントごとに前記重要度を加算し、加算された前記重要度が低い要約文セグメントを削除することにより、前記要約文を前記閾値内のテキスト長に短縮して、短縮要約文を得るステップを含む
ことを特徴とする請求項６又は７に記載の通話音声要約生成方法。
前記要約文生成部において、１の通話ごとに、１の要約文を生成する
ことを特徴とする請求項６ないし８のいずれか記載の通話音声要約生成方法。
上記通話音声要約生成方法は、
要約文更新部により、前記要約文を更新入力可能に表示出力し、更新入力された要約文を、前記要約文データベースに書き戻すと共に、更新された要約文を参照して、前記重要文辞書を必要に応じて更新するステップを含む
ことを特徴とする請求項６ないし９のいずれか記載の通話音声要約生成方法。
通話音声要約生成処理をコンピュータに実行させるための通話音声要約生成プログラムであって、該プログラムは、前記コンピュータに、
通話の呼情報を参照することにより、前記通話内の各発話の話者を識別し、識別された一方の話者のみの通話音声データを、通話音声データから選択する話者選択処理と、
選択された通話音声データ中から音声認識の対象とされるべき重要文を定義する重要文辞書を参照することにより、前記選択された通話音声データを音声認識して、前記重要文辞書に定義された重要文に相当する通話音声テキストを抽出する音声認識処理と、
前記重要文と対応する要約文のテンプレートを記憶するテンプレート記憶処理と、
抽出された通話音声テキストに前記要約文テンプレートを適用し、抽出された通話音声テキスト中の冗長箇所を削除して要約文テキストに変換する要約文生成処理と、
変換された要約文テキストを１通話ごと要約文データベースに格納する要約文格納処理とを含む処理を実行させるためのものである
ことを特徴とする通話音声要約生成プログラム。
上記通話音声要約生成プログラムは、
前記通話音声テキストから、前記要約文テキストに含まれるべき重要語を定義する重要語テーブルを参照して、前記重要語を検出し、検出された重要語に従って前記通話の結果を示す通話種別を決定する通話種別決定処理と、
前記要約文テキストを決定された通話種別と共に視認可能に出力する出力処理とを含む
ことを特徴とする請求項１１に記載の通話音声要約生成プログラム。
上記通話音声要約生成プログラムは、
生成されるべき要約文の最大長の閾値を保持し、前記要約文生成部から得られる要約文のテキスト長が前記閾値を越える場合に、前記要約文テキストに含まれるべき重要語を該重要語の重要度と共に定義する第２の重要語テーブルを参照して、前記要約文を複数に区切って得られる要約文セグメントごとに前記重要度を加算し、加算された前記重要度が低い要約文セグメントを削除することにより、前記要約文を前記閾値内のテキスト長に短縮して、短縮要約文を得る要約文短縮処理を含む
ことを特徴とする請求項１１又は１２に記載の通話音声要約生成プログラム。
前記要約文生成処理において、１の通話ごとに、１の要約文を生成する
ことを特徴とする請求項１１ないし１３のいずれか記載の通話音声要約生成プログラム。
上記通話音声要約生成プログラムは、
前記要約文を更新入力可能に表示出力し、更新入力された要約文を、前記要約文データベースに書き戻すと共に、更新された要約文を参照して、前記重要文辞書を必要に応じて更新する要約文更新処理を含む
ことを特徴とする請求項１１ないし１４のいずれか記載の通話音声要約生成プログラム。