JP7628041B2

JP7628041B2 - 通話音声認識システムおよび通話音声認識方法

Info

Publication number: JP7628041B2
Application number: JP2021051690A
Authority: JP
Inventors: 理紗子本間; 隆司杉山
Original assignee: Hitachi Information and Telecommunication Engineering Ltd
Current assignee: Hitachi Information and Telecommunication Engineering Ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2025-02-07
Anticipated expiration: 2041-03-25
Also published as: JP2022149495A

Description

本発明は、通話音声認識システムおよび通話音声認識方法に係り、特に、通話を取り扱うサイトの別、音声認識の必要性、通話を音声認識するときの必要なリソースに応じて、適切な音声認識の処理順序に従って音声認識を行うことにより、コールセンタの適切な運用、サーバリソースの有効活用を行うのに好適な通話音声認識システムおよび通話音声認識方法に関する。

コールセンタ等の電話応対業務において、顧客とオペレータの通話を音声認識し、認識結果をテキスト化し、オペレータの端末に表示したり、オペレータと顧客の通話をスーパバイザの端末に表示したりして、顧客との対応をサポートするシステムが一般的に普及している。

コールセンタにおいて、通話の音声認識をして、スーパバイザの監視業務の効率化と、オペレータの顧客への応対品質を向上させる技術に関しては、例えば、特許文献１がある。特許文献１に記載されたコールセンタシステムでは、顧客とオペレータの通話内容を音声認識して、それによるテキストの中での特定ワードをモニタして、警告値が大きくなったときには、スーパバイザへのアラートを発行する。

特開２０２０－１５０４０９号公報

一般に通話を音声認識するのは、音声認識装置のサーバリソース（ハードウェアリソース、ソフトウェアリソース）が必要であり、認識依頼がサーバリソースを超過した場合は認識処理に待ちが生じる。

例えば、複数の企業または拠点について、いわゆるクラウド型のサービス形態によって、音声認識サービスを運用するシステムの場合、全ての企業または拠点からのサービス要請を同列に扱うことが一般的である。そのため、通話を円滑に音声認識するには、全ての企業または拠点の営業形態での繁忙期を想定し、通話の音声認識に要する音声認識装置のサーバリソースを確保しておく必要がある。それにより、システム導入のコストがかかるが、このコストを削減するとサービスレベルが低下してしまう。よって、必要とされるサービスレベルを維持して運用コストの低減を図るためには、限られたサーバリソースを効率的に活用する制御を音声認識システムに導入することが求められる。

特に、通話をリアルタイムでモニタリングし、オペレータがそのテキストを見ながら通話応答をしたり、スーパバイザが特に注意すべき通話を監視したりしなければならないコールセンタでの運用では、サーバリソースの有効な割当が重要な課題となる。

また、一般に、コールセンタへの通話の種別によって、特に、企業側によって、苦情（クレーム）に関する通話などの注視すべきものと、料金の問合せ、商品の問合せなど、比較的、オペレータにとって、対応が容易なものがある。このように、コールセンタへの通話の種別によって、ある一定期間同時に顧客からの通話が有った場合に、どのような順で、音声認識によりテキスト化して、オペレータやスーパバイザに表示するかが、オペレータの顧客への応対品質を向上させるために重要なものになる。

特許文献１に記載された通話音声認識では、通話の音声認識の順番をどのように割当てるかについては、考慮されていない。

本発明の目的は、コールセンタにおいて、通話を取り扱うサイトの別、音声認識の必要性、通話を音声認識するときの必要なリソースに応じて、適切な音声認識の処理順序に従って音声認識を行うことにより、コールセンタの適切な運用、サーバリソースの有効活用を行うのに好適な通話音声認識システムおよび通話音声認識方法を提供することにある。

本発明に係る通話音声認識システムは、好ましくは、通話音声を音声認識する通話音声認識システムであって、通話の音声を録音する通話録音装置と、通話録音装置から録音した音声データを受信し、通話情報と通話情報に関連付けて音声データを音声認識制御装置に送信する通話録音管理装置と、通話音声を入力して、テキスト化する音声認識装置と、通話録音管理装置からの通話情報と音声データを受信して、音声認識装置に音声データを送信して音声データのテキスト化を指示する音声認識制御装置とを有し、音声認識制御装置は、通話ごとの認識優先度を格納する認識順序管理テーブルを保持し、音声認識制御装置は、通話ごとの通話の音声認識順序を制御する認識順序制御部と、音声認識装置に通話の音声データのテキスト化を指示する認識実行指示部とを有し、認識実行指示部は、認識順序管理テーブルに格納された認識優先度に基づいて、音声認識装置に対して音声認識を行う通話を指示するようにしたものである。

本発明によれば、コールセンタにおいて、通話を取り扱うサイトの別、音声認識の必要性、通話を音声認識するときの必要なリソースに応じて、適切な音声認識の処理順序に従って音声認識を行うことにより、コールセンタなどの適切な運用、サーバリソースの有効活用を行うのに好適な通話音声認識システムおよび通話音声認識方法を提供することができる。

実施形態１に係る通話音声認識システムの構成と処理の概要を説明する図である。通話録音装置の構成を示すブロック図である。通話録音管理装置の構成を示すブロック図である。音声認識制御装置の構成を示すブロック図である。音声認識装置の構成を示すブロック図である。認識結果管理装置の構成を示すブロック図である。通話情報テーブルの一例を示す図である。オペレータ管理情報テーブルの一例を示す図である。ＩＰ内線情報テーブルの一例を示す図である。録音情報テーブルの一例を示す図である。認識結果テーブルの一例を示す図である。優先度管理テーブルの一例を示す図である。サイト情報管理テーブルの一例を示す図である。認識順序管理テーブルの一例を示す図である。外部の通話端末の発信から、通話が音声認識されてテキストがＰＣ端末に表示される一連の処理について説明する図である（その一）。外部の通話端末の発信から、通話が音声認識されてテキストがＰＣ端末に表示される一連の処理について説明する図である（その二）。音声認識の一連の処理を説明する図である。実施形態２に係る通話音声認識システムの構成と処理の概要を説明する図である。

以下、本発明に係る各実施形態を、図１ないし図１７を用いて説明する。

〔実施形態１〕
以下、本発明に係る実施形態１を、図１ないし図１６を用いて説明する。

先ず、図１を用いて実施形態１に係る通話音声認識システムの構成と処理の概要について説明する。
本実施形態の通話音声認識システムは、図１に示されるように、顧客等の架電者（電話をかける者）の通話端末１から公衆網５を介して接続されるＩＰ－ＰＢＸ（Internet Protocol－Private Branch eXchange、ＩＰ回線対応構内交換機）３０が、ネットワーク７を介して、オペレータの通話端末２０（図では、２０ａ、２０ｂ、２０ｃと表記）と接続し通話をする構成を有する。オペレータは、オペレータ用ＰＣ端末２５（図では、２５ａ、２５ｂ、２５ｃと表記）から通話端末２０の電話操作をすることができ、架電者からの着信が、オペレータ用ＰＣ端末２５に表示されると、ＰＣ端末２５から応答を操作して、通話端末２０が応答動作を実施して架電者とオペレータは通話状態になる。

なお、本実施形態では、コールセンタは、サイトＳ１、サイトＳ２、サイトＳ３のように部署別に分けられているものとする。例えば、サイトＳ１は、顧客からの苦情対応の部署、サイトＳ２は、顧客からの商品、サービスなどの質問対応の部署、サイトＳ３は、顧客からの商品、サービスなどの新規受付対応の部署であり、その通話に対応するオペレータは、それぞれの通話に対応する応答を行う。

通話音声認識システムには、オペレータを管理・監督するスーパバイザが居て、通話端末２０ｓとスーパバイザ用ＰＣ端末２５ｓにより、状況を監視し、必要なときには、オペレータを補助する操作を行う。スーパバイザ用ＰＣ端末２５ｓは、ＰＣ端末２５が有する電話制御部に加えて、管理者用のコールセンタ運用情報を表示する管理ツールが動作している。

通話音声認識システム１００は、ネットワーク７を介して、ＩＰ－ＰＢＸ３０、ＣＴＩ（Computer Telephony Integration）装置４０、通話録音装置５０、通話録音管理装置６０、音声認識制御装置１１０、音声認識装置１２０、認識結果管理装置１３０が接続して構成されている。

ＩＰ－ＰＢＸ３０は、ＩＰ網と公衆網５のプロトコル変換、発着信の制御などを行う。ＣＴＩ装置４０は、コールセンタでの呼制御の中核となる装置であり、コールセンタの状況を管理し、ＩＰ－ＰＢＸ３０から受取った呼の状態情報をオペレータ用ＰＣ端末２５、スーパバイザＰＣ端末２５ｓに送信するなどの機能を有する。

通話録音装置５０は、通話録音処理による録音データを作成する装置である。通話録音管理装置６０は、録音データやこれに付加する通話情報を管理して、音声認識制御装置１１０に音声を送信する装置である。音声認識制御装置１１０は、通話録音管理装置６０から音声認識の要求があったときに、音声認識装置１２０の使用状況やハードウェアの負荷と、通話の認識の優先度を考慮して、複数の音声認識装置１２０から選択して、認識する通話音声を音声認識装置に送信する装置である。音声認識装置１２０は、音声認識エンジンを搭載し、送信された音声を、通話テキストに変換する装置である。認識結果管理装置１３０は、音声認識装置１２０が認識してテキスト化したデータを管理する装置である。

次に、図２ないし図６を用いて通話音声認識システムの各部の構成の詳細について説明する。

先ず、図２を用いて通話録音装置の構成について説明する。
通話録音装置５０は、図２に示されるように、ネットワークＩ／Ｆ（InterFace）部５０１、録音部５０２、通話録音管理装置Ｉ／Ｆ部５０３、端末Ｉ／Ｆ部５０４、記憶部５０５を有する。ネットワークＩ／Ｆ（InterFace）部５０１は、ＩＰネットワークとのインタフェースを司り、ＲＴＰパケットを受信する機能部である。録音部５０２は、ＲＴＰパケットにより通話の録音をする機能部である。通話録音管理装置Ｉ／Ｆ部５０３は、録音した音声データを通話録音管理装置６０に送信する機能部である。端末Ｉ／Ｆ部５０４は、オペレータ用ＰＣ端末２５、スーパバイザ用ＰＣ端末２５ｓとのインタフェースを司る機能部である。記憶部５０５は、テーブルやデータを格納する機能部である。通話録音装置５０の記憶部５０５には、ＩＰ内線情報テーブル７２、録音情報テーブル７３、音声データファイル９０が格納されている。なお、各テーブルの詳細については、後述する。

次に、図３を用いて通話録音管理装置６０の構成について説明する。
通話録音管理装置６０は、図３に示されるように、通話録音判定部６０１、通話録音データ取得部６０２、ＣＴＩ装置Ｉ／Ｆ部６０３、通話録音装置Ｉ／Ｆ部６０４、音声認識制御装置Ｉ／Ｆ部６０５、記憶部６０６を有する。通話録音判定部６０１は、通話情報から通話を録音すべきか否かを判定する機能部である。通話録音データ取得部６０２は、通話録音装置５０から録音した音声データを受取る機能部である。ＣＴＩ装置Ｉ／Ｆ部６０３は、ＣＴＩ装置４０とのインタフェースを司る機能部である。通話録音装置Ｉ／Ｆ部６０４は、通話録音装置５０とのインタフェースを司る機能部である。音声認識制御装置Ｉ／Ｆ部６０５は、音声認識制御装置１１０とのインタフェースを司る機能部である。記憶部６０６は、テーブルやデータを格納する機能部である。通話録音管理装置６０の記憶部６０６には、通話情報テーブル７０、音声データファイル９０が格納されている。なお、テーブルの詳細については、後述する。

次に、図４を用いて音声認識制御装置１１０の構成について説明する。
音声認識制御装置１１０は、図４に示されるように、音声データファイル管理部１１０１、認識実行指示部１１０２、認識順序制御部１１０３、発話時間算出部１１０４、感情分析部１１０５、通話録音管理装置Ｉ／Ｆ部１１０６、音声認識装置Ｉ／Ｆ部１１０７、記憶部１１０８を有する。音声データファイル管理部１１０１は、音声データファイル９０を管理する機能部である。認識実行指示部１１０２は、音声認識装置１２０に、音声データファイル９０を送信し、音声認識を指示する機能部である。認識順序制御部１１０３は、通話の音声データの認識順序を制御する機能部である。発話時間算出部１１０４は、通話における話者の発話時間を算出する機能部である。感情分析部１１０５は、通話における話者の感情を分析し、数値化する機能部である。記憶部１１０８は、テーブルやデータを格納する機能部である。通話録音管理装置Ｉ／Ｆ部１１０６は、通話録音管理装置６０とのインタフェースを司る機能部である。音声認識装置Ｉ／Ｆ部１１０７は、音声認識装置１２０とのインタフェースを司る機能部である。音声認識制御装置１１０の記憶部１１０８には、通話情報テーブル７０、優先度管理テーブル７６、サイト情報管理テーブル７７、認識順序管理テーブル７９、音声データファイル９０が格納されている。なお、テーブルの詳細については、後述する。

次に、図５を用いて音声認識装置１２０の構成について説明する。
音声認識装置１２０は、図５に示されるように、認識音声受信部１２０１、認識対象指示部１２０２、認識エンジン１２０３、音声認識制御装置Ｉ／Ｆ部１２０４、認識結果管理装置Ｉ／Ｆ部１２０５、記憶部１２０６を有する。認識音声受信部１２０１は、通話録音装置５０から音声データを受信する機能部である。認識対象指示部１２０２は、音声認識制御装置１１０からの音声認識をする通話の通知を受けて、認識エンジン１２０３に認識対象を指示する機能部である。認識エンジン１２０３は、音声データを音声認識してテキスト化する機能部である。音声認識制御装置Ｉ／Ｆ部１２０４は、音声認識制御装置１１０とのインタフェースを司る機能部である。認識結果管理装置Ｉ／Ｆ部１２０５は、認識結果管理装置１３０とのインタフェースを司る機能部である。記憶部１２０６は、テーブルやデータを格納する機能部である。音声認識装置１２０の記憶部１２０６には、認識結果テーブル７４と認識結果テキスト９３が格納されている。なお、テーブルの詳細については、後述する。

次に、図６を用いて認識結果管理装置１３０の構成について説明する。
認識結果管理装置１３０は、図６に示されるように、認識結果管理部１３０１、通話評価部１３０２、音声認識装置Ｉ／Ｆ部１３０３、端末Ｉ／Ｆ部１３０４、記憶部１３０５を有する。認識結果管理部１３０１は、音声認識装置１２０から受取った認識結果のテキストと関連する情報を管理する機能部である。通話評価部１３０２は、認識結果のテキストから、例えば、警告語が含まれているかなどの評価を行い、通話評価テーブル８０に格納される通話評価データを生成する機能部である。音声認識装置Ｉ／Ｆ部１３０３は、音声認識装置１２０とのインタフェースを司る機能部である。端末Ｉ／Ｆ部１３０４は、オペレータ用ＰＣ端末２５、スーパバイザ用ＰＣ端末２５ｓとのインタフェースを司る機能部である。記憶部１３０５は、テーブルやデータを格納する機能部である。認識結果管理装置１３０の記憶部１３０５には、認識結果テーブル７４、認識結果テキスト９３、通話評価テーブル８０（詳細は図示せず）が格納されている。なお、テーブルの詳細については、後述する。

次に、図７ないし図１４を用いて通話音声認識システムに用いられるデータ構造について説明する。

通話情報テーブル７０は、ＣＴＩ装置４０から送信される通話に関連する情報を、通話録音管理装置６０が保持するためのテーブルである。通話情報テーブル７０は、図７に示されるように、発信番号７０ａ、内線番号７０ｂ、通話開始時間７０ｃ、通話終了時間７０ｄの各フィールドを有する。

発信番号７０ａには、通話をかけた通話端末１の発信番号が格納される。内線番号７０ｂには、この通話を受信した通話の通話音声認識システムでの内線番号が格納される。通話開始時間７０ｃには、かかってきた通話が開始された時刻が格納される。通話終了時間７０ｄには、かかってきた通話が終了した時刻が格納される。

オペレータ管理情報テーブル７１は、オペレータの設定情報を保持するテーブルであり、図示しなかったがＣＴＩ装置４０の記憶部に格納されている。オペレータ管理情報テーブル７１は、図８に示されるように、内線番号７１ａ、オペレータＩＤ７１ｂ、オペレータ名７１ｃ、所属サイトＩＤ７１ｄの各フィールドを有する。内線番号７１ａには、このオペレータに割り当てられた内線番号が格納される。オペレータＩＤ７１ｂには、オペレータに割り当てられた識別子が格納される。オペレータ名７１ｃには、このオペレータの名前が格納される。所属サイトＩＤ７１ｄには、このオペレータの所属する部署（サイト）のＩＤが格納される。

ＩＰ内線情報テーブル７２は、内線番号とＩＰアドレス対応テーブルの対応付けを示すテーブルであり、通話録音装置５０に保持される。ＩＰ内線情報テーブル７２は、図９に示されるように、内線番号７２ａ、ＩＰアドレス７２ｂ、サイトＩＤ７２ｃの各フィールドを有する。ＩＰ内線情報テーブル７２は、内線番号７２ａのフィールドの内線番号が、ＩＰアドレス７２ｂのフィールドのＩＰアドレスを有することを意味している。サイトＩＤ７２ｃには、その内線番号の属する部署（サイト）を示す名称や識別子が格納される。

録音情報テーブル７３は、通話の録音に関する情報を保持するためのテーブルであり、通話録音装置５０に保持される。録音情報テーブル７３は、図１０に示されるように、通話録音装置ＩＤ７３ａ、録音ＩＤ７３ｂ、録音開始時刻７３ｃ、ＩＰアドレス７３ｄ、音声データファイル７３ｅの各フィールドを有する。通話録音装置ＩＤ７３ａには、通話録音装置５０を識別するためのＩＤが格納される。録音ＩＤ７３ｂには、通話録音のエントリを識別するためのＩＤが格納される。録音開始時刻７３ｃには、通話録音の開始時刻が格納される。ＩＰアドレス７３ｄには、通話に係る通話端末２０のＩＰアドレスが格納される。音声データファイル７３ｅには、通話の音声データファイルのファイルパスが格納される。

認識結果テーブル７４は、音声認識結果に関する情報を保持するためのテーブルであり、音声認識装置１２０に保持され、認識結果管理装置１３０にコピーされて、認識結果テーブル７４として保持される。認識結果テーブル７４は、図１１に示されるように、通話録音装置ＩＤ７４ａ、録音ＩＤ７４ｂ、内線番号７４ｃ、通話ＩＤ７４ｄ、認識結果テキスト７４ｅの各フィールドを有する。通話録音装置ＩＤ７４ａには、通話録音装置５０を識別するためのＩＤが格納される。録音ＩＤ７４ｂには、通話録音のエントリを識別するためのＩＤが格納される。内線番号７４ｃには、通話端末２０のセンタにおける内線番号が格納される。通話ＩＤ７４ｄには、通話を識別するためのＩＤが格納される。認識結果テキスト７４ｅには、通話における発話を音声認識してテキスト化したときのテキストファイルのファイルパス名が格納される。

優先度管理テーブル７６は、各優先度のプライオリティに関する情報を格納するテーブルであり、音声認識制御装置１１０に保持される。優先度管理テーブル７６は、図１２に示されるように、優先考慮項目７６ａ、プライオリティ７６ｂの各フィールドを有する。優先考慮項目７６ａは、各優先度を考慮する項目を識別する文字列が格納される。本実施形態では、優先考慮項目として、サイトごとの優先度を示す「サイト優先度」、通話ごとの発話時間である「発話時間」、通話を感情分析した結果である「感情レベル」がある。プライオリティ７６ｂには、通話の認識順序を定めるにあたって、対応する優先考慮項目のプライオリティが格納される。ここでは、プライオリティ７６ｂの値が小さいほど優先して、音声認識されるものとする。

音声認識制御装置１１０は、このプライオリティに従って、通話に対応する音声を音声認識するように指示する。例えば、図１２に示されるように、優先考慮項目７６ａ「サイト優先度」が、プライオリティ一位となっているので、先ず、サイト優先度に従って、通話の認識順序を付け、もし、「サイト優先度」が同順位であるときには、次のプライオリティ二位の「感情レベル」に従って、通話の認識順序を付け、「感情レベル」が同順位であるときには、次のプライオリティ三位の「発話時間」に従って、通話の認識順序をつける。

サイト優先度は、一般に苦情対応の部署のように、管理する側として通話の内容を詳細に把握すべきサイトに高い優先度付けをするようにする。

また、感情レベルは、お客の感情が怒気を含んでいるなど好ましくないときには、その通話の優先度を高くする。

通話の発話時間については、通話の発話時間が長いときには、音声認識のためのハードウェア・ソフトウェアリソースを多く消費するので、その通話の優先度を低くする。

本実施形態では、認識優先度を三種類の優先考慮項目により判定することにしたが、この内の一つ、あるいは、二つを用いるようにしてもよいし、これ以外の優先考慮項目を付け加えるようにしてもよい。

サイト情報管理テーブル７７は、サイトごとの情報を格納するテーブルであり、音声認識制御装置１１０が保持するテーブルである。サイト情報管理テーブル７７は、図１３に示されるようにサイトＩＤ７７ａ、サイト名称７７ｂ、サイト優先度７７ｃからなる。サイトＩＤ７７ａには、サイトを一意的に識別するためのＩＤが格納される。サイト名称７７ｂには、そのサイトの名称が格納される。サイト優先度７７ｃには、そのサイトの認識優先度を判定するにあたってのサイトの優先度が格納される。ここでは、サイト優先度の値が小さいものほど優先するものとする。

認識順序管理テーブル７９は、通話ＩＤ７９ａ、認識依頼時刻７９ｂ、サイトＩＤ７９ｃ、通話時間７９ｄ、音声データファイル７９ｅ、発話時間７９ｆ、感情レベル７９ｇ、認識優先度７９ｈからなる。通話ＩＤ７９ａには、その通話を一意的に識別するＩＤが格納される。認識依頼時刻７９ｂには、音声認識制御装置１１０が音声認識装置１２０に音声認識を依頼した時刻が格納される。サイトＩＤ７９ｃには、その通話の着信した内線番号の属するサイトのサイトＩＤが格納される。通話時間７９ｄには、その通話の通話時間が格納される。音声データファイル７９ｅには、音声データファイルのファイルパスが格納される。発話時間７９ｆには、その通話の話者が通話した時間が格納される。感情レベル７９ｇには、その通話を感情分析したレベルが格納される。例えば、感情レベルの値が大きいほど、顧客の感情は怒りの感情を含むものとし、値が小さいときには、顧客の感情は穏やかであるとする。認識優先度７９ｈには、その通話の音声認識を依頼する優先度が格納される。ここで、認識優先度７９ｈの値が小さいものほど、認識順序が早く割り当てられるものとする。

次に、図１５Ａないし図１６を用いて通話音声認識システムの処理の詳細について説明する。

先ず、図１５Ａおよび図１５Ｂを用いて外部の通話端末の発信から、オペレータ用ＰＣ端末２５およびスーパバイザ用ＰＣ端末２５ｓに認識結果の表示を行うまでの一連の処理について説明する。

先ず、顧客の通話端末１から発呼され（Ａ０１）、ＩＰ－ＰＢＸ３０で交換処理されて、コールセンタのオペレータの通話端末２０に着呼したとする（Ａ０２）。

ＩＰ－ＰＢＸ３０は、通話情報をＣＴＩ装置４０に送信し（Ａ０３）、ＣＴＩ装置４０は、通話情報を通話録音管理装置６０に送信する（Ａ０４）。

ＩＰ－ＰＢＸ３０から通話端末２０には、ＲＴＰパケットが送信されるが、ＩＰ－ＰＢＸ３０は、同時にコピーしたＲＴＰパケットを通話録音装置５０に転送する（Ａ０５）。

通話録音装置５０は、通話開始がされたことを、内線番号をパラメタとし、通話録音管理装置６０に報告して（Ａ０６）、ＲＴＰパケットに基づいて、分割録音を開始し（Ｓ０２ａ，Ｓ０２ｂ，…）、図９に示したＩＰ内線情報テーブル７２を参照し、図１０に示した録音情報テーブル７３に必要な情報を書き込む。

また、ＣＴＩ装置４０は、通話録音管理装置６０に、通話情報を送信する。

通話録音管理装置６０は、受信した内線番号をキーとして、通話認識情報テーブル（図示せず）を参照して、その内線番号にかかってきた電話に音声認識を行うか否かを判定する（Ｓ０３）。通話認識情報テーブルには、内線番号ごとに、その内線番号にかかってきた通話に対して、リアルタイムで音声認識を行うか否かの情報がふくまれているものとする。通話録音管理装置６０は、その通話がリアルタイム音声認識を行うべきものと判定したときに、通話録音装置５０に音声データの転送を指示する（Ａ０７）。

通話録音装置５０は、それを受けて、通話と紐付けて通話録音管理装置６０に音声データを送信する（Ａ０８）。

次に、通話録音管理装置６０は、音声認識制御装置１１０に、通話情報と音声データを送信する（Ａ０９）。

音声認識制御装置１１０は、音声認識装置１２０のリソースの空きなどの情報を参照し、音声認識をする音声認識装置１２０を選択する（Ｓ０４）。

次に、音声認識制御装置１１０は、図１４に示した認識順序管理テーブル７９の認識優先度７９ｈを参照し、認識優先度７９ｈの値に従って、該当する通話の音声ファイルを音声認識装置１２０に送信し、音声認識を指示する（Ａ１０）。

音声認識装置１２０は、これを受けて該当する通話の音声ファイルの音声認識を行う（Ｓ０６）。そして、音声認識装置１２０は、認識結果管理装置１３０に、認識テキストを含む認識結果を送信する（Ａ１１）。

認識結果管理装置１３０は、通話評価を行い（Ｓ０７）、通話評価情報と認識結果テキストを、オペレータ用ＰＣ端末２５とスーパバイザ用ＰＣ端末２５ｓに送信する（Ａ１２、Ａ１３）。

そして、オペレータ用ＰＣ端末２５とスーパバイザ用ＰＣ端末２５ｓは、認識テキストを表示する（Ｓ０８、Ｓ０９）。

次に、図１６を用いて音声認識の一連の処理を説明する。
先ず、通話録音管理装置６０は、音声認識制御装置１１０に、通話情報と音声データファイルを送信する（Ａ１００、Ａ１０１）。

認識順序制御部１１０３は、送信されてきた通話情報を読み込む（Ａ１０２）。

また、認識順序制御部１１０３は、図１３に示したサイト情報管理テーブル７７を、読み込む（Ａ１０３）。

一方、音声ファイル管理部１１０１は、音声データファイル９０を読み込み、発話時間算出部１１０４と、感情分析部１１０５に送信する（Ａ１０５、Ａ１０７）。

発話時間算出部１１０４は、通話に紐付づけられた音声データを解析し、その通話の発話時間を算出し、認識順序管理テーブル７９の発話時間７９ｆに書き込む（Ａ１０６）。

感情分析部１１０５は、通話に紐付づけられた音声データを解析し、話者の通話を感情分析して、数値化してレベル分けし、認識順序管理テーブル７９の感情レベル７９ｇに書き込む（Ａ１０８）。音声より話者の感情を分析する手法は、既にＡＩに関連する技術として様々に研究されており、公知の技術となっている。

認識順序制御部１１０３は、図１２に示した優先度管理テーブル７６のデータを読み込み（Ａ１０４）、図１４に示した認識順序管理テーブル７９のデータを読み込む（Ａ１０９）。そして、認識順序制御部１１０３は、サイト情報管理テーブル７７の通話に対応するサイトのサイト優先度７７ｃ、認識順序管理テーブル７９の発話時間７９ｆ、感情レベル７９ｇを取得し、優先度管理テーブル７６のプライオリティ７６ｂに従って、通話ごとの認識優先度を算出して、認識優先度７９ｈに書き込む（Ａ１１０）。

認識優先度の算出は、プライオリティ７６ｂに従った順番に行われ、サイト優先度が高い（値が小さい）、感情レベルからみて優先度が高い（値が大きい）、発話時間が短いものほど認識優先度が高く（値が小さく）設定される。

認識実行指示部１１０２は、認識順序管理テーブル７９の認識優先度７９ｈを取得し（Ａ１１１）、取得した認識優先度７９ｈに従って、音声認識装置１２０の認識対象指示部１２０２に音声認識を行う対象となる通話を通知する（Ａ１１２）。

これを受けて、音声認識装置１２０の認識対象指示部１２０２は、音声認識を行う通話を認識エンジン１２０３に指示する（Ａ１１４）。認識エンジン１２０３は、指示された通話に対応する音声データを入力し（Ａ１１３）、音声認識を行って、認識結果テーブル７４に必要な情報を書込み、認識結果テキスト９３を出力する（Ａ１１５）。

以上、本実施形態によれば、音声認識制御装置は、通話を取り扱うサイトの別、音声認識の必要性、通話を音声認識するときの必要なリソースに応じて、適切な音声認識の処理順序に従って音声認識を行うことを、音声認識装置に指示する。

これにより、音声認識の処理順序が最適化され、コールセンタなどの適切な運用と、サーバリソースの有効活用を行うことができる。

〔実施形態２〕
以下、図１７を用いて実施形態２を説明する。
実施形態１では、あるコールセンタ内の部署を「サイト」として捉え、そこにかかってくる通話の音声認識の必要性から、サイト優先度を定める例について説明した。

実施形態２では、音声認識サービスがクラウドとして、各企業に提供される場合の例であり、一つの音声認識サービスを提供されるクライアントを「サイト」として捉える。

サイト優先度は、契約により、定期間（一年契約など）または通話認識ワード数などの定量的な量に依存する契約料金の高いものに対して、サイト優先度を高くすることが考えられる。また、音声認識サービスが重要とみなすクライアントの優先度を高くしてもよい。

実施形態２のシステムの構成としては、クラウド音声認識システム１０００が、インターネットなどのグローバルネットワーク９により、各サイトＳ１、サイトＳ２、サイトＳ３と、それぞれルータ３００ａ、ルータ３００ｂを介して接続されている。

各サイトＳ１、サイトＳ２、サイトＳ３は、実施形態１と同様のＩＰ－ＰＢＸ３０、ＣＴＩ装置４０、通話録音装置５０、通話録音管理装置６０を有しており、顧客からの通話の発着信と、通話の録音は、自サイトで行うものとする。

クラウド音声認識システム１０００は、実施形態１と同様の音声認識制御装置１１０、音声認識装置１２０、認識結果管理装置１３０を有しており、音声認識結果の認識結果テキストをサイトＳ１、サイトＳ２、サイトＳ３に送信する。クラウド音声認識システム１０００は、各サイトから音声を受信し、サイト優先度を考慮に入れて、認識優先度を定めることは実施形態１と同様である。

以上、本実施形態によれば、各サイトが一つの企業体として捉えられ、音声認識サービスをクラウドの形態として提供するときに、契約料金などの適切な根拠に従って、音声認識により通話の音声認識サービスを提供することができる。

１…通話端末（顧客）
５…公衆網
７…ネットワーク
９…グローバルネットワーク
３０…ＩＰ－ＰＢＸ
４０…ＣＴＩ装置
５０…通話録音装置
６０…通話録音管理装置
１１０…音声認識制御装置
１２０…音声認識装置
１３０…認識結果管理装置
２０…オペレータ用通話端末
２５…オペレータ用ＰＣ端末
２０ｓ…通話端末
２５ｓ…スーパバイザ用ＰＣ端末
１０００…クラウド音声認識システム

Claims

通話音声を音声認識する通話音声認識システムであって、
通話の音声を録音する通話録音装置と、
前記通話録音装置から録音した音声データを受信し、通話情報と通話情報に関連付けて音声データを音声認識制御装置に送信する通話録音管理装置と、
通話音声を入力して、テキスト化する音声認識装置と、
前記通話録音管理装置からの通話情報と音声データを受信して、前記音声認識装置に音声データを送信して音声データのテキスト化を指示する音声認識制御装置とを有し、
前記音声認識制御装置は、通話ごとの認識優先度を格納する認識順序管理テーブルを保持し、
前記音声認識制御装置は、通話ごとの通話の音声認識順序を制御する認識順序制御部と、
前記音声認識装置に通話の音声データのテキスト化を指示する認識実行指示部とを有し、
前記認識実行指示部は、前記認識順序管理テーブルに格納された認識優先度に基づいて、前記音声認識装置に対して音声認識を行う通話を指示し、
さらに、前記音声認識制御装置は、通話の着信先の電話番号ごとに定められたサイトのサイト優先度を格納するサイト情報管理テーブルを保持し、
前記認識順序は、前記サイト情報管理テーブルのサイト優先度に基づいて定めることを特徴とする通話音声認識システム。
通話音声を音声認識する通話音声認識システムであって、
通話の音声を録音する通話録音装置と、
前記通話録音装置から録音した音声データを受信し、通話情報と通話情報に関連付けて音声データを音声認識制御装置に送信する通話録音管理装置と、
通話音声を入力して、テキスト化する音声認識装置と、
前記通話録音管理装置からの通話情報と音声データを受信して、前記音声認識装置に音声データを送信して音声データのテキスト化を指示する音声認識制御装置とを有し、
前記音声認識制御装置は、通話ごとの認識優先度を格納する認識順序管理テーブルを保持し、
前記音声認識制御装置は、通話ごとの通話の音声認識順序を制御する認識順序制御部と、
前記音声認識装置に通話の音声データのテキスト化を指示する認識実行指示部とを有し、
前記認識実行指示部は、前記認識順序管理テーブルに格納された認識優先度に基づいて、前記音声認識装置に対して音声認識を行う通話を指示し、
さらに、前記音声認識制御装置は、通話における話者の発話時間を算出する発話時間算出部を有し、
前記認識順序は、前記通話における話者の発話時間に基づいて定めることを特徴とする通話音声認識システム。
さらに、前記音声認識制御装置は、通話における話者の感情を分析し数値化する感情分析部を有し、
前記認識順序は、前記感情分析部により数値化された感情レベルに基づいて定めることを特徴とする請求項１記載の通話音声認識システム。
通話音声を音声認識する通話音声認識システムで行われる通話音声認識方法であって、
通話録音装置が、通話の音声を録音し、
通話録音管理装置が、前記通話録音装置から録音した音声データを受信し、通話情報と通話情報に関連付けて音声データを音声認識制御装置に送信し、
音声認識装置が、通話音声を入力して、テキスト化し、
音声認識制御装置が、前記通話録音管理装置からの通話情報と音声データを受信して、前記音声認識装置に音声データを送信して音声データのテキスト化を指示し、
通話ごとの認識優先度を格納する認識順序管理テーブルを保持する前記音声認識制御装置の認識順序制御部が、通話ごとの通話の音声認識順序を制御し、
認識実行指示部が、前記音声認識装置に通話の音声データのテキスト化を指示し、
前記認識実行指示部が、前記認識順序管理テーブルに格納された認識優先度に基づいて、前記音声認識装置に対して音声認識を行う通話を指示する場合において、
さらに、通話の着信先の電話番号ごとに定められたサイトのサイト優先度を格納するサイト情報管理テーブルを保持する前記音声認識制御装置が、前記認識順序を、前記サイト情報管理テーブルのサイト優先度に基づいて定めることを特徴とする通話音声認識方法。
通話音声を音声認識する通話音声認識システムで行われる通話音声認識方法であって、
通話録音装置が、通話の音声を録音し、
通話録音管理装置が、前記通話録音装置から録音した音声データを受信し、通話情報と通話情報に関連付けて音声データを音声認識制御装置に送信し、
音声認識装置が、通話音声を入力して、テキスト化し、
音声認識制御装置が、前記通話録音管理装置からの通話情報と音声データを受信して、前記音声認識装置に音声データを送信して音声データのテキスト化を指示し、
通話ごとの認識優先度を格納する認識順序管理テーブルを保持する前記音声認識制御装置の認識順序制御部が、通話ごとの通話の音声認識順序を制御し、
認識実行指示部が、前記音声認識装置に通話の音声データのテキスト化を指示し、
前記認識実行指示部は、前記認識順序管理テーブルに格納された認識優先度に基づいて、前記音声認識装置に対して音声認識を行う通話を指示する場合において、
さらに、通話における話者の発話時間を算出する発話時間算出部を有する前記音声認識制御装置が、前記認識順序を、前記通話における話者の発話時間に基づいて定めることを特徴とする通話音声認識方法。