JP7826880B2

JP7826880B2 - 音声テキスト要約システムおよびその方法

Info

Publication number: JP7826880B2
Application number: JP2022135619A
Authority: JP
Inventors: 昌樹佐々木; 孝治黒飛
Original assignee: 株式会社ナカヨ
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2026-03-10
Anticipated expiration: 2042-08-29
Also published as: JP2024032135A

Description

本発明は、音声テキスト要約システム及びその方法に関する。

文章中の重要な部分をまとめて短く表現した要約はニュース記事、論文、書籍など種々のジャンルの文章で使われている。要約を読むことで文章全体を読まなくても短時間で要点を把握することができることから要約作成のニーズは高い。
要約の作成には一般に抽出型と生成型があることが知られている。抽出型は、対象の文章内に含まれる、その文章の内容を十分に説明している代表的な文（もしくは単語）を抽出する方法で要約を作成するアルゴリズムである。一方生成型は、対象の文章内には存在しない単語や構文を用いて要約を作成するアルゴリズムである。また最近は機械学習により作成した学習モデルを用いて重要な文や単語を抽出する手法も開発されている。

例えば特許文献１には、要約対象テキストから要約テキストを作成するテキスト要約システムであって、複数の学習用テキストに対して、所定の前処理を行って学習データを作成する学習用前処理部と、学習データに基づいて機械学習により要約に係る学習モデルを作成する学習モデル作成部と、要約対象テキストに対して所定の前処理を行う前処理部と、前処理がなされた要約対象テキストに対して、学習モデルに基づいて要約テキストを作成する要約作成部と、要約テキストに対して所定の後処理を行って出力する後処理部とを有し、前処理では学習用テキストおよび要約対象テキストに含まれる語句を所定の記号に置換するなどの加工を行い、後処理では要約テキストに対して前処理部により置換された記号を元の語句に復元するなどの加工を行うことで処理負荷の低減を図るものが開示されている。

特開２０１９-１６１８１号公報

文章に含まれる数値や製品名などの単語を記号で置き換える前処理を行って学習モデルや要約を作成し、要約作成段階の後処理において記号から元の単語に戻すといった特許文献１に開示されている方法は、経済ニュース記事など出てくる単語が概ね類型的な文章に対して有効であると考えられる。しかしながらカスタマーセンターなどでの問い合わせの質問や回答は、客とオペレータとのその場の会話のやり取りで成り立つため、主に会話を円滑にするための一般語が多く含まれる文と、問い合わせ内容に係る製品や機能に関する専門語が多く含まれる文が複雑に混ざったテキストになる傾向がある。こうした非定型なテキストに対しては、前処理で単語を記号化した上で要約作成の後処理で元の単語に復元する方法は有効ではない。
そこで、本発明では、カスタマーセンターでの問い合わせなど、一般的な内容と専門的な内容が混在した音声テキストから文を抽出して読みやすい要約を作成する技術を提供することを目的とする。

上記の課題を解決するために、代表的な本発明の音声テキスト要約システムの一つは、音声テキスト要約サーバを備える音声テキスト要約システムであって、音声テキスト要約サーバが、順番に並ぶ複数の文からなる要約対象音声テキストから、一般抽出型による文抽出で、順関係を維持したまま文を抽出する一般抽出型による文抽出部と、要約対象音声テキストから、専門抽出型による文抽出で、順関係を維持したまま文を抽出する専門抽出型による文抽出部と、一般抽出型による文抽出部で抽出した文と、専門抽出型による文抽出部で抽出した文を、順関係を維持したまま結合し要約音声テキストを作成する要約音声テキスト作成部と、を有するものである。

本発明によれば、カスタマーセンターでの問い合わせなど、一般的な内容と専門的な内容が混在した音声テキストから文を抽出して読みやすい要約を作成することができる。
上記した以外の課題、構成および効果は、以下の実施をするための形態における説明により明らかにされる。

図１は、第１実施形態に係る音声テキスト要約システムのシステム構成図である。図２は、主装置の機能構成図である。図３は、音声情報管理サーバの機能構成図である。図４は、音声情報記憶部に保存される情報内容の一例である。図５は、音声テキスト要約サーバの機能構成図である。図６は、専門知識の学習モデル記憶部４７に保存される学習モデルの一覧表の一例である。図７は、音声テキスト要約システムのシーケンス動作例である。図８は、専門知識の学習モデル作成のフローチャートである。図９は、音声テキスト要約作成のフローチャートである。図１０は、実施例における要約対象音声テキストの全文である。図１１は、実施例における要約音声テキストを示している。

以下、図面を参照して、本発明の実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

[第１実施形態]
＜音声テキスト要約システム＞
図１は、第１実施形態に係る音声テキスト要約システムのシステム構成図である。
音声テキスト要約システム１は、主装置１２、音声認識サーバ１３、音声情報管理サーバ１４、音声テキスト要約サーバ１５を備えている。外線電話機１０は、主装置１２を介して内線電話機１１と通話可能に接続する。会社のカスタマーセンターを例にとると、外線電話機１０は客側に位置し、内線電話機１１はオペレータ（会社）側に位置する。主装置１２は、内線電話機１１と連携して呼制御により、内線電話機１１と外線電話機１０、あるいは内線電話機１１同士との間に通話路を確立または解放する。また、通話時の録音情報を保存して、音声情報管理サーバ１４に録音情報を送信する。内線電話機１１は、主装置１２と連携して、外線電話機１０、あるいは内線電話機１１同士と通話可能に接続する。

音声認識サーバ１３は、録音情報（音声データ）から音声テキストを作成する。音声情報管理サーバ１４は、外線電話機１０と内線電話機１１で通話した情報やその要約（録音情報、音声テキスト、要約音声テキスト）を管理する。音声テキスト要約サーバ１５は、後述するように２つの文抽出方法（一般抽出型による文抽出、専門抽出型による文抽出）を用いて、音声テキストから要約音声テキストを作成する。

操作端末１６は、オペレータが操作する端末であり、音声情報管理サーバ１４に、Ｗｅｂブラウザなどにより接続する。ＬＡＮ１７は、主装置１２の配下にある内部ネットワークである。インターネット１８は、外線電話機１０や各種サーバを接続する外部ネットワークである。

以下に本実施形態の音声テキスト要約システムを構成するいくつかの構成要素についてさらに説明する。
（主装置）
図２は、主装置１２の機能構成図である。
ＷＡＮインタフェース部２０は、主装置１２がインターネット１８に接続するインタフェースである。ＬＡＮインタフェース部２１は、主装置１２がＬＡＮ１７に接続するインタフェースである。呼制御部２２は、内線電話機１１と外線電話機１０、あるいは内線電話機１１同士との間に通話路を確立、解放する。録音情報記憶部２３は、通話時の録音情報（音声データ）を保存する。録音情報送信部２４は、通話終了した際、保存した通話時の録音情報を音声情報管理サーバ１４に送信する。録音情報を送信した後は録音情報記憶部２３の録音情報は消去してもよい。

（音声情報管理サーバ）
図３は、音声情報管理サーバ１４の機能構成図である。なお、音声情報管理サーバ１４の機能は主装置１２に組み込まれてもよい。
ネットワークインタフェース部３０は、音声情報管理サーバ１４がインターネット１８に接続するためのインタフェースである。操作端末インタフェース部３１は、Ｗｅｂブラウザなどによりオペレータが操作するインタフェースである。例えば録音情報記憶部３３に保存されている録音情報を閲覧、操作したり、音声テキスト作成の要求、要約音声テキスト作成の要求が行われる。

録音情報受信部３２は、主装置１２が録音情報送信部２４より送信した録音情報を受信する。録音情報記憶部３３は、録音情報受信部３２により受信した録音情報を保存する。音声テキスト作成要求送信部３４は、オペレータが操作端末インタフェース部３１により操作することで、音声認識サーバ１３に音声テキスト作成要求（録音情報（音声データ）から音声テキストを作成する要求）を送信する。音声テキスト作成結果受信部３５は、音声認識サーバ１３が送信した音声テキスト作成要求結果を受信する。音声テキスト記憶部３６は、音声テキスト作成結果受信部３５により受信した音声テキストを保存する。要約音声テキスト作成要求送信部３７は、オペレータが操作端末インタフェース部３１により操作することで、音声テキスト要約サーバ１５に要約音声テキスト作成要求（録音情報（音声テキスト）から要約音声テキストを作成する要求）を送信する。要約音声テキスト作成結果受信部３８は、音声テキスト要約サーバ１５が送信した要約音声テキスト作成結果を受信する。要約音声テキスト記憶部３９は、要約音声テキスト作成結果受信部３８により受信した要約音声テキストを保存する。音声情報記憶部４０は、録音情報記憶部３３と音声テキスト記憶部３６と要約音声テキスト記憶部３９の３つの記憶部を含む。ただし音声情報記憶部４０は特定の領域に各記憶部を配置する構成に限らず、分散配置する構成であってもよい。

図４は、音声情報記憶部４０に保存される情報内容の一例である。
音声情報管理サーバ１４は、主装置１２で作成した録音情報を取得すると、図４に例示した以下の項目に整理して音声情報記憶部４０の録音情報記憶部３３に保存する。
日時：通話を開始した日時
お客様電話番号：外線電話機１０の電話番号
お客様名称：主装置１２の電話帳に登録してある名前で、お客様電話番号と関連付けている
発着信：内線電話機から発信した場合を発信、内線電話機が着信した場合を着信とする
内線番号：通話をした内線番号
対応者：主装置１２の電話帳に登録してあるオペレータの名前で、内線電話機１１の内線番号とオペレータの名前を関連付けている
録音時間：通話を録音した時間
録音ファイル名：通話を録音したファイルの名前

音声テキストは、音声認識サーバ１３により、録音ファイルから会話がテキストに変換され、１文と１文の音声開始位置（例えば音声開始時間）の情報が関連付けられたデータである。なお、１文ごとに会話者の情報を追加してもよい。
要約音声テキストは、音声テキスト要約サーバ１５により、音声テキストを要約したデータである。なお、１文ごとに会話者の情報を追加してもよい。

（音声テキスト要約サーバ）
図５は、音声テキスト要約サーバ１５の機能構成図である。
ネットワークインタフェース部４１は、音声テキスト要約サーバ１５がインターネット１８に接続するためのインタフェースである。操作端末インタフェース部４２は、Ｗｅｂブラウザなどにより専門知識の学習モデルの管理者が操作するインタフェースである。例えば学習データ記憶部４５に保存されている学習データや専門知識の学習モデル記憶部４７に保存されている学習モデルの情報を閲覧、操作する。

次に図５を用いて専門知識の学習モデルの作成について説明する。
専門知識の学習モデル作成要求受信部４３は、操作端末１６が送信した専門知識の学習モデル作成要求を、ネットワークインターフェース部４１と操作端末インターフェース部４２を通して受信する。専門知識の学習モデル作成要求内に学習用テキストも含ませることができる。
学習データ作成部４４は、専門知識の学習モデル作成要求の受信により読み込まれた学習用テキストに対して、学習用テキストのカテゴリ（種類）により、学習データを作成する。学習データ記憶部４５は、学習データ作成部４４により作成した学習データを保存する。専門知識の学習モデル作成部４６は、保存した学習データにもとづき専門知識の学習モデルを作成する。専門知識の学習モデル記憶部４７は、専門知識の学習モデル作成部４６で作成した専門知識の学習モデルを保存する。専門知識の学習モデル作成結果送信部４８は、専門知識の学習モデル作成要求に対する結果を、操作端末インターフェース部４２とネットワークインターフェース部４１を通して操作端末１６に送信する。

図６は、専門知識の学習モデル記憶部４７に保存される学習モデルの一覧表の一例である。学習用テキストはＦＡＱ／問合せ事例／取扱説明書／工事・保守マニュアル／設計書など専門的な文書のカテゴリに分けることができる。さらに製品Ａ、製品Ｂなど、製品ごとの単位に仕分けることができる。このように専門的な文書をカテゴリと製品の単位に仕分けることで、単位ごとに所定の専門知識が多く含まれる学習用テキストが得られ、係る学習用テキストを用いることで、所定の専門知識の単位で学習モデルを作成することができる。
学習用テキストには、専門知識の単位が機械的に判別可能なように、カテゴリや製品名などの情報を予め記録しておくことができる。したがって学習データ作成部４４で学習用テキストを読み込ませる際に、機械が自動で専門知識単位ごとに学習用テキストを判別することができ、各専門知識単位ごとに学習用テキストを仕分けすることができる。専門知識の学習モデル作成部４６では、こうして専門知識ごとに仕分けられた学習データの単位で学習が行われ、結果として専門知識単位での学習モデルが作成される。そして専門知識ごとに作成された学習モデルごとに専門知識の学習モデル記憶部４７に保存される。

次に図５を用いて要約音声テキストの作成について説明する。
要約音声テキスト作成要求受信部４９は、音声情報管理サーバ１４から送信されたオペレータからの要約音声テキスト作成要求を受信する。また要約音声テキスト作成要求内に音声管理情報サーバ１４より音声テキスト（以下、「要約対象音声テキスト」ともいう）も受信する。要約対象音声テキスト取得部５０は、要約音声テキスト作成要求受信部４９により受信した要約対象音声テキストを取得する。

一般抽出型による文抽出部５１は、学習モデルを使わずに要約のアルゴリズムを使用して文抽出する場合と、日本語の汎用言語モデルを使用して文抽出する場合があり、専門知識に対し中立的な汎用的内容の文を抽出することができる。
学習モデルを使わずに要約のアルゴリズムを使用する場合は、ＴＦ－ＩＤＦを用いた類似度算出の手法や代数的アプローチの手法などを使ったアルゴリズム、例えば、ＬｅｘＲａｎｋ、ＬＳＡ、Ｒｅｄｕｃｔｉｏｎ、Ｌｕｈｎ、ＳｕｍＢａｓｉｃ、ＫＬなどの公知の要約作成アルゴリズム技術を用いることができる。
日本語の汎用言語モデルを使用する場合は、学習データとしては、日本語のＷｉｋｉｐｅｄｉａや国語辞書など分野横断的にあらゆる分野をカバーする膨大な量のテキストを使用し、アルゴリズムについては、ディープラーニングや、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＢＥＲＴＳＵＭＥｘｔモデルなど公知の技術を適宜使用する。モデルにはＷｏｒｄ２Ｖｅｃの他、ＢＥＲＴやＧＰＴなどを用いる。
要約として文を抽出する場合、会話の１文にある会話の開始時間の情報は、文を抽出するための分析時は不要のため削除してもよい。

専門抽出型による文抽出部５２は、専門知識の学習モデルを用いて、要約対象音声テキストの会話１文ごとに、類似度を算出する。そして、類似度が所定の閾値よりも高い文を抽出する。類似度は専門知識単位ごとに算出してもよい。その場合は所定の文に対し算出された専門知識単位ごとの類似度から総合的に算出した１つの類似度と閾値とを比較することもできる。１つの類似度に集約する仕方は特に限定されない。
要約音声テキスト作成部５３は、一般抽出型による文抽出部５１で抽出した文と、専門抽出型による文抽出部５２で抽出した文を時系列の順番に結合する。
要約音声テキスト作成結果送信部５４は、要約音声テキスト作成要求に対する結果である要約音声テキストを音声情報管理サーバ１４に送信する。

図７は、音声テキスト要約システムのシーケンス動作例である。外線電話機１０、主装置１２、内線電話機１１、音声情報管理サーバ１４、操作端末１６、音声認識サーバ１３、音声テキスト要約サーバ１５で行われる操作や送受信のやり取りが示されている。これらの動作の内容は上述の内容と重複するので説明は省略する。

＜専門抽出型による要約作成の手順＞
次に、音声テキスト要約サーバ１５において、専門知識の学習モデルを作成し、それを用いて音声テキストの要約を作成する手順を説明する。
（専門知識の学習モデル作成のフローチャート）
図８は、専門知識の学習モデル作成のフローチャートである。各手順について以下に説明する。
・専門知識の学習モデル作成要求受信（Ｓ１０１）
専門知識の学習モデル作成要求受信部４３は、操作端末１６からＷｅｂなどの端末インタフェースにより、専門知識の学習モデル作成要求を受信する。
・学習用テキスト読み込み（Ｓ１０２）
専門知識の学習モデル作成要求受信部４３は、専門知識の学習モデル作成要求を受信した場合、作成要求内にある学習用テキストを読み込む。

・学習用テキストの種類判定（Ｓ１０３）
学習用テキストによって、学習箇所が異なるため、学習テキストを種類（カテゴリ）ごとに判定する。
・学習対象を「機能」ごとに設定（Ｓ１０４）
取扱説明書／工事・保守マニュアル／設計書の場合は、「機能」ごとに内容（章、項番）が分かれている。専門知識の学習モデルを用いた要約作成では、要約対象音声テキストの１文ごとに「機能」の内容を比較して類似度を算出できるようにする。
・学習対象を「問合せ内容」ごとに設定（Ｓ１０５）
ＦＡＱ／問合せ事例の場合は、「問合せ内容」（例えば製品に関する問合せ）ごとに内容が分かれている。専門知識の学習モデルを用いた要約作成では、要約対象音声テキストの１文ごとに「問合せ内容」を比較して類似度を算出できるようにする。

・テキストを整形（Ｓ１０６）
テキストを整形して書き方を統一する。テキストの書き方の違いによって検索結果に違いが起こる可能性を減らすために行う。
例えば、「全角英大文字、全角英小文字、半角英小文字」を「半角英大文字」に統一したり、「全角数字」を「半角数字」にする。
・形態素解析（Ｓ１０７）
例えば、オープンソースであるＭｅＣａｂを使用し、ＭｅＣａｂのシステム辞書と、専門語辞書に基づいて、形態素解析する。その際専門語辞書を優先して形態素解析する。例えば、「主装置」という単語は、システム辞書では「主」と「装置」に分かち書きされるため、「主装置」という単語を専門語辞書に登録する。これにより、「主装置」というテキストは、「主装置」という１つの単語になる。
・ストップワードの単語の削除（Ｓ１０８）
索引語または検索語として利用する可能性が無い単語、あるいは利用すると検索効率が低下する単語を検索で使わないように削除する。「名詞」「動詞」「形容詞」以外の単語は、機能語と判断し、ストップワードとして削除したり、「記号」もストップワードとして削除する。また、一般的過ぎる単語、頻出し過ぎる単語（例：「あそこ」「あちら」「いくつ」など）や検索する文書データを特定する上で不十分なもの（例：アルファベット１文字）や検索語として通常使われないもの（例：最初の文字が「小文字のひらがな」「小文字のカタカナ」）をストップワードとして削除する。
・専門語の単語を変換（Ｓ１０９）
システム辞書と専門語辞書を用いた形態素解析によって、テキストを単語に分かち書きしたあと、各単語に対して、複数の書き方がある同じ意味の単語の表現を統一したり、一般的な単語の組み合わせ表現に変換する（例：「送受信」→「送信受信」）。
これにより、同じ意味でも書き方の違いによって検索がヒットしなくなる可能性を減らす。なお、元の単語を残しておくこともできる。
・形態素解析の単語を分割（Ｓ１１０）
学習テキストで使われている単語の組み合わせで分割する（例：「アプリバージョン」を「アプリケーションバージョン」と分割し、さらに前後の分割前の単語を追加して、「アプリバージョンアプリケーションバージョンアプリバージョン」とする。）。
これにより、同じ意味でも検索文に入力する単語の組み合わせの違いによって検索がヒットしなくなる可能性を減らすことができる。
例えば、「アプリバージョン」という単語は、「アプリケーション」と「バージョン」の２つの単語の組み合わせパターンも含まれるようになる。従って、学習テキストに「アプリケーション」や「バージョン」という表現が使われている場合、「アプリバージョン」で検索すると、当該検索対象との類似度が高くなる。
Ｓ１０３～Ｓ１１０の手順は、学習データ作成部４４で行われる。

・学習データ記憶（Ｓ１１１）
学習データ記憶部４５において、形態素解析の単語を分割する処理までの結果について、専門知識の学習モデルを作成するための学習データとして保存する。
・専門知識の学習モデル作成（Ｓ１１２）
専門知識の学習モデル作成部４６において、学習用テキストで使われている単語をベクトル化（数値化）して、検索文と問合せ事例の類似度をベクトルの近さに基づいて算出できるようにする。単語のベクトル化には、例えばＷｏｒｄ２Ｖｅｃを用いて、単語とベクトルを対応付けた学習モデルを作成する。
単語のベクトルを用いて、ＴＦ－ＩＤＦ法の計算により、検索対象として設定した「機能」ごと、または「問合せ内容」ごとにベクトル化（数値化）する。
・専門知識の学習モデル記憶（Ｓ１１３）
専門知識の学習モデル記憶部４７において、専門知識の学習モデル作成で作成したモデルを保存する。
・専門知識の学習モデル作成結果送信（Ｓ１１４）
専門知識の学習モデル作成結果送信部４８において、専門知識の学習モデル作成要求に対する結果を操作端末１６に送信する。

（音声テキスト要約作成のフローチャート）
次に上述した専門知識の学習モデルを用いて音声テキスト要約サーバ１５で行われる音声テキストの要約を作成する手順を説明する。図９は、音声テキスト要約作成のフローチャートである。図９（a）は全体の手順を、図９（b）は専門抽出型による文抽出部５２において行われる専門抽出型による文抽出の詳細手順を示している。
まず図９（a）に基づいて全体の手順について説明する。
・要約音声テキスト作成要求受信（Ｓ２０１）
要約音声テキスト作成要求受信部４９は、音声情報管理サーバ１４から要約音声テキスト作成要求を受信する。
・要約対象音声テキスト読み込み（Ｓ２０２）
要約音声テキスト作成要求受信部４９は、要約音声テキスト作成要求を受信した場合、作成要求内にある要約対象音声テキストを読み込み、要約対象音声テキストは要約対象音声テキスト取得部５０により取得される。

・一般抽出型による文抽出（Ｓ２０３）
一般抽出型による文抽出部５１において、上述のとおり公知の日本語の要約技術に基づいて、要約対象音声テキストから、文を抽出する（以下、「ステップ１」ともいう）。要約として文を抽出する場合、会話の１文にある会話の開始時間の情報は、文を抽出するための分析時は不要のため削除してもよい。
・専門抽出型による文抽出（Ｓ２０４）
専門抽出型による文抽出部５２において、専門知識の学習モデルを用いて文抽出を行う（以下、「ステップ２」ともいう）。詳細は図９（ｂ）に基づいて別途説明する。なお、一般抽出型による文抽出（Ｓ２０３）と専門抽出型による文抽出（Ｓ２０４）は、それぞれ要約対象音声テキストを基に抽出が行われる。
・要約音声テキスト作成（Ｓ２０５）
要約音声テキスト作成部５３において、一般抽出型による文抽出と専門抽出型による文抽出の結果を時系列の順番に結合する（以下、「ステップ３」ともいう）。
・要約音声テキスト作成結果送信（Ｓ２０６）
要約音声テキスト作成結果送信部５４において、要約音声テキスト作成要求に対する結果を音声情報管理サーバ１４に送信する。

次に図９（ｂ）に基づいて専門抽出型による文抽出（Ｓ２０４）の手順について詳細に説明する。
・要約対象音声テキストの会話１文抽出（Ｓ３０１）
要約対象音声テキストに表れる会話テキスト１文ごとにベクトル化（数値化）するため、抽出する文があり、１文抽出できたらテキスト整形の処理へ、抽出する文がなければ「類似度による文抽出」（Ｓ３０８）の処理に移行する。
・テキストを整形（Ｓ３０２）
専門知識の学習モデル作成のフローチャート（図８）で説明した「テキストを整形」（Ｓ１０６）の処理と同様である。
更に、会話の１文にある会話の開始時間の情報は不要のため削除してもよい。
・形態素解析（Ｓ３０３）
専門知識の学習モデル作成のフローチャート（図８）で説明した「形態素解析」（Ｓ１０７）の処理と同様である。
・ストップワードの単語の削除（Ｓ３０４）
専門知識の学習モデル作成のフローチャート（図８）で説明した「ストップワードの単語の削除」（Ｓ１０８）の処理と同様である。
・専門語の単語を変換（Ｓ３０５）
専門知識の学習モデル作成のフローチャート（図８）で説明した「専門語の単語を変換」（Ｓ１０９）の処理と同様である。
・形態素解析の単語を分割（Ｓ３０６）
専門知識の学習モデル作成のフローチャート（図８）で説明した「形態素解析の単語を分割」（Ｓ１１０）の処理と同様である。
・会話１文のベクトル化（Ｓ３０７）
単語のベクトルを用いて、ＴＦ－ＩＤＦ法の計算により、要約対象音声テキストの会話１文ごとにベクトル化（数値化）する。
・類似度による文抽出（Ｓ３０８）
要約対象音声テキストの会話１文ごとに、類似度を算出する。また、類似度が所定の閾値よりも高い文を抽出する。

＜実施例＞
第１実施形態による要約音声テキスト作成の実施例を説明する。図１０は、実施例における要約対象音声テキストの全文である。会話の１文に対し、会話の開始時間の情報がある。またステップ２の専門知識の学習モデルを適用した際の文の類似度も表示してある。実施例ではカスタマーセンターのオペレータと客でカメラ付きドアホンの取り付けに関する問い合せの会話が１文ごとにテキスト化されている。

図１１は、実施例における要約音声テキストを示している。図１１（ａ）は、一般抽出型による文抽出（ステップ１）が適用され、一般的な内容の文が抽出されている。学習モデル無しの公知の日本語の要約技術が用いられたが、国語辞書など分野横断的内容で学習された日本語の学習モデルを用いて抽出してもよい。なお、会話の１文にある会話の開始時間の情報は、文を抽出するための分析時は不要のため削除される。
図１１（ｂ）は、専門抽出型による文抽出（ステップ２）を適用し、類似度９１％以上の文を抽出した例が示されている。製品や型番など専門的な内容の文が抽出されていることがわかる。閾値を上げれば一般により専門的な文に絞られ、下げれば一般的な内容を含む割合の高い文も入ってくることから、閾値の値を調整して要約に含まれる専門的内容の割合を調整することが可能となる。なお、ここでも会話の１文にある会話の開始時間の情報は、文を抽出するための分析時は不要のため削除される。
図１１（ｃ）は、ステップ１とステップ２の抽出結果を時系列の順番に結合したものが最終成果物である要約音声テキストとして示されている。ステップ１とステップ２の抽出結果が重複する場合は結合する際に上書きされる。ステップ１の抽出は会話によく出る一般的な内容で会話を円滑にする内容が多く、ステップ２の抽出は要約に出てくることが期待される重要で専門的な内容が多く、ステップ３でこれらを結合することで会話として読みやすくかつ重要な内容が現れる文が要約として抽出されることが確認された。
なお、ステップ２で類似度の閾値との大小関係に応じて、要約に現れてほしい重要な文を抽出しているが、オペレータが要約の分量を行数で指定したり、割合（％）で指定した条件も考慮できるようにしてもよい。その際、条件に収まらなかった場合は、警告を出したり、ステップ１の抽出文を削除したり、条件に合うようにするために、類似度の閾値を変更するなどの措置を講ずることができる。また、ステップ２の抽出は要約に出てくることが期待される重要で専門的な内容が多いため、ステップ３でステップ２の抽出結果を強調するために、ステップ２の抽出した文の色を変えたり、太字に変えたりし、表示を変えるようにしてもよい。

[第２実施形態]
第２実施形態は、ステップ２において、専門知識の学習モデルでなく予め登録してある専門語の辞書を用いる点で第１実施形態と異なる。
専門語の辞書を用いて、要約対象音声テキストの１文ごとに、文内で使用している単語を検索する。そして単語検索（完全一致）した結果、単語が見つかった件数が多い文を抽出する。
（効果）
例えばニーズのある製品に関する専門語の辞書を単語集といった形で構築し、完全一致でヒットする文を抽出することができ、学習モデルを使用する第１実施形態より少ない負荷で、要約対象音声テキストに含まれる文のうち、要約にも現れてほしい重要なものが、要約に現れるようになる。

[第３実施形態]
第３実施形態は、ステップ２において、予め登録してある専門語の辞書に対する単語検索をする際、単語検索（完全一致、部分一致）した結果、単語が見つかった件数と一致した条件にもとづいた重みづけにより重要度を求め、重要度が高い文を抽出する点で第２実施形態と異なる。重要度は例えば以下のようにして定義すればよい。
重要度＝[（完全一致の件数）×（完全一致の重みづけ）]＋[（部分一致の件数）×（部分一致の重みづけ）]
（効果）
例えばニーズのある製品に関する専門語の辞書を単語集といった形で構築し、完全一致、部分一致と一致の条件にもとづいた重みづけでヒットする文を抽出することができ、学習モデルを使用する第１実施形態より少ない負荷で、要約対象音声テキストに含まれる文のうち、要約にも現れてほしい重要なものが、要約に現れるようになる。

以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
例えば要約対象音声テキストの文の順番は実施例のように時系列である必要はなく、所定の順番で並んでおり、ステップ１～３において、文の順関係（前後関係）が維持されていればよい。また音声や文書の言語は日本語に限られるものではなく他の言語にも適用可能であることは言うまでもない。

本発明の内容となり得る項目を以下に述べる、ただしこれに限られるものではない。
（項目１）
音声テキスト要約サーバを備える音声テキスト要約システムであって、
前記音声テキスト要約サーバが、
順番に並ぶ複数の文からなる要約対象音声テキストから、一般抽出型による文抽出で、順関係を維持したまま文を抽出する一般抽出型による文抽出部と、
前記要約対象音声テキストから、専門抽出型による文抽出で、順関係を維持したまま文を抽出する専門抽出型による文抽出部と、
前記一般抽出型による文抽出部で抽出した文と、前記専門抽出型による文抽出部で抽出した文を、順関係を維持したまま結合し要約音声テキストを作成する要約音声テキスト作成部と、
を有する、音声テキスト要約システム。
（項目２）
前記専門抽出型による文抽出部が、専門知識の学習モデルを用いて文抽出を行う、項目１に記載の音声テキスト要約システム。
（項目３）
前記専門抽出型による文抽出部が、専門語の辞書を用いて文抽出を行う、項目１に記載の音声テキスト要約システム。
（項目４）
前記専門抽出型による文抽出部において、前記専門知識の学習モデルに基づいた抽出が、１文ごとに類似度検索をして所定の閾値以上の類似度を示す文を抽出する、項目２に記載の音声テキスト要約システム。
（項目５）
前記要約対象音声テキストが時系列の順番に並ぶ複数の会話文からなる、項目１～４のいずれか一つに記載の音声テキストの要約システム。
（項目６）
音声データから音声テキストを作成する音声認識サーバと、
前記音声データと、前記音声テキストと、前記要約音声テキストを管理する音声情報管理サーバと、
をさらに備える、項目１～５のいずれか一つに記載の音声テキスト要約システム。
（項目７）
順番に並ぶ複数の文からなる要約対象音声テキストから、一般抽出型による文抽出で、順関係を維持したまま文を抽出するステップ１と、
前記要約対象音声テキストから、専門抽出型による文抽出で、順関係を維持したまま文を抽出するステップ２と、
前記ステップ１で抽出した文と、前記ステップ２で抽出した文を、順関係を維持したまま結合し要約音声テキストを作成するステップ３と、
を有する音声テキスト要約方法。
（項目８）
前記専門抽出型による文抽出が、専門知識の学習モデルを用いて文抽出を行う、項目７に記載の音声テキスト要約方法。
（項目９）
前記専門抽出型による文抽出が、専門語の辞書を用いて文抽出を行う、項目７に記載の音声テキスト要約方法。
（項目１０）
前記ステップ２において、前記専門知識の学習モデルに基づいた抽出が、１文ごとに類似度検索をして所定の閾値以上の類似度を示す文を抽出する、項目８に記載の音声テキスト要約方法。
（項目１１）
前記要約対象音声テキストが時系列の順番に並ぶ複数の会話文からなる、項目７～１０のいずれか一つに記載の音声テキスト要約方法。

１…音声テキスト要約システム、１０…外線電話機、１１…内線電話機、１２…主装置、、１３…音声認識サーバ、１４…音声情報管理サーバ、１５…音声テキスト要約サーバ、１６…操作端末、１７…ＬＡＮ、１８…インターネット、２０…ＷＡＮインタフェース部、２１…ＬＡＮインタフェース部、２２…呼制御部、２３…録音情報記憶部、２４…録音情報送信部、３０…ネットワークインタフェース部、３１…操作端末インタフェース部、３２…録音情報受信部、３３…録音情報記憶部、３４…音声テキスト作成要求送信部、３５…音声テキスト作成結果受信部、３６…音声テキスト記憶部、３７…要約音声テキスト作成要求送信部、３８…要約音声テキスト作成結果受信部、３９…要約音声テキスト記憶部、４０…音声情報記憶部、４１…ネットワークインタフェース部、４２…操作端末インタフェース部、４３…専門知識の学習モデル作成要求受信部、４４…学習データ作成部、４５…学習データ記憶部、４６…専門知識の学習モデル作成部、４７…専門知識の学習モデル記憶部、４８…専門知識の学習モデル作成結果送信部、４９…要約音声テキスト作成要求受信部、５０…要約対象音声テキスト取得部、５１…一般抽出型による文抽出部、５２…専門抽出型による文抽出部、５３…要約音声テキスト作成部、５４…要約音声テキスト作成結果送信部

Claims

音声テキスト要約サーバを備える音声テキスト要約システムであって、
前記音声テキスト要約サーバが、
順番に並ぶ複数の文からなる要約対象音声テキストから、学習モデルなしの要約作成アルゴリズム、または汎用言語モデルを適用して、順関係を維持したまま一般的な内容の文を抽出する一般抽出型による文抽出部と、
前記要約対象音声テキストから、専門知識の学習モデルを適用し前記要約対象音声テキストの１文ごとに類似度検索をして得られる所定の閾値以上の類似度、または専門語の辞書を適用し前記要約対象音声テキストの１文ごとに単語検索をして得られる一致度に基づいて、順関係を維持したまま専門的な内容の文を抽出する専門抽出型による文抽出部と、
前記一般抽出型による文抽出部で抽出した一般的な内容の文と、前記専門抽出型による文抽出部で抽出した専門的な内容の文を、順関係を維持したまま結合し要約音声テキストを作成する要約音声テキスト作成部と、
を有する、音声テキスト要約システム。
前記単語検索をして得られる一致度が、完全一致した件数であるか、または完全一致した件数もしくは部分一致した件数にそれぞれの重みづけを加味して得られる重要度である、請求項１に記載の音声テキスト要約システム。
前記要約対象音声テキストが時系列の順番に並ぶ複数の会話文からなる、請求項１に記載の音声テキストの要約システム。
音声データから音声テキストを作成する音声認識サーバと、
前記音声データと、前記音声テキストと、前記要約音声テキストを管理する音声情報管理サーバと、
をさらに備える、請求項１～３のいずれか一つに記載の音声テキスト要約システム。
順番に並ぶ複数の文からなる要約対象音声テキストから、一般抽出型による文抽出部により、学習モデルなしの要約作成アルゴリズム、または汎用言語モデルを適用して、順関係を維持したまま一般的な内容の文を抽出するステップ１と、
前記要約対象音声テキストから、専門抽出型による文抽出部により、専門知識の学習モデルを適用し前記要約対象音声テキストの１文ごとに類似度検索をして得られる所定の閾値以上の類似度、または専門語の辞書を適用し前記要約対象音声テキストの１文ごとに単語検索をして得られる一致度に基づいて、順関係を維持したまま専門的な内容の文を抽出するステップ２と、
前記ステップ１で抽出した一般的な内容の文と、前記ステップ２で抽出した専門的な内容の文を、要約音声テキスト作成部により、順関係を維持したまま結合し要約音声テキストを作成するステップ３と、
を有する音声テキスト要約方法。
前記要約対象音声テキストが時系列の順番に並ぶ複数の会話文からなる、請求項５に記載の音声テキスト要約方法。