JP4838351B2

JP4838351B2 - キーワード抽出装置

Info

Publication number: JP4838351B2
Application number: JP2009508884A
Authority: JP
Inventors: 充遠藤; 麻紀山田; 景子森井; 知浩小沼; 和也野村
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2007-03-29
Filing date: 2008-03-14
Publication date: 2011-12-14
Anticipated expiration: 2028-03-14
Also published as: JPWO2008126355A1; EP2045798A1; CN101542592A; EP2045798A4; WO2008126355A1; EP2045798B1; US20090150155A1; US8370145B2

Description

本発明は、キーワード抽出装置に係り、特に会話内に含まれるキーワードを抽出するキーワード抽出装置に関するものである。

従来のキーワード抽出装置は、あらかじめ、電子レンジ等のキーワードとＵＲＬへのアクセス等のアクション情報との対応関係を示した対応データを保持している。そして、キーワード抽出装置は、上記対応データに基づいて、ある会話の中からキーワードを検出し、そのキーワードに対応するアクション情報に基づく処理を実行する。このようにして、音声認識による情報の提示が行われていた（例えば、特許文献１）。

特開２００５−２１５７２６号公報（段落００２１〜段落００３６、図２〜図３参照）

しかしながら、特許文献１に記載の装置においては、想定される場面別に上記対応データを準備しなければならないため、利用しにくいという問題があった。
本発明の目的は、上記の状況に対処するためになされたものであり、会話内のキーワードを事前に予想して準備することなく、会話内のキーワードを抽出することができるキーワード抽出装置を提供することである。

上記従来の課題を解決するために、本発明は、発話者の発話音声を入力する音声入力部と、上記入力された発話音声について、上記発話者ごとの発話区間を判定する発話区間判定部と、上記判定された発話区間の発話音声を上記発話者ごとに認識する音声認識部と、上記各発話者の発話音声に対する他の発話者の応答に基づいて、キーワードの存在を示唆する発話応答の特徴を抽出する発話応答特徴抽出部と、上記抽出された発話応答の特徴に基づいて特定した発話区間の発話音声から前記キーワードを抽出するキーワード抽出部と、を含む。

本発明に係るキーワード抽出装置によれば、会話内のキーワードを事前に予想して準備することなく、会話内のキーワードを抽出することができる。

以下、本発明の実施の形態１〜５について図面を参照しながら説明する。実施の形態１〜５は、例えば、２人の発話者Ａ、Ｂが、携帯電話等の情報端末を用いて会話している場面を想定して説明する。
（実施の形態１）
図１は、本発明の実施の形態１におけるキーワード抽出装置を含むシステム全体の構成例を示すブロック図である。
図１において、キーワード抽出装置１００は、ある発話者Ａの情報端末であり、インターネット等のネットワーク４００へ接続できるように構成されている。ネットワーク４００には、別の発話者Ｂの情報端末２００や検索サーバ３００が接続されるように構成されている。キーワード抽出装置１００および情報端末２００は、携帯電話、ノート型パソコン、携帯情報端末等の情報端末である。検索サーバ３００は、公知の検索エンジンを搭載したサーバである。

キーワード抽出装置１００は、音声入力部１０１、発話区間判定部１０２、音声認識部１０３、割込検出部１０４、キーワード抽出部１０５、キーワード検索部１０６および表示部１０７を有する。
音声入力部１０１は、発話者の音声（以下、発話音声という）を入力するためのものである。音声入力部１０１は、例えば、マイクロフォン、ネットワーク４００との通信インターフェース等が該当する。

発話区間判定部１０２は、上記入力された発話音声について、発話者ごとの発話区間を判定する。発話区間とは、発話者が会話を開始し初めてから終了するまでの区間をいう。
例えば、発話者Ａと発話者Ｂの会話が、図２（ａ）または図２（ｂ）に示すような場合、発話区間判定部１０２は、発話者Ａの会話の開始時間ｔｓ１から終了時間ｔｅ１までの区間、すなわちｔｓ１−ｔｅ１を発話者Ａの発話区間１として判定する。さらに、発話区間判定部１０２は、発話者Ｂの会話の開始時間ｔｓ２から終了時間ｔｅ２までの区間、すなわちｔｓ２−ｔｅ２の区間を発話者Ｂの発話区間２として判定する。

図１に戻って、音声認識部１０３は、上記判定された発話区間の発話音声を発話者ごとに認識する。具体的には、音声認識部１０３は、すべての発話者の会話音声について、公知の音声認識技術によりテキスト文字化する。さらに、音声認識部１０３は、個々の発話者の会話音声について、その開始時間（開始点）および終了時間（終了点）を対応づける。

割込検出部１０４（発話応答特徴抽出部）は、上記判定された発話区間について、各発話者の発話音声に基づいて発話の特徴、すなわち先行発話と後行発話とが重なる割り込みを検出する。例えば、発話者Ａと発話者Ｂの会話が、図２（ｂ）に示した会話の場合、割込検出部１０４は、発話者Ａの先行発話の途中、すなわちｔｓ１で発話者Ｂの後行発話が開始されているので、上記割り込みを検出する。この検出方法は次のとおりである。
すなわち、割込検出部１０４は、まず、後行発話の開始時間からその直前の先行発話の終了時間までの区間（以下、発話間隔という）を計測する。例えば、図２（ａ）（ｂ）の場合、割込検出部１０４は、発話間隔＝図２（ａ）（ｂ）のｔｓ２−ｔｅ１の算出式を用いて、発話間隔を計算する。次に、割込検出部１０４は、上記計算の結果、発話間隔がマイナスの値（図２（ｂ）参照）になるかどうかを判断する。そして、割込検出部１０４は、当該発話間隔がマイナスの値の場合（図２（ｂ）参照）、割り込みがあるものとして検出することとなる。

キーワード抽出部１０５は、上記抽出された発話の特徴、すなわち先行発話と後行発話とが重なる割り込みに基づいて、音声認識部１０２で認識された発話音声の中から、その発話音声の会話内で話題になっている語（以下、キーワードという）を抽出する。具体的には、キーワード抽出部１０５は、音声認識部１０２から、音声認識部１０２で認識された会話音声を取得する。この会話音声には、各発話者の開始時間および終了時間が対応付けられている。また、キーワード抽出部１０５は、割込検出部１０４から、割込検出部１０４で割り込みが検出された発話区間（例えば、図２（ｂ）の発話者Ｂの発話区間２）と、割り込まれた発話区間（例えば、図２の発話者Ａの発話区間１）とを取得する。これら各発話区間は、開始時間および終了時間により対応づけられている。

さらに、キーワード抽出部１０５は、上記キーワードを抽出する場合、例えば、割り込まれた先行発話内の末尾（最後）の構成素（例えば名詞）をキーワードとして抽出する。ここで、先行発話内の末尾とは、割り込み時（例えば、図２（ｂ）のｔｓ２の時間）よりも前の発話区間（例えば、図２（ｂ）のｔｓ１−ｔｓ２）内をいう。
具体的には、まず、キーワード抽出部１０５は、上記取得した各発話者の発話区間（例えば、図２（ｂ）の発話区間１、２）のうち、開始時間の早い発話者の発話区間（例えば、図２（ｂ）の発話区間１）を選定する。次に、キーワード抽出部１０５は、上記選定した発話区間（例えば、図２（ｂ）の発話区間１）において、上記取得した他の発話区間の開始時間（つまり割り込み時間、例えば図２（ｂ）のｔｓ２）の直前の構成素（例えば名詞）を検出する。次に、キーワード抽出部１０５は、上記検出した構成素（例えば名詞）をキーワードとして抽出する。

キーワード検索部１０６は、上記抽出されたキーワードを用いて、キーワード検索を行う。具体的には、まず、キーワード検索部１０６は、ネットワーク４００を介して、検索サーバ３００へ接続する。すると、検索サーバ３００は、キーワード検索部１０６から、上記キーワード検索の要求を受け、そのキーワード検索の検索結果を、ネットワーク４００を介して、キーワード抽出装置１００のキーワード検索部１０６に返送する。キーワード検索部１０６は、上記返送により、検索サーバ３００から、キーワード検索の検索結果を受信する。

表示部１０７は、キーワード検索部１０６により検索された結果、すなわち検索サーバ３００の検索結果を表示する。表示部１０７は、ディスプレイや表示パネル等の表示装置である。

なお、本実施の形態において、発話区間判定部１０２、音声認識部１０３、割込検出部１０４、キーワード抽出部１０５およびキーワード検索部１０６は、ＣＰＵ等の処理装置が該当する。その他、キーワード抽出装置１００は、メモリ等の記憶装置（不図示）を含む公知の構成を備えているものとする。

次に、キーワード抽出装置１００の動作について図３を参照して説明する。図３では、例えば、２人の発話者Ａ、Ｂが、キーワード抽出装置１００や情報端末２００を用いて会話していることを前提にして説明する。
まず、キーワード抽出装置１００（発話区間判定部１０２）は、音声入力部１００および情報端末２００から入力された発話音声について、発話者ごとの発話区間を判定する（ステップＳ１０１）。この判定の際、発話区間判定部１０２は、各発話者の発話音声の大きさがしきい値以上であるかどうかを判断し、しきい値以上である区間を発話区間として判定する。
例えば、発話者Ａと発話者Ｂの会話が、図２（ａ）または図２（ｂ）に示すような場合、発話区間判定部１０２は、発話者Ａの会話の開始時間ｔｓ１から終了時間ｔｅ１までの区間、すなわちｔｓ１−ｔｅ２を発話者Ａの発話区間１として判定する。さらに、発話区間判定部１０３は、発話者Ｂの会話の開始時間ｔｓ２から終了時間ｔｅ２までの区間、ｔｓ２−ｔｅ２の区間を発話者Ｂの発話区間２として判定する。

次に、キーワード抽出装置１００（音声認識部１０３）は、上記判定された発話区間の発話音声を発話者ごとに認識する（ステップＳ１０２）。この認識は、例えば、周波数帯域による特徴分析により行われるものとする。さらに、音声認識部１０３は、上記認識を行う際に、すべての発話者の会話音声について、公知の音声認識技術によりテキスト文字化する。

次に、キーワード抽出装置１００（割込検出部１０４）は、上記判定された発話区間により割り込みを検出する（ステップＳ１０３）。具体的には、割込検出部１０４は、後行発話の開始時間からその直前の先行発話の終了時間を差し引いた間隔、すなわち発話間隔（例えば、図２（ａ）（ｂ）のｔｅ１−ｔｓ２）を計算する。そして、この計算の結果、発話間隔の値（例えば、図２（ｂ）のｔｅ１−ｔｓ２＝発話間隔）がマイナスであれば、割込検出部１０４は、後行発話の割り込みがあったと判断する。

次に、キーワード抽出装置１００（キーワード抽出部１０５）は、上記検出された割り込みのあった音声会話（ステップＳ１０２で認識された音声会話）内のキーワードを抽出して決定する（ステップＳ１０４）。具体的には、キーワード抽出部１０５は、後行発話の直前にある先行発話内の名詞を抽出し、この名詞を当該発話内のキーワードとして決定する。
例えば、図２（ｂ）のｔｓ１の時点において、発話者Ａが「今度、新東京タワーが…」と話し始めたときに、図２（ｂ）のｔｓ２の時点において、発話者Ｂが「ああ、それってどこにできるんですか？」と会話を始めた場合、キーワード抽出部１０５は、ｔｓ２の直前にある発話者Ａの「新東京タワー」という名詞をキーワードとして決定する。これにより、キーワード抽出部１０５は、事前に予想したキーワードを登録したデータベースから「新東京タワー」のキーワードを抽出することなく、「新東京タワー」を会話内で話題になっている語として決定することができる。

なお、キーワード抽出部１０５は、上記発話間隔がプラスの値を示す場合（図２（ａ）参照）、発話中のキーワードがないものと判断し、キーワードを抽出しない。

次に、キーワード抽出装置１００（キーワード検索部１０６）は、上記決定されたキーワードのキーワード検索を実行する（ステップＳ１０５）。具体的には、まず、キーワード検索部１０６は、ネットワーク４００を介して、検索サーバ３００に対し、上記キーワード検索を要求する。すると、検索サーバ３００は、上記要求を受けたキーワード検索を行い、その検索結果をキーワード検索部１０６に送信する。次に、キーワード検索部１０６は、検索サーバ３００から送信された検索結果を受信する。

次に、キーワード検索部１０６は、上記受信した検索結果を表示部１０７に表示する（ステップＳ１０６）。これにより、発話者は、会話内のキーワード（例えば、新東京タワー）に関する情報（検索結果）を把握することが可能となる。

また、割込検出部１０４の代わりに、発話間隔が予め設定した閾値（例えば３秒）以上である沈黙を検出する沈黙検出部を動作させることも、キーワードの存在を示唆する発話応答の特徴を抽出する上で有用である。

以上説明したように、本実施の形態によると、キーワード抽出装置１００は、キーワードの存在を示唆する発話応答の特徴としての割り込みを検出して、会話内のキーワードを抽出する。このため、キーワード抽出装置１００においては、会話内のキーワードを事前に予想してデータベース等に登録する準備を行うことなく、発話者の割り込みの有無から、会話内のキーワードを抽出することができる。

なお、実施の形態１において、キーワード抽出装置１００は、図３のステップＳ１０１〜Ｓ１０６の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置１００は、図３の各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。

（実施の形態２）
実施の形態２のキーワード抽出装置は、発話応答の特徴であるピッチ（音の高さ）のパターンに基づいて、会話内のキーワードを抽出するものである。
図４は、本発明の実施の形態２におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態２においては、実施の形態１と同一部分について実施の形態１と同一の符号・用語を付して、重複説明を省略する。
図４において、キーワード抽出装置１００Ａは、図１の実施の形態１の割込検出部１０４に代えて、ピッチ判定部２０１およびピッチパターン判定部２０２を有する。さらに、キーワード抽出装置１００Ａは、図１の実施の形態１のキーワード抽出部１０５に代えて、キーワード抽出部１０５Ａを有する点が、実施の形態１と異なる。ピッチ判定部２０１、ピッチパターン判定部２０２およびキーワード抽出部１０５Ａは、ＣＰＵ等の処理装置である。その他、情報端末２００を含むシステム全体の構成は、図１の場合と同様である。

ピッチ判定部２０１およびピッチパターン判定部２０２（これらを併せて発話応答特徴抽出部ともいう）は、発話区間判定部１０２により判定された発話区間について、各発話者の発話音声に基づいて、発話の特徴であるピッチパターンを抽出する。具体的には、ピッチ判定部２０１は、発話音声のピッチを判定する。本実施の形態のピッチ判定部２０１は、例えば、１０ｍｓごとに発話音声を分割してピッチを判定する。

ピッチパターン判定部２０２は、上記判定されたピッチに基づいて、先行発話の末尾が下降ピッチ（図５のｔｃ１−ｔｅ１間参照）で、かつ、その先行発話の直後の後行発話が上昇ピッチ（図５のｔｃ２−ｔｅ２間参照）となるピッチパターン（発話の特徴）を判定する。この判定例を図５に示す。図５の横軸は時間を表し、縦軸は周波数を表す。
図５の発話区間ｔｓ１−ｔｅ１には、「新東京タワーが」という先行発話があり、発話区間ｔｓ２−ｔｅ２には、「それって・・・ですか？」という後行発話がある。そして、「新東京タワーが」の先行発話の末尾には下降ピッチが判定され、「それって・・・ですか？」の後行発話には上昇ピッチが判定されている。このように判定されるのは、ピッチパターン判定部２０２が次のように判定したからである。

すなわち、ピッチパターン判定部２０２は、図５の「新東京タワーが」の発話区間ｔｓ１−ｔｅ１において、その中点ｔｃ１の周波数ｆよりも、発話区間の末尾（終了時）の周波数ｆが高いので上昇ピッチと判定したからである。また、ピッチパターン判定部２０２は、図５の「なんですか？」の発話区間ｔｓ２−ｔｅ２において、その中点ｔｃ２の周波数ｆよりも、発話区間の末尾（終了時）の周波数ｆが低いので下降ピッチと判定したからである。

なお、本実施の形態のピッチパターン判定部２０２は、発話区間の中点の周波数を基準にして上昇ピッチまたは下降ピッチを判定する場合について説明するが、これに限られない。例えば、ピッチ判定部２０１は、発話区間の終了時（例えば図５のｔｅ１、ｔｅ２）から、あらかじめ定められた区間（例えば時間Ｔ）遡った時点を基準にして判定してもよい。

キーワード抽出部１０５Ａは、上記判定されたピッチパターンに示された先行発話の中から、キーワードを抽出する。この抽出に際し、キーワード抽出部１０５Ａは、例えば、上記ピッチパターンに示された先行発話内の末尾の構成素（例えば名詞）をキーワードとして抽出する。

次に、キーワード抽出装置１００Ａの動作について図６を参照して説明する。図６では、例えば、発話者Ａが、キーワード抽出装置１００Ａを用いて「今度、新東京タワーが・・・」と言った後、発話者Ｂが、情報端末２００を用いて「それって・・・ですか？」と言うことを前提にして説明する。なお、図７のステップＳ１０１〜Ｓ１０２、Ｓ１０５〜Ｓ１０６の処理は、図３のステップＳ１０１〜Ｓ１０２、Ｓ１０５〜Ｓ１０６と同様の処理であるため、適宜省略して説明する。

まず、キーワード抽出装置１００Ａ（発話区間判定部１０２）は、音声入力部１００および情報端末２００から入力された発話音声について、発話者ごとの発話区間（図２（ａ）の発話区間１、図２（ｂ）の発話区間２参照）を判定する（ステップＳ１０１）。次に、キーワード抽出装置１００Ａ（音声認識部１０３）は、上記判定された発話区間の発話音声を発話者ごとに認識する（ステップＳ１０２）。

次に、キーワード抽出装置１００Ａ（ピッチ判定部２０１）は、例えば発話者Ａの先行発話の発話区間１（図２（ａ）参照）および発話者Ｂの後行発話の発話区間２（図２（ｂ）参照）の発話音声に基づいて、発話音声のピッチを判定する（ステップＳ１０３Ａ）。

次に、キーワード抽出装置１００Ａ（ピッチパターン判定部２０２）は、上記判定されたピッチに基づいて、先行発話から後行発話へ移行した場合に、下降ピッチから上昇ピッチとなるピッチパターンがあるかを判定する（ステップＳ１０３Ｂ）。具体的には、ピッチパターン判定部２０２は、先行発話の末尾が下降ピッチ（図５のｔｃ１−ｔｅ１間参照）で、かつ、その先行発話の直後の後行発話が上昇ピッチ（図５のｔｃ２−ｔｅ２間参照）となるピッチパターンを判定する。

次に、キーワード抽出装置１００Ａ（キーワード抽出部１０５Ａ）は、上記判定されたピッチパターンに示された発話音声（ステップＳ１０２で認識されたもの）の先行発話（例えば、図５の「新東京タワーが」）の中から、キーワードを抽出する（ステップＳ１０４Ａ）。この抽出に際し、キーワード抽出部１０５Ａは、例えば、上記ピッチパターンに示された先行発話内の末尾の名詞である「新東京タワー」をキーワードとして抽出する。

次に、キーワード抽出装置１００Ａ（キーワード検索部１０６）は、ネットワーク４００を介して、検索サーバ３００に対し、上記決定されたキーワードのキーワード検索を実行する（ステップＳ１０５）。次に、キーワード検索部１０６は、上記受信した検索結果を表示部１０７に表示する（ステップＳ１０６）。これにより、発話者は、話題になっている語（例えば、新東京タワー）に関する情報（検索結果）を把握することが可能となる。

以上説明したように、本実施の形態によると、キーワード抽出装置１００Ａは、キーワードの存在を示唆する発話応答の特徴であるピッチパターンを判定して、会話内のキーワードを抽出する。このため、キーワード抽出装置１００Ａにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、ピッチパターンの有無から、会話内のキーワードを抽出することができる。

なお、実施の形態２において、キーワード抽出装置１００Ａは、図７のステップＳ１０１〜Ｓ１０２、Ｓ１０３Ａ〜Ｓ１０３Ｂ、Ｓ１０４Ａ、Ｓ１０５〜Ｓ１０６の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置１００Ａは、図７の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。

（実施の形態３）
実施の形態３のキーワード抽出装置は、発話応答の特徴である機能フレーズに基づいて、会話内のキーワードを抽出するものである。
図７は、本発明の実施の形態３におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態３においては、実施の形態１と同一部分について実施の形態１と同一の符号・用語を付して、重複説明を省略する。
図７において、キーワード抽出装置１００Ｂは、図１の実施の形態１の割込検出部１０４に代えて、機能フレーズ抽出部３０１（発話応答特徴抽出部）を有する。さらに、キーワード抽出装置１００Ｂは、機能フレーズ記憶部３０２を有する。また、キーワード抽出装置１００Ｂは、図１の実施の形態１のキーワード抽出部１０５に代えて、キーワード抽出部１０５Ｂを有する点が、実施の形態１と異なる。なお、機能フレーズ抽出部３０１は、ＣＰＵ等の処理装置であり、機能フレーズ記憶部３０２は、メモリ等の記憶装置である。その他、情報端末２００を含むシステム全体の構成は、図１の場合と同様である。

機能フレーズ記憶部３０２は、あらかじめ定められた機能フレーズを記憶する。この機能フレーズは、応答の種類を表す語であり、種々の異なる会話内容にかかわらず、会話共通に使用されるものである。例えば、機能フレーズとして、「ですか？」等の疑問文、「いいね」「なるほど」「それだ」等の同意文、「違う」等の否定文、「お願いします」等の依頼文、「ああ」などの感嘆文、「なんでやねん」等の突っ込み文などが該当する。

機能フレーズ抽出部３０１は、発話音声の中から、当該発話音声の特徴である上記機能フレーズを抽出する。具体的には、機能フレーズ抽出部３０１は、抽出対象となる発話音声に含まれる語と、機能フレーズ記憶部３０２の機能フレーズとを比較し、当該発話音声に含まれる機能フレーズを抽出する。

次に、キーワード抽出装置１００Ｂの動作について図８を参照して説明する。図８では、例えば、発話者Ａが、キーワード抽出装置１００Ｂを用いて「今度、新東京タワーができるんだって。」と言った後に、発話者Ｂが、情報端末２００を用いて「ああ、それってどこにできるんですか？」と言うことを前提にして説明する。なお、図８のステップＳ１０１〜Ｓ１０２、Ｓ１０５〜Ｓ１０６の処理は、図３のステップＳ１０１〜Ｓ１０２、Ｓ１０５〜Ｓ１０６と同様の処理であるため、適宜省略する。

まず、キーワード抽出装置１００Ｂ（発話区間判定部１０２）は、音声入力部１００および情報端末２００から入力された発話音声について、発話者ごとの発話区間（図２（ａ）の発話区間１、図２（ｂ）の発話区間２参照）を判定する（ステップＳ１０１）。次に、キーワード抽出装置１００Ｂ（音声認識部１０３）は、上記判定された発話区間の発話音声を発話者ごとに認識する（ステップＳ１０２）。

次に、キーワード抽出装置１００Ｂ（機能フレーズ抽出部３０１）は、例えば発話者Ａの先行発話の発話区間１（図２（ａ）参照）および発話者Ｂの後行発話の発話区間２（図２（ｂ）参照）の発話音声から、疑問文等を表す機能フレーズを抽出する。具体的には、機能フレーズ抽出部３０１は、抽出対象となる当該発話音声に含まれる語の系列と、機能フレーズ記憶部３０２の機能フレーズとを比較し、当該発話音声に含まれる機能フレーズを抽出する。本実施の形態では、機能フレーズ抽出部３０１は、「ああ、それってどこにできるんですか？」の発話音声の中から、「ですか？」という疑問文の機能フレーズを抽出する。ここで、発話音声に含まれる語の系列は、上記音声の認識結果を利用してもよい。

次に、キーワード抽出装置１００Ｂ（キーワード抽出部１０５Ｂ）は、上記抽出された機能フレーズを含む発話の直前の発話音声（ステップＳ１０２で認識されたもの）から、キーワードを抽出する（ステップＳ１０４Ｂ）。このキーワードの抽出に際し、キーワード抽出部１０５Ｂは、例えば、上記直前の発話である「今度、新東京タワーができるんだって。」から、その末尾（割り込み直前）の名詞である「新東京タワー」をキーワードとして抽出する。

次に、キーワード抽出装置１００Ｂ（キーワード検索部１０６）は、ネットワーク４００を介して、検索サーバ３００に対し、上記抽出されたキーワードのキーワード検索を実行する（ステップＳ１０５）。次に、キーワード検索部１０６は、上記受信した検索結果を表示部１０７に表示する（ステップＳ１０６）。これにより、発話者は、会話内で話題になっているキーワード（例えば、新東京タワー）に関する情報（検索結果）を把握することが可能となる。

また本実施の形態によると、発話者Ａが「あれって何だっけ？」と質問して、発話者Ｂが「新東京タワーのことかな。」と答える場合のように、先行発話から疑問文の機能フレーズ（「何だっけ？」）を抽出した場合に、その直後の後行発話から、キーワード（「新東京タワー」）を抽出するようにキーワード抽出部１０５Ｂを動作させることも可能である。その際、直前の発話音声からキーワードを抽出するか、直後の発話音声からキーワードを抽出するかは、以下の通り切り替えることができる。すなわち、指示代名詞「それ」を含む場合には直前の発話から、指示代名詞「あれ」を含む場合には直後の発話から、その他の場合には直後の発話からと切り替えて使うことができる。その際、実施の形態２と同様の方法で、先行発話が上昇ピッチ、後行発話が下降ピッチとなるピッチパターンを利用（併用）することで、発話応答の特徴を捉えても良い。

以上説明したように、本実施の形態によると、キーワード抽出装置１００Ｂは、会話内容（ジャンル）にかかわらず共通に使用される機能フレーズ（疑問文等）を抽出して、会話内のキーワードを抽出する。このため、キーワード抽出装置１００Ｂにおいては、会話文から、共通に使用される機能フレーズを抽出してキーワードを抽出することができる。よって、キーワード抽出装置１００Ｂにおいては、個々のジャンルの会話に応じたキーワードを事前に予想してデータベース等に登録する準備を行うことなく、キーワードを抽出することができるので、有益である。

なお、実施の形態３において、キーワード抽出装置１００Ｂは、図８のステップＳ１０１〜Ｓ１０２、Ｓ１０３Ｃ、Ｓ１０４Ｂ、Ｓ１０５〜Ｓ１０６の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置１００Ｂは、図９の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。

（実施の形態４）
実施の形態４のキーワード抽出装置は、発話音声を聞いた人の表情の変化に基づいて、会話内のキーワードを抽出するものである。
図９は、本発明の実施の形態４におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態４においては、実施の形態１と同一部分について実施の形態１と同一の符号・用語を付して、重複説明を省略する。

図９において、キーワード抽出装置１００Ｃは、図１の実施の形態１の割込検出部１０４に代えて、映像入力部４０１および表情認識部４０２（これらを併せて発話応答特徴抽出部ともいう）を有する。さらに、キーワード抽出装置１００Ｃは、図１の実施の形態１のキーワード抽出部１０５に代えて、キーワード抽出部１０５Ｃを有する点が、実施の形態１と異なる。なお、画像入力部４０１は、カメラであり、表情認識部４０２はＣＰＵ等の処理装置である。その他、情報端末２００を含むシステム全体の構成は、図１の場合と同様である。

映像入力部４０１は、ユーザの顔部分を含む画像データを入力するためのものである。表情認識部４０２は、該画像データをユーザの表情推定処理が可能なディジタルデータの元画像データに変換すると、元画像データに含まれるユーザの顔領域を抽出し、抽出された顔領域から、ユーザの顔を構成する目や口などの少なくとも一つ以上の顔器官の輪郭位置を抽出する。そして、表情認識部４０２は、複数の映像フレームに亘って取得した顔器官の上端及び下端の輪郭を抽出して、顔器官の輪郭の開き具合や曲がり具合からユーザの表情（例えば、中立、驚き、喜び、怒りなど）を認識する。
その際、表情認識部４０２は、発話区間判定部１０２から得た発話者ごとの発話区間内の時刻と、発話者以外の人の表情の認識結果とを結びつける。さらに、表情認識部４０２は、該表情の認識結果から表情の変化点を抽出する。
例えば、図１０において、ｔ１０は発話者Ａによる発話区間１の発話開始時刻、ｔ１１、ｔ１２はｔ１０に続く等間隔の時刻であり、ｔ２０は発話者Ｂによる発話区間２の発話開始時刻、ｔ２１、ｔ２２はｔ２０に続く等間隔の時刻である。ここで、表情認識部４０２は、時刻ｔ１０、ｔ１１、ｔ１２のそれぞれにおける発話者Ｂの表情、および、時刻ｔ２０、ｔ２１、ｔ２２のそれぞれにおける発話者Ａの表情とを結びつけて認識する。この例では、時刻ｔ１１における発話者Ｂの表情が驚きの表情であり、その他の時刻では話者によらず中立の表情となっている。すなわち、表情認識部４０２は、時刻ｔ１１を表情の変化点として抽出する。

キーワード抽出部１０５Ｃは、上記認識された表情が、発話開始時に中立の表情であり、かつ、発話の途中で他の表情に変化したと、表情認識部４０２によって認識された場合に、表情の変化点に対応した時刻に発声された単語をキーワードとして抽出する。その際、キーワード抽出部１０５Ｃは、音声認識結果中の単語ごとの区間情報から表情に対応した時刻の単語を求めてもいいし、発話音声に含まれる音節数などから推定してもよい。ここでいう対応した時刻とは、単語を知覚してからその反応が表情に現れるまでの時間（例えば０．１秒）を考慮して、単語の言い終わりと表情の表出とを対応させた時刻である。

次に、キーワード抽出装置１００Ｃの動作について図１１を参照して説明する。図１１では、例えば、発話者Ａが、キーワード抽出装置１００Ｃを用いて「新東京タワーが今度できる」と言った後、発話者Ｂが、情報端末２００を用いて「それって何ですか？」と言うことを前提にして説明する。なお、図１１のステップＳ１０１〜Ｓ１０２、Ｓ１０５〜Ｓ１０６の処理は、図３のステップＳ１０１〜Ｓ１０２、Ｓ１０５〜Ｓ１０６と同様の処理であるため、適宜省略して説明する。発話者Ｂの音声および映像は情報端末２００を用いて入力されることになるが、便宜上、入力は発話者Ａと同様に、音声入力部１０１および映像入力部４０１から入力されるものとして説明する。

まず、キーワード抽出装置１００Ｃ（発話区間判定部１０２）は、音声入力部１０１から入力された発話音声について、発話者ごとの発話区間（図１０の発話区間１、発話区間２参照）を判定する（ステップＳ１０１）。次に、キーワード抽出装置１００Ｃ（音声認識部１０３）は、上記判定された発話区間の発話音声を発話者ごとに認識する（ステップＳ１０２）。

一方、キーワード抽出装置１００Ｃ（映像入力部４０１および表情認識部４０２）は、例えば発話者Ａが発声した先行発話である発話区間１の発話音声（図１０参照）に対応する時刻の発話者Ｂの表情を認識し、発話者Ｂが発声した後行発話である発話区間２の発話音声（図１０参照）に対応する時刻の発話者Ａの表情を認識する。つまり、発話者の表情を認識するのではなく、発話音声を聞いている人の表情、すなわち発話者の発話音声に対する他の発話者の表情を認識する（ステップＳ１０３Ｄ）。

次に、キーワード抽出装置１００Ａ（キーワード抽出部１０５Ｃ）は、上記認識された表情が、発話開始時に中立の表情であり、かつ、発話の途中で他の表情に変化したと認識された場合に、表情の変化点に対応した時刻に発声された単語をキーワードとして抽出する（ステップＳ１０４Ｃ）。前述の例では、表情が中立から驚きの表情に変化した時刻に対応する単語として「新東京タワー」が抽出される。

次に、キーワード抽出装置１００Ｃ（キーワード検索部１０６）は、ネットワーク４００を介して、検索サーバ３００に対し、上記決定されたキーワードのキーワード検索を実行する（ステップＳ１０５）。次に、キーワード検索部１０６は、上記受信した検索結果を表示部１０７に表示する（ステップＳ１０６）。これにより、発話者は、話題になっている語（例えば、新東京タワー）に関する情報（検索結果）を把握することが可能となる。

以上説明したように、本実施の形態によると、キーワード抽出装置１００Ｃは、発話音声を聞いている他の人の表情の認識結果に基づいて、会話内のキーワードを抽出する。このため、キーワード抽出装置１００Ｃにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、表情の変化として捉えられる発話応答の特徴から、会話内のキーワードを抽出することができる。

なお、表情認識部４０２の代わりに、目の開き具合や口の開き具合などを数値化し、それらの変化の大きさのみで表情の変化を検出しても同様の効果が得られる。

なお、実施の形態４において、キーワード抽出装置１００Ｃは、図１１のステップＳ１０１〜Ｓ１０２、Ｓ１０３Ｄ、Ｓ１０４Ｃ、Ｓ１０５〜Ｓ１０６の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置１００Ｃは、図１１の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。

（実施の形態５）
実施の形態５のキーワード抽出装置は、発話音声を聞いた人の盛り上がり反応に基づいて、会話内のキーワードを抽出するものである。
図１２は、本発明の実施の形態５におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態５においては、実施の形態１と同一部分について実施の形態１と同一の符号・用語を付して、重複説明を省略する。

図１２において、キーワード抽出装置１００Ｄは、図１の実施の形態１の割込検出部１０４に代えて、盛り上がり反応検出部５０１（発話応答特徴抽出部ともいう）を有する。さらに、キーワード抽出装置１００Ｄは、図１の実施の形態１のキーワード抽出部１０５に代えて、キーワード抽出部１０５Ｄを有する点が、実施の形態１と異なる。なお、盛り上がり反応検出部５０１はＣＰＵ等の処理装置である。その他、情報端末２００を含むシステム全体の構成は、図１の場合と同様である。

盛り上がり反応検出部５０１は、音声や音から盛り上がり反応を検出する。具体的には、笑い声の検出や、興奮度の高い音声の検出、拍手や膝を打つ音の検出、などにより、盛り上がり反応を検出する。盛り上がり反応検出部５０１は、笑い声や、拍手、膝を打つ音については、予め学習サンプルを容易して、ＧＭＭ（ガンマー・ミクスチャー・モデル）を作成しておき、入力に対する尤度を求めて閾値処理することで検出する。また、盛り上がり反応検出部５０１は、興奮度の高い音声については、音量の大きさ、ピッチの高さ、発話速度の速さのそれぞれを話者の平均値で正規化した量を線形結合して数値化し、閾値処理することで検出する。
その際、盛り上がり反応検出部５０１は、発話区間判定部１０２で判定された発話区間の終端付近で検出された盛り上がり反応を、その発話に対応した盛り上がり反応とみなす。

キーワード検出部１０５Ｄは、前記盛り上がり反応に対応する発話の中から、キーワードを抽出する。

次に、キーワード抽出装置１００Ｄの動作について図１３を参照して説明する。図１３では、例えば、発話者Ａが、キーワード抽出装置１００Ｃを用いて「今度、新東京タワーが・・・」と言った後、発話者Ｂが、情報端末２００を用いて「あはは」と言って笑ったことを前提にして説明する。なお、図１３のステップＳ１０１〜Ｓ１０２、Ｓ１０５〜Ｓ１０６の処理は、図３のステップＳ１０１〜Ｓ１０２、Ｓ１０５〜Ｓ１０６と同様の処理であるため、適宜省略して説明する。

まず、キーワード抽出装置１００Ｄ（発話区間判定部１０２）は、音声入力部１０１および情報端末２００から入力された発話音声について、発話者ごとの発話区間を判定する（ステップＳ１０１）。次に、キーワード抽出装置１００Ｄ（音声認識部１０３）は、上記判定された発話区間の発話音声を発話者ごとに認識する（ステップＳ１０２）。

次に、キーワード抽出装置１００Ｄ（盛り上がり反応検出５０１）は、例えば発話者Ａが発声した発話区間の近傍で盛り上がり反応の存在を検出する（ステップＳ１０３Ｅ）。結果として、前述の発話例では、発話者Ａの発話区間の直後で、笑い声のＧＭＭが高い尤度で照合されるため、盛り上がり反応として検出される。

次に、キーワード抽出装置１００Ａ（キーワード抽出部１０５Ｄ）は、上記盛り上がり反応に対応する発話区間内で発声された単語（例えば、「新東京タワー」）をキーワードとして抽出する（ステップＳ１０４Ｄ）。

次に、キーワード抽出装置１００Ｄ（キーワード検索部１０６）は、ネットワーク４００を介して、検索サーバ３００に対し、上記決定されたキーワードのキーワード検索を実行する（ステップＳ１０５）。次に、キーワード検索部１０６は、上記受信した検索結果を表示部１０７に表示する（ステップＳ１０６）。これにより、発話者は、話題になっている語（例えば、新東京タワー）に関する情報（検索結果）を把握することが可能となる。

以上説明したように、本実施の形態によると、キーワード抽出装置１００Ｄは、発話音声を聞いた人の盛り上がり反応を検出して、会話内のキーワードを抽出する。このため、キーワード抽出装置１００Ｄにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、笑い声や拍手などの盛り上がりとして捉えられる発話応答の特徴から、会話内のキーワードを抽出することができる。

なお、実施の形態５において、キーワード抽出装置１００Ｄは、図１３のステップＳ１０１〜Ｓ１０２、Ｓ１０３Ｅ、Ｓ１０４Ｄ、Ｓ１０５〜Ｓ１０６の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置１００Ｄは、図１３の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。

また、実施の形態１〜３および５において、キーワード抽出装置（キーワード抽出部）は、発話区間内の末尾（割り込み直前）の名詞をキーワードとして抽出する場合について説明したが、これに限られない。例えば、キーワード抽出部は、検索対象の先行発話に含まれる複数の名詞のうち、概念上の最下位の名詞をキーワードとして検索するようにしてもよい。この場合、キーワード抽出装置は、メモリ等の辞書情報記憶部（不図示）をさらに有し、この辞書情報記憶部が、概念上の上位（例えば、イタリア料理）および概念上の下位（例えば、パスタ）の名詞の関係を分類して体系づけた辞書情報を記憶する。そして、キーワード抽出部は、抽出対象の発話に含まれる名詞の中から、辞書情報記憶部（不図示）の辞書情報に含まれる概念上の最下位の名詞をキーワードとして抽出する。これにより、下位概念の名詞がキーワードとして抽出される。

また、実施の形態１〜３および５において、キーワード抽出部は、抽出対象の発話に含まれる名詞のうち、ピッチの最も高い名詞をキーワードとして抽出するようにしてもよいし、使用回数の最も多い名詞をキーワードとして抽出するようにしてもよい。あるいは、キーワード抽出部は、抽出対象の発話に含まれる名詞の中から、各名詞のピッチや使用回数を示す各種パラメータの組み合わせが最適（事前に定められたパラメータのパターン）となる名詞をキーワードとして抽出するようにしてもよい。

本発明を詳細にまた特定の実施態様を参照して説明したが、本発明の精神と範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。
本出願は、２００７年３月２９日出願の日本特許出願（特願２００７−０８８３２１）に基づくものであり、その内容はここに参照として取り込まれる。

本発明のキーワード抽出装置は、会話内に含まれる重要なキーワードを抽出するのに有用である。キーワード抽出装置は、電話、車載端末、テレビ、会議システム、コールセンターシステム、パソコン等の用途に適用することができる。

本発明の実施の形態１におけるキーワード抽出装置を含むシステム全体の構成例を示すブロック図。本発明の実施の形態１における発話区間の例を示す図。図１のキーワード抽出装置の動作を示すフローチャート。本発明の実施の形態２におけるキーワード抽出装置の構成例を示すブロック図。本発明の実施の形態２におけるピッチパターンの例を示す図。図４のキーワード抽出装置の動作を示すフローチャート。本発明の実施の形態３におけるキーワード抽出装置の構成例を示すブロック図。図７のキーワード抽出装置の動作を示すフローチャート。本発明の実施の形態４におけるキーワード抽出装置の構成例を示すブロック図。本発明の実施の形態４における発話区間、発話内容および表情認識結果の例を示す図。図９のキーワード抽出装置の動作を示すフローチャート。本発明の実施の形態５におけるキーワード抽出装置の構成例を示すブロック図。図１２のキーワード抽出装置の動作を示すフローチャート。

符号の説明

１００、１００Ａ、１００Ｂ、１００Ｃ、１００Ｄキーワード抽出装置
１０１音声入力部
１０２発話区間判定部
１０３音声認識部
１０４割込検出部
１０５、１０５Ａ、１０５Ｂ、１０５Ｃ、１０５Ｄキーワード抽出部
１０６キーワード検索部
１０７表示部
２０１ピッチ判定部
２０２ピッチパターン判定部
３０１機能フレーズ抽出部
３０２機能フレーズ記憶部
４０１映像入力部
４０２表情認識部
５０１盛り上がり反応検出部

Claims

発話者の発話音声を入力する音声入力部と、
前記入力された発話音声について、前記発話者ごとの発話区間を判定する発話区間判定部と、
前記判定された発話区間の発話音声を前記発話者ごとに認識する音声認識部と、
前記各発話者の発話音声に対する他の発話者の応答に基づいて、キーワードの存在を示唆する発話応答の特徴を抽出する発話応答特徴抽出部と、
前記抽出された発話応答の特徴に基づいて特定した発話区間の発話音声から前記キーワードを抽出するキーワード抽出部と、
を含むキーワード抽出装置。
前記各発話者の発話音声には、先行発話の発話音声と後行発話の発話音声とが含まれ、
前記発話応答特徴抽出部は、前記先行発話および前記後行発話の発話音声に基づいて、前記先行発話の途中で前記後行発話が開始された場合に、前記先行発話と前記後行発話とが重なる割り込みを検出する割込検出部で構成され、
前記キーワード抽出部は、前記検出された割り込みに基づいて特定した、前記後行発話と重なる前記先行発話の発話音声の中から、前記キーワードを抽出する、
請求項１に記載のキーワード抽出装置。
前記各発話者の発話音声には、先行発話の発話音声と後行発話の発話音声とが含まれ、
前記発話応答特徴抽出部は、
前記先行発話および前記後行発話の発話音声に基づいて、当該発話音声のピッチを判定するピッチ判定部と、
前記判定されたピッチに基づいて、前記先行発話の末尾が下降ピッチで、かつ、その先行発話の直後の前記後行発話が上昇ピッチとなるピッチパターンを判定するパターン判定部と、を有し、
前記キーワード抽出部は、前記判定されたピッチパターンに基づいて特定した、前記ピッチパターンに示された前記先行発話の発話音声の中から、前記キーワードを抽出する、
請求項１に記載のキーワード抽出装置。
前記各発話者の発話音声には、先行発話の発話音声と後行発話の発話音声とが含まれ、
前記発話応答特徴抽出部は、前記先行発話および前記後行発話の発話音声に基づいて、前記後行発話の発話音声の中から、あらかじめ定められた種類の機能フレーズを抽出し、
前記キーワード抽出部は、前記抽出された機能フレーズを含む前記後行発話の直前の前記先行発話の発話音声の中から、前記キーワードを抽出する、
請求項１に記載のキーワード抽出装置。
前記発話応答特徴抽出部は、前記発話者ごとの発話区間の近傍における発話者以外の人の盛り上がり反応を検出し、
前記キーワード抽出部は、前記盛り上がり反応に対応する発話音声の中から、前記キーワードを抽出する、
請求項１に記載のキーワード抽出装置。
前記キーワード抽出部は、前記キーワードを抽出する場合、前記先行発話内の末尾の構成素を前記キーワードとして抽出する、
請求項２ないし５のいずれか１項に記載のキーワード抽出装置。
前記各発話者の発話音声には、先行発話の発話音声と後行発話の発話音声とが含まれ、
前記発話応答特徴抽出部は、前記先行発話および前記後行発話の発話音声に基づいて、前記先行発話の発話音声の中から、あらかじめ定められた種類の機能フレーズを抽出し、
前記キーワード抽出部は、前記抽出された機能フレーズを含む前記先行発話の直後の前記後行発話の発話音声の中から、前記キーワードを抽出する、
請求項１に記載のキーワード抽出装置。
前記発話応答特徴抽出部は、前記各発話者の発話音声に対する他の発話者の表情を認識し、前記認識された表情の変化点を抽出し、
前記キーワード抽出部は、前記抽出された表情の変化点に対応する、前記発話区間内の構成素をキーワードとして抽出する、
請求項１に記載のキーワード抽出装置。