JP4838351B2 - キーワード抽出装置 - Google Patents

キーワード抽出装置 Download PDF

Info

Publication number
JP4838351B2
JP4838351B2 JP2009508884A JP2009508884A JP4838351B2 JP 4838351 B2 JP4838351 B2 JP 4838351B2 JP 2009508884 A JP2009508884 A JP 2009508884A JP 2009508884 A JP2009508884 A JP 2009508884A JP 4838351 B2 JP4838351 B2 JP 4838351B2
Authority
JP
Japan
Prior art keywords
utterance
keyword
voice
unit
keyword extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009508884A
Other languages
English (en)
Other versions
JPWO2008126355A1 (ja
Inventor
充 遠藤
麻紀 山田
景子 森井
知浩 小沼
和也 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2009508884A priority Critical patent/JP4838351B2/ja
Publication of JPWO2008126355A1 publication Critical patent/JPWO2008126355A1/ja
Application granted granted Critical
Publication of JP4838351B2 publication Critical patent/JP4838351B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、キーワード抽出装置に係り、特に会話内に含まれるキーワードを抽出するキーワード抽出装置に関するものである。
従来のキーワード抽出装置は、あらかじめ、電子レンジ等のキーワードとURLへのアクセス等のアクション情報との対応関係を示した対応データを保持している。そして、キーワード抽出装置は、上記対応データに基づいて、ある会話の中からキーワードを検出し、そのキーワードに対応するアクション情報に基づく処理を実行する。このようにして、音声認識による情報の提示が行われていた(例えば、特許文献1)。
特開2005−215726号公報(段落0021〜段落0036、図2〜図3参照)
しかしながら、特許文献1に記載の装置においては、想定される場面別に上記対応データを準備しなければならないため、利用しにくいという問題があった。
本発明の目的は、上記の状況に対処するためになされたものであり、会話内のキーワードを事前に予想して準備することなく、会話内のキーワードを抽出することができるキーワード抽出装置を提供することである。
上記従来の課題を解決するために、本発明は、発話者の発話音声を入力する音声入力部と、上記入力された発話音声について、上記発話者ごとの発話区間を判定する発話区間判定部と、上記判定された発話区間の発話音声を上記発話者ごとに認識する音声認識部と、上記各発話者の発話音声に対する他の発話者の応答に基づいて、キーワードの存在を示唆する発話応答の特徴を抽出する発話応答特徴抽出部と、上記抽出された発話応答の特徴に基づいて特定した発話区間の発話音声から前記キーワードを抽出するキーワード抽出部と、を含む。
本発明に係るキーワード抽出装置によれば、会話内のキーワードを事前に予想して準備することなく、会話内のキーワードを抽出することができる。
以下、本発明の実施の形態1〜5について図面を参照しながら説明する。実施の形態1〜5は、例えば、2人の発話者A、Bが、携帯電話等の情報端末を用いて会話している場面を想定して説明する。
(実施の形態1)
図1は、本発明の実施の形態1におけるキーワード抽出装置を含むシステム全体の構成例を示すブロック図である。
図1において、キーワード抽出装置100は、ある発話者Aの情報端末であり、インターネット等のネットワーク400へ接続できるように構成されている。ネットワーク400には、別の発話者Bの情報端末200や検索サーバ300が接続されるように構成されている。キーワード抽出装置100および情報端末200は、携帯電話、ノート型パソコン、携帯情報端末等の情報端末である。検索サーバ300は、公知の検索エンジンを搭載したサーバである。
キーワード抽出装置100は、音声入力部101、発話区間判定部102、音声認識部103、割込検出部104、キーワード抽出部105、キーワード検索部106および表示部107を有する。
音声入力部101は、発話者の音声(以下、発話音声という)を入力するためのものである。音声入力部101は、例えば、マイクロフォン、ネットワーク400との通信インターフェース等が該当する。
発話区間判定部102は、上記入力された発話音声について、発話者ごとの発話区間を判定する。発話区間とは、発話者が会話を開始し初めてから終了するまでの区間をいう。
例えば、発話者Aと発話者Bの会話が、図2(a)または図2(b)に示すような場合、発話区間判定部102は、発話者Aの会話の開始時間ts1から終了時間te1までの区間、すなわちts1−te1を発話者Aの発話区間1として判定する。さらに、発話区間判定部102は、発話者Bの会話の開始時間ts2から終了時間te2までの区間、すなわちts2−te2の区間を発話者Bの発話区間2として判定する。
図1に戻って、音声認識部103は、上記判定された発話区間の発話音声を発話者ごとに認識する。具体的には、音声認識部103は、すべての発話者の会話音声について、公知の音声認識技術によりテキスト文字化する。さらに、音声認識部103は、個々の発話者の会話音声について、その開始時間(開始点)および終了時間(終了点)を対応づける。
割込検出部104(発話応答特徴抽出部)は、上記判定された発話区間について、各発話者の発話音声に基づいて発話の特徴、すなわち先行発話と後行発話とが重なる割り込みを検出する。例えば、発話者Aと発話者Bの会話が、図2(b)に示した会話の場合、割込検出部104は、発話者Aの先行発話の途中、すなわちts1で発話者Bの後行発話が開始されているので、上記割り込みを検出する。この検出方法は次のとおりである。
すなわち、割込検出部104は、まず、後行発話の開始時間からその直前の先行発話の終了時間までの区間(以下、発話間隔という)を計測する。例えば、図2(a)(b)の場合、割込検出部104は、発話間隔=図2(a)(b)のts2−te1の算出式を用いて、発話間隔を計算する。次に、割込検出部104は、上記計算の結果、発話間隔がマイナスの値(図2(b)参照)になるかどうかを判断する。そして、割込検出部104は、当該発話間隔がマイナスの値の場合(図2(b)参照)、割り込みがあるものとして検出することとなる。
キーワード抽出部105は、上記抽出された発話の特徴、すなわち先行発話と後行発話とが重なる割り込みに基づいて、音声認識部102で認識された発話音声の中から、その発話音声の会話内で話題になっている語(以下、キーワードという)を抽出する。具体的には、キーワード抽出部105は、音声認識部102から、音声認識部102で認識された会話音声を取得する。この会話音声には、各発話者の開始時間および終了時間が対応付けられている。また、キーワード抽出部105は、割込検出部104から、割込検出部104で割り込みが検出された発話区間(例えば、図2(b)の発話者Bの発話区間2)と、割り込まれた発話区間(例えば、図2の発話者Aの発話区間1)とを取得する。これら各発話区間は、開始時間および終了時間により対応づけられている。
さらに、キーワード抽出部105は、上記キーワードを抽出する場合、例えば、割り込まれた先行発話内の末尾(最後)の構成素(例えば名詞)をキーワードとして抽出する。ここで、先行発話内の末尾とは、割り込み時(例えば、図2(b)のts2の時間)よりも前の発話区間(例えば、図2(b)のts1−ts2)内をいう。
具体的には、まず、キーワード抽出部105は、上記取得した各発話者の発話区間(例えば、図2(b)の発話区間1、2)のうち、開始時間の早い発話者の発話区間(例えば、図2(b)の発話区間1)を選定する。次に、キーワード抽出部105は、上記選定した発話区間(例えば、図2(b)の発話区間1)において、上記取得した他の発話区間の開始時間(つまり割り込み時間、例えば図2(b)のts2)の直前の構成素(例えば名詞)を検出する。次に、キーワード抽出部105は、上記検出した構成素(例えば名詞)をキーワードとして抽出する。
キーワード検索部106は、上記抽出されたキーワードを用いて、キーワード検索を行う。具体的には、まず、キーワード検索部106は、ネットワーク400を介して、検索サーバ300へ接続する。すると、検索サーバ300は、キーワード検索部106から、上記キーワード検索の要求を受け、そのキーワード検索の検索結果を、ネットワーク400を介して、キーワード抽出装置100のキーワード検索部106に返送する。キーワード検索部106は、上記返送により、検索サーバ300から、キーワード検索の検索結果を受信する。
表示部107は、キーワード検索部106により検索された結果、すなわち検索サーバ300の検索結果を表示する。表示部107は、ディスプレイや表示パネル等の表示装置である。
なお、本実施の形態において、発話区間判定部102、音声認識部103、割込検出部104、キーワード抽出部105およびキーワード検索部106は、CPU等の処理装置が該当する。その他、キーワード抽出装置100は、メモリ等の記憶装置(不図示)を含む公知の構成を備えているものとする。
次に、キーワード抽出装置100の動作について図3を参照して説明する。図3では、例えば、2人の発話者A、Bが、キーワード抽出装置100や情報端末200を用いて会話していることを前提にして説明する。
まず、キーワード抽出装置100(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間を判定する(ステップS101)。この判定の際、発話区間判定部102は、各発話者の発話音声の大きさがしきい値以上であるかどうかを判断し、しきい値以上である区間を発話区間として判定する。
例えば、発話者Aと発話者Bの会話が、図2(a)または図2(b)に示すような場合、発話区間判定部102は、発話者Aの会話の開始時間ts1から終了時間te1までの区間、すなわちts1−te2を発話者Aの発話区間1として判定する。さらに、発話区間判定部103は、発話者Bの会話の開始時間ts2から終了時間te2までの区間、ts2−te2の区間を発話者Bの発話区間2として判定する。
次に、キーワード抽出装置100(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。この認識は、例えば、周波数帯域による特徴分析により行われるものとする。さらに、音声認識部103は、上記認識を行う際に、すべての発話者の会話音声について、公知の音声認識技術によりテキスト文字化する。
次に、キーワード抽出装置100(割込検出部104)は、上記判定された発話区間により割り込みを検出する(ステップS103)。具体的には、割込検出部104は、後行発話の開始時間からその直前の先行発話の終了時間を差し引いた間隔、すなわち発話間隔(例えば、図2(a)(b)のte1−ts2)を計算する。そして、この計算の結果、発話間隔の値(例えば、図2(b)のte1−ts2=発話間隔)がマイナスであれば、割込検出部104は、後行発話の割り込みがあったと判断する。
次に、キーワード抽出装置100(キーワード抽出部105)は、上記検出された割り込みのあった音声会話(ステップS102で認識された音声会話)内のキーワードを抽出して決定する(ステップS104)。具体的には、キーワード抽出部105は、後行発話の直前にある先行発話内の名詞を抽出し、この名詞を当該発話内のキーワードとして決定する。
例えば、図2(b)のts1の時点において、発話者Aが「今度、新東京タワーが…」と話し始めたときに、図2(b)のts2の時点において、発話者Bが「ああ、それってどこにできるんですか?」と会話を始めた場合、キーワード抽出部105は、ts2の直前にある発話者Aの「新東京タワー」という名詞をキーワードとして決定する。これにより、キーワード抽出部105は、事前に予想したキーワードを登録したデータベースから「新東京タワー」のキーワードを抽出することなく、「新東京タワー」を会話内で話題になっている語として決定することができる。
なお、キーワード抽出部105は、上記発話間隔がプラスの値を示す場合(図2(a)参照)、発話中のキーワードがないものと判断し、キーワードを抽出しない。
次に、キーワード抽出装置100(キーワード検索部106)は、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。具体的には、まず、キーワード検索部106は、ネットワーク400を介して、検索サーバ300に対し、上記キーワード検索を要求する。すると、検索サーバ300は、上記要求を受けたキーワード検索を行い、その検索結果をキーワード検索部106に送信する。次に、キーワード検索部106は、検索サーバ300から送信された検索結果を受信する。
次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、会話内のキーワード(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
また、割込検出部104の代わりに、発話間隔が予め設定した閾値(例えば3秒)以上である沈黙を検出する沈黙検出部を動作させることも、キーワードの存在を示唆する発話応答の特徴を抽出する上で有用である。
以上説明したように、本実施の形態によると、キーワード抽出装置100は、キーワードの存在を示唆する発話応答の特徴としての割り込みを検出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100においては、会話内のキーワードを事前に予想してデータベース等に登録する準備を行うことなく、発話者の割り込みの有無から、会話内のキーワードを抽出することができる。
なお、実施の形態1において、キーワード抽出装置100は、図3のステップS101〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100は、図3の各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。
(実施の形態2)
実施の形態2のキーワード抽出装置は、発話応答の特徴であるピッチ(音の高さ)のパターンに基づいて、会話内のキーワードを抽出するものである。
図4は、本発明の実施の形態2におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態2においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
図4において、キーワード抽出装置100Aは、図1の実施の形態1の割込検出部104に代えて、ピッチ判定部201およびピッチパターン判定部202を有する。さらに、キーワード抽出装置100Aは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Aを有する点が、実施の形態1と異なる。ピッチ判定部201、ピッチパターン判定部202およびキーワード抽出部105Aは、CPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。
ピッチ判定部201およびピッチパターン判定部202(これらを併せて発話応答特徴抽出部ともいう)は、発話区間判定部102により判定された発話区間について、各発話者の発話音声に基づいて、発話の特徴であるピッチパターンを抽出する。具体的には、ピッチ判定部201は、発話音声のピッチを判定する。本実施の形態のピッチ判定部201は、例えば、10msごとに発話音声を分割してピッチを判定する。
ピッチパターン判定部202は、上記判定されたピッチに基づいて、先行発話の末尾が下降ピッチ(図5のtc1−te1間参照)で、かつ、その先行発話の直後の後行発話が上昇ピッチ(図5のtc2−te2間参照)となるピッチパターン(発話の特徴)を判定する。この判定例を図5に示す。図5の横軸は時間を表し、縦軸は周波数を表す。
図5の発話区間ts1−te1には、「新東京タワーが」という先行発話があり、発話区間ts2−te2には、「それって・・・ですか?」という後行発話がある。そして、「新東京タワーが」の先行発話の末尾には下降ピッチが判定され、「それって・・・ですか?」の後行発話には上昇ピッチが判定されている。このように判定されるのは、ピッチパターン判定部202が次のように判定したからである。
すなわち、ピッチパターン判定部202は、図5の「新東京タワーが」の発話区間ts1−te1において、その中点tc1の周波数fよりも、発話区間の末尾(終了時)の周波数fが高いので上昇ピッチと判定したからである。また、ピッチパターン判定部202は、図5の「なんですか?」の発話区間ts2−te2において、その中点tc2の周波数fよりも、発話区間の末尾(終了時)の周波数fが低いので下降ピッチと判定したからである。
なお、本実施の形態のピッチパターン判定部202は、発話区間の中点の周波数を基準にして上昇ピッチまたは下降ピッチを判定する場合について説明するが、これに限られない。例えば、ピッチ判定部201は、発話区間の終了時(例えば図5のte1、te2)から、あらかじめ定められた区間(例えば時間T)遡った時点を基準にして判定してもよい。
キーワード抽出部105Aは、上記判定されたピッチパターンに示された先行発話の中から、キーワードを抽出する。この抽出に際し、キーワード抽出部105Aは、例えば、上記ピッチパターンに示された先行発話内の末尾の構成素(例えば名詞)をキーワードとして抽出する。
次に、キーワード抽出装置100Aの動作について図6を参照して説明する。図6では、例えば、発話者Aが、キーワード抽出装置100Aを用いて「今度、新東京タワーが・・・」と言った後、発話者Bが、情報端末200を用いて「それって・・・ですか?」と言うことを前提にして説明する。なお、図7のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。
まず、キーワード抽出装置100A(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間(図2(a)の発話区間1、図2(b)の発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100A(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。
次に、キーワード抽出装置100A(ピッチ判定部201)は、例えば発話者Aの先行発話の発話区間1(図2(a)参照)および発話者Bの後行発話の発話区間2(図2(b)参照)の発話音声に基づいて、発話音声のピッチを判定する(ステップS103A)。
次に、キーワード抽出装置100A(ピッチパターン判定部202)は、上記判定されたピッチに基づいて、先行発話から後行発話へ移行した場合に、下降ピッチから上昇ピッチとなるピッチパターンがあるかを判定する(ステップS103B)。具体的には、ピッチパターン判定部202は、先行発話の末尾が下降ピッチ(図5のtc1−te1間参照)で、かつ、その先行発話の直後の後行発話が上昇ピッチ(図5のtc2−te2間参照)となるピッチパターンを判定する。
次に、キーワード抽出装置100A(キーワード抽出部105A)は、上記判定されたピッチパターンに示された発話音声(ステップS102で認識されたもの)の先行発話(例えば、図5の「新東京タワーが」)の中から、キーワードを抽出する(ステップS104A)。この抽出に際し、キーワード抽出部105Aは、例えば、上記ピッチパターンに示された先行発話内の末尾の名詞である「新東京タワー」をキーワードとして抽出する。
次に、キーワード抽出装置100A(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
以上説明したように、本実施の形態によると、キーワード抽出装置100Aは、キーワードの存在を示唆する発話応答の特徴であるピッチパターンを判定して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Aにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、ピッチパターンの有無から、会話内のキーワードを抽出することができる。
なお、実施の形態2において、キーワード抽出装置100Aは、図7のステップS101〜S102、S103A〜S103B、S104A、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Aは、図7の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。
(実施の形態3)
実施の形態3のキーワード抽出装置は、発話応答の特徴である機能フレーズに基づいて、会話内のキーワードを抽出するものである。
図7は、本発明の実施の形態3におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態3においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
図7において、キーワード抽出装置100Bは、図1の実施の形態1の割込検出部104に代えて、機能フレーズ抽出部301(発話応答特徴抽出部)を有する。さらに、キーワード抽出装置100Bは、機能フレーズ記憶部302を有する。また、キーワード抽出装置100Bは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Bを有する点が、実施の形態1と異なる。なお、機能フレーズ抽出部301は、CPU等の処理装置であり、機能フレーズ記憶部302は、メモリ等の記憶装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。
機能フレーズ記憶部302は、あらかじめ定められた機能フレーズを記憶する。この機能フレーズは、応答の種類を表す語であり、種々の異なる会話内容にかかわらず、会話共通に使用されるものである。例えば、機能フレーズとして、「ですか?」等の疑問文、「いいね」「なるほど」「それだ」等の同意文、「違う」等の否定文、「お願いします」等の依頼文、「ああ」などの感嘆文、「なんでやねん」等の突っ込み文などが該当する。
機能フレーズ抽出部301は、発話音声の中から、当該発話音声の特徴である上記機能フレーズを抽出する。具体的には、機能フレーズ抽出部301は、抽出対象となる発話音声に含まれる語と、機能フレーズ記憶部302の機能フレーズとを比較し、当該発話音声に含まれる機能フレーズを抽出する。
次に、キーワード抽出装置100Bの動作について図8を参照して説明する。図8では、例えば、発話者Aが、キーワード抽出装置100Bを用いて「今度、新東京タワーができるんだって。」と言った後に、発話者Bが、情報端末200を用いて「ああ、それってどこにできるんですか?」と言うことを前提にして説明する。なお、図8のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略する。
まず、キーワード抽出装置100B(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間(図2(a)の発話区間1、図2(b)の発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100B(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。
次に、キーワード抽出装置100B(機能フレーズ抽出部301)は、例えば発話者Aの先行発話の発話区間1(図2(a)参照)および発話者Bの後行発話の発話区間2(図2(b)参照)の発話音声から、疑問文等を表す機能フレーズを抽出する。具体的には、機能フレーズ抽出部301は、抽出対象となる当該発話音声に含まれる語の系列と、機能フレーズ記憶部302の機能フレーズとを比較し、当該発話音声に含まれる機能フレーズを抽出する。本実施の形態では、機能フレーズ抽出部301は、「ああ、それってどこにできるんですか?」の発話音声の中から、「ですか?」という疑問文の機能フレーズを抽出する。ここで、発話音声に含まれる語の系列は、上記音声の認識結果を利用してもよい。
次に、キーワード抽出装置100B(キーワード抽出部105B)は、上記抽出された機能フレーズを含む発話の直前の発話音声(ステップS102で認識されたもの)から、キーワードを抽出する(ステップS104B)。このキーワードの抽出に際し、キーワード抽出部105Bは、例えば、上記直前の発話である「今度、新東京タワーができるんだって。」から、その末尾(割り込み直前)の名詞である「新東京タワー」をキーワードとして抽出する。
次に、キーワード抽出装置100B(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記抽出されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、会話内で話題になっているキーワード(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
また本実施の形態によると、発話者Aが「あれって何だっけ?」と質問して、発話者Bが「新東京タワーのことかな。」と答える場合のように、先行発話から疑問文の機能フレーズ(「何だっけ?」)を抽出した場合に、その直後の後行発話から、キーワード(「新東京タワー」)を抽出するようにキーワード抽出部105Bを動作させることも可能である。その際、直前の発話音声からキーワードを抽出するか、直後の発話音声からキーワードを抽出するかは、以下の通り切り替えることができる。すなわち、指示代名詞「それ」を含む場合には直前の発話から、指示代名詞「あれ」を含む場合には直後の発話から、その他の場合には直後の発話からと切り替えて使うことができる。その際、実施の形態2と同様の方法で、先行発話が上昇ピッチ、後行発話が下降ピッチとなるピッチパターンを利用(併用)することで、発話応答の特徴を捉えても良い。
以上説明したように、本実施の形態によると、キーワード抽出装置100Bは、会話内容(ジャンル)にかかわらず共通に使用される機能フレーズ(疑問文等)を抽出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Bにおいては、会話文から、共通に使用される機能フレーズを抽出してキーワードを抽出することができる。よって、キーワード抽出装置100Bにおいては、個々のジャンルの会話に応じたキーワードを事前に予想してデータベース等に登録する準備を行うことなく、キーワードを抽出することができるので、有益である。
なお、実施の形態3において、キーワード抽出装置100Bは、図8のステップS101〜S102、S103C、S104B、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Bは、図9の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。
(実施の形態4)
実施の形態4のキーワード抽出装置は、発話音声を聞いた人の表情の変化に基づいて、会話内のキーワードを抽出するものである。
図9は、本発明の実施の形態4におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態4においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
図9において、キーワード抽出装置100Cは、図1の実施の形態1の割込検出部104に代えて、映像入力部401および表情認識部402(これらを併せて発話応答特徴抽出部ともいう)を有する。さらに、キーワード抽出装置100Cは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Cを有する点が、実施の形態1と異なる。なお、画像入力部401は、カメラであり、表情認識部402はCPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。
映像入力部401は、ユーザの顔部分を含む画像データを入力するためのものである。表情認識部402は、該画像データをユーザの表情推定処理が可能なディジタルデータの元画像データに変換すると、元画像データに含まれるユーザの顔領域を抽出し、抽出された顔領域から、ユーザの顔を構成する目や口などの少なくとも一つ以上の顔器官の輪郭位置を抽出する。そして、表情認識部402は、複数の映像フレームに亘って取得した顔器官の上端及び下端の輪郭を抽出して、顔器官の輪郭の開き具合や曲がり具合からユーザの表情(例えば、中立、驚き、喜び、怒りなど)を認識する。
その際、表情認識部402は、発話区間判定部102から得た発話者ごとの発話区間内の時刻と、発話者以外の人の表情の認識結果とを結びつける。さらに、表情認識部402は、該表情の認識結果から表情の変化点を抽出する。
例えば、図10において、t10は発話者Aによる発話区間1の発話開始時刻、t11、t12はt10に続く等間隔の時刻であり、t20は発話者Bによる発話区間2の発話開始時刻、t21、t22はt20に続く等間隔の時刻である。ここで、表情認識部402は、時刻t10、t11、t12のそれぞれにおける発話者Bの表情、および、時刻t20、t21、t22のそれぞれにおける発話者Aの表情とを結びつけて認識する。この例では、時刻t11における発話者Bの表情が驚きの表情であり、その他の時刻では話者によらず中立の表情となっている。すなわち、表情認識部402は、時刻t11を表情の変化点として抽出する。
キーワード抽出部105Cは、上記認識された表情が、発話開始時に中立の表情であり、かつ、発話の途中で他の表情に変化したと、表情認識部402によって認識された場合に、表情の変化点に対応した時刻に発声された単語をキーワードとして抽出する。その際、キーワード抽出部105Cは、音声認識結果中の単語ごとの区間情報から表情に対応した時刻の単語を求めてもいいし、発話音声に含まれる音節数などから推定してもよい。ここでいう対応した時刻とは、単語を知覚してからその反応が表情に現れるまでの時間(例えば0.1秒)を考慮して、単語の言い終わりと表情の表出とを対応させた時刻である。
次に、キーワード抽出装置100Cの動作について図11を参照して説明する。図11では、例えば、発話者Aが、キーワード抽出装置100Cを用いて「新東京タワーが今度できる」と言った後、発話者Bが、情報端末200を用いて「それって何ですか?」と言うことを前提にして説明する。なお、図11のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。発話者Bの音声および映像は情報端末200を用いて入力されることになるが、便宜上、入力は発話者Aと同様に、音声入力部101および映像入力部401から入力されるものとして説明する。
まず、キーワード抽出装置100C(発話区間判定部102)は、音声入力部101から入力された発話音声について、発話者ごとの発話区間(図10の発話区間1、発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100C(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。
一方、キーワード抽出装置100C(映像入力部401および表情認識部402)は、例えば発話者Aが発声した先行発話である発話区間1の発話音声(図10参照)に対応する時刻の発話者Bの表情を認識し、発話者Bが発声した後行発話である発話区間2の発話音声(図10参照)に対応する時刻の発話者Aの表情を認識する。つまり、発話者の表情を認識するのではなく、発話音声を聞いている人の表情、すなわち発話者の発話音声に対する他の発話者の表情を認識する(ステップS103D)。
次に、キーワード抽出装置100A(キーワード抽出部105C)は、上記認識された表情が、発話開始時に中立の表情であり、かつ、発話の途中で他の表情に変化したと認識された場合に、表情の変化点に対応した時刻に発声された単語をキーワードとして抽出する(ステップS104C)。前述の例では、表情が中立から驚きの表情に変化した時刻に対応する単語として「新東京タワー」が抽出される。
次に、キーワード抽出装置100C(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
以上説明したように、本実施の形態によると、キーワード抽出装置100Cは、発話音声を聞いている他の人の表情の認識結果に基づいて、会話内のキーワードを抽出する。このため、キーワード抽出装置100Cにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、表情の変化として捉えられる発話応答の特徴から、会話内のキーワードを抽出することができる。
なお、表情認識部402の代わりに、目の開き具合や口の開き具合などを数値化し、それらの変化の大きさのみで表情の変化を検出しても同様の効果が得られる。
なお、実施の形態4において、キーワード抽出装置100Cは、図11のステップS101〜S102、S103D、S104C、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Cは、図11の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。
(実施の形態5)
実施の形態5のキーワード抽出装置は、発話音声を聞いた人の盛り上がり反応に基づいて、会話内のキーワードを抽出するものである。
図12は、本発明の実施の形態5におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態5においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
図12において、キーワード抽出装置100Dは、図1の実施の形態1の割込検出部104に代えて、盛り上がり反応検出部501(発話応答特徴抽出部ともいう)を有する。さらに、キーワード抽出装置100Dは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Dを有する点が、実施の形態1と異なる。なお、盛り上がり反応検出部501はCPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。
盛り上がり反応検出部501は、音声や音から盛り上がり反応を検出する。具体的には、笑い声の検出や、興奮度の高い音声の検出、拍手や膝を打つ音の検出、などにより、盛り上がり反応を検出する。盛り上がり反応検出部501は、笑い声や、拍手、膝を打つ音については、予め学習サンプルを容易して、GMM(ガンマー・ミクスチャー・モデル)を作成しておき、入力に対する尤度を求めて閾値処理することで検出する。また、盛り上がり反応検出部501は、興奮度の高い音声については、音量の大きさ、ピッチの高さ、発話速度の速さのそれぞれを話者の平均値で正規化した量を線形結合して数値化し、閾値処理することで検出する。
その際、盛り上がり反応検出部501は、発話区間判定部102で判定された発話区間の終端付近で検出された盛り上がり反応を、その発話に対応した盛り上がり反応とみなす。
キーワード検出部105Dは、前記盛り上がり反応に対応する発話の中から、キーワードを抽出する。
次に、キーワード抽出装置100Dの動作について図13を参照して説明する。図13では、例えば、発話者Aが、キーワード抽出装置100Cを用いて「今度、新東京タワーが・・・」と言った後、発話者Bが、情報端末200を用いて「あはは」と言って笑ったことを前提にして説明する。なお、図13のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。
まず、キーワード抽出装置100D(発話区間判定部102)は、音声入力部101および情報端末200から入力された発話音声について、発話者ごとの発話区間を判定する(ステップS101)。次に、キーワード抽出装置100D(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。
次に、キーワード抽出装置100D(盛り上がり反応検出501)は、例えば発話者Aが発声した発話区間の近傍で盛り上がり反応の存在を検出する(ステップS103E)。結果として、前述の発話例では、発話者Aの発話区間の直後で、笑い声のGMMが高い尤度で照合されるため、盛り上がり反応として検出される。
次に、キーワード抽出装置100A(キーワード抽出部105D)は、上記盛り上がり反応に対応する発話区間内で発声された単語(例えば、「新東京タワー」)をキーワードとして抽出する(ステップS104D)。
次に、キーワード抽出装置100D(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
以上説明したように、本実施の形態によると、キーワード抽出装置100Dは、発話音声を聞いた人の盛り上がり反応を検出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Dにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、笑い声や拍手などの盛り上がりとして捉えられる発話応答の特徴から、会話内のキーワードを抽出することができる。
なお、実施の形態5において、キーワード抽出装置100Dは、図13のステップS101〜S102、S103E、S104D、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Dは、図13の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。
また、実施の形態1〜3および5において、キーワード抽出装置(キーワード抽出部)は、発話区間内の末尾(割り込み直前)の名詞をキーワードとして抽出する場合について説明したが、これに限られない。例えば、キーワード抽出部は、検索対象の先行発話に含まれる複数の名詞のうち、概念上の最下位の名詞をキーワードとして検索するようにしてもよい。この場合、キーワード抽出装置は、メモリ等の辞書情報記憶部(不図示)をさらに有し、この辞書情報記憶部が、概念上の上位(例えば、イタリア料理)および概念上の下位(例えば、パスタ)の名詞の関係を分類して体系づけた辞書情報を記憶する。そして、キーワード抽出部は、抽出対象の発話に含まれる名詞の中から、辞書情報記憶部(不図示)の辞書情報に含まれる概念上の最下位の名詞をキーワードとして抽出する。これにより、下位概念の名詞がキーワードとして抽出される。
また、実施の形態1〜3および5において、キーワード抽出部は、抽出対象の発話に含まれる名詞のうち、ピッチの最も高い名詞をキーワードとして抽出するようにしてもよいし、使用回数の最も多い名詞をキーワードとして抽出するようにしてもよい。あるいは、キーワード抽出部は、抽出対象の発話に含まれる名詞の中から、各名詞のピッチや使用回数を示す各種パラメータの組み合わせが最適(事前に定められたパラメータのパターン)となる名詞をキーワードとして抽出するようにしてもよい。
本発明を詳細にまた特定の実施態様を参照して説明したが、本発明の精神と範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。
本出願は、2007年3月29日出願の日本特許出願(特願2007−088321)に基づくものであり、その内容はここに参照として取り込まれる。
本発明のキーワード抽出装置は、会話内に含まれる重要なキーワードを抽出するのに有用である。キーワード抽出装置は、電話、車載端末、テレビ、会議システム、コールセンターシステム、パソコン等の用途に適用することができる。
本発明の実施の形態1におけるキーワード抽出装置を含むシステム全体の構成例を示すブロック図。 本発明の実施の形態1における発話区間の例を示す図。 図1のキーワード抽出装置の動作を示すフローチャート。 本発明の実施の形態2におけるキーワード抽出装置の構成例を示すブロック図。 本発明の実施の形態2におけるピッチパターンの例を示す図。 図4のキーワード抽出装置の動作を示すフローチャート。 本発明の実施の形態3におけるキーワード抽出装置の構成例を示すブロック図。 図7のキーワード抽出装置の動作を示すフローチャート。 本発明の実施の形態4におけるキーワード抽出装置の構成例を示すブロック図。 本発明の実施の形態4における発話区間、発話内容および表情認識結果の例を示す図。 図9のキーワード抽出装置の動作を示すフローチャート。 本発明の実施の形態5におけるキーワード抽出装置の構成例を示すブロック図。 図12のキーワード抽出装置の動作を示すフローチャート。
符号の説明
100、100A、100B、100C、100D キーワード抽出装置
101 音声入力部
102 発話区間判定部
103 音声認識部
104 割込検出部
105、105A、105B、105C、105D キーワード抽出部
106 キーワード検索部
107 表示部
201 ピッチ判定部
202 ピッチパターン判定部
301 機能フレーズ抽出部
302 機能フレーズ記憶部
401 映像入力部
402 表情認識部
501 盛り上がり反応検出部

Claims (8)

  1. 発話者の発話音声を入力する音声入力部と、
    前記入力された発話音声について、前記発話者ごとの発話区間を判定する発話区間判定部と、
    前記判定された発話区間の発話音声を前記発話者ごとに認識する音声認識部と、
    前記各発話者の発話音声に対する他の発話者の応答に基づいて、キーワードの存在を示唆する発話応答の特徴を抽出する発話応答特徴抽出部と、
    前記抽出された発話応答の特徴に基づいて特定した発話区間の発話音声から前記キーワードを抽出するキーワード抽出部と、
    を含むキーワード抽出装置。
  2. 前記各発話者の発話音声には、先行発話の発話音声と後行発話の発話音声とが含まれ、
    前記発話応答特徴抽出部は、前記先行発話および前記後行発話の発話音声に基づいて、前記先行発話の途中で前記後行発話が開始された場合に、前記先行発話と前記後行発話とが重なる割り込みを検出する割込検出部で構成され、
    前記キーワード抽出部は、前記検出された割り込みに基づいて特定した、前記後行発話と重なる前記先行発話の発話音声の中から、前記キーワードを抽出する、
    請求項1に記載のキーワード抽出装置。
  3. 前記各発話者の発話音声には、先行発話の発話音声と後行発話の発話音声とが含まれ、
    前記発話応答特徴抽出部は、
    前記先行発話および前記後行発話の発話音声に基づいて、当該発話音声のピッチを判定するピッチ判定部と、
    前記判定されたピッチに基づいて、前記先行発話の末尾が下降ピッチで、かつ、その先行発話の直後の前記後行発話が上昇ピッチとなるピッチパターンを判定するパターン判定部と、を有し、
    前記キーワード抽出部は、前記判定されたピッチパターンに基づいて特定した、前記ピッチパターンに示された前記先行発話の発話音声の中から、前記キーワードを抽出する、
    請求項1に記載のキーワード抽出装置。
  4. 前記各発話者の発話音声には、先行発話の発話音声と後行発話の発話音声とが含まれ、
    前記発話応答特徴抽出部は、前記先行発話および前記後行発話の発話音声に基づいて、前記後行発話の発話音声の中から、あらかじめ定められた種類の機能フレーズを抽出し、
    前記キーワード抽出部は、前記抽出された機能フレーズを含む前記後行発話の直前の前記先行発話の発話音声の中から、前記キーワードを抽出する、
    請求項1に記載のキーワード抽出装置。
  5. 前記発話応答特徴抽出部は、前記発話者ごとの発話区間の近傍における発話者以外の人の盛り上がり反応を検出し、
    前記キーワード抽出部は、前記盛り上がり反応に対応する発話音声の中から、前記キーワードを抽出する、
    請求項1に記載のキーワード抽出装置。
  6. 前記キーワード抽出部は、前記キーワードを抽出する場合、前記先行発話内の末尾の構成素を前記キーワードとして抽出する、
    請求項2ないし5のいずれか1項に記載のキーワード抽出装置。
  7. 前記各発話者の発話音声には、先行発話の発話音声と後行発話の発話音声とが含まれ、
    前記発話応答特徴抽出部は、前記先行発話および前記後行発話の発話音声に基づいて、前記先行発話の発話音声の中から、あらかじめ定められた種類の機能フレーズを抽出し、
    前記キーワード抽出部は、前記抽出された機能フレーズを含む前記先行発話の直後の前記後行発話の発話音声の中から、前記キーワードを抽出する、
    請求項1に記載のキーワード抽出装置。
  8. 前記発話応答特徴抽出部は、前記各発話者の発話音声に対する他の発話者の表情を認識し、前記認識された表情の変化点を抽出し、
    前記キーワード抽出部は、前記抽出された表情の変化点に対応する、前記発話区間内の構成素をキーワードとして抽出する、
    請求項1に記載のキーワード抽出装置。
JP2009508884A 2007-03-29 2008-03-14 キーワード抽出装置 Expired - Fee Related JP4838351B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009508884A JP4838351B2 (ja) 2007-03-29 2008-03-14 キーワード抽出装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007088321 2007-03-29
JP2007088321 2007-03-29
JP2009508884A JP4838351B2 (ja) 2007-03-29 2008-03-14 キーワード抽出装置
PCT/JP2008/000599 WO2008126355A1 (ja) 2007-03-29 2008-03-14 キーワード抽出装置

Publications (2)

Publication Number Publication Date
JPWO2008126355A1 JPWO2008126355A1 (ja) 2010-07-22
JP4838351B2 true JP4838351B2 (ja) 2011-12-14

Family

ID=39863515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009508884A Expired - Fee Related JP4838351B2 (ja) 2007-03-29 2008-03-14 キーワード抽出装置

Country Status (5)

Country Link
US (1) US8370145B2 (ja)
EP (1) EP2045798B1 (ja)
JP (1) JP4838351B2 (ja)
CN (1) CN101542592A (ja)
WO (1) WO2008126355A1 (ja)

Families Citing this family (162)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US8909683B1 (en) 2009-07-17 2014-12-09 Open Invention Network, Llc Method and system for communicating with internet resources to identify and supply content for webpage construction
JP5471274B2 (ja) * 2009-10-14 2014-04-16 日本電気株式会社 携帯端末装置及び情報記録方法
JP5715390B2 (ja) 2009-12-03 2015-05-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 視聴端末装置、視聴統計装置、視聴統計処理システムおよび視聴統計処理方法
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9645996B1 (en) * 2010-03-25 2017-05-09 Open Invention Network Llc Method and device for automatically generating a tag from a conversation in a social networking website
US8543403B1 (en) * 2010-04-26 2013-09-24 Sprint Communication Company L.P. Intelligent information supplements to calls
US10019995B1 (en) * 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9443518B1 (en) 2011-08-31 2016-09-13 Google Inc. Text transcript generation from a communication session
US8798995B1 (en) 2011-09-23 2014-08-05 Amazon Technologies, Inc. Key word determinations from voice data
JP2013109635A (ja) * 2011-11-22 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 単語重要度算出装置とその方法とプログラム
KR20160036104A (ko) * 2011-12-07 2016-04-01 퀄컴 인코포레이티드 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
EP2862163A4 (en) * 2012-06-18 2015-07-29 Ericsson Telefon Ab L M METHOD AND NODE FOR ACTIVATING AND MANUFACTURING INPUTS FOR APPLICATION
US8612211B1 (en) 2012-09-10 2013-12-17 Google Inc. Speech recognition and summarization
EP2954514B1 (en) 2013-02-07 2021-03-31 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
KR101370539B1 (ko) * 2013-03-15 2014-03-06 포항공과대학교 산학협력단 지시 표현 처리에 기반한 대화 처리 방법 및 장치
JP6064718B2 (ja) * 2013-03-21 2017-01-25 富士ゼロックス株式会社 情報処理装置及びプログラム
US9064495B1 (en) * 2013-05-07 2015-06-23 Amazon Technologies, Inc. Measurement of user perceived latency in a cloud based speech application
KR20140143034A (ko) * 2013-06-05 2014-12-15 삼성전자주식회사 다양한 입력 기반의 서비스 제공 방법 및 그 전자 장치
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
HK1220268A1 (zh) 2013-06-09 2017-04-28 苹果公司 用於實現跨數字助理的兩個或更多個實例的會話持續性的設備、方法、和圖形用戶界面
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR101870849B1 (ko) * 2014-07-02 2018-06-25 후아웨이 테크놀러지 컴퍼니 리미티드 정보 전송 방법 및 전송 장치
JP6081966B2 (ja) * 2014-07-18 2017-02-15 キャンバスマップル株式会社 情報検索装置、情報検索プログラム、および情報検索システム
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
JP6387287B2 (ja) * 2014-11-14 2018-09-05 株式会社デンソーテン 不明事項解消処理システム
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9576190B2 (en) * 2015-03-18 2017-02-21 Snap Inc. Emotion recognition in video conferencing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10504509B2 (en) 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN105516472A (zh) * 2015-11-30 2016-04-20 联想(北京)有限公司 一种信息处理方法及电子设备
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US12223282B2 (en) 2016-06-09 2025-02-11 Apple Inc. Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US12197817B2 (en) 2016-06-11 2025-01-14 Apple Inc. Intelligent device arbitration and control
US11490232B2 (en) 2016-08-01 2022-11-01 Microsoft Technology Licensing, Llc Location-based conversation identifier
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
JP6612707B2 (ja) * 2016-09-30 2019-11-27 本田技研工業株式会社 情報提供装置
US10531227B2 (en) 2016-10-19 2020-01-07 Google Llc Time-delimited action suggestion system
US20180158462A1 (en) * 2016-12-02 2018-06-07 Cirrus Logic International Semiconductor Ltd. Speaker identification
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
WO2018173252A1 (ja) * 2017-03-24 2018-09-27 ヤマハ株式会社 重要単語抽出装置、及び関連会議抽出システム
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. Multi-modal interfaces
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
JP7035476B2 (ja) * 2017-11-20 2022-03-15 富士通株式会社 音声処理プログラム、音声処理装置、及び音声処理方法
JP6943158B2 (ja) * 2017-11-28 2021-09-29 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
JP2019101385A (ja) * 2017-12-08 2019-06-24 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
JP6797338B2 (ja) * 2018-08-31 2020-12-09 三菱電機株式会社 情報処理装置、情報処理方法及びプログラム
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. User activity shortcut suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112562687B (zh) * 2020-12-11 2023-08-04 天津讯飞极智科技有限公司 音视频处理方法、装置、录音笔和存储介质
US20220300560A1 (en) * 2021-03-18 2022-09-22 Amazon Technologies, Inc. Voice search refinement resolution
US11854544B1 (en) 2021-06-11 2023-12-26 Amazon Technologies, Inc. Entity resolution of product search filters

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05323993A (ja) * 1992-03-16 1993-12-07 Toshiba Corp 音声対話システム
JPH08286693A (ja) * 1995-04-13 1996-11-01 Toshiba Corp 情報処理装置
JP2002169804A (ja) * 2000-12-01 2002-06-14 Namco Ltd 模擬会話システム、模擬会話方法、および情報記憶媒体
JP2003208196A (ja) * 2002-01-11 2003-07-25 Matsushita Electric Ind Co Ltd 音声対話方法および装置
JP2004325848A (ja) * 2003-04-25 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 音声対話制御方法、音声対話制御装置、音声対話制御プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850609B1 (en) * 1997-10-28 2005-02-01 Verizon Services Corp. Methods and apparatus for providing speech recording and speech transcription services
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
JP3597398B2 (ja) 1998-10-15 2004-12-08 株式会社リコー 音声認識装置
US6665644B1 (en) * 1999-08-10 2003-12-16 International Business Machines Corporation Conversational data mining
GB0108603D0 (en) * 2001-04-05 2001-05-23 Moores Toby Voice recording methods and systems
JP2005157494A (ja) * 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
JP2005215726A (ja) 2004-01-27 2005-08-11 Advanced Media Inc 話者に対する情報提示システム及びプログラム
JP2005293539A (ja) 2004-03-08 2005-10-20 Matsushita Electric Works Ltd 表情認識装置
JP5025932B2 (ja) 2005-09-26 2012-09-12 昭和電工株式会社 窒化物半導体発光素子の製造方法
US7991128B2 (en) * 2006-11-01 2011-08-02 International Business Machines Corporation Mirroring of conversation stubs
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05323993A (ja) * 1992-03-16 1993-12-07 Toshiba Corp 音声対話システム
JPH08286693A (ja) * 1995-04-13 1996-11-01 Toshiba Corp 情報処理装置
JP2002169804A (ja) * 2000-12-01 2002-06-14 Namco Ltd 模擬会話システム、模擬会話方法、および情報記憶媒体
JP2003208196A (ja) * 2002-01-11 2003-07-25 Matsushita Electric Ind Co Ltd 音声対話方法および装置
JP2004325848A (ja) * 2003-04-25 2004-11-18 Nippon Telegr & Teleph Corp <Ntt> 音声対話制御方法、音声対話制御装置、音声対話制御プログラム

Also Published As

Publication number Publication date
JPWO2008126355A1 (ja) 2010-07-22
EP2045798A1 (en) 2009-04-08
CN101542592A (zh) 2009-09-23
EP2045798A4 (en) 2012-12-26
WO2008126355A1 (ja) 2008-10-23
EP2045798B1 (en) 2014-12-03
US20090150155A1 (en) 2009-06-11
US8370145B2 (en) 2013-02-05

Similar Documents

Publication Publication Date Title
JP4838351B2 (ja) キーワード抽出装置
US11776540B2 (en) Voice control of remote device
JP5381988B2 (ja) 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム
US10326869B2 (en) Enabling voice control of telephone device
US10600414B1 (en) Voice control of remote device
US10593328B1 (en) Voice control of remote device
US7676371B2 (en) Oral modification of an ASR lexicon of an ASR engine
CN102254556B (zh) 基于听者和说者的讲话风格比较估计听者理解说者的能力
US8484031B1 (en) Automated speech recognition proxy system for natural language understanding
JP2022521289A (ja) エンドツーエンドの音声変換
WO2020233068A1 (zh) 会议音频控制方法、系统、设备及计算机可读存储介质
US11721324B2 (en) Providing high quality speech recognition
CN110689877A (zh) 一种语音结束端点检测方法及装置
US12424223B2 (en) Voice-controlled communication requests and responses
KR20250051049A (ko) 상호작용형 음성 응답 시스템 내에서 사용자 상호작용 세션을 최적화하는 시스템 및 방법
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
CN109616116B (zh) 通话系统及其通话方法
JP2005283972A (ja) 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置
CN110125946B (zh) 自动通话方法、装置、电子设备及计算机可读介质
US20250218440A1 (en) Context-based speech assistance
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
JP2005151037A (ja) 音声処理装置および音声処理方法
JP2001296884A (ja) 音声認識装置および方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110929

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4838351

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees