JP2005122128A - 音声認識システム及びプログラム - Google Patents
音声認識システム及びプログラム Download PDFInfo
- Publication number
- JP2005122128A JP2005122128A JP2004255455A JP2004255455A JP2005122128A JP 2005122128 A JP2005122128 A JP 2005122128A JP 2004255455 A JP2004255455 A JP 2004255455A JP 2004255455 A JP2004255455 A JP 2004255455A JP 2005122128 A JP2005122128 A JP 2005122128A
- Authority
- JP
- Japan
- Prior art keywords
- user
- dictionary
- speech recognition
- voice
- command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003384 imaging method Methods 0.000 claims abstract description 57
- 238000001514 detection method Methods 0.000 claims description 59
- 238000012545 processing Methods 0.000 claims description 24
- 230000035945 sensitivity Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 206010011469 Crying Diseases 0.000 description 2
- 235000002673 Dioscorea communis Nutrition 0.000 description 2
- 241000544230 Dioscorea communis Species 0.000 description 2
- 208000035753 Periorbital contusion Diseases 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 208000021760 high fever Diseases 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/10—Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】 煩雑な操作をすることなく音声認識の精度を高める。
【解決手段】 音声を認識する音声認識システムであって、音声を認識するための音声認識辞書を利用者毎に格納する辞書格納手段と、利用者を撮像する撮像手段と、撮像手段により撮像された画像を用いて利用者を識別する利用者識別手段と、利用者識別手段によって識別された利用者の音声認識辞書を辞書格納手段から選択する辞書選択手段と、辞書選択手段により選択された音声認識辞書を用いて利用者の音声を認識する音声認識手段とを備える音声認識システムを提供する。
【選択図】図1
【解決手段】 音声を認識する音声認識システムであって、音声を認識するための音声認識辞書を利用者毎に格納する辞書格納手段と、利用者を撮像する撮像手段と、撮像手段により撮像された画像を用いて利用者を識別する利用者識別手段と、利用者識別手段によって識別された利用者の音声認識辞書を辞書格納手段から選択する辞書選択手段と、辞書選択手段により選択された音声認識辞書を用いて利用者の音声を認識する音声認識手段とを備える音声認識システムを提供する。
【選択図】図1
Description
本発明は、音声認識システム及びプログラムに関する。特に、本発明は、利用者に応じて設定を変更することにより音声認識の精度を高める音声認識システム及びプログラムに関する。
近年、音声を認識して文章データに変換する音声認識技術が発達してきている。この技術によれば、キーボード操作に不慣れな者であっても、文章データをコンピュータに入力することができる。音声認識技術は応用分野が広く、例えば、音声により操作可能な家庭用電機製品、音声を文章として書き取るディクテーション装置、又は自動車の運転中でも手を使わずに操作できるナビゲーションシステム等において用いられている。
現時点で先行公知文献を把握していないので、先行公知文献に関する記載を省略する。
現時点で先行公知文献を把握していないので、先行公知文献に関する記載を省略する。
しかしながら、利用者の音声は利用者毎に異なるため、利用者によっては認識の精度が低下して実用にならないような場合がある。このため、音声認識用辞書に対して利用者の特徴に合わせた設定を行うことにより、認識の精度を向上する技術が提案されている。しかし、この技術よれば、認識の精度は向上するものの、利用者を変更する毎にその旨をキー操作等により入力しなければならず、煩雑であった。
そこで本発明は、上記の課題を解決することのできる音声認識システム及びプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の第1の形態においては、音声を認識するための音声認識辞書を利用者毎に格納する辞書格納手段と、利用者を撮像する撮像手段と、撮像手段により撮像された画像を用いて利用者を識別する利用者識別手段と、利用者識別手段によって識別された利用者の音声認識辞書を辞書格納手段から選択する辞書選択手段と、辞書選択手段により選択された音声認識辞書を用いて利用者の音声を認識する音声認識手段とを備える音声認識システムを提供する。
また、撮像手段は、利用者の移動可能範囲を更に撮像し、音声認識システムは、撮像手段により撮像された利用者の画像及び移動可能範囲の画像に基づいて、利用者の移動先を検出する移動先検出手段と、音声を集音した方向を検出する集音方向検出手段とを更に備え、辞書選択手段は、移動先検出手段により検出された利用者の移動先が、集音方向検出手段により検出された音声の集音方向に一致する場合に、当該利用者の音声認識辞書を辞書格納手段から選択してもよい。
また、撮像手段は、利用者の移動可能範囲を更に撮像し、音声認識システムは、撮像手段により撮像された利用者の画像及び移動可能範囲の画像に基づいて、利用者の移動先を検出する移動先検出手段と、音声を集音した方向を検出する集音方向検出手段とを更に備え、辞書選択手段は、移動先検出手段により検出された利用者の移動先が、集音方向検出手段により検出された音声の集音方向に一致する場合に、当該利用者の音声認識辞書を辞書格納手段から選択してもよい。
また、撮像手段は、複数の利用者を撮像し、利用者識別手段は、複数の利用者のそれぞれを識別し、音声認識システムは、撮像手段により撮像された画像に基づいて、少なくとも1人の利用者の視線方向を検出する視線方向検出手段と、少なくとも1人の利用者が視線方向に視認する他の利用者を発言者として識別する発言者識別手段とを更に備え、辞書選択手段は、発言者識別手段により識別された発言者の音声認識辞書を辞書格納手段から選択してもよい。
また、発言者識別手段は、発言者が視線方向に視認する他の利用者を、次の発言者として識別してもよい。
また、発言者識別手段により識別された発言者の方向から集音するマイクの感度を、他の方向から集音するマイクと比較して高くする集音感度調節手段を更に備えてもよい。
また、発言者識別手段は、発言者が視線方向に視認する他の利用者を、次の発言者として識別してもよい。
また、発言者識別手段により識別された発言者の方向から集音するマイクの感度を、他の方向から集音するマイクと比較して高くする集音感度調節手段を更に備えてもよい。
また、受信したコマンドに応じて処理を行う複数の処理装置と、処理装置に送信するコマンド及び当該コマンドの送信先の処理装置を識別する処理装置識別情報を、利用者及び文章データに対応付けて格納するコマンド格納手段と、コマンド格納手段から、利用者識別手段により識別された利用者及び音声認識手段により認識された文章データに対応する処理装置識別情報及びコマンドを選択して、選択した当該コマンドを、選択した当該処理装置識別情報が識別する処理装置に送信するコマンド選択手段とを更に備えてもよい。
また、撮像手段は、利用者の移動可能範囲を更に撮像し、音声認識システムは、撮像手段により撮像された利用者の画像及び移動可能範囲の画像に基づいて、利用者の移動先を検出する移動先検出手段を更に備え、コマンド格納手段は、コマンド及び処理装置識別情報を、更に利用者の移動先を識別する情報に対応付けて格納し、コマンド選択手段は、コマンド格納手段から、移動先検出手段により検出された利用者の移動先に更に対応付けられた処理装置識別情報及びコマンドを選択してもよい。
また、撮像手段は、利用者の移動可能範囲を更に撮像し、音声認識システムは、撮像手段により撮像された利用者の画像及び移動可能範囲の画像に基づいて、利用者の移動先を検出する移動先検出手段を更に備え、コマンド格納手段は、コマンド及び処理装置識別情報を、更に利用者の移動先を識別する情報に対応付けて格納し、コマンド選択手段は、コマンド格納手段から、移動先検出手段により検出された利用者の移動先に更に対応付けられた処理装置識別情報及びコマンドを選択してもよい。
また、互いに異なる位置に設けられ、利用者の音声を集音する複数の集音装置と、複数の集音装置により集音した音波の位相差に基づいて、利用者の位置を検出する利用者位置検出手段とを更に備え、撮像手段は、利用者の画像として、利用者位置検出手段により検出された位置の画像を撮像してもよい。
また、撮像手段は、利用者位置検出手段により検出された位置における、複数の利用者を撮像し、撮像手段により撮像された画像に基づいて、少なくとも1人の利用者の視線方向を検出する視線方向検出手段を更に備え、利用者識別手段は、複数の利用者のうち、少なくとも1人の利用者が視線方向に視認する他の利用者を発言者として識別し、辞書選択手段は、発言者の音声認識辞書を辞書格納手段から選択してもよい。
また、音声認識手段により認識された音声を、利用者識別手段により識別された利用者に応じて異なる、当該音声が当該利用者にとって意味する内容を示す内容指示情報に変換して記録する内容識別記録手段を更に備えてもよい。
また、音声認識手段により認識された音声を、利用者識別手段により識別された利用者に応じて異なる、当該音声が当該利用者にとって意味する内容を示す内容指示情報に変換して記録する内容識別記録手段を更に備えてもよい。
本発明の第2の形態によると、音声を認識するための音声認識辞書を、利用者の年齢層、性別、又は人種を示す利用者属性毎に格納する辞書格納手段と、利用者を撮像する撮像手段と、撮像手段により撮像された画像を用いて利用者の利用者属性を識別する利用者属性識別手段と、利用者属性識別手段により識別された利用者属性の音声認識辞書を辞書格納手段から選択する辞書選択手段と、辞書選択手段により選択された音声認識辞書を用いて、利用者の音声を認識する音声認識手段とを備える音声認識システムを提供する。
また、音声認識手段により認識された音声を、利用者属性識別手段により識別された利用者属性に応じて異なる、当該音声が当該利用者にとって意味する内容を示す内容指示情報に変換して記録する内容識別記録手段を更に備えてもよい。
また、互いに周波数特性が異なる複数のバンドパスフィルタの中から、利用者の音声を他の音声と比較してより多く通過させるバンドパスフィルタを、利用者属性に基づいて選択するバンドパスフィルタ選択手段を更に備え、音声認識手段は、認識対象の音声の雑音を、選択したバンドパスフィルタにより除去してもよい。
また、互いに周波数特性が異なる複数のバンドパスフィルタの中から、利用者の音声を他の音声と比較してより多く通過させるバンドパスフィルタを、利用者属性に基づいて選択するバンドパスフィルタ選択手段を更に備え、音声認識手段は、認識対象の音声の雑音を、選択したバンドパスフィルタにより除去してもよい。
本発明の第3の形態によると、音声認識システムとしてコンピュータを機能させるプログラムであって、コンピュータを、音声を認識するための音声認識辞書を利用者毎に格納する辞書格納手段と、利用者を撮像する撮像手段と、撮像手段により撮像された画像を用いて利用者を識別する利用者識別手段と、利用者識別手段によって識別された利用者の音声認識辞書を辞書格納手段から選択する辞書選択手段と、辞書選択手段により選択された音声認識辞書を用いて利用者の音声を認識する音声認識手段として機能させるプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本発明によれば、煩雑な操作をすることなく音声認識の精度を高めることができる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、音声認識システム10の概略を示す。音声認識システム10は、受信したコマンドに応じて処理を行う処理装置の一例である電気製品20−1〜Nと、辞書格納手段100と、撮像手段105a〜bと、利用者識別手段110と、移動先検出手段120と、視線方向検出手段130と、集音方向検出手段140と、発言者識別手段150と、集音感度調節手段160と、辞書選択手段170と、音声認識手段180と、本発明に係るコマンド格納手段の一例であるコマンドデータベース185と、コマンド選択手段190とを備える。
図1は、音声認識システム10の概略を示す。音声認識システム10は、受信したコマンドに応じて処理を行う処理装置の一例である電気製品20−1〜Nと、辞書格納手段100と、撮像手段105a〜bと、利用者識別手段110と、移動先検出手段120と、視線方向検出手段130と、集音方向検出手段140と、発言者識別手段150と、集音感度調節手段160と、辞書選択手段170と、音声認識手段180と、本発明に係るコマンド格納手段の一例であるコマンドデータベース185と、コマンド選択手段190とを備える。
音声認識システム10は、利用者を撮像した画像に基づいて利用者に適した音声認識用辞書を選択することにより、利用者の音声を認識する精度を高めることを目的とする。辞書格納手段100は、音声を認識して文章データに変換するための音声認識辞書を利用者毎に格納している。例えば、音声認識辞書は、利用者毎に異なっており、当該利用者の音声を認識するのに適した状態に設定されている。
撮像手段105aは、部屋の入り口に設けられ、部屋に入る利用者を撮像する。そして、利用者識別手段110は、撮像手段105aにより撮像された画像を用いて利用者を識別する。例えば、利用者識別手段110は、利用者の顔の特徴を示す情報を利用者毎に予め格納しており、撮像された画像から抽出した特徴と、予め格納している当該特徴とが一致する利用者を選択することにより、利用者を識別してもよい。更に、利用者識別手段110は、識別した利用者の他の特徴であって、顔の特徴と比較して認識が容易な特徴、例えば、当該利用者の被服の色彩又は身長を検出して、移動先検出手段120に送る。
撮像手段105bは、利用者の移動可能範囲、例えば、当該部屋の内部を撮像する。そして、移動先検出手段120は、撮像手段105aにより撮像された利用者の画像及び撮像手段105bにより撮像された移動可能範囲の画像に基づいて、利用者の移動先を検出する。例えば、移動先検出手段120は、利用者の被服の色彩又は身長等、利用者の顔の特徴と比較して容易に識別可能な特徴情報を、利用者識別手段110から受け取る。そして、移動先検出手段120は、撮像手段105bにより撮像された画像のうち、検出した当該特徴情報と一致する部分を検出する。これにより、移動先検出手段120は、利用者識別手段110による識別処理を再び行うことなく、利用者が移動した移動先が撮像手段105bの撮像範囲のどの部分であるかを検出することができる。
視線方向検出手段130は、撮像手段105bにより撮像された画像に基づいて、少なくとも1人の利用者の視線方向を検出する。例えば、視線方向検出手段130は、撮像された画像における利用者の顔の向き又は利用者の目のうち黒目部分の位置を判断することにより、視線方向を検出してもよい。
集音方向検出手段140は、集音装置165により音声が集音された方向を検出する。例えば、集音装置165が、指向性が比較的高い複数のマイクを有している場合には、集音方向検出手段140は、集音した音が最も大きいマイクの指向方向を、音声が集音された方向として検出してもよい。
発言者識別手段150は、移動先検出手段120により検出された利用者の移動先が、集音方向検出手段140により検出された音声の集音方向に一致する場合に、当該利用者が発言者であると判断する。また、発言者識別手段150は、少なくとも1人の利用者が視線方向に視認する他の利用者を発言者であると判断してもよい。そして、集音感度調節手段160は、発言者識別手段150により識別された発言者の方向から集音するマイクの感度を、他の方向から集音するマイクと比較して高くするように、集音装置165を設定する。
辞書選択手段170は、発言者識別手段150により識別された発言者の音声認識辞書を辞書格納手段100から選択して音声認識手段180に送る。これに代えて、辞書選択手段170は、音声認識システム10とは別体に設けられたサーバから、音声認識辞書を取得してもよい。そして、音声認識手段180は、辞書選択手段170により選択された音声認識辞書を用いて、集音装置165により集音された音声に対して音声認識処理を行うことにより、当該音声を文章データに変換する。
コマンドデータベース185は、電気製品20−1〜Nの何れかに送信するコマンド及び当該コマンドの送信先の電気製品を識別する電気製品識別情報を、利用者、文章データ、及び利用者の移動先に対応付けて格納している。コマンド選択手段190は、利用者識別手段110及び発言者識別手段150により識別された発言者、移動先検出手段120により検出された発言者の移動先、及び音声認識手段180により認識された文章データに対応する、コマンド及び電気製品識別情報を、コマンドデータベース185から選択する。そして、コマンド選択手段190は、選択したコマンドを、電気製品識別情報により識別される電気製品、例えば電気製品20−1に送信する。
図2は、コマンドデータベース185のデータ構造の一例を示す。コマンドデータベース185は、電気製品20−1〜Nの何れかに送信するコマンド及び当該コマンドの送信先の電気製品を識別する電気製品識別情報を、利用者、文章データ、及び利用者の移動先を識別する移動先識別情報に対応付けて格納している。
例えば、コマンドデータベース185は、浴槽の湯の温度を40℃に下げるコマンド及び当該コマンドの送信先である浴室給湯機を、A氏、あつい、及び浴室に対応付けて格納している。また、コマンドデータベース185は、浴槽の湯の温度を42℃に下げるコマンド及び当該コマンドの送信先である浴室給湯機を、B氏、あつい、及び浴室に対応付けて格納している。即ち、コマンド選択手段190は、A氏が浴室で「あつい」と発言した場合には、湯温を40℃に下げるコマンドを浴室給湯機に送信し、B氏が浴室で「あつい」と発言した場合には、湯温を42℃に下げるコマンドを浴室給湯機に送信する。
このように、コマンドデータベース185が、文章データを利用者によって異なるコマンドに対応付けて格納することにより、コマンド選択手段190は、利用者の希望に即したコマンドを実行することができる。
このように、コマンドデータベース185が、文章データを利用者によって異なるコマンドに対応付けて格納することにより、コマンド選択手段190は、利用者の希望に即したコマンドを実行することができる。
また、コマンドデータベース185は、室内の気温を26℃に下げるコマンド及び当該コマンドの送信先であるエアコンを、A氏、あつい、及びリビングルームに対応付けて格納している。即ち、コマンド選択手段190は、A氏がリビングルームで「あつい」と発言した場合には、室温を26℃に下げるコマンドをエアコンに送信し、A氏が浴室で「あつい」と発言した場合には、湯温を40℃に下げるコマンドを浴室給湯機に送信する。
また、コマンドデータベース185は、室内の気温を22℃に下げるコマンド及び当該コマンドの送信先であるエアコンを、B氏、あつい、及びリビングルームに対応付けて格納している。即ち、コマンド選択手段190は、B氏がリビングルームで「あつい」と発言した場合には、室温を22℃に下げるコマンドをエアコンに送信し、B氏が浴室で「あつい」と発言した場合には、湯温を42℃に下げるコマンドを浴室給湯機に送信する。
このように、コマンドデータベース185が、文章データを利用者の移動先によって異なる電気製品に対応付けて格納することにより、コマンド選択手段190は、利用者の希望に即した電気製品にコマンドを実行させることができる。
また、コマンドデータベース185は、室内の気温を22℃に下げるコマンド及び当該コマンドの送信先であるエアコンを、B氏、あつい、及びリビングルームに対応付けて格納している。即ち、コマンド選択手段190は、B氏がリビングルームで「あつい」と発言した場合には、室温を22℃に下げるコマンドをエアコンに送信し、B氏が浴室で「あつい」と発言した場合には、湯温を42℃に下げるコマンドを浴室給湯機に送信する。
このように、コマンドデータベース185が、文章データを利用者の移動先によって異なる電気製品に対応付けて格納することにより、コマンド選択手段190は、利用者の希望に即した電気製品にコマンドを実行させることができる。
図3は、音声認識システム10の動作フローの一例を示す。撮像手段105aは、部屋に入る利用者を撮像する(S200)。そして、利用者識別手段110は、撮像手段105aにより撮像された画像を用いて利用者を識別する(S210)。撮像手段105bは、利用者の移動可能範囲、例えば、当該部屋の内部を撮像する(S220)。移動先検出手段120は、撮像手段105aにより撮像された利用者の画像及び撮像手段105bにより撮像された移動可能範囲の画像に基づいて、利用者の移動先を検出する(S230)。
集音方向検出手段140は、集音装置165により音声が集音された方向を検出する(S240)。例えば、集音装置165が、指向性が比較的高い複数のマイクを有している場合には、集音方向検出手段140は、集音した音が最も大きいマイクの指向方向を、音声が集音された方向として検出してもよい。
視線方向検出手段130は、撮像手段105bにより撮像された画像に基づいて、少なくとも1人の利用者の視線方向を検出する(S250)。例えば、視線方向検出手段130は、撮像された画像における利用者の顔の向き又は利用者の目のうち黒目部分の位置を判断することにより、視線方向を検出してもよい。
発言者識別手段150は、移動先検出手段120により検出された利用者の移動先が、集音方向検出手段140により検出された音声の集音方向に一致する場合に、当該利用者が発言者であると判断する(S260)。また、発言者識別手段150は、少なくとも1人の利用者が視線方向に視認する他の利用者を発言者であると判断してもよい。具体的には、発言者識別手段150は、発言者が視線方向に視認する他の利用者を、次の発言者として識別してもよい。
なお、発言者識別手段150は、上記2つの方法を組み合わせて発言者を識別してもよい。例えば、発言者識別手段150は、集音方向検出手段140により検出された音声の集音方向が、何れの利用者の移動先とも一致しない場合に、利用者の視線方向に視認する他の利用者を発言者と判断してもよい。
集音感度調節手段160は、発言者識別手段150により識別された発言者の方向から集音するマイクの感度を、他の方向から集音するマイクと比較して高くする(S270)。辞書選択手段170は、発言者識別手段150により識別された発言者の音声認識辞書を辞書格納手段100から選択する(S280)。
音声認識手段180は、辞書選択手段170により選択された音声認識辞書を用いて、集音装置165により集音された音声に対して音声認識処理を行うことにより、当該音声を文章データに変換する(S290)。更に、音声認識手段180は、音声認識の精度を高めるべく、音声認識処理の結果に基づいて、辞書選択手段170により選択された音声認識辞書を変更してもよい。
コマンド選択手段190は、利用者識別手段110及び発言者識別手段150により識別された発言者、移動先検出手段120により検出された発言者の移動先、及び音声認識手段180により認識された文章データに対応する、コマンド及び電気製品識別情報を、コマンドデータベース185から選択する。そして、コマンド選択手段190は、選択したコマンドを、電気製品識別情報により識別される電気製品に送信する(S295)。
(第2実施例)
図4は、音声認識システム10の概略を示す。本実施例において、音声認識システム10は、集音装置300−1〜2と、利用者位置検出手段310と、撮像手段320と、視線方向検出手段330と、利用者識別手段340と、バンドパスフィルタ選択手段350と、辞書選択手段360と、辞書格納手段365と、音声認識手段370と、内容指示辞書格納手段375と、内容識別記録手段380とを備える。集音装置300−1及び集音装置300−2の各々は、互いに異なる位置に設けられ、利用者の音声を集音する。利用者位置検出手段310は、集音装置300−1及び集音装置300−2により集音した音波の位相差に基づいて、利用者の位置を検出する。
図4は、音声認識システム10の概略を示す。本実施例において、音声認識システム10は、集音装置300−1〜2と、利用者位置検出手段310と、撮像手段320と、視線方向検出手段330と、利用者識別手段340と、バンドパスフィルタ選択手段350と、辞書選択手段360と、辞書格納手段365と、音声認識手段370と、内容指示辞書格納手段375と、内容識別記録手段380とを備える。集音装置300−1及び集音装置300−2の各々は、互いに異なる位置に設けられ、利用者の音声を集音する。利用者位置検出手段310は、集音装置300−1及び集音装置300−2により集音した音波の位相差に基づいて、利用者の位置を検出する。
撮像手段320は、利用者の画像として、利用者位置検出手段310により検出された位置の画像を撮像する。複数の利用者を撮像した場合には、視線方向検出手段330は、撮像手段320により撮像された画像に基づいて、少なくとも1人の利用者の視線方向を検出する。そして、利用者識別手段340は、複数の利用者のうち、その少なくとも一人の利用者が視線方向に視認する他の利用者を発言者として識別する。この時、好ましくは、利用者識別手段340は、発言者であるその利用者の年齢層、性別、又は人種を示す利用者属性を識別する。
バンドパスフィルタ選択手段350は、互いに周波数特性が異なる複数のバンドパスフィルタの中から、利用者の音声を他の音声と比較してより多く透過させるバンドパスフィルタを、その利用者の利用者属性に基づいて選択する。辞書格納手段365は、音声を認識するための音声認識辞書を、利用者毎又は利用者属性毎に格納する。辞書選択手段360は、利用者識別手段340により識別された利用者属性の音声認識辞書を辞書格納手段365から選択する。音声認識手段370は、認識対象の音声の雑音を、選択したバンドパスフィルタにより除去する。そして、音声認識手段370は、辞書選択手段360により選択された音声認識辞書を用いて、利用者の音声を認識する。
内容指示辞書格納手段375は、利用者毎に、認識された音声に対応付けて、その音声がその利用者にとって意味する内容を示す内容指示情報を格納する。そして、内容識別記録手段380は、音声認識手段370により認識された音声を、利用者識別手段340により識別された利用者又は利用者属性に応じて異なる、当該音声が当該利用者にとって意味する内容を示す意味指示情報に変換して記録する。
図5は、辞書格納手段365のデータ構造の一例を示す。辞書格納手段365は、音声を認識するための音声認識辞書を、利用者毎に、又は、利用者の年齢層、性別、又は人種を示す利用者属性毎に格納する。例えば、辞書格納手段365は、利用者E氏に対応付けて、E氏用の専用辞書を格納する。一方、辞書格納手段365は、「成人男性」かつ「日本語を母国語とする人種」を示す利用者属性に対応付けて、日本語の男性成人用辞書を格納する。更に、辞書格納手段365は、「成人男性」かつ「英語を母国語とする人種」を示す利用者属性に対応付けて、英語の男性成人用辞書を格納する。
図6は、内容指示辞書格納手段375のデータ構造の一例を示す。内容指示辞書格納手段375は、利用者毎に、認識された音声に対応付けて、その音声がその利用者にとって意味する内容を示す内容指示情報を格納する。例えば、内容指示辞書格納手段375は、利用者である乳児A、及び、認識した音声である泣き声タイプaに対応付けて、その泣き声がその乳児Aにとって自身が健康である旨を意味する内容指示情報を格納する。
即ち乳児Aの泣き声が泣き声タイプaに該当すると認識された場合には、内容識別記録手段380は、その乳児Aが健康である旨の内容指示情報を記録する。同様に、乳児Aの泣き声が泣き声タイプbに該当すると認識された場合には、内容識別記録手段380は、その乳児Aに微熱がある旨の内容指示情報を記録する。また、乳児Aの泣き声が泣き声タイプcに該当すると認識された場合には、内容識別記録手段380は、その乳児Aに高熱がある旨の内容指示情報を記録する。このように、本実施例に係る音声認識システム10によれば、乳児の健康状態を音声認識により記録することができる。
一方、乳児Bの泣き声が泣き声タイプbに該当すると認識された場合には、内容識別記録手段380は、その乳児Bに高熱がある旨の内容指示情報を記録する。このように、内容識別記録手段380は、同一の音声が認識された場合であっても、発言者によって異なる適切な内容指示情報を記録することができる。
また、内容指示辞書格納手段375は、利用者である父親C、及び、認識した音声である「俺の小学校入学式の日」に対応付けて、その音声がその父親Cに対して意味する内容である「78/04/01」を格納する。また、内容指示辞書格納手段375は、利用者である息子D、及び、認識した音声である「俺の小学校入学式の日」に対応付けて、その音声がその父親Cに対して意味する内容である「04/04/01」を格納する。即ち発言者の画像を用いることにより、音声認識した音声自体のみならず、その音声が意味する内容を記録することができる。
図7は、音声認識システム10の動作フローの一例を示す。利用者位置検出手段310は、集音装置300−1及び集音装置300−2により集音した音波の位相差に基づいて、利用者の位置を検出する(S500)。撮像手段320は、利用者の画像として、利用者位置検出手段310により検出された位置の画像を撮像する(S510)。複数の利用者を撮像した場合には、視線方向検出手段330は、撮像手段320により撮像された画像に基づいて、少なくとも1人の利用者の視線方向を検出する(S520)。
そして、利用者識別手段340は、複数の利用者のうち、その少なくとも一人の利用者が視線方向に視認する他の利用者を発言者として識別する(S530)。この時、好ましくは、利用者識別手段340は、発言者であるその利用者の年齢層、性別、又は人種を示す利用者属性を識別する。バンドパスフィルタ選択手段350は、互いに周波数特性が異なる複数のバンドパスフィルタの中から、利用者の音声を他の音声と比較してより多く透過させるバンドパスフィルタを、その利用者の利用者属性に基づいて選択する(S540)。
辞書選択手段360は、利用者識別手段340により識別された利用者属性の音声認識辞書を辞書格納手段365から選択する(S550)。音声認識手段370は、認識対象の音声の雑音を、選択したバンドパスフィルタにより除去し、辞書選択手段360により選択された音声認識辞書を用いて、利用者の音声を認識する(S560)。内容識別記録手段380は、音声認識手段370により認識された音声を、当該音声が当該利用者にとって意味する内容を示す意味指示情報に変換し(S570)、記録する(S580)。
図8は、上記の第1実施例又は第2実施例において、音声認識システム10として機能するコンピュータ500のハードウェア構成の一例を示す。コンピュータ500は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、グラフィックコントローラ1075、及び表示装置1080を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。なお、ハードディスクドライブ1040は必須の構成ではなく、コンピュータ500は、ハードディスクドライブ1040に代えて不揮発性のフラッシュメモリを備えてもよい。
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ファイバチャネル等のネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、コンピュータ500が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020を介して入出力チップ1070に提供する。
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、コンピュータ500の起動時にCPU1000が実行するブートプログラムや、コンピュータ500のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、RAM1020を介して入出力チップ1070に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
コンピュータ500に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出されコンピュータ500にインストールされて実行される。
コンピュータ500にインストールされて実行されコンピュータ500を音声認識システム10として機能させるプログラムは、撮像モジュールと、利用者識別モジュールと、移動先検出モジュールと、視線方向検出モジュールと、集音方向検出モジュールと、辞書選択モジュールと、音声認識モジュールと、コマンド選択モジュールとを含む。これらのプログラムは、ハードディスクドライブ1040を、辞書格納手段100又はコマンドデータベース185として用いてもよい。各モジュールがコンピュータ500に働きかけて行わせる動作は、図1及び図3において説明した音声認識システム10における、対応する部材の動作と同一であるから、説明を省略する。
以上に示したプログラム又はモジュールは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ500に提供してもよい。
以上、本実施例で説明したように、音声認識システム10は、利用者を撮像した画像に基づいて、利用者に応じて利用者に適した音声認識辞書を用いることにより、音声認識の精度を高めることができる。これにより、利用者を変更する場合であっても、辞書を切り替える煩雑な操作をする必要がなく、便利である。また、音声認識システム10は、音声を集音した方向又は利用者の視線方向に基づいて発言者を検出する。これにより、利用者が複数の場合であっても、発言者が変更される毎に発言者に適した音声認識辞書に切り替えることができる。
なお、本実施例において、音声認識システム10は、電気製品20−1〜N等を操作する装置であるが、本発明に係る音声認識システムは、本例に限定されるものではない。例えば、音声認識システム10は、音声を変換した文章データを、記録装置に記録又は画面に表示するシステムであってもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
10 音声認識システム
20 電気製品
100 辞書格納手段
105 撮像手段
110 利用者識別手段
120 移動先検出手段
130 視線方向検出手段
140 集音方向検出手段
150 発言者識別手段
160 集音感度調節手段
165 集音装置
170 辞書選択手段
180 音声認識手段
185 コマンドデータベース
190 コマンド選択手段
300 集音装置
310 利用者位置検出手段
320 撮像手段
330 視線方向検出手段
340 利用者識別手段
350 バンドパスフィルタ選択手段
360 辞書選択手段
365 辞書格納手段
370 音声認識手段
375 内容指示辞書格納手段
380 内容識別記録手段
500 コンピュータ
20 電気製品
100 辞書格納手段
105 撮像手段
110 利用者識別手段
120 移動先検出手段
130 視線方向検出手段
140 集音方向検出手段
150 発言者識別手段
160 集音感度調節手段
165 集音装置
170 辞書選択手段
180 音声認識手段
185 コマンドデータベース
190 コマンド選択手段
300 集音装置
310 利用者位置検出手段
320 撮像手段
330 視線方向検出手段
340 利用者識別手段
350 バンドパスフィルタ選択手段
360 辞書選択手段
365 辞書格納手段
370 音声認識手段
375 内容指示辞書格納手段
380 内容識別記録手段
500 コンピュータ
Claims (14)
- 音声を認識するための音声認識辞書を利用者毎に格納する辞書格納手段と、
利用者を撮像する撮像手段と、
前記撮像手段により撮像された画像を用いて前記利用者を識別する利用者識別手段と、
前記利用者識別手段によって識別された前記利用者の前記音声認識辞書を前記辞書格納手段から選択する辞書選択手段と、
前記辞書選択手段により選択された前記音声認識辞書を用いて前記利用者の音声を認識する音声認識手段と
を備える音声認識システム。 - 前記撮像手段は、前記利用者の移動可能範囲を更に撮像し、
前記音声認識システムは、
前記撮像手段により撮像された前記利用者の画像及び前記移動可能範囲の画像に基づいて、前記利用者の移動先を検出する移動先検出手段と、
前記音声を集音した方向を検出する集音方向検出手段と
を更に備え、
前記辞書選択手段は、前記移動先検出手段により検出された前記利用者の移動先が、前記集音方向検出手段により検出された音声の集音方向に一致する場合に、当該利用者の前記音声認識辞書を前記辞書格納手段から選択する
請求項1記載の音声認識システム。 - 前記撮像手段は、複数の前記利用者を撮像し、
前記利用者識別手段は、複数の前記利用者のそれぞれを識別し、
前記音声認識システムは、
前記撮像手段により撮像された画像に基づいて、少なくとも1人の前記利用者の視線方向を検出する視線方向検出手段と、
前記少なくとも1人の利用者が前記視線方向に視認する他の利用者を発言者として識別する発言者識別手段と
を更に備え、
前記辞書選択手段は、前記発言者識別手段により識別された前記発言者の前記音声認識辞書を前記辞書格納手段から選択する
請求項1記載の音声認識システム。 - 前記発言者識別手段は、発言者が前記視線方向に視認する他の利用者を、次の発言者として識別する
請求項3記載の音声認識システム。 - 前記発言者識別手段により識別された前記発言者の方向から集音するマイクの感度を、他の方向から集音するマイクと比較して高くする集音感度調節手段
を更に備える請求項3記載の音声認識システム。 - 受信したコマンドに応じて処理を行う複数の処理装置と、
前記処理装置に送信するコマンド及び当該コマンドの送信先の処理装置を識別する処理装置識別情報を、利用者及び文章データに対応付けて格納するコマンド格納手段と、
前記コマンド格納手段から、前記利用者識別手段により識別された利用者及び前記音声認識手段により認識された文章データに対応する処理装置識別情報及びコマンドを選択して、選択した当該コマンドを、選択した当該処理装置識別情報が識別する処理装置に送信するコマンド選択手段と
を更に備える請求項1記載の音声認識システム。 - 前記撮像手段は、前記利用者の移動可能範囲を更に撮像し、
前記音声認識システムは、前記撮像手段により撮像された前記利用者の画像及び前記移動可能範囲の画像に基づいて、前記利用者の移動先を検出する移動先検出手段を更に備え、
前記コマンド格納手段は、前記コマンド及び前記処理装置識別情報を、更に前記利用者の移動先を識別する情報に対応付けて格納し、
前記コマンド選択手段は、前記コマンド格納手段から、前記移動先検出手段により検出された利用者の移動先に更に対応付けられた前記処理装置識別情報及び前記コマンドを選択する
請求項6記載の音声認識システム。 - 互いに異なる位置に設けられ、前記利用者の音声を集音する複数の集音装置と、
前記複数の集音装置により集音した音波の位相差に基づいて、前記利用者の位置を検出する利用者位置検出手段と
を更に備え、
前記撮像手段は、前記利用者の画像として、前記利用者位置検出手段により検出された位置の画像を撮像する
請求項1記載の音声認識システム。 - 前記撮像手段は、前記利用者位置検出手段により検出された位置における、複数の前記利用者を撮像し、
前記撮像手段により撮像された画像に基づいて、少なくとも1人の前記利用者の視線方向を検出する視線方向検出手段を更に備え、
前記利用者識別手段は、複数の利用者のうち、前記少なくとも1人の利用者が前記視線方向に視認する他の利用者を発言者として識別し、
前記辞書選択手段は、前記発言者の前記音声認識辞書を前記辞書格納手段から選択する
請求項8記載の音声認識システム。 - 前記音声認識手段により認識された音声を、前記利用者識別手段により識別された利用者に応じて異なる、当該音声が当該利用者にとって意味する内容を示す内容指示情報に変換して記録する内容識別記録手段を更に備える請求項1記載の音声認識システム。
- 音声を認識するための音声認識辞書を、利用者の年齢層、性別、又は人種を示す利用者属性毎に格納する辞書格納手段と、
利用者を撮像する撮像手段と、
前記撮像手段により撮像された画像を用いて前記利用者の利用者属性を識別する利用者属性識別手段と、
前記利用者属性識別手段により識別された利用者属性の前記音声認識辞書を前記辞書格納手段から選択する辞書選択手段と、
前記辞書選択手段により選択された前記音声認識辞書を用いて、前記利用者の音声を認識する音声認識手段と
を備える音声認識システム。 - 前記音声認識手段により認識された音声を、前記利用者属性識別手段により識別された利用者属性に応じて異なる、当該音声が当該利用者にとって意味する内容を示す内容指示情報に変換して記録する内容識別記録手段を更に備える請求項11記載の音声認識システム。
- 互いに周波数特性が異なる複数のバンドパスフィルタの中から、前記利用者の音声を他の音声と比較してより多く通過させるバンドパスフィルタを、前記利用者属性に基づいて選択するバンドパスフィルタ選択手段を更に備え、
前記音声認識手段は、認識対象の音声の雑音を、選択した前記バンドパスフィルタにより除去する
請求項11記載の音声認識システム。 - 音声認識システムとしてコンピュータを機能させるプログラムであって、
前記コンピュータを、
音声を認識するための音声認識辞書を利用者毎に格納する辞書格納手段と、
利用者を撮像する撮像手段と、
前記撮像手段により撮像された画像を用いて前記利用者を識別する利用者識別手段と、
前記利用者識別手段によって識別された前記利用者の前記音声認識辞書を前記辞書格納手段から選択する辞書選択手段と、
前記辞書選択手段により選択された前記音声認識辞書を用いて前記利用者の音声を認識する音声認識手段と
して機能させるプログラム。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004255455A JP2005122128A (ja) | 2003-09-25 | 2004-09-02 | 音声認識システム及びプログラム |
| US10/949,187 US20050086056A1 (en) | 2003-09-25 | 2004-09-27 | Voice recognition system and program |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003334274 | 2003-09-25 | ||
| JP2004255455A JP2005122128A (ja) | 2003-09-25 | 2004-09-02 | 音声認識システム及びプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2005122128A true JP2005122128A (ja) | 2005-05-12 |
Family
ID=34525380
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004255455A Pending JP2005122128A (ja) | 2003-09-25 | 2004-09-02 | 音声認識システム及びプログラム |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US20050086056A1 (ja) |
| JP (1) | JP2005122128A (ja) |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101189765B1 (ko) | 2008-12-23 | 2012-10-15 | 한국전자통신연구원 | 음성 및 영상에 기반한 성별-연령 판별방법 및 그 장치 |
| WO2013001703A1 (ja) * | 2011-06-29 | 2013-01-03 | 日本電気株式会社 | 情報処理装置 |
| JP2013250683A (ja) * | 2012-05-30 | 2013-12-12 | Nec Corp | 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム |
| KR101429138B1 (ko) * | 2012-09-25 | 2014-08-11 | 주식회사 금영 | 복수의 사용자를 위한 장치에서의 음성 인식 방법 |
| JP2014238525A (ja) * | 2013-06-10 | 2014-12-18 | 日本電信電話株式会社 | 推定装置、推定方法、およびプログラム |
| KR101625668B1 (ko) * | 2009-04-20 | 2016-05-30 | 삼성전자 주식회사 | 전자기기 및 전자기기의 음성인식방법 |
| JP2017054065A (ja) * | 2015-09-11 | 2017-03-16 | 株式会社Nttドコモ | 対話装置および対話プログラム |
| WO2018190507A1 (ko) * | 2017-04-14 | 2018-10-18 | 네이버 주식회사 | 네트워크에 연결된 음향기기와의 멀티모달 인터렉션 방법 및 시스템 |
| JP2018169494A (ja) * | 2017-03-30 | 2018-11-01 | トヨタ自動車株式会社 | 発話意図推定装置および発話意図推定方法 |
| KR101925034B1 (ko) * | 2017-03-28 | 2018-12-04 | 엘지전자 주식회사 | 스마트 컨트롤링 디바이스 및 그 제어 방법 |
| JPWO2017187676A1 (ja) * | 2016-04-28 | 2019-03-07 | ソニー株式会社 | 制御装置、制御方法、プログラム及び音出力システム |
| KR20190090745A (ko) * | 2019-07-02 | 2019-08-02 | 엘지전자 주식회사 | 커뮤니케이션 로봇 및 그의 구동 방법 |
| JP2020155944A (ja) * | 2019-03-20 | 2020-09-24 | 株式会社リコー | 発話者検出システム、発話者検出方法及びプログラム |
Families Citing this family (41)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1429314A1 (en) * | 2002-12-13 | 2004-06-16 | Sony International (Europe) GmbH | Correction of energy as input feature for speech processing |
| US20130304453A9 (en) * | 2004-08-20 | 2013-11-14 | Juergen Fritsch | Automated Extraction of Semantic Content and Generation of a Structured Document from Speech |
| US7584103B2 (en) * | 2004-08-20 | 2009-09-01 | Multimodal Technologies, Inc. | Automated extraction of semantic content and generation of a structured document from speech |
| US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
| WO2007069372A1 (ja) * | 2005-12-14 | 2007-06-21 | Mitsubishi Electric Corporation | 音声認識装置 |
| US7831423B2 (en) * | 2006-05-25 | 2010-11-09 | Multimodal Technologies, Inc. | Replacing text representing a concept with an alternate written form of the concept |
| US8560314B2 (en) | 2006-06-22 | 2013-10-15 | Multimodal Technologies, Llc | Applying service levels to transcripts |
| US20100105435A1 (en) * | 2007-01-12 | 2010-04-29 | Panasonic Corporation | Method for controlling voice-recognition function of portable terminal and radiocommunications system |
| US8944608B2 (en) | 2008-06-17 | 2015-02-03 | The Invention Science Fund I, Llc | Systems and methods associated with projecting in response to conformation |
| US20090313153A1 (en) * | 2008-06-17 | 2009-12-17 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware. | Systems associated with projection system billing |
| US8641203B2 (en) | 2008-06-17 | 2014-02-04 | The Invention Science Fund I, Llc | Methods and systems for receiving and transmitting signals between server and projector apparatuses |
| US8733952B2 (en) | 2008-06-17 | 2014-05-27 | The Invention Science Fund I, Llc | Methods and systems for coordinated use of two or more user responsive projectors |
| US20100066983A1 (en) * | 2008-06-17 | 2010-03-18 | Jun Edward K Y | Methods and systems related to a projection surface |
| US8608321B2 (en) | 2008-06-17 | 2013-12-17 | The Invention Science Fund I, Llc | Systems and methods for projecting in response to conformation |
| US8723787B2 (en) * | 2008-06-17 | 2014-05-13 | The Invention Science Fund I, Llc | Methods and systems related to an image capture projection surface |
| US20090313152A1 (en) * | 2008-06-17 | 2009-12-17 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Systems associated with projection billing |
| US20090309826A1 (en) | 2008-06-17 | 2009-12-17 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Systems and devices |
| US8936367B2 (en) | 2008-06-17 | 2015-01-20 | The Invention Science Fund I, Llc | Systems and methods associated with projecting in response to conformation |
| US20090309828A1 (en) * | 2008-06-17 | 2009-12-17 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Methods and systems for transmitting instructions associated with user parameter responsive projection |
| US8820939B2 (en) | 2008-06-17 | 2014-09-02 | The Invention Science Fund I, Llc | Projection associated methods and systems |
| US20090312854A1 (en) * | 2008-06-17 | 2009-12-17 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Methods and systems for transmitting information associated with the coordinated use of two or more user responsive projectors |
| US20090310039A1 (en) * | 2008-06-17 | 2009-12-17 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Methods and systems for user parameter responsive projection |
| US8602564B2 (en) * | 2008-06-17 | 2013-12-10 | The Invention Science Fund I, Llc | Methods and systems for projecting in response to position |
| US8959102B2 (en) | 2010-10-08 | 2015-02-17 | Mmodal Ip Llc | Structured searching of dynamic structured document corpuses |
| US9478143B1 (en) * | 2011-03-25 | 2016-10-25 | Amazon Technologies, Inc. | Providing assistance to read electronic books |
| EP2798634A4 (en) * | 2011-12-29 | 2015-08-19 | Intel Corp | LANGUAGE RECOGNITION USING A DYNAMIC SET OF GRAMMAR ELEMENTS |
| CN102945672B (zh) * | 2012-09-29 | 2013-10-16 | 深圳市国华识别科技开发有限公司 | 一种多媒体设备语音控制系统及方法 |
| US9293140B2 (en) * | 2013-03-15 | 2016-03-22 | Broadcom Corporation | Speaker-identification-assisted speech processing systems and methods |
| JP6671379B2 (ja) | 2014-10-01 | 2020-03-25 | エクスブレイン・インコーポレーテッド | 音声および接続プラットフォーム |
| JP6501217B2 (ja) * | 2015-02-16 | 2019-04-17 | アルパイン株式会社 | 情報端末システム |
| US10121488B1 (en) * | 2015-02-23 | 2018-11-06 | Sprint Communications Company L.P. | Optimizing call quality using vocal frequency fingerprints to filter voice calls |
| US10867606B2 (en) | 2015-12-08 | 2020-12-15 | Chian Chiu Li | Systems and methods for performing task using simple code |
| JP6744025B2 (ja) * | 2016-06-21 | 2020-08-19 | 日本電気株式会社 | 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム |
| JP2018025855A (ja) * | 2016-08-08 | 2018-02-15 | ソニーモバイルコミュニケーションズ株式会社 | 情報処理サーバ、情報処理装置、情報処理システム、情報処理方法、およびプログラム |
| CN109102801A (zh) * | 2017-06-20 | 2018-12-28 | 京东方科技集团股份有限公司 | 语音识别方法和语音识别装置 |
| US10327097B2 (en) * | 2017-10-02 | 2019-06-18 | Chian Chiu Li | Systems and methods for presenting location related information |
| CN108305615B (zh) * | 2017-10-23 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种对象识别方法及其设备、存储介质、终端 |
| KR102453084B1 (ko) * | 2018-04-17 | 2022-10-12 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
| US11386898B2 (en) | 2019-05-27 | 2022-07-12 | Chian Chiu Li | Systems and methods for performing task using simple code |
| KR102216968B1 (ko) * | 2019-09-06 | 2021-02-18 | 주식회사 원더풀플랫폼 | 크래들을 이용한 도우미 시스템 |
| US12236062B2 (en) | 2020-10-10 | 2025-02-25 | Chian Chiu Li | Systems and methods for performing task using simple code |
Family Cites Families (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS62149295A (ja) * | 1985-12-23 | 1987-07-03 | Canon Inc | 録音可能なカメラ |
| US6421453B1 (en) * | 1998-05-15 | 2002-07-16 | International Business Machines Corporation | Apparatus and methods for user recognition employing behavioral passwords |
| US6915254B1 (en) * | 1998-07-30 | 2005-07-05 | A-Life Medical, Inc. | Automatically assigning medical codes using natural language processing |
| GB9908545D0 (en) * | 1999-04-14 | 1999-06-09 | Canon Kk | Image processing apparatus |
| JP3895892B2 (ja) * | 1999-09-22 | 2007-03-22 | 株式会社東芝 | マルチメディア情報収集管理装置およびプログラムを格納した記憶媒体 |
| DE10006240A1 (de) * | 2000-02-11 | 2001-08-16 | Bsh Bosch Siemens Hausgeraete | Elektrogerät mit Spracheingabeeinheit und Verfahren zur Spracheingabe |
| JP2001339703A (ja) * | 2000-05-26 | 2001-12-07 | Nec Corp | テレビ会議システム及びテレビ会議システムに於けるカメラの制御装置並びにカメラの制御方法 |
| AUPQ896000A0 (en) * | 2000-07-24 | 2000-08-17 | Seeing Machines Pty Ltd | Facial image processing system |
| US20040205671A1 (en) * | 2000-09-13 | 2004-10-14 | Tatsuya Sukehiro | Natural-language processing system |
| US7439847B2 (en) * | 2002-08-23 | 2008-10-21 | John C. Pederson | Intelligent observation and identification database system |
| US6894714B2 (en) * | 2000-12-05 | 2005-05-17 | Koninklijke Philips Electronics N.V. | Method and apparatus for predicting events in video conferencing and other applications |
| ITPN20010017A1 (it) * | 2001-02-23 | 2002-08-23 | Electrolux Professional Spa | Apparecchio da cucina e/o domestico |
| US20030065256A1 (en) * | 2001-10-01 | 2003-04-03 | Gilles Rubinstenn | Image capture method |
| US7030905B2 (en) * | 2002-01-31 | 2006-04-18 | Lucent Technologies Inc. | Real-time method and apparatus for tracking a moving object experiencing a change in direction |
| US7286749B2 (en) * | 2002-04-16 | 2007-10-23 | Canon Kabushiki Kaisha | Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period |
| US20060170669A1 (en) * | 2002-08-12 | 2006-08-03 | Walker Jay S | Digital picture frame and method for editing |
| US7046924B2 (en) * | 2002-11-25 | 2006-05-16 | Eastman Kodak Company | Method and computer program product for determining an area of importance in an image using eye monitoring information |
| US7233684B2 (en) * | 2002-11-25 | 2007-06-19 | Eastman Kodak Company | Imaging method and system using affective information |
-
2004
- 2004-09-02 JP JP2004255455A patent/JP2005122128A/ja active Pending
- 2004-09-27 US US10/949,187 patent/US20050086056A1/en not_active Abandoned
Cited By (23)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101189765B1 (ko) | 2008-12-23 | 2012-10-15 | 한국전자통신연구원 | 음성 및 영상에 기반한 성별-연령 판별방법 및 그 장치 |
| US10062376B2 (en) | 2009-04-20 | 2018-08-28 | Samsung Electronics Co., Ltd. | Electronic apparatus and voice recognition method for the same |
| KR101625668B1 (ko) * | 2009-04-20 | 2016-05-30 | 삼성전자 주식회사 | 전자기기 및 전자기기의 음성인식방법 |
| WO2013001703A1 (ja) * | 2011-06-29 | 2013-01-03 | 日本電気株式会社 | 情報処理装置 |
| JP2013250683A (ja) * | 2012-05-30 | 2013-12-12 | Nec Corp | 情報処理システム、情報処理方法、通信端末、情報処理装置およびその制御方法と制御プログラム |
| KR101429138B1 (ko) * | 2012-09-25 | 2014-08-11 | 주식회사 금영 | 복수의 사용자를 위한 장치에서의 음성 인식 방법 |
| JP2014238525A (ja) * | 2013-06-10 | 2014-12-18 | 日本電信電話株式会社 | 推定装置、推定方法、およびプログラム |
| JP2017054065A (ja) * | 2015-09-11 | 2017-03-16 | 株式会社Nttドコモ | 対話装置および対話プログラム |
| JPWO2017187676A1 (ja) * | 2016-04-28 | 2019-03-07 | ソニー株式会社 | 制御装置、制御方法、プログラム及び音出力システム |
| US11385861B2 (en) | 2017-03-28 | 2022-07-12 | Lg Electronics Inc. | Smart controlling device and method of controlling therefor |
| US10489111B2 (en) | 2017-03-28 | 2019-11-26 | Lg Electronics Inc. | Smart controlling device and method of controlling therefor |
| KR101925034B1 (ko) * | 2017-03-28 | 2018-12-04 | 엘지전자 주식회사 | 스마트 컨트롤링 디바이스 및 그 제어 방법 |
| US11372619B2 (en) | 2017-03-28 | 2022-06-28 | Lg Electronics Inc. | Smart controlling device and method of controlling therefor |
| JP2018169494A (ja) * | 2017-03-30 | 2018-11-01 | トヨタ自動車株式会社 | 発話意図推定装置および発話意図推定方法 |
| KR101924852B1 (ko) * | 2017-04-14 | 2018-12-04 | 네이버 주식회사 | 네트워크에 연결된 음향기기와의 멀티모달 인터렉션 방법 및 시스템 |
| US11004452B2 (en) | 2017-04-14 | 2021-05-11 | Naver Corporation | Method and system for multimodal interaction with sound device connected to network |
| WO2018190507A1 (ko) * | 2017-04-14 | 2018-10-18 | 네이버 주식회사 | 네트워크에 연결된 음향기기와의 멀티모달 인터렉션 방법 및 시스템 |
| JP2020155944A (ja) * | 2019-03-20 | 2020-09-24 | 株式会社リコー | 発話者検出システム、発話者検出方法及びプログラム |
| JP7259447B2 (ja) | 2019-03-20 | 2023-04-18 | 株式会社リコー | 発話者検出システム、発話者検出方法及びプログラム |
| WO2019172735A3 (ko) * | 2019-07-02 | 2020-05-14 | 엘지전자 주식회사 | 커뮤니케이션 로봇 및 그의 구동 방법 |
| KR20190090745A (ko) * | 2019-07-02 | 2019-08-02 | 엘지전자 주식회사 | 커뮤니케이션 로봇 및 그의 구동 방법 |
| US11437042B2 (en) | 2019-07-02 | 2022-09-06 | Lg Electronics Inc. | Communication robot and method for operating the same |
| KR102756878B1 (ko) | 2019-07-02 | 2025-01-17 | 엘지전자 주식회사 | 커뮤니케이션 로봇 및 그의 구동 방법 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20050086056A1 (en) | 2005-04-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2005122128A (ja) | 音声認識システム及びプログラム | |
| US20250157471A1 (en) | Determining input for speech processing engine | |
| JP5636888B2 (ja) | 情報処理装置、プログラムおよびコマンド生成方法 | |
| US8521007B2 (en) | Information processing method, information processing device, scene metadata extraction device, loss recovery information generation device, and programs | |
| US11900931B2 (en) | Information processing apparatus and information processing method | |
| US7719569B2 (en) | Image processing apparatus and image processing method | |
| US10564712B2 (en) | Information processing device, information processing method, and program | |
| US20160247520A1 (en) | Electronic apparatus, method, and program | |
| EP3869301A1 (en) | Information processing device, information processing method, and computer program | |
| JP2010067104A (ja) | デジタルフォトフレーム、情報処理システム、制御方法、プログラム及び情報記憶媒体 | |
| KR102208256B1 (ko) | 리딩 기능을 수행하는 스마트 인형 | |
| JPWO2017168936A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
| JP2010224715A (ja) | 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体 | |
| CN111985252A (zh) | 对话翻译方法及装置、存储介质和电子设备 | |
| KR20180002265A (ko) | 전자 장치 및 이의 제어 방법 | |
| KR102784024B1 (ko) | 전자장치 및 그 제어방법 | |
| CN114582355B (zh) | 基于音视频融合的婴儿哭泣检测方法及装置 | |
| US20240119930A1 (en) | Artificial intelligence device and operating method thereof | |
| US11430429B2 (en) | Information processing apparatus and information processing method | |
| Wang et al. | HearASL: Your smartphone can hear American sign language | |
| CN107851129B (zh) | 信息处理装置、信息处理方法和程序 | |
| WO2020075358A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
| US20210181838A1 (en) | Information providing method and electronic device for supporting the same | |
| EP3521975A1 (en) | Information processing device | |
| JPWO2020116001A1 (ja) | 情報処理装置および情報処理方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20061207 |