JP2005122128A

JP2005122128A - 音声認識システム及びプログラム

Info

Publication number: JP2005122128A
Application number: JP2004255455A
Authority: JP
Inventors: Akira Yoda; 章依田; Shuji Ono; 修司小野
Original assignee: Fuji Photo Film Co Ltd
Current assignee: Fujifilm Holdings Corp
Priority date: 2003-09-25
Filing date: 2004-09-02
Publication date: 2005-05-12
Also published as: US20050086056A1

Abstract

【課題】煩雑な操作をすることなく音声認識の精度を高める。
【解決手段】音声を認識する音声認識システムであって、音声を認識するための音声認識辞書を利用者毎に格納する辞書格納手段と、利用者を撮像する撮像手段と、撮像手段により撮像された画像を用いて利用者を識別する利用者識別手段と、利用者識別手段によって識別された利用者の音声認識辞書を辞書格納手段から選択する辞書選択手段と、辞書選択手段により選択された音声認識辞書を用いて利用者の音声を認識する音声認識手段とを備える音声認識システムを提供する。
【選択図】図１

Description

本発明は、音声認識システム及びプログラムに関する。特に、本発明は、利用者に応じて設定を変更することにより音声認識の精度を高める音声認識システム及びプログラムに関する。

近年、音声を認識して文章データに変換する音声認識技術が発達してきている。この技術によれば、キーボード操作に不慣れな者であっても、文章データをコンピュータに入力することができる。音声認識技術は応用分野が広く、例えば、音声により操作可能な家庭用電機製品、音声を文章として書き取るディクテーション装置、又は自動車の運転中でも手を使わずに操作できるナビゲーションシステム等において用いられている。
現時点で先行公知文献を把握していないので、先行公知文献に関する記載を省略する。

しかしながら、利用者の音声は利用者毎に異なるため、利用者によっては認識の精度が低下して実用にならないような場合がある。このため、音声認識用辞書に対して利用者の特徴に合わせた設定を行うことにより、認識の精度を向上する技術が提案されている。しかし、この技術よれば、認識の精度は向上するものの、利用者を変更する毎にその旨をキー操作等により入力しなければならず、煩雑であった。

そこで本発明は、上記の課題を解決することのできる音声認識システム及びプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。

上記課題を解決するために、本発明の第１の形態においては、音声を認識するための音声認識辞書を利用者毎に格納する辞書格納手段と、利用者を撮像する撮像手段と、撮像手段により撮像された画像を用いて利用者を識別する利用者識別手段と、利用者識別手段によって識別された利用者の音声認識辞書を辞書格納手段から選択する辞書選択手段と、辞書選択手段により選択された音声認識辞書を用いて利用者の音声を認識する音声認識手段とを備える音声認識システムを提供する。
また、撮像手段は、利用者の移動可能範囲を更に撮像し、音声認識システムは、撮像手段により撮像された利用者の画像及び移動可能範囲の画像に基づいて、利用者の移動先を検出する移動先検出手段と、音声を集音した方向を検出する集音方向検出手段とを更に備え、辞書選択手段は、移動先検出手段により検出された利用者の移動先が、集音方向検出手段により検出された音声の集音方向に一致する場合に、当該利用者の音声認識辞書を辞書格納手段から選択してもよい。

また、撮像手段は、複数の利用者を撮像し、利用者識別手段は、複数の利用者のそれぞれを識別し、音声認識システムは、撮像手段により撮像された画像に基づいて、少なくとも１人の利用者の視線方向を検出する視線方向検出手段と、少なくとも１人の利用者が視線方向に視認する他の利用者を発言者として識別する発言者識別手段とを更に備え、辞書選択手段は、発言者識別手段により識別された発言者の音声認識辞書を辞書格納手段から選択してもよい。
また、発言者識別手段は、発言者が視線方向に視認する他の利用者を、次の発言者として識別してもよい。
また、発言者識別手段により識別された発言者の方向から集音するマイクの感度を、他の方向から集音するマイクと比較して高くする集音感度調節手段を更に備えてもよい。

また、受信したコマンドに応じて処理を行う複数の処理装置と、処理装置に送信するコマンド及び当該コマンドの送信先の処理装置を識別する処理装置識別情報を、利用者及び文章データに対応付けて格納するコマンド格納手段と、コマンド格納手段から、利用者識別手段により識別された利用者及び音声認識手段により認識された文章データに対応する処理装置識別情報及びコマンドを選択して、選択した当該コマンドを、選択した当該処理装置識別情報が識別する処理装置に送信するコマンド選択手段とを更に備えてもよい。
また、撮像手段は、利用者の移動可能範囲を更に撮像し、音声認識システムは、撮像手段により撮像された利用者の画像及び移動可能範囲の画像に基づいて、利用者の移動先を検出する移動先検出手段を更に備え、コマンド格納手段は、コマンド及び処理装置識別情報を、更に利用者の移動先を識別する情報に対応付けて格納し、コマンド選択手段は、コマンド格納手段から、移動先検出手段により検出された利用者の移動先に更に対応付けられた処理装置識別情報及びコマンドを選択してもよい。

また、互いに異なる位置に設けられ、利用者の音声を集音する複数の集音装置と、複数の集音装置により集音した音波の位相差に基づいて、利用者の位置を検出する利用者位置検出手段とを更に備え、撮像手段は、利用者の画像として、利用者位置検出手段により検出された位置の画像を撮像してもよい。

また、撮像手段は、利用者位置検出手段により検出された位置における、複数の利用者を撮像し、撮像手段により撮像された画像に基づいて、少なくとも１人の利用者の視線方向を検出する視線方向検出手段を更に備え、利用者識別手段は、複数の利用者のうち、少なくとも１人の利用者が視線方向に視認する他の利用者を発言者として識別し、辞書選択手段は、発言者の音声認識辞書を辞書格納手段から選択してもよい。
また、音声認識手段により認識された音声を、利用者識別手段により識別された利用者に応じて異なる、当該音声が当該利用者にとって意味する内容を示す内容指示情報に変換して記録する内容識別記録手段を更に備えてもよい。

本発明の第２の形態によると、音声を認識するための音声認識辞書を、利用者の年齢層、性別、又は人種を示す利用者属性毎に格納する辞書格納手段と、利用者を撮像する撮像手段と、撮像手段により撮像された画像を用いて利用者の利用者属性を識別する利用者属性識別手段と、利用者属性識別手段により識別された利用者属性の音声認識辞書を辞書格納手段から選択する辞書選択手段と、辞書選択手段により選択された音声認識辞書を用いて、利用者の音声を認識する音声認識手段とを備える音声認識システムを提供する。

また、音声認識手段により認識された音声を、利用者属性識別手段により識別された利用者属性に応じて異なる、当該音声が当該利用者にとって意味する内容を示す内容指示情報に変換して記録する内容識別記録手段を更に備えてもよい。
また、互いに周波数特性が異なる複数のバンドパスフィルタの中から、利用者の音声を他の音声と比較してより多く通過させるバンドパスフィルタを、利用者属性に基づいて選択するバンドパスフィルタ選択手段を更に備え、音声認識手段は、認識対象の音声の雑音を、選択したバンドパスフィルタにより除去してもよい。

本発明の第３の形態によると、音声認識システムとしてコンピュータを機能させるプログラムであって、コンピュータを、音声を認識するための音声認識辞書を利用者毎に格納する辞書格納手段と、利用者を撮像する撮像手段と、撮像手段により撮像された画像を用いて利用者を識別する利用者識別手段と、利用者識別手段によって識別された利用者の音声認識辞書を辞書格納手段から選択する辞書選択手段と、辞書選択手段により選択された音声認識辞書を用いて利用者の音声を認識する音声認識手段として機能させるプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。

本発明によれば、煩雑な操作をすることなく音声認識の精度を高めることができる。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図１は、音声認識システム１０の概略を示す。音声認識システム１０は、受信したコマンドに応じて処理を行う処理装置の一例である電気製品２０−１〜Ｎと、辞書格納手段１００と、撮像手段１０５ａ〜ｂと、利用者識別手段１１０と、移動先検出手段１２０と、視線方向検出手段１３０と、集音方向検出手段１４０と、発言者識別手段１５０と、集音感度調節手段１６０と、辞書選択手段１７０と、音声認識手段１８０と、本発明に係るコマンド格納手段の一例であるコマンドデータベース１８５と、コマンド選択手段１９０とを備える。

音声認識システム１０は、利用者を撮像した画像に基づいて利用者に適した音声認識用辞書を選択することにより、利用者の音声を認識する精度を高めることを目的とする。辞書格納手段１００は、音声を認識して文章データに変換するための音声認識辞書を利用者毎に格納している。例えば、音声認識辞書は、利用者毎に異なっており、当該利用者の音声を認識するのに適した状態に設定されている。

撮像手段１０５ａは、部屋の入り口に設けられ、部屋に入る利用者を撮像する。そして、利用者識別手段１１０は、撮像手段１０５ａにより撮像された画像を用いて利用者を識別する。例えば、利用者識別手段１１０は、利用者の顔の特徴を示す情報を利用者毎に予め格納しており、撮像された画像から抽出した特徴と、予め格納している当該特徴とが一致する利用者を選択することにより、利用者を識別してもよい。更に、利用者識別手段１１０は、識別した利用者の他の特徴であって、顔の特徴と比較して認識が容易な特徴、例えば、当該利用者の被服の色彩又は身長を検出して、移動先検出手段１２０に送る。

撮像手段１０５ｂは、利用者の移動可能範囲、例えば、当該部屋の内部を撮像する。そして、移動先検出手段１２０は、撮像手段１０５ａにより撮像された利用者の画像及び撮像手段１０５ｂにより撮像された移動可能範囲の画像に基づいて、利用者の移動先を検出する。例えば、移動先検出手段１２０は、利用者の被服の色彩又は身長等、利用者の顔の特徴と比較して容易に識別可能な特徴情報を、利用者識別手段１１０から受け取る。そして、移動先検出手段１２０は、撮像手段１０５ｂにより撮像された画像のうち、検出した当該特徴情報と一致する部分を検出する。これにより、移動先検出手段１２０は、利用者識別手段１１０による識別処理を再び行うことなく、利用者が移動した移動先が撮像手段１０５ｂの撮像範囲のどの部分であるかを検出することができる。

視線方向検出手段１３０は、撮像手段１０５ｂにより撮像された画像に基づいて、少なくとも１人の利用者の視線方向を検出する。例えば、視線方向検出手段１３０は、撮像された画像における利用者の顔の向き又は利用者の目のうち黒目部分の位置を判断することにより、視線方向を検出してもよい。

集音方向検出手段１４０は、集音装置１６５により音声が集音された方向を検出する。例えば、集音装置１６５が、指向性が比較的高い複数のマイクを有している場合には、集音方向検出手段１４０は、集音した音が最も大きいマイクの指向方向を、音声が集音された方向として検出してもよい。

発言者識別手段１５０は、移動先検出手段１２０により検出された利用者の移動先が、集音方向検出手段１４０により検出された音声の集音方向に一致する場合に、当該利用者が発言者であると判断する。また、発言者識別手段１５０は、少なくとも１人の利用者が視線方向に視認する他の利用者を発言者であると判断してもよい。そして、集音感度調節手段１６０は、発言者識別手段１５０により識別された発言者の方向から集音するマイクの感度を、他の方向から集音するマイクと比較して高くするように、集音装置１６５を設定する。

辞書選択手段１７０は、発言者識別手段１５０により識別された発言者の音声認識辞書を辞書格納手段１００から選択して音声認識手段１８０に送る。これに代えて、辞書選択手段１７０は、音声認識システム１０とは別体に設けられたサーバから、音声認識辞書を取得してもよい。そして、音声認識手段１８０は、辞書選択手段１７０により選択された音声認識辞書を用いて、集音装置１６５により集音された音声に対して音声認識処理を行うことにより、当該音声を文章データに変換する。

コマンドデータベース１８５は、電気製品２０−１〜Ｎの何れかに送信するコマンド及び当該コマンドの送信先の電気製品を識別する電気製品識別情報を、利用者、文章データ、及び利用者の移動先に対応付けて格納している。コマンド選択手段１９０は、利用者識別手段１１０及び発言者識別手段１５０により識別された発言者、移動先検出手段１２０により検出された発言者の移動先、及び音声認識手段１８０により認識された文章データに対応する、コマンド及び電気製品識別情報を、コマンドデータベース１８５から選択する。そして、コマンド選択手段１９０は、選択したコマンドを、電気製品識別情報により識別される電気製品、例えば電気製品２０−１に送信する。

図２は、コマンドデータベース１８５のデータ構造の一例を示す。コマンドデータベース１８５は、電気製品２０−１〜Ｎの何れかに送信するコマンド及び当該コマンドの送信先の電気製品を識別する電気製品識別情報を、利用者、文章データ、及び利用者の移動先を識別する移動先識別情報に対応付けて格納している。

例えば、コマンドデータベース１８５は、浴槽の湯の温度を４０℃に下げるコマンド及び当該コマンドの送信先である浴室給湯機を、Ａ氏、あつい、及び浴室に対応付けて格納している。また、コマンドデータベース１８５は、浴槽の湯の温度を４２℃に下げるコマンド及び当該コマンドの送信先である浴室給湯機を、Ｂ氏、あつい、及び浴室に対応付けて格納している。即ち、コマンド選択手段１９０は、Ａ氏が浴室で「あつい」と発言した場合には、湯温を４０℃に下げるコマンドを浴室給湯機に送信し、Ｂ氏が浴室で「あつい」と発言した場合には、湯温を４２℃に下げるコマンドを浴室給湯機に送信する。
このように、コマンドデータベース１８５が、文章データを利用者によって異なるコマンドに対応付けて格納することにより、コマンド選択手段１９０は、利用者の希望に即したコマンドを実行することができる。

また、コマンドデータベース１８５は、室内の気温を２６℃に下げるコマンド及び当該コマンドの送信先であるエアコンを、Ａ氏、あつい、及びリビングルームに対応付けて格納している。即ち、コマンド選択手段１９０は、Ａ氏がリビングルームで「あつい」と発言した場合には、室温を２６℃に下げるコマンドをエアコンに送信し、Ａ氏が浴室で「あつい」と発言した場合には、湯温を４０℃に下げるコマンドを浴室給湯機に送信する。
また、コマンドデータベース１８５は、室内の気温を２２℃に下げるコマンド及び当該コマンドの送信先であるエアコンを、Ｂ氏、あつい、及びリビングルームに対応付けて格納している。即ち、コマンド選択手段１９０は、Ｂ氏がリビングルームで「あつい」と発言した場合には、室温を２２℃に下げるコマンドをエアコンに送信し、Ｂ氏が浴室で「あつい」と発言した場合には、湯温を４２℃に下げるコマンドを浴室給湯機に送信する。
このように、コマンドデータベース１８５が、文章データを利用者の移動先によって異なる電気製品に対応付けて格納することにより、コマンド選択手段１９０は、利用者の希望に即した電気製品にコマンドを実行させることができる。

図３は、音声認識システム１０の動作フローの一例を示す。撮像手段１０５ａは、部屋に入る利用者を撮像する（Ｓ２００）。そして、利用者識別手段１１０は、撮像手段１０５ａにより撮像された画像を用いて利用者を識別する（Ｓ２１０）。撮像手段１０５ｂは、利用者の移動可能範囲、例えば、当該部屋の内部を撮像する（Ｓ２２０）。移動先検出手段１２０は、撮像手段１０５ａにより撮像された利用者の画像及び撮像手段１０５ｂにより撮像された移動可能範囲の画像に基づいて、利用者の移動先を検出する（Ｓ２３０）。

集音方向検出手段１４０は、集音装置１６５により音声が集音された方向を検出する（Ｓ２４０）。例えば、集音装置１６５が、指向性が比較的高い複数のマイクを有している場合には、集音方向検出手段１４０は、集音した音が最も大きいマイクの指向方向を、音声が集音された方向として検出してもよい。

視線方向検出手段１３０は、撮像手段１０５ｂにより撮像された画像に基づいて、少なくとも１人の利用者の視線方向を検出する（Ｓ２５０）。例えば、視線方向検出手段１３０は、撮像された画像における利用者の顔の向き又は利用者の目のうち黒目部分の位置を判断することにより、視線方向を検出してもよい。

発言者識別手段１５０は、移動先検出手段１２０により検出された利用者の移動先が、集音方向検出手段１４０により検出された音声の集音方向に一致する場合に、当該利用者が発言者であると判断する（Ｓ２６０）。また、発言者識別手段１５０は、少なくとも１人の利用者が視線方向に視認する他の利用者を発言者であると判断してもよい。具体的には、発言者識別手段１５０は、発言者が視線方向に視認する他の利用者を、次の発言者として識別してもよい。

なお、発言者識別手段１５０は、上記２つの方法を組み合わせて発言者を識別してもよい。例えば、発言者識別手段１５０は、集音方向検出手段１４０により検出された音声の集音方向が、何れの利用者の移動先とも一致しない場合に、利用者の視線方向に視認する他の利用者を発言者と判断してもよい。

集音感度調節手段１６０は、発言者識別手段１５０により識別された発言者の方向から集音するマイクの感度を、他の方向から集音するマイクと比較して高くする（Ｓ２７０）。辞書選択手段１７０は、発言者識別手段１５０により識別された発言者の音声認識辞書を辞書格納手段１００から選択する（Ｓ２８０）。

音声認識手段１８０は、辞書選択手段１７０により選択された音声認識辞書を用いて、集音装置１６５により集音された音声に対して音声認識処理を行うことにより、当該音声を文章データに変換する（Ｓ２９０）。更に、音声認識手段１８０は、音声認識の精度を高めるべく、音声認識処理の結果に基づいて、辞書選択手段１７０により選択された音声認識辞書を変更してもよい。

コマンド選択手段１９０は、利用者識別手段１１０及び発言者識別手段１５０により識別された発言者、移動先検出手段１２０により検出された発言者の移動先、及び音声認識手段１８０により認識された文章データに対応する、コマンド及び電気製品識別情報を、コマンドデータベース１８５から選択する。そして、コマンド選択手段１９０は、選択したコマンドを、電気製品識別情報により識別される電気製品に送信する（Ｓ２９５）。

（第２実施例）
図４は、音声認識システム１０の概略を示す。本実施例において、音声認識システム１０は、集音装置３００−１〜２と、利用者位置検出手段３１０と、撮像手段３２０と、視線方向検出手段３３０と、利用者識別手段３４０と、バンドパスフィルタ選択手段３５０と、辞書選択手段３６０と、辞書格納手段３６５と、音声認識手段３７０と、内容指示辞書格納手段３７５と、内容識別記録手段３８０とを備える。集音装置３００−１及び集音装置３００−２の各々は、互いに異なる位置に設けられ、利用者の音声を集音する。利用者位置検出手段３１０は、集音装置３００−１及び集音装置３００−２により集音した音波の位相差に基づいて、利用者の位置を検出する。

撮像手段３２０は、利用者の画像として、利用者位置検出手段３１０により検出された位置の画像を撮像する。複数の利用者を撮像した場合には、視線方向検出手段３３０は、撮像手段３２０により撮像された画像に基づいて、少なくとも１人の利用者の視線方向を検出する。そして、利用者識別手段３４０は、複数の利用者のうち、その少なくとも一人の利用者が視線方向に視認する他の利用者を発言者として識別する。この時、好ましくは、利用者識別手段３４０は、発言者であるその利用者の年齢層、性別、又は人種を示す利用者属性を識別する。

バンドパスフィルタ選択手段３５０は、互いに周波数特性が異なる複数のバンドパスフィルタの中から、利用者の音声を他の音声と比較してより多く透過させるバンドパスフィルタを、その利用者の利用者属性に基づいて選択する。辞書格納手段３６５は、音声を認識するための音声認識辞書を、利用者毎又は利用者属性毎に格納する。辞書選択手段３６０は、利用者識別手段３４０により識別された利用者属性の音声認識辞書を辞書格納手段３６５から選択する。音声認識手段３７０は、認識対象の音声の雑音を、選択したバンドパスフィルタにより除去する。そして、音声認識手段３７０は、辞書選択手段３６０により選択された音声認識辞書を用いて、利用者の音声を認識する。

内容指示辞書格納手段３７５は、利用者毎に、認識された音声に対応付けて、その音声がその利用者にとって意味する内容を示す内容指示情報を格納する。そして、内容識別記録手段３８０は、音声認識手段３７０により認識された音声を、利用者識別手段３４０により識別された利用者又は利用者属性に応じて異なる、当該音声が当該利用者にとって意味する内容を示す意味指示情報に変換して記録する。

図５は、辞書格納手段３６５のデータ構造の一例を示す。辞書格納手段３６５は、音声を認識するための音声認識辞書を、利用者毎に、又は、利用者の年齢層、性別、又は人種を示す利用者属性毎に格納する。例えば、辞書格納手段３６５は、利用者Ｅ氏に対応付けて、Ｅ氏用の専用辞書を格納する。一方、辞書格納手段３６５は、「成人男性」かつ「日本語を母国語とする人種」を示す利用者属性に対応付けて、日本語の男性成人用辞書を格納する。更に、辞書格納手段３６５は、「成人男性」かつ「英語を母国語とする人種」を示す利用者属性に対応付けて、英語の男性成人用辞書を格納する。

図６は、内容指示辞書格納手段３７５のデータ構造の一例を示す。内容指示辞書格納手段３７５は、利用者毎に、認識された音声に対応付けて、その音声がその利用者にとって意味する内容を示す内容指示情報を格納する。例えば、内容指示辞書格納手段３７５は、利用者である乳児Ａ、及び、認識した音声である泣き声タイプａに対応付けて、その泣き声がその乳児Ａにとって自身が健康である旨を意味する内容指示情報を格納する。

即ち乳児Ａの泣き声が泣き声タイプａに該当すると認識された場合には、内容識別記録手段３８０は、その乳児Ａが健康である旨の内容指示情報を記録する。同様に、乳児Ａの泣き声が泣き声タイプｂに該当すると認識された場合には、内容識別記録手段３８０は、その乳児Ａに微熱がある旨の内容指示情報を記録する。また、乳児Ａの泣き声が泣き声タイプｃに該当すると認識された場合には、内容識別記録手段３８０は、その乳児Ａに高熱がある旨の内容指示情報を記録する。このように、本実施例に係る音声認識システム１０によれば、乳児の健康状態を音声認識により記録することができる。

一方、乳児Ｂの泣き声が泣き声タイプｂに該当すると認識された場合には、内容識別記録手段３８０は、その乳児Ｂに高熱がある旨の内容指示情報を記録する。このように、内容識別記録手段３８０は、同一の音声が認識された場合であっても、発言者によって異なる適切な内容指示情報を記録することができる。

また、内容指示辞書格納手段３７５は、利用者である父親Ｃ、及び、認識した音声である「俺の小学校入学式の日」に対応付けて、その音声がその父親Ｃに対して意味する内容である「７８／０４／０１」を格納する。また、内容指示辞書格納手段３７５は、利用者である息子Ｄ、及び、認識した音声である「俺の小学校入学式の日」に対応付けて、その音声がその父親Ｃに対して意味する内容である「０４／０４／０１」を格納する。即ち発言者の画像を用いることにより、音声認識した音声自体のみならず、その音声が意味する内容を記録することができる。

図７は、音声認識システム１０の動作フローの一例を示す。利用者位置検出手段３１０は、集音装置３００−１及び集音装置３００−２により集音した音波の位相差に基づいて、利用者の位置を検出する（Ｓ５００）。撮像手段３２０は、利用者の画像として、利用者位置検出手段３１０により検出された位置の画像を撮像する（Ｓ５１０）。複数の利用者を撮像した場合には、視線方向検出手段３３０は、撮像手段３２０により撮像された画像に基づいて、少なくとも１人の利用者の視線方向を検出する（Ｓ５２０）。

そして、利用者識別手段３４０は、複数の利用者のうち、その少なくとも一人の利用者が視線方向に視認する他の利用者を発言者として識別する（Ｓ５３０）。この時、好ましくは、利用者識別手段３４０は、発言者であるその利用者の年齢層、性別、又は人種を示す利用者属性を識別する。バンドパスフィルタ選択手段３５０は、互いに周波数特性が異なる複数のバンドパスフィルタの中から、利用者の音声を他の音声と比較してより多く透過させるバンドパスフィルタを、その利用者の利用者属性に基づいて選択する（Ｓ５４０）。

辞書選択手段３６０は、利用者識別手段３４０により識別された利用者属性の音声認識辞書を辞書格納手段３６５から選択する（Ｓ５５０）。音声認識手段３７０は、認識対象の音声の雑音を、選択したバンドパスフィルタにより除去し、辞書選択手段３６０により選択された音声認識辞書を用いて、利用者の音声を認識する（Ｓ５６０）。内容識別記録手段３８０は、音声認識手段３７０により認識された音声を、当該音声が当該利用者にとって意味する内容を示す意味指示情報に変換し（Ｓ５７０）、記録する（Ｓ５８０）。

図８は、上記の第１実施例又は第２実施例において、音声認識システム１０として機能するコンピュータ５００のハードウェア構成の一例を示す。コンピュータ５００は、ホストコントローラ１０８２により相互に接続されるＣＰＵ１０００、ＲＡＭ１０２０、グラフィックコントローラ１０７５、及び表示装置１０８０を有するＣＰＵ周辺部と、入出力コントローラ１０８４によりホストコントローラ１０８２に接続される通信インターフェイス１０３０、ハードディスクドライブ１０４０、及びＣＤ−ＲＯＭドライブ１０６０を有する入出力部と、入出力コントローラ１０８４に接続されるＲＯＭ１０１０、フレキシブルディスクドライブ１０５０、及び入出力チップ１０７０を有するレガシー入出力部とを備える。なお、ハードディスクドライブ１０４０は必須の構成ではなく、コンピュータ５００は、ハードディスクドライブ１０４０に代えて不揮発性のフラッシュメモリを備えてもよい。

ホストコントローラ１０８２は、ＲＡＭ１０２０と、高い転送レートでＲＡＭ１０２０をアクセスするＣＰＵ１０００及びグラフィックコントローラ１０７５とを接続する。ＣＰＵ１０００は、ＲＯＭ１０１０及びＲＡＭ１０２０に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ１０７５は、ＣＰＵ１０００等がＲＡＭ１０２０内に設けたフレームバッファ上に生成する画像データを取得し、表示装置１０８０上に表示させる。これに代えて、グラフィックコントローラ１０７５は、ＣＰＵ１０００等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。

入出力コントローラ１０８４は、ホストコントローラ１０８２と、比較的高速な入出力装置である通信インターフェイス１０３０、ハードディスクドライブ１０４０、及びＣＤ−ＲＯＭドライブ１０６０を接続する。通信インターフェイス１０３０は、ファイバチャネル等のネットワークを介して外部の装置と通信する。ハードディスクドライブ１０４０は、コンピュータ５００が使用するプログラム及びデータを格納する。ＣＤ−ＲＯＭドライブ１０６０は、ＣＤ−ＲＯＭ１０９５からプログラム又はデータを読み取り、ＲＡＭ１０２０を介して入出力チップ１０７０に提供する。

また、入出力コントローラ１０８４には、ＲＯＭ１０１０と、フレキシブルディスクドライブ１０５０や入出力チップ１０７０等の比較的低速な入出力装置とが接続される。ＲＯＭ１０１０は、コンピュータ５００の起動時にＣＰＵ１０００が実行するブートプログラムや、コンピュータ５００のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ１０５０は、フレキシブルディスク１０９０からプログラム又はデータを読み取り、ＲＡＭ１０２０を介して入出力チップ１０７０に提供する。入出力チップ１０７０は、フレキシブルディスク１０９０や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。

コンピュータ５００に提供されるプログラムは、フレキシブルディスク１０９０、ＣＤ−ＲＯＭ１０９５、又はＩＣカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ１０７０及び／又は入出力コントローラ１０８４を介して、記録媒体から読み出されコンピュータ５００にインストールされて実行される。

コンピュータ５００にインストールされて実行されコンピュータ５００を音声認識システム１０として機能させるプログラムは、撮像モジュールと、利用者識別モジュールと、移動先検出モジュールと、視線方向検出モジュールと、集音方向検出モジュールと、辞書選択モジュールと、音声認識モジュールと、コマンド選択モジュールとを含む。これらのプログラムは、ハードディスクドライブ１０４０を、辞書格納手段１００又はコマンドデータベース１８５として用いてもよい。各モジュールがコンピュータ５００に働きかけて行わせる動作は、図１及び図３において説明した音声認識システム１０における、対応する部材の動作と同一であるから、説明を省略する。

以上に示したプログラム又はモジュールは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク１０９０、ＣＤ−ＲＯＭ１０９５の他に、ＤＶＤやＰＤ等の光学記録媒体、ＭＤ等の光磁気記録媒体、テープ媒体、ＩＣカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はＲＡＭ等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ５００に提供してもよい。

以上、本実施例で説明したように、音声認識システム１０は、利用者を撮像した画像に基づいて、利用者に応じて利用者に適した音声認識辞書を用いることにより、音声認識の精度を高めることができる。これにより、利用者を変更する場合であっても、辞書を切り替える煩雑な操作をする必要がなく、便利である。また、音声認識システム１０は、音声を集音した方向又は利用者の視線方向に基づいて発言者を検出する。これにより、利用者が複数の場合であっても、発言者が変更される毎に発言者に適した音声認識辞書に切り替えることができる。

なお、本実施例において、音声認識システム１０は、電気製品２０−１〜Ｎ等を操作する装置であるが、本発明に係る音声認識システムは、本例に限定されるものではない。例えば、音声認識システム１０は、音声を変換した文章データを、記録装置に記録又は画面に表示するシステムであってもよい。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

図１は、音声認識システム１０の概略を示す。（第１実施例）図２は、コマンドデータベース１８５のデータ構造の一例を示す。（第１実施例）図３は、音声認識システム１０の動作フローの一例を示す。（第１実施例）図４は、音声認識システム１０の概略を示す。（第２実施例）図５は、辞書格納手段３６５のデータ構造の一例を示す。（第２実施例）図６は、内容指示辞書格納手段３７５のデータ構造の一例を示す。（第２実施例）図７は、音声認識システム１０の動作フローの一例を示す。（第２実施例）図８は、音声認識システム１０として機能するコンピュータ５００のハードウェア構成の一例を示す。（第１実施例及び第２実施例）

符号の説明

１０音声認識システム
２０電気製品
１００辞書格納手段
１０５撮像手段
１１０利用者識別手段
１２０移動先検出手段
１３０視線方向検出手段
１４０集音方向検出手段
１５０発言者識別手段
１６０集音感度調節手段
１６５集音装置
１７０辞書選択手段
１８０音声認識手段
１８５コマンドデータベース
１９０コマンド選択手段
３００集音装置
３１０利用者位置検出手段
３２０撮像手段
３３０視線方向検出手段
３４０利用者識別手段
３５０バンドパスフィルタ選択手段
３６０辞書選択手段
３６５辞書格納手段
３７０音声認識手段
３７５内容指示辞書格納手段
３８０内容識別記録手段
５００コンピュータ

Claims

音声を認識するための音声認識辞書を利用者毎に格納する辞書格納手段と、
利用者を撮像する撮像手段と、
前記撮像手段により撮像された画像を用いて前記利用者を識別する利用者識別手段と、
前記利用者識別手段によって識別された前記利用者の前記音声認識辞書を前記辞書格納手段から選択する辞書選択手段と、
前記辞書選択手段により選択された前記音声認識辞書を用いて前記利用者の音声を認識する音声認識手段と
を備える音声認識システム。
前記撮像手段は、前記利用者の移動可能範囲を更に撮像し、
前記音声認識システムは、
前記撮像手段により撮像された前記利用者の画像及び前記移動可能範囲の画像に基づいて、前記利用者の移動先を検出する移動先検出手段と、
前記音声を集音した方向を検出する集音方向検出手段と
を更に備え、
前記辞書選択手段は、前記移動先検出手段により検出された前記利用者の移動先が、前記集音方向検出手段により検出された音声の集音方向に一致する場合に、当該利用者の前記音声認識辞書を前記辞書格納手段から選択する
請求項１記載の音声認識システム。
前記撮像手段は、複数の前記利用者を撮像し、
前記利用者識別手段は、複数の前記利用者のそれぞれを識別し、
前記音声認識システムは、
前記撮像手段により撮像された画像に基づいて、少なくとも１人の前記利用者の視線方向を検出する視線方向検出手段と、
前記少なくとも１人の利用者が前記視線方向に視認する他の利用者を発言者として識別する発言者識別手段と
を更に備え、
前記辞書選択手段は、前記発言者識別手段により識別された前記発言者の前記音声認識辞書を前記辞書格納手段から選択する
請求項１記載の音声認識システム。
前記発言者識別手段は、発言者が前記視線方向に視認する他の利用者を、次の発言者として識別する
請求項３記載の音声認識システム。
前記発言者識別手段により識別された前記発言者の方向から集音するマイクの感度を、他の方向から集音するマイクと比較して高くする集音感度調節手段
を更に備える請求項３記載の音声認識システム。
受信したコマンドに応じて処理を行う複数の処理装置と、
前記処理装置に送信するコマンド及び当該コマンドの送信先の処理装置を識別する処理装置識別情報を、利用者及び文章データに対応付けて格納するコマンド格納手段と、
前記コマンド格納手段から、前記利用者識別手段により識別された利用者及び前記音声認識手段により認識された文章データに対応する処理装置識別情報及びコマンドを選択して、選択した当該コマンドを、選択した当該処理装置識別情報が識別する処理装置に送信するコマンド選択手段と
を更に備える請求項１記載の音声認識システム。
前記撮像手段は、前記利用者の移動可能範囲を更に撮像し、
前記音声認識システムは、前記撮像手段により撮像された前記利用者の画像及び前記移動可能範囲の画像に基づいて、前記利用者の移動先を検出する移動先検出手段を更に備え、
前記コマンド格納手段は、前記コマンド及び前記処理装置識別情報を、更に前記利用者の移動先を識別する情報に対応付けて格納し、
前記コマンド選択手段は、前記コマンド格納手段から、前記移動先検出手段により検出された利用者の移動先に更に対応付けられた前記処理装置識別情報及び前記コマンドを選択する
請求項６記載の音声認識システム。
互いに異なる位置に設けられ、前記利用者の音声を集音する複数の集音装置と、
前記複数の集音装置により集音した音波の位相差に基づいて、前記利用者の位置を検出する利用者位置検出手段と
を更に備え、
前記撮像手段は、前記利用者の画像として、前記利用者位置検出手段により検出された位置の画像を撮像する
請求項１記載の音声認識システム。
前記撮像手段は、前記利用者位置検出手段により検出された位置における、複数の前記利用者を撮像し、
前記撮像手段により撮像された画像に基づいて、少なくとも１人の前記利用者の視線方向を検出する視線方向検出手段を更に備え、
前記利用者識別手段は、複数の利用者のうち、前記少なくとも１人の利用者が前記視線方向に視認する他の利用者を発言者として識別し、
前記辞書選択手段は、前記発言者の前記音声認識辞書を前記辞書格納手段から選択する
請求項８記載の音声認識システム。
前記音声認識手段により認識された音声を、前記利用者識別手段により識別された利用者に応じて異なる、当該音声が当該利用者にとって意味する内容を示す内容指示情報に変換して記録する内容識別記録手段を更に備える請求項１記載の音声認識システム。
音声を認識するための音声認識辞書を、利用者の年齢層、性別、又は人種を示す利用者属性毎に格納する辞書格納手段と、
利用者を撮像する撮像手段と、
前記撮像手段により撮像された画像を用いて前記利用者の利用者属性を識別する利用者属性識別手段と、
前記利用者属性識別手段により識別された利用者属性の前記音声認識辞書を前記辞書格納手段から選択する辞書選択手段と、
前記辞書選択手段により選択された前記音声認識辞書を用いて、前記利用者の音声を認識する音声認識手段と
を備える音声認識システム。
前記音声認識手段により認識された音声を、前記利用者属性識別手段により識別された利用者属性に応じて異なる、当該音声が当該利用者にとって意味する内容を示す内容指示情報に変換して記録する内容識別記録手段を更に備える請求項１１記載の音声認識システム。
互いに周波数特性が異なる複数のバンドパスフィルタの中から、前記利用者の音声を他の音声と比較してより多く通過させるバンドパスフィルタを、前記利用者属性に基づいて選択するバンドパスフィルタ選択手段を更に備え、
前記音声認識手段は、認識対象の音声の雑音を、選択した前記バンドパスフィルタにより除去する
請求項１１記載の音声認識システム。
音声認識システムとしてコンピュータを機能させるプログラムであって、
前記コンピュータを、
音声を認識するための音声認識辞書を利用者毎に格納する辞書格納手段と、
利用者を撮像する撮像手段と、
前記撮像手段により撮像された画像を用いて前記利用者を識別する利用者識別手段と、
前記利用者識別手段によって識別された前記利用者の前記音声認識辞書を前記辞書格納手段から選択する辞書選択手段と、
前記辞書選択手段により選択された前記音声認識辞書を用いて前記利用者の音声を認識する音声認識手段と
して機能させるプログラム。