JPH05265482A - 情報処理装置 - Google Patents
情報処理装置Info
- Publication number
- JPH05265482A JPH05265482A JP4059933A JP5993392A JPH05265482A JP H05265482 A JPH05265482 A JP H05265482A JP 4059933 A JP4059933 A JP 4059933A JP 5993392 A JP5993392 A JP 5993392A JP H05265482 A JPH05265482 A JP H05265482A
- Authority
- JP
- Japan
- Prior art keywords
- information
- voice
- input
- difference information
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 不特定話者を対象とした入力音声の音声認識
率の向上を目的とする。 【構成】 入力手段4からの音声入力を認識手段5で認
識する際に、情報格納手段6に格納されている標準音声
情報とこの情報格納手段6に格納されている標準音声情
報と各個人特有な音声機能との差分情報を格納する差分
情報格納手段10の情報を用いて、不特定話者の音声認
識を行うため、各不特定話者の発声の特徴を生かした音
声認識となり高い認識率が要求されるサービスに有効な
音声認識装置を提供することができる。
率の向上を目的とする。 【構成】 入力手段4からの音声入力を認識手段5で認
識する際に、情報格納手段6に格納されている標準音声
情報とこの情報格納手段6に格納されている標準音声情
報と各個人特有な音声機能との差分情報を格納する差分
情報格納手段10の情報を用いて、不特定話者の音声認
識を行うため、各不特定話者の発声の特徴を生かした音
声認識となり高い認識率が要求されるサービスに有効な
音声認識装置を提供することができる。
Description
【0001】
【産業上の利用分野】本発明は、不特定話者を対象とし
た音声による入力指示を音声認識することによって、該
当サービスの適用を行う情報処理装置に関するものであ
る。
た音声による入力指示を音声認識することによって、該
当サービスの適用を行う情報処理装置に関するものであ
る。
【0002】
【従来の技術】近年、金融業界や、流通業界では、電話
回線等を用いた音声入力による音声認識装置が導入され
ている。これらの音声認識装置を用いて、銀行の預金の
残高照会や、各種宅配用のオーダーエントリー等のサー
ビスが利用者に提供されている。また最近では家電商品
や自動車内製品に音声認識装置が開発され、カーオーデ
ィオやビデオの予約、電話等に応用されている。
回線等を用いた音声入力による音声認識装置が導入され
ている。これらの音声認識装置を用いて、銀行の預金の
残高照会や、各種宅配用のオーダーエントリー等のサー
ビスが利用者に提供されている。また最近では家電商品
や自動車内製品に音声認識装置が開発され、カーオーデ
ィオやビデオの予約、電話等に応用されている。
【0003】以下に従来の音声認識機能を有する情報処
理装置について説明する。図4は従来の情報処理装置の
構成を示すものである。図4において、51はここで説
明する情報処理装置である。構成要素として54は入力
手段で、音声入力を含む入力を受け付ける。55は認識
手段で、音声認識を行う。56は情報格納手段で、音声
認識を行うために必要な標準の音声情報を格納する。5
8は出力手段で、音声入力を促進するメッセージや音声
認識結果等を出力する。
理装置について説明する。図4は従来の情報処理装置の
構成を示すものである。図4において、51はここで説
明する情報処理装置である。構成要素として54は入力
手段で、音声入力を含む入力を受け付ける。55は認識
手段で、音声認識を行う。56は情報格納手段で、音声
認識を行うために必要な標準の音声情報を格納する。5
8は出力手段で、音声入力を促進するメッセージや音声
認識結果等を出力する。
【0004】以下にその構成要素のお互いの関連動作に
ついて説明する。まず利用者は、情報処理装置51の出
力手段58からの入力促進メッセージ(音声出力による
ガイダンスや、表示装置による案内表示)に従って音声
入力を行う。入力手段54はこの音声入力を受け付ける
とともに、次の認識手段55で認識処理を行うために必
要な処理を行う。
ついて説明する。まず利用者は、情報処理装置51の出
力手段58からの入力促進メッセージ(音声出力による
ガイダンスや、表示装置による案内表示)に従って音声
入力を行う。入力手段54はこの音声入力を受け付ける
とともに、次の認識手段55で認識処理を行うために必
要な処理を行う。
【0005】まず入力されたアナログ信号をデジタル信
号に変換する。通常サンプリング周波数として、8から
10kHzが用いられ、また各々サンプリング時間毎に、
8から16ビットの値で量子化される。認識手段55
は、入力信号と情報格納手段56の中の音声情報とパタ
ーンマッチング(以下マッチングと略す)することによ
って、ある一定の閾値以上で最も似ている情報を選び出
す。そして発声された単語としてマッチングした音声認
識結果を返す。音声認識結果から次に要求する入力候補
内容を決定したり、出力手段58から出力する内容を決
定する。
号に変換する。通常サンプリング周波数として、8から
10kHzが用いられ、また各々サンプリング時間毎に、
8から16ビットの値で量子化される。認識手段55
は、入力信号と情報格納手段56の中の音声情報とパタ
ーンマッチング(以下マッチングと略す)することによ
って、ある一定の閾値以上で最も似ている情報を選び出
す。そして発声された単語としてマッチングした音声認
識結果を返す。音声認識結果から次に要求する入力候補
内容を決定したり、出力手段58から出力する内容を決
定する。
【0006】この情報処理装置51を電話機に応用した
場合、市外局番号を入力するためには、10桁程度の数
字の発声が必要である。少なくとも0(「ぜろ」と発
音)から9(「きゅう」と発音)までの数字を順に発声
し、その内容を認識して、ダイヤルパルスやトーン信号
に変換し、電話をかけるものである。その認識結果は、
電話機に付属の出力手段58の表示装置や、音声出力装
置を用いて、認識された結果を利用者が認識することが
できる(特開昭63−33796等)。電話番号以外に
も、暗証番号の入力についても同様である。
場合、市外局番号を入力するためには、10桁程度の数
字の発声が必要である。少なくとも0(「ぜろ」と発
音)から9(「きゅう」と発音)までの数字を順に発声
し、その内容を認識して、ダイヤルパルスやトーン信号
に変換し、電話をかけるものである。その認識結果は、
電話機に付属の出力手段58の表示装置や、音声出力装
置を用いて、認識された結果を利用者が認識することが
できる(特開昭63−33796等)。電話番号以外に
も、暗証番号の入力についても同様である。
【0007】10桁の数字を音声入力する時間を少しで
も短縮するためには、1つの数字を発声し、認識を行っ
て結果を表示すると同時に、次の入力を待つように構成
される。認識が行われた場合は、該当数字情報に変換さ
れて次の入力を待つ。発声が小さかった場合等で認識が
できなかった場合は、言い直しを要求して、次の入力を
待つ構成となっていた。音声入力に慣れてくると表示装
置などの情報を見なくても入力ができるようになる。従
って視線を電話帳の該当数字列から外すことなく、順に
発声していくことにより電話番号入力を行うことが可能
となる。入力結果は、全ての発声完了後に確認すればよ
く、1個1個の入力毎に表示装置等を見る必要はない。
も短縮するためには、1つの数字を発声し、認識を行っ
て結果を表示すると同時に、次の入力を待つように構成
される。認識が行われた場合は、該当数字情報に変換さ
れて次の入力を待つ。発声が小さかった場合等で認識が
できなかった場合は、言い直しを要求して、次の入力を
待つ構成となっていた。音声入力に慣れてくると表示装
置などの情報を見なくても入力ができるようになる。従
って視線を電話帳の該当数字列から外すことなく、順に
発声していくことにより電話番号入力を行うことが可能
となる。入力結果は、全ての発声完了後に確認すればよ
く、1個1個の入力毎に表示装置等を見る必要はない。
【0008】公衆電話機のように、誰もが利用する機器
において音声認識を行うためにはいくつかの条件が必要
である。その条件の1つに、利用者の音声登録作業を伴
わずとも、誰の音声でも音声認識できなければならない
ことがある。なぜなら機器毎に発声語彙が異なるような
場合、毎回音声を登録する必要があり、該当機器の普及
を阻害する大きな要因に成りかねないからである。また
利用者の発声の仕方や、機器の設置環境で同一人でも発
声の仕方は変化する。さらに発声量や発声周波数は個人
差が大きい。そこで、利用者を特定すること無しに、誰
の声でも音声認識するものを不特定話者認識と定義す
る。
において音声認識を行うためにはいくつかの条件が必要
である。その条件の1つに、利用者の音声登録作業を伴
わずとも、誰の音声でも音声認識できなければならない
ことがある。なぜなら機器毎に発声語彙が異なるような
場合、毎回音声を登録する必要があり、該当機器の普及
を阻害する大きな要因に成りかねないからである。また
利用者の発声の仕方や、機器の設置環境で同一人でも発
声の仕方は変化する。さらに発声量や発声周波数は個人
差が大きい。そこで、利用者を特定すること無しに、誰
の声でも音声認識するものを不特定話者認識と定義す
る。
【0009】不特定話者認識では、音声認識を行う標準
音声情報を作成するために、複数の人(数人から数百人
程度)に予め定められた語彙等を発声してもらい、その
音声を収録し統計的処理を行う。そして音声認識を行う
ために適した情報を抽出し、その情報を標準音声情報と
して情報格納手段56に格納する。情報格納手段56に
格納された標準音声情報と、入力手段54からの音声入
力とマッチングすることによって、発声語彙を音声認識
する。不特定話者の音声認識率を向上させるためには、
より多くのかつ異なった(性別、年齢、住所)発声を収
録し、音声情報処理を行うことが必要である。
音声情報を作成するために、複数の人(数人から数百人
程度)に予め定められた語彙等を発声してもらい、その
音声を収録し統計的処理を行う。そして音声認識を行う
ために適した情報を抽出し、その情報を標準音声情報と
して情報格納手段56に格納する。情報格納手段56に
格納された標準音声情報と、入力手段54からの音声入
力とマッチングすることによって、発声語彙を音声認識
する。不特定話者の音声認識率を向上させるためには、
より多くのかつ異なった(性別、年齢、住所)発声を収
録し、音声情報処理を行うことが必要である。
【0010】ここで認識率を次のように定義する。音声
認識可能な閾値の範囲内で入力された音声を指定された
語群のなかからマッチングし、入力指定した語彙と同じ
語彙を指す情報が認識結果として得られた確率とする。
従って入力手段54が故障していたり、入力音声が音声
認識を行うには小さすぎたりしたマッチングできないも
のを除く。あくまで誤ったマッチングを行わなかった確
率とする。
認識可能な閾値の範囲内で入力された音声を指定された
語群のなかからマッチングし、入力指定した語彙と同じ
語彙を指す情報が認識結果として得られた確率とする。
従って入力手段54が故障していたり、入力音声が音声
認識を行うには小さすぎたりしたマッチングできないも
のを除く。あくまで誤ったマッチングを行わなかった確
率とする。
【0011】不特定話者認識では、認識率が95パーセ
ント程度であり、必ずしも全ての人の発声を認識できる
わけではない。これは音声情報処理は統計処理であり、
収録音声の平均と分散をとり、標準偏差等の値を利用し
て、ある一定範囲の音声情報を利用するからである。音
声認識の高速演算を可能とするために、情報量を制約す
るという条件がある。従って認識率100パーセントを
達成する情報量を持つことは難しい。研究レベルでは、
音声認識のマッチングを行うための演算時間は、あまり
関係がないが、実用化レベルでは、発声終了後数十秒以
上かかるものは使用できない。発声終了後、長くても数
秒以内に認識結果を出力しなければ、利用者に不便さを
感じさせる原因と成りかねない。
ント程度であり、必ずしも全ての人の発声を認識できる
わけではない。これは音声情報処理は統計処理であり、
収録音声の平均と分散をとり、標準偏差等の値を利用し
て、ある一定範囲の音声情報を利用するからである。音
声認識の高速演算を可能とするために、情報量を制約す
るという条件がある。従って認識率100パーセントを
達成する情報量を持つことは難しい。研究レベルでは、
音声認識のマッチングを行うための演算時間は、あまり
関係がないが、実用化レベルでは、発声終了後数十秒以
上かかるものは使用できない。発声終了後、長くても数
秒以内に認識結果を出力しなければ、利用者に不便さを
感じさせる原因と成りかねない。
【0012】しかしながら不特定話者認識は、利用者が
発声するだけで認識可能であるので、家電製品への応用
が検討されている。ビデオ機器の音声予約リモコン等が
実用化されている。この音声予約リモコンの音声信号処
理の主な構成要素としては、音声合成用のLSIと、A
/D変換を行うためのIC、音声認識用の高速演算を行
うDSP(デジタル信号処理プロセサ)、標準音声情報
を格納したメモリのROMがおさめられている。この機
器の場合、発声終了後1秒以内に認識結果を出力する。
発声するだけで認識可能であるので、家電製品への応用
が検討されている。ビデオ機器の音声予約リモコン等が
実用化されている。この音声予約リモコンの音声信号処
理の主な構成要素としては、音声合成用のLSIと、A
/D変換を行うためのIC、音声認識用の高速演算を行
うDSP(デジタル信号処理プロセサ)、標準音声情報
を格納したメモリのROMがおさめられている。この機
器の場合、発声終了後1秒以内に認識結果を出力する。
【0013】例えば音声予約リモコンでは、合成音声に
よるガイダンス出力に応じて、該当チャンネル番号、予
約曜日、予約開始時間と終了時間の指定を音声によって
行う。音声認識結果は、出力手段58であるLCD表示
装置に出力され、発声内容と合っていれば、確定用のボ
タンスイッチを押し、誤っていればもう一度(正しく認
識されるまで)発声を行うものである。
よるガイダンス出力に応じて、該当チャンネル番号、予
約曜日、予約開始時間と終了時間の指定を音声によって
行う。音声認識結果は、出力手段58であるLCD表示
装置に出力され、発声内容と合っていれば、確定用のボ
タンスイッチを押し、誤っていればもう一度(正しく認
識されるまで)発声を行うものである。
【0014】一方発声者を特定の個人に限定し、発声者
個人が操作したい音声を情報格納手段56に登録するこ
とによって、登録された内容と、自分の発声とを比較す
る音声認識方法もある。これを特定話者認識と定義す
る。特定話者認識では、多くの人の発声情報を集めなく
ても、音声認識が可能である。しかしながら、必ず最初
に自分で何回か発声し、声を登録するという作業が必要
である。また登録者以外では、その機器を使用すること
ができない問題点がある。従って特定話者認識は、予め
利用者が限定されている分野である自動車用のカーオー
ディオ、自動車電話等で応用が検討されている。
個人が操作したい音声を情報格納手段56に登録するこ
とによって、登録された内容と、自分の発声とを比較す
る音声認識方法もある。これを特定話者認識と定義す
る。特定話者認識では、多くの人の発声情報を集めなく
ても、音声認識が可能である。しかしながら、必ず最初
に自分で何回か発声し、声を登録するという作業が必要
である。また登録者以外では、その機器を使用すること
ができない問題点がある。従って特定話者認識は、予め
利用者が限定されている分野である自動車用のカーオー
ディオ、自動車電話等で応用が検討されている。
【0015】一般に同一人の同一発声語彙による特定話
者認識の認識率は、不特定話者認識での同一発声語彙の
認識率に比べて高い。これは特定話者認識の方が、より
発声の特徴を生かした認識を行うことができる。従っ
て、発声者個人の特徴あるパラメータのみを演算するこ
とが可能であるため、演算量も不特定話者の時に比べて
少ない場合が多い。
者認識の認識率は、不特定話者認識での同一発声語彙の
認識率に比べて高い。これは特定話者認識の方が、より
発声の特徴を生かした認識を行うことができる。従っ
て、発声者個人の特徴あるパラメータのみを演算するこ
とが可能であるため、演算量も不特定話者の時に比べて
少ない場合が多い。
【0016】
【発明が解決しようとする課題】しかしながら従来の構
成では、利用者を限定しない機器(公衆電話機、券売
機、レンタル機器等)に音声認識を適用した場合(不特
定話者認識)、音声認識率には限界があり、標準音声と
はかなり異なる特定の人の発声内容は認識できない(誤
認識する)という問題点があった。
成では、利用者を限定しない機器(公衆電話機、券売
機、レンタル機器等)に音声認識を適用した場合(不特
定話者認識)、音声認識率には限界があり、標準音声と
はかなり異なる特定の人の発声内容は認識できない(誤
認識する)という問題点があった。
【0017】一方特定話者認識技術を用いるためには、
音声登録作業を行わなければならないため、前記の利用
者を限定しない機器には適用が行いにくいという問題点
も有していた。
音声登録作業を行わなければならないため、前記の利用
者を限定しない機器には適用が行いにくいという問題点
も有していた。
【0018】本発明は上記課題に留意し、不特定話者の
音声認識率を高めた情報処理装置を提供することを目的
とする。
音声認識率を高めた情報処理装置を提供することを目的
とする。
【0019】
【課題を解決するための手段】この目的を達成するため
に本発明の情報処理装置は、音声入力を受け付ける入力
手段と、音声認識する認識手段と、音声認識時に参照す
る情報格納手段と、この情報格納手段に格納されている
情報との差分情報を格納する差分情報格納手段とを有
し、情報格納手段と差分情報格納手段に格納されている
情報を用いて、音声認識を行う制御手段を有するもので
ある。
に本発明の情報処理装置は、音声入力を受け付ける入力
手段と、音声認識する認識手段と、音声認識時に参照す
る情報格納手段と、この情報格納手段に格納されている
情報との差分情報を格納する差分情報格納手段とを有
し、情報格納手段と差分情報格納手段に格納されている
情報を用いて、音声認識を行う制御手段を有するもので
ある。
【0020】
【作用】上記構成の本発明の情報処理装置は、差分情報
格納手段により各個人に固有な差分情報内容を記憶媒体
に格納し、音声認識を行う際に、制御手段により情報格
納手段の標準音声情報と、この差分情報格納手段の差分
情報を参照しながら不特定話者認識を行うことで、高い
認識率が要求されるサービスに有効な装置を提供するこ
とができる。
格納手段により各個人に固有な差分情報内容を記憶媒体
に格納し、音声認識を行う際に、制御手段により情報格
納手段の標準音声情報と、この差分情報格納手段の差分
情報を参照しながら不特定話者認識を行うことで、高い
認識率が要求されるサービスに有効な装置を提供するこ
とができる。
【0021】
(実施例1)以下本発明の一実施例について、図面を参
照しながら説明する。図1は、本発明の第1の実施例に
おける情報処理装置の構成図を示すものである。図1に
示すように構成要素として1はここで説明する情報処理
装置、2は音声情報処理を行う音声認識部である。4は
入力手段で、音声を含む入力を受け付ける。6は情報格
納手段で、音声認識語彙情報等を格納する。5は認識手
段で、入力手段4から入力された音声信号を、情報格納
手段6の情報を参照して音声認識作業を行う。7は情報
制御手段で、情報格納手段6に格納されている情報以外
の情報を制御するものである。10は情報格納手段6に
格納されている情報との差分情報を格納する差分情報格
納手段で、3は差分情報格納手段10を有する記憶装置
としての記憶媒体である。
照しながら説明する。図1は、本発明の第1の実施例に
おける情報処理装置の構成図を示すものである。図1に
示すように構成要素として1はここで説明する情報処理
装置、2は音声情報処理を行う音声認識部である。4は
入力手段で、音声を含む入力を受け付ける。6は情報格
納手段で、音声認識語彙情報等を格納する。5は認識手
段で、入力手段4から入力された音声信号を、情報格納
手段6の情報を参照して音声認識作業を行う。7は情報
制御手段で、情報格納手段6に格納されている情報以外
の情報を制御するものである。10は情報格納手段6に
格納されている情報との差分情報を格納する差分情報格
納手段で、3は差分情報格納手段10を有する記憶装置
としての記憶媒体である。
【0022】前記のように構成された情報処理装置1に
ついて、その構成要素のお互いの関連動作を説明する。
前提として記憶媒体3は音声認識部2と着脱可能な形態
で、携帯可能な媒体で構成した例について説明する。着
脱可能でない記憶媒体3の実施例については、実施例2
で説明する。
ついて、その構成要素のお互いの関連動作を説明する。
前提として記憶媒体3は音声認識部2と着脱可能な形態
で、携帯可能な媒体で構成した例について説明する。着
脱可能でない記憶媒体3の実施例については、実施例2
で説明する。
【0023】まず利用者が記憶媒体3を情報処理装置1
に挿入する。情報処理装置1は記憶媒体3が挿入された
ことを検知し、音声認識部2と結合させる。次に情報制
御手段7が、結合された記憶媒体3が利用可能な媒体か
否かを判定する。利用可能と判定すれば、記憶媒体3内
の差分情報を差分情報格納手段10から獲得する。
に挿入する。情報処理装置1は記憶媒体3が挿入された
ことを検知し、音声認識部2と結合させる。次に情報制
御手段7が、結合された記憶媒体3が利用可能な媒体か
否かを判定する。利用可能と判定すれば、記憶媒体3内
の差分情報を差分情報格納手段10から獲得する。
【0024】次に出力手段(図示せず)から、利用者に
対しサービスを開始するために必要な情報の入力を促進
するメッセージ等を出力する。例えば、現金引き出しサ
ービス等のサービスを受けたい場合、適用サービス名を
入力してください等を表示装置または、音声出力装置か
ら出力する。利用者は、出力されたメッセージを頼り
に、音声を用いて入力を行う。
対しサービスを開始するために必要な情報の入力を促進
するメッセージ等を出力する。例えば、現金引き出しサ
ービス等のサービスを受けたい場合、適用サービス名を
入力してください等を表示装置または、音声出力装置か
ら出力する。利用者は、出力されたメッセージを頼り
に、音声を用いて入力を行う。
【0025】入力手段4から入力されたサービス名や、
暗証番号等の入力音声は、情報格納手段6内に格納され
ている標準の音声情報と情報制御手段7に獲得された差
分情報を元にマッチングされることによって、音声認識
が行われる。音声認識を行い、該当情報を音声信号から
適当な数字や文字情報等の情報に変換して、各種の情報
処理を行う。出力手段は、表示装置や音声出力装置を単
独または組み合わせて構成し、入力依頼を出力するだけ
でなく、各種のサービスを適用するときにも用いられ
る。
暗証番号等の入力音声は、情報格納手段6内に格納され
ている標準の音声情報と情報制御手段7に獲得された差
分情報を元にマッチングされることによって、音声認識
が行われる。音声認識を行い、該当情報を音声信号から
適当な数字や文字情報等の情報に変換して、各種の情報
処理を行う。出力手段は、表示装置や音声出力装置を単
独または組み合わせて構成し、入力依頼を出力するだけ
でなく、各種のサービスを適用するときにも用いられ
る。
【0026】マッチングされる音声情報は次のようにし
て格納されている。音声認識可能な語彙は、利用種別ご
とに、群というグループに分割されて格納されている。
例えば、第1群はサービス適用名(例えば、預け入れ、
引き出し、残高、クレジット等)であり、第2群は暗証
番号等の入力(「ぜろ」から「きゅう」)に用いる数字
であり、第3群はサービス確定指示用の語彙(取り消
し、訂正、確定、確認等)等で構成する。
て格納されている。音声認識可能な語彙は、利用種別ご
とに、群というグループに分割されて格納されている。
例えば、第1群はサービス適用名(例えば、預け入れ、
引き出し、残高、クレジット等)であり、第2群は暗証
番号等の入力(「ぜろ」から「きゅう」)に用いる数字
であり、第3群はサービス確定指示用の語彙(取り消
し、訂正、確定、確認等)等で構成する。
【0027】利用目的に応じて語彙情報をグループ化す
ることにより、指定されたグループ内で最も発声された
音声情報と近いものを探し出す作業を行う。もちろん各
情報は、マッチングを短時間で行いやすい情報に符号化
されている。またこのマッチングに、閾値というものを
設け、ある値以上でないと、マッチング語彙がないとい
う音声認識結果を出力する閾値判定手段を認識手段5内
に有する。
ることにより、指定されたグループ内で最も発声された
音声情報と近いものを探し出す作業を行う。もちろん各
情報は、マッチングを短時間で行いやすい情報に符号化
されている。またこのマッチングに、閾値というものを
設け、ある値以上でないと、マッチング語彙がないとい
う音声認識結果を出力する閾値判定手段を認識手段5内
に有する。
【0028】入力音声は、特定の入力レベルの閾値を越
えたところで、語彙情報を持つ発声の開始を検知し、閾
値を下回った時に発声の終了を確認する。この発声の区
間中の入力音声を、数kHz(8kHzから10kHz程度)
でサンプリングし、各サンプリング時間毎に、8ビット
から12ビット程度で、量子化することによってデジタ
ル化する。
えたところで、語彙情報を持つ発声の開始を検知し、閾
値を下回った時に発声の終了を確認する。この発声の区
間中の入力音声を、数kHz(8kHzから10kHz程度)
でサンプリングし、各サンプリング時間毎に、8ビット
から12ビット程度で、量子化することによってデジタ
ル化する。
【0029】音声認識は例えば、このデジタル値を用い
て、LPCケプストラム係数を求め、これを特徴パラメ
ータとして、標準の語彙のもつそのパラメータ量と比較
することにより、最も近いものをその群番号で与えられ
た語彙の中から見つけだす。これを発声の区間中を通じ
てマッチングし、最終的に最も近いものを発声語彙とし
て認識するものである。LPCケプストラム係数以外に
も種々の方法があるが、前記のサンプリングによって得
られたデジタル値を、各種の信号処理を施して特徴パラ
メータを抽出し、マッチングを行う方法が一般的であ
る。
て、LPCケプストラム係数を求め、これを特徴パラメ
ータとして、標準の語彙のもつそのパラメータ量と比較
することにより、最も近いものをその群番号で与えられ
た語彙の中から見つけだす。これを発声の区間中を通じ
てマッチングし、最終的に最も近いものを発声語彙とし
て認識するものである。LPCケプストラム係数以外に
も種々の方法があるが、前記のサンプリングによって得
られたデジタル値を、各種の信号処理を施して特徴パラ
メータを抽出し、マッチングを行う方法が一般的であ
る。
【0030】情報格納手段6には、数人から数百人程度
の発声から統計的処理を施され、特徴パラメータである
LPCケプストラム係数や、音声パワー値(特定の周波
数帯の音声レベル等)、発声時間、マッチング探索係数
等が格納されている。しかしながら従来例の中で説明し
た通り、演算処理性能等の制約により、平均や分散、標
準偏差等から求められる値を使用しているため、くせの
ある(標準からはかけ離れた)発声語彙の認識を正確に
行うことは難しい。
の発声から統計的処理を施され、特徴パラメータである
LPCケプストラム係数や、音声パワー値(特定の周波
数帯の音声レベル等)、発声時間、マッチング探索係数
等が格納されている。しかしながら従来例の中で説明し
た通り、演算処理性能等の制約により、平均や分散、標
準偏差等から求められる値を使用しているため、くせの
ある(標準からはかけ離れた)発声語彙の認識を正確に
行うことは難しい。
【0031】そこで記憶媒体3内の差分情報格納手段1
0に、平均情報から、利用者の発声情報が異なる差分情
報を格納しておき、各特徴パラメータの標準情報から差
分情報を差し引いて認識処理を行う。これにより個人特
有の情報が反映されて、認識率が向上する。
0に、平均情報から、利用者の発声情報が異なる差分情
報を格納しておき、各特徴パラメータの標準情報から差
分情報を差し引いて認識処理を行う。これにより個人特
有の情報が反映されて、認識率が向上する。
【0032】標準音声情報との差分情報のみ記憶媒体3
に保有すれば良いため、音声認識に必要な全ての音声情
報を保有する必要がない。また音声認識部2の情報格納
手段6には、あくまで標準用の音声情報のみを保有する
だけでよい。差分による補正分を差し引けば十分な認識
率をあげることができる。従って標準音声情報を集める
際においても、以前より少ない人数の音声情報で、標準
用の音声情報を作成しやすくなる利点もある。
に保有すれば良いため、音声認識に必要な全ての音声情
報を保有する必要がない。また音声認識部2の情報格納
手段6には、あくまで標準用の音声情報のみを保有する
だけでよい。差分による補正分を差し引けば十分な認識
率をあげることができる。従って標準音声情報を集める
際においても、以前より少ない人数の音声情報で、標準
用の音声情報を作成しやすくなる利点もある。
【0033】音声認識には、認識単位として代表的なも
のに音素認識、単語認識、文認識がある。音素認識と
は、主として子音、母音を単位とした音声認識を行うも
のである。単語認識は、1つの単語(長くても数秒程
度)単位で音声認識を行うものである。文認識は、複数
の単語からなる文節単位、文単位で文法等を意識して音
声認識を行うものである。
のに音素認識、単語認識、文認識がある。音素認識と
は、主として子音、母音を単位とした音声認識を行うも
のである。単語認識は、1つの単語(長くても数秒程
度)単位で音声認識を行うものである。文認識は、複数
の単語からなる文節単位、文単位で文法等を意識して音
声認識を行うものである。
【0034】音声認識を音素単位で行う音素認識に対し
ては、各音素情報毎に標準音声情報を作成すると共に、
差分情報を作成する。この場合の差分情報は、各音素に
対しての値になる。一方単語単位で行う単語認識に対し
ては、各単語情報毎に標準音声情報を作成し、また差分
情報も各単語の発声に対しての情報となる。もしくは単
語を構成する音素情報を用いて単語認識を行うこともで
きる。記憶媒体3には音素に対する差分情報を、情報格
納手段6には音素単位の音声標準情報と、音素を組み合
わせた語彙情報で構成する。文単位は、複数の単語認識
の組み合わせになる。
ては、各音素情報毎に標準音声情報を作成すると共に、
差分情報を作成する。この場合の差分情報は、各音素に
対しての値になる。一方単語単位で行う単語認識に対し
ては、各単語情報毎に標準音声情報を作成し、また差分
情報も各単語の発声に対しての情報となる。もしくは単
語を構成する音素情報を用いて単語認識を行うこともで
きる。記憶媒体3には音素に対する差分情報を、情報格
納手段6には音素単位の音声標準情報と、音素を組み合
わせた語彙情報で構成する。文単位は、複数の単語認識
の組み合わせになる。
【0035】標準音声情報との差分情報の登録は、次の
ようにして行う。利用者に音素情報を含む適用語彙を発
声してもらい、これを例えばサービス適用会社等が、利
用者の発声内容をDAT(デジタルオーディオテープ)
等の高性能な録音装置に収録する。このDATテープを
サービス適用会社等が、音声処理し差分情報を求めて、
記憶媒体3の差分情報格納手段10に書き込む。また電
話等を利用してもよい構成とする。現状の電話で利用で
きる音声帯域は数十Hzから3.4kHz程度であるが、こ
の程度の帯域の情報でも、音声認識は可能な情報を含ん
でいる。しかし各種のノイズ成分も多く含んでいるた
め、補正処理を行っても、あまり高音質な声の収集は期
待できない。ISDN(サービス総合デジタル網)を利
用したデジタル電話等が普及すれば、伝送できる情報量
が飛躍的に増大し、広い帯域を使用できるため、家庭内
電話からの高音質の声の収集も可能になる。また家庭内
の録音機を用いて声を収集する方法も有効である。
ようにして行う。利用者に音素情報を含む適用語彙を発
声してもらい、これを例えばサービス適用会社等が、利
用者の発声内容をDAT(デジタルオーディオテープ)
等の高性能な録音装置に収録する。このDATテープを
サービス適用会社等が、音声処理し差分情報を求めて、
記憶媒体3の差分情報格納手段10に書き込む。また電
話等を利用してもよい構成とする。現状の電話で利用で
きる音声帯域は数十Hzから3.4kHz程度であるが、こ
の程度の帯域の情報でも、音声認識は可能な情報を含ん
でいる。しかし各種のノイズ成分も多く含んでいるた
め、補正処理を行っても、あまり高音質な声の収集は期
待できない。ISDN(サービス総合デジタル網)を利
用したデジタル電話等が普及すれば、伝送できる情報量
が飛躍的に増大し、広い帯域を使用できるため、家庭内
電話からの高音質の声の収集も可能になる。また家庭内
の録音機を用いて声を収集する方法も有効である。
【0036】着脱可能な記憶媒体3は、次のような媒体
で構成される。磁気カード、光カード、ICメモリカー
ド、ICカードのようなカード状の記憶媒体3、CD−
ROM、光磁気ディスクのような円盤状の記憶媒体3が
ある。例えば、磁気カードや、光カード、CD−ROM
等の格納手段しか有しない記憶媒体3においては、差分
情報格納手段10の内容を、情報制御手段7の中に有す
るメモリに読み込み、認識手段5が参照する構成とす
る。また前記のような非接触型の記憶媒体3も存在す
る。電磁誘導や電波、光等を介した通信形態をとって、
これらに記憶された差分情報格納手段10内の情報を獲
得する。
で構成される。磁気カード、光カード、ICメモリカー
ド、ICカードのようなカード状の記憶媒体3、CD−
ROM、光磁気ディスクのような円盤状の記憶媒体3が
ある。例えば、磁気カードや、光カード、CD−ROM
等の格納手段しか有しない記憶媒体3においては、差分
情報格納手段10の内容を、情報制御手段7の中に有す
るメモリに読み込み、認識手段5が参照する構成とす
る。また前記のような非接触型の記憶媒体3も存在す
る。電磁誘導や電波、光等を介した通信形態をとって、
これらに記憶された差分情報格納手段10内の情報を獲
得する。
【0037】一方ICメモリカード、ICカードのよう
に格納手段以外に音声認識部2がメモリ手段として使用
できる記憶媒体3もある。このような場合、情報制御手
段7は、記憶媒体3との通信機能を有し、差分情報格納
手段10のメモリ手段を使用して音声認識を行うように
構成することもできる。
に格納手段以外に音声認識部2がメモリ手段として使用
できる記憶媒体3もある。このような場合、情報制御手
段7は、記憶媒体3との通信機能を有し、差分情報格納
手段10のメモリ手段を使用して音声認識を行うように
構成することもできる。
【0038】差分情報の例としては以下の項目がある。
例えば、音声区間が短めであるという差分情報が格納さ
れている場合がある。このような例は、各サンプリング
時間での標準値との差情報、発声区間の長短情報、全体
及び部分的な発声パワー量の大小情報、語頭、語尾の発
声の強弱の特徴情報、声の高低情報、各サンプリング値
とのマッチングするときの時間設定の設定パス情報等が
ある。これらの情報を差分情報の中から獲得して、利用
者の特徴を知った上で音声認識を行うことによって、音
声認識率を上昇させるものである。
例えば、音声区間が短めであるという差分情報が格納さ
れている場合がある。このような例は、各サンプリング
時間での標準値との差情報、発声区間の長短情報、全体
及び部分的な発声パワー量の大小情報、語頭、語尾の発
声の強弱の特徴情報、声の高低情報、各サンプリング値
とのマッチングするときの時間設定の設定パス情報等が
ある。これらの情報を差分情報の中から獲得して、利用
者の特徴を知った上で音声認識を行うことによって、音
声認識率を上昇させるものである。
【0039】差分情報を用いた計算方法は、以下の例が
ある。例えば標準値から離れている差分値分を、入力音
声から差し引いて、標準値とマッチングする方法、標準
値による演算の制限を差分値によって変更する方法(閾
値の変更)、標準値を差分値入力により予め補正してお
き、補正した標準値と入力音声をマッチングする方法、
標準音声情報でマッチングした後で、差分情報を用いて
さらにマッチングする方法等がある。
ある。例えば標準値から離れている差分値分を、入力音
声から差し引いて、標準値とマッチングする方法、標準
値による演算の制限を差分値によって変更する方法(閾
値の変更)、標準値を差分値入力により予め補正してお
き、補正した標準値と入力音声をマッチングする方法、
標準音声情報でマッチングした後で、差分情報を用いて
さらにマッチングする方法等がある。
【0040】また認識率とは、従来例の中の定義通り、
閾値内の入力に対して音声認識処理を行った中で、正し
い語彙を選択する確率である。発声が小さすぎる等で、
閾値以外の入力に対しては、認識率の対象にはなってい
ない。しかし利用者から見れば、入力が小さすぎる等で
認識できなかった時も、認識誤りが発生したと考えられ
やすい。従って発声したうちで(声が小さくても)、正
しい認識結果が得られる確率という広義な意味の認識率
を上昇させる必要もある。
閾値内の入力に対して音声認識処理を行った中で、正し
い語彙を選択する確率である。発声が小さすぎる等で、
閾値以外の入力に対しては、認識率の対象にはなってい
ない。しかし利用者から見れば、入力が小さすぎる等で
認識できなかった時も、認識誤りが発生したと考えられ
やすい。従って発声したうちで(声が小さくても)、正
しい認識結果が得られる確率という広義な意味の認識率
を上昇させる必要もある。
【0041】記憶媒体3の使用を開始するに当たって
は、情報制御手段7の記憶媒体3の正当性を確認する必
要がある。磁気カード等の記憶媒体3では、その記憶媒
体3に格納されている差分情報以外に誤り検出、誤り訂
正等の検査情報と登録番号情報を格納し、その各情報を
情報制御手段7が読みだして、差分情報と検査情報等の
各情報の関連性を確認し、正当性を確認する。必要に応
じて各情報を暗号化する手段を用いて、各情報を格納す
る構成としても良い。
は、情報制御手段7の記憶媒体3の正当性を確認する必
要がある。磁気カード等の記憶媒体3では、その記憶媒
体3に格納されている差分情報以外に誤り検出、誤り訂
正等の検査情報と登録番号情報を格納し、その各情報を
情報制御手段7が読みだして、差分情報と検査情報等の
各情報の関連性を確認し、正当性を確認する。必要に応
じて各情報を暗号化する手段を用いて、各情報を格納す
る構成としても良い。
【0042】一方記憶媒体3をICカードで構成した場
合には、ICカードの機能(暗証番号等の該当パスワー
ドが照合されない限り内部は参照できない)を利用する
正当性確認手段とする。ICカードの場合は、利用者の
正当性を暗証番号等の入力により行うことが可能である
が、同様にして音声認識部2の正当性を確認することも
可能である。ICカード内に利用可能な音声認識部2及
び情報処理装置1の型番情報を保有し、許された型番情
報を得た時のみ利用可能とすることもできる。
合には、ICカードの機能(暗証番号等の該当パスワー
ドが照合されない限り内部は参照できない)を利用する
正当性確認手段とする。ICカードの場合は、利用者の
正当性を暗証番号等の入力により行うことが可能である
が、同様にして音声認識部2の正当性を確認することも
可能である。ICカード内に利用可能な音声認識部2及
び情報処理装置1の型番情報を保有し、許された型番情
報を得た時のみ利用可能とすることもできる。
【0043】さらにICカード側の正当性を確認するた
めに、ICカードに必要情報を与え、その情報によって
演算を行い、その結果を情報制御手段7に返す構成とす
る。一方情報制御手段7側でも演算を行って、ICカー
ド側から得られた情報と比較を行うことにより、ICカ
ードの正当性を確認することができる。このICカード
に与える情報、演算手段はその都度変更する構成をとれ
ば、不正使用が行いにくい構成となり、高セキュリティ
が要求される用途においても、有効な手段となりうる。
めに、ICカードに必要情報を与え、その情報によって
演算を行い、その結果を情報制御手段7に返す構成とす
る。一方情報制御手段7側でも演算を行って、ICカー
ド側から得られた情報と比較を行うことにより、ICカ
ードの正当性を確認することができる。このICカード
に与える情報、演算手段はその都度変更する構成をとれ
ば、不正使用が行いにくい構成となり、高セキュリティ
が要求される用途においても、有効な手段となりうる。
【0044】利用内容にもよるが、特にセキュリティの
必要性を伴わない内容に関しては、この差分情報の利用
にあたって、格納されている情報が内容を他人に複写さ
れても、利用者個人の声の情報であるから、他人にはあ
まり価値がないものである。一般的に使用するものにお
いては、この差分情報はあくまで利用者の便宜をはかる
目的を達成するものである。また差分情報は、その利用
者のみに有効なものであるため、その記憶媒体3が正し
いものかだけを判定する機能を持てば良い。しかし高セ
キュリティを要するサービスに関するものはこの限りで
はない。
必要性を伴わない内容に関しては、この差分情報の利用
にあたって、格納されている情報が内容を他人に複写さ
れても、利用者個人の声の情報であるから、他人にはあ
まり価値がないものである。一般的に使用するものにお
いては、この差分情報はあくまで利用者の便宜をはかる
目的を達成するものである。また差分情報は、その利用
者のみに有効なものであるため、その記憶媒体3が正し
いものかだけを判定する機能を持てば良い。しかし高セ
キュリティを要するサービスに関するものはこの限りで
はない。
【0045】周囲雑音等の情報が混在して発声の区間を
誤った場合は、正しく音声認識が行われない可能性があ
る。そのために入力手段4は、周囲雑音レベルを定期的
に獲得し、入力レベルの補正を行う機能を有し、また利
用者に対して、少し大きめの声で発声を希望する等の旨
を表示手段や拡声手段等による出力手段(図示せず)に
より出力する。逆に前回発声が大きすぎて、適した語彙
とマッチングできず該当語彙が選択できなかった場合
は、入力レベルの利得を調節し、少し小さな声での発声
を希望する旨の出力を行う。連続して複数の語彙の発声
を行うような場合では、上記のような利得の調整は有効
である。
誤った場合は、正しく音声認識が行われない可能性があ
る。そのために入力手段4は、周囲雑音レベルを定期的
に獲得し、入力レベルの補正を行う機能を有し、また利
用者に対して、少し大きめの声で発声を希望する等の旨
を表示手段や拡声手段等による出力手段(図示せず)に
より出力する。逆に前回発声が大きすぎて、適した語彙
とマッチングできず該当語彙が選択できなかった場合
は、入力レベルの利得を調節し、少し小さな声での発声
を希望する旨の出力を行う。連続して複数の語彙の発声
を行うような場合では、上記のような利得の調整は有効
である。
【0046】適用サービスの内容によって、発声語彙は
メニューの中から選択させる形をとるか、入力促進メッ
セージだけを示して選択語彙を表示しない形をとるかが
決められる。また認識語彙は情報格納手段6という形
で、認識手段5とは分離した構成をとっているので、情
報格納手段6を各種メモリで構成することができる。い
ろいろな語彙を納めたメモリを構成することにより、用
途に応じた語彙情報を選択して用いることによって、多
種多様な情報処理装置1を提供することができる。
メニューの中から選択させる形をとるか、入力促進メッ
セージだけを示して選択語彙を表示しない形をとるかが
決められる。また認識語彙は情報格納手段6という形
で、認識手段5とは分離した構成をとっているので、情
報格納手段6を各種メモリで構成することができる。い
ろいろな語彙を納めたメモリを構成することにより、用
途に応じた語彙情報を選択して用いることによって、多
種多様な情報処理装置1を提供することができる。
【0047】さらに使用形態によっては、少人数(家族
等)の音声の差分情報をとり、家庭内で用いる情報処理
装置の音声認識に適用することもできる。この記憶媒体
3に格納する音声情報は、個人とは限らず、ある特定の
グループであっても良い。このような場合、複数の人の
差分情報格納手段10を、人数分だけ用意する構成をと
る場合、複数の人を平均し、総合した差分情報格納手段
10とする構成がある。後者は、前者に比べて認識率が
低くなる傾向が予想されるが、家族等の場合には、互い
に発声の仕方、抑揚が似ている点があるため、この特徴
を差分情報に取り入れた音声認識を行う情報処理装置1
を構成することができる。
等)の音声の差分情報をとり、家庭内で用いる情報処理
装置の音声認識に適用することもできる。この記憶媒体
3に格納する音声情報は、個人とは限らず、ある特定の
グループであっても良い。このような場合、複数の人の
差分情報格納手段10を、人数分だけ用意する構成をと
る場合、複数の人を平均し、総合した差分情報格納手段
10とする構成がある。後者は、前者に比べて認識率が
低くなる傾向が予想されるが、家族等の場合には、互い
に発声の仕方、抑揚が似ている点があるため、この特徴
を差分情報に取り入れた音声認識を行う情報処理装置1
を構成することができる。
【0048】本発明は、音声入力を用い、音声の中に含
まれる個人の特徴を取り入れた不特定話者音声認識を行
うことで、利用者を限定しない機器でも高い認識率を得
られるため、各種情報機器、家電製品など幅広い機器の
音声認識に有効な装置を提供することができる。
まれる個人の特徴を取り入れた不特定話者音声認識を行
うことで、利用者を限定しない機器でも高い認識率を得
られるため、各種情報機器、家電製品など幅広い機器の
音声認識に有効な装置を提供することができる。
【0049】(実施例2)以下本発明の第2の実施例に
ついて説明する。構成は第1の実施例と同一であるが、
記憶媒体3が着脱可能でなく、固定である例について説
明する。固定の手段には情報処理装置1にはじめから固
定してある場合と、利用者が目的に応じて装着した後
は、解体修理でもしない限り、取り外しが行われないよ
うな固定の仕方をする場合の2例について説明する。
ついて説明する。構成は第1の実施例と同一であるが、
記憶媒体3が着脱可能でなく、固定である例について説
明する。固定の手段には情報処理装置1にはじめから固
定してある場合と、利用者が目的に応じて装着した後
は、解体修理でもしない限り、取り外しが行われないよ
うな固定の仕方をする場合の2例について説明する。
【0050】まず第1の最初から固定されている場合に
ついて説明する。情報格納手段6をICメモリカード等
の記憶手段で実現する。次にサービス提供者が利用者の
音声情報を収録し、差分情報を記憶媒体3に格納する。
この両方の情報を納めた媒体をサービス提供者が、利用
者に送り、利用者がその媒体をもっている人に限り情報
処理装置1の利用が行えるような構成とすることができ
る。
ついて説明する。情報格納手段6をICメモリカード等
の記憶手段で実現する。次にサービス提供者が利用者の
音声情報を収録し、差分情報を記憶媒体3に格納する。
この両方の情報を納めた媒体をサービス提供者が、利用
者に送り、利用者がその媒体をもっている人に限り情報
処理装置1の利用が行えるような構成とすることができ
る。
【0051】この時の音声情報は、単語情報に限らず、
子音や母音の音素の差分情報を格納すれば、標準音声情
報にどのような単語情報があろうと、それらの単語に含
まれる子音、母音の音素情報に照らし合わせることによ
って有効な音声認識を行うことができる。もちろん標準
音声情報に音素情報を用い、各音素情報との直接の差分
情報を持つように構成しても良い。
子音や母音の音素の差分情報を格納すれば、標準音声情
報にどのような単語情報があろうと、それらの単語に含
まれる子音、母音の音素情報に照らし合わせることによ
って有効な音声認識を行うことができる。もちろん標準
音声情報に音素情報を用い、各音素情報との直接の差分
情報を持つように構成しても良い。
【0052】標準用の音声情報も、サービスの種別がか
われば、利用発声語彙も異なるので、異なった標準音声
情報を用意する必要がある。しかしながら差分情報は、
サービスの種類が異なっても変更しなくてもよいものを
構成できる。ここでの例は音声情報を含む媒体とその他
に部分が分離されている場合について説明した。しかし
これは製造、販売会社内での形態で、実際利用者にわた
る場合では、情報処理装置1にはじめから記憶媒体3の
固定する構成とする。利用者の手に渡る段階では、音声
を登録せずとも、個人の特徴を反映した音声認識を行う
情報処理装置1を構成することができる。
われば、利用発声語彙も異なるので、異なった標準音声
情報を用意する必要がある。しかしながら差分情報は、
サービスの種類が異なっても変更しなくてもよいものを
構成できる。ここでの例は音声情報を含む媒体とその他
に部分が分離されている場合について説明した。しかし
これは製造、販売会社内での形態で、実際利用者にわた
る場合では、情報処理装置1にはじめから記憶媒体3の
固定する構成とする。利用者の手に渡る段階では、音声
を登録せずとも、個人の特徴を反映した音声認識を行う
情報処理装置1を構成することができる。
【0053】次に第2の利用者が記憶媒体3に固定する
例について説明する。従来例の中で説明した家電製品等
で不特定話者認識を行うような機器を想定する。通常の
場合は、はじめから準備されている標準用の音声情報で
認識可能である。しかし声帯に損傷がある人や、老人で
歯がしっかりしていないため、音声認識が行いにくい特
定の人に対しても、障害がない人と同様なサービスを提
供できれば好ましい。
例について説明する。従来例の中で説明した家電製品等
で不特定話者認識を行うような機器を想定する。通常の
場合は、はじめから準備されている標準用の音声情報で
認識可能である。しかし声帯に損傷がある人や、老人で
歯がしっかりしていないため、音声認識が行いにくい特
定の人に対しても、障害がない人と同様なサービスを提
供できれば好ましい。
【0054】このような場合、本体機器のオプションと
して、その人の差分情報を格納した記憶媒体3を取り付
けることにより、平均的な発声をする人と同様のサービ
スの提供できる情報処理装置を構成することができる。
して、その人の差分情報を格納した記憶媒体3を取り付
けることにより、平均的な発声をする人と同様のサービ
スの提供できる情報処理装置を構成することができる。
【0055】サービスが異なり発声語彙が異なるような
情報処理装置にも、音声認識装置の記憶媒体3を複数個
用意し、基本情報となる差分情報格納手段10の内容を
複写して各装置に取り付ける。取り付けたどの装置でも
音声認識が利用できるため、各装置毎に音声を登録する
特定話者音声認識装置に比べて、使い勝手はかなり良
い。
情報処理装置にも、音声認識装置の記憶媒体3を複数個
用意し、基本情報となる差分情報格納手段10の内容を
複写して各装置に取り付ける。取り付けたどの装置でも
音声認識が利用できるため、各装置毎に音声を登録する
特定話者音声認識装置に比べて、使い勝手はかなり良
い。
【0056】特定話者認識を用いる場合は、登録作業を
伴うという不都合な点もあるが、家族等の複数の人数の
音声認識には向かないので、あくまで利用者一人に対す
るサービスとなり、誰もが使用できる機器に採用しよう
とすると、割高になる。従って本発明の構成をとれば、
複数の人の音声情報に答えられるため、家族単位で購入
するような情報処理装置として使用することができる。
伴うという不都合な点もあるが、家族等の複数の人数の
音声認識には向かないので、あくまで利用者一人に対す
るサービスとなり、誰もが使用できる機器に採用しよう
とすると、割高になる。従って本発明の構成をとれば、
複数の人の音声情報に答えられるため、家族単位で購入
するような情報処理装置として使用することができる。
【0057】以上のように本実施例によれば、差分情報
を含む記憶媒体3を固定した構成としても、不特定話者
音声認識の特徴を損なうことなく、利用者に便利でかつ
認識率が高い情報処理装置を提供することができる。
を含む記憶媒体3を固定した構成としても、不特定話者
音声認識の特徴を損なうことなく、利用者に便利でかつ
認識率が高い情報処理装置を提供することができる。
【0058】(実施例3)以下本発明の第3の実施例に
ついて、図面を参照しながら説明する。図2は、第3の
実施例における情報処理装置の構成を示すものである。
図2に示すように構成要素として、音声認識部2、記憶
媒体3、入力手段4、認識手段5、情報格納手段6、情
報制御手段7、差分情報格納手段10は第1の実施例と
同一である。8は出力手段である。
ついて、図面を参照しながら説明する。図2は、第3の
実施例における情報処理装置の構成を示すものである。
図2に示すように構成要素として、音声認識部2、記憶
媒体3、入力手段4、認識手段5、情報格納手段6、情
報制御手段7、差分情報格納手段10は第1の実施例と
同一である。8は出力手段である。
【0059】以上のように構成された情報処理装置1に
ついて、その構成要素のお互いの関連動作を説明する。
まず利用者が記憶媒体3を情報処理装置1に挿入する。
情報処理装置1は記憶媒体3が挿入されたことを検知
し、情報制御手段7が、結合された記憶媒体3が利用可
能な媒体か否かを判定する。利用可能と判定すれば、記
憶媒体3内の差分情報を差分情報格納手段10から獲得
する。
ついて、その構成要素のお互いの関連動作を説明する。
まず利用者が記憶媒体3を情報処理装置1に挿入する。
情報処理装置1は記憶媒体3が挿入されたことを検知
し、情報制御手段7が、結合された記憶媒体3が利用可
能な媒体か否かを判定する。利用可能と判定すれば、記
憶媒体3内の差分情報を差分情報格納手段10から獲得
する。
【0060】次に出力手段8から、利用者に対しサービ
スを開始するために必要な情報の入力を促進するメッセ
ージ等を出力する。利用者は、メッセージ出力内容を頼
りにして、音声を用いて入力を行う。入力手段4から入
力された音声は、情報格納手段6内に格納されている音
声情報と、情報制御手段7に獲得された差分情報を元に
マッチングされて、音声認識が行われる。音声認識を行
い、該当情報を音声信号から適当な数字や文字情報等の
情報に変換して、各種の情報処理を行う。出力手段8
は、表示装置や音声出力装置を単独または組み合わせて
構成し、入力依頼を出力するだけでなく、各種のサービ
スを適用するときにも用いられる。
スを開始するために必要な情報の入力を促進するメッセ
ージ等を出力する。利用者は、メッセージ出力内容を頼
りにして、音声を用いて入力を行う。入力手段4から入
力された音声は、情報格納手段6内に格納されている音
声情報と、情報制御手段7に獲得された差分情報を元に
マッチングされて、音声認識が行われる。音声認識を行
い、該当情報を音声信号から適当な数字や文字情報等の
情報に変換して、各種の情報処理を行う。出力手段8
は、表示装置や音声出力装置を単独または組み合わせて
構成し、入力依頼を出力するだけでなく、各種のサービ
スを適用するときにも用いられる。
【0061】この情報制御手段7は、差分情報を獲得し
たときに、その獲得した情報に従って、利用者に対して
メッセージを出力する。例えば、音声区間が短めである
という差分情報が格納されている場合、「ゆっくりと発
声してください」等のメッセージを出力する。このよう
な例は、発声区間の長短、発声パワー量の大小、語頭、
語尾の発声の強弱の特徴、声の高低等がある。
たときに、その獲得した情報に従って、利用者に対して
メッセージを出力する。例えば、音声区間が短めである
という差分情報が格納されている場合、「ゆっくりと発
声してください」等のメッセージを出力する。このよう
な例は、発声区間の長短、発声パワー量の大小、語頭、
語尾の発声の強弱の特徴、声の高低等がある。
【0062】これらの情報を差分情報の中から獲得し、
利用者へのコメントメッセージとして出力手段8から出
力することによって、利用者が意識して発声すれば、標
準音声との差を少しでも少なくすることができ、音声認
識率の向上をはかることができる。差分情報は、標準値
との差を示すものであるが、差分値で補正した値よりも
少しでも標準値に近い発声を行う付加情報として用いる
ことで、誤る確率を少しでも低下させる効果をもつ。
利用者へのコメントメッセージとして出力手段8から出
力することによって、利用者が意識して発声すれば、標
準音声との差を少しでも少なくすることができ、音声認
識率の向上をはかることができる。差分情報は、標準値
との差を示すものであるが、差分値で補正した値よりも
少しでも標準値に近い発声を行う付加情報として用いる
ことで、誤る確率を少しでも低下させる効果をもつ。
【0063】(実施例4)以下本発明の第4の実施例に
ついて、図面を参照しながら説明する。図2は、第4の
実施例における情報処理装置の構成を示すものである。
図2に示すように構成要素として、音声認識部2、記憶
媒体3、認識手段5、情報格納手段6、情報制御手段
7、差分情報格納手段10は第1の実施例と同一であ
る。8は出力手段である。また4は入力手段であるが、
入力手段4内に、入力利得変更手段(図示せず)を有す
る。
ついて、図面を参照しながら説明する。図2は、第4の
実施例における情報処理装置の構成を示すものである。
図2に示すように構成要素として、音声認識部2、記憶
媒体3、認識手段5、情報格納手段6、情報制御手段
7、差分情報格納手段10は第1の実施例と同一であ
る。8は出力手段である。また4は入力手段であるが、
入力手段4内に、入力利得変更手段(図示せず)を有す
る。
【0064】以上のように構成された情報処理装置1に
ついて、その構成要素のお互いの関連動作を説明する。
情報制御手段7が、記憶媒体3が利用可能な媒体か否か
を判定し、利用可能と判定すれば、記憶媒体3内の差分
情報を差分情報格納手段10から獲得する。
ついて、その構成要素のお互いの関連動作を説明する。
情報制御手段7が、記憶媒体3が利用可能な媒体か否か
を判定し、利用可能と判定すれば、記憶媒体3内の差分
情報を差分情報格納手段10から獲得する。
【0065】次に出力手段8から、利用者に対しサービ
スを開始するために必要な情報の入力を促進するメッセ
ージ等を出力する。入力手段4から入力されたサービス
名や、暗証番号等の入力音声は、情報格納手段6内に格
納されている音声情報と情報制御手段7に獲得された差
分情報を元にマッチングされて、音声認識が行われる。
音声認識を行い、該当情報を音声信号から適当な数字や
文字情報等の情報に変換して、各種の情報処理を行う。
スを開始するために必要な情報の入力を促進するメッセ
ージ等を出力する。入力手段4から入力されたサービス
名や、暗証番号等の入力音声は、情報格納手段6内に格
納されている音声情報と情報制御手段7に獲得された差
分情報を元にマッチングされて、音声認識が行われる。
音声認識を行い、該当情報を音声信号から適当な数字や
文字情報等の情報に変換して、各種の情報処理を行う。
【0066】この情報制御手段7は、差分情報を獲得し
たときに、その獲得した情報に従って、入力利得を変更
する要求を入力利得変更手段に発する。例えば、音声パ
ワー量が少ないという差分情報が格納されている場合、
音声入力利得を上げて、入力感度を良くする。このよう
な例は、発声区間の長短、発声パワー量の大小、語頭、
語尾の発声の強弱等がある。これらの情報を差分情報の
中から獲得し、利用者の音声入力に適した入力手段4と
するために、音声入力利得の調節を行うことによって、
標準音声との差を少しでも少なくすることができ、音声
認識率の向上をはかることができる。差分情報は、標準
値との差を示すものであるが、差分値で補正した値より
も少しでも標準値に近い発声を行う付加情報として用い
ることで、第3の実施例と同様に誤る確率を少しでも低
下させる効果をもつ。
たときに、その獲得した情報に従って、入力利得を変更
する要求を入力利得変更手段に発する。例えば、音声パ
ワー量が少ないという差分情報が格納されている場合、
音声入力利得を上げて、入力感度を良くする。このよう
な例は、発声区間の長短、発声パワー量の大小、語頭、
語尾の発声の強弱等がある。これらの情報を差分情報の
中から獲得し、利用者の音声入力に適した入力手段4と
するために、音声入力利得の調節を行うことによって、
標準音声との差を少しでも少なくすることができ、音声
認識率の向上をはかることができる。差分情報は、標準
値との差を示すものであるが、差分値で補正した値より
も少しでも標準値に近い発声を行う付加情報として用い
ることで、第3の実施例と同様に誤る確率を少しでも低
下させる効果をもつ。
【0067】もちろん第3の実施例で説明したように、
出力手段8から、差分情報を用いた情報を出力する手段
を有し、出力手段8と、入力利得変更手段の両方を有す
れば、認識率はさらに上昇する。
出力手段8から、差分情報を用いた情報を出力する手段
を有し、出力手段8と、入力利得変更手段の両方を有す
れば、認識率はさらに上昇する。
【0068】(実施例5)以下本発明の第5の実施例に
ついて、図面を参照しながら説明する。図3は、第5の
実施例における情報処理装置の構成を示すものである。
図3に示すように構成要素として、音声認識部2、記憶
媒体3、入力手段4、認識手段5、情報格納手段6、情
報制御手段7、差分情報格納手段10は第1の実施例と
同一である。8は出力手段で、9は差分情報更新手段で
ある。
ついて、図面を参照しながら説明する。図3は、第5の
実施例における情報処理装置の構成を示すものである。
図3に示すように構成要素として、音声認識部2、記憶
媒体3、入力手段4、認識手段5、情報格納手段6、情
報制御手段7、差分情報格納手段10は第1の実施例と
同一である。8は出力手段で、9は差分情報更新手段で
ある。
【0069】以上のように構成された情報処理装置1に
ついて、その構成要素のお互いの関連動作を説明する。
情報制御手段7が、記憶媒体3が利用可能な媒体か否か
を判定し、利用可能と判定すれば、記憶媒体3内の差分
情報を差分情報格納手段10から獲得する。
ついて、その構成要素のお互いの関連動作を説明する。
情報制御手段7が、記憶媒体3が利用可能な媒体か否か
を判定し、利用可能と判定すれば、記憶媒体3内の差分
情報を差分情報格納手段10から獲得する。
【0070】次に出力手段8から、利用者に対しサービ
スを開始するために必要な情報の入力を促進するメッセ
ージ等を出力する。入力手段4から入力されたサービス
名や、暗証番号等の入力音声は、情報格納手段6内に格
納されている音声情報と情報制御手段7に獲得された差
分情報を元にマッチングされて、音声認識が行われる。
音声認識を行い、該当情報を音声信号から適当な数字や
文字情報等の情報に変換して、各種の情報処理を行う。
スを開始するために必要な情報の入力を促進するメッセ
ージ等を出力する。入力手段4から入力されたサービス
名や、暗証番号等の入力音声は、情報格納手段6内に格
納されている音声情報と情報制御手段7に獲得された差
分情報を元にマッチングされて、音声認識が行われる。
音声認識を行い、該当情報を音声信号から適当な数字や
文字情報等の情報に変換して、各種の情報処理を行う。
【0071】この情報制御手段7は、差分情報を獲得し
たときに、その獲得した情報に従って、第3の実施例と
同様に出力手段8に該当情報を出力する。さらにこの出
力処理を行い、音声認識を行った結果、標準音声情報と
の差分情報を差分情報更新手段9が、差分情報格納手段
10に書き込む。
たときに、その獲得した情報に従って、第3の実施例と
同様に出力手段8に該当情報を出力する。さらにこの出
力処理を行い、音声認識を行った結果、標準音声情報と
の差分情報を差分情報更新手段9が、差分情報格納手段
10に書き込む。
【0072】このように構成すると下記のような利点が
ある。記憶媒体3を新規に発行した場合、用途によって
は差分情報格納手段10に利用者個人の差分情報が格納
されていない場合がある。また新しい語彙に対応した差
分情報が新たに必要な場合もある。このような場合、最
初は情報格納手段6内にある標準音声情報を用いて音声
認識を行う。そしてその時の標準値との差分情報を差分
情報更新手段9が、差分情報格納手段10に書き込む。
次からは、この書き込まれた差分情報を元に、情報格納
手段6と差分情報格納手段10の両方の情報を用いて、
音声認識を行うことができる。従って、最初1回目に個
人の特徴をつかみきれずに音声認識を誤ったとしても、
次からは個人の特徴を取り入れた音声認識を行うことが
できる。
ある。記憶媒体3を新規に発行した場合、用途によって
は差分情報格納手段10に利用者個人の差分情報が格納
されていない場合がある。また新しい語彙に対応した差
分情報が新たに必要な場合もある。このような場合、最
初は情報格納手段6内にある標準音声情報を用いて音声
認識を行う。そしてその時の標準値との差分情報を差分
情報更新手段9が、差分情報格納手段10に書き込む。
次からは、この書き込まれた差分情報を元に、情報格納
手段6と差分情報格納手段10の両方の情報を用いて、
音声認識を行うことができる。従って、最初1回目に個
人の特徴をつかみきれずに音声認識を誤ったとしても、
次からは個人の特徴を取り入れた音声認識を行うことが
できる。
【0073】また利用者が、長い間記憶媒体3を用いな
い場合もある。住所環境がかわったり、病気等で発声の
仕方が以前とかわる場合もある。このような場合におい
ても、最初は以前の差分情報を用いて音声認識し、音声
認識を行った差分情報を書き込む構成にすることによっ
て、より利用者の発声を確実にとらえる情報処理装置1
を構成することができる。
い場合もある。住所環境がかわったり、病気等で発声の
仕方が以前とかわる場合もある。このような場合におい
ても、最初は以前の差分情報を用いて音声認識し、音声
認識を行った差分情報を書き込む構成にすることによっ
て、より利用者の発声を確実にとらえる情報処理装置1
を構成することができる。
【0074】用途によって同じ語彙情報でも、早く発声
したり、ゆっくり発声したりすることもある。例えば0
(ぜろ)から9(きゅう)までの音声数字情報を対象に
した場合、メニュー形式の数字選択のような場合には、
1つの数字をゆっくり発声するが、電話番号のように複
数桁の数字情報を発声する場合には、各数字を短く、ま
た続けて発声する傾向がある。従って用途に応じて同じ
語彙の差分情報を複数持ったり、その都度差分情報を書
き換える機能をもてば、さらに音声認識率は上がり、利
用者の便宜も向上する。
したり、ゆっくり発声したりすることもある。例えば0
(ぜろ)から9(きゅう)までの音声数字情報を対象に
した場合、メニュー形式の数字選択のような場合には、
1つの数字をゆっくり発声するが、電話番号のように複
数桁の数字情報を発声する場合には、各数字を短く、ま
た続けて発声する傾向がある。従って用途に応じて同じ
語彙の差分情報を複数持ったり、その都度差分情報を書
き換える機能をもてば、さらに音声認識率は上がり、利
用者の便宜も向上する。
【0075】さらに第4の実施例と同様に入力利得変更
手段を有する構成をとり、差分情報として、例えば全体
に発声レベルが小さい傾向がある等の情報を用いて、入
力手段4の入力利得レベルを上げるとともに、出力手段
8に、大きめの声で発声することを希望する旨のメッセ
ージ等を出力する構成とすることができる。
手段を有する構成をとり、差分情報として、例えば全体
に発声レベルが小さい傾向がある等の情報を用いて、入
力手段4の入力利得レベルを上げるとともに、出力手段
8に、大きめの声で発声することを希望する旨のメッセ
ージ等を出力する構成とすることができる。
【0076】また記憶媒体3に音声認識の結果情報を格
納する構成としてもよい。セキュリティが要求されるよ
うな用途に応じては次のような処理も可能となる。何度
も誤った入力が繰り返されている場合は、不正に使用さ
れている場合や、適用不可能なサービスが選択されてい
る場合と想定できるので、サービスの中止や、パターン
マッチングの閾値をさらに厳しくする等の処理を行う必
要がある。
納する構成としてもよい。セキュリティが要求されるよ
うな用途に応じては次のような処理も可能となる。何度
も誤った入力が繰り返されている場合は、不正に使用さ
れている場合や、適用不可能なサービスが選択されてい
る場合と想定できるので、サービスの中止や、パターン
マッチングの閾値をさらに厳しくする等の処理を行う必
要がある。
【0077】音声認識誤りが頻発して、標準音声情報と
かけ離れている発声が繰り返された場合には、音声認識
の結果を格納した、過去の結果情報を参照し、記憶媒体
3を用いた情報処理装置1を用いたサービスを中止する
機能を有する。
かけ離れている発声が繰り返された場合には、音声認識
の結果を格納した、過去の結果情報を参照し、記憶媒体
3を用いた情報処理装置1を用いたサービスを中止する
機能を有する。
【0078】またあまりセキュリティを要求しないよう
な用途に関しては、前述の結果情報として音声認識の誤
り訂正傾向を記憶しておき、補正するような構成とする
こともできる。例えば7(しち)の発声が1(いち)に
近いために、良く1(いち)に誤る場合には、この誤り
傾向情報を取り込み、その傾向情報から自動的に7(し
ち)を選択するように構成することができる。
な用途に関しては、前述の結果情報として音声認識の誤
り訂正傾向を記憶しておき、補正するような構成とする
こともできる。例えば7(しち)の発声が1(いち)に
近いために、良く1(いち)に誤る場合には、この誤り
傾向情報を取り込み、その傾向情報から自動的に7(し
ち)を選択するように構成することができる。
【0079】従って本実施例では、音声入力された音声
情報と情報格納手段6内の標準音声情報を用いて音声認
識を行い、標準との差分情報を書き込む手段を持つこと
で、利用者の発声の変化に対応できる、利便性を高めた
情報処理装置1を提供することができる。
情報と情報格納手段6内の標準音声情報を用いて音声認
識を行い、標準との差分情報を書き込む手段を持つこと
で、利用者の発声の変化に対応できる、利便性を高めた
情報処理装置1を提供することができる。
【0080】
【発明の効果】以上の説明から明らかなように本発明
は、入力音声を認識する認識手段と、認識時に参照する
標準音声情報を格納する情報格納手段と、利用者個人の
発声の特徴を示す差分情報を格納する差分情報格納手段
を有し、音声認識の際に、標準音声情報と差分情報から
認識手段により認識するように制御する制御手段を備え
ることにより、音声の中に含まれる個人の特徴を用いた
音声認識を行うことができるため、利用者の発声の特徴
を生かした音声認識率の高い情報処理装置を実現するも
のである。また、差分情報を着脱可能な記憶装置とする
ことにより、秘密保持の面でも優れた情報処理装置を提
供することができる。
は、入力音声を認識する認識手段と、認識時に参照する
標準音声情報を格納する情報格納手段と、利用者個人の
発声の特徴を示す差分情報を格納する差分情報格納手段
を有し、音声認識の際に、標準音声情報と差分情報から
認識手段により認識するように制御する制御手段を備え
ることにより、音声の中に含まれる個人の特徴を用いた
音声認識を行うことができるため、利用者の発声の特徴
を生かした音声認識率の高い情報処理装置を実現するも
のである。また、差分情報を着脱可能な記憶装置とする
ことにより、秘密保持の面でも優れた情報処理装置を提
供することができる。
【図1】本発明の第1の実施例の情報処理装置の構成を
示すブロック図
示すブロック図
【図2】本発明の第3,第4の実施例の情報処理装置の
構成を示すブロック図
構成を示すブロック図
【図3】本発明の第5,第6の実施例の情報処理装置の
構成を示すブロック図
構成を示すブロック図
【図4】従来の情報処理装置の構成を示すブロック図
1 情報処理装置 2 音声認識部 3 記憶媒体 4 入力手段 5 認識手段 6 情報格納手段 7 情報制御手段 10 差分情報格納手段
Claims (7)
- 【請求項1】音声を入力する入力手段と、前記入力手段
により入力された音声の内容を認識する認識手段と、前
記認識手段が音声認識の際に参照する音声情報が格納さ
れている情報格納手段と、前記情報格納手段に格納され
ている標準音声情報と各個人特有の音声情報との差分情
報を格納する差分情報格納手段とを具備し、前記入力手
段により入力された音声の内容を認識する際に、前記情
報格納手段に格納されている標準音声情報と前記差分情
報格納手段に格納されている差分情報とを参照して前記
認識手段により音声認識が行われるよう制御する制御手
段を有する情報処理装置。 - 【請求項2】差分情報格納手段が、着脱可能な記憶装置
である請求項1記載の情報処理装置。 - 【請求項3】入力手段の入力レベルを変更する入力利得
変更手段を有し、制御手段が、差分情報格納手段に格納
されている差分情報に応じて、前記入力レベルを所定レ
ベルに制御するようにした請求項1記載の情報処理装
置。 - 【請求項4】差分情報格納手段に格納されている差分情
報を変更する差分情報更新手段を有し、前記差分情報更
新手段が入力手段に入力された音声入力と情報格納手段
に格納されている標準音声情報から前記差分情報を更新
するようにした請求項1記載の情報処理装置。 - 【請求項5】入力手段の入力レベルを変更する入力利得
変更手段を有し、制御手段が差分情報格納手段に格納さ
れている差分情報に応じて前記入力レベルを所定レベル
に制御するようにした後、差分情報更新手段が前記入力
手段に入力された音声入力と情報格納手段に格納されて
いる標準音声情報から前記差分情報を更新するようにし
た請求項4記載の情報処理装置。 - 【請求項6】差分情報格納手段に格納されている差分情
報を変更する差分情報更新手段を有し、前記差分情報更
新手段が入力手段に入力された音声入力と情報格納手段
に格納されている標準音声情報から前記差分情報に加え
て各個人特有の誤り傾向情報を追加するようにした請求
項1記載の情報処理装置。 - 【請求項7】利用者へのメッセージを提示する出力手段
を有し、制御手段が前記出力手段に差分情報格納手段に
格納されている差分情報に応じてメッセージを提示する
ようにした請求項1記載の情報処理装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4059933A JPH05265482A (ja) | 1992-03-17 | 1992-03-17 | 情報処理装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4059933A JPH05265482A (ja) | 1992-03-17 | 1992-03-17 | 情報処理装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH05265482A true JPH05265482A (ja) | 1993-10-15 |
Family
ID=13127431
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4059933A Pending JPH05265482A (ja) | 1992-03-17 | 1992-03-17 | 情報処理装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH05265482A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2006106671A1 (ja) * | 2005-03-31 | 2006-10-12 | Pioneer Corporation | 画像処理装置、画像表示装置、受信装置、送信装置、通信システム、画像処理方法、画像処理プログラム、画像処理プログラムを記録した記録媒体 |
| JP2017097233A (ja) * | 2015-11-26 | 2017-06-01 | 日本電信電話株式会社 | 異常音検出装置、方法及びプログラム |
| WO2021040834A1 (en) * | 2019-08-29 | 2021-03-04 | Microsoft Technology Licensing, Llc | Automatic speech sensitivity adjustment feature |
-
1992
- 1992-03-17 JP JP4059933A patent/JPH05265482A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2006106671A1 (ja) * | 2005-03-31 | 2006-10-12 | Pioneer Corporation | 画像処理装置、画像表示装置、受信装置、送信装置、通信システム、画像処理方法、画像処理プログラム、画像処理プログラムを記録した記録媒体 |
| JP2017097233A (ja) * | 2015-11-26 | 2017-06-01 | 日本電信電話株式会社 | 異常音検出装置、方法及びプログラム |
| WO2021040834A1 (en) * | 2019-08-29 | 2021-03-04 | Microsoft Technology Licensing, Llc | Automatic speech sensitivity adjustment feature |
| US12106751B2 (en) | 2019-08-29 | 2024-10-01 | Microsoft Technology Licensing, Llc | Automatic speech sensitivity adjustment feature |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6671672B1 (en) | Voice authentication system having cognitive recall mechanism for password verification | |
| JP4672003B2 (ja) | 音声認証システム | |
| EP0686297B1 (en) | Voice command control and verification system and method | |
| US7447632B2 (en) | Voice authentication system | |
| US5946654A (en) | Speaker identification using unsupervised speech models | |
| US5893059A (en) | Speech recoginition methods and apparatus | |
| US7533023B2 (en) | Intermediary speech processor in network environments transforming customized speech parameters | |
| US5832063A (en) | Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases | |
| EP0789901B1 (en) | Speech recognition | |
| US6975986B2 (en) | Voice spelling in an audio-only interface | |
| US20020178004A1 (en) | Method and apparatus for voice recognition | |
| JP2007233412A (ja) | ユーザが定義したフレーズの話者に依存しない認識方法及びシステム | |
| JPH10507536A5 (ja) | ||
| JP2000194386A (ja) | 音声認識応答装置及び方法 | |
| JPH1173195A (ja) | 話者の申し出識別を認証する方法 | |
| US20040098259A1 (en) | Method for recognition verbal utterances by a non-mother tongue speaker in a speech processing system | |
| JP3703991B2 (ja) | 自由音声評点法を用いた動的音声認識の方法および装置 | |
| US20100063817A1 (en) | Acoustic model registration apparatus, talker recognition apparatus, acoustic model registration method and acoustic model registration processing program | |
| JP2004294755A (ja) | 話者認証装置及び話者認証プログラム | |
| JP2021064110A (ja) | 音声認証装置、音声認証システム、および音声認証方法 | |
| JPH1173196A (ja) | 話者の申し出識別を認証する方法 | |
| JPH05265482A (ja) | 情報処理装置 | |
| JP4244524B2 (ja) | 音声認証装置、音声認証方法、及びプログラム | |
| JPH09198085A (ja) | 電話をベースとする音声認識用時変特徴スペース処理手順 | |
| JP3919314B2 (ja) | 話者認識装置及びその方法 |