JPH05265482A

JPH05265482A - 情報処理装置

Info

Publication number: JPH05265482A
Application number: JP4059933A
Authority: JP
Inventors: Kazuo Fujimoto; 和生藤本
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1992-03-17
Filing date: 1992-03-17
Publication date: 1993-10-15

Abstract

(57)【要約】【目的】不特定話者を対象とした入力音声の音声認識
率の向上を目的とする。【構成】入力手段４からの音声入力を認識手段５で認
識する際に、情報格納手段６に格納されている標準音声
情報とこの情報格納手段６に格納されている標準音声情
報と各個人特有な音声機能との差分情報を格納する差分
情報格納手段１０の情報を用いて、不特定話者の音声認
識を行うため、各不特定話者の発声の特徴を生かした音
声認識となり高い認識率が要求されるサービスに有効な
音声認識装置を提供することができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、不特定話者を対象とし
た音声による入力指示を音声認識することによって、該
当サービスの適用を行う情報処理装置に関するものであ
る。

【０００２】

【従来の技術】近年、金融業界や、流通業界では、電話
回線等を用いた音声入力による音声認識装置が導入され
ている。これらの音声認識装置を用いて、銀行の預金の
残高照会や、各種宅配用のオーダーエントリー等のサー
ビスが利用者に提供されている。また最近では家電商品
や自動車内製品に音声認識装置が開発され、カーオーデ
ィオやビデオの予約、電話等に応用されている。

【０００３】以下に従来の音声認識機能を有する情報処
理装置について説明する。図４は従来の情報処理装置の
構成を示すものである。図４において、５１はここで説
明する情報処理装置である。構成要素として５４は入力
手段で、音声入力を含む入力を受け付ける。５５は認識
手段で、音声認識を行う。５６は情報格納手段で、音声
認識を行うために必要な標準の音声情報を格納する。５
８は出力手段で、音声入力を促進するメッセージや音声
認識結果等を出力する。

【０００４】以下にその構成要素のお互いの関連動作に
ついて説明する。まず利用者は、情報処理装置５１の出
力手段５８からの入力促進メッセージ（音声出力による
ガイダンスや、表示装置による案内表示）に従って音声
入力を行う。入力手段５４はこの音声入力を受け付ける
とともに、次の認識手段５５で認識処理を行うために必
要な処理を行う。

【０００５】まず入力されたアナログ信号をデジタル信
号に変換する。通常サンプリング周波数として、８から
１０ｋHzが用いられ、また各々サンプリング時間毎に、
８から１６ビットの値で量子化される。認識手段５５
は、入力信号と情報格納手段５６の中の音声情報とパタ
ーンマッチング（以下マッチングと略す）することによ
って、ある一定の閾値以上で最も似ている情報を選び出
す。そして発声された単語としてマッチングした音声認
識結果を返す。音声認識結果から次に要求する入力候補
内容を決定したり、出力手段５８から出力する内容を決
定する。

【０００６】この情報処理装置５１を電話機に応用した
場合、市外局番号を入力するためには、１０桁程度の数
字の発声が必要である。少なくとも０（「ぜろ」と発
音）から９（「きゅう」と発音）までの数字を順に発声
し、その内容を認識して、ダイヤルパルスやトーン信号
に変換し、電話をかけるものである。その認識結果は、
電話機に付属の出力手段５８の表示装置や、音声出力装
置を用いて、認識された結果を利用者が認識することが
できる（特開昭６３−３３７９６等）。電話番号以外に
も、暗証番号の入力についても同様である。

【０００７】１０桁の数字を音声入力する時間を少しで
も短縮するためには、１つの数字を発声し、認識を行っ
て結果を表示すると同時に、次の入力を待つように構成
される。認識が行われた場合は、該当数字情報に変換さ
れて次の入力を待つ。発声が小さかった場合等で認識が
できなかった場合は、言い直しを要求して、次の入力を
待つ構成となっていた。音声入力に慣れてくると表示装
置などの情報を見なくても入力ができるようになる。従
って視線を電話帳の該当数字列から外すことなく、順に
発声していくことにより電話番号入力を行うことが可能
となる。入力結果は、全ての発声完了後に確認すればよ
く、１個１個の入力毎に表示装置等を見る必要はない。

【０００８】公衆電話機のように、誰もが利用する機器
において音声認識を行うためにはいくつかの条件が必要
である。その条件の１つに、利用者の音声登録作業を伴
わずとも、誰の音声でも音声認識できなければならない
ことがある。なぜなら機器毎に発声語彙が異なるような
場合、毎回音声を登録する必要があり、該当機器の普及
を阻害する大きな要因に成りかねないからである。また
利用者の発声の仕方や、機器の設置環境で同一人でも発
声の仕方は変化する。さらに発声量や発声周波数は個人
差が大きい。そこで、利用者を特定すること無しに、誰
の声でも音声認識するものを不特定話者認識と定義す
る。

【０００９】不特定話者認識では、音声認識を行う標準
音声情報を作成するために、複数の人（数人から数百人
程度）に予め定められた語彙等を発声してもらい、その
音声を収録し統計的処理を行う。そして音声認識を行う
ために適した情報を抽出し、その情報を標準音声情報と
して情報格納手段５６に格納する。情報格納手段５６に
格納された標準音声情報と、入力手段５４からの音声入
力とマッチングすることによって、発声語彙を音声認識
する。不特定話者の音声認識率を向上させるためには、
より多くのかつ異なった（性別、年齢、住所）発声を収
録し、音声情報処理を行うことが必要である。

【００１０】ここで認識率を次のように定義する。音声
認識可能な閾値の範囲内で入力された音声を指定された
語群のなかからマッチングし、入力指定した語彙と同じ
語彙を指す情報が認識結果として得られた確率とする。
従って入力手段５４が故障していたり、入力音声が音声
認識を行うには小さすぎたりしたマッチングできないも
のを除く。あくまで誤ったマッチングを行わなかった確
率とする。

【００１１】不特定話者認識では、認識率が９５パーセ
ント程度であり、必ずしも全ての人の発声を認識できる
わけではない。これは音声情報処理は統計処理であり、
収録音声の平均と分散をとり、標準偏差等の値を利用し
て、ある一定範囲の音声情報を利用するからである。音
声認識の高速演算を可能とするために、情報量を制約す
るという条件がある。従って認識率１００パーセントを
達成する情報量を持つことは難しい。研究レベルでは、
音声認識のマッチングを行うための演算時間は、あまり
関係がないが、実用化レベルでは、発声終了後数十秒以
上かかるものは使用できない。発声終了後、長くても数
秒以内に認識結果を出力しなければ、利用者に不便さを
感じさせる原因と成りかねない。

【００１２】しかしながら不特定話者認識は、利用者が
発声するだけで認識可能であるので、家電製品への応用
が検討されている。ビデオ機器の音声予約リモコン等が
実用化されている。この音声予約リモコンの音声信号処
理の主な構成要素としては、音声合成用のＬＳＩと、Ａ
／Ｄ変換を行うためのＩＣ、音声認識用の高速演算を行
うＤＳＰ（デジタル信号処理プロセサ）、標準音声情報
を格納したメモリのＲＯＭがおさめられている。この機
器の場合、発声終了後１秒以内に認識結果を出力する。

【００１３】例えば音声予約リモコンでは、合成音声に
よるガイダンス出力に応じて、該当チャンネル番号、予
約曜日、予約開始時間と終了時間の指定を音声によって
行う。音声認識結果は、出力手段５８であるＬＣＤ表示
装置に出力され、発声内容と合っていれば、確定用のボ
タンスイッチを押し、誤っていればもう一度（正しく認
識されるまで）発声を行うものである。

【００１４】一方発声者を特定の個人に限定し、発声者
個人が操作したい音声を情報格納手段５６に登録するこ
とによって、登録された内容と、自分の発声とを比較す
る音声認識方法もある。これを特定話者認識と定義す
る。特定話者認識では、多くの人の発声情報を集めなく
ても、音声認識が可能である。しかしながら、必ず最初
に自分で何回か発声し、声を登録するという作業が必要
である。また登録者以外では、その機器を使用すること
ができない問題点がある。従って特定話者認識は、予め
利用者が限定されている分野である自動車用のカーオー
ディオ、自動車電話等で応用が検討されている。

【００１５】一般に同一人の同一発声語彙による特定話
者認識の認識率は、不特定話者認識での同一発声語彙の
認識率に比べて高い。これは特定話者認識の方が、より
発声の特徴を生かした認識を行うことができる。従っ
て、発声者個人の特徴あるパラメータのみを演算するこ
とが可能であるため、演算量も不特定話者の時に比べて
少ない場合が多い。

【００１６】

【発明が解決しようとする課題】しかしながら従来の構
成では、利用者を限定しない機器（公衆電話機、券売
機、レンタル機器等）に音声認識を適用した場合（不特
定話者認識）、音声認識率には限界があり、標準音声と
はかなり異なる特定の人の発声内容は認識できない（誤
認識する）という問題点があった。

【００１７】一方特定話者認識技術を用いるためには、
音声登録作業を行わなければならないため、前記の利用
者を限定しない機器には適用が行いにくいという問題点
も有していた。

【００１８】本発明は上記課題に留意し、不特定話者の
音声認識率を高めた情報処理装置を提供することを目的
とする。

【００１９】

【課題を解決するための手段】この目的を達成するため
に本発明の情報処理装置は、音声入力を受け付ける入力
手段と、音声認識する認識手段と、音声認識時に参照す
る情報格納手段と、この情報格納手段に格納されている
情報との差分情報を格納する差分情報格納手段とを有
し、情報格納手段と差分情報格納手段に格納されている
情報を用いて、音声認識を行う制御手段を有するもので
ある。

【００２０】

【作用】上記構成の本発明の情報処理装置は、差分情報
格納手段により各個人に固有な差分情報内容を記憶媒体
に格納し、音声認識を行う際に、制御手段により情報格
納手段の標準音声情報と、この差分情報格納手段の差分
情報を参照しながら不特定話者認識を行うことで、高い
認識率が要求されるサービスに有効な装置を提供するこ
とができる。

【００２１】

【実施例】

（実施例１）以下本発明の一実施例について、図面を参
照しながら説明する。図１は、本発明の第１の実施例に
おける情報処理装置の構成図を示すものである。図１に
示すように構成要素として１はここで説明する情報処理
装置、２は音声情報処理を行う音声認識部である。４は
入力手段で、音声を含む入力を受け付ける。６は情報格
納手段で、音声認識語彙情報等を格納する。５は認識手
段で、入力手段４から入力された音声信号を、情報格納
手段６の情報を参照して音声認識作業を行う。７は情報
制御手段で、情報格納手段６に格納されている情報以外
の情報を制御するものである。１０は情報格納手段６に
格納されている情報との差分情報を格納する差分情報格
納手段で、３は差分情報格納手段１０を有する記憶装置
としての記憶媒体である。

【００２２】前記のように構成された情報処理装置１に
ついて、その構成要素のお互いの関連動作を説明する。
前提として記憶媒体３は音声認識部２と着脱可能な形態
で、携帯可能な媒体で構成した例について説明する。着
脱可能でない記憶媒体３の実施例については、実施例２
で説明する。

【００２３】まず利用者が記憶媒体３を情報処理装置１
に挿入する。情報処理装置１は記憶媒体３が挿入された
ことを検知し、音声認識部２と結合させる。次に情報制
御手段７が、結合された記憶媒体３が利用可能な媒体か
否かを判定する。利用可能と判定すれば、記憶媒体３内
の差分情報を差分情報格納手段１０から獲得する。

【００２４】次に出力手段（図示せず）から、利用者に
対しサービスを開始するために必要な情報の入力を促進
するメッセージ等を出力する。例えば、現金引き出しサ
ービス等のサービスを受けたい場合、適用サービス名を
入力してください等を表示装置または、音声出力装置か
ら出力する。利用者は、出力されたメッセージを頼り
に、音声を用いて入力を行う。

【００２５】入力手段４から入力されたサービス名や、
暗証番号等の入力音声は、情報格納手段６内に格納され
ている標準の音声情報と情報制御手段７に獲得された差
分情報を元にマッチングされることによって、音声認識
が行われる。音声認識を行い、該当情報を音声信号から
適当な数字や文字情報等の情報に変換して、各種の情報
処理を行う。出力手段は、表示装置や音声出力装置を単
独または組み合わせて構成し、入力依頼を出力するだけ
でなく、各種のサービスを適用するときにも用いられ
る。

【００２６】マッチングされる音声情報は次のようにし
て格納されている。音声認識可能な語彙は、利用種別ご
とに、群というグループに分割されて格納されている。
例えば、第１群はサービス適用名（例えば、預け入れ、
引き出し、残高、クレジット等）であり、第２群は暗証
番号等の入力（「ぜろ」から「きゅう」）に用いる数字
であり、第３群はサービス確定指示用の語彙（取り消
し、訂正、確定、確認等）等で構成する。

【００２７】利用目的に応じて語彙情報をグループ化す
ることにより、指定されたグループ内で最も発声された
音声情報と近いものを探し出す作業を行う。もちろん各
情報は、マッチングを短時間で行いやすい情報に符号化
されている。またこのマッチングに、閾値というものを
設け、ある値以上でないと、マッチング語彙がないとい
う音声認識結果を出力する閾値判定手段を認識手段５内
に有する。

【００２８】入力音声は、特定の入力レベルの閾値を越
えたところで、語彙情報を持つ発声の開始を検知し、閾
値を下回った時に発声の終了を確認する。この発声の区
間中の入力音声を、数ｋHz（８ｋHzから１０ｋHz程度）
でサンプリングし、各サンプリング時間毎に、８ビット
から１２ビット程度で、量子化することによってデジタ
ル化する。

【００２９】音声認識は例えば、このデジタル値を用い
て、ＬＰＣケプストラム係数を求め、これを特徴パラメ
ータとして、標準の語彙のもつそのパラメータ量と比較
することにより、最も近いものをその群番号で与えられ
た語彙の中から見つけだす。これを発声の区間中を通じ
てマッチングし、最終的に最も近いものを発声語彙とし
て認識するものである。ＬＰＣケプストラム係数以外に
も種々の方法があるが、前記のサンプリングによって得
られたデジタル値を、各種の信号処理を施して特徴パラ
メータを抽出し、マッチングを行う方法が一般的であ
る。

【００３０】情報格納手段６には、数人から数百人程度
の発声から統計的処理を施され、特徴パラメータである
ＬＰＣケプストラム係数や、音声パワー値（特定の周波
数帯の音声レベル等）、発声時間、マッチング探索係数
等が格納されている。しかしながら従来例の中で説明し
た通り、演算処理性能等の制約により、平均や分散、標
準偏差等から求められる値を使用しているため、くせの
ある（標準からはかけ離れた）発声語彙の認識を正確に
行うことは難しい。

【００３１】そこで記憶媒体３内の差分情報格納手段１
０に、平均情報から、利用者の発声情報が異なる差分情
報を格納しておき、各特徴パラメータの標準情報から差
分情報を差し引いて認識処理を行う。これにより個人特
有の情報が反映されて、認識率が向上する。

【００３２】標準音声情報との差分情報のみ記憶媒体３
に保有すれば良いため、音声認識に必要な全ての音声情
報を保有する必要がない。また音声認識部２の情報格納
手段６には、あくまで標準用の音声情報のみを保有する
だけでよい。差分による補正分を差し引けば十分な認識
率をあげることができる。従って標準音声情報を集める
際においても、以前より少ない人数の音声情報で、標準
用の音声情報を作成しやすくなる利点もある。

【００３３】音声認識には、認識単位として代表的なも
のに音素認識、単語認識、文認識がある。音素認識と
は、主として子音、母音を単位とした音声認識を行うも
のである。単語認識は、１つの単語（長くても数秒程
度）単位で音声認識を行うものである。文認識は、複数
の単語からなる文節単位、文単位で文法等を意識して音
声認識を行うものである。

【００３４】音声認識を音素単位で行う音素認識に対し
ては、各音素情報毎に標準音声情報を作成すると共に、
差分情報を作成する。この場合の差分情報は、各音素に
対しての値になる。一方単語単位で行う単語認識に対し
ては、各単語情報毎に標準音声情報を作成し、また差分
情報も各単語の発声に対しての情報となる。もしくは単
語を構成する音素情報を用いて単語認識を行うこともで
きる。記憶媒体３には音素に対する差分情報を、情報格
納手段６には音素単位の音声標準情報と、音素を組み合
わせた語彙情報で構成する。文単位は、複数の単語認識
の組み合わせになる。

【００３５】標準音声情報との差分情報の登録は、次の
ようにして行う。利用者に音素情報を含む適用語彙を発
声してもらい、これを例えばサービス適用会社等が、利
用者の発声内容をＤＡＴ（デジタルオーディオテープ）
等の高性能な録音装置に収録する。このＤＡＴテープを
サービス適用会社等が、音声処理し差分情報を求めて、
記憶媒体３の差分情報格納手段１０に書き込む。また電
話等を利用してもよい構成とする。現状の電話で利用で
きる音声帯域は数十Hzから３．４ｋHz程度であるが、こ
の程度の帯域の情報でも、音声認識は可能な情報を含ん
でいる。しかし各種のノイズ成分も多く含んでいるた
め、補正処理を行っても、あまり高音質な声の収集は期
待できない。ＩＳＤＮ（サービス総合デジタル網）を利
用したデジタル電話等が普及すれば、伝送できる情報量
が飛躍的に増大し、広い帯域を使用できるため、家庭内
電話からの高音質の声の収集も可能になる。また家庭内
の録音機を用いて声を収集する方法も有効である。

【００３６】着脱可能な記憶媒体３は、次のような媒体
で構成される。磁気カード、光カード、ＩＣメモリカー
ド、ＩＣカードのようなカード状の記憶媒体３、ＣＤ−
ＲＯＭ、光磁気ディスクのような円盤状の記憶媒体３が
ある。例えば、磁気カードや、光カード、ＣＤ−ＲＯＭ
等の格納手段しか有しない記憶媒体３においては、差分
情報格納手段１０の内容を、情報制御手段７の中に有す
るメモリに読み込み、認識手段５が参照する構成とす
る。また前記のような非接触型の記憶媒体３も存在す
る。電磁誘導や電波、光等を介した通信形態をとって、
これらに記憶された差分情報格納手段１０内の情報を獲
得する。

【００３７】一方ＩＣメモリカード、ＩＣカードのよう
に格納手段以外に音声認識部２がメモリ手段として使用
できる記憶媒体３もある。このような場合、情報制御手
段７は、記憶媒体３との通信機能を有し、差分情報格納
手段１０のメモリ手段を使用して音声認識を行うように
構成することもできる。

【００３８】差分情報の例としては以下の項目がある。
例えば、音声区間が短めであるという差分情報が格納さ
れている場合がある。このような例は、各サンプリング
時間での標準値との差情報、発声区間の長短情報、全体
及び部分的な発声パワー量の大小情報、語頭、語尾の発
声の強弱の特徴情報、声の高低情報、各サンプリング値
とのマッチングするときの時間設定の設定パス情報等が
ある。これらの情報を差分情報の中から獲得して、利用
者の特徴を知った上で音声認識を行うことによって、音
声認識率を上昇させるものである。

【００３９】差分情報を用いた計算方法は、以下の例が
ある。例えば標準値から離れている差分値分を、入力音
声から差し引いて、標準値とマッチングする方法、標準
値による演算の制限を差分値によって変更する方法（閾
値の変更）、標準値を差分値入力により予め補正してお
き、補正した標準値と入力音声をマッチングする方法、
標準音声情報でマッチングした後で、差分情報を用いて
さらにマッチングする方法等がある。

【００４０】また認識率とは、従来例の中の定義通り、
閾値内の入力に対して音声認識処理を行った中で、正し
い語彙を選択する確率である。発声が小さすぎる等で、
閾値以外の入力に対しては、認識率の対象にはなってい
ない。しかし利用者から見れば、入力が小さすぎる等で
認識できなかった時も、認識誤りが発生したと考えられ
やすい。従って発声したうちで（声が小さくても）、正
しい認識結果が得られる確率という広義な意味の認識率
を上昇させる必要もある。

【００４１】記憶媒体３の使用を開始するに当たって
は、情報制御手段７の記憶媒体３の正当性を確認する必
要がある。磁気カード等の記憶媒体３では、その記憶媒
体３に格納されている差分情報以外に誤り検出、誤り訂
正等の検査情報と登録番号情報を格納し、その各情報を
情報制御手段７が読みだして、差分情報と検査情報等の
各情報の関連性を確認し、正当性を確認する。必要に応
じて各情報を暗号化する手段を用いて、各情報を格納す
る構成としても良い。

【００４２】一方記憶媒体３をＩＣカードで構成した場
合には、ＩＣカードの機能（暗証番号等の該当パスワー
ドが照合されない限り内部は参照できない）を利用する
正当性確認手段とする。ＩＣカードの場合は、利用者の
正当性を暗証番号等の入力により行うことが可能である
が、同様にして音声認識部２の正当性を確認することも
可能である。ＩＣカード内に利用可能な音声認識部２及
び情報処理装置１の型番情報を保有し、許された型番情
報を得た時のみ利用可能とすることもできる。

【００４３】さらにＩＣカード側の正当性を確認するた
めに、ＩＣカードに必要情報を与え、その情報によって
演算を行い、その結果を情報制御手段７に返す構成とす
る。一方情報制御手段７側でも演算を行って、ＩＣカー
ド側から得られた情報と比較を行うことにより、ＩＣカ
ードの正当性を確認することができる。このＩＣカード
に与える情報、演算手段はその都度変更する構成をとれ
ば、不正使用が行いにくい構成となり、高セキュリティ
が要求される用途においても、有効な手段となりうる。

【００４４】利用内容にもよるが、特にセキュリティの
必要性を伴わない内容に関しては、この差分情報の利用
にあたって、格納されている情報が内容を他人に複写さ
れても、利用者個人の声の情報であるから、他人にはあ
まり価値がないものである。一般的に使用するものにお
いては、この差分情報はあくまで利用者の便宜をはかる
目的を達成するものである。また差分情報は、その利用
者のみに有効なものであるため、その記憶媒体３が正し
いものかだけを判定する機能を持てば良い。しかし高セ
キュリティを要するサービスに関するものはこの限りで
はない。

【００４５】周囲雑音等の情報が混在して発声の区間を
誤った場合は、正しく音声認識が行われない可能性があ
る。そのために入力手段４は、周囲雑音レベルを定期的
に獲得し、入力レベルの補正を行う機能を有し、また利
用者に対して、少し大きめの声で発声を希望する等の旨
を表示手段や拡声手段等による出力手段（図示せず）に
より出力する。逆に前回発声が大きすぎて、適した語彙
とマッチングできず該当語彙が選択できなかった場合
は、入力レベルの利得を調節し、少し小さな声での発声
を希望する旨の出力を行う。連続して複数の語彙の発声
を行うような場合では、上記のような利得の調整は有効
である。

【００４６】適用サービスの内容によって、発声語彙は
メニューの中から選択させる形をとるか、入力促進メッ
セージだけを示して選択語彙を表示しない形をとるかが
決められる。また認識語彙は情報格納手段６という形
で、認識手段５とは分離した構成をとっているので、情
報格納手段６を各種メモリで構成することができる。い
ろいろな語彙を納めたメモリを構成することにより、用
途に応じた語彙情報を選択して用いることによって、多
種多様な情報処理装置１を提供することができる。

【００４７】さらに使用形態によっては、少人数（家族
等）の音声の差分情報をとり、家庭内で用いる情報処理
装置の音声認識に適用することもできる。この記憶媒体
３に格納する音声情報は、個人とは限らず、ある特定の
グループであっても良い。このような場合、複数の人の
差分情報格納手段１０を、人数分だけ用意する構成をと
る場合、複数の人を平均し、総合した差分情報格納手段
１０とする構成がある。後者は、前者に比べて認識率が
低くなる傾向が予想されるが、家族等の場合には、互い
に発声の仕方、抑揚が似ている点があるため、この特徴
を差分情報に取り入れた音声認識を行う情報処理装置１
を構成することができる。

【００４８】本発明は、音声入力を用い、音声の中に含
まれる個人の特徴を取り入れた不特定話者音声認識を行
うことで、利用者を限定しない機器でも高い認識率を得
られるため、各種情報機器、家電製品など幅広い機器の
音声認識に有効な装置を提供することができる。

【００４９】（実施例２）以下本発明の第２の実施例に
ついて説明する。構成は第１の実施例と同一であるが、
記憶媒体３が着脱可能でなく、固定である例について説
明する。固定の手段には情報処理装置１にはじめから固
定してある場合と、利用者が目的に応じて装着した後
は、解体修理でもしない限り、取り外しが行われないよ
うな固定の仕方をする場合の２例について説明する。

【００５０】まず第１の最初から固定されている場合に
ついて説明する。情報格納手段６をＩＣメモリカード等
の記憶手段で実現する。次にサービス提供者が利用者の
音声情報を収録し、差分情報を記憶媒体３に格納する。
この両方の情報を納めた媒体をサービス提供者が、利用
者に送り、利用者がその媒体をもっている人に限り情報
処理装置１の利用が行えるような構成とすることができ
る。

【００５１】この時の音声情報は、単語情報に限らず、
子音や母音の音素の差分情報を格納すれば、標準音声情
報にどのような単語情報があろうと、それらの単語に含
まれる子音、母音の音素情報に照らし合わせることによ
って有効な音声認識を行うことができる。もちろん標準
音声情報に音素情報を用い、各音素情報との直接の差分
情報を持つように構成しても良い。

【００５２】標準用の音声情報も、サービスの種別がか
われば、利用発声語彙も異なるので、異なった標準音声
情報を用意する必要がある。しかしながら差分情報は、
サービスの種類が異なっても変更しなくてもよいものを
構成できる。ここでの例は音声情報を含む媒体とその他
に部分が分離されている場合について説明した。しかし
これは製造、販売会社内での形態で、実際利用者にわた
る場合では、情報処理装置１にはじめから記憶媒体３の
固定する構成とする。利用者の手に渡る段階では、音声
を登録せずとも、個人の特徴を反映した音声認識を行う
情報処理装置１を構成することができる。

【００５３】次に第２の利用者が記憶媒体３に固定する
例について説明する。従来例の中で説明した家電製品等
で不特定話者認識を行うような機器を想定する。通常の
場合は、はじめから準備されている標準用の音声情報で
認識可能である。しかし声帯に損傷がある人や、老人で
歯がしっかりしていないため、音声認識が行いにくい特
定の人に対しても、障害がない人と同様なサービスを提
供できれば好ましい。

【００５４】このような場合、本体機器のオプションと
して、その人の差分情報を格納した記憶媒体３を取り付
けることにより、平均的な発声をする人と同様のサービ
スの提供できる情報処理装置を構成することができる。

【００５５】サービスが異なり発声語彙が異なるような
情報処理装置にも、音声認識装置の記憶媒体３を複数個
用意し、基本情報となる差分情報格納手段１０の内容を
複写して各装置に取り付ける。取り付けたどの装置でも
音声認識が利用できるため、各装置毎に音声を登録する
特定話者音声認識装置に比べて、使い勝手はかなり良
い。

【００５６】特定話者認識を用いる場合は、登録作業を
伴うという不都合な点もあるが、家族等の複数の人数の
音声認識には向かないので、あくまで利用者一人に対す
るサービスとなり、誰もが使用できる機器に採用しよう
とすると、割高になる。従って本発明の構成をとれば、
複数の人の音声情報に答えられるため、家族単位で購入
するような情報処理装置として使用することができる。

【００５７】以上のように本実施例によれば、差分情報
を含む記憶媒体３を固定した構成としても、不特定話者
音声認識の特徴を損なうことなく、利用者に便利でかつ
認識率が高い情報処理装置を提供することができる。

【００５８】（実施例３）以下本発明の第３の実施例に
ついて、図面を参照しながら説明する。図２は、第３の
実施例における情報処理装置の構成を示すものである。
図２に示すように構成要素として、音声認識部２、記憶
媒体３、入力手段４、認識手段５、情報格納手段６、情
報制御手段７、差分情報格納手段１０は第１の実施例と
同一である。８は出力手段である。

【００５９】以上のように構成された情報処理装置１に
ついて、その構成要素のお互いの関連動作を説明する。
まず利用者が記憶媒体３を情報処理装置１に挿入する。
情報処理装置１は記憶媒体３が挿入されたことを検知
し、情報制御手段７が、結合された記憶媒体３が利用可
能な媒体か否かを判定する。利用可能と判定すれば、記
憶媒体３内の差分情報を差分情報格納手段１０から獲得
する。

【００６０】次に出力手段８から、利用者に対しサービ
スを開始するために必要な情報の入力を促進するメッセ
ージ等を出力する。利用者は、メッセージ出力内容を頼
りにして、音声を用いて入力を行う。入力手段４から入
力された音声は、情報格納手段６内に格納されている音
声情報と、情報制御手段７に獲得された差分情報を元に
マッチングされて、音声認識が行われる。音声認識を行
い、該当情報を音声信号から適当な数字や文字情報等の
情報に変換して、各種の情報処理を行う。出力手段８
は、表示装置や音声出力装置を単独または組み合わせて
構成し、入力依頼を出力するだけでなく、各種のサービ
スを適用するときにも用いられる。

【００６１】この情報制御手段７は、差分情報を獲得し
たときに、その獲得した情報に従って、利用者に対して
メッセージを出力する。例えば、音声区間が短めである
という差分情報が格納されている場合、「ゆっくりと発
声してください」等のメッセージを出力する。このよう
な例は、発声区間の長短、発声パワー量の大小、語頭、
語尾の発声の強弱の特徴、声の高低等がある。

【００６２】これらの情報を差分情報の中から獲得し、
利用者へのコメントメッセージとして出力手段８から出
力することによって、利用者が意識して発声すれば、標
準音声との差を少しでも少なくすることができ、音声認
識率の向上をはかることができる。差分情報は、標準値
との差を示すものであるが、差分値で補正した値よりも
少しでも標準値に近い発声を行う付加情報として用いる
ことで、誤る確率を少しでも低下させる効果をもつ。

【００６３】（実施例４）以下本発明の第４の実施例に
ついて、図面を参照しながら説明する。図２は、第４の
実施例における情報処理装置の構成を示すものである。
図２に示すように構成要素として、音声認識部２、記憶
媒体３、認識手段５、情報格納手段６、情報制御手段
７、差分情報格納手段１０は第１の実施例と同一であ
る。８は出力手段である。また４は入力手段であるが、
入力手段４内に、入力利得変更手段（図示せず）を有す
る。

【００６４】以上のように構成された情報処理装置１に
ついて、その構成要素のお互いの関連動作を説明する。
情報制御手段７が、記憶媒体３が利用可能な媒体か否か
を判定し、利用可能と判定すれば、記憶媒体３内の差分
情報を差分情報格納手段１０から獲得する。

【００６５】次に出力手段８から、利用者に対しサービ
スを開始するために必要な情報の入力を促進するメッセ
ージ等を出力する。入力手段４から入力されたサービス
名や、暗証番号等の入力音声は、情報格納手段６内に格
納されている音声情報と情報制御手段７に獲得された差
分情報を元にマッチングされて、音声認識が行われる。
音声認識を行い、該当情報を音声信号から適当な数字や
文字情報等の情報に変換して、各種の情報処理を行う。

【００６６】この情報制御手段７は、差分情報を獲得し
たときに、その獲得した情報に従って、入力利得を変更
する要求を入力利得変更手段に発する。例えば、音声パ
ワー量が少ないという差分情報が格納されている場合、
音声入力利得を上げて、入力感度を良くする。このよう
な例は、発声区間の長短、発声パワー量の大小、語頭、
語尾の発声の強弱等がある。これらの情報を差分情報の
中から獲得し、利用者の音声入力に適した入力手段４と
するために、音声入力利得の調節を行うことによって、
標準音声との差を少しでも少なくすることができ、音声
認識率の向上をはかることができる。差分情報は、標準
値との差を示すものであるが、差分値で補正した値より
も少しでも標準値に近い発声を行う付加情報として用い
ることで、第３の実施例と同様に誤る確率を少しでも低
下させる効果をもつ。

【００６７】もちろん第３の実施例で説明したように、
出力手段８から、差分情報を用いた情報を出力する手段
を有し、出力手段８と、入力利得変更手段の両方を有す
れば、認識率はさらに上昇する。

【００６８】（実施例５）以下本発明の第５の実施例に
ついて、図面を参照しながら説明する。図３は、第５の
実施例における情報処理装置の構成を示すものである。
図３に示すように構成要素として、音声認識部２、記憶
媒体３、入力手段４、認識手段５、情報格納手段６、情
報制御手段７、差分情報格納手段１０は第１の実施例と
同一である。８は出力手段で、９は差分情報更新手段で
ある。

【００６９】以上のように構成された情報処理装置１に
ついて、その構成要素のお互いの関連動作を説明する。
情報制御手段７が、記憶媒体３が利用可能な媒体か否か
を判定し、利用可能と判定すれば、記憶媒体３内の差分
情報を差分情報格納手段１０から獲得する。

【００７０】次に出力手段８から、利用者に対しサービ
スを開始するために必要な情報の入力を促進するメッセ
ージ等を出力する。入力手段４から入力されたサービス
名や、暗証番号等の入力音声は、情報格納手段６内に格
納されている音声情報と情報制御手段７に獲得された差
分情報を元にマッチングされて、音声認識が行われる。
音声認識を行い、該当情報を音声信号から適当な数字や
文字情報等の情報に変換して、各種の情報処理を行う。

【００７１】この情報制御手段７は、差分情報を獲得し
たときに、その獲得した情報に従って、第３の実施例と
同様に出力手段８に該当情報を出力する。さらにこの出
力処理を行い、音声認識を行った結果、標準音声情報と
の差分情報を差分情報更新手段９が、差分情報格納手段
１０に書き込む。

【００７２】このように構成すると下記のような利点が
ある。記憶媒体３を新規に発行した場合、用途によって
は差分情報格納手段１０に利用者個人の差分情報が格納
されていない場合がある。また新しい語彙に対応した差
分情報が新たに必要な場合もある。このような場合、最
初は情報格納手段６内にある標準音声情報を用いて音声
認識を行う。そしてその時の標準値との差分情報を差分
情報更新手段９が、差分情報格納手段１０に書き込む。
次からは、この書き込まれた差分情報を元に、情報格納
手段６と差分情報格納手段１０の両方の情報を用いて、
音声認識を行うことができる。従って、最初１回目に個
人の特徴をつかみきれずに音声認識を誤ったとしても、
次からは個人の特徴を取り入れた音声認識を行うことが
できる。

【００７３】また利用者が、長い間記憶媒体３を用いな
い場合もある。住所環境がかわったり、病気等で発声の
仕方が以前とかわる場合もある。このような場合におい
ても、最初は以前の差分情報を用いて音声認識し、音声
認識を行った差分情報を書き込む構成にすることによっ
て、より利用者の発声を確実にとらえる情報処理装置１
を構成することができる。

【００７４】用途によって同じ語彙情報でも、早く発声
したり、ゆっくり発声したりすることもある。例えば０
（ぜろ）から９（きゅう）までの音声数字情報を対象に
した場合、メニュー形式の数字選択のような場合には、
１つの数字をゆっくり発声するが、電話番号のように複
数桁の数字情報を発声する場合には、各数字を短く、ま
た続けて発声する傾向がある。従って用途に応じて同じ
語彙の差分情報を複数持ったり、その都度差分情報を書
き換える機能をもてば、さらに音声認識率は上がり、利
用者の便宜も向上する。

【００７５】さらに第４の実施例と同様に入力利得変更
手段を有する構成をとり、差分情報として、例えば全体
に発声レベルが小さい傾向がある等の情報を用いて、入
力手段４の入力利得レベルを上げるとともに、出力手段
８に、大きめの声で発声することを希望する旨のメッセ
ージ等を出力する構成とすることができる。

【００７６】また記憶媒体３に音声認識の結果情報を格
納する構成としてもよい。セキュリティが要求されるよ
うな用途に応じては次のような処理も可能となる。何度
も誤った入力が繰り返されている場合は、不正に使用さ
れている場合や、適用不可能なサービスが選択されてい
る場合と想定できるので、サービスの中止や、パターン
マッチングの閾値をさらに厳しくする等の処理を行う必
要がある。

【００７７】音声認識誤りが頻発して、標準音声情報と
かけ離れている発声が繰り返された場合には、音声認識
の結果を格納した、過去の結果情報を参照し、記憶媒体
３を用いた情報処理装置１を用いたサービスを中止する
機能を有する。

【００７８】またあまりセキュリティを要求しないよう
な用途に関しては、前述の結果情報として音声認識の誤
り訂正傾向を記憶しておき、補正するような構成とする
こともできる。例えば７（しち）の発声が１（いち）に
近いために、良く１（いち）に誤る場合には、この誤り
傾向情報を取り込み、その傾向情報から自動的に７（し
ち）を選択するように構成することができる。

【００７９】従って本実施例では、音声入力された音声
情報と情報格納手段６内の標準音声情報を用いて音声認
識を行い、標準との差分情報を書き込む手段を持つこと
で、利用者の発声の変化に対応できる、利便性を高めた
情報処理装置１を提供することができる。

【００８０】

【発明の効果】以上の説明から明らかなように本発明
は、入力音声を認識する認識手段と、認識時に参照する
標準音声情報を格納する情報格納手段と、利用者個人の
発声の特徴を示す差分情報を格納する差分情報格納手段
を有し、音声認識の際に、標準音声情報と差分情報から
認識手段により認識するように制御する制御手段を備え
ることにより、音声の中に含まれる個人の特徴を用いた
音声認識を行うことができるため、利用者の発声の特徴
を生かした音声認識率の高い情報処理装置を実現するも
のである。また、差分情報を着脱可能な記憶装置とする
ことにより、秘密保持の面でも優れた情報処理装置を提
供することができる。

【図面の簡単な説明】

【図１】本発明の第１の実施例の情報処理装置の構成を
示すブロック図

【図２】本発明の第３，第４の実施例の情報処理装置の
構成を示すブロック図

【図３】本発明の第５，第６の実施例の情報処理装置の
構成を示すブロック図

【図４】従来の情報処理装置の構成を示すブロック図

【符号の説明】

１情報処理装置２音声認識部３記憶媒体４入力手段５認識手段６情報格納手段７情報制御手段１０差分情報格納手段

Claims

【特許請求の範囲】

【請求項１】音声を入力する入力手段と、前記入力手段
により入力された音声の内容を認識する認識手段と、前
記認識手段が音声認識の際に参照する音声情報が格納さ
れている情報格納手段と、前記情報格納手段に格納され
ている標準音声情報と各個人特有の音声情報との差分情
報を格納する差分情報格納手段とを具備し、前記入力手
段により入力された音声の内容を認識する際に、前記情
報格納手段に格納されている標準音声情報と前記差分情
報格納手段に格納されている差分情報とを参照して前記
認識手段により音声認識が行われるよう制御する制御手
段を有する情報処理装置。
【請求項２】差分情報格納手段が、着脱可能な記憶装置
である請求項１記載の情報処理装置。
【請求項３】入力手段の入力レベルを変更する入力利得
変更手段を有し、制御手段が、差分情報格納手段に格納
されている差分情報に応じて、前記入力レベルを所定レ
ベルに制御するようにした請求項１記載の情報処理装
置。
【請求項４】差分情報格納手段に格納されている差分情
報を変更する差分情報更新手段を有し、前記差分情報更
新手段が入力手段に入力された音声入力と情報格納手段
に格納されている標準音声情報から前記差分情報を更新
するようにした請求項１記載の情報処理装置。
【請求項５】入力手段の入力レベルを変更する入力利得
変更手段を有し、制御手段が差分情報格納手段に格納さ
れている差分情報に応じて前記入力レベルを所定レベル
に制御するようにした後、差分情報更新手段が前記入力
手段に入力された音声入力と情報格納手段に格納されて
いる標準音声情報から前記差分情報を更新するようにし
た請求項４記載の情報処理装置。
【請求項６】差分情報格納手段に格納されている差分情
報を変更する差分情報更新手段を有し、前記差分情報更
新手段が入力手段に入力された音声入力と情報格納手段
に格納されている標準音声情報から前記差分情報に加え
て各個人特有の誤り傾向情報を追加するようにした請求
項１記載の情報処理装置。
【請求項７】利用者へのメッセージを提示する出力手段
を有し、制御手段が前記出力手段に差分情報格納手段に
格納されている差分情報に応じてメッセージを提示する
ようにした請求項１記載の情報処理装置。