JPH0695687A

JPH0695687A - 音声認識装置

Info

Publication number: JPH0695687A
Application number: JP4243432A
Authority: JP
Inventors: Shoji Fujimoto; 昇治藤本; Kazuya Sako; 和也佐古; Hiroyuki Fujimoto; 博之藤本
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 1992-09-11
Filing date: 1992-09-11
Publication date: 1994-04-08

Abstract

(57)【要約】【目的】本発明は音声を認識することにより機器の制
御を行うための音声認識装置に関し、音声認識の誤認識
を低減することを目的とする。【構成】音声を認識して各種機器を制御するための音
声認識装置に、複数に区分され全体で一つの意味をもつ
音声を捕捉するマイクロフォン２００と、区分された前
記音声と認識されるべき基準音声とを比較しいずれの基
準音声と一致すると認識した候補を導出する音声認識部
１１と、基準音声を複数の辞書として登録し、複数の辞
書を階層構造にする階層辞書部１２と、前記音声の全体
に対して音声と基準音声とを比較し複数の候補を導出す
る際に前記階層辞書部１２の階層構造に従って逐次辞書
を選択する辞書選択部１３とを設ける。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声を認識することによ
り機器の制御を行うための音声認識装置に関し、特に本
発明では音声認識の誤認識を低減することに関する。

【０００２】

【従来の技術】従来このような分野の技術として以下に
説明するものがあった。図５は従来の音声認識装置を用
いた制御システムを示す図である。本図に示すように音
声認識装置を用いた制御システムは、話者の音声を捕捉
するマイクロフォン１００と、該マイクロフォン１００
に接続され話者の音声を語彙として認識することを目的
として、例えばＤＰ(Dinamic Programming) マッチング
からなる音声認識装置１０１と、予め認識のために使用
される前記語彙を登録する辞書部１０２と、該音声認識
装置１０１に接続され登録された語彙と認識された音声
に基づき機器を制御する制御信号を形成する機器制御部
１０３と、該機器制御部１０２に接続され制御信号によ
り動作する被制御機器１０４とを具備する。この音声認
識装置を用いた制御システムでは、音声認識を行うこと
で手足を用いずに機器が制御されている。

【０００３】

【発明が解決しようとする課題】ところで、従来の音声
認識装置では音声認識部１０１に設けられている辞書部
１０２に登録される語彙の数が、例えば１００、２００
程度に限られている。このように限定するのは、語彙の
数が１万程度の辞書もあるが、多くなればなるほど比較
する量が多くなるため認識精度も悪化し、さらに認識時
間も多く要するという問題がある。。例えば、地名等の
認識させる場合には辞書の有する地名を多くすると多く
の時間を要するだけでなく類似する地名の存在により認
識率が低下することになる。

【０００４】したがって本発明は上記問題点に鑑み認識
率が高くかつ認識時間を短縮できる辞書を有する音声認
識装置を提供することを目的とする。

【０００５】

【課題を解決するための手段】本発明は前記問題点を解
決するために、音声を認識して各種機器を制御するため
の音声認識装置に、マイクロフォン、認識部、階層辞書
部及び辞書選択部を設ける。前記マイクロフォンは複数
に区分され全体で一つの意味をもつ前記音声を捕捉す
る。

【０００６】前記音声認識部は区分された前記音声と認
識されるべき基準音声とを比較しいずれかの前記基準音
声と一致すると認識した候補を導出する。前記階層辞書
部は前記基準音声を複数の辞書として登録し、複数の辞
書を階層構造にする。前記辞書選択部は前記音声の全体
に対して前記基準音声と比較し複数の候補を導出する際
に前記階層辞書部の階層構造に従って逐次辞書を選択す
る。

【０００７】また、前記音声認識装置に前記音声の全体
に対して各階層で認識されて導出された複数の候補に重
みを与え、前記音声の全体としての重みの合計が大きい
ものを正しい複数の候補と判断する判定手段を設ける。

【０００８】

【作用】本発明の音声認識装置によれば、前記マイクロ
フォンにより複数に区分され全体で一つの意味をもつ前
記音声が捕捉され、前記認識部では区分された前記音声
と認識されるべき基準音声とが比較されいずれの前記基
準音声と一致すると認識され候補が導出され、前記階層
辞書部では前記基準音声が複数の辞書として登録され、
複数の辞書が階層構造にされ、前記辞書選択部では前記
音声の全体に対して前記基準音声とが比較され複数の候
補が導出される際に前記階層辞書部の階層構造にしたが
って逐次辞書が選択される。したがって認識語彙の増大
のよる認識率の低下を防止でき、地名など同じ読みの単
語がある場合の誤りを減らせ、個々には少ない認識単語
数の辞書で大語彙の認識を行うことができかつ時間の短
縮が図られる。

【０００９】また、前記判断手段では各階層で認識され
て導出された複数の候補に重みが与えられ、捕捉された
前記音声の全体としての重みの合計が大きいものが正し
い複数の候補と判断されることにより、住所等ツリー構
造の目的語を誤り少なく検索できるようになる。

【００１０】

【実施例】以下本発明の実施例について図面を参照して
説明する。図１は本発明の実施例に係る音声認識装置を
用いた制御システムを示す図である。本図に示すよう
に、音声認識装置を用いた制御システムは、車両の車室
３００内の話者の音声を捕捉する二つのマイクロフォン
２００と、該マイクロフォン２００からの音声の方向、
音源からの距離から一方向成分に着目して話者を識別す
る話者方向距離判定部２０１と、該話者方向距離判定部
２０１に接続され話者を識別した音声信号から雑音を消
去する適応形処理さらに自動利得制御（ＡＧＣ）を行う
音声認識の前処理部２０２と、該前処理部２０２に接続
され音声を登録されたどの語彙に一致するかを認識する
ことを目的として、例えばＤＰ(DinamicProgramming)
マッチングからなる音声認識部２０３と、該音声認識部
２０３で登録された語彙として認識された音声に基づき
制御信号を形成する各種制御部２０４と、該各種制御部
２０４を介して認識された音声を合成する音声合成部２
０５と、該音声合成部２０５に接続され合成された音声
を再生するスピーカ２０６と、前記各種制御部２０４に
より制御されるオーディオ２０７と、エアコンデショナ
ー２０８と、電話２０９と、ナビゲーションシステム２
１０と、オートドライブ２１１等を含む。

【００１１】図２は本発明の実施例に係る音声認識装置
を示す図である。本図に示す音声認識装置２０３は、話
者の音声を捕捉するマイクロフォン２００等を介して得
られた音声を予め登録された語彙と比較認識し認識候補
を導出する音声認識部１１と、該認識部１１の認識操作
を階層化させるために語彙を各階層毎に用意する階層辞
書部１２と、音声の入力に対して階層辞書部１２の種
類、階層に属する辞書を選択する辞書選択部１３と、前
記認識部１１で得られた各種類、各階層の認識候補の重
みにより全体として正しい認識結果を得て前記各種制御
部２０４、音声合成部２０５、スピーカ２０６を介して
再生し、また被制御機器、例えばオーディオ２０７等を
制御させる判定手段１４とを具備する。ここで音声認識
装置２０３はＤＳＰ（Digital Signal Processor) で、
各種制御部２０４はマイクロコンピュータで形成され
る。

【００１２】前記階層辞書部１２は上位階層として辞書
１、辞書２、…、辞書ｎに分類され、さらに中位階層と
して辞書１は１−１、１−２、…、１−ｎに分類され、
辞書２は２−１、２−２、…、２−ｎに分類され、…、
辞書ｎはｎ−１、ｎ−２、…、ｎ−ｎに分類される。ま
た下位階層として辞書１−１には１−１−１、１−１−
２、…、１−１−ｍの語彙が登録されている。他の辞書
も同様である。このようにして分類された辞書は階層的
に使用される。上位階の各辞書１、辞書２、…、辞書ｎ
の初めには辞書名として「辞書１」、「辞書２」、…、
「辞書ｎ」の語彙が登録される。さらに中位階層の各辞
書１−１、１−２、…、１−ｎの初めには辞書名として
「辞書１−１」、「辞書１−２」、…、「辞書１−ｎ」
の語彙が登録される。他の中位階層の各辞書についても
同様である。なお中位階層の各辞書１−１、２−１、
…、ｎ−１では上位階層の辞書名、中位階層の辞書名の
順に登録する。このようにして辞書名を登録し、階層的
に辞書を認識して呼び出すように準備をしてある。

【００１３】具体的には上位階層辞書１〜ｎに対応して
被制御機器につき専用の辞書として「オーディオ」辞
書、「エアコン」辞書、「電話」辞書、「ナビゲーショ
ンシステム」辞書、…、「オートドライブ」辞書等が設
けられる。例えば上位階層としてのオーディオ辞書には
中位階層の辞書として「スイッチ」辞書、「ボリュー
ム」辞書、「バランス」辞書等が用意され、例えば中位
階層の辞書としてのスイッチ辞書には例えば辞書名とし
ての「オーディオ」、「スイッチ」の語彙と、操作内容
として「ラジオＯＮ」、「ラジオＯＦＦ」、「ＣＤＯ
Ｎ」、「ＣＤＯＦＦ」等の語彙が登録されている。

【００１４】図３は図２の階層辞書部であって地理的名
称をツリー状に登録する例を示す図である。ナビゲーシ
ョンシステムでは地理的名称の認識が重要になる。地理
的名称の認識では、前述のように、一般的には単純には
５千から１万の地名を登録した辞書の作成が可能である
が、この場合同じ読みによる誤りから認識率の低下が生
じる。このため先ず、日本において各都道府県名の入っ
た辞書と各都道府県毎の辞書を用意する。ある県をマッ
チングしたら辞書をその県に切り換えて行く。例えば兵
庫県がマッチングされれば兵庫県の辞書に切り換え、一
つ当たりの辞書は地名の数が１００と小さくなり、同じ
地名の誤りが少なくなり、認識時間も短縮し、誤認識率
も低下ししかも日本全体として多くの地名を取り扱え
る。

【００１５】具体例として、本図に示すように、地理的
名称の認識では階層的に辞書を構成するようにする。上
位階層辞書として兵庫県では市レベルの名称で神戸市、
明石市のように分類し、分類された辞書にはそれぞれの
名称を登録し、神戸市の中位階層辞書として西区、北
区、垂水区等のように分類し、分類された辞書にはそれ
ぞれの名称を登録し、垂水区の下位階層辞書には神陵
台、多聞台、星陵台の名称を登録する。他方明石市の下
位階層辞書として鳥羽、大久保町、土山、魚住町の名称
を登録する。

【００１６】図４は図２の選択部の動作を説明するフロ
ーチャートである。本図に示すステップ１では、音声入
力を待つ。例えば、図１に示すように、この音声入力に
は被制御機器であるオーディオ、エアコン、電話、ＡＶ
ＣＣ、ナビゲーションシステム、…、オートドライブ等
のものがある。ステップ２では、音声入力、例えば「オ
ーディオ」に対して予め定められた上位階層辞書名の語
彙と一致するかを判断し、上記被制御機器に対応する
「オーディオ」辞書、「エアコン」辞書、「電話」辞
書、「ナビゲーションシステム」辞書、…、「オートド
ライブ」辞書から「オーディオ」辞書が選択される。

【００１７】ステップ３では上位階層辞書の選択後次の
音声入力を要求する。ステップ４では音声入力、例えば
「スイッチ」に対して「スイッチ」辞書、「ボリュー
ム」辞書、「バランス」辞書等から「スイッチ」辞書が
選択される。ステップ５では中位階層辞書の選択後次の
音声入力を要求する。ステップ６では音声入力、例えば
「ラジオＯＮ」に対して、「スイッチ」辞書の語彙「ラ
ジオＯＮ」、「ラジオＯＦＦ」、「ＣＤＯＮ」、「Ｃ
ＤＯＦＦ」等から最終の語彙「ラジオＯＮ」が選択さ
れる。

【００１８】本実施例によれば一度の認識では認識に使
用される辞書の語彙が減少し、認識部１１の負担が軽く
なり、誤認識も減少することになる。すなわち音声認識
装置において認識語彙の増大による認識率の低下を防
ぎ、地名など同じ読みの単語がある場合の誤りを減らす
ことができ、少ない認識単語数の装置で大語彙の認識を
行うことができる。以上では、入力音声を逐次処理した
が、入力音声全体を記憶し、記憶された音声について前
述の処理を行うようにしてもよい。

【００１９】次に判断部１４の説明を行う。上記階層で
認識を誤った場合、そこで本来正しいはずの階層からは
ずれてしまい、以降の認識は誤った階層を継承し無駄な
認識となってしまう。また得られた結果も目的とするも
のとは異なる。具体的には図３に示す地理的名称につい
て説明する。（１）図３を参照して、「神戸市」「兵庫区」「御所
通」と入力音声を逐次発生する。

【００２０】（２）さらに「神戸市」を「神戸市」と認
識し次のツリーを神戸市系列に変更する。（３）また「兵庫区」を「兵庫区」と認識し、次のツリ
ーを「神戸市」「兵庫区」に変更する。（４）さらに「御所通」を「御所通」と認識し、結果と
して「神戸市兵庫区御所通」が得られる。

【００２１】ここで「兵庫区」を「垂水区」と誤認識し
た場合ツリーが「神戸市」「垂水区」になりこのツリー
のなかから「御所通」をマッチングしようとするがツリ
ーにはないので、この中でもっとも近い単語を選択し
て、例えば「神戸市垂水区多聞台」を出力してしまう。
また「兵庫区」と「垂水区」にそれぞれ同じ名前の候補
があった場合、区だけ異なる結果が得られ、この場合も
誤りである。

【００２２】そこで判断部１４により各階層の認識候補
の重みにより全体として正しい認識結果を得る判断を行
う。（１）具体的には、図３を参照して、兵庫県の辞書が選
択されたら「神戸市」「兵庫区」「御所通」と入力音声
を発声する。（２）「神戸市」を第１候補「神戸市」とし、第２候補
「明石市」とし認識した場合、それぞれを記憶し、さら
に「神戸市」に対して１０ポイント、「明石市」に対し
て５ポイントの重みを同時に記憶する。

【００２３】（３）「兵庫区」を「神戸市」系列で第１
候補「兵庫区」とし、第２候補「垂水区」と認識した場
合、それぞれを記憶し、「兵庫区」に対して１０ポイン
トの重みを与え「神戸市」のポイントと加算して２０ポ
イントを記憶する。「垂水区」に対して５ポイントの重
みを与え「神戸市」のポイントと加算して１５ポイント
を記憶する。「明石市」系列で第１候補「土山」とし、
第２候補「鳥羽」として認識した場合、それぞれを記憶
し、「土山」に対して１０ポイントの重みを与え「明石
市」のポイントと加算して１５ポイントを記憶する。
「鳥羽」に対して５ポイントの重みを与え「明石市」の
ポイントと加算して１０ポイントを記憶する。

【００２４】（４）次に「御所通」を「兵庫区」系列で
第１候補「御所通」とし、第２候補「松原通」とし認識
しそれぞれを記憶し、「御所通」に対して１０ポイント
の重みを与え「兵庫区」のポイントと加算して３０ポイ
ントを記憶する。「松原通」に対して５ポイントの重み
を与え「兵庫区」のポイントと加算して２５ポイントを
記憶する。「垂水区」系列でも同様に第１候補「星陵
台」とし、第２候補「神陵台」としそれぞれ記憶し、
「星陵台」に対して１０ポイントの重みを与え、「垂水
区」のポイントと加算して２５ポイントを記憶する。
「神陵台」に対して５ポイントの重みを与え「垂水区」
のポイントと加算して２０ポイントを記憶する。なお
「明石市」系列には語彙がないのでポイント数はそのま
まで追加がない。以上発声のすべての認識が終了し総合
ポイントが最も高い「神戸市兵庫区御所通」を結果とし
て出力する。重みを第１候補に１０ポイント、第２候補
に５ポイント与えているが、このポイントに代わり認識
の程度を表す距離を重みとして用いてもよい。この説明
の中で候補数は装置により変更可能である。候補数を途
中で絞るかどうかはメモリ量と処理量から任意に選定可
能である。

【００２５】本実施例による判断部１４によれば、音声
認識において住所などツリー構造の単語列の認識を行う
場合、各階層の認識候補の重みにより正しいツリーかそ
うでないかを全体で判定することにより全体として正し
い認識結果を得る。途中で正しい認識結果が２位以下の
候補であってもそれ以降のツリーの単語により補正され
るので、より正しい候補選択が可能になる。したがって
住所等ツリー構造の目的語を誤り少なく検索することが
できる。

【００２６】

【発明の効果】以上説明したように本発明によれば、捕
捉された音声と認識されるべき基準音声とが比較されい
ずれの基準音声と一致するかが認識され候補が導出さ
れ、基準音声が複数の辞書として登録され、複数の辞書
が階層構造にされ、音声と基準音声とが比較され捕捉さ
れる音声の全体に対して候補が導出される際に階層辞書
部の階層構造にしたがって逐次辞書が選択されるように
したので、認識語彙の増大のよる認識率の低下を防止で
き、地名など同じ読みの単語がある場合の間違いを減ら
せ、個々には少ない認識単語数の辞書で大語彙の認識を
行うことができる。各階層で認識されて導出された複数
の候補に重みが与えられ、捕捉された前記音声の全体と
しての重みの合計が大きいものが正しい候補と判断され
ることにより、住所等ツリー構造の目的語を誤り少なく
検索できるようになる。

【図面の簡単な説明】

【図１】本発明の実施例に係る音声認識装置を用いた制
御システムを示す図である。

【図２】本発明の実施例に係る音声認識装置を示す図で
ある。

【図３】図２の階層辞書部であって地理的名称をツリー
状に登録する例を示す図である。

【図４】図２の選択部の動作を説明するフローチャート
である。

【図５】従来の音声認識装置を用いた制御システムを示
す図である。

【符号の説明】

１１…音声認識部１２…階層辞書部１３…辞書選択部１４…判定手段２００…マイクロフォン２０３…音声認識装置

Claims

【特許請求の範囲】

【請求項１】音声を認識して各種機器を制御するため
の音声認識装置であって、複数に区分され全体で一つの意味をもつ前記音声を捕捉
するマイクロフォン（２００）と、区分された前記音声と認識されるべき基準音声とを比較
しいずれの前記基準音声と一致するかと認識した候補を
導出する音声認識部（１１）と、前記基準音声を複数の辞書として登録し、複数の辞書を
階層構造にする階層辞書部（１２）と、前記音声の全体に対して前記基準音声と比較し複数の候
補を導出する際に前記階層辞書部（１２）の階層構造に
したがって逐次辞書を選択する辞書選択部（１３）とを
備えることを特徴とする音声認識装置。
【請求項２】前記請求項１記載の音声認識装置であっ
て、前記音声の全体に対して各階層で認識されて導出さ
れた複数の候補に重みを与え、前記音声の全体としての
重みの合計が大きいものを正しい複数の候補と判断する
判定手段（１４）を備えることを特徴とする音声認識装
置。