JPH0695687A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0695687A
JPH0695687A JP4243432A JP24343292A JPH0695687A JP H0695687 A JPH0695687 A JP H0695687A JP 4243432 A JP4243432 A JP 4243432A JP 24343292 A JP24343292 A JP 24343292A JP H0695687 A JPH0695687 A JP H0695687A
Authority
JP
Japan
Prior art keywords
dictionary
voice
recognition
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4243432A
Other languages
English (en)
Inventor
Shoji Fujimoto
昇治 藤本
Kazuya Sako
和也 佐古
Hiroyuki Fujimoto
博之 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP4243432A priority Critical patent/JPH0695687A/ja
Publication of JPH0695687A publication Critical patent/JPH0695687A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は音声を認識することにより機器の制
御を行うための音声認識装置に関し、音声認識の誤認識
を低減することを目的とする。 【構成】 音声を認識して各種機器を制御するための音
声認識装置に、複数に区分され全体で一つの意味をもつ
音声を捕捉するマイクロフォン200と、区分された前
記音声と認識されるべき基準音声とを比較しいずれの基
準音声と一致すると認識した候補を導出する音声認識部
11と、基準音声を複数の辞書として登録し、複数の辞
書を階層構造にする階層辞書部12と、前記音声の全体
に対して音声と基準音声とを比較し複数の候補を導出す
る際に前記階層辞書部12の階層構造に従って逐次辞書
を選択する辞書選択部13とを設ける。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声を認識することによ
り機器の制御を行うための音声認識装置に関し、特に本
発明では音声認識の誤認識を低減することに関する。
【0002】
【従来の技術】従来このような分野の技術として以下に
説明するものがあった。図5は従来の音声認識装置を用
いた制御システムを示す図である。本図に示すように音
声認識装置を用いた制御システムは、話者の音声を捕捉
するマイクロフォン100と、該マイクロフォン100
に接続され話者の音声を語彙として認識することを目的
として、例えばDP(Dinamic Programming) マッチング
からなる音声認識装置101と、予め認識のために使用
される前記語彙を登録する辞書部102と、該音声認識
装置101に接続され登録された語彙と認識された音声
に基づき機器を制御する制御信号を形成する機器制御部
103と、該機器制御部102に接続され制御信号によ
り動作する被制御機器104とを具備する。この音声認
識装置を用いた制御システムでは、音声認識を行うこと
で手足を用いずに機器が制御されている。
【0003】
【発明が解決しようとする課題】ところで、従来の音声
認識装置では音声認識部101に設けられている辞書部
102に登録される語彙の数が、例えば100、200
程度に限られている。このように限定するのは、語彙の
数が1万程度の辞書もあるが、多くなればなるほど比較
する量が多くなるため認識精度も悪化し、さらに認識時
間も多く要するという問題がある。。例えば、地名等の
認識させる場合には辞書の有する地名を多くすると多く
の時間を要するだけでなく類似する地名の存在により認
識率が低下することになる。
【0004】したがって本発明は上記問題点に鑑み認識
率が高くかつ認識時間を短縮できる辞書を有する音声認
識装置を提供することを目的とする。
【0005】
【課題を解決するための手段】本発明は前記問題点を解
決するために、音声を認識して各種機器を制御するため
の音声認識装置に、マイクロフォン、認識部、階層辞書
部及び辞書選択部を設ける。前記マイクロフォンは複数
に区分され全体で一つの意味をもつ前記音声を捕捉す
る。
【0006】前記音声認識部は区分された前記音声と認
識されるべき基準音声とを比較しいずれかの前記基準音
声と一致すると認識した候補を導出する。前記階層辞書
部は前記基準音声を複数の辞書として登録し、複数の辞
書を階層構造にする。前記辞書選択部は前記音声の全体
に対して前記基準音声と比較し複数の候補を導出する際
に前記階層辞書部の階層構造に従って逐次辞書を選択す
る。
【0007】また、前記音声認識装置に前記音声の全体
に対して各階層で認識されて導出された複数の候補に重
みを与え、前記音声の全体としての重みの合計が大きい
ものを正しい複数の候補と判断する判定手段を設ける。
【0008】
【作用】本発明の音声認識装置によれば、前記マイクロ
フォンにより複数に区分され全体で一つの意味をもつ前
記音声が捕捉され、前記認識部では区分された前記音声
と認識されるべき基準音声とが比較されいずれの前記基
準音声と一致すると認識され候補が導出され、前記階層
辞書部では前記基準音声が複数の辞書として登録され、
複数の辞書が階層構造にされ、前記辞書選択部では前記
音声の全体に対して前記基準音声とが比較され複数の候
補が導出される際に前記階層辞書部の階層構造にしたが
って逐次辞書が選択される。したがって認識語彙の増大
のよる認識率の低下を防止でき、地名など同じ読みの単
語がある場合の誤りを減らせ、個々には少ない認識単語
数の辞書で大語彙の認識を行うことができかつ時間の短
縮が図られる。
【0009】また、前記判断手段では各階層で認識され
て導出された複数の候補に重みが与えられ、捕捉された
前記音声の全体としての重みの合計が大きいものが正し
い複数の候補と判断されることにより、住所等ツリー構
造の目的語を誤り少なく検索できるようになる。
【0010】
【実施例】以下本発明の実施例について図面を参照して
説明する。図1は本発明の実施例に係る音声認識装置を
用いた制御システムを示す図である。本図に示すよう
に、音声認識装置を用いた制御システムは、車両の車室
300内の話者の音声を捕捉する二つのマイクロフォン
200と、該マイクロフォン200からの音声の方向、
音源からの距離から一方向成分に着目して話者を識別す
る話者方向距離判定部201と、該話者方向距離判定部
201に接続され話者を識別した音声信号から雑音を消
去する適応形処理さらに自動利得制御(AGC)を行う
音声認識の前処理部202と、該前処理部202に接続
され音声を登録されたどの語彙に一致するかを認識する
ことを目的として、例えばDP(DinamicProgramming)
マッチングからなる音声認識部203と、該音声認識部
203で登録された語彙として認識された音声に基づき
制御信号を形成する各種制御部204と、該各種制御部
204を介して認識された音声を合成する音声合成部2
05と、該音声合成部205に接続され合成された音声
を再生するスピーカ206と、前記各種制御部204に
より制御されるオーディオ207と、エアコンデショナ
ー208と、電話209と、ナビゲーションシステム2
10と、オートドライブ211等を含む。
【0011】図2は本発明の実施例に係る音声認識装置
を示す図である。本図に示す音声認識装置203は、話
者の音声を捕捉するマイクロフォン200等を介して得
られた音声を予め登録された語彙と比較認識し認識候補
を導出する音声認識部11と、該認識部11の認識操作
を階層化させるために語彙を各階層毎に用意する階層辞
書部12と、音声の入力に対して階層辞書部12の種
類、階層に属する辞書を選択する辞書選択部13と、前
記認識部11で得られた各種類、各階層の認識候補の重
みにより全体として正しい認識結果を得て前記各種制御
部204、音声合成部205、スピーカ206を介して
再生し、また被制御機器、例えばオーディオ207等を
制御させる判定手段14とを具備する。ここで音声認識
装置203はDSP(Digital Signal Processor) で、
各種制御部204はマイクロコンピュータで形成され
る。
【0012】前記階層辞書部12は上位階層として辞書
1、辞書2、…、辞書nに分類され、さらに中位階層と
して辞書1は1−1、1−2、…、1−nに分類され、
辞書2は2−1、2−2、…、2−nに分類され、…、
辞書nはn−1、n−2、…、n−nに分類される。ま
た下位階層として辞書1−1には1−1−1、1−1−
2、…、1−1−mの語彙が登録されている。他の辞書
も同様である。このようにして分類された辞書は階層的
に使用される。上位階の各辞書1、辞書2、…、辞書n
の初めには辞書名として「辞書1」、「辞書2」、…、
「辞書n」の語彙が登録される。さらに中位階層の各辞
書1−1、1−2、…、1−nの初めには辞書名として
「辞書1−1」、「辞書1−2」、…、「辞書1−n」
の語彙が登録される。他の中位階層の各辞書についても
同様である。なお中位階層の各辞書1−1、2−1、
…、n−1では上位階層の辞書名、中位階層の辞書名の
順に登録する。このようにして辞書名を登録し、階層的
に辞書を認識して呼び出すように準備をしてある。
【0013】具体的には上位階層辞書1〜nに対応して
被制御機器につき専用の辞書として「オーディオ」辞
書、「エアコン」辞書、「電話」辞書、「ナビゲーショ
ンシステム」辞書、…、「オートドライブ」辞書等が設
けられる。例えば上位階層としてのオーディオ辞書には
中位階層の辞書として「スイッチ」辞書、「ボリュー
ム」辞書、「バランス」辞書等が用意され、例えば中位
階層の辞書としてのスイッチ辞書には例えば辞書名とし
ての「オーディオ」、「スイッチ」の語彙と、操作内容
として「ラジオON」、「ラジオOFF」、「CD O
N」、「CD OFF」等の語彙が登録されている。
【0014】図3は図2の階層辞書部であって地理的名
称をツリー状に登録する例を示す図である。ナビゲーシ
ョンシステムでは地理的名称の認識が重要になる。地理
的名称の認識では、前述のように、一般的には単純には
5千から1万の地名を登録した辞書の作成が可能である
が、この場合同じ読みによる誤りから認識率の低下が生
じる。このため先ず、日本において各都道府県名の入っ
た辞書と各都道府県毎の辞書を用意する。ある県をマッ
チングしたら辞書をその県に切り換えて行く。例えば兵
庫県がマッチングされれば兵庫県の辞書に切り換え、一
つ当たりの辞書は地名の数が100と小さくなり、同じ
地名の誤りが少なくなり、認識時間も短縮し、誤認識率
も低下ししかも日本全体として多くの地名を取り扱え
る。
【0015】具体例として、本図に示すように、地理的
名称の認識では階層的に辞書を構成するようにする。上
位階層辞書として兵庫県では市レベルの名称で神戸市、
明石市のように分類し、分類された辞書にはそれぞれの
名称を登録し、神戸市の中位階層辞書として西区、北
区、垂水区等のように分類し、分類された辞書にはそれ
ぞれの名称を登録し、垂水区の下位階層辞書には神陵
台、多聞台、星陵台の名称を登録する。他方明石市の下
位階層辞書として鳥羽、大久保町、土山、魚住町の名称
を登録する。
【0016】図4は図2の選択部の動作を説明するフロ
ーチャートである。本図に示すステップ1では、音声入
力を待つ。例えば、図1に示すように、この音声入力に
は被制御機器であるオーディオ、エアコン、電話、AV
CC、ナビゲーションシステム、…、オートドライブ等
のものがある。ステップ2では、音声入力、例えば「オ
ーディオ」に対して予め定められた上位階層辞書名の語
彙と一致するかを判断し、上記被制御機器に対応する
「オーディオ」辞書、「エアコン」辞書、「電話」辞
書、「ナビゲーションシステム」辞書、…、「オートド
ライブ」辞書から「オーディオ」辞書が選択される。
【0017】ステップ3では上位階層辞書の選択後次の
音声入力を要求する。ステップ4では音声入力、例えば
「スイッチ」に対して「スイッチ」辞書、「ボリュー
ム」辞書、「バランス」辞書等から「スイッチ」辞書が
選択される。ステップ5では中位階層辞書の選択後次の
音声入力を要求する。ステップ6では音声入力、例えば
「ラジオON」に対して、「スイッチ」辞書の語彙「ラ
ジオON」、「ラジオOFF」、「CD ON」、「C
D OFF」等から最終の語彙「ラジオON」が選択さ
れる。
【0018】本実施例によれば一度の認識では認識に使
用される辞書の語彙が減少し、認識部11の負担が軽く
なり、誤認識も減少することになる。すなわち音声認識
装置において認識語彙の増大による認識率の低下を防
ぎ、地名など同じ読みの単語がある場合の誤りを減らす
ことができ、少ない認識単語数の装置で大語彙の認識を
行うことができる。以上では、入力音声を逐次処理した
が、入力音声全体を記憶し、記憶された音声について前
述の処理を行うようにしてもよい。
【0019】次に判断部14の説明を行う。上記階層で
認識を誤った場合、そこで本来正しいはずの階層からは
ずれてしまい、以降の認識は誤った階層を継承し無駄な
認識となってしまう。また得られた結果も目的とするも
のとは異なる。具体的には図3に示す地理的名称につい
て説明する。 (1)図3を参照して、「神戸市」「兵庫区」「御所
通」と入力音声を逐次発生する。
【0020】(2)さらに「神戸市」を「神戸市」と認
識し次のツリーを神戸市系列に変更する。 (3)また「兵庫区」を「兵庫区」と認識し、次のツリ
ーを「神戸市」「兵庫区」に変更する。 (4)さらに「御所通」を「御所通」と認識し、結果と
して「神戸市兵庫区御所通」が得られる。
【0021】ここで「兵庫区」を「垂水区」と誤認識し
た場合ツリーが「神戸市」「垂水区」になりこのツリー
のなかから「御所通」をマッチングしようとするがツリ
ーにはないので、この中でもっとも近い単語を選択し
て、例えば「神戸市垂水区多聞台」を出力してしまう。
また「兵庫区」と「垂水区」にそれぞれ同じ名前の候補
があった場合、区だけ異なる結果が得られ、この場合も
誤りである。
【0022】そこで判断部14により各階層の認識候補
の重みにより全体として正しい認識結果を得る判断を行
う。 (1)具体的には、図3を参照して、兵庫県の辞書が選
択されたら「神戸市」「兵庫区」「御所通」と入力音声
を発声する。 (2)「神戸市」を第1候補「神戸市」とし、第2候補
「明石市」とし認識した場合、それぞれを記憶し、さら
に「神戸市」に対して10ポイント、「明石市」に対し
て5ポイントの重みを同時に記憶する。
【0023】(3)「兵庫区」を「神戸市」系列で第1
候補「兵庫区」とし、第2候補「垂水区」と認識した場
合、それぞれを記憶し、「兵庫区」に対して10ポイン
トの重みを与え「神戸市」のポイントと加算して20ポ
イントを記憶する。「垂水区」に対して5ポイントの重
みを与え「神戸市」のポイントと加算して15ポイント
を記憶する。「明石市」系列で第1候補「土山」とし、
第2候補「鳥羽」として認識した場合、それぞれを記憶
し、「土山」に対して10ポイントの重みを与え「明石
市」のポイントと加算して15ポイントを記憶する。
「鳥羽」に対して5ポイントの重みを与え「明石市」の
ポイントと加算して10ポイントを記憶する。
【0024】(4)次に「御所通」を「兵庫区」系列で
第1候補「御所通」とし、第2候補「松原通」とし認識
しそれぞれを記憶し、「御所通」に対して10ポイント
の重みを与え「兵庫区」のポイントと加算して30ポイ
ントを記憶する。「松原通」に対して5ポイントの重み
を与え「兵庫区」のポイントと加算して25ポイントを
記憶する。「垂水区」系列でも同様に第1候補「星陵
台」とし、第2候補「神陵台」としそれぞれ記憶し、
「星陵台」に対して10ポイントの重みを与え、「垂水
区」のポイントと加算して25ポイントを記憶する。
「神陵台」に対して5ポイントの重みを与え「垂水区」
のポイントと加算して20ポイントを記憶する。なお
「明石市」系列には語彙がないのでポイント数はそのま
まで追加がない。以上発声のすべての認識が終了し総合
ポイントが最も高い「神戸市兵庫区御所通」を結果とし
て出力する。重みを第1候補に10ポイント、第2候補
に5ポイント与えているが、このポイントに代わり認識
の程度を表す距離を重みとして用いてもよい。この説明
の中で候補数は装置により変更可能である。候補数を途
中で絞るかどうかはメモリ量と処理量から任意に選定可
能である。
【0025】本実施例による判断部14によれば、音声
認識において住所などツリー構造の単語列の認識を行う
場合、各階層の認識候補の重みにより正しいツリーかそ
うでないかを全体で判定することにより全体として正し
い認識結果を得る。途中で正しい認識結果が2位以下の
候補であってもそれ以降のツリーの単語により補正され
るので、より正しい候補選択が可能になる。したがって
住所等ツリー構造の目的語を誤り少なく検索することが
できる。
【0026】
【発明の効果】以上説明したように本発明によれば、捕
捉された音声と認識されるべき基準音声とが比較されい
ずれの基準音声と一致するかが認識され候補が導出さ
れ、基準音声が複数の辞書として登録され、複数の辞書
が階層構造にされ、音声と基準音声とが比較され捕捉さ
れる音声の全体に対して候補が導出される際に階層辞書
部の階層構造にしたがって逐次辞書が選択されるように
したので、認識語彙の増大のよる認識率の低下を防止で
き、地名など同じ読みの単語がある場合の間違いを減ら
せ、個々には少ない認識単語数の辞書で大語彙の認識を
行うことができる。各階層で認識されて導出された複数
の候補に重みが与えられ、捕捉された前記音声の全体と
しての重みの合計が大きいものが正しい候補と判断され
ることにより、住所等ツリー構造の目的語を誤り少なく
検索できるようになる。
【図面の簡単な説明】
【図1】本発明の実施例に係る音声認識装置を用いた制
御システムを示す図である。
【図2】本発明の実施例に係る音声認識装置を示す図で
ある。
【図3】図2の階層辞書部であって地理的名称をツリー
状に登録する例を示す図である。
【図4】図2の選択部の動作を説明するフローチャート
である。
【図5】従来の音声認識装置を用いた制御システムを示
す図である。
【符号の説明】
11…音声認識部 12…階層辞書部 13…辞書選択部 14…判定手段 200…マイクロフォン 203…音声認識装置

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 音声を認識して各種機器を制御するため
    の音声認識装置であって、 複数に区分され全体で一つの意味をもつ前記音声を捕捉
    するマイクロフォン(200)と、 区分された前記音声と認識されるべき基準音声とを比較
    しいずれの前記基準音声と一致するかと認識した候補を
    導出する音声認識部(11)と、 前記基準音声を複数の辞書として登録し、複数の辞書を
    階層構造にする階層辞書部(12)と、 前記音声の全体に対して前記基準音声と比較し複数の候
    補を導出する際に前記階層辞書部(12)の階層構造に
    したがって逐次辞書を選択する辞書選択部(13)とを
    備えることを特徴とする音声認識装置。
  2. 【請求項2】 前記請求項1記載の音声認識装置であっ
    て、前記音声の全体に対して各階層で認識されて導出さ
    れた複数の候補に重みを与え、前記音声の全体としての
    重みの合計が大きいものを正しい複数の候補と判断する
    判定手段(14)を備えることを特徴とする音声認識装
    置。
JP4243432A 1992-09-11 1992-09-11 音声認識装置 Withdrawn JPH0695687A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4243432A JPH0695687A (ja) 1992-09-11 1992-09-11 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4243432A JPH0695687A (ja) 1992-09-11 1992-09-11 音声認識装置

Publications (1)

Publication Number Publication Date
JPH0695687A true JPH0695687A (ja) 1994-04-08

Family

ID=17103790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4243432A Withdrawn JPH0695687A (ja) 1992-09-11 1992-09-11 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0695687A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2008152765A1 (ja) * 2007-06-11 2010-08-26 三菱電機株式会社 ナビゲーション装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2008152765A1 (ja) * 2007-06-11 2010-08-26 三菱電機株式会社 ナビゲーション装置

Similar Documents

Publication Publication Date Title
EP1936606B1 (en) Multi-stage speech recognition
US7949524B2 (en) Speech recognition correction with standby-word dictionary
US9805722B2 (en) Interactive speech recognition system
US7337115B2 (en) Systems and methods for providing acoustic classification
US8666743B2 (en) Speech recognition method for selecting a combination of list elements via a speech input
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US5452397A (en) Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list
US6961706B2 (en) Speech recognition method and apparatus
JP4116233B2 (ja) 音声認識装置ならびにその方法
US8532990B2 (en) Speech recognition of a list entry
US20130231934A1 (en) Speech Recognition on Large Lists Using Fragments
US20110131038A1 (en) Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method
EP0661688A2 (en) System and method for location specific speech recognition
US20050033575A1 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
CN1639768B (zh) 自动语音识别方法及装置
EP1693828A1 (en) Multilingual speech recognition
JP2010191400A (ja) 音声認識装置およびデータ更新方法
US8566091B2 (en) Speech recognition system
US20040015356A1 (en) Voice recognition apparatus
JPH10274996A (ja) 音声認識装置
JPH0695687A (ja) 音声認識装置
JP3914709B2 (ja) 音声認識方法およびシステム
JP2004046106A (ja) 音声認識装置及び音声認識プログラム
JP2000089782A (ja) 音声認識装置と方法、ナビゲーションシステム、及び記録媒体
JP3315565B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19991130