JPH0243893A

JPH0243893A - 音声認識装置

Info

Publication number: JPH0243893A
Application number: JP63193746A
Authority: JP
Inventors: Junichiro Fujimoto; 潤一郎藤本
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1988-08-03
Filing date: 1988-08-03
Publication date: 1990-02-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】五丘分災本発明は、音声認識装置に関する。

従来技術近年、音声認識装置の開発が盛んであり、特定話者方式
、不特定話者方式のものが実用化されている。しかし、
この装置も使用環境が変ると認識率が大きく変化してし
まう。

例えば、マイクロフォンの近傍に会議卓や黒板などの反
射体が配置された状態で音声を収音した場合、その伝送
周波数特性は多数のデイツプを有した櫛歯形を呈し、か
つ発声者−マイクロフォン−反射体の位’＋？！関係に
よって、レベル特性が大きく変動する。これはＤＰマツ
チング等によって音声認識を行なう場合、認識率低減要
因の一つにあげられる。伝送周波数特性の認識性能に与
える影響について発声者と収音用マイクロフォンとの距
離を変化し、かつ反射体が有る場合と無い場合の音声を
対象に、類似単語を用いた認識評価実験を行なった結果
が音響学会講演論文集、昭和６３年３月、２６９，２７
０ページに報告されている。

その報告によると、発声者の口元から距離を変えて配置
した３本のマイクロフォンを用いて同時に行ない１反射
体から音源（発声者）までの高さ、及び反射体からマイ
クまでの高さをそれぞれ３０Ｇｍとして、音源からマイ
クまでの距離りを１０゜５０．９０■としたとき。

■反射体が無い状態でかつ、発声者の個人的変動（発声
する度に生ずる音声のゆらぎ）がない場合の認識率は、
マイク収音距離の違いによる差は殆どない。

■個人内変動がある場合の認識率は、約２０％程度の変
動を生じている。

■反射体がある場合の認識率は、発声者と収音用マイク
ロフォンの距離が大きくなるほど低下し、特にＬ＝９０
ａｎの場合に顕著となる。なお、その値は話者によって
変化する。

■反射体がある場合でもＬ＝５０ａｏの認識率は、発声
者の個人白変動量に含まれる範囲であるが、同条件での
Ｌ＝１０ａ＋＋の場合より数パーセント低減している。

ことが分ったとされている。

このように、身近に反射体がある時とない時で認識率に
差が出てしまう。これは例えば自動車の中で不特定話者
認識装置を使うような時に顕著に現われる。特定話者方
式では使用環境で標準パターンを作ることである程度回
避することはできるが、不特定話者ではどのような環境
下で使用されるかわからないため、これに対して対策を
練ることができない。それが自動車内のように狭い空間
では音声を反射するものが多く使用するマイクの周波数
特性が変って認識率が低下する。

目　　　　　的本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音響特性が異なった場所、例えば自動車内でも認
識率が低下しないような認識装置を提供することを目的
としてなされたものである。

橋成本発明は、上記目的を達成するために、音声を電気信号
に変換する音響／電気変換器と、該電気信号を分析する
フィルタ群と、分析された結果を比較するパターン比較
部とを有する音声認識装置において、各フィルタの中心
周波数の音の一つ以上を再生する手段と、各フィルタの
出力の加算又は平均値を算出し、記憶する手段と、各フ
ィルタの出力値と前記記憶された値との差を求める手段
と、その差の大きさによって前記フィルタ出力を大又は
小にせしめる手段を有することを特徴としたものである
。以下１本発明の実施例に基いて説明する。

第１図は１本発明の一実施例を説明するための構成図で
、図中、１はＲＯＭ、２はＤ／Ａ変換回路、３は増幅器
、４はスピーカ、５はマイクロフォン、６はマイクアン
プ、７はフィルタ群、８は引き算部、９はレジスタ、１
０は加算器、１１はビットシフト部、１２はレジスタ、
１３は差演算部、１４はスイッチ、１５は比較部、１６
は音声辞書、１７は最大類似度算出部、１８は認識結果
出力部で、図示実施例では、フィルタ群７のフィルタの
数を８とし、音声入力用のマイクロフォン５の音をマイ
クアンプ６にて増幅し、フィルタ群７で分析する。分析
した結果を整流してＡ／Ｄ変換器（図示せず）で量子化
して引き算部８に入れレジスタ９に保存させる０図には
記さなかったが、マイクアンプ６の出力を対数に変換す
るのが普通である。引き算部８は、第２図に示す如く、
各フィルタ７１，７□・・・の出力から決められた値を
差し引くようになっており、差し引く閾値８□８□′・
・・が各々引き算部８１．８２・・・に与えられるが、
初期値として０が入れられている。次に、レジスタ９に
貯えられた８個の値を加算回路１０にて加算し、ビット
シフト部１１にて３回ビットシフトすると１／８になり
平均値が算出されるのでこれをレジスタ１２へ格納して
おく”。まず、スイッチ１４をＡ側に倒し、レジスタ９
の１〜８の各値をレジスタ１２の平均値から差し引き、
その値をフィルタ出力の引き算部８、つまり第２図の閾
値８１１８２／・・・に代入する。従って、閾値ｉへ設
定される値Ｙｉ、はレジスタの８個の値Ｘ１（ｉ＝１〜
８）を平均Ｘを使ってＹｉ＝Ｘ−Ｘｉ　　　・・・（１）として表わされる。一方、ＲＯＭ１にはフィルタ７□、
７□・・・７１の各中心周波数の正弦波が加算された信
号が例えばＰＣＭ等に符号化して記憶されている。＼こ
の信号をアナログに直し増幅して電気音響変換器（スピ
ーカ）４から再生する。この時、ＲＯＭＩに記憶されて
いる周波数の各成分は再生された時に出力レベルが一定
になるような振幅値を設定しなければならない。この音
を再生し゛ながら前記の調整を行なう。

第３図は、上記調整の様子を示す図で、横軸は周波数を
表わす各バンドパスフィルタのチャンネル番号、縦軸は
レベルである。（ａ）図は自由空間での特性で、不特定
話者認識用の音声辞書はこの条件で作られている。この
認識装置を自動車のような狭い空間に持ち込むと（ｂ）
図のような特性になる。ここでこれらの８つのポイント
から平均レベルを計算すると、図の破線のようになる。

更に式（１）に従って平均値から（ｂ）図の各値を引く
と（ｃ）図のようになり、この値を第２図の各閾値とす
る。この調整後は各フィルタの出力は（ｄ）図のように
なり、もとの（ａ）図のような特性に補正でき、このた
め、狭い空間で使用することによる認識率の低下が防げ
る。認識の時はスイッチ１４をＢ側に倒し、周波数特性
が補正された状態で行なう。なお、図では認識部として
比較部と最大類似度を求める部分が記されているが、こ
れはパターン照合方式によらず必要な部分であって、具
体的には、動的計画法を用いたＤＰマツチングとして知
られるものなどどのような方法を用いても良い。

効　　　果以上の説明から明らかなように、本発明によると、部屋
等の限られた空間においても音の反射の影響を補正して
マイクからの入力音声の周波数特性を平担にすることが
出来、その結果認ｍ率を向上することができる。

【図面の簡単な説明】

第１図は、本発明の一実施例を説明するための構成図、
第２図は、第１図に示した引き算部の詳細図、第３図は
、本発明の動作説明をするための同である。１・・・ＲＯＭ、２・・・Ｄ／Ａ変換回路、３・・・増
幅器、４・・・スピーカ、５・・・マイクロフォン、６
・・・マイクアンプ、７・・・フィルタ群、８・・引き
算部、９・・・レジスタ、１０・・・加算器、１１・・
・ビットシフト部。１２・・・レジスタ、１３・・・差演算部、１４・・・
スイッチ、１５・・・比較部、１６・・・音声辞書、１
７・・・最大類似度算出部、１８・・・認識結果出力部
。第　　１図

Claims

【特許請求の範囲】

１、音声を電気信号に変換する音響／電気変換器と、該
電気信号を分析するフィルタ群と、分析された結果を比
較するパターン比較部とを有する音声認識装置において
、各フィルタの中心周波数の音の一つ以上を再生する手
段と、各フィルタの出力の加算又は平均値を算出し、記
憶する手段と、各フィルタの出力値と前記記憶された値
との差を求める手段と、その差の大きさによって前記フ
ィルタ出力を大又は小にせしめる手段を有することを特
徴とする音声認識装置。