JPH03122700A

JPH03122700A - 音声認識装置

Info

Publication number: JPH03122700A
Application number: JP1261101A
Authority: JP
Inventors: Takashi Ariyoshi; 有吉　敬
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-10-05
Filing date: 1989-10-05
Publication date: 1991-05-24

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】五監分災本発明は、音声認識装置、より詳細には、音声認識装置
の特徴量抽出技術に関し１例えば、小型・低価格な音声
認識装置、特に、騒音環境下で使用される音声認識に適
用して好適なものである。

災来技Ｗ音声認識のためにマイクから入力された音声信号のレベ
ルは、口とマイクとの距離や、発声された各音素、周囲
の環境、話者の感情や意志、個人差など多くの要因に左
右され、２０ｄＢ以上の差がある。レベルが大きく異な
る音声の特徴量を同等に扱うために、従来、音声中の最
大パワー等と規準としたパワー正規化を行なう方法があ
るが、Ａ／Ｄ変換を行なう際に、レベルの異なる音声に
対応するためには１２〜１６ビツト比較的精度のよいＡ
／Ｄコンバータが必要となることと、パワー正規化を行
なうことは、音声区間が終了してからでないとできない
ために認識処理が遅くなるという欠点があった。また、
ＡＧＣを用いて音声のレベルを一定範囲内に収める方法
は、周囲騒音レベルを引上げるので、騒音環境下での認
識性能がいちじるしく低下するという欠点がある。

且−一五本発明は、上述のごとき実情に鑑みてなされたもので、
特に、周囲騒音レベルを引上げてしまうＡＧＣを用いず
に、しかも、８ビット程度のＡ／Ｄ変換器を用いて、レ
ベル変動の大きな音声の特徴量を確実にとらえ、かつ、
騒音環境下での認識性能が劣化しない音声認識装置を提
供することを目的としてなされたものである。

隻−一双本発明は、上記目的を達成するために、入力された音声
信号のゲインを複数段階に切換えるアッテネータと、上
記アッテネータを経た音声信号をデジタル信号に変換す
るＡ／Ｄコンバータと、該デジタル信号に変換された音
声信号を用いて音声区間を検出する音声区間検出部とを
具備して成り、上記音声区間検出部は、少なくとも音声
区間である場合と音声区間でない場合との２種類の上記
アッテネータの制御手段を有し、該アッテネータの制御
手段に従って上記アッテネータのゲインを切換える信号
を出力する機能を有する事を特徴としたものである。以
下、本発明の実施例に基づいて説明する。

第１図は１本発明の一実施例を説明するための構成図で
、図中、１はマイクアンプ、２はプリエンファシス、３
はアッテネータ、４はバンドパスフィルタ（ＢＰＦ）バ
ンク、５はＡ／Ｄコンバータ、６は音声区間検出部、７
は入カバターン生成部、８は認識部、９は標準パターン
メモリで、マイクアンプ１は図示しないマイクから入力
された音声信号の増巾を行ない、プリエンファシス２は
、音声信号の高域（ＩＫＩ（ｚ以上）を強調する。アッ
テネータ３は、音声区間検出部６からのデジタル信号に
より、ゲインを切換える。具体的にはプリエンファシス
の出力信号を抵抗分割により１／２づつ（−６ｄＢづつ
）の６段階の信号を生成し、３ビツトのセレクト信号を
用いて、アナログマルチプレクサで、６段階のうちの１
つの信号を選択する。ＢＰＦバンク４は、中心周波数が
２５０七から６．３５　ＫＨｚまで１７３オクターブ毎
に配置された１５チヤンネルのバンドパスフィルタと各
々の検波器、各々のローパスフィルタから成り、入力信
号のパワースペクトルを求める。Ａ／Ｄコンバータ５は
、アッテネータ３の出力と、ＢＰＦバンク４の出力の１
５チヤンネルのパワースペクトルをマルチプレクスして
８ビツトのデジタル値にサンプリング周期１０ｍ５で変
換する。音声区間検出部６はＡ／Ｄコンバータ５から得
られるアッテネータ３の出力のデジタル値の時系列から
、音声区間を検出し、その結果に従って次のサンプリン
グのためのアッテネータ３のゲインを決定する。具体的
には、この音声区間検出部６はその時点でのアッテネー
タ３のゲインを保持していてアッテネータ３の出力のデ
ジタル値にそのゲインを乗じることにより、入力信号パ
ワーの絶対レベルを得る。この乗算はシフト演算だけで
容易に実行できる。この入力信号パワーの絶対レベルの
時系列からフレーム間偏差を求めてしきい値Ｔｈｖを越
えた時点を音声の開始とみなし、またその直前の入力信
号パワーの絶対レベルを雑音レベルとみなし保持する。

その後、入力信号パワーの絶対レベルが雑音レベルにほ
ぼ等しくなった時点を音声の終了とみなす、ここで音声
の開始を決めるしきい値Ｔｈｖは、アッテネータ３のゲ
インによって変わる変数である。さらに音声区間検出部
６は、音声区間でない場合のアッテネータ３のゲインを
アッテネータ３の出力のデジタる値がしきい値Ｔ　ｈｎ
ｄ以上の場合に１段階下げ、しきい値Ｔ　ｈｎｕを以下
の場合に１段階上げる。また、音声区間である場合のア
ッテネータ３のゲインをアッテネータ３の出力のデジタ
ル値が、しきい値Ｔｈ５ｄ以上の場合に１段階下げ、し
きい値Ｔｈ５ｕ以上の場合に１段階上げる。ここで、各
しきい値は。

Ｔｈｎｄ）Ｔｈｎｕ、　Ｔｈ５ｄ＞Ｔｈ５ｕＴｈｎｄ＜
Ｔｈ５ｄ、　Ｔｈｎｕ＜Ｔｈ５ｕなる８　ｂｉｔの値で
ある。

第２図は、アッテネータ３の出力信号の一例を示す図で
、アッテネータ３の出力信号Ａは、非音声区間において
、該信号ＡがＴｈｎｄに達すると、アッテネータのゲイ
ンを下げて該信号ＡをＴｈｎｄとＴｈｎｕの間に維持す
る。更に、音声区間においてＴｈ５ｄに達するとアッテ
ネータ３のゲインを下げて該信号ＡをＴ　ｈｓｄとＴ　
ｈｓｕの間に維持し、更に、該信号ＡがＴ　ｈｓｕに低
下するとアッテネータ３のゲインを上げて該信号ＡをＴ
　ｈｓｄとＴ　ｈｓｕの間に維持する。

入カバターン生成部７は、音声区間検出部６で音声区間
と判断された区間の入力信号のパワースペクトルから入
カバターンを生成する。その過程とパターンは、公知の
ＢＴＳＰ方式のものが使用される。また標準パターンメ
モリ９には、同様に公知のＢＴＳＰ方式の形式で予め登
録された音声の標準パターンが記憶されている。認識部
８は入カバターン生成部７で生成された入カバターンと
標準パターンメモリ９に記憶されている標準パターンを
用して、公知のＢＴＳＰ方式の認識処理に従って認識を
行ない、認識結果を出力する。

なお、上記の実施例では、アッテネータ３は、１／２づ
つ（−６ｄＢづつ）６段階でゲインを切換えているが、
例えば１　／　汀づつ（−３ｄＢづつ）ゲインを切換え
てもよい。この場合、入力信号パワーの絶対レベルを求
めるのに、アッテネータ３の出力のデジタル値にシフト
演算を施すだけでは実現できないが、８ビツトの値に対
し、１／Ｖ「倍した値のテーブル（２５６バイト）を参
照する演算を加えれば容易に実行できる。また、切換え
る段階の数は必要に応じて決めればよい。さらにアッテ
ネータ３の位置は、プリエンファシス２の後ろにある必
要はなく、例えば、マイクアンプ１か、プリエンファシ
ス２に含めてもよいし、プリエンファシス２の前に配置
してもよい。

ＢＰＦバンク４はアナログフィルタで構成されているが
、ローパスフィルタを経てＡ／Ｄ変換した値を用いて、
デジタルフィルタで構成してもよい、この場合、ゲイン
が切換わった時点で、デジタルフィルタの各レジスタの
値をゲインに合わせて変更すること、も可能である。

さらに、音声区間検出部６の音声区間検出方式は、他の
公知の方式やそれらとの併用の方式でも実現でき、入カ
バターン生成部７のパターン生成方式、標準パターンメ
モリ９パターン型式、認識部８の認識方式も他の公知の
方式を用いることが可能である。

効−−−釆一以上の説明から明らかなように、本発明によれば音声区
間検出部での音声区間検出の結果によって、ｉ）音声区間でない場合は、入力信号を雑音とみなし、
アッテネータのゲインを比較的低い範囲に抑え。

ｉｉ）音声区間の場合は、入力信号を音声とみなし。

アッテネータのゲインをできる限り高い範囲でコントロ
ールしているので、８ビット程度のＡ／Ｄコンバータを用いても十分にレベ
ル変動の大きな音声の特徴量を抽出することができる。

即ち、ＬＳＩなどで実現できるので、入力音声のレベル
変動に強く、かつ、耐騒音性に優れた小型、低価格な音
声認識装置を実現できる。

【図面の簡単な説明】

第１＠は、本発明の一実施例を説明するための楕成図、
第２図は、アッテネータ３の出力信号の一例を示す図で
ある。１・・・マイクアンプ、２・・・プリエンファシス、３
・・・アッテネータ、４・・・バンドパスフィルタ（Ｂ
ＰＦ）バンク、５・・・Ａ／Ｄコンバータ、６・・・音
声区間検出部、７・・・入カバターン生成部、８・・・
認識部、９・・・標準パターンメモリ。

Claims

【特許請求の範囲】

１、入力された音声信号のゲインを複数段階に切換える
アッテネータと、上記アッテネータを経た音声信号をデ
ジタル信号に変換するＡ／Ｄコンバータと、該デジタル
信号に変換された音声信号を用いて音声区間を検出する
音声区間検出部とを具備して成り、上記音声区間検出部
は、少なくとも音声区間である場合と音声区間でない場
合との２種類の上記アッテネータの制御手段を有し、該
アッテネータの制御手段に従って上記アッテネータのゲ
インを切換える信号を出力する機能を有する事を特徴と
した音声認識装置。