JPH04362700A

JPH04362700A - 音声認識装置

Info

Publication number: JPH04362700A
Application number: JP3165028A
Authority: JP
Inventors: Takashi Ariyoshi; 有吉　敬
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1991-06-10
Filing date: 1991-06-10
Publication date: 1992-12-15

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【技術分野】本発明は、信号処理技術、より詳細には、
音声信号の対数変換技術に関し、例えば、音声のレベル
の違いが大きく、あるいは、騒音の大きい環境下での音
声処理装置、例えば、事務所内、自動車内、工場内、家
庭内で使用される音声処理装置に応用して好適なもので
ある。

【０００２】

【従来技術】音声処理技術においては、パワーやパワー
スペクトルなどの特徴量を扱う上で、対数変換がしばし
ば用いられている。これは、音声の広いダイナミックレ
ンジに対応するためであったり、人間の聴覚特性に合せ
るためであったり、レベルの異なる音声の特徴量を等価
的に扱うためであったりする。この変換では、入力（≧
０）に対し、単純に対数変換を施すと、入力０の時に、
出力が負の無限大になるので実用的でない。そこで、一
般的には、μｌｏｇ変換が用いられる。すなわち、例え
ば、ｙ＝Ａ・ｌｏｇ（ｘ＋１）　　　　（Ａ：定数）で
ある。しかし、対数変換自身が小さな入力に対し、大き
な誤差を与えることに加え、この変換は、１を足すこと
により小さな入力に対して更に誤差を大きくしている。これらの問題点を解決するための従来技術としては、特
公昭６３−３４４７７号公報があるが、この公報に記載
された発明では、

【０００３】

【数１】

【０００４】として、一定値以下の入力には、同じ出力
を与えて、出力の差分（あるいは微分）をとった場合の
誤差をなくしているが、その反面、小さな信号が全く表
現できないという新たな欠点と、上式の曲線が滑らかで
ないために、その一定値付近の入力に対し、出力の差分
（あるいは微分）は、不連続となり、後の処理に悪影響
を及ぼすという新たな欠点が生じる。また、対数変換は
、ＲＯＭテーブルを参照することが一般的であるが、こ
の方式は、大きなメモリ領域を必要とし、メモリの小さ
なＤＳＰ（デジタルシグナルプロセッサ）などでの処理
には不向きである。

【０００５】

【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、音声信号処理において、小さな入力に対しても
誤差を増大させずに扱うことができ、かつ、出力の値が
急激に性質を変えるようなことがない対数変換法を実現
すること、更には、多量のメモリを使用せず、対数変換
を高速に実行すること、更には、小さな入力に対しても
正確に音声区間を検出し、正確に音声の特徴量を抽出す
ることを目的としてなされたものである。

【０００６】

【構成】本発明は、上記目的を達成するために、（１）
音声を入力するための音響電気変換手段と、上記音響電
気変換手段で得られた入力音声を音響分析する音響分析
手段と、予め登録された登録音声の特徴量を記憶する登
録音声記憶手段と、上記音響分析手段で得られた入力音
声の特徴量と上記登録音声記憶手段に記憶された登録音
声の特徴量とを用いて認識処理を行なう認識処理手段と
を具備して成る音声認識装置において、上記音響分析手
段は、対数変換手段を有し、該対数変換手段は、入力信
号が予め定められたしきい値以上であれば、対数曲線に
基づいて該入力信号の変換を行ない、該入力信号が該し
きい値以下であれば、該しきい値において上記対数曲線
に接続し、かつ、原点を通る直線に基づいて該入力信号
の変換を行なうこと、或いは、（２）前記（１）の音声
認識装置であって、前記対数変換手段は、デジタル信号
の比較演算を行なう比較手段と、デジタル信号のシフト
演算を行なうシフト手段と、デジタル信号の加算を行な
う加算手段とを有し、前記（１）記載の対数変換の近似
計算を行なうこと、或いは、前記（１）又は（２）の音
声認識装置であって、（３）前記対数変換手段に入力さ
れる入力信号は、前記音声入力の電力、又は振幅である
こと、或いは、（４）前記音声入力の電力スペクトル又
は振幅スペクトルであることを特徴としたものである。以下、本発明の実施例に基づいて説明する。

【０００７】以下に、本発明の詳細な説明を行なう。図
１は、本発明による音声認識装置の一実施例を説明する
ための構成図で、図中、１０は入力音声を電気信号に変
換するマイクロホンである。２０は、マイクロホン１０
で得られた信号に対して音響分析を行ない、入力音声の
特徴量を抽出する音響分析部であり、２１はアナログ信
号をデジタル信号に変換するＡ／Ｄ変換部である。２２
は、２乗器、平滑器（図示しない）から成り、入力音声
の電力を求める電力演算部であり、２３はバンドパスフ
ィルタバンク、２乗器、平滑器（図示しない）から成り
、入力音声の電力スペクトルを求める電力スペクトル演
算部である。２４は、電力演算部２２で得られた電力、
及び電力スペクトル演算部２３で得られた電力スペクト
ルを対数変換する対数変換部、２５は、対数変換部２４
で得られた入力音声の電力から公知である２しきい値法
により入力音声の音声区間を検出する音声区間検出部、
２６は、対数変換部２４で得られた入力音声の電力スペ
クトルに対して公知である最小２乗誤差近似直線による
補正（ＬＳＦＬ補正）を行なうＬＳＦＬ補正演算部、２
７は、音声区間検出部２５で得られた音声区間情報と、
ＬＳＦＬ補正演算部２６で得られたＬＳＦＬ補正済みの
入力音声の電力スペクトルから、公知である２値のタイ
ムスペクトルパターン（ＢＴＳＰ）を演算し入力音声の
特徴量とするＢＴＳＰ演算部である。３０は、予め登録
された音声の２値のタイムスペクトルパターン（ＢＴＳ
Ｐ）を記憶する登録音声記憶部、４０は、音響分析部２
０で得られた入力音声の特徴量と、登録音声記憶部３０
に記憶された登録音声の特徴量とから、認識処理を行な
い、結果を入力音声の認識結果とする認識処理部である
。

【０００８】以下に、前記音響分析部２０中の対数変換
部２４の動作を詳しく説明する。自然対数は、入力をｘ
（≧０）、出力をｙ（≧０）とすると、ｙ＝ｌｏｇｘ　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　（１）で表わされ、ｘ＝ｅにおいて、直線、ｙ＝ｘ／ｅ　　　　　　　　　　　　　　（２）と接す
る。そこで、次のような関数を考える。

【０００９】

【数２】

【００１０】この式の関数を図２に示す。この関数は、
すべての点において、連続かつ微分可能であるので、滑
らかな入力の変化に対して、変換後の出力も滑らかに変
化する。図３は、この変換方式をＲＯＭテーブル５０に
よって実現した実施例である。本発明の別の実施例は、
ＲＯＭテーブルを用いず近似式の演算を行なう。式（３
）の関数を入力１２ビットのデジタル値を出力８ビット
のデジタル値に対数変換する場合の例に置き換えるとす
る。扱い易さの点から、自然対数の底ｅの代わりに２を
用いて、式（３）を、

【００１１】

【数３】

【００１２】とする。この関数を図４のａに示す。更に
、対数を折線で近似したものが、

【００１３】

【数４】

【００１４】である。この関数を図４のｂに示す。この
関数は折れ線を用いているが、対数関数との誤差は小さ
く、また、各接点での両折れ線の傾きの差は小さいので
、実用上問題はない。図５にこの処理のフローチャート
を示し、図６にこれをＣ言語で記述したプログラムを示
す。このプログラムは、非常に簡素であり、高速に実行
される。また、入出力のビット数がこの例と異なった場
合も、同様に実現される。

【００１５】尚、この実施例では、電力、及び、電力ス
ペクトルに対してのみ、対数変換を行っているが、対数
変換を必要とする音響分析に関する他の分析量に対して
も、同様に実施することができる。又、区間検出部２５
の区間検出法は、対数変換後の電力に対する時間軸上の
差分から音声の立ち上がり、立ち下がりを求めるなど、
他の方法でも良い。更に、音声分析部２０で求める入力
音声の特徴量、登録音声記憶部３０に記憶された登録音
声の特徴量、認識処理部４０で行なわれる認識方式など
は、他の方法でも良い。また、以上の説明から明らかな
ように、本発明の基本的な技術思想は、電気的な信号を
対数変換することにあり、以上に説明した音声認識装置
は、この対末変換技術の一応用例である。

【００１６】

【効果】請求項１に記載の発明によれば、小さな入力に
対しては、原点を通る一次関数を用いて変換を行なうの
で、小さな入力に対しても誤差を増大させずに扱うこと
ができ、かつ、大きな入力に対しては、通常の対数関数
を用い、しかも、その一次関数とその対数関数とは連続
かつ微分可能な点で接続しているので、出力の値が急激
に性質を変えるようなことがないという対数変換法が実
現できる。請求項２に記載の発明によれば、デジタル信
号に対する比較演算、シフト演算、加算演算による簡素
な処理方式を用いて変換を行なっているので、多量のメ
モリを使用せず、対数変換を高速に実行することができ
る。請求項３に記載の発明によれば、請求項１又は２記
載の対数変換を行なった電力を用いて音声区間検出を行
なうことができるので、レベルの小さな音声の区間を正
確に検出することができる。特に、例えば、対数変換後
の電力の差分なども用いて音声区間検出処理を行なえば
、レベルの小さな音声も、誤差や雑音の影響が少ない状
態で、レベルの大きな音声と同様に扱うことができる。請求項４に記載の発明によれば、請求項１又は２記載の
対数変換を行なった電力スペクトルを用いて入力音声の
音声の特徴量を求めることができるので、スペクトルの
小さな帯域に関して誤差が小さくなる。

【図面の簡単な説明】

【図１】　　本発明による音声認識装置の一実施例を説
明するための構成図である。

【図２】　　本発明の実施に使用される対数変換の一例
を示す図である。

【図３】　　図２に示した対数変換を行なう回路の一例
を示す図である。

【図４】　　対数変換の近似計算の一例を示す図である
。

【図５】　　図４に示した近似計算を実行するためのフ
ローチャートの一例を示す図である。

【図６】　　図５に示したフローチャートをＣ言語で記
述したプログラムの一例を示す図である。

【符号の説明】

１０…マイクロホン、２０…音響分析部、２１…Ａ／Ｄ
変換部、２２…電力演算部、２３…電力スペクトル演算
部、２４…対数変換部、２５…音声区間検出部、２６…
ＬＳＦＬ補正演算部、２７…ＢＴＳＰ演算部、３０…登
録音声記憶部、４０…認識処理部、５０…ＲＯＭ。

Claims

【特許請求の範囲】

【請求項１】　　音声を入力するための音響電気変換手
段と、該音響電気変換手段で得られた入力音声を音響分
析する音響分析手段と、予め登録された登録音声の特徴
量を記憶する登録音声記憶手段と、上記音響分析手段で
得られた入力音声の特徴量と上記登録音声記憶手段に記
憶された登録音声の特徴量とを用いて認識処理を行なう
認識処理手段とを具備して成る音声認識装置において、
上記音響分析手段は、対数変換手段を有し、該対数変換
手段は、入力信号が予め定められたしきい値以上であれ
ば、対数曲線に基づいて該入力信号の変換を行ない、該
入力信号が前記しきい値以下であれば、該しきい値にお
いて上記対数曲線に接続し、かつ、原点を通る直線に基
づいて前記入力信号の変換を行なうことを特徴とする音
声認識装置。
【請求項２】　　請求項１記載の音声認識装置であって
、前記対数変換手段は、デジタル信号の比較演算を行な
う比較手段と、デジタル信号のシフト演算を行なうシフ
ト手段と、デジタル信号の加算を行なう加算手段とを有
し、請求項１記載の対数変換の近似計算を行なうことを
特徴とする音声認識装置。
【請求項３】　　請求項１又は２記載の音声認識装置で
あって、前記対数変換手段に入力される入力信号は、前
記音声入力の電力、又は振幅であることを特徴とする音
声認識装置。
【請求項４】　　請求項１又は２記載の音声認識装置で
あって、前記対数変換手段に入力される入力信号は、前
記音声入力の電力スペクトル、又は振幅スペクトルであ
ることを特徴とする音声認識装置。