JPH04362700A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH04362700A
JPH04362700A JP3165028A JP16502891A JPH04362700A JP H04362700 A JPH04362700 A JP H04362700A JP 3165028 A JP3165028 A JP 3165028A JP 16502891 A JP16502891 A JP 16502891A JP H04362700 A JPH04362700 A JP H04362700A
Authority
JP
Japan
Prior art keywords
input
logarithmic
recognition device
voice
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3165028A
Other languages
English (en)
Inventor
Takashi Ariyoshi
有吉 敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3165028A priority Critical patent/JPH04362700A/ja
Publication of JPH04362700A publication Critical patent/JPH04362700A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、信号処理技術、より詳細には、
音声信号の対数変換技術に関し、例えば、音声のレベル
の違いが大きく、あるいは、騒音の大きい環境下での音
声処理装置、例えば、事務所内、自動車内、工場内、家
庭内で使用される音声処理装置に応用して好適なもので
ある。
【0002】
【従来技術】音声処理技術においては、パワーやパワー
スペクトルなどの特徴量を扱う上で、対数変換がしばし
ば用いられている。これは、音声の広いダイナミックレ
ンジに対応するためであったり、人間の聴覚特性に合せ
るためであったり、レベルの異なる音声の特徴量を等価
的に扱うためであったりする。この変換では、入力(≧
0)に対し、単純に対数変換を施すと、入力0の時に、
出力が負の無限大になるので実用的でない。そこで、一
般的には、μlog変換が用いられる。すなわち、例え
ば、y=A・log(x+1)    (A:定数)で
ある。しかし、対数変換自身が小さな入力に対し、大き
な誤差を与えることに加え、この変換は、1を足すこと
により小さな入力に対して更に誤差を大きくしている。 これらの問題点を解決するための従来技術としては、特
公昭63−34477号公報があるが、この公報に記載
された発明では、
【0003】
【数1】
【0004】として、一定値以下の入力には、同じ出力
を与えて、出力の差分(あるいは微分)をとった場合の
誤差をなくしているが、その反面、小さな信号が全く表
現できないという新たな欠点と、上式の曲線が滑らかで
ないために、その一定値付近の入力に対し、出力の差分
(あるいは微分)は、不連続となり、後の処理に悪影響
を及ぼすという新たな欠点が生じる。また、対数変換は
、ROMテーブルを参照することが一般的であるが、こ
の方式は、大きなメモリ領域を必要とし、メモリの小さ
なDSP(デジタルシグナルプロセッサ)などでの処理
には不向きである。
【0005】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、音声信号処理において、小さな入力に対しても
誤差を増大させずに扱うことができ、かつ、出力の値が
急激に性質を変えるようなことがない対数変換法を実現
すること、更には、多量のメモリを使用せず、対数変換
を高速に実行すること、更には、小さな入力に対しても
正確に音声区間を検出し、正確に音声の特徴量を抽出す
ることを目的としてなされたものである。
【0006】
【構成】本発明は、上記目的を達成するために、(1)
音声を入力するための音響電気変換手段と、上記音響電
気変換手段で得られた入力音声を音響分析する音響分析
手段と、予め登録された登録音声の特徴量を記憶する登
録音声記憶手段と、上記音響分析手段で得られた入力音
声の特徴量と上記登録音声記憶手段に記憶された登録音
声の特徴量とを用いて認識処理を行なう認識処理手段と
を具備して成る音声認識装置において、上記音響分析手
段は、対数変換手段を有し、該対数変換手段は、入力信
号が予め定められたしきい値以上であれば、対数曲線に
基づいて該入力信号の変換を行ない、該入力信号が該し
きい値以下であれば、該しきい値において上記対数曲線
に接続し、かつ、原点を通る直線に基づいて該入力信号
の変換を行なうこと、或いは、(2)前記(1)の音声
認識装置であって、前記対数変換手段は、デジタル信号
の比較演算を行なう比較手段と、デジタル信号のシフト
演算を行なうシフト手段と、デジタル信号の加算を行な
う加算手段とを有し、前記(1)記載の対数変換の近似
計算を行なうこと、或いは、前記(1)又は(2)の音
声認識装置であって、(3)前記対数変換手段に入力さ
れる入力信号は、前記音声入力の電力、又は振幅である
こと、或いは、(4)前記音声入力の電力スペクトル又
は振幅スペクトルであることを特徴としたものである。 以下、本発明の実施例に基づいて説明する。
【0007】以下に、本発明の詳細な説明を行なう。図
1は、本発明による音声認識装置の一実施例を説明する
ための構成図で、図中、10は入力音声を電気信号に変
換するマイクロホンである。20は、マイクロホン10
で得られた信号に対して音響分析を行ない、入力音声の
特徴量を抽出する音響分析部であり、21はアナログ信
号をデジタル信号に変換するA/D変換部である。22
は、2乗器、平滑器(図示しない)から成り、入力音声
の電力を求める電力演算部であり、23はバンドパスフ
ィルタバンク、2乗器、平滑器(図示しない)から成り
、入力音声の電力スペクトルを求める電力スペクトル演
算部である。24は、電力演算部22で得られた電力、
及び電力スペクトル演算部23で得られた電力スペクト
ルを対数変換する対数変換部、25は、対数変換部24
で得られた入力音声の電力から公知である2しきい値法
により入力音声の音声区間を検出する音声区間検出部、
26は、対数変換部24で得られた入力音声の電力スペ
クトルに対して公知である最小2乗誤差近似直線による
補正(LSFL補正)を行なうLSFL補正演算部、2
7は、音声区間検出部25で得られた音声区間情報と、
LSFL補正演算部26で得られたLSFL補正済みの
入力音声の電力スペクトルから、公知である2値のタイ
ムスペクトルパターン(BTSP)を演算し入力音声の
特徴量とするBTSP演算部である。30は、予め登録
された音声の2値のタイムスペクトルパターン(BTS
P)を記憶する登録音声記憶部、40は、音響分析部2
0で得られた入力音声の特徴量と、登録音声記憶部30
に記憶された登録音声の特徴量とから、認識処理を行な
い、結果を入力音声の認識結果とする認識処理部である
【0008】以下に、前記音響分析部20中の対数変換
部24の動作を詳しく説明する。自然対数は、入力をx
(≧0)、出力をy(≧0)とすると、y=logx 
                         
                 (1) で表わされ、x=eにおいて、直線、 y=x/e              (2)と接す
る。そこで、次のような関数を考える。
【0009】
【数2】
【0010】この式の関数を図2に示す。この関数は、
すべての点において、連続かつ微分可能であるので、滑
らかな入力の変化に対して、変換後の出力も滑らかに変
化する。図3は、この変換方式をROMテーブル50に
よって実現した実施例である。本発明の別の実施例は、
ROMテーブルを用いず近似式の演算を行なう。式(3
)の関数を入力12ビットのデジタル値を出力8ビット
のデジタル値に対数変換する場合の例に置き換えるとす
る。扱い易さの点から、自然対数の底eの代わりに2を
用いて、式(3)を、
【0011】
【数3】
【0012】とする。この関数を図4のaに示す。更に
、対数を折線で近似したものが、
【0013】
【数4】
【0014】である。この関数を図4のbに示す。この
関数は折れ線を用いているが、対数関数との誤差は小さ
く、また、各接点での両折れ線の傾きの差は小さいので
、実用上問題はない。図5にこの処理のフローチャート
を示し、図6にこれをC言語で記述したプログラムを示
す。このプログラムは、非常に簡素であり、高速に実行
される。また、入出力のビット数がこの例と異なった場
合も、同様に実現される。
【0015】尚、この実施例では、電力、及び、電力ス
ペクトルに対してのみ、対数変換を行っているが、対数
変換を必要とする音響分析に関する他の分析量に対して
も、同様に実施することができる。又、区間検出部25
の区間検出法は、対数変換後の電力に対する時間軸上の
差分から音声の立ち上がり、立ち下がりを求めるなど、
他の方法でも良い。更に、音声分析部20で求める入力
音声の特徴量、登録音声記憶部30に記憶された登録音
声の特徴量、認識処理部40で行なわれる認識方式など
は、他の方法でも良い。また、以上の説明から明らかな
ように、本発明の基本的な技術思想は、電気的な信号を
対数変換することにあり、以上に説明した音声認識装置
は、この対末変換技術の一応用例である。
【0016】
【効果】請求項1に記載の発明によれば、小さな入力に
対しては、原点を通る一次関数を用いて変換を行なうの
で、小さな入力に対しても誤差を増大させずに扱うこと
ができ、かつ、大きな入力に対しては、通常の対数関数
を用い、しかも、その一次関数とその対数関数とは連続
かつ微分可能な点で接続しているので、出力の値が急激
に性質を変えるようなことがないという対数変換法が実
現できる。請求項2に記載の発明によれば、デジタル信
号に対する比較演算、シフト演算、加算演算による簡素
な処理方式を用いて変換を行なっているので、多量のメ
モリを使用せず、対数変換を高速に実行することができ
る。請求項3に記載の発明によれば、請求項1又は2記
載の対数変換を行なった電力を用いて音声区間検出を行
なうことができるので、レベルの小さな音声の区間を正
確に検出することができる。特に、例えば、対数変換後
の電力の差分なども用いて音声区間検出処理を行なえば
、レベルの小さな音声も、誤差や雑音の影響が少ない状
態で、レベルの大きな音声と同様に扱うことができる。 請求項4に記載の発明によれば、請求項1又は2記載の
対数変換を行なった電力スペクトルを用いて入力音声の
音声の特徴量を求めることができるので、スペクトルの
小さな帯域に関して誤差が小さくなる。
【図面の簡単な説明】
【図1】  本発明による音声認識装置の一実施例を説
明するための構成図である。
【図2】  本発明の実施に使用される対数変換の一例
を示す図である。
【図3】  図2に示した対数変換を行なう回路の一例
を示す図である。
【図4】  対数変換の近似計算の一例を示す図である
【図5】  図4に示した近似計算を実行するためのフ
ローチャートの一例を示す図である。
【図6】  図5に示したフローチャートをC言語で記
述したプログラムの一例を示す図である。
【符号の説明】
10…マイクロホン、20…音響分析部、21…A/D
変換部、22…電力演算部、23…電力スペクトル演算
部、24…対数変換部、25…音声区間検出部、26…
LSFL補正演算部、27…BTSP演算部、30…登
録音声記憶部、40…認識処理部、50…ROM。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】  音声を入力するための音響電気変換手
    段と、該音響電気変換手段で得られた入力音声を音響分
    析する音響分析手段と、予め登録された登録音声の特徴
    量を記憶する登録音声記憶手段と、上記音響分析手段で
    得られた入力音声の特徴量と上記登録音声記憶手段に記
    憶された登録音声の特徴量とを用いて認識処理を行なう
    認識処理手段とを具備して成る音声認識装置において、
    上記音響分析手段は、対数変換手段を有し、該対数変換
    手段は、入力信号が予め定められたしきい値以上であれ
    ば、対数曲線に基づいて該入力信号の変換を行ない、該
    入力信号が前記しきい値以下であれば、該しきい値にお
    いて上記対数曲線に接続し、かつ、原点を通る直線に基
    づいて前記入力信号の変換を行なうことを特徴とする音
    声認識装置。
  2. 【請求項2】  請求項1記載の音声認識装置であって
    、前記対数変換手段は、デジタル信号の比較演算を行な
    う比較手段と、デジタル信号のシフト演算を行なうシフ
    ト手段と、デジタル信号の加算を行なう加算手段とを有
    し、請求項1記載の対数変換の近似計算を行なうことを
    特徴とする音声認識装置。
  3. 【請求項3】  請求項1又は2記載の音声認識装置で
    あって、前記対数変換手段に入力される入力信号は、前
    記音声入力の電力、又は振幅であることを特徴とする音
    声認識装置。
  4. 【請求項4】  請求項1又は2記載の音声認識装置で
    あって、前記対数変換手段に入力される入力信号は、前
    記音声入力の電力スペクトル、又は振幅スペクトルであ
    ることを特徴とする音声認識装置。
JP3165028A 1991-06-10 1991-06-10 音声認識装置 Pending JPH04362700A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3165028A JPH04362700A (ja) 1991-06-10 1991-06-10 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3165028A JPH04362700A (ja) 1991-06-10 1991-06-10 音声認識装置

Publications (1)

Publication Number Publication Date
JPH04362700A true JPH04362700A (ja) 1992-12-15

Family

ID=15804473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3165028A Pending JPH04362700A (ja) 1991-06-10 1991-06-10 音声認識装置

Country Status (1)

Country Link
JP (1) JPH04362700A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106463115A (zh) * 2014-06-05 2017-02-22 大陆汽车有限责任公司 借助于语音输入能够控制的、具有功能装置和多个语音识别模块的辅助系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106463115A (zh) * 2014-06-05 2017-02-22 大陆汽车有限责任公司 借助于语音输入能够控制的、具有功能装置和多个语音识别模块的辅助系统
CN106463115B (zh) * 2014-06-05 2020-06-09 大陆汽车有限责任公司 借助于语音输入能够控制的、具有功能装置和多个语音识别模块的辅助系统

Similar Documents

Publication Publication Date Title
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
JPH0361959B2 (ja)
CN114333874B (zh) 处理音频信号的方法
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
CN113490115A (zh) 一种基于声纹识别技术的声反馈抑制方法及系统
CN108074581B (zh) 用于人机交互智能终端的控制系统
CN108053834B (zh) 音频数据处理方法、装置、终端及系统
CN116229987A (zh) 一种校园语音识别的方法、装置及存储介质
US11790931B2 (en) Voice activity detection using zero crossing detection
JPH04362700A (ja) 音声認識装置
CN100559470C (zh) 在数字音频信号内的微小静电干扰噪声检测
JP2992324B2 (ja) 音声区間検出方法
JP2002268657A (ja) 音響信号の立ち上がり・立ち下がり検出方法及び装置並びにプログラム及び記録媒体
JPS6367197B2 (ja)
JPS63278100A (ja) 音声認識装置
JP2666296B2 (ja) 音声認識装置
JP2975808B2 (ja) 音声認識装置
JPH0573090A (ja) 音声認識方法
JP2559475B2 (ja) 音声検出方式
JPH0424692A (ja) 音声区間検出方式
JPH0293697A (ja) 雑音除去方法
JPS62159195A (ja) 音声パタン作成方法
TW202226225A (zh) 以零點交越檢測改進語音活動檢測之設備及方法
JPH0285898A (ja) 音声検出方式
JPH0243893A (ja) 音声認識装置