JPH0466520B2 - - Google Patents

Info

Publication number
JPH0466520B2
JPH0466520B2 JP19627486A JP19627486A JPH0466520B2 JP H0466520 B2 JPH0466520 B2 JP H0466520B2 JP 19627486 A JP19627486 A JP 19627486A JP 19627486 A JP19627486 A JP 19627486A JP H0466520 B2 JPH0466520 B2 JP H0466520B2
Authority
JP
Japan
Prior art keywords
level
frame
similarity
pattern
reduction amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP19627486A
Other languages
English (en)
Other versions
JPS6350897A (ja
Inventor
Yoichi Yamada
Keiko Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP19627486A priority Critical patent/JPS6350897A/ja
Priority to US07/084,107 priority patent/US4882755A/en
Publication of JPS6350897A publication Critical patent/JPS6350897A/ja
Publication of JPH0466520B2 publication Critical patent/JPH0466520B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は音声認識装置、特にマツチング技術
を用いた音声認識装置に関するものである。
(従来の技術) 音声認識を行う一般的な技術として以下に述べ
るスペクトルマツチング技術がある。先ず、この
発明の説明に先立ち、第5図及び第6図を用いて
従来提案されているスペクトルマツチング技術を
用いた音声認識装置につき簡単な説明を行う。
A/D変換された入力音声信号D1は周波数分
析部10へ入力される。周波数分析部10はこの
入力信号D1に対し入力中心周波数の異なる(中
心周波数の番号付けを以後チヤネルと称す)バン
ドパスフイルタによる周波数分析及び対数変換を
行つた周波数スペクトルD2を所定の時間間隔
(以後フレームと称する。)毎に算出し(第6図
A)、スペクトル正規化部11及び音声区間検出
部12へ出力する。
音声区間検出部12は周波数スペクトルD2の
値の大きさなどから始端時刻と終端時刻とを決定
し始端時刻信号D3及び終端時刻信号D4をスペ
クトル正規化部11へ出力する。
スペクトル正規化部11は周波数スペクトルD
2からスペクトルの最小自乗近似直線を減じ正規
化スペクトル(第6図A及びB)とする処理を始
端時刻から終端時刻まで行い正規化スペクトルパ
タンD5としてスペクトル類似度計算部13へ出
力する。
上記処理を所定の時間間隔(フレーム)毎に音
声始端時刻から音声終端時刻まで繰り返し行う。
次にスペクトル類似度計算部13は正規化スペ
クトルパタンD5と予めスペクトル標準パタン記
憶部14に格納して用意されている全ての標準パ
タンとの類似度を算出し、各認識対象カテゴリに
対するスペクトル類似度D6を判定部15へ出力
する。
判定部15は全ての標準パタンの中で最大の類
似度を与える標準パタンが属するカテゴリ名を認
識結果として出力する。
以上述べた音声認識装置におけるスペクトルマ
ツチング技術によれば、スペクトル正規化を行う
ことにより話者の相違により発生する音声音源特
性の相違を吸収することが出来、不特定話者が発
声する音声の認識に対して有効である。
(発明が解決しようとする問題点) しかしながら、このスペクトルマツチング技術
によればスペクトル正規化は入力音声のレベルと
は無関係にスペクトルの形状を抽出する手法であ
るので、スペクトル正規化を行うことにより入力
音声のレベル情報は失われる。従つて入力音声中
に無音区間が存在する音声と入力音声中に無音区
間が存在しない音声との間で両者のスペクトル形
状の類似性が高い場合において両者を識別し正確
に認識結果を出力することが難しくなる問題点が
あつた。例えば「イチ」と「ニ」の2種類の音声
を考えた場合に、両者の母音定常部間のスペクト
ル形状は類似性が高く「イチ」において「チ」の
直前に発生する無音区間(入力信号レベルは周囲
雑音と同等であり、この区間におけるスペクトル
正規化出力は該音声入力中における周囲雑音スペ
クトルと同等のものとなる)のスペクトル正規化
出力が「ニ」のスペクトル正規化出力と類似性が
高い場合には両者を識別判定することは不可能と
なる。
このように、従来提案された音声認識装置は上
述した問題点に起因して音声認識性能の低下を招
いていた。
この発明の目的は以上述べた問題点を除去し、
入力音声のレベル情報を加味した特徴を抽出し、
標準パタンとの類似度演算に使用する構成と成す
ことにより、認識性能の優れた音声認識装置を提
供することにある。
(問題点を解決するための手段) この目的の達成を図るため、この発明の音声認
識装置によれば、 a 音声区間内の各フレーム(所定の時間間隔単
位)について入力音声レベルの最大値との大小
比較により無音区間フレームの判定を行い、こ
の無音区間フレームにおける入力音声レベルの
入力音声レベル最大値に対する相対的レベル低
下量を算出してこの相対的レベル低下量を無音
区間フレームにおけるレベル低下量パタンとし
て抽出するレベル低下量パタン算出部と、 b レベル低下量標準パタンを予め読み出し自在
に格納したレベル低下量標準パタン記憶部と、 c レベル低下量パタンと、レベル低下量標準パ
タンとの類似度計算を行い、各認識対象カテゴ
リに対するレベル低下量類似度を算出するレベ
ル低下量類似度算出部とを設ける。
d そして、さらにこのスペクトル類似度とレベ
ル低下量類似度の両者を参照することにより各
認識対象カテゴリ毎に総合類似度を算出し、こ
の総合類似度が全ての認識対象カテゴリの中で
最大となるカテゴリ名を認識結果として出力す
るように構成した判定部を具えている。
この発明の実施に当つては、好ましくはこのレ
ベル低下量パタン算出部には、無音区間フレーム
判定手段と、レベル低下量抽出手段とを設けるの
が良い。
この無音区間フレーム判定手段は、音声入力中
におけるフレーム毎に、該フレームにおける入力
音声レベルが音声始端フレームから該フレームま
でにおける入力音声レベル最大値の1/N以下で
あるときに該フレームを無音区間フレームと判定
する処理を音声終端フレームまで繰り返し行う機
能を有するのが好適である。
さらにレベル低下量抽出手段は、音声終端検出
後、無音区間フレームについて各チヤネル毎に音
声区間における入力音声レベル最大値から該無音
区間フレーム及び該チヤネルにおけるスペクトル
値を差し引いた値を音声区間における入力音声レ
ベル最大値で正規化した値を該無音区間フレーム
及び該チヤネルにおけるレベル低下量として算出
する処理を無音区間フレームと判定されたフレー
ム全てに対して行いレベル低下量パタンを作成す
ると共に、無音区間フレームと判定されなかつた
フレームについては該フレームの全チヤネルのレ
ベル低下量は「0」とする機能を有するのが良
い。
(作用) このように、この発明の音声認識装置によれ
ば、従来の識別判定に用いられているスペクトル
類似度の他に、同一音声区間内におけるスペクト
ル変化量を表わす特徴量であつて、しかもレベル
情報を取り入れたレベル低下量類似度を加えた総
合類似度で識別判定を行うので、正確かつ安定な
認識が可能となる。
(実施例) 以下、図面を参照してこの発明の音声認識装置
の一実施例につき説明する。
第1図はこの発明の一実施例を示す機能ブロツ
ク図、第2図Aはこの発明の一主要部を構成する
レベル低下量計算部の一例を示す機能ブロツク図
及び第2図Bは第2図Aのレベル低下量計算部の
動作手順を説明するための流れ図である。第1図
及び第2図A及びBを用いてこの発明の動作説明
を行うが、第5図に示した構成成分に対応する構
成成分については同一符号を付して示し、その詳
細な説明は、特に相違する場合を除き、省略す
る。
この発明の実施例の音声認識装置によれば、第
5図に示した従来提案されている構成成分の他
に、発声音の特徴であるレベル情報、特にレベル
低下量標準パタンを予め読み出し自在に記憶させ
てあるレベル低下量標準パタン記憶部17と、レ
ベル低下量パタン及びレベル低下量標準パタンの
類似度を計算するレベル低下量類似度計算部18
とを設けると共に、判定部を総合類似度で認識判
定出来る判定部19として構成している。
このレベル低下量計算部16には、音声区間検
出部12から始端時刻信号D3、終端時刻信号D
4及び入力音声レベル信号D8が供給されると共
に、周波数分析部10から周波数スペクトルD2
が供給される。尚、この音声区間検出部12は通
常レベル抽出部(図示せず)を備えていてフレー
ム毎の入力信号レベル(一例としてA/D変換出
力の1フレーム時間内における絶対値総和)を算
出し入力音声レベル信号D8を出力する構成とな
つている。
このレベル低下量計算部16は第2図Bの説明
の項で後述する手法によりレベル低下量パタンD
9を算出し、レベル低下量類似度計算部18へ出
力する。
このレベル低下量類似度計算部18はレベル低
下量パタンD9と予めレベル低下量標準パタン記
憶部17に記憶されている全てのレベル低下量標
準パタンD10との類似度を計算し、各認識対象
カテゴリに対するレベル低下量類似度D11を判
定部19へ出力する。
判定部19は認識対象カテゴリ毎にスペクトル
類似度D6とレベル低下量類似度D11の総和を
算出し、該類似度総和値が全ての認識対象カテゴ
リの中で最大となるカテゴリ名を認識結果D12
として出力する。
次に第2図A及びBの機能ブロツク図及び動作
の流れ図によりレベル低下量計算部16の動作説
明を詳細に行う。この実施例では第2図Aに示す
ように、レベル低下量計算部16は無音区間フレ
ーム判定手段20と、レベル低下量パタン抽出手
段とを具えている。そして、これら手段20及び
21による処理手順につき第2図Bを参照して以
下説明する。尚、以下の説明において、処理ステ
ツプをSで表わす。
() 無音区間フレーム判定手段(第2図Aに
21で示す) フレーム毎に(以後、処理中のフレーム番号
をjとする)音声区間検出部12より始端時刻
信号D3が決定され入力されているか否かを判
定しS1、信号入力後始端フレーム番号SFR
=jとして以下の処理を行う。
音声入力中におけるフレーム毎に、このフレ
ームにおける入力音声レベルLIN(j)、(但し
jはフレーム番号)を算出するS2。次に1フ
レーム分の入力音声レベルLIN(j)を入力し、
始端フレームから信号入力中のフレームまでに
おける入力音声レベルの最大値を求め、これを
MAXLとするS3。
次に、最大値MAXLをNで除算した
MAXL/Nを求め、このフレームにおける入
力音声レベルLIN(j)が下記の条件 LIN(j)≦MAXL/N (Nは経験によつて定まる所定の正定数で通常
2〜3程度に設定される) を満足するか否かを判定するS4。
この条件を満足する場合には該フレームを無
音区間フレームと判定しS5てからステツプS
6へ移り、一方この条件を満足しない場合はそ
のままステツプS6へ移る。
ステツプS6において音声区間検出部12よ
り終端検出を意味する終端時刻信号D4が入力
されているか否かを判定し、入力されていない
場合はステツプS2より処理を繰り返し行い、
入力されている場合は終端フレーム番号EFR
=jとしてステツプS7へ移り、レベル低下量
パタンの作成を開始する。
() レベル低下量パタン抽出部(第2図Aに
21で示す) ステツプS7においてフレーム番号FRを始
端フレーム番号SFRに初期化する。
フレーム番号FRが無音区間フレームと判定
されたか否かを判定しS8、各々の場合に対し
て以下のようにレベル低下量パタンLDP(i,
FR)(但しi:チヤネル番号)を算出する。
(イ) 無音区間フレームと判定された場合 レベル低下量パタンLDP(i,FR)は入
力音声レベル最大値MAXLからこの無音区
間フレーム及びこのチヤネルにおける周波数
スペクトル値SPEC(i,FR)(但し、これ
はチヤネル番号i、フレーム番号FRにおけ
る周波数スペクトル)を差し引いた値を、こ
の最大値MAXLで除算した値(正規化した
値)であり、 LDP(i,FR)={MAXL−SPEC(i,
FR)}/MAXL で与えられる。尚、このレベル低下量パタン
LDP(i,FR)として上式の右辺に適当な
定数C1(但し、C1:正の任意の定数で設
計に応じて大きさが決まる。)を乗算させた
値としても良い。
上式により入力音声の最大レベルよりの該
無音区間フレーム及び該チヤネルにおける周
波数スペクトルの相対的低下量が算出される
S9。
(ロ) 無音区間フレームと判定されなかつた場
合全てのチヤネルに対して、 LDP(i,FR)=0 とするS10。
次に、フレーム番号FRを1加算しS11、
終端フレーム番号EFRとの大小比較、 FR>EFR を行いS12、この条件を満足しない場合は
ステツプS8よりの動作を繰り返し行い、満
足する場合はレベル低下量パタンの作成を終
了し、よつてレベル低下量パタンD9を抽出
する。
具体例の説明 第3図Aは発声音「イチ」及び第3図Bは
「ニ」の時間軸に対するレベル変動を表した図で
ある。
これら図から理解出来るように、第3図Aに示
した「イ」に対するA領域、「チ」に対するC領
域及び第3図Bに示した「ニ」は、音声レベルが
高く無音区間でないが、第3図Aの「イ」と
「チ」の中間の領域Bは無音区間と判定される領
域であり、該領域における周囲雑音スペクトルが
母音「イ」のスペクトルと類似性が高い場合にス
ペクトル類似度のみによる識別判定は難しいが、
この発明によるレベル低下量類似度は両者の間で
明白な相違があるので両類似度を併用することに
より正確な認識処理が行われる。
第4図は、判定部19における発声音の音声パ
タンと、この発声音に類似する音声の標準パタン
との総合類似度を説明する図であり、第4図Aは
第3図Aの音声パタンを有する発声音「イチ」の
カテゴリ名「イチ」及びカテゴリ名「ニ」に対す
る総合類似度を表わし、第4図Bは第3図Bの音
声パタンを有する発声音「ニ」のカテゴリ名「イ
チ」及びカテゴリ名「ニ」に対する総合類似度を
表わしている。尚、図中〓はスペクトル変化量類
似度D11を表わし、〓はスペクトル類似度D6
をそれぞれ表わしている。
これら図から理解出来るように、発声音「イ
チ」及び「ニ」のそれぞれの特徴量であるレベル
低下量類似度が対比されるべき「ニ」及び「イ
チ」の標準パタンのレベル低下量類似度よりも大
きいため、「イチ」及び「ニ」の発声音の音声パ
タンと標準パタンとでスペクトル類似度に差が無
くても、スペクトル類似度との併用により正確な
認識処理を行なうことが出来る。
この発明は、上述した実施例にのみ限定される
ものではなく、多くの変形又は変更を行ない得る
こと明らかである。例えば、レベル低下量計算部
16の各機能手段は何ら実施例で説明したものに
限定されるものではない。又、これら機能手段で
行なわれる動作手順も上述した実施例に限定され
るものではない。
更に、レベル低下量類似度計算部18及びレベ
ル低下量標準パタン記憶部17については詳細な
説明を省略したが、これらはスペクトル類似度計
算部13及びスペクトル標準パタン記憶部14と
同様にして構成出来る。
又、第1図に示した音声認識装置の動作は、メ
モリ、制御部、その他の通常の電子回路等を用い
て構成したマイクロコンピユーター等によつてソ
フト的に処理することが出来る。
(発明の効果) 以上詳細に説明したようにこの発明では正規化
スペクトルの類似度とレベル低下量類似度を用い
て認識判定を行う認識方式としたので、レベル情
報を加味した正確かつ安定な認識が可能となり認
識性能の優れた音声認識装置の実現が期待出来
る。
【図面の簡単な説明】
第1図はこの発明の音声認識方式の一実施例を
示す機能ブロツク図、第2図Aはこの発明のレベ
ル低下量計算部の一実施例を示す機能ブロツク
図、第2図Bはこの発明のレベル低下量パタン抽
出の処理手段を示す動作の流れ図、第3図A及び
Bはこの発明の説明に供する発声音「イチ」及び
「ニ」のレベル変動をそれぞれ示す図、第4図は
この発明のレベル低下量類似度の認識への貢献を
示す図、第5図は従来の音声認識装置を示す機能
ブロツク図、第6図はスペクトルマツチング技術
の説明図である。 10……周波数分析部、11……スペクトル正
規化部、12……音声区間検出部、13……スペ
クトル類似度計算部、14……スペクトル標準パ
タン記憶部、16……レベル低下量計算部、17
……レベル低下量標準パタン記憶部、18……レ
ベル低下量類似度計算部、19……判定部、20
……無音区間フレーム判定手段、21……レベル
低下量パタン抽出手段。

Claims (1)

  1. 【特許請求の範囲】 1 入力音声に対し複数のチヤネルによる周波数
    分析、対数変換を行い周波数スペクトルを抽出す
    る周波数分析部と、 前記周波数スペクトルに基づいて音声区間を検
    出する音声区間検出部と、 前記周波数スペクトル及び音声区間に基づいて
    前記周波数スペクトルに対して声帯音源特性の正
    規化を行つた正規化スペクトルパタンを算出する
    スペクトル正規化部と、 スペクトル標準パタンを予め格納したスペクト
    ル標準パタン記憶部と、 前記正規化スペクトルパタン及びスペクトル標
    準パタンの類似度計算を行い各認識対象カテゴリ
    に対するスペクトル類似度を算出するスペクトル
    類似度計算部と、 全ての認識対象カテゴリの中で最大の類似度を
    与えるカテゴリ名を認識結果として出力する判定
    部と を具える音声認識装置において、 a 音声区間内の各フレームについて入力音声レ
    ベルの最大値との大小比較により無音区間フレ
    ームの判定を行い、該無音区間フレームにおけ
    る入力音声レベルの該入力音声レベル最大値に
    対する相対的レベル低下量を算出して該無音区
    間フレームにおけるレベル低下量パタンとして
    抽出するレベル低下量パタン算出部と、 b レベル低下量標準パタンを予め格納したレベ
    ル低下量標準パタン記憶部と、 c レベル低下量パタンと、レベル低下量標準パ
    タンとの類似度計算を行い、各認識対象カテゴ
    リに対するレベル低下量類似度を算出するレベ
    ル低下量類似度算出部と を具え、 d 前記判定部における最大の類似度を前記スペ
    クトル類似度とレベル低下量類似度の両者を参
    照することにより各認識対象カテゴリ毎に算出
    された総合類似度のうち最大の総合類似度とし
    たことを特徴とする音声認識装置。 2 前記レベル低下量パタン算出部は、 a 音声入力中におけるフレーム毎に該フレーム
    における入力音声レベルを算出し、 該フレームにおける入力音声レベルが音声始
    端フレームから該フレームまでにおける入力音
    声レベル最大値の1/N以下であるときに該フ
    レームを無音区間フレームと判定する処理を音
    声始端フレームから音声終端フレームまで繰り
    返し行う音声区間フレーム判定手段と、 b 音声終端検出後、無音区間フレームについて
    各チヤネル毎に、前記入力音声レベル最大値か
    ら該無音区間フレーム及び該チヤネルにおける
    周波数スペクトル値を差し引いた値を前記入力
    音声レベル最大値で正規化した値を該無音区間
    フレーム及び該チヤネルにおけるレベル低下量
    とし、前記無音区間フレームと判定されなかつ
    たフレームについては該フレームの全チヤネル
    のレベル低下量は「0」とするレベル低下量パ
    タン抽出手段と を具えることを特徴とする特許請求の範囲第1
    項に記載の音声認識装置。
JP19627486A 1986-08-21 1986-08-21 音声認識装置 Granted JPS6350897A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP19627486A JPS6350897A (ja) 1986-08-21 1986-08-21 音声認識装置
US07/084,107 US4882755A (en) 1986-08-21 1987-08-11 Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19627486A JPS6350897A (ja) 1986-08-21 1986-08-21 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6350897A JPS6350897A (ja) 1988-03-03
JPH0466520B2 true JPH0466520B2 (ja) 1992-10-23

Family

ID=16355076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19627486A Granted JPS6350897A (ja) 1986-08-21 1986-08-21 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6350897A (ja)

Also Published As

Publication number Publication date
JPS6350897A (ja) 1988-03-03

Similar Documents

Publication Publication Date Title
US4780906A (en) Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal
US4833713A (en) Voice recognition system
JPH0352640B2 (ja)
US5355432A (en) Speech recognition system
US4882755A (en) Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature
US4856067A (en) Speech recognition system wherein the consonantal characteristics of input utterances are extracted
US6996527B2 (en) Linear discriminant based sound class similarities with unit value normalization
JPH0466520B2 (ja)
JPH0558560B2 (ja)
JP2001350494A (ja) 照合装置及び照合方法
JPH0465399B2 (ja)
JP2744622B2 (ja) 破裂子音識別方式
JP2844592B2 (ja) 離散単語音声認識装置
JPH05210397A (ja) 音声認識装置
JPS61180297A (ja) 話者照合装置
JPH01222299A (ja) 音声認識装置
JPS63223696A (ja) 音声パタ−ン作成方式
JP3411074B2 (ja) 母音区間検出装置及び母音区間検出方法
CN120071940A (zh) 一种语音数据处理方法及装置
JPS6350900A (ja) 音声認識装置
JPS6350898A (ja) 音声認識装置
JPH0816186A (ja) 音声認識装置
JPS6152698A (ja) 音声認識装置
JPH096383A (ja) 音声認識装置および方法
JPH0451840B2 (ja)