JPH0466520B2

JPH0466520B2 -

Info

Publication number: JPH0466520B2
Application number: JP19627486A
Authority: JP
Inventors: Yoichi Yamada; Keiko Takahashi
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1986-08-21
Filing date: 1986-08-21
Publication date: 1992-10-23
Also published as: JPS6350897A

Description

【発明の詳細な説明】（産業上の利用分野）この発明は音声認識装置、特にマツチング技術
を用いた音声認識装置に関するものである。

（従来の技術）音声認識を行う一般的な技術として以下に述べ
るスペクトルマツチング技術がある。先ず、この
発明の説明に先立ち、第５図及び第６図を用いて
従来提案されているスペクトルマツチング技術を
用いた音声認識装置につき簡単な説明を行う。

Ａ／Ｄ変換された入力音声信号Ｄ１は周波数分
析部１０へ入力される。周波数分析部１０はこの
入力信号Ｄ１に対し入力中心周波数の異なる（中
心周波数の番号付けを以後チヤネルと称す）バン
ドパスフイルタによる周波数分析及び対数変換を
行つた周波数スペクトルＤ２を所定の時間間隔
（以後フレームと称する。）毎に算出し（第６図
Ａ）、スペクトル正規化部１１及び音声区間検出
部１２へ出力する。

音声区間検出部１２は周波数スペクトルＤ２の
値の大きさなどから始端時刻と終端時刻とを決定
し始端時刻信号Ｄ３及び終端時刻信号Ｄ４をスペ
クトル正規化部１１へ出力する。

スペクトル正規化部１１は周波数スペクトルＤ
２からスペクトルの最小自乗近似直線を減じ正規
化スペクトル（第６図Ａ及びＢ）とする処理を始
端時刻から終端時刻まで行い正規化スペクトルパ
タンＤ５としてスペクトル類似度計算部１３へ出
力する。

上記処理を所定の時間間隔（フレーム）毎に音
声始端時刻から音声終端時刻まで繰り返し行う。

次にスペクトル類似度計算部１３は正規化スペ
クトルパタンＤ５と予めスペクトル標準パタン記
憶部１４に格納して用意されている全ての標準パ
タンとの類似度を算出し、各認識対象カテゴリに
対するスペクトル類似度Ｄ６を判定部１５へ出力
する。

判定部１５は全ての標準パタンの中で最大の類
似度を与える標準パタンが属するカテゴリ名を認
識結果として出力する。

以上述べた音声認識装置におけるスペクトルマ
ツチング技術によれば、スペクトル正規化を行う
ことにより話者の相違により発生する音声音源特
性の相違を吸収することが出来、不特定話者が発
声する音声の認識に対して有効である。

（発明が解決しようとする問題点）しかしながら、このスペクトルマツチング技術
によればスペクトル正規化は入力音声のレベルと
は無関係にスペクトルの形状を抽出する手法であ
るので、スペクトル正規化を行うことにより入力
音声のレベル情報は失われる。従つて入力音声中
に無音区間が存在する音声と入力音声中に無音区
間が存在しない音声との間で両者のスペクトル形
状の類似性が高い場合において両者を識別し正確
に認識結果を出力することが難しくなる問題点が
あつた。例えば「イチ」と「ニ」の２種類の音声
を考えた場合に、両者の母音定常部間のスペクト
ル形状は類似性が高く「イチ」において「チ」の
直前に発生する無音区間（入力信号レベルは周囲
雑音と同等であり、この区間におけるスペクトル
正規化出力は該音声入力中における周囲雑音スペ
クトルと同等のものとなる）のスペクトル正規化
出力が「ニ」のスペクトル正規化出力と類似性が
高い場合には両者を識別判定することは不可能と
なる。

このように、従来提案された音声認識装置は上
述した問題点に起因して音声認識性能の低下を招
いていた。

この発明の目的は以上述べた問題点を除去し、
入力音声のレベル情報を加味した特徴を抽出し、
標準パタンとの類似度演算に使用する構成と成す
ことにより、認識性能の優れた音声認識装置を提
供することにある。

（問題点を解決するための手段）この目的の達成を図るため、この発明の音声認
識装置によれば、ａ音声区間内の各フレーム（所定の時間間隔単
位）について入力音声レベルの最大値との大小
比較により無音区間フレームの判定を行い、こ
の無音区間フレームにおける入力音声レベルの
入力音声レベル最大値に対する相対的レベル低
下量を算出してこの相対的レベル低下量を無音
区間フレームにおけるレベル低下量パタンとし
て抽出するレベル低下量パタン算出部と、ｂレベル低下量標準パタンを予め読み出し自在
に格納したレベル低下量標準パタン記憶部と、ｃレベル低下量パタンと、レベル低下量標準パ
タンとの類似度計算を行い、各認識対象カテゴ
リに対するレベル低下量類似度を算出するレベ
ル低下量類似度算出部とを設ける。

ｄそして、さらにこのスペクトル類似度とレベ
ル低下量類似度の両者を参照することにより各
認識対象カテゴリ毎に総合類似度を算出し、こ
の総合類似度が全ての認識対象カテゴリの中で
最大となるカテゴリ名を認識結果として出力す
るように構成した判定部を具えている。

この発明の実施に当つては、好ましくはこのレ
ベル低下量パタン算出部には、無音区間フレーム
判定手段と、レベル低下量抽出手段とを設けるの
が良い。

この無音区間フレーム判定手段は、音声入力中
におけるフレーム毎に、該フレームにおける入力
音声レベルが音声始端フレームから該フレームま
でにおける入力音声レベル最大値の１／Ｎ以下で
あるときに該フレームを無音区間フレームと判定
する処理を音声終端フレームまで繰り返し行う機
能を有するのが好適である。

さらにレベル低下量抽出手段は、音声終端検出
後、無音区間フレームについて各チヤネル毎に音
声区間における入力音声レベル最大値から該無音
区間フレーム及び該チヤネルにおけるスペクトル
値を差し引いた値を音声区間における入力音声レ
ベル最大値で正規化した値を該無音区間フレーム
及び該チヤネルにおけるレベル低下量として算出
する処理を無音区間フレームと判定されたフレー
ム全てに対して行いレベル低下量パタンを作成す
ると共に、無音区間フレームと判定されなかつた
フレームについては該フレームの全チヤネルのレ
ベル低下量は「０」とする機能を有するのが良
い。

（作用）このように、この発明の音声認識装置によれ
ば、従来の識別判定に用いられているスペクトル
類似度の他に、同一音声区間内におけるスペクト
ル変化量を表わす特徴量であつて、しかもレベル
情報を取り入れたレベル低下量類似度を加えた総
合類似度で識別判定を行うので、正確かつ安定な
認識が可能となる。

（実施例）以下、図面を参照してこの発明の音声認識装置
の一実施例につき説明する。

第１図はこの発明の一実施例を示す機能ブロツ
ク図、第２図Ａはこの発明の一主要部を構成する
レベル低下量計算部の一例を示す機能ブロツク図
及び第２図Ｂは第２図Ａのレベル低下量計算部の
動作手順を説明するための流れ図である。第１図
及び第２図Ａ及びＢを用いてこの発明の動作説明
を行うが、第５図に示した構成成分に対応する構
成成分については同一符号を付して示し、その詳
細な説明は、特に相違する場合を除き、省略す
る。

この発明の実施例の音声認識装置によれば、第
５図に示した従来提案されている構成成分の他
に、発声音の特徴であるレベル情報、特にレベル
低下量標準パタンを予め読み出し自在に記憶させ
てあるレベル低下量標準パタン記憶部１７と、レ
ベル低下量パタン及びレベル低下量標準パタンの
類似度を計算するレベル低下量類似度計算部１８
とを設けると共に、判定部を総合類似度で認識判
定出来る判定部１９として構成している。

このレベル低下量計算部１６には、音声区間検
出部１２から始端時刻信号Ｄ３、終端時刻信号Ｄ
４及び入力音声レベル信号Ｄ８が供給されると共
に、周波数分析部１０から周波数スペクトルＤ２
が供給される。尚、この音声区間検出部１２は通
常レベル抽出部（図示せず）を備えていてフレー
ム毎の入力信号レベル（一例としてＡ／Ｄ変換出
力の１フレーム時間内における絶対値総和）を算
出し入力音声レベル信号Ｄ８を出力する構成とな
つている。

このレベル低下量計算部１６は第２図Ｂの説明
の項で後述する手法によりレベル低下量パタンＤ
９を算出し、レベル低下量類似度計算部１８へ出
力する。

このレベル低下量類似度計算部１８はレベル低
下量パタンＤ９と予めレベル低下量標準パタン記
憶部１７に記憶されている全てのレベル低下量標
準パタンＤ１０との類似度を計算し、各認識対象
カテゴリに対するレベル低下量類似度Ｄ１１を判
定部１９へ出力する。

判定部１９は認識対象カテゴリ毎にスペクトル
類似度Ｄ６とレベル低下量類似度Ｄ１１の総和を
算出し、該類似度総和値が全ての認識対象カテゴ
リの中で最大となるカテゴリ名を認識結果Ｄ１２
として出力する。

次に第２図Ａ及びＢの機能ブロツク図及び動作
の流れ図によりレベル低下量計算部１６の動作説
明を詳細に行う。この実施例では第２図Ａに示す
ように、レベル低下量計算部１６は無音区間フレ
ーム判定手段２０と、レベル低下量パタン抽出手
段とを具えている。そして、これら手段２０及び
２１による処理手順につき第２図Ｂを参照して以
下説明する。尚、以下の説明において、処理ステ
ツプをＳで表わす。

（）無音区間フレーム判定手段（第２図Ａに
２１で示す）フレーム毎に（以後、処理中のフレーム番号
をｊとする）音声区間検出部１２より始端時刻
信号Ｄ３が決定され入力されているか否かを判
定しＳ１、信号入力後始端フレーム番号SFR
＝ｊとして以下の処理を行う。

音声入力中におけるフレーム毎に、このフレ
ームにおける入力音声レベルLIN（ｊ）、（但し
ｊはフレーム番号）を算出するＳ２。次に１フ
レーム分の入力音声レベルLIN（ｊ）を入力し、
始端フレームから信号入力中のフレームまでに
おける入力音声レベルの最大値を求め、これを
MAXLとするＳ３。

次に、最大値MAXLをＮで除算した
MAXL／Ｎを求め、このフレームにおける入
力音声レベルLIN（ｊ）が下記の条件 LIN（ｊ）≦MAXL／Ｎ（Ｎは経験によつて定まる所定の正定数で通常
２〜３程度に設定される）を満足するか否かを判定するＳ４。

この条件を満足する場合には該フレームを無
音区間フレームと判定しＳ５てからステツプＳ
６へ移り、一方この条件を満足しない場合はそ
のままステツプＳ６へ移る。

ステツプＳ６において音声区間検出部１２よ
り終端検出を意味する終端時刻信号Ｄ４が入力
されているか否かを判定し、入力されていない
場合はステツプＳ２より処理を繰り返し行い、
入力されている場合は終端フレーム番号EFR
＝ｊとしてステツプＳ７へ移り、レベル低下量
パタンの作成を開始する。

（）レベル低下量パタン抽出部（第２図Ａに
２１で示す）ステツプＳ７においてフレーム番号FRを始
端フレーム番号SFRに初期化する。

フレーム番号FRが無音区間フレームと判定
されたか否かを判定しＳ８、各々の場合に対し
て以下のようにレベル低下量パタンLDP（ｉ，
FR）（但しｉ：チヤネル番号）を算出する。

（イ）無音区間フレームと判定された場合レベル低下量パタンLDP（ｉ，FR）は入
力音声レベル最大値MAXLからこの無音区
間フレーム及びこのチヤネルにおける周波数
スペクトル値SPEC（ｉ，FR）（但し、これ
はチヤネル番号ｉ、フレーム番号FRにおけ
る周波数スペクトル）を差し引いた値を、こ
の最大値MAXLで除算した値（正規化した
値）であり、 LDP（ｉ，FR）＝｛MAXL−SPEC（ｉ，
FR）｝／MAXL で与えられる。尚、このレベル低下量パタン
LDP（ｉ，FR）として上式の右辺に適当な
定数Ｃ１（但し、Ｃ１：正の任意の定数で設
計に応じて大きさが決まる。）を乗算させた
値としても良い。

上式により入力音声の最大レベルよりの該
無音区間フレーム及び該チヤネルにおける周
波数スペクトルの相対的低下量が算出される
Ｓ９。

（ロ）無音区間フレームと判定されなかつた場
合全てのチヤネルに対して、 LDP（ｉ，FR）＝０とするＳ１０。

次に、フレーム番号FRを１加算しＳ１１、
終端フレーム番号EFRとの大小比較、 FR＞EFR を行いＳ１２、この条件を満足しない場合は
ステツプＳ８よりの動作を繰り返し行い、満
足する場合はレベル低下量パタンの作成を終
了し、よつてレベル低下量パタンＤ９を抽出
する。

具体例の説明第３図Ａは発声音「イチ」及び第３図Ｂは
「ニ」の時間軸に対するレベル変動を表した図で
ある。

これら図から理解出来るように、第３図Ａに示
した「イ」に対するＡ領域、「チ」に対するＣ領
域及び第３図Ｂに示した「ニ」は、音声レベルが
高く無音区間でないが、第３図Ａの「イ」と
「チ」の中間の領域Ｂは無音区間と判定される領
域であり、該領域における周囲雑音スペクトルが
母音「イ」のスペクトルと類似性が高い場合にス
ペクトル類似度のみによる識別判定は難しいが、
この発明によるレベル低下量類似度は両者の間で
明白な相違があるので両類似度を併用することに
より正確な認識処理が行われる。

第４図は、判定部１９における発声音の音声パ
タンと、この発声音に類似する音声の標準パタン
との総合類似度を説明する図であり、第４図Ａは
第３図Ａの音声パタンを有する発声音「イチ」の
カテゴリ名「イチ」及びカテゴリ名「ニ」に対す
る総合類似度を表わし、第４図Ｂは第３図Ｂの音
声パタンを有する発声音「ニ」のカテゴリ名「イ
チ」及びカテゴリ名「ニ」に対する総合類似度を
表わしている。尚、図中〓はスペクトル変化量類
似度Ｄ１１を表わし、〓はスペクトル類似度Ｄ６
をそれぞれ表わしている。

これら図から理解出来るように、発声音「イ
チ」及び「ニ」のそれぞれの特徴量であるレベル
低下量類似度が対比されるべき「ニ」及び「イ
チ」の標準パタンのレベル低下量類似度よりも大
きいため、「イチ」及び「ニ」の発声音の音声パ
タンと標準パタンとでスペクトル類似度に差が無
くても、スペクトル類似度との併用により正確な
認識処理を行なうことが出来る。

この発明は、上述した実施例にのみ限定される
ものではなく、多くの変形又は変更を行ない得る
こと明らかである。例えば、レベル低下量計算部
１６の各機能手段は何ら実施例で説明したものに
限定されるものではない。又、これら機能手段で
行なわれる動作手順も上述した実施例に限定され
るものではない。

更に、レベル低下量類似度計算部１８及びレベ
ル低下量標準パタン記憶部１７については詳細な
説明を省略したが、これらはスペクトル類似度計
算部１３及びスペクトル標準パタン記憶部１４と
同様にして構成出来る。

又、第１図に示した音声認識装置の動作は、メ
モリ、制御部、その他の通常の電子回路等を用い
て構成したマイクロコンピユーター等によつてソ
フト的に処理することが出来る。

（発明の効果）以上詳細に説明したようにこの発明では正規化
スペクトルの類似度とレベル低下量類似度を用い
て認識判定を行う認識方式としたので、レベル情
報を加味した正確かつ安定な認識が可能となり認
識性能の優れた音声認識装置の実現が期待出来
る。

【図面の簡単な説明】

第１図はこの発明の音声認識方式の一実施例を
示す機能ブロツク図、第２図Ａはこの発明のレベ
ル低下量計算部の一実施例を示す機能ブロツク
図、第２図Ｂはこの発明のレベル低下量パタン抽
出の処理手段を示す動作の流れ図、第３図Ａ及び
Ｂはこの発明の説明に供する発声音「イチ」及び
「ニ」のレベル変動をそれぞれ示す図、第４図は
この発明のレベル低下量類似度の認識への貢献を
示す図、第５図は従来の音声認識装置を示す機能
ブロツク図、第６図はスペクトルマツチング技術
の説明図である。１０……周波数分析部、１１……スペクトル正
規化部、１２……音声区間検出部、１３……スペ
クトル類似度計算部、１４……スペクトル標準パ
タン記憶部、１６……レベル低下量計算部、１７
……レベル低下量標準パタン記憶部、１８……レ
ベル低下量類似度計算部、１９……判定部、２０
……無音区間フレーム判定手段、２１……レベル
低下量パタン抽出手段。

Claims

【特許請求の範囲】１入力音声に対し複数のチヤネルによる周波数
分析、対数変換を行い周波数スペクトルを抽出す
る周波数分析部と、前記周波数スペクトルに基づいて音声区間を検
出する音声区間検出部と、前記周波数スペクトル及び音声区間に基づいて
前記周波数スペクトルに対して声帯音源特性の正
規化を行つた正規化スペクトルパタンを算出する
スペクトル正規化部と、スペクトル標準パタンを予め格納したスペクト
ル標準パタン記憶部と、前記正規化スペクトルパタン及びスペクトル標
準パタンの類似度計算を行い各認識対象カテゴリ
に対するスペクトル類似度を算出するスペクトル
類似度計算部と、全ての認識対象カテゴリの中で最大の類似度を
与えるカテゴリ名を認識結果として出力する判定
部とを具える音声認識装置において、ａ音声区間内の各フレームについて入力音声レ
ベルの最大値との大小比較により無音区間フレ
ームの判定を行い、該無音区間フレームにおけ
る入力音声レベルの該入力音声レベル最大値に
対する相対的レベル低下量を算出して該無音区
間フレームにおけるレベル低下量パタンとして
抽出するレベル低下量パタン算出部と、ｂレベル低下量標準パタンを予め格納したレベ
ル低下量標準パタン記憶部と、ｃレベル低下量パタンと、レベル低下量標準パ
タンとの類似度計算を行い、各認識対象カテゴ
リに対するレベル低下量類似度を算出するレベ
ル低下量類似度算出部とを具え、ｄ前記判定部における最大の類似度を前記スペ
クトル類似度とレベル低下量類似度の両者を参
照することにより各認識対象カテゴリ毎に算出
された総合類似度のうち最大の総合類似度とし
たことを特徴とする音声認識装置。２前記レベル低下量パタン算出部は、ａ音声入力中におけるフレーム毎に該フレーム
における入力音声レベルを算出し、該フレームにおける入力音声レベルが音声始
端フレームから該フレームまでにおける入力音
声レベル最大値の１／Ｎ以下であるときに該フ
レームを無音区間フレームと判定する処理を音
声始端フレームから音声終端フレームまで繰り
返し行う音声区間フレーム判定手段と、ｂ音声終端検出後、無音区間フレームについて
各チヤネル毎に、前記入力音声レベル最大値か
ら該無音区間フレーム及び該チヤネルにおける
周波数スペクトル値を差し引いた値を前記入力
音声レベル最大値で正規化した値を該無音区間
フレーム及び該チヤネルにおけるレベル低下量
とし、前記無音区間フレームと判定されなかつ
たフレームについては該フレームの全チヤネル
のレベル低下量は「０」とするレベル低下量パ
タン抽出手段とを具えることを特徴とする特許請求の範囲第１
項に記載の音声認識装置。