JPS6389900A

JPS6389900A - 音声認識装置

Info

Publication number: JPS6389900A
Application number: JP23579686A
Authority: JP
Inventors: 高橋　圭子; 陽一山田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1986-10-03
Filing date: 1986-10-03
Publication date: 1988-04-20

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）この発明は音声認識装置、特に母音性類似度と子音性類
似度とを用いて音声認識を行う音声認識装置に関するも
のである。

（従来の技術）音声認識を行うに際し、入力音声の母音定常部の特徴を
安定及び正確に抽出することは認識性能を向上させるた
めに非常に大切なことである。それは、人間が発声する
音声の中で母音定常部が時間的に占める割合が、子音ま
たは母音から母音へ、或は、母音から子音等へ遷移する
部分である過渡部（非定常部）に比較して大であること
、また継続時間が比較的大であるので、発声タイミング
等の影晋によるバラツキが小さく安定に特徴を抽出する
ことが出来ることにより、母音定常部の特徴を主体とし
て利用する認識方式が有効であるという理由による。

従来装置において母音定常部の特徴抽出のために使用し
て有効な技術としてローカルピーク抽出の技術が提案さ
れている。この技術は母音定常部のホルマント周波数帯
域を検出しようとする技術である。

先ず、この発明の説明に先立ち、第８図及び第９図を用
いて従来提案されているローカルピーク抽出技術を用い
た音声認識装置につき簡単な説明を行う。

入力音声Ｄ１は人力された音声波形のＡ／Ｄ変換した値
である。このＡ／Ｄ変換は物理量（例えば音声）を電気
信号に変換したアナログ信号を、複数のビットで構成さ
れるディジタル信号に変換することであり、このディジ
タル信号で表わされる値は、最上位ビットを値の正負を
示す符号として用い、その他のビットでアナログ信号の
値を示す２の補数で表現されるものとする。

Ａ／Ｄ変換された入力音声信号ＤＩは音声分析部ＩＯへ
入力される。音声分析部ＩＯはこの入力信号ＤＩに対し
、中心周波数（各中心周波数に対応するチャネル番号ｋ
（ｋは正の整数）が付しである）の異なるバンドパスフ
ィルタによる周波数分析及び対数変換を順次に行った後
、得られた周波数スペクトルＤ２を所定の時間間隔（以
下フレームと称する。）毎に算出しく第９図（Ａ））、
スペクトル正規化部１１及び音声区間検出部１２へ送る
。音声区間検出部１２は周波数スペクトルＤ２の値の大
きさなどから始端時刻と終端時刻とを決定し始端時刻信
号Ｄ３及び終端時刻信号Ｄ４をローカルピークパタン抽
出部１３へ出力する。

スペクトル正規化部１１は、これら周波数スペクトルＤ
２から、これらスペクトルの最小自乗近似直線を派じて
スペクトルの正規化を行い（第９図（Ａ）及び（Ｂ））
、正規化スペクトルＤ５をローカルピークパタン抽出部
１３へ送る。

ローカルピークパタン抽出部１３はフレームにおける正
規化スペクトルの値が正値となるチャネルの中で、正規
化スペクトルが極大となるチャネルのローカルピークパ
タンを「１」、他の全てのチャネルのローカルピークパ
タンを「０」とする処理を音声始端フレームから音声終
端フレームまでの全てのフレームに対して逐次行い、ロ
ーカルピークパタンＤ６（第９図（Ｃ））としてローカ
ルピーク類似度演算部１４へ出力する。

ローカルピーク類似度演算部１４はローカルピークパタ
ンＤ６とローカルピーク標準パタン記憶部１５に予め用
意されたローカルピーク標準パタンＤ７とのローカルピ
ーク類似度を求める計算を行い、各認識対象カテゴリの
ローカルピーク類似度Ｄ８を判定部２３へ出力する。

判定部１６は得られた認識対象カテゴリ毎のローカルピ
ーク類似度Ｄ８の中で最大の類似度に与えられるカテゴ
リ名を認識結果Ｄ９として出力する。

（発明が解決しようとする問題点）以上説明したローカルピークは、母音定常部の特徴を安
定に抽出出来るが、ｓ、ｈといった摩擦音を例とする子
音部の特徴を安定に抽出することは難しい。なぜならば
、ローカルピークは正規化スペクトルの極大となる周波
数帯域を抽出する方法によるためである。

母音定常部はホルマント周波数帯域に相当するチャネル
において正規化スペクトルが極大になるため、ローカル
ピーク抽出技術で母音定常部の特徴を安定に抽出出来る
。しかし、子音部は母音定常部のように特定の周波数帯
域で正規化スペクトルが極大となることがないため、ロ
ーカルピークは不安定で一様に定まらない。

このように従来提案されたローカルピーク抽出技術を用
いた音声認識装置では、子音部の特徴を安定に抽出する
ことが難しいため、例えば「イチ」と「シチＪというよ
うに、母音定常部が同じようなローカルピークパタンを
有するカテゴリでは、両者の正確な認識が難しくなる問
題点があり、認識性能の低下を招いていた。

ところで、従来技術のローカルピーク抽出法は子音部の
抽出が不安定なために認識性能に問題があった。そこで
、別の手段により子音性の特徴を表わして音声認識を行
えば認識性能が向上すると考えられる。

従って、この発明の目的は、子音性の特徴を表わした特
徴量より算出される子音性類似度を判定に用いる構成と
することにより、以上説明した問題点を除去し、認識性
能の優れた音声認識装置を提供することにある。

（問題点を解決するための手段）この目的の達成を図るため、この発明の音声認識装置はａ）検出された音声区間を二つの領域に分割し、各々の
分割された領域において、零交差回数を用いて子音性特
徴を算出する子音性特徴算出部と、ｂ）認識対象カテゴ
リに対する設定値が予め格納された子音性特徴辞書と、Ｃ）算出された該子音性特徴と、前記認識対象カテゴリ
に対する設定値とを参照して認識対象カテゴリ毎に、類
似度を決定する処理を行い、得られた類似度の和を該認
識対象カテゴリに対する子音性類似度として出力する子
音性類似度演算部と、ｄ）航記判定部における最大の類
似度を、前記ローカルピークパタン類似度と子音性類似
度との両者を参照することにより各認識対象カテゴリ毎
に算出された総合類似度の中で最大の総合類似度とした
ことを特徴とする。

さらに、この発明の実施に当って、子音性特徴算出部に
は、ａ）音声区間を音声パワーを用いて二つの領域に分割す
る音声区間分割手段と、ｂ）入力音声の１フレーム中における零交差回数を検出
する零交差回数計数手段と、Ｃ）■分割された領域のフレーム番号が小であるほど重
みを大とするフレーム加重と、分割された領域の始端フ
レーム番号を１とし時間軸に対して正方向に１フレーム
増す毎にフレーム番号も１増える相対的なフレーム番号
（相対フレーム番号）とを、分割された領域の始端から
終端までの各フレームに、設定する手段及び ■分割された領域の始端から終端までのフレームにおい
て、所定の閾値以上の零交差回数が検出されたフレーム
に与えられたフレーム加重の総和を、分割された領域の
始端から終端までのフレームにおける相対フレーム番号
の総和で正規化して子音性特徴を得る手段を含む子音性
特徴算出手段とを設けるのが好適である。

（作用）このように、この発明によれば音声分析手段の１つの零
交差回数がｓ、ｈ等の子音部に対して値が大となる性質
に着目し、零交差回数を用いて子音性特徴を算出し、単
語の認識性能を向上させるものである。

また、抽出された音声の特徴の時間的な変化は音声認識
を行う上での重要なパラメータであり、そのため、この
発明では音声区間を時間的に分割して分割領域毎に子音
性特徴を算出する処理を行うことにより、子音性の特徴
の時間的変化を抽出し認識率の向上を果たしている。

（実施例）以下、図面を参照してこの発明の音声認識装置の実施例
につき説明する。

第１図はこの発明における実施例を示す機能ブロック図
、第２図（Ａ）は子音性特徴算出手段の一例を示す機能
ブロック図、第２図（Ｂ）はこの子音性特徴算出手段の
処理手順を示す流れ図である。

第１図及び第２図（Ａ）及び（Ｂ）を用いてこの発明の
音声認識装置及びその動作説明を行うが、第１図におい
て第８図に示した構成成分に対応する構成成分について
は同一符号を付して示し、その詳細な説明は、特に相違
する場合を除き、省略する。

立方切；壮苦のうこの発明の実施例の音声認識装置によれば、第８図に示
した従来提案されている構成成分の他に、音声区間を時
間的に分割して分割領域毎に子音性特徴の算出処理を行
う子音性特徴算出部２０と、算出される各子音性特徴の
認識対象カテゴリに対する設定値が予め読み出し自在に
格納されて用意された子音性特徴辞書２１と、子音性特
徴及び設定値を参照して子音性類似度を決定する子音性
類似度演算部２２とを設けると共に、判定部を子音性類
似度とローカルピーク類似度の両者を用いて得られる認
識対象カテゴリ毎の総合類似度で認識判定出来る判定部
２３として構成している。

さらに、この実施例では、子音性特徴算出部２０には、
入力音声のフレーム毎の零交差回数を検出する零交差回
数計数手段２４と、１つの音声区間を音声パワー情報を
用いて２つの分割領域にする音声区間分割手段２５と、
零交差回数の値か子音部に対して大となる性質を利用し
て子音性特徴を算出する子音性特徴算出手段２６とを設
ける。

零交差回数計数手段２４には入力信号としてＡ／Ｄ変換
値を供給する。この零交差数計数手段２４はフレーム毎
に；交差回数ＤＩＤを子音性特徴算出手段２６へ出力す
る。ここで、入力音声波形のＡ／Ｄ変換値か出力される
時間間隔をサンプルとする。フレームは所定の複数の連
続したサンプルより構成される。具体的にフレームをｌ
ｏｍ　ｓ、サンプルを８０μｓとすると、１２８サンプ
ルでｌフレームとなる。

零交差回数旧０は１フレーム中における、あるサンプル
での人力音声波形のＡ／Ｄ変換値と、その直前のサンプ
ルにおける入力音声波形のＡ／Ｄ変換値との符号が変化
する（すなわち零点を交差する）回数で求められる。こ
の零交差数計数手段２４はレベル比較器、カウンタ、そ
の他の電子手段を用いて容易に構成し得る。

音声区間分割手段２５には周波数スペクトルＤ２と、始
端時刻信号Ｄ３と、終端時刻信号Ｄ４とを供給する。こ
の音声区間分割手段２５は入力音声を二つの領域に分割
し、各分割領域の始端及び終端フレーム番号Ｄ１１を子
音性特徴算出手段２６へ出力する。音声区間分割の方法
は、例えば、音声パワー情報を用いてパワーディップ（
音声区間中で音声パワーが相対的に小さい区間）を抽出
し、パワーディップが検出された場合は入力音声の音声
区間におけるパワーディップ区間中の音声パワーが最小
値となるフレームを分割領域後半の始端フレームとする
ことで音声区間を二つの領域に分割し、パワーディップ
が検出されなかった場合は入力音声の始端フレームに音
声区間長の半分の長さを加算したフレームを領域後半の
始端フレームとすることで、音声区間を二つの領域に分
割する。この音声区間分割手段２５は、メモリ、パワー
レベル比較器、その他の電子手段を用いて容易に構成す
ることが出来る。

子音性特徴算出手段２６は後述する手法で子音性特徴を
算出し、各分割領域の子音性特徴０１２を子音性類似度
演算部２２へ出力する。

子音性類似度演算部２２は後述する手法で子音性特徴Ｄ
Ｉ２と子音性特徴辞書２１とを参照して各分割領域の類
似度を求め、認識対象カテゴリ毎に得られる類似度の和
を子音性類似度０１３として判定部２３へ出力する。

判定部２３は認識対象カテゴリ毎にローカルピーク類似
度Ｄ８と子音性類似度ＤＩ３との和を総合類似度とし、
得られた認識対象カテゴリ毎の総合類似度の中で最大の
総合類似度に与えられたカテゴリを認識結果Ｄ１４とし
て出力する。

ｆＬ６゛　　γ、Ｈｌ　　の説Ｅ１次に第２図（Ａ）及び（Ｂ）を参照して子音性特徴を算
出する動作を詳細に説明する。

子音性特徴の算出には零交差回数１）Ｉｆ）を用いた子
音性判定を行う。これはｓ、ｈ等の子音部に対して零交
差回数ＤＩＯは大となり、母音定常部に対しては零交差
回数０１０は小となる性質を有するため、子音性判定に
有効だという理由による。

この子音性特徴算出手段２６には第２図（Ａ）に示すよ
うにフレーム加重（分割領域でフレーム毎に与えられる
重み）及び相対フレーム番号設定手段３０と、子音性特
徴を得るための正規化手段３１とを主として設けである
。

今、説明の便宜のため、音声区間のフレーム番号をｊ、
分割領域番号をｋ（ｋ＝１．２）、ｋ番目の分割領域の
始端フレーム番号ＤＩｌを５ＴＡＲＴＦ　（ｋ）、その
終端フレーム番号ＤＩｌをＥＮＤＦ　（ｋ）、子音性判
定を行うフレームの相対フレーム番号をｍ、零交差回数
ＤＩＯをＺ（ｊ）、フレーム加重をｊｌ、零交差フレー
ム加重和（分割領域で子音の特徴を有すると判定された
フレームに与えられたフレーム加重の総和）をＺＦ、子
音性特徴ＤＩ２をＣ２とする。

先ず、分割領域番号ｋに１を設定する（Ｓｌ、ステップ
Ｓｌ）。そして相対フレーム番号ｍに５ＴＡＲＴＦ　（
ｋ）を、；交差フレーム加重和ＺＦに０を、フレーム加
重ｊｌにＬＥＮＧ（Ｌ、ＥＮＧは分割領域の領域長でＥ
ＮＤＦ　（ｋ）−３ＴＡＲＴＦ　（ｋ）＋１で算出され
る）をそれぞれ初期設定する（Ｓ２）。

この初期設定を行うに当り、フレーム加重及び相対フレ
ーム番号設定手段３０においては、ｋ＝１番目の分割領
域の始端フレーム番号５ＴＡＲＴＦ（１）から終端フレ
ーム番号ＥＮＤＦ　（１）を減算し、その減算結果に１
を加算する演算処理を行う。この始端フレームに対する
これらの初期設定値を書き込み及び読み出し自在なメモ
リ（図示せず）に記憶させる。

次に、この設定手段３０において、該フレームが子音の
特徴を有するかの子音性判定を行う。すなわちＺ（ｊ）≧ＴＨＬ・・・条件（Ａ）（ＴＨＬは閾値で、経験的に設定される）を満足するか
で子音の特徴を有するかを判定する（Ｓ３）。この閾値
は読み出し可能なメモリ（図示せず）に予め格納してお
き、零交差回数０１０の入力毎にメモリから読み出して
適当な比較手段を用いて条件（Ａ）の判定を行う。

上記条件（Ａ）を満足するどき零交差フレーム加重和ｚ
Ｆ＜始端フレームではＺＦ＝０）にフレーム加重ｊｌを
加算しく下記の（り式）、現フレームでの零交差フレー
ム加重和ＺＦを求める（Ｓ４）。

ＺＦ＝ＺＦ十ｊ　１−　・・（１）始端フレームでは（１）式より２Ｆ＝ｏ＋ｊｌ＝ＬＥＮ
Ｇとなる。

一方、条件（Ａ）を満足しないときはステップＳ４の処
理である（１）式の加算を行わない。

該フレームにおいての子音性判定を行った後、分割領域
中での次のフレームのための相対フレーム番号ｍ及びフ
レーム加重を得るため、相対フレーム番号ｍに１を加算
し、フレーム加重ｊ１から１を減算する（Ｓ５）。

次に、ステップＳ６において、上述した処理かに＝１番
目の分割領域の全てのフレームについて行われたかどう
かを判断する。すなわち、ｊ≦ＥＮＤＦ　（ｋ）を満足するときは、ステップＳ３からの処理を次のフレ
ームから終端フレームまで順次繰り返し行い、満足しな
いときは該分割領域におけるステップＳ３からの処理を
終了する。

ステップＳ２からステップＳ６までの処理が終了した後
、正規化手段３１において、該分割領域における子音性
特徴Ｃｋを（２）式に従って算出する（Ｓ７）。

この子音性特徴Ｃｋは、該分割領域で子音の特徴を有す
ると判定されたフレームに与えられたフレーム加重の総
和である零交差フレーム加重和ＺＦを、該分割領域の相
対フレーム番号の総和するフレームが該分割領域の始端
付近に現われるほど値は大となる。

以上でに＝１の分割領域での子音性特徴Ｃｋの算出を終
了する。

次に、分割領域番号ｋに１を加算し、ステップＳ９でに
≦２を満足するかの判断を行い、これを満足するときは
ステップＳ２から５８までの処理を順次繰り返し、ｋ≦
２を満足しないときはに＝２の分割領域での子音性特徴
Ｃｋを算出したのであるから、この一連の処理を終了す
る。

ｆ−旧汁目１ｆｆｉ（１’）　　　　＊（７）”用認識
対象となる音声には様々なカテゴリが含まれ、カテゴリ
毎に子音性の特徴の時間的な変化が異なる。例えば、イ
チというカテゴリは音声区間の後半部のみに子音性の特
徴が出現し、シチというカテゴリは音声区間の始端付近
と音声区間の後半部に子音性の特徴が出現する。このた
め、子音性の特徴の時間的な変化は、音声認識を行う上
での重要なパラメータとなる。

この発明において、音声区間を時間的に二分割して分割
領域毎の子音性特徴を算出する技術を用いることにより
、子音性の特徴の時間的変化を抽出し認識率の向上を果
たしている。

第３図及び第４図はイチとシチの発声音の例を示す。第
３図（Ａ）及び第４図（Ａ）は縦軸に音声パワー及び横
軸にフレームを取ってそれぞれ示しである。また、第３
図（Ｂ）はイチの、第４図（Ｂ）はシチのローカルピー
クパタンを、縦軸にチャネル番号及び横軸にフレームを
取ってそれぞれ示し、図中、黒く塗られた部分にローカ
ルピークが現われている（ローカルピーク値が１）こと
を示す。また、第３図（Ｃ）及び第４図（Ｃ）は縦軸に
零交差回数及び横軸にフレームを取って示す図である。

イチとシチは同様な母音定常部を持つため、両者のロー
カルピークパタンは類似し、両者は誤認識されやすい。

しかし、イチとシチの零交差回数を示した第３図（Ｃ）
及び第４図（Ｃ）から理解出来るように、両者の語頭部
においてシチは子音部が現われるが（零交差回数が大き
い値をもつ）、イチにはそれがない。従って、この発明
の実施例に従って子音性特徴を算出すると、分割領域の
ｌ前半における子音性特徴はイチに対して小さく、シチ
に対して大きくなり両者の識別が容易になる。

また第５図及び第６図はドープとゴの発声音の例を示す
。第５図（Ａ）及び第６図（Ａ）は第３図（Ａ）と、第
５図（Ｂ）及び第６図（Ｂ）は第３図（Ｂ）と、第５図
（Ｃ）及び第６図（Ｃ）は第３図（Ｃ）とそれぞれ対応
する図である。

第５図（Ｂ）はドープの、第６図（Ｂ）はゴのローカル
ピークパタンをそれぞれ示し、黒く塗られた部分にロー
カルピークが現われている（ローカルピーク値が１）こ
とを示す。

このドープは音声区間中に小さなパワーディップが存在
するが、母音定常部はゴと同様となり両者のローカルピ
ークパタンは類似する。しかしドープとゴの零交差回数
を示した第５図（Ｃ）及び第６図（Ｃ）からも理解出来
るように、ドープは語頭及び語中に子音部が現われるが
、ゴは語頭のみに子音部が現われる。従って、この発明
の実施例に従って子音性特徴を算出すると（ゴは）くワ
ーディップが存在しないため音声区間の真中で二分割さ
れる）分割領域の後半における子音性特徴はドープに対
しては大きく、ゴに対しては小さくなり両者の識別が可
能になる。

五丘止工藍度辺１■ 次に、子音性類似度を算出する動作を詳細に説明する。

第７図（Ａ）は分割領域前半（ｋ＝１）の子音性特徴よ
り分割領域前半の類似度を、第７図（Ｂ）は分割領域後
半（ｋ＝２）の子音性特徴より分割領域後半の類似度を
求めるために設定された子音性特徴辞書２１の内容を説
明するための図である。

二つの子音性特徴辞書ともに、認識対象カテゴリ毎に類
似度としての加算値Ａｋ　　（ｎ）と、この類似度を辞
書２１から読み出すための子音性特徴Ｃｋの上限値ＵＰ
ｂ　　（ｎ）及びその下限値ＵＮｋ（ｎ）（但しｎは認
識対象カテゴリ番号である。）とにより構成されている
。例えば、ｋ＝１の分割領域について例を示すと、カテ
ゴリ「イチ」の類似度としての加算値は７０であり、こ
の加算値７０を読み出すことの出来る子音性特徴Ｃｋの
上限値は０．２で下限値は０である。このような値が各
カテゴリ毎に経験によりて求められて与えられていてテ
ーブルとなって格納されている。

ｋ＝２の分割領域の各カテゴリについても同様に各値が
テーブルとなって格納されている。

子音性類似度は、算出された子音性特徴Ｃ３（ｋ＝１．
２）と子音性特徴辞書２Ｉとを参照して求めた分割領域
毎の類似度の和として、認識対象カテゴリ毎に算出され
る。

この分割領域毎の類似度は、子音性特徴Ｃ５が特徴辞書
２１に設定された上限値と下限値で定められた範囲内に
ある認識対象カテゴリに対しては加算値Ａｈ　　（ｎ）
が与えられ、定められた範囲外である認識対象カテゴリ
に対しては０が与えられる。

例えば、子音性特徴をＣ，＝０．２　（分割領域前半：に＝１）Ｃ２＝０．６
　（分割領域後半：に＝２）とした場合に、認識対象カ
テゴリ毎の子音性類似度は次のように算出される。

Ｃ１に対し第７図（Ａ）の子音性特徴辞書２１を参照し
、Ｃ１が分布兄囲内となる「イチ」及び「二」の認識対
象カテゴリには、それぞれ子音性特徴辞書２１に設定さ
れた７０と５０が類似度となる。

またＣＩが範囲外である「ゼロＪ、「ゴ」及び「シチ」
なとの認識対象カテゴリの類似度は０となる。

Ｃ２の場合は第７図（Ｂ）の子音性特徴辞書２１を参照
し、「イチ」と「シチ」に対して類似度は７０となり「
ゼロ」、「二」及び「ゴ」などの類似度は０となる。

このように求められた分割領域毎の類似度より子音性類
似度は「ゼロＪは０＋０＝０「イチ」は７０＋　６０＝　１：１０「二」　は５０＋　Ｏ＝　５０となる。

この発明は上述した実施例のみに限定されるものではな
く、多くの変形または変更を行い１１することは明らか
である。例えば、実施例で説明した子音性特徴算出部２
０の各機能手段及びその他の構成成分は何ら実施例のも
のに限定されるものではなく、また、その動作手順も上
述した実施例にのみ限定されるものではない。また、分
割領域を二つの領域としたが三つ以上の分割領域として
もよい。

また、第１図及び第２図（Ａ）に示した音声認識装置の
各構成成分の動作は、メモリ、制御部、その他通常の電
子回路等を用いて構成したマイクロコンピュータ等によ
ってソフト的に処理することが出来る。

（発明の効果）上述した説明から明らかなように、この発明は母音性定
常部のパタンを安定に抽出した結果であるローカルピー
クパタンによるローカルピーク類似度に子音部の特徴を
評価量にして求めた子音性類似度を加味して判定を行う
ことにより、正確で安定な音声認識装置の提供が期待出
来る。

【図面の簡単な説明】

第１図はこの発明による音声認識装置の実施例を示すブ
ロック図・７ｊＳ２図（Ａ）は子音性特徴算出手段の機能ブロック
図、第２図（Ｂ）は子音性特徴算出の処理を示す流れ図、第３図及び第４図は「イチ」と「シチ」を例にした子音
性特徴算出の実施例をそれぞれ示す図、第５図は及び第
６図は「ドープ」と「ゴ」を例にした子音性特徴算出の
実施例をそれぞれ示す図、第７図は分割された領域毎に設定されている子音性特徴
辞書の内容の実施例を示す図、第８図は従来提案された
音声認識装置を説明するためのブロック図、第９図はローカルピークパタン算出の説明図である。１０・・・音声分析部、　　　　１１・・・スペクトル
正規化部１２・・・音声区間検出部１３・・・ローカルピークパタン抽出部１４・・・ロー
カルピーク類似度演算部１５・・・ローカルピーク標準
パタン記憶部２０・・・子音性特徴算出部２１・・・子音性特徴辞書２２・・・子音性類似度演算部２３・・・判定部、　　　　　２４・・・零交差回数計
算手段２５・・・音声区間分割手段２６・・・子音性特徴算出手段３０・・・フレーム加重及び相対フレーム番号設定手段
３１・・・正規化手段。特許出願人　　　　　沖電気工業株式会社く７ムー４７Ｌ−ム５丁ＡＲＴＦ（１）　　　５丁ＡＲ丁ＦＣ２＞　　　　
　　　　　ＥＮＤＦ（２”）フＬ−ム ″Ｆ−童性特糟史１品４列第３図フμｍ４７μｍム５ＴＡＲ下Ｆ（イン　　　５ＴＡＲＴＦで２）　　　　
　　　　　　　）：ＮＤＦ−（２）７−−ム ″＋−４−性特１に算出伊１　Ｌ−４＞’ｆｒｉｔｅｒｆＵ４Ｌ硬Ｊく＝＋ゴキル４ｒ１（Ｃ）　　　０００１０００００１００００１０００ロ
ー刀ルご０−クノゾタンローカルぴ−７ｎタン算ＥｇＱ　朝の第９図

Claims

【特許請求の範囲】

（１）入力音声に対し複数のチャネルによる周波数分析
、対数変換を行い周波数スペクトルを抽出する音声分析
部と、前記周波数スペクトルに基づいて音声区間を検出する音
声区間検出部と、前記周波数スペクトルに基づいて前記周波数スペクトル
の最小自乗近似直線により正規化した正規化スペクトル
パタンを算出するスペクトル正規化部と、前記正規化スペクトルパタンの値が正値かつ極大値とな
るチャネル成分を「１」、その他の全てのチャネル成分
を「０」とする処理を音声区間内の全てのフレームに対
して行いローカルピークパタンを抽出するローカルピー
クパタン抽出部と、ローカルピーク標準パタンを予め格
納したローカルピーク標準パタン記憶部と、前記ローカルピークパタン及びローカルピーク標準パタ
ンの類似度計算を行い各認識対象カテゴリに対するロー
カルピークパタン類似度を算出するローカルピーク類似
度計算部と、全ての認識対象カテゴリの中で最大の類似度を与えるカ
テゴリ名を認識結果として出力する判定部とを具える音声認識装置において、ａ）検出された音声区間を二つの領域に分割し、各々の
分割された領域において、零交差回数を用いて子音性特
徴を算出する子音性特徴算出部と、ｂ）認識対象カテゴ
リに対する設定値が予め格納された子音性特徴辞書と、ｃ）算出された該子音性特徴と、前記認識対象カテゴリ
に対する設定値とを参照して認識対象カテゴリ毎に、類
似度を決定する処理を行い、得られた類似度の和を該認
識対象カテゴリに対する子音性類似度として出力する子
音性類似度演算部と、ｄ）前記判定部における最大の類
似度を、前記ローカルピークパタン類似度と子音性類似
度との両者を参照することにより各認識対象カテゴリ毎
に算出された総合類似度の中で最大の総合類似度とした
ことを特徴とする音声認識装置。
（２）子音性特徴算出部は、ａ）音声区間を音声パワーを用いて二つの領域に分割す
る音声区間分割手段と、ｂ）入力音声の１フレーム中における零交差回数を検出
する零交差回数計数手段と、ｃ）［１］分割された領域のフレーム番号が小であるほ
ど重みを大とするフレーム加重と、分割された領域の始
端フレーム番号を１とし時間軸に対して正方向に１フレ
ーム増す毎にフレーム番号も１増える相対的なフレーム
番号（相対フレーム番号）とを、分割された領域の始端
から終端までの各フレームに設定する手段及び［２］分割された領域の始端から終端までのフレームに
おいて、所定の閾値以上の零交差回数が検出されたフレ
ームに与えられたフレーム加重の総和を、分割された領
域の始端から終端までのフレームにおける相対フレーム
番号の総和で正規化して子音性特徴を得る手段を含む子音性特徴算出手段とを具えることを特徴とする特許請求の範囲第１項に記載
の音声認識装置。