JPS6389900A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6389900A
JPS6389900A JP23579686A JP23579686A JPS6389900A JP S6389900 A JPS6389900 A JP S6389900A JP 23579686 A JP23579686 A JP 23579686A JP 23579686 A JP23579686 A JP 23579686A JP S6389900 A JPS6389900 A JP S6389900A
Authority
JP
Japan
Prior art keywords
consonant
similarity
frame
speech
local peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP23579686A
Other languages
English (en)
Inventor
高橋 圭子
陽一 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP23579686A priority Critical patent/JPS6389900A/ja
Publication of JPS6389900A publication Critical patent/JPS6389900A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は音声認識装置、特に母音性類似度と子音性類
似度とを用いて音声認識を行う音声認識装置に関するも
のである。
(従来の技術) 音声認識を行うに際し、入力音声の母音定常部の特徴を
安定及び正確に抽出することは認識性能を向上させるた
めに非常に大切なことである。それは、人間が発声する
音声の中で母音定常部が時間的に占める割合が、子音ま
たは母音から母音へ、或は、母音から子音等へ遷移する
部分である過渡部(非定常部)に比較して大であること
、また継続時間が比較的大であるので、発声タイミング
等の影晋によるバラツキが小さく安定に特徴を抽出する
ことが出来ることにより、母音定常部の特徴を主体とし
て利用する認識方式が有効であるという理由による。
従来装置において母音定常部の特徴抽出のために使用し
て有効な技術としてローカルピーク抽出の技術が提案さ
れている。この技術は母音定常部のホルマント周波数帯
域を検出しようとする技術である。
先ず、この発明の説明に先立ち、第8図及び第9図を用
いて従来提案されているローカルピーク抽出技術を用い
た音声認識装置につき簡単な説明を行う。
入力音声D1は人力された音声波形のA/D変換した値
である。このA/D変換は物理量(例えば音声)を電気
信号に変換したアナログ信号を、複数のビットで構成さ
れるディジタル信号に変換することであり、このディジ
タル信号で表わされる値は、最上位ビットを値の正負を
示す符号として用い、その他のビットでアナログ信号の
値を示す2の補数で表現されるものとする。
A/D変換された入力音声信号DIは音声分析部IOへ
入力される。音声分析部IOはこの入力信号DIに対し
、中心周波数(各中心周波数に対応するチャネル番号k
(kは正の整数)が付しである)の異なるバンドパスフ
ィルタによる周波数分析及び対数変換を順次に行った後
、得られた周波数スペクトルD2を所定の時間間隔(以
下フレームと称する。)毎に算出しく第9図(A))、
スペクトル正規化部11及び音声区間検出部12へ送る
。音声区間検出部12は周波数スペクトルD2の値の大
きさなどから始端時刻と終端時刻とを決定し始端時刻信
号D3及び終端時刻信号D4をローカルピークパタン抽
出部13へ出力する。
スペクトル正規化部11は、これら周波数スペクトルD
2から、これらスペクトルの最小自乗近似直線を派じて
スペクトルの正規化を行い(第9図(A)及び(B))
、正規化スペクトルD5をローカルピークパタン抽出部
13へ送る。
ローカルピークパタン抽出部13はフレームにおける正
規化スペクトルの値が正値となるチャネルの中で、正規
化スペクトルが極大となるチャネルのローカルピークパ
タンを「1」、他の全てのチャネルのローカルピークパ
タンを「0」とする処理を音声始端フレームから音声終
端フレームまでの全てのフレームに対して逐次行い、ロ
ーカルピークパタンD6(第9図(C))としてローカ
ルピーク類似度演算部14へ出力する。
ローカルピーク類似度演算部14はローカルピークパタ
ンD6とローカルピーク標準パタン記憶部15に予め用
意されたローカルピーク標準パタンD7とのローカルピ
ーク類似度を求める計算を行い、各認識対象カテゴリの
ローカルピーク類似度D8を判定部23へ出力する。
判定部16は得られた認識対象カテゴリ毎のローカルピ
ーク類似度D8の中で最大の類似度に与えられるカテゴ
リ名を認識結果D9として出力する。
(発明が解決しようとする問題点) 以上説明したローカルピークは、母音定常部の特徴を安
定に抽出出来るが、s、hといった摩擦音を例とする子
音部の特徴を安定に抽出することは難しい。なぜならば
、ローカルピークは正規化スペクトルの極大となる周波
数帯域を抽出する方法によるためである。
母音定常部はホルマント周波数帯域に相当するチャネル
において正規化スペクトルが極大になるため、ローカル
ピーク抽出技術で母音定常部の特徴を安定に抽出出来る
。しかし、子音部は母音定常部のように特定の周波数帯
域で正規化スペクトルが極大となることがないため、ロ
ーカルピークは不安定で一様に定まらない。
このように従来提案されたローカルピーク抽出技術を用
いた音声認識装置では、子音部の特徴を安定に抽出する
ことが難しいため、例えば「イチ」と「シチJというよ
うに、母音定常部が同じようなローカルピークパタンを
有するカテゴリでは、両者の正確な認識が難しくなる問
題点があり、認識性能の低下を招いていた。
ところで、従来技術のローカルピーク抽出法は子音部の
抽出が不安定なために認識性能に問題があった。そこで
、別の手段により子音性の特徴を表わして音声認識を行
えば認識性能が向上すると考えられる。
従って、この発明の目的は、子音性の特徴を表わした特
徴量より算出される子音性類似度を判定に用いる構成と
することにより、以上説明した問題点を除去し、認識性
能の優れた音声認識装置を提供することにある。
(問題点を解決するための手段) この目的の達成を図るため、この発明の音声認識装置は a)検出された音声区間を二つの領域に分割し、各々の
分割された領域において、零交差回数を用いて子音性特
徴を算出する子音性特徴算出部と、b)認識対象カテゴ
リに対する設定値が予め格納された子音性特徴辞書と、 C)算出された該子音性特徴と、前記認識対象カテゴリ
に対する設定値とを参照して認識対象カテゴリ毎に、類
似度を決定する処理を行い、得られた類似度の和を該認
識対象カテゴリに対する子音性類似度として出力する子
音性類似度演算部と、d)航記判定部における最大の類
似度を、前記ローカルピークパタン類似度と子音性類似
度との両者を参照することにより各認識対象カテゴリ毎
に算出された総合類似度の中で最大の総合類似度とした
こと を特徴とする。
さらに、この発明の実施に当って、子音性特徴算出部に
は、 a)音声区間を音声パワーを用いて二つの領域に分割す
る音声区間分割手段と、 b)入力音声の1フレーム中における零交差回数を検出
する零交差回数計数手段と、 C)■分割された領域のフレーム番号が小であるほど重
みを大とするフレーム加重と、分割された領域の始端フ
レーム番号を1とし時間軸に対して正方向に1フレーム
増す毎にフレーム番号も1増える相対的なフレーム番号
(相対フレーム番号)とを、分割された領域の始端から
終端までの各フレームに、設定する手段及び ■分割された領域の始端から終端までのフレームにおい
て、所定の閾値以上の零交差回数が検出されたフレーム
に与えられたフレーム加重の総和を、分割された領域の
始端から終端までのフレームにおける相対フレーム番号
の総和で正規化して子音性特徴を得る手段を含む子音性
特徴算出手段とを設けるのが好適である。
(作用) このように、この発明によれば音声分析手段の1つの零
交差回数がs、h等の子音部に対して値が大となる性質
に着目し、零交差回数を用いて子音性特徴を算出し、単
語の認識性能を向上させるものである。
また、抽出された音声の特徴の時間的な変化は音声認識
を行う上での重要なパラメータであり、そのため、この
発明では音声区間を時間的に分割して分割領域毎に子音
性特徴を算出する処理を行うことにより、子音性の特徴
の時間的変化を抽出し認識率の向上を果たしている。
(実施例) 以下、図面を参照してこの発明の音声認識装置の実施例
につき説明する。
第1図はこの発明における実施例を示す機能ブロック図
、第2図(A)は子音性特徴算出手段の一例を示す機能
ブロック図、第2図(B)はこの子音性特徴算出手段の
処理手順を示す流れ図である。
第1図及び第2図(A)及び(B)を用いてこの発明の
音声認識装置及びその動作説明を行うが、第1図におい
て第8図に示した構成成分に対応する構成成分について
は同一符号を付して示し、その詳細な説明は、特に相違
する場合を除き、省略する。
立方切;壮苦のう この発明の実施例の音声認識装置によれば、第8図に示
した従来提案されている構成成分の他に、音声区間を時
間的に分割して分割領域毎に子音性特徴の算出処理を行
う子音性特徴算出部20と、算出される各子音性特徴の
認識対象カテゴリに対する設定値が予め読み出し自在に
格納されて用意された子音性特徴辞書21と、子音性特
徴及び設定値を参照して子音性類似度を決定する子音性
類似度演算部22とを設けると共に、判定部を子音性類
似度とローカルピーク類似度の両者を用いて得られる認
識対象カテゴリ毎の総合類似度で認識判定出来る判定部
23として構成している。
さらに、この実施例では、子音性特徴算出部20には、
入力音声のフレーム毎の零交差回数を検出する零交差回
数計数手段24と、1つの音声区間を音声パワー情報を
用いて2つの分割領域にする音声区間分割手段25と、
零交差回数の値か子音部に対して大となる性質を利用し
て子音性特徴を算出する子音性特徴算出手段26とを設
ける。
零交差回数計数手段24には入力信号としてA/D変換
値を供給する。この零交差数計数手段24はフレーム毎
に;交差回数DIDを子音性特徴算出手段26へ出力す
る。ここで、入力音声波形のA/D変換値か出力される
時間間隔をサンプルとする。フレームは所定の複数の連
続したサンプルより構成される。具体的にフレームをl
om s、サンプルを80μsとすると、128サンプ
ルでlフレームとなる。
零交差回数旧0は1フレーム中における、あるサンプル
での人力音声波形のA/D変換値と、その直前のサンプ
ルにおける入力音声波形のA/D変換値との符号が変化
する(すなわち零点を交差する)回数で求められる。こ
の零交差数計数手段24はレベル比較器、カウンタ、そ
の他の電子手段を用いて容易に構成し得る。
音声区間分割手段25には周波数スペクトルD2と、始
端時刻信号D3と、終端時刻信号D4とを供給する。こ
の音声区間分割手段25は入力音声を二つの領域に分割
し、各分割領域の始端及び終端フレーム番号D11を子
音性特徴算出手段26へ出力する。音声区間分割の方法
は、例えば、音声パワー情報を用いてパワーディップ(
音声区間中で音声パワーが相対的に小さい区間)を抽出
し、パワーディップが検出された場合は入力音声の音声
区間におけるパワーディップ区間中の音声パワーが最小
値となるフレームを分割領域後半の始端フレームとする
ことで音声区間を二つの領域に分割し、パワーディップ
が検出されなかった場合は入力音声の始端フレームに音
声区間長の半分の長さを加算したフレームを領域後半の
始端フレームとすることで、音声区間を二つの領域に分
割する。この音声区間分割手段25は、メモリ、パワー
レベル比較器、その他の電子手段を用いて容易に構成す
ることが出来る。
子音性特徴算出手段26は後述する手法で子音性特徴を
算出し、各分割領域の子音性特徴012を子音性類似度
演算部22へ出力する。
子音性類似度演算部22は後述する手法で子音性特徴D
I2と子音性特徴辞書21とを参照して各分割領域の類
似度を求め、認識対象カテゴリ毎に得られる類似度の和
を子音性類似度013として判定部23へ出力する。
判定部23は認識対象カテゴリ毎にローカルピーク類似
度D8と子音性類似度DI3との和を総合類似度とし、
得られた認識対象カテゴリ毎の総合類似度の中で最大の
総合類似度に与えられたカテゴリを認識結果D14とし
て出力する。
fL6゛  γ、Hl  の説E1 次に第2図(A)及び(B)を参照して子音性特徴を算
出する動作を詳細に説明する。
子音性特徴の算出には零交差回数1)If)を用いた子
音性判定を行う。これはs、h等の子音部に対して零交
差回数DIOは大となり、母音定常部に対しては零交差
回数010は小となる性質を有するため、子音性判定に
有効だという理由による。
この子音性特徴算出手段26には第2図(A)に示すよ
うにフレーム加重(分割領域でフレーム毎に与えられる
重み)及び相対フレーム番号設定手段30と、子音性特
徴を得るための正規化手段31とを主として設けである
今、説明の便宜のため、音声区間のフレーム番号をj、
分割領域番号をk(k=1.2)、k番目の分割領域の
始端フレーム番号DIlを5TARTF (k)、その
終端フレーム番号DIlをENDF (k)、子音性判
定を行うフレームの相対フレーム番号をm、零交差回数
DIOをZ(j)、フレーム加重をjl、零交差フレー
ム加重和(分割領域で子音の特徴を有すると判定された
フレームに与えられたフレーム加重の総和)をZF、子
音性特徴DI2をC2とする。
先ず、分割領域番号kに1を設定する(Sl、ステップ
Sl)。そして相対フレーム番号mに5TARTF (
k)を、;交差フレーム加重和ZFに0を、フレーム加
重jlにLENG(L、ENGは分割領域の領域長でE
NDF (k)−3TARTF (k)+1で算出され
る)をそれぞれ初期設定する(S2)。
この初期設定を行うに当り、フレーム加重及び相対フレ
ーム番号設定手段30においては、k=1番目の分割領
域の始端フレーム番号5TARTF(1)から終端フレ
ーム番号ENDF (1)を減算し、その減算結果に1
を加算する演算処理を行う。この始端フレームに対する
これらの初期設定値を書き込み及び読み出し自在なメモ
リ(図示せず)に記憶させる。
次に、この設定手段30において、該フレームが子音の
特徴を有するかの子音性判定を行う。すなわち Z(j)≧THL・・・条件(A) (THLは閾値で、経験的に設定される)を満足するか
で子音の特徴を有するかを判定する(S3)。この閾値
は読み出し可能なメモリ(図示せず)に予め格納してお
き、零交差回数010の入力毎にメモリから読み出して
適当な比較手段を用いて条件(A)の判定を行う。
上記条件(A)を満足するどき零交差フレーム加重和z
F<始端フレームではZF=0)にフレーム加重jlを
加算しく下記の(り式)、現フレームでの零交差フレー
ム加重和ZFを求める(S4)。
ZF=ZF十j 1− ・・(1) 始端フレームでは(1)式より2F=o+jl=LEN
Gとなる。
一方、条件(A)を満足しないときはステップS4の処
理である(1)式の加算を行わない。
該フレームにおいての子音性判定を行った後、分割領域
中での次のフレームのための相対フレーム番号m及びフ
レーム加重を得るため、相対フレーム番号mに1を加算
し、フレーム加重j1から1を減算する(S5)。
次に、ステップS6において、上述した処理かに=1番
目の分割領域の全てのフレームについて行われたかどう
かを判断する。すなわち、j≦ENDF (k) を満足するときは、ステップS3からの処理を次のフレ
ームから終端フレームまで順次繰り返し行い、満足しな
いときは該分割領域におけるステップS3からの処理を
終了する。
ステップS2からステップS6までの処理が終了した後
、正規化手段31において、該分割領域における子音性
特徴Ckを(2)式に従って算出する(S7)。
この子音性特徴Ckは、該分割領域で子音の特徴を有す
ると判定されたフレームに与えられたフレーム加重の総
和である零交差フレーム加重和ZFを、該分割領域の相
対フレーム番号の総和するフレームが該分割領域の始端
付近に現われるほど値は大となる。
以上でに=1の分割領域での子音性特徴Ckの算出を終
了する。
次に、分割領域番号kに1を加算し、ステップS9でに
≦2を満足するかの判断を行い、これを満足するときは
ステップS2から58までの処理を順次繰り返し、k≦
2を満足しないときはに=2の分割領域での子音性特徴
Ckを算出したのであるから、この一連の処理を終了す
る。
f−旧汁目1ffi(1’)    *(7)”用認識
対象となる音声には様々なカテゴリが含まれ、カテゴリ
毎に子音性の特徴の時間的な変化が異なる。例えば、イ
チというカテゴリは音声区間の後半部のみに子音性の特
徴が出現し、シチというカテゴリは音声区間の始端付近
と音声区間の後半部に子音性の特徴が出現する。このた
め、子音性の特徴の時間的な変化は、音声認識を行う上
での重要なパラメータとなる。
この発明において、音声区間を時間的に二分割して分割
領域毎の子音性特徴を算出する技術を用いることにより
、子音性の特徴の時間的変化を抽出し認識率の向上を果
たしている。
第3図及び第4図はイチとシチの発声音の例を示す。第
3図(A)及び第4図(A)は縦軸に音声パワー及び横
軸にフレームを取ってそれぞれ示しである。また、第3
図(B)はイチの、第4図(B)はシチのローカルピー
クパタンを、縦軸にチャネル番号及び横軸にフレームを
取ってそれぞれ示し、図中、黒く塗られた部分にローカ
ルピークが現われている(ローカルピーク値が1)こと
を示す。また、第3図(C)及び第4図(C)は縦軸に
零交差回数及び横軸にフレームを取って示す図である。
イチとシチは同様な母音定常部を持つため、両者のロー
カルピークパタンは類似し、両者は誤認識されやすい。
しかし、イチとシチの零交差回数を示した第3図(C)
及び第4図(C)から理解出来るように、両者の語頭部
においてシチは子音部が現われるが(零交差回数が大き
い値をもつ)、イチにはそれがない。従って、この発明
の実施例に従って子音性特徴を算出すると、分割領域の
l前半における子音性特徴はイチに対して小さく、シチ
に対して大きくなり両者の識別が容易になる。
また第5図及び第6図はドープとゴの発声音の例を示す
。第5図(A)及び第6図(A)は第3図(A)と、第
5図(B)及び第6図(B)は第3図(B)と、第5図
(C)及び第6図(C)は第3図(C)とそれぞれ対応
する図である。
第5図(B)はドープの、第6図(B)はゴのローカル
ピークパタンをそれぞれ示し、黒く塗られた部分にロー
カルピークが現われている(ローカルピーク値が1)こ
とを示す。
このドープは音声区間中に小さなパワーディップが存在
するが、母音定常部はゴと同様となり両者のローカルピ
ークパタンは類似する。しかしドープとゴの零交差回数
を示した第5図(C)及び第6図(C)からも理解出来
るように、ドープは語頭及び語中に子音部が現われるが
、ゴは語頭のみに子音部が現われる。従って、この発明
の実施例に従って子音性特徴を算出すると(ゴは)くワ
ーディップが存在しないため音声区間の真中で二分割さ
れる)分割領域の後半における子音性特徴はドープに対
しては大きく、ゴに対しては小さくなり両者の識別が可
能になる。
五丘止工藍度辺1■ 次に、子音性類似度を算出する動作を詳細に説明する。
第7図(A)は分割領域前半(k=1)の子音性特徴よ
り分割領域前半の類似度を、第7図(B)は分割領域後
半(k=2)の子音性特徴より分割領域後半の類似度を
求めるために設定された子音性特徴辞書21の内容を説
明するための図である。
二つの子音性特徴辞書ともに、認識対象カテゴリ毎に類
似度としての加算値Ak  (n)と、この類似度を辞
書21から読み出すための子音性特徴Ckの上限値UP
b  (n)及びその下限値UNk(n)(但しnは認
識対象カテゴリ番号である。)とにより構成されている
。例えば、k=1の分割領域について例を示すと、カテ
ゴリ「イチ」の類似度としての加算値は70であり、こ
の加算値70を読み出すことの出来る子音性特徴Ckの
上限値は0.2で下限値は0である。このような値が各
カテゴリ毎に経験によりて求められて与えられていてテ
ーブルとなって格納されている。
k=2の分割領域の各カテゴリについても同様に各値が
テーブルとなって格納されている。
子音性類似度は、算出された子音性特徴C3(k=1.
2)と子音性特徴辞書2Iとを参照して求めた分割領域
毎の類似度の和として、認識対象カテゴリ毎に算出され
る。
この分割領域毎の類似度は、子音性特徴C5が特徴辞書
21に設定された上限値と下限値で定められた範囲内に
ある認識対象カテゴリに対しては加算値Ah  (n)
が与えられ、定められた範囲外である認識対象カテゴリ
に対しては0が与えられる。
例えば、子音性特徴を C,=0.2 (分割領域前半:に=1)C2=0.6
 (分割領域後半:に=2)とした場合に、認識対象カ
テゴリ毎の子音性類似度は次のように算出される。
C1に対し第7図(A)の子音性特徴辞書21を参照し
、C1が分布兄囲内となる「イチ」及び「二」の認識対
象カテゴリには、それぞれ子音性特徴辞書21に設定さ
れた70と50が類似度となる。
またCIが範囲外である「ゼロJ、「ゴ」及び「シチ」
なとの認識対象カテゴリの類似度は0となる。
C2の場合は第7図(B)の子音性特徴辞書21を参照
し、「イチ」と「シチ」に対して類似度は70となり「
ゼロ」、「二」及び「ゴ」などの類似度は0となる。
このように求められた分割領域毎の類似度より子音性類
似度は 「ゼロJは0+0=0 「イチ」は70+ 60= 1:10 「二」 は50+ O= 50 となる。
この発明は上述した実施例のみに限定されるものではな
く、多くの変形または変更を行い11することは明らか
である。例えば、実施例で説明した子音性特徴算出部2
0の各機能手段及びその他の構成成分は何ら実施例のも
のに限定されるものではなく、また、その動作手順も上
述した実施例にのみ限定されるものではない。また、分
割領域を二つの領域としたが三つ以上の分割領域として
もよい。
また、第1図及び第2図(A)に示した音声認識装置の
各構成成分の動作は、メモリ、制御部、その他通常の電
子回路等を用いて構成したマイクロコンピュータ等によ
ってソフト的に処理することが出来る。
(発明の効果) 上述した説明から明らかなように、この発明は母音性定
常部のパタンを安定に抽出した結果であるローカルピー
クパタンによるローカルピーク類似度に子音部の特徴を
評価量にして求めた子音性類似度を加味して判定を行う
ことにより、正確で安定な音声認識装置の提供が期待出
来る。
【図面の簡単な説明】
第1図はこの発明による音声認識装置の実施例を示すブ
ロック図・ 7jS2図(A)は子音性特徴算出手段の機能ブロック
図、 第2図(B)は子音性特徴算出の処理を示す流れ図、 第3図及び第4図は「イチ」と「シチ」を例にした子音
性特徴算出の実施例をそれぞれ示す図、第5図は及び第
6図は「ドープ」と「ゴ」を例にした子音性特徴算出の
実施例をそれぞれ示す図、 第7図は分割された領域毎に設定されている子音性特徴
辞書の内容の実施例を示す図、第8図は従来提案された
音声認識装置を説明するためのブロック図、 第9図はローカルピークパタン算出の説明図である。 10・・・音声分析部、    11・・・スペクトル
正規化部12・・・音声区間検出部 13・・・ローカルピークパタン抽出部14・・・ロー
カルピーク類似度演算部15・・・ローカルピーク標準
パタン記憶部20・・・子音性特徴算出部 21・・・子音性特徴辞書 22・・・子音性類似度演算部 23・・・判定部、     24・・・零交差回数計
算手段25・・・音声区間分割手段 26・・・子音性特徴算出手段 30・・・フレーム加重及び相対フレーム番号設定手段
31・・・正規化手段。 特許出願人     沖電気工業株式会社く 7ムー4 7L−ム 5丁ARTF(1)   5丁AR丁FC2>    
     ENDF(2”)フL−ム ″F−童性特糟史1品4列 第3図 フμm4 7μmム 5TAR下F(イン   5TARTFで2)    
       ):NDF−(2)7−−ム ″+−4−性特1に算出伊1  L−4 >’friterfU4L硬J く = +ゴキル4r1 (C)   000100000100001000ロ
ー刀ルご0−クノゾタン ローカルぴ−7nタン算EgQ 朝の 第9図

Claims (2)

    【特許請求の範囲】
  1. (1)入力音声に対し複数のチャネルによる周波数分析
    、対数変換を行い周波数スペクトルを抽出する音声分析
    部と、 前記周波数スペクトルに基づいて音声区間を検出する音
    声区間検出部と、 前記周波数スペクトルに基づいて前記周波数スペクトル
    の最小自乗近似直線により正規化した正規化スペクトル
    パタンを算出するスペクトル正規化部と、 前記正規化スペクトルパタンの値が正値かつ極大値とな
    るチャネル成分を「1」、その他の全てのチャネル成分
    を「0」とする処理を音声区間内の全てのフレームに対
    して行いローカルピークパタンを抽出するローカルピー
    クパタン抽出部と、ローカルピーク標準パタンを予め格
    納したローカルピーク標準パタン記憶部と、 前記ローカルピークパタン及びローカルピーク標準パタ
    ンの類似度計算を行い各認識対象カテゴリに対するロー
    カルピークパタン類似度を算出するローカルピーク類似
    度計算部と、 全ての認識対象カテゴリの中で最大の類似度を与えるカ
    テゴリ名を認識結果として出力する判定部と を具える音声認識装置において、 a)検出された音声区間を二つの領域に分割し、各々の
    分割された領域において、零交差回数を用いて子音性特
    徴を算出する子音性特徴算出部と、b)認識対象カテゴ
    リに対する設定値が予め格納された子音性特徴辞書と、 c)算出された該子音性特徴と、前記認識対象カテゴリ
    に対する設定値とを参照して認識対象カテゴリ毎に、類
    似度を決定する処理を行い、得られた類似度の和を該認
    識対象カテゴリに対する子音性類似度として出力する子
    音性類似度演算部と、d)前記判定部における最大の類
    似度を、前記ローカルピークパタン類似度と子音性類似
    度との両者を参照することにより各認識対象カテゴリ毎
    に算出された総合類似度の中で最大の総合類似度とした
    こと を特徴とする音声認識装置。
  2. (2)子音性特徴算出部は、 a)音声区間を音声パワーを用いて二つの領域に分割す
    る音声区間分割手段と、 b)入力音声の1フレーム中における零交差回数を検出
    する零交差回数計数手段と、 c)[1]分割された領域のフレーム番号が小であるほ
    ど重みを大とするフレーム加重と、分割された領域の始
    端フレーム番号を1とし時間軸に対して正方向に1フレ
    ーム増す毎にフレーム番号も1増える相対的なフレーム
    番号(相対フレーム番号)とを、分割された領域の始端
    から終端までの各フレームに設定する手段及び [2]分割された領域の始端から終端までのフレームに
    おいて、所定の閾値以上の零交差回数が検出されたフレ
    ームに与えられたフレーム加重の総和を、分割された領
    域の始端から終端までのフレームにおける相対フレーム
    番号の総和で正規化して子音性特徴を得る手段 を含む子音性特徴算出手段と を具えることを特徴とする特許請求の範囲第1項に記載
    の音声認識装置。
JP23579686A 1986-10-03 1986-10-03 音声認識装置 Pending JPS6389900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23579686A JPS6389900A (ja) 1986-10-03 1986-10-03 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23579686A JPS6389900A (ja) 1986-10-03 1986-10-03 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6389900A true JPS6389900A (ja) 1988-04-20

Family

ID=16991387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23579686A Pending JPS6389900A (ja) 1986-10-03 1986-10-03 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6389900A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343544A (ja) * 2005-06-09 2006-12-21 Miyazaki Prefecture 音声認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343544A (ja) * 2005-06-09 2006-12-21 Miyazaki Prefecture 音声認識方法

Similar Documents

Publication Publication Date Title
US4038503A (en) Speech recognition apparatus
EP0319140B1 (en) Speech recognition
EP0237934B1 (en) Speech recognition system
EP0128755A1 (en) Apparatus for speech recognition
CN106971724A (zh) 一种防干扰声纹识别方法和系统
US5101434A (en) Voice recognition using segmented time encoded speech
US4856067A (en) Speech recognition system wherein the consonantal characteristics of input utterances are extracted
EP0109140B1 (en) Recognition of continuous speech
JPS6389900A (ja) 音声認識装置
JPS6129518B2 (ja)
JP3091537B2 (ja) 音声パターン作成方法
JP2001083978A (ja) 音声認識装置
JPH0424717B2 (ja)
KR960007132B1 (ko) 음성인식장치 및 그 방법
JPS63213899A (ja) 話者照合方式
JPS6136798A (ja) 音声セグメンテ−シヨン法
JP2577891B2 (ja) 単語音声予備選択装置
JP3411074B2 (ja) 母音区間検出装置及び母音区間検出方法
JPS62113197A (ja) 音声認識装置
JPS6155680B2 (ja)
JP2602271B2 (ja) 連続音声中の子音識別方式
JPH0677198B2 (ja) 音声認識方法
JPH0221598B2 (ja)
JPS6136797A (ja) 音声セグメンテ−シヨン法
JPS6350898A (ja) 音声認識装置