JPS62289895A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPS62289895A JPS62289895A JP61132676A JP13267686A JPS62289895A JP S62289895 A JPS62289895 A JP S62289895A JP 61132676 A JP61132676 A JP 61132676A JP 13267686 A JP13267686 A JP 13267686A JP S62289895 A JPS62289895 A JP S62289895A
- Authority
- JP
- Japan
- Prior art keywords
- local peak
- level
- input audio
- threshold
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 45
- 238000001228 spectrum Methods 0.000 claims description 18
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 31
- 230000008569 process Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 210000003323 beak Anatomy 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000012882 sequential analysis Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
3、発明の詳細な説明
(産業上の利用分野)
この発明は音声認識方法、特に音声認識に際してのロー
カルピーク抽出方法に関する。
カルピーク抽出方法に関する。
(従来の技術)
音声認識を行うに際し、入力音声の母音定常部の特徴を
安定及び正確に抽出することは認識性能を向上させるた
めに非常に大切なことである。それは、人間が発声する
音声の中で母音定常部が時間的に占める割合が、子音又
は母音から母音へ、或いは、母音から子音等へ遷移する
部分である過渡部(非定常部)に比較して、大であるこ
と、また、継続時間が比較的大であるので、発声タイミ
ング等の影響によるバラツキが小さく安定に特徴を抽出
することが出来ることにより、母音定常部の特徴を主体
として利用する認識方式が有効であるという理由による
。
安定及び正確に抽出することは認識性能を向上させるた
めに非常に大切なことである。それは、人間が発声する
音声の中で母音定常部が時間的に占める割合が、子音又
は母音から母音へ、或いは、母音から子音等へ遷移する
部分である過渡部(非定常部)に比較して、大であるこ
と、また、継続時間が比較的大であるので、発声タイミ
ング等の影響によるバラツキが小さく安定に特徴を抽出
することが出来ることにより、母音定常部の特徴を主体
として利用する認識方式が有効であるという理由による
。
従来装置において母音定常部の特徴抽出のために使用し
て有効な方法としてローカルピーク抽出の方法が提案さ
れてる。この方法は母音定常部のホルマント周波数帯域
を検出しようとする方法である。
て有効な方法としてローカルピーク抽出の方法が提案さ
れてる。この方法は母音定常部のホルマント周波数帯域
を検出しようとする方法である。
第3図(A)〜(C)はこの方法を説明するための図で
ある。この方法によれば、A/D変換された入力音声信
号に対し、中心周波数(各中心周波数に対応するチャネ
ル番号k(kは正の整数)が付しである)の異なるバン
ドパスフィルタによる周波数分析及び対数変換を順次に
行った後得られた周波数スペクトルを算出しく第3図(
A))、これら周波数スペクトルからこれらスペクトル
の最小二乗直線を減じてスペクトルの正規化を行い(第
3図(B))、正規化スペクトルの値が「O」より大と
なるチャネルの中で出力信号の値が極大となるチャネル
のローカルシビークイ直を「1」 とし、残りのチャネ
ルのローカルピーク値を全て「0」と設定する1ビツト
特微量としてローカルピークパタンを抽出している(第
3図(C))。従って、この方法では特徴量の圧縮効果
をもたらすことが出来るので、認識方法を小規模なハー
ドlで実現する際にも有効である。
ある。この方法によれば、A/D変換された入力音声信
号に対し、中心周波数(各中心周波数に対応するチャネ
ル番号k(kは正の整数)が付しである)の異なるバン
ドパスフィルタによる周波数分析及び対数変換を順次に
行った後得られた周波数スペクトルを算出しく第3図(
A))、これら周波数スペクトルからこれらスペクトル
の最小二乗直線を減じてスペクトルの正規化を行い(第
3図(B))、正規化スペクトルの値が「O」より大と
なるチャネルの中で出力信号の値が極大となるチャネル
のローカルシビークイ直を「1」 とし、残りのチャネ
ルのローカルピーク値を全て「0」と設定する1ビツト
特微量としてローカルピークパタンを抽出している(第
3図(C))。従って、この方法では特徴量の圧縮効果
をもたらすことが出来るので、認識方法を小規模なハー
ドlで実現する際にも有効である。
(発明が解決しようとする問題点)
しかしながら、この従来提案されている認識方法におけ
るローカルピーク抽出方法によれば、周波数スペクトル
の最小二乗直線との大小関係、すなわち、他の周波数帯
域の出力値との相対的な大きさをローカルピーク抽出を
行うための尺度として使用しているが、周波数スペクト
ル出力値の絶対量はローカルピーク抽出を行うための情
報としては使用されていない。
るローカルピーク抽出方法によれば、周波数スペクトル
の最小二乗直線との大小関係、すなわち、他の周波数帯
域の出力値との相対的な大きさをローカルピーク抽出を
行うための尺度として使用しているが、周波数スペクト
ル出力値の絶対量はローカルピーク抽出を行うための情
報としては使用されていない。
従って、連続発声音声におけるような破裂音を含む音節
等に発生する無音区間、つまり、周波数スペクトル出力
レベルが周囲雑音の大きさと同等となりしかもスペクト
ルの形も周囲雑音スペクトルと同等となる区間において
ローカルピーク抽出を行うことは、実質的には周囲雑音
スペクトルのローカルビークを抽出することになる。こ
れがため、周囲雑音スペクトルの変化に対応して無音区
間におけるローカルピーク抽出結果が変化して安定とな
らないので、この方法は認識性能の低下を招く問題点が
あった。
等に発生する無音区間、つまり、周波数スペクトル出力
レベルが周囲雑音の大きさと同等となりしかもスペクト
ルの形も周囲雑音スペクトルと同等となる区間において
ローカルピーク抽出を行うことは、実質的には周囲雑音
スペクトルのローカルビークを抽出することになる。こ
れがため、周囲雑音スペクトルの変化に対応して無音区
間におけるローカルピーク抽出結果が変化して安定とな
らないので、この方法は認識性能の低下を招く問題点が
あった。
このような問題点を解決するため、入力信号レベルが所
定の一つのIJi定した1刀値よil /l\七い黒へ
は無条件にローカルピーク値を全て「O」としてしまう
方法も考えられるが、その方法であると、入力音声レベ
ルがほとんど一定である場合には有効であるが、話者の
変化、入力媒体の変化その他の原因により入力音声レベ
ルが大きく変化する場合には、固定の閾値による判定は
困難となる。
定の一つのIJi定した1刀値よil /l\七い黒へ
は無条件にローカルピーク値を全て「O」としてしまう
方法も考えられるが、その方法であると、入力音声レベ
ルがほとんど一定である場合には有効であるが、話者の
変化、入力媒体の変化その他の原因により入力音声レベ
ルが大きく変化する場合には、固定の閾値による判定は
困難となる。
一方、入力レベルの変化に対応出来る方法として、入力
音声信号の最大値の2割程度の大きさに対応するレベル
以下のローカルピーク値を全て「0」にする方法が考え
られる。この方法によれば、ローカルピーク抽出を精度
高く行うことが出来るというメリットがあるが、入力音
声信号の最大値を検出した時刻の後でなければ無音区間
判定の閾値を決定出来ないために、ローカルピーク抽出
を実時間処理で行うことが出来ず、これがため処理時間
が長くなるという問題点がある。
音声信号の最大値の2割程度の大きさに対応するレベル
以下のローカルピーク値を全て「0」にする方法が考え
られる。この方法によれば、ローカルピーク抽出を精度
高く行うことが出来るというメリットがあるが、入力音
声信号の最大値を検出した時刻の後でなければ無音区間
判定の閾値を決定出来ないために、ローカルピーク抽出
を実時間処理で行うことが出来ず、これがため処理時間
が長くなるという問題点がある。
このような従来提案されているローカルピーク抽出方法
は、いずれにしても、抽出精度及び処理時間の双方を満
足させる方法ではなかった。
は、いずれにしても、抽出精度及び処理時間の双方を満
足させる方法ではなかった。
この発明の目的は、上述したような従来の問題点を除去
し、実時間処理が可能で抽出精度が高いローカルピーク
抽出方法を使用することにより高性能な音声認識処理を
行えるようにした音声認識方法を提供することにある。
し、実時間処理が可能で抽出精度が高いローカルピーク
抽出方法を使用することにより高性能な音声認識処理を
行えるようにした音声認識方法を提供することにある。
(問題点を解決するための手段)
この目的の達成を図るため、この発明によれば、標準パ
タンとの類似度計算用のローカルピークパタンを入力音
声レベルに適応したレベル適応ローカルピークパタンと
する。
タンとの類似度計算用のローカルピークパタンを入力音
声レベルに適応したレベル適応ローカルピークパタンと
する。
このローカルピークパタンを得るため、(a)入力音声
レベルに対応して複数の無音区間判定閾値を予めメモリ
に設定しておく。
レベルに対応して複数の無音区間判定閾値を予めメモリ
に設定しておく。
(b)次に、音声入力から検出される音声区間の始端か
ら各フレーム毎に、入力音声レベルと全ての無音判定閾
値との大小比較を無音判定閾値毎にそれぞれ行って、無
音区間におけるローカルピーク値を全て「O」とすると
共に、設定した無音判定閾値の個数に対応する数のロー
カルピークパタンをそれぞれ抽出する処理を実時間で行
)。
ら各フレーム毎に、入力音声レベルと全ての無音判定閾
値との大小比較を無音判定閾値毎にそれぞれ行って、無
音区間におけるローカルピーク値を全て「O」とすると
共に、設定した無音判定閾値の個数に対応する数のロー
カルピークパタンをそれぞれ抽出する処理を実時間で行
)。
この処理は、
■入力音声レベルが無音判定閾値より大であるとき正規
化出力ベクトルの中で正値かつ極大となる成分を「1」
及びその他の成分を「0」と設定し及び ■入力音声レベルが無音判定閾値以下であるとき正規化
出力ベクトルの全ての成分を「0」と設定することによ
り、 行う。
化出力ベクトルの中で正値かつ極大となる成分を「1」
及びその他の成分を「0」と設定し及び ■入力音声レベルが無音判定閾値以下であるとき正規化
出力ベクトルの全ての成分を「0」と設定することによ
り、 行う。
このようにして抽出したローカルピークパタンをローカ
ルビーク記憶部の所定のアドレスに記憶する。
ルビーク記憶部の所定のアドレスに記憶する。
(c)次に、音声区間の経端検出後、入力音声レベルの
最大値を検出し、複数の無音区間判定閾値の中からこの
最大値に適応した無音区間判定閾値をレベル適応無音区
間判定閾値として選択する。
最大値を検出し、複数の無音区間判定閾値の中からこの
最大値に適応した無音区間判定閾値をレベル適応無音区
間判定閾値として選択する。
この最大値に適応した無音区間判定閾値とは、好ましく
は、この最大値の2割程度の閾値とするのが良い。
は、この最大値の2割程度の閾値とするのが良い。
(d)次に、このようにして選択されたレベル適応無音
区間判定閾値に対して各フレーム毎に求められているロ
ーカルピークパタンをレベル適応ローカルピークパタン
としてローカルビーク記憶部から読出して類似度計算部
へと出力させる。
区間判定閾値に対して各フレーム毎に求められているロ
ーカルピークパタンをレベル適応ローカルピークパタン
としてローカルビーク記憶部から読出して類似度計算部
へと出力させる。
これらレベル適応ローカルピークパタンの抽出は上述し
た(c)及び(d)の過程での実時間処理で行われる。
た(c)及び(d)の過程での実時間処理で行われる。
類似度計算部では、これらレベル適応ローカルピークパ
タンと、予め標準パタンメモリに格納されて用意されて
いる標準パタンとの類似度を計算し、全ての標準パタン
の中で最大の類似度を与える標準パタンのカテゴリ名を
認識結果として出力する。
タンと、予め標準パタンメモリに格納されて用意されて
いる標準パタンとの類似度を計算し、全ての標準パタン
の中で最大の類似度を与える標準パタンのカテゴリ名を
認識結果として出力する。
(作用)
この発明の音声認識方法によれば、ローカルピーク抽出
に当り、入力音声レベルに適応した無音区間判定を行っ
た後、無音区間においてはその区間のローカルピーク値
を「0」と設定することによって、周囲雑音変動による
ローカルビーク抽出結果の不安定要因を除去する処理を
、音声の入力に即応して逐次行うので、これら処理を実
時間で実行することが出来ると共に、無音区間判定のた
めに用いる無音区間判定閾値を複数個設定しであるので
、無音区間の判定を精度良く行うことが出来る。
に当り、入力音声レベルに適応した無音区間判定を行っ
た後、無音区間においてはその区間のローカルピーク値
を「0」と設定することによって、周囲雑音変動による
ローカルビーク抽出結果の不安定要因を除去する処理を
、音声の入力に即応して逐次行うので、これら処理を実
時間で実行することが出来ると共に、無音区間判定のた
めに用いる無音区間判定閾値を複数個設定しであるので
、無音区間の判定を精度良く行うことが出来る。
このように、この発明によれば、実時間処理でしかも高
精度でローカルビークの抽出を行うことが出来、従って
、高性能な音声認識となる。
精度でローカルビークの抽出を行うことが出来、従って
、高性能な音声認識となる。
(実施例)
以下、図面を参照して、この発明の音声認識方法の実施
例につき説明する。
例につき説明する。
第1図はこの発明の音声認識方法を実施するための装置
の要部の一構成例を示すブロック図及び第2図はこの発
明の説明に供する流れ図である。
の要部の一構成例を示すブロック図及び第2図はこの発
明の説明に供する流れ図である。
第1図において、lOはレベル抽出部、12は周波数分
析部、14は庁声区間検出部、16は最大値検出部、1
8はローカルピーク抽出部、20はローカルピークアド
レス部、22はローカルビーク記憶部、24は類似度計
算部、26は標準パタン記憶部、28は判定部及び30
はメモリである。
析部、14は庁声区間検出部、16は最大値検出部、1
8はローカルピーク抽出部、20はローカルピークアド
レス部、22はローカルビーク記憶部、24は類似度計
算部、26は標準パタン記憶部、28は判定部及び30
はメモリである。
このような構成成分を具える装置で行われるこの発明の
方法の実施例につき第2図を参照して説明する。
方法の実施例につき第2図を参照して説明する。
入力信号aをレベル抽出部10及び周波数分析部12に
供給する。この周波数分析部12では、この入力信号a
に対し所定の帯域数のハンドパスフィルタで分析し、そ
の分析結果である周波数スペクトル信号すを所定の時間
間隔(以後フレームと称する)毎に算出してローカルビ
ーク抽出部18へ出力する。
供給する。この周波数分析部12では、この入力信号a
に対し所定の帯域数のハンドパスフィルタで分析し、そ
の分析結果である周波数スペクトル信号すを所定の時間
間隔(以後フレームと称する)毎に算出してローカルビ
ーク抽出部18へ出力する。
レベル抽出部10は入力信号aのレベル抽出を実時間的
で行って得られた入力音声レベル信号Cを音声区間検出
部14、最大値検出部16及びローカルピーク抽出部1
8にそれぞれ逐次供給する。
で行って得られた入力音声レベル信号Cを音声区間検出
部14、最大値検出部16及びローカルピーク抽出部1
8にそれぞれ逐次供給する。
音声区間検出部14には逐次供給される入力音声レベル
信号Cからその音声区間の検出を行う。
信号Cからその音声区間の検出を行う。
音声区間検出部14は音声区間の始端を検出すると、音
声始端時刻信号dを最大値検出部16及びローカルピー
ク抽出部18へ出力する(ステップl;以下、ステップ
をSで表わす)、この音声始端時刻信号dは入力音声に
対するローカルビーク抽出開始時刻を意味する。また、
最大値検出部16は音声始端時刻から逐次入力される入
力音声レベル信号のその時点までの最大値を算出して出
力するように構成したものである。
声始端時刻信号dを最大値検出部16及びローカルピー
ク抽出部18へ出力する(ステップl;以下、ステップ
をSで表わす)、この音声始端時刻信号dは入力音声に
対するローカルビーク抽出開始時刻を意味する。また、
最大値検出部16は音声始端時刻から逐次入力される入
力音声レベル信号のその時点までの最大値を算出して出
力するように構成したものである。
次に、ローカルピークパタンを抽出し、これらローカル
ピークパタンの中から、標準パタンとの類似度計算用の
、入力音声レベルに適応したレベル適応ローカルピーク
パタンを得る過程につき説明する。
ピークパタンの中から、標準パタンとの類似度計算用の
、入力音声レベルに適応したレベル適応ローカルピーク
パタンを得る過程につき説明する。
ローカルピークパタン
入力音声レベルに対応して複数の無音区間判定閾値(以
下、単に閾値と称する)を予め格納したメモリ30を設
けておき、このメモリ30からローカルピーク抽出部1
8へこれら閾値を随時呼び出せるように構成しておく0
例えば、この閾値の設定個数をTHNOとし、閾値をT
HM (L)(但し、L=1−THNO)とする、尚、
ここで、以下の説明の便宜のため、音声始端時刻フレー
ム番号をSFR、ローカルビーク抽出を行うフレーム番
号をFR1入力音声レベルをPOW(j)(但し、jは
フレーム番号)、ローカルピーク値をLPK(k、j、
L)(kはチャネル番号、jはフレーム番号、L= 1
−THNOで、Lは無音区間閾値番号である)、周波数
分析チャネル数をCHNNO及び入力音声最大フレーム
数(入力音声に対して予想されるフレーム数の最大値)
をMAXFRとする。
下、単に閾値と称する)を予め格納したメモリ30を設
けておき、このメモリ30からローカルピーク抽出部1
8へこれら閾値を随時呼び出せるように構成しておく0
例えば、この閾値の設定個数をTHNOとし、閾値をT
HM (L)(但し、L=1−THNO)とする、尚、
ここで、以下の説明の便宜のため、音声始端時刻フレー
ム番号をSFR、ローカルビーク抽出を行うフレーム番
号をFR1入力音声レベルをPOW(j)(但し、jは
フレーム番号)、ローカルピーク値をLPK(k、j、
L)(kはチャネル番号、jはフレーム番号、L= 1
−THNOで、Lは無音区間閾値番号である)、周波数
分析チャネル数をCHNNO及び入力音声最大フレーム
数(入力音声に対して予想されるフレーム数の最大値)
をMAXFRとする。
ローカルピーク抽出部18においては、始端時刻より、
周波数スペクトル信号b、入力音声レベル信号Cの入力
を開始し、周波数スペクトルに対して対数変換及びスペ
クトルの最小二乗直線による正規化処理を行って正規化
出力ベクトルを得る。
周波数スペクトル信号b、入力音声レベル信号Cの入力
を開始し、周波数スペクトルに対して対数変換及びスペ
クトルの最小二乗直線による正規化処理を行って正規化
出力ベクトルを得る。
そして、このローカルピーク抽出部18において、音声
区間中の各フレーム毎に、入力音声レベルと全ての閾値
との大小比較をこれら閾値毎に行う。
区間中の各フレーム毎に、入力音声レベルと全ての閾値
との大小比較をこれら閾値毎に行う。
そのため、先ず、第り番目の閾値THM (L)に対し
て入力音声レベルPOW(j)との比較を行う(S2)
、この比較において、 ■POW (j)>THM (L)である場合には、正
規化出力ベクトルの中で正値かつ極大となる成分(チャ
ネル)のローカルピーク値を「1」及びその他の成分(
チャネル)のローカルピーク値を「0」と設定する(S
3)、或いは、 ■POW(j)≦THM (L)である場合には、正規
化出力ベクトルの全ての成分(チャネル)のローカルピ
ーク値を「0」と設定する(S4)。
て入力音声レベルPOW(j)との比較を行う(S2)
、この比較において、 ■POW (j)>THM (L)である場合には、正
規化出力ベクトルの中で正値かつ極大となる成分(チャ
ネル)のローカルピーク値を「1」及びその他の成分(
チャネル)のローカルピーク値を「0」と設定する(S
3)、或いは、 ■POW(j)≦THM (L)である場合には、正規
化出力ベクトルの全ての成分(チャネル)のローカルピ
ーク値を「0」と設定する(S4)。
以上の処理を閾値の個数THNO分だけ行って全ての閾
値に対するローカルピークパタンをそれぞれ抽出する(
S5)、全ての閾値に対して処理が終了していない場合
には、この大小比較を繰り返し行う。
値に対するローカルピークパタンをそれぞれ抽出する(
S5)、全ての閾値に対して処理が終了していない場合
には、この大小比較を繰り返し行う。
次に、このようにして得られた、フレーム番号j=FR
及び第り番目の閾値に対し、各チャネルに=l−CHN
NOまでのローカルピーク値LPK(1,FR,L)、
LPK(2,FR,L)、−−−LPK (CHNNO
、FR、L) から成るローカルピークパタン信号eを
ローカルビーク記憶部22に出力し、これにローカルピ
ークパタンとして記憶する(SS)。
及び第り番目の閾値に対し、各チャネルに=l−CHN
NOまでのローカルピーク値LPK(1,FR,L)、
LPK(2,FR,L)、−−−LPK (CHNNO
、FR、L) から成るローカルピークパタン信号eを
ローカルビーク記憶部22に出力し、これにローカルピ
ークパタンとして記憶する(SS)。
このような処理は音声始端時刻から開始し、音声区間検
出部14から音声区間の終端の検出を表わす音声終端時
刻信号fがローカルビーク抽出部18に供給されるまで
逐次繰り返し行われる(S7)。
出部14から音声区間の終端の検出を表わす音声終端時
刻信号fがローカルビーク抽出部18に供給されるまで
逐次繰り返し行われる(S7)。
第4図は、この音声区間終端時刻におけるローカルビー
ク記憶部22でのメモリ状態の一例を示す図である。ま
ず、大きく区分して、閾値の個数はL=1−THNOで
あるので、第1闇値による抽出結果から第THNOI:
l僅による抽出結果までのメモリ欄がある。各閾値に対
するメモリ欄はそれぞれの最大フレーム数MAXFR分
のメモリ部分がある。そして各フレーム毎にチャネル数
に対応した個数のメモリ箇所が用意されている。そして
これらメモリ箇所毎に番地が決められていて、例えば、
第1閾値による抽出結果の第1フレームの第1チヤネル
のメモリ箇所をO番地とし、第THNOI1m値の第M
AKFRフレームの第CHHNNOチャネルのメモリ箇
所を最終のTHNO−MAXFR−CHNNO−1番地
トスル。
ク記憶部22でのメモリ状態の一例を示す図である。ま
ず、大きく区分して、閾値の個数はL=1−THNOで
あるので、第1闇値による抽出結果から第THNOI:
l僅による抽出結果までのメモリ欄がある。各閾値に対
するメモリ欄はそれぞれの最大フレーム数MAXFR分
のメモリ部分がある。そして各フレーム毎にチャネル数
に対応した個数のメモリ箇所が用意されている。そして
これらメモリ箇所毎に番地が決められていて、例えば、
第1閾値による抽出結果の第1フレームの第1チヤネル
のメモリ箇所をO番地とし、第THNOI1m値の第M
AKFRフレームの第CHHNNOチャネルのメモリ箇
所を最終のTHNO−MAXFR−CHNNO−1番地
トスル。
従って、この実施例では、これらのローカルピーク値L
PK(1,FR,L)、LPK (2゜FR、L)、−
−−LPK (CHNNO,FR。
PK(1,FR,L)、LPK (2゜FR、L)、−
−−LPK (CHNNO,FR。
L)を、ローカルビーク記憶部22の対応する番地すな
わちMAXFR−(L−1)−CHNNO+CHNNO
−(FR−SFR)番地、MAX F R・ (L−1
)−CHNNO+CHNNOφ (FR−3FR)+1
番地、5ees、MAXFR−(L−1) ・CHN
N O+ CHN N O・ (FR−3FR)+C
HHNO−1番地へそれぞれ格納する。尚、第4図に示
す例は主としてL=1とした場合である。
わちMAXFR−(L−1)−CHNNO+CHNNO
−(FR−SFR)番地、MAX F R・ (L−1
)−CHNNO+CHNNOφ (FR−3FR)+1
番地、5ees、MAXFR−(L−1) ・CHN
N O+ CHN N O・ (FR−3FR)+C
HHNO−1番地へそれぞれ格納する。尚、第4図に示
す例は主としてL=1とした場合である。
レベル 自ローカルピークパタン
最大検出部18において、音声始端時刻より音声終端時
刻までの間の入力音声レベルの最大値を算出し、入力音
声レベル最大値信号gをローカルビークアドレス計算部
20に出力する。
刻までの間の入力音声レベルの最大値を算出し、入力音
声レベル最大値信号gをローカルビークアドレス計算部
20に出力する。
ローカルビークアドレス計算部20では、記憶された複
数のローカルピークパタンの中から、入力音声レベル信
号Cに最適なレベル最適ローカルピークパタンが格納さ
れているローカルピーク記憶部22のメモリ部分の先頭
アドレスを算出する。
数のローカルピークパタンの中から、入力音声レベル信
号Cに最適なレベル最適ローカルピークパタンが格納さ
れているローカルピーク記憶部22のメモリ部分の先頭
アドレスを算出する。
以下、この先頭アドレス算出処理につき説明する。
先ず、音声区間の終端検出後、複数の閾値の中から入力
音声レベルの最大値に適応した閾値をレベル適応無音区
間判定閾値として選択する。この場合、入力音声レベル
閾値をTHL(L)(但しL=O〜THNOとする。ま
た、THL (L−1)<THL (L)及びTHL
(0)=Oであって、THL (THNO)は入力音声
レベル信号が最大取り得る値とする)とし、これらの閾
値を予め設定しておく、さらに、入力音声レベル最大値
をMAXLとする。
音声レベルの最大値に適応した閾値をレベル適応無音区
間判定閾値として選択する。この場合、入力音声レベル
閾値をTHL(L)(但しL=O〜THNOとする。ま
た、THL (L−1)<THL (L)及びTHL
(0)=Oであって、THL (THNO)は入力音声
レベル信号が最大取り得る値とする)とし、これらの閾
値を予め設定しておく、さらに、入力音声レベル最大値
をMAXLとする。
この入力音声レベルの最大値に適応した閾値をレベル適
応閾値として選択するため、次の条件を使用する。
応閾値として選択するため、次の条件を使用する。
THL (L−1)<MAXL≦THL (L)この条
件を満足する第り番目の閾値THM (L)をレベル適
応閾値とする。
件を満足する第り番目の閾値THM (L)をレベル適
応閾値とする。
第5図(A)及び(B)はこのようなレベル適応閾値を
判定する方法を具体的に説明するための図であり、この
図示例では、THNO=5とした場合につき、(A)図
は入力音声レベルが小さい場合及び(B)図は入力音声
レベルが大きい場合をそれぞれ示す、これら図において
、横軸に時刻tを取り及び縦軸に無音区間利足閾値TH
M(1)〜THM(5)及び入力音声レベル閾値THL
(1)〜THL (4)を取って示しである。
判定する方法を具体的に説明するための図であり、この
図示例では、THNO=5とした場合につき、(A)図
は入力音声レベルが小さい場合及び(B)図は入力音声
レベルが大きい場合をそれぞれ示す、これら図において
、横軸に時刻tを取り及び縦軸に無音区間利足閾値TH
M(1)〜THM(5)及び入力音声レベル閾値THL
(1)〜THL (4)を取って示しである。
第5図(A)に示す入力音声信号においては、その入力
音声レベルの最大値MAKLが前述の条件を満足するL
の値は2であるので、このL=2に対応する閾値はTH
M (2)となる、従って、この(21値THM (2
)がレベル適応閾値であると共に、この閾値THM (
2)以下の入力音声信号区間が無音区間と判定される。
音声レベルの最大値MAKLが前述の条件を満足するL
の値は2であるので、このL=2に対応する閾値はTH
M (2)となる、従って、この(21値THM (2
)がレベル適応閾値であると共に、この閾値THM (
2)以下の入力音声信号区間が無音区間と判定される。
第5図(B)の場合も同様に、入力音声レベルの最大値
MAXLが条件を満足するLは4であるので、対応する
レベル適応閾値はTHM (4)となり、従って、この
閾値以下の入力信号区間が無音区間となる。
MAXLが条件を満足するLは4であるので、対応する
レベル適応閾値はTHM (4)となり、従って、この
閾値以下の入力信号区間が無音区間となる。
このようにして設定されるレベル適応閾値に対応するロ
ーカルピークパタンをローカルビーク記憶部22から読
み出すため、このローカルピークパタンが記憶されてい
る第り番目の閾値に対応するメモリ部分の先頭アドレス
CHNNO・MAXFR・ (L−1)を表わす先頭ア
ドレス信号りをこの記憶部22にローカルビークアドレ
ス計算部20から供給する(Sa)、第5図(A)の実
施例では、L=2であるから先頭アドレスはCHNNO
−MAXFR−1トナ!J、第5図CB) ノ実施例テ
ハ、先頭アドレスはCHNNO・MAXFR−3となる
。
ーカルピークパタンをローカルビーク記憶部22から読
み出すため、このローカルピークパタンが記憶されてい
る第り番目の閾値に対応するメモリ部分の先頭アドレス
CHNNO・MAXFR・ (L−1)を表わす先頭ア
ドレス信号りをこの記憶部22にローカルビークアドレ
ス計算部20から供給する(Sa)、第5図(A)の実
施例では、L=2であるから先頭アドレスはCHNNO
−MAXFR−1トナ!J、第5図CB) ノ実施例テ
ハ、先頭アドレスはCHNNO・MAXFR−3となる
。
このようにして、ローカルビーク記憶部22からは、供
給された先頭アドレス信号から入力音声のフレーム数分
のローカルピークパタンをレベル適応ローカルピークパ
タン信号iとして読み出して類似度計算部24へ出力す
る。
給された先頭アドレス信号から入力音声のフレーム数分
のローカルピークパタンをレベル適応ローカルピークパ
タン信号iとして読み出して類似度計算部24へ出力す
る。
次に、類似度計算及び判定処理につき簡単に説明する。
類似度計算部24においては、従来と同様にして、予め
認識対象カテゴリについてローカルピークパタンの標準
的なパタンと考えられるパタンか格納されている標準パ
タン記憶部2Bから、標準パタンを読み出してその信号
mを受は取り、この標準パタンとレベル適応ローカルピ
ークパタンとの類似度計算(−例として市街地圧′!a
)を行って、類似度を算出し、これを類似度信号nとし
て判定部28に供給する。この処理は全ての標準パタン
につき行う。
認識対象カテゴリについてローカルピークパタンの標準
的なパタンと考えられるパタンか格納されている標準パ
タン記憶部2Bから、標準パタンを読み出してその信号
mを受は取り、この標準パタンとレベル適応ローカルピ
ークパタンとの類似度計算(−例として市街地圧′!a
)を行って、類似度を算出し、これを類似度信号nとし
て判定部28に供給する。この処理は全ての標準パタン
につき行う。
判定部28においては、全標準パタンとの類似度の中か
ら、最大類似度を算出し、この最大類似度先竿える標準
パタンのカテゴリ名を認識結果を表わす信号pとして出
力する。
ら、最大類似度を算出し、この最大類似度先竿える標準
パタンのカテゴリ名を認識結果を表わす信号pとして出
力する。
以上の処理により、この発明の音声認識方法の一連の処
理を終了する。
理を終了する。
この発明は上述した実施例にのみ限定されるものではな
いこと明らかである1例えば、無音区間判定用値及び入
力音声レベル閾値は設計に応じて任意の個数だけに設定
することが出来る。
いこと明らかである1例えば、無音区間判定用値及び入
力音声レベル閾値は設計に応じて任意の個数だけに設定
することが出来る。
又、この発明の音声認識方法を実行するための各処理の
内容は、この発明の範囲を逸脱しない範囲内で、上述し
た内容とは異なる内容とすることも出来る。
内容は、この発明の範囲を逸脱しない範囲内で、上述し
た内容とは異なる内容とすることも出来る。
(発明の効果)
上述した説明から明らかなように、この発明の音声認識
方法によれば、無音区間判定121値を複数個設定し、
これにより入力音声レベルに適応した無音区間判定を実
時間処理で行い、この無音区間におけるローカルビーク
値を「0」とするローカルビーク抽出方法であるので、
周囲雑音変動によるローカルビーク抽出結果の不安定要
因を取り除く処理を実時間でかつ精度良く行うことが出
来る。
方法によれば、無音区間判定121値を複数個設定し、
これにより入力音声レベルに適応した無音区間判定を実
時間処理で行い、この無音区間におけるローカルビーク
値を「0」とするローカルビーク抽出方法であるので、
周囲雑音変動によるローカルビーク抽出結果の不安定要
因を取り除く処理を実時間でかつ精度良く行うことが出
来る。
従って、この発明の音声認識方法によれば、周囲雑音変
動に影響されずに認識精度が著しく高くかつ高速で処理
できる音声認識装置を提供することが出来る。
動に影響されずに認識精度が著しく高くかつ高速で処理
できる音声認識装置を提供することが出来る。
第1図はこの発明の音声認識方法の説明に供する、この
発明を実施するための装置の一構成例を示すブロック図
、 第2図はこの発明の説明に供するレベル適応ローカルピ
ークパタンを抽出する過程を示す流れ図、 第3図(A) 、 (B)及び(C)は従来のローカル
ピークパタン算出方法の説明に供する説明図、第4図は
この発明の説明に供する音声終端時刻でのローカルピー
ク記憶部の一構成例を示す図、第5図(A)及び(8)
は入力音声レベルから無音区間判定及びレベル適応無音
区間判定閾値を選定する例を説明するための図である。 10・・・レベル抽出部、 12・・・周波数分析部
14・・・音声区間検出部、 16・・・最大値検出部
18・・・ローカルピーク抽出部 20・・・ローカルピークアドレス計算部22・・・ロ
ーカルピーク記憶部 24・・・類似度計算部、 26・・・標準パタン記
憶部28・・・判定部 a・・・入力信号 b・・・周波数スペクトル信号 C・・・入力音声レベル信号 d・・・音声始端時刻信号 e・・・ローカルピークパタン信号 f・・・音声終端時刻信号 g・・・入力音声レベル最大信号 h・・・先頭アドレス信号 i・・・レベル適応ローカルピークパタン信号m・・・
標準パタン、 n・・・類似度信号p・・・認識
結果信号。 特許出願人 沖電気工業株式会社レベ゛)し↓、
−ローカルし0−フハ″ワン享由≦の涜れ図第2図 千−不ル沓号 2 (C) r、 0001000001000010
00ローカ)しぴ−7ノマタン ロールしこ°−7ノぐタン 1巳aos 国第3図 CHNNO−/ 音声朴鳩B1・1でのローnルビー7記・置部ノ嬶氏図
面の浄書(内容に変更なし) 手続ネ甫正書(方式) %式% 1事件の表示 昭和61年特許願132676号2発
明の名称 音声認識方法 3補正をする者 事件との関係 特許出願人 住所 (〒−105) 東京都港区虎ノ門1丁目7番12号 名称(029)沖電気工業株式会社 代表者 橋本 南海男 4代理人 〒170 ffi (988)5563
住所 東京都豊島区東池袋1丁目20番地56補正の対
象 図面 7補正の内容 別紙の通り (1)図面のis図を、添付の訂正図の通り訂正する。 手続補正書 昭和62年2月9日
発明を実施するための装置の一構成例を示すブロック図
、 第2図はこの発明の説明に供するレベル適応ローカルピ
ークパタンを抽出する過程を示す流れ図、 第3図(A) 、 (B)及び(C)は従来のローカル
ピークパタン算出方法の説明に供する説明図、第4図は
この発明の説明に供する音声終端時刻でのローカルピー
ク記憶部の一構成例を示す図、第5図(A)及び(8)
は入力音声レベルから無音区間判定及びレベル適応無音
区間判定閾値を選定する例を説明するための図である。 10・・・レベル抽出部、 12・・・周波数分析部
14・・・音声区間検出部、 16・・・最大値検出部
18・・・ローカルピーク抽出部 20・・・ローカルピークアドレス計算部22・・・ロ
ーカルピーク記憶部 24・・・類似度計算部、 26・・・標準パタン記
憶部28・・・判定部 a・・・入力信号 b・・・周波数スペクトル信号 C・・・入力音声レベル信号 d・・・音声始端時刻信号 e・・・ローカルピークパタン信号 f・・・音声終端時刻信号 g・・・入力音声レベル最大信号 h・・・先頭アドレス信号 i・・・レベル適応ローカルピークパタン信号m・・・
標準パタン、 n・・・類似度信号p・・・認識
結果信号。 特許出願人 沖電気工業株式会社レベ゛)し↓、
−ローカルし0−フハ″ワン享由≦の涜れ図第2図 千−不ル沓号 2 (C) r、 0001000001000010
00ローカ)しぴ−7ノマタン ロールしこ°−7ノぐタン 1巳aos 国第3図 CHNNO−/ 音声朴鳩B1・1でのローnルビー7記・置部ノ嬶氏図
面の浄書(内容に変更なし) 手続ネ甫正書(方式) %式% 1事件の表示 昭和61年特許願132676号2発
明の名称 音声認識方法 3補正をする者 事件との関係 特許出願人 住所 (〒−105) 東京都港区虎ノ門1丁目7番12号 名称(029)沖電気工業株式会社 代表者 橋本 南海男 4代理人 〒170 ffi (988)5563
住所 東京都豊島区東池袋1丁目20番地56補正の対
象 図面 7補正の内容 別紙の通り (1)図面のis図を、添付の訂正図の通り訂正する。 手続補正書 昭和62年2月9日
Claims (1)
- (1)入力音声に対し周波数分析及び対数変換を行った
後、周波数スペクトルの最小二乗値で正規化した正規化
出力ベクトルの正値かつ極大となる成分を「1」及びそ
の他の成分を「0」と設定してローカルピークパタンを
抽出し、音声入力終了後前記ローカルピークパタンを使
用して予め用意されている標準パタンとの類似度計算に
より認識を行うようにした音声認識方法において、 前記標準パタンとの類似度計算用の、入力音声レベルに
適応したレベル適応ローカルピークパタンを得るため、 (a)入力音声レベルに対応して複数の無音区間判定閾
値を予め設定しておき、 (b)音声区間中の各フレーム毎に、入力音声レベルと
全ての前記無音判定閾値との大小比較を無音判定閾値毎
に行って、 [1]入力音声レベルが前記無音判定閾値より大である
とき前記正規化出力ベクトルの中で正値かつ極大となる
成分を「1」及びその他の成分を「0」と設定し及び [2]前記入力音声レベルが前記無音判定閾値以下であ
るとき前記正規化出力ベクトルの全ての成分を「0」と
設定することにより、 全ての前記無音判定閾値に対するローカルピークパタン
をそれぞれ抽出し、 (c)前記音声区間の終端検出後、複数の前記無音区間
判定閾値の中から前記入力音声レベルの最大値に適応し
た無音区間判定閾値をレベル適応無音区間判定閾値とし
て選択し、 (d)該レベル適応無音区間判定閾値に対する各フレー
ム毎のローカルピークパタンをレベル適応ローカルピー
クパタンとして出力する ことを特徴とする音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61132676A JPH0731506B2 (ja) | 1986-06-10 | 1986-06-10 | 音声認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61132676A JPH0731506B2 (ja) | 1986-06-10 | 1986-06-10 | 音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS62289895A true JPS62289895A (ja) | 1987-12-16 |
| JPH0731506B2 JPH0731506B2 (ja) | 1995-04-10 |
Family
ID=15086898
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61132676A Expired - Lifetime JPH0731506B2 (ja) | 1986-06-10 | 1986-06-10 | 音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0731506B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5949550B2 (ja) * | 2010-09-17 | 2016-07-06 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
-
1986
- 1986-06-10 JP JP61132676A patent/JPH0731506B2/ja not_active Expired - Lifetime
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5949550B2 (ja) * | 2010-09-17 | 2016-07-06 | 日本電気株式会社 | 音声認識装置、音声認識方法、及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0731506B2 (ja) | 1995-04-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0465392B2 (ja) | ||
| JP3266124B2 (ja) | アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置 | |
| JPS62289895A (ja) | 音声認識方法 | |
| JPH03114100A (ja) | 音声区間検出装置 | |
| JPS62293299A (ja) | 音声認識方法 | |
| JP3411074B2 (ja) | 母音区間検出装置及び母音区間検出方法 | |
| JPH036599A (ja) | 鼻子音開放点検出方法 | |
| Conway et al. | Evaluation of a technique involving processing with feature extraction to enhance the intelligibility of noise-corrupted speech | |
| JPS63223696A (ja) | 音声パタ−ン作成方式 | |
| JPS61233791A (ja) | 音声認識装置における音声区間検出方式 | |
| JPS59211100A (ja) | 登録型音声認識方法 | |
| Chen et al. | On the use of pitch contour of Mandarin speech in text-independent speaker identification | |
| JPS62113197A (ja) | 音声認識装置 | |
| JPS61273599A (ja) | 音声認識装置 | |
| JPS5925237B2 (ja) | 音声分析合成方式の音声区間判定方法 | |
| JPS61238099A (ja) | 単語音声認識装置 | |
| JPS5925238B2 (ja) | 音声分析合成方式の音声区間判定方法 | |
| JPH04204899A (ja) | 音声認識装置 | |
| JPS6227798A (ja) | 音声認識装置 | |
| JPS59204099A (ja) | 音声認識方式 | |
| JPS62211698A (ja) | 音声区間検出方法 | |
| JPS61273600A (ja) | 音声認識装置 | |
| JPH0451840B2 (ja) | ||
| JPH0567036B2 (ja) | ||
| JPS5995597A (ja) | 音声特徴パラメ−タ作成方式 |