JPS6114520B2 - - Google Patents
Info
- Publication number
- JPS6114520B2 JPS6114520B2 JP52043972A JP4397277A JPS6114520B2 JP S6114520 B2 JPS6114520 B2 JP S6114520B2 JP 52043972 A JP52043972 A JP 52043972A JP 4397277 A JP4397277 A JP 4397277A JP S6114520 B2 JPS6114520 B2 JP S6114520B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- sampling
- parameters
- speech
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
Description
【発明の詳細な説明】
本発明は音声認識方法に係り、特に登録・照合
を前提とする単語音声認識に適用して好適な音声
認識方法に係る。
を前提とする単語音声認識に適用して好適な音声
認識方法に係る。
従来の登録・照合を前提とする単語音声認識に
おいては、音声認識に必要なパラメータたとえば
第1ホルマント周波数及び第2ホルマント周波数
を定時間間隔でサンプリングし、このパラメータ
を使用することにより音声認識を行つていた。
おいては、音声認識に必要なパラメータたとえば
第1ホルマント周波数及び第2ホルマント周波数
を定時間間隔でサンプリングし、このパラメータ
を使用することにより音声認識を行つていた。
しかしながら、音声における上記パラメータは
時間的なだらかに変化するとは限らず、急変する
場合がある。
時間的なだらかに変化するとは限らず、急変する
場合がある。
このため、パラメータ標本化周波数を低減化す
ると音声の認識率が低下し、一方この標本化周波
数を高め認識率を高めようとするとパラメータ等
を記憶するメモリの容量が増大すると共に、処理
時間が増加する欠点を生じる。
ると音声の認識率が低下し、一方この標本化周波
数を高め認識率を高めようとするとパラメータ等
を記憶するメモリの容量が増大すると共に、処理
時間が増加する欠点を生じる。
そこで、より少ない標本数で音声の情報を効率
よく表現し、すなわちより少ない標本数で音声の
パラメータを抽出し、更には認識率を高める方式
が要望される。
よく表現し、すなわちより少ない標本数で音声の
パラメータを抽出し、更には認識率を高める方式
が要望される。
本発明にかかる要求を満たす新規な音声認識方
式を提供することを目的としており、この目的は
音声信号の周波数分析結果を利用して各音素に対
するパラメータを抽出し、このパラメータと予め
登録せられる音素のパラメータとを使用して未知
入力音声の認識を行なう音声認識方法において、
入力音声の累積変動量AV(to)を逐次演算して
累積せしめ、この累積変動量が所定のスレツシユ
ホールド値TH以上になつた時点にパラメータを
抽出することにより達成される。すなわち、本発
明においては従来例の如く定時間間隔でパラメー
タを標本化(均一標本化)するものではなく、パ
ラメータの急変する部分で標本数を多くとり、一
方パラメータの変動が少ない部分では標本数を少
としてパラメータを標本化(不均一標本化)し、
全体として標本数を小に即ち平均標本周波数を小
となしメモリ容量の低減、処理の高速化及び認識
率の向上を図つたものである。
式を提供することを目的としており、この目的は
音声信号の周波数分析結果を利用して各音素に対
するパラメータを抽出し、このパラメータと予め
登録せられる音素のパラメータとを使用して未知
入力音声の認識を行なう音声認識方法において、
入力音声の累積変動量AV(to)を逐次演算して
累積せしめ、この累積変動量が所定のスレツシユ
ホールド値TH以上になつた時点にパラメータを
抽出することにより達成される。すなわち、本発
明においては従来例の如く定時間間隔でパラメー
タを標本化(均一標本化)するものではなく、パ
ラメータの急変する部分で標本数を多くとり、一
方パラメータの変動が少ない部分では標本数を少
としてパラメータを標本化(不均一標本化)し、
全体として標本数を小に即ち平均標本周波数を小
となしメモリ容量の低減、処理の高速化及び認識
率の向上を図つたものである。
以下、本発明を図面に従つて詳細に説明する。
第1図は本発明に係る音声認識を実現するため
の回路ブロツク図であり、1は入力音声をNチヤ
ンネルたとえば15チヤンネルの周波数信号に分解
する前処理手段即ち帯域フイルタ群、2は音声の
特徴パラメータたとえば第1、第2ホルマント周
波数に相当するM1、M2を計算するパラメータ抽
出部、3は入力音声のパラメータをサンプリング
すべき時刻を決定するサンプリング時刻決定回
路、4はサンプリング時刻決定回路からのタイミ
ングにより第1、第2ホルマント周波数を不均一
サンプリングし、これを登録モード時にはパラメ
ータ時系列登録部に、認識モード時には照合部に
それぞれ入力する不均一サンプリング回路、5は
不均一サンプリングされた第1、第2ホルマント
周波数を登録モード時単語名と対応づけて記憶す
るパラメータ時系列登録部、6は未知入力音声の
パラメータ時系列と登録部5に既に記憶せられて
いる既知音声のパラメータ時系列とを比較し、未
知入力音声を認識するパラメータ時系列照合部、
7は出力回路、8はサンプリング回路の出力信号
を登録モード時にパラメータ時系列登録部に入力
し、認識モード時には照合部6に入力する切替回
路、9はコントローラである。尚、図中実線は信
号線、点線は制御線である。
の回路ブロツク図であり、1は入力音声をNチヤ
ンネルたとえば15チヤンネルの周波数信号に分解
する前処理手段即ち帯域フイルタ群、2は音声の
特徴パラメータたとえば第1、第2ホルマント周
波数に相当するM1、M2を計算するパラメータ抽
出部、3は入力音声のパラメータをサンプリング
すべき時刻を決定するサンプリング時刻決定回
路、4はサンプリング時刻決定回路からのタイミ
ングにより第1、第2ホルマント周波数を不均一
サンプリングし、これを登録モード時にはパラメ
ータ時系列登録部に、認識モード時には照合部に
それぞれ入力する不均一サンプリング回路、5は
不均一サンプリングされた第1、第2ホルマント
周波数を登録モード時単語名と対応づけて記憶す
るパラメータ時系列登録部、6は未知入力音声の
パラメータ時系列と登録部5に既に記憶せられて
いる既知音声のパラメータ時系列とを比較し、未
知入力音声を認識するパラメータ時系列照合部、
7は出力回路、8はサンプリング回路の出力信号
を登録モード時にパラメータ時系列登録部に入力
し、認識モード時には照合部6に入力する切替回
路、9はコントローラである。尚、図中実線は信
号線、点線は制御線である。
音声が入力されると、該音声は帯域フイルタ群
1においてNチヤンネルの周波数信号P1(t)、
P2(t)………PN(t)に分解され、これらの
信号はそれぞれサンプリング時刻決定回路3及び
パラメータ抽出部2に入力される。
1においてNチヤンネルの周波数信号P1(t)、
P2(t)………PN(t)に分解され、これらの
信号はそれぞれサンプリング時刻決定回路3及び
パラメータ抽出部2に入力される。
パラメータ抽出部2は一定周期のクロツクパル
スが発生する毎に常時次式により第1ホルマント
周波数及び第2ホルマント周波数を計算し、その
結果を図示しないレジスタに記憶する。
スが発生する毎に常時次式により第1ホルマント
周波数及び第2ホルマント周波数を計算し、その
結果を図示しないレジスタに記憶する。
ここでPi(to)はたとえば10msec毎の時点
toでサンプリングされたi番目のフイルタ出力
であり、Wijはその荷重、Fiはその中心周波数を
表わしている。なお、荷重Wi、jはホルマント周
波数既知の合成音のフイルタ出力から求めた量
M1、M2が該ホルマント周波数に一致するように
予め実験的に決定される。
toでサンプリングされたi番目のフイルタ出力
であり、Wijはその荷重、Fiはその中心周波数を
表わしている。なお、荷重Wi、jはホルマント周
波数既知の合成音のフイルタ出力から求めた量
M1、M2が該ホルマント周波数に一致するように
予め実験的に決定される。
一方、サンプリング時刻決定回路3はM1、M2
の演算周期で次式により定義される累積変動量
AV(to)の演算を行ない不均一サンプリング時
刻tokを決定する。
の演算周期で次式により定義される累積変動量
AV(to)の演算を行ない不均一サンプリング時
刻tokを決定する。
即ち、上記累積変動量AV(to)が予め定めら
れた閾値THを超えたか否かを決定回路3により
監視し、該閾値を超えた時点tokをk番目の不均
一ササンプリング時刻とし出力を発生する。
れた閾値THを超えたか否かを決定回路3により
監視し、該閾値を超えた時点tokをk番目の不均
一ササンプリング時刻とし出力を発生する。
ここでV(to)はフイルタ出力の変動量であ
り次式で定義される。
り次式で定義される。
かくして累積変動量AV(to)が時刻tokで閾
値を超えると、決定回路3より不均一サンプリン
グ回路4にサンプリング指令が出され、これによ
りサンプリング回路4はパラメータ抽出部2の図
示しないレジスタに記憶せられる時刻tokの第
1、第2ホルマント周波数M1、M2をサンプリン
グし、これを登録時にはパラメータ時系列登録部
5に記憶させ、又、認識時であればパラメータ照
合部6に入力する。
値を超えると、決定回路3より不均一サンプリン
グ回路4にサンプリング指令が出され、これによ
りサンプリング回路4はパラメータ抽出部2の図
示しないレジスタに記憶せられる時刻tokの第
1、第2ホルマント周波数M1、M2をサンプリン
グし、これを登録時にはパラメータ時系列登録部
5に記憶させ、又、認識時であればパラメータ照
合部6に入力する。
決定回路3は上記サンプリング指令を出力すれ
ば直ちに累積変動量AV(to)を零にリセツト
し、再びフイルタ出力V(to)の変動量を2,
3に基いて累積してゆく。
ば直ちに累積変動量AV(to)を零にリセツト
し、再びフイルタ出力V(to)の変動量を2,
3に基いて累積してゆく。
以後、同様に入力音声がなくなるまで累積変動
量を監視し、閾値を超えるごとにその時点の第
1、第2ホルマント周波数をサンプリングしこれ
を登録部5又は照合部6に入力することになる。
量を監視し、閾値を超えるごとにその時点の第
1、第2ホルマント周波数をサンプリングしこれ
を登録部5又は照合部6に入力することになる。
尚、以上の説明では累積変動量と第1、第2ホ
ルマント周波数に相当するM1、M2の演算を並列
して行なう場合について述べたが、累積変動量
AV(to)が閾値THを超えた際にのみM1、M2の
演算をするようにしてもよい。
ルマント周波数に相当するM1、M2の演算を並列
して行なう場合について述べたが、累積変動量
AV(to)が閾値THを超えた際にのみM1、M2の
演算をするようにしてもよい。
このようにすれば後述の如く、AV(to)、
M1、M2の演算、照合等をコンピユータにより行
なう場合にその処理能力を大幅にアツプできる。
M1、M2の演算、照合等をコンピユータにより行
なう場合にその処理能力を大幅にアツプできる。
一方、パラメータ照合部6は単語認識モード時
にサンプリング回路4によりサンプリングされた
パラメータ時系列を一旦図示しない内部のレジス
タに記憶せしめ、しかる後、パラメータ時系列登
録部5に記憶せられる各既知単語のパラメータ時
系列と周知方法で比較し最も類似性のある単語を
未知入力音声として出力回路7に出力する。しか
る後、出力回路8は照合部の認識結果に基づき認
識単語をデイスプレイ又はスピーカより出力する
ことになる。
にサンプリング回路4によりサンプリングされた
パラメータ時系列を一旦図示しない内部のレジス
タに記憶せしめ、しかる後、パラメータ時系列登
録部5に記憶せられる各既知単語のパラメータ時
系列と周知方法で比較し最も類似性のある単語を
未知入力音声として出力回路7に出力する。しか
る後、出力回路8は照合部の認識結果に基づき認
識単語をデイスプレイ又はスピーカより出力する
ことになる。
第2図は第1図による音声認識をコンピユータ
によりソフト的に実行する本発明の別の実施例で
あり、201は処理装置CPU、202はプログ
ラムメモリ、203は演算結果を格納するメモ
リ、205はアダプタ、206は第1図のNチヤ
ンネルの帯域フイルタ群である。
によりソフト的に実行する本発明の別の実施例で
あり、201は処理装置CPU、202はプログ
ラムメモリ、203は演算結果を格納するメモ
リ、205はアダプタ、206は第1図のNチヤ
ンネルの帯域フイルタ群である。
第3図は本発明による音声認識の手順を示す流
れ図であり、第1、第2ホルマント周波数M1、
M2をAV(to)>THになつた後に計算する例で
ある。かくして、上記本発明によりサンプリング
時刻tkを求めこの時刻に第1ホルマント周波数
を計算してみると、たとえば|∫it∫i|(シ
チ)の第1ホルマント周波数の時間的遷移は第4
図の如くなる。尚、第4図aは均一標本化の場合
であり、bは均一本化率を1とした場合、標本化
率0.33の本発明不均一標本化におけるM1の時間
的遷移である。
れ図であり、第1、第2ホルマント周波数M1、
M2をAV(to)>THになつた後に計算する例で
ある。かくして、上記本発明によりサンプリング
時刻tkを求めこの時刻に第1ホルマント周波数
を計算してみると、たとえば|∫it∫i|(シ
チ)の第1ホルマント周波数の時間的遷移は第4
図の如くなる。尚、第4図aは均一標本化の場合
であり、bは均一本化率を1とした場合、標本化
率0.33の本発明不均一標本化におけるM1の時間
的遷移である。
これより明らかな如く、第1ホルマント周波数
の急変部でより多くサンプリングされ、変化の少
ない部分ではサンプリングのあらさが小となつて
いることが理解される。
の急変部でより多くサンプリングされ、変化の少
ない部分ではサンプリングのあらさが小となつて
いることが理解される。
又、第5図は均一標本化の場合と本発明による
認識率を示すもので一定速度の均一標本化率を1
とした場合、相対標本化率が0.33以下では本発明
による認識率が均一標本による場合に比べ著しく
向上していることが理解される。
認識率を示すもので一定速度の均一標本化率を1
とした場合、相対標本化率が0.33以下では本発明
による認識率が均一標本による場合に比べ著しく
向上していることが理解される。
尚、上記データは成人男性1名が数字、演算記
号30語を7回宛発声した総計210語を用い、これ
らを15チヤンネルの1/3オクターブフイルタ(中
心周波数200Hz〜5000Hz)で周波数分析して整流
平滑を行ない、しかる後標本化周期10msec、精
度11ビツトでA/D変換して計算機入力し特徴パ
ラメータとして前記第1、第2ホルマント周波数
に相当するM1、M2を求め、このパラメータを使
用することにより比較的特徴量の類似している|
san|、|sain|、|yon|、|it∫i|、|∫i
|、|∫it∫i|の6種計42語を用いて、標本化
率と認識率の関係を認識実験によつて求めたもの
である。
号30語を7回宛発声した総計210語を用い、これ
らを15チヤンネルの1/3オクターブフイルタ(中
心周波数200Hz〜5000Hz)で周波数分析して整流
平滑を行ない、しかる後標本化周期10msec、精
度11ビツトでA/D変換して計算機入力し特徴パ
ラメータとして前記第1、第2ホルマント周波数
に相当するM1、M2を求め、このパラメータを使
用することにより比較的特徴量の類似している|
san|、|sain|、|yon|、|it∫i|、|∫i
|、|∫it∫i|の6種計42語を用いて、標本化
率と認識率の関係を認識実験によつて求めたもの
である。
破線は均一標本化、実線は不均一標本化の例を
示すが、その差は相対標本化率がほぼ0.3より小
さくなると急激に増大する傾向がある。
示すが、その差は相対標本化率がほぼ0.3より小
さくなると急激に増大する傾向がある。
次にその確認のため上記音声資料の全て210語
を用いて、相対標本化率が0.33と0.17の場合につ
いて均一標本化と不均一標本化の場合のそれぞれ
の認識率を求めたが第6図に示す如く同様な傾向
を示す。
を用いて、相対標本化率が0.33と0.17の場合につ
いて均一標本化と不均一標本化の場合のそれぞれ
の認識率を求めたが第6図に示す如く同様な傾向
を示す。
一方、単語音声認識に要する処理時間は第7図
に示す如く相対標本化率の2乗に比例し、また記
憶容量は正比例する結果がえられた。
に示す如く相対標本化率の2乗に比例し、また記
憶容量は正比例する結果がえられた。
以上より、本発明によれば全体として標本化数
を小にできるからメモリ容量を小にでき同時に照
合時間を減少できる。
を小にできるからメモリ容量を小にでき同時に照
合時間を減少できる。
又、パラメータの変動が急激の部分ではより多
くのサンプリングを行うから音声の特徴を確実に
つかみこれにより音声認識でき、その認識率を高
めることができる。
くのサンプリングを行うから音声の特徴を確実に
つかみこれにより音声認識でき、その認識率を高
めることができる。
第1図は本発明の一実施例、第2図は本発明の
別の実施例、第3図は本発明による不均一標本化
の手順を示す流れ図、第4図は本発明による第1
ホルマント周波数の時間的推移を示す図、第5,
6図は本発明による不均一標本化と従来の均一標
本化の認識率を比較するもの、第7図はメモリ容
量と相対標本化率との関係を示す図である。 図中、1は帯域フイルタ群、2はパラメータ抽
出部、3はサンプリング時刻決定回路、4は不均
一サンプリング回路、5はパラメータ時系列登録
部、6はパラメータ時系列照合部である。
別の実施例、第3図は本発明による不均一標本化
の手順を示す流れ図、第4図は本発明による第1
ホルマント周波数の時間的推移を示す図、第5,
6図は本発明による不均一標本化と従来の均一標
本化の認識率を比較するもの、第7図はメモリ容
量と相対標本化率との関係を示す図である。 図中、1は帯域フイルタ群、2はパラメータ抽
出部、3はサンプリング時刻決定回路、4は不均
一サンプリング回路、5はパラメータ時系列登録
部、6はパラメータ時系列照合部である。
Claims (1)
- 【特許請求の範囲】 1 音声信号の周波数分析結果を利用して各音素
に対するパラメータを抽出し、このパラメータと
予め登録せられる音素のパラメータとを使用して
未知入力音声の認識を行なう音声認識方法におい
て、入力音声の累積変動量AV(tn)を逐次演算
して累積せしめ、この累積変動量が所定のスレツ
シユホールド値以上になつた時点でパラメータを
抽出することを特徴とする音声認識方法。 2 前記累積変動量が所定のスレツシユホールド
値以上になつた際におけるパラメータを既知入力
音声のパラメータとして記憶せしめることを特徴
とする特許請求の範囲第1項記載の音声認識方
法。 3 前記累積変動量が所定のスレツシユホールド
値以上になつた際におけるパラメータを未知入力
音声のパラメータとすることを特徴とする特許請
求の範囲第1項記載の音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4397277A JPS53128905A (en) | 1977-04-15 | 1977-04-15 | Voice discrimination system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4397277A JPS53128905A (en) | 1977-04-15 | 1977-04-15 | Voice discrimination system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS53128905A JPS53128905A (en) | 1978-11-10 |
| JPS6114520B2 true JPS6114520B2 (ja) | 1986-04-18 |
Family
ID=12678619
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP4397277A Granted JPS53128905A (en) | 1977-04-15 | 1977-04-15 | Voice discrimination system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS53128905A (ja) |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS57157300A (en) * | 1981-03-23 | 1982-09-28 | Nippon Electric Co | Voice information sampling unit |
| JPS57164800A (en) * | 1981-04-03 | 1982-10-09 | Sanyo Electric Co | Voice pattern preparation apparatus |
| JPS57191000A (en) * | 1981-05-20 | 1982-11-24 | Sanyo Electric Co | Voice pattern preparation apparatus |
| JPS5852694A (ja) * | 1981-09-22 | 1983-03-28 | 富士通株式会社 | 単音節音声認識装置 |
| JPS60202489A (ja) * | 1984-03-27 | 1985-10-12 | 松下電器産業株式会社 | 音声認識方法 |
| JPS6199200A (ja) * | 1984-10-02 | 1986-05-17 | 富士通株式会社 | 音声認識処理方式 |
| JP2664136B2 (ja) * | 1985-08-30 | 1997-10-15 | 株式会社日立製作所 | 音声認識装置 |
-
1977
- 1977-04-15 JP JP4397277A patent/JPS53128905A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS53128905A (en) | 1978-11-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3114975B2 (ja) | 音素推定を用いた音声認識回路 | |
| US5355432A (en) | Speech recognition system | |
| JP2780676B2 (ja) | 音声認識装置及び音声認識方法 | |
| JPS6128998B2 (ja) | ||
| JPS6114520B2 (ja) | ||
| US5295190A (en) | Method and apparatus for speech recognition using both low-order and high-order parameter analyzation | |
| US4868879A (en) | Apparatus and method for recognizing speech | |
| JPS6129519B2 (ja) | ||
| JPS6129518B2 (ja) | ||
| JP7323936B2 (ja) | 疲労推定装置 | |
| JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
| EP0139642A1 (en) | SPEECH RECOGNITION METHODS AND DEVICES. | |
| JP2001083978A (ja) | 音声認識装置 | |
| JPH06324699A (ja) | 連続音声認識装置 | |
| JPS6258515B2 (ja) | ||
| JPH10124084A (ja) | 音声処理装置 | |
| JPH054678B2 (ja) | ||
| JPS6039695A (ja) | 自動音声アクチビテイ検出方法および装置 | |
| JPS62113197A (ja) | 音声認識装置 | |
| CN112863488A (zh) | 语音信号的处理方法、装置以及电子设备 | |
| CN112863487A (zh) | 语音识别方法、装置以及电子设备 | |
| JPS58149099A (ja) | パタ−ン認識方式 | |
| JPS63223696A (ja) | 音声パタ−ン作成方式 | |
| JPS59124392A (ja) | 音声認識方式 | |
| JPH0511798A (ja) | 音声認識装置 |