JPS6114520B2

JPS6114520B2 -

Info

Publication number: JPS6114520B2
Application number: JP52043972A
Authority: JP
Inventors: Hiroya Fujisaki; Fujitoshi Takamura; Hidekazu Shiratori; Osamu Terao; Yasuo Sato
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1977-04-15
Filing date: 1977-04-15
Publication date: 1986-04-18
Also published as: JPS53128905A

Description

【発明の詳細な説明】本発明は音声認識方法に係り、特に登録・照合
を前提とする単語音声認識に適用して好適な音声
認識方法に係る。

従来の登録・照合を前提とする単語音声認識に
おいては、音声認識に必要なパラメータたとえば
第１ホルマント周波数及び第２ホルマント周波数
を定時間間隔でサンプリングし、このパラメータ
を使用することにより音声認識を行つていた。

しかしながら、音声における上記パラメータは
時間的なだらかに変化するとは限らず、急変する
場合がある。

このため、パラメータ標本化周波数を低減化す
ると音声の認識率が低下し、一方この標本化周波
数を高め認識率を高めようとするとパラメータ等
を記憶するメモリの容量が増大すると共に、処理
時間が増加する欠点を生じる。

そこで、より少ない標本数で音声の情報を効率
よく表現し、すなわちより少ない標本数で音声の
パラメータを抽出し、更には認識率を高める方式
が要望される。

本発明にかかる要求を満たす新規な音声認識方
式を提供することを目的としており、この目的は
音声信号の周波数分析結果を利用して各音素に対
するパラメータを抽出し、このパラメータと予め
登録せられる音素のパラメータとを使用して未知
入力音声の認識を行なう音声認識方法において、
入力音声の累積変動量AV（ｔ_o）を逐次演算して
累積せしめ、この累積変動量が所定のスレツシユ
ホールド値TH以上になつた時点にパラメータを
抽出することにより達成される。すなわち、本発
明においては従来例の如く定時間間隔でパラメー
タを標本化（均一標本化）するものではなく、パ
ラメータの急変する部分で標本数を多くとり、一
方パラメータの変動が少ない部分では標本数を少
としてパラメータを標本化（不均一標本化）し、
全体として標本数を小に即ち平均標本周波数を小
となしメモリ容量の低減、処理の高速化及び認識
率の向上を図つたものである。

以下、本発明を図面に従つて詳細に説明する。

第１図は本発明に係る音声認識を実現するため
の回路ブロツク図であり、１は入力音声をＮチヤ
ンネルたとえば15チヤンネルの周波数信号に分解
する前処理手段即ち帯域フイルタ群、２は音声の
特徴パラメータたとえば第１、第２ホルマント周
波数に相当するM₁、M₂を計算するパラメータ抽
出部、３は入力音声のパラメータをサンプリング
すべき時刻を決定するサンプリング時刻決定回
路、４はサンプリング時刻決定回路からのタイミ
ングにより第１、第２ホルマント周波数を不均一
サンプリングし、これを登録モード時にはパラメ
ータ時系列登録部に、認識モード時には照合部に
それぞれ入力する不均一サンプリング回路、５は
不均一サンプリングされた第１、第２ホルマント
周波数を登録モード時単語名と対応づけて記憶す
るパラメータ時系列登録部、６は未知入力音声の
パラメータ時系列と登録部５に既に記憶せられて
いる既知音声のパラメータ時系列とを比較し、未
知入力音声を認識するパラメータ時系列照合部、
７は出力回路、８はサンプリング回路の出力信号
を登録モード時にパラメータ時系列登録部に入力
し、認識モード時には照合部６に入力する切替回
路、９はコントローラである。尚、図中実線は信
号線、点線は制御線である。

音声が入力されると、該音声は帯域フイルタ群
１においてＮチヤンネルの周波数信号P₁（ｔ）、
P₂（ｔ）………Ｐ_N（ｔ）に分解され、これらの
信号はそれぞれサンプリング時刻決定回路３及び
パラメータ抽出部２に入力される。

パラメータ抽出部２は一定周期のクロツクパル
スが発生する毎に常時次式により第１ホルマント
周波数及び第２ホルマント周波数を計算し、その
結果を図示しないレジスタに記憶する。

ここでＰ_i（ｔ_o）はたとえば10ｍsec毎の時点
ｔ_oでサンプリングされたｉ番目のフイルタ出力
であり、Ｗ_ijはその荷重、Ｆ_iはその中心周波数を
表わしている。なお、荷重Ｗ_i、_jはホルマント周
波数既知の合成音のフイルタ出力から求めた量
M₁、M₂が該ホルマント周波数に一致するように
予め実験的に決定される。

一方、サンプリング時刻決定回路３はM₁、M₂
の演算周期で次式により定義される累積変動量
AV（ｔ_o）の演算を行ない不均一サンプリング時
刻ｔ_okを決定する。

即ち、上記累積変動量AV（ｔ_o）が予め定めら
れた閾値THを超えたか否かを決定回路３により
監視し、該閾値を超えた時点ｔ_okをｋ番目の不均
一ササンプリング時刻とし出力を発生する。

ここでＶ（ｔ_o）はフイルタ出力の変動量であ
り次式で定義される。

かくして累積変動量AV（ｔ_o）が時刻ｔ_okで閾
値を超えると、決定回路３より不均一サンプリン
グ回路４にサンプリング指令が出され、これによ
りサンプリング回路４はパラメータ抽出部２の図
示しないレジスタに記憶せられる時刻ｔ_okの第
１、第２ホルマント周波数M₁、M₂をサンプリン
グし、これを登録時にはパラメータ時系列登録部
５に記憶させ、又、認識時であればパラメータ照
合部６に入力する。

決定回路３は上記サンプリング指令を出力すれ
ば直ちに累積変動量AV（ｔ_o）を零にリセツト
し、再びフイルタ出力Ｖ（ｔ_o）の変動量を２，
３に基いて累積してゆく。

以後、同様に入力音声がなくなるまで累積変動
量を監視し、閾値を超えるごとにその時点の第
１、第２ホルマント周波数をサンプリングしこれ
を登録部５又は照合部６に入力することになる。

尚、以上の説明では累積変動量と第１、第２ホ
ルマント周波数に相当するM₁、M₂の演算を並列
して行なう場合について述べたが、累積変動量
AV（ｔ_o）が閾値THを超えた際にのみM₁、M₂の
演算をするようにしてもよい。

このようにすれば後述の如く、AV（ｔ_o）、
M₁、M₂の演算、照合等をコンピユータにより行
なう場合にその処理能力を大幅にアツプできる。

一方、パラメータ照合部６は単語認識モード時
にサンプリング回路４によりサンプリングされた
パラメータ時系列を一旦図示しない内部のレジス
タに記憶せしめ、しかる後、パラメータ時系列登
録部５に記憶せられる各既知単語のパラメータ時
系列と周知方法で比較し最も類似性のある単語を
未知入力音声として出力回路７に出力する。しか
る後、出力回路８は照合部の認識結果に基づき認
識単語をデイスプレイ又はスピーカより出力する
ことになる。

第２図は第１図による音声認識をコンピユータ
によりソフト的に実行する本発明の別の実施例で
あり、２０１は処理装置CPU、２０２はプログ
ラムメモリ、２０３は演算結果を格納するメモ
リ、２０５はアダプタ、２０６は第１図のＮチヤ
ンネルの帯域フイルタ群である。

第３図は本発明による音声認識の手順を示す流
れ図であり、第１、第２ホルマント周波数M₁、
M₂をAV（ｔ_o）＞THになつた後に計算する例で
ある。かくして、上記本発明によりサンプリング
時刻ｔ_kを求めこの時刻に第１ホルマント周波数
を計算してみると、たとえば｜∫it∫ｉ｜（シ
チ）の第１ホルマント周波数の時間的遷移は第４
図の如くなる。尚、第４図ａは均一標本化の場合
であり、ｂは均一本化率を１とした場合、標本化
率0.33の本発明不均一標本化におけるM₁の時間
的遷移である。

これより明らかな如く、第１ホルマント周波数
の急変部でより多くサンプリングされ、変化の少
ない部分ではサンプリングのあらさが小となつて
いることが理解される。

又、第５図は均一標本化の場合と本発明による
認識率を示すもので一定速度の均一標本化率を１
とした場合、相対標本化率が0.33以下では本発明
による認識率が均一標本による場合に比べ著しく
向上していることが理解される。

尚、上記データは成人男性１名が数字、演算記
号30語を７回宛発声した総計210語を用い、これ
らを15チヤンネルの1/3オクターブフイルタ（中
心周波数200Hz〜5000Hz）で周波数分析して整流
平滑を行ない、しかる後標本化周期10ｍsec、精
度11ビツトでＡ／Ｄ変換して計算機入力し特徴パ
ラメータとして前記第１、第２ホルマント周波数
に相当するM₁、M₂を求め、このパラメータを使
用することにより比較的特徴量の類似している｜
san｜、｜sain｜、｜yon｜、｜it∫ｉ｜、｜∫ｉ
｜、｜∫it∫ｉ｜の６種計42語を用いて、標本化
率と認識率の関係を認識実験によつて求めたもの
である。

破線は均一標本化、実線は不均一標本化の例を
示すが、その差は相対標本化率がほぼ0.3より小
さくなると急激に増大する傾向がある。

次にその確認のため上記音声資料の全て210語
を用いて、相対標本化率が0.33と0.17の場合につ
いて均一標本化と不均一標本化の場合のそれぞれ
の認識率を求めたが第６図に示す如く同様な傾向
を示す。

一方、単語音声認識に要する処理時間は第７図
に示す如く相対標本化率の２乗に比例し、また記
憶容量は正比例する結果がえられた。

以上より、本発明によれば全体として標本化数
を小にできるからメモリ容量を小にでき同時に照
合時間を減少できる。

又、パラメータの変動が急激の部分ではより多
くのサンプリングを行うから音声の特徴を確実に
つかみこれにより音声認識でき、その認識率を高
めることができる。

【図面の簡単な説明】

第１図は本発明の一実施例、第２図は本発明の
別の実施例、第３図は本発明による不均一標本化
の手順を示す流れ図、第４図は本発明による第１
ホルマント周波数の時間的推移を示す図、第５，
６図は本発明による不均一標本化と従来の均一標
本化の認識率を比較するもの、第７図はメモリ容
量と相対標本化率との関係を示す図である。図中、１は帯域フイルタ群、２はパラメータ抽
出部、３はサンプリング時刻決定回路、４は不均
一サンプリング回路、５はパラメータ時系列登録
部、６はパラメータ時系列照合部である。

Claims

【特許請求の範囲】１音声信号の周波数分析結果を利用して各音素
に対するパラメータを抽出し、このパラメータと
予め登録せられる音素のパラメータとを使用して
未知入力音声の認識を行なう音声認識方法におい
て、入力音声の累積変動量AV（tn）を逐次演算
して累積せしめ、この累積変動量が所定のスレツ
シユホールド値以上になつた時点でパラメータを
抽出することを特徴とする音声認識方法。２前記累積変動量が所定のスレツシユホールド
値以上になつた際におけるパラメータを既知入力
音声のパラメータとして記憶せしめることを特徴
とする特許請求の範囲第１項記載の音声認識方
法。３前記累積変動量が所定のスレツシユホールド
値以上になつた際におけるパラメータを未知入力
音声のパラメータとすることを特徴とする特許請
求の範囲第１項記載の音声認識方法。