JPS6129519B2

JPS6129519B2 -

Info

Publication number: JPS6129519B2
Application number: JP53053967A
Authority: JP
Inventors: Hiroya Fujisaki; Hitoshi Shibagaki; Hiroshi Yamada; Hidekazu Shiratori; Yasuo Sato
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1978-05-06
Filing date: 1978-05-06
Publication date: 1986-07-07
Also published as: JPS54145409A

Description

【発明の詳細な説明】本発明は、単音節音声認識装置、特に音声信号
の周波数分析結果にもとづいて特徴量を抽出して
認識処理を行なう音声認識装置において、入力音
声の特徴量の定常性を利用して単音節中の母音部
分に対応した標本点を抽出し、該標本点に対応し
た母音特徴量によつて認識対象候補単音節を選び
出し、該候補単音節に対して２次照合をとるよう
にして処理速度を向上した単音節音声認識装置に
関するものである。

音声認識装置においては、音声信号の周波数分
析結果を利用して各音素の特徴を有効に表わして
いるパラメータを抽出し、該抽出されたパラメー
タと登録単語に対応した予め登録されている音素
のパラメータと照合して未知入力音声の認識を行
なうようにされる。即ち上記パラメータとして例
えば第１ホルマント周波数および第２ホルマント
周波数などをサンブリングしてこのパラメータを
使用するようにされる。しかし、上記照合に当つ
て、サンブリング点を大にとりより精密な照合を
行なおうとすると、上記照合処理に要する時間が
大となる。

このため、上記パラメータが時間的に急変する
区間となだらかに変化する区間とが存在すること
に着目し、前者区間において密にサンブリング
し、後者区間において粗にサンブリングすること
によつて、即ち不均一なサンプリング点でサンブ
リングすることによつて、より少ない標本数のも
とで認識率を高める方式が考慮されている（特願
昭52年43972号）。

本発明は上記不均一なサンプリング点でサンブ
リングする方式に限られるものではないが、該方
式の場合、上記パラメータが時間的になだらかに
変化する点即ち定常性をもつ点がいわば母音に対
応する音節に対応していることを利用し、予め認
識対象候補をしぼつた上で、より詳細な照合処理
を行なうようにして、処理速度を向上することを
目的としている。そして更に上記より詳細な照合
処理を行なうに当つて照合処理時間を短縮するこ
とを目的としている。そしてそのため、本発明の
単音節音声認識装置は、音声信号の周波数分析結
果を利用して当該音声信号の特徴量を抽出し該特
徴量に対応して未知入力音声の認識を行なう単音
節音声認識装置において、上記抽出される特徴量の定常性を利用して、単音節中の毎音部分に対応した標本点を抽出す
る母音定常部抽出機能部と、上記標本点に対応した母音特徴量をもつて予め
単音節毎に母音基準特徴量を登録している母音定
常部パラメータ登録部と、上記母音定常部抽出機能部によつて抽出された
標本点にもとづいて得られた上記未知入力音声に
おける母音特徴量と上記母音定常部パラメータ登
録部に登録されている母音基準特徴量とを照合す
ることによつて認識対象候補単音節を決定する母
音定常部照合・候補選択機能部とを少なくともそ
なえ、当該決定された認識対象候補単音節に対して上
記未知入力音声との２次照合をとるよう構成され
てなり、上記母音定常部抽出機能部は、入力音声の累積
変動量AV（tn）を逐次演算して累積し、該累積
変動量が予め定めた閾値に達した不均一サンプリ
ング点が決定され、該不均一サンプリング点毎の
当該不均一サンプリング点を決定するに至つた累
積回数に対応した重みが最大の不均一サンプリン
グ点をもつて、上記標本点を抽出するよう構成さ
れることを特徴としている。以下図面を参照しつつ
説明する。

第１図は本発明の一実施例構成、第２図は第１
図に示す母音定常部抽出回路部の一実施例構成、
第３図は第１図に示す１点鎖線部分の一実施例構
成を示す。

図中、１は抽出された特徴量、２は帯域フイル
タ群であつて入力音声をＮチヤンネル例えば15チ
ヤンネルの周波数信号P₁（ｔ），P₂（ｔ），……，
Ｐ_N（ｔ）に分解するもの、３はパラメータ抽出
部であつて入力音声即ち単音節音声の特徴量（パ
ラメータ）例えば第１ホルマント周波数に相当す
るモーメントM₁や第２ホルマント周波数に相当
するモーメントM₂や更には低域電力や高域電力
などを含めて後述するパラメータ時系列照合判定
部にもとづく単音節に対する照合に有効な特徴量
を抽出するもの、４はサンブリング時刻決定回路
であつて図示特徴量１に関連して示される如き不
均一サンプリング点T₀，T₁，……を決定するも
のを表わす。また５は不均一サンプリング回路部
であつて上記特徴量１に示すサンブリング点
T₀，T₁……Ｔ〓……に対応して特徴量をサンブ
リングして時系列情報を得るもの、６は母音定常
部抽出回路部であつて上記特徴量１に示すタイミ
ングＴ〓に対応した標本点とそれに対応した母音
特徴量を抽出するもの、７，８は夫々切換回路で
あつて登録音声に対応した情報を登録する登録モ
ードと未知入力音声を認識する認識モードとを切
換えるもの、９は母音定常部パラメータ登録部で
あつて各登録単音節に対応した母音基準特徴量を
格納するもの、１０は母音定常部照合・候補選定
部であつて認識モード時に上述の母音特徴量にも
とづいて認識対象候補単音節を選定するものを表
わす。更に１１はパラメータ時系列登録部であつ
て各登録単音節毎に上述のサンブリング点T₀，
T₁……，Ｔ〓……に対応した特徴量（パラメー
タ）を時系列に格納するもの、１２は候補選択回
路部であつて上述の候補選定部１０によつて選ば
れた候補単音節（複数個）に対応している基準特
徴量（パラメータ）時系列情報を次のパラメータ
時系列照合判定部１３に導びくもの、１３はパラ
メータ時系列照合判定部であつて認識モード時に
未知入力音声の特徴量（パラメータ）時系列情報
と上記候補単音節のそれとの照合をとるもの、１
４は出力回路であつて認識されたカテゴリ名を出
力するもの、１５は制御部であつて装置全体を制
御するものを表わしている。

パラメータ抽出回路３は、公知の如く、一定周
期のクロツク・パルスが発生する毎にに示す演算に対応して第１ホルマント周波数およ
び第２ホルマント周波数などに対応した特徴量を
計算し、その結果を図示しないレジスタに記憶す
る。なお、上記第(1)式において、Pi（tn）は例え
ば10msec毎の時点tnにおいてサンブリングされ
た第ｉ番目のフイルタの出力、Wijはその荷重、
Fiはその中心周波数を表わしている。そして上
記荷重Wijは上記量M₁，M₂が第１および第２ホ
ルマント周波数に一致するよう実験的に決定され
るものと考えてよい。勿論、該パラメータ抽出回
路３においては上記第１ホルマント周波数や第２
ホルマント周波数以外に他の特徴量を抽出するよ
うにされるが、以下、説明を簡単にするために上
記第１ホルマント周波数や第２ホルマント周波数
をもつて代表的な特徴量として説明する。

サンブリング時刻決定回路４は、で定義される累積変動量AV（tn）の演算を、上
記第(1)式に示す特徴量M₁，M₂を演算する周期で
実行してゆき、上記不均一サンプリング点tnkを
決定する。即ち、上記累積変動量AV（tn）が予
め定められた閾値を超えたか否かを監視し、該閾
値を超えた時点tnkを第ｋ番目の不均一サンプリ
ング点として決定する。

なお上記第(2)式において、Ｖ（tn）はフイルタ
の出力変動量であり、次式で定義される。

上記によつて、累積変動量AV（tn）は或る不
均一サンプリング点が発生した以後においてパラ
メータの変化を累積していつたものであることが
判る。そして該累積変動量AV（tn）が或る閾値
を超えると次の不均一なサンブリング点が決定さ
れその時点で先の累積変動量AV（tn）はリセツ
トされることが判る。この結果上記不均一サンプ
リング点T₀，T₁……Ｔ〓，……はパラメータの
変化が急激である区間で密に現われ、変化が定常
的である区間で粗に現われることが判る。

不均一サンプリング回路５は、上記不均一サン
プリング点毎に上記抽出された特徴量M₁，M₂を
サンブリングして、登録モードには第１図図示の
パラメータ時系列登録部１１に格納し、また認識
モード時にはパラメータ時系列照合判定部１３に
入力する。

母音定常部抽出回路部６は、(i)不均一サンプリ
ング点T₀，T₁……が決定されてゆく間における
上記累積回数をカウントしてゆき、(ii)該カウント
値を重みＷとしたとき該重みＷの最大の不均一サ
ンプリング点（特徴量１の場合、サンブリング点
Ｔ〓）を決定する。即ち標本点を決定する。そし
て当該標本点に対応して得られた母音特徴量を、
登録モード時には母音定常部パラメータ登録部９
に、また認識モード時には母音定常部照合・候補
選定部１０に供給する。

未知入力音声である単音節音声を認識する認識
モードにおいては、次のように処理される。なお
この時においては、登録単音節に対応した特徴量
時系列情報が第１図図示の登録部１１に格納され
ており、また登録単音節に対応した母音特徴量が
第１図図示の登録部９に格納されている。

(1) 入力された未知入力音声に対応して、帯域フ
イルタ群２、パラメータ抽出回路３、サンブリ
ング時刻決定回路４、不均一サンプリング回路
部５を介して、上述の如く、不均一サンプリン
グ点T₀，T₁……に対応した特徴量がパラメー
タ時系列照合判定部１３に供給される。

(2) 一方、母音定常部抽出回路部６によつて、上
述の如く、抽出された標本点Ｔ〓に対応した母
音特徴量が母音定常部照合・候補選定部１０に
供給される。

(3) このとき、制御部１５の制御のもとに、登録
単音節に対応した母音基準特徴量が図示登録部
９から、各登録単音節毎に図示照合・候補選定
部１０に順次読出される。

(4) 該照合・候補選定部１０は、上記読出された
母音基準特徴量と上記母音定常部抽出回路部６
から供給された母音特徴量とを順次照合してゆ
く。そして照合がとれた複数の単音節を候補単
音節として選定し、候補選択回路１２に通知す
る。

(5) 次いで、上記選択された候補単音節にしぼら
れた上での詳細な即ち２次照合処理に入つてゆ
く。即ち、制御部１５はパラメータ時系列登録
部１１に対して読出しをかける。該読出しによ
つて登録部１１から各登録単音節毎に時系列情
報が出力されてくるが、このとき候補選択回路
１２は上記処理(4)において選択された候補単音
節に対応する基準時系列情報のみを選別した上
でパラメータ時系列照合判定部１３に伝送す
る。

(6) 判定部１３では、先に不均一サンプリング回
路部５から未知入力音声に対応した特徴量時系
列情報が入力されている。そして該情報が入力
されている。そして該情報と上記基準時系列情
報との照合をとる。該照合処理に当つては、例
えば公知のダイナミツク・プログラミングを用
いた処理をとるようにされる。

(7) そして、もつともよく照合のとれた登録単音
節をもつて上記未知入力音声が当該登録単音節
に属するものとされて、出力回路１４に認識結
果としてセツトされる。

第２図は第１図に示す母音定常部抽出回路部６
の一実施例構成を示す。図において、１６は比較
回路、１７は重み最大値レジスタ、１８は重み最
大値パラメータ・レジスタを表わしている。

第２図図示の構成は次のように動作する。即ち (8) 今、第１図図示の不均一サンプリング回路５
にもとづいて、上述の不均一サンプリング点
T₀，T₁，……に対応した重みやパラメータが
得られているものとする。

(9) この状態で、不均一サンプリング点T₀，
T₁，……に夫々対応した重みとパラメータと
が順に入力されてくる。最初、重み最大値レジ
スタ１７は零にクリヤされている。

(10) 不均一サンプリング点T₀に対応した重みが
比較回路１６に入力されてくるとき、該重み
W₀がレジスタ１７の内容Rmaxと比較される。
そして不均一サンプリング点T₀に対応した重
みがレジスタ回路１６の内容よりも大であるこ
とから、当該重みがレジスタ１７にセツトされ
ると共に、不均一サンプリング点T₀に対応し
たパラメータP₀がレジスタ１８にセツトされ
る。

(11) 以下不均一サンプリング点T₁に対応した重
みW₁が入力されてくるとき、W₁≧Rmaxなる
条件が調べられる。そして該条件が満足されて
いれば、レジスタ１７内に重みW₁がセツトさ
れると共にレジスタ１８内にパラメータP₁がセ
ツトされる。しかし、上記条件が満足されない
場合、レジスタ１７，１８の内容は変更されな
い。

(12) このようにして、順次不均一サンプリング点
に対応した重みとパラメータとが入力されてゆ
き、最終的に重みが最大となる不均一サンプリ
ング点Ｔ〓に対応した重みＷαがレジスタ１７
にセツトされ、またパラメータＰαがレジスタ
１８にセツトされる。

(13) そして、重み最大な不均一サンプリング点
Ｔ〓に対応したパラメータＰαが切換回路８を
介して、第１図図示の登録部９あるいは選定部
１０に供給される。

第３図は第１図図示１点鎖線部の一実施例構成
を示す。図中の符号９，１０は第１図に対応し、
１９，２０は夫々アドレス・カウンタ、２１は照
合処理部、２２は比較回路、２３は候補母音パラ
メータ・レジスタ、２４はパラメータ時系列登録
部アドレス情報、２５は選択回路、２６は候補登
録部アドレス情報格納部を表わしている。

認識モードのもとにおいては、複数の登録単音
節の母音基準特徴量が母音定常部パラメータ登録
部９に格納されている。図示の場合、次のように
動作する。即ち (14) この状態で、未知入力音声の母音特徴量が
切換回路８をへて供給されてくると、カウンタ
１９によつて登録部９から各登録単音節の母音
基準特徴量が順に読出される。そして上記入力
音声の母音特徴量との距離が測定される。即ち
照合処理部２１において順次照合されてゆく。

(15) 該照合の結果、比較的よい照合がとれた場
合、当該母音基準特徴量は比較回路２２に供給
される。このときカウンタ２０がカウントを開
始して、候補母音パラメータ・レジスタ２３か
ら、既に先に格納されている候補母音特徴量が
順次読出され、比較回路２２に供給される。

(16) 比較回路２２において、上記照合処理部２
１から供給されてきた母音特徴量がレジスタ２
３からの候補母音特徴量と比較される。もしも
一致しているものがない場合、当該母音特徴量
はレジスタ２３に候補母音特徴量として格納さ
れる。また一致しているものが既に候補となつ
ている場合には、レジスタ２３内に格納される
ことはない。

(17) 上記処理（16）において、レジスタ２３内
に新規に候補として格納されるとき、比較回路
２２は選択回路２５に対して指示を発する。こ
れによつて選択回路２５は、上記新規候補母音
特徴量に対応した登録単音節の特徴量時系列が
格納されている登録部（第１図図示の登録部１
１）のアドレス情報２４を、候補登録部アドレ
ス情報格納部２６にセツトする。即ち情報格納
部２６内は、レジスタ２３内に格納される候補
母音特徴量に対応した登録単音節の特徴時系列
情報の格納アドレス情報がセツトされる。該ア
ドレス情報は、２次照合に当つて、候補単音節
に対応した基準特徴量を選択的に第１図図示の
照合判定部１３に供給するために利用される。

上記の如く、候補単音節が選択され、以後該候
補として絞られた単音節に対して２次照合が行な
われる。この場合、言うまでもなく、未知入力音
声の特徴量時系列情報と登録単音節の基準特徴量
時系列情報とが時系列をたどりつつ照合されてゆ
く。この場合の照合処理時間は、大略時系列情報
の情報数Ｎの２乗に比例する。

本発明の場合、上記２次照合処理時に次の如き
処理態様をとり、照合処理時間を更に短縮するよ
うにしている。即ち、２次照合を行なうに当つ
て、特徴量時系列情報の先頭の情報から照合をと
つてゆくが、上記標本点Ｔ〓までの時系列情報に
よつて、照合を調べるようにする。このようにす
ることによつて、照合時間が短縮される（例えば
情報数が1/2になれば時間は1/4に短縮される。）
更に上記標本点以降の特徴量については、パワー
が低く一般にバラツキが多い。このために該バラ
ツキの多い特徴量を利用して照合をとる場合に認
識誤りを生ずる１つの原因ともなることがあつた
が、この点もあわせて改善される。勿論当該２次
照合処理に当つてどのような特徴量を用いるかは
任意であるが、本発明が直接関連するいわば１次
照合においては、母音についての照合を行うにと
どまつている。

以上説明した如く、本発明によれば音声認識処
理に当つて処理時間が大幅に短縮される。そして
特に不均一サンプリング点によるサンブリング方
式を採用した場合簡単に標本点を抽出することが
可能となる。

【図面の簡単な説明】

第１図は本発明の一実施例構成、第２図は第１
図に示す母音定常部抽出回路部の一実施例構成、
第３図は第１図に示す１点鎖線部分の一実施例構
成を示す。図中、１は抽出された特徴量、５は不均一サン
プリング回路部、６は母音定常部抽出回路部、９
は母音定常部パラメータ登録部、１０は母音定常
部照合・候補選定部、１１はパラメータ時系列登
録部、１２は候補選択回路、１３はパラメータ時
系列照合判定部を表わす。

Claims

【特許請求の範囲】１音声信号の周波数分析結果を利用して当該音
声信号の特徴量を抽出し該特徴量に対応して未知
入力音声の認識を行なう単音節音声認識装置にお
いて、上記抽出される特徴量の定常性を利用して、単音節中の母音部分に対応した標本点を抽出す
る母音定常部抽出機能部と、上記標本点に対応した母音特徴量をもつて予め
単音節毎に母音基準特徴量を登録している母音定
常部パラメータ登録部と、上記母音定常部抽出機能部によつて抽出された
標本点にもとづいて得られた上記未知入力音声に
おける母音特徴量と上記母音定常部パラメータ登
録部に登録されている母音基準特徴量とを照合す
ることによつて認識対象候補単音節を決定する母
音定常部照合・候補選択機能部とを少なくともそ
なえ、当該決定された認識対象候補単音節に対して上
記未知入力音声との２次照合をとるよう構成され
てなり、上記母音定常部抽出機能部は、入力音声の累積
変動量AV（tn）を逐次演算して累積し、該累積
変動量が予め定めた閾値に達した不均一サンプリ
ング点が決定され、該不均一サンプリング点毎の
当該不均一サンプリング点を決定するに至つた累
積回数に対応した重みが最大の不均一サンプリン
グ点をもつて、上記標本点を抽出するよう構成さ
れることを特徴とする単音節音声認識装置。２上記２次照合は、認識対象候補単音節におけ
る先端部から上記母音基準特徴量を決定した標本
点までの間の基準特徴量時系列情報と、上記未知
入力音声における先端点から上記母音特徴量を決
定した標本点までの間の特徴量時系列情報とを照
合するようにしたことを特徴とする特許請求の範
囲第１項記載の単音節音声認識装置。