JPS5960499A

JPS5960499A - 単語音声認識方式

Info

Publication number: JPS5960499A
Application number: JP57171571A
Authority: JP
Inventors: 佐藤　泰雄; 杉田　忠靖
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1982-09-30
Filing date: 1982-09-30
Publication date: 1984-04-06
Also published as: JPH0115079B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ１発明の技術分野本発明は単語音声認識方式、特に未知入力単語音声につ
いての入力特徴パラメータ時系列から。

種々の単語長に対応して効率よく認識できるように、複
数の区間分割による複数の入力縮小パラメータ時系列を
生成し、登録単語長に応じた時系列長をもつ登録縮小パ
ラメータ時系列と、上記複数の入力縮小パラメータ時系
列の中の同じ時系列長をもつものとを逐次照合して、認
識対象候補単語を選び出すようにした単語音声認識方式
に関するものである。

Ｂ、従来技術と問題点音声認識システムにおいては、音声信号の周波数分析結
果を利用して各音素の特徴を表わす特徴パラメータを抽
出し、該抽出された特徴パラメｒりと登録単語に対応し
た予め登録されている特徴パラメータと照合して未知入
力音声の認識を行なうようにされる。即ち上記特徴パラ
メータとして例えば第１ホルマント周波数および第２ホ
ルマント周波数寿どをサンプリングしてこのパラメータ
を使用するようにされる。しかし、上記照合に当ってデ
ータ処理量が大となり、認識カテゴリ数が大となるにつ
れて上記照合処理に要する時間が大となる。

そこで、特願昭５２−４３９７２号、特願昭５３−５３
９６６号、特願昭５３−５３９６７号、特願昭５３−５
３９６５号等にみられるように、より少ない数の照合す
べき特徴量のもとで認識率を高める方式が。

種々提案されている。

特に２本発明者らは、特願昭５５−６２０５９号によっ
て、比較的簡単なアルゴリズムの下で、効率よく認識対
象単語候補を決定する方式を提案している。該方式は、
入力音声についての入力特徴パラメータ時系列を少数の
区間に区分し、各区間毎にパラメータ値を平均化した平
均値からなる縮小特徴パラメータ時系列を抽出し、当該
縮小特徴パラメータ時系列によって認識対象候補単語を
選び出し、該候補単語に対して照合をとるようにして処
理速度を大幅に向上するようにしたものである。

この方式によれば、照合し候補を決定するための演算に
当って２例えば５個というようなあらかじめ定められた
少ない個数の平均値パラメータ相互の演算で足り、演算
時間が大幅に短縮される。

一般に認識対象となる単語には、単語長の長いものと短
いものとが混在している。単語の長さに無関係に照合す
べきパラメータ数があらかじめ決定されている上記従来
の方式は、処理の簡便さからみると、１つの長所をもつ
と考えられるが、どのような単語についても認識精度を
一定以上に保つことを考えれば、単語長に応じて照合す
べきパラメータ数、すなわち登録パラメータ時系列長を
変えることができれば、更に効率的な認識が可能になる
と考えられる。

Ｃ０発明の目的と構成本発明は上記の点圧着目して、上記従来の方式を改良・
全点させ、認識率を低下させることなく、処理速度の向
上および登録辞書のメモリ量の節減を可能にすることを
目的としている。そのため２本発明は、入力音声に対し
て複数の単語長を仮定して、数種の長さの入力縮小パラ
メータ時系列を求め、照合の際、登録単語長に応じたパ
ラメータ時系列でもって照合するようにしたものである
。すなわち２本発明の単語音声認識方式は、未知入力単
語音声の音声信号を分析し、当該音声信号から抽出され
た入力特徴パラメータ時系列をもどに、所定の区分によ
り分割された各区間内のパラメータ値を平均した値また
は区間境界値からなる入力縮小パラメータ時系列を生成
するよう構成され、該入力縮小パラメータ時系列と、予
め登録されている登録縮小パラメータ時系列とを照合し
て、未知入力単語音声の認識を行う単語音声認識方式に
おいて、上記未知入力単語音声の始端から終端までの上
記区間分割についての区分数を複数個あらかじめ定め、
該区分数の異なる各区間分割に対応するパラメータ時系
列長の異なる複数種類の入力縮小パラメータ時系列を、
当該入力特徴パラメータ時系列から生成するよう構成さ
れ、あらかじめ登録単語毎に定められたパラメータ時系
列長を有する登録縮小パラメータ時系列と、上記複数種
類の入力縮小パラメータ時系列のうち照合する登録単語
と同じパラメータ時系列長を有する入力縮小パラメり時
系列とを照合することによって、認識対象候補単語を決
定するようにしたことを特徴としている。以下図面を参
照しつつ説明する。

Ｄ１発明の実施例第１図は登録単語とパラメータ時系列長との関係を説明
するための説明図、第２図は本発明における縮小パラメ
ータ時系列を生成する処理例を説明するための説明図、
第３図は本発明における縮小パラメータ時系列を生成す
る他の処理例を説明するための説明図、第４図は本発明
の一実施例構成、第５図は上記第３図に対応した処理例
における区間決定を行う処理についてフローチャートの
形で表わした説明図を示す。

例えば、登録単語が地名であるとすると、第１図図示の
如く、登録単語には「北海道」のように単語長が比較的
長いものや、「津」のように短いもの、また「東京」の
ように平均的なもの等１種々存在する。一般に、長い単
語のものほど、短い単語のものに比べて、多くの特徴変
化を含んでいると考えられる。本発明におりては、入力
音声についての入力特徴パラメータ時系列から、より少
ない数の入力縮小パラメータ時系列を生成して。

それでもって、あらかじめ同一の手法で抽出され登録さ
れている登録縮小パラメータ時系列と照合することを前
提としているが、多くの特徴変化を含む長い単語のもの
は、パラメータ時系列長の大きいもので照合し、短い単
語のものは、パラメータ時系列長の小さいもので照合し
たほうが、認識精度と処理速度とのバランスの点から望
しいと言うことができる。従って、第１図に示す如く、
登録単語長に応じて１例えば「北海道」については登録
のパラメータ時系列長が“５”、「津」については３″
というように、あらかじめパラメータ時系列長が定めら
れ、その時系夕は長に対応した登録縮小パラメータ時系
列が登録される。

しかし、未知入力単語音声から求める入力縮小パラメー
タ時系列については、いくらの時系列長にすればよいか
は、不明であり、照合の際、同じ時系列長のもので照合
する必要があるので２本発明においては、後に詳述す′
る如く、入力縮小パラメータ時系列について、あらかじ
め定められたすべての時系列長のものを用意するように
される。

パラメータ時系列長が与えられているときの縮小パラメ
ータ時系列の生成は９例えば次のように行われる。

第２図図示の如く２時点ＴｏからＴＥまでの間に。

サンプリングされた特徴パラメータＰが存在するものと
するとき１例えばパラメータ時系列長Ｎｆとして“５”
のものが必要である場合に９時点Ｔ。から１’！＋まで
の時間を５つに等分し９時点ＴＥ１５，２Ｔ。

／　５　ｐ　　３　ＴＥ　／　５　ｙ　　４　ＴＥ　／
　５　＋　Ｔｙ；−を決定する。そして１時点゛Ｉ゛。

ないしＴＥ１５までの間の各特徴パラメータ値を平均し
９時点ＴＥ１５ないし２Ｔ、１５までの間の各特徴パラ
メータ値を平均し、・・・・・・時点４ＴＥ１５ないし
Ｔ、までの間の各特徴パラメータ値を平均し、５個の平
均値パラメータよりなる縮小パラメータ時系列を抽出す
るようにする。

また２時間を等分するのではなく、第３図図示の如く、
特徴パラメータの累積変動量を等分することによって、
定められたパラメータ時系列長の縮小パラメータ時系列
を生成するようにしてもよい。

第３図に示す例の場合、第２図に示す例において゛時間
軸上で等間隔に区分されるのに対して、特徴パラメータ
の変化率が比較的大きい箇所での区間間隔を小に選ぶよ
うにしている。即ち、特徴パラメータＰが第２図図示の
如くあるものとするとき、このパラメータＰの変動量を
累積した値即ち累積変動量を第３図図示の如く時間を横
軸にとって描く。このように描かれた図形について、累
積変動量の最大値ＴＡＶを５等分した値−！−ＴＡＶ。

・・・・・・どなる時点’ｒｌｔ　’ｒ２ｔ・・・・・
・ＴＥを抽出し１時点Ｔ。

からＴ１までの間の第２図図示の各特徴パラメータ値を
平均し２時点ＴｌからＴ２までの間の第２図図示の各特
徴パラメータ値を平均し、・・・・・・２時点Ｔ４から
ＴＥまでの間の第２図図示の各特徴パラメータ値を平均
し、５個の平均値パラメータよりなる縮小パラメータ時
系列を抽出するようにする。パラメータ時系列長が９例
えば３゛の縮小パラメータ時系列を求める場合には、勿
論３個の区間に分割し。

それぞれの区間の平均値パラメータよりなる縮小パラメ
ータ時系列を抽出するようにする。

上記縮小パラメータ時系列の平均値パラメータについて
は９例えば特願昭５５−６２０５９号に示されているよ
うにして演算されるが９周知となっているので、詳細な
説明は省略する。

なお、上記特徴パラメータ値を平均する代わりに、簡略
化して１区間境界値からなる縮小バラメ−夕時系列を抽
出するようにしてもよい。

第４図は本発明の一実施例構成を示す。図中の符号１は
帯域フィルタ群、２はパラメータ抽出回路、３はパラメ
ータ平均区間決定回路、　　４ｔｊ：パラメータ平均回
路、５は切替回路、６は登録単語縮小パラメータ時系列
登録部、７−１ないし７−ｎは各パラメータ時系列長Ｎ
１−Ｎｎ毎の入力縮小パラメータ時系列バッファ、８は
縮小パラメータ時系列照合部、９は候補単語判定部を表
わす。

“□　入力音声信号が帯域フィルタ群１に入力され。

パラメータ抽出回路２によって入力音声信号に対応した
入力特徴パラメータが抽出される、パラメータ平均区間
決定回路３は９例えばパラメータ時系列長としてＮ、か
らＮｎまでｎ種類定められている塾とすると、各パラメ
ータ時系列長Ｎ７毎に、第２図に示した例で言えば９時
点ＴＩを抽出した上で、Ｔ。

ないしＴｇまでの間をＮ１等分した時点Ｔｇ　／Ｎｆ　
、　２　ＴＥ／Ｎｌ　、　３　ＴＥ　７Ｎｆ、・・・・
・・、ＴＥをそれぞれ決定する。

なお第３図図示の時点’ｒ１１　Ｔ２・・・・・・につ
いては第５図を参照して後述する。上記時点にもとづい
て区間が決定されると、パラメータ平均回路４は入力特
徴パラメータにもとづいて各区間毎にパラメータ値の平
均値を演算する。

パラメータ平均区間決定回路３およびパラメータ平均回
路４を、パラメータ時系列長Ｎ、−Ｎｎに対応して、そ
れぞれｎ個設けて、並列的に処理するようにしてもよい
し、１個の回路を繰り返し使用することにより、直列的
に処理するようにしてもよい。

切替回路５は、登録モードと、認識モードにおける各入
力縮小パラメータ時系列バッファ７−１〜７−ｎとを切
替える回路である。登録モードの場合、登録する単語の
単語長はわかっているので。

予め適当なパラメータ時系列長Ｎ７を単語毎に定めてお
くことができる。従って、パラメータ平均回路４によっ
て、その適当なパラメータ時系列長Ｎ７をもつ縮小パラ
メータ時系列を抽出し、登録単語縮小パラメータ時系列
登録部６に登録単語の文字コードとともに登録する。

認識モードの場合、入力音声の単語長は不明である。従
って、上述の如く、すべてのパラメータ時系列長Ｎ１〜
Ｎ、についての縮小パラメータ時系列をパラメータ平均
回路４によって抽出するようにし、切替回路已を経由し
て、それぞれ大刀縮小パラメータ時系列バッファ７−１
ないし７−Ｈに結果を導いて格納する。

縮小パラメータ時系列照合部８は、認識モード、時に、
登録単語縮小パラメータ時系列登録部６か−１〜７−ｎ
のうちから、登録縮小パラメータ時系列の時系列長と一
致するものを選択し、そこに格納された入力縮小パラメ
ータ時系列と照合する。

未知入力単語Ｘと、登録単語炉との距離Ｄ　（Ｘ：。

ｓ’＞は。

で与えられる。

ここで、Ｎは炉のパラメータ時系列長、　ＫＮは未知入
力単語音声から抽出されたパラメータのうち時系列長が
Ｎのパラメータである。また、上式においてｄ（ザ、６
１）は。

入力縮小パラメータ時系列および登録縮小パラメータ時
系列釦対応するものである。

候補単語判定部９は、縮小パラメータ時系列照合部８が
演算で求めた上記距離りにもとづいて。

登録単語が認識対象候補単語として適当であるかどうか
を判別するものである。こうして判別された候補単語名
が候補単語判定部９から出力されることになる。

上記第３図に示す時点Ｔ１　ｊ　’ｒ２１・・・・・・
を決定する場合、第４図図示のパラメータ平均区間決定
回路３は第５図にフローチャートの形で示す如き処理を
行なうものと考′えてよい。即ち、パラメータ時系列長
がＮｆであるものを抽出する場合９次のように処理する
。

（１）　　パラメータ抽出回路２によって抽出されたパ
ラメータにもとづいて第３図に示す如き累積変動量ＴＡ
Ｖを抽出する。

（２）そして累積変動量ＴＡＶＯ値をＮｆ等分した値Ｄ
ＴＡＶを決定する。

（３）　　そして最初に時点Ｔ１を求めるべくＪ＝１と
しておき、レジスタＡＶＨに上記値ＤＴＡｖをセットし
、計時スタート・レジスタＴ　Ｓ　（Ｊ）に値Ｔ（１）
をセットする。

（４）以下順次特徴パラメータの累積値Ａ　Ｖ　（１）
がレジスタＡＶＨの内容と等しいか大となるときまで、
特徴パラメータ値を累算してゆく。

（５）　　累積値Ａ　Ｖ　（１）がレジスタＡＶＨの内
容と等しいか大となると、そのときのタイミング１Ｔ（
１）が時点Ｔ、用レジスタＴＥ（１）Ｉｃセットされ、
上記レジスタＴＳ（Ｊ＋１）に値Ｔ（１＋１）をセット
し、レジスタＡＶＨに値（Ａ　Ｖ　Ｈ＋　ＤＴＡＶ　）
をセットし１次の時点Ｔ２を求めるべくＪ＝２とする。

（６）以下同様に累積値Ａ　Ｖ　（１）がレジスタＡＶ
Ｈの内容と等しいか大となるまで、特徴パラメータ値を
累算してゆく。即ち２時点’ｒ２ｔ　Ｔ３　ｐ　Ｔ４を
求めてゆく。

（７）そして累積回路ｌが値Ｎに達すると、即ち累算処
理が第３図図示時点ＴＥに対応する特徴パラメータの累
算に達すると、その時点で時点ＴＥが決定される。

Ｅ１発明の詳細な説明した如く２本発明によれば、効率のよい単語音声
認識が可能になる。

一般的に、認識率を向上させようとすると処理速度が犠
牲になり、処理速度をあげようとすると認識率が劣化す
ることになるが１本発明によれば。

各登録単語に最も適当なパラメータ時系列長を選ぶこと
ができるので、従来方式に比べて、認識率を低下させる
ことなく、処理速度を向上させることができる。また、
登録辞書のメモリ容量も節減することが可能となる。

【図面の簡単な説明】

第１図は登録単語とパラメータ時系列長との関係を説明
するための説明図、第２図は本発明における縮小パラメ
ータ時系列を生成する処理例を説明するための説明図、
第３図は本発明における縮小パラメータ時系列を生成す
る他の処理例を説明するための説明図、第４図は本発明
の一実施例構成、第５図は上記第３図に対応した処理例
における区間決定を行う処理についてフローチャートの
形で表わした説明図を示す。図中、３はパラメータ平均区間決定回路、４はパラメー
タ平均回路、６は登録単語縮小パラメータ時系列登録部
、７−１ないし７−ｎは入力縮小パラメータ時系列バッ
ファ、８け縮小パラメータ時系列照合部を表わす。特許出願人　富士通株式会社代理人弁理士　森　１）寛（外１名）６３

Claims

【特許請求の範囲】未知入力単語音声の音声信号を分析し、当該音声信号か
ら抽出された入力特徴パラメータ時系列をもとに、所定
の区分により分割された各区間内のパラメータ値を平均
した値または区間境界値からなる入力縮小パラメータ時
系列を生成するよう構成され、該入力縮小パラメータ時
系列と、予め登録されている登録縮小パラメータ時系列
とを照合して、未知入力単語音声の認識を行う単語音声
認識方式において、上記未知入力単語音声の始端から終
端までの上記区間分割についての区分数を複数個あらか
じめ定め、該区分数の異なる各区間分割に対応するパラ
メータ時系列長の異なる複数種類の入力縮小パラメータ
時系列を、当該入力特徴パラメータ時系列から生成する
よう構成され。あらかじめ登録単語毎に定められたパラメータ時系列長
を有する登録縮小パラメータ時系列と、上記複数種類の
入力縮小パラメータ時系列のうち照合する登録単語と同
じパラメータ時系列長を有する入力縮小パラメータ時系
列とを照合することによって、認識対象候補単語を決定
するようにしたことを特徴とする単語音声認識方式。