JPS6358400A

JPS6358400A - 連続単語音声認識装置

Info

Publication number: JPS6358400A
Application number: JP61203019A
Authority: JP
Inventors: 羽金　廣
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1986-08-28
Filing date: 1986-08-28
Publication date: 1988-03-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、特定話者が連続的に発声した単語列の認識を
実現する連続単語音声認識装置に関する。

（従来の技術〕従来、この種の連続単語音声認識装置（以下、認識装置
と略す）は、まず利用者にあらかじめ認識させる単語を
ひと通り単独に区切って発声させ（以下、孤立単語と呼
ぶ）、単語毎の音声パタンを標準パタンとして認識装置
内に記憶させ（ト記操作を標準パタンの登録と呼ぶ）、
次に、人力される連続４１語音声（以下、人力パタンと
呼ぶ）に対して、各標準パタンとの間で比較操作（パタ
ンマツチング）を行い、両者の一致の度合（類似度）を
調べ、最大一致の得られる標準パタンの組合せを決定し
、これと同じ単語に属すると判定する方法を用いていた
。この方法を能率よく、かつ粒度よく実現する方法とし
て、動的計画法（ダイナミックプログラミング、以下、
ＤＰと略ず）を利用した認識技術（特願昭５０−１：１
２００３およびｌ：］２２００４号以下、引用文献と称
す）が知られている。本引用文献には上記パタンマツチ
ング法による認識装置の動作原理が記載されている。こ
の原理の概要は次の通りである。何個かの単語が連続し
ている入力パタンに対し、何個かの標準パタンをあらゆ
る順列で接続することによって得られるパタンを人力パ
タンの標準パタンと考えて、大カパタン全体とのマツチ
ングを行なう。この結果得られた類似度が最大となるよ
うな標準パタンの個数と順列組合せを定めることによフ
て認識を行なう。実際には上記最大化を単語単位での最
大化処理と全体レベルでの最大化処理に分割し、各最大
化処理をＤＰを利用して実行することにより、処理量を
低減し実用的な処理速度を達成している。以ト述へた引
用文献記載の方法が、従来では最も有効な認識法である
と考えられる。

〔発明が解決しようとする問題点〕たとえば数字“３”、ｒＳａｎＪを発声した場合、次に
続く数字によフてｒＳａｎＪのｒｎＪの周波数構造か大
きく変化したり、「ｎ」のエネルギーが極端に低く（無
声化）なる場合かある。ところかｒｓａｎＪのｒ　Ｓａ
Ｊは「ｎ」に比較して周波数の変動も少なくエネルギー
値も安定して高い。しかし、従来の装置では’ＳａＪも
ｒｎＪも同じ重みでマツチングを行なっていたため、マ
ツチングの効果が十分でなく誤認識や認識不能（マツチ
ング値が非富に悪い）となる。

上述した従来の認識装置は、標準パタンの特徴と大カパ
タンの特徴を利用しないで、標準パタンと大カパタンの
比較操作を行っていたので、実用に供する場合に、種々
の要因により誤認識が生ずるという欠点がある。

〔問題点を解決するための手段〕

本発明の連続Ｑｉ語音声認識装置は、単３Δ毎に区切っ
て発声された音声パタンを孤立単語パタンとして保持し
、連続して発声された連続Ｑ’−語バツパタンし、孤立
単語パタンをあらゆる順列で接続し、この接続された孤
立歌語パタンと連続単語パタンとの間で比較操作を行な
い、両者の一致の度合を調へ、最大の一致の得られる孤
立単語パタンの組合せを決定して、連続！…語音声を認
識する連続四ツ音声認識装置において、組合わされる孤
立単語パタンそれぞれが持つ時間−特徴情報の特徴を、
面記比較操作の際、強調する重みを記憶する重み関数記
憶部と、認識対象となる連続単語パタンが持つ時間−特
徴情報に従って、前記の比較操作の際、連続単語パタン
か持つ時間−特徴情報の特徴を強調する重みを発生する
重み関数発生部とを有することを特徴とする。

すなわち、本発明は、認識対象とする各々の単語の特徴
的周波数部分を前もって調べて、その結果を重み関数と
して標準パタンと同様に各単語毎に用意し、また人力パ
タンの特徴的周波数部分も同様に調べて重み関数として
用意し、大カパタンと任意の標準パタンのマツチングの
際にト記重み関数に従ってマツチング結果を得ることに
より、単語単位でのマツチング精度を向トさせると共に
連続Ｑ１語認識レベルにおける全体マツチングの性能を
向トさせたものである。

〔実施例〕

次に、本発明の実施例について図面を参照して説明をす
る。

第１図は本発明の連続９語＆声認識装置の一実施例を示
すブロック図である。

本実施例は、マイクロホン１０より人力した音声１１１
号を周波数分析する分析部１１と、分析部１１の出力を
特徴ベクトルの時系列として一時保持する大カパタンバ
ッファ１２と、孤立Ａ語パタンｂｊを標準パタンとして
保持する標準パタン記憶部１３と、標準パタン記憶部１
３の孤立ｒＩｉ語バツパタンの特徴を強調する重みＷ　
（ｊ）を記憶する重み関数記憶部２２と、人力パタンバ
ッファ１２に保持された連続単語パタンの特徴を強調す
るＩＲみＷ（ｉ）を発生する重み関数発生部２３と、重
み関数記憶部２２の重みＷ（ｊ）を標準パタン記憶部１
３の孤立単語パタンｂｊに付加し、重み関数発生部２３
からの重みＷ（ｉ）を入力パタンバッファ１２からの連
続ｒｌＬ　’５ｆ）パタンに付加し、工１みを付加され
た孤立単語パタンと連続単語パタンとを比較操作して連
続単語パタンの部分パタンに対する各孤立単語パタンの
部分類似度と部分パタンをどの孤立単語パタンと判定し
たかの部分判定を行う第１のマツチング部１４と、部分
パタンの始端と終端とに対応させて部分類似度を記憶す
る部分類似度記憶部１５と、部分判定を記憶する部分判
定結果記憶部１６と、漸化式値記憶部１８と、部分類似
度記憶部１５と部分判定結果記憶部１６とのデータを入
力し、単語数設定端子１ｆｋより入力される値に基づき
、連続単語パタンの第１の時間点までの部分類似度の総
和の最大値を第１の漸化式値として漸化式値記憶部１８
に記憶し、漸化式値と第１の時間点から第２の時間点ま
での部分類似度との和の最大値を′ｆ、２の漸化式値と
して漸化式値記憶部１８に記憶し、第１の時間点を順次
変化させて館記操作を経返し、第１の時間点を仮区分点
として出力し、第１の時間点から第２の時間点までの部
分判定結果を仮判定結果として出力する第２のマツチン
グ部１７と、第２のマツチング部１７から出力される仮
区分点を記憶する仮区分点記憶部１９と、仮判定結果を
記憶する仮判定結果記憶部２０と、仮区分点記憶部ｊ９
内の仮区分点と仮ｆ’ｌＪ定結果記憶部２０内の仮判定
結果とを参照して各単語の区分点と単語名を決定する判
定部２１とから構成されている。

次に、本実施例の動作原理について説明する。

本実施例の装置が実行する動作原理を数式的に表現する
と次のようになる。マイクロホンｌＯにより人力される
音声信号は分析部１】により分析処理され、周波数構造
等を表わす多次元特徴ベクトルａ１の時系列パタンＡと
して表わすことかできる。

ｋ＝　　ａｌ＋　ａ２．・−、ａＨ、・−、ａｊ　　−
−−−（］）一方、単独に発声された各単語（孤立１…
語）パタンも同様に分析され、時系列パタンＢとして表
わすことができる。

Ｂ”　＝　　ｂｒ、　ｂ２．−−−、ｂ’７　、　・＝
　　　　−−−−（２）ｎは単語を識別するための添字
、ｋを連続単語に含まれる単語数として最大問題Ｔ＝　　
（ｍ（ｋ）　　（Ｓ（＾９口（１）　　■　ａ　ｎ　（
２）　　■・・・■Ｂｎ（”　）　）　）　　　　　　
　−−−−（３）を計算し、最適なパラメータ（単語名
）ｎ（ｋ）＝ｎ　（ｋ）　（ｋ＝１．２．−、　Ｋ）を
求め同時に区分点１（ｋ）点を求める。ここで■はパタ
ンの接続を表わす演算ｆである。例えばＢｎ■ａｍはＢ”　Ｃｔｌ　””　＝　ｂｒ＋　ｂｒ、”””　１）
Ｕｌ、ｂ７’、　ｂ’；’。

ｂ″Ｊ１　−−−−（４）（３）式の最大化をｋおよびｎ（ｋ）に関する総当り法
で計算すると膨大な計算量が必要となるが、引用文献と
同様に　（３）式の最大化計算をｌｌｉ語単位での処理
と全体としての処理の２段階に分割することで実用的な
処理速度を可能とする。すなわち、（＋）式で表わされ
る人力パタンＡの１＝１１よりｉ＝ｍまでの部分区間と
して部分パタンＡ（１，ｍ）を定義する。

Ａ（ｆｌ、　ｍ）＝　ａ、、１．ｘ＋２．　、、、、　
Ｂ、。

以下では、ｌを始点、ｍを終点と称する。いま人カパタ
ンＡニ（Ｋ−１）個の区分点ｆｉ　（１）　、　ｌ　（
２）　、””１（ｋ）・・・、ｆｆ１（Ｋ−１）を設け
、１＜ｆｉ（＋）＜ρ（２）〈・・・・・・＜　１　（
Ｋ−１）　＜　ｌｌ（Ｋ）　＝■を仮定して、大カパタ
ンＡをに個の部分パタンに分割する。

Ａ　＝Ａ（＋、ｆ　（１））ΦＡ（ｊ２　（＋）　、ｊ
２　（２））■・・・■Ａ（，１２（ｋ−１）！！　（
ｋ）　　）　　■−・・−０＋八（Ｒ（Ｋ−１）、　Ｉ
　）、一方、パタン間の時間軸正規化類似度を定義する
と、類似度Ｓ　（八、Ｂ）はパタンの接続分解に関して
次の性質を存する。

Ｓ（Ａ・８”■８パ）“Ｔ°゛（耶）す・、ｘ、３ニド
（Ｔ（３）式に　（５）式を代入し、さらに　（６）式
の関係を繰返し適用し整理すると、となり、　（７）式の最大化問題は次のように分解して
計算することができる。

［１１類似Ｊｆｆ　　Ｓ　（八（４２、ｍ）、　　［１
”　）　　−−−−（８）をすべてのＱ＜ｍなる部分区
間Ａ（ｎ、＋ｎ）と孤立、Ｑｔ詰パタンＢτ１に関して算
出する。

［２１部分類似度Ｓ　　（Ｑ、　　ｍ）＝ｍａｘ　　（Ｓ　（八（Ｑｌｍ
）、　　Ｒｎ　）　　）部分判定結果Ｎ　　（１１，ｍ）＝ａｒｇ　ｍａｘ　　（Ｓ（八＜ｌ
　、　　ｍ）、Ｂ”　　）　　３を計算し、テーブルに
記憶する。ここで、ａｒｇ−ｍａｘ　［・１なる記号は
　［］の最大を僕える変数ｎを算出することを、ａ、味
する。

−−−−（＋１）なる最大問題を計算し、最適なパラメータ（＋７゜分点
）　ｆｌ（ｋ）　＝　ｌ　（ｋ）、　ｋ＝　１．２．・
・・、Ｋを求める。

（１１）式の最大問題は次の漸化式により計算できる。

初期値　Ｔｏ（ｆｌ、）　＝Ｏ，Ｒ＝１，２．・・・、
■。

ｋ＝　１．２．・・・、に漸化式　ｍ＝ｌ、２．−．１　、　ｋ＝Ｉ、２．・・、
に仮置分点Ｌ’（ｍ）＝ａｒｇ　ｍａｘ　　（Ｔｋ−’　　（Ｍ）
＋Ｓ　（、Ｑ、　ｍ））！ −−−−（＋３）仮判定結果Ｎ　’（１１１）　＝　Ｎ　（Ｌしくｍ）、　ｍ）　　
　　　−−−−（１４）（＋２）、　（＋３）、　（目
）式の計算はに、ｍに関して増加する方向に計算する。

以−４二のＪＡ埋が終了すると、（１３）式のし−（ｍ
）から区分点ｆｌ　（ｘ）か次のように決定される。

ｆｌ（に−１）　−ＬＸ（＋）　　より順次通合って仮
置分点ｆｆｉ　（ｋ）をｆｆｉ　（ｋ）　＝　Ｌ”’　Ｑ　（ｋ＋１）　）、　
（ｋ＝　１．２．・・・、に−１）として、仮置分点Ｌ
’（ｍ）のテーブルを参照して求め、それに従って、判
定結果ｎ　（ｋ）が、（１４）式の仮判定結果よりｎ　（ｋ）　＝　Ｎ　’（ｆｌ　（ｋ））、　（ｋ＝　
１．２．−　、Ｋ）　−−−−（１５）として参照する
ことで得られる。

以トの操作により、連続単１悟を構成する各単語の区分
点とＣ１ｉ語名が旦（ｋ）、　（ｋ＝＋、２．・・・、
に−１）　。

ｎ　（ｋ）　、　（ｋ　＝　Ｉ、２．・・、ｋ）として
決定される。

次に１本実施例の動作について説明する。単１１Δ毎に
区切って発声された音声がマイクロホン１ｏがら孤立中
−１ｉΔパタンとして分析部１１に入力される。

分析部１１で周波数分析された孤ダＬ昨語パタンは（２
）式で示される特徴ベクトルｂ」の時系列を仔するに〒
準パタンｌｌｎとして人カバターンバッファ１２を介し
て標ｉ＋（パタン記憶部１３に記憶される。連続的に発
声された７ｇ声はマイクロホン１ｏ、分析部１１を軒て
　（１）式で示される特徴ベクトルａｉの時系列を４４
−する連続’ｌ’　＋ＥΔパタンＡとして入力パタンバ
ッファ１２に記憶される。また、（瓜ウニ単語の標準パ
タン１１　Ｔｌの特徴を表現する重み関数ｗｎＵ）（ｊ
・１．２．：ＩＩ、・・・１．Ｊ）か市み関２友８己憶
部２２に１１己憶されている。連続ｍ１：Δパタン（人
力パタン）Ａの特徴（各？１１−語か持つイ〕意な特徴
成分に着［」シた）を強調１−　ルｒｌ’ｉ、　ミ閏？
ｆｉ　Ｗｎ（ｉ）　（ｉ＝１．２．３．　・・・、　　
Ｉ　）　’ｔｉ　＋ｌミ関数発生部２３で作られて第１
のマツチング部１４へ送られる。

第２図は屯み関数Ｗｎ（、ｉ）の−例を示す図である。

この図はｒＯ５八Ｋへ　Ｊの標準パタン［ｌＩ＋に対す
る！ｎみ関数の一例であり、Ｉυｆｆ−１子音の結合部
のマツチング効果を下げ、ｒ−ａ部（キ、ｒに摩擦音、
破’Ｑ　：’ｒ　）のマツチング効果を上げる様に重み
関数Ｗ（ｊ）が決められている。本例ではこのようにし
てｌ［み関数ＷｎＵ）か時間’ｐＨｌ　ｊ方向にのみ決
めら打ているが、時１１１卜ｋｂ方向ｊたけてなく周波
数軸方向ｆに関しても特徴を統計的に調へて、市み関数
Ｗｎ（ｊ、ｆ）を決める方法などか考えらね、第２図の
例に限定されるものではない。

゛）以下余白　Ｊ表　　１表１は重み関数発生部２３で重み関数Ｗｎ（ｉ）を発生
する際に参照する特徴−重み値テーブルの一例である。

たとえば人力パタンのｉフレーム目の特徴がＳの摩擦音
であった場合、マツチングの対象が大阪の場合は重み関
数Ｗ（ｉ）　＝１．９が選ばれ、東京の場合用み関数Ｗ
（ｉ）　−１，０か選ばハて各々（１１１）式の漸化式
に従って類似度が計算される。また屯み関数Ｗｎ（ｉ）
も重み関数Ｗｎ（ｊ）と同様に周波数軸方向ｆに関して
の特徴を統計的に調べて、重み関数Ｗｎ（ｉ、ｆ）を決
めることも可能である。第１のマツチング部１４では次
式で定義される漸化式を各孤立単語パタンＢｎとパタン
Ａの部分パタンＡ（ｆｆｉ、ｍ）に関し大カパタンベク
トルａｌ１１が人力される毎に　（８）式の類似度Ｓを
算出する。即ち初期条件　ｇ（！、　ｊ”　）　＝　Ｓ
　（ａｍ　、ｂｐ　）ｉ＝　ｍ＝Ｏｉミｍ −−−−（＋７）漸化式％式％（１８）なる漸化式計算をｊ　＝　ｊ”　、　　ｊ”　−Ｉ、　
ｊｎ−２゜・・・、１の順序で実行し、類似度Ｓ　（Ａ（Ｑ、　ｍ）、　　Ｂ”　）　＝ｇＣ（１＋１
．１）−（２０）を　　ｍ−Ｊ”−ｒ≦２≦ｍ−Ｊ”　
＋ｒ　　　　　　　　　−−−−（２１）なる範囲で算
出する。

上述の方法により結果として　（９）式で示される部分
類似度Ｓ（１，＋ｎ）および（１０）式で示される部分
判定結果Ｎ（ｆｉ、ｍ）をそれぞれ部分類似度記憶部１
５１部分判定結果記憶部１６に出力する。第２のマツチ
ング部１７では、部分類似度記憶部１５より上記部分類
似度Ｓ（ｆ、ｍ）を読み出し、同時に漸化式値記憶部１
８から、ｌ＜ｍなる（１２）式の漸化式値Ｔｋｌ（２）
を、ｋを一定として、読み出しながら漸化式値Ｔ’（ｍ
）を算出し、漸化式値記憶部１８に出力する。同様に仮
置分点Ｌ’（ｍ）を（１３）式で算出して、仮置分点記
憶部１９に出力する。仮判定結果Ｎ　’（ｍ）は（１４
）式にもとづいて部分判定結果Ｎ（４２，ｍ）と、仮置
分点Ｌ　’（ｍ）を参照して算出され、仮判定結果記憶
部２０に出力される。

７Ｊ、２のマツチング部１７では上記操作を単語数設定
端％ｉｌｋより入力される値を基にに＝１から始め、ｋ
＝Ｋまで順次ｋを増加させながら実行する。

かくのごとく構成された装置において、単語系列の既知
なる連続単語パタンＡの始点ａ１がら終点ａ、までを順
次人力させて上述の動作を実行させることで、区分点に
関する値Ｌ’（ｍ）と単語名を決定する値Ｎしくｍ）が
すべてのｍ＝　（＋、　２．−、　　Ｉ　）＋’に＝（
１，２，・・・、Ｋ）について得られる。判定部２１で
は、それぞれ仮置分点記憶部１９内の仮置分点Ｌ’（ｍ
）と仮判定結果記憶部２０内の仮判定結果Ｎ　’（ｍ）
とを参照して、（１５）式に従ってｋを１つづつデクリ
メントしながら順次１　（ｋ−］）　、　ｊ２　（ｋ−
２）　。

・・・、＋２（１）を決定する。同様にして（１６）式
に従って各単語名ｎ　（ｋ−１）　、　ｎ　（ｋ−２）
　、・”　、　　ｎ　（］）を決定する。

以上本発明の実力’ｆｒ例を説明したが、これらの記載
は本発明の範囲を限定するものではない。例えば本明細
書では類似度を基にして動作を説明したが、距離のよう
に大小関係が逆の尺度によっても同様な処理が可能であ
る。また、抽出する部分を単語として説明したが複数の
ａ節からなる語句でも同様に処理することができる。さ
らに、入力音声パタンと標準パタンとの類似度を動的計
画法で説明したが、動的計画法に限定するものではない
。

以北連続竿語を認識する方法を説明したが、（１９）式
の制約下で表１や第２図に示す様な値の重み関数Ｗｎ（
ｉ）、　Ｗｎ（ｊ）で（２０）式の類似度計算を実行す
ることにより、重み関数Ｗｎ（ｉ）、　Ｗｎ（ｊ）の極
大値近傍、つまりその孤立単語を特徴づける周波数区間
に重みか付けられてパタンマツチングが行なわれ、かつ
母音部と子（母）音部のわたり部分で比較的不安定な部
分のマツチング効果が軽減できるため、孤立単語レベル
でのマツチングの性能か向上することにより、高鯖度な
連続単語認識が実現できる。

〔発明の効果〕

以上説明したように本発明は、連続単語パタンを接続さ
れた孤立単語パタンとして認識する際、孤ずＬ中１語パ
タン、連続単語パタンの仔する時間−特徴＋ｌ１１報に
特徴を強調する重みを付加して比較操作することにより
、＋１！−語？林位でのマツチング粒度を向トさせると
共に連続単語認識レベルにおける全体マツチングの性能
を向上させる効果がある。

【図面の簡単な説明】

第１図は本発明の連続単語音声認識装置の一実施例を示
すブロック図、第２図は重み関数記憶部２２に記憶され
ている任意の単語の標準パタンに対する重み関数Ｗ　（
ｊ）の−例を示す図である。１０・・・マイクロホン、　　　１１・・・分析部、１
２・・・人力パタンバッファ、１３・・・標準パタン記憶部、１４・・・第１のマツチング部、１５・・・部分類似度記憶部、１６・・・部分判定結果記憶部、１７・・・第２のマツチング部、１８・・・漸化式値記
憶部、１９・・・仮置分点記憶部、　２０・・・仮判定
結果記憶部、２１・・・判定部、　　　　　２２・・・
重み関数記憶部、２３・・・重み関数発生部、　Ｗｋ・
・・単語数設定端子。

Claims

【特許請求の範囲】単語毎に区切って発声された音声パタンを孤立単語パタ
ンとして保持し、連続して発声された連続単語パタンに
対し、孤立単語パタンをあらゆる順列で接続し、この接
続された孤立単語パタンと連続単語パタンとの間で比較
操作を行ない、両者の一致の度合を調べ、最大の一致の
得られる孤立単語パタンの組合せを決定して、連続単語
音声を認識する連続単語音声認識装置において、組合わされる孤立単語パタンそれぞれが持つ時間−特徴
情報の特徴を、前記比較操作の際、強調する重みを記憶
する重み関数記憶部と、認識対象となる連続単語パタンが持つ時間−特徴情報に
従って、前記比較操作の際、連続単語パタンが持つ時間
−特徴情報の特徴を強調する重みを発生する重み関数発
生部とを有することを特徴とする連続単語音声認識装置
。