JPH0262879B2

JPH0262879B2 -

Info

Publication number: JPH0262879B2
Application number: JP57107871A
Authority: JP
Inventors: Kyoshi Tajima; Masayuki Iida; Hiroki Oonishi
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1982-06-22
Filing date: 1982-06-22
Publication date: 1990-12-26
Also published as: JPS58224398A

Description

【発明の詳細な説明】 (イ) 産業上の利用分野本発明は、音声を認識する音声認識装置に関す
る。

(ロ) 従来の技術音声を認識して何等かの機器を制御せんとした
場合、その殆どが認識動作に該当する応答時間が
常に問題になつて来る。応答時間を早めるには高
速動作の可能なCPUやメモリ或いはその周辺回
路を用いるのが一般に考えられる事であるが、シ
ステム全体が高価になる上に、それ程の高速化が
果されない。

ここで現存する音声認識動作を第１図に示す。
認識すべき音声が入力される音声入力期間I₁、そ
の入力音声の終了を意味する無音期間N₁、入力
音声の認識を行う認識期間R₁を一つのサイクル
とし、この認識サイクルI₁，N₁，R₁に連続して
次の音声認識サイクルI₂，N₂，R₂が始まる。従
つて音声入力期間Ｉ、無音期間Ｎ、認識期間Ｒを
直列的に持つ限り、上述した如く認識動作の高速
化には限度がある。

このような点に鑑みて、本発明等は凝似連続認
識システムと呼ぶ高速化を図つた認識装置を提案
した（特願昭57−74932号）。これは第２図に示す
如く、音声の入力I₁，I₂，I₃…とその入力音声の
認識R₁，R₂，R₃…とを個別のプロセツサを用い
て並列的に行わしめんとするものである。

ところがこの第２図からも明らかな如く、一般
に音声の入力I₁，I₂，I₃…動作時間と認識R₁，
R₂，R₃…動作時間とを比較した場合、認識R₁，
R₂，R₃…動作時間の方が長く、結果的に入力動
作を担当するプロセツサ側に待ち時間Ｔが生じて
しまい、これが時間的な無駄となる。この現象は
線形マツチングに依る認識の場合は認識時間が短
かつたのでそれ程問題とならなかつたが、認識率
の向上の為に開発されたDPマツチング法等を用
いて認識する場合、相当な時間が掛り、この待ち
時間Ｔの無駄が大きくなる。

(ハ) 発明が解決しようとする課題本発明はこのような新たな問題点に着目して為
されたものであつて、上述の如く並列的に装備さ
れた両プロセツサ間の待ち時間を短縮でき、これ
によつて、時間的な無駄の削減を図つた音声認識
装置を提供するものである。

(ニ) 課題を解決するための手段本発明の音声認識装置は、第１のプロセツサ部
で音声認識の取り込み動作及び予備比較認識動作
を行わせると共に、第２のプロセツサ部で本格比
較認識動作を行わせるものであつて、第１のプロ
セツサ部での予備的な比較認識処理時間を第２の
プロセツサ部での本格的な比較認識処理時間より
短時間で行うと共に、上記第１のプロセツサ部で
の音声信号取り込み動作及び予備比較認識動作に
要する時間と、上記第２のプロセツサ部での本格
比較認識動作に要する時間とを略等しく設定した
ものである。

(ホ) 作用本発明の音声認識装置は、第１のプロセツサ部
での予備的な比較認識処理時間を第２のプロセツ
サ部での本格的な比較認識処理時間より短時間で
行うと共に、上記第１のプロセツサ部での音声信
号取り込み動作及び予備比較認識動作に要する時
間と上記第２のプロセツサ部での本格比較認識動
作に要する時間とを略等しく設定しているので、
第１のプロセツサから連続的に順次得られる音声
の取り込み／予備比較認識処理の結果に対して、
第２のプロセツサでは略待ち時間無しに本格比較
認識処理が実行できる。

(ヘ) 実施例第３図は本発明装置の具体的な構成を示すブロ
ツク図であつて、１は音声を電気的な音声信号に
変換するマイクロフオン、２はこのマイクロフオ
ン１からの音声信号の特徴を抽出する特徴抽出回
路であつて、例えば特開昭54−145407号公報に記
載されているような帯域フイルター群を用いた周
波数スペクトルパラメータの抽出手法が使用で
き、このパラメータ時系列からなる音声の特徴パ
ターンが出力される。なお、この特徴パターンと
しては、上述のパラメータ時系列を特定サンプル
数に正規化したものが一般的に用いられる。３は
この特徴抽出回路２から得られる入力音声の特徴
パターンを記憶する第１のバツフアメモリであ
る。４はこの特徴パターンを予備的に比較認識す
る為の参照パターンが多数貯えられている第１の
参照パターンメモリである。ここで貯えられてい
る参照パターンは比較対象である入力音声の特徴
パターンと同形式のパターンであつて、時系列サ
ンプル数が正規化された周波数スペクトルパラメ
ータ列からなる。５は入力音声の特徴パターンと
多数の参照パターンとを比較認識して予備的な認
識動作を行う第１の認識回路である。ここで云う
予備認識動作とは、第１の参照パターンメモリ４
に貯えられている多数の参照パターンのうちから
入力音声の特徴パターンに最も類似した特定のパ
ターンを選び出すのではなく、比較的類似してい
る複数個のパターンを選び出すもので、比較的そ
の認識時間が短い線形マツチング法等が採用され
る。６はこの第１の認識回路５での認識の結果、
選び出された入力音声の特徴パターンに比較的類
似している参照パターンの参照パターンメモリ４
に於ける番地を記憶する第１の番地メモリであ
る。７は上記音声抽出回路２での特徴抽出動作や
抽出した特徴パターンのバツフアメモリ３への取
り込み、入力音声の無音の状態から音声の終端を
検出する検出動作、或いは第１の認識回路５で予
備認識動作とかを司どる第１のCPUで、これ等
のマイクロフオン１〜第１のCPU７で第１のプ
ロセツサP₁が構成されている。

また、１０は上記第１のプロセツサP₁のバツ
フアメモリ３に貯えられた入力音声の特徴パター
ンが転送記憶される第２のバツフアメモリ、１１
は入力音声を本格的に認識する為の参照パターン
が貯えられている第２の参照パターンメモリであ
り、この参照パターンとしては、上記第１のプロ
セツサP₁で用いるものと同じものであつてよい。
しかしながら、第２のプロセツサＰ２で精度の高
い比較認識処理を行う為に、この第２の参照パタ
ーンメモリの参照パターンのサンプル数を第１の
それより多くして、精度の高い参照パターンを用
意することもできる。１２はこの第２の参照パタ
ーン１１内の参照パターンのうち第１のプロセツ
サP₁に於ける予備比較認識の結果予備的に選択
された第１の番地メモリ６にある複数の参照パタ
ーンの番地が転送記憶される第２の番地メモリで
ある。１３はこの第２の番地メモリ１２で指定さ
れた参照パターンと第２のバツフアメモリ１０に
貯えられた入力音声の特徴パターンとの本格的な
比較認識動作をする第２の認識回路で、多少その
認識動作に時間が掛るが、厳密な認識動作が行わ
れるDP法（ダイナミツクプログラミング法）等
を用いて認識動作を行う。１４はこの第２の認識
回路１３で認識動作の結果、特定された音声を外
部回路に出力する出力ポート出ある。１５はこれ
等の第２の認識回路１３での認識動作や出力ポー
ト１４での出力動作を司どる第２のCPUで、こ
れ等の第２のバツフアメモリ１０〜第２のCPU
１５から第２のプロセツサP₂が構成されている。

次にこの第３図で示した本発明装置に於ける動
作について第４図を参照しつつ説明する。

第４図の音声入力期間Ｉは、通常、200msec〜
1500msecであり、これは、単語音声認識に於け
る一般的な時間範囲である。また、無音期間Ｎ
は、通常、200msecであり、これは、音声中の中
断、例えば、「トツトリ」と発声した時の促音
「ツ」での中断時間が、150mseo程度であるので、
これを音声の終了とみなさないために、この中断
時間より、30％以上長い値、200msecが適切であ
る。さらに、予備比較認識期間SRは、本実施例
の如く、線形マツチングを用いて、認識語を64語
とした場合には、ハードの処理速度にも依存する
が、約300msecは必要であろう。

一方、本格比較認識期間MRは、本実施例の如
く、DPマツチングを用いて、認識語を20語（上
記64語が予備選択された結果）とした場合には、
ハードの処理速度にも依存するが、約600msecが
必要であろう。

先ず、第１のプロセツサP₁に於て、マイクロ
フオン１から入力された音声は、特徴抽出回路２
に順次取り込まれて行くが、その入力音声I₁が途
切れてから一定の無音期間N₁が続くと第１の
CPU７は入力音声I₁の終端を検出してそれまでに
特徴抽出回路２に取り込まれた入力音声の特徴パ
ターンを該特徴抽出回路２で抽出し、第１のバツ
フアメモリ３に貯える。一方、第１の認識回路５
は第１の参照パターンメモリ４に貯えられている
参照パターンと第１のバツフアメモリ３に貯えら
れた特徴パターンとの予備比較認識SR₁を行い、
特徴パターンと比較的類している参照パターンの
いくつかを選択し、その選択した参照パターンの
パターンメモリ４は於る番地を第１の番地メモリ
６に記憶せしめる。この第１の認識回路５に依る
予備比較認識SR₁動作は先にも述べた如く、必ず
しも厳密な認識動作は必要としないので、その認
識動作が比較的短時間に遂行される線形マツチン
グ法が採用される。尚、この第１のプロセツサ
P₁に於ける全ての動作の制御は第１のCPU７に
依つて司どられる。

この予備認識SR₁動作が完了すると、第２のプ
ロセツサP₂に於ては、第１の番地メモリ６に導
入された予備認識SR₁結果である番地情報が第２
のプロセツサP₂の第２の番地メモリ１２に転送
され、その番地情報に基づいて、参照パターンが
貯えられている第２の参照パターンメモリ１１の
うち予備認識SR₁で選択したブロツクパターンの
みを第２の認識回路１３に読み出し、該認識回路
１３で予め第１のバツフアメモリ３から第２のバ
ツフアメモリ１０に転送されている入力音声の特
徴パターンとの本格的な比較認識MR₁動作は、
参照パターンと特徴パターンとの厳密な比較認識
が遂行され、その為に例えばDP法が採用されて
いる。先にも述べた如く、この本格的比較認識
MR₁動作は本来であれば第１のプロセツサP₁に
於ける予備認識SR₁に比して時間が掛るのである
が、この認識回路１３で特徴パターンと比較され
る参照パターンは第１のプロセツサP₁に於て予
め選択されてその数が少くなつているので、参照
パターンメモリ１１に貯えられている全ての参照
パターンとの比較をする場合に比してその認識に
要する時間は短く、結果的に第４図に示すように
第１のプロセツサP₁に於ける入力音声取り込み
期間Ｉと予備比較認識SR並びに無音期間Ｎの合
計期間と略等しくなる。但し、この関係は、音声
ものものの長さや人間の発声時間に依存するとこ
ろがあるので、不確定な要因を含んだ比較的大ざ
ざつばな程度で略等しい関係と言わざるを得な
い。

例えば、短い音声の入力の場合（Ｉ＝
200msec）は、第１のプロセツサＰ１の処理時間
（Ｉ＋Ｎ＋SR）は、700msec程度となり、第２の
プロセツサの処理時間MR₂のそれ（600msec）と
は勿論略等しい。

しかし、長い音声の入力の場合（Ｉ＝
1500msec）は、第１のプロセツサＰ１の処理時
間（Ｉ＋Ｎ＋SR）は、200msec程度となり、第
２プロセツサＰ２のそれとは、完全に等しいと言
えないが、略等しい範囲と見做して問題はない。

即ち、長い入力時間の音声を対象とした場合に
上記両時間関係が等しくなるように設定するより
も、短い入力時間の音声を対象とした場合の上記
両時間関係が等しくなるように設定しておけば、
より高速処理が必要となる短時間入力音声の連続
入力に対して、有効に連続認識が行える。

一方、これと並行して第１のプロセツサP₁に
於ては、予備認識SR₁が終了すると、次の入力音
声の取り込みI₂が開始される。上述したようにこ
の取り込みI₂動作とその後の無音期間N₂及び予
備認識SR₂とが先行する入力音声の第２のプロセ
ツサP₂に於ける本格認識MR₁期間と略等しい。
従つて第１のプロセツサP₁に於ける２番目の入
力音声の取り込みI₂及び予備認識SR₂が完了した
時点で第２のプロセツサP₂も１番目の入力音声
に対する本格認識動作MR₁を完了しており、両
プロセツサP₁，P₂は全くの待ち時間なしに夫々
次の音声に対する所定の動作、即ち第１のプロセ
ツサP₁は３番目に入力音声の取り込み動作I₃を、
又第２のプロセツサP₂は２番目の入力音声の本
格認識動作MR₂に移行する。

尚、上述の実施例では、予備的な比較認識処理
として、線形マツチング法、本格的な比較認識処
理として、DPマツチング法を夫々説明したが、
本発明はこれらに限定されるものでなく、予備的
なそれは本格的なそれより認識精度は低くても短
時間の処理で参照パターンのある程度の絞り込み
が可能な手法が使用できる。例えば、予備的比較
認識処理としては、音声パワーの極大点、極小点
のみを用いる方法（特開昭56−55995号）等が使
用でき、更に、本格的な比較認識処理としては、
認識関数を用いる方法（書籍「音声認識」117〜
118頁、新美著、共立出版、昭和54年10月10日発
行）等が使用できる。

(ト) 発明の効果本発明は、以上の説明から明らかな如く、入力
音声に対する認識動作を予備認識と本格認識とに
２分すると共に独立して動作する２個のプロセツ
サを用意し、入力音声の取り込み動作と予備認識
動作とを一方のプロセツサで実行し、本格認識動
作を他方のプロセツサで実行せしめているので、
多少は入力音声の時間長に左右されるが、両プロ
セツサでの各々の実行時間を略等しく設定でき
る。従つて、入力音声の時間長によつては、両プ
ロセツサに於ける待時間を完全に皆無にできない
までも、夫々のプロセツサで無駄な空き時間を有
効に削減することが可能となり、結果的に音声認
識動作の高速化を果し得る。

【図面の簡単な説明】

第１図、第２図は夫々現存する音声認識装置の
動作を示す模式図、第３図は本発明装置の構成を
示すブロツク図、第４図は本発明に依る音声認識
動作を示す模式図である。 P₁，P₂…プロセツサ、３，１０…バツフアメ
モリ、４，１１…参照パターンメモリ、５，１３
…認識回路、６，１２…番地メモリ、７，１５…
CPU。

Claims

【特許請求の範囲】１音声を電気的な音声信号に変換するマイクロ
フオンと、該音声信号を取り込んでその特徴を抽
出する特徴抽出回路と、この特徴抽出回路で抽出
された特徴パターンを予備的に比較認識する為の
参照パターンが貯えられている第１の参照パター
ンメモリと、この参照パターンと特徴パターンと
の予備的な比較認識を行う第１の認識回路と、上
記特徴パターン及び予備比較認識結果を貯えるバ
ツフアメモリと、これ等の特徴抽出動作並びに予
備比較認識動作を司どる第１のCPUと、から成
る第１のプロセツサ部、及び上記特徴パターンと本格的に比較認識される参
照パターンが貯えられている第２の参照パターン
メモリと、該第２の参照パターンメモリの参照パ
ターンのうち上記第１のプロセツサで予備的に認
識された参照パターンと特徴パターンとの本格的
な比較認識を行う第２の認識回路と、この第２の
認識回路での認識結果を外部回路に出力するＩ／
Ｏポートと、この本格比較認識動作並びにＩ／Ｏ
ポート動作を司どる第２のCPUと、から成る第
２のプロセツサ部に依つて構成され、第１のプロセツサ部の第１の認識回路での予備
的な比較認識処理時間を第２のプロセツサ部の第
２の認識回路での本格的な比較認識処理時間より
短時間で行うと共に、上記第１のプロセツサ部で
の音声信号取り込み動作及び予備比較認識動作に
要する時間と、上記第２のプロセツサ部での本格
比較認識動作に要する時間とを略等しく設定した
事を特徴とする音声認識装置。