JPH0830960B2

JPH0830960B2 - 高速音声認識装置

Info

Publication number: JPH0830960B2
Application number: JP63309325A
Authority: JP
Inventors: 和永吉田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1988-12-06
Filing date: 1988-12-06
Publication date: 1996-03-27
Anticipated expiration: 2011-03-27
Also published as: JPH02154300A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、発声した音声を高速に認識する高速音声認
識装置の改良に関するものである。

（従来の技術）従来、音声を高速に認識する方法として、例えば電子
情報通信学会技術報告SP87−26の第33頁から第44頁に
「ビームザーチとベクトル量子化によるDPマッチングの
高速化」と題して発表された論文（以下文献１と称す）
には、ビームサーチを用いることにより、少ない計算量
でDPマッチングを実行する方法が示されている。

この方法では、DPマッチングを用いたパターンマッチ
ングによる認識方式が基本となっている。たとえば、入
力パターンのフレームｉと標準パターンのフレームｊと
の距離をｄ（i,j）とすれば、以下に示すDPマッチング
の漸化式を計算することによりパターン間距離を求める
ことができる。

この漸化式は入力された音声パターンの時刻ｉのフレー
ムに同期して計算を行なう。このとき、計算量を低減す
るため、漸化式の値ｇ（i,j）はビームサーチにより確
からしい部分における計算のみを行なう。すなわち、フ
レームｉにおける閾値θ（ｉ）を、とする。これは、フレームｉにおけるｇ（i,j）の最小
値にビーム幅ファクタαを加えたものであり、この閾値
θ（ｉ）より大きいｇ（i,j）については、確からしく
ないフレームi,jの対応付けであるとして計算を行なわ
ないようにする。このような方法により、DPマッチング
の計算を大幅に削減することができる。

このビームサーチは、ここに述べたDPマッチング以外
にも、共立出版（株）刊の「音声認識」（以下文献２と
称す）の第142頁に述べられているように、一般的なパ
ターンマッチングに用いることができる。

ビームサーチを用いたパターンマッチングによる音声
認識を複数のプロセッサで並列的に実行するための一つ
の方法として、プロセッサ毎に認識対象となる単語の集
合（単語セット）を割当て、これらの単語セットに対し
て、全てのプロセッサで同じ認識処理を並行して実行す
る方法がある。この方法により、複数のプロセッサに対
し特別な実行管理を行なわなくても、１台のプロセッサ
で実行するよりも高速に実行できるようになる。

（発明が解決しようとする問題点）ビームサーチを用いたパターンマッチングによる音声
認識を複数のプロセッサで並列的に実行する場合、１台
のプロセッサに割り当てられた単語セット中に、ある入
力パターンとマッチングした際に最小距離を与える単語
と類似した単語が多く存在すると、閾値θ（ｉ）より小
さいｇ（i,j）を与える標準パターンのフレームｊが多
くなり、ビーム幅が十分に絞られなくなる。このため、
１台のプロセッサの負担が多くなり、プロセッサ負荷に
偏りが生じるため複数のプロセッサを効率的に使うこと
ができなくなるので、認識時間を短くすることができな
いという欠点があった。

本発明は、ビームサーチを用いたパターンマッチング
による音声認識において、複数のプロセッサ上で効率よ
く実行できる高性能な高速音声認識装置を提供すること
を目的とする。

（問題点を解決するための手段）本願の第１の発明による連続音声認識装置は、入力さ
れた音声を分析し音声パターンを作成する音声分析部
と、前記音声パターンをビームサーチを用いたパターン
マッチングにより認識する２つ以上の認識部と、前記２
つ以上の認識部毎に標準パターンを保持する標準パター
ンメモリと、前記２つ以上の認識部からの認識結果の中
で最良の結果を全体の認識結果として出力する結果決定
部と、標準パターン登録時に、前記音声パターンの中で
相互に類似したパターンを異なる前記標準パターンメモ
リに分配する標準パターン分配部とを有する。

本願の第２の発明による連続音声認識装置は、前記本
願の第１の発明に加え、標準パターン登録時に、複数個
の音声パターンを保持する音声パターンメモリと、前記
音声パターンメモリ内の複数個の音声パターンをクラス
タリングによりクラスタに分割するクラスタリング部
と、前記一つのクラスタ中のパターンを各々異なる標準
パターンメモリに分配する標準パターン分配部を有す
る。

（作用）本発明による高速音声認識装置の作用について説明す
る。本発明では、ビームサーチを用いたパターンマッチ
ングによる音声認識の処理を複数のプロセッサ上で並列
的に実行する場合、互いに類似した単語の標準パターン
に対する認識処理を異なるプロセッサ上で実行できるよ
うにすることにより、ビームサーチの実行効率を上げる
ものである。本発明は、文献２に示されているような音
素を認識単位とした連続単語認識にも有効であるが、以
下では一例として文献１に述べられているような単語を
単位としたDPマッチングによる方法を用いる場合をもと
に述べる。

本発明による高速音声認識装置は、複数台の認識プロ
セッサから成っている。入力された音声より求められた
音声パターンは、全ての認識プロセッサに入力される。
それぞれの認識プロセッサでは、割り当てられた単語セ
ットの標準パターンをもとにビームサーチを用いたDPマ
ッチンクにより入力された音声を認識する。それぞれの
認識プロセッサからの認識結果は比較され、パターン間
距離が最も小さい単語が全体の認識結果となる。

このとき、認識プロセッサに単語セットを割り当てる
方法により処理の効率が変わる。本発明では、複数個の
標準パターンの中で類似したパターン、すなわち相互に
パターン間距離の小さな標準パターンは、異なる認識プ
ロセッサに分配される。これにより、ビーム内に残る標
準パターンのフレーム数が一台の認識プロセッサに集中
することが防げるので、複数のプロセッサを効率的に用
いることができる。

標準パターンを分配する第１の方法としては次に示す
方法がある。標準パターンの登録時に、まず、入力され
た音声パターンを異なる認識プロセッサに順次割り当て
る。全ての認識プロセッサに標準パターンが割り当てら
れたら、次に登録される標準パターンは、すでに割り当
てられている標準パターンとのパターン間距離のうち
で、最も小さいものが最も大きくなる認識プロセッサに
割り当てる。これにより１つの認識プロセッサには相互
に距離の大きい標準パターンを割り当てることができ
る。

計算量やメモリ量が一つの認識プロセッサに集中する
のを防ぐため、ある認識プロセッサに割り当てられた標
準パターンがある量以上になったときは、それ以外の認
識プロセッサに標準パターンを割り当てるという方法を
用いることができる。

標準パターン分配の第２の方法として、クラスタリン
グ法を用いて類似した標準パターンのクラスタをつく
り、１つのクラスタ中に含まれる標準パターンを異なる
認識プロセッサに分配する方法がある。クラスタリング
法として、例えばコロナ社刊「パターン情報処理」の第
113頁から第120頁（以下文献３と称す）に示されている
ようなｋ−means法をはじめ様々な方法を用いることが
できる。これにより、１つのクラスタに含まれる互いに
類似した標準パターンを、異なる認識プロセッサに割り
当てることができる。この方法は、第１の方法と比較し
て安定に分配できる可能性があるが、全ての標準パター
ンが登録された後でなければクラスタリングができない
ため、分配は全ての標準パターンが登録された後とな
る。また標準パターンを記憶するメモリも必要である。

（実施例）本発明による高速音声認識装置の実施例について図面
を参照して説明する。第１図は本発明による一実施例を
示す構成図である。まず認識時の動作について説明す
る。

入力された音声は分析部10において分析され、特徴ベ
クトルａ（ｉ）;1≦ｉ≦Ｉの時系列として出力される。
特徴ベクトルａ（ｉ）は認識プロセッサ１〜３の３台の
認識プロセッサに入力される。ここでは、認識プロセッ
サの数を３台としたが、２台以上任意の台数を用いるこ
とができる。認識プロセッサ１〜３にはそれぞれ標準パ
ターンメモリ11〜13が接続されており、それぞれの認識
プロセッサにおいて認識処理が行なわれる標準パターン
bn;1≦ｎ≦Ｎが保持されている。認識プロセッサ１〜３
および標準パターンメモリ11〜13は３台とも同じもので
ある。

認識プロセッサ１〜３では、特徴ベクトルａ（ｉ）が
入力されると、文献１に示されているようなビームサー
チを用いたDPマッチング計算が実行される。標準パター
ンメモリ11〜13から読みだされた標準パターンのフレー
ムｊの特徴ベクトルbn（ｊ）;1≦ｊ≦Jnと入力されたａ
（ｉ）の間の距離ｄ（i,j）が計算され、これをもとに
（１）式の漸化式が計算される。このとき、閾値計算部
４より閾値θが読みだされ、この値を閾値としてビーム
サーチが行なわれる。すなわち、漸化式の値ｇが閾値θ
以上の場合は漸化計算を行なわない。閾値計算部４で
は、現在より１フレーム前のフレームｉ−１における漸
化式の値ｇの、各認識プロセッサ１〜３に於ける最小値
gmin（ｋ）;1≦ｋ≦３を読みだし、各認識プロセッサ中
の最小値から次に示す式より閾値θが求められる。

これらの処理が、入力された音声の特徴ベクトルａ
（ｉ）のフレームＩまで行なわれ、ビーム内に残された
標準パターンの最終フレームJnにおける漸化式の値gn
と、それを与える単語名Ｗが結果決定部５に出力され
る。結果決定部５では、これらの漸化式の値gn中の最小
値を与える単語Ｒが認識結果として出力される。

続いて、標準パターン登録時の動作について説明す
る。登録時に発生された単語セットの音声は、分析部10
で分析され、得られた音声パターンは標準パターン分配
部６により標準パターンメモリ11〜13のいずれかに分配
され、標準パターンｂとして保持される。

第２図は本願第１の発明による標準パターン分配部６
の構成図である。Ｎ種類の単語に対する標準パターンb
n;1≦ｎ≦Ｎを、３台の認識プロセッサを用いて認識す
る場合について述べる。分配部61では、最初の３個の標
準パターンbk;1≦ｋ≦３を認識パターンメモリ11〜13に
順次出力する。次に登録される新しい標準パターンが入
力されると、距離計算部62で、すでに割り当てられてい
る標準パターンメモリ11〜13中の標準パターンとの間で
パターン間距離が順次計算され、各標準パターンメモリ
に対する最小値が求められ、番号ｋの標準パターンメモ
リに対する最小値Dmin（ｋ）として出力される。続いて
最大値計算部63では、この最小値Dmin（ｋ）が最大とな
る標準パターンメモリの番号ｋが求められる。分配部61
では、このｋに従って新しい標準パターンが標準パター
ンメモリ11〜13のいずれかに分配される。

第３図は本願第２の発明による標準パターン分配部６
の構成図である。まず、標準パターン登録のため発声さ
れた音声を分析して得られた音声パターンは、音声パタ
ーンメモリ64に保持される。全単語セットの音声パター
ンが登録されると、クラスタリング部65では、音声パタ
ーンメモリ64中に保持されているＮ個の標準パターンを
クラスタリング法によりＭ個のクラスタに分類する。こ
こで用いるクラスタリング法は文献３に示されているよ
うなｋ−means法を用いている。ＭはＮ以下の任意の数
である。続いて、分配部66では、一つのクラスタに分類
された標準パターンを順次標準パターンメモリ11〜13分
配する。すなわち、クラスタｍに分類されたNm個の標準
パターンbm（ｎ）;1≦ｎ≦Nmは、標準パターンbm（１）
は標準パターンメモリ11、bm（２）は標準パターンメモ
リ12というように順次分配される。このように分配する
ことにより、類似した標準パターンを異なる標準パター
ンメモリに分配することができる。

（発明の効果）本発明によれば、複数の認識プロセッサ上でビームサ
ーチを用いた認識処理をおこな場合、ビームサーチの効
率を高めることにより高性能な高速音声認識装置を実現
することができる。

【図面の簡単な説明】

第１図は、本願発明による一実施例を示す構成図、第２
図は、本願第１の発明による標準パターン分配部の一実
施例を示す構成図、第３図は、本願第２の発明による標
準パターン分配部の一実施例を示す構成図である。図において、 1,2,3,…認識プロセッサ、４…閾値計算部、５…結果決
定部、６…標準パターン分配部、10…分析部、11,12,13
…標準パターン分配部、61,66…分配部、62…距離計算
部、63…最大計算部、64…音声パターンメモリ、65…ク
ラスタリング部、をそれぞれ示す。

Claims

【特許請求の範囲】

【請求項１】入力された音声を分析し音声パターンを作
成する音声分析部と、前記音声パターンをビームサーチ
を用いたパターンマッチングにより認識する２つ以上の
認識部と、前記２つ以上の認識部毎に標準パターンを保
持する標準パターンメモリと、前記２つ以上の認識部か
らの認識結果の中で最良の結果を全体の認識結果として
出力する結果決定部と、標準パターン登録時に、前記音
声パターンの中で相互に類似したパターンを異なる前記
標準パターンメモリに分配する標準パターン分配部とを
有して成る高速音声認識装置。
【請求項２】標準パターン登録時に、複数個の音声パタ
ーンを保持する音声パターンメモリと、前記音声パター
ンメモリ内の複数個の音声パターンをクラスタリングに
よりクラスタに分割するクラスタリング部と、前記一つ
のクラスタ中のパターンを各々異なる標準パターンメモ
リに分配する標準パターン分配部を有する請求項１記載
の高速音声認識装置。