JPH0830960B2 - 高速音声認識装置 - Google Patents

高速音声認識装置

Info

Publication number
JPH0830960B2
JPH0830960B2 JP63309325A JP30932588A JPH0830960B2 JP H0830960 B2 JPH0830960 B2 JP H0830960B2 JP 63309325 A JP63309325 A JP 63309325A JP 30932588 A JP30932588 A JP 30932588A JP H0830960 B2 JPH0830960 B2 JP H0830960B2
Authority
JP
Japan
Prior art keywords
pattern
voice
recognition
standard pattern
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63309325A
Other languages
English (en)
Other versions
JPH02154300A (ja
Inventor
和永 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63309325A priority Critical patent/JPH0830960B2/ja
Publication of JPH02154300A publication Critical patent/JPH02154300A/ja
Publication of JPH0830960B2 publication Critical patent/JPH0830960B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、発声した音声を高速に認識する高速音声認
識装置の改良に関するものである。
(従来の技術) 従来、音声を高速に認識する方法として、例えば電子
情報通信学会技術報告SP87−26の第33頁から第44頁に
「ビームザーチとベクトル量子化によるDPマッチングの
高速化」と題して発表された論文(以下文献1と称す)
には、ビームサーチを用いることにより、少ない計算量
でDPマッチングを実行する方法が示されている。
この方法では、DPマッチングを用いたパターンマッチ
ングによる認識方式が基本となっている。たとえば、入
力パターンのフレームiと標準パターンのフレームjと
の距離をd(i,j)とすれば、以下に示すDPマッチング
の漸化式を計算することによりパターン間距離を求める
ことができる。
この漸化式は入力された音声パターンの時刻iのフレー
ムに同期して計算を行なう。このとき、計算量を低減す
るため、漸化式の値g(i,j)はビームサーチにより確
からしい部分における計算のみを行なう。すなわち、フ
レームiにおける閾値θ(i)を、 とする。これは、フレームiにおけるg(i,j)の最小
値にビーム幅ファクタαを加えたものであり、この閾値
θ(i)より大きいg(i,j)については、確からしく
ないフレームi,jの対応付けであるとして計算を行なわ
ないようにする。このような方法により、DPマッチング
の計算を大幅に削減することができる。
このビームサーチは、ここに述べたDPマッチング以外
にも、共立出版(株)刊の「音声認識」(以下文献2と
称す)の第142頁に述べられているように、一般的なパ
ターンマッチングに用いることができる。
ビームサーチを用いたパターンマッチングによる音声
認識を複数のプロセッサで並列的に実行するための一つ
の方法として、プロセッサ毎に認識対象となる単語の集
合(単語セット)を割当て、これらの単語セットに対し
て、全てのプロセッサで同じ認識処理を並行して実行す
る方法がある。この方法により、複数のプロセッサに対
し特別な実行管理を行なわなくても、1台のプロセッサ
で実行するよりも高速に実行できるようになる。
(発明が解決しようとする問題点) ビームサーチを用いたパターンマッチングによる音声
認識を複数のプロセッサで並列的に実行する場合、1台
のプロセッサに割り当てられた単語セット中に、ある入
力パターンとマッチングした際に最小距離を与える単語
と類似した単語が多く存在すると、閾値θ(i)より小
さいg(i,j)を与える標準パターンのフレームjが多
くなり、ビーム幅が十分に絞られなくなる。このため、
1台のプロセッサの負担が多くなり、プロセッサ負荷に
偏りが生じるため複数のプロセッサを効率的に使うこと
ができなくなるので、認識時間を短くすることができな
いという欠点があった。
本発明は、ビームサーチを用いたパターンマッチング
による音声認識において、複数のプロセッサ上で効率よ
く実行できる高性能な高速音声認識装置を提供すること
を目的とする。
(問題点を解決するための手段) 本願の第1の発明による連続音声認識装置は、入力さ
れた音声を分析し音声パターンを作成する音声分析部
と、前記音声パターンをビームサーチを用いたパターン
マッチングにより認識する2つ以上の認識部と、前記2
つ以上の認識部毎に標準パターンを保持する標準パター
ンメモリと、前記2つ以上の認識部からの認識結果の中
で最良の結果を全体の認識結果として出力する結果決定
部と、標準パターン登録時に、前記音声パターンの中で
相互に類似したパターンを異なる前記標準パターンメモ
リに分配する標準パターン分配部とを有する。
本願の第2の発明による連続音声認識装置は、前記本
願の第1の発明に加え、標準パターン登録時に、複数個
の音声パターンを保持する音声パターンメモリと、前記
音声パターンメモリ内の複数個の音声パターンをクラス
タリングによりクラスタに分割するクラスタリング部
と、前記一つのクラスタ中のパターンを各々異なる標準
パターンメモリに分配する標準パターン分配部を有す
る。
(作用) 本発明による高速音声認識装置の作用について説明す
る。本発明では、ビームサーチを用いたパターンマッチ
ングによる音声認識の処理を複数のプロセッサ上で並列
的に実行する場合、互いに類似した単語の標準パターン
に対する認識処理を異なるプロセッサ上で実行できるよ
うにすることにより、ビームサーチの実行効率を上げる
ものである。本発明は、文献2に示されているような音
素を認識単位とした連続単語認識にも有効であるが、以
下では一例として文献1に述べられているような単語を
単位としたDPマッチングによる方法を用いる場合をもと
に述べる。
本発明による高速音声認識装置は、複数台の認識プロ
セッサから成っている。入力された音声より求められた
音声パターンは、全ての認識プロセッサに入力される。
それぞれの認識プロセッサでは、割り当てられた単語セ
ットの標準パターンをもとにビームサーチを用いたDPマ
ッチンクにより入力された音声を認識する。それぞれの
認識プロセッサからの認識結果は比較され、パターン間
距離が最も小さい単語が全体の認識結果となる。
このとき、認識プロセッサに単語セットを割り当てる
方法により処理の効率が変わる。本発明では、複数個の
標準パターンの中で類似したパターン、すなわち相互に
パターン間距離の小さな標準パターンは、異なる認識プ
ロセッサに分配される。これにより、ビーム内に残る標
準パターンのフレーム数が一台の認識プロセッサに集中
することが防げるので、複数のプロセッサを効率的に用
いることができる。
標準パターンを分配する第1の方法としては次に示す
方法がある。標準パターンの登録時に、まず、入力され
た音声パターンを異なる認識プロセッサに順次割り当て
る。全ての認識プロセッサに標準パターンが割り当てら
れたら、次に登録される標準パターンは、すでに割り当
てられている標準パターンとのパターン間距離のうち
で、最も小さいものが最も大きくなる認識プロセッサに
割り当てる。これにより1つの認識プロセッサには相互
に距離の大きい標準パターンを割り当てることができ
る。
計算量やメモリ量が一つの認識プロセッサに集中する
のを防ぐため、ある認識プロセッサに割り当てられた標
準パターンがある量以上になったときは、それ以外の認
識プロセッサに標準パターンを割り当てるという方法を
用いることができる。
標準パターン分配の第2の方法として、クラスタリン
グ法を用いて類似した標準パターンのクラスタをつく
り、1つのクラスタ中に含まれる標準パターンを異なる
認識プロセッサに分配する方法がある。クラスタリング
法として、例えばコロナ社刊「パターン情報処理」の第
113頁から第120頁(以下文献3と称す)に示されている
ようなk−means法をはじめ様々な方法を用いることが
できる。これにより、1つのクラスタに含まれる互いに
類似した標準パターンを、異なる認識プロセッサに割り
当てることができる。この方法は、第1の方法と比較し
て安定に分配できる可能性があるが、全ての標準パター
ンが登録された後でなければクラスタリングができない
ため、分配は全ての標準パターンが登録された後とな
る。また標準パターンを記憶するメモリも必要である。
(実施例) 本発明による高速音声認識装置の実施例について図面
を参照して説明する。第1図は本発明による一実施例を
示す構成図である。まず認識時の動作について説明す
る。
入力された音声は分析部10において分析され、特徴ベ
クトルa(i);1≦i≦Iの時系列として出力される。
特徴ベクトルa(i)は認識プロセッサ1〜3の3台の
認識プロセッサに入力される。ここでは、認識プロセッ
サの数を3台としたが、2台以上任意の台数を用いるこ
とができる。認識プロセッサ1〜3にはそれぞれ標準パ
ターンメモリ11〜13が接続されており、それぞれの認識
プロセッサにおいて認識処理が行なわれる標準パターン
bn;1≦n≦Nが保持されている。認識プロセッサ1〜3
および標準パターンメモリ11〜13は3台とも同じもので
ある。
認識プロセッサ1〜3では、特徴ベクトルa(i)が
入力されると、文献1に示されているようなビームサー
チを用いたDPマッチング計算が実行される。標準パター
ンメモリ11〜13から読みだされた標準パターンのフレー
ムjの特徴ベクトルbn(j);1≦j≦Jnと入力されたa
(i)の間の距離d(i,j)が計算され、これをもとに
(1)式の漸化式が計算される。このとき、閾値計算部
4より閾値θが読みだされ、この値を閾値としてビーム
サーチが行なわれる。すなわち、漸化式の値gが閾値θ
以上の場合は漸化計算を行なわない。閾値計算部4で
は、現在より1フレーム前のフレームi−1における漸
化式の値gの、各認識プロセッサ1〜3に於ける最小値
gmin(k);1≦k≦3を読みだし、各認識プロセッサ中
の最小値から次に示す式より閾値θが求められる。
これらの処理が、入力された音声の特徴ベクトルa
(i)のフレームIまで行なわれ、ビーム内に残された
標準パターンの最終フレームJnにおける漸化式の値gn
と、それを与える単語名Wが結果決定部5に出力され
る。結果決定部5では、これらの漸化式の値gn中の最小
値を与える単語Rが認識結果として出力される。
続いて、標準パターン登録時の動作について説明す
る。登録時に発生された単語セットの音声は、分析部10
で分析され、得られた音声パターンは標準パターン分配
部6により標準パターンメモリ11〜13のいずれかに分配
され、標準パターンbとして保持される。
第2図は本願第1の発明による標準パターン分配部6
の構成図である。N種類の単語に対する標準パターンb
n;1≦n≦Nを、3台の認識プロセッサを用いて認識す
る場合について述べる。分配部61では、最初の3個の標
準パターンbk;1≦k≦3を認識パターンメモリ11〜13に
順次出力する。次に登録される新しい標準パターンが入
力されると、距離計算部62で、すでに割り当てられてい
る標準パターンメモリ11〜13中の標準パターンとの間で
パターン間距離が順次計算され、各標準パターンメモリ
に対する最小値が求められ、番号kの標準パターンメモ
リに対する最小値Dmin(k)として出力される。続いて
最大値計算部63では、この最小値Dmin(k)が最大とな
る標準パターンメモリの番号kが求められる。分配部61
では、このkに従って新しい標準パターンが標準パター
ンメモリ11〜13のいずれかに分配される。
第3図は本願第2の発明による標準パターン分配部6
の構成図である。まず、標準パターン登録のため発声さ
れた音声を分析して得られた音声パターンは、音声パタ
ーンメモリ64に保持される。全単語セットの音声パター
ンが登録されると、クラスタリング部65では、音声パタ
ーンメモリ64中に保持されているN個の標準パターンを
クラスタリング法によりM個のクラスタに分類する。こ
こで用いるクラスタリング法は文献3に示されているよ
うなk−means法を用いている。MはN以下の任意の数
である。続いて、分配部66では、一つのクラスタに分類
された標準パターンを順次標準パターンメモリ11〜13分
配する。すなわち、クラスタmに分類されたNm個の標準
パターンbm(n);1≦n≦Nmは、標準パターンbm(1)
は標準パターンメモリ11、bm(2)は標準パターンメモ
リ12というように順次分配される。このように分配する
ことにより、類似した標準パターンを異なる標準パター
ンメモリに分配することができる。
(発明の効果) 本発明によれば、複数の認識プロセッサ上でビームサ
ーチを用いた認識処理をおこな場合、ビームサーチの効
率を高めることにより高性能な高速音声認識装置を実現
することができる。
【図面の簡単な説明】
第1図は、本願発明による一実施例を示す構成図、第2
図は、本願第1の発明による標準パターン分配部の一実
施例を示す構成図、第3図は、本願第2の発明による標
準パターン分配部の一実施例を示す構成図である。 図において、 1,2,3,…認識プロセッサ、4…閾値計算部、5…結果決
定部、6…標準パターン分配部、10…分析部、11,12,13
…標準パターン分配部、61,66…分配部、62…距離計算
部、63…最大計算部、64…音声パターンメモリ、65…ク
ラスタリング部、をそれぞれ示す。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】入力された音声を分析し音声パターンを作
    成する音声分析部と、前記音声パターンをビームサーチ
    を用いたパターンマッチングにより認識する2つ以上の
    認識部と、前記2つ以上の認識部毎に標準パターンを保
    持する標準パターンメモリと、前記2つ以上の認識部か
    らの認識結果の中で最良の結果を全体の認識結果として
    出力する結果決定部と、標準パターン登録時に、前記音
    声パターンの中で相互に類似したパターンを異なる前記
    標準パターンメモリに分配する標準パターン分配部とを
    有して成る高速音声認識装置。
  2. 【請求項2】標準パターン登録時に、複数個の音声パタ
    ーンを保持する音声パターンメモリと、前記音声パター
    ンメモリ内の複数個の音声パターンをクラスタリングに
    よりクラスタに分割するクラスタリング部と、前記一つ
    のクラスタ中のパターンを各々異なる標準パターンメモ
    リに分配する標準パターン分配部を有する請求項1記載
    の高速音声認識装置。
JP63309325A 1988-12-06 1988-12-06 高速音声認識装置 Expired - Lifetime JPH0830960B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63309325A JPH0830960B2 (ja) 1988-12-06 1988-12-06 高速音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63309325A JPH0830960B2 (ja) 1988-12-06 1988-12-06 高速音声認識装置

Publications (2)

Publication Number Publication Date
JPH02154300A JPH02154300A (ja) 1990-06-13
JPH0830960B2 true JPH0830960B2 (ja) 1996-03-27

Family

ID=17991659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63309325A Expired - Lifetime JPH0830960B2 (ja) 1988-12-06 1988-12-06 高速音声認識装置

Country Status (1)

Country Link
JP (1) JPH0830960B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04232998A (ja) * 1990-12-27 1992-08-21 Nec Corp 音声認識装置
DE19910234A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren mit mehreren Spracherkennern
US20030093272A1 (en) * 1999-12-02 2003-05-15 Frederic Soufflet Speech operated automatic inquiry system

Also Published As

Publication number Publication date
JPH02154300A (ja) 1990-06-13

Similar Documents

Publication Publication Date Title
CN113689436B (zh) 图像语义分割方法、装置、设备及存储介质
US10109272B2 (en) Apparatus and method for training a neural network acoustic model, and speech recognition apparatus and method
JPH06309492A (ja) 複数分類器出力合成方法及び合成システム
Sang Text chunking by system combination
US5794198A (en) Pattern recognition method
CN114387653A (zh) 视频数据处理方法、装置、设备及存储介质
US8099281B2 (en) System and method for word-sense disambiguation by recursive partitioning
CN113870875A (zh) 音色特征提取方法、装置、计算机设备及存储介质
JPH0830960B2 (ja) 高速音声認識装置
JPS63261400A (ja) 音声認識方式
CN114495911B (zh) 说话人聚类方法、装置及设备
US6192353B1 (en) Multiresolutional classifier with training system and method
Smietanka et al. Interpreting convolutional layers in DNN model based on time–frequency representation of emotional speech
JP2973805B2 (ja) 標準パターン作成装置
CN113240032A (zh) 一种图像分类方法、装置、设备及存储介质
JPH0252278B2 (ja)
JP2864775B2 (ja) 音声認識装置
Castro et al. Parallelization of a denoising algorithm for tonal bioacoustic signals using openacc directives
Oosterveld et al. A parallelized dynamic programming approach to zero resource spoken term discovery
JPS5915993A (ja) 音声認識装置
Lin et al. An Efficient GPU-based Implementation for Noise Robust Sound Source Localization
Yusuf et al. Beyond posteriorgram: Bottleneck features for keyword search
JP3293191B2 (ja) 音声認識装置
Goyal et al. Improving Speech Emotion Recognition: A Semi-Supervised Approach for Fine-Grained Analysis
JPS63148299A (ja) 単語音声認識方法および装置