JPH0313599B2 - - Google Patents
Info
- Publication number
- JPH0313599B2 JPH0313599B2 JP59057280A JP5728084A JPH0313599B2 JP H0313599 B2 JPH0313599 B2 JP H0313599B2 JP 59057280 A JP59057280 A JP 59057280A JP 5728084 A JP5728084 A JP 5728084A JP H0313599 B2 JPH0313599 B2 JP H0313599B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- pattern
- dissimilarity
- standard pattern
- audio frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
(技術分野)
本発明は、音声認識方法に関し、具体的には単
語入力音声の終端を確認を待たないで、入力音声
の始端検出から認識動作を開始することを可能と
した音声認識方法に関する。 (背景技術) 音声認識方法の一形式として、音声の特徴パタ
ーンを周波数成分のフレーム時系列として表現
し、入力パターンと各標準パターンとの非類似度
を計算し、その非類似度を少なくとも含む情報に
基づいて入力音声のカテゴリを認識する方法が知
られている。 非類似度を計算する方法としては、入力パター
ンと標準パターンとのマツチングパスの設定に関
して、動的計画法によるDPマツチングと、本質
的に線形な線形マツチング法とが知られている。 後者の線形マツチング法は、簡易な方法であ
り、例えば沖研究開発118号昭和57年12月にある
如く、比較的少数の認識カテゴリを対象とする場
合には適用されている。 しかしながら、従来の線形マツチング法におい
ては、単語入力音声の終端を確認した後、認識動
作を開始しており、認識応答速度の面で問題があ
り、又動作メモリの容量も比較的大きいものを必
要とする。 又線形マツチング法においては、発生速度変動
を吸収するために種々の工夫が行なわれている
が、実時間的な非類似度計算には適用し難い。 (発明の目的) 本発明の目的は、入力音声の始端を検出して直
ちに認識を開始することによつて、認識応答速度
を高めると共に動作メモリ容量を低減することに
あり、更に発声速度変動を予想して本質的に線形
なマツチングパスを複数個設定することによつ
て、発生速度の変動を吸収することにある。 (発明の概要) 本発明の音声認識方法は、前記目的を達成する
ために、各標準音声に対応して周波数成分のフレ
ーム時系列として表現された標準パターンを記憶
しておき、 (a) 入力音声から周波数成分のフレーム時系列と
して入力パターンを抽出し、 (b) 前記入力音声の始端を検出して前記入力パタ
ーンの音声フレームの計数を開始し、少なくと
も有音状態を検出している間は音声フレーム番
号を順次更新し、 (c) 前記音声フレーム番号の更新毎に、その音声
フレーム番号に本質的に線形な関係で標準パタ
ーンの複数のフレーム番号を発生させることに
よつて前記入力パターンと前記各標準パターン
との間に複数のマツチングパスを設定し、 (d) 前記音声フレーム番号の更新毎に、前記マツ
チングパスで対応づけられたフレーム間で前記
入力パターンと前記各標準パターンとの距離を
前記各マツチングパス毎に算出し、 (e) 前記入力音声の始端から任意の音声フレーム
までの前記マツチングパスに沿つた前記距離の
累算値を非類似度として、前記音声フレーム番
号の更新毎に、直前の非類似度と当該音声フレ
ーム番号での距離とを加算して一旦記憶するこ
とによつて、前記各標準パターン毎の各マツチ
ングパスに対応した前記非類似度を更新記憶
し、 (f) 全ての前記非類似度のうちで最小値を示す非
類似度に対応した標準パターンのコードを、前
記入力音声の終端候補が検出される度毎に更新
記憶し、 (g) 前記入力音声の終端を確認した時点で、記憶
されている前記標準パターンのコードを入力音
声のカテゴリとして認識する如き構成としたも
のである。 (実施例) 以下、本発明の音声認識方法について詳細に説
明する。 本発明では、入力音声より抽出された入力パタ
ーンと予め用意された各標準パターンとの間に複
数のマツチングパス(例えば、3本)を設定し
て、入力パターンと各標準パターンとの非類似度
演算を行ない、入力音声のカテゴリの判定を行う
が、まずその手段について第1図a,bを用いて
説明する。 第1図aは、横軸に入力パターンの音声フレー
ム番号jをとり、縦軸に標準パターンのフレーム
番号をとり、20%遅く発声した場合、標準的に発
声した場合、20%速く発声した場合を想定した3
本のマツチングパス101〜103を示すもので
あり、第1図bは入力パターンの音声フレーム番
号jに対応したフレーム電力を示すものである。 第1図におけるSL(n)は、標準パターン番号
nの標準パターンSnのフレーム長さである。な
お、第1図bに示すように入力音声の始端検出
は、フレーム電力が所定のしきい値を越えること
によつて行なう。また始端検出時点以後の少なく
とも有音状態における入力パターンの入力フレー
ムは音声フレームと称し、単なる入力フレームと
は区別する。そして、その音声フレーム番号は始
端検出時点0とし、少なくとも有音状態の間はそ
のフレーム周期毎に順次更新されるものである。 次式は、音声フレーム番号jにおいて、任意の
標準パターンに対応して発生させたフレーム番号
をk、k′、k″として、その標準パターンと入力パ
ターンとの1フレーム分の距離を示す。なお、こ
こではチヤンネル番号i=1〜8とする。 パス101に対する距離 パス102に対する距離 パス103に対する距離 パス101においては入力パターンのj番目の
フレームと標準パターンのk番目のフレームの間
の距離計算を行なう。パス102においては入力
パターンのj番目のフレームと標準パターンの
k′番目のフレームの間の距離計算を行ない、パス
103においては入力パターンj番目のフレーム
と標準パターンのk″番目のフレームの間の距離
計算が行なわれる。但し、標準パターンのフレー
ム番号を示すk、k′、k″はその標準パターンの長
さSL(n)より大きくなる場合にはSL(n)に制
限される。なお、第1式〜第3式の〔 〕はガウ
ス記号である。 次に、音声フレーム番号jまでの非類似度Dn
(j)、D′n(j)、D″n(j)を示す。 パス101の非類似度 Dn(j)=dn(j)+Dn(j−1) …第4式 パス102の非類似度 D′n(j)=d′n(j)+D′n(j−1) …第5式 パス103の非類似度 D″n(j)=d″n(j)+D″n(j−1} …第6式 すなわち、それぞれのパス上での音声フレーム
番号jでの非類似度の算出は各チヤンネルごとの
距離(例えば|W(i、j)−Sn(i、k)|)を
チヤンネル分、音声フレーム番号(j−1)に対
する非類似度値(たとえばDn(j−1))を加え
ることによつて得られる。これらの演算は音声フ
レーム番号jの更新毎に行なわれる。これらの非
類似度の組が標準パターンの数(Nとする)だけ
存在する。これらの非類似度を用いてカテゴリー
判定を行なう。まず、n番目の標準パターンに対
する各パスごとの非類似度Dn(j)、D′n(j)、D″n(j)
のうち1つを選択する。この選択にあたつては音
声終端の音声フレーム番号Jに対して次式で与え
られるL、L′、L″が用いる。 これらの値L、L′、L″は音声フレームに対応
する標準パターンのフレーム数を与える式に類似
しているが、標準パターンの長さSL(n)によつ
て制限されることはない。従つて、L、L′、
L″は標準パターンの種類とは無関係である。こ
れらL、L′、L″のうち標準パターンの長さSL
(n)に最も近い値を示すパスに対応する非類似
度のみを選択する。たとえば、L′がSL(n)に最
も近いとするとパス102が対応してそれに対す
る非類似度D′n(j)が選択される。選択された非類
似度をDDnとする。これらの選択は標準パター
ンごとに行なわれる。 前記判定ステツプによつて得られた標準パター
ンごとの非類似度DDnに対して最小値を求める。
この最小値を与える標準パターンに付加されたカ
テゴリが当該音声フレーム番号Jでの認識結果と
なる。 第1図bに示すように、音声フレーム番号j1+
1においてフレーム電力がしきい値以下となり、
無音状態を検出した場合、音声フレーム番号j1で
判定した標準パターン番号を認識カテゴリ候補と
して記憶するが、認識動作は無音状態が30フレー
ム継続するまで中断しない。 第1図bでは、継続認識の結果、音声フレーム
番号j2における1つの標準パターン番号が認識カ
テゴリ候補として更新記憶されるが、音声フレー
ム番号j3で終端が確認されると、前述の音声フレ
ーム番号j2の時点で更新記憶されたその標準パタ
ーン番号を入力音声のカテゴリとして判定する。 次に本発明の一実施例について詳細に説明す
る。 第2図はこの実施例のブロツク図であり、以下
この図に沿つて説明する。 52は入力音声の始端から音声フレーム数をカ
ウントして音声フレーム番号jを出力するフレー
ムカウンタであつて始端検出時にリセツトパルス
によつてその内容は0となり以後音声フレームの
更新毎にカウントパルスによつてカウントアツプ
するものである。入力音声の始端検出は、フレー
ム電力が所定のしきい値を越えることによつて行
ない、雑音対策としては、そのしきい値を連続し
て3フレーム(但し、1フレーム長は16msec)
以上越えない場合は認識処理を初期状態へリセツ
トすることによつて行なう。 54は各音声フレーム番号jのそれぞれに対応
して、〔1/0.8j〕、j、〔1/1.2j〕なる値を記憶
し ていて、パスの種類を示すパス信号と音声フレー
ム番号jとによつてアドレスされ、標準パターン
のフレーム番号k、k′、K″に相当し得るものl
を出力するROMである。 56は、標準パターンSn毎にそのフレーム長
SL(n)を記憶していて、標準パターン番号nで
アドレスされてそれを出力するROMである。 57は両ROM54,56の出力l、SL(n)
を比較するコンパレータである。 58は両ROM54,56の出力l、SL(n)
の一方を選択するセレクタである。 そして、両ROM54,56、コンパレータ5
7、及びセレクタ58とによつて、音声フレーム
番号jと標準パターン番号nとパス信号とに対応
して、l≦SL(n)ならばROM54に記憶して
おいた標準パターンのフレーム番号をセレクタ5
8から出力し、l>SL(n)ならばフレーム長
SL(n)に等しい最終フレーム番号を出力する。
このようにして、音声フレーム番号の更新毎に各
標準パターンに対応して3個のフレーム番号k、
k′、k″が発生され、第1図aで説明した3本のマ
ツチングパスが設定される。 60は全ての標準パターンSnを記憶している
標準パターンメモリであり、標準パターンコード
(以下標準パターン番号という)nとチヤンネル
番号iとセレクタ58の出力k(又はk′、K″)と
によつてアドレスされ、各標準パターンの要素
Sn(i、k)、(又はSn(i、K′)、Sn(i、k″))
が1要素ずつ読み出されるものである。 61は1フレーム分の入力パターンメモリであ
り、入力音声の分析フレーム毎に1フレーム分の
入力パターンWjが入力され、チヤンネル番号i
によつてアドレスされ、入力パターンの要素W
(i、j)が1要素ずつ読み出されるものである。 また、62は入力パターンの各要素W(i、j)
と標準パターンの各要素例えばSn(i、k)との
距離を算出し、その絶対値を出力する距離演算
器、64は加算器、65は各標準パターン毎の各
パス対応の非類似度を格納する非類似度メモリで
あり、これらにより非類似度算出処理が行なわれ
る。すなわち、音声フレーム番号jの更新毎に各
標準パターンの各パス101〜103に対応し
て、iフレーム分の標準パターンの要素(例え
ば、Sn(i、k))が標準パターンメモリ60か
らチヤンネル番号iと同期して1要素ずつ読み出
されると共に、入力パターンの要素(例えば、W
(i、j))も入力パターンメモリ61からチヤン
ネル番号iと同期して1要素ずつ読み出され、距
離演算器62ではそれらの距離の絶対値(例え
ば、|W(i、j)−Sn(i−k)|)を算出し、次
の第8式で示すようにその算出結果と非類似メモ
リ65に格納されている非類似度とを加算器64
で加算して、その加算結果を再び非類似度メモリ
65に格納する処理をチヤンネル数分繰り返す。 (メモリ65)←(メモリ65) +|W(i、j)−Sn(i、k)| …第8式 このようにして各標準パターン毎の各マツチン
グパスに対応した非類似度を算出する。この結
果、非類似度メモリ65には、音声フレーム番号
jに対応した、各標準パターン毎の各パス対応の
非類似度Dn(j)、D′n(j)、D″n(j)が更新記憶され
る。 67は、音声フレーム番号jと標準パターン番
号nとでアドレスされ、その音声フレーム番号j
において選択すべきパスを指定するパス選択信号
Pを出力するROMであり、選択すべきパス種類
をパス選択情報として各標準パターン毎に音声フ
レーム番号対応で記憶しているものである。 68はパス選択信号Pとパス信号とを比較する
コンパレータであり、69は予め記憶している最
大非類似度(所定の最大値)と非類似度メモリ6
5から読み出した非類似度との一方を出力するコ
ンバータであり、これらを用いて次の処理が実行
される。 すなわち、各音声フレーム番号jでの非類似度
の計算が終了した後、標準パターン番号nとパス
信号とでアドレスされて非類似度メモリ65から
各標準パターン毎の各パス対応の非類似度が順次
読出され、コンバータ69に入力される。ところ
でコンパレータ68はROM67から出力される
パス選択信号Pとパス信号とが一致した場合のみ
“1”を出力し、それ以外の場合は“0”を出力
するものである。パス選択信号Pとパス信号が一
致してコンパレータ68から“1”の信号が出力
されると、コンバータ69はその時点で入力され
ている非類似度すなわちパス選択信号P対応の非
類似度をそのまま出力する。これに対して、コン
パレータ68から“0”の信号が出力される時
点、すなわちパス選択信号Pと一致しない他のパ
ス信号の周期ではコンバータ69からは最大非類
似度が出力される。このようにコンバータ69か
らは各標準パターン毎に選択された所定の1つの
パス対応の非類似度が出力される。 70は最小値選択回路、71は最小非類似度メ
モリであり、音声フレーム番号jの更新の初期に
最小非類似度メモリ71には所定の最大値がセツ
トされ、当該音声フレーム番号対応の非類似度
Dn(j)(又は、D′n(j)、D″n(j))がコンバータ69
から出力される毎に、最小値選択回路70では、
その非類似度Dn(j)(又は、D′n(j)、D″n(j))と最
小非類似度メモリ71に格納されている値とを比
較し、その小さい方の値で最小非類似度メモリ7
1の内容の書き換えを行なう。 従つて当該音声フレーム番号jでの処理が終了
した時点では、入力音声の始端から当該フレーム
番号jまでの各マツチングパスに沿つたもので最
小値を与える非類似度が検出される。 72は標準パターン番号を記憶するフレームコ
ードメモリであり、最小値選択回路70が小さい
非類似度を検出する毎にそれに対応した標準パタ
ーン番号で書き換えられ、従つて当該音声フレー
ム番号jの時点での認識結果が記憶される。 75はパワーデイツプ対策として設けたもの
で、標準パターン番号を記憶するコードメモリで
あり、無音状態となつたことを示す終端候補クロ
ツクによつてフレームコードメモリ72の内容を
転送記憶するものであり、入力音声の終端を確認
した時点で、このコードメモリ75の標準パター
ン番号を入力音声のカテゴリとして認識すること
になる。 すなわち、認識対象によつては単語内にパワー
の小さいパワーデイツプ(例えばストツプのトと
プの間)が存在するため、フレーム電力が30フレ
ーム程度継続した場合に終端を確認することがで
きる。 従つて入力音声の終端を確認するまで認識動作
は継続させる必要があると共に、フレーム電力が
しきい値を下まわつた終端候補での認識結果を保
存する必要があり、この例ではコードメモリ75
によつて行なつている。 このような構成によると、終端の確認後、直ち
に認識応答を行なうことができ、また入力パター
ンメモリは1フレーム分でよい。 第1表は、発声速度の違いを克服するために、
どのようなマツチングパスを設定することが効果
的であるかについて、認識実験を行なつた結果を
示すものであり、この結果より±20%の発声速度
の違いを想定した3本のマツチングパスが、効果
的であるとの結論を得た。
語入力音声の終端を確認を待たないで、入力音声
の始端検出から認識動作を開始することを可能と
した音声認識方法に関する。 (背景技術) 音声認識方法の一形式として、音声の特徴パタ
ーンを周波数成分のフレーム時系列として表現
し、入力パターンと各標準パターンとの非類似度
を計算し、その非類似度を少なくとも含む情報に
基づいて入力音声のカテゴリを認識する方法が知
られている。 非類似度を計算する方法としては、入力パター
ンと標準パターンとのマツチングパスの設定に関
して、動的計画法によるDPマツチングと、本質
的に線形な線形マツチング法とが知られている。 後者の線形マツチング法は、簡易な方法であ
り、例えば沖研究開発118号昭和57年12月にある
如く、比較的少数の認識カテゴリを対象とする場
合には適用されている。 しかしながら、従来の線形マツチング法におい
ては、単語入力音声の終端を確認した後、認識動
作を開始しており、認識応答速度の面で問題があ
り、又動作メモリの容量も比較的大きいものを必
要とする。 又線形マツチング法においては、発生速度変動
を吸収するために種々の工夫が行なわれている
が、実時間的な非類似度計算には適用し難い。 (発明の目的) 本発明の目的は、入力音声の始端を検出して直
ちに認識を開始することによつて、認識応答速度
を高めると共に動作メモリ容量を低減することに
あり、更に発声速度変動を予想して本質的に線形
なマツチングパスを複数個設定することによつ
て、発生速度の変動を吸収することにある。 (発明の概要) 本発明の音声認識方法は、前記目的を達成する
ために、各標準音声に対応して周波数成分のフレ
ーム時系列として表現された標準パターンを記憶
しておき、 (a) 入力音声から周波数成分のフレーム時系列と
して入力パターンを抽出し、 (b) 前記入力音声の始端を検出して前記入力パタ
ーンの音声フレームの計数を開始し、少なくと
も有音状態を検出している間は音声フレーム番
号を順次更新し、 (c) 前記音声フレーム番号の更新毎に、その音声
フレーム番号に本質的に線形な関係で標準パタ
ーンの複数のフレーム番号を発生させることに
よつて前記入力パターンと前記各標準パターン
との間に複数のマツチングパスを設定し、 (d) 前記音声フレーム番号の更新毎に、前記マツ
チングパスで対応づけられたフレーム間で前記
入力パターンと前記各標準パターンとの距離を
前記各マツチングパス毎に算出し、 (e) 前記入力音声の始端から任意の音声フレーム
までの前記マツチングパスに沿つた前記距離の
累算値を非類似度として、前記音声フレーム番
号の更新毎に、直前の非類似度と当該音声フレ
ーム番号での距離とを加算して一旦記憶するこ
とによつて、前記各標準パターン毎の各マツチ
ングパスに対応した前記非類似度を更新記憶
し、 (f) 全ての前記非類似度のうちで最小値を示す非
類似度に対応した標準パターンのコードを、前
記入力音声の終端候補が検出される度毎に更新
記憶し、 (g) 前記入力音声の終端を確認した時点で、記憶
されている前記標準パターンのコードを入力音
声のカテゴリとして認識する如き構成としたも
のである。 (実施例) 以下、本発明の音声認識方法について詳細に説
明する。 本発明では、入力音声より抽出された入力パタ
ーンと予め用意された各標準パターンとの間に複
数のマツチングパス(例えば、3本)を設定し
て、入力パターンと各標準パターンとの非類似度
演算を行ない、入力音声のカテゴリの判定を行う
が、まずその手段について第1図a,bを用いて
説明する。 第1図aは、横軸に入力パターンの音声フレー
ム番号jをとり、縦軸に標準パターンのフレーム
番号をとり、20%遅く発声した場合、標準的に発
声した場合、20%速く発声した場合を想定した3
本のマツチングパス101〜103を示すもので
あり、第1図bは入力パターンの音声フレーム番
号jに対応したフレーム電力を示すものである。 第1図におけるSL(n)は、標準パターン番号
nの標準パターンSnのフレーム長さである。な
お、第1図bに示すように入力音声の始端検出
は、フレーム電力が所定のしきい値を越えること
によつて行なう。また始端検出時点以後の少なく
とも有音状態における入力パターンの入力フレー
ムは音声フレームと称し、単なる入力フレームと
は区別する。そして、その音声フレーム番号は始
端検出時点0とし、少なくとも有音状態の間はそ
のフレーム周期毎に順次更新されるものである。 次式は、音声フレーム番号jにおいて、任意の
標準パターンに対応して発生させたフレーム番号
をk、k′、k″として、その標準パターンと入力パ
ターンとの1フレーム分の距離を示す。なお、こ
こではチヤンネル番号i=1〜8とする。 パス101に対する距離 パス102に対する距離 パス103に対する距離 パス101においては入力パターンのj番目の
フレームと標準パターンのk番目のフレームの間
の距離計算を行なう。パス102においては入力
パターンのj番目のフレームと標準パターンの
k′番目のフレームの間の距離計算を行ない、パス
103においては入力パターンj番目のフレーム
と標準パターンのk″番目のフレームの間の距離
計算が行なわれる。但し、標準パターンのフレー
ム番号を示すk、k′、k″はその標準パターンの長
さSL(n)より大きくなる場合にはSL(n)に制
限される。なお、第1式〜第3式の〔 〕はガウ
ス記号である。 次に、音声フレーム番号jまでの非類似度Dn
(j)、D′n(j)、D″n(j)を示す。 パス101の非類似度 Dn(j)=dn(j)+Dn(j−1) …第4式 パス102の非類似度 D′n(j)=d′n(j)+D′n(j−1) …第5式 パス103の非類似度 D″n(j)=d″n(j)+D″n(j−1} …第6式 すなわち、それぞれのパス上での音声フレーム
番号jでの非類似度の算出は各チヤンネルごとの
距離(例えば|W(i、j)−Sn(i、k)|)を
チヤンネル分、音声フレーム番号(j−1)に対
する非類似度値(たとえばDn(j−1))を加え
ることによつて得られる。これらの演算は音声フ
レーム番号jの更新毎に行なわれる。これらの非
類似度の組が標準パターンの数(Nとする)だけ
存在する。これらの非類似度を用いてカテゴリー
判定を行なう。まず、n番目の標準パターンに対
する各パスごとの非類似度Dn(j)、D′n(j)、D″n(j)
のうち1つを選択する。この選択にあたつては音
声終端の音声フレーム番号Jに対して次式で与え
られるL、L′、L″が用いる。 これらの値L、L′、L″は音声フレームに対応
する標準パターンのフレーム数を与える式に類似
しているが、標準パターンの長さSL(n)によつ
て制限されることはない。従つて、L、L′、
L″は標準パターンの種類とは無関係である。こ
れらL、L′、L″のうち標準パターンの長さSL
(n)に最も近い値を示すパスに対応する非類似
度のみを選択する。たとえば、L′がSL(n)に最
も近いとするとパス102が対応してそれに対す
る非類似度D′n(j)が選択される。選択された非類
似度をDDnとする。これらの選択は標準パター
ンごとに行なわれる。 前記判定ステツプによつて得られた標準パター
ンごとの非類似度DDnに対して最小値を求める。
この最小値を与える標準パターンに付加されたカ
テゴリが当該音声フレーム番号Jでの認識結果と
なる。 第1図bに示すように、音声フレーム番号j1+
1においてフレーム電力がしきい値以下となり、
無音状態を検出した場合、音声フレーム番号j1で
判定した標準パターン番号を認識カテゴリ候補と
して記憶するが、認識動作は無音状態が30フレー
ム継続するまで中断しない。 第1図bでは、継続認識の結果、音声フレーム
番号j2における1つの標準パターン番号が認識カ
テゴリ候補として更新記憶されるが、音声フレー
ム番号j3で終端が確認されると、前述の音声フレ
ーム番号j2の時点で更新記憶されたその標準パタ
ーン番号を入力音声のカテゴリとして判定する。 次に本発明の一実施例について詳細に説明す
る。 第2図はこの実施例のブロツク図であり、以下
この図に沿つて説明する。 52は入力音声の始端から音声フレーム数をカ
ウントして音声フレーム番号jを出力するフレー
ムカウンタであつて始端検出時にリセツトパルス
によつてその内容は0となり以後音声フレームの
更新毎にカウントパルスによつてカウントアツプ
するものである。入力音声の始端検出は、フレー
ム電力が所定のしきい値を越えることによつて行
ない、雑音対策としては、そのしきい値を連続し
て3フレーム(但し、1フレーム長は16msec)
以上越えない場合は認識処理を初期状態へリセツ
トすることによつて行なう。 54は各音声フレーム番号jのそれぞれに対応
して、〔1/0.8j〕、j、〔1/1.2j〕なる値を記憶
し ていて、パスの種類を示すパス信号と音声フレー
ム番号jとによつてアドレスされ、標準パターン
のフレーム番号k、k′、K″に相当し得るものl
を出力するROMである。 56は、標準パターンSn毎にそのフレーム長
SL(n)を記憶していて、標準パターン番号nで
アドレスされてそれを出力するROMである。 57は両ROM54,56の出力l、SL(n)
を比較するコンパレータである。 58は両ROM54,56の出力l、SL(n)
の一方を選択するセレクタである。 そして、両ROM54,56、コンパレータ5
7、及びセレクタ58とによつて、音声フレーム
番号jと標準パターン番号nとパス信号とに対応
して、l≦SL(n)ならばROM54に記憶して
おいた標準パターンのフレーム番号をセレクタ5
8から出力し、l>SL(n)ならばフレーム長
SL(n)に等しい最終フレーム番号を出力する。
このようにして、音声フレーム番号の更新毎に各
標準パターンに対応して3個のフレーム番号k、
k′、k″が発生され、第1図aで説明した3本のマ
ツチングパスが設定される。 60は全ての標準パターンSnを記憶している
標準パターンメモリであり、標準パターンコード
(以下標準パターン番号という)nとチヤンネル
番号iとセレクタ58の出力k(又はk′、K″)と
によつてアドレスされ、各標準パターンの要素
Sn(i、k)、(又はSn(i、K′)、Sn(i、k″))
が1要素ずつ読み出されるものである。 61は1フレーム分の入力パターンメモリであ
り、入力音声の分析フレーム毎に1フレーム分の
入力パターンWjが入力され、チヤンネル番号i
によつてアドレスされ、入力パターンの要素W
(i、j)が1要素ずつ読み出されるものである。 また、62は入力パターンの各要素W(i、j)
と標準パターンの各要素例えばSn(i、k)との
距離を算出し、その絶対値を出力する距離演算
器、64は加算器、65は各標準パターン毎の各
パス対応の非類似度を格納する非類似度メモリで
あり、これらにより非類似度算出処理が行なわれ
る。すなわち、音声フレーム番号jの更新毎に各
標準パターンの各パス101〜103に対応し
て、iフレーム分の標準パターンの要素(例え
ば、Sn(i、k))が標準パターンメモリ60か
らチヤンネル番号iと同期して1要素ずつ読み出
されると共に、入力パターンの要素(例えば、W
(i、j))も入力パターンメモリ61からチヤン
ネル番号iと同期して1要素ずつ読み出され、距
離演算器62ではそれらの距離の絶対値(例え
ば、|W(i、j)−Sn(i−k)|)を算出し、次
の第8式で示すようにその算出結果と非類似メモ
リ65に格納されている非類似度とを加算器64
で加算して、その加算結果を再び非類似度メモリ
65に格納する処理をチヤンネル数分繰り返す。 (メモリ65)←(メモリ65) +|W(i、j)−Sn(i、k)| …第8式 このようにして各標準パターン毎の各マツチン
グパスに対応した非類似度を算出する。この結
果、非類似度メモリ65には、音声フレーム番号
jに対応した、各標準パターン毎の各パス対応の
非類似度Dn(j)、D′n(j)、D″n(j)が更新記憶され
る。 67は、音声フレーム番号jと標準パターン番
号nとでアドレスされ、その音声フレーム番号j
において選択すべきパスを指定するパス選択信号
Pを出力するROMであり、選択すべきパス種類
をパス選択情報として各標準パターン毎に音声フ
レーム番号対応で記憶しているものである。 68はパス選択信号Pとパス信号とを比較する
コンパレータであり、69は予め記憶している最
大非類似度(所定の最大値)と非類似度メモリ6
5から読み出した非類似度との一方を出力するコ
ンバータであり、これらを用いて次の処理が実行
される。 すなわち、各音声フレーム番号jでの非類似度
の計算が終了した後、標準パターン番号nとパス
信号とでアドレスされて非類似度メモリ65から
各標準パターン毎の各パス対応の非類似度が順次
読出され、コンバータ69に入力される。ところ
でコンパレータ68はROM67から出力される
パス選択信号Pとパス信号とが一致した場合のみ
“1”を出力し、それ以外の場合は“0”を出力
するものである。パス選択信号Pとパス信号が一
致してコンパレータ68から“1”の信号が出力
されると、コンバータ69はその時点で入力され
ている非類似度すなわちパス選択信号P対応の非
類似度をそのまま出力する。これに対して、コン
パレータ68から“0”の信号が出力される時
点、すなわちパス選択信号Pと一致しない他のパ
ス信号の周期ではコンバータ69からは最大非類
似度が出力される。このようにコンバータ69か
らは各標準パターン毎に選択された所定の1つの
パス対応の非類似度が出力される。 70は最小値選択回路、71は最小非類似度メ
モリであり、音声フレーム番号jの更新の初期に
最小非類似度メモリ71には所定の最大値がセツ
トされ、当該音声フレーム番号対応の非類似度
Dn(j)(又は、D′n(j)、D″n(j))がコンバータ69
から出力される毎に、最小値選択回路70では、
その非類似度Dn(j)(又は、D′n(j)、D″n(j))と最
小非類似度メモリ71に格納されている値とを比
較し、その小さい方の値で最小非類似度メモリ7
1の内容の書き換えを行なう。 従つて当該音声フレーム番号jでの処理が終了
した時点では、入力音声の始端から当該フレーム
番号jまでの各マツチングパスに沿つたもので最
小値を与える非類似度が検出される。 72は標準パターン番号を記憶するフレームコ
ードメモリであり、最小値選択回路70が小さい
非類似度を検出する毎にそれに対応した標準パタ
ーン番号で書き換えられ、従つて当該音声フレー
ム番号jの時点での認識結果が記憶される。 75はパワーデイツプ対策として設けたもの
で、標準パターン番号を記憶するコードメモリで
あり、無音状態となつたことを示す終端候補クロ
ツクによつてフレームコードメモリ72の内容を
転送記憶するものであり、入力音声の終端を確認
した時点で、このコードメモリ75の標準パター
ン番号を入力音声のカテゴリとして認識すること
になる。 すなわち、認識対象によつては単語内にパワー
の小さいパワーデイツプ(例えばストツプのトと
プの間)が存在するため、フレーム電力が30フレ
ーム程度継続した場合に終端を確認することがで
きる。 従つて入力音声の終端を確認するまで認識動作
は継続させる必要があると共に、フレーム電力が
しきい値を下まわつた終端候補での認識結果を保
存する必要があり、この例ではコードメモリ75
によつて行なつている。 このような構成によると、終端の確認後、直ち
に認識応答を行なうことができ、また入力パター
ンメモリは1フレーム分でよい。 第1表は、発声速度の違いを克服するために、
どのようなマツチングパスを設定することが効果
的であるかについて、認識実験を行なつた結果を
示すものであり、この結果より±20%の発声速度
の違いを想定した3本のマツチングパスが、効果
的であるとの結論を得た。
【表】
評価用音声としてテープレコーダにマイクロホ
ンによつて入力した男性20名、女性20名の音声を
録音した。今回の認識実験に用いた語は、第2表
に示される8語である。
ンによつて入力した男性20名、女性20名の音声を
録音した。今回の認識実験に用いた語は、第2表
に示される8語である。
【表】
なお、上記第1表の認識条件として、スペクト
ル正規化は周波数分析結果を対数変換し、各フレ
ームのフレーム平均電力、低域平均電力、高域平
均電力を用いて行つたものである。 (発明の効果) 以上説明したように、本発明では、音声フレー
ム番号の更新毎に、1フレーム対応の距離を計算
し、前回の音声フレーム番号での非類似度にそれ
ぞれを加算することによつて音声フレーム番号の
更新毎に非類似度を計算しているため、終端確認
後、すぐ認識結果が得られる利点があり、入力パ
ターンメモリその他の動作メモリも比較的小容量
で済む利点がある。 また発声速度を予測して各標準パターン毎に複
数の線形バスを設定しているために、比較的簡易
な構成で発声速度変動を吸収できる利点がある。
ル正規化は周波数分析結果を対数変換し、各フレ
ームのフレーム平均電力、低域平均電力、高域平
均電力を用いて行つたものである。 (発明の効果) 以上説明したように、本発明では、音声フレー
ム番号の更新毎に、1フレーム対応の距離を計算
し、前回の音声フレーム番号での非類似度にそれ
ぞれを加算することによつて音声フレーム番号の
更新毎に非類似度を計算しているため、終端確認
後、すぐ認識結果が得られる利点があり、入力パ
ターンメモリその他の動作メモリも比較的小容量
で済む利点がある。 また発声速度を予測して各標準パターン毎に複
数の線形バスを設定しているために、比較的簡易
な構成で発声速度変動を吸収できる利点がある。
第1図aは本発明に係る3本のマツチングパス
を示した図、第1図bは入力パターンのフレーム
電力を示した図、第2図は本発明の1実施例を示
すブロツク図である。 52……フレームカウンタ、54……標準パタ
ーンのフレーム番号に相当するものを音声フレー
ム番号対応で記憶しているROM、56……標準
パターンのフレーム長を記憶しているROM、5
7……コンパレータ、58……セレクタ、60…
…標準パターンメモリ、61……入力パターンメ
モリ、62……距離演算器、64……加算器、6
5……非類似度メモリ、67……各標準パターン
のパス選択情報を音声フレーム番号対応で記憶し
ているROM、68……コンパレータ、69……
コンバータ、70……最小値選択回路、71……
最小非類似度メモリ、72……フレームコードメ
モリ、76……コードメモリ。
を示した図、第1図bは入力パターンのフレーム
電力を示した図、第2図は本発明の1実施例を示
すブロツク図である。 52……フレームカウンタ、54……標準パタ
ーンのフレーム番号に相当するものを音声フレー
ム番号対応で記憶しているROM、56……標準
パターンのフレーム長を記憶しているROM、5
7……コンパレータ、58……セレクタ、60…
…標準パターンメモリ、61……入力パターンメ
モリ、62……距離演算器、64……加算器、6
5……非類似度メモリ、67……各標準パターン
のパス選択情報を音声フレーム番号対応で記憶し
ているROM、68……コンパレータ、69……
コンバータ、70……最小値選択回路、71……
最小非類似度メモリ、72……フレームコードメ
モリ、76……コードメモリ。
Claims (1)
- 【特許請求の範囲】 1 各標準音声に対応して周波数成分のフレーム
時系列として表現された標準パターンを記憶して
おき、 (a) 入力音声から周波数成分のフレーム時系列と
して入力パターンを抽出し、 (b) 前記入力音声の始端を検出して前記入力パタ
ーンの音声フレームの計数を開始し、少なくと
も有音状態を検出している間は音声フレーム番
号を順次更新し、 (c) 前記音声フレーム番号の更新毎に、その音声
フレーム番号に本質的に線形な関係で標準パタ
ーンの複数のフレーム番号を発生させることに
よつて前記入力パターンと前記各標準パターン
との間に複数のマツチングパスを設定し、 (d) 前記音声フレーム番号の更新毎に、前記マツ
チングパスで対応づけられたフレーム間で前記
入力パターンと前記各標準パターンとの距離を
前記各マツチングパス毎に算出し、 (e) 前記入力音声の始端から任意の音声フレーム
までの前記マツチングパスに沿つた前記距離の
累算値を非類似度として、前記音声フレーム番
号の更新毎に、直前の非類似度と当該音声フレ
ーム番号での距離とを加算して一旦記憶するこ
とによつて、前記各標準パターン毎の各マツチ
ングパスに対応した前記非類似度を更新記憶
し、 (f) 全ての前記非類似度のうちで最小値を示す非
類似度に対応した標準パターンのコードを、前
記入力音声の終端候補が検出される度毎に更新
記憶し、 (g) 前記入力音声の終端を確認した時点で、記憶
されている前記標準パターンのコードを入力音
声のカテゴリとして認識することを特徴とした
音声認識方法。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59057280A JPS60201395A (ja) | 1984-03-27 | 1984-03-27 | 音声認識方法 |
| US06/716,154 US4868879A (en) | 1984-03-27 | 1985-03-26 | Apparatus and method for recognizing speech |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59057280A JPS60201395A (ja) | 1984-03-27 | 1984-03-27 | 音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS60201395A JPS60201395A (ja) | 1985-10-11 |
| JPH0313599B2 true JPH0313599B2 (ja) | 1991-02-22 |
Family
ID=13051118
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59057280A Granted JPS60201395A (ja) | 1984-03-27 | 1984-03-27 | 音声認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60201395A (ja) |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS576900A (en) * | 1980-06-16 | 1982-01-13 | Nippon Telegraph & Telephone | Voice pattern recognition system |
-
1984
- 1984-03-27 JP JP59057280A patent/JPS60201395A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS60201395A (ja) | 1985-10-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5621849A (en) | Voice recognizing method and apparatus | |
| US5732190A (en) | Number-of recognition candidates determining system in speech recognizing device | |
| US4868879A (en) | Apparatus and method for recognizing speech | |
| JPS6123560B2 (ja) | ||
| US4790017A (en) | Speech processing feature generation arrangement | |
| JPH0313599B2 (ja) | ||
| JP3148322B2 (ja) | 音声認識装置 | |
| US20240144934A1 (en) | Voice Data Generation Method, Voice Data Generation Apparatus And Computer-Readable Recording Medium | |
| JP2001083978A (ja) | 音声認識装置 | |
| JPS6131880B2 (ja) | ||
| JPH0313600B2 (ja) | ||
| JPH0568716B2 (ja) | ||
| JPS6129897A (ja) | パタ−ン比較装置 | |
| JPH0568717B2 (ja) | ||
| JPS61133994A (ja) | 音声認識方法 | |
| JPH0262879B2 (ja) | ||
| JPS62144200A (ja) | 連続音声認識装置 | |
| JPS6344699A (ja) | 音声認識装置 | |
| JPH0567037B2 (ja) | ||
| JPH0449954B2 (ja) | ||
| JPS61170799A (ja) | 音声認識方法 | |
| JPS6312000A (ja) | 音声認識装置 | |
| JPS5969798A (ja) | ピツチ抽出方法 | |
| JPS63173100A (ja) | キ−ワ−ド抽出装置 | |
| JPS61235899A (ja) | 音声認識装置 |