JPH0313599B2

JPH0313599B2 -

Info

Publication number: JPH0313599B2
Application number: JP59057280A
Authority: JP
Inventors: Yukio Tabei; Makoto Morito
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1984-03-27
Filing date: 1984-03-27
Publication date: 1991-02-22
Also published as: JPS60201395A

Description

【発明の詳細な説明】

（技術分野）本発明は、音声認識方法に関し、具体的には単
語入力音声の終端を確認を待たないで、入力音声
の始端検出から認識動作を開始することを可能と
した音声認識方法に関する。（背景技術）音声認識方法の一形式として、音声の特徴パタ
ーンを周波数成分のフレーム時系列として表現
し、入力パターンと各標準パターンとの非類似度
を計算し、その非類似度を少なくとも含む情報に
基づいて入力音声のカテゴリを認識する方法が知
られている。非類似度を計算する方法としては、入力パター
ンと標準パターンとのマツチングパスの設定に関
して、動的計画法によるDPマツチングと、本質
的に線形な線形マツチング法とが知られている。後者の線形マツチング法は、簡易な方法であ
り、例えば沖研究開発118号昭和57年12月にある
如く、比較的少数の認識カテゴリを対象とする場
合には適用されている。しかしながら、従来の線形マツチング法におい
ては、単語入力音声の終端を確認した後、認識動
作を開始しており、認識応答速度の面で問題があ
り、又動作メモリの容量も比較的大きいものを必
要とする。又線形マツチング法においては、発生速度変動
を吸収するために種々の工夫が行なわれている
が、実時間的な非類似度計算には適用し難い。（発明の目的）本発明の目的は、入力音声の始端を検出して直
ちに認識を開始することによつて、認識応答速度
を高めると共に動作メモリ容量を低減することに
あり、更に発声速度変動を予想して本質的に線形
なマツチングパスを複数個設定することによつ
て、発生速度の変動を吸収することにある。（発明の概要）本発明の音声認識方法は、前記目的を達成する
ために、各標準音声に対応して周波数成分のフレ
ーム時系列として表現された標準パターンを記憶
しておき、 (a) 入力音声から周波数成分のフレーム時系列と
して入力パターンを抽出し、 (b) 前記入力音声の始端を検出して前記入力パタ
ーンの音声フレームの計数を開始し、少なくと
も有音状態を検出している間は音声フレーム番
号を順次更新し、 (c) 前記音声フレーム番号の更新毎に、その音声
フレーム番号に本質的に線形な関係で標準パタ
ーンの複数のフレーム番号を発生させることに
よつて前記入力パターンと前記各標準パターン
との間に複数のマツチングパスを設定し、 (d) 前記音声フレーム番号の更新毎に、前記マツ
チングパスで対応づけられたフレーム間で前記
入力パターンと前記各標準パターンとの距離を
前記各マツチングパス毎に算出し、 (e) 前記入力音声の始端から任意の音声フレーム
までの前記マツチングパスに沿つた前記距離の
累算値を非類似度として、前記音声フレーム番
号の更新毎に、直前の非類似度と当該音声フレ
ーム番号での距離とを加算して一旦記憶するこ
とによつて、前記各標準パターン毎の各マツチ
ングパスに対応した前記非類似度を更新記憶
し、 (f) 全ての前記非類似度のうちで最小値を示す非
類似度に対応した標準パターンのコードを、前
記入力音声の終端候補が検出される度毎に更新
記憶し、 (g) 前記入力音声の終端を確認した時点で、記憶
されている前記標準パターンのコードを入力音
声のカテゴリとして認識する如き構成としたも
のである。（実施例）以下、本発明の音声認識方法について詳細に説
明する。本発明では、入力音声より抽出された入力パタ
ーンと予め用意された各標準パターンとの間に複
数のマツチングパス（例えば、３本）を設定し
て、入力パターンと各標準パターンとの非類似度
演算を行ない、入力音声のカテゴリの判定を行う
が、まずその手段について第１図ａ，ｂを用いて
説明する。第１図ａは、横軸に入力パターンの音声フレー
ム番号ｊをとり、縦軸に標準パターンのフレーム
番号をとり、20％遅く発声した場合、標準的に発
声した場合、20％速く発声した場合を想定した３
本のマツチングパス１０１〜１０３を示すもので
あり、第１図ｂは入力パターンの音声フレーム番
号ｊに対応したフレーム電力を示すものである。第１図におけるSL（ｎ）は、標準パターン番号
ｎの標準パターンSnのフレーム長さである。な
お、第１図ｂに示すように入力音声の始端検出
は、フレーム電力が所定のしきい値を越えること
によつて行なう。また始端検出時点以後の少なく
とも有音状態における入力パターンの入力フレー
ムは音声フレームと称し、単なる入力フレームと
は区別する。そして、その音声フレーム番号は始
端検出時点０とし、少なくとも有音状態の間はそ
のフレーム周期毎に順次更新されるものである。次式は、音声フレーム番号ｊにおいて、任意の
標準パターンに対応して発生させたフレーム番号
をｋ、k′、k″として、その標準パターンと入力パ
ターンとの１フレーム分の距離を示す。なお、こ
こではチヤンネル番号ｉ＝１〜８とする。パス１０１に対する距離パス１０２に対する距離パス１０３に対する距離パス１０１においては入力パターンのｊ番目の
フレームと標準パターンのｋ番目のフレームの間
の距離計算を行なう。パス１０２においては入力
パターンのｊ番目のフレームと標準パターンの
k′番目のフレームの間の距離計算を行ない、パス
１０３においては入力パターンｊ番目のフレーム
と標準パターンのk″番目のフレームの間の距離
計算が行なわれる。但し、標準パターンのフレー
ム番号を示すｋ、k′、k″はその標準パターンの長
さSL（ｎ）より大きくなる場合にはSL（ｎ）に制
限される。なお、第１式〜第３式の〔〕はガウ
ス記号である。次に、音声フレーム番号ｊまでの非類似度Dn
(j)、D′n(j)、D″n(j)を示す。パス１０１の非類似度 Dn(j)＝dn(j)＋Dn（ｊ−１） …第４式パス１０２の非類似度 D′n(j)＝d′n(j)＋D′n（ｊ−１） …第５式パス１０３の非類似度 D″n(j)＝d″n(j)＋D″n（ｊ−１｝ …第６式すなわち、それぞれのパス上での音声フレーム
番号ｊでの非類似度の算出は各チヤンネルごとの
距離（例えば｜Ｗ（ｉ、ｊ）−Sn（ｉ、ｋ）｜）を
チヤンネル分、音声フレーム番号（ｊ−１）に対
する非類似度値（たとえばDn（ｊ−１））を加え
ることによつて得られる。これらの演算は音声フ
レーム番号ｊの更新毎に行なわれる。これらの非
類似度の組が標準パターンの数（Ｎとする）だけ
存在する。これらの非類似度を用いてカテゴリー
判定を行なう。まず、ｎ番目の標準パターンに対
する各パスごとの非類似度Dn(j)、D′n(j)、D″n(j)
のうち１つを選択する。この選択にあたつては音
声終端の音声フレーム番号Ｊに対して次式で与え
られるＬ、L′、L″が用いる。これらの値Ｌ、L′、L″は音声フレームに対応
する標準パターンのフレーム数を与える式に類似
しているが、標準パターンの長さSL（ｎ）によつ
て制限されることはない。従つて、Ｌ、L′、
L″は標準パターンの種類とは無関係である。こ
れらＬ、L′、L″のうち標準パターンの長さSL
（ｎ）に最も近い値を示すパスに対応する非類似
度のみを選択する。たとえば、L′がSL（ｎ）に最
も近いとするとパス１０２が対応してそれに対す
る非類似度D′n(j)が選択される。選択された非類
似度をDDnとする。これらの選択は標準パター
ンごとに行なわれる。前記判定ステツプによつて得られた標準パター
ンごとの非類似度DDnに対して最小値を求める。
この最小値を与える標準パターンに付加されたカ
テゴリが当該音声フレーム番号Ｊでの認識結果と
なる。第１図ｂに示すように、音声フレーム番号j₁＋
１においてフレーム電力がしきい値以下となり、
無音状態を検出した場合、音声フレーム番号j₁で
判定した標準パターン番号を認識カテゴリ候補と
して記憶するが、認識動作は無音状態が30フレー
ム継続するまで中断しない。第１図ｂでは、継続認識の結果、音声フレーム
番号j₂における１つの標準パターン番号が認識カ
テゴリ候補として更新記憶されるが、音声フレー
ム番号j₃で終端が確認されると、前述の音声フレ
ーム番号j₂の時点で更新記憶されたその標準パタ
ーン番号を入力音声のカテゴリとして判定する。次に本発明の一実施例について詳細に説明す
る。第２図はこの実施例のブロツク図であり、以下
この図に沿つて説明する。５２は入力音声の始端から音声フレーム数をカ
ウントして音声フレーム番号ｊを出力するフレー
ムカウンタであつて始端検出時にリセツトパルス
によつてその内容は０となり以後音声フレームの
更新毎にカウントパルスによつてカウントアツプ
するものである。入力音声の始端検出は、フレー
ム電力が所定のしきい値を越えることによつて行
ない、雑音対策としては、そのしきい値を連続し
て３フレーム（但し、１フレーム長は16ｍsec）
以上越えない場合は認識処理を初期状態へリセツ
トすることによつて行なう。５４は各音声フレーム番号ｊのそれぞれに対応
して、〔１／0.8ｊ〕、ｊ、〔１／1.2ｊ〕なる値を記憶
していて、パスの種類を示すパス信号と音声フレー
ム番号ｊとによつてアドレスされ、標準パターン
のフレーム番号ｋ、k′、K″に相当し得るものｌ
を出力するROMである。５６は、標準パターンSn毎にそのフレーム長
SL（ｎ）を記憶していて、標準パターン番号ｎで
アドレスされてそれを出力するROMである。５７は両ROM５４，５６の出力ｌ、SL（ｎ）
を比較するコンパレータである。５８は両ROM５４，５６の出力ｌ、SL（ｎ）
の一方を選択するセレクタである。そして、両ROM５４，５６、コンパレータ５
７、及びセレクタ５８とによつて、音声フレーム
番号ｊと標準パターン番号ｎとパス信号とに対応
して、ｌ≦SL（ｎ）ならばROM５４に記憶して
おいた標準パターンのフレーム番号をセレクタ５
８から出力し、ｌ＞SL（ｎ）ならばフレーム長
SL（ｎ）に等しい最終フレーム番号を出力する。
このようにして、音声フレーム番号の更新毎に各
標準パターンに対応して３個のフレーム番号ｋ、
k′、k″が発生され、第１図ａで説明した３本のマ
ツチングパスが設定される。６０は全ての標準パターンSnを記憶している
標準パターンメモリであり、標準パターンコード
（以下標準パターン番号という）ｎとチヤンネル
番号ｉとセレクタ５８の出力ｋ（又はk′、K″）と
によつてアドレスされ、各標準パターンの要素
Sn（ｉ、ｋ）、（又はSn（ｉ、K′）、Sn（ｉ、k″））
が１要素ずつ読み出されるものである。６１は１フレーム分の入力パターンメモリであ
り、入力音声の分析フレーム毎に１フレーム分の
入力パターンWjが入力され、チヤンネル番号ｉ
によつてアドレスされ、入力パターンの要素Ｗ
（ｉ、ｊ）が１要素ずつ読み出されるものである。また、６２は入力パターンの各要素Ｗ（ｉ、ｊ）
と標準パターンの各要素例えばSn（ｉ、ｋ）との
距離を算出し、その絶対値を出力する距離演算
器、６４は加算器、６５は各標準パターン毎の各
パス対応の非類似度を格納する非類似度メモリで
あり、これらにより非類似度算出処理が行なわれ
る。すなわち、音声フレーム番号ｊの更新毎に各
標準パターンの各パス１０１〜１０３に対応し
て、ｉフレーム分の標準パターンの要素（例え
ば、Sn（ｉ、ｋ））が標準パターンメモリ６０か
らチヤンネル番号ｉと同期して１要素ずつ読み出
されると共に、入力パターンの要素（例えば、Ｗ
（ｉ、ｊ））も入力パターンメモリ６１からチヤン
ネル番号ｉと同期して１要素ずつ読み出され、距
離演算器６２ではそれらの距離の絶対値（例え
ば、｜Ｗ（ｉ、ｊ）−Sn（ｉ−ｋ）｜）を算出し、次
の第８式で示すようにその算出結果と非類似メモ
リ６５に格納されている非類似度とを加算器６４
で加算して、その加算結果を再び非類似度メモリ
６５に格納する処理をチヤンネル数分繰り返す。（メモリ65）←（メモリ65）＋｜Ｗ（ｉ、ｊ）−Sn（ｉ、ｋ）｜ …第８式このようにして各標準パターン毎の各マツチン
グパスに対応した非類似度を算出する。この結
果、非類似度メモリ６５には、音声フレーム番号
ｊに対応した、各標準パターン毎の各パス対応の
非類似度Dn(j)、D′n(j)、D″n(j)が更新記憶され
る。６７は、音声フレーム番号ｊと標準パターン番
号ｎとでアドレスされ、その音声フレーム番号ｊ
において選択すべきパスを指定するパス選択信号
Ｐを出力するROMであり、選択すべきパス種類
をパス選択情報として各標準パターン毎に音声フ
レーム番号対応で記憶しているものである。６８はパス選択信号Ｐとパス信号とを比較する
コンパレータであり、６９は予め記憶している最
大非類似度（所定の最大値）と非類似度メモリ６
５から読み出した非類似度との一方を出力するコ
ンバータであり、これらを用いて次の処理が実行
される。すなわち、各音声フレーム番号ｊでの非類似度
の計算が終了した後、標準パターン番号ｎとパス
信号とでアドレスされて非類似度メモリ６５から
各標準パターン毎の各パス対応の非類似度が順次
読出され、コンバータ６９に入力される。ところ
でコンパレータ６８はROM６７から出力される
パス選択信号Ｐとパス信号とが一致した場合のみ
“１”を出力し、それ以外の場合は“０”を出力
するものである。パス選択信号Ｐとパス信号が一
致してコンパレータ６８から“１”の信号が出力
されると、コンバータ６９はその時点で入力され
ている非類似度すなわちパス選択信号Ｐ対応の非
類似度をそのまま出力する。これに対して、コン
パレータ６８から“０”の信号が出力される時
点、すなわちパス選択信号Ｐと一致しない他のパ
ス信号の周期ではコンバータ６９からは最大非類
似度が出力される。このようにコンバータ６９か
らは各標準パターン毎に選択された所定の１つの
パス対応の非類似度が出力される。７０は最小値選択回路、７１は最小非類似度メ
モリであり、音声フレーム番号ｊの更新の初期に
最小非類似度メモリ７１には所定の最大値がセツ
トされ、当該音声フレーム番号対応の非類似度
Dn(j)（又は、D′n(j)、D″n(j)）がコンバータ６９
から出力される毎に、最小値選択回路７０では、
その非類似度Dn(j)（又は、D′n(j)、D″n(j)）と最
小非類似度メモリ７１に格納されている値とを比
較し、その小さい方の値で最小非類似度メモリ７
１の内容の書き換えを行なう。従つて当該音声フレーム番号ｊでの処理が終了
した時点では、入力音声の始端から当該フレーム
番号ｊまでの各マツチングパスに沿つたもので最
小値を与える非類似度が検出される。７２は標準パターン番号を記憶するフレームコ
ードメモリであり、最小値選択回路７０が小さい
非類似度を検出する毎にそれに対応した標準パタ
ーン番号で書き換えられ、従つて当該音声フレー
ム番号ｊの時点での認識結果が記憶される。７５はパワーデイツプ対策として設けたもの
で、標準パターン番号を記憶するコードメモリで
あり、無音状態となつたことを示す終端候補クロ
ツクによつてフレームコードメモリ７２の内容を
転送記憶するものであり、入力音声の終端を確認
した時点で、このコードメモリ７５の標準パター
ン番号を入力音声のカテゴリとして認識すること
になる。すなわち、認識対象によつては単語内にパワー
の小さいパワーデイツプ（例えばストツプのトと
プの間）が存在するため、フレーム電力が30フレ
ーム程度継続した場合に終端を確認することがで
きる。従つて入力音声の終端を確認するまで認識動作
は継続させる必要があると共に、フレーム電力が
しきい値を下まわつた終端候補での認識結果を保
存する必要があり、この例ではコードメモリ７５
によつて行なつている。このような構成によると、終端の確認後、直ち
に認識応答を行なうことができ、また入力パター
ンメモリは１フレーム分でよい。第１表は、発声速度の違いを克服するために、
どのようなマツチングパスを設定することが効果
的であるかについて、認識実験を行なつた結果を
示すものであり、この結果より±20％の発声速度
の違いを想定した３本のマツチングパスが、効果
的であるとの結論を得た。

【表】評価用音声としてテープレコーダにマイクロホ
ンによつて入力した男性20名、女性20名の音声を
録音した。今回の認識実験に用いた語は、第２表
に示される８語である。

【表】なお、上記第１表の認識条件として、スペクト
ル正規化は周波数分析結果を対数変換し、各フレ
ームのフレーム平均電力、低域平均電力、高域平
均電力を用いて行つたものである。（発明の効果）以上説明したように、本発明では、音声フレー
ム番号の更新毎に、１フレーム対応の距離を計算
し、前回の音声フレーム番号での非類似度にそれ
ぞれを加算することによつて音声フレーム番号の
更新毎に非類似度を計算しているため、終端確認
後、すぐ認識結果が得られる利点があり、入力パ
ターンメモリその他の動作メモリも比較的小容量
で済む利点がある。また発声速度を予測して各標準パターン毎に複
数の線形バスを設定しているために、比較的簡易
な構成で発声速度変動を吸収できる利点がある。

【図面の簡単な説明】

第１図ａは本発明に係る３本のマツチングパス
を示した図、第１図ｂは入力パターンのフレーム
電力を示した図、第２図は本発明の１実施例を示
すブロツク図である。５２……フレームカウンタ、５４……標準パタ
ーンのフレーム番号に相当するものを音声フレー
ム番号対応で記憶しているROM、５６……標準
パターンのフレーム長を記憶しているROM、５
７……コンパレータ、５８……セレクタ、６０…
…標準パターンメモリ、６１……入力パターンメ
モリ、６２……距離演算器、６４……加算器、６
５……非類似度メモリ、６７……各標準パターン
のパス選択情報を音声フレーム番号対応で記憶し
ているROM、６８……コンパレータ、６９……
コンバータ、７０……最小値選択回路、７１……
最小非類似度メモリ、７２……フレームコードメ
モリ、７６……コードメモリ。

Claims

【特許請求の範囲】１各標準音声に対応して周波数成分のフレーム
時系列として表現された標準パターンを記憶して
おき、 (a) 入力音声から周波数成分のフレーム時系列と
して入力パターンを抽出し、 (b) 前記入力音声の始端を検出して前記入力パタ
ーンの音声フレームの計数を開始し、少なくと
も有音状態を検出している間は音声フレーム番
号を順次更新し、 (c) 前記音声フレーム番号の更新毎に、その音声
フレーム番号に本質的に線形な関係で標準パタ
ーンの複数のフレーム番号を発生させることに
よつて前記入力パターンと前記各標準パターン
との間に複数のマツチングパスを設定し、 (d) 前記音声フレーム番号の更新毎に、前記マツ
チングパスで対応づけられたフレーム間で前記
入力パターンと前記各標準パターンとの距離を
前記各マツチングパス毎に算出し、 (e) 前記入力音声の始端から任意の音声フレーム
までの前記マツチングパスに沿つた前記距離の
累算値を非類似度として、前記音声フレーム番
号の更新毎に、直前の非類似度と当該音声フレ
ーム番号での距離とを加算して一旦記憶するこ
とによつて、前記各標準パターン毎の各マツチ
ングパスに対応した前記非類似度を更新記憶
し、 (f) 全ての前記非類似度のうちで最小値を示す非
類似度に対応した標準パターンのコードを、前
記入力音声の終端候補が検出される度毎に更新
記憶し、 (g) 前記入力音声の終端を確認した時点で、記憶
されている前記標準パターンのコードを入力音
声のカテゴリとして認識することを特徴とした
音声認識方法。