JPS6130280B2

JPS6130280B2 -

Info

Publication number: JPS6130280B2
Application number: JP54142772A
Authority: JP
Inventors: Isamu Nose; Yorio Iio; Juhei Izawa
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1979-11-06
Filing date: 1979-11-06
Publication date: 1986-07-12
Also published as: JPS5666900A

Description

【発明の詳細な説明】

本発明は特定話者の音声認識方法に関するもの
である。音声識別装置として現在製品化が一番進
んでいるのは特定話者の単語音声認識装置といわ
れているものである。これはあらかじめ話者が認
識対象の全単語を各々１回から10回程度発声する
ことにより認識装置内にその話者の単語に関する
特徴を記憶させ、しかるのち認識が行われる。こ
れは音声パターンの個人差による変動（主として
周波数構造に関連する）が認識を困難にしている
大きな要因の一つであるが、これをかい避できる
ためである。この明細書では、話者があらかじめ
発声しておく単語を登録語、登録語における特徴
の個々の要素を登録特徴要素、各登録語に関する
登録特徴要素の集合を登録特徴セツトといい、こ
られに対して新らたに発声した認識すべき対象と
しての単語に関するものを、夫々被認識語、被認
識特徴要素及び被認識特徴セツトという。次に、
この特定話者の認識装置の一例を第１図に示す。第１図において、１はマイクロフオン、２はプ
リアンプ、３は帯域フイルタ群、４は整流兼ロー
パスフイルタ群、５はマルチプレクサ、６はAD
変換器、７は制御部、８はマルチプレクサの切換
え信号線、９はAD変換器への制御線、１０及び
１１は制御部７と計算機１２との間の応答信号
線、１２はマイクロコンピユータ及びその周辺
部、１３は識別結果出力線の如く構成されてい
る。その動作はまずマイクロフオン１で電気信号
に変換された音声信号はプリアンプ２で増幅さ
れ、帯域フイルタ群３によりスペクトルに分解さ
れる。一般的には、この帯域フイルタ群３の構成
は音声帯域150Hz位から5kHz位迄を３〜15分割す
るようなフイルタ構成である。帯域フイルタ群３
の出力は整流兼ローパスフイルタ群４を通して時
間的に平均化されマルチプレクサ５の入力信号と
なる。切換信号線８で選択されたマルチプレクサ
５の出力信号は制御線９で起動された周期でAD
変換器６によりアナログ信号からデイジタル信号
に変換され応答信号線１０，１１で制御されて計
算機１２に転送される。この転送周期は音声デー
タのサンプリング周期となり制御部７でAD変換
のタイミングを制御している。一般的には、帯域
フイルタ群３の全出力を数ｍｓから数十ｍｓの周
期でサンプリングしているものが多い。音声認識装置では殆んどの装置がAD変換器迄
をハードウエア化してこれ以降の処理はミニコン
ピユータあるいはマイクロコンピユータで実行し
ている。これはデータの入力速度が比較的遅いた
め、計算機処理に不向きな所（アナログ信号処理
部）以外は専用のハードウエアを用いないでも処
理が可能であり、その方が小型化、低価格化等を
実現しやすいからである。第２図は計算機処理部の基本構成を示すフロー
チヤートである。１４は音声データ入力処理、１
５は音声切出し処理、１６は特徴抽出処理、１７
は訓練データか被認識データかの判断処理、１８
は登録処理、１９は識別処理、２０は結果出力処
理の如く構成されており以下動作について説明す
る。音声データ入力処理１４は音声データを計算
機内部の記憶部にとり入れる作業を行うもので、
音声データの入力指令が何らかの形で与えられる
と制御部７と同期をはかり、AD変換器６の出力
データ（以下サンプルデータと称す）をメモリに
格納する。一般的には単語認識装置では約1.5秒
間の発声音をとり入れている。サンプルデータは
発声音の前後の余分なデータも含んでいるので次
に発声区間を検出するのが音声切出し処理１５で
ある。この処理としては話者が高雑音下の環境に
いない限りは、発声前後のサンプルデータ値は発
声時に比較して小さい値を示すのである闘値を設
けて比較するのが簡単な方法である。検出された音声区間のサンプルデータはこのま
まではデータ量が多く記憶容量の大きい装置が必
要となる。例えば発声時間を1.5秒、サンプル周
期を10ｍｓ、AD変換８ビツトとすると１語につ
き150バイト×チヤネル数のメモリが識別対象語
数だけあらかじめ格納するのに必要となるので、
サンプルデータを何らかの形に変形してデータ数
を少くして保存するのが多い。この作業を行うの
が特徴抽出処理１６である。特徴抽出として簡単
な方法はサンプルデータの線形圧縮方法である。
この方法では、切出された音声区間を等分割（普
通は16〜32分割が多い）して、各分割区間毎に各
チヤネルデータに対し平均値を求め、この平均値
を特徴として用いる。但し声の大きさが同一話者
であつても変化するので、各サンプルデータ毎に
あるいは特徴レベルにおいてフイルタ出力加算値
等のデータで大きさの正規化を行う方が良い。こうして得られる特徴を全ての識別対象である
登録語に対して求め、認識装置内（本例では計算
機メモリ内）に格納するのが特徴登録処理１８で
ある。登録が完了すると識別処理１９が実行され
るよう判断処理１７を実行する。識別処理１９は
要するに、同一話者の発声に基づいて予め保存さ
せておいた各登録語の登録特徴セツトと新らたに
発声した被認識語の被認識特徴セツトとの非類似
度を一定の法則に従つて測定するものであり、結
果出力処理２０において最小非類似度の登録語
（コード等）を外部に出力し、又最小非類似度が
一定の条件を満足しない場合はリジエクト出力を
出力する。なお、識別処理を類似度測定で定義す
るものもあるが、本質的には全く同一である。以
下式により識別処理１９における計算例を説明す
る。保存されている登録語数をＮ個とする。登録
特徴要素をｆ_i（ｌ、ｍ）、被認識特徴要素をｇ
（ｌ、ｍ）とする。但し添字ｉは登録語に付され
た番号で、この場合は１からＮ迄の値である。ｌ
は各フイルム出力に対応する番号で１からフイル
タ数Ｌ迄の値をとる。ｍは時間分割領域毎に付し
た番号で１から分割数Ｍ迄の値をとる。非類似度として失点を考え、保存されているあ
る登録語の登録特徴セツトＦ_iと新たに発声した
被認識語、被認識特徴セツトＧとの失点総和をＳ
_iとすると、

【式】である。識別結果はMIN（S₁，S₂，……Ｓ_N）となる登
録語である。但しMIN（S₁，S₂，……Ｓ_N）は
S₁，S₂，……，Ｓ_Nの内、失点総和の最小の物を
選択することを意味する。こういつた方法は簡単
であるが、対象語句の中で似かよつている発声音
（例えば「ナカノ」と「ナガノ」等）があると失
点差が少なくなり、判別が困難になるという欠点
があつた。これは全く同じ発声（音声の強さ、発
声速度、アクセント、明僚度等）を行うことは人
間にとつて極めて困難で、同じ言葉を２度発声し
てその差（失点）を調べてみると、似かよつた言
葉を発声した場合の差（失点）と同じ位いの失点
量になるためである。本発明の目的はこられの欠点を解決するため、
登録特徴要素に重み付けを行い似かよつた特徴を
もつ単語でもはつきり区別ができるようにしたも
ので以下詳細に説明する。本発明においては、各特徴要素対毎に個別に記
憶させるか又は一群の特徴要素対毎に代表的に記
憶させるかは別にして、全ての登録特徴セツト対
における対応した全ての登録特徴要素対の重み係
数を別個に検出記憶させる。この重み係数は、類
似する登録語対において非類似度が大きい登録特
徴要素対の重み係数が、残部の登録特徴要素対の
重み係数よりも大きくなしている。本発明は、登録特徴セツトを使つて認識できな
かつた場合に、更に重み係数を導入して再認識を
実行させるものである。第３図は本発明の第１の実施例のフローチヤー
トである。計算機処理の第１段階の部分について
説明する。２１は訓練データの処理か、重み計算か、認識
データの処理かの判断処理、２２，２７は音声デ
ータ入力処理、２３，２８は音声切出し処理、２
４，２９は特徴抽出処理、２５は特徴登録処理、
２６は重み計算処理、３０は識別処理、３１は結
果出力処理の如く構成されており、以下動作につ
いて説明する。判断処理２１は装置の仕様によ
り、いろいろな方法が可能であるが、簡単のため
オペレータが装置に付属する鍵盤等で１回毎にあ
るいは判断の変り目を指示する方法による。訓練
データの処理（前もつて話者の登録特徴を格納す
る処理）における２２〜２５の処理及び識別デー
タの処理（実際認識を行う処理）における２７〜
２９及び３１の処理は、従来の方法で説明した例
と基本的に同一処理であるので説明は省略する。
訓練データの処理が登録語について全て終了する
と、判断２１は重み計算処理２６を行うよう動作
する。以下重み計算処理２６について説明する。
従来の方法で説明したように、任意の２つの登録
特徴要素をｆ_i（ｌ、ｍ），ｆ_j（ｌ、ｍ）とし
て、その登録特徴セツトをＦ_i、Ｆ_jとし、任意の
登録語対の登録特徴セツト対の差Ｄ_ij及び個別の
登録特徴要素の差ｄ_ij（ｌ、ｍ）を次のように定
義する。ｄ_ij（ｌ、ｍ）＝｜ｆ_i（ｌ、ｍ） −ｆ_j（ｌ、ｍ）｜但しｉ≠ｊ ……(1) 重み係数は任意の登録特徴セツトＦ_i（ｉ＝
１、２、……、Ｎ）に対し、他の全ての登録特徴
セツトＦ_j（ｊ＝１、２、……、Ｎ但しｉ≠ｊで
Ｎは登録語数）との間でＤ_ijを計算する。 (1) Ｄ_ijK1の場合。（但しK1はあらかじめ定め
た定数）Ｆ_iとＦ_jは特徴として差が十分あり、識別時
の失点差は大きいと考えられるので、Ｆ_iとＦ_j
との間の重み係数、すなわち対応した登録特徴
要求対ｆ_i（ｌ、ｍ），ｆ_j（ｌ、ｍ）の全ての
重み係数ｗ_ij（ｌ、ｍ）を「１」とする。 (2) Ｄ_ij＜K1の場合。ｄ_ij（ｌ、ｍ）K2（但しK2はあらかじめ
定めた定数）を満足するｆ_i（ｌ、ｍ）とｆ_j
（ｌ、ｍ）に対し、ｗ_ij（ｌ、ｍ）＝K3とする。
但しK3はあらかじめ定めた重み係数の定数値
であり、K3＞１である。又、ｄ_ij（ｌ、ｍ）＜
K2に対してはｗ_ij（ｌ、ｍ）＝１とする。従つ
て重み係数ｗ_ij（ｌ、ｍ）は上述の条件に従が
い「１」あるいはK3の値をとる。以上の計算を全ての登録特徴同志に対して行い
その重み係数ｗ_ijを格納する。重み係数のメモリ
上の格納状態を第４図及び第５図に示す。第４図は、登録特徴セツトＦ_iとＦ_jとにおける
重み係数の集合を大文字Ｗ_ijで各々の関係がわか
りやすいように示してあり斜線のます目は実際は
格納メモリとして存在していない部分である。第
５図は１つのＷ_ijを構成する重み係数ｗ_ij（ｌ、
ｍ）（ｌはチヤネル番号、ｍは分割領域番号）の
実際のメモリ上の格納状態を示している。このようにして重み計算処理２６の動作が終了
すると識別データ処理に移される。識別データ処
理では識別処理３０についてのみ説明する。従来の例では失点総和Ｓ_iを

【式】で定義したが本発明ではまず同様に従来の方法で失点総和Ｓ
_iを計算する。そして一番失点の少いＳ_iをＳ_a、次
に失点の少いものもＳ_bとしてＳ_b−Ｓ_aK4（但
しK4はあらかじめ定められた定数）を満足する
時はＳ_aに対応する登録語ａを識別結果として出
力するが、Ｓ_b−Ｓ_a＜K4の場合には登録語ａ，
ｂが類似していることを意味するので、登録語ａ
とｂに対して再び次の失点総和SW_a，SW_bの計算
を行う。但し重み係数wab（ｌ、ｍ）は前述の条件に従
つて「１」あるいはK3の値をとる。再び｜SW_a−SW_b｜K4（但しK4はあらかじ
め定められた定数）を満足すればMin（SW_a，
SW_b）となる登録語ａ又はｂを識別結果とする。
又、満足しなければリジエクト（識別不能）とす
る。その他、識別エラーを少くする目的で最小失
点（最小非類似度）Ｓ_aが大きすぎる場合又は
Min（SW_a，SW_b）が大きすぎる場合はリジエク
トする方がよい。ここで１つの例を用いて更に詳
しく説明する。この例では話を簡単にするためフ
イルタ数Ｌ＝１、分割数Ｍ＝４とし、被認識語の
被認識特徴セツトＧに対する識別候補ａ，ｂの登
録特徴セツトをFa，Fbとし、Ｇ，Fa，Fbは次の
値をとるものとする。Ｇ＝（８、16、５、28） Fa＝（８、15、４、32） Fb＝（８、18、７、25）またK₁＝15、K₂＝５、K₃＝５、K₄＝３とする
と、 Dab＝｜（８−８）｜＋｜（15−18）｜＋｜（４−７）｜＋｜（32−25）｜＝13 となり、Dab＜K₁となる。上記各登録特徴セツトFaとFbとにおける重み
係数の集合Wabは、個別の登録特徴要素の差dab
（ｌ、ｍ）K2（＝５）を満足する各登録特徴要
素に対する重み係数wab（ｌ、ｍ）＝K3（＝５）
とし、それ以外の各登録特徴要素に対する重み係
数wab（ｌ、ｍ）＝１とすると、Wab＝（１、１、
１、５）となる。ここで、被認識特徴セツトＧと、各登録特徴セ
ツトFa，Fbとの失点総和Sa，Sbはそれぞれ、 Sa＝｜（８−８）｜＋｜（15−16）｜＋｜（４−５）｜＋｜（32−28）｜＝６、 Sb＝｜（８−８）｜＋｜（18−16）｜＋｜（７−５）｜＋｜（25−28）｜＝７であり、失点総和Sa，Sbからは登録語ａが識別
結果の第１候補となる。しかしながらSb−Sa＝
１＜K₄（＝３）であるため、再び重み係数Wab
を乗じた失点総和SWa，SWbを算出する。この
結果、 SWa＝（０×１）＋（１×１）＋（１×１）＋（４×５）＝22 SWb＝（０×１）＋（２×１）＋（２×１）＋（３×５）＝19 となり、｜SWa−SWb｜＝３K4（＝３）であ
るため、登録語ｂが最終的な認識結果となる。以上出力する登録語の候補が２つの場合に対し
説明したが、候補が２つ以上あつても同様に２つ
づつの組合わせで考えることによつて対処でき
る。例えば、Ｓ_a，Ｓ_b，Ｓ_cが同じような失点を
示した場合、登録語対（ａ、ｂ），（ａ、ｃ），
（ｂ、ｃ）に対して前述と同様の失点を計算し、
各登録語ａ，ｂ，ｃに関する平均の失点SW_a，
SW_b，SW_cを取り、Min（SW_a，SW_b，SW_c）を
求めればよい。又、重み係数が全て同じ値をもつ
語句同志の場合は、代表させて１つの重み係数の
みを格納するようにして（例えば重み係数を格納
してあるメモリを直接参照するのではなく、２つ
の語句に付された番号から一度テーブルをひき、
そのテーブルには重み係数の格納先頭アドレス又
は代表する重み係数が記されるようになつてい
て、どちらが記されているか明示するようにする
ことにより重み係数を格納するメモリー容量を減
少できる。以上説明したように、第１の実施例では各登録
語の登録特徴セツト同志の差を計算して似かよつ
た登録語の登録特徴要素に対してはその特徴要素
の中で違いがはつきりしている部分の特徴要素に
大きな重み付けを行うため、重みづけが一様にな
されていた従来の方法では区別が困難とされる似
かよつた被認識語も区別できるため、被認識語を
制限しなくてよいと共に特徴の異なつている点に
着目することにより認識率を高める利点がある。
第１の実施例では全ての登録特徴要素相互間に異
なつた重み係数を与えることができるようになつ
ているが、重み係数を格納するメモリー容量を少
くする意味から、時間分割領域毎に重み係数を１
つ用意して、その分割領域に属する全てのチヤネ
ルフイルタデータ（特徴）は同一の重み係数とし
ても、効果は十分得られる。この場合は、第１の
実施例において(1)、(2)式に対応するのは、である。そして、重み係数の表現は第１の実施例
がｗ_ij（ｌ、ｍ）＝K3に対しｗ_ij（ｌ）＝K3とな
る。又分割領域ではなく周波数領域毎に重み係数
を割り当ててもよいがこの場合は多少効果が減少
する。本発明はあらかじめ話者が発声した識別対象語
の特徴登録が全て終了した時点で自動的に対象語
の相互間の特徴の差を計算して重みづけを行うの
で似かよつた語句も正確に区別でき、音声認識装
置に利用することができる。

【図面の簡単な説明】

第１図は音声認識装置例の構成図、第２図は従
来の音声認識装置の計算機処理部のフローチヤー
ト、第３図は本発明の一実施例の計算機処理部の
フローチヤート、第４図１は重み係数をメモリー
に格納した概説図、第５図はその１ブロツクを示
した詳細図である。１……マイクロフオン、２……プリアンプ、３
……帯域フイルタ群、４……ローパスフイルタ
群、５……マルチプレクサ、６……AD変換器、
７……制御部、８……マルチプレクサ切換え信号
線、９……AD変換器の制御線、１０，１１……
制御部７と計算機１２とのインターフエース信号
線、１２……小型計算機又はマイクロコンピユー
タとその周辺部、１３……識別結果出力線、１４
……音声データ入力処理、１５……音声切出し処
理、１６……特徴抽出処理、１７……訓練か識別
かの判断、１８……特徴登録処理、１９……識別
処理、２０……結果出力処理、２１……訓練か重
み計算か、識別かの判断、２２，２７……音声デ
ータ入力処理、２３，２８……音声切出し処理、
２４，２９……特徴抽出処理、２５……特徴登録
処理、２６……重み計算処理、３０……識別処
理、３１……結果出力処理、Ｄ_ij……登録特徴セ
ツト対の差、ｄ_ij（ｌ、ｍ）……登録特徴要素対
の差、Ｆ_i，Ｆ_j……登録特徴セツト、ｆ_i（ｌ、
ｍ），ｆ_j（ｌ、ｍ）……登録特徴要素、ｇ（ｌ、
ｍ）……被認識特徴要素、Ｗ_i、_j……登録特徴セ
ツト対における重み係数の集合、ｗ_ij（ｌ、ｍ）
……登録特徴要素対の重み係数、Ｓ_i，SW_a，
SW_b……失点総和。

Claims

【特許請求の範囲】

１同一話者の発声に基づく各登録語の登録特徴
要素からなる登録特徴セツトと被認識語の被認識
特徴要素からなる被認識特徴セツトとの非類似度
を一定の法則に従つて測定して、最小非類似度の
登録特徴セツトに対応した登録語を出力する音声
認識方法において、登録特徴セツト対における対
応した各登録特徴要素対の非類似度を一定の法則
に従つて測定し且つ登録特徴セツト対の非類似度
を一定の法則に従つて測定して、登録特徴セツト
の全ての組合せについて対応した各登録特徴要素
対の重み係数を記憶するものであつて、登録特徴
セツト対間の非類似度が第１の一定の値よりも小
さく且つ登録特徴要素対間の非類似度が第２の一
定の値よりも大きい登録特徴要素対の重み係数を
残部の登録特徴要素対の重み係数よりも大きく設
定する重み係数設定記憶手段を備え、各登録特徴
セツトと被認識特徴セツトとの最小非類似度が一
定の条件を満足しない場合に非類似度の小さい少
数複数個の登録語を検出する段階と、検出された
当該登録語を対象とし且つ前記登録特徴要素に前
記重み係数を乗じて得られたものを新らたなる登
録特徴要素とした各登録特徴セツトと前記被認識
特徴要素に前記重み係数を乗じて得られたものを
新たなる被認識特徴要素とした被認識特徴セツト
との非類似度を測定して、一定の条件を満足する
非類似度に対応した登録語を出力する段階とを有
することを特徴とした音声認識方法。