JPS6130280B2 - - Google Patents
Info
- Publication number
- JPS6130280B2 JPS6130280B2 JP54142772A JP14277279A JPS6130280B2 JP S6130280 B2 JPS6130280 B2 JP S6130280B2 JP 54142772 A JP54142772 A JP 54142772A JP 14277279 A JP14277279 A JP 14277279A JP S6130280 B2 JPS6130280 B2 JP S6130280B2
- Authority
- JP
- Japan
- Prior art keywords
- registered
- registered feature
- feature
- dissimilarity
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims description 38
- 230000008685 targeting Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 32
- 238000000605 extraction Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Description
本発明は特定話者の音声認識方法に関するもの
である。音声識別装置として現在製品化が一番進
んでいるのは特定話者の単語音声認識装置といわ
れているものである。これはあらかじめ話者が認
識対象の全単語を各々1回から10回程度発声する
ことにより認識装置内にその話者の単語に関する
特徴を記憶させ、しかるのち認識が行われる。こ
れは音声パターンの個人差による変動(主として
周波数構造に関連する)が認識を困難にしている
大きな要因の一つであるが、これをかい避できる
ためである。この明細書では、話者があらかじめ
発声しておく単語を登録語、登録語における特徴
の個々の要素を登録特徴要素、各登録語に関する
登録特徴要素の集合を登録特徴セツトといい、こ
られに対して新らたに発声した認識すべき対象と
しての単語に関するものを、夫々被認識語、被認
識特徴要素及び被認識特徴セツトという。次に、
この特定話者の認識装置の一例を第1図に示す。 第1図において、1はマイクロフオン、2はプ
リアンプ、3は帯域フイルタ群、4は整流兼ロー
パスフイルタ群、5はマルチプレクサ、6はAD
変換器、7は制御部、8はマルチプレクサの切換
え信号線、9はAD変換器への制御線、10及び
11は制御部7と計算機12との間の応答信号
線、12はマイクロコンピユータ及びその周辺
部、13は識別結果出力線の如く構成されてい
る。その動作はまずマイクロフオン1で電気信号
に変換された音声信号はプリアンプ2で増幅さ
れ、帯域フイルタ群3によりスペクトルに分解さ
れる。一般的には、この帯域フイルタ群3の構成
は音声帯域150Hz位から5kHz位迄を3〜15分割す
るようなフイルタ構成である。帯域フイルタ群3
の出力は整流兼ローパスフイルタ群4を通して時
間的に平均化されマルチプレクサ5の入力信号と
なる。切換信号線8で選択されたマルチプレクサ
5の出力信号は制御線9で起動された周期でAD
変換器6によりアナログ信号からデイジタル信号
に変換され応答信号線10,11で制御されて計
算機12に転送される。この転送周期は音声デー
タのサンプリング周期となり制御部7でAD変換
のタイミングを制御している。一般的には、帯域
フイルタ群3の全出力を数msから数十msの周
期でサンプリングしているものが多い。 音声認識装置では殆んどの装置がAD変換器迄
をハードウエア化してこれ以降の処理はミニコン
ピユータあるいはマイクロコンピユータで実行し
ている。これはデータの入力速度が比較的遅いた
め、計算機処理に不向きな所(アナログ信号処理
部)以外は専用のハードウエアを用いないでも処
理が可能であり、その方が小型化、低価格化等を
実現しやすいからである。 第2図は計算機処理部の基本構成を示すフロー
チヤートである。14は音声データ入力処理、1
5は音声切出し処理、16は特徴抽出処理、17
は訓練データか被認識データかの判断処理、18
は登録処理、19は識別処理、20は結果出力処
理の如く構成されており以下動作について説明す
る。音声データ入力処理14は音声データを計算
機内部の記憶部にとり入れる作業を行うもので、
音声データの入力指令が何らかの形で与えられる
と制御部7と同期をはかり、AD変換器6の出力
データ(以下サンプルデータと称す)をメモリに
格納する。一般的には単語認識装置では約1.5秒
間の発声音をとり入れている。サンプルデータは
発声音の前後の余分なデータも含んでいるので次
に発声区間を検出するのが音声切出し処理15で
ある。この処理としては話者が高雑音下の環境に
いない限りは、発声前後のサンプルデータ値は発
声時に比較して小さい値を示すのである闘値を設
けて比較するのが簡単な方法である。 検出された音声区間のサンプルデータはこのま
まではデータ量が多く記憶容量の大きい装置が必
要となる。例えば発声時間を1.5秒、サンプル周
期を10ms、AD変換8ビツトとすると1語につ
き150バイト×チヤネル数のメモリが識別対象語
数だけあらかじめ格納するのに必要となるので、
サンプルデータを何らかの形に変形してデータ数
を少くして保存するのが多い。この作業を行うの
が特徴抽出処理16である。特徴抽出として簡単
な方法はサンプルデータの線形圧縮方法である。
この方法では、切出された音声区間を等分割(普
通は16〜32分割が多い)して、各分割区間毎に各
チヤネルデータに対し平均値を求め、この平均値
を特徴として用いる。但し声の大きさが同一話者
であつても変化するので、各サンプルデータ毎に
あるいは特徴レベルにおいてフイルタ出力加算値
等のデータで大きさの正規化を行う方が良い。 こうして得られる特徴を全ての識別対象である
登録語に対して求め、認識装置内(本例では計算
機メモリ内)に格納するのが特徴登録処理18で
ある。登録が完了すると識別処理19が実行され
るよう判断処理17を実行する。識別処理19は
要するに、同一話者の発声に基づいて予め保存さ
せておいた各登録語の登録特徴セツトと新らたに
発声した被認識語の被認識特徴セツトとの非類似
度を一定の法則に従つて測定するものであり、結
果出力処理20において最小非類似度の登録語
(コード等)を外部に出力し、又最小非類似度が
一定の条件を満足しない場合はリジエクト出力を
出力する。なお、識別処理を類似度測定で定義す
るものもあるが、本質的には全く同一である。以
下式により識別処理19における計算例を説明す
る。保存されている登録語数をN個とする。登録
特徴要素をfi(l、m)、被認識特徴要素をg
(l、m)とする。但し添字iは登録語に付され
た番号で、この場合は1からN迄の値である。l
は各フイルム出力に対応する番号で1からフイル
タ数L迄の値をとる。mは時間分割領域毎に付し
た番号で1から分割数M迄の値をとる。 非類似度として失点を考え、保存されているあ
る登録語の登録特徴セツトFiと新たに発声した
被認識語、被認識特徴セツトGとの失点総和をS
iとすると、
である。音声識別装置として現在製品化が一番進
んでいるのは特定話者の単語音声認識装置といわ
れているものである。これはあらかじめ話者が認
識対象の全単語を各々1回から10回程度発声する
ことにより認識装置内にその話者の単語に関する
特徴を記憶させ、しかるのち認識が行われる。こ
れは音声パターンの個人差による変動(主として
周波数構造に関連する)が認識を困難にしている
大きな要因の一つであるが、これをかい避できる
ためである。この明細書では、話者があらかじめ
発声しておく単語を登録語、登録語における特徴
の個々の要素を登録特徴要素、各登録語に関する
登録特徴要素の集合を登録特徴セツトといい、こ
られに対して新らたに発声した認識すべき対象と
しての単語に関するものを、夫々被認識語、被認
識特徴要素及び被認識特徴セツトという。次に、
この特定話者の認識装置の一例を第1図に示す。 第1図において、1はマイクロフオン、2はプ
リアンプ、3は帯域フイルタ群、4は整流兼ロー
パスフイルタ群、5はマルチプレクサ、6はAD
変換器、7は制御部、8はマルチプレクサの切換
え信号線、9はAD変換器への制御線、10及び
11は制御部7と計算機12との間の応答信号
線、12はマイクロコンピユータ及びその周辺
部、13は識別結果出力線の如く構成されてい
る。その動作はまずマイクロフオン1で電気信号
に変換された音声信号はプリアンプ2で増幅さ
れ、帯域フイルタ群3によりスペクトルに分解さ
れる。一般的には、この帯域フイルタ群3の構成
は音声帯域150Hz位から5kHz位迄を3〜15分割す
るようなフイルタ構成である。帯域フイルタ群3
の出力は整流兼ローパスフイルタ群4を通して時
間的に平均化されマルチプレクサ5の入力信号と
なる。切換信号線8で選択されたマルチプレクサ
5の出力信号は制御線9で起動された周期でAD
変換器6によりアナログ信号からデイジタル信号
に変換され応答信号線10,11で制御されて計
算機12に転送される。この転送周期は音声デー
タのサンプリング周期となり制御部7でAD変換
のタイミングを制御している。一般的には、帯域
フイルタ群3の全出力を数msから数十msの周
期でサンプリングしているものが多い。 音声認識装置では殆んどの装置がAD変換器迄
をハードウエア化してこれ以降の処理はミニコン
ピユータあるいはマイクロコンピユータで実行し
ている。これはデータの入力速度が比較的遅いた
め、計算機処理に不向きな所(アナログ信号処理
部)以外は専用のハードウエアを用いないでも処
理が可能であり、その方が小型化、低価格化等を
実現しやすいからである。 第2図は計算機処理部の基本構成を示すフロー
チヤートである。14は音声データ入力処理、1
5は音声切出し処理、16は特徴抽出処理、17
は訓練データか被認識データかの判断処理、18
は登録処理、19は識別処理、20は結果出力処
理の如く構成されており以下動作について説明す
る。音声データ入力処理14は音声データを計算
機内部の記憶部にとり入れる作業を行うもので、
音声データの入力指令が何らかの形で与えられる
と制御部7と同期をはかり、AD変換器6の出力
データ(以下サンプルデータと称す)をメモリに
格納する。一般的には単語認識装置では約1.5秒
間の発声音をとり入れている。サンプルデータは
発声音の前後の余分なデータも含んでいるので次
に発声区間を検出するのが音声切出し処理15で
ある。この処理としては話者が高雑音下の環境に
いない限りは、発声前後のサンプルデータ値は発
声時に比較して小さい値を示すのである闘値を設
けて比較するのが簡単な方法である。 検出された音声区間のサンプルデータはこのま
まではデータ量が多く記憶容量の大きい装置が必
要となる。例えば発声時間を1.5秒、サンプル周
期を10ms、AD変換8ビツトとすると1語につ
き150バイト×チヤネル数のメモリが識別対象語
数だけあらかじめ格納するのに必要となるので、
サンプルデータを何らかの形に変形してデータ数
を少くして保存するのが多い。この作業を行うの
が特徴抽出処理16である。特徴抽出として簡単
な方法はサンプルデータの線形圧縮方法である。
この方法では、切出された音声区間を等分割(普
通は16〜32分割が多い)して、各分割区間毎に各
チヤネルデータに対し平均値を求め、この平均値
を特徴として用いる。但し声の大きさが同一話者
であつても変化するので、各サンプルデータ毎に
あるいは特徴レベルにおいてフイルタ出力加算値
等のデータで大きさの正規化を行う方が良い。 こうして得られる特徴を全ての識別対象である
登録語に対して求め、認識装置内(本例では計算
機メモリ内)に格納するのが特徴登録処理18で
ある。登録が完了すると識別処理19が実行され
るよう判断処理17を実行する。識別処理19は
要するに、同一話者の発声に基づいて予め保存さ
せておいた各登録語の登録特徴セツトと新らたに
発声した被認識語の被認識特徴セツトとの非類似
度を一定の法則に従つて測定するものであり、結
果出力処理20において最小非類似度の登録語
(コード等)を外部に出力し、又最小非類似度が
一定の条件を満足しない場合はリジエクト出力を
出力する。なお、識別処理を類似度測定で定義す
るものもあるが、本質的には全く同一である。以
下式により識別処理19における計算例を説明す
る。保存されている登録語数をN個とする。登録
特徴要素をfi(l、m)、被認識特徴要素をg
(l、m)とする。但し添字iは登録語に付され
た番号で、この場合は1からN迄の値である。l
は各フイルム出力に対応する番号で1からフイル
タ数L迄の値をとる。mは時間分割領域毎に付し
た番号で1から分割数M迄の値をとる。 非類似度として失点を考え、保存されているあ
る登録語の登録特徴セツトFiと新たに発声した
被認識語、被認識特徴セツトGとの失点総和をS
iとすると、
【式】である。
識別結果はMIN(S1,S2,……SN)となる登
録語である。但しMIN(S1,S2,……SN)は
S1,S2,……,SNの内、失点総和の最小の物を
選択することを意味する。こういつた方法は簡単
であるが、対象語句の中で似かよつている発声音
(例えば「ナカノ」と「ナガノ」等)があると失
点差が少なくなり、判別が困難になるという欠点
があつた。これは全く同じ発声(音声の強さ、発
声速度、アクセント、明僚度等)を行うことは人
間にとつて極めて困難で、同じ言葉を2度発声し
てその差(失点)を調べてみると、似かよつた言
葉を発声した場合の差(失点)と同じ位いの失点
量になるためである。 本発明の目的はこられの欠点を解決するため、
登録特徴要素に重み付けを行い似かよつた特徴を
もつ単語でもはつきり区別ができるようにしたも
ので以下詳細に説明する。 本発明においては、各特徴要素対毎に個別に記
憶させるか又は一群の特徴要素対毎に代表的に記
憶させるかは別にして、全ての登録特徴セツト対
における対応した全ての登録特徴要素対の重み係
数を別個に検出記憶させる。この重み係数は、類
似する登録語対において非類似度が大きい登録特
徴要素対の重み係数が、残部の登録特徴要素対の
重み係数よりも大きくなしている。 本発明は、登録特徴セツトを使つて認識できな
かつた場合に、更に重み係数を導入して再認識を
実行させるものである。 第3図は本発明の第1の実施例のフローチヤー
トである。計算機処理の第1段階の部分について
説明する。 21は訓練データの処理か、重み計算か、認識
データの処理かの判断処理、22,27は音声デ
ータ入力処理、23,28は音声切出し処理、2
4,29は特徴抽出処理、25は特徴登録処理、
26は重み計算処理、30は識別処理、31は結
果出力処理の如く構成されており、以下動作につ
いて説明する。判断処理21は装置の仕様によ
り、いろいろな方法が可能であるが、簡単のため
オペレータが装置に付属する鍵盤等で1回毎にあ
るいは判断の変り目を指示する方法による。訓練
データの処理(前もつて話者の登録特徴を格納す
る処理)における22〜25の処理及び識別デー
タの処理(実際認識を行う処理)における27〜
29及び31の処理は、従来の方法で説明した例
と基本的に同一処理であるので説明は省略する。
訓練データの処理が登録語について全て終了する
と、判断21は重み計算処理26を行うよう動作
する。以下重み計算処理26について説明する。
従来の方法で説明したように、任意の2つの登録
特徴要素をfi(l、m),fj(l、m)とし
て、その登録特徴セツトをFi、Fjとし、任意の
登録語対の登録特徴セツト対の差Dij及び個別の
登録特徴要素の差dij(l、m)を次のように定
義する。 dij(l、m)=|fi(l、m) −fj(l、m)|但しi≠j ……(1) 重み係数は任意の登録特徴セツトFi(i=
1、2、……、N)に対し、他の全ての登録特徴
セツトFj(j=1、2、……、N但しi≠jで
Nは登録語数)との間でDijを計算する。 (1) DijK1の場合。(但しK1はあらかじめ定め
た定数) FiとFjは特徴として差が十分あり、識別時
の失点差は大きいと考えられるので、FiとFj
との間の重み係数、すなわち対応した登録特徴
要求対fi(l、m),fj(l、m)の全ての
重み係数wij(l、m)を「1」とする。 (2) Dij<K1の場合。 dij(l、m)K2(但しK2はあらかじめ
定めた定数)を満足するfi(l、m)とfj
(l、m)に対し、wij(l、m)=K3とする。
但しK3はあらかじめ定めた重み係数の定数値
であり、K3>1である。又、dij(l、m)<
K2に対してはwij(l、m)=1とする。従つ
て重み係数wij(l、m)は上述の条件に従が
い「1」あるいはK3の値をとる。 以上の計算を全ての登録特徴同志に対して行い
その重み係数wijを格納する。重み係数のメモリ
上の格納状態を第4図及び第5図に示す。 第4図は、登録特徴セツトFiとFjとにおける
重み係数の集合を大文字Wijで各々の関係がわか
りやすいように示してあり斜線のます目は実際は
格納メモリとして存在していない部分である。第
5図は1つのWijを構成する重み係数wij(l、
m)(lはチヤネル番号、mは分割領域番号)の
実際のメモリ上の格納状態を示している。 このようにして重み計算処理26の動作が終了
すると識別データ処理に移される。識別データ処
理では識別処理30についてのみ説明する。 従来の例では失点総和Siを
録語である。但しMIN(S1,S2,……SN)は
S1,S2,……,SNの内、失点総和の最小の物を
選択することを意味する。こういつた方法は簡単
であるが、対象語句の中で似かよつている発声音
(例えば「ナカノ」と「ナガノ」等)があると失
点差が少なくなり、判別が困難になるという欠点
があつた。これは全く同じ発声(音声の強さ、発
声速度、アクセント、明僚度等)を行うことは人
間にとつて極めて困難で、同じ言葉を2度発声し
てその差(失点)を調べてみると、似かよつた言
葉を発声した場合の差(失点)と同じ位いの失点
量になるためである。 本発明の目的はこられの欠点を解決するため、
登録特徴要素に重み付けを行い似かよつた特徴を
もつ単語でもはつきり区別ができるようにしたも
ので以下詳細に説明する。 本発明においては、各特徴要素対毎に個別に記
憶させるか又は一群の特徴要素対毎に代表的に記
憶させるかは別にして、全ての登録特徴セツト対
における対応した全ての登録特徴要素対の重み係
数を別個に検出記憶させる。この重み係数は、類
似する登録語対において非類似度が大きい登録特
徴要素対の重み係数が、残部の登録特徴要素対の
重み係数よりも大きくなしている。 本発明は、登録特徴セツトを使つて認識できな
かつた場合に、更に重み係数を導入して再認識を
実行させるものである。 第3図は本発明の第1の実施例のフローチヤー
トである。計算機処理の第1段階の部分について
説明する。 21は訓練データの処理か、重み計算か、認識
データの処理かの判断処理、22,27は音声デ
ータ入力処理、23,28は音声切出し処理、2
4,29は特徴抽出処理、25は特徴登録処理、
26は重み計算処理、30は識別処理、31は結
果出力処理の如く構成されており、以下動作につ
いて説明する。判断処理21は装置の仕様によ
り、いろいろな方法が可能であるが、簡単のため
オペレータが装置に付属する鍵盤等で1回毎にあ
るいは判断の変り目を指示する方法による。訓練
データの処理(前もつて話者の登録特徴を格納す
る処理)における22〜25の処理及び識別デー
タの処理(実際認識を行う処理)における27〜
29及び31の処理は、従来の方法で説明した例
と基本的に同一処理であるので説明は省略する。
訓練データの処理が登録語について全て終了する
と、判断21は重み計算処理26を行うよう動作
する。以下重み計算処理26について説明する。
従来の方法で説明したように、任意の2つの登録
特徴要素をfi(l、m),fj(l、m)とし
て、その登録特徴セツトをFi、Fjとし、任意の
登録語対の登録特徴セツト対の差Dij及び個別の
登録特徴要素の差dij(l、m)を次のように定
義する。 dij(l、m)=|fi(l、m) −fj(l、m)|但しi≠j ……(1) 重み係数は任意の登録特徴セツトFi(i=
1、2、……、N)に対し、他の全ての登録特徴
セツトFj(j=1、2、……、N但しi≠jで
Nは登録語数)との間でDijを計算する。 (1) DijK1の場合。(但しK1はあらかじめ定め
た定数) FiとFjは特徴として差が十分あり、識別時
の失点差は大きいと考えられるので、FiとFj
との間の重み係数、すなわち対応した登録特徴
要求対fi(l、m),fj(l、m)の全ての
重み係数wij(l、m)を「1」とする。 (2) Dij<K1の場合。 dij(l、m)K2(但しK2はあらかじめ
定めた定数)を満足するfi(l、m)とfj
(l、m)に対し、wij(l、m)=K3とする。
但しK3はあらかじめ定めた重み係数の定数値
であり、K3>1である。又、dij(l、m)<
K2に対してはwij(l、m)=1とする。従つ
て重み係数wij(l、m)は上述の条件に従が
い「1」あるいはK3の値をとる。 以上の計算を全ての登録特徴同志に対して行い
その重み係数wijを格納する。重み係数のメモリ
上の格納状態を第4図及び第5図に示す。 第4図は、登録特徴セツトFiとFjとにおける
重み係数の集合を大文字Wijで各々の関係がわか
りやすいように示してあり斜線のます目は実際は
格納メモリとして存在していない部分である。第
5図は1つのWijを構成する重み係数wij(l、
m)(lはチヤネル番号、mは分割領域番号)の
実際のメモリ上の格納状態を示している。 このようにして重み計算処理26の動作が終了
すると識別データ処理に移される。識別データ処
理では識別処理30についてのみ説明する。 従来の例では失点総和Siを
【式】で定義した
が本発明ではまず同様に従来の方法で失点総和S
iを計算する。そして一番失点の少いSiをSa、次
に失点の少いものもSbとしてSb−SaK4(但
しK4はあらかじめ定められた定数)を満足する
時はSaに対応する登録語aを識別結果として出
力するが、Sb−Sa<K4の場合には登録語a,
bが類似していることを意味するので、登録語a
とbに対して再び次の失点総和SWa,SWbの計算
を行う。 但し重み係数wab(l、m)は前述の条件に従
つて「1」あるいはK3の値をとる。 再び|SWa−SWb|K4(但しK4はあらかじ
め定められた定数)を満足すればMin(SWa,
SWb)となる登録語a又はbを識別結果とする。
又、満足しなければリジエクト(識別不能)とす
る。その他、識別エラーを少くする目的で最小失
点(最小非類似度)Saが大きすぎる場合又は
Min(SWa,SWb)が大きすぎる場合はリジエク
トする方がよい。ここで1つの例を用いて更に詳
しく説明する。この例では話を簡単にするためフ
イルタ数L=1、分割数M=4とし、被認識語の
被認識特徴セツトGに対する識別候補a,bの登
録特徴セツトをFa,Fbとし、G,Fa,Fbは次の
値をとるものとする。 G=(8、16、5、28) Fa=(8、15、4、32) Fb=(8、18、7、25) またK1=15、K2=5、K3=5、K4=3とする
と、 Dab=|(8−8)|+|(15−18)| +|(4−7)|+|(32−25)|=13 となり、Dab<K1となる。 上記各登録特徴セツトFaとFbとにおける重み
係数の集合Wabは、個別の登録特徴要素の差dab
(l、m)K2(=5)を満足する各登録特徴要
素に対する重み係数wab(l、m)=K3(=5)
とし、それ以外の各登録特徴要素に対する重み係
数wab(l、m)=1とすると、Wab=(1、1、
1、5)となる。 ここで、被認識特徴セツトGと、各登録特徴セ
ツトFa,Fbとの失点総和Sa,Sbはそれぞれ、 Sa=|(8−8)|+|(15−16)| +|(4−5)|+|(32−28)|=6、 Sb=|(8−8)|+|(18−16)| +|(7−5)|+|(25−28)|=7 であり、失点総和Sa,Sbからは登録語aが識別
結果の第1候補となる。しかしながらSb−Sa=
1<K4(=3)であるため、再び重み係数Wab
を乗じた失点総和SWa,SWbを算出する。この
結果、 SWa=(0×1)+(1×1)+(1×1) +(4×5)=22 SWb=(0×1)+(2×1)+(2×1) +(3×5)=19 となり、|SWa−SWb|=3K4(=3)であ
るため、登録語bが最終的な認識結果となる。 以上出力する登録語の候補が2つの場合に対し
説明したが、候補が2つ以上あつても同様に2つ
づつの組合わせで考えることによつて対処でき
る。例えば、Sa,Sb,Scが同じような失点を
示した場合、登録語対(a、b),(a、c),
(b、c)に対して前述と同様の失点を計算し、
各登録語a,b,cに関する平均の失点SWa,
SWb,SWcを取り、Min(SWa,SWb,SWc)を
求めればよい。又、重み係数が全て同じ値をもつ
語句同志の場合は、代表させて1つの重み係数の
みを格納するようにして(例えば重み係数を格納
してあるメモリを直接参照するのではなく、2つ
の語句に付された番号から一度テーブルをひき、
そのテーブルには重み係数の格納先頭アドレス又
は代表する重み係数が記されるようになつてい
て、どちらが記されているか明示するようにする
ことにより重み係数を格納するメモリー容量を減
少できる。 以上説明したように、第1の実施例では各登録
語の登録特徴セツト同志の差を計算して似かよつ
た登録語の登録特徴要素に対してはその特徴要素
の中で違いがはつきりしている部分の特徴要素に
大きな重み付けを行うため、重みづけが一様にな
されていた従来の方法では区別が困難とされる似
かよつた被認識語も区別できるため、被認識語を
制限しなくてよいと共に特徴の異なつている点に
着目することにより認識率を高める利点がある。
第1の実施例では全ての登録特徴要素相互間に異
なつた重み係数を与えることができるようになつ
ているが、重み係数を格納するメモリー容量を少
くする意味から、時間分割領域毎に重み係数を1
つ用意して、その分割領域に属する全てのチヤネ
ルフイルタデータ(特徴)は同一の重み係数とし
ても、効果は十分得られる。この場合は、第1の
実施例において(1)、(2)式に対応するのは、 である。そして、重み係数の表現は第1の実施例
がwij(l、m)=K3に対しwij(l)=K3とな
る。又分割領域ではなく周波数領域毎に重み係数
を割り当ててもよいがこの場合は多少効果が減少
する。 本発明はあらかじめ話者が発声した識別対象語
の特徴登録が全て終了した時点で自動的に対象語
の相互間の特徴の差を計算して重みづけを行うの
で似かよつた語句も正確に区別でき、音声認識装
置に利用することができる。
iを計算する。そして一番失点の少いSiをSa、次
に失点の少いものもSbとしてSb−SaK4(但
しK4はあらかじめ定められた定数)を満足する
時はSaに対応する登録語aを識別結果として出
力するが、Sb−Sa<K4の場合には登録語a,
bが類似していることを意味するので、登録語a
とbに対して再び次の失点総和SWa,SWbの計算
を行う。 但し重み係数wab(l、m)は前述の条件に従
つて「1」あるいはK3の値をとる。 再び|SWa−SWb|K4(但しK4はあらかじ
め定められた定数)を満足すればMin(SWa,
SWb)となる登録語a又はbを識別結果とする。
又、満足しなければリジエクト(識別不能)とす
る。その他、識別エラーを少くする目的で最小失
点(最小非類似度)Saが大きすぎる場合又は
Min(SWa,SWb)が大きすぎる場合はリジエク
トする方がよい。ここで1つの例を用いて更に詳
しく説明する。この例では話を簡単にするためフ
イルタ数L=1、分割数M=4とし、被認識語の
被認識特徴セツトGに対する識別候補a,bの登
録特徴セツトをFa,Fbとし、G,Fa,Fbは次の
値をとるものとする。 G=(8、16、5、28) Fa=(8、15、4、32) Fb=(8、18、7、25) またK1=15、K2=5、K3=5、K4=3とする
と、 Dab=|(8−8)|+|(15−18)| +|(4−7)|+|(32−25)|=13 となり、Dab<K1となる。 上記各登録特徴セツトFaとFbとにおける重み
係数の集合Wabは、個別の登録特徴要素の差dab
(l、m)K2(=5)を満足する各登録特徴要
素に対する重み係数wab(l、m)=K3(=5)
とし、それ以外の各登録特徴要素に対する重み係
数wab(l、m)=1とすると、Wab=(1、1、
1、5)となる。 ここで、被認識特徴セツトGと、各登録特徴セ
ツトFa,Fbとの失点総和Sa,Sbはそれぞれ、 Sa=|(8−8)|+|(15−16)| +|(4−5)|+|(32−28)|=6、 Sb=|(8−8)|+|(18−16)| +|(7−5)|+|(25−28)|=7 であり、失点総和Sa,Sbからは登録語aが識別
結果の第1候補となる。しかしながらSb−Sa=
1<K4(=3)であるため、再び重み係数Wab
を乗じた失点総和SWa,SWbを算出する。この
結果、 SWa=(0×1)+(1×1)+(1×1) +(4×5)=22 SWb=(0×1)+(2×1)+(2×1) +(3×5)=19 となり、|SWa−SWb|=3K4(=3)であ
るため、登録語bが最終的な認識結果となる。 以上出力する登録語の候補が2つの場合に対し
説明したが、候補が2つ以上あつても同様に2つ
づつの組合わせで考えることによつて対処でき
る。例えば、Sa,Sb,Scが同じような失点を
示した場合、登録語対(a、b),(a、c),
(b、c)に対して前述と同様の失点を計算し、
各登録語a,b,cに関する平均の失点SWa,
SWb,SWcを取り、Min(SWa,SWb,SWc)を
求めればよい。又、重み係数が全て同じ値をもつ
語句同志の場合は、代表させて1つの重み係数の
みを格納するようにして(例えば重み係数を格納
してあるメモリを直接参照するのではなく、2つ
の語句に付された番号から一度テーブルをひき、
そのテーブルには重み係数の格納先頭アドレス又
は代表する重み係数が記されるようになつてい
て、どちらが記されているか明示するようにする
ことにより重み係数を格納するメモリー容量を減
少できる。 以上説明したように、第1の実施例では各登録
語の登録特徴セツト同志の差を計算して似かよつ
た登録語の登録特徴要素に対してはその特徴要素
の中で違いがはつきりしている部分の特徴要素に
大きな重み付けを行うため、重みづけが一様にな
されていた従来の方法では区別が困難とされる似
かよつた被認識語も区別できるため、被認識語を
制限しなくてよいと共に特徴の異なつている点に
着目することにより認識率を高める利点がある。
第1の実施例では全ての登録特徴要素相互間に異
なつた重み係数を与えることができるようになつ
ているが、重み係数を格納するメモリー容量を少
くする意味から、時間分割領域毎に重み係数を1
つ用意して、その分割領域に属する全てのチヤネ
ルフイルタデータ(特徴)は同一の重み係数とし
ても、効果は十分得られる。この場合は、第1の
実施例において(1)、(2)式に対応するのは、 である。そして、重み係数の表現は第1の実施例
がwij(l、m)=K3に対しwij(l)=K3とな
る。又分割領域ではなく周波数領域毎に重み係数
を割り当ててもよいがこの場合は多少効果が減少
する。 本発明はあらかじめ話者が発声した識別対象語
の特徴登録が全て終了した時点で自動的に対象語
の相互間の特徴の差を計算して重みづけを行うの
で似かよつた語句も正確に区別でき、音声認識装
置に利用することができる。
第1図は音声認識装置例の構成図、第2図は従
来の音声認識装置の計算機処理部のフローチヤー
ト、第3図は本発明の一実施例の計算機処理部の
フローチヤート、第4図1は重み係数をメモリー
に格納した概説図、第5図はその1ブロツクを示
した詳細図である。 1……マイクロフオン、2……プリアンプ、3
……帯域フイルタ群、4……ローパスフイルタ
群、5……マルチプレクサ、6……AD変換器、
7……制御部、8……マルチプレクサ切換え信号
線、9……AD変換器の制御線、10,11……
制御部7と計算機12とのインターフエース信号
線、12……小型計算機又はマイクロコンピユー
タとその周辺部、13……識別結果出力線、14
……音声データ入力処理、15……音声切出し処
理、16……特徴抽出処理、17……訓練か識別
かの判断、18……特徴登録処理、19……識別
処理、20……結果出力処理、21……訓練か重
み計算か、識別かの判断、22,27……音声デ
ータ入力処理、23,28……音声切出し処理、
24,29……特徴抽出処理、25……特徴登録
処理、26……重み計算処理、30……識別処
理、31……結果出力処理、Dij……登録特徴セ
ツト対の差、dij(l、m)……登録特徴要素対
の差、Fi,Fj……登録特徴セツト、fi(l、
m),fj(l、m)……登録特徴要素、g(l、
m)……被認識特徴要素、Wi、j……登録特徴セ
ツト対における重み係数の集合、wij(l、m)
……登録特徴要素対の重み係数、Si,SWa,
SWb……失点総和。
来の音声認識装置の計算機処理部のフローチヤー
ト、第3図は本発明の一実施例の計算機処理部の
フローチヤート、第4図1は重み係数をメモリー
に格納した概説図、第5図はその1ブロツクを示
した詳細図である。 1……マイクロフオン、2……プリアンプ、3
……帯域フイルタ群、4……ローパスフイルタ
群、5……マルチプレクサ、6……AD変換器、
7……制御部、8……マルチプレクサ切換え信号
線、9……AD変換器の制御線、10,11……
制御部7と計算機12とのインターフエース信号
線、12……小型計算機又はマイクロコンピユー
タとその周辺部、13……識別結果出力線、14
……音声データ入力処理、15……音声切出し処
理、16……特徴抽出処理、17……訓練か識別
かの判断、18……特徴登録処理、19……識別
処理、20……結果出力処理、21……訓練か重
み計算か、識別かの判断、22,27……音声デ
ータ入力処理、23,28……音声切出し処理、
24,29……特徴抽出処理、25……特徴登録
処理、26……重み計算処理、30……識別処
理、31……結果出力処理、Dij……登録特徴セ
ツト対の差、dij(l、m)……登録特徴要素対
の差、Fi,Fj……登録特徴セツト、fi(l、
m),fj(l、m)……登録特徴要素、g(l、
m)……被認識特徴要素、Wi、j……登録特徴セ
ツト対における重み係数の集合、wij(l、m)
……登録特徴要素対の重み係数、Si,SWa,
SWb……失点総和。
Claims (1)
- 1 同一話者の発声に基づく各登録語の登録特徴
要素からなる登録特徴セツトと被認識語の被認識
特徴要素からなる被認識特徴セツトとの非類似度
を一定の法則に従つて測定して、最小非類似度の
登録特徴セツトに対応した登録語を出力する音声
認識方法において、登録特徴セツト対における対
応した各登録特徴要素対の非類似度を一定の法則
に従つて測定し且つ登録特徴セツト対の非類似度
を一定の法則に従つて測定して、登録特徴セツト
の全ての組合せについて対応した各登録特徴要素
対の重み係数を記憶するものであつて、登録特徴
セツト対間の非類似度が第1の一定の値よりも小
さく且つ登録特徴要素対間の非類似度が第2の一
定の値よりも大きい登録特徴要素対の重み係数を
残部の登録特徴要素対の重み係数よりも大きく設
定する重み係数設定記憶手段を備え、各登録特徴
セツトと被認識特徴セツトとの最小非類似度が一
定の条件を満足しない場合に非類似度の小さい少
数複数個の登録語を検出する段階と、検出された
当該登録語を対象とし且つ前記登録特徴要素に前
記重み係数を乗じて得られたものを新らたなる登
録特徴要素とした各登録特徴セツトと前記被認識
特徴要素に前記重み係数を乗じて得られたものを
新たなる被認識特徴要素とした被認識特徴セツト
との非類似度を測定して、一定の条件を満足する
非類似度に対応した登録語を出力する段階とを有
することを特徴とした音声認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP14277279A JPS5666900A (en) | 1979-11-06 | 1979-11-06 | Voice identification system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP14277279A JPS5666900A (en) | 1979-11-06 | 1979-11-06 | Voice identification system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5666900A JPS5666900A (en) | 1981-06-05 |
| JPS6130280B2 true JPS6130280B2 (ja) | 1986-07-12 |
Family
ID=15323220
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP14277279A Granted JPS5666900A (en) | 1979-11-06 | 1979-11-06 | Voice identification system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5666900A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017141319A1 (ja) * | 2016-02-15 | 2017-08-24 | 三菱電機株式会社 | 筐体 |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61213900A (ja) * | 1985-03-20 | 1986-09-22 | 沖電気工業株式会社 | 不特定話者音声認識方式 |
-
1979
- 1979-11-06 JP JP14277279A patent/JPS5666900A/ja active Granted
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017141319A1 (ja) * | 2016-02-15 | 2017-08-24 | 三菱電機株式会社 | 筐体 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5666900A (en) | 1981-06-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH0361959B2 (ja) | ||
| HK199496A (en) | Textprocessing arrangement | |
| JPS58134699A (ja) | 連続ワ−トストリング認識方法および装置 | |
| JP6373621B2 (ja) | 話し方評価装置、話し方評価方法、プログラム | |
| JPH10105191A (ja) | 音声認識装置及びマイクロホン周波数特性変換方法 | |
| JPH0561496A (ja) | 音声認識装置 | |
| KR20210137503A (ko) | 음성 모델에 기반한 진단 기법 | |
| CN110570871A (zh) | 一种基于TristouNet的声纹识别方法、装置及设备 | |
| JPH0518118B2 (ja) | ||
| JPS6130280B2 (ja) | ||
| JPH0225517B2 (ja) | ||
| JP3393532B2 (ja) | 録音音声の音量正規化方法およびこの方法を実施する装置 | |
| CN108573712B (zh) | 语音活性检测模型生成方法、系统及语音活性检测方法、系统 | |
| JPS645320B2 (ja) | ||
| JPS62113197A (ja) | 音声認識装置 | |
| JPS58149099A (ja) | パタ−ン認識方式 | |
| JPS6126680B2 (ja) | ||
| JP2658104B2 (ja) | 音声認識装置 | |
| JPH0455518B2 (ja) | ||
| JPH0441357B2 (ja) | ||
| JPS61137199A (ja) | 単語音声の認識方法 | |
| JPH0426480B2 (ja) | ||
| JPS58123598A (ja) | 音声認識装置 | |
| JPH0236960B2 (ja) | ||
| JPH0311478B2 (ja) |