JPH0455518B2 - - Google Patents
Info
- Publication number
- JPH0455518B2 JPH0455518B2 JP59170659A JP17065984A JPH0455518B2 JP H0455518 B2 JPH0455518 B2 JP H0455518B2 JP 59170659 A JP59170659 A JP 59170659A JP 17065984 A JP17065984 A JP 17065984A JP H0455518 B2 JPH0455518 B2 JP H0455518B2
- Authority
- JP
- Japan
- Prior art keywords
- standard pattern
- unit
- group
- similarity
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000011218 segmentation Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims 4
- 238000000034 method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Description
産業上の利用分野
本発明は音声の内容を自動的に認識するための
音声認識装置に関するものである。 従来例の構成とその問題点 不特定話者を対象とする音声認識においては、
性別のちがい、あるいは年令のちがいにより音声
の性質が大きく異なり、いかに音声の性質を共通
化して不特定話者の声を認識するかが課題とな
る。 音声を音素単位で認識する場合に、音素標準パ
タンはこれらの性別、年令のちがいにより大きな
ばらつきがおこり、例えば母音/a/では男女間
にはスペクトル形状に大きな差がある。 この問題に対処するため、従来は同じ音素に対
しても複数個の標準パタンを用意しておき、入力
音声に対し全ての標準パタンの類似度計算を行
い、どの標準パタンに最も似ているかによつて認
識を行つている。 しかしこの方法では、用意する標準パタンの数
が多いほどお互いの混同が増加することによつて
認識性能が低下し、かつ演算量が膨大となる欠点
を有している。 従来の音声認識装置のブロツク図の一例を第1
図に示す。まずあらかじめ多数話者の音声データ
をクラスタリング手法等を用いてグループ分け
し、音素あるいは音節の単位で標準パタン群を作
成し、標準パタン格納部11に格納しておく。こ
こでは説明のため標準パタン格納部11中の標準
パタン群1は男性のみのデータで、標準パタン群
2は女性のみのデータとし各群毎に6種類の標準
パタンが用意されているとする。 さてマイク1より入力された入力音声はAD変
換器2によりAD変換された後に一方は信号処理
回路3へ送られ、プリエンフアシス、窓計算を行
つて線形予測分析プロセツサ4へ送られる。AD
変換された他方の信号はセグメンテーシヨン部5
に送られ、ここで帯域パワー計算、音声区間の検
出、有声無声無音判定、子声のセグメンテーシヨ
ンを行い、結果をメインメモリ7に転送する。線
形予測分析プロセツサ4で得たLPCパラメータ
を用い、類似度計算部6は次の手順で類似度計算
を行う。まず標準パタン格納部11に格納された
標準パタン群1の中の標準パタンを類似度計算部
6に転送し、フレーム毎に類似度計算を行い、メ
インメモリ7に転送する。同様にして標準パタン
群2についても行う。メインプロセツサ8はメイ
ンメモリ7を参照しフレーム毎に最も類似度の高
かつた標準パタンに相当する音素又は音節を認識
結果として採用し、これとセグメンテーシヨン部
5の結果を用いて音素又は音節の系列を作成す
る。そしてできた系列を単語辞書12と照合する
事によつて単語認識を行い、結果を出力部9に送
る。 この従来例の欠点は、標準パタン格納部11に
格納されている標準パタン群全部に対して類似度
計算を常に行なわねばならないために 1 類似度計算部6の計算量が大きなものとな
り、高速演算の要求される高価なものとなる。 2 標準パタン群を複数個用意し、全ての標準パ
タン群を対象としてその中で最も類似度の高い
音素を認識に用いる方法であるために、似かよ
つた音素の数が多くなり、互いの混同が増加す
ることにより認識性能を低下させる。 発明の目的 本発明は前記欠点を解消し、未知入力音声を用
いてその音声に最も適した標準パタンを自動選択
することにより、話者に負担をかけることなく不
特定話者の音声に対して高い信頼度で認識を可能
とし、かつ類似度計算の計算量を大幅に軽減する
ことにより高速処理の可能な音声認識装置を提供
することを目的とする。 発明の構成 本発明は前記目的を達成するために、あらかじ
め多数話者の音声をグループ分けして音声の標準
パタンをグループ毎に求めておき、未知音声が入
力されたらその音声の前記標準パタンに対する類
似度を算出し、前記類似度を用いてグループ毎に
未知音声がそのグループに属する信頼度を算出
し、信類度がある閾値を超えた時点で、閾値を超
えたグループの標準パタンのみを以後の未知入力
音声の認識に使用することを特徴とする音声認識
装置に関するものである。 実施例の説明 本発明は不特定話者の音声を年令や性別に関係
なく安定に認識できることを特徴とする。そのた
めに、音声を認識するための標準パタンを、男
性,女性,子供,老人……というように声の質の
ちがいによつてグループ分けして作成しておく。
実際に入力される音声はその中のどのグループに
属するかは不明であるが、本方法を用いることに
よつて、入力された音声を分析し、どのグループ
に属するかを高い確度で自動的に決定することが
できる。 以下実施例では男性(グループ1)と女性(グ
ループ2)の2つのグループのみを対象にした場
合について説明する。実施例の音声認識装置の構
成図を第2図に示す。 まず標準パタン格納部25に格納する内容を説
明する。 この実施例では、グループ1,2ごとに平均値
を求め、グループ全体を対象として共分散行列を
求め、これらを用いて標準パタンである重み係数
aij,平均距離diを求め標準パタン格納部25に格
納するものである。 まずグループ1の音声における音声iのLPC
ケプストラム係数の平均値を mi (1)=(mi1 (1),mi2 (1),………,mip (1)) とする。式中(1)はグループ1であることを示し、
pは使用パラメータ数である。標準パタンをフレ
ーム単位で構成する場合はLPCケプストラム係
数の次数をpとすると、P=pとなる。標準パタ
ンをnフレームの時間パタンで構成する場合はP
=p×nとなる。 又、グループ2の音声における音素iのLPC
ケプストラム係数平均値を mi (2)=(mi1 (2),mi2 (2),……,mip (2)) とする。これをグループ1とグループ2の各々に
対して母音/a/,/i/,/u/,/e/,/
o/と鼻音について求め、計12個とする。 次にグループ1の平均値mi (1)とグループ2の平
均値mi (2)を使用しこの12個の音素に共通の共分散
行列をRとし、その逆行列をR-1とする。R-1の
(j,j′)要素をrjj′とすると、LPCケプストラム
係数のj次に対する重み係数は、グループ1の音
素iに対して aij (1)=ZP 〓j=1 rjj′mij (1) ……(1) で求める。又、音声iに対する平均距離をdi (1)と
すると、 di (1)=mi (1)tR-1mi (1) ……(2) で求める。(tは転置行列を表わす。) このaij (1),di (1)を各音素毎に求め、標準パタン
格納部25の標準パタン群1に格納する。 同様に、グループ2についてaij (2),di (2)を求め、
標準パタン群2に格納する。 なお共分散行列はグループ1,2ごとに求めて
も良いことはもちろんである。 次に、類似度計算部24の動作について説明す
る。未知入力音声がマイク20から入力される
と、(ここでは「ハジメ」(ha zi me)という音
声であつたとする)信号処理回路22でプリエン
フアシス、窓計算を行つた後、線形予測分析プロ
セツサ23にてLPCケプストラムに係数cj(j=
1,2,……,p)が求められる。時間パタンを
用いる場合は(nフレーム)のc1〜cpを並べてc1
〜cpとする類似度計算部24は、このcjと標準パ
タン切換部26を通して送られてきた標準パタン
を用いて、類似度計算を行なう。グループ1の音
素iに対しては類似度li (1)は li (1)=P 〓j=1 aij (1)cjdmi (1) ……(3) で求める。これをグループ2に対しても li (2)=P 〓j=1 aij (2)cj−di (2) ……(4) で求め、計12音素分求めてメインメモリ27に転
送する。 セグメンテーシヨン部26では帯域パワー,有
声無声判定の計算を行い、音声区間の決定と子音
区間の検出(ここではha zi meの/h/,/
z/,/m/)を行い、メインメモリ27に転送
する。メインプロセツサ28は、メインメモリ2
7に登録された子音区間と類似度を用いて母音,
鼻音区間を決定し(ここではha zi meの/
a/,/i/,/m/,/e/)、音素中心(中
央の位置又は類似度最大の位置)をN個(ここで
はN=4)求める。 次に選択部29の動作について説明する。まず
前記方法で求めた4個の音素(/a/,/
i/,/m/,/e/)の音素中心における用意
された全音素(/a/,/i/,/u/,/
e/,/o/,鼻音)に対する最大類似度をグル
ープ毎に求め、グループ1の場合をli (1),グルー
プ2の場合をli (2)とする。これをN個の音素中心
について各々求め、グループ毎に類似度の総和を
L(1),L(2)とする。 L(1)=N 〓n=1 li (1) ……(4) L(2)=N 〓n=1 lj (2) ……(5) このL(1),L(2)を用いて信頼度Reを次式で定義
する。 Re (1)L(1)−L(2) ……(6) なおグループが3個以上の場合は各グループに
ついて類似度の総和を求め、その値の最大なもの
二つについて上記(6)式により信頼度Re (1)を求めれ
ば良い。 さてこのRe (1)が正値であらかじめ定められた閾
値を超えた場合は、使用者の音声はグループ1に
属するものと決定する。負値で、その絶対値が閾
値を超えた場合は、使用者の音声はグループ2に
属するものと決定する。いき値を超えることによ
つて決定された後は、選択部29は、標準パタン
切換部32に対して、決定されたグループの標準
パタンのみを類似度計算部24に与えるよう指示
して、動作を終了する。 Reがいき値を超えなかつた場合、選択部29
は標準パタン切換部32に対しグループ1及びグ
ループ2の両方の標準パタンを選択するように指
示し、さらにメインプロセツサ28に対し、正値
の場合はグループ1の類似度を、負値の場合はグ
ループ2の類似度を音素認識に用いるよう指示を
与える。 従つて、メインプロセツサ28は信頼度Reが
閾値を超えない間は選択部29の指示に従い、指
示された類似度を用いて音素認識し、結果を単語
辞書30を照合することによつて単語認識を行
い、最も類似度の高かつた単語辞書を認識結果と
して出力部31に転送する。 又、信頼度Reが閾値を超えない間は、標準パ
タン切換部26は選択部29の指示に従い、標準
パタン1,2を順次転送し、類似度計算部24は
標準パタン群1,2に対する類似度計算をくり返
す。従つて、この間類似度計算部24は類似度計
算のための演算量が多いが、選択部29の動作を
終了した時点より、決定されたグループのみの類
似度計算を行えば良くなり、演算量は大幅に軽減
される。又、メインプロセツサ28は信頼性の高
い標準パタンを用いて音素認識が得られるように
なり、単語認識の精度が向上する。 以上述べた実施例においては、信頼度の算出を
最大類似度の和を用いて行つていたが、それ以外
に信頼度の算出を最大類似度を得る回数で行つて
も良い。類似度計算部24で得た類似度の中で、
最も類似度の高いものをli (1)とする。メインプロ
セツサ28は選択部29にli (1)であることを知ら
せる。選択部29は、li (1)はグループ1に属する
ものとして、回数N(1)をカウントアツプする。lj
(2)が送られてきた場合には、回数N(2)をカウント
アツプする。 信頼度Reは次式で計算する。 Re(1)=N(1)/N(2) ……(7) Re(2)=N(2)/N(1) ……(8) このRe(1),Re(2)のいずれかがあらかじめ定め
られた閾値を超えたら、それがRe(1)の場合グル
ープ1に、Re(2)の場合グループ2に決定する。
閾値を超えない間はN(1)とN(2)を比較し、大きい
方のグループの類似度を音素認識に用いるよう、
メインプロセツサ28に指示を与える。 この方法では、最大類似度を得る回数のみを用
いるため、前述の類似度和を用いる方法に比し
て、騒音等の音声スペクトルに歪を与える要因に
対してより安定である特長がある。 なおグループが3個以上の場合には回数の多い
もの二つについて信頼度Reを計算すれば良い。 次に標準パタン群の自動選択について第2図の
ブロツク図及び第3図のフローチヤートを用いて
説明する。 処理イに示すように任意の言葉、例えば「ハジ
メ」(ha zi me)という音声がマイクに入力され
たとする。 かかる音声はA/D変換器21でA/D変換さ
れ(処理ロ)、一方は信号処理回路22へ、他方
はセグメンテーシヨン部26へ送られる。信号処
理回路22では処理ハに示すようにフレーム毎に
プリエンフアシス,ハミング窓による窓計算を行
つた後、その結果を線形予測分析プロセツサ23
へ送る。線形予測分析プロセツサ23は線形予測
分析を行なつてLPCケプストラム係数C=(c1,
c2,……cj,……cp)を求め(処理ニ)、類似度
計算部24へ送る。 一方、セグメンテーシヨン部26は帯域フイル
タ計算を行い(処理ホ)、又線形予測分析プロセ
ツサ23で求めたLPCケプストラム係数Cを用
いて有声無声判定,音声区間の検出(処理ヘ)、
子音ha zi meの/h/,/z/,/m/のセグ
メンテーシヨンおよび子音判別(処理ト)を行い
その結果をメインメモリ27に送る(処理チ)。 また選択部29は標準パタン群1の中に予め準
備されたaij (1),di (1)を類似度計算部24に送る
(処理リ)。類似度計算部24では処理ヌに示すよ
うに次式でグループ1の音素iに対する類似度li
(1)を求める。 li (1)=P 〓j=1 aij (1)cj−di (1) ……(3) 類似度はベイズ判定やマハラノビス距離等の統計
的距離尺度に基づくものが好適である。 同様にグループ2についてもli (2)を求め、これ
らをメインメモリ27に転送する(処理ル)。 メインプロセツサ28はセグメンテーシヨン結
果と、母音・鼻音に対する類似度を参照して処理
オの如く母音・鼻音部ha zi meの/a/と/
i/と/m/と/e/を決定し、決定した母音,
鼻音部の中から、最も母音又は鼻音らしい中心の
フレーム(中央の位置又は類似度最大の位置)を
各母音・鼻音部に対して選び、その位置情報を選
択部29に与える。 選択部29は中心フレームのグループ毎の最大
類似度を求め、さらにその類似度和L(1),L(2)を求
める。 そして(6)式又は(7),(8)式を用いて信頼度を算出
し、閾値を越えるか歪かの判定を行う(処理カ)。
この結果に基づく標準パタン切換部32は標準パ
タン格納部25内の標準パタン群を選択する。 次に本実施例による音声認識装置の処理の流れ
を第4図に示す。最初に音声が入力されたら(判
断ツ)音響分析し(処理ネ)、判断ナを経由して
セグメンテーシヨン,類似度計算1を行なう(処
理ラ)。この時は、用意された全てのグループの
標準パタンに対して類似度計算を行う。次に、音
声中の母音,鼻音の音素中心を抽出し、グループ
を判別する信頼度を計算する(処理ム)。信頼度
が閾値以下なら(判断ウ)、その時点で信頼度の
最も高いグループの類似度を用いて音素認識を行
う。閾値以上なら標準パタン選択終了命令を出し
(処理マ)、閾値を超えたグループの類似度で音素
認識を行なう(処理イ)。音素認識結果を用いて
単語認識を行い(処理ヲ)、単語認識結果を出力
して(処理ワ)、再び音声入力待ちにもどる。 次の音声が入力されたら音響分析の後(処理
ネ)標準パタン選択終了命令が出されているか歪
かを調べ(判断ナ)、されてなければ最初の音声
の場合と同様な処理をくり返す。されていれば、
すでにグループが決定されているため、そのグル
ープの標準パタンのみを用いてセグメンテーシヨ
ン,類似度計算2を行い(処理ヤ)、音素認識の
ルーチンへ移る。 このように装置としての処理の流れは簡単であ
り、特に複雑な演算処理を行うことなく実現でき
ることを特徴とする。 本実施例の方法で、成人男女100名を対象に、
212単語中の最初の10単語を用いて、閾値を超え
るに必要な単語数を話者毎に求め、人数を評価し
た結果を第1表に示す。
音声認識装置に関するものである。 従来例の構成とその問題点 不特定話者を対象とする音声認識においては、
性別のちがい、あるいは年令のちがいにより音声
の性質が大きく異なり、いかに音声の性質を共通
化して不特定話者の声を認識するかが課題とな
る。 音声を音素単位で認識する場合に、音素標準パ
タンはこれらの性別、年令のちがいにより大きな
ばらつきがおこり、例えば母音/a/では男女間
にはスペクトル形状に大きな差がある。 この問題に対処するため、従来は同じ音素に対
しても複数個の標準パタンを用意しておき、入力
音声に対し全ての標準パタンの類似度計算を行
い、どの標準パタンに最も似ているかによつて認
識を行つている。 しかしこの方法では、用意する標準パタンの数
が多いほどお互いの混同が増加することによつて
認識性能が低下し、かつ演算量が膨大となる欠点
を有している。 従来の音声認識装置のブロツク図の一例を第1
図に示す。まずあらかじめ多数話者の音声データ
をクラスタリング手法等を用いてグループ分け
し、音素あるいは音節の単位で標準パタン群を作
成し、標準パタン格納部11に格納しておく。こ
こでは説明のため標準パタン格納部11中の標準
パタン群1は男性のみのデータで、標準パタン群
2は女性のみのデータとし各群毎に6種類の標準
パタンが用意されているとする。 さてマイク1より入力された入力音声はAD変
換器2によりAD変換された後に一方は信号処理
回路3へ送られ、プリエンフアシス、窓計算を行
つて線形予測分析プロセツサ4へ送られる。AD
変換された他方の信号はセグメンテーシヨン部5
に送られ、ここで帯域パワー計算、音声区間の検
出、有声無声無音判定、子声のセグメンテーシヨ
ンを行い、結果をメインメモリ7に転送する。線
形予測分析プロセツサ4で得たLPCパラメータ
を用い、類似度計算部6は次の手順で類似度計算
を行う。まず標準パタン格納部11に格納された
標準パタン群1の中の標準パタンを類似度計算部
6に転送し、フレーム毎に類似度計算を行い、メ
インメモリ7に転送する。同様にして標準パタン
群2についても行う。メインプロセツサ8はメイ
ンメモリ7を参照しフレーム毎に最も類似度の高
かつた標準パタンに相当する音素又は音節を認識
結果として採用し、これとセグメンテーシヨン部
5の結果を用いて音素又は音節の系列を作成す
る。そしてできた系列を単語辞書12と照合する
事によつて単語認識を行い、結果を出力部9に送
る。 この従来例の欠点は、標準パタン格納部11に
格納されている標準パタン群全部に対して類似度
計算を常に行なわねばならないために 1 類似度計算部6の計算量が大きなものとな
り、高速演算の要求される高価なものとなる。 2 標準パタン群を複数個用意し、全ての標準パ
タン群を対象としてその中で最も類似度の高い
音素を認識に用いる方法であるために、似かよ
つた音素の数が多くなり、互いの混同が増加す
ることにより認識性能を低下させる。 発明の目的 本発明は前記欠点を解消し、未知入力音声を用
いてその音声に最も適した標準パタンを自動選択
することにより、話者に負担をかけることなく不
特定話者の音声に対して高い信頼度で認識を可能
とし、かつ類似度計算の計算量を大幅に軽減する
ことにより高速処理の可能な音声認識装置を提供
することを目的とする。 発明の構成 本発明は前記目的を達成するために、あらかじ
め多数話者の音声をグループ分けして音声の標準
パタンをグループ毎に求めておき、未知音声が入
力されたらその音声の前記標準パタンに対する類
似度を算出し、前記類似度を用いてグループ毎に
未知音声がそのグループに属する信頼度を算出
し、信類度がある閾値を超えた時点で、閾値を超
えたグループの標準パタンのみを以後の未知入力
音声の認識に使用することを特徴とする音声認識
装置に関するものである。 実施例の説明 本発明は不特定話者の音声を年令や性別に関係
なく安定に認識できることを特徴とする。そのた
めに、音声を認識するための標準パタンを、男
性,女性,子供,老人……というように声の質の
ちがいによつてグループ分けして作成しておく。
実際に入力される音声はその中のどのグループに
属するかは不明であるが、本方法を用いることに
よつて、入力された音声を分析し、どのグループ
に属するかを高い確度で自動的に決定することが
できる。 以下実施例では男性(グループ1)と女性(グ
ループ2)の2つのグループのみを対象にした場
合について説明する。実施例の音声認識装置の構
成図を第2図に示す。 まず標準パタン格納部25に格納する内容を説
明する。 この実施例では、グループ1,2ごとに平均値
を求め、グループ全体を対象として共分散行列を
求め、これらを用いて標準パタンである重み係数
aij,平均距離diを求め標準パタン格納部25に格
納するものである。 まずグループ1の音声における音声iのLPC
ケプストラム係数の平均値を mi (1)=(mi1 (1),mi2 (1),………,mip (1)) とする。式中(1)はグループ1であることを示し、
pは使用パラメータ数である。標準パタンをフレ
ーム単位で構成する場合はLPCケプストラム係
数の次数をpとすると、P=pとなる。標準パタ
ンをnフレームの時間パタンで構成する場合はP
=p×nとなる。 又、グループ2の音声における音素iのLPC
ケプストラム係数平均値を mi (2)=(mi1 (2),mi2 (2),……,mip (2)) とする。これをグループ1とグループ2の各々に
対して母音/a/,/i/,/u/,/e/,/
o/と鼻音について求め、計12個とする。 次にグループ1の平均値mi (1)とグループ2の平
均値mi (2)を使用しこの12個の音素に共通の共分散
行列をRとし、その逆行列をR-1とする。R-1の
(j,j′)要素をrjj′とすると、LPCケプストラム
係数のj次に対する重み係数は、グループ1の音
素iに対して aij (1)=ZP 〓j=1 rjj′mij (1) ……(1) で求める。又、音声iに対する平均距離をdi (1)と
すると、 di (1)=mi (1)tR-1mi (1) ……(2) で求める。(tは転置行列を表わす。) このaij (1),di (1)を各音素毎に求め、標準パタン
格納部25の標準パタン群1に格納する。 同様に、グループ2についてaij (2),di (2)を求め、
標準パタン群2に格納する。 なお共分散行列はグループ1,2ごとに求めて
も良いことはもちろんである。 次に、類似度計算部24の動作について説明す
る。未知入力音声がマイク20から入力される
と、(ここでは「ハジメ」(ha zi me)という音
声であつたとする)信号処理回路22でプリエン
フアシス、窓計算を行つた後、線形予測分析プロ
セツサ23にてLPCケプストラムに係数cj(j=
1,2,……,p)が求められる。時間パタンを
用いる場合は(nフレーム)のc1〜cpを並べてc1
〜cpとする類似度計算部24は、このcjと標準パ
タン切換部26を通して送られてきた標準パタン
を用いて、類似度計算を行なう。グループ1の音
素iに対しては類似度li (1)は li (1)=P 〓j=1 aij (1)cjdmi (1) ……(3) で求める。これをグループ2に対しても li (2)=P 〓j=1 aij (2)cj−di (2) ……(4) で求め、計12音素分求めてメインメモリ27に転
送する。 セグメンテーシヨン部26では帯域パワー,有
声無声判定の計算を行い、音声区間の決定と子音
区間の検出(ここではha zi meの/h/,/
z/,/m/)を行い、メインメモリ27に転送
する。メインプロセツサ28は、メインメモリ2
7に登録された子音区間と類似度を用いて母音,
鼻音区間を決定し(ここではha zi meの/
a/,/i/,/m/,/e/)、音素中心(中
央の位置又は類似度最大の位置)をN個(ここで
はN=4)求める。 次に選択部29の動作について説明する。まず
前記方法で求めた4個の音素(/a/,/
i/,/m/,/e/)の音素中心における用意
された全音素(/a/,/i/,/u/,/
e/,/o/,鼻音)に対する最大類似度をグル
ープ毎に求め、グループ1の場合をli (1),グルー
プ2の場合をli (2)とする。これをN個の音素中心
について各々求め、グループ毎に類似度の総和を
L(1),L(2)とする。 L(1)=N 〓n=1 li (1) ……(4) L(2)=N 〓n=1 lj (2) ……(5) このL(1),L(2)を用いて信頼度Reを次式で定義
する。 Re (1)L(1)−L(2) ……(6) なおグループが3個以上の場合は各グループに
ついて類似度の総和を求め、その値の最大なもの
二つについて上記(6)式により信頼度Re (1)を求めれ
ば良い。 さてこのRe (1)が正値であらかじめ定められた閾
値を超えた場合は、使用者の音声はグループ1に
属するものと決定する。負値で、その絶対値が閾
値を超えた場合は、使用者の音声はグループ2に
属するものと決定する。いき値を超えることによ
つて決定された後は、選択部29は、標準パタン
切換部32に対して、決定されたグループの標準
パタンのみを類似度計算部24に与えるよう指示
して、動作を終了する。 Reがいき値を超えなかつた場合、選択部29
は標準パタン切換部32に対しグループ1及びグ
ループ2の両方の標準パタンを選択するように指
示し、さらにメインプロセツサ28に対し、正値
の場合はグループ1の類似度を、負値の場合はグ
ループ2の類似度を音素認識に用いるよう指示を
与える。 従つて、メインプロセツサ28は信頼度Reが
閾値を超えない間は選択部29の指示に従い、指
示された類似度を用いて音素認識し、結果を単語
辞書30を照合することによつて単語認識を行
い、最も類似度の高かつた単語辞書を認識結果と
して出力部31に転送する。 又、信頼度Reが閾値を超えない間は、標準パ
タン切換部26は選択部29の指示に従い、標準
パタン1,2を順次転送し、類似度計算部24は
標準パタン群1,2に対する類似度計算をくり返
す。従つて、この間類似度計算部24は類似度計
算のための演算量が多いが、選択部29の動作を
終了した時点より、決定されたグループのみの類
似度計算を行えば良くなり、演算量は大幅に軽減
される。又、メインプロセツサ28は信頼性の高
い標準パタンを用いて音素認識が得られるように
なり、単語認識の精度が向上する。 以上述べた実施例においては、信頼度の算出を
最大類似度の和を用いて行つていたが、それ以外
に信頼度の算出を最大類似度を得る回数で行つて
も良い。類似度計算部24で得た類似度の中で、
最も類似度の高いものをli (1)とする。メインプロ
セツサ28は選択部29にli (1)であることを知ら
せる。選択部29は、li (1)はグループ1に属する
ものとして、回数N(1)をカウントアツプする。lj
(2)が送られてきた場合には、回数N(2)をカウント
アツプする。 信頼度Reは次式で計算する。 Re(1)=N(1)/N(2) ……(7) Re(2)=N(2)/N(1) ……(8) このRe(1),Re(2)のいずれかがあらかじめ定め
られた閾値を超えたら、それがRe(1)の場合グル
ープ1に、Re(2)の場合グループ2に決定する。
閾値を超えない間はN(1)とN(2)を比較し、大きい
方のグループの類似度を音素認識に用いるよう、
メインプロセツサ28に指示を与える。 この方法では、最大類似度を得る回数のみを用
いるため、前述の類似度和を用いる方法に比し
て、騒音等の音声スペクトルに歪を与える要因に
対してより安定である特長がある。 なおグループが3個以上の場合には回数の多い
もの二つについて信頼度Reを計算すれば良い。 次に標準パタン群の自動選択について第2図の
ブロツク図及び第3図のフローチヤートを用いて
説明する。 処理イに示すように任意の言葉、例えば「ハジ
メ」(ha zi me)という音声がマイクに入力され
たとする。 かかる音声はA/D変換器21でA/D変換さ
れ(処理ロ)、一方は信号処理回路22へ、他方
はセグメンテーシヨン部26へ送られる。信号処
理回路22では処理ハに示すようにフレーム毎に
プリエンフアシス,ハミング窓による窓計算を行
つた後、その結果を線形予測分析プロセツサ23
へ送る。線形予測分析プロセツサ23は線形予測
分析を行なつてLPCケプストラム係数C=(c1,
c2,……cj,……cp)を求め(処理ニ)、類似度
計算部24へ送る。 一方、セグメンテーシヨン部26は帯域フイル
タ計算を行い(処理ホ)、又線形予測分析プロセ
ツサ23で求めたLPCケプストラム係数Cを用
いて有声無声判定,音声区間の検出(処理ヘ)、
子音ha zi meの/h/,/z/,/m/のセグ
メンテーシヨンおよび子音判別(処理ト)を行い
その結果をメインメモリ27に送る(処理チ)。 また選択部29は標準パタン群1の中に予め準
備されたaij (1),di (1)を類似度計算部24に送る
(処理リ)。類似度計算部24では処理ヌに示すよ
うに次式でグループ1の音素iに対する類似度li
(1)を求める。 li (1)=P 〓j=1 aij (1)cj−di (1) ……(3) 類似度はベイズ判定やマハラノビス距離等の統計
的距離尺度に基づくものが好適である。 同様にグループ2についてもli (2)を求め、これ
らをメインメモリ27に転送する(処理ル)。 メインプロセツサ28はセグメンテーシヨン結
果と、母音・鼻音に対する類似度を参照して処理
オの如く母音・鼻音部ha zi meの/a/と/
i/と/m/と/e/を決定し、決定した母音,
鼻音部の中から、最も母音又は鼻音らしい中心の
フレーム(中央の位置又は類似度最大の位置)を
各母音・鼻音部に対して選び、その位置情報を選
択部29に与える。 選択部29は中心フレームのグループ毎の最大
類似度を求め、さらにその類似度和L(1),L(2)を求
める。 そして(6)式又は(7),(8)式を用いて信頼度を算出
し、閾値を越えるか歪かの判定を行う(処理カ)。
この結果に基づく標準パタン切換部32は標準パ
タン格納部25内の標準パタン群を選択する。 次に本実施例による音声認識装置の処理の流れ
を第4図に示す。最初に音声が入力されたら(判
断ツ)音響分析し(処理ネ)、判断ナを経由して
セグメンテーシヨン,類似度計算1を行なう(処
理ラ)。この時は、用意された全てのグループの
標準パタンに対して類似度計算を行う。次に、音
声中の母音,鼻音の音素中心を抽出し、グループ
を判別する信頼度を計算する(処理ム)。信頼度
が閾値以下なら(判断ウ)、その時点で信頼度の
最も高いグループの類似度を用いて音素認識を行
う。閾値以上なら標準パタン選択終了命令を出し
(処理マ)、閾値を超えたグループの類似度で音素
認識を行なう(処理イ)。音素認識結果を用いて
単語認識を行い(処理ヲ)、単語認識結果を出力
して(処理ワ)、再び音声入力待ちにもどる。 次の音声が入力されたら音響分析の後(処理
ネ)標準パタン選択終了命令が出されているか歪
かを調べ(判断ナ)、されてなければ最初の音声
の場合と同様な処理をくり返す。されていれば、
すでにグループが決定されているため、そのグル
ープの標準パタンのみを用いてセグメンテーシヨ
ン,類似度計算2を行い(処理ヤ)、音素認識の
ルーチンへ移る。 このように装置としての処理の流れは簡単であ
り、特に複雑な演算処理を行うことなく実現でき
ることを特徴とする。 本実施例の方法で、成人男女100名を対象に、
212単語中の最初の10単語を用いて、閾値を超え
るに必要な単語数を話者毎に求め、人数を評価し
た結果を第1表に示す。
【表】
すなわち、4単語まで用いれば100人中98人ま
で正しく、グループの判定を行うことができる。
残り2名中1名は、9単語まで必要とするが、正
しくグループを判定される。このグループ判定を
誤つた場合には母音・鼻音認識率が88.4%→59.3
%と大幅に低下するため学習単語数を多くとつて
誤らないようにすることが重要である。誤つた1
名は、女性を男性と誤つた場合であるが、この話
者は男性の標準パタンを用いても母音,鼻音の認
識率は78.5%→75.5%と認識率の低下は極めて少
ない。すなわちこの話者の音声は男性の標準パタ
ンにも合つており男女の判別を誤つても問題はな
い。 このように、本実施例を用いれば、高い確度で
男女の判別を行うことが可能となる。
で正しく、グループの判定を行うことができる。
残り2名中1名は、9単語まで必要とするが、正
しくグループを判定される。このグループ判定を
誤つた場合には母音・鼻音認識率が88.4%→59.3
%と大幅に低下するため学習単語数を多くとつて
誤らないようにすることが重要である。誤つた1
名は、女性を男性と誤つた場合であるが、この話
者は男性の標準パタンを用いても母音,鼻音の認
識率は78.5%→75.5%と認識率の低下は極めて少
ない。すなわちこの話者の音声は男性の標準パタ
ンにも合つており男女の判別を誤つても問題はな
い。 このように、本実施例を用いれば、高い確度で
男女の判別を行うことが可能となる。
【表】
男女20名を対象に、5母音,鼻音の平均音素認
識率をフレーム単位で評価,比較した結果を第2
表に示す。男女の区別無は、従来法に述べた、男
女別々の標準パタンを用意し、男女を区別するこ
となく最大類似度を得る標準パタンを認識結果と
するものである。男女の区別有は本実施例による
方法である。各々フレーム認識率を%で示し、
( )で認識率のバラツキを標準偏差で示す。 従来法に比し、本実施例を用いると認識率が向
上し、バラツキも減少する。特に、女性の認識率
の向上と、男性のバラツキの減少に大きな効果が
あり、本実施例の有効性を示している。 発明の効果 以上述べたように本発明は、あらかじめ多数話
者の音声をグループ分けして認識のための標準パ
タンをグループ毎に作成しておき、未知入力音声
を用いてその音声に最も適した標準パタンを自動
選択する機能を持たせることにより、 1 使用者に負担をかけることなく、使用者の声
に最も適した標準パタンを用いて音声を認識す
ることができ、不特定話者に対して安定した高
い精度の認識を実現することができる。 2 使用標準パタンを1組にしぼることにより計
算量を軽減し、処理速度の速い音声認識装置を
実現することができる。 という利点を有する。
識率をフレーム単位で評価,比較した結果を第2
表に示す。男女の区別無は、従来法に述べた、男
女別々の標準パタンを用意し、男女を区別するこ
となく最大類似度を得る標準パタンを認識結果と
するものである。男女の区別有は本実施例による
方法である。各々フレーム認識率を%で示し、
( )で認識率のバラツキを標準偏差で示す。 従来法に比し、本実施例を用いると認識率が向
上し、バラツキも減少する。特に、女性の認識率
の向上と、男性のバラツキの減少に大きな効果が
あり、本実施例の有効性を示している。 発明の効果 以上述べたように本発明は、あらかじめ多数話
者の音声をグループ分けして認識のための標準パ
タンをグループ毎に作成しておき、未知入力音声
を用いてその音声に最も適した標準パタンを自動
選択する機能を持たせることにより、 1 使用者に負担をかけることなく、使用者の声
に最も適した標準パタンを用いて音声を認識す
ることができ、不特定話者に対して安定した高
い精度の認識を実現することができる。 2 使用標準パタンを1組にしぼることにより計
算量を軽減し、処理速度の速い音声認識装置を
実現することができる。 という利点を有する。
第1図は従来の音声認識装置を示す機能ブロツ
ク図、第2図は本発明の一実施例における音声認
識装置を示す機能ブロツク図、第3図は本発明の
一実施例における標準パタン群の自動選択機能を
説明するフローチヤート、第4図は本発明の音声
認識装置の認識手順の一例を示すフローチヤート
である。 23……線形予測分析プロセツサ、24……類
似度計算部、25……標準パタン格納部、26…
…セグメンテーシヨン部、28……メインプロセ
ツサ、29……選択部、30……単語辞書部、3
2……標準パタン切換部。
ク図、第2図は本発明の一実施例における音声認
識装置を示す機能ブロツク図、第3図は本発明の
一実施例における標準パタン群の自動選択機能を
説明するフローチヤート、第4図は本発明の音声
認識装置の認識手順の一例を示すフローチヤート
である。 23……線形予測分析プロセツサ、24……類
似度計算部、25……標準パタン格納部、26…
…セグメンテーシヨン部、28……メインプロセ
ツサ、29……選択部、30……単語辞書部、3
2……標準パタン切換部。
Claims (1)
- 【特許請求の範囲】 1 入力音声よりフレーム周期ごとに得られたス
ペクトルまたはそれに類似する情報(以下スペク
トル情報と記す)を算出する音響分析部と、入力
音声の音声区間の検出と音素毎のセグメンテーシ
ヨンを行うセグメンテーシヨン部と、多数話者か
らなる標準音声信号から、性質の類似した話者ご
とに分類された複数の標準パタン群を予め格納す
る標準パタン格納部と、前記標準パタン格納部内
の標準パタン群の選択を行う標準パタン切換部
と、前記標準パタン格納部の標準パタン群と前記
スペクトル情報とを用いて音素ごとの統計的距離
尺度に基づく類似度を求める類似度計算部と、前
記類似度計算部とセグメンテーシヨン部の結果か
ら少なくとも母音部を決定し、その音素の定常部
を示すフレームの位置情報を選択するプロセツサ
部と、前記プロセツサ部で得られた位置情報に対
応する、類似度計算部で求めた類似度を用いて、
全入力音声が用意された標準パタン群に似ている
度合の累計を標準パタン群ごとに設け、その累計
の最も大きい二つの標準パタン群についてその差
または比を求めて信頼度を算出し、前記信頼度が
ある閾値を越えた場合に前記二つの標準パタン群
のうちのいずれか一方を選択し、閾値を越えない
場合には全標準パタン群を順次読み出すように前
記標準パタン切換部を制御する選択部と、前記標
準パタン切換部で選択された標準パタン群または
累計が最大の標準パタン群を用いて前記プロセツ
サ部で作成された音素または音節系列と比較する
単語辞書を格納する単語辞書部とを具備すること
を特徴とする音声認識装置。 2 統計的距離尺度として、対象とするすべての
標準パタン群に共通の共分散行列と、各標準パタ
ン群ごとに音素別に設けた平均値とを組み合わせ
たマハラノビス距離を用いることを特徴とする特
許請求の範囲第1項記載の音声認識装置。 3 全入力音声が用意された標準パタン群に似て
いる度合の累計を、最大類似度となる標準パタン
の回数または最大類似度の類似度和で求めること
を特徴とする特許請求の範囲第1項記載の音声認
識装置。 4 標準パタン格納部に、少なくとも男声と女声
とからなる標準パタン群が格納されていることを
特徴とする特許請求の範囲第1項記載の音声認識
装置。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59170659A JPS6148897A (ja) | 1984-08-16 | 1984-08-16 | 音声認識装置 |
| US07/441,225 US5131043A (en) | 1983-09-05 | 1989-11-20 | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59170659A JPS6148897A (ja) | 1984-08-16 | 1984-08-16 | 音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS6148897A JPS6148897A (ja) | 1986-03-10 |
| JPH0455518B2 true JPH0455518B2 (ja) | 1992-09-03 |
Family
ID=15908981
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59170659A Granted JPS6148897A (ja) | 1983-09-05 | 1984-08-16 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS6148897A (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3886024B2 (ja) * | 1997-11-19 | 2007-02-28 | 富士通株式会社 | 音声認識装置及びそれを用いた情報処理装置 |
| JP2009104020A (ja) * | 2007-10-25 | 2009-05-14 | Panasonic Electric Works Co Ltd | 音声認識装置 |
| JP5112978B2 (ja) * | 2008-07-30 | 2013-01-09 | Kddi株式会社 | 音声認識装置、音声認識システムおよびプログラム |
-
1984
- 1984-08-16 JP JP59170659A patent/JPS6148897A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS6148897A (ja) | 1986-03-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Liu | Landmark detection for distinctive feature‐based speech recognition | |
| Arora et al. | Automatic speech recognition: a review | |
| US6618702B1 (en) | Method of and device for phone-based speaker recognition | |
| EP0549265A2 (en) | Neural network-based speech token recognition system and method | |
| Gulzar et al. | A systematic analysis of automatic speech recognition: an overview | |
| Radha et al. | Accent classification of native and non-native children using harmonic pitch | |
| US12488805B2 (en) | Using optimal articulatory event-types for computer analysis of speech | |
| JP3444108B2 (ja) | 音声認識装置 | |
| JPS6138479B2 (ja) | ||
| Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
| WO2018169772A2 (en) | Quality feedback on user-recorded keywords for automatic speech recognition systems | |
| Dabbabi et al. | Parkinson detection using VOT-MFCC combination and fully-connected deep neural network (FC-DNN) classifier | |
| US12518774B2 (en) | Identifying optimal articulatory event-types for computer analysis of speech | |
| Manjunath et al. | Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali | |
| JPH0455518B2 (ja) | ||
| JP2007240589A (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
| Hunt | Speaker adaptation for word‐based speech recognition systems | |
| JP2010072446A (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
| JP3289670B2 (ja) | 音声認識方法および音声認識装置 | |
| Lee | Automatic recognition of isolated cantonese syllables using neural networks | |
| JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
| Chang | Improving wordspotting performance with limited training data | |
| JP3291073B2 (ja) | 音声認識方式 | |
| Hamzah et al. | Impact of acoustical voice activity detection on spontaneous filled pause classification | |
| JPH10124090A (ja) | 音声認識方法およびこの方法を実施する装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |