JPH0455518B2

JPH0455518B2 -

Info

Publication number: JPH0455518B2
Application number: JP59170659A
Authority: JP
Inventors: Satoshi Fujii; Katsuyuki Futayada
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1984-08-16
Filing date: 1984-08-16
Publication date: 1992-09-03
Also published as: JPS6148897A

Description

【発明の詳細な説明】

産業上の利用分野本発明は音声の内容を自動的に認識するための
音声認識装置に関するものである。従来例の構成とその問題点不特定話者を対象とする音声認識においては、
性別のちがい、あるいは年令のちがいにより音声
の性質が大きく異なり、いかに音声の性質を共通
化して不特定話者の声を認識するかが課題とな
る。音声を音素単位で認識する場合に、音素標準パ
タンはこれらの性別、年令のちがいにより大きな
ばらつきがおこり、例えば母音／ａ／では男女間
にはスペクトル形状に大きな差がある。この問題に対処するため、従来は同じ音素に対
しても複数個の標準パタンを用意しておき、入力
音声に対し全ての標準パタンの類似度計算を行
い、どの標準パタンに最も似ているかによつて認
識を行つている。しかしこの方法では、用意する標準パタンの数
が多いほどお互いの混同が増加することによつて
認識性能が低下し、かつ演算量が膨大となる欠点
を有している。従来の音声認識装置のブロツク図の一例を第１
図に示す。まずあらかじめ多数話者の音声データ
をクラスタリング手法等を用いてグループ分け
し、音素あるいは音節の単位で標準パタン群を作
成し、標準パタン格納部１１に格納しておく。こ
こでは説明のため標準パタン格納部１１中の標準
パタン群１は男性のみのデータで、標準パタン群
２は女性のみのデータとし各群毎に６種類の標準
パタンが用意されているとする。さてマイク１より入力された入力音声はAD変
換器２によりAD変換された後に一方は信号処理
回路３へ送られ、プリエンフアシス、窓計算を行
つて線形予測分析プロセツサ４へ送られる。AD
変換された他方の信号はセグメンテーシヨン部５
に送られ、ここで帯域パワー計算、音声区間の検
出、有声無声無音判定、子声のセグメンテーシヨ
ンを行い、結果をメインメモリ７に転送する。線
形予測分析プロセツサ４で得たLPCパラメータ
を用い、類似度計算部６は次の手順で類似度計算
を行う。まず標準パタン格納部１１に格納された
標準パタン群１の中の標準パタンを類似度計算部
６に転送し、フレーム毎に類似度計算を行い、メ
インメモリ７に転送する。同様にして標準パタン
群２についても行う。メインプロセツサ８はメイ
ンメモリ７を参照しフレーム毎に最も類似度の高
かつた標準パタンに相当する音素又は音節を認識
結果として採用し、これとセグメンテーシヨン部
５の結果を用いて音素又は音節の系列を作成す
る。そしてできた系列を単語辞書１２と照合する
事によつて単語認識を行い、結果を出力部９に送
る。この従来例の欠点は、標準パタン格納部１１に
格納されている標準パタン群全部に対して類似度
計算を常に行なわねばならないために１類似度計算部６の計算量が大きなものとな
り、高速演算の要求される高価なものとなる。２標準パタン群を複数個用意し、全ての標準パ
タン群を対象としてその中で最も類似度の高い
音素を認識に用いる方法であるために、似かよ
つた音素の数が多くなり、互いの混同が増加す
ることにより認識性能を低下させる。発明の目的本発明は前記欠点を解消し、未知入力音声を用
いてその音声に最も適した標準パタンを自動選択
することにより、話者に負担をかけることなく不
特定話者の音声に対して高い信頼度で認識を可能
とし、かつ類似度計算の計算量を大幅に軽減する
ことにより高速処理の可能な音声認識装置を提供
することを目的とする。発明の構成本発明は前記目的を達成するために、あらかじ
め多数話者の音声をグループ分けして音声の標準
パタンをグループ毎に求めておき、未知音声が入
力されたらその音声の前記標準パタンに対する類
似度を算出し、前記類似度を用いてグループ毎に
未知音声がそのグループに属する信頼度を算出
し、信類度がある閾値を超えた時点で、閾値を超
えたグループの標準パタンのみを以後の未知入力
音声の認識に使用することを特徴とする音声認識
装置に関するものである。実施例の説明本発明は不特定話者の音声を年令や性別に関係
なく安定に認識できることを特徴とする。そのた
めに、音声を認識するための標準パタンを、男
性，女性，子供，老人……というように声の質の
ちがいによつてグループ分けして作成しておく。
実際に入力される音声はその中のどのグループに
属するかは不明であるが、本方法を用いることに
よつて、入力された音声を分析し、どのグループ
に属するかを高い確度で自動的に決定することが
できる。以下実施例では男性（グループ１）と女性（グ
ループ２）の２つのグループのみを対象にした場
合について説明する。実施例の音声認識装置の構
成図を第２図に示す。まず標準パタン格納部２５に格納する内容を説
明する。この実施例では、グループ１，２ごとに平均値
を求め、グループ全体を対象として共分散行列を
求め、これらを用いて標準パタンである重み係数
a_ij，平均距離d_iを求め標準パタン格納部２５に格
納するものである。まずグループ１の音声における音声ｉのLPC
ケプストラム係数の平均値を m_i ⁽¹⁾＝（m_i1 ⁽¹⁾，m_i2 ⁽¹⁾，………，m_ip ⁽¹⁾）とする。式中(1)はグループ１であることを示し、
ｐは使用パラメータ数である。標準パタンをフレ
ーム単位で構成する場合はLPCケプストラム係
数の次数をｐとすると、Ｐ＝ｐとなる。標準パタ
ンをｎフレームの時間パタンで構成する場合はＰ
＝ｐ×ｎとなる。又、グループ２の音声における音素ｉのLPC
ケプストラム係数平均値を m_i ⁽²⁾＝（m_i1 ⁽²⁾，m_i2 ⁽²⁾，……，m_ip ⁽²⁾）とする。これをグループ１とグループ２の各々に
対して母音／ａ／，／ｉ／，／ｕ／，／ｅ／，／
ｏ／と鼻音について求め、計12個とする。次にグループ１の平均値m_i ⁽¹⁾とグループ２の平
均値m_i ⁽²⁾を使用しこの12個の音素に共通の共分散
行列をＲとし、その逆行列をR^-1とする。R^-1の
（ｊ，j′）要素をr_jj′とすると、LPCケプストラム
係数のｊ次に対する重み係数は、グループ１の音
素ｉに対して a_ij ⁽¹⁾＝Ｚ_P 〓^j=1 r_jj′m_ij ⁽¹⁾ ……(1) で求める。又、音声ｉに対する平均距離をd_i ⁽¹⁾と
すると、 d_i ⁽¹⁾＝m_i ^(1)tR^-1m_i ⁽¹⁾ ……(2) で求める。（ｔは転置行列を表わす。）このa_ij ⁽¹⁾，d_i ⁽¹⁾を各音素毎に求め、標準パタン
格納部25の標準パタン群１に格納する。同様に、グループ２についてa_ij ⁽²⁾，d_i ⁽²⁾を求め、
標準パタン群２に格納する。なお共分散行列はグループ１，２ごとに求めて
も良いことはもちろんである。次に、類似度計算部２４の動作について説明す
る。未知入力音声がマイク２０から入力される
と、（ここでは「ハジメ」（ha zi me）という音
声であつたとする）信号処理回路２２でプリエン
フアシス、窓計算を行つた後、線形予測分析プロ
セツサ２３にてLPCケプストラムに係数c_j（ｊ＝
１，２，……，ｐ）が求められる。時間パタンを
用いる場合は（ｎフレーム）のc₁〜c_pを並べてc₁
〜c_pとする類似度計算部２４は、このc_jと標準パ
タン切換部２６を通して送られてきた標準パタン
を用いて、類似度計算を行なう。グループ１の音
素ｉに対しては類似度l_i ⁽¹⁾は l_i ⁽¹⁾＝_P 〓^j=1 a_ij ⁽¹⁾c_jdm_i ⁽¹⁾ ……(3) で求める。これをグループ２に対しても l_i ⁽²⁾＝_P 〓^j=1 a_ij ⁽²⁾c_j−d_i ⁽²⁾ ……(4) で求め、計12音素分求めてメインメモリ２７に転
送する。セグメンテーシヨン部２６では帯域パワー，有
声無声判定の計算を行い、音声区間の決定と子音
区間の検出（ここではha zi meの／ｈ／，／
ｚ／，／ｍ／）を行い、メインメモリ２７に転送
する。メインプロセツサ２８は、メインメモリ２
７に登録された子音区間と類似度を用いて母音，
鼻音区間を決定し（ここではha zi meの／
ａ／，／ｉ／，／ｍ／，／ｅ／）、音素中心（中
央の位置又は類似度最大の位置）をＮ個（ここで
はＮ＝４）求める。次に選択部２９の動作について説明する。まず
前記方法で求めた４個の音素（／ａ／，／
ｉ／，／ｍ／，／ｅ／）の音素中心における用意
された全音素（／ａ／，／ｉ／，／ｕ／，／
ｅ／，／ｏ／，鼻音）に対する最大類似度をグル
ープ毎に求め、グループ１の場合をl_i ⁽¹⁾，グルー
プ２の場合をl_i ⁽²⁾とする。これをＮ個の音素中心
について各々求め、グループ毎に類似度の総和を
L⁽¹⁾，L⁽²⁾とする。 L⁽¹⁾＝_N 〓ⁿ⁼¹ l_i ⁽¹⁾ ……(4) L⁽²⁾＝_N 〓ⁿ⁼¹ l_j ⁽²⁾ ……(5) このL⁽¹⁾，L⁽²⁾を用いて信頼度R_eを次式で定義
する。 R_e ⁽¹⁾L⁽¹⁾−L⁽²⁾ ……(6) なおグループが３個以上の場合は各グループに
ついて類似度の総和を求め、その値の最大なもの
二つについて上記(6)式により信頼度R_e ⁽¹⁾を求めれ
ば良い。さてこのR_e ⁽¹⁾が正値であらかじめ定められた閾
値を超えた場合は、使用者の音声はグループ１に
属するものと決定する。負値で、その絶対値が閾
値を超えた場合は、使用者の音声はグループ２に
属するものと決定する。いき値を超えることによ
つて決定された後は、選択部２９は、標準パタン
切換部３２に対して、決定されたグループの標準
パタンのみを類似度計算部２４に与えるよう指示
して、動作を終了する。 Reがいき値を超えなかつた場合、選択部２９
は標準パタン切換部３２に対しグループ１及びグ
ループ２の両方の標準パタンを選択するように指
示し、さらにメインプロセツサ２８に対し、正値
の場合はグループ１の類似度を、負値の場合はグ
ループ２の類似度を音素認識に用いるよう指示を
与える。従つて、メインプロセツサ２８は信頼度Reが
閾値を超えない間は選択部２９の指示に従い、指
示された類似度を用いて音素認識し、結果を単語
辞書３０を照合することによつて単語認識を行
い、最も類似度の高かつた単語辞書を認識結果と
して出力部３１に転送する。又、信頼度Reが閾値を超えない間は、標準パ
タン切換部２６は選択部２９の指示に従い、標準
パタン１，２を順次転送し、類似度計算部２４は
標準パタン群１，２に対する類似度計算をくり返
す。従つて、この間類似度計算部２４は類似度計
算のための演算量が多いが、選択部２９の動作を
終了した時点より、決定されたグループのみの類
似度計算を行えば良くなり、演算量は大幅に軽減
される。又、メインプロセツサ２８は信頼性の高
い標準パタンを用いて音素認識が得られるように
なり、単語認識の精度が向上する。以上述べた実施例においては、信頼度の算出を
最大類似度の和を用いて行つていたが、それ以外
に信頼度の算出を最大類似度を得る回数で行つて
も良い。類似度計算部２４で得た類似度の中で、
最も類似度の高いものをl_i ⁽¹⁾とする。メインプロ
セツサ２８は選択部２９にl_i ⁽¹⁾であることを知ら
せる。選択部２９は、l_i ⁽¹⁾はグループ１に属する
ものとして、回数N⁽¹⁾をカウントアツプする。l_j
⁽²⁾が送られてきた場合には、回数N⁽²⁾をカウント
アツプする。信頼度Reは次式で計算する。 Re⁽¹⁾＝N⁽¹⁾／N⁽²⁾ ……(7) Re⁽²⁾＝N⁽²⁾／N⁽¹⁾ ……(8) このRe⁽¹⁾，Re⁽²⁾のいずれかがあらかじめ定め
られた閾値を超えたら、それがRe⁽¹⁾の場合グル
ープ１に、Re⁽²⁾の場合グループ２に決定する。
閾値を超えない間はN⁽¹⁾とN⁽²⁾を比較し、大きい
方のグループの類似度を音素認識に用いるよう、
メインプロセツサ２８に指示を与える。この方法では、最大類似度を得る回数のみを用
いるため、前述の類似度和を用いる方法に比し
て、騒音等の音声スペクトルに歪を与える要因に
対してより安定である特長がある。なおグループが３個以上の場合には回数の多い
もの二つについて信頼度Reを計算すれば良い。次に標準パタン群の自動選択について第２図の
ブロツク図及び第３図のフローチヤートを用いて
説明する。処理イに示すように任意の言葉、例えば「ハジ
メ」（ha zi me）という音声がマイクに入力され
たとする。かかる音声はＡ／Ｄ変換器２１でＡ／Ｄ変換さ
れ（処理ロ）、一方は信号処理回路２２へ、他方
はセグメンテーシヨン部２６へ送られる。信号処
理回路２２では処理ハに示すようにフレーム毎に
プリエンフアシス，ハミング窓による窓計算を行
つた後、その結果を線形予測分析プロセツサ２３
へ送る。線形予測分析プロセツサ２３は線形予測
分析を行なつてLPCケプストラム係数Ｃ＝（c₁，
c₂，……c_j，……c_p）を求め（処理ニ）、類似度
計算部２４へ送る。一方、セグメンテーシヨン部２６は帯域フイル
タ計算を行い（処理ホ）、又線形予測分析プロセ
ツサ２３で求めたLPCケプストラム係数Ｃを用
いて有声無声判定，音声区間の検出（処理ヘ）、
子音ha zi meの／ｈ／，／ｚ／，／ｍ／のセグ
メンテーシヨンおよび子音判別（処理ト）を行い
その結果をメインメモリ２７に送る（処理チ）。また選択部２９は標準パタン群１の中に予め準
備されたa_ij ⁽¹⁾，d_i ⁽¹⁾を類似度計算部２４に送る
（処理リ）。類似度計算部２４では処理ヌに示すよ
うに次式でグループ１の音素ｉに対する類似度l_i
⁽¹⁾を求める。 l_i ⁽¹⁾＝_P 〓^j=1 a_ij ⁽¹⁾c_j−d_i ⁽¹⁾ ……(3) 類似度はベイズ判定やマハラノビス距離等の統計
的距離尺度に基づくものが好適である。同様にグループ２についてもl_i ⁽²⁾を求め、これ
らをメインメモリ２７に転送する（処理ル）。メインプロセツサ２８はセグメンテーシヨン結
果と、母音・鼻音に対する類似度を参照して処理
オの如く母音・鼻音部ha zi meの／ａ／と／
ｉ／と／ｍ／と／ｅ／を決定し、決定した母音，
鼻音部の中から、最も母音又は鼻音らしい中心の
フレーム（中央の位置又は類似度最大の位置）を
各母音・鼻音部に対して選び、その位置情報を選
択部２９に与える。選択部２９は中心フレームのグループ毎の最大
類似度を求め、さらにその類似度和L⁽¹⁾，L⁽²⁾を求
める。そして(6)式又は(7)，(8)式を用いて信頼度を算出
し、閾値を越えるか歪かの判定を行う（処理カ）。
この結果に基づく標準パタン切換部３２は標準パ
タン格納部２５内の標準パタン群を選択する。次に本実施例による音声認識装置の処理の流れ
を第４図に示す。最初に音声が入力されたら（判
断ツ）音響分析し（処理ネ）、判断ナを経由して
セグメンテーシヨン，類似度計算１を行なう（処
理ラ）。この時は、用意された全てのグループの
標準パタンに対して類似度計算を行う。次に、音
声中の母音，鼻音の音素中心を抽出し、グループ
を判別する信頼度を計算する（処理ム）。信頼度
が閾値以下なら（判断ウ）、その時点で信頼度の
最も高いグループの類似度を用いて音素認識を行
う。閾値以上なら標準パタン選択終了命令を出し
（処理マ）、閾値を超えたグループの類似度で音素
認識を行なう（処理イ）。音素認識結果を用いて
単語認識を行い（処理ヲ）、単語認識結果を出力
して（処理ワ）、再び音声入力待ちにもどる。次の音声が入力されたら音響分析の後（処理
ネ）標準パタン選択終了命令が出されているか歪
かを調べ（判断ナ）、されてなければ最初の音声
の場合と同様な処理をくり返す。されていれば、
すでにグループが決定されているため、そのグル
ープの標準パタンのみを用いてセグメンテーシヨ
ン，類似度計算２を行い（処理ヤ）、音素認識の
ルーチンへ移る。このように装置としての処理の流れは簡単であ
り、特に複雑な演算処理を行うことなく実現でき
ることを特徴とする。本実施例の方法で、成人男女100名を対象に、
212単語中の最初の10単語を用いて、閾値を超え
るに必要な単語数を話者毎に求め、人数を評価し
た結果を第１表に示す。

【表】すなわち、４単語まで用いれば100人中98人ま
で正しく、グループの判定を行うことができる。
残り２名中１名は、９単語まで必要とするが、正
しくグループを判定される。このグループ判定を
誤つた場合には母音・鼻音認識率が88.4％→59.3
％と大幅に低下するため学習単語数を多くとつて
誤らないようにすることが重要である。誤つた１
名は、女性を男性と誤つた場合であるが、この話
者は男性の標準パタンを用いても母音，鼻音の認
識率は78.5％→75.5％と認識率の低下は極めて少
ない。すなわちこの話者の音声は男性の標準パタ
ンにも合つており男女の判別を誤つても問題はな
い。このように、本実施例を用いれば、高い確度で
男女の判別を行うことが可能となる。

【表】男女20名を対象に、５母音，鼻音の平均音素認
識率をフレーム単位で評価，比較した結果を第２
表に示す。男女の区別無は、従来法に述べた、男
女別々の標準パタンを用意し、男女を区別するこ
となく最大類似度を得る標準パタンを認識結果と
するものである。男女の区別有は本実施例による
方法である。各々フレーム認識率を％で示し、
（）で認識率のバラツキを標準偏差で示す。従来法に比し、本実施例を用いると認識率が向
上し、バラツキも減少する。特に、女性の認識率
の向上と、男性のバラツキの減少に大きな効果が
あり、本実施例の有効性を示している。発明の効果以上述べたように本発明は、あらかじめ多数話
者の音声をグループ分けして認識のための標準パ
タンをグループ毎に作成しておき、未知入力音声
を用いてその音声に最も適した標準パタンを自動
選択する機能を持たせることにより、１使用者に負担をかけることなく、使用者の声
に最も適した標準パタンを用いて音声を認識す
ることができ、不特定話者に対して安定した高
い精度の認識を実現することができる。２使用標準パタンを１組にしぼることにより計
算量を軽減し、処理速度の速い音声認識装置を
実現することができる。という利点を有する。

【図面の簡単な説明】

第１図は従来の音声認識装置を示す機能ブロツ
ク図、第２図は本発明の一実施例における音声認
識装置を示す機能ブロツク図、第３図は本発明の
一実施例における標準パタン群の自動選択機能を
説明するフローチヤート、第４図は本発明の音声
認識装置の認識手順の一例を示すフローチヤート
である。２３……線形予測分析プロセツサ、２４……類
似度計算部、２５……標準パタン格納部、２６…
…セグメンテーシヨン部、２８……メインプロセ
ツサ、２９……選択部、３０……単語辞書部、３
２……標準パタン切換部。

Claims

【特許請求の範囲】１入力音声よりフレーム周期ごとに得られたス
ペクトルまたはそれに類似する情報（以下スペク
トル情報と記す）を算出する音響分析部と、入力
音声の音声区間の検出と音素毎のセグメンテーシ
ヨンを行うセグメンテーシヨン部と、多数話者か
らなる標準音声信号から、性質の類似した話者ご
とに分類された複数の標準パタン群を予め格納す
る標準パタン格納部と、前記標準パタン格納部内
の標準パタン群の選択を行う標準パタン切換部
と、前記標準パタン格納部の標準パタン群と前記
スペクトル情報とを用いて音素ごとの統計的距離
尺度に基づく類似度を求める類似度計算部と、前
記類似度計算部とセグメンテーシヨン部の結果か
ら少なくとも母音部を決定し、その音素の定常部
を示すフレームの位置情報を選択するプロセツサ
部と、前記プロセツサ部で得られた位置情報に対
応する、類似度計算部で求めた類似度を用いて、
全入力音声が用意された標準パタン群に似ている
度合の累計を標準パタン群ごとに設け、その累計
の最も大きい二つの標準パタン群についてその差
または比を求めて信頼度を算出し、前記信頼度が
ある閾値を越えた場合に前記二つの標準パタン群
のうちのいずれか一方を選択し、閾値を越えない
場合には全標準パタン群を順次読み出すように前
記標準パタン切換部を制御する選択部と、前記標
準パタン切換部で選択された標準パタン群または
累計が最大の標準パタン群を用いて前記プロセツ
サ部で作成された音素または音節系列と比較する
単語辞書を格納する単語辞書部とを具備すること
を特徴とする音声認識装置。２統計的距離尺度として、対象とするすべての
標準パタン群に共通の共分散行列と、各標準パタ
ン群ごとに音素別に設けた平均値とを組み合わせ
たマハラノビス距離を用いることを特徴とする特
許請求の範囲第１項記載の音声認識装置。３全入力音声が用意された標準パタン群に似て
いる度合の累計を、最大類似度となる標準パタン
の回数または最大類似度の類似度和で求めること
を特徴とする特許請求の範囲第１項記載の音声認
識装置。４標準パタン格納部に、少なくとも男声と女声
とからなる標準パタン群が格納されていることを
特徴とする特許請求の範囲第１項記載の音声認識
装置。