JPH0130160B2

JPH0130160B2 -

Info

Publication number: JPH0130160B2
Application number: JP58047624A
Authority: JP
Inventors: Hiroya Fujisaki; Keikichi Hirose; Tomohiro Inoe; Akio Yamashita; Yasuo Sato; Tadayasu Sugita
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-03-22
Filing date: 1983-03-22
Publication date: 1989-06-16
Also published as: JPS59172694A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は音声処理装置において標準パタンとし
て使用される音声標準パタンを作成する方式に係
り、特に特定音節を含む音声データから該音節の
標準パタンを作成するとき、該音節と同一音節を
含む多数の音声データ及び該音節と該音節を含ま
ない多数の音声データとの異種パタン間の類似度
を求め、同一音節を含む音声データとは類似度が
大きく、同一音節を含まない音声データとは類似
度が小さい音節標準パタン候補を区切つてこれを
音節標準パタンとしたものである。

〔技術の背景及び問題点〕

例えば音声認識装置の如き音声処理装置では、
未知入力音声がどのような音声であるかというこ
とを認識することが必要になる。この場合、未知
入力音声を別に格納してある既知の標準パタンと
比較して、もつとも類似している標準パタンを識
別することにより未知入力音声を認識することが
できる。

この場合、標準パタンが不正確のものでは未知
入力音声に対する識別精度が低下し、音声認識装
置としては問題が存在する。

認識すべき対象が特定話者の場合には、この特
定話者により発生された音声にもとづく登録パタ
ンを作成することにより識別精度を向上すること
ができる。

しかるに未知入力音声が特定話者に限定されな
い、不特定多数の者を対象にする音声認識装置で
は、識別精度の高い認識結果を得ることのできる
標準パタンを簡単に生成することができず、した
がつて特定話者方式の場合に比較して不特定話者
に対する音声認識は識別精度が低いという問題が
ある。

〔発明の目的〕

本発明の目的は、このような問題点を改善する
ために、標準パタンを作成するときに、特定音節
を含む比較用のパタングループと、特定音節を含
まない比較用のパタングループを使用して、複数
の比較用のパタンを用意し、標準パタンを抽出す
るときにこれらの比較用パタンと比較することに
より、同一の音節でも種々のタイプの状態の下で
のもつとも一致度の大きいものを得るようにした
音声標準パタン作成方式を提供することである。

〔発明の構成〕

この目的を達成するために、本発明の音声標準
パタン作成方式では、未知入力音声の認識を予め
登録されたCV、VCV等の音節パタン照合に基づ
き行う音声認識システムにおいて、特定音節標準
パタン候補と同一音節を含む複数の音声データを
保持する第１音声データ格納部と、特定標準パタ
ン候補と同一音節を含まない複数の音声データを
保持する第２音声データ格納部と、音節の類似度
を演算する類似度演算手段を設け、上記類似度演
算手段により特定音節標準パタン候補と、上記第
１音声データ格納部及び第２音声データ格納部か
らそれぞれ出力した音声データとの類似度を求
め、第１音声データ格納部から出力した音声デー
タとの類似度分布と第２音声データ格納部から出
力された音声データとの類似度分布との隔たりが
もつとも大きくなるように上記音節標準パタン候
補を区切りこれを上記特定音節の標準パタンとす
ることにより特定音節を含む音声データから該音
節標準パタンを得るようにしたことを特徴とす
る。

〔発明の概略〕

本発明を一実施例にもとづき詳述するに先立ち
本発明を概略説明する。例えば「KA」という音
節の標準パタンを作成するとき、「KA」と発声
してもよく、また「KA」を含む言葉、例えば
「AKASAKA」と発声してこれより抽出しても
よい。このときＡ＋KA＋SA＋KAと分離して発声をとられる
CV音節方式や、 AKA＋ASA＋AKAという形でとられるVCV
音節方式がある。ここでＶは母音（Vowel）、Ｃは子音
（Consonait）を示す。

本発明では例えば「KA」の標準パタンを作成
するとき、「KA」を含む種々の音節を多数入力
する。例えば「AKA」「IKA」「UKA」「EKA」
「OKA」等の音節や「KA」そのものを複数の人
により多数入力し、それらの特徴を抽出し、これ
を「KA」を含む第１比較グループとして格納し
ておく。また「KA」を含まない、例えば
「ASA」「ISE」「USE」「ESE」「OSE」「TABI」
「TUTE」…をこれまた複数の人により多数入力
し、それらの特徴を抽出してこれを「KA」を含
まない第２比較グループとして格納しておく。そ
れから標準パタン候補として「KA」を含む音節
を入力する。

いま、標準パタン候補の特徴が第１図イに示す
ものであり、上記第１比較グループの１つの音節
の特徴が第１図ロに示すものとしたとき、いずれ
にも「KA」が含まれているので、「KA」の部分
については類似度が非常に大きくなる。それで標
準パタン候補の特徴を始点Ts₀から終点Te₀まで
のＬだけの区間切り出して、これを第１グループ
の１つと比較する。このとき第１図ロに示す如
く、始点ts₀から終点te₀までのL₀の区間を抽出し
て比較を行うことになるが、ダイナミツクプログ
ラミングの手法等による伸縮を行つてもよく、比
較を短時間で行うためにＬ＝L₀の固定長（「KA」
の長さの経験則により決める）として比較しても
よい。（実際は後述する如く、Ｌの長さは限定さ
れず、すべての範囲で比較する。）以下の記述は
説明簡略のために固定長として比較を行う例につ
いて説明する。

このTs₀〜Te₀のパタンともつとも一致した第
１図ロの比較音節におけるある区分の類似度を
M₀とし、次に標準パタン候補のTs₁〜Te₁のパタ
ンともつとも一致した比較音節の類似度をM₁と
する。このようにして標準パタン候補の始点と終
点を順次移動させて得られた各パタンに対して得
られた上記類似度M₀、M₁…のうち、もつとも大
きな類似度M_nの部分が、第１図において斜線部
として示す区分に相当することになる。そしてこ
の区分は、標準パタン候補とこの比較音節に共通
に存在する「KA」の部分と判定することができ
る。

このようにして標準パタン候補と第１比較グル
ープの各音節とを比較することにより各音節毎に
最大の類似度M_n0、M_n1…が得られることにな
る。

次に標準パタン候補と、第２比較グループの各
音節とを比較して、同様に類似度を求める。この
場合、「KA」については共通部分が存在しない
ので、当然類似度は小さくなり、もし、類似度を
距離で表現する場合には、その距離は大きくな
る。したがつて、標準パタン候補のうち、第１比
較グループとは類似度が大きく（つまり距離が小
さい）第２比較グループとは類似度が小さい（つ
まり距離が大きい）区分を切り出せば、それが標
準パタンとしては最適なものとなる。

〔発明の実施例〕

本発明の一実施例を第２図〜第７図にもとづき
説明する。

第２図は本発明の一実施例構成図、第３図は標
準パタン用フレーム列、第４図は標準パタンと比
較用パタンの比較状態説明図、第５図及び第６図
は本発明の動作説明フローチヤート、第７図は類
似度分布状態説明図である。

図中、１はパラメータ抽出部、２は比較用パタ
ン選択部、３は比較用パタン同種グループ格納
部、４は比較用パタン異種グループ格納部、５は
標準パタン候補選択部、６は類似度計算部、７は
類似度分布計算部、８はバツタチヤリヤ距離計算
部、９は最適標準パタン判定部である。

ここで比較用パタン同種グループ格納部（以下
Ａ格納部という）３は、作成すべき標準パタンと
同じ音節を含む音声の特徴が格納されるものであ
り、例えば「KA」の標準パタンを作成する場合
には、「KA」を含む「AKA」「IKA」…「KA」
等の音声が複数の話者により入力されたときに抽
出された特徴パラメータが格納されている。

また比較用パタン異種グループ格納部（以下Ｂ
格納部という）４は、作成すべき標準パタンと同
じ音節を含まない音声の特徴が格納されるもので
あり、「KA」の標準パタンを作成する場合には、
「ASA」「ISE」「TABI」…等の音声が複数の話
者により入力されたときに抽出された特徴パラメ
ータが格納されている。ここでＡ格納部３とＢ格
納部４は別個の記憶装置を使用してもよく、同一
記憶装置の異なる記憶領域を使用してもよい。

以下本発明における第２図の回路の動作につい
て具体的に詳述する。

(1) 音節C_oV_oの標準パタンを求めるに先立ち、
このC_oV_oを含む多数の音声を複数の話者によ
り入力してパラメータ抽出部１により特徴パラ
メータを抽出し、比較用パタン選択部２を経由
してＡ格納部３にこれらの特徴パラメータを格
納する。次にC_oV_oを含まない多数の音声をこ
れまた複数の話者により入力してパラメータ抽
出部１により特徴パラメータを抽出し、同様に
してＢ格納部４に格納する。ここでＡ格納部３
に格納されたグループをＡグループとし、Ｂ格
納部４に格納されたグループをＢグループとい
う。

(2) 次に音節C_oV_oを含む音節を標準パタン候補
として入力し、これをパラメータ抽出部１で特
徴抽出して得られた、第３図に示す如き標準パ
タン用フレーム列（特徴パラメータの時系列）
を比較用パタン選択部２を経由して標準パタン
候補選択部５に保持させる。この標準パタン用
フレーム列に始点ｘと終点ｙを定め、全てのｘ
とｙの組み合わせについて下記の如く上記Ａグ
ループとＢグループに属する比較用パタンと標
準パタンの最大類似度を求める。この際、一般
に比較用パタンの方が標準パタンよりも長いの
で、第４図に示す如く、上記始点ｘと終点ｙに
より抽出した標準パタンを比較用パタンに沿つ
てフレーム毎にシフトさせ、部分部分の類似度
を求め、その最大値（すなわち距離の最小のと
ころ）をもつて比較用パタンの類似度とする。
ここで標準パタンｘ〜ｙと比較用パタンＸ〜Ｙ
の類似度をr_xとし、Ｒ＝MAX（r_i）〔ｉ＝０、１、２……〕をこの比較用パタンの類似度とする。

(3) このために第５図のフローチヤートで示す如
く、標準パタン用フレーム列におけるサーチ範
囲ｘ＝x₁〜x₂、ｙ＝y₁〜y₂を指定して、標準パ
タン候補選択部５にてまずｘ＝x₁、ｙ＝y₁の標
準パタンを切り出し、これをＡグループの比較
パタンと類似度計算部６において類似度を計算
する。次にＢグループの比較パタンと類似度を
同様にして計算する。これにより第７図に示す
如く、Ａグループにおける類似度の分布個数と
Ｂグループにおける類似度の分布個数が類似度
分布計算部６において求めることができる。そ
してこれにより、同じく類似度分布計算部６に
おいてＡグループ、Ｂグループの平均分散を推
定、つまり各分布を正規分布と仮定した場合の
平均値μ及び標準偏差σを求めることができ
る。

(4) そしてこのＡグループの平均値をμ_i、Ｂグル
ープの平均値をμ_jとしたとき、次式によりバツ
タチヤリヤ（Bhattacharyya）の距離D_Bを求
める。

D_B（A_i、B_j）＝１／８（μ_i−μ_j）^t _-1 〓（μ_i−μ_j）＋１／２log｜〓｜／｜〓_i ^1/2｜｜〓_j ^1/2｜ここで〓＝〓_i＋〓_jである。

そしてこれを上記指定した範囲のすべてにお
いて求め、D_Bが最大となる（ｘ、ｙ）の組合
せをもつてC_oV_oに対する最良の標準パタンフ
レーム列とする。

(4)′ なお、実際のＢグループの分布は、必らず
しも正規分布をなすものとは限らず、第８図
に示す如く、Ａグループに近い状態の分布
B₁、B₂、B₃…と、Ａグループから遠い状態
の分布B_o、B_o+1、B_o+2…のような分布を成
す場合もある。これは「KA」の標準パタン
を求めるときにＢグループとして「SA」、
「NA」…というように例えば母音が類似し
たものについてはB₁、B₂…の如き状態とな
り、「GI」、「DO」…というようなものにつ
いてはB_o、B_o+1…の如き状態となる。した
がつて、第８図のような場合に、Ａグループ
にもつとも近い集団B₁、B₂…を正規分布と
みなしてD_Bを計算して最良の標準パタンを
求めるものとする。またこのとき各集団B₁、
B₂…とＡグループとのバツタチヤリヤの距
離D_B1、D_B2…を求め、その調和平均１／１／D_B1＋１／D_B2＋…… をもつてＢグループのD_Bと定めることもできる。

なお、上記標準パタンは１回の入力音声より切
出してもよいし、複数の入力音声より標準パタン
を切出してもよい。

それから本発明は、不特定話者認識に対する標
準パタンの抽出のみに限定されるものではなく、
特定話者を対象とした登録パタンを作成するとき
でも勿論適用できるものである。

勿論パタンの切出しを効率的にするために簡単
な特徴をつかんでその近くを重点的に類似度を求
めるというような、あらかじめ既知のガイドを与
えて、検出速度を早めることもできる。

〔発明の効果〕

本発明によれば、複数の話者にもとづき多数の
比較用データを用意して、これにもとづき最適の
標準パタンを自動的に抽出することができるの
で、認識精度の高い結果を得ることができる標準
パタンを非常に簡単に求めることが可能となる。

【図面の簡単な説明】

第１図は本発明の概略説明図、第２図は本発明
の一実施例構成図、第３図は標準パタン用フレー
ム列、第４図は標準パタンと比較用パタンの比較
状態説明図、第５図及び第６図は本発明の動作説
明フローチヤート、第７図及び第８図は類似度分
布状態説明図である。図中、１はパラメータ抽出部、２は比較用パタ
ン選択部、３は比較用パタン同種グループ格納
部、４は比較用パタン異種グループ格納部、５は
標準パタン候補選択部、６は類似度計算部、７は
類似度分布計算部、８はバツタチヤリヤ距離計算
部、９は最適標準パタン判定部である。

Claims

【特許請求の範囲】１未知入力音声の認識を予め登録されたCV、
VCV等の音節パタン照合に基づき行う音声認識
システムにおいて、特定音節標準パタン候補と同
一音節を含む複数の音声データを保持する第１音
声データ格納部と、特定標準パタン候補と同一音
節を含まない複数の音声データを保持する第２音
声データ格納部と、音節の類似度を演算する類似
度演算手段を設け、上記類似度演算手段により特
定音節標準パタン候補と、上記第１音声データ格
納部及び第２音声データ格納部からそれぞれ出力
した音声データとの類似度を求め、第１音声デー
タ格納部から出力した音声データとの類似度分布
と第２音声データ格納部から出力された音声デー
タとの類似度分布との隔たりがもつとも大きくな
るように上記音節標準パタン候補を区切りこれを
上記特定音節の標準パタンとすることにより特定
音節を含む音声データから該音節標準パタンを得
るようにしたことを特徴とする音声標準パタン作
成方式。２上記隔たりの指標として、各分布を正規分布
と仮定した場合の平均値、標準偏差に基づく値を
用いるようにしたことを特徴とする特許請求の範
囲第１項記載の音声標準パタン作成方式。３上記隔たりの指標としてバツタチヤリヤ
（Bhattacharrya）の距離とすることを特徴とす
る特許請求の範囲第１項記載の音声標準パタン作
成方式。４上記隔たりの指標を求めるときに異種パタン
間類似度の分布を複数の類からなる正規分布とみ
なし、隔たりの少ない類の分布のみについて平均
値、標準偏差に基づく値を用いたり、あるいはバ
ツタチヤリヤ（Bhattacharrya）の距離を求める
ようにしたことを特徴とする特許請求の範囲第１
項記載の音声標準パタン作成方式。５上記隔たりの指標を求めるため、上記異種パ
タン間類似度の分布を複数の類からなる正規分布
とみなし、それぞれの類の分布について上記バツ
タチヤリヤ（Bhattacharrya）の距離を求め、該
距離の少ない類のその平均値乃至調和平均値、又
は該距離の調和平均値を上記指標とすることを特
徴とする特許請求の範囲第１項記載の音声標準パ
タン作成方式。