JPS59172694A

JPS59172694A - 音声標準パタン作成方式

Info

Publication number: JPS59172694A
Application number: JP58047624A
Authority: JP
Inventors: 藤崎　博也; 広瀬　啓吉; 智博井上; 晶夫山下; 佐藤　泰雄; 杉田　忠靖
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-03-22
Filing date: 1983-03-22
Publication date: 1984-09-29
Also published as: JPH0130160B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は音声処理装置において標準バタンとして使用さ
れる音声標準バタンを作成する方式に係り、特に特定音
節を含む音声データから該音節の標準バタンを作成する
とき、該音節と同一音節を含む多数の音声データ及び該
音節と該音節を含まない多数の音声データとの異種バタ
ン間の類似度を求め、同一音節を含む音声データとは類
似度が大きく、同一音節を含まない音声データとは類似
度が小さい音節標準バタン候補を区切ってこれを音節標
準バタンとしたものである。

〔技術の背景及び問題点〕例えば音声認識装置の如き音声処理装置では。

未知入力音声がどのような音声であるかということを認
識することが必要になる。この場合、未知入力音声を別
に格納しである既知の標準バタンと比較して、もつとも
類似している標準バタンを識別することにより未知入力
音声を認識することができる。

この場合、標準バタンか不正確のものでは未知入力音声
に対する識別精度が低下し、音声認識装置としては問題
が存在する。

認識すべき対象が特定話者の場合には、この特定話者に
より発生された音声にもとづく登録バタンを作成するこ
とにより識別精度を向上することができる。

しかるに未知入力音声が特定話者に限定されない、不特
定対数の者を対象にする音声認識装置では１ｗｔ別精度
の高い認識結果を得ることのできる標準バタンを簡単に
生成することができず、したがって特定話者方式の場合
に比較して不特定話者に対する音声認識は識別精度が低
いという問題がある。

〔発明の目的〕

本発明の目的は、このような問題点を改善するために、
標準バタンを作成するときに、特定音節を含む比較用の
バタングループと、特定音節を含まない比較用のバタン
グループを使用して、複数の比較用のバタンを用意し、
標準バタンを抽出するときにこれらの比較用バタンと比
較することにより、同一の音節でも種々のタイプの状態
の下でのもつとも一致度の太きいものを得るようにした
音声標準バタン作成方式を提供することである。

〔発明の構成〕

この目的を達成するために１本発明の音声標準バタン作
成方式では、未知入力音声の認識を予め登録されたｃｖ
、ｖｃｖ等の音節バタン照合に基づき行う音声認識シス
テムにおいて、特定音節標準バタン候補と同一音節を含
む複数の音声データを保持する第１音声データ格納部と
、特定標準バタン候補と同一音節を含まない複数の音声
データを保持する第２音声データ格納部と、音節の類似
度を演算する類似度演算手段を設け、上記類似度演算手
段によシ特定音節標準バタン候補と、上記第１音声デー
タ格納部及び第２音声データ格納部からそれぞれ出力し
た音声データとの類似度を求め。

第１音声データ格納部から出力した音声データとの類似
度分布と第２音声データ格納部から出力された音声デー
タとの類似度分布との隔たりがもつとも大きくなるよう
に上言己音節標準バタン候補を区切りこれを上記特定音
節の標準バタンとすることにより特定音節を含む音声デ
ータから該音節標準バタンを得るようにしたことを特徴
とする。

〔発明の概略〕

本発明を一実施例にもとづき詳述するに先立ち本発明を
概略説明する。例えば「ＫＡＪという音節の標準バタン
を作成するときｌ　　ｒＫＡＪと発声してもよく、また
［ＫＡＪを含む言葉９例えば［ＡＫＡｓＡＫＡＪと発声
してこれよシ抽出してもよい。このときＡ十ＫＡ＋８Ａ＋ＫＡと分離して発声をとられるＣＶ音
節方式や。

ＡＫＡ＋ＡＳＡ十ＡＫＡ　　という形でとられるＶＣＶ
音節方式がある。ここで■は母音（Ｖｏｗｅｌ）　、　Ｃは子音（
Ｃｏｎｓｏ−ｎａｉｔ　）を示す。

本発明では例えば［Ｋ　ＡＪの標準バタンを作成すると
きｌ　　ｒＫＡＪを含む種にの音節を多数入力する。

例えば［ＡＫＡｊ　「ＩＫＡｊ　「ＵＫＡＪ　［ＢＫＡ
ｊ　「０ＫＡＪ等の音節や「ＫＡ」そのものを複数の人
により多数入力し、それらの特徴を抽出し、これを「Ｋ
Ａ」を含む第１比較グループとして格納しておく。また
［ＫＡＪを含まない９例えば「Ａ８ＡＪ　ｊＩｓＥＪ　
［Ｕ８Ｅｌ　「ＥｓＥＪ　［Ｏ８Ｊ　［ＴＡＢＩＪ　ｌ
”ＴＵＴＥｊ・・・・・・をこれまた複数の人により多
数入力し、それらの特徴を抽出してこれを［ＫＡＪを含
まない第２比較グループとして格納しておく。それから
標準）くタン候補として［ＫＡＪを含む音節を入力する
。

いま、標準バタン候補の特徴が第１図（イ）に示すもの
であり、上記第１比較グループの１つの音節の特徴が第
１図（ロ）に示すものとしたとき、いずれにも「ＫＡｊ
が含まれているので、「ＫＡ」の部分については類似度
が非常に大きくなる。それで標準バタン候補の特徴を始
点ＴＳｏから終点ＴＥＯまでのＬだけの区間切り出して
、これを第１グループの１つと比較する。このとき第１
図（ロ）に示す如く。

始点ｔｓｏから終点ｔｅＯまでのＬＯの区間を抽出して
比較を行うことになるが、ダイナミックプログラミング
の手法等による伸縮を行ってもよく、比較を短時間で行
うためにＬ　＝　Ｌｏの固定長（ｒＫＡｊの長さの経験
則によ妙法める）として比較してもよい。

（実際は後述する如（、Ｌの長さは限定されず。

すべての範囲で比較する。）以下の記述は説明簡略のた
めに固定長として比較を行う例について説明する。

このＴ　８６　％　Ｔｅｏのバタンともつとも一致した
第１図（ロ）の比較音節におけるある区分の類似度をＭ
Ｏとし２次に標準バタン候補のＴ　Ｓｌ−Ｔｅ、のバタ
ンともつとも一致した比較音節の類似度をＭｌとする。

このようにして標準バタン候補の始点と終点を順次移動
させて得られた各バタンに対して得られた上記類似度Ｍ
Ｏ，Ｍ、・・・・・・のうち、もつとも大きな類似度鳥
の部分が、第１図において斜線部として示す区分に相当
することになる。そしてこの区分は。

標準バタン候補とこの比較音節に共通に存在する１−Ｋ
ＡＪの部分と判定することができる。

このようにして標準バタン候補と第１比較グループの各
音節とを比較することによシ各音節毎に最大の類似度Ｍ
ｍＯ＋　Ｍｍ＋・・・・・・が得られることになる。

次に標準パタン候補と、第２比較グループの各音節とを
比較して、同様に類似度を求める。この場合、　　［Ｋ
ＡＪについては共通部分が存在しないので、当然類似度
は小さくなシ、屯し、類似度を距離で表現する場合には
、その距離は大きくなる。

したがって、標準バタン候補のうち、第１比較グループ
とは類似度が大きく（つまり距離が小さ−）第２比較グ
ループとは類似度が小さい（つまシ距離が大きい）区分
を切り出せば、それが標準バタンとしては最適なものと
なる。

〔発明の実施例〕

本発明の一実施例を第２図〜第７図にもとづき説明する
。

第２図は本発明の一実施例構成図、第３図は標準バタン
用フレーム列、第４図は標準バタンと比較用バタンの比
較状態説明図、第５図及び第６図は本発明の動作説明フ
ローチャート、第７図は類似度分布状態説明図である。

図中、１はパラメータ抽出部、２は比較用バタン選択部
、６は比較用バタン同種グループ格納部。

４は比較用バタン異種グループ格納部、５は標準バタン
候補選択部、６は類似度計算部、７は類似度分布計算部
、８はバッタチャリヤ距離計算部。

９は最適標準バタン判定部である。

ここで比較用バタン同種グループ格納部（以下人格納部
という）３は２作成すべき標準パタ／と同じ音節を含む
音声の特徴が格納されるものでるり９例えば「ＫＡＪの
標準バタンを作成する場合には＋　　ｒＫＡＪを含む［
ＡＫＡＪ　［ＩＫＡＪ・・・・・・「ＫＡ、Ｊ等の音声
が複数の話者によシ入力されたときに抽出された特徴パ
ラメータが格納されている。

また比較用バタン異種グループ格納部（以下Ｂ格納部と
いう）４は２作成すべき標準バタンと同じ音節を含まな
い音声の特徴が格納されるものでめり＋　　［ＫＡＪの
標準バタンを作成する場合には。

［ＡｓＡＪ　［ｌ５Ｅｊ　「ＴＡＢＩｊ・・・・・・等
の音声が複数の話者により入力されたときに抽出された
特徴パラメータが格納されている。ここでＡ格納部３と
Ｂ格納部４は別個の記憶装置を使用してもよく、同一記
憶装置の異なる記憶領域を使用してもよい。

以下本発明における第２図の回路の動作について具体的
に詳述する。

（１）　　音節ＣｎＶｎの標準パタンを求めるに先立ち
。

このＣｎＶゎを含む多数の音声を複数の話者によシ入力
してパラメータ抽出部１によシ特徴パラメータを抽出し
、比較用バタン選択部２を経由してＡ格納部３にこれら
の特徴パラメータを格納する。次にＣｎＶｌｌを含まな
い多数の音声をこれまた複数の話者により入力してパラ
メータ抽出部１により特徴パラメータを抽出し、同様に
してＢ格納部４に格納する。ここでＡ格納部６に格納さ
れたグループをＡグループとし、Ｂ格納部４に格納され
たグループをＢグループという。

（２）　　次に音節ＣおＶｎを含む音節を標準バタン候
補として入力し、これをパラメータ抽出部１で特徴抽出
して得られた。第３図に示す如き標準バタン用フレーム
列（特徴パラメータの時系列）を比較用バタン選択部２
を経由して標準バタン候補選択部５に保持させる。この
標準バタン用フレーム列に始点Ｘと終点ｙを定め、全て
のＸとｙの組み合わせについて下記の如く上記Ａグルー
プとＢグループに属する比較用バタンと標準パタ／の最
大類似度を求める。この際、一般に比較用バタンの方が
標準パタンよりも短かいので、第４図に示す如く、上記
始点Ｘと終点ｙによシ抽出した標準パタンを比較用バタ
ンに沿ってフレーム毎にシフトさせ１部分部分の類似度
を求め、その最大値（すなわち距離の最小のところ）を
もって比較用パタンの類似度とする。ここで標準パタン
Ｘｘｙと比較用バタンＸ−Ｙの類似度をｒ８とし。

Ｒ＝　ＭＡＸ（ｒ４）　（ｉ　＝０　、１　、２・−・
・）をこの比較用パタンの類似度とする。

但）　このために第５図のフローチャートで示す如＜、
ｍｓババタ用フレーム列におけるサーチ範囲ｘ　＝　Ｘ
、〜ｘｚ　＋　Ｙ　＝　Ｙ＋〜ｙ２を指定して、標準バ
タン候補選択部５にてまずｘ　＝　ｘ□＋　Ｙ　＝　Ｘ
ｓの標準パタンを切り出し、これをＡグループの比較バ
タンと類似度計算部乙において類似度を計算する。次に
Ｂグループの比較バタンと類似度を同様にして計算する
。これにより第７図に示す如く９人グループにおける類
似度の分布個数とＢグループにおける類似度の分布個数
が類似度分布計算部６において求めることができる。そ
してこれにより、同じく類似度分布計算部６において人
グループ、Ｂグループの平均分散を推定、つまシ各分布
を正規分布と仮定した場合の平均値μ及び標準偏差σを
求めることができる。

（４）　　そしてこの人グループの平均値をμｍ、Ｂグ
ループの平均値をμ、としたとき２次式によりバッタチ
ャリヤ（Ｂｈａｔｔａｃｈａｒｙｙａ　）の距離へを求
める。

そしてこれを上記指定した範囲のすべてにおいて求め、
Ｄｌが最大となる（　ｘ　＋　ｙ　）の組合せをもって
Ｃ，Ｖ、に対する最良の標準バタンフレーム列とする。

（４ど　なお、実際のＢグループの分布は、必らずしも
正規分布をなすものとは限らず、第８図に示す如く１人
グループに近い状態の分布Ｂ、、Ｂ２．Ｂ３・・・・・
・と９人グループから遠い状態の分布ＢＢ　、　１３１
＋１１Ｂｌｌ＋２・・・・・・のような分布を成す場合
もある。これは「ＫＡＪの標準パタンを求めるときにＢ
グループとして「８ＡＪ　、　「ＮＡＪ・・・・・・　
というように例えば母音が類似したものについてはＢ、
、Ｂ、・・・・・・の如き状態となりｌ　　ｒＧＩｊ　
、　ｒＤＯＪ・・・・・・　というようなものについて
はＢｌｌ　Ｉ　Ｂｌｌ＋１・・・・・・の如き状態とな
る。したがって、第８図のような場合に、Ａグループに
もつとも近い集団Ｂ、　、　Ｂ、・・・・・・を正規分
布とみなしてＤｉ＋を計算して最良の標準パタンを求め
るものとする。

またこのとき各集団Ｂｌ、Ｂ２・・・・・・とＡグルー
プとのバッタチャリヤの距離ＤＢ、　、　Ｄ、２・・・
・・・を求め、その調和平均をもってＢグループのＤｌと定めることもできる。

なお、上記標準バタンは１回の入力音声より切出しても
よいし、複数の入力音声より標準バタンを切出してもよ
い。

それから本発明は、不特定話者認識に対する標準バタン
の抽出のみに限定されるものではなく。

特定話者を対象とした登録バタンを作成するときでも勿
論適用できるものである。

勿論バタンの切出しを効率的にするために簡単な特徴を
つかんでその近くを重点的に類似度を求めるというよう
な、あらかじめ既知のガイドを与えて、検出速度を早め
ることもできる。

〔発明の効果〕

本発明によれば、複数の話者にもとづき多数の比較用デ
ータを用意して、これにもとづき最適の標準バタンを自
動的に抽出することができるので。

認識精度の高い結果を得ることができる標準バタンを非
常に簡単に求めることが可能となる。

【図面の簡単な説明】

第１図轢本発明の概略説明図、第２図は本発明の一実施
例構成図、第３図は標準バタン用フレーム列、第４図は
標準バタンと比較用バタンの比較状態説明図、第５図及
び第６図は本発明の動作説明７目−チャード、第７図及
び第８図は類似度分布状態説明図である。図中、１はパラメータ抽出部、２線比較用バタン選択部
、３は比較用バタン同種グループ格納部。４は比較用バタン異種グループ格納部、５は標準バタン
候補選択部、６は類似度計算部、７は類似度分布計算部
、８はバッタチャリヤ距離計算部。９社最適標準バタン判定部である。特許出願人　藤　崎　博　也（外１名）代理人弁理士　
　山　谷　晧　榮答７図イＩ！ｌ廖〈（Ａ）第８（２］

Claims

【特許請求の範囲】

（１）　　未知入力音声の認識を予め登録されたＣ■。 ■Ｃ■等の音節バタン照合に基づき行う音声認識システ
ムにおいて、特定音節標準バタン候補と同一音節を含む
複数の音声データを保持する第１音声データ格納部と、
特定標準バタン候補と同一音節を含まない複数の音声デ
ータを保持する第２音声データ格納部と、音節の類似度
を演算する類似度演算手段を設け、上記類似度演算手段
により特定音節標準バタン候補と、上記第１音声データ
格納部及び第２音声データ格納部からそれぞれ出力した
音声データとの類似度を求め、第１音声データ格納部か
ら出力した音声データとの類似度分布と第２音声データ
格納部から出力された音声データとの類似度分布との隔
たりがもつとも大きくなるように上記音節標準バタン候
補を区切りこれを上記特定音節の標準バタンとすること
により特定音節を含む音声データから該音節標準バタン
を得るようにしたことを特徴とする音声標準バタン作成
方式。
（２）　　上記隔たりの指標として、各分布を正規分布
と仮定した場合の平均値、標準偏差に基づく値を用いる
ようにしたことを特徴とする特許請求の範囲第１項記載
の音声標準バタン作成方式。
（３）　　上記隔たシの指標としてＢｈａｔｔａｃｈａ
ｒｒｙａ　の距離とすることを特徴とする特許請求の範
囲第１項記載の音声標準バタン作成方式。
（４）　　上記隔たりの指標を求めるときに異種バタン
間類似度の分布を複数の類からなる正規分布とみなし、
隔たりの少ない類の分布のみについて平均値、標準偏差
に基づく値を用いたり、あるいはＢｈａｔｔａｃｈａｒ
ｒｙａ　の距離を求めるようにしたことを特徴とする特
許請求の範囲第１項記載の音声標準バタン作成方式。
（５）上記隔たりの指標を求めるため、上記異種バタン
間類似度の分布を複数の類からなる正規分布とみなし、
それぞれの類の分布について上記１３ｈａｔｔａｃｈａ
ｒｒｙａ　の距離を求め、該距離の少ない類のその平均
値乃至調和平均値、又は該距離の調和平均値を上記指標
とすることを特徴とする特許請求の範囲第１項記載の音
声標準バタン作成方式。