JPH0239199A

JPH0239199A - 音声標準パタン登録方式

Info

Publication number: JPH0239199A
Application number: JP63190284A
Authority: JP
Inventors: Takashi Miki; 三木　敬
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1988-07-29
Filing date: 1988-07-29
Publication date: 1990-02-08

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）この発明は音声認識装置の標準パタン辞書メモリへの音
声標準パタン登録方式に関する。

（従来の技術）音声認識装置はコンどユータ、その他の種々の外部機器
の有力な入力装置としで利用され始めてあり、そのため
、種々の開発が進められている。

第２図は従来の音声認識装置の典型例を示すブロック図
である。先ず、この発明の理解を容易にするためこの従
来装置の認識処理及び標準パタン登録処理につき簡単に
説明する。

先ず、認識処理動作を説明する。使用する話者の発声し
た音声をマイクロホン等の外部音声入力袋＝１０によっ
て取り込み、このアナログ入力音声をＡ／Ｄ変換部１２
においでディジタル音声信号に変換し、特徴抽出部１４
においでこの音声信号から音声の特徴パラメータを抽出
しこれを音声切り出し部１６及び認識部１８へそれぞれ
出力する１通常、特徴パラメータとして、フレームと称
される一定時間間隔で、スペクトル成分Ｓと対数パワー
Ｐ等を抽出する。そして、音声切り出し部１６において
、この抽出した特徴パラメータの時間変化から音声区間
を判定して認識部１日へ送る。

この認識部１８において音声区間の周波数成分Ｓ及び対
数パワーＰの系列すなわち特徴パラメータ系列である音
声パタンを求め、この音声パタンと予め音声標準パタン
メモリ２０に登録されでいる標準パタンを読み出（）て
きで音声パタンとこの標準パタンとの類似度を求めで、
最大類似度を有する標準パタンの屈するカテゴリを認識
判定する。そして、認識結果出力部２２から認識結果と
しての当該標準パタンのカテゴリの番号を外部機器２４
へ出力し、その後の所望の処理に供せしめる構成となっ
ている。

次に、登録処理動作につき説明する。

股に標準パタン登録方法としでは、文献：特開昭６１−
２５８２９９号公報に開示されているように、話者に同
一カテゴリの音声を複数回発声させ、その内の一つ又は
いくつかの音声パタンを取捨選択し、選択されたパタン
の音声長（音声区間）間の平均化等を行い、平均音声長
に該当する音声パタンを標準パタンとしてＢ録する技術
等がある。この技術によれば、複数回のそれぞれの発声
に対し、外部音声入力装置１０としてのマイクロホンよ
っ入力させた音声をＡ／Ｄ変換部１２においてディジタ
ル音声信号に変換した後、特徴抽出部１４によってこの
入力音声のスペクトル成分Ｓ及び対数パワーＰ％求め、
音声切り出し部１６において音声区間を決定する。次に
、認識部１８においてこの音声区間の特徴パラメータ系
列である音声パタンを求めこれを一旦この認識部１８内
のメモリに記憶させる。従って認識部１８のメモリには
１回目の音声パタン、２回目の音声パタン、・・・、ｎ
回目の音声パタンというように音声パタンかそれぞれ記
憶されることになる。そして、１回目及び２回目の音声
パタンの音声区間長である発声長Ｌ１及びＬ２の平均値
、すなわち、平均発声長Ｌ　（＝　（Ｌｌ　＋１２　）
／２）を求め、３回目以降に発声された音声パタンに対
しては、この平均発声長しから経験に基ずいで定めた最
短発声長Ｌ　ｍｉｎ及び最長発声長Ｌ　＋’ｎａｘの間
の許容範囲外に発声長を有する音声パタンは標準パタン
作成には使用しないという取捨選択の手法を取ってい１
．：。

その理由は、極端に発声長が異なる音声パタンの場合に
は、本来の単語の発声音の頁の音声区間に対して前後の
雑音をも取り込ん１ど区間を音声区間としで判定したり
、或いは逆に本来の単語の発声音の音声区間の一部分か
脱落してしまって本来の音声区間の半分程度の区間を音
声区間としで判定してしまうため、このような許容範囲
外の発声長を有する音声パタンを標準パタンの作成に使
用すると、著しく認識性能が低下するからである。

しかしながら、発声長に上述したようなある限度内の許
容範囲を設け、その範囲内の発声長を持った音声パタン
を標準パタンの決定に用いる手法は、登録精度か上り、
総合的な認識性能の向上か図れるという利点がある。

（発明か解決しようとする課題）しかしなから、この従来の取捨選択技術による標準パタ
ン登録の方式は、先に入力された１回目と２回目の２回
の音声パタンを基準にしてその後に取り込んだ音声パタ
ンの取捨選択を行う手法であるので、これら１回目及び
２回目の音声パタンに切り出（）誤りか含まれていない
ことが前提条件となっている。従って、もし、この基準
となる音声パタンに切り出し誤りが起っでいる場合には
、その後の標準パタンの作成用としで選出される音声パ
タンには適切でないものも含まれることとなり、標準パ
タンの登録精度はもとより音声認識装置の認識性能を低
下させる恐れがある。いま、従来の手法を用いて標準パ
タンの登録を行うとする。発声された単語を誤検出した
と考え、その誤検出した音声パタンを含んで基準＠を設
定しでしまう確率を評価基準とする検出誤り率をαとす
ると、２回の音声パタン中でいずれか一方もしくは双方
に誤検出パターンが含まれる確率Ｐ、はＰｌ−α（２−
α）となる。検出誤り率αを０．１５：０．１　：ｏ、
０５：０．０３とした場合の確率Ｐ１を別表に示す。こ
の別表からも理解出来るように、αの値に対し、確率Ｐ
１は０．２７７５：０．　１９；Ｏ，，０９７５；０．
０５９］というように大きな値となってしまう。

従って、この発明は、音声認識装置ではどのような発声
を標準パタンとして登録するかが登録精度はもとより装
置自体の認識性能を大きく左右するという点に着目して
成されたものであり、従って、この発明の目的は、特定
の音声パタンの切り出し結果に依存することなく良好な
音声パタンを選択し、登録精度、認識の精度及び認識の
安定性が高くなるような標準パタンを登録する方式を提
供することにある。

（課題を解決するための手段）この目的の達成を図るため、この出願の第一の発明によ
れば、認識部に複数の音声パタンの音声長の中央値を求める手
段と、該中央値に該当する音声パタンを選出する手段と
を設け、同一カテゴリの音声を３回収上発声させて得た一連の音
声長の中央値に該当する音声パタンを標準パタンとして
標準パタン辞書メモリに登録スルことを特徴とする。

ざらに、この出願の第二発明によれば、認識部に複数の
音声パタンの音声長の中央値を求める手段と、該中央値
を基準発声長とした許容範囲を設定する手段と、この許
容範囲内の音声長の音声パタンを選出する手段とを設け
、同一カテゴリの音声を３回収上発声させて得た各音声
パタンのうちこの許容範囲内に音声長を有する音声パタ
ンから標準パタンを定めてこれを標準パタン辞書メモリ
に登録することを特徴とする。

（作用）この第一発明によれば、３回以上の音声パタンより得ら
れた最も発生頻度の高い発声長を基準発声長としでこれ
に該当する発声長の音声パタンを標準パタンとする方式
であるので、発声長に切り出し誤りのある音声パタンを
含んでいても平均化によりその影響が小さくなるため登
録精度と、認識の精度及び安定性か向上する。

また、第二発明によれば、前述の基準発声長に対して経
験に基づいて最大及び最小限界＠を定めてこれら最大及
び最小限界値間の範囲を許容範囲としで定め、この許容
範囲内に発声長を有する音声パタンを標準パタンの候補
として取捨選出するので、登録精度と、認識の精度及び
安定性が一層向上する。

（実施例）以下、図面を参照しで、この発明の実施例につき説明す
る。

第１図（Ａ）及び（Ｂ）はこの発明の音声標準パタンＭ
　８＆方式をそれぞれ説明するためのブロック図、第３
図（Ａ）及び（Ｂ）はこの発明の音声標準パタン登録の
動作の手順を説明するための動作の流れ図である。

尚、第１図（Ａ）及び（Ｂ）において、第２図で説明し
た構成成分と同一の構成成分については同−の符号を付
して説明し、その詳細な説明を省略する。

既に説明したように、この発明の標準パタン登録方式に
おいては、同一カテゴリの音声を複数回発声させて得ら
れた複数個の音声パタンの発声長の中央値を基準発声長
としで設定する。そして、この基準発声長と同一の長さ
の音声若しくはこの基準発声長とは著しく異ならない長
さの音声のみから標準パタンを作成するように構成した
ものである。

先ず、第１図（Ａ）に示す実施例では、音声パタンと標
準パタンとの類似度ヲ算出して認識判定を行う認識部１
８′に、標準パタン作成のために音声パタンの取捨選択
を行うための機能をもたせる。この機能を達成させるた
め、この実施例では、認識部１８′に複数の音声パタン
の音声長の中央値を求める中央値算出手段２６と、この
中央値に該当する音声パタンを選出する選出手段２８と
を設ける。３０は音声切り出し部１６においで決定され
認識部１８′に送られできた各音声パタンの特徴パラメ
ータ系列及びそれぞれの発声長を一時的に読出し自在に
記憶させるための一時記憶装置である。

この−時記憶装雪３０を設ける代わりに認識部１８′の
メモリ（図示せず）にその機能を持たせでも良い。

次に、この第１図（Ａ）の構成の動作例につき第３図（
Ａ）の動作の流れ図を用いて説明する。

登録をしようとする話者は、外部マイクロホン１０に向
けで、例えば特定の発声リストに従って、ある文章を発
声して読むことにより、この文章中に含まれている同一
カテゴリの単語の音声を３回以上の任意の回数だけ、こ
の実施例では３回、発声させる。先ず、１回目の発声に
対して、認識処理の場合と同様にして、マイクロホン２
０、Ａ／Ｄ変換部１２を介して特徴抽出部１４に送られ
ここで音声特徴バラメークＳ、Ｐ等が算出され、音声切
り出し部１６においてこれら特徴パラメータＳ、Ｐ等の
時間変化からこの入力音声の音声区間の判定が行なわれ
る。

認識部１８′の中央値算出手段２６においでは、特徴パ
ラメータＳ、Ｐ等及び音声区間Ｌ＋　　（ｉｌ、２・・
・ｎ。尚、この実施例ではｎ＝３とする。）かそれぞれ
入力され（ステップＳ１）、ｉ声区間に対応した音声パ
タンＳＰ□　（ｉ＝１．２・・・ｎ。尚、この実施例で
はｎ＝３とする。）としでの特徴パラメータ系列が定ま
る（ステップＳ２）。１回目の音声パタンｔｓｐ、とラ
ベル付けして、音声区間に対応した特徴パラメータＳ及
びＰの系列を一時記憶装置３０に記憶すると共に、この
音声パタンの発声長Ｌ１も記憶する（ステップＳ３）。

同様に、２回目及び３回目の発声に対してもその音声パ
タンＳＰＹ、ＳＰ３及び発声長Ｌ−２ｖＬ３８記憶する
。この３回目の発声終了時点で音声パタンＳ　Ｐ　＋〜
Ｓ　Ｐ　３及び各音声パタンの発声長し、〜し３が得ら
れる（ステップＳ３）。

次に、この中央値算出手段２６において、各音声パタン
ＳＰＩ　　（１＝　１．２．３）の一連の発声長ＬＬ　
　（１＝１．２．３）の中央値（ｍｅｄｉａｎ：メジア
ン）Ｌ□を求める（ステップＳ４）。

次に、選出手段２８において、この発声により得た一連
の音声長Ｌｌの中央値し□に該当する音声パタンＳＰ、
、、ヲ選出しくステップＳ５）、この選出した音声パタ
ンｓｐ、を標準パタンとして標準パタン辞書メモリ２０
に出力して登録する（ステップＳ６）。

このようにして第１図（Ａ）の構成の音声標準パタン登
録方式における音声標準パタンか登録される。

次に、第１図（Ｂ）に示す構成の音声標準パタン登録方
式につき説明する。

この構成は、第１図（Ａ）の構成とは、標準パタン作成
のための音声パタンの取捨選択の範囲を広げるために許
容範囲を設定し、この許容範囲内で選択された複数の音
声パタンの音声長の平均化を行って標準パタンとしての
音声パタンの選出を行う機能をもたせている点が異なっ
ているが、その他の構成は同一であるのでその詳細な説
明を省略する。

従って、この実施例では、認識部１８′（こ複数の音声
パタンＳＰ、（ｉ＝１．２−・−ｎ、尚、この実施例で
はｎ＝３とする。）の各音声長り。

（ｉ＝１．２・・・ｎ。尚、この実施例ではｎ−３とす
る。）の中央値Ｌ□を求める中央値算出手段２６の他（
こ、この中央値し、壱基準発声長とした許容範囲を設定
する許容範囲設定手段３２を追加しで設ける。この実施
例で行う許容範囲の設定の手法は、予め経験的に定めた
最大許容範囲率８１．８及び最小許容範囲率Ｓ　ｍｉｎ
を認識部Ｍ１８のメモリ（図示せず）に格納しておき、
所要に応してこれら許容節回率Ｓ　ｌ’１ｌｌｌＸ及び
Ｓ−＋、、％読出しで基準発声長Ｌ１に乗算して最大許
容発声長としての１大限界値し□８及び最小許容発声長
としての最小限界値し□、、ヲそれぞれ求め、これら最
大限界値及び最小限界値Ｌ　ｍｉｎで定まる範囲を許容
範囲とする。

ざらに、この認識部１８′には第１図（Ａ）に設けた選
出手段２８の代わりに、この許容範囲内の音声長の音声
パタンを選出し、選出された音声パタンか一個の場合に
はこれを標準パタンとし、又、選出された音声パタンか
複数個ある場合には、これらの音声パタンの発声長の平
均化を行って平均化された発声長りを標準パタンとしで
選出する等といった種々の任意好適な手法によって標準
パタンを選出する選出手段３４を設ける。

次に、この第１図（８）の構成の動作例につき第３図Ｃ
Ｂ）を参照して説明する。

第１図（Ａ）の構成の場合と同様に、登録をしようとす
る話者は、外部マイクロホン１０に向けて同一カテゴリ
の単語の音声を３回以上の任意の回数たけ、この実施例
では３回、発声したとし、認識部１８′の中央値算出手
段２６には、特徴パラメタＳ、Ｐ等及び音声区間り、（
ｉ＝１．２・・・ｎ。尚、この実施例ではｎ＝３とする
。）がそれぞれ入力され（ステップ５１０）たとする。

この場合にも同様に、音声区間に対応した音声パタンＳ
Ｐｌ　（ｉ−１，２・・・ｎ、尚、この実施例ではｎ＝
３とする。）としての特徴パラメータ系列が定まり（ス
テップＳｌ＋）、１回目、２回目、３回目の各音声パタ
ンをＳ　Ｐ　ｌ、　Ｓ　Ｐ　２　、Ｓ　Ｐ　３とラベル
付けして音声区間に対応した特徴バラタ〜りＳ及びＰの
系列を一時記憶装＝３０にｊ頃次記憶すると共に、これ
ら音声パタンの発声長ＬＬ２．Ｌ３も記憶する（ステッ
プ５１２）。

次に、この中央値算出手段２６において、各音声パタン
ＳＰ、（ｉ＝１．２．３）の一連の発声長Ｌ＋　　（１
＝１．２．３）の中央値し、、、を求める（ステップ５
１３）。

尚、上述したステップ８１０〜ＳＩ３は前述したステッ
プ８１〜Ｓ４と実質的に同一の動作処理が行われる。

次１こ、認識部１８′のメモリ（図示せず）に予め格納
されでいる最大許容範囲率８□つと最小許容範囲率Ｓ１
゜。とを読出しくステップ５Ｉ４）、これらの許容範囲
率Ｓ□８及びＳ、、、、ｏａ中央値り、ｆこ対してそれ
ぞれ（１）式に従って算出して最大許容発声長Ｌ　ｍａ
ｘ及び最小許容発声長しｆｆ１８、を算出し、これら最
大許容発声長し□、、ヲ最大限界値としかつ最小許容発
声長し□ｎを最小限界値とする許容範囲を設定する（ス
テップ５１５）。

次に、選出手段３４において、先の三つの音声パタンＳ
ＰＩ　　（１＝　１．２．３）の発声長し、〜Ｌ３のう
ち、（２）式の条件を満足させる発声長を持った発声長
し１を選出する（ステップ５１６）。

Ｌ　ｍｉｎ　　≦Ｌ＋　　≦Ｌ　ｍａｗ（ｉ＝１．２．
３）次に、この選出手段３４において、この条件を満足する
発声長Ｌ１を有する音声パタンか１個のか櫂数個あるか
の判定を行い（ステップ５Ｉ７）、もし−個のみである
場合にはその音声パタンＳＰをそのまま標準パタンとし
て標準パタン辞書メモリ２０へ登録する（ステップ５１
９）。

一方、この判定ステップＳＩ７においで上述の条件を満
足する発声長を有する音声パタンが槽数個存在すると判
定された場合には、それら選択された音声パタン間での
発声長の平均化等を行う（ステップ５１８）。この平均
化を行う代わりに、例えば選択された音声パタンの全て
をそのカテゴリの標準パタンとして決定するマルチテン
プレート法と称する手法等といった従来手法を用いでも
良い。

このようにしで求めた一つ又は複数個の標準パタンを標
準パタン辞書メモリ２０へ出力して登録する（ステップ
５１９）このようにしで、同一カテゴリの音声を３回収上発声さ
せて得た各音声パタンのうち許容範囲内に音声長を有す
る音声パタンかう標準パタンを定めてこれを標準パタン
辞書メモリ２０に登録するという、第１図（Ｂ）の構成
の音声標準パタン登録方式を達成することか出来る。

上述した第１図（Ａ）及びＣＢ）の構成の各音声標準パ
タン登録方式によれば、３個の音声パタンのうち２個以
上の誤検出パタンか存在する場合に誤検出パタンかう基
準発声長を設定しでしまうことになる。このような確率
Ｐ１′は前述した検出誤りαで表わすとＰ、’　　＝３ａ２　（１−ａ）＋ａ３となり、前述し
た検出誤りαの各値に値しで、別表ニ示すように、０．
○６０７５．０．０２８　：００ＯＯ７２５：ｏ、ｏ○
２８８９というように、従来値と比較してこの発明の方
式による場合の誤設定率が低く抑えられることが分かる
。

この発明は上述した実施例にのみ限定されるものではな
く多くの変形又は変更をなし得ることか出来る。例えば
、上述した実施例では、３回の発声によって標準パタン
を決定しでいるが、４回以上の任意の回数だけ発声させ
て標準パタンの決定を行っても良い。

（発明の効果）上述した説明からも明らかなように、この発明の音声標
準パタン登録方式によれば・最も発声頻度の高い発声長
を標準パタン取捨選択の基準発声長としているので、従
来手法よりも登録精度が向上するとともに、音声認識装
置自体での認識精度／／

【図面の簡単な説明】第１図（Ａ）及び（８）はこの発明の音声標準パタン登
録方式の説明に供するブロック図、第２図は従来の音声
標準パタン登録方式の説明に供するブロック図、第３図（Ａ）及び（８）はこの発明の音声標準パタン登
録方式における登録手順を説明するための動作の流れ図
である。１０・・・外部音声入力装置、　１２・・・Ａ／Ｄ変換
部１４・・・特徴抽出部、　　　　１６・・・音声切り
出し部１８′・・・認識部２０・・・標準パラン計重メモリ２２・・・認識結果出力部、　　２４・・・タト部機器
２６・・・中央値算出手段、　　２８．３４・・・選出
手段３０・・・−時記憶装ゴ３２・・・許容範囲設定手段。特許出願人　　　　　　沖電気工業株式会社第１図（Ａ
）の構成の登録動作の流れ口笛３図（Ａ）

Claims

【特許請求の範囲】

（１）音声標準パタンを読み出し自在に登録しておくた
めの標準パタン辞書メモリと、外部音声入力部からの入力音声の音声パタンと予め登録
された音声標準パタンとの類似度を算出する認識部とを
含み、該類似度に基づいて認識結果を外部処理装置へ出
力するように構成した音声認識装置の当該標準パタン辞
書メモリに音声標準パタンを登録する方式において、前記認識部に複数の音声パタンの音声長の中央値を求め
る手段と、該中央値に該当する音声パタンを選出する手
段とを設け、同一カテゴリの音声を３回以上発声させて得た一連の音
声長の中央値に該当する音声パタンを標準パタンとして
前記標準パタン辞書メモリに登録することを特徴とする音声標準パタン登録方式。
（２）外部音声入力部からの入力音声の音声パタンと予
め登録された音声標準パタンとの類似度を算出する認識
部と、標準パタン辞書メモリとを含み、該類似度に基づ
いて認識結果を外部処理装置へ出力するように構成した
音声認識装置の当該標準パタン辞書メモリに前記音声標
準パタンを登録する方式において、前記認識部に複数の音声パタンの音声長の中央値を求め
る手段と、該中央値を基準発声長とした許容範囲を設定
する手段と、この許容範囲内の音声長の音声パタンを選
出する手段とを設け、同一カテゴリの音声を３回以上発
声させて得た各音声パタンのうち前記許容範囲内に音声
長を有する音声パタンから標準パタンを定めてこれを前
記標準パタン辞書メモリに登録することを特徴とする音声標準パタン登録方式。