JPH0362279B2

JPH0362279B2 -

Info

Publication number: JPH0362279B2
Application number: JP58119044A
Authority: JP
Inventors: Takahiro Sakuraba; Sumiko Sugihara
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-06-30
Filing date: 1983-06-30
Publication date: 1991-09-25
Also published as: JPS6011897A

Description

【発明の詳細な説明】 (イ) 発明の技術分野本発明は、音声認識装置に係わり、特にマルチ
テンプレート方式に改良を加えた音声認識装置に
関する。

(ロ) 技術の背景従来の音声認識装置には、使用者の音声を登録
し、その登録した音声と入力した音声とを照合し
て最も似ているものを認識結果として出力する特
定話者音声認識装置がある。

この型式の音声認識装置には、１つの語に複数
の辞書を用意するマルチテンプレート方式のもの
や、これに学習処理を導入して上記方式を更に発
展させたものがあるが、この後者の方式になるも
のであつても、その辞書登録における発声の態様
や、発生される語の性質に対する分析がいまだ十
分でなく、その結果として、用意しなければなら
ない辞書容量はなお多くにならざるを得ないのみ
ならず、そのために認識時間が長くなる等更に改
善すべき余地が残されている。

(ハ) 従来技術と問題点上述の特定話者音声認識装置の初期において
は、１つの語に１つの辞書を用意する場合に生ず
る誤認識を回避せんとして発声のばらつきに対処
する辞書、即ち１つの語に複数の辞書を用意する
いわゆるマルチテンプレート方式の音声認識装置
が開発された。この装置においては、各語毎にそ
の語を発生した場合に生じ得る各種音声を十分に
登録している場合にはその効果を期待出来る。し
かし、実際には、音声登録を続けて行なう場合が
多く、その登録の際の発声が同様なものになり易
いため、マルチテンプレート化の効果は稀釈化さ
れてしまう。

そこで、登録が終了したら、入力音声と対応す
る語の辞書の照合距離の近いものについて特定比
率で入力音声と登録音声とを合成して得た学習音
声をその語の登録音声として再登録を行なうとい
う学習処理を行ない、徐々に発声の異なる辞書に
する手段を採用している。

このようにして、すべて語に複数の辞書を持た
せても、その登録の際に同様な発声になる音声が
登録される場合には、依然として上述したと同様
マルチテンプレート化の効果を発揮出来ない。

又、語によつては発声し易くばらつきの出にく
いものや、類似語がなく誤認識しにくいものがあ
る。このような語について上述のようなマルチテ
ンプレート化を行なう必要性は乏しい。

(ニ) 発明の目的本発明は上述したような従来装置の有する欠点
に鑑みて創案されたもので、その目的は必要な辞
書数の大幅な削減をなして認識時間の短縮化を図
つた音声認識装置を提供するたことちある。

(ニ) 発明の構成そして、この目的は、マルチテンプレート方式
の辞書を有し、その辞書内容を学習処理により更
新する音声認識装置において、前記辞書の辞書内
容の各々と入力音声パラメータとの照合からその
最短照合距離を出力する最短照合距離出力手段
と、次候補対応の語に対応する辞書内容と入力音
声パラメータとの照合を行なつてその認識結果、
及び当該辞書内容との間の照合距離情報を出力す
る出力手段と、次候補要求入力を入力する入力手
段と、該入力手段に応答して前記最短照合距離の
辞書内容に照合距離が近い照合距離の語であつて
異なる語についての処理を前記出力手段に生ぜし
める制御手段と、前記出力手段による異なる語に
ついての処理において前記出力手段から出力され
る照合距離と、前記最短照合距離との差が予め決
められた基定値より小さいとき、信号を出力する
検出手段と、前記信号の発生まで前記各手段の動
作を継続させ、その発生で前記入力音声パラメー
タを前記辞書に追加登録させる登録手段とを設け
ることによつて、達成される。

(ヘ) 発明の実施例以下、添付図面を参照して本発明の実施例を説
明する。

添付図面は本発明の一実施例を示す。１は使用
者Ｕから発生された音声を受音するマイクロホン
で、２はマイクロホン１に接続された音声特徴抽
出部である。３は音声特徴抽出部２から出力され
た入力音声パラメータを格納する入力音声パラメ
ータバツフアである。入力音声パラメータバツフ
ア３の出力は登録学習制御部４へ接続されると共
に、パラメータ照合部５へ接続され、そこへの入
力音声パラメータは登録学習制御部４の制御の下
にある登録パラメータ辞書部６から出力される登
録音声パラメータとパラメータ照合部５で照合さ
れ、登録音声パラメータ毎に照合距離を認識制御
部７へ与えるように構成されている。又、登録音
声パラメータ辞書部６の登録音声パラメータ出力
は登録学習制御部４へ接続され、登録学習制御部
４は後述するような学習処理結果の学習音声パラ
メータ又は入力音声パラメータを登録音声パラメ
ータ辞書部６に再登録又は追加登録するように構
成されている。

認識制御部７はパラメータ照合部５から照合距
離を受けて最も照合距離の近い辞書を認識結果の
辞書とし、その辞書情報を認識辞書情報として線
８上に送出すると共に、上記最も照合距離の近い
辞書が何語であるかを示す情報を登録学習制御部
４の制御の下にある辞書デイレクトリ部９から得
て認識結果を線１０上に送出し、且つその時の照
合距離を照合距離情報として線１１上に発生する
ように構成されている。

１２は線１１上の照合距離情報を受けてその順
次の照合距離間の関係が予め決められた関係、例
えばそれら照合距離間の差が基定値よりも小さい
関係にあるとき、線１３上に辞書追加要求信号を
発生する辞書追加制御部である。

線８及び１３は登録学習制御部４へ接続されて
いる。

１４は登録学習制御部４からの上述したような
学習音声パラメータ又は入力音声パラメータを格
納するバツフアである。

又、１５は登録学習制御部４及び認識制御部７
へ接続され、装置に登録モード，学習モード，又
は認識モードを設定し、又後述するような誤認識
時に次候補のための要求信号を発生する操作パネ
ルである。

次に、上述した構成の本発明装置の動作を説明
する。

本発明を実施する装置には、登録モード，学習
モード，又は認識モードがあつて、装置は先ず、
使用者Ｕによる操作パネル１５の装置により登録
モードに設定される。

この登録モードにおいて、使用者Ｕが登録すべ
き語をマイクロホン１へ向けて順次に発声する。
マイクロホン１から入力された音声は音声特徴抽
出部２で認識用音声パラメータに変換され、その
入力音声パラメータは入力音声パラメータバツフ
ア３に格納される。格納された入力音声パラメー
タは登録学習制御部４の制御により登録音声パラ
メータ辞書部６に登録されると共に、その登録さ
れた辞書と対応する辞書デイレクトリ部９に登録
語の識別情報が登録される。

このような処理が登録したいすべての語につい
て行なわれる。

その終了後、使用者Ｕは操作パネル１５から学
習モードを設定し、再び登録モードの場合と同様
にして音声を入力させる。その入力された音声は
音声特徴抽出部２に与えられ、そこで音声パラメ
ータの抽出処理が行なわれる。抽出された入力音
声パラメータは入力音声パラメータバツフア３に
格納される。

この入力音声パラメータバツフア３の入力音声
パラメータは、登録学習制御部４の制御の下に登
録音声パラメータ辞書部６に登録されているすべ
ての登録音声パラメータと順番にパラメータ照合
部５で照合され、その照合完了の都度照合距離を
認識制御部７へ送る。

これらの照合が終了すると、認識制御部７で
は、照合距離の最も近い辞書を認識結果の辞書と
すると共に、その辞書が何語であるかを辞書デイ
レクトリ部９から得てその認識結果を線１０上に
送出する。これと同時的に、認識制御部７から線
８上に認識辞書情報を、又線１１上に照合距離情
報を発生する。

線１１上の照合距離情報を受けた辞書追加制御
部１２は照合距離情報が示す照合距離の間の比
較、即ち１位の認識結果における照合距離と２位
の認識結果における照合距離との比較を行ない、
その差が予め決められた基定値よりも小さければ
誤認識する可能性が高いとして辞書追加要求信号
を発生することとなる。

上述のようにして、線１０を経て出力される認
識結果を使用者Ｕがチエツクし、その認識結果が
誤認識のものである場合には、使用者Ｕは操作パ
ネル１５より認識のための次候補を要求する。認
識制御部７が次候補要求を受け取ると、次に照合
距離が近い別の語を新認識結果として、認識制御
部７から線１０上に出力する。又、そのときの照
合距離情報を線１１上に、又認識辞書情報を線８
上に送出する。

辞書追加制御部１２は第１位の候補の照合距離
と新認識結果の照合距離とを比較し、その差が基
定値より小さければ辞書追加要求信号を線１３上
に送出する。この場合に、線１３上に信号があれ
ば、入力音声パラメータバツフア３の入力音声パ
ラメータを登録学習制御部４を介してそのまま学
習音声パラメータバツフア１４に格納するが、逆
の場合には、線８上の認識辞書情報にも応答する
登録学習制御部４が従来と同様に、入力音声パラ
メータと認識辞書の登録音声パラメータとを特定
の比率で合成して学習音声パラメータを作成し、
これを学習音声パラメータバツフア１４に格納す
る。

このような過程を繰り返し又は繰り返せずし
て、認識結果に正解が出たならば、使用者Ｕは次
の語の学習に入るため、次の語をマイクロホン１
から入力させる。登録学習制御部４は次の語が入
力された来たことに応答して学習音声パラメータ
の登録音声パラメータ辞書部６への登録処理に入
る。辞書追加要求が出ていない場合には、学習音
声パラメータバツフア１４の学習音声パラメータ
を登録音声パラメータ辞書部６の認識辞書に再登
録する。又、辞書追加要求が出ている場合には、
バツフア１４に格納された入力音声パラメータを
登録音声パラメータ辞書部６の空辞書に登録し且
つその語の識別情報を上記空辞書に対応する辞書
デイレクトリ部９に登録する。

このようにして、照合距離の近いものについて
のみマルチテンプレート化が行なわれる。

なお、照合距離間の接近度はそれぞれの語乃至
語群に最適乃至これに準じて設定されるのがよ
い。

(ト) 発明の効果以上述べたように、本発明によれば、認識結果
に正解が出るまでの認識結果の照合距離相互間に
予め決められた関係が発生するまで従来と同様の
学習処理を行ない、この発生に応答して入力音声
パラメータの辞書への追加登録を行なうので、語
認識しやすい類似語のある語や発声のばらつきに
より他の語と照合距離が近くなる語だけがマルチ
テンプレート化されるようになる。従つて、辞書
容量の大幅な削減が可能になり、これにより照合
時間の短縮、ひいては認識時間を短くすることが
出来る等の効果が得られる。

【図面の簡単な説明】

添付図面は本発明の一実施例を示す。図中、１はマイクロホン、２は音声特徴抽出
部、３は入力音声パラメータバツフア、４は登録
学習制御部、５はパラメータ照合部、６は登録音
声パラメータ辞書部、７は認識制御部、９は辞書
デイレクトリ部、１２は辞書追加制御部、１４は
学習音声パラメータバツフア、１５は操作パネル
である。

Claims

【特許請求の範囲】１マルチテンプレート方式の辞書を有し、その
辞書内容を学習処理により更新する音声認識装置
において、前記辞書の辞書内容の各々と入力音声パラメー
タとの照合からその最短照合距離を出力する最短
照合距離出力手段と、次候補対応の語に対応する辞書内容と入力音声
パラメータとの照合を行なつてその認識結果、及
び当該辞書内容との間の照合距離情報を出力する
出力手段と、次候補要求入力を入力する入力手段と、該入力手段に応答して前記最短照合距離の辞書
内容に照合距離が近い照合距離の語であつて異な
る語についての処理を前記出力手段に生ぜしめる
制御手段と、前記出力手段による異なる語についての処理に
おいて前記出力手段から出力される照合距離と、
前記最短照合距離との差が予め決められた基定値
より小さいとき、信号を出力する検出手段と、前記信号の発生まで前記各手段の動作を継続さ
せ、その発生で前記入力音声パラメータを前記辞
書に追加登録させる登録手段とを設けることを特
徴とする音声認識装置。