JPS6011897A

JPS6011897A - 音声認識装置

Info

Publication number: JPS6011897A
Application number: JP58119044A
Authority: JP
Inventors: 桜庭　孝宏; 杉原　澄子
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1983-06-30
Filing date: 1983-06-30
Publication date: 1985-01-22
Also published as: JPH0362279B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（イ）発明の技術分野本発明は音声認識装置に係り、特にマルチテンプレート
方式に改良を加えた音声認識装置に関する。

（ロ）技術の背景従来の音声認識装置には、使用者の音声を登録し、その
登録した音声と入力した音声とを照合して最も似ている
ものを認識結果として出力する特定話者音声認識装置が
ある。

この型式の音声認識装置には、１つの語に複数の辞書を
用意するマルチテンブレー１一方式のものや、これに学
習処理を導入して」−配力式を更に発展させたものがあ
るが、この後者の方式になるものであっても、その辞書
登録にお＆Ｊる発声の態様や、発生される語の性質に対
する分析がいまだ十分でなく、その結果として、用意し
な番ノればならない辞書容量はなお多くにならざるを得
ないのみならず、そのために認識時間が長くなる等更に
改善すべき余地が残されている。

（ハ）従来技術と問題点上述の特定話者音声認識装置の初期においては、１つの
語に１つの辞書を用意する場合に生ずる誤認識を回避せ
んとして発声のばらつきに対処する辞書、即ち１つの語
に複数の辞書を用意するいわゆるマルチテン−°レート
方式の音声認識装置が開発された。この装置においては
、各語毎にその語を発生した場合に生し得る各種音声を
十分に登録している場合にはその効果を期待出来る。し
かし、実際には、音声登録を続りて行なう場合が多く、
その登録の際の発声が同様なものになり易いため、マル
チテンプレート化の効果は稀釈化されてしまう。

そこで、登録が終了したら、入力音声と対応する語の辞
書の照合距離の近いものについて特定比率で入力音声と
登録音声とを合成して得た学習音声をその語の登録音声
として再登録を行なうという学習処理を行ない、徐々に
発声の異なる辞書にする手段を採用している。

このようにして、すべての語に複数の辞書を持たせでも
、その登録の際に同様な発声になる音声が登録される場
合には、依然として上述したと同様マルチテンプレート
化の効果を発揮出来ない。

又、語によっては発声し易くばらつきの出にくいものや
、類似語がなく誤認識しにくいものがある。このような
語について上述のようなマルチテンプレート化を行なう
必要性は乏しい。

仁）発明の目的本発明は上述したような従来装置の有する欠点に鑑みて
創案されたもので、その目的は必要な辞書数の大幅な削
減をなして認識時間の短縮化を図った音声認識装置を提
供することにある。

（ホ）発明の構成そして、この目的はマルチテンブレー１・方式の辞書を
有し、その辞刊内容を学習処理により更新する手段を有
する音声認識装置において、−ト記学習処理においてマ
ルチテンプレート化条件の発生を検出する手段と、その
発生まで上記学習処理を継続させ、その発生で入力音声
バラメークの上記辞書への追加登録処理に入る手段とを
備えて構成することによって、達成される。

（・）発明の実施例以下、添付図面を参照して本発明の詳細な説明する。

添付図面は本発明の一実施例を示す。１は使用者Ｕから
発生された音声を受音するマイクロホンで、２はマイク
ロホン１に接続された音声特徴抽出部である。３ば音声
特徴抽出部２から出力された入力音声パラメータを格納
する入力音声パラメータ照合部ァである。入力音声パラ
メータバッファ３の出力は登録学習制御部４へ接続され
ると共に、パラメータ照合部５へ接続され、そこへの入
力音声バラメークは登録学習制御部４の制御の下にある
登録音声バラメーク辞書部６から出力される登録音声パ
ラメータとパラメータ照合部５で照合され、登録音声バ
ラメーク毎、に照合距離を認識制御部７へ与えるように
構成されている。又、登録音声パラメータ辞書部６の登
録音声パラメータ出力は登録学習制御部４へ接続され、
登録学習制御部４は後述するような学習処理結果の学習
音声パラメータ又は入力音声バラメークを登録音声パラ
メータ辞書部６に再登録又は追加登録するように構成さ
れている。

認識制御部７はパラメータ照合部５から照合距離を受番
ノて最も照合距離の近い辞書を認識結果の辞書とし、そ
の辞書情報を認識辞書情報として線８上に送出すると共
に、上記最も照合距離の近い辞書が何語であるかを示す
情報を登録学習制御部４の制御の下にある辞書ディレク
１−り部９からｊ↓Ｉて認識結果を線１０上に送出し、
且つその時の照合距離を照合距離情報として線１１上に
発生Ｊるように構成されている。

１２は線１１上の照合距離情報を受りてその順次の照合
距離間の関係が予め決められた関係、例えばそれら照合
距離間の差が基定値よりも小さい関係にあるとき、線１
３上に辞省追加要求信号を発生する辞書追加制御部であ
る。

線８及び１３ば登録学習制御部４へ接続されている。

１４は登録学習制御部４からの上述したような学習音声
パラメータ又は人力音声パラメータを格納するバッファ
である。

又、１５は登録学習制御１１部４及び認識制御部７へ接
続され、装置に登録モート、学習モード、又は認識モー
ドを設定し、又後述するような誤認識時に次候補のため
の要求信号を発生ずる操作パネルである。

次に、上述した構成の本発明装；６：の動作を説明する
。

本発明を実施する装置には、登録モード、学習モード、
又は認識モードがあっζ、装置は先ず、使用者Ｕによる
操作パネル１５の装置により登録モーＦに設定される。

この登録モードにおいて、使用者Ｕが登録すべき語をマ
イクロホンＩへ向りて順次に発声する。

マイクｌ」ホンＩから入力された音声は音声特徴抽出部
２で認識用音声バラメークに変換され、その入力音声パ
ラメータは入力音声パラメータバッファ３に格納される
。格納された入力音声パラメータは登録学習制御部４の
制御により登録音声パラメータ辞書部６に登録されると
共に、その登録された辞書と対応する辞書ディレクトリ
部９に登録語の識別情報が登録される。

このような処理が登録したいすべての語について行なわ
れる。

その終了後、使用者Ｕは操作パネル１５から学習モード
を設定し、再び登録モードの場合と同様にして音声を入
力させる。その入力された音声は音声特徴抽出部２に与
えられ、そこで音声パラメータの抽出処理が行なわれる
。抽出された入力音声バラメークは入力音声パラメータ
バッファ３に格納される。

この入力音声パラメータバッファ３の入力音声パラメー
タは、登録学習制御部４の制御の下に登録音声バラメー
ク辞書部６に登録されているすべての登録音声バラメー
クと順番にパラメータ照合部５で照合され、その照合完
了の都度照合距離を認識制御部７へ送る。

これらの照合が終了すると、認識制御部７では、照合距
離の最も近い辞書を認識結果の辞書とすると共に、その
辞書が何語であるかを辞書ディレクトリ部９から得てそ
の認識結果を線１０上に送出する。これと同時的に、認
識制御部７から線８上に認識辞書情報を、又線１１上に
照合距離情報を発生ずる。

線１１上の照合距離情報を受けた辞書追加制御部１２は
照合距離情報が示す照合距離の間の比較、即ち１位の認
識結果における照合距離と２位の認識結果における照合
距離との比較を行ない、その差が予め決められた基定値
よりも小ざりれば誤認識する可能性が高いとして辞書追
加要求信号を発生ずることとなる。

上述のようにして、線１０を経て出力される認識結果を
使用者Ｕがチェックし、その認識結果が誤認識のもので
ある場合には、使用者Ｕは操作パネルＩ５より認識のた
めの次候補を要求する。認識制御部７が次候補要求を受
け取ると、次に照合距離が近い別の語を新認識結果とし
゛で、認識制御部７から線ｌＯ上に出力する。又、その
ときの照合距離情報を線１１上に、又認識辞書情報を線
８上に送出する。

辞書追加制御部１２は第１位の候補の照合距離と新認識
結果の照合距離とを比較し、その差が基定値より小さけ
れば辞書追加要求信号を線１３上に送出する。この場合
りこ、線１３上に信号があれば、人力音声パラメータバ
ッファ３の入力音声パラメータを登録学習制御部４を介
してそのまま学習音声パラメータバッファＪ４に格納す
るが、逆の場合には、線８上の認識辞書情報にも応答す
る登録学習制御部４が従来と同様に、入力音声パラメー
タと認識辞書の登録音声パラメータとを特定の比率で合
成して学習音声パラメータを作成し、これを学習音声バ
ラメークバッファ１４に格納する。

このような過程を繰り返し又は繰り返せずして、認識結
果に正解が出たならば、使用者Ｕは次の語の学習に入る
ため、次の語をマイク１：］ホン１から入力させる。登
録学習制御部４ば次の語が入力されて来たことに応答し
て学習音声パラメータの登録音声バラメーク辞書部６へ
の登録処理に入る。

辞書追加要求が出ていない場合には、学習音声パラメー
タバッファ１４の学習音声パラメータを登録音声パラメ
ータ辞書部６の認識辞書に再登録する。又、辞書追加要
求が出ている場合には、バッファ１４に格納された入力
音声パラメータを登録音声バラメーク辞書部６の空辞書
に登録し且つその語の識別情報を上記空辞書に対応する
辞書ディレクトリ部９に登録する。

このようにして、照合距離の近いものについてのみマル
チテンプレート化が行なわれるなお、照合距離間の接近
度はそれぞれの語乃至語群に最適乃至これに準じて設定
されるのがよい。

（））発明の効果以上述べたように、本発明によれば、認識結果に正解が
出るまでの認識結果の照合距離相互間に予め決められた
関係が発生ずるまで従来と同様の学習処理を行ない、そ
の発生に応答して人力音声パラメータの辞書への追加登
録を行なうので、語認識しやすい類似語のある語や発声
のばらつきにより他の語と照合距離が近くなる語だけが
マルチテンプレート化されるようになる。従って、辞皆
容量の大幅な削減が可能になり、これにより照合時間の
短縮、ひいては認識時間を短くすることが出来る等の効
果が得られる。

【図面の簡単な説明】

添付図面は本発明の一実施例を示す。図中、１はマイクロホン、２は音声特徴抽出部、３は入
力音声パラメータバッファ、４は登録学習制御部、５は
パラメータ照合部、６は登録音声パラメータ辞書部、７
は認識制御部、９は辞書ディレクトリ部、１２は辞書追
加要求田；、１４は学習音声パラメータバッファ、１５
は操作パネルである。

Claims

【特許請求の範囲】

（１）マルチテンプレート方式の辞書を有し、その辞書
内容を学習処理により更新する手段を有する音声認識装
置において、上記学習処理においてマルチテンプレート
化条件の発生を検出する手段と、その発生まで上記学習
処理を継続させ、その発生で入力音声パラメータの上記
辞書−＼の追加登録処理に入る手段とを備えて構成した
ことを特徴とする音声認識装置。
（２）　上記検出手段は」二記学習処理における久方音
声パラメータと上記辞書内容の各々との間の照合距離を
める手段と、その照合距離間に予め決められた関係が生
じているが否かを調べる手段とを備え、上記予め決めら
れた関係の発生を上記マルチテンブレ＝１・化条件の発
生とするように構成したことを特徴とする特許請求の範
囲第１項記載の音声認識装置。