JPH04178699A

JPH04178699A - 音声認識方法及び装置

Info

Publication number: JPH04178699A
Application number: JP2307607A
Authority: JP
Inventors: Toshiki Kawamoto; 河本　俊毅
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1990-11-14
Filing date: 1990-11-14
Publication date: 1992-06-25

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】且皿見立本発明は、音声認識方法及び装置、より詳細には、より
正確な標準パタンを登録するための特定話者音声認識方
法及びそのための装置に関する。

ｌ米致麦従来の音声認識装置には、標準パタン登録時に、３回以
上の発声のうち、ある決められた何回■かの発声を合成
用標準パタンとして登録するものがある。また、登録用
音声を発声する度に合成音を必ず出力してその発声が正
しいかどうかを話者が判断するものもある。

しかし、標準パタン登録時に、３回以上の発声のうち、
ある決められた何回目かの発声、例えば、２回目の発声
を合成用標準パタンとして登録する音声認識装置では、
１回目、３回目の発声に対しての確認ができないため、
認識用標準パタンを作成するために３回分の音声パタン
を重ねあわせるときに１回目、３回目の音声パタンか不
良音声パタンであってもそれを用いてしまい正常な標準
パタンを作成できなくなってしまう。

また、登録時に音声を発声する度に合成音を出ツノする
音声認識装置では、話者が発声を行う度にその発声が正
常に入力されたかどうかを判断しなければならず話者に
対する負担が大きかった。

■−−道。

本発明は、上述のごとき実情に鑑みてなされたもので、
特に、特定話者の音声認識において、標準パタン登録時
に、音声区間検出ミス等による異常な認識用標準パタン
を正常な標準パタンに重ねあわせることを防ぐことがで
き、更に、話者が発声する度に正常かどうかを判断する
負担をなくすことを目的としてなされたものである。

豊−一広本発明は、上記目的を達成するために、（１）マイクロ
フォンから入力された音声からスペクトル情報等の特徴
量を抽出し、抽出され特徴量から認識用標準パタンと合
成用標準パタンとを作成し。

作成された認識用標準パタンを記憶するとともに、作成
された合成用標準パタンを各認識用標準パタンに対応し
て記憶し、音声入力時に抽出される認識用特徴量から作
成される入力パタンと予め記憶された上記認識用標準パ
タンとのパタン照合を行なって入力音声がどの標準パタ
ンに該当するのかを認識し、認識された結果として、第
１候補の認識用標準パタンに対応する合成用標準パタン
を上記合成用標準パタンの記憶部から読みだして合成音
として出力し、標準パタン登録時に１単語につき３回以
上の発声を行う特定お者音声認識方法において、標準パ
タン登録時に各発声のフレーム長、無音区間数等を測定
し、３回のうち１回の発声だけが測定したフレーム長、
無音区間数等が他の２回の発声と差が大きくその差が予
め定められた値よりも大きい場合のみ、その１回の発声
によって作成された合成用標準パタンを音声合成して出
力し、話者にそのパタンか正しいかどうかを判断させて
標準パタンを登録させることこと、或いは、（２）マイ
クロフォンから入ツノされた音声からスペクトル情報等
の特徴量を抽出する特徴抽出部と、特徴抽出部で得られ
た特徴量から認識用標準パタンと合成用標準パタンとを
作成する標準パタン作成部と、作成された認識用標準パ
タンを記憶する認識用標準パタン記憶部と、作成された
合成用標準パタンを各認識用標準パタンに対応して記憶
する合成用標準パタン記憶部と、音声入力時に上記特徴
抽出部で抽出される詔識用特微量から作成される入力パ
タンと予め記憶された上記認識用標準パタン記憶部内の
認識用標準パタンとのパタン照合を行ない入力音声がど
の標準パタンに該当するのかを認識するパタン照合部と
、認識された結果として、第１候補の認識用標準パタン
に対応する合成用標準パタンを上記合成用標準パタン記
憶部から読みだして合成音として出力する音声合成部と
を備え、標準パタン登録時に１単語につき３回以トの発
声を行う特定話者音声認識装置において、標準パタン登
録時に各発声のフレーム長、無音区間数等を測定し、３
回のうち１回の発声だけが測定したフレーム長、無音区
間数等が他の２回の発声と差が大きくその差が予め定め
られた値よりも大きい場合のみ、その１回の発声によっ
て作成された合成用標準パタンを音声合成部で合成して
出力し、話者にそのパタンか正しいかどうかを判断させ
て標準パタンを登録することを特徴としたものである。

以下、本発明の実施例に基いて説明する。

第１図は、本発明の一実施例を説明するための構成図で
、図示のように、マイクロフォン１から入力された音声
からスペクトル情報等の特徴量を抽出する特徴抽出部２
と、特徴抽出部２で得られた特徴量から認識用標準パタ
ンと合成用標準パタンとを作成する標準パタン作成部３
と、作成された認識用標準パタンを記憶する認識用標準
パタン記憶部４と、作成された合成用標準パタンを各認
識用標準パタンに対応して記憶する合成用標準パタン記
憶部５と、音声入力時に上記特徴抽出部２で抽出される
認識用特徴量から作成される入力パタンと予め記憶され
た上記認識用標準パタン記憶部内の認識用標準パタンと
のパタン照合を行ない入力音声がどの標準パタンに該当
するのかを認識するパタン照合部６と、認識された結果
として、第１候補の認識用標準パタンに対応する合成用
標準パタンを上記合成用標準パタン記憶部から読みだし
、合成音として出力する音声合成部７と、認識結果等を
出力するスピーカ等の表示部８と、話者が登録や認識を
行わせるためのキーを備えたキーボード９と、前記各ブ
ロックを制御する制御部１０と、オペレータ（話者）に
操作指示を行う表示部１１等からなる。

次に上記の構成で、標準パタン登録時に１単語につき３
回ずつ発声を行って登録する場合を例として、標準パタ
ン登録時の本発明の動作について説明する。標準パタン
登録時には、話者は、まず、キーボード９の登録を行う
ためのキーを押下し、単語番号が何番の単語を登録する
かを指定する。

制御部１０はキーボード９の登録キーが押下されたこと
を検知すると、登録動作を行うか認識動作を行うかを切
替るスイッチ１２を登録側に切替える。話者はマイクロ
フォン１にその単語の１回目の発声を入力し、入力され
た音声は特徴抽出部２で認識用の特徴量及び合成用の特
徴量を抽出され、音声区間が決定される。決定された音
声区間内の特徴量は標準パタン作成部３に送られ認識用
標準パタン、合成用標準パタンが作成される。この処理
が終わった時点で標準パタン作成部３は処理終了信号を
制御部１ｏに送り、制御部１０はこの動作が終わったこ
とを確認した後、表示部１１に２回目の発声を話者に促
すメツセージを出力する。

話者は次に２回目の発声をマイクロフォンｌに入力し、
１回目の発声と同様、入力された音声が特徴抽出部２で
認識用の特徴量及び合成用の特徴量を抽出され、音声区
間が決定される。決定された音声区間内の特徴量は標準
パタン作成部３に送られる。標準パタン作成部３では認
識用の特徴量から認識用標準パタンを作成し、１回目の
発声による標準パタンのフレーム長や無音区間数等を２
回目の発声による標準パタンのフレーム長や無音区間数
等と比べて、その差とそれぞれある予め定めておいた閾
値ｘ、ｙ・・・と比較する。その結果、差が閾値よりも
小さい場合には１回目の認識用標準パタンと２回目の認
識用標準パタンとを重ねあわせて新たな認識用標準パタ
ンを作成し、合成用標準パタンに関しては、１回目の発
声によって作成されたものだけ残し、２回目の発声によ
る合成用特徴量からは合成用標準パタンを作成しない。

−方、その差が予め定めておいた閾値よりも大きい場合
には１回目の認識用標準パタンと２回目の認識用標準パ
タンとを重ねあわせずそのまま２つとも記憶しておく。

合成用標準パタンに関しては２回目の発声による合成用
特徴量から合成用標準パタンを作成し、同様に１回目の
合成用標準パタンと２回目の合成用標準パタンとをその
まま２つとも記憶しておく。ここまでの処理が終わると
標準パタン作成部３は制御部１０に処理終了信号を送り
、制御部１０は表示部１１に３回目の発声を話者に促す
メツセージを出力させる。話者は次に３回［」の発声を
マイクロフォン１に入力し、１回目の発声と同様に、入
力された音声が特徴抽出部２で認識用の特徴量及び合成
用の特徴量を抽出され、音声区間が決定される。決定さ
れた音声区間内の特徴量は標準パタン作成部３に送られ
る。標準パタン作成部３では認識用特徴量から認識用標
準パタンを作成し、それまでに作成されている認識用標
準パタンの数を見て、１つであればその認識用標準パタ
ンのフレーム数や無音区間数等と、３回目の発声による
認識用標準パタンのフレーム数や無音区間数等と比較す
る。その差とそれぞれある予め定めておいた閾値ｘ、ｙ
・と比べた結果、差が閾値よりも小さい場合にはそれま
でに作成してあった認識用標準パタンと３回目の発声に
よる認識用標準パタンとを重ねあわせて新たな認識用標
準パタンを作成し、合成用標準パタンに関しては、１回
目の発声によって作成されたものだけ残し、３回目の発
声による合成用特徴量からは合成用標準パタンを作成し
ない。一方、その差が予め定めておいた閾値よりも大き
い場合にはそれまでに作成してあった認識用標準パタン
と３回目の発声による認識用標準パタンとを重ねあわせ
ずそのまま２つとも記憶しておく。合成用標準パタンに
関しては３回目の発声による合成用特徴量から合成用標
準パタンを作成し、同様に１回目の合成用標準パタンと
３回目の標準パタンとをそのまま２つとも記憶しておく
。また、それまでに作成されている認識用標準パタンの
数が２つの場合には、３回目の発声による認識用標準パ
タンのフレーム数や無音区間数等を１回目の発声による
認識用標準パタンと２回目の発声による認識用標準パタ
ンのフレーム数や無音区間数等と比較し、その差の小さ
い方の標準パタンを選ぶ。その選ばれた認識用標準パタ
ンと３回目の発声による認識用標準パタンとを重ねあわ
せ、新たな認識用標準パタンを作成する。合成用標準パ
タンに関しては、３回目の発声による合成用標準パタン
は作成せず、それまでの合成用標準パタンをそのまま残
しておく。ここまでの処理が終わった時点で標準パタン
作成部３は処理終了信号を制御部１０に送り、制御部１
０はこの信号を受は取ると標準パタン作成部３の認識用
標準パタンの数を見て、１つであればその認識用標準パ
タンを認識用標準パタン記憶部４に、合成用標準パタン
を合成用標準パタン記憶部５にそれぞれ単語番号と共に
記憶して、その単語の標準パタン登録処理を終了する。

一方、標準パタン作成部３の認識用標準パタンの数が２
つの場合には、重ね合わされていない方の認識用標準パ
タンか何回目の発声によって作成されたものかを検知し
、その発声によって作成された合成用標準パタンを音声
合成部７に送り、合成音としてスピーカ８より出力する
。この標準パタンは３回の発声のうち１回だけフレーム
長や無音区間数が違っているものである。よって、正確
な音声区間検呂が行われず、余分なノイズが付いていた
り、音声の語頭、語尾が欠落している可能性がある。そ
こで話者にその標準パタンか異常かどうかを判断しても
らうために合成音で出力するのである。話者はこの合成
音を聞いてこの標準パタンか異常であると判断した場合
には、キーボード９のキャンセルキーを押下し、そうで
なければ何もし２ない。制御部１０は、音声合成部７か
ら合成音の出力が終わったことを示す信号を受は取った
後、キーボード９のキャンセルキーが押下されたかどう
かを一定時間監視し、押された場合には、標準パタン作
成部３に異常である認識用標準パタン、合成用標準パタ
ンを消去させる。次にもう一度発声を行うよう話者に促
すメツセージを表示部１１に出力させて、話者はもう一
度同じ発声を入力する。一方、一定時間キャンセルキー
が押下されなかった場合には、他の２回の発声が異常で
あるとみなし、標準パタン作成部３に重ねあわせた認識
用標準パタン、それに対応する合成用標準パタンを消去
させて、次にもう２回発声を行うよう話者に促すメツセ
ージを表示部１１に出力させ、話者はもう２回同じ発声
を入力する。そして３回の認識用標準パタンか重ね合わ
された時点で、その認識用標準パタンを認識用標準パタ
ン記憶部４へ、合成用標準パタンを合成用標準パタン記
憶部５へその単語番号と共に記憶させる。以りが一単語
の標準パタン登録の処理の説明である。話者は、登録し
たい単語数だけ以上の動作を繰り返す。

ガーー玉以上の説明から明らかなように、本発明によると、特定
話者の音声認識において、標準パタン登録時に、音声区
間検出ミス等による異常な認識用標準パタンを正常な標
準パタンに重ねあわせることを防ぐことができ、更に、
話者が発声する度に正常かどうかを判断する負担をなく
すことができる。

【図面の簡単な説明】

第１図は、本発明の一実施例を説明するための構成図で
ある。１　マイクロフォン、２　・特徴抽出部、３・・標準パ
タン作成部、４・・・認識用標準バタシ記憶部、５・・
合成用標準パタン記憶部、６・パタン照合部、７・・・
音声合成部、８・・・スピーカ、９・・キーホード、１
０・・制御部、１１・表示部。

Claims

【特許請求の範囲】１、マイクロフォンから入力された音声からスペクトル
情報等の特徴量を抽出し、抽出され特徴量から認識用標
準パタンと合成用標準パタンとを作成し、作成された認
識用標準パタンを記憶するとともに、作成された合成用
標準パタンを各認識用標準パタンに対応して記憶し、音
声入力時に抽出される認識用特徴量から作成される入力
パタンと予め記憶された上記認識用標準パタンとのパタ
ン照合を行なって入力音声がどの標準パタンに該当する
のかを認識し、認識された結果として、第１候補の認識
用標準パタンに対応する合成用標準パタンを上記合成用
標準パタンの記憶部から読みだして合成音として出力し
、標準パタン登録時に１単語につき３回以上の発声を行
う特定話者音声認識方法において、標準パタン登録時に
各発声のフレーム長、無音区間数等を測定し、３回のう
ち１回の発声だけが測定したフレーム長、無音区間数等
が他の２回の発声と差が大きくその差が予め定められた
値よりも大きい場合のみ、その１回の発声によって作成
された合成用標準パタンを音声合成して出力し、話者に
そのパタンが正しいかどうかを判断させて標準パタンを
登録させることを特徴とする音声認識方法。２、マイクロフォンから入力された音声からスペクトル
情報等の特徴量を抽出する特徴抽出部と、特徴抽出部で
得られた特徴量から認識用標準パタンと合成用標準パタ
ンとを作成する標準パタン作成部と、作成された認識用
標準パタンを記憶する認識用標準パタン記憶部と、作成
された合成用標準パタンを各認識用標準パタンに対応し
て記憶する合成用標準パタン記憶部と、音声入力時に上
記特徴抽出部で抽出される認識用特徴量から作成される
入力パタンと予め記憶された上記認識用標準パタン記憶
部内の認識用標準パタンとのパタン照合を行ない入力音
声がどの標準パタンに該当するのかを認識するパタン照
合部と、認識された結果として、第１候補の認識用標準
パタンに対応する合成用標準パタンを上記合成用標準パ
タン記憶部から読みだして合成音として出力する音声合
成部とを備え、標準パタン登録時に１単語につき３回以
上の発声を行う特定話者音声認識装置において、標準パ
タン登録時に各発声のフレーム長、無音区間数等を測定
し、３回のうち１回の発声だけが測定したフレーム長、
無音区間数等が他の２回の発声と差が大きくその差が予
め定められた値よりも大きい場合のみ、その１回の発声
によって作成された合成用標準パタンを音声合成部で合
成して出力し、話者にそのパタンが正しいかどうかを判
断させて標準パタンを登録することを特徴とする音声認
識装置。