JPH04178699A - 音声認識方法及び装置 - Google Patents
音声認識方法及び装置Info
- Publication number
- JPH04178699A JPH04178699A JP2307607A JP30760790A JPH04178699A JP H04178699 A JPH04178699 A JP H04178699A JP 2307607 A JP2307607 A JP 2307607A JP 30760790 A JP30760790 A JP 30760790A JP H04178699 A JPH04178699 A JP H04178699A
- Authority
- JP
- Japan
- Prior art keywords
- standard pattern
- recognition
- standard
- synthesis
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
且皿見立
本発明は、音声認識方法及び装置、より詳細には、より
正確な標準パタンを登録するための特定話者音声認識方
法及びそのための装置に関する。
正確な標準パタンを登録するための特定話者音声認識方
法及びそのための装置に関する。
l米致麦
従来の音声認識装置には、標準パタン登録時に、3回以
上の発声のうち、ある決められた何回■かの発声を合成
用標準パタンとして登録するものがある。また、登録用
音声を発声する度に合成音を必ず出力してその発声が正
しいかどうかを話者が判断するものもある。
上の発声のうち、ある決められた何回■かの発声を合成
用標準パタンとして登録するものがある。また、登録用
音声を発声する度に合成音を必ず出力してその発声が正
しいかどうかを話者が判断するものもある。
しかし、標準パタン登録時に、3回以上の発声のうち、
ある決められた何回目かの発声、例えば、2回目の発声
を合成用標準パタンとして登録する音声認識装置では、
1回目、3回目の発声に対しての確認ができないため、
認識用標準パタンを作成するために3回分の音声パタン
を重ねあわせるときに1回目、3回目の音声パタンか不
良音声パタンであってもそれを用いてしまい正常な標準
パタンを作成できなくなってしまう。
ある決められた何回目かの発声、例えば、2回目の発声
を合成用標準パタンとして登録する音声認識装置では、
1回目、3回目の発声に対しての確認ができないため、
認識用標準パタンを作成するために3回分の音声パタン
を重ねあわせるときに1回目、3回目の音声パタンか不
良音声パタンであってもそれを用いてしまい正常な標準
パタンを作成できなくなってしまう。
また、登録時に音声を発声する度に合成音を出ツノする
音声認識装置では、話者が発声を行う度にその発声が正
常に入力されたかどうかを判断しなければならず話者に
対する負担が大きかった。
音声認識装置では、話者が発声を行う度にその発声が正
常に入力されたかどうかを判断しなければならず話者に
対する負担が大きかった。
■−−道。
本発明は、上述のごとき実情に鑑みてなされたもので、
特に、特定話者の音声認識において、標準パタン登録時
に、音声区間検出ミス等による異常な認識用標準パタン
を正常な標準パタンに重ねあわせることを防ぐことがで
き、更に、話者が発声する度に正常かどうかを判断する
負担をなくすことを目的としてなされたものである。
特に、特定話者の音声認識において、標準パタン登録時
に、音声区間検出ミス等による異常な認識用標準パタン
を正常な標準パタンに重ねあわせることを防ぐことがで
き、更に、話者が発声する度に正常かどうかを判断する
負担をなくすことを目的としてなされたものである。
豊−一広
本発明は、上記目的を達成するために、(1)マイクロ
フォンから入力された音声からスペクトル情報等の特徴
量を抽出し、抽出され特徴量から認識用標準パタンと合
成用標準パタンとを作成し。
フォンから入力された音声からスペクトル情報等の特徴
量を抽出し、抽出され特徴量から認識用標準パタンと合
成用標準パタンとを作成し。
作成された認識用標準パタンを記憶するとともに、作成
された合成用標準パタンを各認識用標準パタンに対応し
て記憶し、音声入力時に抽出される認識用特徴量から作
成される入力パタンと予め記憶された上記認識用標準パ
タンとのパタン照合を行なって入力音声がどの標準パタ
ンに該当するのかを認識し、認識された結果として、第
1候補の認識用標準パタンに対応する合成用標準パタン
を上記合成用標準パタンの記憶部から読みだして合成音
として出力し、標準パタン登録時に1単語につき3回以
上の発声を行う特定お者音声認識方法において、標準パ
タン登録時に各発声のフレーム長、無音区間数等を測定
し、3回のうち1回の発声だけが測定したフレーム長、
無音区間数等が他の2回の発声と差が大きくその差が予
め定められた値よりも大きい場合のみ、その1回の発声
によって作成された合成用標準パタンを音声合成して出
力し、話者にそのパタンか正しいかどうかを判断させて
標準パタンを登録させることこと、或いは、(2)マイ
クロフォンから入ツノされた音声からスペクトル情報等
の特徴量を抽出する特徴抽出部と、特徴抽出部で得られ
た特徴量から認識用標準パタンと合成用標準パタンとを
作成する標準パタン作成部と、作成された認識用標準パ
タンを記憶する認識用標準パタン記憶部と、作成された
合成用標準パタンを各認識用標準パタンに対応して記憶
する合成用標準パタン記憶部と、音声入力時に上記特徴
抽出部で抽出される詔識用特微量から作成される入力パ
タンと予め記憶された上記認識用標準パタン記憶部内の
認識用標準パタンとのパタン照合を行ない入力音声がど
の標準パタンに該当するのかを認識するパタン照合部と
、認識された結果として、第1候補の認識用標準パタン
に対応する合成用標準パタンを上記合成用標準パタン記
憶部から読みだして合成音として出力する音声合成部と
を備え、標準パタン登録時に1単語につき3回以トの発
声を行う特定話者音声認識装置において、標準パタン登
録時に各発声のフレーム長、無音区間数等を測定し、3
回のうち1回の発声だけが測定したフレーム長、無音区
間数等が他の2回の発声と差が大きくその差が予め定め
られた値よりも大きい場合のみ、その1回の発声によっ
て作成された合成用標準パタンを音声合成部で合成して
出力し、話者にそのパタンか正しいかどうかを判断させ
て標準パタンを登録することを特徴としたものである。
された合成用標準パタンを各認識用標準パタンに対応し
て記憶し、音声入力時に抽出される認識用特徴量から作
成される入力パタンと予め記憶された上記認識用標準パ
タンとのパタン照合を行なって入力音声がどの標準パタ
ンに該当するのかを認識し、認識された結果として、第
1候補の認識用標準パタンに対応する合成用標準パタン
を上記合成用標準パタンの記憶部から読みだして合成音
として出力し、標準パタン登録時に1単語につき3回以
上の発声を行う特定お者音声認識方法において、標準パ
タン登録時に各発声のフレーム長、無音区間数等を測定
し、3回のうち1回の発声だけが測定したフレーム長、
無音区間数等が他の2回の発声と差が大きくその差が予
め定められた値よりも大きい場合のみ、その1回の発声
によって作成された合成用標準パタンを音声合成して出
力し、話者にそのパタンか正しいかどうかを判断させて
標準パタンを登録させることこと、或いは、(2)マイ
クロフォンから入ツノされた音声からスペクトル情報等
の特徴量を抽出する特徴抽出部と、特徴抽出部で得られ
た特徴量から認識用標準パタンと合成用標準パタンとを
作成する標準パタン作成部と、作成された認識用標準パ
タンを記憶する認識用標準パタン記憶部と、作成された
合成用標準パタンを各認識用標準パタンに対応して記憶
する合成用標準パタン記憶部と、音声入力時に上記特徴
抽出部で抽出される詔識用特微量から作成される入力パ
タンと予め記憶された上記認識用標準パタン記憶部内の
認識用標準パタンとのパタン照合を行ない入力音声がど
の標準パタンに該当するのかを認識するパタン照合部と
、認識された結果として、第1候補の認識用標準パタン
に対応する合成用標準パタンを上記合成用標準パタン記
憶部から読みだして合成音として出力する音声合成部と
を備え、標準パタン登録時に1単語につき3回以トの発
声を行う特定話者音声認識装置において、標準パタン登
録時に各発声のフレーム長、無音区間数等を測定し、3
回のうち1回の発声だけが測定したフレーム長、無音区
間数等が他の2回の発声と差が大きくその差が予め定め
られた値よりも大きい場合のみ、その1回の発声によっ
て作成された合成用標準パタンを音声合成部で合成して
出力し、話者にそのパタンか正しいかどうかを判断させ
て標準パタンを登録することを特徴としたものである。
以下、本発明の実施例に基いて説明する。
第1図は、本発明の一実施例を説明するための構成図で
、図示のように、マイクロフォン1から入力された音声
からスペクトル情報等の特徴量を抽出する特徴抽出部2
と、特徴抽出部2で得られた特徴量から認識用標準パタ
ンと合成用標準パタンとを作成する標準パタン作成部3
と、作成された認識用標準パタンを記憶する認識用標準
パタン記憶部4と、作成された合成用標準パタンを各認
識用標準パタンに対応して記憶する合成用標準パタン記
憶部5と、音声入力時に上記特徴抽出部2で抽出される
認識用特徴量から作成される入力パタンと予め記憶され
た上記認識用標準パタン記憶部内の認識用標準パタンと
のパタン照合を行ない入力音声がどの標準パタンに該当
するのかを認識するパタン照合部6と、認識された結果
として、第1候補の認識用標準パタンに対応する合成用
標準パタンを上記合成用標準パタン記憶部から読みだし
、合成音として出力する音声合成部7と、認識結果等を
出力するスピーカ等の表示部8と、話者が登録や認識を
行わせるためのキーを備えたキーボード9と、前記各ブ
ロックを制御する制御部10と、オペレータ(話者)に
操作指示を行う表示部11等からなる。
、図示のように、マイクロフォン1から入力された音声
からスペクトル情報等の特徴量を抽出する特徴抽出部2
と、特徴抽出部2で得られた特徴量から認識用標準パタ
ンと合成用標準パタンとを作成する標準パタン作成部3
と、作成された認識用標準パタンを記憶する認識用標準
パタン記憶部4と、作成された合成用標準パタンを各認
識用標準パタンに対応して記憶する合成用標準パタン記
憶部5と、音声入力時に上記特徴抽出部2で抽出される
認識用特徴量から作成される入力パタンと予め記憶され
た上記認識用標準パタン記憶部内の認識用標準パタンと
のパタン照合を行ない入力音声がどの標準パタンに該当
するのかを認識するパタン照合部6と、認識された結果
として、第1候補の認識用標準パタンに対応する合成用
標準パタンを上記合成用標準パタン記憶部から読みだし
、合成音として出力する音声合成部7と、認識結果等を
出力するスピーカ等の表示部8と、話者が登録や認識を
行わせるためのキーを備えたキーボード9と、前記各ブ
ロックを制御する制御部10と、オペレータ(話者)に
操作指示を行う表示部11等からなる。
次に上記の構成で、標準パタン登録時に1単語につき3
回ずつ発声を行って登録する場合を例として、標準パタ
ン登録時の本発明の動作について説明する。標準パタン
登録時には、話者は、まず、キーボード9の登録を行う
ためのキーを押下し、単語番号が何番の単語を登録する
かを指定する。
回ずつ発声を行って登録する場合を例として、標準パタ
ン登録時の本発明の動作について説明する。標準パタン
登録時には、話者は、まず、キーボード9の登録を行う
ためのキーを押下し、単語番号が何番の単語を登録する
かを指定する。
制御部10はキーボード9の登録キーが押下されたこと
を検知すると、登録動作を行うか認識動作を行うかを切
替るスイッチ12を登録側に切替える。話者はマイクロ
フォン1にその単語の1回目の発声を入力し、入力され
た音声は特徴抽出部2で認識用の特徴量及び合成用の特
徴量を抽出され、音声区間が決定される。決定された音
声区間内の特徴量は標準パタン作成部3に送られ認識用
標準パタン、合成用標準パタンが作成される。この処理
が終わった時点で標準パタン作成部3は処理終了信号を
制御部1oに送り、制御部10はこの動作が終わったこ
とを確認した後、表示部11に2回目の発声を話者に促
すメツセージを出力する。
を検知すると、登録動作を行うか認識動作を行うかを切
替るスイッチ12を登録側に切替える。話者はマイクロ
フォン1にその単語の1回目の発声を入力し、入力され
た音声は特徴抽出部2で認識用の特徴量及び合成用の特
徴量を抽出され、音声区間が決定される。決定された音
声区間内の特徴量は標準パタン作成部3に送られ認識用
標準パタン、合成用標準パタンが作成される。この処理
が終わった時点で標準パタン作成部3は処理終了信号を
制御部1oに送り、制御部10はこの動作が終わったこ
とを確認した後、表示部11に2回目の発声を話者に促
すメツセージを出力する。
話者は次に2回目の発声をマイクロフォンlに入力し、
1回目の発声と同様、入力された音声が特徴抽出部2で
認識用の特徴量及び合成用の特徴量を抽出され、音声区
間が決定される。決定された音声区間内の特徴量は標準
パタン作成部3に送られる。標準パタン作成部3では認
識用の特徴量から認識用標準パタンを作成し、1回目の
発声による標準パタンのフレーム長や無音区間数等を2
回目の発声による標準パタンのフレーム長や無音区間数
等と比べて、その差とそれぞれある予め定めておいた閾
値x、y・・・と比較する。その結果、差が閾値よりも
小さい場合には1回目の認識用標準パタンと2回目の認
識用標準パタンとを重ねあわせて新たな認識用標準パタ
ンを作成し、合成用標準パタンに関しては、1回目の発
声によって作成されたものだけ残し、2回目の発声によ
る合成用特徴量からは合成用標準パタンを作成しない。
1回目の発声と同様、入力された音声が特徴抽出部2で
認識用の特徴量及び合成用の特徴量を抽出され、音声区
間が決定される。決定された音声区間内の特徴量は標準
パタン作成部3に送られる。標準パタン作成部3では認
識用の特徴量から認識用標準パタンを作成し、1回目の
発声による標準パタンのフレーム長や無音区間数等を2
回目の発声による標準パタンのフレーム長や無音区間数
等と比べて、その差とそれぞれある予め定めておいた閾
値x、y・・・と比較する。その結果、差が閾値よりも
小さい場合には1回目の認識用標準パタンと2回目の認
識用標準パタンとを重ねあわせて新たな認識用標準パタ
ンを作成し、合成用標準パタンに関しては、1回目の発
声によって作成されたものだけ残し、2回目の発声によ
る合成用特徴量からは合成用標準パタンを作成しない。
−方、その差が予め定めておいた閾値よりも大きい場合
には1回目の認識用標準パタンと2回目の認識用標準パ
タンとを重ねあわせずそのまま2つとも記憶しておく。
には1回目の認識用標準パタンと2回目の認識用標準パ
タンとを重ねあわせずそのまま2つとも記憶しておく。
合成用標準パタンに関しては2回目の発声による合成用
特徴量から合成用標準パタンを作成し、同様に1回目の
合成用標準パタンと2回目の合成用標準パタンとをその
まま2つとも記憶しておく。ここまでの処理が終わると
標準パタン作成部3は制御部10に処理終了信号を送り
、制御部10は表示部11に3回目の発声を話者に促す
メツセージを出力させる。話者は次に3回[」の発声を
マイクロフォン1に入力し、1回目の発声と同様に、入
力された音声が特徴抽出部2で認識用の特徴量及び合成
用の特徴量を抽出され、音声区間が決定される。決定さ
れた音声区間内の特徴量は標準パタン作成部3に送られ
る。標準パタン作成部3では認識用特徴量から認識用標
準パタンを作成し、それまでに作成されている認識用標
準パタンの数を見て、1つであればその認識用標準パタ
ンのフレーム数や無音区間数等と、3回目の発声による
認識用標準パタンのフレーム数や無音区間数等と比較す
る。その差とそれぞれある予め定めておいた閾値x、y
・と比べた結果、差が閾値よりも小さい場合にはそれま
でに作成してあった認識用標準パタンと3回目の発声に
よる認識用標準パタンとを重ねあわせて新たな認識用標
準パタンを作成し、合成用標準パタンに関しては、1回
目の発声によって作成されたものだけ残し、3回目の発
声による合成用特徴量からは合成用標準パタンを作成し
ない。一方、その差が予め定めておいた閾値よりも大き
い場合にはそれまでに作成してあった認識用標準パタン
と3回目の発声による認識用標準パタンとを重ねあわせ
ずそのまま2つとも記憶しておく。合成用標準パタンに
関しては3回目の発声による合成用特徴量から合成用標
準パタンを作成し、同様に1回目の合成用標準パタンと
3回目の標準パタンとをそのまま2つとも記憶しておく
。また、それまでに作成されている認識用標準パタンの
数が2つの場合には、3回目の発声による認識用標準パ
タンのフレーム数や無音区間数等を1回目の発声による
認識用標準パタンと2回目の発声による認識用標準パタ
ンのフレーム数や無音区間数等と比較し、その差の小さ
い方の標準パタンを選ぶ。その選ばれた認識用標準パタ
ンと3回目の発声による認識用標準パタンとを重ねあわ
せ、新たな認識用標準パタンを作成する。合成用標準パ
タンに関しては、3回目の発声による合成用標準パタン
は作成せず、それまでの合成用標準パタンをそのまま残
しておく。ここまでの処理が終わった時点で標準パタン
作成部3は処理終了信号を制御部10に送り、制御部1
0はこの信号を受は取ると標準パタン作成部3の認識用
標準パタンの数を見て、1つであればその認識用標準パ
タンを認識用標準パタン記憶部4に、合成用標準パタン
を合成用標準パタン記憶部5にそれぞれ単語番号と共に
記憶して、その単語の標準パタン登録処理を終了する。
特徴量から合成用標準パタンを作成し、同様に1回目の
合成用標準パタンと2回目の合成用標準パタンとをその
まま2つとも記憶しておく。ここまでの処理が終わると
標準パタン作成部3は制御部10に処理終了信号を送り
、制御部10は表示部11に3回目の発声を話者に促す
メツセージを出力させる。話者は次に3回[」の発声を
マイクロフォン1に入力し、1回目の発声と同様に、入
力された音声が特徴抽出部2で認識用の特徴量及び合成
用の特徴量を抽出され、音声区間が決定される。決定さ
れた音声区間内の特徴量は標準パタン作成部3に送られ
る。標準パタン作成部3では認識用特徴量から認識用標
準パタンを作成し、それまでに作成されている認識用標
準パタンの数を見て、1つであればその認識用標準パタ
ンのフレーム数や無音区間数等と、3回目の発声による
認識用標準パタンのフレーム数や無音区間数等と比較す
る。その差とそれぞれある予め定めておいた閾値x、y
・と比べた結果、差が閾値よりも小さい場合にはそれま
でに作成してあった認識用標準パタンと3回目の発声に
よる認識用標準パタンとを重ねあわせて新たな認識用標
準パタンを作成し、合成用標準パタンに関しては、1回
目の発声によって作成されたものだけ残し、3回目の発
声による合成用特徴量からは合成用標準パタンを作成し
ない。一方、その差が予め定めておいた閾値よりも大き
い場合にはそれまでに作成してあった認識用標準パタン
と3回目の発声による認識用標準パタンとを重ねあわせ
ずそのまま2つとも記憶しておく。合成用標準パタンに
関しては3回目の発声による合成用特徴量から合成用標
準パタンを作成し、同様に1回目の合成用標準パタンと
3回目の標準パタンとをそのまま2つとも記憶しておく
。また、それまでに作成されている認識用標準パタンの
数が2つの場合には、3回目の発声による認識用標準パ
タンのフレーム数や無音区間数等を1回目の発声による
認識用標準パタンと2回目の発声による認識用標準パタ
ンのフレーム数や無音区間数等と比較し、その差の小さ
い方の標準パタンを選ぶ。その選ばれた認識用標準パタ
ンと3回目の発声による認識用標準パタンとを重ねあわ
せ、新たな認識用標準パタンを作成する。合成用標準パ
タンに関しては、3回目の発声による合成用標準パタン
は作成せず、それまでの合成用標準パタンをそのまま残
しておく。ここまでの処理が終わった時点で標準パタン
作成部3は処理終了信号を制御部10に送り、制御部1
0はこの信号を受は取ると標準パタン作成部3の認識用
標準パタンの数を見て、1つであればその認識用標準パ
タンを認識用標準パタン記憶部4に、合成用標準パタン
を合成用標準パタン記憶部5にそれぞれ単語番号と共に
記憶して、その単語の標準パタン登録処理を終了する。
一方、標準パタン作成部3の認識用標準パタンの数が2
つの場合には、重ね合わされていない方の認識用標準パ
タンか何回目の発声によって作成されたものかを検知し
、その発声によって作成された合成用標準パタンを音声
合成部7に送り、合成音としてスピーカ8より出力する
。この標準パタンは3回の発声のうち1回だけフレーム
長や無音区間数が違っているものである。よって、正確
な音声区間検呂が行われず、余分なノイズが付いていた
り、音声の語頭、語尾が欠落している可能性がある。そ
こで話者にその標準パタンか異常かどうかを判断しても
らうために合成音で出力するのである。話者はこの合成
音を聞いてこの標準パタンか異常であると判断した場合
には、キーボード9のキャンセルキーを押下し、そうで
なければ何もし2ない。制御部10は、音声合成部7か
ら合成音の出力が終わったことを示す信号を受は取った
後、キーボード9のキャンセルキーが押下されたかどう
かを一定時間監視し、押された場合には、標準パタン作
成部3に異常である認識用標準パタン、合成用標準パタ
ンを消去させる。次にもう一度発声を行うよう話者に促
すメツセージを表示部11に出力させて、話者はもう一
度同じ発声を入力する。一方、一定時間キャンセルキー
が押下されなかった場合には、他の2回の発声が異常で
あるとみなし、標準パタン作成部3に重ねあわせた認識
用標準パタン、それに対応する合成用標準パタンを消去
させて、次にもう2回発声を行うよう話者に促すメツセ
ージを表示部11に出力させ、話者はもう2回同じ発声
を入力する。そして3回の認識用標準パタンか重ね合わ
された時点で、その認識用標準パタンを認識用標準パタ
ン記憶部4へ、合成用標準パタンを合成用標準パタン記
憶部5へその単語番号と共に記憶させる。以りが一単語
の標準パタン登録の処理の説明である。話者は、登録し
たい単語数だけ以上の動作を繰り返す。
つの場合には、重ね合わされていない方の認識用標準パ
タンか何回目の発声によって作成されたものかを検知し
、その発声によって作成された合成用標準パタンを音声
合成部7に送り、合成音としてスピーカ8より出力する
。この標準パタンは3回の発声のうち1回だけフレーム
長や無音区間数が違っているものである。よって、正確
な音声区間検呂が行われず、余分なノイズが付いていた
り、音声の語頭、語尾が欠落している可能性がある。そ
こで話者にその標準パタンか異常かどうかを判断しても
らうために合成音で出力するのである。話者はこの合成
音を聞いてこの標準パタンか異常であると判断した場合
には、キーボード9のキャンセルキーを押下し、そうで
なければ何もし2ない。制御部10は、音声合成部7か
ら合成音の出力が終わったことを示す信号を受は取った
後、キーボード9のキャンセルキーが押下されたかどう
かを一定時間監視し、押された場合には、標準パタン作
成部3に異常である認識用標準パタン、合成用標準パタ
ンを消去させる。次にもう一度発声を行うよう話者に促
すメツセージを表示部11に出力させて、話者はもう一
度同じ発声を入力する。一方、一定時間キャンセルキー
が押下されなかった場合には、他の2回の発声が異常で
あるとみなし、標準パタン作成部3に重ねあわせた認識
用標準パタン、それに対応する合成用標準パタンを消去
させて、次にもう2回発声を行うよう話者に促すメツセ
ージを表示部11に出力させ、話者はもう2回同じ発声
を入力する。そして3回の認識用標準パタンか重ね合わ
された時点で、その認識用標準パタンを認識用標準パタ
ン記憶部4へ、合成用標準パタンを合成用標準パタン記
憶部5へその単語番号と共に記憶させる。以りが一単語
の標準パタン登録の処理の説明である。話者は、登録し
たい単語数だけ以上の動作を繰り返す。
ガーー玉
以上の説明から明らかなように、本発明によると、特定
話者の音声認識において、標準パタン登録時に、音声区
間検出ミス等による異常な認識用標準パタンを正常な標
準パタンに重ねあわせることを防ぐことができ、更に、
話者が発声する度に正常かどうかを判断する負担をなく
すことができる。
話者の音声認識において、標準パタン登録時に、音声区
間検出ミス等による異常な認識用標準パタンを正常な標
準パタンに重ねあわせることを防ぐことができ、更に、
話者が発声する度に正常かどうかを判断する負担をなく
すことができる。
第1図は、本発明の一実施例を説明するための構成図で
ある。 1 マイクロフォン、2 ・特徴抽出部、3・・標準パ
タン作成部、4・・・認識用標準バタシ記憶部、5・・
合成用標準パタン記憶部、6・パタン照合部、7・・・
音声合成部、8・・・スピーカ、9・・キーホード、1
0・・制御部、11・表示部。
ある。 1 マイクロフォン、2 ・特徴抽出部、3・・標準パ
タン作成部、4・・・認識用標準バタシ記憶部、5・・
合成用標準パタン記憶部、6・パタン照合部、7・・・
音声合成部、8・・・スピーカ、9・・キーホード、1
0・・制御部、11・表示部。
Claims (1)
- 【特許請求の範囲】 1、マイクロフォンから入力された音声からスペクトル
情報等の特徴量を抽出し、抽出され特徴量から認識用標
準パタンと合成用標準パタンとを作成し、作成された認
識用標準パタンを記憶するとともに、作成された合成用
標準パタンを各認識用標準パタンに対応して記憶し、音
声入力時に抽出される認識用特徴量から作成される入力
パタンと予め記憶された上記認識用標準パタンとのパタ
ン照合を行なって入力音声がどの標準パタンに該当する
のかを認識し、認識された結果として、第1候補の認識
用標準パタンに対応する合成用標準パタンを上記合成用
標準パタンの記憶部から読みだして合成音として出力し
、標準パタン登録時に1単語につき3回以上の発声を行
う特定話者音声認識方法において、標準パタン登録時に
各発声のフレーム長、無音区間数等を測定し、3回のう
ち1回の発声だけが測定したフレーム長、無音区間数等
が他の2回の発声と差が大きくその差が予め定められた
値よりも大きい場合のみ、その1回の発声によって作成
された合成用標準パタンを音声合成して出力し、話者に
そのパタンが正しいかどうかを判断させて標準パタンを
登録させることを特徴とする音声認識方法。 2、マイクロフォンから入力された音声からスペクトル
情報等の特徴量を抽出する特徴抽出部と、特徴抽出部で
得られた特徴量から認識用標準パタンと合成用標準パタ
ンとを作成する標準パタン作成部と、作成された認識用
標準パタンを記憶する認識用標準パタン記憶部と、作成
された合成用標準パタンを各認識用標準パタンに対応し
て記憶する合成用標準パタン記憶部と、音声入力時に上
記特徴抽出部で抽出される認識用特徴量から作成される
入力パタンと予め記憶された上記認識用標準パタン記憶
部内の認識用標準パタンとのパタン照合を行ない入力音
声がどの標準パタンに該当するのかを認識するパタン照
合部と、認識された結果として、第1候補の認識用標準
パタンに対応する合成用標準パタンを上記合成用標準パ
タン記憶部から読みだして合成音として出力する音声合
成部とを備え、標準パタン登録時に1単語につき3回以
上の発声を行う特定話者音声認識装置において、標準パ
タン登録時に各発声のフレーム長、無音区間数等を測定
し、3回のうち1回の発声だけが測定したフレーム長、
無音区間数等が他の2回の発声と差が大きくその差が予
め定められた値よりも大きい場合のみ、その1回の発声
によって作成された合成用標準パタンを音声合成部で合
成して出力し、話者にそのパタンが正しいかどうかを判
断させて標準パタンを登録することを特徴とする音声認
識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2307607A JPH04178699A (ja) | 1990-11-14 | 1990-11-14 | 音声認識方法及び装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2307607A JPH04178699A (ja) | 1990-11-14 | 1990-11-14 | 音声認識方法及び装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH04178699A true JPH04178699A (ja) | 1992-06-25 |
Family
ID=17971080
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2307607A Pending JPH04178699A (ja) | 1990-11-14 | 1990-11-14 | 音声認識方法及び装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH04178699A (ja) |
-
1990
- 1990-11-14 JP JP2307607A patent/JPH04178699A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4867804B2 (ja) | 音声認識装置及び会議システム | |
| US5031113A (en) | Text-processing system | |
| JP3069531B2 (ja) | 音声認識方法 | |
| JP3437492B2 (ja) | 音声認識方法及び装置 | |
| JP3523382B2 (ja) | 音声認識装置及び音声認識方法 | |
| JPH04178699A (ja) | 音声認識方法及び装置 | |
| JPS6332394B2 (ja) | ||
| JP3360978B2 (ja) | 音声認識装置 | |
| JPS63179398A (ja) | 音声認識方法 | |
| JP2754960B2 (ja) | 音声認識装置 | |
| JP2975772B2 (ja) | 音声認識装置 | |
| JPS645320B2 (ja) | ||
| JPH02210500A (ja) | 標準パターン登録方式 | |
| JP3919314B2 (ja) | 話者認識装置及びその方法 | |
| JP2712586B2 (ja) | 単語音声認識装置用パターンマッチング方式 | |
| JP2000148187A (ja) | 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体 | |
| JPH0331275B2 (ja) | ||
| JPH07210186A (ja) | 音声登録装置 | |
| JP2744039B2 (ja) | 音声認識装置 | |
| JPS60205600A (ja) | 音声認識装置 | |
| JP2999479B2 (ja) | 音声認識装置の辞書更新方式 | |
| JPS63305396A (ja) | 音声認識装置 | |
| JPH0469959B2 (ja) | ||
| JP2002372989A (ja) | 数字音声入力方法、その装置、そのプログラム及びその記録媒体 | |
| JPS61113099A (ja) | 音声認識装置における音声区間検出方式 |