JPH08166798A - 音素辞書作成装置および方法 - Google Patents
音素辞書作成装置および方法Info
- Publication number
- JPH08166798A JPH08166798A JP6311593A JP31159394A JPH08166798A JP H08166798 A JPH08166798 A JP H08166798A JP 6311593 A JP6311593 A JP 6311593A JP 31159394 A JP31159394 A JP 31159394A JP H08166798 A JPH08166798 A JP H08166798A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- unit
- section
- speaker
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】
【目的】 本発明は、音素を基礎とした不特定話者音声
認識装置に使用するところの、多人数の音素を格納して
おく音素辞書を自動的に作成する技術に関する。 【構成】 素片波形蓄積部13には、あらかじめ数十人以
上の多数話者の発声した単語などの音声データから切り
出した数多くの音素の素片波形のデータが蓄えておき、
音素合成部14では、ある一定時間(例えば1秒おき)に
音素グループ毎に順番に音声合成を行ない、スピーカ12
からその音声を出力する。マイク20で拾った音声を、A/
D 変換部21によってディジタルデータに変換した後、認
識用パラメータ変換部22でリアルタイムで認識パラメー
タの計算処理を行ないう。そして、音声合成部で発声さ
れた1秒間の音声区間の中間の、定常的な部分のパラメ
ータを音素切り出し部23が切り出し、音素辞書蓄積部30
に格納することによって、音素辞書を作成するように構
成する。
認識装置に使用するところの、多人数の音素を格納して
おく音素辞書を自動的に作成する技術に関する。 【構成】 素片波形蓄積部13には、あらかじめ数十人以
上の多数話者の発声した単語などの音声データから切り
出した数多くの音素の素片波形のデータが蓄えておき、
音素合成部14では、ある一定時間(例えば1秒おき)に
音素グループ毎に順番に音声合成を行ない、スピーカ12
からその音声を出力する。マイク20で拾った音声を、A/
D 変換部21によってディジタルデータに変換した後、認
識用パラメータ変換部22でリアルタイムで認識パラメー
タの計算処理を行ないう。そして、音声合成部で発声さ
れた1秒間の音声区間の中間の、定常的な部分のパラメ
ータを音素切り出し部23が切り出し、音素辞書蓄積部30
に格納することによって、音素辞書を作成するように構
成する。
Description
【0001】
【産業上の利用分野】本発明は、音素辞書作成装置に関
する。近年、自動車内でのナビゲーションシステムの入
力手段、電話回線を通じてコンピュータ上のデータベー
スをアクセスする際の検索情報の入力手段、或いは、無
線装置を通してする工場内での製品の検査結果の入力手
段の如く、キーボード・マウスなどの通常のコンピュー
タの入力手段が使用出来ない分野でそれに代わる入力手
段として、音声認識装置の適用が期待されている。
する。近年、自動車内でのナビゲーションシステムの入
力手段、電話回線を通じてコンピュータ上のデータベー
スをアクセスする際の検索情報の入力手段、或いは、無
線装置を通してする工場内での製品の検査結果の入力手
段の如く、キーボード・マウスなどの通常のコンピュー
タの入力手段が使用出来ない分野でそれに代わる入力手
段として、音声認識装置の適用が期待されている。
【0002】音声認識技術としては、単語単位の音声を
登録し、登録されている音声と入力された音声のマッチ
ングを行ない認識結果を出力する全登録型の方式と、音
節もしくは音素という音声の構成単位で音声を登録して
おき、その構成単位の組合せと入力された音声のマッチ
ングを行ない認識結果を出力する方式がある。また、使
用する話者の音声データを必ず登録する必要がある特定
話者認識方式と、あらかじめ多数の話者の音声データが
登録されていて使用する話者の音声を登録する必要がな
い不特定話者音声認識の2種類の方式がある。本発明
は、音素を基礎とした不特定話者音声認識装置に使用す
るところの、多人数の音素を格納しておく音素辞書を自
動的に作成する技術に関するものである。
登録し、登録されている音声と入力された音声のマッチ
ングを行ない認識結果を出力する全登録型の方式と、音
節もしくは音素という音声の構成単位で音声を登録して
おき、その構成単位の組合せと入力された音声のマッチ
ングを行ない認識結果を出力する方式がある。また、使
用する話者の音声データを必ず登録する必要がある特定
話者認識方式と、あらかじめ多数の話者の音声データが
登録されていて使用する話者の音声を登録する必要がな
い不特定話者音声認識の2種類の方式がある。本発明
は、音素を基礎とした不特定話者音声認識装置に使用す
るところの、多人数の音素を格納しておく音素辞書を自
動的に作成する技術に関するものである。
【0003】
【従来の技術】一般的な音声認識装置の構成図を図10に
示す。図中、10は人間で、発声者を表す、20はマイクロ
フォン(以下、マイクと略する。)で、音声を電気信号
に変換するもの、21はA/D変換部で、アナログデータ
を、デジタルデータに変換するもの、22は認識用パラメ
ータ変換部で、波形データを操作することで、音声認識
として使用される認識用パラメータに変換を行なうも
の、34は音素辞書蓄積部で、音素毎に認識パラメータを
格納するもの、51は音素ラティス生成部で、認識用パラ
メータを音素辞書とマッチングすることにより、音素ラ
ティス(音声区間の各入力フレームと各音素との類似度
を求めた類似度行列を言う。)を生成するもの、52は認
識語彙蓄積部で、認識対象となる語彙の読み情報などを
蓄積しておくもの、53は単語照合部で、単語照合を行い
認識結果を得るもの、54は認識結果表示装置で、認識結
果を利用者に提示するための表示装置手段である。以
下、図10を用いて従来の音素単位の音声認識装置の説明
を行なう。
示す。図中、10は人間で、発声者を表す、20はマイクロ
フォン(以下、マイクと略する。)で、音声を電気信号
に変換するもの、21はA/D変換部で、アナログデータ
を、デジタルデータに変換するもの、22は認識用パラメ
ータ変換部で、波形データを操作することで、音声認識
として使用される認識用パラメータに変換を行なうも
の、34は音素辞書蓄積部で、音素毎に認識パラメータを
格納するもの、51は音素ラティス生成部で、認識用パラ
メータを音素辞書とマッチングすることにより、音素ラ
ティス(音声区間の各入力フレームと各音素との類似度
を求めた類似度行列を言う。)を生成するもの、52は認
識語彙蓄積部で、認識対象となる語彙の読み情報などを
蓄積しておくもの、53は単語照合部で、単語照合を行い
認識結果を得るもの、54は認識結果表示装置で、認識結
果を利用者に提示するための表示装置手段である。以
下、図10を用いて従来の音素単位の音声認識装置の説明
を行なう。
【0004】先ず、人間10が発声した単語単位の音声
は、マイク20から入力され、A/D変換部21によりデジ
タルデータに変換される。さらに、認識パラメータ変換
部22によって、一定間隔(例えば、5ms 、15ms)毎に認
識パラメータに変換される。認識パラメータとしては一
般的に、メルスペクトルや、LPCパラメータなどが良
く使用される。
は、マイク20から入力され、A/D変換部21によりデジ
タルデータに変換される。さらに、認識パラメータ変換
部22によって、一定間隔(例えば、5ms 、15ms)毎に認
識パラメータに変換される。認識パラメータとしては一
般的に、メルスペクトルや、LPCパラメータなどが良
く使用される。
【0005】計算された入力単語の認識パラメータは、
あらかじめ用意してある音素辞書蓄積部34から登録され
ている各音素の認識用登録パターンを得て、音素ラティ
ス生成部51で各音素毎の最小距離を計算し音素ラティス
を生成する。
あらかじめ用意してある音素辞書蓄積部34から登録され
ている各音素の認識用登録パターンを得て、音素ラティ
ス生成部51で各音素毎の最小距離を計算し音素ラティス
を生成する。
【0006】さらに、認識語彙蓄積部52に格納されてい
る全ての単語に対して、単語照合部53では、音素ラティ
スの距離を累積した累積距離を算出し、一番距離の小さ
いものを認識結果として、認識結果表示装置54に出力す
る。
る全ての単語に対して、単語照合部53では、音素ラティ
スの距離を累積した累積距離を算出し、一番距離の小さ
いものを認識結果として、認識結果表示装置54に出力す
る。
【0007】次に、音素辞書作成の従来例を図11に示
す。図中、11はテープレコーダ、12はスピーカである。
31は音声自動セグメンテーション部で、音素毎にラベル
づけするもの、32は音声ラベルで、入力となる音声デー
タを音素記号列で表現したデータを蓄積したもの、33は
音素切り出し部で、得られた認識パラメータを切り出し
て音素辞書蓄積部に格納するものである。その他の要素
は図10に示すと同じである。
す。図中、11はテープレコーダ、12はスピーカである。
31は音声自動セグメンテーション部で、音素毎にラベル
づけするもの、32は音声ラベルで、入力となる音声デー
タを音素記号列で表現したデータを蓄積したもの、33は
音素切り出し部で、得られた認識パラメータを切り出し
て音素辞書蓄積部に格納するものである。その他の要素
は図10に示すと同じである。
【0008】先ず、図11に示す従来例と同様にして、人
間があらかじめ定めておいた単語を発声するか、或い
は、あらかじめ人間が発声した音声を録音したデータを
テープレコーダにより再生し、スピーカにより出力す
る。図1には示されていない人間によって直接発声され
た音声或いはスピーカ12から出力された音声は、マイク
20によって集音され、A/D変換部21によりディジタル
データに変換された後、認識パラメータ変換部22によっ
て、認識パラメータに変換される。認識用パラメータ変
換は認識時と全く同一の性質のものである。
間があらかじめ定めておいた単語を発声するか、或い
は、あらかじめ人間が発声した音声を録音したデータを
テープレコーダにより再生し、スピーカにより出力す
る。図1には示されていない人間によって直接発声され
た音声或いはスピーカ12から出力された音声は、マイク
20によって集音され、A/D変換部21によりディジタル
データに変換された後、認識パラメータ変換部22によっ
て、認識パラメータに変換される。認識用パラメータ変
換は認識時と全く同一の性質のものである。
【0009】その認識用パラメータは、31の音声自動セ
グメンテーション部によって、音素毎にラベルづけされ
る。例えば、/shima/ という単語が発声された場合は、
[sh]-[i]-[m]-[a]という4つの音素からなるという情報
を32の音素ラベルから得て、各々のフレームがどの音素
に対応するかという情報を求める。このセグメンテーシ
ョンを行なう方法としては、認識のアルゴリズムを使用
して自動的に行なう方法の他に、人手による目視セグメ
ンテーションを行なう場合もある。
グメンテーション部によって、音素毎にラベルづけされ
る。例えば、/shima/ という単語が発声された場合は、
[sh]-[i]-[m]-[a]という4つの音素からなるという情報
を32の音素ラベルから得て、各々のフレームがどの音素
に対応するかという情報を求める。このセグメンテーシ
ョンを行なう方法としては、認識のアルゴリズムを使用
して自動的に行なう方法の他に、人手による目視セグメ
ンテーションを行なう場合もある。
【0010】音素切り出し部33では、切り出し規則に応
じて各音素の認識用パラメータを1個ないし数個切り出
して、音素辞書蓄積部34に蓄積する動作を行なう。通常
は、以上のような過程を経て音素辞書が作成されるが、
本格的な音素辞書を作成するためには、何百人もの話者
が何千単語も発声する必要があるため、非常に手間のか
かる作業になってくる。というのも、認識技術がまだ未
完全なため切り出し誤りを必ず生じるため、その部分に
人手によるチェックが必要であるからである。
じて各音素の認識用パラメータを1個ないし数個切り出
して、音素辞書蓄積部34に蓄積する動作を行なう。通常
は、以上のような過程を経て音素辞書が作成されるが、
本格的な音素辞書を作成するためには、何百人もの話者
が何千単語も発声する必要があるため、非常に手間のか
かる作業になってくる。というのも、認識技術がまだ未
完全なため切り出し誤りを必ず生じるため、その部分に
人手によるチェックが必要であるからである。
【0011】
【発明が解決しようとする課題】音声認識装置を使用す
る環境が異なると、色々な要因のために人間の発声する
音声が認識装置まで到達する間のアナログ特性の違いに
より、得られる認識用パラメータにかなりの違いが生じ
てくる場合も考えられる。
る環境が異なると、色々な要因のために人間の発声する
音声が認識装置まで到達する間のアナログ特性の違いに
より、得られる認識用パラメータにかなりの違いが生じ
てくる場合も考えられる。
【0012】すなわち、入力手段の存在する場所によっ
てマイク系および音声信号の伝達系の周波数特性が違っ
ていたり、マイクなどが十分なダイナミックレンジを持
たないことや低周波のノイズの影響により音声信号に歪
みが見られる場合、周囲から混入してくる定常ノイズの
影響、などが考えられる。
てマイク系および音声信号の伝達系の周波数特性が違っ
ていたり、マイクなどが十分なダイナミックレンジを持
たないことや低周波のノイズの影響により音声信号に歪
みが見られる場合、周囲から混入してくる定常ノイズの
影響、などが考えられる。
【0013】実際の音声認識装置は、例えば、カラオケ
用のマイクを流用して認識を行なう場合、雑音の多い場
所のために指向特性を持ったマイクを使用する場合、電
話の受話器および電話回線を通した音声を使用する場
合、遠隔値で使用するために無線装置を経由する場合な
ど、さまざまな方面で使用されることが予想されるため
に、その使用される場面に応じてアナログ特性は変化す
ると考えるのは妥当であろう。
用のマイクを流用して認識を行なう場合、雑音の多い場
所のために指向特性を持ったマイクを使用する場合、電
話の受話器および電話回線を通した音声を使用する場
合、遠隔値で使用するために無線装置を経由する場合な
ど、さまざまな方面で使用されることが予想されるため
に、その使用される場面に応じてアナログ特性は変化す
ると考えるのは妥当であろう。
【0014】このような多種の使用環境で用いられる場
合でも、例えば登録パターンと、入力パターンとをマッ
チングさせて、認識結果を出力する、単語登録型認識装
置では、使用環境で登録を行なえば問題は解決される。
合でも、例えば登録パターンと、入力パターンとをマッ
チングさせて、認識結果を出力する、単語登録型認識装
置では、使用環境で登録を行なえば問題は解決される。
【0015】しかし不特定話者の音素を使用した、音声
認識装置では、あらかじめ不特定多数の話者が発声した
音声データから抽出した音素辞書を用意しておくため
に、収録の際のアナログ系と、装置を使用する際のアナ
ログ系が違うとすると、基本となる音素の特徴量が異な
ってくるために、結果として十分な認識率が得られない
場合が生じる。
認識装置では、あらかじめ不特定多数の話者が発声した
音声データから抽出した音素辞書を用意しておくため
に、収録の際のアナログ系と、装置を使用する際のアナ
ログ系が違うとすると、基本となる音素の特徴量が異な
ってくるために、結果として十分な認識率が得られない
場合が生じる。
【0016】すなわち、認識装置を使用する環境によっ
て、音素辞書を差し替えるのが、認識率を低下させない
一番の方法ではある。しかし、従来、音素辞書を作成す
るためには、非常に大きな人手と手間がかかるという問
題があった。その原因は、従来例の音素自動セグメンテ
ーション部22は認識と同等もしくはそれ以上の膨大な計
算量を必要とするため、動作に時間がかかり、また自動
とはいえ現在の技術レベルでは必ず間違う可能性がある
ため、人間のチェックが不可欠になってくるためであ
る。
て、音素辞書を差し替えるのが、認識率を低下させない
一番の方法ではある。しかし、従来、音素辞書を作成す
るためには、非常に大きな人手と手間がかかるという問
題があった。その原因は、従来例の音素自動セグメンテ
ーション部22は認識と同等もしくはそれ以上の膨大な計
算量を必要とするため、動作に時間がかかり、また自動
とはいえ現在の技術レベルでは必ず間違う可能性がある
ため、人間のチェックが不可欠になってくるためであ
る。
【0017】本発明は、人手による修正・チェック等の
作業を必要とせずに音素辞書作成をすることを目的とす
る。
作業を必要とせずに音素辞書作成をすることを目的とす
る。
【0018】
【課題を解決するための手段】図1は、本発明の原理説
明図である。図中、12はスピーカで、合成装置からの出
力を音声に変換するもの、13は素片波形蓄積部で、音声
合成を行なう際に使用する音素片のデータを蓄積してお
くもの、14は音素合成部で、音素片を接続する計算を行
なうことで任意の音素波形を合成するもの、20はマイク
で音声を電気信号に変換するもの、21はA/D変換部
で、アナログデータをサンプリングしてディジタル値に
変換することでデジタルデータに変換するもの、22は認
識用パラメータ変換部で、波形データを操作することで
音声認識として使用される認識用パラメータに変換を行
なうもの、33は音素切り出し部で、得られた認識パラメ
ータを切り出して音素辞書蓄積部に格納するもの、34は
音素辞書蓄積部で、音素毎に認識パラメータを格納する
ものである。
明図である。図中、12はスピーカで、合成装置からの出
力を音声に変換するもの、13は素片波形蓄積部で、音声
合成を行なう際に使用する音素片のデータを蓄積してお
くもの、14は音素合成部で、音素片を接続する計算を行
なうことで任意の音素波形を合成するもの、20はマイク
で音声を電気信号に変換するもの、21はA/D変換部
で、アナログデータをサンプリングしてディジタル値に
変換することでデジタルデータに変換するもの、22は認
識用パラメータ変換部で、波形データを操作することで
音声認識として使用される認識用パラメータに変換を行
なうもの、33は音素切り出し部で、得られた認識パラメ
ータを切り出して音素辞書蓄積部に格納するもの、34は
音素辞書蓄積部で、音素毎に認識パラメータを格納する
ものである。
【0019】先ず、人間もしくはテープレコーダを通し
て発声する単語単位の音声の代わりに、音素合成部14を
新たに追加する。最近では、波形合成方式の方式のよう
な、十分な明瞭性を持ち、その合成音声の持つ特徴量が
人間の発声した音声とほとんど変わらないレベルにまで
達している。音素合成部14から、ある定められた一定時
間、音素を合成させ、スピーカ12からその合成した音素
を鳴らすようにする。
て発声する単語単位の音声の代わりに、音素合成部14を
新たに追加する。最近では、波形合成方式の方式のよう
な、十分な明瞭性を持ち、その合成音声の持つ特徴量が
人間の発声した音声とほとんど変わらないレベルにまで
達している。音素合成部14から、ある定められた一定時
間、音素を合成させ、スピーカ12からその合成した音素
を鳴らすようにする。
【0020】音素の種類として、母音([a], [i], [u],
[e], [o]) 、鼻音([m], [n])、有声摩擦音([j], [z])、
無声摩擦音([sh], [s], [h], [f]) 、有声破裂音([b],
[d],[g]) および無声破裂音([p], [t], [k]) などがあ
る。この中で母音の場合だけは、人間は音素を定常的に
発声出来るが、その他の音素に関しては、一般に人間は
音素を定常的に発声出来ない。たとえ発声出来たとして
も、不自然な発声になってしまい認識の際に使用できる
かどうかは不明である。
[e], [o]) 、鼻音([m], [n])、有声摩擦音([j], [z])、
無声摩擦音([sh], [s], [h], [f]) 、有声破裂音([b],
[d],[g]) および無声破裂音([p], [t], [k]) などがあ
る。この中で母音の場合だけは、人間は音素を定常的に
発声出来るが、その他の音素に関しては、一般に人間は
音素を定常的に発声出来ない。たとえ発声出来たとして
も、不自然な発声になってしまい認識の際に使用できる
かどうかは不明である。
【0021】これに対して合成された音素では、人間が
発声した音声の中から切り出した素片を使用しているた
めに、各々の音素に対して、安定した発声を行なわせる
ことが可能である。本発明では、マイク20からの入力単
位が、音素毎であるために、音声の自動セグメンテーシ
ョン部31が不必要になってくる。その結果、多くの計算
量が必要であったり、間違いを人手によって修正しなけ
ればならない等の音声の自動セグメンテーションの有す
る欠点が無くなる。
発声した音声の中から切り出した素片を使用しているた
めに、各々の音素に対して、安定した発声を行なわせる
ことが可能である。本発明では、マイク20からの入力単
位が、音素毎であるために、音声の自動セグメンテーシ
ョン部31が不必要になってくる。その結果、多くの計算
量が必要であったり、間違いを人手によって修正しなけ
ればならない等の音声の自動セグメンテーションの有す
る欠点が無くなる。
【0022】音素の合成方式の例として、波形合成方式
の説明図を図2に示す。周期性のある( ピッチを持って
いる) 音素に関しては、人間の発声した音声から、1ピ
ッチ分もしくは2ピッチ分の素片波形をあらかじめ切り
出しておき、そのデータを使用する。
の説明図を図2に示す。周期性のある( ピッチを持って
いる) 音素に関しては、人間の発声した音声から、1ピ
ッチ分もしくは2ピッチ分の素片波形をあらかじめ切り
出しておき、そのデータを使用する。
【0023】さらに音声の素片データに、窓掛けを行な
うことによって接続を滑らかに行なう。窓掛けの形状と
しては、例えばハニング窓などが使用される。なお、ハ
ニング窓とは、w(t) =0.5+0.5×cos(2π
t/T)の計算式で与えられる窓のことであり、波形を
連続的に接続する際に、窓を使用しないと合成された波
形に不連続な箇所が生じる場合があるため、中心付近で
1、最端で0になめらかに移行するような重みを乗じて
から接続するために使用されることが多い。この素片波
形をピッチ毎の時間間隔で接続することによって、図の
ように元の音声波形と同じ性質を持った音素波形を合成
することが出来る。
うことによって接続を滑らかに行なう。窓掛けの形状と
しては、例えばハニング窓などが使用される。なお、ハ
ニング窓とは、w(t) =0.5+0.5×cos(2π
t/T)の計算式で与えられる窓のことであり、波形を
連続的に接続する際に、窓を使用しないと合成された波
形に不連続な箇所が生じる場合があるため、中心付近で
1、最端で0になめらかに移行するような重みを乗じて
から接続するために使用されることが多い。この素片波
形をピッチ毎の時間間隔で接続することによって、図の
ように元の音声波形と同じ性質を持った音素波形を合成
することが出来る。
【0024】また、ピッチを持たない無声摩擦音に関し
ては、その対応する摩擦音の音声パターンをある一定長
( 例えば、100ms 等) 分を切り出し、そのまま持ってお
き、その素片パターンを繰り返すことで音声を合成す
る。
ては、その対応する摩擦音の音声パターンをある一定長
( 例えば、100ms 等) 分を切り出し、そのまま持ってお
き、その素片パターンを繰り返すことで音声を合成す
る。
【0025】ただし、この場合も同様で、2つの素片波
形の接続時に不自然さが生じないように、素片波形の端
の部分にハニング窓のようななめらかな窓を掛けてなめ
らかに接続を行なうようにする。
形の接続時に不自然さが生じないように、素片波形の端
の部分にハニング窓のようななめらかな窓を掛けてなめ
らかに接続を行なうようにする。
【0026】なお、無声破裂音のような定常的でない過
渡特性を有する音素もあるが、これに対しても、破裂部
のパターンを持っておき、繰り返し音素合成部で合成す
ることで、音素の合成を行なうことが出来る。
渡特性を有する音素もあるが、これに対しても、破裂部
のパターンを持っておき、繰り返し音素合成部で合成す
ることで、音素の合成を行なうことが出来る。
【0027】
【作用】以下、図1から図9を用いて各請求項の発明の
作用を説明する。図中、15は音量可変部で、合成音声を
出力する際の音量レベルを変更するもの、16はホワイト
ノイズ生成部で、ホワイトノイズを生成するもの、17は
スピーカ特性補正フィルタで、スピーカの周波数特性を
補正して適正な総合特性を得るもの、23は入力音量検出
部で、入力信号のレベルを求め入力音声の音量を検出す
るもの、24は周波数帯域検出部で、入力されたホワイト
ノイズの周波数特性を求めることで伝送系全体について
の周波数帯域を検出するもの、25は周波数分割計算部
で、周波数帯域を分割して各チャンネル毎に分割された
周波数帯域を計算するもの、26はスピーカ特性補正部
で、スピーカの特性を補正するもの、35は認識/登録モ
ード切替え部で、認識モードと登録モードの2つのモー
ドに応じて認識用パラメータの使用方法を変更するため
に使用方法を変更するもの、36は切り出しタイミング制
御部で、音素合成部と音素切り出し部とのタイミングを
制御するもの、37はピッチ可変制御部で、音素の合成を
行なう場合に外部からピッチの制御を行なえるようにす
るためのものである。その他の要素はこれまでに説明し
た通りである。
作用を説明する。図中、15は音量可変部で、合成音声を
出力する際の音量レベルを変更するもの、16はホワイト
ノイズ生成部で、ホワイトノイズを生成するもの、17は
スピーカ特性補正フィルタで、スピーカの周波数特性を
補正して適正な総合特性を得るもの、23は入力音量検出
部で、入力信号のレベルを求め入力音声の音量を検出す
るもの、24は周波数帯域検出部で、入力されたホワイト
ノイズの周波数特性を求めることで伝送系全体について
の周波数帯域を検出するもの、25は周波数分割計算部
で、周波数帯域を分割して各チャンネル毎に分割された
周波数帯域を計算するもの、26はスピーカ特性補正部
で、スピーカの特性を補正するもの、35は認識/登録モ
ード切替え部で、認識モードと登録モードの2つのモー
ドに応じて認識用パラメータの使用方法を変更するため
に使用方法を変更するもの、36は切り出しタイミング制
御部で、音素合成部と音素切り出し部とのタイミングを
制御するもの、37はピッチ可変制御部で、音素の合成を
行なう場合に外部からピッチの制御を行なえるようにす
るためのものである。その他の要素はこれまでに説明し
た通りである。
【0028】請求項1の発明では、図1に示す如く、あ
らかじめ数十人以上の多数話者の発声した単語などの音
声データから切り出した数多くの音素の素片波形のデー
タを素片波形蓄積部13に蓄えておき、図3に示す如く、
ある一定時間( 例えば1秒おき) に音素グループ毎に順
番に音声合成を音素合成部14で行ない、その音声をスピ
ーカ12から出力する。マイク20で拾われた音声は、A/
D変換部21によってディジタルデータに変換された後、
認識用パラメータ変換部22でリアルタイムで認識パラメ
ータの計算処理が行なわれ、音声合成部で発声された1
秒間の音声区間の中間の、定常的な部分のパラメータを
音素切り出し部33が切り出し、音素辞書蓄積部34に格納
することによって、音素辞書を作成する。
らかじめ数十人以上の多数話者の発声した単語などの音
声データから切り出した数多くの音素の素片波形のデー
タを素片波形蓄積部13に蓄えておき、図3に示す如く、
ある一定時間( 例えば1秒おき) に音素グループ毎に順
番に音声合成を音素合成部14で行ない、その音声をスピ
ーカ12から出力する。マイク20で拾われた音声は、A/
D変換部21によってディジタルデータに変換された後、
認識用パラメータ変換部22でリアルタイムで認識パラメ
ータの計算処理が行なわれ、音声合成部で発声された1
秒間の音声区間の中間の、定常的な部分のパラメータを
音素切り出し部33が切り出し、音素辞書蓄積部34に格納
することによって、音素辞書を作成する。
【0029】請求項2の発明では、音素辞書作成装置の
スピーカ12とマイク20とを音素辞書作成装置の使用され
る環境下に配置し、音素合成部14で音素毎に繰り返して
合成された音声を前記環境下でスピーカ12から出力し、
そのスピーカ出力音声をマイク20などの音声入力手段か
ら入力して音素辞書を作成する。
スピーカ12とマイク20とを音素辞書作成装置の使用され
る環境下に配置し、音素合成部14で音素毎に繰り返して
合成された音声を前記環境下でスピーカ12から出力し、
そのスピーカ出力音声をマイク20などの音声入力手段か
ら入力して音素辞書を作成する。
【0030】請求項3の発明では、図4に示す如く、音
素合成部14と音素切り出し部33との間に、切り出しタイ
ミング制御部36を設けて、過渡的な特徴を有する音素の
切り出しを行なう。
素合成部14と音素切り出し部33との間に、切り出しタイ
ミング制御部36を設けて、過渡的な特徴を有する音素の
切り出しを行なう。
【0031】請求項4では、図5に示す如く、ピッチ可
変制御部37を設け、素片波形を接続する間隔である合成
ピッチを操作し、音素の合成ピッチを変更させた音素パ
ターンを使用して音素辞書を作成する。
変制御部37を設け、素片波形を接続する間隔である合成
ピッチを操作し、音素の合成ピッチを変更させた音素パ
ターンを使用して音素辞書を作成する。
【0032】請求項5では、図6に示す如く、音量可変
部15を設け、音素合成部より出力する音量を操作し、音
量を変更させた際の音素パターンを使用して音素辞書を
作成する。
部15を設け、音素合成部より出力する音量を操作し、音
量を変更させた際の音素パターンを使用して音素辞書を
作成する。
【0033】請求項6では、図7に示す如く、ホワイト
ノイズ発生部16と、周波数帯域検出部24、周波数分割計
算部25とを設け、音素辞書作成に先んじてアナログ系の
周波数帯域を求め、その周波数帯域に応じたチャンネル
分割の特徴パラメータを計算して音素辞書作を作成す
る。
ノイズ発生部16と、周波数帯域検出部24、周波数分割計
算部25とを設け、音素辞書作成に先んじてアナログ系の
周波数帯域を求め、その周波数帯域に応じたチャンネル
分割の特徴パラメータを計算して音素辞書作を作成す
る。
【0034】請求項7では、図8に示す如く、スピーカ
特性補正フィルタ17を設け、スピーカの特性を補償し
て、好ましい総合特性の発声システムを構成して、これ
を通して音素辞書を作成する。
特性補正フィルタ17を設け、スピーカの特性を補償し
て、好ましい総合特性の発声システムを構成して、これ
を通して音素辞書を作成する。
【0035】
【実施例】図3に第1の実施例を示す。本実施例は、図
10に示す音声認識装置と、図1に示す音素辞書作成装置
をまとめて、共通の部分を一つに統合したものである。
10に示す音声認識装置と、図1に示す音素辞書作成装置
をまとめて、共通の部分を一つに統合したものである。
【0036】先ず、多数話者の音素を合成するための機
能としては、素片波形蓄積部13、音声合成部14、スピー
カ12が、新しく追加されている。さらに音声認識装置に
対する追加の機能として、認識/登録モード切替え部35
および、音素切り出し部33がある。認識/登録モード切
替え部35により音声認識モードおよび音素辞書作成モー
ドの二種類の機能を各々切替えることが出来る。音声認
識モードの場合は、認識パラメータ変換部22で得られた
認識パラメータは、音素ラティス生成部51にそのまま送
られ、音素辞書蓄積部34の音素データは、音素ラティス
を生成するために使用される。音素辞書作成モードの場
合は、認識パラメータ変換部22で得られた認識パラメー
タは、音素切り出し部33に送られ、音素辞書蓄積部34の
音素辞書データに追加される。
能としては、素片波形蓄積部13、音声合成部14、スピー
カ12が、新しく追加されている。さらに音声認識装置に
対する追加の機能として、認識/登録モード切替え部35
および、音素切り出し部33がある。認識/登録モード切
替え部35により音声認識モードおよび音素辞書作成モー
ドの二種類の機能を各々切替えることが出来る。音声認
識モードの場合は、認識パラメータ変換部22で得られた
認識パラメータは、音素ラティス生成部51にそのまま送
られ、音素辞書蓄積部34の音素データは、音素ラティス
を生成するために使用される。音素辞書作成モードの場
合は、認識パラメータ変換部22で得られた認識パラメー
タは、音素切り出し部33に送られ、音素辞書蓄積部34の
音素辞書データに追加される。
【0037】図4に第2の実施例を示す。これ以外の部
分は、上記第1の実施例と同じである。音声合成部で
は、破裂音などの時間的に定常な性質を持たない音素の
合成を行なう。この場合の説明は、子音+母音の音節単
位での合成の例を説明する。(例えば[p]+[i] で /ピ/
という音節を合成する) その子音の一番特徴を持った時
間位置( 例えば、破裂音の場合は破裂開始時点) に合わ
せて、切り出すようにする。切り出しタイミング制御部
36では、音声合成、音声の伝達経路、認識パラメータの
計算などの時間的遅延を計算に入れて、丁度子音の一番
特徴を持った位置の音素を切り出す。
分は、上記第1の実施例と同じである。音声合成部で
は、破裂音などの時間的に定常な性質を持たない音素の
合成を行なう。この場合の説明は、子音+母音の音節単
位での合成の例を説明する。(例えば[p]+[i] で /ピ/
という音節を合成する) その子音の一番特徴を持った時
間位置( 例えば、破裂音の場合は破裂開始時点) に合わ
せて、切り出すようにする。切り出しタイミング制御部
36では、音声合成、音声の伝達経路、認識パラメータの
計算などの時間的遅延を計算に入れて、丁度子音の一番
特徴を持った位置の音素を切り出す。
【0038】このようにすると、定常的な性質を持たな
い、過渡的な特徴量を有する無声破裂子音などの音素に
ついても、実際に使用される環境に近い発声から認識用
音素パラメータを作成することが可能になる。
い、過渡的な特徴量を有する無声破裂子音などの音素に
ついても、実際に使用される環境に近い発声から認識用
音素パラメータを作成することが可能になる。
【0039】図5に第3の実施例を示す。これ以外の部
分は、上記第1の実施例と同じである。この実施例で
は、ピッチ可変制御部37が、追加されている。このピッ
チ可変制御部37を使用することで、周期性を持つ音素
(有声音)を登録する際に、数種類の異なるピッチで音
素の合成を行なうことが出来るために、ピッチを変更さ
せた場合の音素を音素辞書蓄積部34に登録することが可
能になる。
分は、上記第1の実施例と同じである。この実施例で
は、ピッチ可変制御部37が、追加されている。このピッ
チ可変制御部37を使用することで、周期性を持つ音素
(有声音)を登録する際に、数種類の異なるピッチで音
素の合成を行なうことが出来るために、ピッチを変更さ
せた場合の音素を音素辞書蓄積部34に登録することが可
能になる。
【0040】通常音声認識では、有声音のピッチの情報
は使用しない場合が多い。しかし、ピッチの変化に応じ
て、ホルマントの形状が変化したりする場合も多い。実
際に各種単語を発声する場合には、単語におけるフレー
ズ成分やアクセント成分の影響で、各音素のピッチ情報
は、変化することが予想される。
は使用しない場合が多い。しかし、ピッチの変化に応じ
て、ホルマントの形状が変化したりする場合も多い。実
際に各種単語を発声する場合には、単語におけるフレー
ズ成分やアクセント成分の影響で、各音素のピッチ情報
は、変化することが予想される。
【0041】そのため、ピッチを色々と変化させた場合
の音素パターンを登録することも、認識時に得られる音
素になるべく近い音素が登録出来るという点から見て、
音声認識率を上げるための有効な手段になる。
の音素パターンを登録することも、認識時に得られる音
素になるべく近い音素が登録出来るという点から見て、
音声認識率を上げるための有効な手段になる。
【0042】図6に第4の実施例を示す。これ以外の部
分は、上記第1の実施例と同じである。この実施例にお
いては、音量可変部15および入力音量検出部23が追加さ
れている。先ず、音量可変部15によって、音量の出力レ
ベルを変化させた音素を合成することが出来る。さら
に、入力音量検出部23の情報を、音量可変部15にフィー
ドバックすることによって、スピーカからマイクに至る
までのアナログ系の減衰の程度に関わらず、A/D変換
部21の入力時のレベルに応じた音量調節が可能になる。
すなわち、この音量調整の機構を使用することで、数種
類の異なる音量で発声させた場合から抽出した音素を図
6では表示が省略されている音素辞書蓄積部に登録する
ことが出来る。音素を登録する場合、音声の大きさの情
報も大切である。基本的には、音声認識用のパラメータ
としては、音声の発声の大きさが変化しても、変化しな
いように大きさの情報で正規化したパラメータを使用す
るのが一般的である。しかし例えば、周囲雑音レベルが
大きい環境において、小さな声で発声すると、S/N が悪
くなるために、大きな声で発声した音声とは、音声パラ
メータの形状が変化する。また、ダイナミックレンジの
大きくないマイクに対して、大きな声で発声した場合に
は、音声がクリップしてしまい、歪みを生じ、音声パラ
メータの形状が変化してしまうという場合も考えられ
る。このような色々な要因のために、音声を発声する大
きさによって、音素の認識用パラメータが変化する場合
がある。
分は、上記第1の実施例と同じである。この実施例にお
いては、音量可変部15および入力音量検出部23が追加さ
れている。先ず、音量可変部15によって、音量の出力レ
ベルを変化させた音素を合成することが出来る。さら
に、入力音量検出部23の情報を、音量可変部15にフィー
ドバックすることによって、スピーカからマイクに至る
までのアナログ系の減衰の程度に関わらず、A/D変換
部21の入力時のレベルに応じた音量調節が可能になる。
すなわち、この音量調整の機構を使用することで、数種
類の異なる音量で発声させた場合から抽出した音素を図
6では表示が省略されている音素辞書蓄積部に登録する
ことが出来る。音素を登録する場合、音声の大きさの情
報も大切である。基本的には、音声認識用のパラメータ
としては、音声の発声の大きさが変化しても、変化しな
いように大きさの情報で正規化したパラメータを使用す
るのが一般的である。しかし例えば、周囲雑音レベルが
大きい環境において、小さな声で発声すると、S/N が悪
くなるために、大きな声で発声した音声とは、音声パラ
メータの形状が変化する。また、ダイナミックレンジの
大きくないマイクに対して、大きな声で発声した場合に
は、音声がクリップしてしまい、歪みを生じ、音声パラ
メータの形状が変化してしまうという場合も考えられ
る。このような色々な要因のために、音声を発声する大
きさによって、音素の認識用パラメータが変化する場合
がある。
【0043】このような事態に対処するため、小さい声
から大きな声まで、数種類の音量で発声させた音声から
抽出した音素を登録しておくということも、音声認識率
を上げるための有効な手段になる。
から大きな声まで、数種類の音量で発声させた音声から
抽出した音素を登録しておくということも、音声認識率
を上げるための有効な手段になる。
【0044】図7に第5の実施例を示す。これ以外の部
分は、上記第1の実施例の場合と同じである。この実施
例においては、ホワイトノイズ生成部16で、ランダム雑
音であるホワイトノイズが生成される。このホワイトノ
イズのデータスピーカ12から出力させ、A/D変換後の
ディジタルデータを、周波数帯域検出部24によって、ア
ナログ系の周波数帯域が計算される。周波数帯域の検出
の方法としては、例えば簡単な方法としては、得られた
ディジタルデータをFFT などで各周波数毎のスペクトル
の強さに変換し、その値があるしきい値以上の区間を、
アナログ系の周波数帯域とする。さらに周波数分割計算
部25で、得られた周波数帯域をログ軸で等分するなどの
方法によって、周波数分割情報を得る。その周波数分割
情報は、認識パラメータ変換部22に送られ、音素辞書生
成の際、および音声認識時の両方で使用される。使用す
るアナログ系によっては、音声の通過する周波数帯域が
かなり狭いことがある。例えば、電話回線を通した音声
や、無線装置を経由した場合などである。このような場
合に、認識用パラメータとしてスペクトルパターンを使
用する場合などは、音声の帯域に応じたチャンネル分割
を行なった方が認識率が上がる。
分は、上記第1の実施例の場合と同じである。この実施
例においては、ホワイトノイズ生成部16で、ランダム雑
音であるホワイトノイズが生成される。このホワイトノ
イズのデータスピーカ12から出力させ、A/D変換後の
ディジタルデータを、周波数帯域検出部24によって、ア
ナログ系の周波数帯域が計算される。周波数帯域の検出
の方法としては、例えば簡単な方法としては、得られた
ディジタルデータをFFT などで各周波数毎のスペクトル
の強さに変換し、その値があるしきい値以上の区間を、
アナログ系の周波数帯域とする。さらに周波数分割計算
部25で、得られた周波数帯域をログ軸で等分するなどの
方法によって、周波数分割情報を得る。その周波数分割
情報は、認識パラメータ変換部22に送られ、音素辞書生
成の際、および音声認識時の両方で使用される。使用す
るアナログ系によっては、音声の通過する周波数帯域が
かなり狭いことがある。例えば、電話回線を通した音声
や、無線装置を経由した場合などである。このような場
合に、認識用パラメータとしてスペクトルパターンを使
用する場合などは、音声の帯域に応じたチャンネル分割
を行なった方が認識率が上がる。
【0045】例えば、サンプリング周波数が16kHz の場
合には、0Hz〜8kHz までの周波数範囲の音声パラメー
タを計算することが出来る。しかし、もしアナログ伝送
系が例えば、3kHz までの周波数帯域しか持っていない
場合には、認識用パラメータも、その範囲のみ(3kHz)で
計算する方が、情報量を持たない余分な帯域を持った認
識パラメータを使用するよりも望ましい。この方法を使
用することによって、周波数帯域の狭いアナログ系に関
しても認識率を保つような音素辞書を得ることが可能に
なる。
合には、0Hz〜8kHz までの周波数範囲の音声パラメー
タを計算することが出来る。しかし、もしアナログ伝送
系が例えば、3kHz までの周波数帯域しか持っていない
場合には、認識用パラメータも、その範囲のみ(3kHz)で
計算する方が、情報量を持たない余分な帯域を持った認
識パラメータを使用するよりも望ましい。この方法を使
用することによって、周波数帯域の狭いアナログ系に関
しても認識率を保つような音素辞書を得ることが可能に
なる。
【0046】図8に第6の実施例を示す。これ以外の部
分は、上記第1の実施例の場合と同じである。上記第1
の実施例では、スピーカ12として、理想的な信号の出力
特性がフラットであるものと考えている。本実施例で、
そのような理想的な特性を持った高価なスピーカを用い
ずに、周波数特性補性することで、通常のスピーカを使
用することが可能な構成とした。
分は、上記第1の実施例の場合と同じである。上記第1
の実施例では、スピーカ12として、理想的な信号の出力
特性がフラットであるものと考えている。本実施例で、
そのような理想的な特性を持った高価なスピーカを用い
ずに、周波数特性補性することで、通常のスピーカを使
用することが可能な構成とした。
【0047】音素合成部14とスピーカ12の間にスピーカ
特性補性フィルタ17が追加されている。この補性フィル
タに関しては、スピーカの特性をあらかじめ調べてお
き、その特性の逆特性を持つディジタルもしくはアナロ
グフィルタを設計することで作成する。このフィルタ操
作を行なうことで、スピーカ12から出力される音声波形
が理想的なスピーカから出力される場合とほぼ一致す
る。
特性補性フィルタ17が追加されている。この補性フィル
タに関しては、スピーカの特性をあらかじめ調べてお
き、その特性の逆特性を持つディジタルもしくはアナロ
グフィルタを設計することで作成する。このフィルタ操
作を行なうことで、スピーカ12から出力される音声波形
が理想的なスピーカから出力される場合とほぼ一致す
る。
【0048】図9に第7の実施例を示す。これは、認識
用パラメータに対してスピーカの特性補性を行なう、ス
ピーカ特性補正部26を追加したものである。認識用パラ
メータ計算の際に直接スピーカ特性を補性する機能を追
加しても良い。
用パラメータに対してスピーカの特性補性を行なう、ス
ピーカ特性補正部26を追加したものである。認識用パラ
メータ計算の際に直接スピーカ特性を補性する機能を追
加しても良い。
【0049】このスピーカ特性補正部26の動作として
は、例えば、認識用パラメータにFFTなどで計算した
対数スペクトルを使用する場合には、スピーカの周波数
特性に変換して対数を取った値を、各々のスペクトルか
ら引くことによって、結果として、音素辞書蓄積部34に
格納される認識用パラメータに、スピーカ12の特性の影
響が及ばないようにすることが出来る。
は、例えば、認識用パラメータにFFTなどで計算した
対数スペクトルを使用する場合には、スピーカの周波数
特性に変換して対数を取った値を、各々のスペクトルか
ら引くことによって、結果として、音素辞書蓄積部34に
格納される認識用パラメータに、スピーカ12の特性の影
響が及ばないようにすることが出来る。
【0050】このように、音素合成部とスピーカの間、
もしくは、認識パラメータ変換部の前または後に、スピ
ーカ特性補正部を入れることで、理想特性を持たないス
ピーカでも使用可能である。
もしくは、認識パラメータ変換部の前または後に、スピ
ーカ特性補正部を入れることで、理想特性を持たないス
ピーカでも使用可能である。
【0051】
【発明の効果】以上説明した様に、本発明によれば、色
々な環境のアナログ特性に応じた、不特定話者用音声認
識装置の音素辞書を、人手による修正、チェックなどの
手作業を必要とせずに作成することが出来るため、認識
装置を使用する環境が変化した場合においても、品質の
高い音素辞書を容易に作成することができ、その結果音
声認識装置において高い認識率を得ることが可能とな
る。
々な環境のアナログ特性に応じた、不特定話者用音声認
識装置の音素辞書を、人手による修正、チェックなどの
手作業を必要とせずに作成することが出来るため、認識
装置を使用する環境が変化した場合においても、品質の
高い音素辞書を容易に作成することができ、その結果音
声認識装置において高い認識率を得ることが可能とな
る。
【図1】 本発明の原理図である。
【図2】 波形合成方式の説明図である。
【図3】 第1の実施例である。
【図4】 第2の実施例である。
【図5】 第3の実施例である。
【図6】 第4の実施例である。
【図7】 第5の実施例である。
【図8】 第6の実施例である。
【図9】 第7の実施例である。
【図10】 音声認識装置の構成図である。
【図11】 音素辞書作成の従来例である。
10 人間 11 テープレコーダ 12 スピーカ 13 素片波形蓄積部 14 音素合成部 15 音量可変部 16 ホワイトノイズ生成部 17 スピーカ特性補正フィルタ 20 マイクロフォン (マイク) 21 A/D変換部 22 認識用パラメタ変換部 23 入力音量検出部 24 周波数帯域検出部 25 周波数分割計算部 26 スピーカ特性補正部 31 音声自動セグメンテーション部 32 音声ラベル 33 音素切り出し部 34 音素辞書蓄積部 35 認識/登録モード切替え部 36 切り出しタイミング制御部 37 ピッチ可変制御部 51 音素ラティス生成部 52 認識語彙蓄積部 53 単語照合部 54 認識結果表示装置
Claims (7)
- 【請求項1】 素片波形蓄積部と、音声合成部と、スピ
ーカと、マイクと、A/D変換部と、認識パラメータ変
換部と、音素切り出し部と、音素辞書蓄積部とを有し、 前記素片波形蓄積部は多数話者の発声した音声から特徴
量を抽出した音声データベースを蓄積するものであり、
前記音声合成部は前記素片波形蓄積部に蓄積された情報
の素片波形を繰り返して接続することで合成音声を作成
するものであり、スピーカは前記合成音を発声するもの
であり、前記マイクは前記スピーカの発する合成音を電
気信号に変換するものであり、前記A/D変換部は前記
電気信号をディジタルデータに変換するものであり、前
記認識パラメータ変換部は認識パラメータの計算処理を
行なうものであり、前記音素切り出し部は音声区間の中
間の定常的な部分パラメータを切り出して音素辞書を作
成するもので、前記音素辞書蓄積部は前記部分パラメー
タを蓄積するものであることを特徴とする音素辞書作成
装置。 - 【請求項2】 請求項1の音素辞書作成装置のスピーカ
とマイクとを音素辞書作成装置の使用される環境下に配
置し、音声データベースの情報を前記環境下で発声し、
前記環境の影響を受けた音声データをマイクで集音する
ことを特徴とする音素辞書作成方法。 - 【請求項3】 音素合成部と音素切り出し部との間に切
り出しタイミング制御部を配し、 前記切り出しタイミング制御部は前記音素合成部と前記
音素切り出し部とのタイミングを制御することを特徴と
する請求項1の音素辞書作成装置。 - 【請求項4】 音素合成部に接続してピッチ可変部を配
し、 前記ピッチ可変部は素片波形を接続する間隔である合成
ピッチを操作するものであり、 音素の合成ピッチを変更させた際の音素パターンを使用
することを特徴とする請求項1の音素辞書作成装置。 - 【請求項5】 音素合成部に接続して合成音量可変部を
配し、 前記合成音量可変部は音素合成部より出力する音量を操
作するものであり、 前記音量を変更させた際の音素パターンを使用すること
を特徴とする請求項1の音素辞書作成装置。 - 【請求項6】 ホワイトノイズ発生部と、周波数帯域検
出部と周波数分割計算部とを有し、 前記ホワイトノイズ発生部はホワイトノイズを生成する
ものであり、前記周波数帯域検出部は音素辞書作成に先
んじてアナログ系の周波数帯域を求めるものであり、前
記周波数分割計算部は、前記周波数帯域に応じたチャン
ネル分割を求めるものであり、 前記周波数帯域に応じたチャンネル分割の特徴パラメー
タを計算することを特徴とする請求項1の音素辞書作成
装置。 - 【請求項7】 スピーカ特性補正部を有し、 前記スピーカ特性補正部はスピーカの周波数応答特性を
適性に補正するものであり、 前記スピーカ特性補正部は音素合成部とスピーカとの
間、認識パラメータ変換部の入力側、認識パラメータ変
換部の出力側のいずれかの位置に挿入されて構成される
ことを特徴とする請求項1の音素辞書作成装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6311593A JPH08166798A (ja) | 1994-12-15 | 1994-12-15 | 音素辞書作成装置および方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6311593A JPH08166798A (ja) | 1994-12-15 | 1994-12-15 | 音素辞書作成装置および方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH08166798A true JPH08166798A (ja) | 1996-06-25 |
Family
ID=18019114
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6311593A Withdrawn JPH08166798A (ja) | 1994-12-15 | 1994-12-15 | 音素辞書作成装置および方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH08166798A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
| US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
| JP2012252303A (ja) * | 2011-06-07 | 2012-12-20 | Yamaha Corp | 音声合成装置 |
-
1994
- 1994-12-15 JP JP6311593A patent/JPH08166798A/ja not_active Withdrawn
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
| US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
| JP2012252303A (ja) * | 2011-06-07 | 2012-12-20 | Yamaha Corp | 音声合成装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3180655B2 (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
| US8706488B2 (en) | Methods and apparatus for formant-based voice synthesis | |
| US5970453A (en) | Method and system for synthesizing speech | |
| EP1168299B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
| Zwicker et al. | Automatic speech recognition using psychoacoustic models | |
| JP2826215B2 (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
| US20200082805A1 (en) | System and method for speech synthesis | |
| US8195464B2 (en) | Speech processing apparatus and program | |
| EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
| WO1997029482A1 (en) | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves | |
| JPH1091183A (ja) | 言語合成のためのランタイムアコースティックユニット選択方法及び装置 | |
| Heldner | Spectral emphasis as an additional source of information in accent detection | |
| US20160104477A1 (en) | Method for the interpretation of automatic speech recognition | |
| Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
| JPH0632020B2 (ja) | 音声合成方法および装置 | |
| JP2013195928A (ja) | 音声素片切出装置 | |
| JPH08211897A (ja) | 音声認識装置 | |
| JPH08166798A (ja) | 音素辞書作成装置および方法 | |
| Mannell | Formant diphone parameter extraction utilising a labelled single-speaker database. | |
| JPWO2010104040A1 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
| US20050131679A1 (en) | Method for synthesizing speech | |
| Itoh et al. | A new waveform speech synthesis approach based on the COC speech spectrum | |
| Bosch | On the automatic classification of pitch movements | |
| Akdemir et al. | The use of articulator motion information in automatic speech segmentation | |
| JP2862306B2 (ja) | 音声認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20020305 |