JPH08166798A

JPH08166798A - 音素辞書作成装置および方法

Info

Publication number: JPH08166798A
Application number: JP6311593A
Authority: JP
Inventors: Yoshiaki Teramoto; 良明寺本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1994-12-15
Filing date: 1994-12-15
Publication date: 1996-06-25

Abstract

(57)【要約】【目的】本発明は、音素を基礎とした不特定話者音声
認識装置に使用するところの、多人数の音素を格納して
おく音素辞書を自動的に作成する技術に関する。【構成】素片波形蓄積部13には、あらかじめ数十人以
上の多数話者の発声した単語などの音声データから切り
出した数多くの音素の素片波形のデータが蓄えておき、
音素合成部14では、ある一定時間（例えば１秒おき）に
音素グループ毎に順番に音声合成を行ない、スピーカ12
からその音声を出力する。マイク20で拾った音声を、A/
D 変換部21によってディジタルデータに変換した後、認
識用パラメータ変換部22でリアルタイムで認識パラメー
タの計算処理を行ないう。そして、音声合成部で発声さ
れた１秒間の音声区間の中間の、定常的な部分のパラメ
ータを音素切り出し部23が切り出し、音素辞書蓄積部30
に格納することによって、音素辞書を作成するように構
成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音素辞書作成装置に関
する。近年、自動車内でのナビゲーションシステムの入
力手段、電話回線を通じてコンピュータ上のデータベー
スをアクセスする際の検索情報の入力手段、或いは、無
線装置を通してする工場内での製品の検査結果の入力手
段の如く、キーボード・マウスなどの通常のコンピュー
タの入力手段が使用出来ない分野でそれに代わる入力手
段として、音声認識装置の適用が期待されている。

【０００２】音声認識技術としては、単語単位の音声を
登録し、登録されている音声と入力された音声のマッチ
ングを行ない認識結果を出力する全登録型の方式と、音
節もしくは音素という音声の構成単位で音声を登録して
おき、その構成単位の組合せと入力された音声のマッチ
ングを行ない認識結果を出力する方式がある。また、使
用する話者の音声データを必ず登録する必要がある特定
話者認識方式と、あらかじめ多数の話者の音声データが
登録されていて使用する話者の音声を登録する必要がな
い不特定話者音声認識の２種類の方式がある。本発明
は、音素を基礎とした不特定話者音声認識装置に使用す
るところの、多人数の音素を格納しておく音素辞書を自
動的に作成する技術に関するものである。

【０００３】

【従来の技術】一般的な音声認識装置の構成図を図10に
示す。図中、10は人間で、発声者を表す、20はマイクロ
フォン（以下、マイクと略する。）で、音声を電気信号
に変換するもの、21はＡ／Ｄ変換部で、アナログデータ
を、デジタルデータに変換するもの、22は認識用パラメ
ータ変換部で、波形データを操作することで、音声認識
として使用される認識用パラメータに変換を行なうも
の、34は音素辞書蓄積部で、音素毎に認識パラメータを
格納するもの、51は音素ラティス生成部で、認識用パラ
メータを音素辞書とマッチングすることにより、音素ラ
ティス（音声区間の各入力フレームと各音素との類似度
を求めた類似度行列を言う。）を生成するもの、52は認
識語彙蓄積部で、認識対象となる語彙の読み情報などを
蓄積しておくもの、53は単語照合部で、単語照合を行い
認識結果を得るもの、54は認識結果表示装置で、認識結
果を利用者に提示するための表示装置手段である。以
下、図10を用いて従来の音素単位の音声認識装置の説明
を行なう。

【０００４】先ず、人間10が発声した単語単位の音声
は、マイク20から入力され、Ａ／Ｄ変換部21によりデジ
タルデータに変換される。さらに、認識パラメータ変換
部22によって、一定間隔（例えば、5ms 、15ms）毎に認
識パラメータに変換される。認識パラメータとしては一
般的に、メルスペクトルや、ＬＰＣパラメータなどが良
く使用される。

【０００５】計算された入力単語の認識パラメータは、
あらかじめ用意してある音素辞書蓄積部34から登録され
ている各音素の認識用登録パターンを得て、音素ラティ
ス生成部51で各音素毎の最小距離を計算し音素ラティス
を生成する。

【０００６】さらに、認識語彙蓄積部52に格納されてい
る全ての単語に対して、単語照合部53では、音素ラティ
スの距離を累積した累積距離を算出し、一番距離の小さ
いものを認識結果として、認識結果表示装置54に出力す
る。

【０００７】次に、音素辞書作成の従来例を図11に示
す。図中、11はテープレコーダ、12はスピーカである。
31は音声自動セグメンテーション部で、音素毎にラベル
づけするもの、32は音声ラベルで、入力となる音声デー
タを音素記号列で表現したデータを蓄積したもの、33は
音素切り出し部で、得られた認識パラメータを切り出し
て音素辞書蓄積部に格納するものである。その他の要素
は図10に示すと同じである。

【０００８】先ず、図11に示す従来例と同様にして、人
間があらかじめ定めておいた単語を発声するか、或い
は、あらかじめ人間が発声した音声を録音したデータを
テープレコーダにより再生し、スピーカにより出力す
る。図１には示されていない人間によって直接発声され
た音声或いはスピーカ12から出力された音声は、マイク
20によって集音され、Ａ／Ｄ変換部21によりディジタル
データに変換された後、認識パラメータ変換部22によっ
て、認識パラメータに変換される。認識用パラメータ変
換は認識時と全く同一の性質のものである。

【０００９】その認識用パラメータは、31の音声自動セ
グメンテーション部によって、音素毎にラベルづけされ
る。例えば、/shima/ という単語が発声された場合は、
[sh]-[i]-[m]-[a]という４つの音素からなるという情報
を32の音素ラベルから得て、各々のフレームがどの音素
に対応するかという情報を求める。このセグメンテーシ
ョンを行なう方法としては、認識のアルゴリズムを使用
して自動的に行なう方法の他に、人手による目視セグメ
ンテーションを行なう場合もある。

【００１０】音素切り出し部33では、切り出し規則に応
じて各音素の認識用パラメータを１個ないし数個切り出
して、音素辞書蓄積部34に蓄積する動作を行なう。通常
は、以上のような過程を経て音素辞書が作成されるが、
本格的な音素辞書を作成するためには、何百人もの話者
が何千単語も発声する必要があるため、非常に手間のか
かる作業になってくる。というのも、認識技術がまだ未
完全なため切り出し誤りを必ず生じるため、その部分に
人手によるチェックが必要であるからである。

【００１１】

【発明が解決しようとする課題】音声認識装置を使用す
る環境が異なると、色々な要因のために人間の発声する
音声が認識装置まで到達する間のアナログ特性の違いに
より、得られる認識用パラメータにかなりの違いが生じ
てくる場合も考えられる。

【００１２】すなわち、入力手段の存在する場所によっ
てマイク系および音声信号の伝達系の周波数特性が違っ
ていたり、マイクなどが十分なダイナミックレンジを持
たないことや低周波のノイズの影響により音声信号に歪
みが見られる場合、周囲から混入してくる定常ノイズの
影響、などが考えられる。

【００１３】実際の音声認識装置は、例えば、カラオケ
用のマイクを流用して認識を行なう場合、雑音の多い場
所のために指向特性を持ったマイクを使用する場合、電
話の受話器および電話回線を通した音声を使用する場
合、遠隔値で使用するために無線装置を経由する場合な
ど、さまざまな方面で使用されることが予想されるため
に、その使用される場面に応じてアナログ特性は変化す
ると考えるのは妥当であろう。

【００１４】このような多種の使用環境で用いられる場
合でも、例えば登録パターンと、入力パターンとをマッ
チングさせて、認識結果を出力する、単語登録型認識装
置では、使用環境で登録を行なえば問題は解決される。

【００１５】しかし不特定話者の音素を使用した、音声
認識装置では、あらかじめ不特定多数の話者が発声した
音声データから抽出した音素辞書を用意しておくため
に、収録の際のアナログ系と、装置を使用する際のアナ
ログ系が違うとすると、基本となる音素の特徴量が異な
ってくるために、結果として十分な認識率が得られない
場合が生じる。

【００１６】すなわち、認識装置を使用する環境によっ
て、音素辞書を差し替えるのが、認識率を低下させない
一番の方法ではある。しかし、従来、音素辞書を作成す
るためには、非常に大きな人手と手間がかかるという問
題があった。その原因は、従来例の音素自動セグメンテ
ーション部22は認識と同等もしくはそれ以上の膨大な計
算量を必要とするため、動作に時間がかかり、また自動
とはいえ現在の技術レベルでは必ず間違う可能性がある
ため、人間のチェックが不可欠になってくるためであ
る。

【００１７】本発明は、人手による修正・チェック等の
作業を必要とせずに音素辞書作成をすることを目的とす
る。

【００１８】

【課題を解決するための手段】図１は、本発明の原理説
明図である。図中、12はスピーカで、合成装置からの出
力を音声に変換するもの、13は素片波形蓄積部で、音声
合成を行なう際に使用する音素片のデータを蓄積してお
くもの、14は音素合成部で、音素片を接続する計算を行
なうことで任意の音素波形を合成するもの、20はマイク
で音声を電気信号に変換するもの、21はＡ／Ｄ変換部
で、アナログデータをサンプリングしてディジタル値に
変換することでデジタルデータに変換するもの、22は認
識用パラメータ変換部で、波形データを操作することで
音声認識として使用される認識用パラメータに変換を行
なうもの、33は音素切り出し部で、得られた認識パラメ
ータを切り出して音素辞書蓄積部に格納するもの、34は
音素辞書蓄積部で、音素毎に認識パラメータを格納する
ものである。

【００１９】先ず、人間もしくはテープレコーダを通し
て発声する単語単位の音声の代わりに、音素合成部14を
新たに追加する。最近では、波形合成方式の方式のよう
な、十分な明瞭性を持ち、その合成音声の持つ特徴量が
人間の発声した音声とほとんど変わらないレベルにまで
達している。音素合成部14から、ある定められた一定時
間、音素を合成させ、スピーカ12からその合成した音素
を鳴らすようにする。

【００２０】音素の種類として、母音([a], [i], [u],
[e], [o]) 、鼻音([m], [n])、有声摩擦音([j], [z])、
無声摩擦音([sh], [s], [h], [f]) 、有声破裂音([b],
[d],[g]) および無声破裂音([p], [t], [k]) などがあ
る。この中で母音の場合だけは、人間は音素を定常的に
発声出来るが、その他の音素に関しては、一般に人間は
音素を定常的に発声出来ない。たとえ発声出来たとして
も、不自然な発声になってしまい認識の際に使用できる
かどうかは不明である。

【００２１】これに対して合成された音素では、人間が
発声した音声の中から切り出した素片を使用しているた
めに、各々の音素に対して、安定した発声を行なわせる
ことが可能である。本発明では、マイク20からの入力単
位が、音素毎であるために、音声の自動セグメンテーシ
ョン部31が不必要になってくる。その結果、多くの計算
量が必要であったり、間違いを人手によって修正しなけ
ればならない等の音声の自動セグメンテーションの有す
る欠点が無くなる。

【００２２】音素の合成方式の例として、波形合成方式
の説明図を図２に示す。周期性のある( ピッチを持って
いる) 音素に関しては、人間の発声した音声から、１ピ
ッチ分もしくは２ピッチ分の素片波形をあらかじめ切り
出しておき、そのデータを使用する。

【００２３】さらに音声の素片データに、窓掛けを行な
うことによって接続を滑らかに行なう。窓掛けの形状と
しては、例えばハニング窓などが使用される。なお、ハ
ニング窓とは、ｗ(t) ＝０．５＋０．５×ｃｏｓ（２π
ｔ／Ｔ）の計算式で与えられる窓のことであり、波形を
連続的に接続する際に、窓を使用しないと合成された波
形に不連続な箇所が生じる場合があるため、中心付近で
１、最端で０になめらかに移行するような重みを乗じて
から接続するために使用されることが多い。この素片波
形をピッチ毎の時間間隔で接続することによって、図の
ように元の音声波形と同じ性質を持った音素波形を合成
することが出来る。

【００２４】また、ピッチを持たない無声摩擦音に関し
ては、その対応する摩擦音の音声パターンをある一定長
( 例えば、100ms 等) 分を切り出し、そのまま持ってお
き、その素片パターンを繰り返すことで音声を合成す
る。

【００２５】ただし、この場合も同様で、２つの素片波
形の接続時に不自然さが生じないように、素片波形の端
の部分にハニング窓のようななめらかな窓を掛けてなめ
らかに接続を行なうようにする。

【００２６】なお、無声破裂音のような定常的でない過
渡特性を有する音素もあるが、これに対しても、破裂部
のパターンを持っておき、繰り返し音素合成部で合成す
ることで、音素の合成を行なうことが出来る。

【００２７】

【作用】以下、図１から図９を用いて各請求項の発明の
作用を説明する。図中、15は音量可変部で、合成音声を
出力する際の音量レベルを変更するもの、16はホワイト
ノイズ生成部で、ホワイトノイズを生成するもの、17は
スピーカ特性補正フィルタで、スピーカの周波数特性を
補正して適正な総合特性を得るもの、23は入力音量検出
部で、入力信号のレベルを求め入力音声の音量を検出す
るもの、24は周波数帯域検出部で、入力されたホワイト
ノイズの周波数特性を求めることで伝送系全体について
の周波数帯域を検出するもの、25は周波数分割計算部
で、周波数帯域を分割して各チャンネル毎に分割された
周波数帯域を計算するもの、26はスピーカ特性補正部
で、スピーカの特性を補正するもの、35は認識／登録モ
ード切替え部で、認識モードと登録モードの２つのモー
ドに応じて認識用パラメータの使用方法を変更するため
に使用方法を変更するもの、36は切り出しタイミング制
御部で、音素合成部と音素切り出し部とのタイミングを
制御するもの、37はピッチ可変制御部で、音素の合成を
行なう場合に外部からピッチの制御を行なえるようにす
るためのものである。その他の要素はこれまでに説明し
た通りである。

【００２８】請求項１の発明では、図１に示す如く、あ
らかじめ数十人以上の多数話者の発声した単語などの音
声データから切り出した数多くの音素の素片波形のデー
タを素片波形蓄積部13に蓄えておき、図３に示す如く、
ある一定時間( 例えば１秒おき) に音素グループ毎に順
番に音声合成を音素合成部14で行ない、その音声をスピ
ーカ12から出力する。マイク20で拾われた音声は、Ａ／
Ｄ変換部21によってディジタルデータに変換された後、
認識用パラメータ変換部22でリアルタイムで認識パラメ
ータの計算処理が行なわれ、音声合成部で発声された１
秒間の音声区間の中間の、定常的な部分のパラメータを
音素切り出し部33が切り出し、音素辞書蓄積部34に格納
することによって、音素辞書を作成する。

【００２９】請求項２の発明では、音素辞書作成装置の
スピーカ12とマイク20とを音素辞書作成装置の使用され
る環境下に配置し、音素合成部14で音素毎に繰り返して
合成された音声を前記環境下でスピーカ12から出力し、
そのスピーカ出力音声をマイク20などの音声入力手段か
ら入力して音素辞書を作成する。

【００３０】請求項３の発明では、図４に示す如く、音
素合成部14と音素切り出し部33との間に、切り出しタイ
ミング制御部36を設けて、過渡的な特徴を有する音素の
切り出しを行なう。

【００３１】請求項４では、図５に示す如く、ピッチ可
変制御部37を設け、素片波形を接続する間隔である合成
ピッチを操作し、音素の合成ピッチを変更させた音素パ
ターンを使用して音素辞書を作成する。

【００３２】請求項５では、図６に示す如く、音量可変
部15を設け、音素合成部より出力する音量を操作し、音
量を変更させた際の音素パターンを使用して音素辞書を
作成する。

【００３３】請求項６では、図７に示す如く、ホワイト
ノイズ発生部16と、周波数帯域検出部24、周波数分割計
算部25とを設け、音素辞書作成に先んじてアナログ系の
周波数帯域を求め、その周波数帯域に応じたチャンネル
分割の特徴パラメータを計算して音素辞書作を作成す
る。

【００３４】請求項７では、図８に示す如く、スピーカ
特性補正フィルタ17を設け、スピーカの特性を補償し
て、好ましい総合特性の発声システムを構成して、これ
を通して音素辞書を作成する。

【００３５】

【実施例】図３に第１の実施例を示す。本実施例は、図
10に示す音声認識装置と、図１に示す音素辞書作成装置
をまとめて、共通の部分を一つに統合したものである。

【００３６】先ず、多数話者の音素を合成するための機
能としては、素片波形蓄積部13、音声合成部14、スピー
カ12が、新しく追加されている。さらに音声認識装置に
対する追加の機能として、認識／登録モード切替え部35
および、音素切り出し部33がある。認識／登録モード切
替え部35により音声認識モードおよび音素辞書作成モー
ドの二種類の機能を各々切替えることが出来る。音声認
識モードの場合は、認識パラメータ変換部22で得られた
認識パラメータは、音素ラティス生成部51にそのまま送
られ、音素辞書蓄積部34の音素データは、音素ラティス
を生成するために使用される。音素辞書作成モードの場
合は、認識パラメータ変換部22で得られた認識パラメー
タは、音素切り出し部33に送られ、音素辞書蓄積部34の
音素辞書データに追加される。

【００３７】図４に第２の実施例を示す。これ以外の部
分は、上記第１の実施例と同じである。音声合成部で
は、破裂音などの時間的に定常な性質を持たない音素の
合成を行なう。この場合の説明は、子音＋母音の音節単
位での合成の例を説明する。(例えば[p]+[i] で /ピ/
という音節を合成する) その子音の一番特徴を持った時
間位置( 例えば、破裂音の場合は破裂開始時点) に合わ
せて、切り出すようにする。切り出しタイミング制御部
36では、音声合成、音声の伝達経路、認識パラメータの
計算などの時間的遅延を計算に入れて、丁度子音の一番
特徴を持った位置の音素を切り出す。

【００３８】このようにすると、定常的な性質を持たな
い、過渡的な特徴量を有する無声破裂子音などの音素に
ついても、実際に使用される環境に近い発声から認識用
音素パラメータを作成することが可能になる。

【００３９】図５に第３の実施例を示す。これ以外の部
分は、上記第１の実施例と同じである。この実施例で
は、ピッチ可変制御部37が、追加されている。このピッ
チ可変制御部37を使用することで、周期性を持つ音素
（有声音）を登録する際に、数種類の異なるピッチで音
素の合成を行なうことが出来るために、ピッチを変更さ
せた場合の音素を音素辞書蓄積部34に登録することが可
能になる。

【００４０】通常音声認識では、有声音のピッチの情報
は使用しない場合が多い。しかし、ピッチの変化に応じ
て、ホルマントの形状が変化したりする場合も多い。実
際に各種単語を発声する場合には、単語におけるフレー
ズ成分やアクセント成分の影響で、各音素のピッチ情報
は、変化することが予想される。

【００４１】そのため、ピッチを色々と変化させた場合
の音素パターンを登録することも、認識時に得られる音
素になるべく近い音素が登録出来るという点から見て、
音声認識率を上げるための有効な手段になる。

【００４２】図６に第４の実施例を示す。これ以外の部
分は、上記第１の実施例と同じである。この実施例にお
いては、音量可変部15および入力音量検出部23が追加さ
れている。先ず、音量可変部15によって、音量の出力レ
ベルを変化させた音素を合成することが出来る。さら
に、入力音量検出部23の情報を、音量可変部15にフィー
ドバックすることによって、スピーカからマイクに至る
までのアナログ系の減衰の程度に関わらず、Ａ／Ｄ変換
部21の入力時のレベルに応じた音量調節が可能になる。
すなわち、この音量調整の機構を使用することで、数種
類の異なる音量で発声させた場合から抽出した音素を図
６では表示が省略されている音素辞書蓄積部に登録する
ことが出来る。音素を登録する場合、音声の大きさの情
報も大切である。基本的には、音声認識用のパラメータ
としては、音声の発声の大きさが変化しても、変化しな
いように大きさの情報で正規化したパラメータを使用す
るのが一般的である。しかし例えば、周囲雑音レベルが
大きい環境において、小さな声で発声すると、S/N が悪
くなるために、大きな声で発声した音声とは、音声パラ
メータの形状が変化する。また、ダイナミックレンジの
大きくないマイクに対して、大きな声で発声した場合に
は、音声がクリップしてしまい、歪みを生じ、音声パラ
メータの形状が変化してしまうという場合も考えられ
る。このような色々な要因のために、音声を発声する大
きさによって、音素の認識用パラメータが変化する場合
がある。

【００４３】このような事態に対処するため、小さい声
から大きな声まで、数種類の音量で発声させた音声から
抽出した音素を登録しておくということも、音声認識率
を上げるための有効な手段になる。

【００４４】図７に第５の実施例を示す。これ以外の部
分は、上記第１の実施例の場合と同じである。この実施
例においては、ホワイトノイズ生成部16で、ランダム雑
音であるホワイトノイズが生成される。このホワイトノ
イズのデータスピーカ12から出力させ、Ａ／Ｄ変換後の
ディジタルデータを、周波数帯域検出部24によって、ア
ナログ系の周波数帯域が計算される。周波数帯域の検出
の方法としては、例えば簡単な方法としては、得られた
ディジタルデータをFFT などで各周波数毎のスペクトル
の強さに変換し、その値があるしきい値以上の区間を、
アナログ系の周波数帯域とする。さらに周波数分割計算
部25で、得られた周波数帯域をログ軸で等分するなどの
方法によって、周波数分割情報を得る。その周波数分割
情報は、認識パラメータ変換部22に送られ、音素辞書生
成の際、および音声認識時の両方で使用される。使用す
るアナログ系によっては、音声の通過する周波数帯域が
かなり狭いことがある。例えば、電話回線を通した音声
や、無線装置を経由した場合などである。このような場
合に、認識用パラメータとしてスペクトルパターンを使
用する場合などは、音声の帯域に応じたチャンネル分割
を行なった方が認識率が上がる。

【００４５】例えば、サンプリング周波数が16kHz の場
合には、０Hz〜８kHz までの周波数範囲の音声パラメー
タを計算することが出来る。しかし、もしアナログ伝送
系が例えば、３kHz までの周波数帯域しか持っていない
場合には、認識用パラメータも、その範囲のみ(3kHz)で
計算する方が、情報量を持たない余分な帯域を持った認
識パラメータを使用するよりも望ましい。この方法を使
用することによって、周波数帯域の狭いアナログ系に関
しても認識率を保つような音素辞書を得ることが可能に
なる。

【００４６】図８に第６の実施例を示す。これ以外の部
分は、上記第１の実施例の場合と同じである。上記第１
の実施例では、スピーカ12として、理想的な信号の出力
特性がフラットであるものと考えている。本実施例で、
そのような理想的な特性を持った高価なスピーカを用い
ずに、周波数特性補性することで、通常のスピーカを使
用することが可能な構成とした。

【００４７】音素合成部14とスピーカ12の間にスピーカ
特性補性フィルタ17が追加されている。この補性フィル
タに関しては、スピーカの特性をあらかじめ調べてお
き、その特性の逆特性を持つディジタルもしくはアナロ
グフィルタを設計することで作成する。このフィルタ操
作を行なうことで、スピーカ12から出力される音声波形
が理想的なスピーカから出力される場合とほぼ一致す
る。

【００４８】図９に第７の実施例を示す。これは、認識
用パラメータに対してスピーカの特性補性を行なう、ス
ピーカ特性補正部26を追加したものである。認識用パラ
メータ計算の際に直接スピーカ特性を補性する機能を追
加しても良い。

【００４９】このスピーカ特性補正部26の動作として
は、例えば、認識用パラメータにＦＦＴなどで計算した
対数スペクトルを使用する場合には、スピーカの周波数
特性に変換して対数を取った値を、各々のスペクトルか
ら引くことによって、結果として、音素辞書蓄積部34に
格納される認識用パラメータに、スピーカ12の特性の影
響が及ばないようにすることが出来る。

【００５０】このように、音素合成部とスピーカの間、
もしくは、認識パラメータ変換部の前または後に、スピ
ーカ特性補正部を入れることで、理想特性を持たないス
ピーカでも使用可能である。

【００５１】

【発明の効果】以上説明した様に、本発明によれば、色
々な環境のアナログ特性に応じた、不特定話者用音声認
識装置の音素辞書を、人手による修正、チェックなどの
手作業を必要とせずに作成することが出来るため、認識
装置を使用する環境が変化した場合においても、品質の
高い音素辞書を容易に作成することができ、その結果音
声認識装置において高い認識率を得ることが可能とな
る。

【図面の簡単な説明】

【図１】本発明の原理図である。

【図２】波形合成方式の説明図である。

【図３】第１の実施例である。

【図４】第２の実施例である。

【図５】第３の実施例である。

【図６】第４の実施例である。

【図７】第５の実施例である。

【図８】第６の実施例である。

【図９】第７の実施例である。

【図10】音声認識装置の構成図である。

【図11】音素辞書作成の従来例である。

【符号の説明】

10 人間 11 テープレコーダ 12 スピーカ 13 素片波形蓄積部 14 音素合成部 15 音量可変部 16 ホワイトノイズ生成部 17 スピーカ特性補正フィルタ 20 マイクロフォン (マイク) 21 Ａ／Ｄ変換部 22 認識用パラメタ変換部 23 入力音量検出部 24 周波数帯域検出部 25 周波数分割計算部 26 スピーカ特性補正部 31 音声自動セグメンテーション部 32 音声ラベル 33 音素切り出し部 34 音素辞書蓄積部 35 認識／登録モード切替え部 36 切り出しタイミング制御部 37 ピッチ可変制御部 51 音素ラティス生成部 52 認識語彙蓄積部 53 単語照合部 54 認識結果表示装置

Claims

【特許請求の範囲】

【請求項１】素片波形蓄積部と、音声合成部と、スピ
ーカと、マイクと、Ａ／Ｄ変換部と、認識パラメータ変
換部と、音素切り出し部と、音素辞書蓄積部とを有し、前記素片波形蓄積部は多数話者の発声した音声から特徴
量を抽出した音声データベースを蓄積するものであり、
前記音声合成部は前記素片波形蓄積部に蓄積された情報
の素片波形を繰り返して接続することで合成音声を作成
するものであり、スピーカは前記合成音を発声するもの
であり、前記マイクは前記スピーカの発する合成音を電
気信号に変換するものであり、前記Ａ／Ｄ変換部は前記
電気信号をディジタルデータに変換するものであり、前
記認識パラメータ変換部は認識パラメータの計算処理を
行なうものであり、前記音素切り出し部は音声区間の中
間の定常的な部分パラメータを切り出して音素辞書を作
成するもので、前記音素辞書蓄積部は前記部分パラメー
タを蓄積するものであることを特徴とする音素辞書作成
装置。
【請求項２】請求項１の音素辞書作成装置のスピーカ
とマイクとを音素辞書作成装置の使用される環境下に配
置し、音声データベースの情報を前記環境下で発声し、
前記環境の影響を受けた音声データをマイクで集音する
ことを特徴とする音素辞書作成方法。
【請求項３】音素合成部と音素切り出し部との間に切
り出しタイミング制御部を配し、前記切り出しタイミング制御部は前記音素合成部と前記
音素切り出し部とのタイミングを制御することを特徴と
する請求項１の音素辞書作成装置。
【請求項４】音素合成部に接続してピッチ可変部を配
し、前記ピッチ可変部は素片波形を接続する間隔である合成
ピッチを操作するものであり、音素の合成ピッチを変更させた際の音素パターンを使用
することを特徴とする請求項１の音素辞書作成装置。
【請求項５】音素合成部に接続して合成音量可変部を
配し、前記合成音量可変部は音素合成部より出力する音量を操
作するものであり、前記音量を変更させた際の音素パターンを使用すること
を特徴とする請求項１の音素辞書作成装置。
【請求項６】ホワイトノイズ発生部と、周波数帯域検
出部と周波数分割計算部とを有し、前記ホワイトノイズ発生部はホワイトノイズを生成する
ものであり、前記周波数帯域検出部は音素辞書作成に先
んじてアナログ系の周波数帯域を求めるものであり、前
記周波数分割計算部は、前記周波数帯域に応じたチャン
ネル分割を求めるものであり、前記周波数帯域に応じたチャンネル分割の特徴パラメー
タを計算することを特徴とする請求項１の音素辞書作成
装置。
【請求項７】スピーカ特性補正部を有し、前記スピーカ特性補正部はスピーカの周波数応答特性を
適性に補正するものであり、前記スピーカ特性補正部は音素合成部とスピーカとの
間、認識パラメータ変換部の入力側、認識パラメータ変
換部の出力側のいずれかの位置に挿入されて構成される
ことを特徴とする請求項１の音素辞書作成装置。