JPH0895589A

JPH0895589A - 音声合成方法及びシステム

Info

Publication number: JPH0895589A
Application number: JP6226667A
Authority: JP
Inventors: Masaharu Sakamoto; 正治阪本; Mei Kobayashi; メイ小林; Takashi Saito; 隆斉藤; Masafumi Nishimura; 雅史西村
Original assignee: IBM Japan Ltd
Current assignee: IBM Japan Ltd
Priority date: 1994-09-21
Filing date: 1994-09-21
Publication date: 1996-04-12
Anticipated expiration: 2015-10-03
Also published as: US5671330A; EP0703565A2; JP3093113B2

Abstract

(57)【要約】【目的】ピッチ同期波形重畳法を利用した音声合成シ
ステムにおいて、ピッチの揺れの少ない安定した音声合
成処理を実現すること。【構成】本発明は、声門閉鎖点を重ね合わせの基準点
（ピッチマーク）とすることを特徴とする。声門閉鎖点
は、Dynamic Wavelet変換を用いることによって安定且
つ精度よく抽出することができるので、その安定性によ
って、ピッチの揺れが少なく、ごろつきの少ない音声を
合成することができる。また、重ね合わせの基準点と波
形切り出しの基準点を別の位置に設定することにより、
より柔軟な波形切り出しが可能となる。声門閉鎖点の抽
出は、Dyadic Wavelet変換のローカル・ピークをサーチ
することによって行われるが、好適には、Dyadic Wavel
et変換のローカル・ピークをサーチするための閾値が、
Dyadic Wavelet変換が得られる毎に適応的に制御され
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声合成技術に関し、
特に、ピッチ同期波形重畳法を使用した音声合成方法及
びシステムに関するものである。

【０００２】

【従来の技術】従来より、音声合成の分野で、ピッチ同
期波形重畳法という技法が知られている（例えば、F. C
harpentier, M. Stella, "Diphone sythesis using an
over-lapped technique for speech waveforms concate
nation", Proc. Int. Conf. ASSP, 2015-2018, Tokyo,
1986）。これは、予め波形のローカル・ピーク位置等に
ピッチマーク（基準点）を付けておき、その位置を中心
に窓関数で波形を切り出し、音声合成時には合成ピッチ
に合わせてずらしながら重ねていく方法である。

【０００３】ピッチ同期波形重畳法による音声合成で
は、ピッチマークを１ピッチ毎に求める必要がある。そ
こで、これまでに、ピッチマーク位置として、次のよう
なものが提案されている。

【０００４】１．音声合成の短時間パワーが急激に変化
する直前の時点２．音声合成の短時間パワーのピーク３．音声波形のピーク

【０００５】これらのピッチマーク位置を使用する方法
は、音声合成のピーク付近の変化の影響を受けやすく、
ピッチマークがピッチ毎に揺れる。このことは、音声合
成時にピッチの揺れを生じさせ、従って、合成音は、ゴ
ロゴロとした音になる。そのため、より安定な重ね合わ
せの基準点が要望されている。

【０００６】上記従来のピッチマーク位置は、重ね合わ
せの基準点として不安定であって、適当ではないが、ピ
ッチマークが重ね合わせの基準点と波形切り出し窓の中
心を兼ねているために、波形切り出しによるスペクトル
歪みを考慮すると、そのようなピッチマーク位置はやむ
を得ないと考えられている。

【０００７】ところで、S. Mallat, S. Zhong, "Charac
terization of Signals from Multiscale Edges", IEEE
Trans. Pattern Analysis and Machine Intelligence,
VOL. 14, NO. 7, pp. 710-732, July 1992 には、ウェ
ーブレット関数をスムージング関数の一次微分として選
ぶと、そのウェーブレット関数によるDyadic Wavelet変
換のローカル・ピークが信号の急峻に変化する時点に一
致することが示されている。

【０００８】また、S. Kadambe, G.F. Boudreaux-Barte
ls, "Application of the WaveletTransform for Pitch
Detection of Speech Signals", IEEE Trans. Informa
tion Theory, Vol.38, NO.2, pp.917-924, 1992 には、
音声波形が声門閉鎖点で急峻に変化することに着目し、
音声波形のDysdic Wavelet変換のローカル・ピークを探
すことによって声門閉鎖点を抽出し、ピッチ周期を推定
する方法が提案されている。

【０００９】尚、Kadambeらの方法はフレーム処理を行
っており、ローカル・ピークを探すための閾値はフレー
ム内で一定に保たれる。このため、パワーディップなど
のフレーム内での音声波形が急変する場合、声門閉鎖点
の脱落・挿入を生じる、畳み込みの端効果のため、フレ
ームのシフト幅がウェーブレット長の２分の１に制限さ
れ、畳み込みを重複して計算する必要がある、フレーム
長分（３０ｍｓ程度）の処理遅延を生じる、などの問題
があり、このままでは、抽出精度、計算量の点で、ピッ
チマーキングの手法として用いるには不都合である。ま
た、処理遅延のため、実時間性を有する声質変換等には
向かない。

【００１０】さらに、特開平５−２６５４７９号公報
は、音声信号の時間に依存する強度の特定ピークを決定
することにより、声門閉鎖の連続した時間瞬時を選択的
に決定する検出手段をもつ音声信号処理装置において、
予め定められた周波数以下のスペクトル部分のディエン
ファシスを介して、音声信号からフィルタされた信号を
形成するフィルタリング手段と、連続する時間ウインド
ウでの平均値を介して、音声信号の時間に依存する強度
をあらわす平均値の時間の流れを発生する平均化手段と
を備え、フィルタリング手段によって平均化手段に、フ
ィルタされた信号を供給することを開示する。

【００１１】

【発明が解決しようとする課題】この発明の目的は、ピ
ッチ同期波形重畳法を利用した音声合成システムにおい
て、ピッチの揺れの少ない安定した音声合成処理を実現
することにある。

【００１２】

【課題を解決するための手段】本発明によれば、声門閉
鎖点を重ね合わせのピッチマーク（基準点）とする、ピ
ッチ同期波形重畳法が提供される。

【００１３】すなわち、声門閉鎖点は、Dynamic Wavele
t変換を用いることによって安定且つ精度よく抽出する
ことができるので、その安定性によって、ピッチの揺れ
が少なく、ごろつきの少ない音声を合成することができ
る。

【００１４】さらに、本発明の１つの態様によれば、重
ね合わせの基準点と合成時の波形切り出しの中心を別の
位置に設定することにより、従来の技法に比べてより柔
軟な波形切り出しが可能となる。

【００１５】声門閉鎖点の抽出は、Dyadic Wavelet変換
のローカル・ピークをサーチすることによって行われる
が、特に本発明によれば、Dyadic Wavelet変換のローカ
ル・ピークをサーチするための閾値が、Dyadic Wavelet
変換が得られる毎に適応的に制御される。このため、次
のような利点が得られる。

【００１６】１．声門閉鎖点を安定に精度よく抽出する
ことができる。２．フレーム処理の場合のような畳み込み計算の重複が
ない。３．処理遅延をなくすことができる（但し、処理遅延を
許せばさらに精度は上がる）。

【００１７】これらの利点があるため、この方法は、波
形素片辞書の自動作成、ピッチ同期波形重畳による声質
変換及び音声信号の圧縮等のための入力音声波形の実時
間自動ピッチマーキングにも使用することができる。

【００１８】

【実施例】以下、図面を参照して本発明の説明を行う。

【００１９】Ａ．ハードウェア構成図１を参照すると、本発明を実施するためのハードウェ
ア構成が示されている。この構成は、演算及び入出力制
御を行うためのＣＰＵ１００４、プログラム・ロード用
及び演算のバッファ領域を与えるランダム・アクセス・
メモリ（ＲＡＭ）１００６、文字やイメージ情報を画面
上に表示するためのＣＲＴ装置１００８、ＣＲＴ装置１
００８を制御するためのビデオ・カード１０１０、オペ
レータによりコマンドや文字を入力するためのキーボー
ド１０１２、ＣＲＴ装置１００８の画面上の任意の点を
ポイントしてその位置情報をシステムに送るためのマウ
ス１０１４、プログラムやデータを読み書き可能に且つ
持久的に記憶する磁気ディスク装置１０１６、音声録音
用のマイク１０２０及び合成した音声を音として出力す
るためのスピーカ１０２２とを共通のバス１００２が接
続されたものである。

【００２０】特に、磁気ディスク装置１０１６には、シ
ステムの立ち上げ時にＲＡＭにロードされるオペレーテ
ィング・システムや、本発明に関する後述する処理プロ
グラムや、マイク１０２０から取り込まれＡ／Ｄ変換さ
れた音声ファイルや、音声ファイルの解析の結果得られ
た音素の合成単位の辞書や、テキスト解析用単語辞書な
どが格納されている。

【００２１】本発明の処理に適当なオペレーティング・
システムは、ＯＳ／２（ＩＢＭの商標）であるが、ＭＳ
−ＤＯＳ（マイクロソフトの商標）、ＰＣ−ＤＯＳ（Ｉ
ＢＭの商標）、Ｗｉｎｄｏｗｓ（マイクロソフトの商
標）、ＡＩＸ（ＩＢＭの商標）などの、オーディオ・カ
ードに対するインターフェースを与える任意のオペレー
ティング・システムを使用することが可能である。

【００２２】オーディオ・カード１０１８は、マイク１
０２０を介して音声として入力された信号をＰＣＭのよ
うなディジタル形式に変換し得るとともに、そのような
ディジタル形式のデータを音声としてスピーカ１０２２
から出力し得る任意のものでよい。オーディオ・カード
１０１８としては、ディジタル信号プロセッサ（ＤＳ
Ｐ）を装備したものが高性能であって好適であるが、本
発明によれば、データ処理量が比較的小さくて済むの
で、ＤＳＰを利用せず、Ａ／Ｄ変換した信号をソフトウ
ェア的に処理するだけでも、十分に高速な処理速度が得
られる。

【００２３】Ｂ．論理的な構成次に、図２及び図３を参照して、本発明の論理的な構成
について説明する。

【００２４】Ｂ１．音声入力部図２を参照すると、音声入力部は、代表的には、ウェー
ブレット変換部２００２と、ピッチ抽出部２００４とを
有する。これらのモジュールは、通常はディスク１０１
６に格納され、オペレータの操作に応答してＲＡＭ１０
０６にロードされ、処理を行う。

【００２５】マイク１０２０から入力された音声は先
ず、ウェーブレット変換部２００２において、ウェーブ
レット変換（Dyadic Wavelet conversion)される。ウェ
ーブレット変換の一般的な説明に関しては、例えば上記
Kadambeの論文を参照されたい。但し、理解されるべき
なのは、本発明の好適な実施例においては、Kadambeの
方法とは異なり、閾値を適応的に変化させる技法が採用
されていることである。この処理については、後で詳細
に説明する。

【００２６】次に、ウェーブレット変換された信号は、
ピッチ抽出部２００４において、後でピッチ同期波形重
畳法を利用するために、ピッチマークされる。その際、
本発明にとって特徴的であるのは、ピッチマークの基準
点として、上記ウェーブレット変換として得られる声門
閉鎖点を選ぶことである。この処理についても、後で詳
細に説明する。

【００２７】このようにして得られたピッチマークされ
た波形のデータ２００６は、所定の窓関数によって合成
単位として切り出された後、後の音声合成で使用するた
めに、実質的にはディスク１０１６に格納されているフ
ァイルである合成単位辞書２０１０に入れられる。

【００２８】Ｂ２．音声合成部図３を参照すると、音声合成部は、テキスト解析用単語
辞書３００４を参照しつつ、かな漢字混じりのテキスト
・ファイルを入力するテキスト解析部３００２と、テキ
スト解析部３００２の解析結果の文脈に基づき韻律を制
御する韻律制御部３００６と、テキスト解析部３００２
の解析結果に基づき、予め上記音声入力部によって作成
された合成単位辞書を検索して所定の音声合成単位を選
択する合成単位選択部３００８と、合成単位選択部３０
０８によって選択された音声合成単位の列を、韻律制御
部３００６によって制御される韻律で、合成音声として
スピーカ１０２２から出力するための音声合成部３０１
０とからなる。

【００２９】特に、本発明においては、音声合成部３０
１０は、図２のピッチ抽出部２００４によってピッチマ
ークされた音声合成単位に従い、ピッチ同期波形重畳法
を利用して音声合成を行うものである。

【００３０】尚、本発明の１つの実施例では、図３に示
すテキスト解析部３００２、韻律制御部３００６、合成
単位選択部３００８などの処理モジュールは、ディスク
１０１６に格納されたファイルであり、従って、処理は
すべてソフトウェア的に実施されるが、オーディオ・カ
ードにＤＳＰを装備し、これらの処理をＤＳＰ上で実現
してもよい。

【００３１】Ｃ．ウェーブレット変換処理次に、図４のフローチャートを参照して、マイクから入
力された音声信号のＰＣＭ波形を、本発明に従いウェー
ブレット変換し、さらにはその変換に基づき声門閉鎖点
を推定する処理について説明する。ここでの処理は、主
として図２のウェーブレット変換部２００２で行われる
ものである。

【００３２】先ず最初のステップ４００２では、新しい
ＰＣＭサンプルが入力される。尚、このとき、マイクか
ら入力された音声は、一連のＰＣＭデータに変換され
て、予めディスク１０１６に格納されている。従って、
ステップ４００２での処理は、ディスク１０１６に格納
されたＰＣＭデータのファイルを順次読み取ることであ
る。

【００３３】ステップ４００２ではまた、スケールをあ
らわす値ｉが３に初期化される。このｉは、離散化され
たdyadic sequence２ⁱ（ｉ＝３，４，．．．）を与える
ためのものである。尚、この実施例では、dyadic seque
nce２ⁱをｉ＝３から始めるが、サンプリング周波数によ
っては、ｉ＝１から始めることが適切である場合もあ
り、要するに、どのスケールからウェーブレット変換を
開始するかは、サンプリング周波数に依存する。

【００３４】さらに、ステップ４００２では、ｎが０に
初期化されるが、これは、個別のスケールで、声門閉鎖
点として推定された回数である。

【００３５】ステップ４００４では、次のような式に基
づき、ＰＣＭ音声信号ｘ（ｔ）のウェーブレット変換Ｄ
ｙＷＴ（ｂ，２ⁱ）が計算される。この式で、ｂは、タ
イム・インデックスである。

【数１】

【００３６】特に、Ψ（ω）の関数としては、次のよう
なものが好適である。

【数２】

【００３７】本発明の１つの実施例では、ｍ＝２の場合
が採用された。しかし、ｍを２よりも大きく選んでもよ
い。また、Ψ（ω）の具体的な関数形は、この数式に示
すものに限定されることなく、ωについてローパス・フ
ィルタを構成するような関数の一次または二次以上の導
関数でよいことが分かっている。

【００３８】次に、ステップ４００６では、このように
して計算されたＤｙＷＴ（ｂ，２ⁱ）の値が、サーキュ
ラ・バッファＣＢｉに格納される。これは、本発明に従
い局所的な閾値を計算するためである。この実施例で
は、１つのサーキュラ・バッファＣＢｉは、１５ｍｓを
カバーするように、３１５個のバッファ・エレメントか
らなる。尚、サーキュラ・バッファＣＢｉは、異なるス
ケールｉ毎に個別に用意される。ｂの値に関連してサー
キュラ・バッファＣＢｉに順次格納されたＤｙＷＴ
（ｂ，２ⁱ）の値に基づき閾値ＴＨＲｉ（閾値ＴＨＲｉ
もまた、異なるスケールｉ毎に個別に用意される）を求
める処理は、次のとおりである。例えば、各スケールの
ＤｙＷＴ出力を対数化し、１５ｍｓから２０ｍｓの出力
をサーキュラ・バッファに保持する。次に、１ｄＢ刻み
でサーキュラ・バッファ内の出力ヒストグラムをとり、
累積度数の上位８０％の階級値を求める。これを対数値
から線形値に戻し、閾値ＴＨＲｉとする。

【００３９】尚、小さいスケールのＤｙＷＴは、不要な
ローカル・ピークが多く存在するので、閾値を求めるた
めのパーセンテージをより大きくし、大きいスケールで
は、声門閉鎖点の候補の脱落を防ぐために、閾値を求め
るためのパーセンテージを低めに設定するのが好まし
い。

【００４０】ステップ４００８では、このようにして計
算された局所的な閾値が、ＴＨＲｉとしてセットされ
る。

【００４１】ステップ４０１０では、ＤｙＷＴ（ｂ，２
ⁱ）がＴＨＲｉよりも大きいかどうかが判断される。こ
のような判断は、ローカル・ピーク位置が声門閉鎖点を
あらわす、というKadambeの教示に基づくものである。
但し、このフローチャートの処理が、Kadambeの技法と
異なるのは、Kadambeの技法では、フレーム内の局所的
なピーク値がフレームにおける大域的な閾値として使用
されていたのに対し、このフローチャートの処理では、
ある範囲のＤｙＷＴ（ｂ，２ⁱ）の波形の累積値に基づ
く統計的な閾値が使用されていることである。このよう
な統計的な閾値は、Kadambeの技法では見落とされてし
まうような声門閉鎖点をも確実に検出し得る、という点
で有利である。

【００４２】ステップ４０１０での判断が肯定的である
と、ステップ４０１２で、ｎの値を１だけ増分する。こ
れは、ある１つのスケールｉで、現時点のｂに関して、
声門閉鎖点である可能性が見出されたことを意味する。
しかし、声門閉鎖点以外のローカル・ピークを誤って検
出している可能性もあるので、本発明の好適な実施例に
よれば、１つのスケールｉのみでステップ４０１０の判
断が肯定的になったとしても、直ちには声門閉鎖点が見
出されたとは見なさず、ステップ４０１４で、ｎが１よ
りも大きいかどうかが判断される。

【００４３】ステップ４０１４でｎが１よりも大きいこ
とが決定されると、それは、現時点のｂに関して、少な
くとも２つのスケールｉで、ローカル・ピークであるこ
とが決定されたということであるから、そこでようや
く、現時点のｂを声門閉鎖点と見なすことにする。そし
て、ステップ４０１６で、ローカル・ピーク値ＤｙＷＴ
（ｂ，２ⁱ）を声門閉鎖点ＧＣＩとして出力する。

【００４４】尚、ステップ４０１４の判断は、より大き
いｎでないと肯定的にならないように（例えば、ｎ＞
２）する程、検出された点が声門閉鎖点であることの確
度が高まるが、すると逆に、実際の声門閉鎖点をふるい
落としてしまう可能性も高まる。従って、場合に応じて
適当なｎについての閾値が選ばれる。

【００４５】次に、ステップ４０１８でｉが１だけ増分
される。これは、１つ上のスケールｉで、ステップ４０
０４〜４０１６の処理を繰り返すためである。尚、ステ
ップ４０１０またはステップ４０１４での処理が否定的
である場合、処理は直ちにステップ４０１８に進む。

【００４６】ステップ４０２０では、ｉが所定の閾値ｉ
ｕを超えたかどうかが判断される。ｉｕとは、ウェーブ
レット変換を行うべきスケールの上限値である。ｉｕを
大きくとる程、声門閉鎖点の検出精度が高まるが、その
分、処理時間も余分にかかる。おおよその目安として、
ｉｕは、開始時点のｉが３である場合、５程度が適当で
ある。

【００４７】ｉが所定の閾値ｉｕを超えていない場合
は、ステップ４００４の処理に戻る。

【００４８】ｉが所定の閾値ｉｕを超えた場合は、ステ
ップ４０２２でｂを１だけ増分して、ステップ４０２４
でＰＣＭデータの終わりかどうかを判断する。もし、Ｐ
ＣＭデータの終わりに達したと判断されると、処理は終
了する。そうでなければ、ステップ４００２に戻って、
次のＰＣＭサンプルを取得し、ｎ＝０及びｉ＝３をセッ
トした後、ステップ４００２へと進む。

【００４９】図５には、「ピュ」という発音のＰＣＭ波
形（ａ）と、ｉ＝３の場合のウェーブレット変換の波形
（ｂ）と、ｉ＝４の場合のウェーブレット変換の波形
（ｃ）と、ｉ＝５の場合のウェーブレット変換の波形
（ｄ）が示されている。（ｂ）、（ｃ）、（ｄ）におい
て、横軸はｂの値である。この図からは、ｉが増加して
いくにつれ、ウェーブレット変換の波形がなめらかにな
っていくことが見て取れる。また、ウェーブレット変換
のローカル・ピークを通る縦線は、声門閉鎖点に対応す
る。

【００５０】Ｄ．ピッチ・マーキング及び切り出し処理上記ウェーブレット変換処理の結果、ＧＣＩ＝ＤｙＷＴ
（ｂ，２ⁱ）として、１つまたはそれ以上のＧＣＩが得
られる。ところが、上記ウェーブレット変換の式によれ
ば、このようにして得られたｂの値は時間をあらわす値
であり、よって、ＧＣＩ＝ＤｙＷＴ（ｂ，２ⁱ）として
得られた値ｂから、ｘ（ｔ）におけるピッチ・マーキン
グすべき位置を決定することが可能である。こうしてＰ
ＣＭ波形ｘ（ｔ）には、図５に示すように、声門閉鎖点
でピッチ・マーキングされる。このとき、波形切り出し
窓の中心は、例えばスペクトル歪を考慮して波形ｘ
（ｔ）のローカル・ピークとする。１つの実施例では、
窓関数としてはハミング窓を用い、窓長さは、合成ピッ
チの２倍に設定する。切り出された各々の単位は、図２
に示す合成単位辞書２０１０に格納される。尚、勿論、
本発明の波形切り出しに使用すべき窓関数は、ハミング
窓に限定されるものではなく、矩形窓、あるいは左右非
対称な窓関数などの任意の窓関数を使用することができ
る。

【００５１】Ｅ．音声合成処理音声合成処理は、図３の音声合成部３０１０によって行
われる。すなわち、本発明によれば、音声合成部３０１
０は、必要な音声合成単位波形を合成単位辞書２０１０
から取得し、図５に示すように、声門閉鎖点を重ね合わ
せの基準点として、これらを合成ピッチにあわせてずら
しながら重ね合わせることによって、所望の合成音声を
得る。

【００５２】すなわち、声門閉鎖点は、Dynamic Wavele
t変換を用いることによって安定且つ精度よく抽出する
ことができるので、その安定性によって、ピッチの揺れ
が少なく、ごろつきの少ない音声を合成することができ
る。

【００５３】さらに、本発明の１つの態様によれば、重
ね合わせの基準点と合成時の波形切り出しの中心を別の
位置に設定することにより、従来の技法に比べてより柔
軟な波形切り出しが可能となる。

【００５４】

【発明の効果】以上説明したように、本発明によれば、
声門閉鎖点を重ね合わせの基準点（ピッチマーク）とす
る、ピッチ同期波形重畳法が提供され、これによって、
ピッチの揺れが少なく、ごろつきの少ない音声を合成す
ることができる、という効果が得られる。

【図面の簡単な説明】

【図１】本発明を実現するためのハードウェア構成の
ブロック図である。

【図２】ウェーブレット変換及びピッチマーク付与の
ための処理モジュールのブロック図である。

【図３】音声合成処理を行う処理モジュールのブロッ
ク図である。

【図４】ウェーブレット変換の処理を示す詳細なフロ
ーチャートである。

【図５】ウェーブレット変換の波形の例を示す図であ
る。

【図６】声門閉鎖点をピッチ・マーキングする処理及
び、ピッチ・マーキングされた声門閉鎖点に基づき重ね
合わせることにより音声合成を行う処理を示す波形を示
す図である。

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成６年１１月２９日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】００１９

【補正方法】変更

【補正内容】

【００１９】Ａ．ハードウェア構成図１を参照すると、本発明を実施するためのハードウェ
ア構成が示されている。この構成は、演算及び入出力制
御を行うためのＣＰＵ１００４、プログラム・ロード用
及び演算のバッファ領域を与えるランダム・アクセス・
メモリ（ＲＡＭ）１００６、文字やイメージ情報を画面
上に表示するためのＣＲＴ装置１００８、ＣＲＴ装置１
００８を制御するためのビデオ・カード１０１０、オペ
レータによりコマンドや文字を入力するためのキーボー
ド１０１２、ＣＲＴ装置１００８の画面上の任意の点を
ポイントしてその位置情報をシステムに送るためのマウ
ス１０１４、プログラムやデータを読み書き可能に且つ
持久的に記憶する磁気ディスク装置１０１６、音声録音
用のマイク１０２０及び合成した音声を音として出力す
るためのスピーカ１０２２とを共通のバス１００２に接
続したものである。 ─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成６年１１月２９日

【手続補正１】

【補正対象書類名】図面

【補正対象項目名】図１

【補正方法】変更

【補正内容】

【図１】

───────────────────────────────────────────────────── フロントページの続き (72)発明者西村雅史神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内

Claims

【特許請求の範囲】

【請求項１】(a) ディジタル化された音声信号の声門閉
鎖点を検出する段階と、上記音声信号に対して、上記声
門閉鎖点を基準点としてピッチマーキングする段階と、
(b) 上記音声信号の合成波形単位を切り出す段階と、
(c) 上記切り出された合成波形単位を記憶する段階と、
(d) 上記ピッチマーキングされた声門閉鎖点を重ね合わ
せの基準点として、上記合成波形単位を合成ピッチにあ
わせてずらしながら重ね合わせることによって、所望の
合成音声を得る段階を有する、音声合成方法。
【請求項２】上記声門閉鎖点を検出する段階は、上記デ
ィジタル化された音声信号をウェーブレット変換し、該
ウェーブレット変換された波形のローカル・ピークを検
出する段階を有する、請求項１に記載の音声合成方法。
【請求項３】上記声門閉鎖点を検出する段階は、上記ウ
ェーブレット変換を異なる複数のスケールで行い、少な
くとも２つのスケールで検出されたローカル・ピーク位
置が一致することに応答して該ローカル・ピーク位置を
声門閉鎖点であると決定する段階を有する、請求項２に
記載の音声合成方法。
【請求項４】上記ローカル・ピークの決定は、統計的な
閾値との比較により行われる、請求項２または請求項３
に記載の音声合成方法。
【請求項５】上記統計的な閾値は、上記ウェーブレット
変換された値の出力ヒストグラムをとり、該出力ヒスト
グラムの累積度数の上位所定％の階級値によって決定さ
れる、請求項４に記載の音声合成方法。
【請求項６】(a) ディジタル化された音声信号の声門閉
鎖点を検出する手段と、上記音声信号に対して、上記声
門閉鎖点を基準点としてピッチマーキングする手段と、
(b) 上記音声信号の合成波形単位を切り出す手段と、
(c) 上記切り出された合成波形単位を記憶する手段と、
(d) 上記ピッチマーキングされた声門閉鎖点を重ね合わ
せの基準点として、上記合成波形単位を合成ピッチにあ
わせてずらしながら重ね合わせることによって、所望の
合成音声を得る手段を具備する、音声合成システム。
【請求項７】上記声門閉鎖点を検出する手段は、上記デ
ィジタル化された音声信号をウェーブレット変換し、該
ウェーブレット変換された波形のローカル・ピークを検
出する手段を有する、請求項６に記載の音声合成システ
ム。
【請求項８】上記ローカル・ピークを検出する手段は、
上記ウェーブレット変換を異なる複数のスケールで行
い、少なくとも２つのスケールで検出されたローカル・
ピーク位置が一致することに応答して該ローカル・ピー
ク位置を声門閉鎖点であると決定する手段を有する、請
求項７に記載の音声合成システム。
【請求項９】上記ローカル・ピークの決定は、統計的な
閾値との比較により行われる、請求項７または請求項８
に記載の音声合成システム。
【請求項１０】上記ウェーブレット変換された値の出力
ヒストグラムをとり、該出力ヒストグラムの累積度数の
上位所定％の階級値によって上記統計的な閾値を決定す
る手段を有する、請求項９に記載の音声合成システム。