JPS62231998A

JPS62231998A - 音声合成方法および装置

Info

Publication number: JPS62231998A
Application number: JP61065029A
Authority: JP
Inventors: 宏金子
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1986-03-25
Filing date: 1986-03-25
Publication date: 1987-10-12
Anticipated expiration: 2009-04-27
Also published as: DE3773025D1; US4817161A; EP0239394A1; JPH0632020B2; EP0239394B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野この発明は音声合成に関し、とくに高品質の音韻特性を
維持しつつ簡易に音声の継続時間を可変しうるようにし
たものである。

Ｂ、従来の技術自然音声では種々の要因からその発声速度すなわち継続
時間が変化する。たとえば、発話のテンポに応じて発話
文全体の継続時間が伸縮する。また構文や意味内容等の
言語的制約に応じて所定の句や単語が局所的に伸縮する
。また１つの呼気段落内の発話音節数に応じて音節の長
さが伸縮する。

したがって高品質すなわち自然音声に近い合成音声を得
るには音声の継続時間を制御することが必要となる。

ところで音声の継続時間を制御するために従来２つの手
法が提案されている。その１つはある区間の合成パラメ
ータを除去したり、繰り返したりするものであり、他の
１つは合成フレーム周期を可変にする（分析フレーム周
期は固定）ものである。これらについてはたとえば特開
昭５０−６２７０９号公報に記載がある。しかしながら
、合成パラメータの除去および繰り返しを行う手法では
、このような除去、繰り返しに適した部分、たとえば母
音定常部を予め視察により求めて、可変部分として設定
しておく必要があり、作業が煩雑である。さらに、継続
時間が変化すると、調音器官の動的な特徴が変化するた
め、音韻特性も変化する。

たとえば母音のホルマントは継続時間が短かくなるにつ
れて一般に中性化する。この従来の手法ではこのような
変化を合成音声に反映させることができない。他方合成
フレーム周期を可変させる手法では、簡易に継続時間長
を変化させることができるけれど、どの部分も一率に長
（なったり、短か（なったりしてしまう。通常の音声は
伸縮の激しい部分と少ない部分とからなるので、このよ
うな手法によると非常に不自然な合成音になる。この手
法では上述の音韻特性の変化を反映できないことはもち
ろんである。

Ｃ０発明が解決しようとしている問題点この発明は以上
の事情を考慮してなされたものであり、音韻特性を高品
質に維持したままで、簡易に合成音声の単位素片（たと
えば音素、音節、単語等）の継続時間を可変させること
ができる音声合成方法および装置を提供することを目的
としている。

Ｄ０問題点を解決するための手段この発明では以上の目的を達成するために音声合成の単
位素片を異なる継続時間長で発声させて得た複数の音声
をそれぞれ分析し、この結果として得た複数の分析デー
タに補間を施こして音声の合成に用いるようにしている
。

すなわち、所望の継続時間長の目的音声は複数の可変長
フレームから構成され、これら可変長フレームの各々は
第１の基準分析データのフレーム（第１データ部分）の
各々に１対１に対応するものとする。また、第１の基準
分析データのフレーム（第１データ部分）と第２の基準
分析データのフレーム（第３データ部分）とをそれぞれ
の音響的特徴に基づいて対応付ける。このことは目的音
声の可変長フレームの各々が第１の分析データの所定部
分（第１データ部分）および第２の分析データの所定部
分（第２データ部分）に対応付けられることを意味する
。目的音声の可変長フレームの長さは、第１および第２
の分析データの対応部分の長さを補間して決定される。

目的音声の可変長フレームの合成パラメータは第１およ
び第２の分析データの対応部分の合成パラメータを補間
して決定される。

第３以降の分析データは可変長フレームの長さおよび合
成パラメータの補正を行うのに用いることができる。

また第１および第２の基準分析データのうち、補間の原
点となるものを、標準的な速度の発声を分析して得れば
、より高品質の合成音声を得ることができる。

また、第１および第２の基準分析データの対応付けをダ
イナミック・プログラミングに基づいて行えば比較的少
ない計算で対応付は処理を行うことができる。

Ｅ、実施例以下この発明を規則合成による日本語テキスト音声合成
に適用した一実施例について図面を参照して説明しよう
。なお、テキスト音声合成は任意の入力テキストから自
動的に音声合成を行うものであり、一般に■テキスト入
力、■文章解析、■音声合成および■音声出力の４つの
ステージを有している。■のステージでは漢字・カナ変
換辞書や韻律規則辞書を参照して音韻データや韻律デー
タを決定する。■のステージではパラメータ・ファイル
を参照して合成パラメータを順次取り出すようにする。

この実施例では、後述するように２つの入力音声から１
つの合成音声を生成するようにして（・るので、パラメ
ータ・ファイルとして複合的なものを採用している。こ
れについては後に詳述する。

また音声合成の単位素片としては１０１個の日本語の音
節を用いた。

第１図はこの発明の一実施例の方法を実現するシステム
を全体として示している。この第１図にお（・て、ワー
クステーション１は日本語テキストを入力するためのも
のであり、カナ漢字変換等の日本語処理を行えるように
なっている。このワークステーション１は回線２を介し
てホストコンピュータ乙に接続されており、このホスト
コンピュータ乙には補助記憶装置４が接続されている。

実施例の手順の多くは、ホストコンピュータ６で実行さ
れるソフトウェアで実現されるけれども、理解を容易に
するためブロックでその機能を表わすことにした。これ
らブロックにおける機能の詳細は第２図に譲る。なお、
第１図のブロックには第２図の対応する箇所と同一の番
号を付した。

ホストコンピュータ３にはさらに回線５を介してパーソ
ナルコンピュータ６が接続され、このパーソナルコンピ
ュータ６にはＡ／Ｄ−Ｄ／Ａコンバータ７が接続されて
いる。コンバータ７にはマイクロホン８およびスピーカ
９が接続されている。

パーソナルコンピュータ６はＡ　／　Ｄ変換およびＤ／
Ａ変換の駆動ルーチンを実行するようになっている。

この構成において、音声をマイクロホン８に入力すると
、この入力音声がパーソナルコンピュータ６の制御のも
とてＡ／Ｄ変換され、こののちホストコンピュータ乙に
供給される。ホストコンピュータ３の音声分析部１０．
１１はデジタル音声データを分析フレーム周期Ｔ。ごと
に分析し、合成パラメータを生成して記憶装置４に記憶
させる。

このことは第３図の線分１１およびβ２に示される。線
分１１および１２に関し、分析フレーム周期はＴ。で示
され、合成パラメータはｐｉおよびｑ−で示されている
。なお合成パラメータとしてはαパラメータ、ホルマン
ト・パラメータ、ＰＡＲＣＯＲ係数等を用いることがで
き、この実施例では線スペクトル対パラメータを採用し
ている。

他方合成時のパラメータ列は第３図に線分１６で示され
るものである。７１〜１Ｍで示されるＭ個の合成フレー
ムは可変長であり、合成パラメータはｒ＝で示されてい
る。このパラメータ列の詳細はのちに説明する。このパ
ラメータ列の合成パラメータは順次ホストコンピュータ
乙の音声合成部１７に供給され、合成音声を表わすデジ
タル音声データがパーソナルコンピュータ６を介してコ
ンバータ７に供給される。コンバータ７はパーソナルコ
ンピュータ乙の制御のもとてデジタル音声データをアナ
ログ音声データに変換し、スピーカ９を介して合成音声
を生成させる。

第２図はこの実施例の手順を全体として示している。こ
の第２図において、まずパラメータ・ファイルの設定が
行われる。すなわち、始めに音声合成の単位素片の１つ
すなわちこの例では１０１個の音節のうちの１つ（たと
えば「ア」）を遅く発声して得た音声を分析する（ステ
ップ１０）。

この分析データはたとえば第３図に線分ｅ１で示すよう
に、フレーム周期Ｔ。のフレームをＭ個継続して構成さ
れている。分析データの継続時間ｔ。

ば（Ｍ　ｘ　Ｔ　ｏ　）である。つぎに同一の単位素片
を速（発声して得た音声を分析する（ステップ１１）。

この分析データはたとえば第３図に線分ｐ２で示すよう
に、フレーム周期Ｔ。のフレームをＮ個継続して構成さ
れている。この分析データの継続時間ｔ１は（ＮｘＴｏ
）である。つぎに線分１１および１２の分析データをＤ
Ｐマツチングにより対応付ける（ステップ１２）。すな
わち、第４図に示すように、フレーム間の、累積距離が
一番小さくなるようなパスＰをＤＰマツチングにより求
め、このパスＰにより線分７１１のフレームと線分１２
のフレームとを対応付ける。ＤＰマツチングは具体的に
は第５図に示すように２つの方向にしか移行することが
できないものである。本来遅（発声した場合のフレーム
の１つが速く発声した場合のフレームの２つ以上に対応
することはあってはいげないことであり、このような対
応付けを禁止するのが第５図の規則である。

以上の対応付けにより線分１１のフレームと線分７１！
２のフレームとについて似ているものどうしの対応付け
が行われたことになる。これを第３図に示す。すなわち
ｐ　→ｑ１、ｐ２”ｑ２、ｐ３線分β１の複数のフレー
ムが線分１２の１つの７レームに対応することがあり、
この場合線分１２のフレームを等分して、線分１１の１
つのフレームがその等外部分の１つに対応すると考える
。たとえば第３図の線分β１の第２番目のフレームは線
分１２の第２番目のフレームの半分の部分に対応する。

この結果、線分１１のＭ個のフレームの各々が線分１２
のＭ個の時間部分に対応することになる。これら時間部
分が必らずしも同一長でないことは明らかである。

ところで、継続時間ｔがｔ　およびｔｌの間にある合成
音声は第３図の線分６６で表わされる。

この合成音声ではフレームがＭ個あり、これらのフレー
ムの各々が線分１１の１つのフレームおよび線分４２の
１つの時間部分に対応する。したがって合成音声のフレ
ームは、対応する線分ｅ１の１つのフレームの長さ、す
なわちＴ。と、対応する線分Ｅ２の１つの時間部分の長
さとを補間したものとなる。また、合成パラメータｒ　
は対応する合成パラメータｐ　およびｑｊを補間したも
のとなる。

さてＤＰマツチングののちフレームの時間長変化量ΔＴ
　およびパラメータ変化量Δｐ　を求め１する（ステップＣ１３）。フレームの時間長変化量ΔＴ、
は、線分７１１の第１番のフレームに対応する線分ｅ２
の時間部分の長さが、線分４１の第ｉ番目のフレームの
長さ、すなわちＴ。からどれだけ変化しているかを示す
ものである。第３図ではΔＴ２を一例として示している
。線分１１の第ｉ番目のフレームに対応する線分りのフ
レームをｊで表わせば、ΔＴ　はｎ、−１ ΔＴ、＝Ｔ　　− １０ｎで表わすことができる。ただしｎ、は線分１２の１番目
のフレームに対応する線分４１のフレーム数である。

合成音声の継続時間ｔを、１０を補間原点としてｔ。お
よびｔｌの直線補間により表わすと、ｔ　＝　ｔ　　＋
　ｘ　（ｔｌ　　’　ｏ）　　ただし０≦Ｘ≦１となる
。なお、以下ではＸを補間変数と呼ぶことにする。補間
変数ＸがＯに近いほど原点に近い。

この補間変数Ｘと変化量ΔＴ、とを用いると、合成音声
の各フレームの時間長Ｔ、は、Ｔｏを補間原点とした補
間式％式％により表わされる。ΔＴ　を求めてお（ことにより、１
　ｏ−１１の間の任意の継続時間を有する合成音声の各
フレームの時間長Ｔ、を得ることができる。

他方パラメータ変化量Δｐ　はＣｐ　　−ｑｉｌ　　　
　　　　　　１　　　　　　　Ｊであり、つぎの式によ
り合成音声の各フレームのパラメータｒ、を得ることが
できる。

ｒ　、　＝　ｐ　、　　−ｘΔｐ＋　　　　　　　　　１　　　　　　　　　　　　　１
したがってΔｐ　を求めてお（ことにより、１０〜ｔ１
の間の任意の継続時間を有する合成音声の各フレームの
合成パラメータｒ、を得ることかできる。

以上のようにして得た変化量ΔＴ　およびΔｐ。

はｐ、とともに第７図に示すようなフォーマットで補助
記憶装置４に記憶される。以上の処理は他の単位素片に
ついても同様に実行されて最終的に複合的なパラメータ
・ファイルが構成される。

パラメータ・ファイルを構成すればテキスト音声合成の
準備が完了し、以降テキストを入力する（ステップ１４
）。このテキスト入力がワークステーション１で実行さ
れ、テキスト・データがホストコンピュータ乙に送られ
ることについてはすでに述べた。ホストコンピュータ３
の文章解析部１５では漢字カナ変換、韻律パラメータの
決定、単位素片の継続時間の決定を行う。これについて
は表１においてその動作の流れを具体例に沿って示した
。なお、この例では一旦音韻（子音および母音）ごとの
継続時間を求め、単位素片である音節の継続時間長は音
韻の継続時間の和になっている。

文章解析からテキスト内の単位素片の各々の継続時間が
求まると、つぎに単位素片の各々についてフレームの時
間長および合成パラメータの補間を行う（ステップ１６
）。この詳細は第３図に示す。すなわち第３図に示すよ
うに、まず補間変数Ｘを求める。ｔ　＝ｔ　　＋　ｘ　
（ｔ　　　ｔ　ｏ　）であるかうである（ステップ１６１）。これにより単位素片の各々
がどの程度補間原点に近いのかがわかる。

つぎにパラメーターファイルを参照しながら単位素片の
各フレームの時間長Ｔ、および合成パラン−タｒ　をそ
れぞれつぎの式から求める（ステツプ１６２，１６３）
。

Ｔ、＝ＴＯ−ＸΔＴ。

ｒ　、　＝　ｐ　、　−ｘΔｐ・こののち時間長Ｔ、および合成パラメータｒ１　　　　
　　　　　　　　　　　　　　　　　　　　　　　．１
に基づいて順次音声合成を行っていく（第２図のステッ
プ１７）。なお音声合成は模式的に第８図に示すように
考えられる。すなわち音声モデルを音源１８とフィルタ
１９とから構成されるものとするのである。そして音源
制御データとして有声（パルス列）および無声（白色雑
音）いずれかを示す指示信号（それぞれＵおよびＶで示
す）を供給し、フィルタ制御データとして線スペクトル
対パラメータ等を供給する。

以上の処理によりテキストたとえば表１の「私は、言葉
を・・・」の音声が合成されてスピーカ９かも発音され
ていく。

表２〜表５は一例として表１により決定された１７２ｍ
秒のｌ”’ＷＡＪの音節が処理されていくようすを示す
。すなわち、表２は分析フレーム周期１０ｍ秒で２００
ｍ秒の継続時間（遅い発声）の１’−ＷＡＪの音声を分
析したものを示し、表３は１５０ｍ秒（速い発声）のも
のを示す。そして表４はこれらの音声のＤＰマツチング
による対応付けを示す。表２〜表４により作成された、
バラメー夕・ファイルのＩＷＡＪの部分を表５に示す（
ただし線スペクトル対パラメータは第１パラメータのみ
を示した）。また表５は１７２ｍ秒の継続時間の各フレ
ームの時間長および合成パラメータ（第１パラメータに
関するもの）も示しである。

ただしｐ　、Δｐ　、ｑ　およびｒ、は第１パ＋　　　
　　　　　　　１　　　　　　１ラメータのみを示した
。

なお、上述実施例は第１図に示すシステムを用いる場合
について説明したけれども、第９図に示すように信号処
理ボード２０を用いることにより、小さなシステムでも
この発明を実現できることはもちろんである。なお第９
図の例ではワークスチー７ヨ７１Ａが文章編集、文章解
析、変化量計算、補間等を行うようになっている。第９
図においては第１図の各部と等価な機能を実現する部分
に対応する番号を付して説明を省略する。

つぎに上述実施例の２つの変形例について説明する。

変形例の１つはパラメータ・ファイルの学習を導入した
ものである。ここではまず学習を行わな（・場合の誤差
について考えておく。第１０図は合成パラメータと継続
時間との関係を示している。

この第１０図において、遅い発声のパラメータｐ。

および速い発声のパラメータｑ　かも合成パラン−タｒ
　を生成するには、線分ＯＡ１を用いて破線（ａ）で示
すような補間を行う。これに対しもう１つの速い発声の
パラメータＳ　（継続時間は＋２）およびパラメータｐ
９から合成パラメータｒ、′を＋１生成するには、線分ＯＡ　２を用いて破線（ｂ）で示す
ように補間を行う。明らかに合成パラメータｒ、ｒ　、
　／は異なってしまう。これは、ＤＰマツチン！グによる対応付けの際のエラー等によるものである。

この変形例では線分ＯＡ　　および線分ＯＡ　２を平均
化した線分ＯＡ’を利用してｒ、を生成するようにして
いる。このようにすると第１０図から明らかなように線
分ＯＡ　　のエラーと線分ｏＡ２のエラーとが相殺する
蓋然性が高いからである。

第１０図は学習が一回の場合を示しているが、多数回繰
り返せば、よりエラーが小さくなることは明らかであり
、この変形例でもそのようにしている。

第１１図はこの変形例の手順を示すものであり、第２図
と対応する箇所には対応する番号を付して詳細な説明を
省略する。第１０図においては、ステップ２１でパラメ
ータ・ファイルの更新を行うとともに、ステップ２２で
学習の必要性を判断して、必要な場合にはステップ１１
．１２および２１が繰り返されるようにしている。

なおステップ２１では Δｐ　＝Δｐ、＋＜ｐ・−ｑ・）でΔＴ　およびΔｐ、を求めているけれども、初期状態
ではΔＴ、＝０、Δｐ、＝０とされてい１するため、第２図のステップと同様の処理が行われること
は明らかである。なお、学習前の値（２対応する学習後
の値をそれぞれ（ｔｉ−ｔｏ）’、うにダッシュを付け
て表わすと、（ｔｌ−ｔｏ）′＝ｔ１′−ｔｏ＝（ｔｌ−ｔｏ）＋（
１２−１ｏ）Ｃｐ、−ｑ、）’＝ｐ、−ｑ　　′＝ＣｐＨ−ｑｊ）ｌ
　　　　　Ｊ　　　　　　　　　Ｉ　　　　　Ｊ＋（ｐ
　−８ｋ）となる（第１０図参照）。したがって学習前の値Δｐ　
およびΔＴ、に対応する学習後の値をそれぞれΔｐ、′
およびΔＴ、′として表わすと、Δｐ、’＝（ｐ　−ｑ
−）’＝Δｐ−＋（ｐ、−８ｋ）＋　　　　　　　　１
Ｊ　　　　　　　　　Ｉとなる。また、学習後の値によ
る補間変数をＸ′で表わすとあるいはとなる。

第１１図のステップ２１では表記上混同が生じないため
、ダッシュを省略するとともに、ｋｔｌ−ｊに、Ｓをｑ
にそれぞれ置き代えである。

つぎにもう１つの変形例について説明しよう。

上述実施例では遅い発声の分析によって求めたパラメー
タが補間原点となり、遅い発声と同程度の発声速度の合
成音声は、原点付近のパラメータを利用できるので高品
質のものとなる。他方速い発声速度の合成音声はど品質
が劣化する。そこで、テキスト音声合成等のアプリケー
ションにおいて、最も高頻度で用いられる速度（この速
度を「標準速度」と呼ぶ。）の発声の分析によるパラメ
ータを補間原点に用いることが合成音の品質向上に有効
である。このとき、標準速度より速い発声については、
標準速度の発声の分析によるパラメータを補間原点とし
て上述実施例の方法がそのまま適用できる。他方、標準
速度より遅い発声については、第１２図に示すように標
準速度発声の１フレームに遅い発声の複数フレームが対
応する場合があるので、この場合、これらのフレームの
パラメータの平均値を遅い発声側の補間端点として用い
る。

具体的には、標準速度発声の時間長をｔ。（１０＝ＭＴ
　　）、遅い発声の時間長をｔｌ（ｔ１＝ＮＴｏ、Ｎ＞
Ｍ）とするとき、時間長１（１≦ｔ≦ｔ　１）の音声の
パラメータをＭフレームに分けて求める（第１２図参照
）。を二ｔ　　＋　ｘ　（ｔ　１ｔ　ｏ　）とすると、第１フレームの継続時間長Ｔ　は、Ｔ、＝Ｔ　　＋ｘＴｏ（ｎ、−１）Ｑ第１フレームの合成パラメータｒ、は、となる。ここで
ｐ、は標準速度発声の第ｉフレ−ムのパラメータ、ｑｊ
は遅い発声の第１フレームのパラメータ、Ｊ　は標準速
度発声の第１フレ−ムに対応する遅い発声のフレームの
集合、ｎはＪ　の要素数である。

このように、標準速度発声の各フレームに対応って一意
に定めることにより標準速度より遅い合成音についても
補間によるパラメータの決定を行うことができる。なお
、この場合にもパラメータの学習を行えることはもちろ
んである。

〔発明の効果〕

以上説明したようにこの発明によれば異なる発声速度の
音声を分析して得た合成パラメータを補間して可変継続
長の合成音声を得るようにしている。補間の処理は簡易
であり、またもとの合成パラメータの特徴を加味するこ
とができる。したがって、簡易かつ音韻特性を損うこと
なく可変継続長の合成音声を得ることができる。また学
習が可能であるため、必要に応じて一層品質を向上させ
ることができる。なおこの８１１日１工との壱誇１；も
急用できる。まｒＳｒ？ラメーク・７７４１し″ＦＬ１
ψ、、テージヒして田ｆ＝Ｌ’７もよい。

【図面の簡単な説明】

第１図はこの発明の一実施例を実行するシステムを全体
として示すブロック図、第２図は第１図のシステムで実
行される処理を説明するフローチャート、第３図〜第８
図は第２図の処理を説明するための図、第９図は第１図
のシステムを代わる簡易なシステムを示すブロック図、
第１０図は上述実施例の変形例を説明するための図、第
１１図は上述変形例の処理を説明するフローチャート、
第１２図は上述実施例の他の変形例を説明するための図
である。１・・・・ワークステーション、３・・・・ホストコン
ピュータ、７・・・・Ａ／Ｄ−Ｄ／Ａコンバータ。出願人　インタｉ六ショナル・ビン木ス・マシーＺズ・
コーボレー−７ｑン復代理人　弁理士　　澤　　　１）
　　俊　　　夫継線ｖｔ閏　　　　ｔｌｔ　　ｔ□ 第３Ｕ４ ≦で）１）（こ・：′。゛／ニー。１９　　　　　　　判坏ぐルｌ’　　７　’１１　にン ’）；　Ｌ　）　Ｌシ ”１２９区ｔ］’　　　　　　　　ｔ１ｔ２　　　　　ｔ　　　　
ｔＯ継繞時内第’、　Ｃｌ　、−１第１′２二・

Claims

【特許請求の範囲】

（１）つぎの（ａ）〜（ｇ）のステップを有することを
特徴とする音声合成方法。（ａ）音声合成の単位素片の各々について実行されるス
テップであつて、当該単位素片を表わす第１音声データ
から複数個の一定時間長の第１データ部分を生成するス
テップ。（ｂ）上記音声合成の単位素片の各々について実行され
るステップであつて、当該単位素片を表わす１個以上の
第２音声データであつて上記第１音声データと継続時間
の異なるものから、上記第１データ部分と同数の第２デ
ータ部分であつて上記第１データ部分とそれぞれ音響的
に対応するものを生成するステップ。（ｃ）音声合成を行うべき上記単位素片を決定するステ
ップ。（ｄ）上記決定された単位素片の目標継続時間を決定す
るステップ。（ｅ）上記決定された目標継続時間にわたる一連の合成
フレームであつてその個数が上記第１データ部分と同数
のものの各々の時間長を、上記決定された単位素片に関
する上記第１データ部分および第２データ部分であつて
当該合成フレームに対応するものの長さを参照して、上
記目標継続時間に基づく補間により決定するステップ。（ｆ）上記合成フレームの各々の合成パラメータを、上
記決定された単位素片に関する上記第１データ部分およ
び第２データ部分であつて当該合成フレームに対応する
ものの合成パラメータを参照して、上記目標継続時間に
基づく補間により決定するステップ。（ｇ）上記決定された合成フレームの時間長および合成
パラメータに基づいて順次合成音を生成、するステップ
。
（２）上記ステップ（ｂ）の第２音声データの個数が１
であつて、上記ステップ（ｂ）が、上記第２音声データから複数個の一定時間長の第３デー
タ部分を生成するサブ・ステップと、上記第３データ部
分を上記第１データ部分に音響的特徴に基づいて対応付
けるサブ・ステップと、上記対応付けに基づいて上記第
２音声データを上記第２データ部分に分割するサブ・ス
テップとからなる特許請求の範囲第１項記載の音声合成
方法。
（３）上記ステップ（ｂ）の第２音声データの個数が２
以上であつて、上記ステップ（ｂ）が、上記第２音声データの各々から複数個の一定時間長の第
３データ部分を生成するサブ・ステップと、上記第２音声データごとに上記第３データ部分を上記第
１データ部分に音響的特徴に基づいて対応付けるサブ・
ステップと、１つの上記第２音声データに関する上記対応付けに基づ
いて当該１つの上記第２音声データを上記第２データ部
分に分割するサブ・ステップと、他の上記第２音声デー
タに関する上記対応付けに基づいて上記第２データ部分
の各々の時間長および合成パラメータを補正するサブ・
ステップとからなる特許請求の範囲第１項記載の音声合
成方法。
（４）上記一定時間長を分析フレームの時間長とした特
許請求の範囲第１項、第２項または第３項記載の音声合
成方法。
（５）上記対応付けるサブ・ステップはダイナミック・
プログラミングに基づいて行う特許請求の範囲第２項、
第３項または第４項記載の音声合成方法。
（６）上記第１音声データの継続時間を上記単位素片に
応じた標準的な発声時間とした特許請求の範囲第１項、
第２項、第３項、第４項または第５項記載の音声合成方
法。
（７）つぎの構成要素（ａ）〜（ｆ）を有することを特
徴とする音声合成装置。（ａ）音声合成の単位素片ごとに生成されている第１デ
ータおよび第２データを記憶する記憶手段。上記第１データは、当該単位素片を表わす第１音声デー
タから生成された複数個の一定時間長の第１データ部分
の各々の合成パラメータを表わす。上記第２データは、
当該単位素片を表わす１以上の第２音声データであつて
上記第１音声データと継続時間の異なるものから生成さ
れた、上記第１データ部分と同数の第２データ部分であ
つて、それぞれ上記第１データ部分と音響的に対応する
ものの各々の時間長および合成パラメータを表わす。（ｂ）音声合成を行うべき上記単位素片を決定する手段
。（ｃ）上記決定された単位素片の目標継続時間を決定す
る手段。（ｄ）上記記憶手段の上記第１データおよび第２データ
を参照して、上記目標継続時間に基づく補間により、上
記目標継続時間にわたる一連の合成フレームであつてそ
の個数が上記第１データ部分と同数のものの各々の時間
長を決定する手段。（ｅ）上記記憶手段の上記第１データおよび第２データ
を参照して、上記目標継続時間に基づく補間により、上
記合成フレームの各々の合成パラメータを決定する手段
。（ｆ）上記決定された合成フレームの時間長および合成
パラメータに基づいて音声の合成を行う音声合成手段。