JPH08254993A

JPH08254993A - 音声合成装置

Info

Publication number: JPH08254993A
Application number: JP7057773A
Authority: JP
Inventors: Takehiko Kagoshima; 岳彦籠嶋; Masami Akamine; 政巳赤嶺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1995-03-16
Filing date: 1995-03-16
Publication date: 1996-10-01
Also published as: US5890118A

Abstract

(57)【要約】【目的】フレームの境界での不連続性を軽減して自然性
に優れた合成音声を得る音声合成装置を提供する。【構成】有声音源信号の各フレームをそれぞれ代表する
代表波形を予め記憶し、与えられた波形選択情報に従っ
て選択された代表波形を出力する代表波形記憶部２１
と、与えられたピッチ周期に従って連続する２つのフレ
ームにまたがる波形重畳位置を決定する波形重畳位置決
定部１１と、決定された波形重畳位置に対応する有声音
源信号波形を代表波形記憶部２１から出力される連続す
る２つのフレームに対応した代表波形から補間により求
める波形補間部２２と、決定された波形重畳位置に該波
形重畳位置に対応する波形補間部２２により求められた
有声音源信号波形を配置して重畳することにより、声道
フィルタ部１５を駆動する有声音源信号を得る波形重畳
処理部２３とを有する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音源信号で声道フィル
タを駆動して合成音声を得る音声合成装置に係り、特に
テキスト音声合成のために音韻記号列・ピッチ・音韻継
続時間長などの情報から合成音声を生成する音声合成装
置に関する。

【０００２】

【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト音声合成という。このテキスト音声
合成システムは、一般的に言語処理部・音韻処理部・音
声信号生成部の３つの要素から構成される。入力された
テキストは、まず言語処理部において形態素解析や構文
解析などが行われ、次に音韻処理部においてアクセント
やイントネーションの処理が行われて、音韻記号列・ピ
ッチ・音韻継続時間長などの情報が出力される。最後
に、音声信号生成部すなわち音声合成装置では、音韻記
号列・ピッチ・音韻継続時間長などの情報から音声信号
を合成する。そこで、テキスト合成に用いる音声合成装
置の合成方式は、任意の音韻記号列を音声として合成す
ることが可能な方式でなければならない。

【０００３】このような任意の音韻記号列を音声合成す
る音声合成装置の基本は、音節・音素・１ピッチ区間な
どの基本となる小さな単位の特徴パラメータをピッチや
継続時間長を制御して接続するというものである。自然
音声の有声部では、音韻と声の高さがそれぞれ連続的に
変化しているため、自然音声に近い高品質な合成音を得
るためには、周波数スペクトルの連続的な変化とピッチ
の連続的な変化を音声合成装置によって実現することが
重要となる。

【０００４】このようなピッチと継続時間長とを制御し
て任意の音韻記号列を音声合成することができる音声合
成装置として、ボコーダ方式の有声音源部に残差信号波
形を用いたものが従来知られている。ボコーダ方式は、
既によく知られているように音声信号を音源情報と声道
情報に分離してモデル化することで合成音声信号を得る
方法であり、通常、有声音源をインパルス列で、無声音
源を雑音でモデル化する。

【０００５】図７は、従来の典型的なボコーダ方式の音
声合成装置の構成を示す図である。この音声合成装置
は、有声音源生成部１６と無声音源生成部１４および声
道フィルタ部１５とから構成される。有声音源生成部１
６は、有声／無声情報１０７により判別される有声区間
において、フレーム平均ピッチ１０１とフレーム平均パ
ワー１０２により一定のフレーム平均ピッチ間隔のイン
パルス列で表現される有声音源信号１０５を生成する。
無声音源生成部１４は、有声／無声情報１０７により判
別される無声区間において、フレーム平均パワー１０２
により白色雑音などで表現される無声音源信号１０６を
出力する。声道特性１０８を近似する声道フィルタ部１
５は、有声音源信号１０５または無声音源信号１０６に
よって駆動され、合成音声信号１０９を出力する。

【０００６】このようなボコーダ方式は、音源にインパ
ルス列を用いているために有声音のピッチ間隔毎の微細
な特徴が失われてしまうことにより、合成音声の音質が
劣化するという問題点があった。この問題点を解決する
ため、音声の微細構造を残すことができるように改善し
た音声合成方式として、音声を逆フィルタにより分析し
て得られる予測残差を示す残差信号波形を有声音源信号
として用いる方法がある。すなわち、インパルスの代わ
りに１ピッチ長の残差信号波形を一定のフレーム平均ピ
ッチ間隔で繰り返すことによって有声音源信号を生成す
るものである。この場合、声道特性に応じて残差信号波
形を変化させる必要があるため、残差信号波形はフレー
ム毎に変更される。

【０００７】

【発明が解決しようとする課題】しかし、上記の改善さ
れた音声合成方式においては、フレーム内では有声音源
信号の基となる一つの代表波形を一定のピッチで繰り返
すことによって有声音源信号を生成しているため、フレ
ームの境界で残差信号波形やピッチが不連続となり、合
成音声の音韻やピッチの変化が不自然なものになってし
まうという問題があった。本発明は、フレームの境界で
の不連続性を軽減して自然性に優れた合成音声を得るこ
とができる音声合成装置を提供することを目的とする。

【０００８】

【課題を解決するための手段】上述した目的を達成する
ため、本発明は有声音源信号および無声音源信号によっ
て声道特性を近似する声道フィルタ部を駆動して合成音
声信号を生成する音声合成装置において、フレーム内で
フレーム平均ピッチ毎に代表波形を単純に繰り返すので
はなく、連続するフレームの代表波形やピッチを補間す
ることによって合成音声の連続性を向上させたことを骨
子とする。

【０００９】すなわち、本発明に係る第１の音声合成装
置は、時系列信号を所定単位のフレームに分割してなる
有声音源信号の各フレームをそれぞれ代表する代表波形
を予め記憶し、合成すべき音声信号に対応してフレーム
毎に与えられる波形選択情報に従って選択された代表波
形を出力する代表波形記憶手段と、前記合成すべき音声
信号に対応して与えられたピッチ周期に従って波形重畳
位置を決定する波形重畳位置決定手段と、この波形重畳
位置決定手段により決定された連続する２つのフレーム
にまたがる波形重畳位置に対応する有声音源信号波形を
前記代表波形記憶手段から出力される連続する２つのフ
レームに対応した代表波形から補間により求める波形補
間手段と、前記波形重畳位置決定手段により決定された
波形重畳位置に該波形重畳位置に対応する前記波形補間
手段により求められた有声音源信号波形を配置して重畳
することにより、前記声道フィルタ部を駆動する有声音
源信号を得る波形重畳処理手段とを備えたことを特徴と
する。

【００１０】本発明に係る第２の音声合成装置は、時系
列信号を所定単位のフレームに分割してなる有声音源信
号の各フレームをそれぞれ代表する代表波形を予め記憶
し、合成すべき音声信号に対応してフレーム毎に与えら
れる波形選択情報に従って選択された代表波形を出力す
る代表波形記憶手段と、前記合成すべき音声信号に対応
してフレーム毎に与えられるピッチ周期情報から連続す
る２つのフレームに対応するピッチ周期が滑らかに変化
するようにピッチ周期の補間を行うピッチ補間手段と、
このピッチ補間手段により得られたピッチ周期に従って
連続する２つのフレームにまたがる波形重畳位置を決定
する波形重畳位置決定手段と、この波形重畳位置決定手
段により決定された波形重畳位置に前記代表波形記憶部
から出力される代表波形を設定して重畳することによ
り、前記声道フィルタ部を駆動する有声音源信号を得る
波形重畳処理手段とを備えたことを特徴とする。

【００１１】本発明に係る第３の音声合成装置は、時系
列信号を所定単位のフレームに分割してなる有声音源信
号の各フレームをそれぞれ代表する代表波形を予め記憶
し、合成すべき音声信号に対応してフレーム毎に与えら
れる波形選択情報に従って選択された代表波形を出力す
る代表波形記憶手段と、前記合成すべき音声信号に対応
してフレーム毎に与えられるピッチ周期情報から連続す
る２つのフレームに対応するピッチ周期が滑らかに変化
するようにピッチ周期の補間を行うピッチ補間手段と、
このピッチ補間手段により得られたピッチ周期に従って
連続する２つのフレームにまたがる波形重畳位置を決定
する波形重畳位置決定手段と、この波形重畳位置決定手
段により決定された波形重畳位置に該波形重畳位置に対
応する前記波形補間手段により求められた有声音源信号
波形を配置して重畳することにより、前記声道フィルタ
部を駆動する有声音源信号を得る波形重畳処理手段とを
備えたことを特徴とする。また、本発明においては、前
記代表波形記憶手段が記憶している代表波形が零位相化
されていることが望ましい。

【００１２】

【作用】第１の音声合成装置においては、連続するフレ
ームの有声音源信号の代表波形から連続する２つのフレ
ームにまたがる部分の有声音源信号波形を補間によって
求め、これらを連続する２つのフレームにまたがる波形
重畳位置に設定して互いに重畳させて得られた有声音源
信号で声道フィルタ部を駆動することによって合成音声
信号を生成するため、パワースペクトルの変化が滑らか
で、音韻の変化が連続的な自然性に優れた合成音声が得
られる。

【００１３】第２の音声合成装置においては、連続する
フレームのピッチ周期を補間することによってピッチ周
期がなめらかに変化するようにして上で、このピッチ周
期に従って波形重畳位置を決定し、この波形重畳位置に
対応する代表波形をそれぞ配置して互いに重畳させて得
られた有声音源信号で声道フィルタ部を駆動することに
よって合成音声信号を生成するため、ピッチの変化が滑
らかな合成音声が得られる。

【００１４】第３の音声合成装置においては、第１の音
声合成装置と第２の音声合成装置の技術を組み合わせ、
連続するフレームのピッチ周期を補間することによって
ピッチ周期がなめらかに変化するようにして上で、この
ピッチ周期に従って波形重畳位置を決定するとともに、
連続するフレームの有声音源信号の代表波形から連続す
る２つのフレームにまたがる部分の有声音源信号波形を
補間によって求め、これらを連続する２つのフレームに
またがる波形重畳位置に設定して互いに重畳させて得ら
れた有声音源信号で声道フィルタ部を駆動することによ
って合成音声信号を生成するため、音韻の変化とピッチ
の変化がともに滑らかな合成音声が得られる。

【００１５】第４の音声合成装置においては、第１また
は第３の音声合成装置と同様に、合成音声のパワースペ
クトルの変化が滑らかで音韻の変化が自然であり、さら
にはピッチの変化も滑らかな合成音声が得られる上、代
表波形を補間する際に代表波形が零位相化されているこ
とにより、波形の単純な線形補間がすなわち代表波形の
パワースペクトルの線形補間にもなるので、パワースペ
クトルが滑らかに変化するように補間を行うことが容易
になる。

【００１６】

【実施例】

（実施例１）図１は、本発明に係る第１の音声合成装置
の一実施例のブロック図である。この音声合成装置は、
有声音源生成部２４と無声音源生成部１４と声道フィル
タ部１５とから構成される。有声音源生成部２４は、有
声／無声判別情報１０７により判別される有声区間にお
いて、フレーム平均ピッチ情報１０１と残差信号波形選
択情報２０１に基づいて有声音源信号１０５を生成す
る。この有声音源生成部２４については、後に詳細に説
明する。無声音源生成部１４は、有声／無声判別情報１
０７により判別される無声区間において、白色雑音など
で表現される無声音源信号１０６を出力する。声道フィ
ルタ部１５は、声道特性情報１０８によって指定される
声道特性を近似し、有声音源信号１０５または無声音源
信号１０６によって駆動されることにより、合成音声信
号１０９を出力する。

【００１７】残差信号波形選択情報２０１は、例えば任
意の文章に対応した合成すべき音声信号の音韻（／ａ
／，／ｉ／，ｕ／，／ｅ／，／ｏ／など）で決定され、
その音韻に対応する残差信号波形を指定する情報である音声信号の各音韻は少なくとも一つのフレーム（一般に
は複数のフレーム）から構成されており、各フレームに
対応する残差信号波形は、例えば音声データベース中の
当該音韻の部分を分析することによって予め作成され、
記憶されているものとする。一例として／ａ／（あ）の
音韻の場合について説明すると、まず図２（ａ）に示す
ように音声データベースから／ａ／の部分を切り出す。
次に、この音韻部分について線形予測分析を行い、図２
（ｂ）に示すような予測残差信号を求める。有声音信号
は周期的な信号であるため、各フレームには１〜数周期
分の波形が存在する。そこで、図２（ｃ）に示すように
音韻を構成する１ないし複数のフレームから１ピッチ周
期分の予測残差信号波形を代表波形として取り出し、こ
れを代表波形記憶部２１で記憶する。図２（ｃ）の例で
は、／ａ／の音韻部分について３個の代表波形を記憶す
ることになる。

【００１８】以下、有声音源生成部２４の詳細な構成と
動作を説明する。本実施例における有声音源生成部２４
の特徴は、従来のようにフレーム内で一つの代表波形を
繰り返すことによって有声音源信号を生成するのではな
く、連続する２つのフレームにまたがる部分（これを波
形重畳位置とする）の代表波形を補間により求めること
によって、波形がフレーム間で連続的に変化する有声音
源信号１０５を生成することにある。

【００１９】有声音源生成部２４においては、まず波形
重畳位置決定部１１に合成すべき音声信号のピッチ周期
を指定するピッチ周期情報１０１が供給される。波形重
畳位置決定部１１では、波形重畳位置間の間隔がピッチ
周期情報１０１で指定されるピッチ周期と等しくなるよ
うに波形重畳位置が決定され、波形重畳位置指定情報１
０３が出力される。

【００２０】一方、代表波形記憶部２１は、図２（ｃ）
に示したように有声音源信号となる残差信号波形の各フ
レームを代表する代表波形を各音韻に対応して複数個ず
つ記憶している。そして、代表波形記憶部２１から残差
信号波形選択情報２０１に基づいて指定される音韻に対
応する第１の代表波形２０２と第２の代表波形２０３が
選択的に読み出され、出力される。ここで、第１の代表
波形２０２はある音韻の音声信号のｉ番目のフレームに
対応し、第２の代表波形２０３は同じ音韻の音声信号の
ｉ＋１番目のフレームに対応するものとする。すなわ
ち、第１の代表波形２０２および第２の代表波形２０３
は連続する２つのフレームに対応する代表波形である。

【００２１】波形補間部２２は、代表波形記憶部２１か
ら出力される第１の代表波形２０２と第２の代表波形２
０３とから、波形重畳位置決定部１１で決定された、連
続する２フレームつまりｉ番目のフレームとｉ＋１番目
のフレームにまたがる波形重畳位置に対応する残差信号
波形を補間によって求め、波形重畳位置情報１０３で示
される波形重畳位置のそれぞれに対応する残差信号波形
列２０４を生成する。また、波形補間部２２は波形重畳
位置以外の部分では、代表波形記憶部２１から出力され
る代表波形をそのまま出力する。

【００２２】波形重畳処理部２３は、波形重畳位置情報
１０３で示される波形重畳位置のそれぞれに残差信号波
形列２０４の中の対応する残差信号波形を配置して、そ
れらを互いに重畳することによって、声道フィルタ部１
５を駆動するための最終的な有声音源信号１０５を生成
する。

【００２３】次に、波形重畳位置決定部１１の動作を説
明する。ピッチ周期情報１０１で指定されるピッチ周期
をｐで表し、時刻ｔ₁ からから時刻ｔ₂ までの有声音源
信号を生成する場合を考える。この場合、波形重畳位置
決定部１１は時刻ｔ＝ｔ₁ からｔ＝ｔ₂ の間のＮ個（Ｎ
≧０）の波形重畳位置ｍ_k （ｍ₁ ，ｍ₂ ，…，ｍ_N ）を
次式（１）の計算により決定し、波形重畳位置指定情報
１０３を出力する。

【００２４】ｍ_k ＝ｍ₀ ＋ｐｋ（ｋ＝１，２，…，Ｎ）（１）ただし、ｍ₀ はｔ＜ｔ₁ の範囲で既に決定されている波
形重畳位置の中で最も遅い時刻の波形重畳位置を表わ
す。

【００２５】次に、図３を用いて波形補間部２２の動作
を説明する。第１の代表波形２０２をｓ₁ (t) 、第２の
代表波形２０３をｓ₂ (t) で表すものとする。波形補間
部２２は、波形重畳位置指定情報１０３で指定される波
形重畳位置ｍ₁ ，ｍ₂ ，…，ｍ_N にそれぞれ対応する残
差信号波形ｈ₁ (t) ，ｈ₂ (t) ，…，ｈ_N (t) を次式
（２）に従って計算し、これらを残差信号波形列２０４
として出力する。

【００２６】ｈ_k (t) ＝ａ（ｍ_k ）ｓ₁ (t) ＋｛（１−ａ（ｍ_k ）｝ｓ₂ (t) （２）ただし、ａ(t) は滑らかに変化する重み係数であり、一
例として線形に変化する場合は次式（３）で表される。

【００２７】ａ(t) ＝（ｔ₂ −ｔ）／（ｔ₂ −ｔ₁ ）（３）なお、残差信号波形列２０４は波形重畳位置ｍ₁ ，ｍ
₂ ，…，ｍ_N の順でシリアルに出力してもよいし、パラ
レルに出力しても構わない。

【００２８】次に、波形重畳処理部２３の動作を説明す
る。波形重畳処理部２３は、波形重畳位置指定情報１０
３で指定される波形重畳位置ｍ_k （ｋ＝１，２，…，
Ｎ）と波形補間部２２から出力される残差信号波形列２
０４であるｈ_k （ｋ＝１，２，…，Ｎ）を用いて、次式
（４）式によりｖ(t) で表される有声音源信号１０５を
計算する。

【００２９】

【数１】

【００３０】すなわち、波形重畳処理部２３では波形補
間部２２からの残差信号波形列２０４（ｈ_k ）を波形重
畳位置ｍ_k で示される時間位置にそれぞれ配置した状態
で重畳する。この場合、隣接する波形重畳位置に配置さ
れる残差信号波形の中央部分はそれぞれ独立して出力さ
れるが、裾野部分は互いに足し合わされるため、出力さ
れる有声音源信号１０５の波形連続性がより一層向上す
る。

【００３１】このように本実施例によれば、代表波形記
憶部２１から出力される連続するフレームの有声音源信
号の代表波形である第１の代表波形２０２および第２の
代表波形２０３から、波形補間部２２により連続する２
つのフレームにまたがる部分の有声音源信号波形である
残差信号波形列２０４を補間によって求め、これらを波
形重畳処理部２３において波形重畳位置決定部１１で決
定された連続する２つのフレームにまたがる波形重畳位
置に配置して互いに重畳させることで、声道フィルタ部
１５を駆動する有声音源信号１０５を生成するため、パ
ワースペクトルの変化が滑らかで、音韻の変化が連続的
な合成音声を得ることができる。

【００３２】（実施例２）図４は、本発明に係る第２の
音声合成装置の一実施例のブロック図である。この音声
合成装置は、有声音源生成部３３と無声音源生成部１４
と声道フィルタ部１５とから構成される。有声音源生成
部３３は、有声／無声判別情報１０７により判別される
有声区間において、連続する２フレームの平均ピッチと
して指定された第１のピッチ周期情報３０１および第２
のピッチ周期情報３０２と残差信号波形選択情報１０２
に基づいて有声音源信号１０５を生成する。無声音源生
成部１４は、先の実施例と同様に有声／無声判別情報１
０７により判別される無声区間において、白色雑音など
で表現される無声音源信号１０６を出力する。声道フィ
ルタ部１５は、声道特性情報１０８によって指定される
声道特性を近似し、有声音源信号１０５または無声音源
信号１０６によって駆動されて合成音声信号１０９を出
力する。

【００３３】以下、有声音源生成部３３の詳細な構成と
動作を説明する。本実施例は、フレーム内で一定間隔に
代表波形を重畳することによって有声音源信号を生成す
るのではなく、連続する２つのフレームのピッチ周期と
して指定された第１のピッチ周期と第２のピッチ周期と
から、これら２つのフレームにまたがる部分のピッチ周
期を補間により求め、第１のピッチ周期から第２のピッ
チ周期にピッチ周期が滑らかに変化するようにしたもの
である。

【００３４】有声音源生成部３３においては、ピッチ補
間部３２に第１のピッチ周期情報３０１と第２のピッチ
周期情報３０２とが供給され、ピッチ周期情報３０１で
指定される第１のピッチ周期と、ピッチ周期情報３０２
で指定される第２のピッチ周期とから、連続する２つの
フレームに対応するピッチ周期がなめらかに連続して変
化するようにピッチ周期の補間を行い、ピッチ周期列３
０３を出力する。

【００３５】波形重畳位置決定部３１では、ピッチ周期
列３０３に従って波形重畳位置間の間隔が連続的に変化
するような波形重畳位置が決定され、波形重畳位置情報
１０３が決定される。

【００３６】代表波形記憶部１２は、有声音源信号とな
る残差信号波形のフレームを代表する代表波形を各音韻
に対応して複数個ずつ記憶して記憶しており、残差信号
波形選択情報１０２に従って代表波形１０４が選択的に
読み出され、出力される。

【００３７】波形重畳処理部１３は、波形重畳位置情報
１０３で示される波形重畳位置に対応するそれぞれの代
表波形１０４を配置して、それらを互いに重畳すること
によって、声道フィルタ部１５を駆動するための最終的
な有声音源信号１０５を生成する。

【００３８】次に、ピッチ補間部３２の動作を図５を用
いて説明する。図５において、時刻ｔ₁ のピッチ周期が
第１のピッチ周期情報３０１で指定される第１のピッチ
周期であり、時刻ｔ₂ のピッチ周期が第２のピッチ周期
情報３０２で指定される第２のピッチ周期であるとし、
第１のピッチ周期をｐ₁ で表し、第２のピッチ周期をｐ
₂ で表すとする。また、図５中に示されているように、
ｔ＜ｔ₁ の範囲で既に決定されている波形重畳位置の中
で最も遅い時刻のものをｍ_o とし、ｔ₁ ≦ｔ＜ｔ₂ の範
囲の波形重畳位置をｍ_k （ｍ₁ ，ｍ₂ ，…，ｍ_N ）とす
る。

【００３９】ここで、ｐ₁ ＝ｐ₂ であれば補間によって
求められるピッチ周期は常にｐ₁ と等しくなるため、以
後ｐ₁ ≠ｐ₂ の場合についてのみ考えることとする。こ
の場合、時刻ｔのピッチ周期ｐ(t) は次式（５）で表さ
れる。

【００４０】ｐ(t) ＝ａ(t) ｐ₁ ＋（１−ａ(t) ）ｐ₂ （５）ただし、ａ(t) は滑らかに変化する重み係数であり、一
例として線形に変化する場合は式（３）で表される。ｍ
_k から次の波形重畳位置ｍ_k+1 までの周期Ｔ_kは、式
（６）に示す方程式の解となる。

【００４１】

【数２】これを解くと、次式（７）（８）（９）となる。

【００４２】

【数３】また、式（１０）より式（７）（１０）を解くことによ
って、次式（１１）が得られる。

【００４３】

【数４】

【００４４】

【数５】

【００４５】式（１１）を計算して得られるＴ₀ ，Ｔ
₁ ，…，Ｔ_N-1 がピッチ周期列３０３となる。次に、波
形重畳位置決定部３１の動作を説明する。波形重畳位置
決定部３１は、次式（１２）に従ってピッチ周期列３０
３（Ｔ₀ ，Ｔ₁ ，…，Ｔ_N-1 ）から波形重畳位置（ｍ
₀ ，ｍ₁ ，…，ｍ_N-1 ）を再帰的に計算する。

【００４６】ｍ_k ＝ｍ_k-1 ＋Ｔ_k-1 （１２）このように本実施例によれば、ピッチ補間部３２によっ
て連続するフレームのピッチ周期を補間することでピッ
チ周期がなめらかに変化するようにした後、このピッチ
周期に従って波形重畳位置決定部３１で波形重畳位置を
決定し、この波形重畳位置に対応する代表波形を代表波
形記憶部１２から読み出して、波形重畳処理部１３でそ
れぞれの波形重畳位置に配置して互いに重畳させること
で、声道フィルタ部１５を駆動する有声音源信号１０５
を生成するため、ピッチの変化が滑らかな合成音声を得
ることができる。

【００４７】（実施例３）図６は、本発明に係る第３の
音声合成装置の一実施例のブロック図である。この音声
合成装置は、図１に示した第１の音声合成装置と図４に
示した第２の音声合成装置を組み合わせたものであり、
有声音源生成部４１と無声音源生成部１４と声道フィル
タ部１５とから構成される。すなわち、有声音源生成部
４１は有声／無声判別情報１０７により判別される有声
区間において、連続する２フレームの平均ピッチとして
指定された第１のピッチ周期情報３０１と第２のピッチ
周期情報３０２および残差信号波形選択情報２０１によ
り、有声音源信号１０５を生成する。無声音源生成部１
４は、有声／無声判別情報１０７により判別される無声
区間において、白色雑音などで表現される無声音源１０
６を出力する。声道フィルタ部１５は、声道特性情報１
０８によって指定される声道特性を近似し、有声音源信
号１０５または無声音源信号１０６によって駆動されて
合成音声信号１０９を出力する。

【００４８】次に、本実施例の有声音源生成部４１の動
作を説明する。本実施例は、従来のようにフレーム内で
一つの代表波形を繰り返すことによって有声音源信号を
生成するのではなく、連続する２つのフレームにまたが
る部分（波形重畳位置）の代表波形を求めて補間を行
い、波形がフレーム間で連続的に変化する有声音源信号
を生成するものである。さらに、本実施例はフレーム内
で一定間隔に代表波形を重畳することによって有声音源
信号を生成するのではなく、連続する２つのフレームの
ピッチ周期として指定された第１のピッチ周期と第２の
ピッチ周期とから、これら２つのフレームにまたがる部
分のピッチ周期を補間により求め、第１のピッチ周期か
ら第２のピッチ周期にピッチ周期が滑らかに変化するよ
うにしたものである。

【００４９】有声音源生成部３３においては、ピッチ補
間部３２に第１のピッチ周期情報３０１と第２のピッチ
周期情報３０２とが供給され、ピッチ周期情報３０１で
指定される第１のピッチ周期と、ピッチ周期情報３０２
で指定される第２のピッチ周期とから、連続する２つの
フレームに対応するピッチ周期がなめらかに連続して変
化するようにピッチ周期の補間を行い、ピッチ周期列３
０３を出力する。

【００５０】波形重畳位置決定部３１では、ピッチ周期
列３０３に従って波形重畳位置間の間隔が連続的に変化
するように波形重畳位置が決定され、波形重畳位置情報
１０３が決定される。

【００５１】一方、代表波形記憶部２１は、図２（ｃ）
に示したように有声音源信号となる残差信号のフレーム
を代表する代表波形を各音韻に対応して複数個ずつ記憶
している。そして、代表波形記憶部２１から残差信号波
形選択情報２０１に基づいて指定される音韻に対応する
第１の代表波形２０２と第２の代表波形２０３が選択的
に読み出され、出力される。ここで、第１の代表波形２
０２はある音韻の音声信号のｉ番目のフレームに対応
し、第２の代表波形２０３は同じ音韻の音声信号のｉ＋
１番目のフレームに対応するものとする。すなわち、第
１の代表波形２０２および第２の代表波形２０３は連続
するフレームに対応している。

【００５２】波形補間部２２は、代表波形記憶部２１か
ら出力される第１の代表波形２０２と第２の代表波形２
０３とから、連続する２フレームつまりｉ番目のフレー
ムとｉ＋１番目のフレームにまたがる波形重畳位置決定
部１１で決定された波形重畳位置に対応する残差信号波
形を補間によって求め、波形重畳位置情報１０３で示さ
れる波形重畳位置のそれぞれに対応する残差信号波形列
２０４を生成する。

【００５３】波形重畳処理部２３は、波形重畳位置情報
１０３で示される波形重畳位置のそれぞれに残差信号波
形列２０４の中の対応する残差信号波形を配置して、そ
れらを互いに重畳することによって、声道フィルタ部１
５を駆動するための最終的な有声音源信号１０５を生成
する。

【００５４】ここで、波形補間部２２と波形重畳処理部
２３は第１の実施例において説明したものと同一であ
り、ピッチ補間部３２と波形重畳処理部３１は第２の実
施例において説明したものと同一であるため、これ以上
の詳しい説明は省略する。

【００５５】このように本実施例によれば、ピッチ補間
部３２によって連続するフレームのピッチ周期を補間す
ることでピッチ周期がなめらかに変化するようにした
後、このピッチ周期に従って波形重畳位置決定部３１で
波形重畳位置を決定連続するフレームのピッチ周期を補
間することによってピッチ周期がなめらかに変化するよ
うにして上で、このピッチ周期に従って波形重畳位置を
決定するとともに、代表波形記憶部２１から出力される
連続するフレームの有声音源信号の代表波形である第１
の代表波形２０２および第２の代表波形２０３から、波
形補間部２２により連続する２つのフレームにまたがる
部分の有声音源信号波形である残差信号波形列２０４を
補間によって求め、これらを波形重畳処理部２３におい
て波形重畳位置決定部３１で決定された連続する２つの
フレームにまたがる波形重畳位置に配置して互いに重畳
させることで、声道フィルタ部１５を駆動する有声音源
信号１０５を生成するため、パワースペクトルの変化が
滑らかで、しかも音韻の変化が連続的な合成音声を得る
ことができる。

【００５６】（実施例４）本実施例は、図１で説明した
実施例１の音声合成装置において、代表波形記憶部２１
が残差信号のフレームを代表する代表波形を零位相化し
たものを記憶していることが特徴である。例えば、代表
波形ｓ(t) を零位相化したものをｓ′(t)とすると、
ｓ′(t) は次の手順で計算することができる。

【００５７】まず、フーリエ変換によってｓ(t) の周波
数スペクトルＳ（ω）を求める。Ｓ（ω）＝Ｆ（ｓ(t) ）（１３）次に、Ｓ（ω）の絶対値Ｓ′（ω）を計算する。

【００５８】Ｓ′（ω）＝｜Ｓ（ω）｜（１４）最後に、Ｓ′（ω）を逆フーリエ変換することにより
ｓ′(t) を求める。ｓ′(t) ＝Ｆ^-1（Ｓ′（ω））（１５）このように本実施例では、代表波形記憶部２１が記憶す
る代表波形を零位相化したことによって、例えば式
（２）の補間によって生成された残差信号波形ｈ_k(t)
のパワースペクトルが代表波形ｓ₁ (t) およびｓ₂ (t)
のパワースペクトルを補間したものになるため、波形の
補間を行うことによって、滑らかなパワースペクトルの
変化が容易に実現でき、さらに音韻の変化も滑らかにな
るという利点がある。

【００５９】（実施例５）本実施例は、図４で説明した
実施例３の音声合成装置において、代表波形記憶部２１
で残差信号のフレームを代表する代表波形を零位相化し
たものを記憶するものである。代表波形の零位相化は、
例えば実施例４において説明した方法で実現することが
できる。実施例３の場合と同様に、代表波形を零位相化
したことにより、波形の補間を行うことによって、滑ら
かなパワースペクトルの変化が容易に実現でき、かつ音
韻の変化が滑らかになるという利点がある。

【００６０】（実施例６）本実施例は、実施例１または
実施例３で説明した音声合成装置において、波形補間部
２２で第１の代表波形２０２と第２の代表波形２０３と
を零位相化した後に補間を行って残差信号波形列２０４
を求めるものである。

【００６１】（実施例７）本実施例は、実施例１または
実施例３で説明した音声合成装置において、波形補間部
２２で第１の代表波形２０２と第２の代表波形２０３を
フーリエ変換によって周波数スペクトルに変換した後、
絶対値および位相をそれぞれ補間して得られる周波数ス
ペクトルを逆フーリエ変換することによって、残差信号
波形列２０４を求めるものである。

【００６２】（実施例８）本実施例は、実施例１または
実施例３で説明した音声合成装置において、代表波形記
憶部２１で残差信号のフレームを代表する代表波形の周
波数スペクトルを記憶し、波形補間部２２で第１の代表
波形の周波数スペクトル２０２と第２の代表波形の周波
数スペクトル２０３との絶対値および位相をそれぞれ補
間して得られる周波数スペクトルを逆フーリエ変換する
ことによって、残差信号波形列２０４を求めるものであ
る。

【００６３】（実施例９）本実施例は、実施例１または
実施例３で説明した音声合成装置において、ピッチ補間
部３２でピッチ周期の逆数すなわちピッチ周波数が線形
に変化するようにピッチの補間を行うものである。この
場合、ピッチ周期列３０３は次式（１６）（１７）（１
８）によって計算される。

【００６４】

【数６】

【００６５】

【発明の効果】以上説明したように、本発明によれば音
韻やピッチあるいはその両方の変化がなめらかで、連続
性に優れた自然な合成音声を得ることが可能な音声合成
装置を提供することができる。

【図面の簡単な説明】

【図１】本発明の実施例１に係る音声合成装置の構成を
示すブロック図

【図２】同実施例における代表波形記憶部に記憶される
代表波形の作成法を説明するための波形図

【図３】同実施例における波形補間処理を説明するため
の波形図

【図４】本発明の実施例２に係る音声合成装置の構成を
示すブロック図

【図５】同実施例におけるピッチ補間処理を説明するた
めの波形図

【図６】本発明の実施例３に係る音声合成装置の構成を
示すブロック図

【図７】従来の音声合成装置の構成を示すブロック図

【符号の説明】

１１…波形重畳位置決定部１２…代表波形記憶部１３…波形重畳処理部１４…無声音源生成部１５…声道フィルタ部１６…有声音源生成部２１…代表波形記憶部２２…波形補間部２３…波形重畳処理部２４…有声音源生成部３１…波形重畳位置決定部３２…ピッチ補間部３３…有声音源生成部１０１…フレーム平均ピッチ周期情報１０２…残差信号波形選択情報１０３…波形重畳位置指定情報１０４…代表波形１０５…有声音源信号１０６…無声音源信号１０７…有声／無声判別情報１０８…声道特性情報１０９…合成音声信号２０１…残差信号波形選択情報２０２…第１の代表波形情報２０３…第２の代表波形情報２０４…残差信号波形列３０１…第１のピッチ周期情報３０２…第２のピッチ周期情報３０３…ピッチ周期列

Claims

【特許請求の範囲】

【請求項１】有声音源信号および無声音源信号によって
声道特性を近似する声道フィルタ部を駆動して合成音声
信号を生成する音声合成装置において、時系列信号を所定単位のフレームに分割してなる有声音
源信号の各フレームをそれぞれ代表する代表波形を予め
記憶し、合成すべき音声信号に対応してフレーム毎に与
えられる波形選択情報に従って選択された代表波形を出
力する代表波形記憶手段と、前記合成すべき音声信号に対応して与えられたピッチ周
期に従って連続する２つのフレームにまたがる波形重畳
位置を決定する波形重畳位置決定手段と、この波形重畳位置決定手段により決定された波形重畳位
置に対応する有声音源信号波形を前記代表波形記憶手段
から出力される連続する２つのフレームに対応した代表
波形から補間により求める波形補間手段と、前記波形重畳位置決定手段により決定された波形重畳位
置に該波形重畳位置に対応する前記波形補間手段により
求められた有声音源信号波形を配置して重畳することに
より、前記声道フィルタ部を駆動する有声音源信号を得
る波形重畳処理手段とを備えたことを特徴とする音声合
成装置。
【請求項２】有声音源信号および無声音源信号によって
声道特性を近似する声道フィルタ部を駆動して合成音声
信号を生成する音声合成装置において、時系列信号を所定単位のフレームに分割してなる有声音
源信号の各フレームをそれぞれ代表する代表波形を予め
記憶し、合成すべき音声信号に対応してフレーム毎に与
えられる波形選択情報に従って選択された代表波形を出
力する代表波形記憶手段と、前記合成すべき音声信号に対応してフレーム毎に与えら
れるピッチ周期から連続する２つのフレームに対応する
ピッチ周期が滑らかに変化するようにピッチ周期の補間
を行うピッチ補間手段と、このピッチ補間手段により得られたピッチ周期に従って
連続する２つのフレームにまたがる波形重畳位置を決定
する波形重畳位置決定手段と、この波形重畳位置決定手段により決定された波形重畳位
置に前記代表波形記憶部から出力される代表波形を有声
音源信号波形として設定して重畳することにより、前記
声道フィルタ部を駆動する有声音源信号を得る波形重畳
処理手段とを備えたことを特徴とする音声合成装置。
【請求項３】有声音源信号および無声音源信号によって
声道特性を近似する声道フィルタ部を駆動して合成音声
信号を生成する音声合成装置において、時系列信号を所定単位のフレームに分割してなる有声音
源信号の各フレームをそれぞれ代表する代表波形を予め
記憶し、合成すべき音声信号に対応してフレーム毎に与
えられる波形選択情報に従って選択された代表波形を出
力する代表波形記憶手段と、前記合成すべき音声信号に対応してフレーム毎に与えら
れるピッチ周期から連続する２つのフレームに対応する
ピッチ周期が滑らかに変化するようにピッチ周期の補間
を行うピッチ補間手段と、このピッチ補間手段により得られたピッチ周期に従って
連続する２つのフレームにまたがる波形重畳位置を決定
する波形重畳位置決定手段と、この波形重畳位置決定手段により決定された波形重畳位
置に該波形重畳位置に対応する前記波形補間手段により
求められた有声音源信号波形を配置して重畳することに
より、前記声道フィルタ部を駆動する有声音源信号を得
る波形重畳処理手段とを備えたことを特徴とする音声合
成装置。