JPH09160595A

JPH09160595A - 音声合成方法

Info

Publication number: JPH09160595A
Application number: JP7315431A
Authority: JP
Inventors: Takehiko Kagojima; 岳彦籠嶋; Masami Akamine; 政巳赤嶺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1995-12-04
Filing date: 1995-12-04
Publication date: 1997-06-20

Abstract

(57)【要約】【課題】テキスト音声合成において高品質の合成音声を
得るのに適した音声合成方法を提供する。【解決手段】予め記憶した複数の音声合成単位の情報か
ら選択された情報を接続することによって合成音声信号
を生成する音声合成方法において、声道フィルタ部１６
の係数として用いられる音声のスペクトルパラメータで
あるＬＰＣ係数をフィルタ係数１１２とするホルマント
強調フィルタ部１７を設け、このフィルタ１７により合
成音声信号のホルマントを強調する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はテキスト音声合成シ
ステムにおいて、音韻記号列、ピッチおよび音韻継続時
間長などの情報から合成音声信号を生成する音声合成方
法に関する。

【０００２】

【従来の技術】任意の文章（テキスト）から人工的に音
声信号を作り出すことをテキスト音声合成という。通
常、テキスト音声合成システムは、言語処理部、音韻処
理部および音声信号生成部の３つの要素から構成され
る。入力されたテキストは、まず言語処理部において形
態素解析や構文解析などが行われ、次に韻律処理部にお
いてアクセントやイントネーションの処理が行われて、
音韻記号列、ピッチおよび音韻継続時間長などの情報が
出力される。最後に、音声信号生成部すなわち音声合成
器は、音韻記号列、ピッチおよび音韻継続時間長などの
情報から音声信号を合成する。従って、テキスト音声合
成に用いる音声合成方式は、任意の音韻記号列を合成す
ることが可能な方式でなければならない。

【０００３】このような任意の音韻記号列を合成するこ
とができる音声合成方式の原理は、音節、音素および１
ピッチ区間などの基本となる音声合成単位の情報である
特徴パラメータをピッチや継続時間長を制御して接続す
るものである。ピッチと継続時間長を制御して任意の音
韻記号列を合成することができる音声合成装置の方式と
して、ボコーダ方式やホルマント合成方式が従来知られ
ている。これらの方式は、声帯の信号をモデル化した駆
動信号により、声道の特性をモデル化した声道フィルタ
を駆動することで音声を合成するものであるが、モデル
化の精度が不十分であるため合成音声は不明瞭なものと
なっていた。

【０００４】そこで、モデル化の精度を上げて音質の向
上を図った方法として、例えば特開昭５８−８０６９９
号「音声合成方式」に開示されているように、自然音声
を分析して得られるスペクトルパラメータに基づいて声
道フィルタを制御し、声道フィルタの逆フィルタで音声
信号を処理することによって得られる残差波形を声道フ
ィルタの駆動信号とする方法がある。

【０００５】図１７に、この方式の一例である残差駆動
のＬＰＣ方式を用いた従来の音声合成装置の構成を示
す。この音声合成装置は、残差波形記憶部１１、有声音
源生成部１２、無声音源生成部１３、ＬＰＣ係数記憶部
１４、ＬＰＣ係数補間部１５、および声道フィルタ部１
６から構成される。

【０００６】残差波形記憶部１１は、複数の音声合成単
位の情報として複数の残差波形を予め記憶しており、こ
れらの残差波形の中から波形選択情報１０１に従って選
択された１ピッチ周期長残差波形１０２を出力する。有
声音源生成部１２は、フレーム平均ピッチ１０３を周期
として１ピッチ周期長残差波形１０２を繰り返し、この
繰り返し波形にフレーム平均パワー１０２を乗じること
によって有声音源信号１０５を生成する。この有声音源
信号１０５は、有声／無声判別情報１０７により判別さ
れる有声区間において出力され、声道フィルタ部１６に
入力される。無声音源生成部１３は、フレーム平均パワ
ー１０２に基づいて白色雑音などで表現される無声音源
信号１０６を出力する。この無声音源信号１０６は、有
声／無声判別情報１０７により判別される無声区間にお
いて出力され、声道フィルタ部１６に入力される。

【０００７】ＬＰＣ係数記憶部１４は、別の音声合成単
位の情報である複数のＬＰＣ係数を記憶しており、ＬＰ
Ｃ係数選択情報１０８に従って一つのＬＰＣ係数１０９
が選択的に出力される。ＬＰＣ係数補間部１５は、フレ
ーム間でＬＰＣ係数が不連続とならないように前フレー
ムのＬＰＣ係数と現フレームのＬＰＣ係数１０９とを補
間してＬＰＣ係数１１０を出力する。

【０００８】声道フィルタ部１６は、有声音源信号１０
５または無声音源信号１０６によってＬＰＣ係数１１０
を係数とする声道フィルタを駆動し、合成音声信号１１
１を出力する。

【０００９】この音声合成装置では、予め自然音声に線
形予測分析を行って求められた種々のＬＰＣ係数をＬＰ
Ｃ係数記憶部１４に記憶させ、またこれらのＬＰＣ係数
で逆フィルタリングを行うことによって得られる残差波
形から１ピッチ周期の波形を切り出して残差波形記憶部
１１に記憶させておく。このように、自然音声を分析し
て得られるＬＰＣ係数のようなパラメータを声道フィル
タや音源信号に適用しているため、モデル化の精度が高
く、比較的自然音声に近い合成音声を得ることができ
る。

【００１０】

【発明が解決しようとする課題】しかし、上述した従来
の音声合成装置では、高精度にモデル化を行っていたと
しても、ＬＰＣ係数や残差波形を求める際に分析した自
然音声とはピッチ周期が異なる音声を合成する場合にス
ペクトル歪みが生じることは避けられない。

【００１１】例えば、ある音韻の音声のスペクトル包絡
が図１３（ａ）に示すように表されたとすると、その音
韻を基本周波数ｆで発生した場合の音声信号のパワース
ペクトルは、図１３（ｂ）に示されるようにスペクトル
包絡を周波数間隔ｆでサンプリングした離散的なスペク
トルとなる。同様に、基本周波数ｆ′で発声した場合の
音声信号のパワースペクトルは、図１３（ｃ）に示され
るようにスペクトル包絡を周波数間隔ｆ′でサンプリン
グした離散的なスペクトルとなる。

【００１２】ここで、基本周波数ｆで発声された図１３
（ｂ）に示されるスペクトルを持つ音声を分析してスペ
クトル包絡を求めることによって、ＬＰＣ係数記憶部１
４に記憶するＬＰＣ係数を求めることを考える。音声信
号の場合は、一般に、図１３（ｂ）に示すような離散的
なスペクトルから図１３（ａ）に示すような真のスペク
トル包絡を求めることは原理的には不可能である。そこ
で、音声を分析することによって求められたスペクトル
包絡は、図１４（ａ）の破線で示されるように離散点で
は真のスペクトル包絡と等しくなっても、それ以外の周
波数では誤差が生じる可能性がある。よって、得られた
スペクトル包絡は図１４（ｂ）に示されるように、真の
スペクトル包絡に対して山の部分（ホルマント）がなま
ったスペクトルになることがある。この場合、ｆと異な
る基本周波数ｆ′で音声合成を行って得られる合成音声
のスペクトルは、図１４（ｃ）に示されるように、図１
３（ｃ）に示される自然音声のスペクトルと比較してな
まったものとなり、合成音声の明瞭性が劣化する原因と
なる。

【００１３】また、音声合成単位を接続する際にフィル
タ係数などのパラメータの補間を行うことによって、ス
ペクトルの凹凸が平均化されてなまってしまい、合成音
声が不明瞭になってしまうという問題がある。例えば、
連続する２つの音声合成単位のＬＰＣ係数の周波数特性
がそれぞれ図１５（ａ）（ｂ）に示されるように表され
ているとすると、これら２つのフィルタ係数を補間する
ことによって得られるフィルタの周波数特性は図１５
（ｃ）に示されるようにスペクトルの凹凸が平均化され
てなまってしまう場合があり、これも合成音声の明瞭性
が劣化する原因となり得る。

【００１４】また、残差波形のピークの位置がフレーム
毎に異なる場合、有声音源のピッチが乱れるという問題
がある。例えば、図１６に示されるように残差波形を等
間隔Ｔで配置したとしても、各残差波形のピークの位置
が異なると、合成音声信号のピッチのハーモニクスが乱
れ、音質劣化の原因となる。

【００１５】本発明は、上記の問題点を解決すべくなさ
れたもので、テキスト音声合成において高品質の合成音
声を得るのに適した音声合成方法を提供することを目的
とする。

【００１６】

【課題を解決するための手段】上述した目的を達成する
ために、本発明は予め記憶した複数の音声合成単位の情
報から選択された情報を接続することによって合成音声
信号を生成する音声合成方法において、声道フィルタの
フィルタ係数として用いられる音声のスペクトルパラメ
ータに従ってフィルタ係数が決定されるホルマント強調
フィルタを設け、このフィルタにより合成音声信号のホ
ルマントを強調するようにしたことを骨子とする。

【００１７】すなわち、本発明に係る第１の音声合成方
法は、予め記憶した複数の音声合成単位の情報から選択
された情報を接続することによって合成音声信号を生成
する音声合成方法において、予め記憶した音声合成単位
の情報が少なくとも音声のスペクトルパラメータを含
み、選択されたスペクトルパラメータに従ってフィルタ
係数が決定されるホルマント強調フィルタにより合成音
声信号のホルマントを強調することによって、なまった
スペクトルが整形され、明瞭な合成音声が得られるよう
にしたものである。

【００１８】本発明に係る第２の音声合成方法は、予め
記憶した音声合成単位の情報が少なくとも音声のスペク
トルパラメータと１ピッチ周期の声道フィルタ駆動信号
を含み、選択されたスペクトルパラメータに従ってフィ
ルタ係数が決定されるホルマント強調フィルタにより合
成音声信号のホルマントをスペクトルを強調することに
よって、より少ない計算量で明瞭な合成音声が得られる
ようにしたものである。

【００１９】本発明に係る第３の音声合成方法は、予め
記憶した音声合成単位の情報に少なくとも音声の１ピッ
チ周期の波形のホルマントを強調した波形を含ませるこ
とによって、音声合成時にホルマント強調処理を行うこ
となく、明瞭な合成音声が得られるようにしたものであ
る。

【００２０】本発明に係る第４の音声合成方法は、予め
記憶した音声合成単位の情報が少なくとも音声のスペク
トルパラメータを含み、選択されたスペクトルパラメー
タに従ってフィルタ係数が決定されるホルマント強調フ
ィルタにより合成音声信号のホルマントを整形すると共
に、音声のピッチパラメータに従ってフィルタ係数が決
定されるピッチ強調フィルタにより合成音声信号のピッ
チを強調することによって、なまったスペクトルが整形
されると同時に、ピッチのハーモニクスの乱れのない明
瞭かつ高品質の合成音声が得られるようにしたものであ
る。

【００２１】本発明の第５に係る音声合成方法は、予め
記憶した音声合成単位の情報が少なくとも音声のスペク
トルパラメータと１ピッチ周期の声道フィルタ駆動信号
を含み、選択されたスペクトルパラメータに従ってフィ
ルタ係数が決定されるホルマント強調フィルタにより合
成音声信号のホルマントを強調すると共に、音声のピッ
チパラメータに従ってフィルタ係数が決定されるピッチ
強調フィルタにより合成音声信号のピッチを強調するこ
とによって、より少ない計算量でなまったスペクトルが
整形されると同時に、ピッチのハーモニクスの乱れのな
い明瞭かつ高品質の合成音声が得られるようにしたもの
である。

【００２２】本発明に係る第６の音声合成方法は、予め
記憶した音声合成単位の情報が少なくとも音声の１ピッ
チ周期の波形のホルマントを強調した波形を含み、さら
に音声のピッチパラメータに従ってフィルタ係数が決定
されるピッチ強調フィルタにより合成音声信号のピッチ
を強調することによって、音声合成時にホルマント強調
処理を行うことなく、明瞭でかつピッチのハーモニクス
の乱れのない高品質の合成音声が得られるようにしたも
のである。

【００２３】

【発明の実施の形態】

（第１の実施形態）図１に、本発明の第１の音声合成方
法を適用した第１の実施形態に係る音声合成装置の構成
を示す。この音声合成装置は、残差波形記憶部１１、有
声音源生成部１２、無声音源生成部１３、ＬＰＣ係数記
憶部１４、ＬＰＣ係数補間部１５、声道フィルタ部１
６、および本発明において新たに設けられたホルマント
強調フィルタ部１７から構成される。

【００２４】残差波形記憶部１１は、複数の音声合成単
位の情報として、声道フィルタ駆動信号の基となる１ピ
ッチ周期の複数の残差波形を予め記憶しており、これら
の残差波形の中から波形選択情報１０１に従って選択さ
れた一つの１ピッチ周期長残差波形１０２を出力する。
有声音源生成部１２は、フレーム平均ピッチ１０３を周
期として１ピッチ周期長残差波形１０２を繰り返し、こ
の繰り返し波形にフレーム平均パワー１０２を乗じるこ
とによって有声音源信号１０５を生成する。この有声音
源信号１０５は、有声／無声判別情報１０７により判別
される有声区間において出力され、声道フィルタ部１６
に入力される。無声音源生成部１３は、フレーム平均パ
ワー１０２に基づいて白色雑音などで表現される無声音
源信号１０６を出力する。この無声音源信号１０６は、
有声／無声判別情報１０７により判別される無声区間に
おいて出力され、声道フィルタ部１６に入力される。

【００２５】ＬＰＣ係数記憶部１４は、別の複数の音声
合成単位の情報として、予め自然音声に線形予測分析
（ＬＰＣ分析）を行って求められた複数のＬＰＣ係数を
記憶しており、ＬＰＣ係数選択情報１０８に従って一つ
のＬＰＣ係数１０９が選択的に出力される。残差波形記
憶部１１は、これらのＬＰＣ係数で逆フィルタリングを
行うことによって得られる残差波形から切り出された１
ピッチ周期の波形を記憶している。ＬＰＣ係数補間部１
５は、フレーム間でＬＰＣ係数が不連続とならないよう
に前フレームのＬＰＣ係数と現フレームのＬＰＣ係数１
０９とを補間してＬＰＣ係数１１０を出力する。声道フ
ィルタ部１６は、入力された有声音源信号１０５または
無声音源信号１０６によってＬＰＣ係数１１０をフィル
タ係数とする声道フィルタを駆動し、合成音声信号１１
１を出力する。

【００２６】そして、ホルマント強調フィルタ部１７
は、ＬＰＣ係数１１２に従って決定されるフィルタ係数
で合成音声信号１１１にフィルタリングを行って、ホル
マント（スペクトルの山の部分）を強調し、音韻記号１
１３を出力する。すなわち、ホルマント強調フィルタで
は音声のスペクトルパラメータに従ったフィルタ係数を
必要とするが、この種の音声合成装置では声道フィルタ
部１６のフィルタ係数をスペクトルパラメータであるＬ
ＰＣ係数に従って設定することに着目し、ＬＰＣ係数補
間部１５から出力されたＬＰＣ係数１１２に従ってホル
マント強調フィルタ部１７のフィルタ係数を設定してい
る。

【００２７】このようにホルマント強調フィルタ部１７
により合成音声信号１１１のホルマントを強調すること
によって、図１３および図１４で説明したような原因で
なまったスペクトルが整形され、明瞭な合成音声を得る
ことができる。

【００２８】図２は、有声音源生成部１２の上述と異な
る他の構成例を示す図である。同図において、ピッチ周
期記憶部２４はフレーム平均ピッチ１０３を記憶し、前
フレームのフレーム平均ピッチ２０４を出力する。ピッ
チ周期補間部２５は、この前フレームのフレーム平均ピ
ッチ２０４から現フレームのフレーム平均ピッチ１０３
にピッチ周期が滑らかに変化するようにピッチ周期の補
間を行い、波形重畳位置指定情報２０５を出力する。乗
算器２１は、１ピッチ周期長残差波形１０２にフレーム
平均パワー１０２を乗じて１ピッチ周期長残差波形２０
１を出力する。ピッチ波形記憶部２２は、１ピッチ周期
長残差波形２０１を記憶し、１フレーム前の１ピッチ周
期長残差波形２０２を出力する。波形補間部２３は、波
形重畳位置指定情報２０５に従った重みを付けて１ピッ
チ周期長残差波形２０１と１ピッチ周期長残差波形２０
２の補間を行い、補間後の１ピッチ周期長残差波形２０
３を出力する。波形重畳処理部２６は、波形重畳位置指
定情報２０５で指定される波形重畳位置に１ピッチ周期
長残差波形２０３を重畳することによって、有声音源信
号１０５を生成して出力する。

【００２９】次に、ホルマント強調フィルタ部１７の構
成例について説明する。第１の構成例では、ホルマント
強調フィルタを全極フィルタで構成する。このホルマン
ト強調フィルタの伝達関数は、次式で表される。

【００３０】

【数１】

【００３１】但し、α_i はＬＰＣ係数、Ｎはフィルタ次
数、βは０＜β＜１の定数である。ここで、声道フィル
タの伝達関数をＨ（ｚ）とするとＱ₁ （ｚ）＝Ｈ（ｚ／
β）であるから、Ｑ₁ （ｚ）はＨ（ｚ）の極ｐ_i （ｉ＝
１，…，Ｎ）をβｐ_i （ｉ＝１，…，Ｎ）でそれぞれ置
き換えたものと言える。言い換えれば、Ｑ₁ （ｚ）はＨ
（ｚ）の全ての極を一定の割合βで原点に近付けたもの
であるから、Ｈ（ｚ）と比較してＱ₁ （ｚ）の周波数ス
ペクトルは凹凸がなまったものとなる。よって、βが大
きいほどホルマント強調の度合いが大きくなる。

【００３２】ホルマント強調フィルタ部１７の第２の構
成例では、ホルマント強調フィルタを極零型フィルタと
固定の特性を持つ１次のハイパスフィルタの縦続接続で
構成する。このホルマント強調フィルタの伝達関数は、
次式で表される。

【００３３】

【数２】

【００３４】但し、γは０＜γ＜βの定数であり、μは
０＜μ＜１の定数である。この場合は、極零フィルタに
よってホルマント強調を行い、極零フィルタの周波数特
性の余分なスペクトル傾きを１次のハイパスフィルタに
よって補正している。

【００３５】なお、ホルマント強調フィルタ部１７の構
成は上述した二つの例に限定されるものでない。また、
声道フィルタ部１６とホルマント強調フィルタ部１７の
位置を逆にした構成も可能である。すなわち、声道フィ
ルタ部１６およびホルマント強調フィルタ１７はいずれ
も線形システムであるから、その位置を入れ換えても同
様の効果が得られる。

【００３６】このように本実施形態の音声合成装置で
は、声道フィルタ部１６と縦続してホルマント強調強調
フィルタ部１７を配置し、そのフィルタ係数をＬＰＣ係
数に従って設定することにより、図１３や図１４で説明
したような原因でなまった合成音声信号のスペクトルが
整形され、明瞭な合成音声を得ることが可能となる。

【００３７】（第２の実施形態）次に、本発明の第２の
実施形態に係る音声合成装置の構成を図３に示す。図３
において、図１と同一の参照番号を付した構成要素は図
１と同じ機能を有するものとして説明を省略する。

【００３８】本実施形態では、有声／無声判別情報１０
７により判別される無声区間においては、第１の実施形
態と同様に、無声音源生成部１３で生成された無声音源
信号を駆動信号とし、ＬＰＣ補間部１５から出力された
ＬＰＣ係数１１０をフィルタ係数とする声道フィルタ部
１６で合成された無声音声信号３０３を出力する。一
方、有声／無声判別情報１０７により判別される有声区
間においては、以下に示すように第１の実施形態とは異
なる手順で処理が行われる。

【００３９】声道フィルタ部３１は、残差波形記憶部１
１から出力される１ピッチ周期長残差波形１０２を声道
フィルタ駆動信号とし、ＬＰＣ係数記憶部１４から出力
されるＬＰＣ係数１０９をフィルタ係数として１ピッチ
周期長音声波形３０１を合成する。ホルマント強調フィ
ルタ部１７は、ＬＰＣ係数１０９をフィルタ係数１１２
とするホルマント強調フィルタにより１ピッチ周期長音
声波形３０１にフィルタリングを行ってホルマントを強
調し、１ピッチ周期長音声波形３０２を出力する。この
１ピッチ周期長音声波形３０２は、有声音生成部３２に
入力される。

【００４０】有声音生成部３２は、図２に示した有声音
源生成部１２と同一の構成で実現することができる。た
だし、図２の構成で有声音生成部３２を実現する場合、
有声音源生成部１２では１ピッチ周期長残差波形１０２
が入力されるのに対して、１ピッチ周期長音声波形３０
２が入力されるため、出力は有声音源信号１０５ではな
く有声音声信号３０４となる。そして、有声／無声判別
情報１０７により判別される無声区間においては無声音
声信号３０３を選択し、また有声区間においては有声音
声信号３０４を選択して合成音声信号３０５を出力す
る。

【００４１】本実施形態によれば、有声音声信号を合成
する場合、声道フィルタ部３１およびホルマント強調フ
ィルタ部１７においてフィルタリングをかける長さが１
フレーム当たり１ピッチ周期長で良く、またＬＰＣ係数
の補間が不要となるため、第１の実施形態と比較して少
ない計算量で同様の効果を得ることができる。

【００４２】なお、本実施形態では有声音声信号のみに
ホルマント強調を行っているが、無声音声信号３０３に
も有声音声信号の場合と同様にホルマント強調フィルタ
部を設けてホルマント強調を行う構成も可能である。

【００４３】また、本実施形態においてもホルマント強
調フィルタ部１７と声道フィルタ部３１の位置を逆にし
た構成も可能である。（第３の実施形態）次に、本発明の第３の実施形態に係
る音声合成装置の構成を図４に示す。図４において、図
３と同一の参照番号を付した構成要素は図３と同じ機能
を有するものとして説明を省略する。

【００４４】図３で説明した第２の実施形態では１ピッ
チ周期長音声波形３０１にホルマント強調を行うように
なっていたのに対して、本実施形態は合成音声信号３０
５に対してホルマント強調を行うようにした点が第２の
実施形態と異なる。従って、本実施形態によっても第２
の実施形態と同様の効果を得ることができる。

【００４５】（第４の実施形態）次に、本発明の第４の
実施形態に係る音声合成装置の構成を図５に示す。図５
において、図３と同一の参照番号を付した構成要素は図
３と同じ機能を有するものとして説明を省略する。

【００４６】本実施形態では、ピッチ波形記憶部４１に
１ピッチ周期長音声波形を記憶し、記憶されている１ピ
ッチ周期長音声波形の中から波形選択情報１０１に従っ
て１ピッチ周期長音声波形３０２を出力する。ここで、
ピッチ波形記憶部４１に記憶されている１ピッチ周期長
音声波形は、予め図６に示される処理を行ってホルマン
トを強調した波形である。

【００４７】すなわち、図３の構成においてはオンライ
ンで行っていた処理を本実施形態では図６の構成におい
て予めオフラインで行い、残差波形記憶部１１およびＬ
ＰＣ係数記憶部１４から出力された残差波形およびＬＰ
Ｃ係数に基づいて声道フィルタ部３１で合成した合成音
声信号３０１に対してホルマント強調フィルタ１１２で
ホルマント強調を行って、全ての音声合成単位について
１ピッチ周期長音声波形を求め、それらをピッチ波形記
憶部４１に記憶するようにしたものである。従って、本
実施形態によると、１ピッチ周期長音声波形の合成およ
びホルマント強調に必要な計算量を削減することができ
る。

【００４８】（第５の実施形態）次に、本発明の第５の
実施形態に係る音声合成装置の構成を図７に示す。図７
において、図５と同一の参照番号を付した構成要素は図
５と同じ機能を有するものとして説明を省略する。本実
施形態では、無声音声記憶部４２に記憶されている無声
音声の中から、無声音声選択情報６０１に従って選択し
た無声音声３０３を出力するものである。本実施形態に
よると、図５で説明した第４の実施形態と比較して、無
声音声信号を合成する際に声道フィルタによるフィルタ
リングを行う必要がないため、さらに計算量が削減され
る。

【００４９】（第６の実施形態）次に、本発明の第６の
実施形態に係る音声合成装置の構成を図８に示す。図８
において、図１７と同一の参照番号を付した構成要素は
図１７と同じ機能を有するものとして説明を省略する。

【００５０】本実施形態は、図１７の構成にピッチ強調
フィルタ部５１が追加された構成となっている。このピ
ッチ強調フィルタ部５１は、フレーム平均ピッチ１０３
に従って係数が決定されるピッチ強調フィルタによって
合成音声信号１１１にフィルタリングを行い、ピッチを
強調して合成音声信号５０１を出力する。ピッチ強調フ
ィルタ部５１は、例えば次の伝達関数を持つフィルタに
よって実現される。

【００５１】

【数３】ここで、ｐはピッチ周期であり、γとλはピッチゲイン
に基づいて次式のように計算される。

【００５２】

【数４】

【００５３】Ｃ_z ，Ｃ_p はピッチの強調の度合いを制御
するための定数であり、経験的に決められる。また、ｆ
（ｘ）は処理する信号が周期性を含まない無声音声信号
のとき不要なピッチ強調を避けるため用いられる制御因
子である。ｘはピッチゲインに対応し、このｘがあるし
きい値（典型的に０．６）より小さいとき無声音と判定
し、ｆ（ｘ）＝０とする。ｘがしきい値以上のときはｆ
（ｘ）＝ｘとする。ｘが１を超えると、安定性を保つた
めｆ（ｘ）＝１とする。Ｃ_g は無声音と有声音でフィル
タのゲインが変動するのを吸収するためのもので、次式
のように計算される。

【００５４】

【数５】

【００５５】本実施形態によると、ピッチ強調フィルタ
部５１を新たに設けたことにより、今まで説明した実施
形態におけるなまったスペクトルをホルマント強調によ
り整形することによる合成音声の明瞭化の効果に加え
て、図１５で説明したような原因に基づく合成音声信号
のピッチのハーモニクスの乱れが改善されることによっ
て、より品質のよい合成音声を得ることができる。

【００５６】（第７の実施形態）次に、本発明の第７の
実施形態に係る音声合成装置の構成を図９に示す。本実
施形態は、図１で説明した第１の実施形態の音声合成装
置に第６の実施形態で説明したようなピッチ強調フィル
タ部５１を付加したものである。

【００５７】（第８の実施形態）次に、本発明の第８の
実施形態に係る音声合成装置の構成を図１０に示す。図
１０において、図９と同一の参照番号を付した構成要素
は図９と同じ機能を有するものとして説明を省略する。

【００５８】本実施形態は、図９での説明した第７の実
施形態の音声合成装置にゲイン調整部６１が追加された
構成となっている。このゲイン調整部６１は、ホルマン
ト強調フィルタ部１７およびピッチ強調フィルタ部５１
の総合のゲインを補正するためのものであり、最終出力
の合成音声信号６０１と声道フィルタ部１６から出力さ
れる合成音声信号１１１のパワーが等しくなるように、
ピッチ強調フィルタ部５１の出力信号に乗算器６２によ
って所定のゲインを乗じている。

【００５９】（第９の実施形態）次に、本発明の第９の
実施形態に係る音声合成装置の構成を図１１に示す。本
実施形態は、図３で説明した第２の実施形態の音声合成
装置にピッチ強調フィルタ部５１を付加したものであ
る。

【００６０】（第１０の実施形態）次に、本発明の第１
０の実施形態に係る音声合成装置の構成を図１２に示
す。本実施形態は、図５で説明した第５の実施形態の音
声合成装置ピッチ強調フィルタ部５１を付加したもので
ある。

【００６１】

【発明の効果】以上説明したように、本発明によればホ
ルマント強調さらにはピッチ強調を行った合成音声信号
を生成することができ、もって明瞭かつ高品質の再生音
声が得られる音声合成方法を提供することができる。

【図面の簡単な説明】

【図１】本発明に係る第１の実施形態を示すブロック図

【図２】本発明における有声音源生成部の一構成例を示
すブロック図

【図３】本発明に係る第２の実施形態を示すブロック図

【図４】本発明に係る第３の実施形態を示すブロック図

【図５】本発明に係る第４の実施形態を示すブロック図

【図６】本発明における１ピッチ長音声波形の生成法の
一例を示すブロック図

【図７】本発明に係る第５の実施形態を示すブロック図

【図８】本発明に係る第６の実施形態を示すブロック図

【図９】本発明に係る第７の実施形態を示すブロック図

【図１０】本発明に係る第８の実施形態を示すブロック
図

【図１１】本発明に係る第９の実施形態を示すブロック
図

【図１２】本発明に係る第１０の実施形態を示すブロッ
ク図

【図１３】音声信号のスペクトル、スペクトル包絡およ
び基本周波数の関係を示す図

【図１４】分析した音声信号のスペクトルと基本周波数
を変更して合成した合成音声のスペクトルの関係を示す
図

【図１５】２つの合成フィルタの周波数特性とそれらを
補間して得られるフィルタの周波数特性の関係を示す図

【図１６】有声音源信号のピッチの乱れを示す図

【図１７】従来の音声合成装置のブロック図

【符号の説明】

１１…ＬＰＣ係数補間部１２…残差波形記憶部１３…ＬＰＣ係数記憶部１４…無声音源生成部１５…声道フィルタ部１６…有声音源生成部１７…ホルマント強調フィルタ部４１…ピッチ波形記憶部４２…無声音声記憶部５１…ピッチ強調フィルタ部６１…ゲイン調整部６２…乗算器

Claims

【特許請求の範囲】

【請求項１】予め記憶した複数の音声合成単位の情報か
ら選択された情報を接続することによって合成音声信号
を生成する音声合成方法において、前記音声合成単位の情報が少なくとも音声のスペクトル
パラメータを含み、選択されたスペクトルパラメータに
従ってフィルタ係数が決定されるホルマント強調フィル
タにより前記合成音声信号のホルマントを強調すること
を特徴とする音声合成方法。
【請求項２】予め記憶した複数の音声合成単位の情報か
ら選択された情報を接続することによって合成音声信号
を生成する音声合成方法において、前記音声合成単位の情報が少なくとも音声のスペクトル
パラメータと１ピッチ周期の声道フィルタ駆動信号を含
み、選択されたスペクトルパラメータに従ってフィルタ
係数が決定されるホルマント強調フィルタにより前記合
成音声信号のホルマントを強調することを特徴とする音
声合成方法。
【請求項３】予め記憶した複数の音声合成単位の情報か
ら選択された情報を接続することによって合成音声信号
を生成する音声合成方法において、前記音声合成単位の情報が少なくとも音声の１ピッチ周
期の波形のホルマントを強調した波形を含むことを特徴
とする音声合成方法。
【請求項４】予め記憶した複数の音声合成単位の情報か
ら選択された情報を接続することによって合成音声信号
を生成する音声合成方法において、前記音声合成単位の情報が少なくとも音声のスペクトル
パラメータを含み、選択されたスペクトルパラメータに
従ってフィルタ係数が決定されるホルマント強調フィル
タにより前記合成音声信号のホルマントを整形すると共
に、音声のピッチパラメータに従ってフィルタ係数が決
定されるピッチ強調フィルタにより前記合成音声信号の
ピッチを強調することを特徴とする音声合成方法。
【請求項５】予め記憶した複数の音声合成単位の情報か
ら選択された情報を接続することによって合成音声信号
を生成する音声合成方法において、前記音声合成単位の情報が少なくとも音声のスペクトル
パラメータと１ピッチ周期の声道フィルタ駆動信号を含
み、選択されたスペクトルパラメータに従ってフィルタ
係数が決定されるホルマント強調フィルタにより前記合
成音声信号のホルマントを強調すると共に、音声のピッ
チパラメータに従ってフィルタ係数が決定されるピッチ
強調フィルタにより前記合成音声信号のピッチを強調す
ることを特徴とする音声合成方法。
【請求項６】予め記憶した複数の音声合成単位の情報か
ら選択された情報を接続することによって合成音声信号
を生成する音声合成方法において、前記音声合成単位の情報が少なくとも音声の１ピッチ周
期の波形のホルマントを強調した波形を含み、さらに音
声のピッチパラメータに従ってフィルタ係数が決定され
るピッチ強調フィルタにより前記合成音声信号のピッチ
を強調することを特徴とする音声合成方法。