JPH09160595A - 音声合成方法 - Google Patents

音声合成方法

Info

Publication number
JPH09160595A
JPH09160595A JP7315431A JP31543195A JPH09160595A JP H09160595 A JPH09160595 A JP H09160595A JP 7315431 A JP7315431 A JP 7315431A JP 31543195 A JP31543195 A JP 31543195A JP H09160595 A JPH09160595 A JP H09160595A
Authority
JP
Japan
Prior art keywords
speech
pitch
filter
signal
formant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7315431A
Other languages
English (en)
Inventor
Takehiko Kagojima
岳彦 籠嶋
Masami Akamine
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP7315431A priority Critical patent/JPH09160595A/ja
Priority to US08/758,772 priority patent/US6240384B1/en
Publication of JPH09160595A publication Critical patent/JPH09160595A/ja
Priority to US09/722,047 priority patent/US6332121B1/en
Priority to US09/984,254 priority patent/US6553343B1/en
Priority to US10/265,458 priority patent/US6760703B2/en
Priority to US10/792,888 priority patent/US7184958B2/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】テキスト音声合成において高品質の合成音声を
得るのに適した音声合成方法を提供する。 【解決手段】予め記憶した複数の音声合成単位の情報か
ら選択された情報を接続することによって合成音声信号
を生成する音声合成方法において、声道フィルタ部16
の係数として用いられる音声のスペクトルパラメータで
あるLPC係数をフィルタ係数112とするホルマント
強調フィルタ部17を設け、このフィルタ17により合
成音声信号のホルマントを強調する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はテキスト音声合成シ
ステムにおいて、音韻記号列、ピッチおよび音韻継続時
間長などの情報から合成音声信号を生成する音声合成方
法に関する。
【0002】
【従来の技術】任意の文章(テキスト)から人工的に音
声信号を作り出すことをテキスト音声合成という。通
常、テキスト音声合成システムは、言語処理部、音韻処
理部および音声信号生成部の3つの要素から構成され
る。入力されたテキストは、まず言語処理部において形
態素解析や構文解析などが行われ、次に韻律処理部にお
いてアクセントやイントネーションの処理が行われて、
音韻記号列、ピッチおよび音韻継続時間長などの情報が
出力される。最後に、音声信号生成部すなわち音声合成
器は、音韻記号列、ピッチおよび音韻継続時間長などの
情報から音声信号を合成する。従って、テキスト音声合
成に用いる音声合成方式は、任意の音韻記号列を合成す
ることが可能な方式でなければならない。
【0003】このような任意の音韻記号列を合成するこ
とができる音声合成方式の原理は、音節、音素および1
ピッチ区間などの基本となる音声合成単位の情報である
特徴パラメータをピッチや継続時間長を制御して接続す
るものである。ピッチと継続時間長を制御して任意の音
韻記号列を合成することができる音声合成装置の方式と
して、ボコーダ方式やホルマント合成方式が従来知られ
ている。これらの方式は、声帯の信号をモデル化した駆
動信号により、声道の特性をモデル化した声道フィルタ
を駆動することで音声を合成するものであるが、モデル
化の精度が不十分であるため合成音声は不明瞭なものと
なっていた。
【0004】そこで、モデル化の精度を上げて音質の向
上を図った方法として、例えば特開昭58−80699
号「音声合成方式」に開示されているように、自然音声
を分析して得られるスペクトルパラメータに基づいて声
道フィルタを制御し、声道フィルタの逆フィルタで音声
信号を処理することによって得られる残差波形を声道フ
ィルタの駆動信号とする方法がある。
【0005】図17に、この方式の一例である残差駆動
のLPC方式を用いた従来の音声合成装置の構成を示
す。この音声合成装置は、残差波形記憶部11、有声音
源生成部12、無声音源生成部13、LPC係数記憶部
14、LPC係数補間部15、および声道フィルタ部1
6から構成される。
【0006】残差波形記憶部11は、複数の音声合成単
位の情報として複数の残差波形を予め記憶しており、こ
れらの残差波形の中から波形選択情報101に従って選
択された1ピッチ周期長残差波形102を出力する。有
声音源生成部12は、フレーム平均ピッチ103を周期
として1ピッチ周期長残差波形102を繰り返し、この
繰り返し波形にフレーム平均パワー102を乗じること
によって有声音源信号105を生成する。この有声音源
信号105は、有声/無声判別情報107により判別さ
れる有声区間において出力され、声道フィルタ部16に
入力される。無声音源生成部13は、フレーム平均パワ
ー102に基づいて白色雑音などで表現される無声音源
信号106を出力する。この無声音源信号106は、有
声/無声判別情報107により判別される無声区間にお
いて出力され、声道フィルタ部16に入力される。
【0007】LPC係数記憶部14は、別の音声合成単
位の情報である複数のLPC係数を記憶しており、LP
C係数選択情報108に従って一つのLPC係数109
が選択的に出力される。LPC係数補間部15は、フレ
ーム間でLPC係数が不連続とならないように前フレー
ムのLPC係数と現フレームのLPC係数109とを補
間してLPC係数110を出力する。
【0008】声道フィルタ部16は、有声音源信号10
5または無声音源信号106によってLPC係数110
を係数とする声道フィルタを駆動し、合成音声信号11
1を出力する。
【0009】この音声合成装置では、予め自然音声に線
形予測分析を行って求められた種々のLPC係数をLP
C係数記憶部14に記憶させ、またこれらのLPC係数
で逆フィルタリングを行うことによって得られる残差波
形から1ピッチ周期の波形を切り出して残差波形記憶部
11に記憶させておく。このように、自然音声を分析し
て得られるLPC係数のようなパラメータを声道フィル
タや音源信号に適用しているため、モデル化の精度が高
く、比較的自然音声に近い合成音声を得ることができ
る。
【0010】
【発明が解決しようとする課題】しかし、上述した従来
の音声合成装置では、高精度にモデル化を行っていたと
しても、LPC係数や残差波形を求める際に分析した自
然音声とはピッチ周期が異なる音声を合成する場合にス
ペクトル歪みが生じることは避けられない。
【0011】例えば、ある音韻の音声のスペクトル包絡
が図13(a)に示すように表されたとすると、その音
韻を基本周波数fで発生した場合の音声信号のパワース
ペクトルは、図13(b)に示されるようにスペクトル
包絡を周波数間隔fでサンプリングした離散的なスペク
トルとなる。同様に、基本周波数f′で発声した場合の
音声信号のパワースペクトルは、図13(c)に示され
るようにスペクトル包絡を周波数間隔f′でサンプリン
グした離散的なスペクトルとなる。
【0012】ここで、基本周波数fで発声された図13
(b)に示されるスペクトルを持つ音声を分析してスペ
クトル包絡を求めることによって、LPC係数記憶部1
4に記憶するLPC係数を求めることを考える。音声信
号の場合は、一般に、図13(b)に示すような離散的
なスペクトルから図13(a)に示すような真のスペク
トル包絡を求めることは原理的には不可能である。そこ
で、音声を分析することによって求められたスペクトル
包絡は、図14(a)の破線で示されるように離散点で
は真のスペクトル包絡と等しくなっても、それ以外の周
波数では誤差が生じる可能性がある。よって、得られた
スペクトル包絡は図14(b)に示されるように、真の
スペクトル包絡に対して山の部分(ホルマント)がなま
ったスペクトルになることがある。この場合、fと異な
る基本周波数f′で音声合成を行って得られる合成音声
のスペクトルは、図14(c)に示されるように、図1
3(c)に示される自然音声のスペクトルと比較してな
まったものとなり、合成音声の明瞭性が劣化する原因と
なる。
【0013】また、音声合成単位を接続する際にフィル
タ係数などのパラメータの補間を行うことによって、ス
ペクトルの凹凸が平均化されてなまってしまい、合成音
声が不明瞭になってしまうという問題がある。例えば、
連続する2つの音声合成単位のLPC係数の周波数特性
がそれぞれ図15(a)(b)に示されるように表され
ているとすると、これら2つのフィルタ係数を補間する
ことによって得られるフィルタの周波数特性は図15
(c)に示されるようにスペクトルの凹凸が平均化され
てなまってしまう場合があり、これも合成音声の明瞭性
が劣化する原因となり得る。
【0014】また、残差波形のピークの位置がフレーム
毎に異なる場合、有声音源のピッチが乱れるという問題
がある。例えば、図16に示されるように残差波形を等
間隔Tで配置したとしても、各残差波形のピークの位置
が異なると、合成音声信号のピッチのハーモニクスが乱
れ、音質劣化の原因となる。
【0015】本発明は、上記の問題点を解決すべくなさ
れたもので、テキスト音声合成において高品質の合成音
声を得るのに適した音声合成方法を提供することを目的
とする。
【0016】
【課題を解決するための手段】上述した目的を達成する
ために、本発明は予め記憶した複数の音声合成単位の情
報から選択された情報を接続することによって合成音声
信号を生成する音声合成方法において、声道フィルタの
フィルタ係数として用いられる音声のスペクトルパラメ
ータに従ってフィルタ係数が決定されるホルマント強調
フィルタを設け、このフィルタにより合成音声信号のホ
ルマントを強調するようにしたことを骨子とする。
【0017】すなわち、本発明に係る第1の音声合成方
法は、予め記憶した複数の音声合成単位の情報から選択
された情報を接続することによって合成音声信号を生成
する音声合成方法において、予め記憶した音声合成単位
の情報が少なくとも音声のスペクトルパラメータを含
み、選択されたスペクトルパラメータに従ってフィルタ
係数が決定されるホルマント強調フィルタにより合成音
声信号のホルマントを強調することによって、なまった
スペクトルが整形され、明瞭な合成音声が得られるよう
にしたものである。
【0018】本発明に係る第2の音声合成方法は、予め
記憶した音声合成単位の情報が少なくとも音声のスペク
トルパラメータと1ピッチ周期の声道フィルタ駆動信号
を含み、選択されたスペクトルパラメータに従ってフィ
ルタ係数が決定されるホルマント強調フィルタにより合
成音声信号のホルマントをスペクトルを強調することに
よって、より少ない計算量で明瞭な合成音声が得られる
ようにしたものである。
【0019】本発明に係る第3の音声合成方法は、予め
記憶した音声合成単位の情報に少なくとも音声の1ピッ
チ周期の波形のホルマントを強調した波形を含ませるこ
とによって、音声合成時にホルマント強調処理を行うこ
となく、明瞭な合成音声が得られるようにしたものであ
る。
【0020】本発明に係る第4の音声合成方法は、予め
記憶した音声合成単位の情報が少なくとも音声のスペク
トルパラメータを含み、選択されたスペクトルパラメー
タに従ってフィルタ係数が決定されるホルマント強調フ
ィルタにより合成音声信号のホルマントを整形すると共
に、音声のピッチパラメータに従ってフィルタ係数が決
定されるピッチ強調フィルタにより合成音声信号のピッ
チを強調することによって、なまったスペクトルが整形
されると同時に、ピッチのハーモニクスの乱れのない明
瞭かつ高品質の合成音声が得られるようにしたものであ
る。
【0021】本発明の第5に係る音声合成方法は、予め
記憶した音声合成単位の情報が少なくとも音声のスペク
トルパラメータと1ピッチ周期の声道フィルタ駆動信号
を含み、選択されたスペクトルパラメータに従ってフィ
ルタ係数が決定されるホルマント強調フィルタにより合
成音声信号のホルマントを強調すると共に、音声のピッ
チパラメータに従ってフィルタ係数が決定されるピッチ
強調フィルタにより合成音声信号のピッチを強調するこ
とによって、より少ない計算量でなまったスペクトルが
整形されると同時に、ピッチのハーモニクスの乱れのな
い明瞭かつ高品質の合成音声が得られるようにしたもの
である。
【0022】本発明に係る第6の音声合成方法は、予め
記憶した音声合成単位の情報が少なくとも音声の1ピッ
チ周期の波形のホルマントを強調した波形を含み、さら
に音声のピッチパラメータに従ってフィルタ係数が決定
されるピッチ強調フィルタにより合成音声信号のピッチ
を強調することによって、音声合成時にホルマント強調
処理を行うことなく、明瞭でかつピッチのハーモニクス
の乱れのない高品質の合成音声が得られるようにしたも
のである。
【0023】
【発明の実施の形態】
(第1の実施形態)図1に、本発明の第1の音声合成方
法を適用した第1の実施形態に係る音声合成装置の構成
を示す。この音声合成装置は、残差波形記憶部11、有
声音源生成部12、無声音源生成部13、LPC係数記
憶部14、LPC係数補間部15、声道フィルタ部1
6、および本発明において新たに設けられたホルマント
強調フィルタ部17から構成される。
【0024】残差波形記憶部11は、複数の音声合成単
位の情報として、声道フィルタ駆動信号の基となる1ピ
ッチ周期の複数の残差波形を予め記憶しており、これら
の残差波形の中から波形選択情報101に従って選択さ
れた一つの1ピッチ周期長残差波形102を出力する。
有声音源生成部12は、フレーム平均ピッチ103を周
期として1ピッチ周期長残差波形102を繰り返し、こ
の繰り返し波形にフレーム平均パワー102を乗じるこ
とによって有声音源信号105を生成する。この有声音
源信号105は、有声/無声判別情報107により判別
される有声区間において出力され、声道フィルタ部16
に入力される。無声音源生成部13は、フレーム平均パ
ワー102に基づいて白色雑音などで表現される無声音
源信号106を出力する。この無声音源信号106は、
有声/無声判別情報107により判別される無声区間に
おいて出力され、声道フィルタ部16に入力される。
【0025】LPC係数記憶部14は、別の複数の音声
合成単位の情報として、予め自然音声に線形予測分析
(LPC分析)を行って求められた複数のLPC係数を
記憶しており、LPC係数選択情報108に従って一つ
のLPC係数109が選択的に出力される。残差波形記
憶部11は、これらのLPC係数で逆フィルタリングを
行うことによって得られる残差波形から切り出された1
ピッチ周期の波形を記憶している。LPC係数補間部1
5は、フレーム間でLPC係数が不連続とならないよう
に前フレームのLPC係数と現フレームのLPC係数1
09とを補間してLPC係数110を出力する。声道フ
ィルタ部16は、入力された有声音源信号105または
無声音源信号106によってLPC係数110をフィル
タ係数とする声道フィルタを駆動し、合成音声信号11
1を出力する。
【0026】そして、ホルマント強調フィルタ部17
は、LPC係数112に従って決定されるフィルタ係数
で合成音声信号111にフィルタリングを行って、ホル
マント(スペクトルの山の部分)を強調し、音韻記号1
13を出力する。すなわち、ホルマント強調フィルタで
は音声のスペクトルパラメータに従ったフィルタ係数を
必要とするが、この種の音声合成装置では声道フィルタ
部16のフィルタ係数をスペクトルパラメータであるL
PC係数に従って設定することに着目し、LPC係数補
間部15から出力されたLPC係数112に従ってホル
マント強調フィルタ部17のフィルタ係数を設定してい
る。
【0027】このようにホルマント強調フィルタ部17
により合成音声信号111のホルマントを強調すること
によって、図13および図14で説明したような原因で
なまったスペクトルが整形され、明瞭な合成音声を得る
ことができる。
【0028】図2は、有声音源生成部12の上述と異な
る他の構成例を示す図である。同図において、ピッチ周
期記憶部24はフレーム平均ピッチ103を記憶し、前
フレームのフレーム平均ピッチ204を出力する。ピッ
チ周期補間部25は、この前フレームのフレーム平均ピ
ッチ204から現フレームのフレーム平均ピッチ103
にピッチ周期が滑らかに変化するようにピッチ周期の補
間を行い、波形重畳位置指定情報205を出力する。乗
算器21は、1ピッチ周期長残差波形102にフレーム
平均パワー102を乗じて1ピッチ周期長残差波形20
1を出力する。ピッチ波形記憶部22は、1ピッチ周期
長残差波形201を記憶し、1フレーム前の1ピッチ周
期長残差波形202を出力する。波形補間部23は、波
形重畳位置指定情報205に従った重みを付けて1ピッ
チ周期長残差波形201と1ピッチ周期長残差波形20
2の補間を行い、補間後の1ピッチ周期長残差波形20
3を出力する。波形重畳処理部26は、波形重畳位置指
定情報205で指定される波形重畳位置に1ピッチ周期
長残差波形203を重畳することによって、有声音源信
号105を生成して出力する。
【0029】次に、ホルマント強調フィルタ部17の構
成例について説明する。第1の構成例では、ホルマント
強調フィルタを全極フィルタで構成する。このホルマン
ト強調フィルタの伝達関数は、次式で表される。
【0030】
【数1】
【0031】但し、αi はLPC係数、Nはフィルタ次
数、βは0<β<1の定数である。ここで、声道フィル
タの伝達関数をH(z)とするとQ1 (z)=H(z/
β)であるから、Q1 (z)はH(z)の極pi (i=
1,…,N)をβpi (i=1,…,N)でそれぞれ置
き換えたものと言える。言い換えれば、Q1 (z)はH
(z)の全ての極を一定の割合βで原点に近付けたもの
であるから、H(z)と比較してQ1 (z)の周波数ス
ペクトルは凹凸がなまったものとなる。よって、βが大
きいほどホルマント強調の度合いが大きくなる。
【0032】ホルマント強調フィルタ部17の第2の構
成例では、ホルマント強調フィルタを極零型フィルタと
固定の特性を持つ1次のハイパスフィルタの縦続接続で
構成する。このホルマント強調フィルタの伝達関数は、
次式で表される。
【0033】
【数2】
【0034】但し、γは0<γ<βの定数であり、μは
0<μ<1の定数である。この場合は、極零フィルタに
よってホルマント強調を行い、極零フィルタの周波数特
性の余分なスペクトル傾きを1次のハイパスフィルタに
よって補正している。
【0035】なお、ホルマント強調フィルタ部17の構
成は上述した二つの例に限定されるものでない。また、
声道フィルタ部16とホルマント強調フィルタ部17の
位置を逆にした構成も可能である。すなわち、声道フィ
ルタ部16およびホルマント強調フィルタ17はいずれ
も線形システムであるから、その位置を入れ換えても同
様の効果が得られる。
【0036】このように本実施形態の音声合成装置で
は、声道フィルタ部16と縦続してホルマント強調強調
フィルタ部17を配置し、そのフィルタ係数をLPC係
数に従って設定することにより、図13や図14で説明
したような原因でなまった合成音声信号のスペクトルが
整形され、明瞭な合成音声を得ることが可能となる。
【0037】(第2の実施形態)次に、本発明の第2の
実施形態に係る音声合成装置の構成を図3に示す。図3
において、図1と同一の参照番号を付した構成要素は図
1と同じ機能を有するものとして説明を省略する。
【0038】本実施形態では、有声/無声判別情報10
7により判別される無声区間においては、第1の実施形
態と同様に、無声音源生成部13で生成された無声音源
信号を駆動信号とし、LPC補間部15から出力された
LPC係数110をフィルタ係数とする声道フィルタ部
16で合成された無声音声信号303を出力する。一
方、有声/無声判別情報107により判別される有声区
間においては、以下に示すように第1の実施形態とは異
なる手順で処理が行われる。
【0039】声道フィルタ部31は、残差波形記憶部1
1から出力される1ピッチ周期長残差波形102を声道
フィルタ駆動信号とし、LPC係数記憶部14から出力
されるLPC係数109をフィルタ係数として1ピッチ
周期長音声波形301を合成する。ホルマント強調フィ
ルタ部17は、LPC係数109をフィルタ係数112
とするホルマント強調フィルタにより1ピッチ周期長音
声波形301にフィルタリングを行ってホルマントを強
調し、1ピッチ周期長音声波形302を出力する。この
1ピッチ周期長音声波形302は、有声音生成部32に
入力される。
【0040】有声音生成部32は、図2に示した有声音
源生成部12と同一の構成で実現することができる。た
だし、図2の構成で有声音生成部32を実現する場合、
有声音源生成部12では1ピッチ周期長残差波形102
が入力されるのに対して、1ピッチ周期長音声波形30
2が入力されるため、出力は有声音源信号105ではな
く有声音声信号304となる。そして、有声/無声判別
情報107により判別される無声区間においては無声音
声信号303を選択し、また有声区間においては有声音
声信号304を選択して合成音声信号305を出力す
る。
【0041】本実施形態によれば、有声音声信号を合成
する場合、声道フィルタ部31およびホルマント強調フ
ィルタ部17においてフィルタリングをかける長さが1
フレーム当たり1ピッチ周期長で良く、またLPC係数
の補間が不要となるため、第1の実施形態と比較して少
ない計算量で同様の効果を得ることができる。
【0042】なお、本実施形態では有声音声信号のみに
ホルマント強調を行っているが、無声音声信号303に
も有声音声信号の場合と同様にホルマント強調フィルタ
部を設けてホルマント強調を行う構成も可能である。
【0043】また、本実施形態においてもホルマント強
調フィルタ部17と声道フィルタ部31の位置を逆にし
た構成も可能である。 (第3の実施形態)次に、本発明の第3の実施形態に係
る音声合成装置の構成を図4に示す。図4において、図
3と同一の参照番号を付した構成要素は図3と同じ機能
を有するものとして説明を省略する。
【0044】図3で説明した第2の実施形態では1ピッ
チ周期長音声波形301にホルマント強調を行うように
なっていたのに対して、本実施形態は合成音声信号30
5に対してホルマント強調を行うようにした点が第2の
実施形態と異なる。従って、本実施形態によっても第2
の実施形態と同様の効果を得ることができる。
【0045】(第4の実施形態)次に、本発明の第4の
実施形態に係る音声合成装置の構成を図5に示す。図5
において、図3と同一の参照番号を付した構成要素は図
3と同じ機能を有するものとして説明を省略する。
【0046】本実施形態では、ピッチ波形記憶部41に
1ピッチ周期長音声波形を記憶し、記憶されている1ピ
ッチ周期長音声波形の中から波形選択情報101に従っ
て1ピッチ周期長音声波形302を出力する。ここで、
ピッチ波形記憶部41に記憶されている1ピッチ周期長
音声波形は、予め図6に示される処理を行ってホルマン
トを強調した波形である。
【0047】すなわち、図3の構成においてはオンライ
ンで行っていた処理を本実施形態では図6の構成におい
て予めオフラインで行い、残差波形記憶部11およびL
PC係数記憶部14から出力された残差波形およびLP
C係数に基づいて声道フィルタ部31で合成した合成音
声信号301に対してホルマント強調フィルタ112で
ホルマント強調を行って、全ての音声合成単位について
1ピッチ周期長音声波形を求め、それらをピッチ波形記
憶部41に記憶するようにしたものである。従って、本
実施形態によると、1ピッチ周期長音声波形の合成およ
びホルマント強調に必要な計算量を削減することができ
る。
【0048】(第5の実施形態)次に、本発明の第5の
実施形態に係る音声合成装置の構成を図7に示す。図7
において、図5と同一の参照番号を付した構成要素は図
5と同じ機能を有するものとして説明を省略する。本実
施形態では、無声音声記憶部42に記憶されている無声
音声の中から、無声音声選択情報601に従って選択し
た無声音声303を出力するものである。本実施形態に
よると、図5で説明した第4の実施形態と比較して、無
声音声信号を合成する際に声道フィルタによるフィルタ
リングを行う必要がないため、さらに計算量が削減され
る。
【0049】(第6の実施形態)次に、本発明の第6の
実施形態に係る音声合成装置の構成を図8に示す。図8
において、図17と同一の参照番号を付した構成要素は
図17と同じ機能を有するものとして説明を省略する。
【0050】本実施形態は、図17の構成にピッチ強調
フィルタ部51が追加された構成となっている。このピ
ッチ強調フィルタ部51は、フレーム平均ピッチ103
に従って係数が決定されるピッチ強調フィルタによって
合成音声信号111にフィルタリングを行い、ピッチを
強調して合成音声信号501を出力する。ピッチ強調フ
ィルタ部51は、例えば次の伝達関数を持つフィルタに
よって実現される。
【0051】
【数3】 ここで、pはピッチ周期であり、γとλはピッチゲイン
に基づいて次式のように計算される。
【0052】
【数4】
【0053】Cz ,Cp はピッチの強調の度合いを制御
するための定数であり、経験的に決められる。また、f
(x)は処理する信号が周期性を含まない無声音声信号
のとき不要なピッチ強調を避けるため用いられる制御因
子である。xはピッチゲインに対応し、このxがあるし
きい値(典型的に0.6)より小さいとき無声音と判定
し、f(x)=0とする。xがしきい値以上のときはf
(x)=xとする。xが1を超えると、安定性を保つた
めf(x)=1とする。Cg は無声音と有声音でフィル
タのゲインが変動するのを吸収するためのもので、次式
のように計算される。
【0054】
【数5】
【0055】本実施形態によると、ピッチ強調フィルタ
部51を新たに設けたことにより、今まで説明した実施
形態におけるなまったスペクトルをホルマント強調によ
り整形することによる合成音声の明瞭化の効果に加え
て、図15で説明したような原因に基づく合成音声信号
のピッチのハーモニクスの乱れが改善されることによっ
て、より品質のよい合成音声を得ることができる。
【0056】(第7の実施形態)次に、本発明の第7の
実施形態に係る音声合成装置の構成を図9に示す。本実
施形態は、図1で説明した第1の実施形態の音声合成装
置に第6の実施形態で説明したようなピッチ強調フィル
タ部51を付加したものである。
【0057】(第8の実施形態)次に、本発明の第8の
実施形態に係る音声合成装置の構成を図10に示す。図
10において、図9と同一の参照番号を付した構成要素
は図9と同じ機能を有するものとして説明を省略する。
【0058】本実施形態は、図9での説明した第7の実
施形態の音声合成装置にゲイン調整部61が追加された
構成となっている。このゲイン調整部61は、ホルマン
ト強調フィルタ部17およびピッチ強調フィルタ部51
の総合のゲインを補正するためのものであり、最終出力
の合成音声信号601と声道フィルタ部16から出力さ
れる合成音声信号111のパワーが等しくなるように、
ピッチ強調フィルタ部51の出力信号に乗算器62によ
って所定のゲインを乗じている。
【0059】(第9の実施形態)次に、本発明の第9の
実施形態に係る音声合成装置の構成を図11に示す。本
実施形態は、図3で説明した第2の実施形態の音声合成
装置にピッチ強調フィルタ部51を付加したものであ
る。
【0060】(第10の実施形態)次に、本発明の第1
0の実施形態に係る音声合成装置の構成を図12に示
す。本実施形態は、図5で説明した第5の実施形態の音
声合成装置ピッチ強調フィルタ部51を付加したもので
ある。
【0061】
【発明の効果】以上説明したように、本発明によればホ
ルマント強調さらにはピッチ強調を行った合成音声信号
を生成することができ、もって明瞭かつ高品質の再生音
声が得られる音声合成方法を提供することができる。
【図面の簡単な説明】
【図1】本発明に係る第1の実施形態を示すブロック図
【図2】本発明における有声音源生成部の一構成例を示
すブロック図
【図3】本発明に係る第2の実施形態を示すブロック図
【図4】本発明に係る第3の実施形態を示すブロック図
【図5】本発明に係る第4の実施形態を示すブロック図
【図6】本発明における1ピッチ長音声波形の生成法の
一例を示すブロック図
【図7】本発明に係る第5の実施形態を示すブロック図
【図8】本発明に係る第6の実施形態を示すブロック図
【図9】本発明に係る第7の実施形態を示すブロック図
【図10】本発明に係る第8の実施形態を示すブロック
【図11】本発明に係る第9の実施形態を示すブロック
【図12】本発明に係る第10の実施形態を示すブロッ
ク図
【図13】音声信号のスペクトル、スペクトル包絡およ
び基本周波数の関係を示す図
【図14】分析した音声信号のスペクトルと基本周波数
を変更して合成した合成音声のスペクトルの関係を示す
【図15】2つの合成フィルタの周波数特性とそれらを
補間して得られるフィルタの周波数特性の関係を示す図
【図16】有声音源信号のピッチの乱れを示す図
【図17】従来の音声合成装置のブロック図
【符号の説明】
11…LPC係数補間部 12…残差波形記憶部 13…LPC係数記憶部 14…無声音源生成部 15…声道フィルタ部 16…有声音源生成部 17…ホルマント強調フィルタ部 41…ピッチ波形記憶部 42…無声音声記憶部 51…ピッチ強調フィルタ部 61…ゲイン調整部 62…乗算器

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】予め記憶した複数の音声合成単位の情報か
    ら選択された情報を接続することによって合成音声信号
    を生成する音声合成方法において、 前記音声合成単位の情報が少なくとも音声のスペクトル
    パラメータを含み、選択されたスペクトルパラメータに
    従ってフィルタ係数が決定されるホルマント強調フィル
    タにより前記合成音声信号のホルマントを強調すること
    を特徴とする音声合成方法。
  2. 【請求項2】予め記憶した複数の音声合成単位の情報か
    ら選択された情報を接続することによって合成音声信号
    を生成する音声合成方法において、 前記音声合成単位の情報が少なくとも音声のスペクトル
    パラメータと1ピッチ周期の声道フィルタ駆動信号を含
    み、選択されたスペクトルパラメータに従ってフィルタ
    係数が決定されるホルマント強調フィルタにより前記合
    成音声信号のホルマントを強調することを特徴とする音
    声合成方法。
  3. 【請求項3】予め記憶した複数の音声合成単位の情報か
    ら選択された情報を接続することによって合成音声信号
    を生成する音声合成方法において、 前記音声合成単位の情報が少なくとも音声の1ピッチ周
    期の波形のホルマントを強調した波形を含むことを特徴
    とする音声合成方法。
  4. 【請求項4】予め記憶した複数の音声合成単位の情報か
    ら選択された情報を接続することによって合成音声信号
    を生成する音声合成方法において、 前記音声合成単位の情報が少なくとも音声のスペクトル
    パラメータを含み、選択されたスペクトルパラメータに
    従ってフィルタ係数が決定されるホルマント強調フィル
    タにより前記合成音声信号のホルマントを整形すると共
    に、音声のピッチパラメータに従ってフィルタ係数が決
    定されるピッチ強調フィルタにより前記合成音声信号の
    ピッチを強調することを特徴とする音声合成方法。
  5. 【請求項5】予め記憶した複数の音声合成単位の情報か
    ら選択された情報を接続することによって合成音声信号
    を生成する音声合成方法において、 前記音声合成単位の情報が少なくとも音声のスペクトル
    パラメータと1ピッチ周期の声道フィルタ駆動信号を含
    み、選択されたスペクトルパラメータに従ってフィルタ
    係数が決定されるホルマント強調フィルタにより前記合
    成音声信号のホルマントを強調すると共に、音声のピッ
    チパラメータに従ってフィルタ係数が決定されるピッチ
    強調フィルタにより前記合成音声信号のピッチを強調す
    ることを特徴とする音声合成方法。
  6. 【請求項6】予め記憶した複数の音声合成単位の情報か
    ら選択された情報を接続することによって合成音声信号
    を生成する音声合成方法において、 前記音声合成単位の情報が少なくとも音声の1ピッチ周
    期の波形のホルマントを強調した波形を含み、さらに音
    声のピッチパラメータに従ってフィルタ係数が決定され
    るピッチ強調フィルタにより前記合成音声信号のピッチ
    を強調することを特徴とする音声合成方法。
JP7315431A 1995-12-04 1995-12-04 音声合成方法 Pending JPH09160595A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP7315431A JPH09160595A (ja) 1995-12-04 1995-12-04 音声合成方法
US08/758,772 US6240384B1 (en) 1995-12-04 1996-12-03 Speech synthesis method
US09/722,047 US6332121B1 (en) 1995-12-04 2000-11-27 Speech synthesis method
US09/984,254 US6553343B1 (en) 1995-12-04 2001-10-29 Speech synthesis method
US10/265,458 US6760703B2 (en) 1995-12-04 2002-10-07 Speech synthesis method
US10/792,888 US7184958B2 (en) 1995-12-04 2004-03-05 Speech synthesis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7315431A JPH09160595A (ja) 1995-12-04 1995-12-04 音声合成方法

Publications (1)

Publication Number Publication Date
JPH09160595A true JPH09160595A (ja) 1997-06-20

Family

ID=18065299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7315431A Pending JPH09160595A (ja) 1995-12-04 1995-12-04 音声合成方法

Country Status (1)

Country Link
JP (1) JPH09160595A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7152032B2 (en) 2002-10-31 2006-12-19 Fujitsu Limited Voice enhancement device by separate vocal tract emphasis and source emphasis
JP2016504637A (ja) * 2013-01-29 2016-02-12 クゥアルコム・インコーポレイテッドQualcomm Incorporated 線形予測コーディングにおける適応型フォルマントシャープニングのためのシステム、方法、装置、及びコンピュータによって読み取り可能な媒体
CN118737164A (zh) * 2024-09-04 2024-10-01 山东德源电力科技股份有限公司 一种具有通信数据管理功能的智能融合终端

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152787A (ja) * 1994-01-13 1995-06-16 Sony Corp 情報アクセスシステムおよび記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152787A (ja) * 1994-01-13 1995-06-16 Sony Corp 情報アクセスシステムおよび記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7152032B2 (en) 2002-10-31 2006-12-19 Fujitsu Limited Voice enhancement device by separate vocal tract emphasis and source emphasis
JP2016504637A (ja) * 2013-01-29 2016-02-12 クゥアルコム・インコーポレイテッドQualcomm Incorporated 線形予測コーディングにおける適応型フォルマントシャープニングのためのシステム、方法、装置、及びコンピュータによって読み取り可能な媒体
US10141001B2 (en) 2013-01-29 2018-11-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
CN118737164A (zh) * 2024-09-04 2024-10-01 山东德源电力科技股份有限公司 一种具有通信数据管理功能的智能融合终端

Similar Documents

Publication Publication Date Title
US6240384B1 (en) Speech synthesis method
EP0979503B1 (en) Targeted vocal transformation
US8255222B2 (en) Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
KR940002854B1 (ko) 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
US8195464B2 (en) Speech processing apparatus and program
WO1999030315A1 (en) Sound signal processing method and sound signal processing device
JPH031200A (ja) 規則型音声合成装置
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JP4230414B2 (ja) 音信号加工方法及び音信号加工装置
JP2904279B2 (ja) 音声合成方法および装置
JP2600384B2 (ja) 音声合成方法
Violaro et al. A hybrid model for text-to-speech synthesis
JPH09160595A (ja) 音声合成方法
Acero Source-filter models for time-scale pitch-scale modification of speech
Gutiérrez-Arriola et al. Voice conversion based on parameter transformation.
US7130799B1 (en) Speech synthesis method
JP4433668B2 (ja) 帯域拡張装置及び方法
JPH09179576A (ja) 音声合成方法
JP2615856B2 (ja) 音声合成方法とその装置
JP3394281B2 (ja) 音声合成方式および規則合成装置
JPH09258796A (ja) 音声合成方法
JPH0756590A (ja) 音声合成装置、音声合成方法及び記録媒体
JP3063088B2 (ja) 音声分析合成装置、音声分析装置及び音声合成装置
Rank Exploiting improved parameter smoothing within a hybrid concatenative/LPC speech synthesizer
JPS61259300A (ja) 音声合成方式