JPH08254993A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH08254993A
JPH08254993A JP7057773A JP5777395A JPH08254993A JP H08254993 A JPH08254993 A JP H08254993A JP 7057773 A JP7057773 A JP 7057773A JP 5777395 A JP5777395 A JP 5777395A JP H08254993 A JPH08254993 A JP H08254993A
Authority
JP
Japan
Prior art keywords
waveform
sound source
representative
source signal
voiced sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7057773A
Other languages
English (en)
Inventor
Takehiko Kagoshima
岳彦 籠嶋
Masami Akamine
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP7057773A priority Critical patent/JPH08254993A/ja
Priority to US08/613,093 priority patent/US5890118A/en
Publication of JPH08254993A publication Critical patent/JPH08254993A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

(57)【要約】 【目的】フレームの境界での不連続性を軽減して自然性
に優れた合成音声を得る音声合成装置を提供する。 【構成】有声音源信号の各フレームをそれぞれ代表する
代表波形を予め記憶し、与えられた波形選択情報に従っ
て選択された代表波形を出力する代表波形記憶部21
と、与えられたピッチ周期に従って連続する2つのフレ
ームにまたがる波形重畳位置を決定する波形重畳位置決
定部11と、決定された波形重畳位置に対応する有声音
源信号波形を代表波形記憶部21から出力される連続す
る2つのフレームに対応した代表波形から補間により求
める波形補間部22と、決定された波形重畳位置に該波
形重畳位置に対応する波形補間部22により求められた
有声音源信号波形を配置して重畳することにより、声道
フィルタ部15を駆動する有声音源信号を得る波形重畳
処理部23とを有する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音源信号で声道フィル
タを駆動して合成音声を得る音声合成装置に係り、特に
テキスト音声合成のために音韻記号列・ピッチ・音韻継
続時間長などの情報から合成音声を生成する音声合成装
置に関する。
【0002】
【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト音声合成という。このテキスト音声
合成システムは、一般的に言語処理部・音韻処理部・音
声信号生成部の3つの要素から構成される。入力された
テキストは、まず言語処理部において形態素解析や構文
解析などが行われ、次に音韻処理部においてアクセント
やイントネーションの処理が行われて、音韻記号列・ピ
ッチ・音韻継続時間長などの情報が出力される。最後
に、音声信号生成部すなわち音声合成装置では、音韻記
号列・ピッチ・音韻継続時間長などの情報から音声信号
を合成する。そこで、テキスト合成に用いる音声合成装
置の合成方式は、任意の音韻記号列を音声として合成す
ることが可能な方式でなければならない。
【0003】このような任意の音韻記号列を音声合成す
る音声合成装置の基本は、音節・音素・1ピッチ区間な
どの基本となる小さな単位の特徴パラメータをピッチや
継続時間長を制御して接続するというものである。自然
音声の有声部では、音韻と声の高さがそれぞれ連続的に
変化しているため、自然音声に近い高品質な合成音を得
るためには、周波数スペクトルの連続的な変化とピッチ
の連続的な変化を音声合成装置によって実現することが
重要となる。
【0004】このようなピッチと継続時間長とを制御し
て任意の音韻記号列を音声合成することができる音声合
成装置として、ボコーダ方式の有声音源部に残差信号波
形を用いたものが従来知られている。ボコーダ方式は、
既によく知られているように音声信号を音源情報と声道
情報に分離してモデル化することで合成音声信号を得る
方法であり、通常、有声音源をインパルス列で、無声音
源を雑音でモデル化する。
【0005】図7は、従来の典型的なボコーダ方式の音
声合成装置の構成を示す図である。この音声合成装置
は、有声音源生成部16と無声音源生成部14および声
道フィルタ部15とから構成される。有声音源生成部1
6は、有声/無声情報107により判別される有声区間
において、フレーム平均ピッチ101とフレーム平均パ
ワー102により一定のフレーム平均ピッチ間隔のイン
パルス列で表現される有声音源信号105を生成する。
無声音源生成部14は、有声/無声情報107により判
別される無声区間において、フレーム平均パワー102
により白色雑音などで表現される無声音源信号106を
出力する。声道特性108を近似する声道フィルタ部1
5は、有声音源信号105または無声音源信号106に
よって駆動され、合成音声信号109を出力する。
【0006】このようなボコーダ方式は、音源にインパ
ルス列を用いているために有声音のピッチ間隔毎の微細
な特徴が失われてしまうことにより、合成音声の音質が
劣化するという問題点があった。この問題点を解決する
ため、音声の微細構造を残すことができるように改善し
た音声合成方式として、音声を逆フィルタにより分析し
て得られる予測残差を示す残差信号波形を有声音源信号
として用いる方法がある。すなわち、インパルスの代わ
りに1ピッチ長の残差信号波形を一定のフレーム平均ピ
ッチ間隔で繰り返すことによって有声音源信号を生成す
るものである。この場合、声道特性に応じて残差信号波
形を変化させる必要があるため、残差信号波形はフレー
ム毎に変更される。
【0007】
【発明が解決しようとする課題】しかし、上記の改善さ
れた音声合成方式においては、フレーム内では有声音源
信号の基となる一つの代表波形を一定のピッチで繰り返
すことによって有声音源信号を生成しているため、フレ
ームの境界で残差信号波形やピッチが不連続となり、合
成音声の音韻やピッチの変化が不自然なものになってし
まうという問題があった。本発明は、フレームの境界で
の不連続性を軽減して自然性に優れた合成音声を得るこ
とができる音声合成装置を提供することを目的とする。
【0008】
【課題を解決するための手段】上述した目的を達成する
ため、本発明は有声音源信号および無声音源信号によっ
て声道特性を近似する声道フィルタ部を駆動して合成音
声信号を生成する音声合成装置において、フレーム内で
フレーム平均ピッチ毎に代表波形を単純に繰り返すので
はなく、連続するフレームの代表波形やピッチを補間す
ることによって合成音声の連続性を向上させたことを骨
子とする。
【0009】すなわち、本発明に係る第1の音声合成装
置は、時系列信号を所定単位のフレームに分割してなる
有声音源信号の各フレームをそれぞれ代表する代表波形
を予め記憶し、合成すべき音声信号に対応してフレーム
毎に与えられる波形選択情報に従って選択された代表波
形を出力する代表波形記憶手段と、前記合成すべき音声
信号に対応して与えられたピッチ周期に従って波形重畳
位置を決定する波形重畳位置決定手段と、この波形重畳
位置決定手段により決定された連続する2つのフレーム
にまたがる波形重畳位置に対応する有声音源信号波形を
前記代表波形記憶手段から出力される連続する2つのフ
レームに対応した代表波形から補間により求める波形補
間手段と、前記波形重畳位置決定手段により決定された
波形重畳位置に該波形重畳位置に対応する前記波形補間
手段により求められた有声音源信号波形を配置して重畳
することにより、前記声道フィルタ部を駆動する有声音
源信号を得る波形重畳処理手段とを備えたことを特徴と
する。
【0010】本発明に係る第2の音声合成装置は、時系
列信号を所定単位のフレームに分割してなる有声音源信
号の各フレームをそれぞれ代表する代表波形を予め記憶
し、合成すべき音声信号に対応してフレーム毎に与えら
れる波形選択情報に従って選択された代表波形を出力す
る代表波形記憶手段と、前記合成すべき音声信号に対応
してフレーム毎に与えられるピッチ周期情報から連続す
る2つのフレームに対応するピッチ周期が滑らかに変化
するようにピッチ周期の補間を行うピッチ補間手段と、
このピッチ補間手段により得られたピッチ周期に従って
連続する2つのフレームにまたがる波形重畳位置を決定
する波形重畳位置決定手段と、この波形重畳位置決定手
段により決定された波形重畳位置に前記代表波形記憶部
から出力される代表波形を設定して重畳することによ
り、前記声道フィルタ部を駆動する有声音源信号を得る
波形重畳処理手段とを備えたことを特徴とする。
【0011】本発明に係る第3の音声合成装置は、時系
列信号を所定単位のフレームに分割してなる有声音源信
号の各フレームをそれぞれ代表する代表波形を予め記憶
し、合成すべき音声信号に対応してフレーム毎に与えら
れる波形選択情報に従って選択された代表波形を出力す
る代表波形記憶手段と、前記合成すべき音声信号に対応
してフレーム毎に与えられるピッチ周期情報から連続す
る2つのフレームに対応するピッチ周期が滑らかに変化
するようにピッチ周期の補間を行うピッチ補間手段と、
このピッチ補間手段により得られたピッチ周期に従って
連続する2つのフレームにまたがる波形重畳位置を決定
する波形重畳位置決定手段と、この波形重畳位置決定手
段により決定された波形重畳位置に該波形重畳位置に対
応する前記波形補間手段により求められた有声音源信号
波形を配置して重畳することにより、前記声道フィルタ
部を駆動する有声音源信号を得る波形重畳処理手段とを
備えたことを特徴とする。また、本発明においては、前
記代表波形記憶手段が記憶している代表波形が零位相化
されていることが望ましい。
【0012】
【作用】第1の音声合成装置においては、連続するフレ
ームの有声音源信号の代表波形から連続する2つのフレ
ームにまたがる部分の有声音源信号波形を補間によって
求め、これらを連続する2つのフレームにまたがる波形
重畳位置に設定して互いに重畳させて得られた有声音源
信号で声道フィルタ部を駆動することによって合成音声
信号を生成するため、パワースペクトルの変化が滑らか
で、音韻の変化が連続的な自然性に優れた合成音声が得
られる。
【0013】第2の音声合成装置においては、連続する
フレームのピッチ周期を補間することによってピッチ周
期がなめらかに変化するようにして上で、このピッチ周
期に従って波形重畳位置を決定し、この波形重畳位置に
対応する代表波形をそれぞ配置して互いに重畳させて得
られた有声音源信号で声道フィルタ部を駆動することに
よって合成音声信号を生成するため、ピッチの変化が滑
らかな合成音声が得られる。
【0014】第3の音声合成装置においては、第1の音
声合成装置と第2の音声合成装置の技術を組み合わせ、
連続するフレームのピッチ周期を補間することによって
ピッチ周期がなめらかに変化するようにして上で、この
ピッチ周期に従って波形重畳位置を決定するとともに、
連続するフレームの有声音源信号の代表波形から連続す
る2つのフレームにまたがる部分の有声音源信号波形を
補間によって求め、これらを連続する2つのフレームに
またがる波形重畳位置に設定して互いに重畳させて得ら
れた有声音源信号で声道フィルタ部を駆動することによ
って合成音声信号を生成するため、音韻の変化とピッチ
の変化がともに滑らかな合成音声が得られる。
【0015】第4の音声合成装置においては、第1また
は第3の音声合成装置と同様に、合成音声のパワースペ
クトルの変化が滑らかで音韻の変化が自然であり、さら
にはピッチの変化も滑らかな合成音声が得られる上、代
表波形を補間する際に代表波形が零位相化されているこ
とにより、波形の単純な線形補間がすなわち代表波形の
パワースペクトルの線形補間にもなるので、パワースペ
クトルが滑らかに変化するように補間を行うことが容易
になる。
【0016】
【実施例】
(実施例1)図1は、本発明に係る第1の音声合成装置
の一実施例のブロック図である。この音声合成装置は、
有声音源生成部24と無声音源生成部14と声道フィル
タ部15とから構成される。有声音源生成部24は、有
声/無声判別情報107により判別される有声区間にお
いて、フレーム平均ピッチ情報101と残差信号波形選
択情報201に基づいて有声音源信号105を生成す
る。この有声音源生成部24については、後に詳細に説
明する。無声音源生成部14は、有声/無声判別情報1
07により判別される無声区間において、白色雑音など
で表現される無声音源信号106を出力する。声道フィ
ルタ部15は、声道特性情報108によって指定される
声道特性を近似し、有声音源信号105または無声音源
信号106によって駆動されることにより、合成音声信
号109を出力する。
【0017】残差信号波形選択情報201は、例えば任
意の文章に対応した合成すべき音声信号の音韻(/a
/,/i/,u/,/e/,/o/など)で決定され、
その音韻に対応する残差信号波形を指定する情報である 音声信号の各音韻は少なくとも一つのフレーム(一般に
は複数のフレーム)から構成されており、各フレームに
対応する残差信号波形は、例えば音声データベース中の
当該音韻の部分を分析することによって予め作成され、
記憶されているものとする。一例として/a/(あ)の
音韻の場合について説明すると、まず図2(a)に示す
ように音声データベースから/a/の部分を切り出す。
次に、この音韻部分について線形予測分析を行い、図2
(b)に示すような予測残差信号を求める。有声音信号
は周期的な信号であるため、各フレームには1〜数周期
分の波形が存在する。そこで、図2(c)に示すように
音韻を構成する1ないし複数のフレームから1ピッチ周
期分の予測残差信号波形を代表波形として取り出し、こ
れを代表波形記憶部21で記憶する。図2(c)の例で
は、/a/の音韻部分について3個の代表波形を記憶す
ることになる。
【0018】以下、有声音源生成部24の詳細な構成と
動作を説明する。本実施例における有声音源生成部24
の特徴は、従来のようにフレーム内で一つの代表波形を
繰り返すことによって有声音源信号を生成するのではな
く、連続する2つのフレームにまたがる部分(これを波
形重畳位置とする)の代表波形を補間により求めること
によって、波形がフレーム間で連続的に変化する有声音
源信号105を生成することにある。
【0019】有声音源生成部24においては、まず波形
重畳位置決定部11に合成すべき音声信号のピッチ周期
を指定するピッチ周期情報101が供給される。波形重
畳位置決定部11では、波形重畳位置間の間隔がピッチ
周期情報101で指定されるピッチ周期と等しくなるよ
うに波形重畳位置が決定され、波形重畳位置指定情報1
03が出力される。
【0020】一方、代表波形記憶部21は、図2(c)
に示したように有声音源信号となる残差信号波形の各フ
レームを代表する代表波形を各音韻に対応して複数個ず
つ記憶している。そして、代表波形記憶部21から残差
信号波形選択情報201に基づいて指定される音韻に対
応する第1の代表波形202と第2の代表波形203が
選択的に読み出され、出力される。ここで、第1の代表
波形202はある音韻の音声信号のi番目のフレームに
対応し、第2の代表波形203は同じ音韻の音声信号の
i+1番目のフレームに対応するものとする。すなわ
ち、第1の代表波形202および第2の代表波形203
は連続する2つのフレームに対応する代表波形である。
【0021】波形補間部22は、代表波形記憶部21か
ら出力される第1の代表波形202と第2の代表波形2
03とから、波形重畳位置決定部11で決定された、連
続する2フレームつまりi番目のフレームとi+1番目
のフレームにまたがる波形重畳位置に対応する残差信号
波形を補間によって求め、波形重畳位置情報103で示
される波形重畳位置のそれぞれに対応する残差信号波形
列204を生成する。また、波形補間部22は波形重畳
位置以外の部分では、代表波形記憶部21から出力され
る代表波形をそのまま出力する。
【0022】波形重畳処理部23は、波形重畳位置情報
103で示される波形重畳位置のそれぞれに残差信号波
形列204の中の対応する残差信号波形を配置して、そ
れらを互いに重畳することによって、声道フィルタ部1
5を駆動するための最終的な有声音源信号105を生成
する。
【0023】次に、波形重畳位置決定部11の動作を説
明する。ピッチ周期情報101で指定されるピッチ周期
をpで表し、時刻t1 からから時刻t2 までの有声音源
信号を生成する場合を考える。この場合、波形重畳位置
決定部11は時刻t=t1 からt=t2 の間のN個(N
≧0)の波形重畳位置mk (m1 ,m2 ,…,mN )を
次式(1)の計算により決定し、波形重畳位置指定情報
103を出力する。
【0024】 mk =m0 +pk (k=1,2,…,N) (1) ただし、m0 はt<t1 の範囲で既に決定されている波
形重畳位置の中で最も遅い時刻の波形重畳位置を表わ
す。
【0025】次に、図3を用いて波形補間部22の動作
を説明する。第1の代表波形202をs1 (t) 、第2の
代表波形203をs2 (t) で表すものとする。波形補間
部22は、波形重畳位置指定情報103で指定される波
形重畳位置m1 ,m2 ,…,mN にそれぞれ対応する残
差信号波形h1 (t) ,h2 (t) ,…,hN (t) を次式
(2)に従って計算し、これらを残差信号波形列204
として出力する。
【0026】 hk (t) =a(mk )s1 (t) +{(1−a(mk )}s2 (t) (2) ただし、a(t) は滑らかに変化する重み係数であり、一
例として線形に変化する場合は次式(3)で表される。
【0027】 a(t) =(t2 −t)/(t2 −t1 ) (3) なお、残差信号波形列204は波形重畳位置m1 ,m
2 ,…,mN の順でシリアルに出力してもよいし、パラ
レルに出力しても構わない。
【0028】次に、波形重畳処理部23の動作を説明す
る。波形重畳処理部23は、波形重畳位置指定情報10
3で指定される波形重畳位置mk (k=1,2,…,
N)と波形補間部22から出力される残差信号波形列2
04であるhk (k=1,2,…,N)を用いて、次式
(4)式によりv(t) で表される有声音源信号105を
計算する。
【0029】
【数1】
【0030】すなわち、波形重畳処理部23では波形補
間部22からの残差信号波形列204(hk )を波形重
畳位置mk で示される時間位置にそれぞれ配置した状態
で重畳する。この場合、隣接する波形重畳位置に配置さ
れる残差信号波形の中央部分はそれぞれ独立して出力さ
れるが、裾野部分は互いに足し合わされるため、出力さ
れる有声音源信号105の波形連続性がより一層向上す
る。
【0031】このように本実施例によれば、代表波形記
憶部21から出力される連続するフレームの有声音源信
号の代表波形である第1の代表波形202および第2の
代表波形203から、波形補間部22により連続する2
つのフレームにまたがる部分の有声音源信号波形である
残差信号波形列204を補間によって求め、これらを波
形重畳処理部23において波形重畳位置決定部11で決
定された連続する2つのフレームにまたがる波形重畳位
置に配置して互いに重畳させることで、声道フィルタ部
15を駆動する有声音源信号105を生成するため、パ
ワースペクトルの変化が滑らかで、音韻の変化が連続的
な合成音声を得ることができる。
【0032】(実施例2)図4は、本発明に係る第2の
音声合成装置の一実施例のブロック図である。この音声
合成装置は、有声音源生成部33と無声音源生成部14
と声道フィルタ部15とから構成される。有声音源生成
部33は、有声/無声判別情報107により判別される
有声区間において、連続する2フレームの平均ピッチと
して指定された第1のピッチ周期情報301および第2
のピッチ周期情報302と残差信号波形選択情報102
に基づいて有声音源信号105を生成する。無声音源生
成部14は、先の実施例と同様に有声/無声判別情報1
07により判別される無声区間において、白色雑音など
で表現される無声音源信号106を出力する。声道フィ
ルタ部15は、声道特性情報108によって指定される
声道特性を近似し、有声音源信号105または無声音源
信号106によって駆動されて合成音声信号109を出
力する。
【0033】以下、有声音源生成部33の詳細な構成と
動作を説明する。本実施例は、フレーム内で一定間隔に
代表波形を重畳することによって有声音源信号を生成す
るのではなく、連続する2つのフレームのピッチ周期と
して指定された第1のピッチ周期と第2のピッチ周期と
から、これら2つのフレームにまたがる部分のピッチ周
期を補間により求め、第1のピッチ周期から第2のピッ
チ周期にピッチ周期が滑らかに変化するようにしたもの
である。
【0034】有声音源生成部33においては、ピッチ補
間部32に第1のピッチ周期情報301と第2のピッチ
周期情報302とが供給され、ピッチ周期情報301で
指定される第1のピッチ周期と、ピッチ周期情報302
で指定される第2のピッチ周期とから、連続する2つの
フレームに対応するピッチ周期がなめらかに連続して変
化するようにピッチ周期の補間を行い、ピッチ周期列3
03を出力する。
【0035】波形重畳位置決定部31では、ピッチ周期
列303に従って波形重畳位置間の間隔が連続的に変化
するような波形重畳位置が決定され、波形重畳位置情報
103が決定される。
【0036】代表波形記憶部12は、有声音源信号とな
る残差信号波形のフレームを代表する代表波形を各音韻
に対応して複数個ずつ記憶して記憶しており、残差信号
波形選択情報102に従って代表波形104が選択的に
読み出され、出力される。
【0037】波形重畳処理部13は、波形重畳位置情報
103で示される波形重畳位置に対応するそれぞれの代
表波形104を配置して、それらを互いに重畳すること
によって、声道フィルタ部15を駆動するための最終的
な有声音源信号105を生成する。
【0038】次に、ピッチ補間部32の動作を図5を用
いて説明する。図5において、時刻t1 のピッチ周期が
第1のピッチ周期情報301で指定される第1のピッチ
周期であり、時刻t2 のピッチ周期が第2のピッチ周期
情報302で指定される第2のピッチ周期であるとし、
第1のピッチ周期をp1 で表し、第2のピッチ周期をp
2 で表すとする。また、図5中に示されているように、
t<t1 の範囲で既に決定されている波形重畳位置の中
で最も遅い時刻のものをmo とし、t1 ≦t<t2 の範
囲の波形重畳位置をmk (m1 ,m2 ,…,mN )とす
る。
【0039】ここで、p1 =p2 であれば補間によって
求められるピッチ周期は常にp1 と等しくなるため、以
後p1 ≠p2 の場合についてのみ考えることとする。こ
の場合、時刻tのピッチ周期p(t) は次式(5)で表さ
れる。
【0040】 p(t) =a(t) p1 +(1−a(t) )p2 (5) ただし、a(t) は滑らかに変化する重み係数であり、一
例として線形に変化する場合は式(3)で表される。m
k から次の波形重畳位置mk+1 までの周期Tkは、式
(6)に示す方程式の解となる。
【0041】
【数2】 これを解くと、次式(7)(8)(9)となる。
【0042】
【数3】 また、式(10)より式(7)(10)を解くことによ
って、次式(11)が得られる。
【0043】
【数4】
【0044】
【数5】
【0045】式(11)を計算して得られるT0 ,T
1 ,…,TN-1 がピッチ周期列303となる。次に、波
形重畳位置決定部31の動作を説明する。波形重畳位置
決定部31は、次式(12)に従ってピッチ周期列30
3(T0 ,T1 ,…,TN-1 )から波形重畳位置(m
0 ,m1 ,…,mN-1 )を再帰的に計算する。
【0046】 mk =mk-1 +Tk-1 (12) このように本実施例によれば、ピッチ補間部32によっ
て連続するフレームのピッチ周期を補間することでピッ
チ周期がなめらかに変化するようにした後、このピッチ
周期に従って波形重畳位置決定部31で波形重畳位置を
決定し、この波形重畳位置に対応する代表波形を代表波
形記憶部12から読み出して、波形重畳処理部13でそ
れぞれの波形重畳位置に配置して互いに重畳させること
で、声道フィルタ部15を駆動する有声音源信号105
を生成するため、ピッチの変化が滑らかな合成音声を得
ることができる。
【0047】(実施例3)図6は、本発明に係る第3の
音声合成装置の一実施例のブロック図である。この音声
合成装置は、図1に示した第1の音声合成装置と図4に
示した第2の音声合成装置を組み合わせたものであり、
有声音源生成部41と無声音源生成部14と声道フィル
タ部15とから構成される。すなわち、有声音源生成部
41は有声/無声判別情報107により判別される有声
区間において、連続する2フレームの平均ピッチとして
指定された第1のピッチ周期情報301と第2のピッチ
周期情報302および残差信号波形選択情報201によ
り、有声音源信号105を生成する。無声音源生成部1
4は、有声/無声判別情報107により判別される無声
区間において、白色雑音などで表現される無声音源10
6を出力する。声道フィルタ部15は、声道特性情報1
08によって指定される声道特性を近似し、有声音源信
号105または無声音源信号106によって駆動されて
合成音声信号109を出力する。
【0048】次に、本実施例の有声音源生成部41の動
作を説明する。本実施例は、従来のようにフレーム内で
一つの代表波形を繰り返すことによって有声音源信号を
生成するのではなく、連続する2つのフレームにまたが
る部分(波形重畳位置)の代表波形を求めて補間を行
い、波形がフレーム間で連続的に変化する有声音源信号
を生成するものである。さらに、本実施例はフレーム内
で一定間隔に代表波形を重畳することによって有声音源
信号を生成するのではなく、連続する2つのフレームの
ピッチ周期として指定された第1のピッチ周期と第2の
ピッチ周期とから、これら2つのフレームにまたがる部
分のピッチ周期を補間により求め、第1のピッチ周期か
ら第2のピッチ周期にピッチ周期が滑らかに変化するよ
うにしたものである。
【0049】有声音源生成部33においては、ピッチ補
間部32に第1のピッチ周期情報301と第2のピッチ
周期情報302とが供給され、ピッチ周期情報301で
指定される第1のピッチ周期と、ピッチ周期情報302
で指定される第2のピッチ周期とから、連続する2つの
フレームに対応するピッチ周期がなめらかに連続して変
化するようにピッチ周期の補間を行い、ピッチ周期列3
03を出力する。
【0050】波形重畳位置決定部31では、ピッチ周期
列303に従って波形重畳位置間の間隔が連続的に変化
するように波形重畳位置が決定され、波形重畳位置情報
103が決定される。
【0051】一方、代表波形記憶部21は、図2(c)
に示したように有声音源信号となる残差信号のフレーム
を代表する代表波形を各音韻に対応して複数個ずつ記憶
している。そして、代表波形記憶部21から残差信号波
形選択情報201に基づいて指定される音韻に対応する
第1の代表波形202と第2の代表波形203が選択的
に読み出され、出力される。ここで、第1の代表波形2
02はある音韻の音声信号のi番目のフレームに対応
し、第2の代表波形203は同じ音韻の音声信号のi+
1番目のフレームに対応するものとする。すなわち、第
1の代表波形202および第2の代表波形203は連続
するフレームに対応している。
【0052】波形補間部22は、代表波形記憶部21か
ら出力される第1の代表波形202と第2の代表波形2
03とから、連続する2フレームつまりi番目のフレー
ムとi+1番目のフレームにまたがる波形重畳位置決定
部11で決定された波形重畳位置に対応する残差信号波
形を補間によって求め、波形重畳位置情報103で示さ
れる波形重畳位置のそれぞれに対応する残差信号波形列
204を生成する。
【0053】波形重畳処理部23は、波形重畳位置情報
103で示される波形重畳位置のそれぞれに残差信号波
形列204の中の対応する残差信号波形を配置して、そ
れらを互いに重畳することによって、声道フィルタ部1
5を駆動するための最終的な有声音源信号105を生成
する。
【0054】ここで、波形補間部22と波形重畳処理部
23は第1の実施例において説明したものと同一であ
り、ピッチ補間部32と波形重畳処理部31は第2の実
施例において説明したものと同一であるため、これ以上
の詳しい説明は省略する。
【0055】このように本実施例によれば、ピッチ補間
部32によって連続するフレームのピッチ周期を補間す
ることでピッチ周期がなめらかに変化するようにした
後、このピッチ周期に従って波形重畳位置決定部31で
波形重畳位置を決定連続するフレームのピッチ周期を補
間することによってピッチ周期がなめらかに変化するよ
うにして上で、このピッチ周期に従って波形重畳位置を
決定するとともに、代表波形記憶部21から出力される
連続するフレームの有声音源信号の代表波形である第1
の代表波形202および第2の代表波形203から、波
形補間部22により連続する2つのフレームにまたがる
部分の有声音源信号波形である残差信号波形列204を
補間によって求め、これらを波形重畳処理部23におい
て波形重畳位置決定部31で決定された連続する2つの
フレームにまたがる波形重畳位置に配置して互いに重畳
させることで、声道フィルタ部15を駆動する有声音源
信号105を生成するため、パワースペクトルの変化が
滑らかで、しかも音韻の変化が連続的な合成音声を得る
ことができる。
【0056】(実施例4)本実施例は、図1で説明した
実施例1の音声合成装置において、代表波形記憶部21
が残差信号のフレームを代表する代表波形を零位相化し
たものを記憶していることが特徴である。例えば、代表
波形s(t) を零位相化したものをs′(t)とすると、
s′(t) は次の手順で計算することができる。
【0057】まず、フーリエ変換によってs(t) の周波
数スペクトルS(ω)を求める。 S(ω)=F(s(t) ) (13) 次に、S(ω)の絶対値S′(ω)を計算する。
【0058】 S′(ω)=|S(ω)| (14) 最後に、S′(ω)を逆フーリエ変換することにより
s′(t) を求める。 s′(t) = F-1(S′(ω)) (15) このように本実施例では、代表波形記憶部21が記憶す
る代表波形を零位相化したことによって、例えば式
(2)の補間によって生成された残差信号波形hk(t)
のパワースペクトルが代表波形s1 (t) およびs2 (t)
のパワースペクトルを補間したものになるため、波形の
補間を行うことによって、滑らかなパワースペクトルの
変化が容易に実現でき、さらに音韻の変化も滑らかにな
るという利点がある。
【0059】(実施例5)本実施例は、図4で説明した
実施例3の音声合成装置において、代表波形記憶部21
で残差信号のフレームを代表する代表波形を零位相化し
たものを記憶するものである。代表波形の零位相化は、
例えば実施例4において説明した方法で実現することが
できる。実施例3の場合と同様に、代表波形を零位相化
したことにより、波形の補間を行うことによって、滑ら
かなパワースペクトルの変化が容易に実現でき、かつ音
韻の変化が滑らかになるという利点がある。
【0060】(実施例6)本実施例は、実施例1または
実施例3で説明した音声合成装置において、波形補間部
22で第1の代表波形202と第2の代表波形203と
を零位相化した後に補間を行って残差信号波形列204
を求めるものである。
【0061】(実施例7)本実施例は、実施例1または
実施例3で説明した音声合成装置において、波形補間部
22で第1の代表波形202と第2の代表波形203を
フーリエ変換によって周波数スペクトルに変換した後、
絶対値および位相をそれぞれ補間して得られる周波数ス
ペクトルを逆フーリエ変換することによって、残差信号
波形列204を求めるものである。
【0062】(実施例8)本実施例は、実施例1または
実施例3で説明した音声合成装置において、代表波形記
憶部21で残差信号のフレームを代表する代表波形の周
波数スペクトルを記憶し、波形補間部22で第1の代表
波形の周波数スペクトル202と第2の代表波形の周波
数スペクトル203との絶対値および位相をそれぞれ補
間して得られる周波数スペクトルを逆フーリエ変換する
ことによって、残差信号波形列204を求めるものであ
る。
【0063】(実施例9)本実施例は、実施例1または
実施例3で説明した音声合成装置において、ピッチ補間
部32でピッチ周期の逆数すなわちピッチ周波数が線形
に変化するようにピッチの補間を行うものである。この
場合、ピッチ周期列303は次式(16)(17)(1
8)によって計算される。
【0064】
【数6】
【0065】
【発明の効果】以上説明したように、本発明によれば音
韻やピッチあるいはその両方の変化がなめらかで、連続
性に優れた自然な合成音声を得ることが可能な音声合成
装置を提供することができる。
【図面の簡単な説明】
【図1】本発明の実施例1に係る音声合成装置の構成を
示すブロック図
【図2】同実施例における代表波形記憶部に記憶される
代表波形の作成法を説明するための波形図
【図3】同実施例における波形補間処理を説明するため
の波形図
【図4】本発明の実施例2に係る音声合成装置の構成を
示すブロック図
【図5】同実施例におけるピッチ補間処理を説明するた
めの波形図
【図6】本発明の実施例3に係る音声合成装置の構成を
示すブロック図
【図7】従来の音声合成装置の構成を示すブロック図
【符号の説明】
11…波形重畳位置決定部 12…代表波形記憶部 13…波形重畳処理部 14…無声音源生成部 15…声道フィルタ部 16…有声音源生成部 21…代表波形記憶部 22…波形補間部 23…波形重畳処理部 24…有声音源生成部 31…波形重畳位置決定部 32…ピッチ補間部 33…有声音源生成部 101…フレーム平均ピッチ周期情報 102…残差信号波形選択情報 103…波形重畳位置指定情報 104…代表波形 105…有声音源信号 106…無声音源信号 107…有声/無声判別情報 108…声道特性情報 109…合成音声信号 201…残差信号波形選択情報 202…第1の代表波形情報 203…第2の代表波形情報 204…残差信号波形列 301…第1のピッチ周期情報 302…第2のピッチ周期情報 303…ピッチ周期列

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】有声音源信号および無声音源信号によって
    声道特性を近似する声道フィルタ部を駆動して合成音声
    信号を生成する音声合成装置において、 時系列信号を所定単位のフレームに分割してなる有声音
    源信号の各フレームをそれぞれ代表する代表波形を予め
    記憶し、合成すべき音声信号に対応してフレーム毎に与
    えられる波形選択情報に従って選択された代表波形を出
    力する代表波形記憶手段と、 前記合成すべき音声信号に対応して与えられたピッチ周
    期に従って連続する2つのフレームにまたがる波形重畳
    位置を決定する波形重畳位置決定手段と、 この波形重畳位置決定手段により決定された波形重畳位
    置に対応する有声音源信号波形を前記代表波形記憶手段
    から出力される連続する2つのフレームに対応した代表
    波形から補間により求める波形補間手段と、 前記波形重畳位置決定手段により決定された波形重畳位
    置に該波形重畳位置に対応する前記波形補間手段により
    求められた有声音源信号波形を配置して重畳することに
    より、前記声道フィルタ部を駆動する有声音源信号を得
    る波形重畳処理手段とを備えたことを特徴とする音声合
    成装置。
  2. 【請求項2】有声音源信号および無声音源信号によって
    声道特性を近似する声道フィルタ部を駆動して合成音声
    信号を生成する音声合成装置において、 時系列信号を所定単位のフレームに分割してなる有声音
    源信号の各フレームをそれぞれ代表する代表波形を予め
    記憶し、合成すべき音声信号に対応してフレーム毎に与
    えられる波形選択情報に従って選択された代表波形を出
    力する代表波形記憶手段と、 前記合成すべき音声信号に対応してフレーム毎に与えら
    れるピッチ周期から連続する2つのフレームに対応する
    ピッチ周期が滑らかに変化するようにピッチ周期の補間
    を行うピッチ補間手段と、 このピッチ補間手段により得られたピッチ周期に従って
    連続する2つのフレームにまたがる波形重畳位置を決定
    する波形重畳位置決定手段と、 この波形重畳位置決定手段により決定された波形重畳位
    置に前記代表波形記憶部から出力される代表波形を有声
    音源信号波形として設定して重畳することにより、前記
    声道フィルタ部を駆動する有声音源信号を得る波形重畳
    処理手段とを備えたことを特徴とする音声合成装置。
  3. 【請求項3】有声音源信号および無声音源信号によって
    声道特性を近似する声道フィルタ部を駆動して合成音声
    信号を生成する音声合成装置において、 時系列信号を所定単位のフレームに分割してなる有声音
    源信号の各フレームをそれぞれ代表する代表波形を予め
    記憶し、合成すべき音声信号に対応してフレーム毎に与
    えられる波形選択情報に従って選択された代表波形を出
    力する代表波形記憶手段と、 前記合成すべき音声信号に対応してフレーム毎に与えら
    れるピッチ周期から連続する2つのフレームに対応する
    ピッチ周期が滑らかに変化するようにピッチ周期の補間
    を行うピッチ補間手段と、 このピッチ補間手段により得られたピッチ周期に従って
    連続する2つのフレームにまたがる波形重畳位置を決定
    する波形重畳位置決定手段と、 この波形重畳位置決定手段により決定された波形重畳位
    置に該波形重畳位置に対応する前記波形補間手段により
    求められた有声音源信号波形を配置して重畳することに
    より、前記声道フィルタ部を駆動する有声音源信号を得
    る波形重畳処理手段とを備えたことを特徴とする音声合
    成装置。
JP7057773A 1995-03-16 1995-03-16 音声合成装置 Pending JPH08254993A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP7057773A JPH08254993A (ja) 1995-03-16 1995-03-16 音声合成装置
US08/613,093 US5890118A (en) 1995-03-16 1996-03-08 Interpolating between representative frame waveforms of a prediction error signal for speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7057773A JPH08254993A (ja) 1995-03-16 1995-03-16 音声合成装置

Publications (1)

Publication Number Publication Date
JPH08254993A true JPH08254993A (ja) 1996-10-01

Family

ID=13065197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7057773A Pending JPH08254993A (ja) 1995-03-16 1995-03-16 音声合成装置

Country Status (2)

Country Link
US (1) US5890118A (ja)
JP (1) JPH08254993A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058480A (ja) * 2006-08-30 2008-03-13 Fujitsu Ltd 信号処理方法及び装置
US8468020B2 (en) 2006-05-18 2013-06-18 Kabushiki Kaisha Toshiba Speech synthesis apparatus and method wherein more than one speech unit is acquired from continuous memory region by one access

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240384B1 (en) 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JP3902860B2 (ja) * 1998-03-09 2007-04-11 キヤノン株式会社 音声合成制御装置及びその制御方法、コンピュータ可読メモリ
US7133841B1 (en) 2000-04-17 2006-11-07 The Regents Of The University Of Michigan Method and computer system for conducting a progressive, price-driven combinatorial auction
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
EP1160764A1 (en) * 2000-06-02 2001-12-05 Sony France S.A. Morphological categories for voice synthesis
US7251601B2 (en) 2001-03-26 2007-07-31 Kabushiki Kaisha Toshiba Speech synthesis method and speech synthesizer
JP3901475B2 (ja) * 2001-07-02 2007-04-04 株式会社ケンウッド 信号結合装置、信号結合方法及びプログラム
EP1543498B1 (en) * 2002-09-17 2006-05-31 Koninklijke Philips Electronics N.V. A method of synthesizing of an unvoiced speech signal
KR100571831B1 (ko) * 2004-02-10 2006-04-17 삼성전자주식회사 음성 식별 장치 및 방법
JP4456601B2 (ja) * 2004-06-02 2010-04-28 パナソニック株式会社 音声データ受信装置および音声データ受信方法
US20110311144A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Rgb/depth camera for improving speech recognition
JP5085700B2 (ja) * 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US9236064B2 (en) * 2012-02-15 2016-01-12 Microsoft Technology Licensing, Llc Sample rate converter with automatic anti-aliasing filter
CN103716470B (zh) * 2012-09-29 2016-12-07 华为技术有限公司 语音质量监控的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4521907A (en) * 1982-05-25 1985-06-04 American Microsystems, Incorporated Multiplier/adder circuit
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
US4937873A (en) * 1985-03-18 1990-06-26 Massachusetts Institute Of Technology Computationally efficient sine wave synthesis for acoustic waveform processing
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
JP2707564B2 (ja) * 1987-12-14 1998-01-28 株式会社日立製作所 音声符号化方式
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8468020B2 (en) 2006-05-18 2013-06-18 Kabushiki Kaisha Toshiba Speech synthesis apparatus and method wherein more than one speech unit is acquired from continuous memory region by one access
US8731933B2 (en) 2006-05-18 2014-05-20 Kabushiki Kaisha Toshiba Speech synthesis apparatus and method utilizing acquisition of at least two speech unit waveforms acquired from a continuous memory region by one access
US9666179B2 (en) 2006-05-18 2017-05-30 Kabushiki Kaisha Toshiba Speech synthesis apparatus and method utilizing acquisition of at least two speech unit waveforms acquired from a continuous memory region by one access
JP2008058480A (ja) * 2006-08-30 2008-03-13 Fujitsu Ltd 信号処理方法及び装置
US8738373B2 (en) 2006-08-30 2014-05-27 Fujitsu Limited Frame signal correcting method and apparatus without distortion

Also Published As

Publication number Publication date
US5890118A (en) 1999-03-30

Similar Documents

Publication Publication Date Title
JP4469883B2 (ja) 音声合成方法及びその装置
US6760703B2 (en) Speech synthesis method
KR940002854B1 (ko) 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
JP3985814B2 (ja) 歌唱合成装置
JP6791258B2 (ja) 音声合成方法、音声合成装置およびプログラム
JPS63285598A (ja) 音素接続形パラメ−タ規則合成方式
JPH08254993A (ja) 音声合成装置
JP2002023775A (ja) 音声合成における表現力の改善
US5987413A (en) Envelope-invariant analytical speech resynthesis using periodic signals derived from reharmonized frame spectrum
JPH08110789A (ja) 波形の連結及び部分的重複化による音声合成方法
JPH06266390A (ja) 波形編集型音声合成装置
JPH086592A (ja) 音声合成方法及び装置
US6950798B1 (en) Employing speech models in concatenative speech synthesis
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JP2018077283A (ja) 音声合成方法
JPH09319391A (ja) 音声合成方法
JP3394281B2 (ja) 音声合成方式および規則合成装置
JP6834370B2 (ja) 音声合成方法
JPH07261798A (ja) 音声分析合成装置
JPH09510554A (ja) 言語合成
JP3284634B2 (ja) 規則音声合成装置
JP6822075B2 (ja) 音声合成方法
JPH10301599A (ja) 音声合成装置
JP2000194388A (ja) 音声合成装置
JPH0962295A (ja) 音声素片作成方法および音声合成方法とその装置