JPH0266599A

JPH0266599A - 音声合成方式

Info

Publication number: JPH0266599A
Application number: JP63219370A
Authority: JP
Inventors: Kazuhiko Iwata; 和彦岩田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1988-08-31
Filing date: 1988-08-31
Publication date: 1990-03-06

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、音声合成方式に関する。

（従来の技術）音声を合成する方式として、人間が発声した音声信号を
人間の声道の特性を表すパラメータと音源を表す信号と
に分離しておき、声道の特性を表すパラメータで表され
る特性を持った音声合成フィルタを構成し、音源を表す
信号を音声合成フィルタに入力し、このときの出力を合
成音声とする方式が知られている。声道の特性を表すパ
ラメータとしては、線形予測係数、線スペクトル対、ホ
ルマントなどのパラメータが知られている。一方、音源
を表す信号としては、声帯の振動を伴う有声音の音源と
してはパルス列が、声帯振動を伴わない無声音の音源と
してはランダム雑音が用いられることが多い。しがしな
がら、パルス列やランダム雑音を用いた場合の合成音声
の品質はかなり低い。合成音声の品質を向上させるため
に、パラメータによって声道の特性をモデル化した際の
モデル化誤差を音源として用いることもある。以下では
、このモデル化誤差のことを残差と呼ぶことにする。残
差を音源として用いる音声合成方式としては、例えば、
佐藤氏による日本音響学会昭和５６年度秋季研究発表会
講演論文集１−２−１６「音韻連鎖と残差波形を用いた
音声合成」（文献１）等で詳述されている。

一般に、予め人間が発声した音声をもとにして、合成音
声を生成する方式の場合、声帯の振動を伴う有声音区間
においては、もとの音声のピッチ周期と異なるピッチ周
期で合成しなければならない。このとき、先に上げた文
献でも述べられているが、残差を音源として用いる音声
合成方式においては、もとのピッチ周期よりも長いピッ
チ周期で合成する場合には、残差が不足する。そこで、
不足分の長さを補うために、値が零である信号を残差の
後ろに付は加えることによってピッチ周期の伸張を行う
。もとのピッチ周期よりも短いピッチ周期で合成する場
合には、残差を途中で打ち切ることによりピッチ周期の
短縮を行う。

第４図は、このような従来方式におけるピッチ周期の伸
張方法を説明するための図である。第４図の４０１は、
もとの残差の例を示す図、４０２は４０１のピッチ周期
を伸張したものの例を示す図、４０３は４０２を音声合
成フィルタに入力して得られた合成音声の例を示す図で
ある。図において、時間軸に垂直に引かれた実線は、ピ
ッチ区間の境界を示している。もとの残差のピッチ周期
は、第４図４０１のピッチ周期Ｔ１であるが、合成した
い音声のピッチ周期Ｔ２が第４図４０２に示すようにピ
ッチ周期Ｔ１よりも長い場合は、不足する長さを補うた
めに、値が零である信号（区間Ｂ）をもとの残差（区間
Ａ）の後ろに付は加える。これを、音声合成フィルタに
入力し、第４図４０３に示すような合成音声を得る。こ
のようにして、もとのピッチ周期Ｔ１よりも長いピッチ
周期Ｔ２を持つ音声を合成していた。

（発明が解決しようとする問題点）このように、残差を音源として用いる音声合成方式では
、従来、残差のピッチ周期よりも長いピッチ周期で合成
する場合に、残差の後ろに零を付は加えることによって
不足分の長さを補っていた。しかしながら、もとのピッ
チ周期よりもかなり長い、例えば２倍以上の長さのピッ
チ周期で合成する場合には、合成される音声の音質が著
しく劣化してしまうという問題があった。

これに対して本発明は、残差を音源として用いる音声合
成方式において、もとの残差のピッチ周期よりも長いピ
ッチ周期で合成した場合にも、音質劣化の少ない良質な
合成音声を生成することができる音声合成方式を提供す
ることを目的としている。

（問題点を解決するための手段）第１の本発明は、音声を声道特性を表すパラメータと音
源信号とに分離し、前記音源信号のピッチ周期が所望の
ピッチ周期となるように制御し、前記声道特性を表すパ
ラメータと前記所望のピッチ周期を持った音源信号とか
ら所望のピッチ周期を持った音声信号を合成する音声合
成方式において、音源信号を前記音源のスペクトル特性
を表す音源パラメータを用いてモデル化して、前記音源
パラメータと前記モデル化の誤差信号とに分離し、前記
モデル化の誤差信号のピッチ周期が所望のピッチ周期と
なるように制御し、前記音源パラメータと前記所望のピ
ッチ周期を持ったモデル化の誤差信号とから所望のピッ
チ周期を持った音源信号を合成し、前記声道特性を表す
パラメータと前記所望のピッチ周期を持った音源信号と
から所望のピッチ周期を持った音声信号を合成すること
を特徴とする特また、第２の本発明は、音源パラメータとモデル化の誤
差信号を予め求めて格納しておき、前記格納されたモデ
ル化の誤差信号のピッチ周期が所望のピッチ周期となる
ように制御し、前記格納された音源パラメータと前記所
望のピッチ周期を持ったモデル化の誤差信号とを用いて
所望のピッチ周期の音源信号を生成することを特徴とす
る。

（作用）本発明では、残差を音源として用いる音声合成方式にお
いて、合成したいピッチ周期かもとの音声のピッチ周期
よりも長い場合に、音声合成フィルタへの入力である残
差を前記残差のスペクトル特性を表すパラメータを用い
てモデル化する。このときのパラメータとしては、線形
予測係数、線スペクトル対、ケプストラム、改良ケプス
トラムなどを用いることができるが、ここでは、線形予
測係数を用いる場合を例にとって説明する。すなわち、
残差を線形予測分析すると、さらにその予測誤差が生じ
る。これにより、残差を線形予測係数と予測誤差とに分
離することができる。もとの残差のピッチ周期よりも長
いピッチ周期が必要な場合、従来方式では第４図に示す
ように、不足分を補うために、残差の後ろに零を付は加
えていた。

これに対して本発明では、残差を線形予測分析しておき
、残差の予測誤差に必要な長さの零を付は加えて残差の
線形予測フィルタに入力し、音声合成フィルタへの入力
となる音源を合成する。第３図は本発明の音声合成方式
におけるピッチ周期の伸張方法を説明するための図であ
る。第３図３０１は、もとの残差を線形予測分析した際
の予測誤差の例を示す図、３０２は３０１のピッチ周期
を伸張したものの例を示す図、３０３は３０２を残差の
線形予測フィルタに人力して得られた音源信号の例を示
す図、３０４は３０３を音声合成フィルタに入力して得
られた合成音声の例を示す図である。図において、時間
軸に垂直に引かれた実線は、ピッチ区間の境界を示して
いる。もとの残差のピッチ周期は、第３図３０１のピッ
チ周期Ｔ１であるが、合成したい音声のピッチ周期Ｔ２
が第３図３０２に示すようにピッチ周期Ｔ１よりも長い
場合は、第３図３０１の残差を線形予測分析した際゛の
予測誤差に（Ｔ２−Ｔ１）の長さの値が零である信号を
付は加える。これを残差の線形予測フィルタに入力する
ことにより、第３図３０３に示すようなピッチ周期がＴ
２である残差が合成される。

したがって、第３図３０３に示す残差では、もとの残差
では不足している区間Ｂの信号が、区間Ａの信号を用い
て線形予測により合成され、補われていることになる。

これを、音声合成フィルタに人力し、第３図３０４に示
すような合成音声を得る。

このように、残差の不足する区間に零を付は加えている
従来方式とは異なり、不足する区間の信号をもとの残差
を用いて合成し、音声合成フィルタへの入力、すなわち
音源として用いる。このような方式により、もとの残差
のピッチ周期よりも長いピッチ周期で合成した場合でも
、音質劣化の少ない良質な合成音声を生成することが可
能となる。

（実施例）第１図は、第１の本発明による音声合成方式を実現する
ための一実施例を示すブロック図である。

人間が発声した音声信号は、予め分析を行って声道特性
を表すパラメータと音源信号とに分離されている。声道
特性を表すパラメータとしては、線形予測係数、線スペ
クトル対、ケプストラム、改良ケプストラムなどを用い
ることができる。この声道特性を表すパラメータは、フ
ィルタパラメータ記憶部１０４に記憶される。一方、音
源信号は音源信号記憶部１０５に蓄えられる。

合成音声を得るには、まず、合成したい音声の声道特性
を表すパラメータと音源信号とを選択する信号を、フィ
ルタパラメータ選択信号入力端子１０１、音源信号選択
信号入力端子１０２がらそれぞれ人力する。また、合成
したい音声のピッチ周期をピッチ周期入力端子１０３か
ら人力する。

前記フィルタパラメータ選択信号にしたがってフィルタ
パラメータ記憶部１０４に蓄えられている声道特性を表
すパラメータが選択され、音声合成フィルタ部１０９に
送られる。また、音源信号記憶部１０５は、音源信号選
択信号入力端子１０２から人力された前記音源信号選択
信号にしたがって音源信号を選択し、音源信号分析部１
０６に送る。音源信号分析部１０６は、スペクトル特性
を表すパラメータを用いて前記音源信号をモデル化し、
スペクトル特性を表すパラメータと、モデル化の誤差信
号とに分離する。前記音源信号のスペクトル特性を表す
パラメータとしては、線形予測係数、線スペクトル対、
ケプストラム、改良ケプストラムなどを用いることがで
きる。得られたスペクトル特性を表すパラメータは、音
源合成フィルタ部１０８に送られる。また、得られたモ
デル化の誤差信号は、ピッチ周期制御部１０７に送られ
る。ピッチ周期制御部１０７は、（作用）の項でも述べ
たように、前記モデル化の誤差信号とピッチ周期を前記
ピッチ周期入力端子１０３から人力されたピッチ周期と
等しい長さになるように制御し、音源合成フィルタ部１
０８に送る。音源合成フィルタ部１０８は、前記スペク
トル特性を表すパラメータと前記ピッチ周期を制御され
たモデル化の誤差信号とを用い、前記入力されたピッチ
周期と等しい長さの音源信号を合成し、音声合成フィル
タ部１０９に送る。音声合成フィルタ部１０９は、前記
フィルタパラメータ記憶部１０４から送られた声道特性
を表すパラメータを用いて音声合成フィルタを形成し、
音源合成フィルタ部１０８によって合成された音源信号
を前記音声合成フィルタの入力として音声信号を合成し
、合成音声出力端子１１０に出力する。

上記の実施例では、合成時に音源信号分析部１０６で音
源信号のスペクトル特性を表すパラメータとモデル化の
誤差信号とを求め、これらを用いて音源合成フィルタ部
１０８において入力されたピッチ周期と等しい長さの音
源信号を生成していた。音源信号のスペクトル特性を表
すパラメータとモデル化の誤差信号を予めピッチごとに
分析して格納しておき、合成時にこれを読み出して用い
るようにすることもできる。これが第２の本発明の原理
である。第２図は、このような第２の本発明による音声
合成方式を実現するための一実施例を示すブロック図で
ある。前記音源信号選択信号入力端子２０２から入力さ
れた音源信号を選択する信号は、音源データ選択信号生
成部２０５に送られる。音源データ選択信号生成部２０
５は、前記音源信号を選択する信号に基づいて、音源の
スペクトル特性を表すパラメータを選択する信号と、そ
れに対応するモデル化の誤差信号を選択する信号とを生
成し、それぞれ音源フィルタパラメータ記憶部２０６、
誤差信号記憶部２０７に送る。音源フィルタパラメータ
記憶部２０６は、選択された音源フィルタパラメータを
読み出し、音源合成フィルタ部２０８に送る。また、誤
差信号記憶部２０７は、選択された前記モデル化の誤差
信号を読み出し、前記読み出された誤差信号のピッチ周
期が、前記ピッチ周期入力端子２０３がら入力されたピ
ッチ周期と等しい長さになるように制御し、音源合成フ
ィルタ部２０８送る。上記以外の部分は第１図と同様で
あり、その動作は先の説明から明らかであるので説明を
省略する。

（発明の効果）以上部べてきたように、本発明によれば、もとの残差の
ピッチ周期よりも短いピッチ周期で合成した場合は勿論
のこと、非常に長いピッチ周期で合成した場合にも、音
質劣化の少ない良質な合成音声を生成することが可能で
ある。したがって、本発明は、ピッチ周期を任意に変化
させる必要がある場合でも、音質劣化の少ない良質な合
成音声を生成することが可能な音声合成方式として有効
である。

【図面の簡単な説明】

第１図は第１の本発明による音声合成方式を実現するた
めの一実施例を示すブロック図、第２図は第２の本発明
による音声合成方式を実現するための一実施例を示すブ
ロック図、第３図は本発明の音声合成方式におけるピッ
チ周期の伸張方法を説明するための図、第４図は従来方
式におけるピッチ周期の伸張方法を説明するための図で
ある。第１図において、１０１・・・フィルタパラメータ選択
信号入力端子、１０２・・・音源信号選択信号入力端子
、１０３・・・ピッチ周期入力端子、１０４・・、フィ
ルタパラメータ記憶部、１０５・・・音源信号記憶部、
１０６００．音源信号分析部、１０７・・・ピッチ周期
制御部、１０８・・・音源合成フィルタ部、１０９・・
・音声合成フィルタ部、１１０・・・合成音声出力端子
である。また、第２図において、２０１・・・フィルタパラメー
タ選択信号入力端子、２０２　、、、音源信号選択信号
入力端子、２０３．・・ピッチ周期入力端子、２０４・
・・フィルタパラメータ記憶部、２０５・１．音源デー
タ選択信号生成部、２０６・・・音源フィルタパラメー
タ記憶部、２０７・・・誤差信号記憶部、２０８１．音
源合成フィルタ部、２０９・・・音声合成フィルタ部、
２１０・・・合成音声出力端子である。

Claims

【特許請求の範囲】

（１）音声を声道特性を表すパラメータと音源信号とに
分離し、前記音源信号のピッチ周期が所望のピッチ周期
となるように制御し、前記声道特性を表すパラメータと
前記所望のピッチ周期を持った音源信号とから所望のピ
ッチ周期を持った音声信号を合成する音声合成方式にお
いて、音声信号を前記音源信号のスペクトル特性を表す
音源パラメータを用いてモデル化して、前記音源パラメ
ータと前記モデル化の誤差信号とに分離し、前記モデル
化の誤差信号のピッチ周期が所望のピッチ周期となるよ
うに制御し、前記音源パラメータと前記所望のピッチ周
期を持ったモデル化の誤差信号とから所望のピッチ周期
を持った音源信号を合成し、前記声道特性を表すパラメ
ータと前記所望のピッチ周期を持った音源信号とから所
望のピッチ周期を持った音声信号を合成することを特徴
とする音声合成方式。
（２）特許請求の範囲第１項記載の音声合成方式におい
て、音源パラメータとモデル化の誤差信号を予め求めて
格納しておき、前記格納されたモデル化の誤差信号のピ
ッチ周期が所望のピッチ周期となるように制御し、前記
格納された音源パラメータと前記所望のピッチ周期を持
ったモデル化の誤差信号とを用いて所望のピッチ周期の
音源信号を生成することを特徴とする音声合成方式。