JPH0632037B2

JPH0632037B2 - 音声合成装置

Info

Publication number: JPH0632037B2
Application number: JP60281438A
Authority: JP
Inventors: 寛治国澤; 博糸山
Original assignee: Matsushita Electric Works Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 1985-12-13
Filing date: 1985-12-13
Publication date: 1994-04-27
Anticipated expiration: 2009-04-27
Also published as: JPS62139599A

Description

【発明の詳細な説明】［技術分野］本発明は、規則合成手段を用いたＰＡＲＣＯＲ方式の音
声合成装置に関するものである。

［背景技術］一般に、音素や音節記号あるいは文字系列データだけを
入力とし、それらに対応する任意の合成音出力を得るこ
とができる規則合成法は、合成音の語彙数に制限がない
ので、非常に優れた音声合成方法である。しかしなが
ら、規則合成法で自然性、明瞭性の高い合成音を作るこ
とは容易でない。そこで、用途を限定するなどして実用
に耐え得ると思われるものが開発されてきている。ここ
に、比較的安価なＬＳＩが提供されているＰＡＲＣＯＲ
方式［振幅パラメータと、ピッチパラメータと、スペク
トルパラメータであるところの偏相関係数（κパラメー
タ）とよりなる音声合成データを音声信号をサンプリン
グした定常フレームから抽出し、この音声合成データに
て音声を合成する方式］の音声合成手段を用いた規則合
成法として、（母音＋子音＋母音）形音節（ＶＣＶ音
節）や、（子音＋母音）形音節（ＣＶ音節）を単位とす
る規則合成法が提案されている。ここに、ＶＣＶ音節は
７７０種類程度であり、ＣＶ音節は１００種類程度であ
るから、記憶容量の点から言えばＣＶ音節を単位とする
規則合成法の方が優れている。しかし、ＶＣＶ音節を単
位とする方法では母音と母音を接続するだけで良い（Ｖ
_１１Ｃ_１Ｖ_１２＋Ｖ_２１Ｃ_２Ｖ_２２）のに対して、ＣＶ
音節を単位とする方法では、母音と子音また母音（Ｃ_１
Ｖ_１＋Ｃ_２Ｖ_２またはＣ_１Ｖ_２＋Ｖ_２）を接続しなけれ
ばならないため、接続部分における補間特性が悪くなっ
て合成音の音質が悪くなるという問題があった。すなわ
ち、母音と母音、母音と有声子音とを接続するときには
パラメータを補間することになるが、ＰＡＲＣＯＲ方式
のκパラメータは直線補間を行った場合の補間特性が悪
く、合成音の品質が低くなってしまい自然性、明瞭性に
欠ける音声になるという問題があった。

そこで、このような問題点を解決するものとして、発明
者等は声道断面積に基いて音節の接続部のパラメータを
補間するようにした音声合成装置を特願昭６０−１２７
７７号として出願（以下において基本例と称する）して
いる。すなわち、規則合成手段にて処理された音声合成
データにより音声を合成するＰＡＲＣＯＲ方式の音声合
成手段を具備した音声合成装置において、音節の接続部
におけるパラメータを声道断面積Ai上で直線補間した
後、κパラメータに変換するように上記規則合成手段を
形成して、自然性、明瞭性が良い合成音を得ることがで
きるようにしたものである。ここに、上記基本例は、声
道を直円筒縦続接続近似（詳しくは参考文献「音声情報
処理の基礎」（オーム社）の第１０章を参照）した場合
に各声道断面積Aiは直線的に変化するであろうという考
えに基づいており、κパラメータ上で直線補間するより
も合成音の品質が高くなるものであり、κパラメータκ
ｉと声道断面積Ai,Ai₊₁との関係は κｉ＝（Ａｉ−Ａｉ_＋１）／Ａｉ＋Ａｉ_＋１）……(1) である。

しかしながら、このような基本例にあっては、合成音の
品質が高くなるものの、声道断面積上での直線補間の計
算に加えて、声道断面積からκパラメータに変換するた
めの割り算をする必要があり、この割り算が比較的大き
な負担となってしまうという問題があった。そこで、声
道断面積上で直線補間を行い、Ai,Ai₊₁を求めた後、変
換用テーブルを用いてκパラメータを求めるようにした
ものがあった。しかしながら、この場合にあっては、割
り算が不要になって演算処理が簡略化されるものの、２
次元の変換テーブルが必要になり、この変換テーブルに
要する記憶容量が非常に大きく（一般に、２次元のテー
ブルを形成するために要する記憶容量は１次元のテーブ
ルを形成するために要する記憶容量の２乗倍）になって
実現が困難になるといる問題があった。

［発明の目的］本発明は上記の点に鑑みて為されたものであり、その目
的とするところは、自然性、明瞭性が良い合成音を得る
ことができ、しかも、計算処理量および記憶容量を少な
くすることができ、構成が簡単になってコストを安くす
ることができる音声合成装置を提供することにある。

［発明の開示］（実施例）第１図は本発明一実施例を示すもので、子音と母音とよ
りなるＣＶ音節を単位とした音節合成パラメータを記憶
する音節合成パラメータ記憶部１と、規則データを記憶
する規則データ記憶部２と、文字系列データのような合
成入力データＤ_０、音節合成パラメータＤ_１および規則
データＤ_２に基いて音声合成データＤ_３を演算するとと
もに、音節の接続部のパラメータを補間処理する演算部
３とで規則合成手段４を形成し、上記規則合成手段４に
て処理された音声合成データＤ_３により音声を合成する
ＰＡＲＣＯＲ方式の音声合成手段５を具備して成る音声
合成装置において、音節間の接続を行う際における先行
音節、後続音節の接続部の声道断面積を▲Ａ^s _i▼，▲Ａ
^s _i+1▼、▲Ａ^e _i▼，▲Ａ^e _i+1▼とすると、の値を求め、この値より予め記憶しているκパラメータ
の補間パターンを選択して補間を行うように演算部３を
形成したものである。なお、実施例にあっては各音節の
音節合成パラメータを得るための分析手段１０はローパ
スフィルタを具備し原音声Ｖ_０をＡ／Ｄ変換するＡ／Ｄ
変換回路１１と、差分回路１２と、原音声Ｖ_０の振幅、
周期、スペクトルを分析して合成パラメータ（振幅パラ
メータ、ピッチパラメータおよびκパラメータ）を形成
する分析回路１３とで構成されており、分析を行う前に
差分などの逆フィルタリングを行うことにより、分析精
度を向上させて合成音の品質向上を図るようになってい
る。また、音声合成手段５の後段には、上記逆フィルタ
リングによる前処理をキャンセルするための逆差分回路
１４およびローパスフィルタを具備したＤ／Ａ変換回路
１５が設けられている。

以下、実施例の動作原理について説明する。いま、声道
断面積上で直線補間することを考えた場合において、補
間の始まりの点すなわち先行するＣＶ音節の最後の区間
の声道断面積を▲Ａ^s _i▼，▲Ａ^s _i+1▼、補間の終わりの
点すなわち後続のＣＶ音節の最初の区間の声道断面積を
▲Ａ^e _i▼，▲Ａ^e _i+1▼とすると、求めたい点のκパラメ
ータは補間の始まりの点から求めたい点までの長さを
ｌ、補間の始まりから終わりまでの長さをＬとおくと、となる。ここで、ｄκｉ／dx、ｄκｉ^２／dx²を求める
と、両式において分子はどちらも定数である。また、０＜▲
Ａ^s _i▼≦▲Ａ^s _i▼＋Δｉｘ≦▲Ａ^e _i▼ または０＜▲Ａ^e _i▼≦▲Ａ^e _i▼＋Δｉｘ≦▲Ａ^s _i▼…
(8) ０＜▲Ａ^s _i+1▼≦▲A^s _i+1▼＋Δｉ_＋１×≦▲A^e _i+1▼ または０＜▲Ａ^e _i+1ｘ≦▲Ａ^e _i+1▼＋Δｉ_＋１ｘ≦▲Ａ
^s _i+1▼……(9) （但し、Ａｉ，Ａｉ、Ａｉ_＋１，Ａｉ_＋１は声道断面積
であるから正の値をとる。）であるから、結局、ｘ（０≦ｘ≦１）に関なく常に正ま
たは負の値をとる。

ここにdκi／dxは常に正または負の値であるといること
はκｉはｘに関して単調な関数であることを意味し、d²
κi＝dx²が常に正または負の値であることはκｉはｘに
関して変曲点を持たず、常に上に凸、下に凸の関数とな
ることを意味する。

これにより、κｉのｘに関する関数の形はの値を見ることによりある程度予測できると考えられ
る。第２図は、声道断面積上で直線補間した場合におけ
るκパラメータの変化の例を示している。

そこで、κｉの関数の形としていくつかのパターンを用
意し、ｄκｉ／dx｜_ｘ＝０の値によってどのパターンに
属するかを決めることにより声道断面積上で直線補間す
る場合と近い効果を得ることができることになる。

以下、実施例の動作について第３図乃至第６図を用いて
具体的に説明する。第３図は音声合成動作を示すフロー
チャートであり、演算部３では、入力された発生音の文
字系列データから読み出すでべき音節を抽出し、抽出し
た音節に対応する音声合成データを音声合成パラメータ
記憶部１から読出す。次に、読み出された音声合成パラ
メータに基いて補間演算（後述）を行うとともに、規則
データによる音節長の決定を行い、κパラメータ系列、
ピッチパラメータ系列および振幅パラメータ系列を決定
する。このようにして作成された音声合成パラメータは
適宜データ圧縮され、音声合成用データとして記憶され
る。続いて、文字系列データから次の音節の抽出が行な
われて上述した動作が文末になるまで繰り返し行なわ
れ、文末になった時点で音声合成手段５による音声合成
が行なわれる。次に、音節の接続部におけるκパラメー
タの補間演算について説明する。いま、各ＣＶ音節また
はＶ音節のパラメータは定常部に達した点までのものが
音声合成パラメータ記憶部１に記憶してあり、最後の区
間のパラメータのリピート回数によって合成音の音節長
を調整するようになっている。また、音節の接続部にお
いては、先行する音節の最後の区間に対する声道断面積
と次の音節の最初の区間の声道断面積とからκパラメー
タの補間を行って接続する。第４図は各音節の非定常部
のκパラメータデータ▲Ｐⁱ ₁▼〜▲Pⁱ ₅▼、定常部のκ
パラメータデータＰ_５および各音節の最初、最後の区間
のκパラメータに対応する声道断面積データ▲Ａⁱ ₁▼，
▲Ａⁱ ₅▼の記憶状態、第５図はＣＶ音節の接続例をそれ
ぞれ示しており、接続部においてはκパラメータ▲Ａⁱ ₅
▼、▲Ａⁱ⁺¹ ₁▼に基いて補間を行うようになっている。
なお、音声合成データとしては、この他に有声／無声判
定パラメータ、振幅パラメータ、ピッチパラメータなど
が必要であることは言うまでもない。次に、κパラメー
タの補間は、(10)式よりｄκｉ／dx｜_ｘ＝０を求め、そ
の値より補間テーブル７を参照して補間パターンを選択
して補間を行うようになっている。第６図は、例えば、
４ステップで補間を行い、増加に関して３つ、減少に関
して３つのパターンがあるとしたときの補間テーブルの
パターンデータを示している。ここに、補間パターンを
選択するための計算が少しでも容易になるようにｄκｉ
／dxの代わりに−１／２（ｄκｉ／dx）を求め、それに
対応したしきい値を容易することにし、そのときに、となった場合にはパターン３を用いることになり、１ステップ目の値 κ＝▲κ^s _i▼＋（1/16）Δκｉ２ステップ目の値 κ＝▲κ^s _i▼＋（3/16）Δκｉ３ステップ目の値 κ＝▲κ^s _i▼＋（8/16）Δκｉとなる。但し、Δκｉ＝▲κ^s _i▼−▲κ^e _i▼である。

補間のパターンについて、ｊステップ目の増分を Δ▲κ^j _i▼＝（ｎ^ｊ／ａ）Δκｉｎは整数を求めておき、実際にΔ▲κ^j _i▼を求めるときにその値
をｎ回加算するだけで良いので計算が容易になる。さら
にａを２のべき乗としておくと、Δκｉ／ａの計算が非
常に容易になる。

このようにして補間した場合と、声道断面積上で実際に
直線補間してκパラメータに変換する場合の計算の複雑
さについて比較すると、前者の場合には一度−1/2（ｄ
κｉ／dx｜_ｘ＝０）を計算する必要があり、後者は各ス
テップ毎にκ＝（Ａｉ−Ａｉ_＋１）／（Ａｉ＋Ａ
ｉ_＋１）の計算を行う必要がある。また、前者において
は、(10)式より−1/2（ｄκｉ／dx｜_ｘ＝０）の計算の
ために３回の乗算と１回の除算を必要とし、一見複雑な
計算のように見えるが、この計算値は補間のパターンを
選択するためのしきい値と比較するだけであるので、そ
れほどの精度を必要としない。一方後者においては、κ
ｉは実際のκパラメータであり、１０ビット程度の精度
が必要であると考えられるので、κパラメータの計算精
度はかなり高精度が要求されることになり、補間計算は
後者よりも前者のほうがかなり容易になる。なお、補間
方法を用いた場合にあっても、声道断面積上で直線補間
した場合の効果は十分維持されることは言うまでもな
い。また、本実施例では、合成パラメータを圧縮してお
り、このようなデータ圧縮を行う場合には計算量が多く
なるが、記憶容量を小さくでき、総合的に見てコンパク
トで安価な音声合成装置が得られることになる。もちろ
んデータ圧縮を行わなくても良いことは言うまでもな
い。また、補間処理は、合成音の品質に大きな影響を与
える低次のκパラメータについてのみ行い、高次のκパ
ラメータについては直線補間するようにしても良い。

［発明の効果］本発明は上述のように、子音と母音とよりなるＣＶ音節
を単位とした音節合成パラメータを記憶する音節合成パ
ラメータ記憶部と、規則データを記憶する規則データ記
憶部と、文字系列データのような合成入力データ、音節
合成パラメータおよび規則データに基いて音声合成デー
タを演算するとともに、音節の接続部のパラメータを補
間処理する演算部とで規則合成手段を形成し、上記規則
合成手段にて処理された音声合成データにより音声を合
成するＰＡＲＣＯＲ方式の音声合成手段を具備して成る
音声合成装置において、音節間の接続を行う際における
先行音節、後続音節の接続部の声道断面積をそれぞれ▲
Ａ^s _i▼，▲Ａ^s _i+1▼、▲Ａ^e _i▼，▲Ａ^e _i+1▼とすると、の値を求め、この値より予め記憶しているκパラメータ
の補間パターンを選択して補間を行うように演算部を形
成したものであり、声道断面積上で直線補間した場合と
同様の自然性、明瞭性が良い合成音を得ることができ、
しかも、補間計算量を少なくすることができるので、安
価なＣＰＵを用いて演算部を形成でき、コストを安くす
ることができるという効果がある。

【図面の簡単な説明】

第１図は本発明一実施例のブロック回路図、第２図乃至
第６図は同上の動作説明図である。１は音声合成パラメータ記憶部、２は規則データ記憶
部、３は演算部、４は規則合成手段、５は音声合成手
段、７は補間テーブルである。

Claims

【特許請求の範囲】

【請求項１】子音と母音とよりなるＣＶ音節を単位とし
た音節合成パラメータを記憶する音節合成パラメータ記
憶部と、規則データを記憶する規則データ記憶部と、文
字系列データのような合成入力データ、音節合成パラメ
ータおよび規則データに基いて音声合成データを演算す
るとともに、音節の接続部のパラメータを補間処理する
演算部とで規則合成手段を形成し、上記規則合成手段に
て処理された音声合成データにより音声を合成するＰＡ
ＲＣＯＲ方式の音声合成手段を具備して成る音声合成装
置において、音節間の接続を行う際における先行音節、
後続音節の接続部の声道断面積をそれぞれ▲Ａ^s _i▼，▲
Ａ^s _i+1▼、▲Ａ^e _i▼，▲Ａ^e _i+1▼とすると、の値を求め、この値より予め補間テーブルに記憶してい
るκパラメータの補間パターンを選択して補間を行うよ
うに演算部を形成したことを特徴とする音声合成装置。