JPH0447840B2

JPH0447840B2 -

Info

Publication number: JPH0447840B2
Application number: JP58127999A
Authority: JP
Inventors: Takashi Yato; Takashi Miki; Makoto Morito
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1983-07-15
Filing date: 1983-07-15
Publication date: 1992-08-05
Also published as: JPS6021098A

Description

【発明の詳細な説明】（技術分野）本発明は、自然有声音における１ピツチの音声
素片に相当する波形データを素片単位として記憶
しておき、合成すべき音声に関する入力情報に応
じて作成された素片単位選択情報の系列に従つて
その素片単位を編集再生することにより音声を合
成する方法に関し、特に、前記入力情報に応じて
作成されるピツチ周期の系列と前記素片単位選択
情報の系列とを良好な音韻性と良好な韻律性とを
保持しつつ対応づけるようにした音声合成方法に
関する。

（従来技術）汎用的な目的で大量の語彙、もしくは人名、会
社名、地名といつた任意の音声の出力を必要とす
る装置の要求が高まつている。音声の波形を観測
すると、母音などの有音声の区間ではよく似た波
形が繰り返されているのが分かる。この周期をピ
ツチ周期と呼び、この１つの周期内の波形を１ピ
ツチ単位の音声素片という。この音声素片の内容
の変化が音韻性を表し、この周期の変化の時間的
パタンがアクセントを与え、韻律性に一要素を表
す。母音等の有声音区間では殆ど同じ形の波形が
繰り返され、同じ種類の音声では似た形の波形が
現われる。従つて、音声中に現われる波形の中で
音声を作り上げるために必要な特徴的音声素片波
形を記憶装置に蓄積しておき、これを読み出して
編集することにより任意の連続した音声を合成で
きると考えられる。

また、日本語の任意の文章は基本的に百数十種
の単音節で表すことができる。波形領域の合成に
おいて、記憶装置に格納された音声単位を素材と
して此等の韻律を適性に制御するためには、声の
高さ、振幅及び時間長を制御情報の辞書の指示に
従つて変化させながら連続音声を作り上げていく
必要がある。

任意語彙音声合成方法における音声の基本単位
としては、記憶容量と韻律性を考慮すると音声素
片を用いた方がよく、音韻的には単音節レベルよ
り大きい単位が優れていると考えられている。

この理由から音韻的には単音節を制御単位と
し、韻律の上では音声素片を制御単位とする方法
が提案されている。即ち、記憶装置に記憶されて
いる音声素片を単音節をブロツクとしてその内部
で順次的に配列しておく方法がある。この方法に
おいては、音声素片が単音節毎に時系列で連続に
取り出されることによつて音韻性が保たれ、ま
た、韻律の制御に当たつて音声素片を単位として
用いることが出来る。

（従来技術の問題点）ところで、このような波形領域の音声データを
用いた任意語彙合成方式ではピツチを制御するこ
とによつて１つの問題が生じる。

自然音声から切り出して記憶装置内に格納され
たある単音節波形が第１図ａのごとくｎ個のピツ
チ素片波形の時系列で構成されているとする。ま
た、簡単のため、此等のｎ個の素片波形が全てＰ
なるピツチ周期を持つとすれば、この単音節の時
間長PHLaはＰ×ｎで与えられる。合成音に自然
性をもたせるためには、この単音節が用いられる
状況に応じて此等の素片波形に各々適性なピツチ
変化が与えられなければならないが、音声のピツ
チの変化幅はかなり大きく、女性音声の場合、最
短ピツチと最長ピツチとの間には１オクターブ以
上の差がある。従つて、例えば、第１図ａの音素
データを用いてその標準的な場合の半分のピツチ
でこの単音節を合成したとすると合成波形は第１
図ｂのようになり、その継続時間PHLbも半分に
なる。

即ち、ピツチ制御を行うことによつて、継続時
間もそれに比例して変化する。本来、ピツチの変
化は声帯振動周期の変化を表し、継続時間の変化
は声道形状の変化状況を表すものと考えられ、互
いに多少の関係はあるもののほぼ分離したものと
見做せる。従つて、ピツチを変化させたとしても
継続時間に対するその他の変化要因がない限り継
続時間は一定に保たれるべきであつて、このよう
に音韻の継続時間が適正でない合成音は、テンポ
の乱れタイミングやリズムの不整を印象付ける。

また、ピツチ制御による影響は、継続時間の変
化のみではなく、音韻性にも大きな影響を与え
る。即ち、第１図ａにおいては、時間長PHLaの
間で移り変つていた音韻の変化状況が第１図ｂに
おいてはその半分の時間内PHLbで集約されてし
まう。

従来、この種の合成装置ではピツチ制御による
継続時間への影響は一般的にあまり考慮されてい
ない。これに対して、音節内の後端部の素片を繰
り返し用いたり、削除してしまうことによつて、
音節全体の継続時間だけは一定に保つ方式は見ら
れるが、この方式でも音節内の音韻の変化速度と
いう点では何等解決するものではない。

（発明の目的）本発明は、以上述べた従来技術の欠点を解決す
るために為されたものであり、合成時に与えられ
たピツチに対して、ピツチ毎の素片の開始時点に
於いて、当該区間が如何なる音韻を表現すべき区
間であるかを、記憶装置内に格納された標準音声
データを参照して判断し、合成時に用いる音素片
データを選択することによつて合成音の継続時間
と音韻性を適正に保つことを目的としたものであ
る。

（発明の概要）第２図及び第３図は本発明による音声素片選択
方法を示す。第２図及び第３図における上側の図
は標準音声データを示すもので、ある音節或いは
音素等の音声単位がS₁〜S_oのｎ個の音声素片から
構成されているとする。此等の音声素片データ
は、音声素片データの時系列であると同時に、継
続時間T_PHにおいて時々刻々変化する音韻性の時
系列を表している。即ち、音声素片S_iは音声単位
全体の継続時間T_PH内における時間t_i-1〜t_iの区間
の音韻性を表現するもので、この時間長L_iを音声
素片S_iの音韻長と名付け、音声単位を構成する音
声素片系列（S₁〜S_o）と共に音韻長系列（L₁〜
L_o）として、音声単位に関する標準音声データ
として記憶装置に格納しておく。

従来技術の第１図ａのように自然音声から切り
出した単音節で、しかもピツチ周期毎の素片波形
を音声素片とした場合には、個々の１ピツチ波形
が音声素片S_iに相当し、また、各１ピツチ波形の
ピツチ周期が音韻長L_iに相当する。

音声単位合成時には与えられたピツチ周期にお
ける各音声素片の開始時点において、当該区間が
如何なる音韻性を表現すべき区間であるかを、記
憶装置内に記憶されている標準音声データと対比
して判断し、適切な音声素片を選択する。

第２図は標準音韻長よりも長いピツチ周期で合
成を行う場合を示し、第３図は標準音韻長よりも
短いピツチ周期で合成を行う場合の音声素片選択
方法を示している。

第２図において、音声単位の開始時点t_P0はt₀に
対応するので、当然音声素片S₁を用いて合成す
る。音声素片S₁には、合成時のピツチ制御によつ
て音韻長L₁より長いピツチ周期P₁が与えられ、
次の音声素片の開始時点はt_p1となる。ここで、
再び次ぎなる音声素片を選択する為に、標準音声
データを参照する。時刻t_p1は、標準音声データ
に於いて音声素片S₂が使用されるべき区間t₁〜t₂
であるから、音声素片S₂が選択される。更に次の
音声素片の開始時点t_p2では、順序からすると従
来の方法では音声素片S₃が選択されるところであ
るが、本発明に於いては、標準音声データを参照
した時、時刻t_p2は音声素片S₄を表現すべき区間t₃
〜t₄であり、S₃の次のS₄を選択する。以後同様に
して各音声素片の開始時点t_p1毎に使用する音声
素片を決定する。

一方、標準音韻長よりも短いピツチ周期で合成
を行う第３図の例では、はじめに音声素片S₁を選
択して合成を行つた後、第２の素片開始時点t_p1
は、ピツチ周期P₁が標準音韻長L₁よりも短いた
めにまだ音声素片S₁を選択すべき区間t₀〜t₁にあ
る。このような場合には、音声素片S₁を再び使用
する。

以上のように音声単位合成時に与えられたピツ
チ周期における各音声素片の開始時点において、
当該区間が如何なる音韻性を表現すべき区間であ
るかを記憶装置内に記憶されている標準音声デー
タと対比して判断し、適切な音声素片を選択する
ことによつて、合成時においてピツチを変化させ
た場合においても音韻性及び音声単位全体の継続
時間を適正に保つことが出来る。

（実施例）第４図は本発明による音声合成装置の一例を示
したもので、マイクロプロセツサ１、タイプライ
タ２、韻律メモリ３、音節メモリ４、素片メモリ
５、波形再生器６から構成される。素片メモリ５
には任意の単語を合成するのに必要な音声素片デ
ータが格納されている。

この種の合成装置では大部分が女性音であるこ
とが要求されていることを考慮して、音声の標本
化周波数を8kHzとして女性音声のピツチ周期を
カバーするのに充分な64サンプルのデータ長とし
ている。

音節メモリ４は１音節を１ブロツクとして音節
を構成する音声素片データの先頭アドレスが順に
格納されており、更にその音節における各音声素
片の音韻長が格納されている。

韻律メモリ３には入力単語に対するアクセン
ト、イントネーシヨン等の韻律制御情報がコード
化されて記憶されている。以下、第４図に従つ
て、合成装置の動作を説明する。

先ず、タイプライタ２に対して出力すべき単語
の文字列が入力される。

マイクロプロセツサ１では、入力単語に対する
アクセント、イントネーシヨン等の韻律制御情報
を韻律メモリ３から検索する。韻律メモリ３から
検索される制御情報はアクセント型、イントネー
シヨン型等のコード形式になつており、マイクロ
プロセツサ１は此等の実際の制御データ、即ち区
間毎のピツチデータ、振幅データに変換する。

更にマイクロプロセツサ１は入力文字列を音節
に分解し、音節毎に音節メモリ４から各音節を構
成する音声素片の先頭アドレスと当該音声素片の
音韻長を順次入力する。このようにして得られた
アドレス及び制御データは其々編集合成のための
データとなる。

次に本発明の主旨である音声素片選択動作を第
５図のフローチヤートをもとに説明する。

本発明は基準となる音韻変化を表すデータを参
照することによつて合成時の音素データを選択す
るものであるが、音節メモリ４から読み出された
音声素片の先頭アドレス列とその各々に対応する
音韻長データが基準の音韻変化を表すデータとし
て用いられる。

第５図に於いて、PH_NOは入力文字列を音節に
分解したときの音節数、PH（ｉ）（ｉ＝１〜
PH_NO）は、分解された各音節の各々に対応する
音節メモリ４のアドレス系列を一時的に格納する
配列、ｉは音節アドレス列を示すポインタ、
PH_ADは音節メモリ４を読み出す音節アドレス、
S_NOは、合成すべき音節を構成している音声素片
の素片数を表す変数、Ｓ（ｊ）は、音節メモリ４
から読み出した音声素片先頭アドレス系列を格納
する配列、Ｌ（ｊ）は、音節メモリ４から読み出
した音韻長系列を格納する配列、Ｐ（ｊ）は、合
成すべき音節に関して音韻長区間毎に生成された
ピツチ系列を格納する配列、ｊは前記配列Ｓ
（ｊ），Ｌ（ｊ），Ｐ（ｊ）を指し示す素片ポインタ、
S_ADは現時点が如何なる音声素片を用いて合成す
べき区間か、即ち、使用すべき音声素片のアドレ
スを示す参照音声素片アドレスである。また、
C_Lはサンプリングクロツクにより音韻長を係数
する音韻長カウンタ変数、C_Pはサンプリングク
ロツクによりピツチを計数するピツチカウンタ変
数、C_ADは素片メモリ５から音声素片データを１
サンプルずつ読み出す音声素片読み出しアドレス
カウンタである。

ステツプSP1は合成開始時点における初期設定
を行うステツプで、各変数の初期化及び入力文字
列に応じて定まる音節アドレス系列PH（ｉ）と
その数PH_NOを設定する。

ステツプSP2では、センプリングクロツク毎の
音韻長を計数する音韻長カウンタ変数C_Lが０か
否かを判定して音韻長区間の終了判定を行う。即
ち、C_L＝０であれば素片ポインタｊを進め（ス
テツプSP3）、更に後続のステツプSP10，SP11に
おいて参照音声素片アドレスS_AD及び音韻長カウ
ンタ変数C_Lを更新する。但し、音韻長区間の終
了が音節区間あるいは単語区間の終了となる場合
があるため、ステツプSP4。ステツプSP6で其々
音節区間、単語区間の終了を判定している。

ステツプSP4で、音節区間が終了していれば
（ｊ＞S_NO）音節ポインタｉを進め（ステツプ
SP5）、次の音節の情報を音節メモリ４から読み
出して、素片数S_NO、音声素片先頭アドレス列Ｓ
（ｊ）音韻長系列Ｌ（ｊ）、及びピツチ系列Ｐ（ｊ）
を新たに設定する（ステツプSP7〜SP9）。

以上の一連の処理により参照音声素片アドレス
S_ADには、常にその時点において選択されるべき
標準の音声素片の先頭アドレスが設定される。

一方、ステツプSP12以降の処理では、前記音
韻長計数による参照音声素片アドレス更新処理
と、同一サンプルクロツク内で平行して行われる
ピツチ周期毎の音声素片開始時点での音声素片の
選択処理が行われる。

ステツプSP12ではサンプリングクロツク毎に
ピツチ周期を計数するピツチカウンタC_Pが０か
否かを判定し、C_P＝０であれば、次の合成に用
いる音声素片の先頭アドレスを参照音声素片アド
レスS_ADを参照して、音声素片読み出しアドレス
カウンタC_ADにセツトする。

ステツプSP15，SP16では音声素片読み出しア
ドレスカウンタC_ADに従つて、素片メモリ５から
音声素片データを１サンプルずつ読み出し、波形
再生を行う。

ステツプSP12〜SP17の一連の処理は、１サン
プルクロツク毎に行われるもので、最後のステツ
プSP17で、C_ADのインクリメント及びC_L，C_Pのデ
クリメントを行う。

（発明の効果）以上、詳細に説明したように、本発明によれば
音素波形再生時における各ピツチ周期の音声素片
の開始時点において、当該区間が如何なる音韻を
表現すべき区間であるかを、標準データを参照す
ることによつて逐一判定し、適切な音声素片を選
択するようにしている為、如何なるピツチ周期に
対しても合成音の継続時間及び音韻性が常に良好
に保たれ自然は合成音声を得ることが出来る。従
つて、本発明の方法を波形領域の任意語彙合成装
置に適用することにより、自然な合成音を得るこ
とが出来るという効果がある。

【図面の簡単な説明】

第１図は、波形領域合成における音韻性と韻律
性との対応関係を示す図、第２図と第３図は本発
明における音声素片とピツチ周期との対応関係を
示す説明図、第４図は本発明の一実施例を示すブ
ロツク図、第５図は音声素片選択の処理手順を示
す図である。１……マイクロプロセツサ、２……タイプライ
タ、３……韻律メモリ、４……単音節メモリ、５
……素片メモリ、６……波形再生器。

Claims

【特許請求の範囲】１自然音声における１ピツチ単位の音声素片に
相当するデータを素片単位として多数記憶してお
き、前記素片単位が音韻、音節、あるいは単語等
の一連の音声区間（音声単位）毎に時系列で連続
して取り出される機能を備え、前記素片単位のデ
ータを読み出して編集再生することによつて音声
を合成する音声合成方法において、前記音声単位は、素片単位の時系列S_i（ｉ＝１，
２，……）と、自然音声を基準として定めた前記
素片単位の時系列に対応する音韻長系列L_i（ｉ＝
１，２，……）とで表され、音声合成に際しては、前記音韻長L_iを係数する
毎に合成に使用すべき素片単位を順次更新する手
段と、合成時に与えられたピツチ周期を係数する毎に
合成すべき素片単位を選択する手段を有すること
を特徴とする音声合成方法。