JPH11352997A

JPH11352997A - 音声合成装置およびその制御方法

Info

Publication number: JPH11352997A
Application number: JP10164526A
Authority: JP
Inventors: Keiichi Kayahara; 桂一茅原
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1998-06-12
Filing date: 1998-06-12
Publication date: 1999-12-24

Abstract

(57)【要約】【課題】音韻継続時間が大幅に長くなった際の音声が
より自然な音声に聞こえるように変換し、特に、歌唱合
成の音声を肉声に近いビブラートを含んだものにできる
音声合成装置およびその制御方法の提供。【解決手段】音声合成装置10は、テキスト解析部12か
ら供給される各種のデータを用いて合成パラメータ生成
部14が音声継続時間に応じて素片辞書16から順次に読み
出される音声素片の読出しを複数の音声素片の範囲内お
よび／または基本周波数を中心に所定の範囲内を往復的
に繰り返す制御を行って、テキストを解析して得られた
読みに対応する音声素片および／または周波数（すなわ
ち、ピッチ）として割り当てて合成パラメータを生成し
ている。これにより、生成された合成パラメータに応じ
て変動した音声を音声継続時間中に出力させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、供給される情報を
音声に変換する音声合成装置およびその制御方法に関
し、特に音声素片を重畳する波形編集型のテキスト音声
変換で用いる合成パラメータの生成に適用して好適なも
のである。

【０００２】

【従来の技術】現在、入力された日常読み書きしている
かな漢字混じり文、英数字および記号を含めた被音声変
換情報、いわゆるテキスト（以下、被音声変換情報をテ
キストという）を音声に変換する、テキスト音声変換技
術が注目されてきている。このテキスト音声変換技術
は、予め出力する語句を録音しておき、供給される情報
に対応するこの語句の再生音声を合成する音声変換技術
と異なり、出力語彙の制限がないことから、種々の分野
への適用が期待されてきている。

【０００３】このテキスト音声変換は、第１に、供給さ
れるテキストを解析する。この解析によって、たとえば
テキストの読み、アクセント、イントネーション等を規
定する音韻・韻律記号列からなる中間言語が生成され
る。第２に、生成された中間言語を基に音声合成に用い
る合成パラメータが生成される。この合成パラメータ
は、合成する音声を特徴付ける重要な要素であり、たと
えば音の種類を表す音声の基本単位である音声素片、音
の長さを示す音韻継続時間、音の高さ、すなわちピッチ
（以下、音の高さをピッチという）を規定する基本周波
数等がある。第３に、この合成パラメータから音声の合
成波形の生成が行われる。最後に、生成された波形を音
声信号にした後、スピーカを介して合成音声が出力され
る。

【０００４】上述した合成パラメータは、各種の音韻単
位で生成される。音韻継続時間は、音声素片を重畳する
場合に用いる時間単位、すなわちフレームに基づいて音
の長さであるフレーム長が規定される。また、ピッチ
は、予め規定しておいたアクセント規則に基づいて決め
られている。合成パラメータは、フレーム長を除いた、
音韻記号列に該当する音声素片が格納されているアドレ
スを示す素片アドレス、ピッチ、音の強さを表す振幅を
一組のセットとして扱う、フレームデータにまとめられ
ている。このことから判るように、フレームデータは、
各フレームという時間内でどのような音声を合成するか
を示すパラメータのデータ・セットである。

【０００５】また、音の継続は、フレーム長に応じて線
形的にフレームデータの継続時間を伸縮させて行う場合
や音を伸ばすとき最終フレームの音声素片を繰り返して
対応する場合等の手法を用いて行っている。上述した後
者の手法は、音の伸張時にフレームを追加することによ
り、本来音声合成用に持っている音声素片数よりも拡張
したフレーム分だけフレーム数が多くしている。

【０００６】

【発明が解決しようとする課題】ところで、前述したよ
うにテキスト音声変換技術は、汎用的な使用に好都合な
ことから、近年、アミューズメント系のゲーム等で数多
く採用されてきている。特に、テキストを音声出力する
だけでなく、メロディーに合わせた歌唱合成のニーズが
高まってきている。

【０００７】この歌唱合成にテキスト音声変換技術を適
用した場合、単にテキストを読むよりも音の継続は長く
なる傾向がある。さらに、この傾向に加えて、この歌唱
合成では一定の音が連続する箇所でもその音に対してあ
る音程内で音を揺らす、ビブラート効果も歌唱表現の手
法の一つとして実現しなければならない。このビブラー
トは、難波精一郎等の著書「音の科学」によれば、周波
数約6Hz の周波数変調であることが知られている。

【０００８】そこで、この歌唱のようにある一定時間以
上同一音韻が同一の音程で連続する場合、1/6 秒の周期
でピッチをある制限内に加減して実現させている。

【０００９】ところが、音韻継続時間が長くなると音声
は、音質が機械的に、たとえば、ブザー音のように聞こ
えることが知られている。このように聞こえる原因は、
まず、音韻性を知覚する際、人間はその音韻特性の時間
変化も認識しているので、この音韻特性の微妙な時間変
化が音声における重要なパラメータになっていること、
さらに、同一音声素片を連続して重畳して合成された音
声と実際の発声とに基づく音韻特性の時間変化が異なっ
ていること等が大きく影響していると検討されている。
このような影響を受けた合成音声による歌唱は、まだ人
工的に生成された音声の範疇にあり、人間の歌声から大
きく掛け離れた音声出力となっている。

【００１０】本発明はこのような従来技術の欠点を解消
し、音韻継続時間が大幅に長くなった際の音声がより自
然な音声に聞こえるように変換し、特に、歌唱合成の音
声を肉声に近いビブラートを含んだものにできる音声合
成装置およびその制御方法を提供することを目的とす
る。

【００１１】

【課題を解決するための手段】本発明は上述の課題を解
決するために、文字や記号が含まれる情報をテキストと
して取り込み、このテキストを少なくとも単語の読みお
よびアクセント情報が登録された単語辞書を用いて解析
し、この解析で得られたデータと音声の基本単位となる
音声素片の登録された素片辞書とを参照しながら、少な
くとも音声素片、音の長さである音韻継続時間、音の高
さを規定する基本周波数、および音の強さである振幅を
含んだ、合成パラメータを生成し、この生成した合成パ
ラメータから生成された波形を重畳して音声に変換して
ユーザにより指定された速度で出力する音声合成装置に
おいて、テキストを解析して得られた読みに対応する音
声素片が素片辞書内に登録されている複数の音声素片で
表される際に、音声継続時間に応じて素片辞書から順次
に読み出される音声素片の読出しを複数の音声素片の範
囲内および／または基本周波数を中心に所定の範囲内を
往復的に繰り返す制御を行いながら、合成パラメータを
生成する合成パラメータ生成手段を含むことを特徴とす
る。

【００１２】ここで、合成パラメータ生成手段は、音声
素片の一つが継続して繰り返される回数で規定された時
間をフレーム長とし、このフレーム長が音声継続時間内
に含まれる数を算出するフレーム数算出手段を含み、フ
レーム数算出手段は、少なくとも音声素片の選択、音韻
継続および基本周波数の生成を行わせる各手段に制御信
号を算出した数の分だけ送出し、音声素片を選択する手
段は、制御信号により素片辞書に対して複数の音声素片
の範囲内の音声素片を往復的に繰返し読み出すことが好
ましい。これにより、選択する音声素片を変動させるこ
とができる。

【００１３】また、合成パラメータ生成手段は、一定時
間以上の期間にわたって同一音韻が連続するかを音韻継
続時間および出力される音声の調歩を規定する発声速度
に基づいて判定し、この判定結果に応じて制御を行う判
定制御手段を含み、判定制御手段は、フレーム長を算出
する手段、フレーム数算出手段、ならびに少なくとも音
声素片の生成、フレーム長の設定および基本周波数に応
じたピッチの生成を行わせる各手段を制御し、判定制御
手段は、音声素片を生成する手段が素片辞書に対して複
数の音声素片の範囲内の音声素片を往復的に繰り返し読
み出す処理およびピッチ生成する手段が基本となるピッ
チに対して所定の範囲内で往復的に揺らすピッチ生成処
理の制御を行うことが望ましい。これにより、これら両
処理の出力を同期させることができるようになる。

【００１４】本発明の音声合成装置は、合成パラメータ
手段が音声継続時間に応じて素片辞書から順次に読み出
される音声素片の読出しを複数の音声素片の範囲内およ
び／または基本周波数を中心に所定の範囲内を往復的に
繰り返す制御を行って、テキストを解析して得られた読
みに対応する音声素片および／または周波数（すなわ
ち、ピッチ）として割り当てて合成パラメータを生成す
ることにより、割り当てたパラメータに応じて変動した
音声が音声継続時間中に出力される。

【００１５】また、本発明は、文字や記号が含まれる情
報をテキストとして取り込み、該テキストを少なくとも
単語の読みおよびアクセント情報が登録された単語辞書
を用いて解析し、この解析で得られたデータと音声の基
本単位となる音声素片の登録された素片辞書とを参照し
ながら、少なくとも音声素片、音の長さである音韻継続
時間、音の高さを規定する基本周波数、および音の強さ
である振幅を含んだ、合成パラメータを生成し、この生
成した合成パラメータから生成された波形を重畳して音
声に変換してユーザにより指定された速度で出力する音
声合成装置の制御方法において、合成パラメータを生成
する際に、指定された速度の情報を基に音声素片の一つ
が継続して繰り返される回数で規定する時間で表される
フレーム長を算出するフレーム長算出工程と、このフレ
ーム長算出工程で得られたフレーム長を用いて解析で得
られた第１のデータである音韻継続時間の時間内に含ま
れるフレーム数を算出するフレーム数算出工程と、この
フレーム数算出工程で得られたフレーム数分のカウント
を行いながら、このカウントに応じて合成パラメータの
各パラメータを生成するタイミング制御を行うタイミン
グ制御工程と、このタイミング制御工程で行われたタイ
ミングを基に解析で得られた第２のデータであるアクセ
ント指示情報から基本周波数を決定するとともに、この
基本周波数を中心に各フレームに対して所定の周波数範
囲内を往復的に変動させた周波数を選択する周波数選択
工程と、このタイミングで解析により得られた第３のデ
ータである音韻記号列が素片辞書内で複数の音声素片に
より表される際にフレーム数にわたってそれぞれ設定さ
れるフレームに対しこの複数の音声素片を往復的に一つ
ずつ選択する音声素片選択工程と、解析で得られた第
１、第２および第３のデータをそれぞれ用いてこのタイ
ミングで振幅を決定する振幅決定工程と、フレーム長算
出工程、周波数選択工程、振幅決定工程および音声素片
選択工程でそれぞれ得られたパラメータを多重化するパ
ラメータ合成工程とを含み、音声素片選択工程は、前記
周波数選択工程での往復的な変動に応じて音声素片の選
択を調整することを特徴とする。

【００１６】ここで、音声素片選択工程は、音韻記号列
に対応する素片辞書内での音声素片の先頭アドレスを探
索する先頭探索工程と、この先頭探索工程で得られた対
応した音声素片が複数で表されるか調べる素片数探索工
程と、この素片数探索工程で得られた音声素片の数の中
で現在出力する音声素片の選択を行うとともに、素片辞
書内で次に出力する音声素片の選択位置を設定する素片
選択工程とを含むことが好ましい。この供給された音韻
記号列に対応した音声素片が素片辞書内においてどの位
置にあって、かつこの音韻記号列に対応して出力される
音声の構成を知ることができるので、特にたとえば、こ
の音声素片の読出し順序を変更しながら、音声素片を読
み出すことにより、出力音声に微妙な音声に変動を起こ
させて出力音声を肉声に近づけることができる。

【００１７】素片選択工程は、タイミングが供給された
際に現在のフレームおよび次のフレームに対応する各ア
ドレス設定を初期化するアドレス初期化工程と、このア
ドレス初期化後、この設定されたアドレスの音声素片を
素片辞書から読み出す第１の音声素片読出し工程と、こ
のアドレス初期化工程の後に設定されたアドレスに対し
て増加させるアドレス分を算出する増加アドレス算出工
程と、現在のアドレスと増加させるアドレス分を加算し
て次のアドレスを設定する次アドレス設定工程と、この
次アドレス設定工程により設定されたアドレスの音声素
片を素片辞書から読み出す第２の音声素片読出し工程
と、この第２の音声素片読出し工程の後に、この音声素
片読出し回数がフレーム数に達したか判定する回数判定
工程とを含み、回数判定工程での音声素片読出し回数が
前記フレーム数を越えるまで回数判定工程以後の処理を
増加アドレス算出工程に戻すことが望ましい。これによ
り、フレーム毎に読み出される音声素片が算出されるア
ドレス増加分で決められる。たとえば、フレーム数が複
数の音声素片よりも多いとき、複数の音声素片より大き
なフレーム数のフレームに対してアドレス増加させても
複数の音声素片を越えないように繰り返して往復的に音
声素片を読み出すことができる。

【００１８】また、周波数選択工程は、供給される一つ
の音韻記号列に対して用いられる複数の音声素片よりも
フレーム数が多いかを判定するフレーム数判定工程と、
このフレーム数判定工程の結果に応じて選択する基本周
波数を中心に係数を乗算して周波数変調を施す周波数変
調工程と、フレーム数判定工程の結果に応じて素片辞書
内で次に出力する音声素片の選択位置を設定する素片選
択工程と、この素片選択工程の後に、この音声素片読出
し回数がフレーム数に達したか判定する回数判定工程と
を含むことが好ましい。これにより、各フレームに割り
当てられる周波数が可変されて周波数変調されるから、
出力音声に微妙な変動、すなわちある音程内での音の変
動を持たせることができる。

【００１９】さらに、上述した音声素片選択工程におけ
る周波数変調工程は、選択した基本周波数に略々6Hz の
周波数変調を施すことが望ましい。これにより、肉声に
近いビブラート的な効果を音声に持たせることができ
る。

【００２０】さらにまた、素片選択工程は、供給される
音韻記号列の発声に伴って最初のフレームに割り当てら
れる素片辞書内の音声素片を選択する第１の素片選択の
場合と、最初のフレーム以降の発声継続において、基本
周波数より高い側への最大周波数に線形補間しながら、
第１の素片で選択した音声素片を用いて基本周波数と最
大周波数の間を往復させて音声素片を選択する第２の素
片選択の場合と、最初のフレーム以降の発声継続におい
て、基本周波数より低い側への最小周波数に線形補間し
ながら、第１の素片で選択した音声素片を用いて基本周
波数と最小周波数の間を往復させて音声素片を選択する
第３の素片選択の場合とを含み、第１の素片選択終了
後、第２の素片選択と第３の素片選択を前記音韻継続時
間内で繰り返すことが有利である。これにより、音声素
片を基本周波数を中心とした最大周波数と最小周波数と
の間で往復的に設定することができる。

【００２１】本発明の音声合成装置の制御方法は、合成
パラメータを生成する際に、得られたフレーム長を用い
て第１のデータが表す時間内に含まれるフレーム数を算
出し、得られたフレーム数分のカウントを行いながら、
このカウントに応じて合成パラメータの各パラメータを
生成するタイミング制御を行う。また、このタイミング
を基に第２のデータのアクセント指示情報から基本周波
数を決定し、かつ第３のデータの音韻記号列に対する音
声素片が素片辞書内において複数で表される際に、基本
周波数を所定の周波数範囲内で揺らす処理を行うかどう
かに応じてフレーム数にわたってそれぞれ設定されるフ
レームに対しこの複数の音声素片を往復的に一つずつ選
択する処理も行うか選択しながら、第１、第２および第
３のデータを用いて振幅を決定する。このようにしてそ
れぞれ得られたパラメータを多重化して合成パラメータ
を生成することにより、音韻継続時間内の各フレームで
用いられるパラメータを所定の範囲内で変動させて出力
音声に微妙な変化を持たせている。

【００２２】

【発明の実施の形態】次に添付図面を参照して本発明に
よる音声合成装置およびその制御方法の実施例を詳細に
説明する。

【００２３】本発明の音声合成装置は、音声合成に関わ
るパラメータとして音声素片および／または周波数（ピ
ッチ）をそれぞれの所定の範囲内で変動させて得られた
パラメータを用いて合成パラメータを生成することに特
徴がある。本発明が適用された音声合成装置10について
図１〜図11を参照しながら説明する。

【００２４】音声合成装置10は、テキスト解析部12、合
成パラメータ生成部14、素片辞書16、波形生成部18、音
声生成部20およびスピーカ22で構成されている。

【００２５】テキスト解析部12は、先ず言語的に、入力
文に対して形態素解析および構文解析を行うとともに、
入力文に対する強調情報の設定が行われる。第２に、得
られた解析結果を基に音声合成のための中間言語を音韻
処理で生成する。音韻処理では、図示しないが文節に含
まれる単語のアクセント結合を行って韻律語を生成する
韻律語生成処理、基準となるアクセント指令の規則に基
づくアクセント指令生成処理、および基準となるポーズ
・フレーズ指令の規則に基づくポーズ・フレーズ指令生
成処理等の各種の処理が行われている。

【００２６】また、テキスト解析部12には、ユーザによ
り入力される情報の内、発声速度情報や音声継続時間情
報も供給されている。テキスト解析部12は、音声合成に
必要となる、発声速度情報および音声継続時間情報を一
時的に記憶させた後、アクセント指示情報および音韻記
号列が合成パラメータ生成部14に供給される。

【００２７】合成パラメータ生成部14には、フレーム長
算出部14a 、フレーム数算出部14b、ピッチ決定部14c
、振幅決定部14d 、音声素片決定部14e および多重化
部14fが備えられている。

【００２８】フレーム長算出部14a およびフレーム数算
出部14b には、演算処理部が備えられ、この音声合成装
置10で用いるサンプリングクロックが供給されている。
フレーム長算出部14a は、予め指定される発声速度情報
により１フレーム分の長さを規定すると、この１フレー
ムはサンプリング数で表すことができる。サンプリング
数でフレーム長len を表すことによって、音声合成装置
10は、後段に配される波形生成部18での波形生成が基準
となるサンプリングクロックのカウント数で制御できる
ようになる。フレーム長算出部14a は、このサンプリン
グ数を多重化部14f に出力するとともに、フレーム数算
出部14b にも供給している。

【００２９】フレーム数算出部14b には、演算処理部が
備えられている。フレーム数算出部14b には、テキスト
解析部12から入力文の音韻記号列に関する音韻継続時間
情報t サンプルとフレーム長算出部14a で算出されたフ
レーム長len がそれぞれ供給されている。フレーム数を
N とすると、このフレーム数N は、除算結果を整数値に
丸める、いわゆるint 関数を用いて、式(1)

【００３０】

【数１】 N=int(t/len) ・・・(1) で表される。

【００３１】フレーム数算出部14b には、単にフレーム
数を算出するだけでなく、この算出されたフレーム数N
に応じて各部の動作を制御するパラメータ生成制御部
（図示せず）も含まれている。フレーム数算出部14b
は、各フレーム毎に各パラメータが生成されるようにピ
ッチ決定部14c 、振幅決定部14d 、音声素片決定部14e
に制御信号を供給している。フレーム数算出部14b は、
この制御信号をフレーム数N まで出力する。

【００３２】ピッチ決定部14c は、テキスト解析部12か
らのアクセント指示情報に応じて現フレームに対応する
ピッチが供給されたその音韻記号列における基本周波数
として選択する。ピッチ決定部14c は、フレーム数算出
部14b からの制御信号に応じて動作し、選択された基本
周波数を多重化部14f に出力する。

【００３３】振幅決定部14d は、現フレームに対する振
幅値あるいは振幅係数を算出する。この算出にあたり、
振幅決定部14d では、それぞれ供給される音韻継続時間
情報、アクセント指示情報、および音韻記号列を用いて
演算が行われる。この算出された値も多重化部14f に供
給される。

【００３４】音声素片決定部14e には、図２に示すよう
に、合成単位判定部140eおよび辞書検索部142eが備えら
れている。合成単位判定部140eは、供給された音韻記号
列を基に音声素片を複数の音声素片を一つの単位とする
合成単位で表すようにするかの判定を行う。合成単位で
音声を表す場合は、たとえば、フレーム数N が設定しよ
うとしている音声素片数より大きい場合である。

【００３５】そして、辞書検索部142eは、合成単位で音
声を表す場合と通常の音声を出力させる場合について、
たとえば２本の線をそれぞれに対応させ、いずれか一方
が判定に応じてオン状態で供給されるとともに、音声素
片数の設定情報も供給される。辞書検索部142eは、供給
される音声素片数およびその音声素片が格納されている
素片辞書16における先頭アドレスを検索し、決定する。
このとき、辞書検索部142eは、設定した音声素片を素片
辞書16に対する設定範囲内で供給される制御信号に応じ
て往復的に素片辞書16のアドレスを検索し、選択する。
この辞書検索部142e介して素片辞書16とのアクセスによ
り、選択された音声素片が検索結果として多重化部14f
に出力される。

【００３６】多重化部14f は、フレーム長算出部14a 、
ピッチ決定部14c 、振幅決定部14d、および音声素片決
定部14e からそれぞれ供給される出力を選択的に取り込
んで合成パラメータを生成する。合成パラメータは、図
３に示すように、音声合成装置10における１フレームの
長さを規定するフレーム長格納領域FLA 、以降のフレー
ム情報格納領域F1, F2, F3,・・・にはフレーム内で出力す
る合成音声の各種パラメータが格納されている。一つの
フレームに着目すると、たとえば、フレーム情報格納領
域F1は、フレーム情報格納第１領域F1a に素片辞書16の
アドレス、その第２領域F1b に音声素片のピッチおよび
その第３領域F1c に振幅を配する構造になっており、フ
レーム情報格納領域F2, F3, F4,・・・でも同じ構造を用い
ている。

【００３７】波形生成部18は、合成パラメータ生成部14
で生成された合成パラメータが供給される。波形生成部
18は、フレーム毎に供給される合成パラメータの各要素
のデータに対応した波形となるように形成を行う。すな
わち、フレームで使用する音声素片を読み出して波形と
する。この波形に対して音との高さ、強さを規定し、さ
らに各フレームの波形を重畳して合成波形データが生成
される。

【００３８】音声生成部20は、供給される合成波形デー
タにたとえばD/A 変換処理を施して音声を生成する。音
声生成部20は、生成された音声波形信号にする。この音
声波形信号が、たとえば、スピーカ22を介して入力され
た情報（たとえば文章等）を音声にして出力される。こ
のように構成して音声構成装置10は、入力されたデータ
の音声継続時間に応じた合成パラメータを生成して、こ
の生成されたパラメータに基づく合成音声を出力させて
いる。

【００３９】次に音声合成装置10の動作手順について説
明する。音声合成装置10には、最初にたとえば、ステッ
プS10 で装置の起動時に各種の条件設定が行われる。そ
の一つに発声速度の設定がある。この発声速度とは、前
述したようにユーザが予め設定するパラメータである。
発声速度は、フレーム長という概念を用いることなく、
単に「速い」、「普通」、「遅い」等の表示部（図示せ
ず）に表示される。ユーザは、これらの表示の中から速
度を選択する。この選択された発声速度が発声速度情報
になる。

【００４０】各フレーム長は、たとえば「速い」の場
合、100 サンプル、「普通」の場合200 サンプル、「遅
い」の場合、300 サンプルとする。一定のサンプリング
周波数でサンプリングすると、サンプル数が増えるほど
１フレームの長さが長くなることは明らかである。この
後、ステップS11 に進む。

【００４１】ステップS11 では、テキストデータを音声
合成装置10への取り込みを行うとともに、この取り込ん
だテキストデータの読出しを行う。テキストデータは、
たとえばこの音声合成変換と逆変換に対応する音声入力
変換での取込み、光学的なスキャナを介して取り込んだ
濃淡情報を基に文字および記号の識別、コンピュータ等
に接続されたキーボード等を介して入力された情報等に
よって得られる。

【００４２】次にステップS12 では、読み出されるテキ
ストデータがまだあるかどうか判断する。テキストデー
タが有る場合（Yes ）、ステップS13 に進む。また、テ
キストデータがない場合（No）、音声合成装置10の処理
を終了する。

【００４３】ステップS13 では、供給されるテキストデ
ータに対する解析、すなわちテキスト解析を行う。テキ
スト解析は、図１のテキスト解析部12で行われる。この
テキスト解析では、言語的に文章、語句、韻律と細分化
して文の修飾関係の解析や音声として発音する際の特徴
となる、たとえばアクセント・強調・ポーズ・フレーズ
に対応した音韻解析等が行われる。この解析により得ら
れたデータが、いわゆる中間言語と呼ばれるデータであ
る。この中間言語とともに、発声速度情報が合成パラメ
ータ生成部14に供給される。この処理の後、サブルーチ
ンSUB1に移行する。

【００４４】サブルーチンSUB1では、合成パラメータ生
成部14での処理によって供給される各種の情報をパラメ
ータ化するとともに、得られたパラメータを多重化して
これらパラメータの合成を行っている。供給される情報
は、上述したように、中間言語のデータとして音声継続
時間情報、アクセント指示情報、音韻記号列が合成パラ
メータ生成部14に供給される。また、条件設定で行われ
た発声速度情報も合成パラメータ生成部14に供給され
る。サブルーチンSUB1で生成された合成パラメータは、
波形生成部16に供給される。この後、サブルーチンSUB1
の処理を終了してステップS14 に進む。

【００４５】ステップS14 では、供給される合成パラメ
ータを基に音声用の波形を生成する。この波形生成は、
波形生成部18で行う。波形生成部18は、前述したように
音声素片を複数重畳させるように波形データを重畳して
ステップS15 に進む。

【００４６】ステップS15 では、供給された波形データ
に音声の特徴が現れるアナログ信号に変換する。アナロ
グ信号への変換は、一般的に行われるようにD/A 変換器
等のハードウェアを使用して行われる。このようにして
得られたアナログ信号がスピーカ22に供給される。スピ
ーカ22は、供給されるアナログ信号を音声に変換して出
力する。この音声合成装置10では、ステップS12 で説明
したように、テキストデータがなくなるまで連続して音
声出力される。したがって、テキストデータがなくなる
と、音声合成装置10は、出力を停止する。なお、ステッ
プS12 の処理は、図４のステップ15以降に設けてデータ
があるとき、ステップS13 に戻って処理を継続させる。
また、テキストデータがなくなったとき、処理を終了さ
せるようにしてもよい。

【００４７】次に音声合成装置10のサブルーチンSUB1の
動作手順について図５を参照しながら説明する。サブル
ーチンSUB1では、フレーム長を算出するサブステップSS
10に進む。

【００４８】サブステップSS10では、供給される発声速
度情報を基に１フレームの長さがどのくらいになるかを
算出する。この算出は、フレーム長算出部14a で行われ
る。発声速度情報は、サンプル数で供給されるので、サ
ンプリング周波数f_sで割った値(1/f_s ) を乗算すると、
時間単位になる。この算出後、サブステップSS11に進
む。

【００４９】サブステップSS11では、供給される音韻記
号列に対する音声継続時間情報から音声継続時間内に有
するフレーム数N を算出する。算出式は、前述した式
(1) である。この算出は、図１のフレーム数算出部14b
で行われる。フレーム数算出部14b は、フレーム数の演
算を行うだけでなく、算出したフレーム数に応じてカウ
ントしながら、ピッチ決定部14c 、振幅決定部14d 、お
よび音声素片決定部14eを制御する制御信号も出力して
いる。したがって、この制御信号は、音声継続時間内に
N 回出力されることになる。後段で述べるが、多重化部
14f は、音韻記号列の一つが継続されるとき、N 個のフ
レーム情報格納領域F1〜FNが形成される。この算出後、
サブステップSS12に進む。

【００５０】サブステップSS12では、供給される音韻記
号列に対応した素片辞書16の音声素片が含まれる変数ア
ドレス、すなわち先頭アドレスstr_adr の値を初期化す
る。フレーム数算出部14b から供給される制御信号に応
じて音声素片決定部14e が処理を開始した際に音声素片
決定部14e は、供給される音韻記号列に対応する音声素
片のアドレス検索を素片辞書16に行う。この初期化と
は、アドレス検索によって素片辞書16内に含まれる音声
素片の先頭アドレスstr_adr でたとえば前フレームの先
頭アドレスが置換される設定を示している。

【００５１】次にサブステップSS13では、前のサブステ
ップと同様に音韻記号列を表すためアドレス検索で素片
辞書16から得られた音声素片の数である変数Nsegの値を
置換して設定する。

【００５２】なお、単に変数Nsegの値を設定したが、図
２に示すように入力される音韻記号列に対応する音声素
片の数およびフレーム数の大きさから音声素片の数を合
成単位として扱うかどうか判定する、合成単位判定部14
0eの判定結果に応じて辞書検索部142eを制御してもよ
い。

【００５３】次にサブステップSS14では、現フレームに
対する音声素片アドレスADR を先頭アドレスstr_adr で
初期化する（ADR=str_adr ）。この処理は、素片辞書16
の検索制御を行う、辞書検索部142eで行われる（図２を
参照）。この後、サブステップSS15に進む。

【００５４】サブステップSS15では、変数adr_inc を初
期化する。この初期化では、変数adr_inc は１に設定さ
れる（adr_inc=1 ）。この後、サブステップSS16に進
む。

【００５５】サブステップSS16では、フレーム数算出部
14b から供給される制御信号の回数をカウントする変数
i をゼロにセットする。次にサブステップSS17に進む。

【００５６】サブステップSS17では、変数i がフレーム
数N より小さいかどうか判定する。変数i がフレーム数
N より小さいとき（Yes ）、サブステップSS18に進む。
また、変数i がフレーム数N 以上のとき（No）、リター
ンに移行する。

【００５７】サブステップSS18では、変数i の値を+1だ
け歩進させてサブステップSS19に進む。

【００５８】サブステップSS19では、ピッチの決定処理
を行う。ピッチ決定は、フレーム数算出部14b から供給
される制御信号に応じて処理をピッチ決定部14c で行わ
せる。ピッチ決定は、テキスト解析部12からのアクセン
ト指示情報に対応したピッチ、すなわち基本周波数を決
定する。ピッチ決定部14c は、決定したパラメータを多
重化部14f に出力する。

【００５９】次にサブステップSS20では、波形の振幅の
決定を行う。この振幅決定は、供給される制御信号に応
じて振幅決定部14d を動作させる。振幅決定部14d に
は、音声継続時間情報、アクセント指示情報だけでな
く、音韻記号列も供給されている。振幅決定部14d は、
これらの情報を基に現在のフレーム（以下、単に略して
現フレームという）における振幅値あるいは振幅係数の
一方に対する算出を行う。振幅決定部14d は、決定した
パラメータを多重化部14f に出力する。この出力の後、
サブステップSS21に進む。

【００６０】サブステップSS21では、この時点で得られ
ている現フレームに関する音声素片のアドレス値を確定
値として多重化部14f に出力する。このとき、フローチ
ャート中には図示しないが多重化部14f では１フレーム
分を構成するパラメータがすべて揃うので、多重化処理
を行って合成パラメータを生成している。

【００６１】次にサブステップSS22では、更新される変
数adr_inc の値を場合に応じて設定条件を満足するか判
別する。設定条件は、変数adr_inc の値が1 に等しく、
かつ現フレームの音声素片アドレスと変数adr_inc の加
算結果が先頭アドレスstr_adr と変数Nsegの加算結果に
等しいかそれ以上の値の場合、あるいは変数adr_incの
値が-1に等しく、かつ現フレームの音声素片アドレスと
変数adr_inc の加算結果が先頭アドレスstr_adr より小
さい値の場合に変数adr_inc の値を更新する。この設定
条件を満足するとき（Yes ）、サブステップSS23に進
む。また、設定条件を満足しなかったとき（No）、サブ
ステップSS24に進む。

【００６２】サブステップSS23では、変数adr_inc に-1
を乗算して変数adr_inc の符号を変える。すなわち、こ
の更新は、取り得る音声素片アドレス範囲の極値を越え
たと判断して音声素片アドレスの増加方向の向きが変わ
ることを意味する。この変数更新後、サブステップSS25
に進む。

【００６３】サブステップSS24では、変数adr_inc の符
号をそのままにしてサブステップSS25に進む。すなわ
ち、サブステップSS22での判断は、音声素片アドレスAD
R が音声素片アドレス範囲の中で単調増加あるいは単調
減少の期間にあることを意味している。

【００６４】サブステップSS25では、現フレームで用い
た音声素片アドレスADR にサブステップSS23あるいはサ
ブステップSS24で求めた変数adr_inc を加算して新たな
音声素片アドレスを決定する。すなわち、この新たな音
声素片アドレスが次フレームの音声素片アドレスであ
る。この加算処理後、処理をサブステップSS17に戻す。

【００６５】前述したしたようにサブステップSS17で
は、変数i がフレーム数以上の値に達したとき（No）、
リターンに移行して供給された音声記号列に対する合成
パラメータの生成を行っている。

【００６６】実際に音韻記号列として"a" が供給された
際に、音声素片決定部14e は、素片辞書16を制御して音
韻記号列"a" に対応する音声素片の先頭アドレスstr_ad
r を検索する。素片辞書16には、各音韻記号列に対応し
た音声素片とその音韻記号列を正確に音声変換するのに
要する音声素片の数、すなわち素片数Nsegが一組となっ
て格納されている。検索によりこの素片辞書16には、音
韻記号列"a" を表すための複数の音声素片a₁, a₂, a₃と
３つ備えられていることが判る（Nseg=3；図６(a) を参
照）。

【００６７】供給された発声速度情報および音声継続時
間情報により、サンプリングの周期とそれぞれフレーム
長のサンプリング数len および音韻記号列"a" を継続す
る音時間を示すサンプリング数t の乗算で表される。供
給される音韻記号列"a" は、この場合、式(1) の計算結
果から図６(b) に示すようにフレーム数N=6 である。音
韻記号列"a" を表すために音声素片a₁, a₂, a₃が必要な
ことから、６個のフレームの内、フレームF4, F5, F6
は、音声を継続させる期間に相当する、拡張フレームEF
である。ただし、この拡張フレームがないとき、従来と
同じフレーム構成となる。

【００６８】ここで、前述したサブステップSS22での設
定条件を考慮すると、図６のフレームF4, F6で変数adr_
inc の符号が更新される。音声継続時間中、往復的に素
片辞書16がアクセスされるので、この結果、音声素片
は、図６(a) に示す順序で読み出される。また、パラメ
ータの一つであるピッチは、それぞれピッチp1, p2, ・・
・, p6 がピッチ決定部14c で決定されている。この決定
により、各フレームにいくつの音声素片が含まれるかが
決まることになる。もう一つのパラメータである振幅も
振幅決定部14d で決定される。図６(b) から明らかなよ
うに、フレーム毎に音声素片の振幅が微妙に異なってい
ることが判る。

【００６９】このようにして得られた各パラメータは、
多重化部14f で多重化される。そのとき、フレーム毎に
多重化される際のパラメータ配置は、前述した図３の構
成を採る。このまとめられた合成パラメータは、波形生
成部18に供給される。波形生成部18は、供給された合成
パラメータを基に各フレームの波形を生成する。この生
成された各フレームの波形を加算すると、最終的に図６
(c) に示す合成波形が得られる。この合成波形は、音声
生成部20に供給されてアナログ信号に変換される。そし
て、このアナログ信号がスピーカ22から出力すると、音
声継続時間にわたってテキストデータ（あるいは音韻記
号列）"a" に対応した音声が出力される。この音声は、
音声素片の採用する際に次に採用する音声素片を現在使
用した音声素片に隣接した音声素片から採用するととも
に、採用する音声素片の範囲を往復的に採用することに
より、微妙な音程の変化をもたらし、聞き手にとって肉
声に近い音として供給されることになる。これにより、
従来、問題視された音声継続時間の長い発声に対して生
じていた機械音的な発声を大幅に改善することができ
る。

【００７０】なお、選択する音声素片は、前述した実施
例では素片辞書16が有する音声素片すべてとして扱った
が、素片辞書16の持つ数種類の音声素片は必ずしも定常
状態における音声素片とは限らない。これらの音声素片
は、先行音韻から過渡部分、あるいは後続音韻への過渡
部分の音声素片であることも考えられるからである。こ
のような場合、最終の音声素片から３つ音声素片を遡る
範囲（すなわち、str_adr+Nseg-4,・・・,str_adr+Nseg-1
）にしてもよい。ところで、これらの過渡状態になあ
る音声素片を用いた場合には、接続性を損なって聞き難
い音質になってしまうので、定常状態にある音声素片だ
けを用いることが好ましい。

【００７１】また、フレーム長を発声速度だけで決定す
るようにしたが、このフレーム長は、音声継続時間があ
る一定以上の長さを越えた場合だけ固定長にして、それ
以外の場合ではフレーム長とフレーム数の両パラメータ
で継続時間を制御してもよい。

【００７２】次に音声合成装置10の変形例について説明
する。この変形例は、音声合成装置10をたとえば、歌唱
に適用する場合である。音声合成装置10のテキスト解析
部12は、図示しないが常のテキスト解析を対象とした
ものでなく、楽譜上の音階記号を解析する機能を有して
いる。この解析機能は、たとえばMIDI（Music Instrume
nt Digital Interface）規格に基づいて解析を行う。こ
の解析に基づいた音韻記号列が合成パラメータ生成部14
に供給される。本実施例では、合成パラメータ生成部14
が拡張フレームの音声素片をピッチの揺らぎに同期して
選択することを特徴としている。

【００７３】ここで、音声合成装置10は、共通する部分
に同じ参照番号を付して説明を簡略化する。この変形例
における特徴を表す合成パラメータ生成部14についての
概略的な構成だけを図７に示す。

【００７４】合成パラメータ生成部14には、ビブラート
制御部14A および基本時間算出部14B が備えられてい
る。ビブラート制御部14A は、音声素片決定部14e に供
給される音韻記号列（言葉）に対してビブラートを施す
かどうかを供給される発声速度情報および音声継続時間
情報を基に判定を行う。そして、ビブラート制御部14A
は、この判定に基づいて各部、すなわち基本時間算出部
14B 、ピッチ決定部14c、振幅決定部14d および音声素
片決定部14e を制御する。ビブラートを施すかどうかの
判定は、予め設定した所定の長さ以上に長い音声継続が
指定された際に施すという基準に基づいている。

【００７５】基本時間算出部14B には、前述したフレー
ム長算出部14a およびフレーム数算出部14b が含まれて
いる。基本時間算出部14B は、供給される音韻記号列の
一つひとつに対応した基本時間を算出している。換言す
ると、歌唱に用いる場合、供給される発声速度情報は、
たとえば、アンダンテ、モデラート、アレグロ等の楽譜
に記された速度標語あるいは速度記号に対応して規定さ
れている。また、音声継続時間情報は、楽譜に記された
音符あるいは休止記号に対応している。このため、フレ
ーム長算出部14a およびフレーム数算出部14a は、これ
らのフレーム長やフレーム数の算出に供給される上述し
たパラメータの他に、ビブラート制御部14A からの判定
結果と音声素片決定部14e から供給される拡張フレーム
EFに用いる素片数から、フレーム長およびフレーム数の
算出を行っている。基本時間算出部14B は、ビブラート
効果がより高く作用するように値の算出を行う。算出に
ついては後段の動作において詳述する。

【００７６】ピッチ決定部14c は、この場合、アクセン
ト指示情報として楽譜に記されている音階が供給されて
いる。ピッチ決定部14c は、この音階から現フレームに
おける基本ピッチの算出を行う。基本ピッチとは、ビブ
ラート処理で用いるピッチと区別するために設けた呼び
方であって、現フレームにおいて基本をなすピッチを意
味している。ピッチ決定部14c は、ビブラート制御部14
A からの制御信号に応じて基本ピッチを中心に略々6Hz
の範囲にわたって周波数変調させる。この場合の周波数
変調は、基本ピッチに対して所定の値の加算・減算をお
こなったり、あるいは基本ピッチに比例した値を加算・
減算する方法等が用いられる。ピッチ決定部14c は、ビ
ブラート制御部14A からの制御信号に応じて制御され
る。

【００７７】振幅決定部14d は、前述の実施例の同様に
振幅値あるいは振幅係数を算出する。また、これらのパ
ラメータだけでなく、楽譜中に記された単なる強弱の記
号、時間的な要素を含む、たとえばスタッカートの記号
やレガートさせる際のスラーの記号ならびに強弱および
時間的な要素を含む、クラッシェントやデクレッシェン
ト等も考慮すると微妙な音の調整を行える。振幅決定部
14d は、ビブラート制御部14A からの制御信号に応じて
制御される。

【００７８】音声素片決定部14e も前述の実施例と同様
に素片辞書16に格納されている音声素片を選ぶととも
に、合成単位とするか判定する。音声素片決定部14e
は、判定結果に応じて素片辞書16のアドレスを検索にそ
の結果を多重化部14f に出力する。また、音声素片決定
部14e は、音韻記号列の一入力に対する音声素片数Nseg
および音声伸長に伴って拡張フレームに用いる音声素片
の選択もフレーム毎に行っている。得られた情報は、基
本時間算出部14B に供給され、フレーム長およびフレー
ム数の算出に用いられる。音声素片決定部14e は、ビブ
ラート制御部14A からの制御信号に応じて制御される。

【００７９】多重化部14f は、各部で算出されたパラメ
ータをフレーム毎に合成パラメータにまとめて波形生成
部18に出力する。このように構成してピッチと音声素片
とが対応して多重化させている。

【００８０】次にこの音声合成装置10における変形した
構成の動作について図８〜図11を参照し、具体的な数値
を挙げて説明する。動作説明の簡略化を図るため、合成
パラメータ生成処理を扱う、前述したサブルーチンSUB1
の代わりに歌唱用のサブルーチンSUB2を用いる。本実施
例でもテキスト解析部12では、入力データの解析が行わ
れている。テキスト解析部12は、楽譜から読み取って入
力されたデータ、たとえば、”四分音符=100”を速度記
号とみなし、一分間に100 打つ速さで発声あるいは発音
させると解析して発声速度情報として出力する。この設
定において、テキスト解析部12は、読み取ったデータか
ら”咲いた”、”ドレミ”および”四分音符、四分音
符、二分音符”をそれぞれに対応する音韻記号列、音
階、音声継続時間を合成パラメータ生成部14に供給す
る。ここで、”た”、”ミ”、”二分音符”が供給され
た場合の合成パラメータ生成について説明する。

【００８１】先ず、サブルーチンSUB2においてサブステ
ップSS30に進む。サブステップSS30では、音韻”た”に
対応する音声素片を素片辞書16中の該当する先頭アドレ
スstr_adr を検索するとともに、音韻”た”を表す音声
素片数Nsegの検出を行う。この音声素片数Nseg=11 の検
出後、サブステップSS31に進む。

【００８２】サブステップSS31では、音韻継続時間情報
に基づいて追加される拡張フレームEFにおいて用いる音
声素片数Msegの値を設定する。この音声素片数Msegは、
音声素片数Nseg以下の数値を設定する。音声素片数Mseg
の値は、9 とする。また、予め素片辞書16の”た”に対
応してこの値を格納させておき、この時点で検出するよ
うにしてもよい。この設定後、サブステップSS32に進
む。

【００８３】サブステップSS32では、フレーム長len を
算出する。6Hz の１周期内で設定された音声素片を往復
的に選択することから、選択される音声素片数は（Mseg
-1)×2 となる。値Mseg=9の場合、ビブラートには、16
個の音声素片が用いられる。フレーム長len は、この16
回の音声素片が選択されるので時間の長さでもあるか
ら、この周期内にサンプリングされる数を選択される音
声素片数で除算することにより得られる。正確に単位を
合わせるためには、さらに、得られた数値にサンプリン
グ周波数の１周期分の値を乗算して得られた値が時間単
位のフレーム長になるが、サンプリング周波数を基準の
時間単位とみなして処理を行うことから、実際の演算で
はサンプル数で時間の長さを表すことにする。

【００８４】ここで、合成音声出力で用いるサンプリン
グ周波数は、22.05kHzとする。ビブラートを生じさせる
周波数は、前述したように6Hz であることが知られてい
るから、この6Hz の周期中には3675個サンプリングされ
ることになる。したがって、フレーム長len は、この周
期中に16回の音声素片の選択を行うことから、3675/16
からほぼ230 サンプルの時間（≒0.0104sec ）となる。
この算出後サブステップSS33に進む。

【００８５】サブステップSS33では、フレーム数N を算
出する。音韻継続時間内に含まれるフレームの数であ
る。実際に算出すると、”二分音符”という音韻継続時
間情報から指定される音韻継続時間は1.2 sec であるこ
とが判る。この音韻継続時間は、速度記号の定義から”
四分音符=100”の長さが0.6secで、”二分音符”が”四
分音符”を１に規格化した際にその２倍の長さとなるか
らである。したがって、この音韻継続時間の期間中この
サンプリング周波数では26460 個（サンプリング周波数
×速度記号に対応する長さ×音符の長さ）のサンプリン
グが行われる。この場合、フレーム数N は26460/230 と
して約115 フレームと算出される。この算出後、サブス
テップSS34に進む。サブステップSS30〜SS33までの処理
は、主に基本時間算出部14B で行われる。

【００８６】サブステップSS34では、指定された音階に
対応する基本ピッチを算出する。この算出処理は、ビブ
ラート制御部14A からの制御信号に応じてピッチ決定部
14cで行われる。この場合、音階”ミ”に対応する基本
ピッチP₁が算出される。

【００８７】次にサブステップSS35では、算出した基本
ピッチP₁に基づいてビブラート用の最大／最小ピッチ
P₂, P₃を算出する。この算出もピッチ決定部14c で行わ
れる。この場合、最大ピッチP₂は、基本ピッチP₁からピ
ッチ周波数を増加させる（＋）方向の最大周波数（P₁×
1.03）を表し、最小ピッチP₃は、基本ピッチP₁からピッ
チ周波数を減少させる（−）方向の最小周波数（P₁×0.
97）を表している。この最大ピッチ−最小ピッチ間のピ
ッチは、6Hz の周波数間隔を有し、後述する算出処理に
おいては線形補間により対応するピッチが算出されて基
本ピッチからずらすとともに、6Hz の間隔を越えないよ
うにしている。この算出後、サブステップSS36に進む。

【００８８】サブステップSS36では、ビブラートへの過
渡状態における処理に用いるパラメータの初期設定を行
う。初期設定は、変数j, Fについて行い、それぞれ0 と
1 をセットする（j=0, F=1）。変数j は、カウントパラ
メータでこの場合、過渡状態の音声素片読出し回数を表
すパラメータとなっている。変数F はフレーム数をカウ
ントしている。

【００８９】次にサブステップSS37では、過渡状態にあ
るかどうかの判定を行う。過渡状態を満足する条件は、
変数j の値が全音声素片数Nsegと拡張フレームEF用の音
声素片数Msegとの減算結果からさらに-1した値（Nseg-M
seg-1 ）よりも小さいことである。この条件を満足する
と判定されたとき（Yes ）、サブステップSS38に進む。
また、この条件を満たさない、すなわち過渡状態を過ぎ
たと判定したとき（No）、接続子Ａを介して図９に示す
サブステップSS41に進む。

【００９０】サブステップSS38では、各変数j, Fの値を
+1だけ歩進させる（j=j+1; F=F+1）。次にサブステップ
SS39では、フレーム内で音声素片読出しに対応して合成
パラメータを生成するための各パラメータを決定する。
各パラメータとは、振幅、ピッチ、および音声素片のア
ドレスである。これらは、それぞれ振幅決定部14d 、ピ
ッチ決定部14c 、および音声素片決定部14e で行われ
る。この過渡状態では、ピッチに基本ピッチP₁を設定す
る。また、音声素片のアドレスは、str_adr+j で決めら
れる。この場合、各決定したパラメータは、多重化部14
f に供給される。この処理後、サブステップSS40に進
む。

【００９１】サブステップSS40では、これまでカウント
したフレーム数F が音声継続時間における全フレーム数
N より大きいか判定を行う。フレーム数F が全フレーム
数N以下のとき（No）、サブステップSS37に戻る。ま
た、フレーム数F が全フレーム数N より大きいとき（Ye
s ）、接続子Ｂ、図９の接続子Ｃを介してリターンに移
行する。

【００９２】この一連のサブステップSS36〜SS40では音
声素片が変化してもこの処理期間中のピッチは基本ピッ
チが常に出力される、ビブラートが施されない処理が行
われる。

【００９３】この過渡状態を経て音声継続に伴う状態を
定常状態と呼ぶ。この定常状態ではビブラートを施す処
理が図９のサブステップSS41から行われる。

【００９４】サブステップSS41では、ビブラートを行う
定常状態における処理に用いるパラメータの初期設定を
行う。初期設定は、変数j について行い、0 をセットす
る（j=0 ）。変数j は、カウントパラメータでこの場
合、定常状態の音声素片読出し回数を表すパラメータと
なっている。

【００９５】次にサブステップSS42では、定常状態にお
いて拡張フレームに用いる音声素片数よりビブラート用
のパラメータ生成処理回数が少ないかどうかという条件
（j＜Mseg）の判定を行う。この条件が成立していると
き（Yes ）、ビブラート用の音声素片読出しが行われて
いる最中であると判定してサブステップSS43に進む。ま
た、変数j が値Mseg以上の値になったとき（No）、拡張
フレームに用いる音声素片における一方向の読出しが終
了したと判定してサブステップSS48に進む。この判定が
行われるまで、素片辞書16から読み出す音声素片が（Ms
eg-1）回繰り返される。

【００９６】サブステップSS43では、振幅が振幅決定部
14b での算出処理により決定される。この処理後、サブ
ステップSS44に進む。

【００９７】サブステップSS44では、ビブラート処理に
伴って変化するピッチの算出処理がピッチ決定部14c で
行われる。ピッチの算出は、基本ピッチ- 最小ピッチ間
を線形補間することによって行われる。基本ピッチと最
小ピッチとを往復的に切り換えるための境界が必要にな
る。ここで、この境界は、値Mseg/2に設定する。そし
て、変数j が値Mseg/2よりも小さいとき、線形補間によ
り算出されるピッチP_Lは、式(2)

【００９８】

【数２】 P_L=P₁-2j(P₁-P₃)/Mseg ・・・・(2) に依存して得られる。また、変数j が値Mseg/2以上のと
き、線形補間により算出されるピッチP_Lは、式(3)

【００９９】

【数３】 P_L=P₃+(2j-Mseg)(P₁-P₃)/Mseg ・・・・(3) に依存して得られる。この場合分けに応じて得られたピ
ッチP_Lを用いる。この算出後、サブステップSS45に進
む。

【０１００】サブステップSS45では、音声素片アドレス
の設定を音声素片決定部14e で行う。設定される音声素
片アドレスは、音声素片の先頭アドレスstr_adr に音声
素片数Nsegと変数j を加算し、拡張フレームで用いる音
声素片数Mseg分を差し引いて得られる。この音声素片の
アドレス設定後、サブステップSS46に進む。

【０１０１】サブステップSS46では、変数j, Fの値をそ
れぞれ+1だけ歩進させる。この後、サブステップSS47に
進む。

【０１０２】サブステップSS47では、これまでカウント
したフレーム数F が音声継続時間における全フレーム数
N より大きいか判定を行う。フレーム数F が全フレーム
数N以下のとき（No）、サブステップSS42に戻る。ま
た、フレーム数F が全フレーム数N より大きいとき（Ye
s ）、接続子Ｃを介してリターンに移行する。

【０１０３】この処理により定常状態にある素片を用い
てピッチが基本ピッチP₁から最小ピッチP₃まで減少し、
さらに最小ピッチP₃から基本ピッチP₁まで増加するとと
もに、音声素片アドレスは選択される拡張フレームで用
いる音声素片アドレスの範囲内を先頭アドレスstr_adr
から順に読み出すように各パラメータが音声素片アドレ
スのサンプリングに対応して生成されることになる。

【０１０４】次にサブステップSS48では、再びビブラー
トを行う定常状態における処理に用いるパラメータの初
期設定を行う。初期設定は、変数j について行い、0 を
セットする（j=0 ）。変数j は、カウントパラメータで
この場合も定常状態の音声素片読出し回数を表すパラメ
ータとなっている。

【０１０５】次にサブステップSS49では、定常状態にお
いて拡張フレームに用いる音声素片数よりビブラート用
のパラメータ生成処理回数が少ないかどうかという条件
（j＜Mseg）の判定を行う。この条件が成立していると
き（Yes ）、ビブラート用の音声素片読出しが行われて
いる最中であると判定してサブステップSS50に進む。ま
た、変数j が値Mseg以上の値になったとき（No）、拡張
フレームに用いる音声素片における一方向の読出しが終
了したと判定して接続子Ｅを介して図10のサブステップ
SS55に進む。この判定が行われるまで、素片辞書16から
読み出す音声素片が（Mseg-1）回繰り返される。

【０１０６】サブステップSS50では、振幅が振幅決定部
14b での算出処理により決定される。この処理後、接続
子Ｄを介して図10のサブステップSS51に進む。

【０１０７】サブステップSS51では、ビブラート処理に
伴って変化するピッチの算出処理がピッチ決定部14c で
行われる。ピッチの算出は、基本ピッチ- 最大ピッチ間
を線形補間することによって行われる。基本ピッチと最
大ピッチとを往復的に切り換えるための境界が必要にな
る。ここで、この境界は、値Mseg/2に設定する。そし
て、変数j が値Mseg/2よりも小さいとき、線形補間によ
り算出されるピッチP_Lは、式(4)

【０１０８】

【数４】 P_L=P₁+2j(P₂-P₁)/Mseg ・・・・(4) に依存して得られる。また、変数j が値Mseg/2以上のと
き、線形補間により算出されるピッチP_Lは、式(5)

【０１０９】

【数５】 P_L=P₂-(2j-Mseg)(P₂-P₁)/Mseg ・・・・(5) に依存して得られる。この場合分けに応じて得られたピ
ッチP_Lを用いる。この算出後、サブステップSS52に進
む。

【０１１０】サブステップSS52では、音声素片アドレス
の設定を音声素片決定部14e で行う。設定される音声素
片アドレスは、末端側の音声素片から順次読み出すよう
にするため先頭アドレスstr_adr に音声素片数Nsegを加
算し、変数j を減算しさらに-1して得られる。この音声
素片のアドレス設定後、サブステップSS53に進む。

【０１１１】サブステップSS53では、変数j, Fの値をそ
れぞれ+1だけ歩進させる。この後、サブステップSS54に
進む。

【０１１２】サブステップSS54では、これまでカウント
したフレーム数F が音声継続時間における全フレーム数
N より大きいか判定を行う。フレーム数F が全フレーム
数N以下のとき（No）、接続子Ｆを介して図９のサブス
テップSS49に戻る。また、フレーム数F が全フレーム数
N より大きいとき（Yes ）、リターンに移行する。

【０１１３】この処理により定常状態にある素片を用い
てピッチが基本ピッチP₁から最大ピッチP₂まで増加し、
さらに最大ピッチP₂から基本ピッチP₁まで減少するとと
もに、音声素片アドレスは選択される拡張フレームで用
いる音声素片アドレスの範囲内を末端側のアドレスから
順に読み出すように各パラメータが音声素片アドレスの
サンプリングに対応して生成されることになる。これら
一連の動作において、ビブラート制御部14A の制御でこ
のように処理することにより、ピッチの揺らぎと選択し
た音声素片との間には、定常状態で同期した関係が得ら
れる。

【０１１４】前述したようにサブステップSS49で変数j
が値Mseg以上と判定されたとき（No）接続子Ｅを介して
サブステップSS55に移行する。このサブステップSS55で
は、音声継続時間で規定されたフレーム数N とフレーム
の数をカウントする変数F の値とを比較する。変数F が
フレーム数N の値以下のとき（No）、図10の接続子Ｇ、
図９の接続子Ｈを経て図８のサブステップSS37に戻って
前述の処理を繰り返す。また、変数F がフレーム数N よ
り大きい値のとき（Yes ）、音声継続時間が経過したと
判断してリターンに移行する。リターンを介して合成パ
ラメータ処理を終了させてステップS14 に進む。

【０１１５】図８〜図10のサブルーチンSUB2の動作に応
じて得られる関係は、図11に示すようになる。音声合成
装置10は、約6Hz のフレーム長内をピッチP₂- ピッチP₃
の範囲内で往復的に変化させ、かつ音声素片のアドレス
も往復的に拡張フレームを16回変化させることで拡張フ
レームの領域の音声にビブラートを発生させる。このよ
うに動作させることにより、ピッチの揺れと音声素片の
選択を同時に選択することで、この選択による出力音声
を同期させることができるので、たとえば歌唱に適用し
た際に一音一音に対応した音声継続時間に応じたビブラ
ート効果を得ることができる。これにより、歌唱を肉声
に近く視聴させることができる。音声合成によって歌唱
させる装置で大いに効果を発揮させることができる。た
とえば、この構成をたとえば、アミューズメント施設の
装置やゲーム機に搭載させると、出力語意に制限がなく
多様な入力データに対応でき、装置構成の大型化を抑え
るとともに、従来、合成音声を継続して出力させた際に
生じていた機械的な音声の出力を大幅に改善することが
できる。

【０１１６】なお、前述の実施例でピッチの揺らぎは最
大ピッチと最小ピッチの間を線形補間して算出した値を
用いているが、両者の間を滑らかに遷移する補間であれ
ば上述の線形補間に限定されない。

【０１１７】

【発明の効果】このように本発明の音声合成装置によれ
ば、合成パラメータ手段が音声継続時間に応じて素片辞
書から順次に読み出される音声素片の読出しを複数の音
声素片の範囲内および／または基本周波数を中心に所定
の範囲内を往復的に繰り返す制御を行って、テキストを
解析して得られた読みに対応する音声素片および／また
は周波数（すなわち、ピッチ）として割り当てて合成パ
ラメータを生成して音声合成することにより、割り当て
たパラメータに応じて変動した音声が音声継続時間中に
出力されるので、出力音声をより肉声に近い音にするこ
とができ、視聴者に違和感を感じさせない合成音声を出
力させることができる。これにより、適用範囲をより広
くすることができる。

【０１１８】本発明の音声合成装置の制御方法は、合成
パラメータを生成する際に、得られたフレーム長を用い
て第１のデータが表す時間内に含まれるフレーム数を算
出し、得られたフレーム数分のカウントを行いながら、
このカウントに応じて合成パラメータの各パラメータを
生成するタイミング制御を行う。また、このタイミング
を基に第２のデータのアクセント指示情報から基本周波
数を決定し、かつ第３のデータの音韻記号列に対する音
声素片が素片辞書内において複数で表される際に、基本
周波数を所定の周波数範囲内で揺らす処理を行うかどう
かに応じてフレーム数にわたってそれぞれ設定されるフ
レームに対しこの複数の音声素片を往復的に一つずつ選
択する処理も行うか選択しながら、第１、第２および第
３のデータを用いて振幅を決定する。このようにしてそ
れぞれ得られたパラメータを多重化して合成パラメータ
を生成することにより、音韻継続時間内の各フレームで
用いられるパラメータを所定の範囲内で変動させて出力
音声に微妙な変化を持たせている。この結果、出力音声
をより肉声に近い音にすることができ、視聴者に違和感
を感じさせない合成音声を出力させることができる。こ
れにより、適用範囲をより広くすることができる。ま
た、装置の大型化も抑えることができる。

【０１１９】さらに、ピッチの揺れと音声素片の選択を
同時に選択することにより、この選択による出力音声を
同期させることができるので、たとえば歌唱に適用した
際に一音一音に対応した音声継続時間に応じたビブラー
ト効果を得ることができる。これにより、歌唱を肉声に
近く視聴させることができる。音声合成によって歌唱さ
せる装置で大いに効果を発揮させることができる。

【図面の簡単な説明】

【図１】本発明に係る音声合成装置の概略的な構成のブ
ロック図である。

【図２】図１に示した音声素片決定部の概略的な構成の
ブロック図である。

【図３】図１に示した合成パラメータ生成部での多重化
により生成される合成パラメータの各パラメータの配置
関係を説明する図である。

【図４】図１に示した音声合成装置の動作手順を説明す
るメインフローチャートである。

【図５】図４に示した動作手順の中にあるサブルーチン
SUB1の動作手順を説明するフローチャートである。

【図６】図１に示した音声合成装置の動作を具体的に説
明する模式図である。

【図７】図１の音声合成装置における変形例の概略的な
構成を示したブロック図である。

【図８】図７に示した音声合成装置のパラメータ合成の
手順を説明するサブルーチンSUB2のフローチャートであ
る。

【図９】図８のサブルーチンSUB2におけるパラメータ合
成手順の続きを説明するフローチャートである。

【図１０】図９のサブルーチンSUB2におけるパラメータ
合成手順の続きを説明するフローチャートである。

【図１１】図９〜図10のサブルーチンSUB2に基づいてピ
ッチおよび音声素片アドレスの選択を同期させながら、
フレーム毎の各パラメータの選択について説明する模式
図である。

【符号の説明】

10 音声合成装置 12 テキスト解析部 14 合成パラメータ生成部 16 素片辞書 18 波形生成部 20 音声生成部 22 スピーカ 14a フレーム長算出部 14b フレーム数算出部 14c ピッチ決定部 14d 振幅決定部 14e 音声素片決定部 14g 多重化部

Claims

【特許請求の範囲】

【請求項１】文字や記号が含まれる情報をテキストと
して取り込み、該テキストを少なくとも単語の読みおよ
びアクセント情報が登録された単語辞書を用いて解析
し、この解析で得られたデータと音声の基本単位となる
音声素片の登録された素片辞書とを参照しながら、少な
くとも音声素片、音の長さである音韻継続時間、音の高
さを規定する基本周波数、および音の強さである振幅を
含んだ、合成パラメータを生成し、該生成した合成パラ
メータから生成された波形を重畳して音声に変換してユ
ーザにより指定された速度で出力する音声合成装置にお
いて、該装置は、前記テキストを解析して得られた読みに対応する音声素
片が前記素片辞書内に登録されている複数の音声素片で
表される際に、前記音声継続時間に応じて前記素片辞書
から順次に読み出される音声素片の読出しを前記複数の
音声素片の範囲内および／または前記基本周波数を中心
に所定の範囲内を往復的に繰り返す制御を行いながら、
前記合成パラメータを生成する合成パラメータ生成手段
を含むことを特徴とする音声合成装置。
【請求項２】請求項１に記載の装置において、前記合
成パラメータ生成手段は、前記音声素片の一つが継続し
て繰り返される回数で規定された時間をフレーム長と
し、該フレーム長が前記音声継続時間内に含まれる数を
算出するフレーム数算出手段を含み、前記フレーム数算出手段は、少なくとも前記音声素片の
選択、前記音韻継続および前記基本周波数の生成を行わ
せる各手段に制御信号を算出した数の分だけ送出し、前記音声素片を選択する手段は、前記制御信号により前
記素片辞書に対して前記複数の音声素片の範囲内の音声
素片を往復的に繰返し読み出すことを特徴とする音声合
成装置。
【請求項３】請求項１に記載の装置において、前記合
成パラメータ生成手段は、一定時間以上の期間にわたっ
て同一音韻が連続するかを音韻継続時間および出力され
る音声の調歩を規定する発声速度に基づいて判定し、該
判定結果に応じて制御を行う判定制御手段を含み、前記判定制御手段は、前記フレーム長を算出する手段、
前記フレーム数算出手段、ならびに少なくとも前記音声
素片の生成、前記フレーム長の設定および前記基本周波
数に応じたピッチの生成を行わせる各手段を制御し、前記判定制御手段は、前記音声素片を生成する手段が前
記素片辞書に対して前記複数の音声素片の範囲内の音声
素片を往復的に繰り返し読み出す処理および前記ピッチ
生成する手段が基本となるピッチに対して所定の範囲内
で往復的に揺らすピッチ生成処理の制御を行うことを特
徴とする音声合成装置。
【請求項４】文字や記号が含まれる情報をテキストと
して取り込み、該テキストを少なくとも単語の読みおよ
びアクセント情報が登録された単語辞書を用いて解析
し、この解析で得られたデータと音声の基本単位となる
音声素片の登録された素片辞書とを参照しながら、少な
くとも音声素片、音の長さである音韻継続時間、音の高
さを規定する基本周波数、および音の強さである振幅を
含んだ、合成パラメータを生成し、該生成した合成パラ
メータから生成された波形を重畳して音声に変換してユ
ーザにより指定された速度で出力する音声合成装置の制
御方法において、該方法は、前記合成パラメータを生成する際に、前記指定された速
度の情報を基に前記音声素片の一つが継続して繰り返さ
れる回数で規定する時間で表されるフレーム長を算出す
るフレーム長算出工程と、該フレーム長算出工程で得られたフレーム長を用いて前
記解析で得られた第１のデータである音韻継続時間の時
間内に含まれるフレーム数を算出するフレーム数算出工
程と、該フレーム数算出工程で得られたフレーム数分のカウン
トを行いながら、該カウントに応じて前記合成パラメー
タの各パラメータを生成するタイミング制御を行うタイ
ミング制御工程と、該タイミング制御工程で行われたタイミングを基に前記
解析で得られた第２のデータであるアクセント指示情報
から前記基本周波数を決定するとともに、該基本周波数
を中心に各フレームに対して所定の周波数範囲内を往復
的に変動させた周波数を選択する周波数選択工程と、該タイミングで前記解析により得られた第３のデータで
ある音韻記号列が前記素片辞書内で複数の音声素片によ
り表される際に前記フレーム数にわたってそれぞれ設定
されるフレームに対し該複数の音声素片を往復的に一つ
ずつ選択する音声素片選択工程と、前記解析で得られた第１、第２および第３のデータをそ
れぞれ用いて該タイミングで前記振幅を決定する振幅決
定工程と、前記フレーム長算出工程、前記周波数選択工程、前記振
幅決定工程および前記音声素片選択工程でそれぞれ得ら
れたパラメータを多重化するパラメータ合成工程とを含
み、前記音声素片選択工程は、前記周波数選択工程での往復
的な変動に応じて前記音声素片の選択を調整することを
特徴とする音声合成装置の制御方法。
【請求項５】請求項４に記載の方法において、前記音
声素片選択工程は、前記音韻記号列に対応する前記素片
辞書内での音声素片の先頭アドレスを探索する先頭探索
工程と、該先頭探索工程で得られた対応した音声素片が複数で表
されるか調べる素片数探索工程と、該素片数探索工程で得られた音声素片の数の中で現在出
力する音声素片の選択を行うとともに、前記素片辞書内
で次に出力する音声素片の選択位置を設定する素片選択
工程とを含むことを特徴とする音声合成装置の制御方
法。
【請求項６】請求項５に記載の方法において、前記素
片選択工程は、前記タイミングが供給された際に現在の
フレームおよび次のフレームに対応する各アドレス設定
を初期化するアドレス初期化工程と、該アドレス初期化後、該設定されたアドレスの音声素片
を前記素片辞書から読み出す第１の音声素片読出し工程
と、該アドレス初期化工程の後に設定されたアドレスに対し
て増加させるアドレス分を算出する増加アドレス算出工
程と、前記現在のアドレスと前記増加させるアドレス分を加算
して次のアドレスを設定する次アドレス設定工程と、該次アドレス設定工程により設定されたアドレスの音声
素片を前記素片辞書から読み出す第２の音声素片読出し
工程と、該第２の音声素片読出し工程の後に、該音声素片読出し
回数が前記フレーム数に達したか判定する回数判定工程
とを含み、前記回数判定工程での前記音声素片読出し回数が前記フ
レーム数を越えるまで前記回数判定工程以後の処理を前
記増加アドレス算出工程に戻すことを特徴とする音声合
成装置の制御方法。
【請求項７】請求項４に記載の方法において、前記周
波数選択工程は、供給される一つの音韻記号列に対して
用いられる複数の音声素片よりもフレーム数が多いかを
判定するフレーム数判定工程と、該フレーム数判定工程の結果に応じて選択する基本周波
数を中心に係数を乗算して周波数変調を施す周波数変調
工程とを含むことを特徴とする音声合成装置の制御方
法。
【請求項８】請求項７に記載の方法において、前記周
波数変調工程は、選択した基本周波数に略々6Hz の周波
数変調を施すことを特徴とする音声合成装置の制御方
法。
【請求項９】請求項７に記載の方法において、前記素
片選択工程は、供給される音韻記号列の発声に伴って最
初のフレームに割り当てられる前記素片辞書内の音声素
片を選択する第１の素片選択の場合と、前記最初のフレーム以降の発声継続において、前記基本
周波数より高い側への最大周波数に線形補間しながら、
前記第１の素片で選択した音声素片を用いて前記基本周
波数と前記最大周波数の間を往復させて音声素片を選択
する第２の素片選択の場合と、前記最初のフレーム以降の発声継続において、前記基本
周波数より低い側への最小周波数に線形補間しながら、
前記第１の素片で選択した音声素片を用いて前記基本周
波数と前記最小周波数の間を往復させて音声素片を選択
する第３の素片選択の場合とを含み、前記第１の素片選択終了後、前記第２の素片選択と前記
第３の素片選択を前記音韻継続時間内で繰り返すことを
特徴とする音声合成装置の制御方法。