JPH11352997A - 音声合成装置およびその制御方法 - Google Patents
音声合成装置およびその制御方法Info
- Publication number
- JPH11352997A JPH11352997A JP10164526A JP16452698A JPH11352997A JP H11352997 A JPH11352997 A JP H11352997A JP 10164526 A JP10164526 A JP 10164526A JP 16452698 A JP16452698 A JP 16452698A JP H11352997 A JPH11352997 A JP H11352997A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- frame
- voice
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 title claims description 94
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 86
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 86
- 230000008569 process Effects 0.000 claims description 63
- 238000004364 calculation method Methods 0.000 claims description 49
- 238000004458 analytical method Methods 0.000 claims description 38
- 239000011295 pitch Substances 0.000 description 111
- 238000005070 sampling Methods 0.000 description 18
- 238000006243 chemical reaction Methods 0.000 description 13
- 102100036464 Activated RNA polymerase II transcriptional coactivator p15 Human genes 0.000 description 8
- 101000713904 Homo sapiens Activated RNA polymerase II transcriptional coactivator p15 Proteins 0.000 description 8
- 229910004444 SUB1 Inorganic materials 0.000 description 8
- 229910004438 SUB2 Inorganic materials 0.000 description 7
- 101100311330 Schizosaccharomyces pombe (strain 972 / ATCC 24843) uap56 gene Proteins 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 101150018444 sub2 gene Proteins 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000001052 transient effect Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 102100035586 Protein SSXT Human genes 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- NBGBEUITCPENLJ-UHFFFAOYSA-N Bunazosin hydrochloride Chemical compound Cl.C1CN(C(=O)CCC)CCCN1C1=NC(N)=C(C=C(OC)C(OC)=C2)C2=N1 NBGBEUITCPENLJ-UHFFFAOYSA-N 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Abstract
(57)【要約】
【課題】 音韻継続時間が大幅に長くなった際の音声が
より自然な音声に聞こえるように変換し、特に、歌唱合
成の音声を肉声に近いビブラートを含んだものにできる
音声合成装置およびその制御方法の提供。 【解決手段】 音声合成装置10は、テキスト解析部12か
ら供給される各種のデータを用いて合成パラメータ生成
部14が音声継続時間に応じて素片辞書16から順次に読み
出される音声素片の読出しを複数の音声素片の範囲内お
よび/または基本周波数を中心に所定の範囲内を往復的
に繰り返す制御を行って、テキストを解析して得られた
読みに対応する音声素片および/または周波数(すなわ
ち、ピッチ)として割り当てて合成パラメータを生成し
ている。これにより、生成された合成パラメータに応じ
て変動した音声を音声継続時間中に出力させる。
より自然な音声に聞こえるように変換し、特に、歌唱合
成の音声を肉声に近いビブラートを含んだものにできる
音声合成装置およびその制御方法の提供。 【解決手段】 音声合成装置10は、テキスト解析部12か
ら供給される各種のデータを用いて合成パラメータ生成
部14が音声継続時間に応じて素片辞書16から順次に読み
出される音声素片の読出しを複数の音声素片の範囲内お
よび/または基本周波数を中心に所定の範囲内を往復的
に繰り返す制御を行って、テキストを解析して得られた
読みに対応する音声素片および/または周波数(すなわ
ち、ピッチ)として割り当てて合成パラメータを生成し
ている。これにより、生成された合成パラメータに応じ
て変動した音声を音声継続時間中に出力させる。
Description
【0001】
【発明の属する技術分野】本発明は、供給される情報を
音声に変換する音声合成装置およびその制御方法に関
し、特に音声素片を重畳する波形編集型のテキスト音声
変換で用いる合成パラメータの生成に適用して好適なも
のである。
音声に変換する音声合成装置およびその制御方法に関
し、特に音声素片を重畳する波形編集型のテキスト音声
変換で用いる合成パラメータの生成に適用して好適なも
のである。
【0002】
【従来の技術】現在、入力された日常読み書きしている
かな漢字混じり文、英数字および記号を含めた被音声変
換情報、いわゆるテキスト(以下、被音声変換情報をテ
キストという)を音声に変換する、テキスト音声変換技
術が注目されてきている。このテキスト音声変換技術
は、予め出力する語句を録音しておき、供給される情報
に対応するこの語句の再生音声を合成する音声変換技術
と異なり、出力語彙の制限がないことから、種々の分野
への適用が期待されてきている。
かな漢字混じり文、英数字および記号を含めた被音声変
換情報、いわゆるテキスト(以下、被音声変換情報をテ
キストという)を音声に変換する、テキスト音声変換技
術が注目されてきている。このテキスト音声変換技術
は、予め出力する語句を録音しておき、供給される情報
に対応するこの語句の再生音声を合成する音声変換技術
と異なり、出力語彙の制限がないことから、種々の分野
への適用が期待されてきている。
【0003】このテキスト音声変換は、第1に、供給さ
れるテキストを解析する。この解析によって、たとえば
テキストの読み、アクセント、イントネーション等を規
定する音韻・韻律記号列からなる中間言語が生成され
る。第2に、生成された中間言語を基に音声合成に用い
る合成パラメータが生成される。この合成パラメータ
は、合成する音声を特徴付ける重要な要素であり、たと
えば音の種類を表す音声の基本単位である音声素片、音
の長さを示す音韻継続時間、音の高さ、すなわちピッチ
(以下、音の高さをピッチという)を規定する基本周波
数等がある。第3に、この合成パラメータから音声の合
成波形の生成が行われる。最後に、生成された波形を音
声信号にした後、スピーカを介して合成音声が出力され
る。
れるテキストを解析する。この解析によって、たとえば
テキストの読み、アクセント、イントネーション等を規
定する音韻・韻律記号列からなる中間言語が生成され
る。第2に、生成された中間言語を基に音声合成に用い
る合成パラメータが生成される。この合成パラメータ
は、合成する音声を特徴付ける重要な要素であり、たと
えば音の種類を表す音声の基本単位である音声素片、音
の長さを示す音韻継続時間、音の高さ、すなわちピッチ
(以下、音の高さをピッチという)を規定する基本周波
数等がある。第3に、この合成パラメータから音声の合
成波形の生成が行われる。最後に、生成された波形を音
声信号にした後、スピーカを介して合成音声が出力され
る。
【0004】上述した合成パラメータは、各種の音韻単
位で生成される。音韻継続時間は、音声素片を重畳する
場合に用いる時間単位、すなわちフレームに基づいて音
の長さであるフレーム長が規定される。また、ピッチ
は、予め規定しておいたアクセント規則に基づいて決め
られている。合成パラメータは、フレーム長を除いた、
音韻記号列に該当する音声素片が格納されているアドレ
スを示す素片アドレス、ピッチ、音の強さを表す振幅を
一組のセットとして扱う、フレームデータにまとめられ
ている。このことから判るように、フレームデータは、
各フレームという時間内でどのような音声を合成するか
を示すパラメータのデータ・セットである。
位で生成される。音韻継続時間は、音声素片を重畳する
場合に用いる時間単位、すなわちフレームに基づいて音
の長さであるフレーム長が規定される。また、ピッチ
は、予め規定しておいたアクセント規則に基づいて決め
られている。合成パラメータは、フレーム長を除いた、
音韻記号列に該当する音声素片が格納されているアドレ
スを示す素片アドレス、ピッチ、音の強さを表す振幅を
一組のセットとして扱う、フレームデータにまとめられ
ている。このことから判るように、フレームデータは、
各フレームという時間内でどのような音声を合成するか
を示すパラメータのデータ・セットである。
【0005】また、音の継続は、フレーム長に応じて線
形的にフレームデータの継続時間を伸縮させて行う場合
や音を伸ばすとき最終フレームの音声素片を繰り返して
対応する場合等の手法を用いて行っている。上述した後
者の手法は、音の伸張時にフレームを追加することによ
り、本来音声合成用に持っている音声素片数よりも拡張
したフレーム分だけフレーム数が多くしている。
形的にフレームデータの継続時間を伸縮させて行う場合
や音を伸ばすとき最終フレームの音声素片を繰り返して
対応する場合等の手法を用いて行っている。上述した後
者の手法は、音の伸張時にフレームを追加することによ
り、本来音声合成用に持っている音声素片数よりも拡張
したフレーム分だけフレーム数が多くしている。
【0006】
【発明が解決しようとする課題】ところで、前述したよ
うにテキスト音声変換技術は、汎用的な使用に好都合な
ことから、近年、アミューズメント系のゲーム等で数多
く採用されてきている。特に、テキストを音声出力する
だけでなく、メロディーに合わせた歌唱合成のニーズが
高まってきている。
うにテキスト音声変換技術は、汎用的な使用に好都合な
ことから、近年、アミューズメント系のゲーム等で数多
く採用されてきている。特に、テキストを音声出力する
だけでなく、メロディーに合わせた歌唱合成のニーズが
高まってきている。
【0007】この歌唱合成にテキスト音声変換技術を適
用した場合、単にテキストを読むよりも音の継続は長く
なる傾向がある。さらに、この傾向に加えて、この歌唱
合成では一定の音が連続する箇所でもその音に対してあ
る音程内で音を揺らす、ビブラート効果も歌唱表現の手
法の一つとして実現しなければならない。このビブラー
トは、難波精一郎等の著書「音の科学」によれば、周波
数約6Hz の周波数変調であることが知られている。
用した場合、単にテキストを読むよりも音の継続は長く
なる傾向がある。さらに、この傾向に加えて、この歌唱
合成では一定の音が連続する箇所でもその音に対してあ
る音程内で音を揺らす、ビブラート効果も歌唱表現の手
法の一つとして実現しなければならない。このビブラー
トは、難波精一郎等の著書「音の科学」によれば、周波
数約6Hz の周波数変調であることが知られている。
【0008】そこで、この歌唱のようにある一定時間以
上同一音韻が同一の音程で連続する場合、1/6 秒の周期
でピッチをある制限内に加減して実現させている。
上同一音韻が同一の音程で連続する場合、1/6 秒の周期
でピッチをある制限内に加減して実現させている。
【0009】ところが、音韻継続時間が長くなると音声
は、音質が機械的に、たとえば、ブザー音のように聞こ
えることが知られている。このように聞こえる原因は、
まず、音韻性を知覚する際、人間はその音韻特性の時間
変化も認識しているので、この音韻特性の微妙な時間変
化が音声における重要なパラメータになっていること、
さらに、同一音声素片を連続して重畳して合成された音
声と実際の発声とに基づく音韻特性の時間変化が異なっ
ていること等が大きく影響していると検討されている。
このような影響を受けた合成音声による歌唱は、まだ人
工的に生成された音声の範疇にあり、人間の歌声から大
きく掛け離れた音声出力となっている。
は、音質が機械的に、たとえば、ブザー音のように聞こ
えることが知られている。このように聞こえる原因は、
まず、音韻性を知覚する際、人間はその音韻特性の時間
変化も認識しているので、この音韻特性の微妙な時間変
化が音声における重要なパラメータになっていること、
さらに、同一音声素片を連続して重畳して合成された音
声と実際の発声とに基づく音韻特性の時間変化が異なっ
ていること等が大きく影響していると検討されている。
このような影響を受けた合成音声による歌唱は、まだ人
工的に生成された音声の範疇にあり、人間の歌声から大
きく掛け離れた音声出力となっている。
【0010】本発明はこのような従来技術の欠点を解消
し、音韻継続時間が大幅に長くなった際の音声がより自
然な音声に聞こえるように変換し、特に、歌唱合成の音
声を肉声に近いビブラートを含んだものにできる音声合
成装置およびその制御方法を提供することを目的とす
る。
し、音韻継続時間が大幅に長くなった際の音声がより自
然な音声に聞こえるように変換し、特に、歌唱合成の音
声を肉声に近いビブラートを含んだものにできる音声合
成装置およびその制御方法を提供することを目的とす
る。
【0011】
【課題を解決するための手段】本発明は上述の課題を解
決するために、文字や記号が含まれる情報をテキストと
して取り込み、このテキストを少なくとも単語の読みお
よびアクセント情報が登録された単語辞書を用いて解析
し、この解析で得られたデータと音声の基本単位となる
音声素片の登録された素片辞書とを参照しながら、少な
くとも音声素片、音の長さである音韻継続時間、音の高
さを規定する基本周波数、および音の強さである振幅を
含んだ、合成パラメータを生成し、この生成した合成パ
ラメータから生成された波形を重畳して音声に変換して
ユーザにより指定された速度で出力する音声合成装置に
おいて、テキストを解析して得られた読みに対応する音
声素片が素片辞書内に登録されている複数の音声素片で
表される際に、音声継続時間に応じて素片辞書から順次
に読み出される音声素片の読出しを複数の音声素片の範
囲内および/または基本周波数を中心に所定の範囲内を
往復的に繰り返す制御を行いながら、合成パラメータを
生成する合成パラメータ生成手段を含むことを特徴とす
る。
決するために、文字や記号が含まれる情報をテキストと
して取り込み、このテキストを少なくとも単語の読みお
よびアクセント情報が登録された単語辞書を用いて解析
し、この解析で得られたデータと音声の基本単位となる
音声素片の登録された素片辞書とを参照しながら、少な
くとも音声素片、音の長さである音韻継続時間、音の高
さを規定する基本周波数、および音の強さである振幅を
含んだ、合成パラメータを生成し、この生成した合成パ
ラメータから生成された波形を重畳して音声に変換して
ユーザにより指定された速度で出力する音声合成装置に
おいて、テキストを解析して得られた読みに対応する音
声素片が素片辞書内に登録されている複数の音声素片で
表される際に、音声継続時間に応じて素片辞書から順次
に読み出される音声素片の読出しを複数の音声素片の範
囲内および/または基本周波数を中心に所定の範囲内を
往復的に繰り返す制御を行いながら、合成パラメータを
生成する合成パラメータ生成手段を含むことを特徴とす
る。
【0012】ここで、合成パラメータ生成手段は、音声
素片の一つが継続して繰り返される回数で規定された時
間をフレーム長とし、このフレーム長が音声継続時間内
に含まれる数を算出するフレーム数算出手段を含み、フ
レーム数算出手段は、少なくとも音声素片の選択、音韻
継続および基本周波数の生成を行わせる各手段に制御信
号を算出した数の分だけ送出し、音声素片を選択する手
段は、制御信号により素片辞書に対して複数の音声素片
の範囲内の音声素片を往復的に繰返し読み出すことが好
ましい。これにより、選択する音声素片を変動させるこ
とができる。
素片の一つが継続して繰り返される回数で規定された時
間をフレーム長とし、このフレーム長が音声継続時間内
に含まれる数を算出するフレーム数算出手段を含み、フ
レーム数算出手段は、少なくとも音声素片の選択、音韻
継続および基本周波数の生成を行わせる各手段に制御信
号を算出した数の分だけ送出し、音声素片を選択する手
段は、制御信号により素片辞書に対して複数の音声素片
の範囲内の音声素片を往復的に繰返し読み出すことが好
ましい。これにより、選択する音声素片を変動させるこ
とができる。
【0013】また、合成パラメータ生成手段は、一定時
間以上の期間にわたって同一音韻が連続するかを音韻継
続時間および出力される音声の調歩を規定する発声速度
に基づいて判定し、この判定結果に応じて制御を行う判
定制御手段を含み、判定制御手段は、フレーム長を算出
する手段、フレーム数算出手段、ならびに少なくとも音
声素片の生成、フレーム長の設定および基本周波数に応
じたピッチの生成を行わせる各手段を制御し、判定制御
手段は、音声素片を生成する手段が素片辞書に対して複
数の音声素片の範囲内の音声素片を往復的に繰り返し読
み出す処理およびピッチ生成する手段が基本となるピッ
チに対して所定の範囲内で往復的に揺らすピッチ生成処
理の制御を行うことが望ましい。これにより、これら両
処理の出力を同期させることができるようになる。
間以上の期間にわたって同一音韻が連続するかを音韻継
続時間および出力される音声の調歩を規定する発声速度
に基づいて判定し、この判定結果に応じて制御を行う判
定制御手段を含み、判定制御手段は、フレーム長を算出
する手段、フレーム数算出手段、ならびに少なくとも音
声素片の生成、フレーム長の設定および基本周波数に応
じたピッチの生成を行わせる各手段を制御し、判定制御
手段は、音声素片を生成する手段が素片辞書に対して複
数の音声素片の範囲内の音声素片を往復的に繰り返し読
み出す処理およびピッチ生成する手段が基本となるピッ
チに対して所定の範囲内で往復的に揺らすピッチ生成処
理の制御を行うことが望ましい。これにより、これら両
処理の出力を同期させることができるようになる。
【0014】本発明の音声合成装置は、合成パラメータ
手段が音声継続時間に応じて素片辞書から順次に読み出
される音声素片の読出しを複数の音声素片の範囲内およ
び/または基本周波数を中心に所定の範囲内を往復的に
繰り返す制御を行って、テキストを解析して得られた読
みに対応する音声素片および/または周波数(すなわ
ち、ピッチ)として割り当てて合成パラメータを生成す
ることにより、割り当てたパラメータに応じて変動した
音声が音声継続時間中に出力される。
手段が音声継続時間に応じて素片辞書から順次に読み出
される音声素片の読出しを複数の音声素片の範囲内およ
び/または基本周波数を中心に所定の範囲内を往復的に
繰り返す制御を行って、テキストを解析して得られた読
みに対応する音声素片および/または周波数(すなわ
ち、ピッチ)として割り当てて合成パラメータを生成す
ることにより、割り当てたパラメータに応じて変動した
音声が音声継続時間中に出力される。
【0015】また、本発明は、文字や記号が含まれる情
報をテキストとして取り込み、該テキストを少なくとも
単語の読みおよびアクセント情報が登録された単語辞書
を用いて解析し、この解析で得られたデータと音声の基
本単位となる音声素片の登録された素片辞書とを参照し
ながら、少なくとも音声素片、音の長さである音韻継続
時間、音の高さを規定する基本周波数、および音の強さ
である振幅を含んだ、合成パラメータを生成し、この生
成した合成パラメータから生成された波形を重畳して音
声に変換してユーザにより指定された速度で出力する音
声合成装置の制御方法において、合成パラメータを生成
する際に、指定された速度の情報を基に音声素片の一つ
が継続して繰り返される回数で規定する時間で表される
フレーム長を算出するフレーム長算出工程と、このフレ
ーム長算出工程で得られたフレーム長を用いて解析で得
られた第1のデータである音韻継続時間の時間内に含ま
れるフレーム数を算出するフレーム数算出工程と、この
フレーム数算出工程で得られたフレーム数分のカウント
を行いながら、このカウントに応じて合成パラメータの
各パラメータを生成するタイミング制御を行うタイミン
グ制御工程と、このタイミング制御工程で行われたタイ
ミングを基に解析で得られた第2のデータであるアクセ
ント指示情報から基本周波数を決定するとともに、この
基本周波数を中心に各フレームに対して所定の周波数範
囲内を往復的に変動させた周波数を選択する周波数選択
工程と、このタイミングで解析により得られた第3のデ
ータである音韻記号列が素片辞書内で複数の音声素片に
より表される際にフレーム数にわたってそれぞれ設定さ
れるフレームに対しこの複数の音声素片を往復的に一つ
ずつ選択する音声素片選択工程と、解析で得られた第
1、第2および第3のデータをそれぞれ用いてこのタイ
ミングで振幅を決定する振幅決定工程と、フレーム長算
出工程、周波数選択工程、振幅決定工程および音声素片
選択工程でそれぞれ得られたパラメータを多重化するパ
ラメータ合成工程とを含み、音声素片選択工程は、前記
周波数選択工程での往復的な変動に応じて音声素片の選
択を調整することを特徴とする。
報をテキストとして取り込み、該テキストを少なくとも
単語の読みおよびアクセント情報が登録された単語辞書
を用いて解析し、この解析で得られたデータと音声の基
本単位となる音声素片の登録された素片辞書とを参照し
ながら、少なくとも音声素片、音の長さである音韻継続
時間、音の高さを規定する基本周波数、および音の強さ
である振幅を含んだ、合成パラメータを生成し、この生
成した合成パラメータから生成された波形を重畳して音
声に変換してユーザにより指定された速度で出力する音
声合成装置の制御方法において、合成パラメータを生成
する際に、指定された速度の情報を基に音声素片の一つ
が継続して繰り返される回数で規定する時間で表される
フレーム長を算出するフレーム長算出工程と、このフレ
ーム長算出工程で得られたフレーム長を用いて解析で得
られた第1のデータである音韻継続時間の時間内に含ま
れるフレーム数を算出するフレーム数算出工程と、この
フレーム数算出工程で得られたフレーム数分のカウント
を行いながら、このカウントに応じて合成パラメータの
各パラメータを生成するタイミング制御を行うタイミン
グ制御工程と、このタイミング制御工程で行われたタイ
ミングを基に解析で得られた第2のデータであるアクセ
ント指示情報から基本周波数を決定するとともに、この
基本周波数を中心に各フレームに対して所定の周波数範
囲内を往復的に変動させた周波数を選択する周波数選択
工程と、このタイミングで解析により得られた第3のデ
ータである音韻記号列が素片辞書内で複数の音声素片に
より表される際にフレーム数にわたってそれぞれ設定さ
れるフレームに対しこの複数の音声素片を往復的に一つ
ずつ選択する音声素片選択工程と、解析で得られた第
1、第2および第3のデータをそれぞれ用いてこのタイ
ミングで振幅を決定する振幅決定工程と、フレーム長算
出工程、周波数選択工程、振幅決定工程および音声素片
選択工程でそれぞれ得られたパラメータを多重化するパ
ラメータ合成工程とを含み、音声素片選択工程は、前記
周波数選択工程での往復的な変動に応じて音声素片の選
択を調整することを特徴とする。
【0016】ここで、音声素片選択工程は、音韻記号列
に対応する素片辞書内での音声素片の先頭アドレスを探
索する先頭探索工程と、この先頭探索工程で得られた対
応した音声素片が複数で表されるか調べる素片数探索工
程と、この素片数探索工程で得られた音声素片の数の中
で現在出力する音声素片の選択を行うとともに、素片辞
書内で次に出力する音声素片の選択位置を設定する素片
選択工程とを含むことが好ましい。この供給された音韻
記号列に対応した音声素片が素片辞書内においてどの位
置にあって、かつこの音韻記号列に対応して出力される
音声の構成を知ることができるので、特にたとえば、こ
の音声素片の読出し順序を変更しながら、音声素片を読
み出すことにより、出力音声に微妙な音声に変動を起こ
させて出力音声を肉声に近づけることができる。
に対応する素片辞書内での音声素片の先頭アドレスを探
索する先頭探索工程と、この先頭探索工程で得られた対
応した音声素片が複数で表されるか調べる素片数探索工
程と、この素片数探索工程で得られた音声素片の数の中
で現在出力する音声素片の選択を行うとともに、素片辞
書内で次に出力する音声素片の選択位置を設定する素片
選択工程とを含むことが好ましい。この供給された音韻
記号列に対応した音声素片が素片辞書内においてどの位
置にあって、かつこの音韻記号列に対応して出力される
音声の構成を知ることができるので、特にたとえば、こ
の音声素片の読出し順序を変更しながら、音声素片を読
み出すことにより、出力音声に微妙な音声に変動を起こ
させて出力音声を肉声に近づけることができる。
【0017】素片選択工程は、タイミングが供給された
際に現在のフレームおよび次のフレームに対応する各ア
ドレス設定を初期化するアドレス初期化工程と、このア
ドレス初期化後、この設定されたアドレスの音声素片を
素片辞書から読み出す第1の音声素片読出し工程と、こ
のアドレス初期化工程の後に設定されたアドレスに対し
て増加させるアドレス分を算出する増加アドレス算出工
程と、現在のアドレスと増加させるアドレス分を加算し
て次のアドレスを設定する次アドレス設定工程と、この
次アドレス設定工程により設定されたアドレスの音声素
片を素片辞書から読み出す第2の音声素片読出し工程
と、この第2の音声素片読出し工程の後に、この音声素
片読出し回数がフレーム数に達したか判定する回数判定
工程とを含み、回数判定工程での音声素片読出し回数が
前記フレーム数を越えるまで回数判定工程以後の処理を
増加アドレス算出工程に戻すことが望ましい。これによ
り、フレーム毎に読み出される音声素片が算出されるア
ドレス増加分で決められる。たとえば、フレーム数が複
数の音声素片よりも多いとき、複数の音声素片より大き
なフレーム数のフレームに対してアドレス増加させても
複数の音声素片を越えないように繰り返して往復的に音
声素片を読み出すことができる。
際に現在のフレームおよび次のフレームに対応する各ア
ドレス設定を初期化するアドレス初期化工程と、このア
ドレス初期化後、この設定されたアドレスの音声素片を
素片辞書から読み出す第1の音声素片読出し工程と、こ
のアドレス初期化工程の後に設定されたアドレスに対し
て増加させるアドレス分を算出する増加アドレス算出工
程と、現在のアドレスと増加させるアドレス分を加算し
て次のアドレスを設定する次アドレス設定工程と、この
次アドレス設定工程により設定されたアドレスの音声素
片を素片辞書から読み出す第2の音声素片読出し工程
と、この第2の音声素片読出し工程の後に、この音声素
片読出し回数がフレーム数に達したか判定する回数判定
工程とを含み、回数判定工程での音声素片読出し回数が
前記フレーム数を越えるまで回数判定工程以後の処理を
増加アドレス算出工程に戻すことが望ましい。これによ
り、フレーム毎に読み出される音声素片が算出されるア
ドレス増加分で決められる。たとえば、フレーム数が複
数の音声素片よりも多いとき、複数の音声素片より大き
なフレーム数のフレームに対してアドレス増加させても
複数の音声素片を越えないように繰り返して往復的に音
声素片を読み出すことができる。
【0018】また、周波数選択工程は、供給される一つ
の音韻記号列に対して用いられる複数の音声素片よりも
フレーム数が多いかを判定するフレーム数判定工程と、
このフレーム数判定工程の結果に応じて選択する基本周
波数を中心に係数を乗算して周波数変調を施す周波数変
調工程と、フレーム数判定工程の結果に応じて素片辞書
内で次に出力する音声素片の選択位置を設定する素片選
択工程と、この素片選択工程の後に、この音声素片読出
し回数がフレーム数に達したか判定する回数判定工程と
を含むことが好ましい。これにより、各フレームに割り
当てられる周波数が可変されて周波数変調されるから、
出力音声に微妙な変動、すなわちある音程内での音の変
動を持たせることができる。
の音韻記号列に対して用いられる複数の音声素片よりも
フレーム数が多いかを判定するフレーム数判定工程と、
このフレーム数判定工程の結果に応じて選択する基本周
波数を中心に係数を乗算して周波数変調を施す周波数変
調工程と、フレーム数判定工程の結果に応じて素片辞書
内で次に出力する音声素片の選択位置を設定する素片選
択工程と、この素片選択工程の後に、この音声素片読出
し回数がフレーム数に達したか判定する回数判定工程と
を含むことが好ましい。これにより、各フレームに割り
当てられる周波数が可変されて周波数変調されるから、
出力音声に微妙な変動、すなわちある音程内での音の変
動を持たせることができる。
【0019】さらに、上述した音声素片選択工程におけ
る周波数変調工程は、選択した基本周波数に略々6Hz の
周波数変調を施すことが望ましい。これにより、肉声に
近いビブラート的な効果を音声に持たせることができ
る。
る周波数変調工程は、選択した基本周波数に略々6Hz の
周波数変調を施すことが望ましい。これにより、肉声に
近いビブラート的な効果を音声に持たせることができ
る。
【0020】さらにまた、素片選択工程は、供給される
音韻記号列の発声に伴って最初のフレームに割り当てら
れる素片辞書内の音声素片を選択する第1の素片選択の
場合と、最初のフレーム以降の発声継続において、基本
周波数より高い側への最大周波数に線形補間しながら、
第1の素片で選択した音声素片を用いて基本周波数と最
大周波数の間を往復させて音声素片を選択する第2の素
片選択の場合と、最初のフレーム以降の発声継続におい
て、基本周波数より低い側への最小周波数に線形補間し
ながら、第1の素片で選択した音声素片を用いて基本周
波数と最小周波数の間を往復させて音声素片を選択する
第3の素片選択の場合とを含み、第1の素片選択終了
後、第2の素片選択と第3の素片選択を前記音韻継続時
間内で繰り返すことが有利である。これにより、音声素
片を基本周波数を中心とした最大周波数と最小周波数と
の間で往復的に設定することができる。
音韻記号列の発声に伴って最初のフレームに割り当てら
れる素片辞書内の音声素片を選択する第1の素片選択の
場合と、最初のフレーム以降の発声継続において、基本
周波数より高い側への最大周波数に線形補間しながら、
第1の素片で選択した音声素片を用いて基本周波数と最
大周波数の間を往復させて音声素片を選択する第2の素
片選択の場合と、最初のフレーム以降の発声継続におい
て、基本周波数より低い側への最小周波数に線形補間し
ながら、第1の素片で選択した音声素片を用いて基本周
波数と最小周波数の間を往復させて音声素片を選択する
第3の素片選択の場合とを含み、第1の素片選択終了
後、第2の素片選択と第3の素片選択を前記音韻継続時
間内で繰り返すことが有利である。これにより、音声素
片を基本周波数を中心とした最大周波数と最小周波数と
の間で往復的に設定することができる。
【0021】本発明の音声合成装置の制御方法は、合成
パラメータを生成する際に、得られたフレーム長を用い
て第1のデータが表す時間内に含まれるフレーム数を算
出し、得られたフレーム数分のカウントを行いながら、
このカウントに応じて合成パラメータの各パラメータを
生成するタイミング制御を行う。また、このタイミング
を基に第2のデータのアクセント指示情報から基本周波
数を決定し、かつ第3のデータの音韻記号列に対する音
声素片が素片辞書内において複数で表される際に、基本
周波数を所定の周波数範囲内で揺らす処理を行うかどう
かに応じてフレーム数にわたってそれぞれ設定されるフ
レームに対しこの複数の音声素片を往復的に一つずつ選
択する処理も行うか選択しながら、第1、第2および第
3のデータを用いて振幅を決定する。このようにしてそ
れぞれ得られたパラメータを多重化して合成パラメータ
を生成することにより、音韻継続時間内の各フレームで
用いられるパラメータを所定の範囲内で変動させて出力
音声に微妙な変化を持たせている。
パラメータを生成する際に、得られたフレーム長を用い
て第1のデータが表す時間内に含まれるフレーム数を算
出し、得られたフレーム数分のカウントを行いながら、
このカウントに応じて合成パラメータの各パラメータを
生成するタイミング制御を行う。また、このタイミング
を基に第2のデータのアクセント指示情報から基本周波
数を決定し、かつ第3のデータの音韻記号列に対する音
声素片が素片辞書内において複数で表される際に、基本
周波数を所定の周波数範囲内で揺らす処理を行うかどう
かに応じてフレーム数にわたってそれぞれ設定されるフ
レームに対しこの複数の音声素片を往復的に一つずつ選
択する処理も行うか選択しながら、第1、第2および第
3のデータを用いて振幅を決定する。このようにしてそ
れぞれ得られたパラメータを多重化して合成パラメータ
を生成することにより、音韻継続時間内の各フレームで
用いられるパラメータを所定の範囲内で変動させて出力
音声に微妙な変化を持たせている。
【0022】
【発明の実施の形態】次に添付図面を参照して本発明に
よる音声合成装置およびその制御方法の実施例を詳細に
説明する。
よる音声合成装置およびその制御方法の実施例を詳細に
説明する。
【0023】本発明の音声合成装置は、音声合成に関わ
るパラメータとして音声素片および/または周波数(ピ
ッチ)をそれぞれの所定の範囲内で変動させて得られた
パラメータを用いて合成パラメータを生成することに特
徴がある。本発明が適用された音声合成装置10について
図1〜図11を参照しながら説明する。
るパラメータとして音声素片および/または周波数(ピ
ッチ)をそれぞれの所定の範囲内で変動させて得られた
パラメータを用いて合成パラメータを生成することに特
徴がある。本発明が適用された音声合成装置10について
図1〜図11を参照しながら説明する。
【0024】音声合成装置10は、テキスト解析部12、合
成パラメータ生成部14、素片辞書16、波形生成部18、音
声生成部20およびスピーカ22で構成されている。
成パラメータ生成部14、素片辞書16、波形生成部18、音
声生成部20およびスピーカ22で構成されている。
【0025】テキスト解析部12は、先ず言語的に、入力
文に対して形態素解析および構文解析を行うとともに、
入力文に対する強調情報の設定が行われる。第2に、得
られた解析結果を基に音声合成のための中間言語を音韻
処理で生成する。音韻処理では、図示しないが文節に含
まれる単語のアクセント結合を行って韻律語を生成する
韻律語生成処理、基準となるアクセント指令の規則に基
づくアクセント指令生成処理、および基準となるポーズ
・フレーズ指令の規則に基づくポーズ・フレーズ指令生
成処理等の各種の処理が行われている。
文に対して形態素解析および構文解析を行うとともに、
入力文に対する強調情報の設定が行われる。第2に、得
られた解析結果を基に音声合成のための中間言語を音韻
処理で生成する。音韻処理では、図示しないが文節に含
まれる単語のアクセント結合を行って韻律語を生成する
韻律語生成処理、基準となるアクセント指令の規則に基
づくアクセント指令生成処理、および基準となるポーズ
・フレーズ指令の規則に基づくポーズ・フレーズ指令生
成処理等の各種の処理が行われている。
【0026】また、テキスト解析部12には、ユーザによ
り入力される情報の内、発声速度情報や音声継続時間情
報も供給されている。テキスト解析部12は、音声合成に
必要となる、発声速度情報および音声継続時間情報を一
時的に記憶させた後、アクセント指示情報および音韻記
号列が合成パラメータ生成部14に供給される。
り入力される情報の内、発声速度情報や音声継続時間情
報も供給されている。テキスト解析部12は、音声合成に
必要となる、発声速度情報および音声継続時間情報を一
時的に記憶させた後、アクセント指示情報および音韻記
号列が合成パラメータ生成部14に供給される。
【0027】合成パラメータ生成部14には、フレーム長
算出部14a 、フレーム数算出部14b、ピッチ決定部14c
、振幅決定部14d 、音声素片決定部14e および多重化
部14fが備えられている。
算出部14a 、フレーム数算出部14b、ピッチ決定部14c
、振幅決定部14d 、音声素片決定部14e および多重化
部14fが備えられている。
【0028】フレーム長算出部14a およびフレーム数算
出部14b には、演算処理部が備えられ、この音声合成装
置10で用いるサンプリングクロックが供給されている。
フレーム長算出部14a は、予め指定される発声速度情報
により1フレーム分の長さを規定すると、この1フレー
ムはサンプリング数で表すことができる。サンプリング
数でフレーム長len を表すことによって、音声合成装置
10は、後段に配される波形生成部18での波形生成が基準
となるサンプリングクロックのカウント数で制御できる
ようになる。フレーム長算出部14a は、このサンプリン
グ数を多重化部14f に出力するとともに、フレーム数算
出部14b にも供給している。
出部14b には、演算処理部が備えられ、この音声合成装
置10で用いるサンプリングクロックが供給されている。
フレーム長算出部14a は、予め指定される発声速度情報
により1フレーム分の長さを規定すると、この1フレー
ムはサンプリング数で表すことができる。サンプリング
数でフレーム長len を表すことによって、音声合成装置
10は、後段に配される波形生成部18での波形生成が基準
となるサンプリングクロックのカウント数で制御できる
ようになる。フレーム長算出部14a は、このサンプリン
グ数を多重化部14f に出力するとともに、フレーム数算
出部14b にも供給している。
【0029】フレーム数算出部14b には、演算処理部が
備えられている。フレーム数算出部14b には、テキスト
解析部12から入力文の音韻記号列に関する音韻継続時間
情報t サンプルとフレーム長算出部14a で算出されたフ
レーム長len がそれぞれ供給されている。フレーム数を
N とすると、このフレーム数N は、除算結果を整数値に
丸める、いわゆるint 関数を用いて、式(1)
備えられている。フレーム数算出部14b には、テキスト
解析部12から入力文の音韻記号列に関する音韻継続時間
情報t サンプルとフレーム長算出部14a で算出されたフ
レーム長len がそれぞれ供給されている。フレーム数を
N とすると、このフレーム数N は、除算結果を整数値に
丸める、いわゆるint 関数を用いて、式(1)
【0030】
【数1】 N=int(t/len) ・・・(1) で表される。
【0031】フレーム数算出部14b には、単にフレーム
数を算出するだけでなく、この算出されたフレーム数N
に応じて各部の動作を制御するパラメータ生成制御部
(図示せず)も含まれている。フレーム数算出部14b
は、各フレーム毎に各パラメータが生成されるようにピ
ッチ決定部14c 、振幅決定部14d 、音声素片決定部14e
に制御信号を供給している。フレーム数算出部14b は、
この制御信号をフレーム数N まで出力する。
数を算出するだけでなく、この算出されたフレーム数N
に応じて各部の動作を制御するパラメータ生成制御部
(図示せず)も含まれている。フレーム数算出部14b
は、各フレーム毎に各パラメータが生成されるようにピ
ッチ決定部14c 、振幅決定部14d 、音声素片決定部14e
に制御信号を供給している。フレーム数算出部14b は、
この制御信号をフレーム数N まで出力する。
【0032】ピッチ決定部14c は、テキスト解析部12か
らのアクセント指示情報に応じて現フレームに対応する
ピッチが供給されたその音韻記号列における基本周波数
として選択する。ピッチ決定部14c は、フレーム数算出
部14b からの制御信号に応じて動作し、選択された基本
周波数を多重化部14f に出力する。
らのアクセント指示情報に応じて現フレームに対応する
ピッチが供給されたその音韻記号列における基本周波数
として選択する。ピッチ決定部14c は、フレーム数算出
部14b からの制御信号に応じて動作し、選択された基本
周波数を多重化部14f に出力する。
【0033】振幅決定部14d は、現フレームに対する振
幅値あるいは振幅係数を算出する。この算出にあたり、
振幅決定部14d では、それぞれ供給される音韻継続時間
情報、アクセント指示情報、および音韻記号列を用いて
演算が行われる。この算出された値も多重化部14f に供
給される。
幅値あるいは振幅係数を算出する。この算出にあたり、
振幅決定部14d では、それぞれ供給される音韻継続時間
情報、アクセント指示情報、および音韻記号列を用いて
演算が行われる。この算出された値も多重化部14f に供
給される。
【0034】音声素片決定部14e には、図2に示すよう
に、合成単位判定部140eおよび辞書検索部142eが備えら
れている。合成単位判定部140eは、供給された音韻記号
列を基に音声素片を複数の音声素片を一つの単位とする
合成単位で表すようにするかの判定を行う。合成単位で
音声を表す場合は、たとえば、フレーム数N が設定しよ
うとしている音声素片数より大きい場合である。
に、合成単位判定部140eおよび辞書検索部142eが備えら
れている。合成単位判定部140eは、供給された音韻記号
列を基に音声素片を複数の音声素片を一つの単位とする
合成単位で表すようにするかの判定を行う。合成単位で
音声を表す場合は、たとえば、フレーム数N が設定しよ
うとしている音声素片数より大きい場合である。
【0035】そして、辞書検索部142eは、合成単位で音
声を表す場合と通常の音声を出力させる場合について、
たとえば2本の線をそれぞれに対応させ、いずれか一方
が判定に応じてオン状態で供給されるとともに、音声素
片数の設定情報も供給される。辞書検索部142eは、供給
される音声素片数およびその音声素片が格納されている
素片辞書16における先頭アドレスを検索し、決定する。
このとき、辞書検索部142eは、設定した音声素片を素片
辞書16に対する設定範囲内で供給される制御信号に応じ
て往復的に素片辞書16のアドレスを検索し、選択する。
この辞書検索部142e介して素片辞書16とのアクセスによ
り、選択された音声素片が検索結果として多重化部14f
に出力される。
声を表す場合と通常の音声を出力させる場合について、
たとえば2本の線をそれぞれに対応させ、いずれか一方
が判定に応じてオン状態で供給されるとともに、音声素
片数の設定情報も供給される。辞書検索部142eは、供給
される音声素片数およびその音声素片が格納されている
素片辞書16における先頭アドレスを検索し、決定する。
このとき、辞書検索部142eは、設定した音声素片を素片
辞書16に対する設定範囲内で供給される制御信号に応じ
て往復的に素片辞書16のアドレスを検索し、選択する。
この辞書検索部142e介して素片辞書16とのアクセスによ
り、選択された音声素片が検索結果として多重化部14f
に出力される。
【0036】多重化部14f は、フレーム長算出部14a 、
ピッチ決定部14c 、振幅決定部14d、および音声素片決
定部14e からそれぞれ供給される出力を選択的に取り込
んで合成パラメータを生成する。合成パラメータは、図
3に示すように、音声合成装置10における1フレームの
長さを規定するフレーム長格納領域FLA 、以降のフレー
ム情報格納領域F1, F2, F3,・・・にはフレーム内で出力す
る合成音声の各種パラメータが格納されている。一つの
フレームに着目すると、たとえば、フレーム情報格納領
域F1は、フレーム情報格納第1領域F1a に素片辞書16の
アドレス、その第2領域F1b に音声素片のピッチおよび
その第3領域F1c に振幅を配する構造になっており、フ
レーム情報格納領域F2, F3, F4,・・・でも同じ構造を用い
ている。
ピッチ決定部14c 、振幅決定部14d、および音声素片決
定部14e からそれぞれ供給される出力を選択的に取り込
んで合成パラメータを生成する。合成パラメータは、図
3に示すように、音声合成装置10における1フレームの
長さを規定するフレーム長格納領域FLA 、以降のフレー
ム情報格納領域F1, F2, F3,・・・にはフレーム内で出力す
る合成音声の各種パラメータが格納されている。一つの
フレームに着目すると、たとえば、フレーム情報格納領
域F1は、フレーム情報格納第1領域F1a に素片辞書16の
アドレス、その第2領域F1b に音声素片のピッチおよび
その第3領域F1c に振幅を配する構造になっており、フ
レーム情報格納領域F2, F3, F4,・・・でも同じ構造を用い
ている。
【0037】波形生成部18は、合成パラメータ生成部14
で生成された合成パラメータが供給される。波形生成部
18は、フレーム毎に供給される合成パラメータの各要素
のデータに対応した波形となるように形成を行う。すな
わち、フレームで使用する音声素片を読み出して波形と
する。この波形に対して音との高さ、強さを規定し、さ
らに各フレームの波形を重畳して合成波形データが生成
される。
で生成された合成パラメータが供給される。波形生成部
18は、フレーム毎に供給される合成パラメータの各要素
のデータに対応した波形となるように形成を行う。すな
わち、フレームで使用する音声素片を読み出して波形と
する。この波形に対して音との高さ、強さを規定し、さ
らに各フレームの波形を重畳して合成波形データが生成
される。
【0038】音声生成部20は、供給される合成波形デー
タにたとえばD/A 変換処理を施して音声を生成する。音
声生成部20は、生成された音声波形信号にする。この音
声波形信号が、たとえば、スピーカ22を介して入力され
た情報(たとえば文章等)を音声にして出力される。こ
のように構成して音声構成装置10は、入力されたデータ
の音声継続時間に応じた合成パラメータを生成して、こ
の生成されたパラメータに基づく合成音声を出力させて
いる。
タにたとえばD/A 変換処理を施して音声を生成する。音
声生成部20は、生成された音声波形信号にする。この音
声波形信号が、たとえば、スピーカ22を介して入力され
た情報(たとえば文章等)を音声にして出力される。こ
のように構成して音声構成装置10は、入力されたデータ
の音声継続時間に応じた合成パラメータを生成して、こ
の生成されたパラメータに基づく合成音声を出力させて
いる。
【0039】次に音声合成装置10の動作手順について説
明する。音声合成装置10には、最初にたとえば、ステッ
プS10 で装置の起動時に各種の条件設定が行われる。そ
の一つに発声速度の設定がある。この発声速度とは、前
述したようにユーザが予め設定するパラメータである。
発声速度は、フレーム長という概念を用いることなく、
単に「速い」、「普通」、「遅い」等の表示部(図示せ
ず)に表示される。ユーザは、これらの表示の中から速
度を選択する。この選択された発声速度が発声速度情報
になる。
明する。音声合成装置10には、最初にたとえば、ステッ
プS10 で装置の起動時に各種の条件設定が行われる。そ
の一つに発声速度の設定がある。この発声速度とは、前
述したようにユーザが予め設定するパラメータである。
発声速度は、フレーム長という概念を用いることなく、
単に「速い」、「普通」、「遅い」等の表示部(図示せ
ず)に表示される。ユーザは、これらの表示の中から速
度を選択する。この選択された発声速度が発声速度情報
になる。
【0040】各フレーム長は、たとえば「速い」の場
合、100 サンプル、「普通」の場合200 サンプル、「遅
い」の場合、300 サンプルとする。一定のサンプリング
周波数でサンプリングすると、サンプル数が増えるほど
1フレームの長さが長くなることは明らかである。この
後、ステップS11 に進む。
合、100 サンプル、「普通」の場合200 サンプル、「遅
い」の場合、300 サンプルとする。一定のサンプリング
周波数でサンプリングすると、サンプル数が増えるほど
1フレームの長さが長くなることは明らかである。この
後、ステップS11 に進む。
【0041】ステップS11 では、テキストデータを音声
合成装置10への取り込みを行うとともに、この取り込ん
だテキストデータの読出しを行う。テキストデータは、
たとえばこの音声合成変換と逆変換に対応する音声入力
変換での取込み、光学的なスキャナを介して取り込んだ
濃淡情報を基に文字および記号の識別、コンピュータ等
に接続されたキーボード等を介して入力された情報等に
よって得られる。
合成装置10への取り込みを行うとともに、この取り込ん
だテキストデータの読出しを行う。テキストデータは、
たとえばこの音声合成変換と逆変換に対応する音声入力
変換での取込み、光学的なスキャナを介して取り込んだ
濃淡情報を基に文字および記号の識別、コンピュータ等
に接続されたキーボード等を介して入力された情報等に
よって得られる。
【0042】次にステップS12 では、読み出されるテキ
ストデータがまだあるかどうか判断する。テキストデー
タが有る場合(Yes )、ステップS13 に進む。また、テ
キストデータがない場合(No)、音声合成装置10の処理
を終了する。
ストデータがまだあるかどうか判断する。テキストデー
タが有る場合(Yes )、ステップS13 に進む。また、テ
キストデータがない場合(No)、音声合成装置10の処理
を終了する。
【0043】ステップS13 では、供給されるテキストデ
ータに対する解析、すなわちテキスト解析を行う。テキ
スト解析は、図1のテキスト解析部12で行われる。この
テキスト解析では、言語的に文章、語句、韻律と細分化
して文の修飾関係の解析や音声として発音する際の特徴
となる、たとえばアクセント・強調・ポーズ・フレーズ
に対応した音韻解析等が行われる。この解析により得ら
れたデータが、いわゆる中間言語と呼ばれるデータであ
る。この中間言語とともに、発声速度情報が合成パラメ
ータ生成部14に供給される。この処理の後、サブルーチ
ンSUB1に移行する。
ータに対する解析、すなわちテキスト解析を行う。テキ
スト解析は、図1のテキスト解析部12で行われる。この
テキスト解析では、言語的に文章、語句、韻律と細分化
して文の修飾関係の解析や音声として発音する際の特徴
となる、たとえばアクセント・強調・ポーズ・フレーズ
に対応した音韻解析等が行われる。この解析により得ら
れたデータが、いわゆる中間言語と呼ばれるデータであ
る。この中間言語とともに、発声速度情報が合成パラメ
ータ生成部14に供給される。この処理の後、サブルーチ
ンSUB1に移行する。
【0044】サブルーチンSUB1では、合成パラメータ生
成部14での処理によって供給される各種の情報をパラメ
ータ化するとともに、得られたパラメータを多重化して
これらパラメータの合成を行っている。供給される情報
は、上述したように、中間言語のデータとして音声継続
時間情報、アクセント指示情報、音韻記号列が合成パラ
メータ生成部14に供給される。また、条件設定で行われ
た発声速度情報も合成パラメータ生成部14に供給され
る。サブルーチンSUB1で生成された合成パラメータは、
波形生成部16に供給される。この後、サブルーチンSUB1
の処理を終了してステップS14 に進む。
成部14での処理によって供給される各種の情報をパラメ
ータ化するとともに、得られたパラメータを多重化して
これらパラメータの合成を行っている。供給される情報
は、上述したように、中間言語のデータとして音声継続
時間情報、アクセント指示情報、音韻記号列が合成パラ
メータ生成部14に供給される。また、条件設定で行われ
た発声速度情報も合成パラメータ生成部14に供給され
る。サブルーチンSUB1で生成された合成パラメータは、
波形生成部16に供給される。この後、サブルーチンSUB1
の処理を終了してステップS14 に進む。
【0045】ステップS14 では、供給される合成パラメ
ータを基に音声用の波形を生成する。この波形生成は、
波形生成部18で行う。波形生成部18は、前述したように
音声素片を複数重畳させるように波形データを重畳して
ステップS15 に進む。
ータを基に音声用の波形を生成する。この波形生成は、
波形生成部18で行う。波形生成部18は、前述したように
音声素片を複数重畳させるように波形データを重畳して
ステップS15 に進む。
【0046】ステップS15 では、供給された波形データ
に音声の特徴が現れるアナログ信号に変換する。アナロ
グ信号への変換は、一般的に行われるようにD/A 変換器
等のハードウェアを使用して行われる。このようにして
得られたアナログ信号がスピーカ22に供給される。スピ
ーカ22は、供給されるアナログ信号を音声に変換して出
力する。この音声合成装置10では、ステップS12 で説明
したように、テキストデータがなくなるまで連続して音
声出力される。したがって、テキストデータがなくなる
と、音声合成装置10は、出力を停止する。なお、ステッ
プS12 の処理は、図4のステップ15以降に設けてデータ
があるとき、ステップS13 に戻って処理を継続させる。
また、テキストデータがなくなったとき、処理を終了さ
せるようにしてもよい。
に音声の特徴が現れるアナログ信号に変換する。アナロ
グ信号への変換は、一般的に行われるようにD/A 変換器
等のハードウェアを使用して行われる。このようにして
得られたアナログ信号がスピーカ22に供給される。スピ
ーカ22は、供給されるアナログ信号を音声に変換して出
力する。この音声合成装置10では、ステップS12 で説明
したように、テキストデータがなくなるまで連続して音
声出力される。したがって、テキストデータがなくなる
と、音声合成装置10は、出力を停止する。なお、ステッ
プS12 の処理は、図4のステップ15以降に設けてデータ
があるとき、ステップS13 に戻って処理を継続させる。
また、テキストデータがなくなったとき、処理を終了さ
せるようにしてもよい。
【0047】次に音声合成装置10のサブルーチンSUB1の
動作手順について図5を参照しながら説明する。サブル
ーチンSUB1では、フレーム長を算出するサブステップSS
10に進む。
動作手順について図5を参照しながら説明する。サブル
ーチンSUB1では、フレーム長を算出するサブステップSS
10に進む。
【0048】サブステップSS10では、供給される発声速
度情報を基に1フレームの長さがどのくらいになるかを
算出する。この算出は、フレーム長算出部14a で行われ
る。発声速度情報は、サンプル数で供給されるので、サ
ンプリング周波数fsで割った値(1/fs ) を乗算すると、
時間単位になる。この算出後、サブステップSS11に進
む。
度情報を基に1フレームの長さがどのくらいになるかを
算出する。この算出は、フレーム長算出部14a で行われ
る。発声速度情報は、サンプル数で供給されるので、サ
ンプリング周波数fsで割った値(1/fs ) を乗算すると、
時間単位になる。この算出後、サブステップSS11に進
む。
【0049】サブステップSS11では、供給される音韻記
号列に対する音声継続時間情報から音声継続時間内に有
するフレーム数N を算出する。算出式は、前述した式
(1) である。この算出は、図1のフレーム数算出部14b
で行われる。フレーム数算出部14b は、フレーム数の演
算を行うだけでなく、算出したフレーム数に応じてカウ
ントしながら、ピッチ決定部14c 、振幅決定部14d 、お
よび音声素片決定部14eを制御する制御信号も出力して
いる。したがって、この制御信号は、音声継続時間内に
N 回出力されることになる。後段で述べるが、多重化部
14f は、音韻記号列の一つが継続されるとき、N 個のフ
レーム情報格納領域F1〜FNが形成される。この算出後、
サブステップSS12に進む。
号列に対する音声継続時間情報から音声継続時間内に有
するフレーム数N を算出する。算出式は、前述した式
(1) である。この算出は、図1のフレーム数算出部14b
で行われる。フレーム数算出部14b は、フレーム数の演
算を行うだけでなく、算出したフレーム数に応じてカウ
ントしながら、ピッチ決定部14c 、振幅決定部14d 、お
よび音声素片決定部14eを制御する制御信号も出力して
いる。したがって、この制御信号は、音声継続時間内に
N 回出力されることになる。後段で述べるが、多重化部
14f は、音韻記号列の一つが継続されるとき、N 個のフ
レーム情報格納領域F1〜FNが形成される。この算出後、
サブステップSS12に進む。
【0050】サブステップSS12では、供給される音韻記
号列に対応した素片辞書16の音声素片が含まれる変数ア
ドレス、すなわち先頭アドレスstr_adr の値を初期化す
る。フレーム数算出部14b から供給される制御信号に応
じて音声素片決定部14e が処理を開始した際に音声素片
決定部14e は、供給される音韻記号列に対応する音声素
片のアドレス検索を素片辞書16に行う。この初期化と
は、アドレス検索によって素片辞書16内に含まれる音声
素片の先頭アドレスstr_adr でたとえば前フレームの先
頭アドレスが置換される設定を示している。
号列に対応した素片辞書16の音声素片が含まれる変数ア
ドレス、すなわち先頭アドレスstr_adr の値を初期化す
る。フレーム数算出部14b から供給される制御信号に応
じて音声素片決定部14e が処理を開始した際に音声素片
決定部14e は、供給される音韻記号列に対応する音声素
片のアドレス検索を素片辞書16に行う。この初期化と
は、アドレス検索によって素片辞書16内に含まれる音声
素片の先頭アドレスstr_adr でたとえば前フレームの先
頭アドレスが置換される設定を示している。
【0051】次にサブステップSS13では、前のサブステ
ップと同様に音韻記号列を表すためアドレス検索で素片
辞書16から得られた音声素片の数である変数Nsegの値を
置換して設定する。
ップと同様に音韻記号列を表すためアドレス検索で素片
辞書16から得られた音声素片の数である変数Nsegの値を
置換して設定する。
【0052】なお、単に変数Nsegの値を設定したが、図
2に示すように入力される音韻記号列に対応する音声素
片の数およびフレーム数の大きさから音声素片の数を合
成単位として扱うかどうか判定する、合成単位判定部14
0eの判定結果に応じて辞書検索部142eを制御してもよ
い。
2に示すように入力される音韻記号列に対応する音声素
片の数およびフレーム数の大きさから音声素片の数を合
成単位として扱うかどうか判定する、合成単位判定部14
0eの判定結果に応じて辞書検索部142eを制御してもよ
い。
【0053】次にサブステップSS14では、現フレームに
対する音声素片アドレスADR を先頭アドレスstr_adr で
初期化する(ADR=str_adr )。この処理は、素片辞書16
の検索制御を行う、辞書検索部142eで行われる(図2を
参照)。この後、サブステップSS15に進む。
対する音声素片アドレスADR を先頭アドレスstr_adr で
初期化する(ADR=str_adr )。この処理は、素片辞書16
の検索制御を行う、辞書検索部142eで行われる(図2を
参照)。この後、サブステップSS15に進む。
【0054】サブステップSS15では、変数adr_inc を初
期化する。この初期化では、変数adr_inc は1に設定さ
れる(adr_inc=1 )。この後、サブステップSS16に進
む。
期化する。この初期化では、変数adr_inc は1に設定さ
れる(adr_inc=1 )。この後、サブステップSS16に進
む。
【0055】サブステップSS16では、フレーム数算出部
14b から供給される制御信号の回数をカウントする変数
i をゼロにセットする。次にサブステップSS17に進む。
14b から供給される制御信号の回数をカウントする変数
i をゼロにセットする。次にサブステップSS17に進む。
【0056】サブステップSS17では、変数i がフレーム
数N より小さいかどうか判定する。変数i がフレーム数
N より小さいとき(Yes )、サブステップSS18に進む。
また、変数i がフレーム数N 以上のとき(No)、リター
ンに移行する。
数N より小さいかどうか判定する。変数i がフレーム数
N より小さいとき(Yes )、サブステップSS18に進む。
また、変数i がフレーム数N 以上のとき(No)、リター
ンに移行する。
【0057】サブステップSS18では、変数i の値を+1だ
け歩進させてサブステップSS19に進む。
け歩進させてサブステップSS19に進む。
【0058】サブステップSS19では、ピッチの決定処理
を行う。ピッチ決定は、フレーム数算出部14b から供給
される制御信号に応じて処理をピッチ決定部14c で行わ
せる。ピッチ決定は、テキスト解析部12からのアクセン
ト指示情報に対応したピッチ、すなわち基本周波数を決
定する。ピッチ決定部14c は、決定したパラメータを多
重化部14f に出力する。
を行う。ピッチ決定は、フレーム数算出部14b から供給
される制御信号に応じて処理をピッチ決定部14c で行わ
せる。ピッチ決定は、テキスト解析部12からのアクセン
ト指示情報に対応したピッチ、すなわち基本周波数を決
定する。ピッチ決定部14c は、決定したパラメータを多
重化部14f に出力する。
【0059】次にサブステップSS20では、波形の振幅の
決定を行う。この振幅決定は、供給される制御信号に応
じて振幅決定部14d を動作させる。振幅決定部14d に
は、音声継続時間情報、アクセント指示情報だけでな
く、音韻記号列も供給されている。振幅決定部14d は、
これらの情報を基に現在のフレーム(以下、単に略して
現フレームという)における振幅値あるいは振幅係数の
一方に対する算出を行う。振幅決定部14d は、決定した
パラメータを多重化部14f に出力する。この出力の後、
サブステップSS21に進む。
決定を行う。この振幅決定は、供給される制御信号に応
じて振幅決定部14d を動作させる。振幅決定部14d に
は、音声継続時間情報、アクセント指示情報だけでな
く、音韻記号列も供給されている。振幅決定部14d は、
これらの情報を基に現在のフレーム(以下、単に略して
現フレームという)における振幅値あるいは振幅係数の
一方に対する算出を行う。振幅決定部14d は、決定した
パラメータを多重化部14f に出力する。この出力の後、
サブステップSS21に進む。
【0060】サブステップSS21では、この時点で得られ
ている現フレームに関する音声素片のアドレス値を確定
値として多重化部14f に出力する。このとき、フローチ
ャート中には図示しないが多重化部14f では1フレーム
分を構成するパラメータがすべて揃うので、多重化処理
を行って合成パラメータを生成している。
ている現フレームに関する音声素片のアドレス値を確定
値として多重化部14f に出力する。このとき、フローチ
ャート中には図示しないが多重化部14f では1フレーム
分を構成するパラメータがすべて揃うので、多重化処理
を行って合成パラメータを生成している。
【0061】次にサブステップSS22では、更新される変
数adr_inc の値を場合に応じて設定条件を満足するか判
別する。設定条件は、変数adr_inc の値が1 に等しく、
かつ現フレームの音声素片アドレスと変数adr_inc の加
算結果が先頭アドレスstr_adr と変数Nsegの加算結果に
等しいかそれ以上の値の場合、あるいは変数adr_incの
値が-1に等しく、かつ現フレームの音声素片アドレスと
変数adr_inc の加算結果が先頭アドレスstr_adr より小
さい値の場合に変数adr_inc の値を更新する。この設定
条件を満足するとき(Yes )、サブステップSS23に進
む。また、設定条件を満足しなかったとき(No)、サブ
ステップSS24に進む。
数adr_inc の値を場合に応じて設定条件を満足するか判
別する。設定条件は、変数adr_inc の値が1 に等しく、
かつ現フレームの音声素片アドレスと変数adr_inc の加
算結果が先頭アドレスstr_adr と変数Nsegの加算結果に
等しいかそれ以上の値の場合、あるいは変数adr_incの
値が-1に等しく、かつ現フレームの音声素片アドレスと
変数adr_inc の加算結果が先頭アドレスstr_adr より小
さい値の場合に変数adr_inc の値を更新する。この設定
条件を満足するとき(Yes )、サブステップSS23に進
む。また、設定条件を満足しなかったとき(No)、サブ
ステップSS24に進む。
【0062】サブステップSS23では、変数adr_inc に-1
を乗算して変数adr_inc の符号を変える。すなわち、こ
の更新は、取り得る音声素片アドレス範囲の極値を越え
たと判断して音声素片アドレスの増加方向の向きが変わ
ることを意味する。この変数更新後、サブステップSS25
に進む。
を乗算して変数adr_inc の符号を変える。すなわち、こ
の更新は、取り得る音声素片アドレス範囲の極値を越え
たと判断して音声素片アドレスの増加方向の向きが変わ
ることを意味する。この変数更新後、サブステップSS25
に進む。
【0063】サブステップSS24では、変数adr_inc の符
号をそのままにしてサブステップSS25に進む。すなわ
ち、サブステップSS22での判断は、音声素片アドレスAD
R が音声素片アドレス範囲の中で単調増加あるいは単調
減少の期間にあることを意味している。
号をそのままにしてサブステップSS25に進む。すなわ
ち、サブステップSS22での判断は、音声素片アドレスAD
R が音声素片アドレス範囲の中で単調増加あるいは単調
減少の期間にあることを意味している。
【0064】サブステップSS25では、現フレームで用い
た音声素片アドレスADR にサブステップSS23あるいはサ
ブステップSS24で求めた変数adr_inc を加算して新たな
音声素片アドレスを決定する。すなわち、この新たな音
声素片アドレスが次フレームの音声素片アドレスであ
る。この加算処理後、処理をサブステップSS17に戻す。
た音声素片アドレスADR にサブステップSS23あるいはサ
ブステップSS24で求めた変数adr_inc を加算して新たな
音声素片アドレスを決定する。すなわち、この新たな音
声素片アドレスが次フレームの音声素片アドレスであ
る。この加算処理後、処理をサブステップSS17に戻す。
【0065】前述したしたようにサブステップSS17で
は、変数i がフレーム数以上の値に達したとき(No)、
リターンに移行して供給された音声記号列に対する合成
パラメータの生成を行っている。
は、変数i がフレーム数以上の値に達したとき(No)、
リターンに移行して供給された音声記号列に対する合成
パラメータの生成を行っている。
【0066】実際に音韻記号列として"a" が供給された
際に、音声素片決定部14e は、素片辞書16を制御して音
韻記号列"a" に対応する音声素片の先頭アドレスstr_ad
r を検索する。素片辞書16には、各音韻記号列に対応し
た音声素片とその音韻記号列を正確に音声変換するのに
要する音声素片の数、すなわち素片数Nsegが一組となっ
て格納されている。検索によりこの素片辞書16には、音
韻記号列"a" を表すための複数の音声素片a1, a2, a3と
3つ備えられていることが判る(Nseg=3;図6(a) を参
照)。
際に、音声素片決定部14e は、素片辞書16を制御して音
韻記号列"a" に対応する音声素片の先頭アドレスstr_ad
r を検索する。素片辞書16には、各音韻記号列に対応し
た音声素片とその音韻記号列を正確に音声変換するのに
要する音声素片の数、すなわち素片数Nsegが一組となっ
て格納されている。検索によりこの素片辞書16には、音
韻記号列"a" を表すための複数の音声素片a1, a2, a3と
3つ備えられていることが判る(Nseg=3;図6(a) を参
照)。
【0067】供給された発声速度情報および音声継続時
間情報により、サンプリングの周期とそれぞれフレーム
長のサンプリング数len および音韻記号列"a" を継続す
る音時間を示すサンプリング数t の乗算で表される。供
給される音韻記号列"a" は、この場合、式(1) の計算結
果から図6(b) に示すようにフレーム数N=6 である。音
韻記号列"a" を表すために音声素片a1, a2, a3が必要な
ことから、6個のフレームの内、フレームF4, F5, F6
は、音声を継続させる期間に相当する、拡張フレームEF
である。ただし、この拡張フレームがないとき、従来と
同じフレーム構成となる。
間情報により、サンプリングの周期とそれぞれフレーム
長のサンプリング数len および音韻記号列"a" を継続す
る音時間を示すサンプリング数t の乗算で表される。供
給される音韻記号列"a" は、この場合、式(1) の計算結
果から図6(b) に示すようにフレーム数N=6 である。音
韻記号列"a" を表すために音声素片a1, a2, a3が必要な
ことから、6個のフレームの内、フレームF4, F5, F6
は、音声を継続させる期間に相当する、拡張フレームEF
である。ただし、この拡張フレームがないとき、従来と
同じフレーム構成となる。
【0068】ここで、前述したサブステップSS22での設
定条件を考慮すると、図6のフレームF4, F6で変数adr_
inc の符号が更新される。音声継続時間中、往復的に素
片辞書16がアクセスされるので、この結果、音声素片
は、図6(a) に示す順序で読み出される。また、パラメ
ータの一つであるピッチは、それぞれピッチp1, p2, ・・
・, p6 がピッチ決定部14c で決定されている。この決定
により、各フレームにいくつの音声素片が含まれるかが
決まることになる。もう一つのパラメータである振幅も
振幅決定部14d で決定される。図6(b) から明らかなよ
うに、フレーム毎に音声素片の振幅が微妙に異なってい
ることが判る。
定条件を考慮すると、図6のフレームF4, F6で変数adr_
inc の符号が更新される。音声継続時間中、往復的に素
片辞書16がアクセスされるので、この結果、音声素片
は、図6(a) に示す順序で読み出される。また、パラメ
ータの一つであるピッチは、それぞれピッチp1, p2, ・・
・, p6 がピッチ決定部14c で決定されている。この決定
により、各フレームにいくつの音声素片が含まれるかが
決まることになる。もう一つのパラメータである振幅も
振幅決定部14d で決定される。図6(b) から明らかなよ
うに、フレーム毎に音声素片の振幅が微妙に異なってい
ることが判る。
【0069】このようにして得られた各パラメータは、
多重化部14f で多重化される。そのとき、フレーム毎に
多重化される際のパラメータ配置は、前述した図3の構
成を採る。このまとめられた合成パラメータは、波形生
成部18に供給される。波形生成部18は、供給された合成
パラメータを基に各フレームの波形を生成する。この生
成された各フレームの波形を加算すると、最終的に図6
(c) に示す合成波形が得られる。この合成波形は、音声
生成部20に供給されてアナログ信号に変換される。そし
て、このアナログ信号がスピーカ22から出力すると、音
声継続時間にわたってテキストデータ(あるいは音韻記
号列)"a" に対応した音声が出力される。この音声は、
音声素片の採用する際に次に採用する音声素片を現在使
用した音声素片に隣接した音声素片から採用するととも
に、採用する音声素片の範囲を往復的に採用することに
より、微妙な音程の変化をもたらし、聞き手にとって肉
声に近い音として供給されることになる。これにより、
従来、問題視された音声継続時間の長い発声に対して生
じていた機械音的な発声を大幅に改善することができ
る。
多重化部14f で多重化される。そのとき、フレーム毎に
多重化される際のパラメータ配置は、前述した図3の構
成を採る。このまとめられた合成パラメータは、波形生
成部18に供給される。波形生成部18は、供給された合成
パラメータを基に各フレームの波形を生成する。この生
成された各フレームの波形を加算すると、最終的に図6
(c) に示す合成波形が得られる。この合成波形は、音声
生成部20に供給されてアナログ信号に変換される。そし
て、このアナログ信号がスピーカ22から出力すると、音
声継続時間にわたってテキストデータ(あるいは音韻記
号列)"a" に対応した音声が出力される。この音声は、
音声素片の採用する際に次に採用する音声素片を現在使
用した音声素片に隣接した音声素片から採用するととも
に、採用する音声素片の範囲を往復的に採用することに
より、微妙な音程の変化をもたらし、聞き手にとって肉
声に近い音として供給されることになる。これにより、
従来、問題視された音声継続時間の長い発声に対して生
じていた機械音的な発声を大幅に改善することができ
る。
【0070】なお、選択する音声素片は、前述した実施
例では素片辞書16が有する音声素片すべてとして扱った
が、素片辞書16の持つ数種類の音声素片は必ずしも定常
状態における音声素片とは限らない。これらの音声素片
は、先行音韻から過渡部分、あるいは後続音韻への過渡
部分の音声素片であることも考えられるからである。こ
のような場合、最終の音声素片から3つ音声素片を遡る
範囲(すなわち、str_adr+Nseg-4,・・・,str_adr+Nseg-1
)にしてもよい。ところで、これらの過渡状態になあ
る音声素片を用いた場合には、接続性を損なって聞き難
い音質になってしまうので、定常状態にある音声素片だ
けを用いることが好ましい。
例では素片辞書16が有する音声素片すべてとして扱った
が、素片辞書16の持つ数種類の音声素片は必ずしも定常
状態における音声素片とは限らない。これらの音声素片
は、先行音韻から過渡部分、あるいは後続音韻への過渡
部分の音声素片であることも考えられるからである。こ
のような場合、最終の音声素片から3つ音声素片を遡る
範囲(すなわち、str_adr+Nseg-4,・・・,str_adr+Nseg-1
)にしてもよい。ところで、これらの過渡状態になあ
る音声素片を用いた場合には、接続性を損なって聞き難
い音質になってしまうので、定常状態にある音声素片だ
けを用いることが好ましい。
【0071】また、フレーム長を発声速度だけで決定す
るようにしたが、このフレーム長は、音声継続時間があ
る一定以上の長さを越えた場合だけ固定長にして、それ
以外の場合ではフレーム長とフレーム数の両パラメータ
で継続時間を制御してもよい。
るようにしたが、このフレーム長は、音声継続時間があ
る一定以上の長さを越えた場合だけ固定長にして、それ
以外の場合ではフレーム長とフレーム数の両パラメータ
で継続時間を制御してもよい。
【0072】次に音声合成装置10の変形例について説明
する。この変形例は、音声合成装置10をたとえば、歌唱
に適用する場合である。音声合成装置10のテキスト解析
部12は、図示しないが 常のテキスト解析を対象とした
ものでなく、楽譜上の音階記号を解析する機能を有して
いる。この解析機能は、たとえばMIDI(Music Instrume
nt Digital Interface)規格に基づいて解析を行う。こ
の解析に基づいた音韻記号列が合成パラメータ生成部14
に供給される。本実施例では、合成パラメータ生成部14
が拡張フレームの音声素片をピッチの揺らぎに同期して
選択することを特徴としている。
する。この変形例は、音声合成装置10をたとえば、歌唱
に適用する場合である。音声合成装置10のテキスト解析
部12は、図示しないが 常のテキスト解析を対象とした
ものでなく、楽譜上の音階記号を解析する機能を有して
いる。この解析機能は、たとえばMIDI(Music Instrume
nt Digital Interface)規格に基づいて解析を行う。こ
の解析に基づいた音韻記号列が合成パラメータ生成部14
に供給される。本実施例では、合成パラメータ生成部14
が拡張フレームの音声素片をピッチの揺らぎに同期して
選択することを特徴としている。
【0073】ここで、音声合成装置10は、共通する部分
に同じ参照番号を付して説明を簡略化する。この変形例
における特徴を表す合成パラメータ生成部14についての
概略的な構成だけを図7に示す。
に同じ参照番号を付して説明を簡略化する。この変形例
における特徴を表す合成パラメータ生成部14についての
概略的な構成だけを図7に示す。
【0074】合成パラメータ生成部14には、ビブラート
制御部14A および基本時間算出部14B が備えられてい
る。ビブラート制御部14A は、音声素片決定部14e に供
給される音韻記号列(言葉)に対してビブラートを施す
かどうかを供給される発声速度情報および音声継続時間
情報を基に判定を行う。そして、ビブラート制御部14A
は、この判定に基づいて各部、すなわち基本時間算出部
14B 、ピッチ決定部14c、振幅決定部14d および音声素
片決定部14e を制御する。ビブラートを施すかどうかの
判定は、予め設定した所定の長さ以上に長い音声継続が
指定された際に施すという基準に基づいている。
制御部14A および基本時間算出部14B が備えられてい
る。ビブラート制御部14A は、音声素片決定部14e に供
給される音韻記号列(言葉)に対してビブラートを施す
かどうかを供給される発声速度情報および音声継続時間
情報を基に判定を行う。そして、ビブラート制御部14A
は、この判定に基づいて各部、すなわち基本時間算出部
14B 、ピッチ決定部14c、振幅決定部14d および音声素
片決定部14e を制御する。ビブラートを施すかどうかの
判定は、予め設定した所定の長さ以上に長い音声継続が
指定された際に施すという基準に基づいている。
【0075】基本時間算出部14B には、前述したフレー
ム長算出部14a およびフレーム数算出部14b が含まれて
いる。基本時間算出部14B は、供給される音韻記号列の
一つひとつに対応した基本時間を算出している。換言す
ると、歌唱に用いる場合、供給される発声速度情報は、
たとえば、アンダンテ、モデラート、アレグロ等の楽譜
に記された速度標語あるいは速度記号に対応して規定さ
れている。また、音声継続時間情報は、楽譜に記された
音符あるいは休止記号に対応している。このため、フレ
ーム長算出部14a およびフレーム数算出部14a は、これ
らのフレーム長やフレーム数の算出に供給される上述し
たパラメータの他に、ビブラート制御部14A からの判定
結果と音声素片決定部14e から供給される拡張フレーム
EFに用いる素片数から、フレーム長およびフレーム数の
算出を行っている。基本時間算出部14B は、ビブラート
効果がより高く作用するように値の算出を行う。算出に
ついては後段の動作において詳述する。
ム長算出部14a およびフレーム数算出部14b が含まれて
いる。基本時間算出部14B は、供給される音韻記号列の
一つひとつに対応した基本時間を算出している。換言す
ると、歌唱に用いる場合、供給される発声速度情報は、
たとえば、アンダンテ、モデラート、アレグロ等の楽譜
に記された速度標語あるいは速度記号に対応して規定さ
れている。また、音声継続時間情報は、楽譜に記された
音符あるいは休止記号に対応している。このため、フレ
ーム長算出部14a およびフレーム数算出部14a は、これ
らのフレーム長やフレーム数の算出に供給される上述し
たパラメータの他に、ビブラート制御部14A からの判定
結果と音声素片決定部14e から供給される拡張フレーム
EFに用いる素片数から、フレーム長およびフレーム数の
算出を行っている。基本時間算出部14B は、ビブラート
効果がより高く作用するように値の算出を行う。算出に
ついては後段の動作において詳述する。
【0076】ピッチ決定部14c は、この場合、アクセン
ト指示情報として楽譜に記されている音階が供給されて
いる。ピッチ決定部14c は、この音階から現フレームに
おける基本ピッチの算出を行う。基本ピッチとは、ビブ
ラート処理で用いるピッチと区別するために設けた呼び
方であって、現フレームにおいて基本をなすピッチを意
味している。ピッチ決定部14c は、ビブラート制御部14
A からの制御信号に応じて基本ピッチを中心に略々6Hz
の範囲にわたって周波数変調させる。この場合の周波数
変調は、基本ピッチに対して所定の値の加算・減算をお
こなったり、あるいは基本ピッチに比例した値を加算・
減算する方法等が用いられる。ピッチ決定部14c は、ビ
ブラート制御部14A からの制御信号に応じて制御され
る。
ト指示情報として楽譜に記されている音階が供給されて
いる。ピッチ決定部14c は、この音階から現フレームに
おける基本ピッチの算出を行う。基本ピッチとは、ビブ
ラート処理で用いるピッチと区別するために設けた呼び
方であって、現フレームにおいて基本をなすピッチを意
味している。ピッチ決定部14c は、ビブラート制御部14
A からの制御信号に応じて基本ピッチを中心に略々6Hz
の範囲にわたって周波数変調させる。この場合の周波数
変調は、基本ピッチに対して所定の値の加算・減算をお
こなったり、あるいは基本ピッチに比例した値を加算・
減算する方法等が用いられる。ピッチ決定部14c は、ビ
ブラート制御部14A からの制御信号に応じて制御され
る。
【0077】振幅決定部14d は、前述の実施例の同様に
振幅値あるいは振幅係数を算出する。また、これらのパ
ラメータだけでなく、楽譜中に記された単なる強弱の記
号、時間的な要素を含む、たとえばスタッカートの記号
やレガートさせる際のスラーの記号ならびに強弱および
時間的な要素を含む、クラッシェントやデクレッシェン
ト等も考慮すると微妙な音の調整を行える。振幅決定部
14d は、ビブラート制御部14A からの制御信号に応じて
制御される。
振幅値あるいは振幅係数を算出する。また、これらのパ
ラメータだけでなく、楽譜中に記された単なる強弱の記
号、時間的な要素を含む、たとえばスタッカートの記号
やレガートさせる際のスラーの記号ならびに強弱および
時間的な要素を含む、クラッシェントやデクレッシェン
ト等も考慮すると微妙な音の調整を行える。振幅決定部
14d は、ビブラート制御部14A からの制御信号に応じて
制御される。
【0078】音声素片決定部14e も前述の実施例と同様
に素片辞書16に格納されている音声素片を選ぶととも
に、合成単位とするか判定する。音声素片決定部14e
は、判定結果に応じて素片辞書16のアドレスを検索にそ
の結果を多重化部14f に出力する。また、音声素片決定
部14e は、音韻記号列の一入力に対する音声素片数Nseg
および音声伸長に伴って拡張フレームに用いる音声素片
の選択もフレーム毎に行っている。得られた情報は、基
本時間算出部14B に供給され、フレーム長およびフレー
ム数の算出に用いられる。音声素片決定部14e は、ビブ
ラート制御部14A からの制御信号に応じて制御される。
に素片辞書16に格納されている音声素片を選ぶととも
に、合成単位とするか判定する。音声素片決定部14e
は、判定結果に応じて素片辞書16のアドレスを検索にそ
の結果を多重化部14f に出力する。また、音声素片決定
部14e は、音韻記号列の一入力に対する音声素片数Nseg
および音声伸長に伴って拡張フレームに用いる音声素片
の選択もフレーム毎に行っている。得られた情報は、基
本時間算出部14B に供給され、フレーム長およびフレー
ム数の算出に用いられる。音声素片決定部14e は、ビブ
ラート制御部14A からの制御信号に応じて制御される。
【0079】多重化部14f は、各部で算出されたパラメ
ータをフレーム毎に合成パラメータにまとめて波形生成
部18に出力する。このように構成してピッチと音声素片
とが対応して多重化させている。
ータをフレーム毎に合成パラメータにまとめて波形生成
部18に出力する。このように構成してピッチと音声素片
とが対応して多重化させている。
【0080】次にこの音声合成装置10における変形した
構成の動作について図8〜図11を参照し、具体的な数値
を挙げて説明する。動作説明の簡略化を図るため、合成
パラメータ生成処理を扱う、前述したサブルーチンSUB1
の代わりに歌唱用のサブルーチンSUB2を用いる。本実施
例でもテキスト解析部12では、入力データの解析が行わ
れている。テキスト解析部12は、楽譜から読み取って入
力されたデータ、たとえば、”四分音符=100”を速度記
号とみなし、一分間に100 打つ速さで発声あるいは発音
させると解析して発声速度情報として出力する。この設
定において、テキスト解析部12は、読み取ったデータか
ら”咲いた”、”ドレミ”および”四分音符、四分音
符、二分音符”をそれぞれに対応する音韻記号列、音
階、音声継続時間を合成パラメータ生成部14に供給す
る。ここで、”た”、”ミ”、”二分音符”が供給され
た場合の合成パラメータ生成について説明する。
構成の動作について図8〜図11を参照し、具体的な数値
を挙げて説明する。動作説明の簡略化を図るため、合成
パラメータ生成処理を扱う、前述したサブルーチンSUB1
の代わりに歌唱用のサブルーチンSUB2を用いる。本実施
例でもテキスト解析部12では、入力データの解析が行わ
れている。テキスト解析部12は、楽譜から読み取って入
力されたデータ、たとえば、”四分音符=100”を速度記
号とみなし、一分間に100 打つ速さで発声あるいは発音
させると解析して発声速度情報として出力する。この設
定において、テキスト解析部12は、読み取ったデータか
ら”咲いた”、”ドレミ”および”四分音符、四分音
符、二分音符”をそれぞれに対応する音韻記号列、音
階、音声継続時間を合成パラメータ生成部14に供給す
る。ここで、”た”、”ミ”、”二分音符”が供給され
た場合の合成パラメータ生成について説明する。
【0081】先ず、サブルーチンSUB2においてサブステ
ップSS30に進む。サブステップSS30では、音韻”た”に
対応する音声素片を素片辞書16中の該当する先頭アドレ
スstr_adr を検索するとともに、音韻”た”を表す音声
素片数Nsegの検出を行う。この音声素片数Nseg=11 の検
出後、サブステップSS31に進む。
ップSS30に進む。サブステップSS30では、音韻”た”に
対応する音声素片を素片辞書16中の該当する先頭アドレ
スstr_adr を検索するとともに、音韻”た”を表す音声
素片数Nsegの検出を行う。この音声素片数Nseg=11 の検
出後、サブステップSS31に進む。
【0082】サブステップSS31では、音韻継続時間情報
に基づいて追加される拡張フレームEFにおいて用いる音
声素片数Msegの値を設定する。この音声素片数Msegは、
音声素片数Nseg以下の数値を設定する。音声素片数Mseg
の値は、9 とする。また、予め素片辞書16の”た”に対
応してこの値を格納させておき、この時点で検出するよ
うにしてもよい。この設定後、サブステップSS32に進
む。
に基づいて追加される拡張フレームEFにおいて用いる音
声素片数Msegの値を設定する。この音声素片数Msegは、
音声素片数Nseg以下の数値を設定する。音声素片数Mseg
の値は、9 とする。また、予め素片辞書16の”た”に対
応してこの値を格納させておき、この時点で検出するよ
うにしてもよい。この設定後、サブステップSS32に進
む。
【0083】サブステップSS32では、フレーム長len を
算出する。6Hz の1周期内で設定された音声素片を往復
的に選択することから、選択される音声素片数は(Mseg
-1)×2 となる。値Mseg=9の場合、ビブラートには、16
個の音声素片が用いられる。フレーム長len は、この16
回の音声素片が選択されるので時間の長さでもあるか
ら、この周期内にサンプリングされる数を選択される音
声素片数で除算することにより得られる。正確に単位を
合わせるためには、さらに、得られた数値にサンプリン
グ周波数の1周期分の値を乗算して得られた値が時間単
位のフレーム長になるが、サンプリング周波数を基準の
時間単位とみなして処理を行うことから、実際の演算で
はサンプル数で時間の長さを表すことにする。
算出する。6Hz の1周期内で設定された音声素片を往復
的に選択することから、選択される音声素片数は(Mseg
-1)×2 となる。値Mseg=9の場合、ビブラートには、16
個の音声素片が用いられる。フレーム長len は、この16
回の音声素片が選択されるので時間の長さでもあるか
ら、この周期内にサンプリングされる数を選択される音
声素片数で除算することにより得られる。正確に単位を
合わせるためには、さらに、得られた数値にサンプリン
グ周波数の1周期分の値を乗算して得られた値が時間単
位のフレーム長になるが、サンプリング周波数を基準の
時間単位とみなして処理を行うことから、実際の演算で
はサンプル数で時間の長さを表すことにする。
【0084】ここで、合成音声出力で用いるサンプリン
グ周波数は、22.05kHzとする。ビブラートを生じさせる
周波数は、前述したように6Hz であることが知られてい
るから、この6Hz の周期中には3675個サンプリングされ
ることになる。したがって、フレーム長len は、この周
期中に16回の音声素片の選択を行うことから、3675/16
からほぼ230 サンプルの時間(≒0.0104sec )となる。
この算出後サブステップSS33に進む。
グ周波数は、22.05kHzとする。ビブラートを生じさせる
周波数は、前述したように6Hz であることが知られてい
るから、この6Hz の周期中には3675個サンプリングされ
ることになる。したがって、フレーム長len は、この周
期中に16回の音声素片の選択を行うことから、3675/16
からほぼ230 サンプルの時間(≒0.0104sec )となる。
この算出後サブステップSS33に進む。
【0085】サブステップSS33では、フレーム数N を算
出する。音韻継続時間内に含まれるフレームの数であ
る。実際に算出すると、”二分音符”という音韻継続時
間情報から指定される音韻継続時間は1.2 sec であるこ
とが判る。この音韻継続時間は、速度記号の定義から”
四分音符=100”の長さが0.6secで、”二分音符”が”四
分音符”を1に規格化した際にその2倍の長さとなるか
らである。したがって、この音韻継続時間の期間中この
サンプリング周波数では26460 個(サンプリング周波数
×速度記号に対応する長さ×音符の長さ)のサンプリン
グが行われる。この場合、フレーム数N は26460/230 と
して約115 フレームと算出される。この算出後、サブス
テップSS34に進む。サブステップSS30〜SS33までの処理
は、主に基本時間算出部14B で行われる。
出する。音韻継続時間内に含まれるフレームの数であ
る。実際に算出すると、”二分音符”という音韻継続時
間情報から指定される音韻継続時間は1.2 sec であるこ
とが判る。この音韻継続時間は、速度記号の定義から”
四分音符=100”の長さが0.6secで、”二分音符”が”四
分音符”を1に規格化した際にその2倍の長さとなるか
らである。したがって、この音韻継続時間の期間中この
サンプリング周波数では26460 個(サンプリング周波数
×速度記号に対応する長さ×音符の長さ)のサンプリン
グが行われる。この場合、フレーム数N は26460/230 と
して約115 フレームと算出される。この算出後、サブス
テップSS34に進む。サブステップSS30〜SS33までの処理
は、主に基本時間算出部14B で行われる。
【0086】サブステップSS34では、指定された音階に
対応する基本ピッチを算出する。この算出処理は、ビブ
ラート制御部14A からの制御信号に応じてピッチ決定部
14cで行われる。この場合、音階”ミ”に対応する基本
ピッチP1が算出される。
対応する基本ピッチを算出する。この算出処理は、ビブ
ラート制御部14A からの制御信号に応じてピッチ決定部
14cで行われる。この場合、音階”ミ”に対応する基本
ピッチP1が算出される。
【0087】次にサブステップSS35では、算出した基本
ピッチP1に基づいてビブラート用の最大/最小ピッチ
P2, P3を算出する。この算出もピッチ決定部14c で行わ
れる。この場合、最大ピッチP2は、基本ピッチP1からピ
ッチ周波数を増加させる(+)方向の最大周波数(P1×
1.03)を表し、最小ピッチP3は、基本ピッチP1からピッ
チ周波数を減少させる(−)方向の最小周波数(P1×0.
97)を表している。この最大ピッチ−最小ピッチ間のピ
ッチは、6Hz の周波数間隔を有し、後述する算出処理に
おいては線形補間により対応するピッチが算出されて基
本ピッチからずらすとともに、6Hz の間隔を越えないよ
うにしている。この算出後、サブステップSS36に進む。
ピッチP1に基づいてビブラート用の最大/最小ピッチ
P2, P3を算出する。この算出もピッチ決定部14c で行わ
れる。この場合、最大ピッチP2は、基本ピッチP1からピ
ッチ周波数を増加させる(+)方向の最大周波数(P1×
1.03)を表し、最小ピッチP3は、基本ピッチP1からピッ
チ周波数を減少させる(−)方向の最小周波数(P1×0.
97)を表している。この最大ピッチ−最小ピッチ間のピ
ッチは、6Hz の周波数間隔を有し、後述する算出処理に
おいては線形補間により対応するピッチが算出されて基
本ピッチからずらすとともに、6Hz の間隔を越えないよ
うにしている。この算出後、サブステップSS36に進む。
【0088】サブステップSS36では、ビブラートへの過
渡状態における処理に用いるパラメータの初期設定を行
う。初期設定は、変数j, Fについて行い、それぞれ0 と
1 をセットする(j=0, F=1)。変数j は、カウントパラ
メータでこの場合、過渡状態の音声素片読出し回数を表
すパラメータとなっている。変数F はフレーム数をカウ
ントしている。
渡状態における処理に用いるパラメータの初期設定を行
う。初期設定は、変数j, Fについて行い、それぞれ0 と
1 をセットする(j=0, F=1)。変数j は、カウントパラ
メータでこの場合、過渡状態の音声素片読出し回数を表
すパラメータとなっている。変数F はフレーム数をカウ
ントしている。
【0089】次にサブステップSS37では、過渡状態にあ
るかどうかの判定を行う。過渡状態を満足する条件は、
変数j の値が全音声素片数Nsegと拡張フレームEF用の音
声素片数Msegとの減算結果からさらに-1した値(Nseg-M
seg-1 )よりも小さいことである。この条件を満足する
と判定されたとき(Yes )、サブステップSS38に進む。
また、この条件を満たさない、すなわち過渡状態を過ぎ
たと判定したとき(No)、接続子Aを介して図9に示す
サブステップSS41に進む。
るかどうかの判定を行う。過渡状態を満足する条件は、
変数j の値が全音声素片数Nsegと拡張フレームEF用の音
声素片数Msegとの減算結果からさらに-1した値(Nseg-M
seg-1 )よりも小さいことである。この条件を満足する
と判定されたとき(Yes )、サブステップSS38に進む。
また、この条件を満たさない、すなわち過渡状態を過ぎ
たと判定したとき(No)、接続子Aを介して図9に示す
サブステップSS41に進む。
【0090】サブステップSS38では、各変数j, Fの値を
+1だけ歩進させる(j=j+1; F=F+1)。次にサブステップ
SS39では、フレーム内で音声素片読出しに対応して合成
パラメータを生成するための各パラメータを決定する。
各パラメータとは、振幅、ピッチ、および音声素片のア
ドレスである。これらは、それぞれ振幅決定部14d 、ピ
ッチ決定部14c 、および音声素片決定部14e で行われ
る。この過渡状態では、ピッチに基本ピッチP1を設定す
る。また、音声素片のアドレスは、str_adr+j で決めら
れる。この場合、各決定したパラメータは、多重化部14
f に供給される。この処理後、サブステップSS40に進
む。
+1だけ歩進させる(j=j+1; F=F+1)。次にサブステップ
SS39では、フレーム内で音声素片読出しに対応して合成
パラメータを生成するための各パラメータを決定する。
各パラメータとは、振幅、ピッチ、および音声素片のア
ドレスである。これらは、それぞれ振幅決定部14d 、ピ
ッチ決定部14c 、および音声素片決定部14e で行われ
る。この過渡状態では、ピッチに基本ピッチP1を設定す
る。また、音声素片のアドレスは、str_adr+j で決めら
れる。この場合、各決定したパラメータは、多重化部14
f に供給される。この処理後、サブステップSS40に進
む。
【0091】サブステップSS40では、これまでカウント
したフレーム数F が音声継続時間における全フレーム数
N より大きいか判定を行う。フレーム数F が全フレーム
数N以下のとき(No)、サブステップSS37に戻る。ま
た、フレーム数F が全フレーム数N より大きいとき(Ye
s )、接続子B、図9の接続子Cを介してリターンに移
行する。
したフレーム数F が音声継続時間における全フレーム数
N より大きいか判定を行う。フレーム数F が全フレーム
数N以下のとき(No)、サブステップSS37に戻る。ま
た、フレーム数F が全フレーム数N より大きいとき(Ye
s )、接続子B、図9の接続子Cを介してリターンに移
行する。
【0092】この一連のサブステップSS36〜SS40では音
声素片が変化してもこの処理期間中のピッチは基本ピッ
チが常に出力される、ビブラートが施されない処理が行
われる。
声素片が変化してもこの処理期間中のピッチは基本ピッ
チが常に出力される、ビブラートが施されない処理が行
われる。
【0093】この過渡状態を経て音声継続に伴う状態を
定常状態と呼ぶ。この定常状態ではビブラートを施す処
理が図9のサブステップSS41から行われる。
定常状態と呼ぶ。この定常状態ではビブラートを施す処
理が図9のサブステップSS41から行われる。
【0094】サブステップSS41では、ビブラートを行う
定常状態における処理に用いるパラメータの初期設定を
行う。初期設定は、変数j について行い、0 をセットす
る(j=0 )。変数j は、カウントパラメータでこの場
合、定常状態の音声素片読出し回数を表すパラメータと
なっている。
定常状態における処理に用いるパラメータの初期設定を
行う。初期設定は、変数j について行い、0 をセットす
る(j=0 )。変数j は、カウントパラメータでこの場
合、定常状態の音声素片読出し回数を表すパラメータと
なっている。
【0095】次にサブステップSS42では、定常状態にお
いて拡張フレームに用いる音声素片数よりビブラート用
のパラメータ生成処理回数が少ないかどうかという条件
(j<Mseg)の判定を行う。この条件が成立していると
き(Yes )、ビブラート用の音声素片読出しが行われて
いる最中であると判定してサブステップSS43に進む。ま
た、変数j が値Mseg以上の値になったとき(No)、拡張
フレームに用いる音声素片における一方向の読出しが終
了したと判定してサブステップSS48に進む。この判定が
行われるまで、素片辞書16から読み出す音声素片が(Ms
eg-1)回繰り返される。
いて拡張フレームに用いる音声素片数よりビブラート用
のパラメータ生成処理回数が少ないかどうかという条件
(j<Mseg)の判定を行う。この条件が成立していると
き(Yes )、ビブラート用の音声素片読出しが行われて
いる最中であると判定してサブステップSS43に進む。ま
た、変数j が値Mseg以上の値になったとき(No)、拡張
フレームに用いる音声素片における一方向の読出しが終
了したと判定してサブステップSS48に進む。この判定が
行われるまで、素片辞書16から読み出す音声素片が(Ms
eg-1)回繰り返される。
【0096】サブステップSS43では、振幅が振幅決定部
14b での算出処理により決定される。この処理後、サブ
ステップSS44に進む。
14b での算出処理により決定される。この処理後、サブ
ステップSS44に進む。
【0097】サブステップSS44では、ビブラート処理に
伴って変化するピッチの算出処理がピッチ決定部14c で
行われる。ピッチの算出は、基本ピッチ- 最小ピッチ間
を線形補間することによって行われる。基本ピッチと最
小ピッチとを往復的に切り換えるための境界が必要にな
る。ここで、この境界は、値Mseg/2に設定する。そし
て、変数j が値Mseg/2よりも小さいとき、線形補間によ
り算出されるピッチPLは、式(2)
伴って変化するピッチの算出処理がピッチ決定部14c で
行われる。ピッチの算出は、基本ピッチ- 最小ピッチ間
を線形補間することによって行われる。基本ピッチと最
小ピッチとを往復的に切り換えるための境界が必要にな
る。ここで、この境界は、値Mseg/2に設定する。そし
て、変数j が値Mseg/2よりも小さいとき、線形補間によ
り算出されるピッチPLは、式(2)
【0098】
【数2】 PL=P1-2j(P1-P3)/Mseg ・・・・(2) に依存して得られる。また、変数j が値Mseg/2以上のと
き、線形補間により算出されるピッチPLは、式(3)
き、線形補間により算出されるピッチPLは、式(3)
【0099】
【数3】 PL=P3+(2j-Mseg)(P1-P3)/Mseg ・・・・(3) に依存して得られる。この場合分けに応じて得られたピ
ッチPLを用いる。この算出後、サブステップSS45に進
む。
ッチPLを用いる。この算出後、サブステップSS45に進
む。
【0100】サブステップSS45では、音声素片アドレス
の設定を音声素片決定部14e で行う。設定される音声素
片アドレスは、音声素片の先頭アドレスstr_adr に音声
素片数Nsegと変数j を加算し、拡張フレームで用いる音
声素片数Mseg分を差し引いて得られる。この音声素片の
アドレス設定後、サブステップSS46に進む。
の設定を音声素片決定部14e で行う。設定される音声素
片アドレスは、音声素片の先頭アドレスstr_adr に音声
素片数Nsegと変数j を加算し、拡張フレームで用いる音
声素片数Mseg分を差し引いて得られる。この音声素片の
アドレス設定後、サブステップSS46に進む。
【0101】サブステップSS46では、変数j, Fの値をそ
れぞれ+1だけ歩進させる。この後、サブステップSS47に
進む。
れぞれ+1だけ歩進させる。この後、サブステップSS47に
進む。
【0102】サブステップSS47では、これまでカウント
したフレーム数F が音声継続時間における全フレーム数
N より大きいか判定を行う。フレーム数F が全フレーム
数N以下のとき(No)、サブステップSS42に戻る。ま
た、フレーム数F が全フレーム数N より大きいとき(Ye
s )、接続子Cを介してリターンに移行する。
したフレーム数F が音声継続時間における全フレーム数
N より大きいか判定を行う。フレーム数F が全フレーム
数N以下のとき(No)、サブステップSS42に戻る。ま
た、フレーム数F が全フレーム数N より大きいとき(Ye
s )、接続子Cを介してリターンに移行する。
【0103】この処理により定常状態にある素片を用い
てピッチが基本ピッチP1から最小ピッチP3まで減少し、
さらに最小ピッチP3から基本ピッチP1まで増加するとと
もに、音声素片アドレスは選択される拡張フレームで用
いる音声素片アドレスの範囲内を先頭アドレスstr_adr
から順に読み出すように各パラメータが音声素片アドレ
スのサンプリングに対応して生成されることになる。
てピッチが基本ピッチP1から最小ピッチP3まで減少し、
さらに最小ピッチP3から基本ピッチP1まで増加するとと
もに、音声素片アドレスは選択される拡張フレームで用
いる音声素片アドレスの範囲内を先頭アドレスstr_adr
から順に読み出すように各パラメータが音声素片アドレ
スのサンプリングに対応して生成されることになる。
【0104】次にサブステップSS48では、再びビブラー
トを行う定常状態における処理に用いるパラメータの初
期設定を行う。初期設定は、変数j について行い、0 を
セットする(j=0 )。変数j は、カウントパラメータで
この場合も定常状態の音声素片読出し回数を表すパラメ
ータとなっている。
トを行う定常状態における処理に用いるパラメータの初
期設定を行う。初期設定は、変数j について行い、0 を
セットする(j=0 )。変数j は、カウントパラメータで
この場合も定常状態の音声素片読出し回数を表すパラメ
ータとなっている。
【0105】次にサブステップSS49では、定常状態にお
いて拡張フレームに用いる音声素片数よりビブラート用
のパラメータ生成処理回数が少ないかどうかという条件
(j<Mseg)の判定を行う。この条件が成立していると
き(Yes )、ビブラート用の音声素片読出しが行われて
いる最中であると判定してサブステップSS50に進む。ま
た、変数j が値Mseg以上の値になったとき(No)、拡張
フレームに用いる音声素片における一方向の読出しが終
了したと判定して接続子Eを介して図10のサブステップ
SS55に進む。この判定が行われるまで、素片辞書16から
読み出す音声素片が(Mseg-1)回繰り返される。
いて拡張フレームに用いる音声素片数よりビブラート用
のパラメータ生成処理回数が少ないかどうかという条件
(j<Mseg)の判定を行う。この条件が成立していると
き(Yes )、ビブラート用の音声素片読出しが行われて
いる最中であると判定してサブステップSS50に進む。ま
た、変数j が値Mseg以上の値になったとき(No)、拡張
フレームに用いる音声素片における一方向の読出しが終
了したと判定して接続子Eを介して図10のサブステップ
SS55に進む。この判定が行われるまで、素片辞書16から
読み出す音声素片が(Mseg-1)回繰り返される。
【0106】サブステップSS50では、振幅が振幅決定部
14b での算出処理により決定される。この処理後、接続
子Dを介して図10のサブステップSS51に進む。
14b での算出処理により決定される。この処理後、接続
子Dを介して図10のサブステップSS51に進む。
【0107】サブステップSS51では、ビブラート処理に
伴って変化するピッチの算出処理がピッチ決定部14c で
行われる。ピッチの算出は、基本ピッチ- 最大ピッチ間
を線形補間することによって行われる。基本ピッチと最
大ピッチとを往復的に切り換えるための境界が必要にな
る。ここで、この境界は、値Mseg/2に設定する。そし
て、変数j が値Mseg/2よりも小さいとき、線形補間によ
り算出されるピッチPLは、式(4)
伴って変化するピッチの算出処理がピッチ決定部14c で
行われる。ピッチの算出は、基本ピッチ- 最大ピッチ間
を線形補間することによって行われる。基本ピッチと最
大ピッチとを往復的に切り換えるための境界が必要にな
る。ここで、この境界は、値Mseg/2に設定する。そし
て、変数j が値Mseg/2よりも小さいとき、線形補間によ
り算出されるピッチPLは、式(4)
【0108】
【数4】 PL=P1+2j(P2-P1)/Mseg ・・・・(4) に依存して得られる。また、変数j が値Mseg/2以上のと
き、線形補間により算出されるピッチPLは、式(5)
き、線形補間により算出されるピッチPLは、式(5)
【0109】
【数5】 PL=P2-(2j-Mseg)(P2-P1)/Mseg ・・・・(5) に依存して得られる。この場合分けに応じて得られたピ
ッチPLを用いる。この算出後、サブステップSS52に進
む。
ッチPLを用いる。この算出後、サブステップSS52に進
む。
【0110】サブステップSS52では、音声素片アドレス
の設定を音声素片決定部14e で行う。設定される音声素
片アドレスは、末端側の音声素片から順次読み出すよう
にするため先頭アドレスstr_adr に音声素片数Nsegを加
算し、変数j を減算しさらに-1して得られる。この音声
素片のアドレス設定後、サブステップSS53に進む。
の設定を音声素片決定部14e で行う。設定される音声素
片アドレスは、末端側の音声素片から順次読み出すよう
にするため先頭アドレスstr_adr に音声素片数Nsegを加
算し、変数j を減算しさらに-1して得られる。この音声
素片のアドレス設定後、サブステップSS53に進む。
【0111】サブステップSS53では、変数j, Fの値をそ
れぞれ+1だけ歩進させる。この後、サブステップSS54に
進む。
れぞれ+1だけ歩進させる。この後、サブステップSS54に
進む。
【0112】サブステップSS54では、これまでカウント
したフレーム数F が音声継続時間における全フレーム数
N より大きいか判定を行う。フレーム数F が全フレーム
数N以下のとき(No)、接続子Fを介して図9のサブス
テップSS49に戻る。また、フレーム数F が全フレーム数
N より大きいとき(Yes )、リターンに移行する。
したフレーム数F が音声継続時間における全フレーム数
N より大きいか判定を行う。フレーム数F が全フレーム
数N以下のとき(No)、接続子Fを介して図9のサブス
テップSS49に戻る。また、フレーム数F が全フレーム数
N より大きいとき(Yes )、リターンに移行する。
【0113】この処理により定常状態にある素片を用い
てピッチが基本ピッチP1から最大ピッチP2まで増加し、
さらに最大ピッチP2から基本ピッチP1まで減少するとと
もに、音声素片アドレスは選択される拡張フレームで用
いる音声素片アドレスの範囲内を末端側のアドレスから
順に読み出すように各パラメータが音声素片アドレスの
サンプリングに対応して生成されることになる。これら
一連の動作において、ビブラート制御部14A の制御でこ
のように処理することにより、ピッチの揺らぎと選択し
た音声素片との間には、定常状態で同期した関係が得ら
れる。
てピッチが基本ピッチP1から最大ピッチP2まで増加し、
さらに最大ピッチP2から基本ピッチP1まで減少するとと
もに、音声素片アドレスは選択される拡張フレームで用
いる音声素片アドレスの範囲内を末端側のアドレスから
順に読み出すように各パラメータが音声素片アドレスの
サンプリングに対応して生成されることになる。これら
一連の動作において、ビブラート制御部14A の制御でこ
のように処理することにより、ピッチの揺らぎと選択し
た音声素片との間には、定常状態で同期した関係が得ら
れる。
【0114】前述したようにサブステップSS49で変数j
が値Mseg以上と判定されたとき(No)接続子Eを介して
サブステップSS55に移行する。このサブステップSS55で
は、音声継続時間で規定されたフレーム数N とフレーム
の数をカウントする変数F の値とを比較する。変数F が
フレーム数N の値以下のとき(No)、図10の接続子G、
図9の接続子Hを経て図8のサブステップSS37に戻って
前述の処理を繰り返す。また、変数F がフレーム数N よ
り大きい値のとき(Yes )、音声継続時間が経過したと
判断してリターンに移行する。リターンを介して合成パ
ラメータ処理を終了させてステップS14 に進む。
が値Mseg以上と判定されたとき(No)接続子Eを介して
サブステップSS55に移行する。このサブステップSS55で
は、音声継続時間で規定されたフレーム数N とフレーム
の数をカウントする変数F の値とを比較する。変数F が
フレーム数N の値以下のとき(No)、図10の接続子G、
図9の接続子Hを経て図8のサブステップSS37に戻って
前述の処理を繰り返す。また、変数F がフレーム数N よ
り大きい値のとき(Yes )、音声継続時間が経過したと
判断してリターンに移行する。リターンを介して合成パ
ラメータ処理を終了させてステップS14 に進む。
【0115】図8〜図10のサブルーチンSUB2の動作に応
じて得られる関係は、図11に示すようになる。音声合成
装置10は、約6Hz のフレーム長内をピッチP2- ピッチP3
の範囲内で往復的に変化させ、かつ音声素片のアドレス
も往復的に拡張フレームを16回変化させることで拡張フ
レームの領域の音声にビブラートを発生させる。このよ
うに動作させることにより、ピッチの揺れと音声素片の
選択を同時に選択することで、この選択による出力音声
を同期させることができるので、たとえば歌唱に適用し
た際に一音一音に対応した音声継続時間に応じたビブラ
ート効果を得ることができる。これにより、歌唱を肉声
に近く視聴させることができる。音声合成によって歌唱
させる装置で大いに効果を発揮させることができる。た
とえば、この構成をたとえば、アミューズメント施設の
装置やゲーム機に搭載させると、出力語意に制限がなく
多様な入力データに対応でき、装置構成の大型化を抑え
るとともに、従来、合成音声を継続して出力させた際に
生じていた機械的な音声の出力を大幅に改善することが
できる。
じて得られる関係は、図11に示すようになる。音声合成
装置10は、約6Hz のフレーム長内をピッチP2- ピッチP3
の範囲内で往復的に変化させ、かつ音声素片のアドレス
も往復的に拡張フレームを16回変化させることで拡張フ
レームの領域の音声にビブラートを発生させる。このよ
うに動作させることにより、ピッチの揺れと音声素片の
選択を同時に選択することで、この選択による出力音声
を同期させることができるので、たとえば歌唱に適用し
た際に一音一音に対応した音声継続時間に応じたビブラ
ート効果を得ることができる。これにより、歌唱を肉声
に近く視聴させることができる。音声合成によって歌唱
させる装置で大いに効果を発揮させることができる。た
とえば、この構成をたとえば、アミューズメント施設の
装置やゲーム機に搭載させると、出力語意に制限がなく
多様な入力データに対応でき、装置構成の大型化を抑え
るとともに、従来、合成音声を継続して出力させた際に
生じていた機械的な音声の出力を大幅に改善することが
できる。
【0116】なお、前述の実施例でピッチの揺らぎは最
大ピッチと最小ピッチの間を線形補間して算出した値を
用いているが、両者の間を滑らかに遷移する補間であれ
ば上述の線形補間に限定されない。
大ピッチと最小ピッチの間を線形補間して算出した値を
用いているが、両者の間を滑らかに遷移する補間であれ
ば上述の線形補間に限定されない。
【0117】
【発明の効果】このように本発明の音声合成装置によれ
ば、合成パラメータ手段が音声継続時間に応じて素片辞
書から順次に読み出される音声素片の読出しを複数の音
声素片の範囲内および/または基本周波数を中心に所定
の範囲内を往復的に繰り返す制御を行って、テキストを
解析して得られた読みに対応する音声素片および/また
は周波数(すなわち、ピッチ)として割り当てて合成パ
ラメータを生成して音声合成することにより、割り当て
たパラメータに応じて変動した音声が音声継続時間中に
出力されるので、出力音声をより肉声に近い音にするこ
とができ、視聴者に違和感を感じさせない合成音声を出
力させることができる。これにより、適用範囲をより広
くすることができる。
ば、合成パラメータ手段が音声継続時間に応じて素片辞
書から順次に読み出される音声素片の読出しを複数の音
声素片の範囲内および/または基本周波数を中心に所定
の範囲内を往復的に繰り返す制御を行って、テキストを
解析して得られた読みに対応する音声素片および/また
は周波数(すなわち、ピッチ)として割り当てて合成パ
ラメータを生成して音声合成することにより、割り当て
たパラメータに応じて変動した音声が音声継続時間中に
出力されるので、出力音声をより肉声に近い音にするこ
とができ、視聴者に違和感を感じさせない合成音声を出
力させることができる。これにより、適用範囲をより広
くすることができる。
【0118】本発明の音声合成装置の制御方法は、合成
パラメータを生成する際に、得られたフレーム長を用い
て第1のデータが表す時間内に含まれるフレーム数を算
出し、得られたフレーム数分のカウントを行いながら、
このカウントに応じて合成パラメータの各パラメータを
生成するタイミング制御を行う。また、このタイミング
を基に第2のデータのアクセント指示情報から基本周波
数を決定し、かつ第3のデータの音韻記号列に対する音
声素片が素片辞書内において複数で表される際に、基本
周波数を所定の周波数範囲内で揺らす処理を行うかどう
かに応じてフレーム数にわたってそれぞれ設定されるフ
レームに対しこの複数の音声素片を往復的に一つずつ選
択する処理も行うか選択しながら、第1、第2および第
3のデータを用いて振幅を決定する。このようにしてそ
れぞれ得られたパラメータを多重化して合成パラメータ
を生成することにより、音韻継続時間内の各フレームで
用いられるパラメータを所定の範囲内で変動させて出力
音声に微妙な変化を持たせている。この結果、出力音声
をより肉声に近い音にすることができ、視聴者に違和感
を感じさせない合成音声を出力させることができる。こ
れにより、適用範囲をより広くすることができる。ま
た、装置の大型化も抑えることができる。
パラメータを生成する際に、得られたフレーム長を用い
て第1のデータが表す時間内に含まれるフレーム数を算
出し、得られたフレーム数分のカウントを行いながら、
このカウントに応じて合成パラメータの各パラメータを
生成するタイミング制御を行う。また、このタイミング
を基に第2のデータのアクセント指示情報から基本周波
数を決定し、かつ第3のデータの音韻記号列に対する音
声素片が素片辞書内において複数で表される際に、基本
周波数を所定の周波数範囲内で揺らす処理を行うかどう
かに応じてフレーム数にわたってそれぞれ設定されるフ
レームに対しこの複数の音声素片を往復的に一つずつ選
択する処理も行うか選択しながら、第1、第2および第
3のデータを用いて振幅を決定する。このようにしてそ
れぞれ得られたパラメータを多重化して合成パラメータ
を生成することにより、音韻継続時間内の各フレームで
用いられるパラメータを所定の範囲内で変動させて出力
音声に微妙な変化を持たせている。この結果、出力音声
をより肉声に近い音にすることができ、視聴者に違和感
を感じさせない合成音声を出力させることができる。こ
れにより、適用範囲をより広くすることができる。ま
た、装置の大型化も抑えることができる。
【0119】さらに、ピッチの揺れと音声素片の選択を
同時に選択することにより、この選択による出力音声を
同期させることができるので、たとえば歌唱に適用した
際に一音一音に対応した音声継続時間に応じたビブラー
ト効果を得ることができる。これにより、歌唱を肉声に
近く視聴させることができる。音声合成によって歌唱さ
せる装置で大いに効果を発揮させることができる。
同時に選択することにより、この選択による出力音声を
同期させることができるので、たとえば歌唱に適用した
際に一音一音に対応した音声継続時間に応じたビブラー
ト効果を得ることができる。これにより、歌唱を肉声に
近く視聴させることができる。音声合成によって歌唱さ
せる装置で大いに効果を発揮させることができる。
【図1】本発明に係る音声合成装置の概略的な構成のブ
ロック図である。
ロック図である。
【図2】図1に示した音声素片決定部の概略的な構成の
ブロック図である。
ブロック図である。
【図3】図1に示した合成パラメータ生成部での多重化
により生成される合成パラメータの各パラメータの配置
関係を説明する図である。
により生成される合成パラメータの各パラメータの配置
関係を説明する図である。
【図4】図1に示した音声合成装置の動作手順を説明す
るメインフローチャートである。
るメインフローチャートである。
【図5】図4に示した動作手順の中にあるサブルーチン
SUB1の動作手順を説明するフローチャートである。
SUB1の動作手順を説明するフローチャートである。
【図6】図1に示した音声合成装置の動作を具体的に説
明する模式図である。
明する模式図である。
【図7】図1の音声合成装置における変形例の概略的な
構成を示したブロック図である。
構成を示したブロック図である。
【図8】図7に示した音声合成装置のパラメータ合成の
手順を説明するサブルーチンSUB2のフローチャートであ
る。
手順を説明するサブルーチンSUB2のフローチャートであ
る。
【図9】図8のサブルーチンSUB2におけるパラメータ合
成手順の続きを説明するフローチャートである。
成手順の続きを説明するフローチャートである。
【図10】図9のサブルーチンSUB2におけるパラメータ
合成手順の続きを説明するフローチャートである。
合成手順の続きを説明するフローチャートである。
【図11】図9〜図10のサブルーチンSUB2に基づいてピ
ッチおよび音声素片アドレスの選択を同期させながら、
フレーム毎の各パラメータの選択について説明する模式
図である。
ッチおよび音声素片アドレスの選択を同期させながら、
フレーム毎の各パラメータの選択について説明する模式
図である。
10 音声合成装置 12 テキスト解析部 14 合成パラメータ生成部 16 素片辞書 18 波形生成部 20 音声生成部 22 スピーカ 14a フレーム長算出部 14b フレーム数算出部 14c ピッチ決定部 14d 振幅決定部 14e 音声素片決定部 14g 多重化部
Claims (9)
- 【請求項1】 文字や記号が含まれる情報をテキストと
して取り込み、該テキストを少なくとも単語の読みおよ
びアクセント情報が登録された単語辞書を用いて解析
し、この解析で得られたデータと音声の基本単位となる
音声素片の登録された素片辞書とを参照しながら、少な
くとも音声素片、音の長さである音韻継続時間、音の高
さを規定する基本周波数、および音の強さである振幅を
含んだ、合成パラメータを生成し、該生成した合成パラ
メータから生成された波形を重畳して音声に変換してユ
ーザにより指定された速度で出力する音声合成装置にお
いて、該装置は、 前記テキストを解析して得られた読みに対応する音声素
片が前記素片辞書内に登録されている複数の音声素片で
表される際に、前記音声継続時間に応じて前記素片辞書
から順次に読み出される音声素片の読出しを前記複数の
音声素片の範囲内および/または前記基本周波数を中心
に所定の範囲内を往復的に繰り返す制御を行いながら、
前記合成パラメータを生成する合成パラメータ生成手段
を含むことを特徴とする音声合成装置。 - 【請求項2】 請求項1に記載の装置において、前記合
成パラメータ生成手段は、前記音声素片の一つが継続し
て繰り返される回数で規定された時間をフレーム長と
し、該フレーム長が前記音声継続時間内に含まれる数を
算出するフレーム数算出手段を含み、 前記フレーム数算出手段は、少なくとも前記音声素片の
選択、前記音韻継続および前記基本周波数の生成を行わ
せる各手段に制御信号を算出した数の分だけ送出し、 前記音声素片を選択する手段は、前記制御信号により前
記素片辞書に対して前記複数の音声素片の範囲内の音声
素片を往復的に繰返し読み出すことを特徴とする音声合
成装置。 - 【請求項3】 請求項1に記載の装置において、前記合
成パラメータ生成手段は、一定時間以上の期間にわたっ
て同一音韻が連続するかを音韻継続時間および出力され
る音声の調歩を規定する発声速度に基づいて判定し、該
判定結果に応じて制御を行う判定制御手段を含み、 前記判定制御手段は、前記フレーム長を算出する手段、
前記フレーム数算出手段、ならびに少なくとも前記音声
素片の生成、前記フレーム長の設定および前記基本周波
数に応じたピッチの生成を行わせる各手段を制御し、 前記判定制御手段は、前記音声素片を生成する手段が前
記素片辞書に対して前記複数の音声素片の範囲内の音声
素片を往復的に繰り返し読み出す処理および前記ピッチ
生成する手段が基本となるピッチに対して所定の範囲内
で往復的に揺らすピッチ生成処理の制御を行うことを特
徴とする音声合成装置。 - 【請求項4】 文字や記号が含まれる情報をテキストと
して取り込み、該テキストを少なくとも単語の読みおよ
びアクセント情報が登録された単語辞書を用いて解析
し、この解析で得られたデータと音声の基本単位となる
音声素片の登録された素片辞書とを参照しながら、少な
くとも音声素片、音の長さである音韻継続時間、音の高
さを規定する基本周波数、および音の強さである振幅を
含んだ、合成パラメータを生成し、該生成した合成パラ
メータから生成された波形を重畳して音声に変換してユ
ーザにより指定された速度で出力する音声合成装置の制
御方法において、該方法は、 前記合成パラメータを生成する際に、前記指定された速
度の情報を基に前記音声素片の一つが継続して繰り返さ
れる回数で規定する時間で表されるフレーム長を算出す
るフレーム長算出工程と、 該フレーム長算出工程で得られたフレーム長を用いて前
記解析で得られた第1のデータである音韻継続時間の時
間内に含まれるフレーム数を算出するフレーム数算出工
程と、 該フレーム数算出工程で得られたフレーム数分のカウン
トを行いながら、該カウントに応じて前記合成パラメー
タの各パラメータを生成するタイミング制御を行うタイ
ミング制御工程と、 該タイミング制御工程で行われたタイミングを基に前記
解析で得られた第2のデータであるアクセント指示情報
から前記基本周波数を決定するとともに、該基本周波数
を中心に各フレームに対して所定の周波数範囲内を往復
的に変動させた周波数を選択する周波数選択工程と、 該タイミングで前記解析により得られた第3のデータで
ある音韻記号列が前記素片辞書内で複数の音声素片によ
り表される際に前記フレーム数にわたってそれぞれ設定
されるフレームに対し該複数の音声素片を往復的に一つ
ずつ選択する音声素片選択工程と、 前記解析で得られた第1、第2および第3のデータをそ
れぞれ用いて該タイミングで前記振幅を決定する振幅決
定工程と、 前記フレーム長算出工程、前記周波数選択工程、前記振
幅決定工程および前記音声素片選択工程でそれぞれ得ら
れたパラメータを多重化するパラメータ合成工程とを含
み、 前記音声素片選択工程は、前記周波数選択工程での往復
的な変動に応じて前記音声素片の選択を調整することを
特徴とする音声合成装置の制御方法。 - 【請求項5】 請求項4に記載の方法において、前記音
声素片選択工程は、前記音韻記号列に対応する前記素片
辞書内での音声素片の先頭アドレスを探索する先頭探索
工程と、 該先頭探索工程で得られた対応した音声素片が複数で表
されるか調べる素片数探索工程と、 該素片数探索工程で得られた音声素片の数の中で現在出
力する音声素片の選択を行うとともに、前記素片辞書内
で次に出力する音声素片の選択位置を設定する素片選択
工程とを含むことを特徴とする音声合成装置の制御方
法。 - 【請求項6】 請求項5に記載の方法において、前記素
片選択工程は、前記タイミングが供給された際に現在の
フレームおよび次のフレームに対応する各アドレス設定
を初期化するアドレス初期化工程と、 該アドレス初期化後、該設定されたアドレスの音声素片
を前記素片辞書から読み出す第1の音声素片読出し工程
と、 該アドレス初期化工程の後に設定されたアドレスに対し
て増加させるアドレス分を算出する増加アドレス算出工
程と、 前記現在のアドレスと前記増加させるアドレス分を加算
して次のアドレスを設定する次アドレス設定工程と、 該次アドレス設定工程により設定されたアドレスの音声
素片を前記素片辞書から読み出す第2の音声素片読出し
工程と、 該第2の音声素片読出し工程の後に、該音声素片読出し
回数が前記フレーム数に達したか判定する回数判定工程
とを含み、 前記回数判定工程での前記音声素片読出し回数が前記フ
レーム数を越えるまで前記回数判定工程以後の処理を前
記増加アドレス算出工程に戻すことを特徴とする音声合
成装置の制御方法。 - 【請求項7】 請求項4に記載の方法において、前記周
波数選択工程は、供給される一つの音韻記号列に対して
用いられる複数の音声素片よりもフレーム数が多いかを
判定するフレーム数判定工程と、 該フレーム数判定工程の結果に応じて選択する基本周波
数を中心に係数を乗算して周波数変調を施す周波数変調
工程とを含むことを特徴とする音声合成装置の制御方
法。 - 【請求項8】 請求項7に記載の方法において、前記周
波数変調工程は、選択した基本周波数に略々6Hz の周波
数変調を施すことを特徴とする音声合成装置の制御方
法。 - 【請求項9】 請求項7に記載の方法において、前記素
片選択工程は、供給される音韻記号列の発声に伴って最
初のフレームに割り当てられる前記素片辞書内の音声素
片を選択する第1の素片選択の場合と、 前記最初のフレーム以降の発声継続において、前記基本
周波数より高い側への最大周波数に線形補間しながら、
前記第1の素片で選択した音声素片を用いて前記基本周
波数と前記最大周波数の間を往復させて音声素片を選択
する第2の素片選択の場合と、 前記最初のフレーム以降の発声継続において、前記基本
周波数より低い側への最小周波数に線形補間しながら、
前記第1の素片で選択した音声素片を用いて前記基本周
波数と前記最小周波数の間を往復させて音声素片を選択
する第3の素片選択の場合とを含み、 前記第1の素片選択終了後、前記第2の素片選択と前記
第3の素片選択を前記音韻継続時間内で繰り返すことを
特徴とする音声合成装置の制御方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10164526A JPH11352997A (ja) | 1998-06-12 | 1998-06-12 | 音声合成装置およびその制御方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10164526A JPH11352997A (ja) | 1998-06-12 | 1998-06-12 | 音声合成装置およびその制御方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH11352997A true JPH11352997A (ja) | 1999-12-24 |
Family
ID=15794852
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10164526A Pending JPH11352997A (ja) | 1998-06-12 | 1998-06-12 | 音声合成装置およびその制御方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH11352997A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7389231B2 (en) | 2001-09-03 | 2008-06-17 | Yamaha Corporation | Voice synthesizing apparatus capable of adding vibrato effect to synthesized voice |
| JP2009014827A (ja) * | 2007-07-02 | 2009-01-22 | Sony Corp | 情報処理装置、信号処理方法およびプログラム |
| CN112802453A (zh) * | 2020-12-30 | 2021-05-14 | 深圳飞思通科技有限公司 | 快速自适应预测拟合语音方法、系统、终端及存储介质 |
-
1998
- 1998-06-12 JP JP10164526A patent/JPH11352997A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7389231B2 (en) | 2001-09-03 | 2008-06-17 | Yamaha Corporation | Voice synthesizing apparatus capable of adding vibrato effect to synthesized voice |
| JP2009014827A (ja) * | 2007-07-02 | 2009-01-22 | Sony Corp | 情報処理装置、信号処理方法およびプログラム |
| CN112802453A (zh) * | 2020-12-30 | 2021-05-14 | 深圳飞思通科技有限公司 | 快速自适应预测拟合语音方法、系统、终端及存储介质 |
| CN112802453B (zh) * | 2020-12-30 | 2024-04-26 | 深圳飞思通科技有限公司 | 快速自适应预测拟合语音方法、系统、终端及存储介质 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0831460B1 (en) | Speech synthesis method utilizing auxiliary information | |
| US6470316B1 (en) | Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing | |
| EP2838082B1 (en) | Voice analysis method and device, and medium storing voice analysis program | |
| KR940002854B1 (ko) | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 | |
| US20030009336A1 (en) | Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method | |
| JP2002023775A (ja) | 音声合成における表現力の改善 | |
| JP6561499B2 (ja) | 音声合成装置および音声合成方法 | |
| JP2761552B2 (ja) | 音声合成方法 | |
| JP5360489B2 (ja) | 音素符号変換装置および音声合成装置 | |
| JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
| JPH11352997A (ja) | 音声合成装置およびその制御方法 | |
| JPH08335096A (ja) | テキスト音声合成装置 | |
| JP3437064B2 (ja) | 音声合成装置 | |
| JP3233036B2 (ja) | 歌唱音合成装置 | |
| JPH0580791A (ja) | 音声規則合成装置および方法 | |
| JP3059751B2 (ja) | 残差駆動型音声合成装置 | |
| JPH0863187A (ja) | 音声合成装置 | |
| JPH11249676A (ja) | 音声合成装置 | |
| JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
| JPH1011083A (ja) | テキスト音声変換装置 | |
| JPH10301599A (ja) | 音声合成装置 | |
| JP3284634B2 (ja) | 規則音声合成装置 | |
| JP2006030610A (ja) | 音声合成用スクリプト生成装置、音声合成装置、音声合成用スクリプト生成プログラム及び音声合成プログラム | |
| JP2002297174A (ja) | テキスト音声合成装置 | |
| WO2023182291A1 (ja) | 音声合成装置、音声合成方法及びプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040630 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040921 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041112 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050201 |