JPH086592A

JPH086592A - 音声合成方法及び装置

Info

Publication number: JPH086592A
Application number: JP6134363A
Authority: JP
Inventors: Mitsuru Otsuka; 充大塚; Yasunori Ohora; 恭則大洞; Takashi Aso; 隆麻生; Toshiaki Fukada; 俊明深田; Takeshi Fujita; 武藤田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1994-06-16
Filing date: 1994-06-16
Publication date: 1996-01-12
Anticipated expiration: 2019-09-08
Also published as: DE69519820D1; US5682502A; EP0688010A1; JP3563772B2; EP0688010B1; DE69519820T2

Abstract

(57)【要約】【目的】合成音声の発声速度の変更に対してフレームの
数を一定に保つことを可能とし、高速時の音質の劣化を
防止すると共に、低速時における処理速度の低下とメモ
リの消費を抑える音声合成方法及び装置を提供する。【構成】（Ｄ’）は（Ｃ１）の拍同期点位置「？」から
（Ｃ２）の拍同期点位置「？」までの対応するパラメー
タ（フレーム）を（Ｂ１），（Ｂ３），（Ｂ２）から切
りだして連結したフレーム列を表す。各フレームは、隣
接するラベルの種類により設定される伸縮率（Ｅ’）に
基づいて得られる発声速度係数Ｋ_i を格納する。音声波
形を合成する際には（Ｄ’）の各フレームを発声速度係
数Ｋ_i で各フレームの時間長を伸縮し、（Ｇ’）で示さ
れるフレーム列を得て音声波形を生成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、規則合成方式による音
声合成方法及び装置に関するものである。

【０００２】

【従来の技術】従来の音声規則合成装置では、ＶｃＶパ
ラメータ（母音−子音−母音）やｃＶパラメータ（子音
−母音）を基本単位とした音声素片と、駆動音源信号と
を一定の規則に基づいて結合することによってディジタ
ル音声信号を生成し、更にこのディジタル音声信号をＤ
−Ａ変換することによってアナログ音声波形を得てい
る。そして、アナログ音声波形をアナログ低域フィルタ
に通すことにより、標本化によって発生する不要な高域
雑音成分を除去して正しいアナログ音声波形を出力する
ようにしている。

【０００３】上述の音声合成装置においては、その発声
速度を変化させる手段として、一般的に図４に示す方法
を採用している。

【０００４】図４において、（Ａ１）はＶｃＶパラメー
タを切り出す前の音声波形で「あさ」と発声したものの
一部、（Ａ２）は同じく「あけ」と発声したものの一部
である。又、（Ｂ１）は（Ａ１）の音声波形情報のＶｃ
Ｖパラメータを表し、同じく（Ｂ２）は（Ａ２）の音声
波形情報のＶｃＶパラメータを表す。（Ｂ３）は拍同期
点の間隔と母音の種類などにより設定される長さを有す
るパラメータであり連結前後のパラメータを補間するも
のである。拍同期点は各ＶＣＶパラメータのラベル情報
に含まれる。（Ｂ１）〜（Ｂ３）における各矩形部はフ
レームを表し、各フレームは音声波形を生成するための
パラメータを有し、それぞれのフレームの時間的な長さ
は固定である。

【０００５】（Ｃ１）は（Ａ１），（Ｂ１）に対応した
ラベル情報でパラメータの音響的な境界の位置を指して
いる。（Ｃ２）も同様に（Ａ２），（Ｂ２）に対応した
ラベル情報である。ここで図中のラベル「？」は拍同期
点位置に対応している。合成音声の発声速度はこの拍同
期点間の時間間隔により決定される。

【０００６】（Ｄ）は（Ｃ１）の拍同期点位置から（Ｃ
２）の拍同期点位置までの対応するパラメータ情報（フ
レーム）を（Ｂ１），（Ｂ３），（Ｂ２）から切りだし
て連結した状態を表す。又、（Ｅ）は（Ｄ）に対応した
ラベル情報である。（Ｆ）は隣接するラベル間に設定さ
れた伸縮率であり、（Ｄ）のパラメータを合成音声の拍
同期点間隔に合わせて引き延ばしたり、押し縮めたりす
る際の相対的な度合いである。（Ｇ）は合成音声の拍同
期点間隔に応じて伸縮した後のパラメータ列、即ちフレ
ーム列を表す。又、（Ｈ）は（Ｇ）に対応したラベル情
報である。

【０００７】以上の如く、拍同期点間隔を伸縮すること
により発声速度が変化する。この拍同期点間隔の伸縮
は、各フレームの時間的な長さが一定であるため、
（Ｇ）に示す如く拍同期点間のフレームの数を増減する
ことで達成される。例えば、図３の（Ｇ）に示す如く拍
同期点間隔を引き延ばした場合（発声速度を遅くした場
合）はフレーム数を増やす。各フレームのパラメータは
必要なフレームの数に応じて演算により生成される。

【０００８】

【発明が解決しようとする課題】上述した従来技術にお
いては、合成音背の発声速度に応じてフレームの数を変
化させるため、次のような問題点がある。例えば（Ｄ）
のパラメータ列を（Ｇ）に伸縮する場合のうち、（Ｇ）
のパラメータ列の長さが（Ｄ）よりも短くなる場合は、
フレーム数が少なくなってパラメータの補間が粗くなり
異音が出たり音質が悪くなる場合がある。

【０００９】また、発声速度が非常に遅くなった場合
は、（Ｇ）のパラメータ列の長さが非常に長くなり、フ
レーム数が多くなってしまう。このため、パラメータを
算出するための計算時間がかかる上にメモリの消費量も
増大する。更に、（Ｇ）のパラメータ列を生成した後は
そのパラメータ列の発声速度を変更することはできな
い。このため、利用者が指示した発声速度変更に対して
時間的な遅れを生じ、利用者に違和感を感じさせるとい
う問題がある。

【００１０】

【課題を解決するための手段】本発明は上記の問題点に
鑑みてなされたものであり、合成音声の発声速度の変更
に対してフレームの数を一定に保つことを可能とし、高
速時の音質の劣化を防止すると共に、低速時における処
理速度の低下とメモリの消費を抑える音声合成方法及び
装置を提供することを目的とする。

【００１１】また、本発明の他の目的は、発生音声の変
更をフレーム単位で行うことを可能とし、１モーラ期間
の間においても発生速度の変化に対応することが可能な
音声合成方法及び装置を提供することにある。

【００１２】また、本発明の他の目的は、所定の期間
（例えば１モーラ期間）において発生音声のアクセント
の強弱が線形に変化するようにピッチスケールが設定さ
れる音声合成方法及び装置を提供することにある。

【００１３】また、本発明の他の目的は、所定の期間
（例えば１モーラ期間）において発生音声の音程の高低
が線形に変化するようにピッチスケールが設定される音
声合成方法及び装置を提供することにある。

【００１４】上記の目的を達成するための本発明による
音声合成装置は例えば以下の構成を備える。即ち、音声
波形のパラメータを有する１つ又は複数のフレームで構
成される音声素片を一定の規則に基づいて順次結合して
合成音声を出力する音声合成装置であって、合成音声の
発声速度の変化に応じて各フレームを伸縮するための相
対的な伸縮の度合いを伸縮度として各フレームに対応さ
せて格納する格納手段と、合成音声の発声速度及び前記
伸縮度に基づいて各フレームの時間長を決定して音声波
形を生成する生成手段と、を備えることを特徴とする。

【００１５】又、上記の目的を達成するための本発明に
よる音声合成方法は例えば以下の工程を備える。即ち、
音声波形のパラメータを有する１つ又は複数のフレーム
で構成される音声素片を一定の規則に基づいて順次結合
して合成音声を出力する音声合成方法であって、合成音
声の発声速度の変化に応じて各フレームを伸縮するため
の相対的な伸縮の度合いを伸縮度として各フレームに対
応させて格納する格納工程と、合成音声の発声速度及び
前記伸縮度に基づいて各フレームの時間長を決定して音
声波形を生成する生成工程と、を備える。

【００１６】

【作用】上記の構成により、音声波形のパラメータを格
納する各フレームについて、合成音声の発声速度の変化
に応じた各フレームの伸縮の度合いである伸縮度が格納
される。合成音声を生成する際には、その発声速度と伸
縮度とに基づいて各フレームの時間長が決定され、音声
波形が生成される。

【００１７】

【実施例】以下に添付の図面を参照しながら、本発明の
好適な実施例について詳細に説明する。

【００１８】＜実施例１＞図１６は、本実施例１の音声
合成装置の機能構成を示すブロック図である。１は文字
系列入力部であり、合成すべき音声の文字系列を入力す
る。例えば合成すべき音声が「音声」であるときには、
「ＯｎＳＥＩ」というような文字系列を入力する。ま
た、この文字系列中には、発声速度や声の高さなどを設
定するための制御シーケンス等が含まれることもある。
２は制御データ格納部であり、文字系列入力部１で制御
シーケンスと判断された情報や、ユーザインターフェー
スより入力される発声速度や声の高さなどの制御データ
を内部レジスタに格納する。３はＶｃＶ系列生成部であ
り、文字系列入力部１より入力された文字系列をＶｃＶ
系列へ変換する。例えば、「ＯｎＳＥＩ」という文字系
列は、「ＱＯ，Ｏｎ，ｎＳＥ，ＥＩ，ＩＱ」というＶｃ
Ｖ系列へ変換される。

【００１９】４はＶｃＶ格納部であり、ＶｃＶ系列生成
部３で生成されたＶｃＶを内部レジスタに格納する。５
は音韻時間長係数設定部であり、ＶｃＶ格納部４に格納
されたＶｃＶの種類より、合成音声の拍同期点間隔を標
準の拍同期点間隔よりどれくらい広げるかを表す値を格
納する。６はアクセント情報設定部であり、ＶｃＶ格納
部４に格納されたＶｃＶのアクセント情報を設定する。
７はＶｃＶパラメータ格納部であり、ＶｃＶ系列生成部
３で生成されたＶｃＶ系列に対応するＶｃＶパラメー
タ、或いは語頭のデータであるＶ（母音）パラメータや
ｃＶパラメータを格納している。８はラベル情報格納部
であり、ＶｃＶパラメータ格納部７に格納されているＶ
ｃＶパラメータのそれぞれについて、母音開始点、有声
区間、無声区間などの音響的な境界を区別するためのラ
ベルや拍同期点を示すラベルを、その位置情報と共に格
納している。９はパラメータ生成部であり、ＶｃＶ系列
生成部３で生成されたＶｃＶ系列に対応するパラメータ
系列を生成する。尚、パラメータ生成部の処理手順につ
いては後述する。

【００２０】１０はパラメータ格納部であり、パラメー
タ生成部９で生成されたパラメータ系列からパラメータ
を１フレームずつ取り出して内部レジスタに格納する。
１１は拍同期点間隔設定部であり、制御データ格納部２
に格納された発声速度に関する制御データより、合成音
声の標準拍同期点間隔を設定する。１２は母音定常部長
設定部であり、母音の種類等よりＶｃＶパラメータの接
続に関する母音定常部の時間長を設定する。１３はフレ
ーム時間長設定部であり、パラメータの発声速度係数、
拍同期点間隔設定部１１で設定された拍同期点間隔、母
音定常部長設定部１２で設定された母音定常部長から各
フレームの時間長を計算する。１４は駆動音源信号生成
部である。駆動音源信号生成部１４の処理手順について
は後述する。

【００２１】１５は合成パラメータ補間部であり、パラ
メータ格納部に格納されているパラメータを、フレーム
時間長設定部１３で設定されたフレーム時間長で補間す
る。１６は音声合成部であり、合成パラメータ補間部１
５で補間されたパラメータと、駆動音源信号生成部１４
で生成された駆動音源信号から合成音声を生成する。

【００２２】図１７は、音声素片としてＶｃＶパラメー
タを用いた音声合成の例を示す図である。尚、図４と同
じ内容については同一の参照番号を付し、ここではその
説明を省略する。

【００２３】図１７において、（Ｂ１）及び（Ｂ２）の
ＶｃＶパラメータは、それぞれＶｃＶパラメータ格納部
７に格納されている。（Ｂ３）のパラメータは、母音定
常部のパラメータであり、ＶｃＶパラメータ格納部７と
ラベル情報格納部８に格納された情報によりパラメータ
生成部９で生成される。又、各パラメータのラベル情報
である（Ｃ１）及び（Ｃ２）は、ラベル情報格納部８に
格納されている。（Ｄ’）は（Ｃ１）の拍同期点位置か
ら（Ｃ２）の拍同期点位置までの対応するパラメータを
（Ｂ１），（Ｂ３），（Ｂ２）より切り出して連結した
フレーム列である。

【００２４】更に、（Ｄ’）の各フレームには発声速度
係数Ｋ_iを格納する部分が付加されている。（Ｅ’）は
（Ｄ’）に対応したラベル情報である。（Ｆ’）は、隣
接するラベルの種類により設定される伸縮率である。
（Ｇ’）は、合成パラメータ補間部１５において、フレ
ーム時間長設定部１３で設定された時間長で（Ｄ’）の
各フレームを補間した結果であり、（Ｇ’）のパラメー
タに従って音声合成部１６は合成音声を生成する。

【００２５】更に、図１８を参照しながら、ＶｃＶパラ
メータの伸縮について詳しく説明する。ｉ番目のラベル
の伸縮率をｅ_iとすると、ラベル時間長Ｔ_i及びＴ’_iは (T₁-T'₁)/T₁ : (T₂-T'₂)/T₂ : … (T_i-T'_i)/T_i … ＝ e₁ : e₂ : … e_i : … （１）の関係を満たす。ここで、時間長の単位をサンプル数と
する。

【００２６】伸縮率と伸縮前のラベル時間長との積和
（伸縮フレーム積和）を σ ＝ Σｅ_i Ｔ_i とし、伸縮後時間長と伸縮前時間長との差（時間長差
分）を δ ＝Ｔ’−Ｔ＝−Σ（Ｔ_i−Ｔ’_i）とし、発声速度係数をＫ_i ＝ｅ_i／σ として式（１）を変形すると、 T₁-T'₁ : T₂-T'₂ : … : T_i-T'_i : … ＝ e₁T₁ : e₂T₂ : … : e_iT_i : … （１）（Ｔ’_i−Ｔ_i）／δ ＝ｅ_iＴ_i／σ Ｔ’_i／Ｔ_i ＝（ｅ_i／σ）・δ＋１Ｔ’_i／Ｔ_i ＝Ｋ_i・δ＋１となる。１フレームの標準時間長をＮサンプル（１２ｋ
Ｈｚサンプリングで１２０サンプル）とすると、ｉ番目
のラベルの合成パラメータを１フレーム当たりｎ _i 個の
サンプルで補間する。ここでｎ_i は、ｎ_i＝（Ｔ’_i／Ｔ_i）・Ｎ＝（Ｋ_i・δ＋１）・Ｎ …（２）で表される。発声速度に応じて決まる値はＴ’のみであ
るから、発声速度係数Ｋ _i を各フレームのパラメータと
して与えることにより、式（２）を用いてフレーム単位
で発声速度を変更することが可能となる。

【００２７】以上の動作を、図１９のフローチャートを
参照して説明する。

【００２８】ステップＳ１０１で、文字系列入力部１よ
り表音テキストが入力される。ステップＳ１０２で、外
部入力された制御データ（発声速度、声の高さ）と、入
力された表音テキスト中の制御データが制御データ格納
部２に格納される。ステップＳ１０３で、文字系列入力
部１より入力された表音テキストからＶｃＶ系列生成部
１０３においてＶｃＶ系列が生成される。

【００２９】ステップＳ１０４で、モーラ前後のＶｃＶ
がＶｃＶ格納部４に取り込まれる。ステップＳ１０５
で、音韻時間長係数設定部５において、前後のＶｃＶの
種類に応じて音韻時間長係数が設定される。

【００３０】図２０は、パラメータ１フレームのデータ
構造を示す図である。又、図２１は、図１９のステップ
Ｓ１０７に相当し、パラメータ生成部９で行われるパラ
メータ生成手段を示すフローチャートである。母音定常
フラグvowelflag は、パラメータが母音定常部であるか
否かを示すフラグである。この変数は、図２１のステッ
プＳ７５及びステップＳ７６で設定される。母音の種類
を表すvoweltype は、母音定常部長を計算するときに使
用する。この変数は、ステップＳ７３で設定される。音
声、無音声情報uvflagは、音韻が有声であるか無声であ
るかの情報を示す。この変数は、ステップＳ７７で設定
される。

【００３１】ステップＳ１０６で、アクセント情報設定
部６において、アクセント情報が設定される。アクセン
トモーラaccMora は、アクセント開始から終了までのモ
ーラ数を表す。アクセントレベルaccLevelは、アクセン
トの強さをピッチスケール単位で表したものである。こ
れらの変数に、表音テキストに記述されたアクセント情
報を格納する。

【００３２】ステップＳ１０７で、パラメータ生成部９
において、音韻時間長係数設定部５において設定された
音韻時間長係数と、アクセント情報設定部６において設
定されたアクセント情報と、ＶｃＶパラメータ格納部７
から取り出されたＶｃＶパラメータと、ラベル情報格納
部８から取り出されたラベル情報とを用いて、１モーラ
分のパラメータ系列が生成される。

【００３３】ステップＳ７１で、１モーラ（前ＶｃＶの
拍同期点から後ＶｃＶの拍同期点まで）のＶｃＶパラメ
ータとラベル情報がＶｃＶパラメータ格納部７とラベル
情報格納部８から取り出される。

【００３４】ステップＳ７２で、図２２に示すように、
取り出されたＶｃＶパラメータが非母音定常部と母音定
常部とに分けれられる。そして、非母音定常部の伸縮前
時間長Ｔ_p 、伸縮フレーム積和σ_p 、母音定常部の伸縮
前時間長Ｔ_v 、伸縮フレーム積和σ_v が計算される。

【００３５】次に、パラメータ１フレーム毎の処理に移
る。ステップＳ７３で、音韻時間長係数がαに格納さ
れ、母音の種類がvoweltype に格納される。

【００３６】ステップＳ７４で、パラメータが母音定常
部であるかが判別される。母音定常部のときは、ステッ
プＳ７５で、母音定常フラグが立てられ、母音定常部の
伸縮前時間長と発声速度係数が設定される。非母音定常
部の時は、ステップＳ７６で、母音定常部フラグがオフ
となり、非母音定常部の伸縮前時間長と発声速度係数が
設定される。

【００３７】ステップＳ７７で、有声・無声情報と、合
成パラメータが格納される。ステップＳ７８で、１モー
ラの処理が終了したときは、ステップＳ１０８に進む。
一方、１モーラの処理が終了していないときは、ステッ
プＳ７３に戻り、上述の処理が繰り返される。

【００３８】ステップＳ１０８で、パラメータ生成部９
から１フレームのパラメータがパラメータ格納部１０に
取り込まれる。ステップＳ１０９で、制御データ格納部
２より、発声速度が拍同期点間隔設定部１１に、声の高
さが駆動音源信号生成部１４に取り込まれる。ステップ
Ｓ１１０で、拍同期点間隔設定部１１において、パラメ
ータ格納部１０に取り込まれたパラメータの音韻時間長
係数と、制御データ格納部２より取り込まれた発声速度
を用いて、拍同期点間隔が設定される。制御データの発
声速度をｍ（モーラ／秒）とすると、標準拍同期点間隔
はＴs＝１００Ｎ／ｍ（サンプル数／モーラ）となる。
ここで、１フレームの標準時間長をＮ（１２ｋＨｚサン
プリングで１２０ポイント）とする。拍同期点間隔は、
標準拍同期点間隔に音韻時間長係数αをかけてＴ’＝α×Ｔs となる。

【００３９】ステップＳ１１１で、母音定常部長設定部
１２において、パラメータ格納部１０に取り込まれたパ
ラメータの母音の種類と、拍同期点間隔設定部１１で設
定された拍同期点間隔を用いて、母音定常部長が設定さ
れる。例えば、母音定常部長vlenは、母音の種類vowelt
ype と拍同期点間隔Ｔ’より、図２３のように決定され
る。

【００４０】ステップＳ１１２で、フレーム時間長設定
部１３において、拍同期点間隔設定部１１で設定された
拍同期点間隔と、母音定常部長設定部１２で設定された
母音定常部長を用いて、フレーム時間長が設定される。
伸縮後時間長と伸縮前時間長との差δを、母音定常部フ
ラグvowelflag がＯＦＦ（非母音定常部）のとき、 δ＝Ｔ’−vlen −plen 母音定常部フラグvowelflag がＯＮ（母音定常部）のと
き、 δ＝vlen−plen とする。第ｋフレームの時間長（サンプル数）ｎkが、
式（２）を用いて計算される。

【００４１】ステップＳ１１３で、駆動音源信号生成部
１４において、制御データ格納部２より取り込まれた声
の高さと、パラメータ格納部１０に取り込まれたパラメ
ータのアクセント情報と、フレーム時間長設定部１３で
設定されたフレーム時間長を用いて、ピッチスケールが
生成され、駆動音源信号が生成される。図２４は、ピッ
チスケールの生成についての概念図である。１モーラの
間に変化するアクセントの強さＰ_mと１モーラのサンプ
ル数Ｎ_mは、Ｐ_m＝accLevel／accMora Ｎ_m＝Ｔ’ によって求められる。発声速度が変化しなかったとき、
１モーラでピッチスケールが線形に変化するようにピッ
チスケールの生成が行われる。第ｋフレームの時間長を
ｎ_k サンプルとすると、ｋによってｎ_k の値は異なる
が、それとは関係なく、１サンプル当たりＰ_m／Ｎ_mずつ
ピッチスケールが変化するようにする。

【００４２】これを原則として、発声速度が途中で変化
したときにも、フレーム単位で対応できるような処理を
次に述べる。図２５は、ピッチスケールの生成について
の説明図である。拍同期点から第ｋフレームまでの間に
変化したアクセントの強さをＰ_g 、処理されたサンプル
数をｎ_g とすると、残り（Ｎ_m −Ｎ_g ）サンプルで（Ｐ
_m −Ｐ_g ）ピッチスケールで変化すればよい。したがっ
て、１サンプル当たりのピッチスケール変化量は、 Δ_p ＝（Ｐ_m −Ｐ_g ）／（Ｎ_m −Ｎ_g ）によって求められる。ピッチスケールの初期値をＰ₀ 、
ピッチスケールＰとＰ₀の差分をＰ_d とすると、第ｋフ
レームのピッチスケールの初期値は、Ｐ＝Ｐ₀ ＋Ｐ_d となる。次に、サンプル毎にピッチスケールが更新され
る。

【００４３】Ｐ＝Ｐ＋Δ_p Ｐ_g ＝Ｐ_g ＋Δ_p の処理が、第ｋフレームの時間長ｎ_k 回行われる。最後
に、Ｎ_g 、Ｐ_d がＮ_g ＝Ｎ_g ＋ｎ_k Ｐ_d ＝Ｐ−Ｐ₀ のように更新される。

【００４４】そして、パラメータの有声・無声情報が有
声のときは、上述した方法で求めたピッチスケールに対
応する駆動音源信号が生成される。

【００４５】ステップＳ１１４で、合成パラメータ補間
部１５において、パラメータ格納部１０に取り込まれた
パラメータの要素の合成パラメータと、フレーム時間長
設定部１３で設定されたフレーム時間長を用いて、合成
パラメータの補間が行われる。図２６は合成パラメータ
の補間についての説明図である。第ｋフレームの合成パ
ラメータをｃ_k [i] （０≦ｉ≦Ｍ）、第ｋ−１フレーム
のパラメータをｃ_k-1[i] （０≦ｉ≦Ｍ）、第ｋフレー
ムの時間長をｎ_k サンプルとする。このとき、１サンプ
ル当たりの合成パラメータの差分Δ_k [i] （０≦ｉ≦
Ｍ）は、 Δ_k [i] ＝（ｃ_k[i]−ｃ_k-1[i]）／ｎ_k となる。次に、サンプル毎に合成パラメータＣ[i] （０
≦ｉ≦Ｍ）が更新される。Ｃ[i] の初期値は、ｃ_k-1[i]
で、Ｃ[i] ＝Ｃ[i]＋Δ_k [i] の処理が第ｋフレームの時間長ｎ_k 回行われる。

【００４６】ステップＳ１１５で、音声合成部１６にお
いて、駆動音源信号生成部１４で生成された駆動音源信
号と、合成パラメータ補間部１５で補間された合成パラ
メータを用いて、音声合成が行われる。音声合成は、式
（３）と式（４）によって得られたピッチスケールＰと
合成パラメータＣ[i] （０≦ｉ≦Ｍ）を各サンプル毎に
合成フィルタに入力することによって行われる。

【００４７】ステップＳ１１６で、１フレームの処理が
終了したか否かが判別され、終了した場合はステップＳ
１１７に進み、終了していない場合はステップＳ１１３
に戻り、処理が続けられる。

【００４８】ステップＳ１１７で、モーラの処理が終了
したか否かが判別され、終了した場合は、ステップＳ１
１９に進み、終了していない場合は、ステップＳ１１８
で外部入力された制御データを制御データ格納部２に格
納した後ステップＳ１０８に戻り処理が続けられる。

【００４９】ステップＳ１１９で、入力が終了しか否か
が判別され、終了していない場合はステップＳ１０４に
戻り処理が続けられる。

【００５０】上述した実施例１において、モーラ単位で
ピッチスケールが線形に変化する例を述べたが、ラベル
単位でピッチスケールを生成することもできる。また、
ピッチスケールを線形に変化させるのではなく、フィル
タの応答で生成することもできる。この場合は、アクセ
ント情報としてフィルタの係数やステップ幅などのデー
タを用いる。

【００５１】また、母音定常部長の設定に用いた図２３
は１つの例であり、これ以外の設定も可能である。

【００５２】以上説明したように実施例１によれば、合
成音声の発声速度の変更に対してフレームの数を一定に
保つことが可能となり、高速時の音質の劣化を防止する
と共に、低速時における処理速度の低下とメモリの消費
を抑えることが可能となる。又、発声速度の変更をフレ
ーム単位で行うことが可能である。

【００５３】＜実施例２＞本実施例２は、実施例１にお
いてアクセント情報設定部６により発声時のアクセント
の制御を行ったのに替えて、声の高さを制御するピッチ
スケールを用いた発生を行うものである。本実施例２で
は、実施例１と比して異なる部分について特に説明し、
実施例１と同様の部分は説明を省略する。

【００５４】図２７は実施例２の音声合成装置の機能構
成を示すブロック図である。このブロック図において、
参照番号４、５、７、８、９、１７について説明する。

【００５５】４はＶｃＶ格納部であり、ＶｃＶ系列生成
部３で生成されたＶｃＶを内部レジスタに格納する。５
は音韻時間長係数設定部であり、ＶｃＶ格納部４に格納
されたＶｃＶの種類より、合成音声の拍同期点間隔を標
準の拍同期点間隔よりどれくらい広げるかを表す値を格
納する。７はＶｃＶパラメータ格納部であり、ＶｃＶ系
列生成部３で生成されたＶｃＶ系列に対応するＶｃＶパ
ラメータ、或いは語頭のデータであるＶ（母音）パラメ
ータやｃＶパラメータを格納している。８はラベル情報
格納部であり、ＶｃＶパラメータ格納部７に格納されて
いるＶｃＶパラメータのそれぞれについて、母音開始
点、有声区間、無声区間などの音響的な境界を区別する
ためのラベルや拍同期点を示すラベルを、その位置情報
と共に格納している。９はパラメータ生成部であり、Ｖ
ｃＶ系列生成部３で生成されたＶｃＶ系列に対応するパ
ラメータ系列を生成する。パラメータ生成部の処理手順
については後述する。１７はピッチスケール生成部であ
り、パラメータ生成部８で生成されたパラメータ系列の
ピッチスケールを生成する。

【００５６】次に、図２８のフローチャートを用いて、
図１９のフローチャートの処理とは異なる部分のパラメ
ータの生成、ピッチスケールの生成、駆動音源信号の生
成について説明する。他のステップは、実施例１におい
て説明したものと同様であり、同じステップ番号を付
す。

【００５７】ステップＳ１２０で、パラメータ生成部９
において、音韻時間長係数設定部５において設定された
音韻時間長係数と、ＶｃＶパラメータ格納部７から取り
出されたＶｃＶパラメータと、ラベル情報格納部８から
取り出されたラベル情報を用いて、１モーラ分のパラメ
ータ系列が生成される。

【００５８】ステップＳ１２１で、ピッチスケール生成
部１７において、ラベル情報格納部８から取り出された
ラベル情報を用いて、パラメータ生成部９で生成された
パラメータ系列に対してピッチスケールが生成される。
ここで生成されるピッチスケールは、声の高さの基準値
に対応するピッチスケールＶからの差分を与える。生成
されたピッチスケールは図２９のピッチスケールpitch
に格納される。

【００５９】ステップＳ１２２で、駆動音源信号生成部
１４において、制御データ格納部２より取り込まれた声
の高さと、パラメータ格納部１０に取り込まれたパラメ
ータのピッチスケールと、フレーム時間長設定部１３で
設定されたフレーム時間長を用いて、駆動音源信号が生
成される。

【００６０】図３０は、ピッチスケールの補間について
の説明図である。拍同期点から第ｋ−１フレームのピッ
チスケールをＰ_k-1 、拍同期点から第ｋフレームのピッ
チスケールをＰk とする。Ｐ_k-1 とＰ_k は、いずれも声
の高さの基準値に対応するピッチスケールＶからの差分
を与える。更に、拍同期点から第ｋ−１フレームの声の
高さに対応するピッチスケールをＶ_k-1 、拍同期点から
第ｋフレームの声の高さに対応するピッチスケールをＶ
_k とする。このとき、１サンプルあたりのピッチスケー
ルの変化量ΔＰ_k は、 ΔＰ_k ＝（（Ｖ_k＋Ｐ_k）−（Ｖ_k-1＋Ｐ_k-1））／ｎ_k となる。次に、サンプル毎にピッチスケールＰが更新さ
れる。Ｐの初期値は、Ｖ _k-1＋Ｐ_k-1で、Ｐ＝Ｐ＋ΔＰ_k の処理が第ｋフレームの時間長ｎ_k 回行われる。

【００６１】そして、パラメータの有声・無声情報が有
声のときは、上述した方法で補間したピッチスケールに
対応する駆動音源信号が生成される。一方、パラメータ
の有声・無声情報が無声のときは、無声音に対応する駆
動音源信号が生成される。

【００６２】＜実施例３＞次に実施例３について説明す
る。

【００６３】図１は実施例３の音声合成装置の機能構成
を表すブロック図である。同図において、１０１は文字
系列入力部であり、合成すべき音声の文字系列を入力す
る。例えば合成すべき音声が「音声」であるときには、
「ＯｎＳＥＩ」というような文字系列を入力する。１０
２はＶｃＶ系列生成部であり、文字系列入力部１０１よ
り入力された文字系列をＶｃＶ系列へ変換する、例え
ば、「ＯｎＳＥＩ」という文字系列は、「ＱＯ，Ｏｎ，
ｎＳＥ，ＥＩ，ＩＱ」というＶｃＶ系列へ変換される。

【００６４】１０３はＶｃＶパラメータ格納部であり、
ＶｃＶ系列生成部１０２で生成されたＶｃＶ系列に対応
するＶｃＶパラメータ、あるいは語頭のデータであるＶ
（母音）パラメータやｃＶパラメータを格納している。
１０４はＶｃＶラベル格納部であり、ＶｃＶパラメータ
格納部１０３に格納されているＶｃＶパラメータのそれ
ぞれについて母音開始位置，有声区間，無声区間等の音
響的な境界を区別するラベルや拍同期点を示すラベルを
その位置情報とともに格納している。

【００６５】１０５は拍同期点間隔設定部であり、合成
音声の標準拍同期点間隔を設定する。１０６は母音定常
部長さ設定部であり、拍同期点間隔設定部１０５で設定
される標準拍同期点間隔と母音の種類等よりＶｃＶパラ
メータの接続に関与する母音の定常部の長さを設定す
る。１０７は発声速度係数設定部であり、ＶｃＶラベル
格納部１０４に格納されているラベルの種類に応じて決
定される伸縮率を用いて、各フレームの発声速度係数を
設定する。例えば、発声速度によって長さが変化し易い
母音部や摩擦音等には大きな値の発声速度係数が与えら
れ、長さが変化しにくい破裂音には小さな値の発声速度
係数が与えられる。

【００６６】１０８はパラメータ生成部であり、ＶｃＶ
系列生成部１０２で生成されたＶｃＶ系列に対応する標
準拍同期点間隔に合致したＶｃＶパラメータ列を生成す
る。ここでは、ＶｃＶパラメータ格納部１０３から読み
出されたＶｃＶパラメータを、母音定常部長さ設定部１
０６及び拍同期点間隔設定部１０５の情報に基づいて接
続していく。尚、パラメータ生成部１０８の処理手順に
ついては後述する。

【００６７】１０９は伸縮時間長格納部であり、文字系
列入力部１０１で入力した文字系列の中から伸縮時間長
制御に関するシーケンスコードを抜き取り、これを解釈
して、合成音声の拍同期点間隔を標準拍同期点間隔より
どれくらい広げるかを表す値を格納する。

【００６８】１１０はフレーム長決定部であり、パラメ
ータ生成部１０８から得られるパラメータの発声速度係
数、伸縮時間長格納部１０９に格納された伸縮時間長か
ら、各フレームの長さを計算する。１１１は音声合成部
であり、パラメータ生成部１０８で得られるＶｃＶパラ
メータ、フレーム長決定部１１０で得られるフレーム長
に基づいて順次音声波形を生成し合成音声を出力する。

【００６９】次に上述の音声合成装置の動作手順につい
て図２及び図３を参照して説明する。

【００７０】図２は音声素片として、ＶｃＶパラメータ
を用いた音声合成の例である。尚、図１と同じ内容につ
いては同一の参照記号を付し、ここではその説明を省略
することとする。

【００７１】図２において、（Ｂ１）及び（Ｂ３）のＶ
ｃＶパラメータは、それぞれＶｃＶパラメータ格納部１
０３に格納されている。（Ｂ３）のパラメータは、標準
拍同期点の間隔と結合に関与する母音の種類などにより
補間されるパラメータであり、、同期点間隔設定部１０
５と母音定常部長さ設定部１０６に格納された情報によ
りパラメータ生成部１０８で生成される。又、各パラメ
ータのラベル情報である（Ｃ１）および（Ｃ２）はＶｃ
Ｖラベル格納部１０４に格納されている。

【００７２】（Ｄ’）は（Ｃ１）の拍同期点位置から
（Ｃ２）の拍同期点位置までの対応するパラメータ（フ
レーム）を（Ｂ１），（Ｂ３），（Ｂ２）から切りだし
て連結したフレーム列である。更に、（Ｄ’）の各フレ
ームには発声速度係数Ｋ_i を格納する部分がつけ加えら
れている。（Ｅ’）は隣接するラベルの種類により設定
される伸縮率である。（Ｆ’）は（Ｄ’）に対応したラ
ベル情報である。（Ｇ’）は（Ｄ’）の各フレームを音
声合成部１１１において伸縮した結果であり、（Ｇ’）
のパラメータとフレーム長に従って音声合成部１１１は
音声波形を生成する。

【００７３】以上の動作を図３のフローチャートを参照
して更に詳しく説明する。

【００７４】ステップＳ１１において、文字列入力部１
０１より音声合成すべき文字列が入力される。ステップ
Ｓ１２において、ＶｃＶ系列生成部１０２は入力された
文字列をＶｃＶ系列へ変換する。ステップＳ１０３で
は、ＶｃＶパラメータ格納部１０３より音声合成すべき
ＶｃＶ系列のＶｃＶパラメータ（図２の（Ｂ１）及び
（Ｂ２））を獲得する。次にステップＳ１４で、ＶｃＶ
パラメータに対して音響の境界や拍同期点を表すラベル
をＶｃＶラベル格納部１０４より抽出して付与する（図
２の（Ｃ１），（Ｃ２））。そして、ステップＳ１５に
おいて、拍同期点間隔設定部１０５及び母音定常部長さ
設定部１０６の情報により、ＶｃＶパラメータを連結す
るためのパラメータを生成し（図２の（Ｂ３））、これ
を用いてパラメータの連結を行う。次に、発声速度係数
設定部１０７により各フレーム毎に発声速度係数を付与
する。

【００７５】発声速度係数の付与方法について図２の
（Ｄ’），（Ｅ’），（Ｆ’）を参照して更に説明す
る。

【００７６】ここで、各ラベル間（図２の（Ｆ’））の
伸縮率をＥ_i （０≦ｉ≦ｎ）、各ラベル間の伸縮前の時
間間隔（即ち標準拍同期点間隔における各ラベル間の時
間間隔）をＳ_i （０≦ｉ≦ｎ）、各ラベル間の伸縮後の
時間間隔をＤ_i （０≦ｉ≦ｎ）とする。

【００７７】このとき、Ｄ₀ −Ｓ₀ ：… ：Ｄ_i −Ｓ_i ：… ：Ｄ_n −Ｓ_n ＝Ｅ₀ Ｓ₀ ：… ：Ｅ_i Ｓ_i ：… ：Ｅ_n Ｓ_n が成り立つように伸縮率Ｅ_i を定義する（図２の
（Ｅ’））。尚、この伸縮率Ｅ _i は発声速度係数設定部
１０７に格納されている。この伸縮率Ｅ_i を用いて各フ
レームの発声速度係数Ｋ_i を求めると、Ｋ_i ＝Ｅ_i ／（Ｅ₀ Ｓ₀ ＋…＋Ｅ_i Ｓ_i ＋…＋Ｅ_n Ｓ
_n ）となる。発声速度係数設定部１０７により、この発声速
度係数Ｋ_i が各フレーム毎に付与される（図２の
（Ｄ’））。

【００７８】以上の如くステップＳ１６で各フレームの
発声速度係数が設定されるとステップＳ１７へ進み、フ
レーム長決定部１１０により各フレームのフレーム長
（各フレームの時間間隔）が求められる。伸縮前の各フ
レームの時間長をＴ₀ 、伸縮時間長格納部１０９で格納
される伸縮後の全体の増加時間長をＴ_p とすると、伸縮
後の各フレームの時間長Ｔ_i は、Ｔ_i ＝（Ｋ_i Ｔ_p ＋１）Ｔ₀ として求めることができる。

【００７９】そして、ステップＳ１８において、フレー
ム長決定部１１０は各フレーム毎にフレーム長を計算
し、音声合成部１１１はそのフレーム長になるようにフ
レーム内の補間処理を行い、音声合成を行う。

【００８０】以上説明したように、本実施例によれば、
発声速度の変化に対してフレーム数を一定に保つことが
可能となる。このため、発声速度を速くした場合でも音
質が劣化せず、また、発声速度を遅くした場合でも、メ
モリを消費することがないという効果がある。更に、音
声合成部１１１において、フレーム毎にフレーム長を算
出するので、発声速度の変更に対してリアルタイムに応
答できる。

【００８１】尚、上記の実施例３では伸縮前の各フレー
ム長が等しいが、図３の（Ｄ）のパラメータの各フレー
ム長が異なる場合にも本発明を適用することができる。
この場合、各フレームに標準拍同期点間隔における時間
間隔Ｔ_i0を持たせ、Ｔ_i ＝（Ｋ_i Ｔ_p ＋１）Ｔ_i0 の式によって、フレーム長決定部１１０が各フレームの
フレーム長を算出する。そして、音声合成部１１１はそ
のフレーム長になるようにフレーム内の補間処理を行
い、合成音声を生成する。このように、標準拍同期点間
隔におけるフレーム長が可変長の場合にも容易に拡張す
ることができる。

【００８２】このようにフレーム長を可変長とすること
により、例えば破裂音などのパラメータを細かく準備で
きるので明瞭度向上に寄与する。

【００８３】＜実施例４＞実施例４では、標本化周波数
の所定倍で動作するＤ／Ａ変換器を用いて合成音声の発
声速度を変化させる。

【００８４】図５は実施例４における音声規則合成装置
の機能構成を示すブロック図である。本例においては、
合成音声を通常速度と２倍の速度の２種類の速度で出力
する場合を説明するが、この変倍率は、他の変倍率でも
構わない。

【００８５】同図において、１５１は文字系列入力部で
あり、合成すべき音声の文字表記を入力する。１５２は
韻律情報格納部であり、文音声の話調や単語のストレ
ス、ポーズ等の韻律的特徴を格納しておく。１５３はピ
ッチパタン生成部であり、文字系列入力部１５１より入
力された文字系列に対応する韻律情報を韻律情報格納部
１５２より取り出し、ピッチパタンを生成する。１５４
は音声素片パラメータ格納部であり、ＶｃＶまたはｃＶ
といった単位のスペクトルパラメータ（メルケプストラ
ム，ＰＡＣＯＲ，ＬＰＣ，ＬＳＰ等）を格納しておく。
１５５は音声パラメータ生成部であり、文字系列入力部
１５１より入力された文字系列に対応する音声素片パラ
メータを音声素片パラメータ格納部１５４から取り出
し、これらを接続することにより音声パラメータを生成
する。

【００８６】１５６は駆動音源であり、有声区間にたい
してはインパルス列のような音源信号、無声区間に対し
ては白色雑音のような音源信号をそれぞれ生成する。１
５７は音声合成部であり、ピッチパターン生成部１５３
で得られるピッチパタン、音声パラメータ生成部１５５
で得られる音声パラメータ及び駆動音源１５６で得られ
る音源信号とを一定の規則に基づいて順次結合し、ディ
ジタル音声信号を生成する。

【００８７】１５８は音声出力速度切換スイッチであ
り、音声合成部１５７で生成された合成音声を通常の速
度で出力するか、通常の２倍の速度で出力するかを切り
替える。１５９はディジタルフィルタであり、音声合成
部１５７で生成されたディジタル音声信号の標本化周波
数を２倍に変換する。１６０はＤ−Ａ変換器であり、音
声合成部１５７で生成されたディジタル音声信号の標本
化周波数の２倍の周波数で作動する。

【００８８】以上の構成により、通常速度で合成音声を
出力する場合は、ディジタルフィルタ１５９により音声
合成部１５７で生成されたディジタル音声信号の標本化
周波数を２倍に変換し、これを標本化周波数の２倍の動
作速度を有するＤ−Ａ変換器１６０によりアナログ変換
することにより通常の速度のアナログ音声信号を得る。
一方、２倍速の合成音声を出力する場合は、音声合成部
１０７で生成されたディジタル音声信号が、標本化周波
数の２倍の周波数で作動するＤ−Ａ変換器１６０にその
まま入力されるため、Ａ−Ｄ変換器１６０により２倍速
のアナログ音声信号に変換される。

【００８９】１６１はアナログ低域フィルタであり、Ｄ
−Ａ変換器１６０で生成されたアナログ音声信号のうち
音声合成部１５７で生成されたディジタル音声信号の標
本化周波数以上の周波数成分を遮断する。１６２はスピ
ーカであり、通常速度または２倍速の合成音声信号を出
力する。

【００９０】以下に図６乃至図１５を参照して上述の構
成を備える実施例４の音声合成装置の動作を説明する。

【００９１】図１５は実施例４の音声合成装置の動作手
順を表すフローチャートである。まず、ステップＳ２１
において文字系列入力部１５１より音声合成すべき文字
系列が入力される。次にステップＳ２２において、入力
された文字系列よりディジタル音声信号が生成される。
このディジタル音声信号の生成過程を図６及び図７を用
いて説明する。

【００９２】図６は音声合成部１５７の動作を説明する
図である。２０１はピッチパタン生成部１５３より生成
されるピッチパタンであり、出力音声に対する経過時間
と周波数の関係を表している。２０２は音声パラメータ
生成部１５５より生成される音声パラメータであり、出
力音声に対応する音声素片パラメータを順に接続したも
のである。２０３は駆動音源１５６より生成される音源
信号であり、音声区間にたいしてはインパルス列（２０
３ａ）、無声区間にたいしては白色雑音（２０３ｂ）で
ある。２０４はディジタル信号処理部であり、例えば、
ＰＡＲＣＯＲ方式により、ピッチパターン、音声パラメ
ータ及び音源信号を一定の規則に基づき結合し、ディジ
タル音声信号を生成する。２０５はディジタル信号処理
部２０４より出力されるディジタル音声信号であり、時
間Ｔ毎の振幅情報値である。この信号の標本化周波数を
ｆ＝１／Ｔとする。２０６は２０５の周波数スペクトル
であり、標本化によって発生する周波数ｆ／２以上の不
要な高域雑音成分が含まれている。

【００９３】次に、ステップＳ２３において、音声出力
速度切替スイッチ１５８の状態により、出力速度を通常
速度とするか２倍速とするかを判断し、通常速度とする
場合はステップＳ２４へ、２倍速とする場合はステップ
Ｓ２５へ進む。

【００９４】ステップＳ２４ではディジタルフィルタ１
５９によりディジタル音声信号の標本化周波数を２倍に
変倍する。このディジタルフィルタ１５９における処理
を図７及び図８を用いて説明する。

【００９５】図７において、３０１はディジタルフィル
タ１５９の周波数スペクトルであり、周波数ｆ／２をカ
ットオフとする急峻な特性を持っている。

【００９６】図８において、ディジタル音声信号２０５
は音声合成部１５７で生成され出力された信号である。
３０４はディジタルフィルタ１５９より出力されるディ
ジタル音声信号であり、周期Ｔで入力されたディジタル
音声信号２０５に０（ゼロ）を内挿して２倍の周波数に
変換されている。３０５は、ディジタル音声信号３０４
の周波数スペクトルであり、周波数（２ｎ＋１）ｆ、
（ｎ＝０，１，２…）を中心とした周波数成分が消滅し
ているが、周波数２ｎｆ、（ｎ＝１，２…）を中心とし
た不要な高域雑音成分が含まれている。

【００９７】ステップＳ２５において、Ｄ−Ａ変換器１
６０によりディジタル音声信号をアナログ音声信号に変
換する。このＤ−Ａ変換器１６０による処理を図９乃至
図１１を用いて説明する。

【００９８】図９はＤ−Ａ変換器出力の周波数スペクト
ルを表す図である。このＤ−Ａ変換器は音声合成部１０
７で生成されるディジタル音声信号の標本化周波数ｆの
２倍の周波数２ｆで作動するものであり、周波数２ｆを
中心として高域雑音成分が含まれている。

【００９９】図１０において、ディジタルフィルタ１５
９を介して得られたディジタル音声信号３０４は、２倍
の標本化周波数を有し、３０５に示されるような周波数
スペクトルを有する。ディジタル信号３０４を周波数ス
ペクトル４０１を持つＤ−Ａ変換器１６０に通すことに
より、アナログ音声信号４０４が生成される。アナログ
音声信号４０４は通常速度で発声される。４０５はアナ
ログ音声信号４０４の周波数スペクトルである。

【０１００】又、図１１において、音声合成部１５７で
生成された標本化周波数ｆの音声ディジタル信号２０５
は周波数スペクトル４０１を持つＤ−Ａ変換器１６０に
通すことにより、アナログ音声信号４０８が生成され
る。アナログ音声信号４０８はディジタル音声信号２０
５に比べて信号の継続時間が１／２に圧縮されている。
４０９はアナログ音声信号４０８の周波数スペクトルで
あり、周波数スペクトル２０６に比べて周波数帯域が２
倍になり、周波数ｆ以上の周波数２ｎｆ、（ｎ＝１，２
…）を中心とした不要な高域雑音成分が含まれてる。

【０１０１】ステップＳ２６では、アナログ低域フィル
タ１６１によりＤ−Ａ変換器１６０により生成されたア
ナログ音声信号の高周波成分を除去する。このアナログ
低域フィルタ１６１の動作を図１２乃至図１４を用いて
説明する。

【０１０２】図１２及び図１４はアナログ低域フィルタ
１６１を説明する図である。

【０１０３】図１２において、５０１はアナログ低域フ
ィルタ１６１の周波数スペクトルであり、周波数ｆ以上
の周波数成分を減衰させる。

【０１０４】図１３において、合成音を通常速度で出力
する場合のアナログ音声信号４０４は、アナログフィル
タ１６１を通過することにより、アナログ信号５０４と
して出力される。５０５はアナログ信号５０４の周波数
スペクトルで、周波数ｆ／２以上の不要な高域雑音成分
が除去され、正しいアナログ信号となっている。

【０１０５】図１４において、合成音を２倍速で出力す
るためのアナログ信号４０８をアナログフィルタ１６１
に通すことにより、アナログ信号５０８が得られる。５
０９はアナログ信号５０８の周波数スペクトルであり、
周波数ｆ以上の不要な高域雑音成分が除去され、２倍速
で出力する場合の正しいアナログ信号となっている。

【０１０６】ステップＳ２７では、アナログ低域フィル
タ１６１を通過して得られたアナログ信号を音声信号と
して出力する。

【０１０７】以上説明したように本実施例によれば、合
成音を２倍速で出力することができるので、例えばカセ
ットテープレコーダなどに録音する際の録音時間を２分
の１に短縮することが可能であり、作業時間が短縮され
る。

【０１０８】一般に音声規則合成装置は、小型計量では
なく、パーソナルコンピュータやワークステーション等
のホストコンピュータで音声合成処理を行い、付属のス
ピーカから合成音声を出力したり、または電話回線を通
して手元の端末機から合成音声を出力したりしているの
が現状である。このため、音声規則合成装置を携帯し、
それから読み上げられる音声を聞きながら作業を行うと
いうようなことはできず、音声規則合成装置から出力さ
れる合成音声を、一旦カセットテープレコーダ等に録音
し、それを携帯し、再生される音声を聞きながら作業を
行うという方法が一般的に用いられており、その録音の
ために多くの時間を費やさなければならないという問題
がある。従って本実施例によればその録音時間を著しく
短縮することが可能となる。

【０１０９】尚、本発明は、複数の機器から構成される
システムに適用しても１つの機器から成る装置に適用し
ても良い。また、本発明は、システム或は装置にプログ
ラムを供給することによって達成される場合にも適用で
きることはいうまでもない。

【０１１０】

【発明の効果】以上説明したように本発明の音声合成方
法及び装置によれば、合成音声の発声速度の変更に対し
てフレームの数を一定に保つことが可能となり、高速時
の音質の劣化を防止すると共に、低速時における処理速
度の低下とメモリの消費を抑えることが可能である。

【０１１１】また、発生速度の変更をフレーム単位で行
うことが可能である。

【０１１２】

【図面の簡単な説明】

【図１】実施例３の音声合成装置の機能構成を表すブロ
ック図である。

【図２】実施例３におけるＶｃＶパラメータを用いた音
声合成の手順を説明する図である。

【図３】実施例３の音声合成装置の動作手順を表すフロ
ーチャートである。

【図４】ＶｃＶパラメータを用いた音声合成の一般的な
手順を説明する図である。

【図５】実施例４における音声規則合成装置の機能構成
を示すブロック図である。

【図６】音声合成部の動作を説明する図である。

【図７】ディジタルフィルタの周波数特性を表す図であ
る。

【図８】ディジタルフィルタの動作を説明する図であ
る。

【図９】Ｄ−Ａ変換器出力の周波数特性を表す図であ
る。

【図１０】Ｄ−Ａ変換器の動作を説明する図である。

【図１１】Ｄ−Ａ変換器の動作を説明する図である。

【図１２】アナログ低域フィルタの周波数特性を表す図
でる。

【図１３】アナログ低域フィルタの動作を説明する図で
ある。

【図１４】アナログ低域フィルタの動作を説明する図で
ある。

【図１５】実施例４の音声合成装置の動作手順を表すフ
ローチャートである。

【図１６】実施例１に係る音声合成装置の機能構成を示
すブロック図である。

【図１７】実施例１におけるＶｃＶパラメータによる音
声合成の手順を表す図である。

【図１８】実施例１におけるＶｃＶパラメータの伸縮を
説明する図である。

【図１９】実施例１における音声合成の手順を表すフロ
ーチャートである。

【図２０】実施例１のパラメータ１フレームのデータ構
造を表す図である。

【図２１】実施例１のパラメータ生成手順を表すフロー
チャートである。

【図２２】実施例１におけるパラメータの生成を説明す
る図である。

【図２３】実施例１における母音定常部長の設定の１例
を表す図である。

【図２４】実施例１におけるピッチスケールの生成を表
す概念図である。

【図２５】実施例１におけるピッチスケールの生成方法
を説明する図である。

【図２６】実施例１における合成パラメータの補間を説
明する図である。

【図２７】実施例２に係る音声合成装置の機能構成を示
すブロック図である。

【図２８】実施例２における音声合成の手順をあらわす
フローチャートである。

【図２９】実施例２のパラメータ１フレームのデータ構
造を表す図である。

【図３０】実施例２におけるピッチスケールの補間の説
明図である。

【符号の説明】

１０１文字系列入力部１０２ＶｃＶ系列入力部１０３ＶｃＶパラメータ格納部１０４ＶｃＶラベル格納部１０５拍同期点間隔設定部１０６母音定常部長さ設定部１０７発声速度係数設定部１０８パラメータ生成部１０９伸縮時間長格納部１１０フレーム長決定部１１１音声合成部

───────────────────────────────────────────────────── フロントページの続き (72)発明者深田俊明東京都大田区下丸子３丁目30番２号キヤノン株式会社内 (72)発明者藤田武東京都大田区下丸子３丁目30番２号キヤノン株式会社内

Claims

【特許請求の範囲】

【請求項１】音声波形のパラメータを有する１つ又は
複数のフレームで構成される音声素片を一定の規則に基
づいて順次結合して合成音声を出力する音声合成装置で
あって、合成音声の発声速度の変化に応じて各フレームを伸縮す
るための伸縮の度合いを伸縮度として各フレームに対応
させて格納する格納手段と、合成音声の発声速度及び前記伸縮度に基づいて各フレー
ムの時間長を決定して音声波形を生成する生成手段と、を備えることを特徴とする音声合成装置。
【請求項２】合成音声の発声速度を各音声素片の拍同
期点間の時間間隔により設定する設定手段を更に備える
ことを特徴とする請求項１に記載の音声合成装置。
【請求項３】前記設定手段は、拍同期点間を母音定常
部と非母音定常部とに分け、各フレームが母音定常部に
属するか非母音定常部に属するかにより合成音声の発声
速度を設定することを特徴とする請求項２に記載の音声
合成装置。
【請求項４】前記設定手段における母音定常部の時間
長を、伸縮後の拍同期点間の時間間隔に基づいて決定す
る母音時間長設定手段を更に備えることを特徴とする請
求項３に記載の音声合成装置。
【請求項５】前記格納手段は、音響的に変化する変化
点間の時間間隔を合成音声の発声速度に応じて伸縮する
ための度合いを伸縮度として、これを各フレームと対応
させて格納することを特徴とする請求項１に記載の音声
合成装置。
【請求項６】所定の時間間隔においてアクセントの強
さが線形に変化するようにピッチスケールの生成を行う
生成手段を更に備え、前記合成手段は、合成音声の発生速度及び前記伸縮度に
基づいて決定される各フレームの時間長と、前記生成手
段により生成されたピッチスケールとに基づいて音声波
形を生成することを特徴とする請求項２に記載の音声合
成装置。
【請求項７】前記生成手段における所定の時間間隔
は、拍同期点間の間隔であることを特徴とする請求項６
に記載の音声合成装置。
【請求項８】所定の時間間隔において発生音声の高さ
が線形に変化するようにピッチスケールの生成をおこな
う生成手段を更に備え、前記合成手段は、合成音声の発生速度及び前記伸縮度に
基づいて決定される書くフレーム時間長と、前記生成手
段により生成されたピッチスケールとに基づいて音声波
形を生成することを特徴とする請求項２に記載の音声合
成装置。
【請求項９】前記生成手段における所定の時間間隔
は、拍同期点間の間隔であることを特徴とする請求項２
に記載の音声合成装置。
【請求項１０】前記各フレームは複数の所定間隔のサ
ンプリングデータで構成され、前記生成手段は、前記拍同期点間の時間間隔に基づいて
各サンプリング毎に所定の割合で変化するピッチスケー
ルを生成し、前記合成手段は、前記ピッチスケールに基づいて各サン
プリング毎の音声波形を生成することを特徴とする請求
項２に記載の音声合成装置。
【請求項１１】発声速度に応じて伸縮される前の各フ
レームがそれぞれ固有の時間長を有することを特徴とす
る請求項１に記載の音声合成装置。
【請求項１２】パラメータ化された音声素片と音源信
号とを一定の規則に基づいて順次結合してデジタル音声
信号を合成する合成手段と、合成されたデジタル音声信号の標本化周波数を変倍する
変倍手段と、前記変倍手段により変倍された標本化周波数でディジタ
ル信号をアナログ信号へ変換する変換手段と、通常の発声速度で合成音声を出力する場合は前記変倍手
段で処理されたデジタル音声信号を前記変換手段により
アナログ信号に変換し、発声速度を変倍して合成音声を
出力する場合は前記合成手段により合成されたデジタル
信号を前記変換手段によりアナログ信号に変換して合成
音声信号を出力する出力手段と、を備えることを特徴とする音声合成装置。
【請求項１３】音声波形のパラメータを有する１つ又
は複数のフレームで構成される音声素片を一定の規則に
基づいて順次結合して合成音声を出力する音声合成方法
であって、合成音声の発声速度の変化に応じて各フレームを伸縮す
るための伸縮の度合いを伸縮度として各フレームに対応
させて格納する格納工程と、合成音声の発声速度及び前記伸縮度に基づいて各フレー
ムの時間長を決定して音声波形を生成する生成工程と、を備えることを特徴とする音声合成方法。
【請求項１４】合成音声の発声速度を各音声素片の拍
同期点間の時間間隔により設定する設定工程を更に備え
ることを特徴とする請求項１３に記載の音声合成方法。
【請求項１５】前記設定工程は、拍同期点間を母音定
常部と非母音定常部とに分け、各フレームが母音定常部
に属するか非母音定常部に属するかにより合成音声の発
声速度を設定することを特徴とする請求項１４に記載の
音声合成方法。
【請求項１６】前記設定工程における母音定常部の時
間長を、伸縮後の拍同期点間の時間間隔に基づいて決定
する母音時間長設定工程を更に備えることを特徴とする
請求項１５に記載の音声合成方法。
【請求項１７】前記格納工程は、音響的に変化する変
化点間の時間間隔を合成音声の発声速度に応じて伸縮す
るための度合いを伸縮度として、これを各フレームと対
応させて格納することを特徴とする請求項１３に記載の
音声合成方法。
【請求項１８】発声速度に応じて伸縮される前の各フ
レームがそれぞれ固有の時間長を有することを特徴とす
る請求項１３に記載の音声合成方法。
【請求項１９】所定の時間間隔においてアクセントの
強さが線形に変化するようにピッチスケールの生成を行
う生成工程を更に備え、前記合成工程は、合成音声の発生速度及び前記伸縮度に
基づいて決定される各フレームの時間長と、前記生成工
程により生成されたピッチスケールとに基づいて音声波
形を生成することを特徴とする請求項１４に記載の音声
合成方法。
【請求項２０】前記生成工程における所定の時間間隔
が拍同期点間隔であることを特徴とする請求項１９に記
載の音声合成方法。
【請求項２１】所定の時間間隔において発生音声の高
さが線形に変化するようにピッチスケールの生成を行う
生成工程を更に備え、前記合成工程は、合成音声の発生速度及び前記伸縮度に
基づいて決定される各フレームの時間長と、前記生成工
程により生成されたピッチスケールとに基づいて音声波
形を生成することを特徴とする請求項１４に記載の音声
合成方法。
【請求項２２】前記生成工程における所定の時間間隔
が拍同期点間隔であることを特徴とする請求項２１に記
載の音声合成方法。
【請求項２３】前記各フレームは複数の所定間隔のサ
ンプリングデータで構成され、前記生成工程は、前記拍同期点間の時間間隔に基づいて
各サンプリング毎に所定の割合で変化するピッチスケー
ルを生成し、前記合成工程は、前記ピッチスケールに基づいて各サン
プリング毎の音声波形を生成することを特徴とする請求
項１５に記載の音声合成方法。
【請求項２４】パラメータ化された音声素片と音源信
号とを一定の規則に基づいて順次結合してデジタル音声
信号を合成する合成工程と、合成されたデジタル音声信号の標本化周波数を変倍する
変倍工程と、前記変倍工程により変倍された標本化周波数でディジタ
ル信号をアナログ信号へ変換する変換工程と、通常の発声速度で合成音声を出力する場合は前記変倍工
程で処理されたデジタル音声信号を前記変換工程により
アナログ信号に変換し、発声速度を変倍して合成音声を
出力する場合は前記合成工程により合成されたデジタル
信号を前記変換工程によりアナログ信号に変換して合成
音声信号を出力する出力工程と、を備えることを特徴とする音声合成方法。