JPH0378800A - 音声規則合成方式 - Google Patents
音声規則合成方式Info
- Publication number
- JPH0378800A JPH0378800A JP21479989A JP21479989A JPH0378800A JP H0378800 A JPH0378800 A JP H0378800A JP 21479989 A JP21479989 A JP 21479989A JP 21479989 A JP21479989 A JP 21479989A JP H0378800 A JPH0378800 A JP H0378800A
- Authority
- JP
- Japan
- Prior art keywords
- emphasis
- sentence
- information
- synthesis method
- control means
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
[産業上の利用分野1
本発明は文章音声の規則合成方式に係わり、特に規則合
成音声の音質改善に関する。 [従来の技術] 公知例(特許公報又は文献名) 1、市川 烹、他;合成音声の自然性に関する実験的考
察、音響学会講演論文集 1−3−8(昭42) 2、申出 剛、他;合成音声の音源特性制御しこよる疑
問1強調の表現、電子通信学会大会 64(昭43) 3、特願昭57−190861 (単語規則合成に藤崎
モデルを使用) 4、特願昭60−74224 (段落ごとに発声の調子
を改め、更に自然な揺らぎを与える) 5、特願昭61−54716 (疑問文、命令文、願望
文等のイントネーションを藤崎モデルにより生成)6、
tl、 Fujisaki et、 al、、 ”A
nalysis ofνoicefundamenta
l frequency contours ford
eclarative 5entCnces of J
apanese、” 、1゜Acoust、 Soc、
Jpn、 (IE)5.4 (1984)。 7、佐藤利男;有声、無声破裂音の時間要素の差異につ
いて、日本音響学会誌第14巻第2号(1,958) 8、落合和雄;無声破裂音におけるピッチ周波数変化の
聴覚的検討、日本音響学会講演論文集2−3−12
(昭43.11) 9、特願昭62−4815 (藤崎モデルに更に音素制
御機構、文形指定制御機構、および強調制御機構を付加
したモデル) 10、廣瀬啓吉、藤崎博也、他2;基本周波数パターン
生成過程モデルに基づく文章音声の合成、電子情報通信
学会論文誌 A、 J72−A、 1゜5− 6 pp、32−40 (1989−1) 11、河井恒、廣瀬啓吉、藤崎博也;日本語音声の合成
における韻律的特徴の合成規則、電子情報通信学会技術
報告 音声、 SP8g−129(1989−1) 任意の文章あるいは単語のテキストより、これに対応す
る音声を合成する手法は「規則による音声合成」あるい
は単に「規則合成」と呼ばれている。規則合成の音声で
は、一般に、音韻のつながりや、持続時間、あるいはピ
ッチ(声の高さ)の変化などの特徴を外部から規則によ
り与えているため、自然の音声のものとは異なっている
。したがって、規則合成による音声は、これらの自然の
音声の特徴をそのまま保存しているいわゆる「分析合成
」による音声の音質より悪い。規則合成音声の音質劣化
要因として、■音韻の明瞭性の低下に起因するものや、
■文章の抑揚の不自然さに起因するものが挙げられる。 文章の抑揚を支配する規則、すなわち韻律規則について
は、すでに日本語の平叙文、疑問文、命令文、強調およ
び種々の表情を持つ文章のイントネーションを生成する
規則の公知例がある(上記公知例1.2)。しかしここ
で用いたモデルは、音節単位の点ピッチ情報を与えるに
過ぎないため、疑問文、命令文、願望文の差異を表現す
るには不十分である。そのためにこのようなピッチパタ
ンを与えて合成した音声の抑揚は不自然に聞こえる。 種々の文章のイントネーションの差異を十分に表現する
ためには、音節内の基本周波数(ピッチ周波数)と時間
との関係を明確にする必要がある。 このような音節内のピッチパタンを記述し、しかも時間
構造を明確に定義できるモデルとして、従来、臨界制動
2次線形系で記述される[ピッチ制御機構モデル」 (
公知例6)が用いられてきた。 ここでピッチ制御機構モデルとは、以下に述べるような
モデルである。 声の高さの情報を与える基本周波数は、次のような過程
で生成されると考えるのがピッチ制御機構モデルである
。声帯振動の周波数、すなわち基本周波数は、脳からの
■フレーズの切り替わりごとに発せられるインパルス指
令と、■アクセントの上げ下げごとに発せられるステッ
プ指令によって制御される。そのとき、生理機構の遅れ
特性により、■のインパルス指令は文頭から文末に向か
う緩やかな下降曲線(フレーズ成分)となり、■のステ
ップ指令は局所的な起伏の激しい曲線(アクセント成分
)となる。これらの二つの成分は、各指令の臨界制動2
次線形系の応答としてモデル化され、対数基本周波数の
時間変化パタンは、これら同成分の和として表現される
。第2図はピッチ制御機構モデルを示す。モデル基本周
波数F0(t)(tは時刻)は、次式のように定式化さ
れる。 ここで、Fm1nは最低周波数、■はフレーズ指令の数
、Aptは1番目のフレーズ指令の大きさ、Totは]
番目のフレーズ指令の時点1.■はアクセント指令の数
、ハ、は3番目のアクセント指令の大きさ、T□4、T
2aはそれぞれj番目のアクセント指令の開始時点と終
了時点である。また、Gpt(t)、G、IJ (t)
はそれぞれ、フレーズ制御機構のインパルス応答関数、
アクセント制御機構のステップ応答関数であり、次式で
与えられる。 Gpt(t)=αit exp(−αtt)u(t)
(2)GaJ(t)=Min[1−(
1+βjt) exp(−β1t)u(t)、 (j
Jl(3) ■ (1) ここで、α1は1番目のフレーズ指令に対するフレーズ
制御機構の固有角周波数、β、はj番目のアクセント指
令に対するアクセント制御機構の固有角周波数、u(t
)は単位ステップ関数である。また、0、はアクセント
成分の」二限値であり、例えば0.9などに選ばれる。 9 0 なおここで、基本周波数(ピッチ周波数)およびピッチ
制御パラメータ(Api+ Aaj、Tot+ T、J
IT2Jl α1.βJI FI+In)の値の単位
は次のように定義される。すなわち、F、 (t)およ
びFmtnの単位は[Hz]、Tot 、 Tl Jお
よびTzjの単位は[Sコ、α1およびβ1の単位は[
5k1Fとする。またAptおよびAaaの値は、基本
周波数およびピッチ制御パラメータの値の単位を上記の
ように定めたときの値を用いる。 解析の方法としては、最適化法が用いられている。すな
わち、上記ピッチ制御機構モデルにより生成したピッチ
パタンと原音声の分析・抽出による実測値との誤差が最
小となるようなピッチ制御パラメータを求めることによ
り、ピッチパタンの最良近似推定が行なわれる(公知例
6)。 上記ピッチ制御機構モデルを適用した公知例として、単
語音声合成に適用した例(公知例3)、疑問文、命令文
、願望文等の文章音声合成に適用した例(公知例5)等
があり、かなりの音質改善効果が認められている。 公知例9は、更に、音韻明瞭性の改善に効果的な音素レ
ベルの局所的な揺らぎ(公知例7.8)を表現する成分
を付加したものである。また、疑問文に現れる尻上がり
調や、命令文、願望文等、様々な感情や表情に固有な微
妙な基本周波数の変化を表現する成分(公知例5)も付
加されている。 公知例9では、これらの成分を生成するモデルを用いて
人間らしい自然な抑揚感を持った音声を合成する方法を
提供している。第3図(a)にこの修正型ピッチ制御機
構モデルを示す。 該修正型モデルの特徴は、従来の■フレーズ制御機構お
よび■アクセント制御機構のみから構成されるモデルに
、更に■音素制御機構、(4)文形指定制御機構、およ
び■強調制御機構の3つの制御機構を付加したことであ
る。これら■〜■の3つの制御機構の導入により、ピッ
チパタン上に様々な揺らぎ成分を付加することが出来る
。 すなわち、上記■音素制御機構は、音素ごとの局所的な
基本周波数の揺らぎの成分を生成する機構で、例えば有
声子音/d/、/m/、/n/、/r/、/讐/等の局
所的な基本周波数の低下や、無声破裂音/l/、/に/
等の後続母音への入り渡り部にしばしば見られる高基本
周波数からの下降特性を表現することが出来る。また(
4)文形指定制御機構は、疑問文の文末の基本周波数の
尻上がりを表現する成分を′生成する機構である。そし
て■強調機構は、命令文や願望文等、様々な感情や表情
を表現する成分を生成することを目的とした機構である
。 上記修正型ピッチ制御機構モデルを簡単に記述する式と
しては、例えば(i)〜(幡)式を用いれば良い。ここ
で(i)〜(v[Ii)式の各パラメータの単位は従来
のピッチ制御機構に準じて定められる。勿論具体的に実
現する式としては、上記(i)〜(viii )式のみ
に限定されない。また、文章音声の性質や制御方式の選
択により、(1)〜(vi)式の任意の制御機構の組み
合わせでピッチパタンを生成することが出来る。例えば
、強調を強調成分を用いて表現するならば、アクセント
指令と強調指令の関係は第3図(b)の(1)のように
重畳形になる。しかし、これらの指令により得られるピ
ッチパタンと同一のピッチパタンを同図(b)の(2)
のように、アクセント指令のみによっても得ることが出
来る。この様に一つのアクセント指令終了時点で、別の
指令値に階段状に変化することを「アクセント変形」と
呼んでいる。「アクセント成分に重畳された強調成分」
と「アクセント変形」とは、 Aa2=Aal+As T1□=T71 T2□=T、□ (4) (5) (6) の関係により相互に変換が可能である。 モデルパラメータの推定(解析)は、従来のピッチ制御
機構モデルの場合と同じく最適化法により実行すること
が出来る(公知例6)。
成音声の音質改善に関する。 [従来の技術] 公知例(特許公報又は文献名) 1、市川 烹、他;合成音声の自然性に関する実験的考
察、音響学会講演論文集 1−3−8(昭42) 2、申出 剛、他;合成音声の音源特性制御しこよる疑
問1強調の表現、電子通信学会大会 64(昭43) 3、特願昭57−190861 (単語規則合成に藤崎
モデルを使用) 4、特願昭60−74224 (段落ごとに発声の調子
を改め、更に自然な揺らぎを与える) 5、特願昭61−54716 (疑問文、命令文、願望
文等のイントネーションを藤崎モデルにより生成)6、
tl、 Fujisaki et、 al、、 ”A
nalysis ofνoicefundamenta
l frequency contours ford
eclarative 5entCnces of J
apanese、” 、1゜Acoust、 Soc、
Jpn、 (IE)5.4 (1984)。 7、佐藤利男;有声、無声破裂音の時間要素の差異につ
いて、日本音響学会誌第14巻第2号(1,958) 8、落合和雄;無声破裂音におけるピッチ周波数変化の
聴覚的検討、日本音響学会講演論文集2−3−12
(昭43.11) 9、特願昭62−4815 (藤崎モデルに更に音素制
御機構、文形指定制御機構、および強調制御機構を付加
したモデル) 10、廣瀬啓吉、藤崎博也、他2;基本周波数パターン
生成過程モデルに基づく文章音声の合成、電子情報通信
学会論文誌 A、 J72−A、 1゜5− 6 pp、32−40 (1989−1) 11、河井恒、廣瀬啓吉、藤崎博也;日本語音声の合成
における韻律的特徴の合成規則、電子情報通信学会技術
報告 音声、 SP8g−129(1989−1) 任意の文章あるいは単語のテキストより、これに対応す
る音声を合成する手法は「規則による音声合成」あるい
は単に「規則合成」と呼ばれている。規則合成の音声で
は、一般に、音韻のつながりや、持続時間、あるいはピ
ッチ(声の高さ)の変化などの特徴を外部から規則によ
り与えているため、自然の音声のものとは異なっている
。したがって、規則合成による音声は、これらの自然の
音声の特徴をそのまま保存しているいわゆる「分析合成
」による音声の音質より悪い。規則合成音声の音質劣化
要因として、■音韻の明瞭性の低下に起因するものや、
■文章の抑揚の不自然さに起因するものが挙げられる。 文章の抑揚を支配する規則、すなわち韻律規則について
は、すでに日本語の平叙文、疑問文、命令文、強調およ
び種々の表情を持つ文章のイントネーションを生成する
規則の公知例がある(上記公知例1.2)。しかしここ
で用いたモデルは、音節単位の点ピッチ情報を与えるに
過ぎないため、疑問文、命令文、願望文の差異を表現す
るには不十分である。そのためにこのようなピッチパタ
ンを与えて合成した音声の抑揚は不自然に聞こえる。 種々の文章のイントネーションの差異を十分に表現する
ためには、音節内の基本周波数(ピッチ周波数)と時間
との関係を明確にする必要がある。 このような音節内のピッチパタンを記述し、しかも時間
構造を明確に定義できるモデルとして、従来、臨界制動
2次線形系で記述される[ピッチ制御機構モデル」 (
公知例6)が用いられてきた。 ここでピッチ制御機構モデルとは、以下に述べるような
モデルである。 声の高さの情報を与える基本周波数は、次のような過程
で生成されると考えるのがピッチ制御機構モデルである
。声帯振動の周波数、すなわち基本周波数は、脳からの
■フレーズの切り替わりごとに発せられるインパルス指
令と、■アクセントの上げ下げごとに発せられるステッ
プ指令によって制御される。そのとき、生理機構の遅れ
特性により、■のインパルス指令は文頭から文末に向か
う緩やかな下降曲線(フレーズ成分)となり、■のステ
ップ指令は局所的な起伏の激しい曲線(アクセント成分
)となる。これらの二つの成分は、各指令の臨界制動2
次線形系の応答としてモデル化され、対数基本周波数の
時間変化パタンは、これら同成分の和として表現される
。第2図はピッチ制御機構モデルを示す。モデル基本周
波数F0(t)(tは時刻)は、次式のように定式化さ
れる。 ここで、Fm1nは最低周波数、■はフレーズ指令の数
、Aptは1番目のフレーズ指令の大きさ、Totは]
番目のフレーズ指令の時点1.■はアクセント指令の数
、ハ、は3番目のアクセント指令の大きさ、T□4、T
2aはそれぞれj番目のアクセント指令の開始時点と終
了時点である。また、Gpt(t)、G、IJ (t)
はそれぞれ、フレーズ制御機構のインパルス応答関数、
アクセント制御機構のステップ応答関数であり、次式で
与えられる。 Gpt(t)=αit exp(−αtt)u(t)
(2)GaJ(t)=Min[1−(
1+βjt) exp(−β1t)u(t)、 (j
Jl(3) ■ (1) ここで、α1は1番目のフレーズ指令に対するフレーズ
制御機構の固有角周波数、β、はj番目のアクセント指
令に対するアクセント制御機構の固有角周波数、u(t
)は単位ステップ関数である。また、0、はアクセント
成分の」二限値であり、例えば0.9などに選ばれる。 9 0 なおここで、基本周波数(ピッチ周波数)およびピッチ
制御パラメータ(Api+ Aaj、Tot+ T、J
IT2Jl α1.βJI FI+In)の値の単位
は次のように定義される。すなわち、F、 (t)およ
びFmtnの単位は[Hz]、Tot 、 Tl Jお
よびTzjの単位は[Sコ、α1およびβ1の単位は[
5k1Fとする。またAptおよびAaaの値は、基本
周波数およびピッチ制御パラメータの値の単位を上記の
ように定めたときの値を用いる。 解析の方法としては、最適化法が用いられている。すな
わち、上記ピッチ制御機構モデルにより生成したピッチ
パタンと原音声の分析・抽出による実測値との誤差が最
小となるようなピッチ制御パラメータを求めることによ
り、ピッチパタンの最良近似推定が行なわれる(公知例
6)。 上記ピッチ制御機構モデルを適用した公知例として、単
語音声合成に適用した例(公知例3)、疑問文、命令文
、願望文等の文章音声合成に適用した例(公知例5)等
があり、かなりの音質改善効果が認められている。 公知例9は、更に、音韻明瞭性の改善に効果的な音素レ
ベルの局所的な揺らぎ(公知例7.8)を表現する成分
を付加したものである。また、疑問文に現れる尻上がり
調や、命令文、願望文等、様々な感情や表情に固有な微
妙な基本周波数の変化を表現する成分(公知例5)も付
加されている。 公知例9では、これらの成分を生成するモデルを用いて
人間らしい自然な抑揚感を持った音声を合成する方法を
提供している。第3図(a)にこの修正型ピッチ制御機
構モデルを示す。 該修正型モデルの特徴は、従来の■フレーズ制御機構お
よび■アクセント制御機構のみから構成されるモデルに
、更に■音素制御機構、(4)文形指定制御機構、およ
び■強調制御機構の3つの制御機構を付加したことであ
る。これら■〜■の3つの制御機構の導入により、ピッ
チパタン上に様々な揺らぎ成分を付加することが出来る
。 すなわち、上記■音素制御機構は、音素ごとの局所的な
基本周波数の揺らぎの成分を生成する機構で、例えば有
声子音/d/、/m/、/n/、/r/、/讐/等の局
所的な基本周波数の低下や、無声破裂音/l/、/に/
等の後続母音への入り渡り部にしばしば見られる高基本
周波数からの下降特性を表現することが出来る。また(
4)文形指定制御機構は、疑問文の文末の基本周波数の
尻上がりを表現する成分を′生成する機構である。そし
て■強調機構は、命令文や願望文等、様々な感情や表情
を表現する成分を生成することを目的とした機構である
。 上記修正型ピッチ制御機構モデルを簡単に記述する式と
しては、例えば(i)〜(幡)式を用いれば良い。ここ
で(i)〜(v[Ii)式の各パラメータの単位は従来
のピッチ制御機構に準じて定められる。勿論具体的に実
現する式としては、上記(i)〜(viii )式のみ
に限定されない。また、文章音声の性質や制御方式の選
択により、(1)〜(vi)式の任意の制御機構の組み
合わせでピッチパタンを生成することが出来る。例えば
、強調を強調成分を用いて表現するならば、アクセント
指令と強調指令の関係は第3図(b)の(1)のように
重畳形になる。しかし、これらの指令により得られるピ
ッチパタンと同一のピッチパタンを同図(b)の(2)
のように、アクセント指令のみによっても得ることが出
来る。この様に一つのアクセント指令終了時点で、別の
指令値に階段状に変化することを「アクセント変形」と
呼んでいる。「アクセント成分に重畳された強調成分」
と「アクセント変形」とは、 Aa2=Aal+As T1□=T71 T2□=T、□ (4) (5) (6) の関係により相互に変換が可能である。 モデルパラメータの推定(解析)は、従来のピッチ制御
機構モデルの場合と同じく最適化法により実行すること
が出来る(公知例6)。
上記の各種制御機構のうち、音素制御機構の導入により
、合成音声の音韻明瞭性は改善されるに至った。しかし
、感情や特別の表情の付がない通常の文章では、発話の
単調さ、機械的な感じは取=23 4 り除かれていない。このような単調さや機械感は、特に
合成音声システムの長時間利用者にとって、大きな負担
になり、疲労をもたらす。これらの単調さや機械感を取
り除かないかぎり、例えば新聞校閲における読み合わせ
作業のような、長時間利用型のシステムへの適用に供す
ることができない。 他方、人間の発声する自然音声を長時間開いても、疲労
感が少ない理由の−っは、発話の中で、局所的に強調し
たり、逆に弱めたりして、発話に変化をつけているから
である。すなわち、人間は強調したいところでは、相対
的に声の高さを高め、声を大きくし、しかもゆっくりと
話す。逆に重要でないところでは、低く小さい声で、し
かも早口で曖昧に話そうとする。即ち、書き言葉におけ
る「カギ括弧」や「太字」等に相当する強調表現を話し
言葉でも行っているのである。この強調や弱めによって
、聞く人は常に発話に注意を傾ける必要がなくなり、負
担が軽減する。 本発明は、このような自然音声が持つ強調や弱めを合成
音声において実現する手段を提供するものである。
、合成音声の音韻明瞭性は改善されるに至った。しかし
、感情や特別の表情の付がない通常の文章では、発話の
単調さ、機械的な感じは取=23 4 り除かれていない。このような単調さや機械感は、特に
合成音声システムの長時間利用者にとって、大きな負担
になり、疲労をもたらす。これらの単調さや機械感を取
り除かないかぎり、例えば新聞校閲における読み合わせ
作業のような、長時間利用型のシステムへの適用に供す
ることができない。 他方、人間の発声する自然音声を長時間開いても、疲労
感が少ない理由の−っは、発話の中で、局所的に強調し
たり、逆に弱めたりして、発話に変化をつけているから
である。すなわち、人間は強調したいところでは、相対
的に声の高さを高め、声を大きくし、しかもゆっくりと
話す。逆に重要でないところでは、低く小さい声で、し
かも早口で曖昧に話そうとする。即ち、書き言葉におけ
る「カギ括弧」や「太字」等に相当する強調表現を話し
言葉でも行っているのである。この強調や弱めによって
、聞く人は常に発話に注意を傾ける必要がなくなり、負
担が軽減する。 本発明は、このような自然音声が持つ強調や弱めを合成
音声において実現する手段を提供するものである。
上記の文音声における強調や弱めは、文中の他の部分と
の相対的な強弱によって行われる。このように他の部分
に対して相対的に引き立たせる(卓立させる)強調は、
「プロミネンスjあるいは「対比強調」と呼ばれている
。言語学的立場からプロミネンスを分類すると第4図の
ようになる。 これらの強調は、音声情報処理的には、(1)基本周波
数、(2)音声波形振幅(パワー)、および(3)時間
長(音素あるいは「間」 (ポーズ)持続時間)の増大
や減少によって実現される。特に(1)基本周波数の場
合は、上記ピッチ制御機構モデルのパラメータ(特にア
クセント成分)の制御により実現される。
の相対的な強弱によって行われる。このように他の部分
に対して相対的に引き立たせる(卓立させる)強調は、
「プロミネンスjあるいは「対比強調」と呼ばれている
。言語学的立場からプロミネンスを分類すると第4図の
ようになる。 これらの強調は、音声情報処理的には、(1)基本周波
数、(2)音声波形振幅(パワー)、および(3)時間
長(音素あるいは「間」 (ポーズ)持続時間)の増大
や減少によって実現される。特に(1)基本周波数の場
合は、上記ピッチ制御機構モデルのパラメータ(特にア
クセント成分)の制御により実現される。
第5図〜第11図は、上記ピッチ制御機構モデルによる
最良近似推定により制御パラメータを求めた例であり、
第4図の小分類に対応している。 なお、本解析においては、強調をアクセント変形型(第
3図(b)の(2))で表現しているが、勿論強調成分
付加型(第3図(b)の(1))で表現しても良い。 第5図〜第11図より、強調のある文章では、強調のな
い場合に比して、卓立している部分の(1)アクセント
指令の大きさ、(2)パワー、あるいは(3)音素持続
時間が増大し、場合によってはポーズが発生しているこ
とがわかる。また逆に、平叙文の文末弱めのように、(
1)アクセント指令の大きさ、あるいは(2)パワーが
減少する場合もある。 したがって、プロミネンスによる強調、あるいは弱めは
、これら(1)〜(3)(これら(1)〜(3)は総称
して「韻律」と呼ばれている)の各値を増大させたり、
逆に減少させることにより実現される。韻律の各要素(
])〜(3)は、単独で増大、減少する場合もあるし、
組合せにより増大、減少する場合もある。当然のことな
がら、組み合わせにより増大、減少させた場合の方が卓
立の効果は大きくなる。 第1図は、第4図の各分類に対応したプロミネンスを生
成するための韻律の各要素の増減(強調あるいは弱め)
の組合せを自然音声の解析結果(例えば第5図〜第11
図)に基き求めたものである。第1図に従い制御規則を
作成すれば、自然なプロミネンスを合成音声に付与する
ことが出来る。勿論、第1図の指定された強調あるいは
弱めの一部分を省略しても良いし、逆に、指定されてい
ない部分に強調あるいは弱めを追加しても良い。 適宜省略、追加することにより、様々な度合いに卓立効
果を変化させることが出来る。 (実施例] 以下、本発明の実施例を第1図および第12図〜第20
図により説明する。 第12図は任意文章合成方式の全体構成を示す。 本方式では、漢字仮名混じり文のテキス1〜を入力デー
タとして与えれば、それに対応する合成音声を出力とし
て得ることができる。処理手順は以下の通りである。 まず入力テキストは、日本語解析部1(特開昭57−2
0615] )の形態素解析手段により、各単語に分解
され、品詞が決定され、さらに読みが決定さ7 8 れる。次にこの結果に基づき、音声言語処理部2(公知
例:特公昭59−13040、特願昭57−19086
1、特願昭59−126841)において、各単語ある
いは文節のアクセント型が決定される。以上のような構
文レベルの処理結果として、音節情報、アクセント情報
、プロミネンス情報などが得られる。なお句や文章の区
切りは、入力テキスト中の句読点等区切り記号に基づい
て決定される。文章中や文章間のポーズ長は、読点や句
点の後のスペースの数で指定できる。また疑問文、命令
文、願望文等文のタイプは、語尾の活用によって判定す
ることができる場合もあるし、あるいは文章の終止に句
点の代わりにそれぞれ「?」、「!!」および「!」な
どの線上記号を使うことにより指定することもできる。 例えば同じ音韻列「川を渡る」であってもF川を渡る。 」は平叙文であり、r川を渡る?Jは疑問文である。 以上の■音節情報、■アクセント情報、■ポーズ情報、
■句・文章区切り情報、(必要ならば例えば品詞名等の
)■文法情報、および■プロミネンス情報は、「音節コ
ード」と呼ばれる一連の数字によって表現される。音節
コートは制御パラメータ生成部3の入力情報である。 制御パラメータ生成部3では、アクセント、イントネー
ション、音韻持続時間、および音源パワー(振@)修正
値が規則により決定され、それに従ってピッチパタンと
音韻パラメータ時系列が生成される。ここで、音源パワ
ー修正値とは、強調の有無により、標準的な音源パワー
の値を増減するための係数である。この音源パワー修正
値は、強調の無い場合に対する倍率で与えても良いし、
絶対数値で与えても良い。また、アクセン1へ型は、ア
クセント情報により知ることができる。アクセント情報
は、具体的にはアクセント核のある音韻(アクセントが
下降する直前の音韻)の直後にアクセントを示す音節コ
ード番号を挿入することによって与えている。ただし、
この音節コードがない場合は、平板型アクセントである
ことを示している。またイントネーションは、基本的に
は文章タイプ情報およびプロミネ、ンス情報より定めら
れる。ただし、語尾の音韻の並びの違いによる変形も加
えられる。例えば、願望文「川を渡りたい!」と「川を
渡りたいなあ!」とではイントネーション・パタンか異
なる。最終的なピッチパタンは、アクセント型とイント
ネーションの両者に基づいて生成される。ただし、後に
述べるプロミネンスを含有する文章については、アクセ
ント変形を伴うこともある。音韻持続時間は、子音の場
合は周囲条件の影響が少ないので、子音の種類ごとに固
有長として決定される。それに対して、母音の場合は周
囲条件によって様々な変形を受ける。そのため、アクセ
ント型、音節数、単語内の位置、直前の子音の種類、そ
の母音の種類などから持続時間を決定している(公知例
:特願昭57−190861 )。 このようにして音韻持続時間が決定されたら、CV(子
音−母音連鎖)単位でファイルに登録されている音韻パ
ラメータ(生成源方式の場合はスペクトル包絡パラメー
タと音源パラメータ、波形合成方式の場合は音声素片)
を音節コードに対応させて抽出し、配列する。この際、
長すぎれば持続時間内に収まるように切断する。しかる
後に、切断部あるいは隙間部を埋めるようにCV単位間
を補間(生成源方式ニスベクトル包絡パラメータは直線
補間、音源パラメータは同、−値の繰り返し、波形合成
方式:素片切り出し窓の最大値の補間)により接続する
。最後に、以上の処理によって生成された基本周波数と
音韻パラメータは、順次音声合成部4に送られ、音声波
形が出力される。ここで、音声合成方式としては、例え
ば残差圧縮法(公知例:特願昭59−5583)を用い
ればよい。この場合、音源パルスは基本的には、フレー
ムごとに1ピッチ分の残差パルス(代表残差)を抽出し
、その代表残差を外から与えるピッチ周期の間隔で並べ
ることによって生成している。このとき外から与えるピ
ッチ周期が代表残差の長さより短ければ、その長さの差
だけ代表残差の末尾を切り捨て、逆に長ければ、代表残
差の不足している区間だけ0を埋めている。第12図に
は音声合成部に残差圧縮法を用いた例を示しているが、
勿論、音声合成方式は残差圧縮法に限定されない。例え
ば、波1 2 形合成方式、特に素片編集方式を用いても良い。 以上の処理は、以下に述べるプロミネンス生成規則を除
いて、すべて公知の手段により構成することができる。 以下では、上記任意文章合成方式の内、本発明の最も重
要な部分である、制御パラメータ生成部3におけるプロ
ミネンス生成規則の実施例を第13図〜第19図を引用
して示す。 まず、プロミネンス情報取得手段について説明する。そ
の例を以下に記す。 (1)平叙文/疑問文等の文のタイプより(文形固有の
卓立) (2)構文情報より(公知例10)。 (3)旧情報/新情報(公知例11)、慣用的な口調。 (4)テキスト情報より(カギ括弧、太字、アンダーラ
イン等)。 (5)意味情報より(例:先行疑問文に対する答えの部
分を強調)。 上記(1)では、文章タイプ情報よりプロミネンスを実
現するパラメータを生成することができるのに対し、(
2)〜(5)では、音声言語処理部2等で、プロミネン
ス情報(音節コード表現)を生成しなければならない。 例えば上記(4)におけるカギ括弧の場合、カギ括弧開
きが検出されたら、アクセント指令の開始時点と大きさ
情報(あるいはプロミネンスの分類情報(例えば第4図
のような情報))を含有する音節コードを発行し、カギ
括弧開じが検出されたら、アクセント指令の終了時点の
情報を含有する音節コードを発行すれば良い。また、(
5)の場合は、意味解析手段が必要となる。もし意味解
析手段を用いないならば、(4)で代用することになる
。すなわち、人間が強調したいところを上記のカギ括弧
等によりテキスト内で指定すれば良い。 続いて、上記(1)文形固有の卓立を実現する規則の実
施例を示す。まず、第13図において、音声言語処理部
2から得られた音節コード列は、文章タイプ決定手段5
に入力される。ここでは第一段階として、文章タイプ情
報辞書6中の語尾辞書に登録されている語尾形と音節コ
ード列の文末の形とを照合することにより、該当する文
章タイプを決定する。なお第13図における終止形は、
現代文の場合は動詞なら「つ」行で終わる語尾、形容詞
なら[イJでおわる語尾等、公知の国文法の規則に基い
て定められる。命令形の場合も同様に、現代文なら活用
語尾が「工」行であることがら定められる。以上の文章
タイプの判定は、品詞情報などの文法情報があれば、さ
らに確実となる。 ここでもし語尾の活用が終止形と判定された場合は、こ
の文章は必ずしも平叙文とは限らない。そこで第二段階
として、この場合は文章の終始記号(文末記号)を見に
行き、この記号の種類によって文章タイプを決定する(
例えば、「。」あるいは「、」なら平叙文、「?」なら
疑問文、「!!」なら命令文、「!」なら願望文、等)
。以上の文章タイプ決定手段5の処理の一例を第14図
に示す。 第13図に戻り、文章タイプ決定手段5では、上で述べ
た文章タイプ情報のみが選択的に出力される。音節コー
ドより音節情報抽出手段16により抽出された音節情報
(例えは、「あ」、「い」、「う」等の音節の種類を数
字で表したもの)は、■音韻境界を決定するため、およ
び■ピッチパタンにおける音素成分生成のために用いら
れる。すなわち、■については、音節情報をもとに、音
韻持続時間規則部9において各音節の音韻持続時間が決
定され(前記公知例)、これらを配列した形で音韻境界
時刻が音韻境界決定手段7により決定される。音韻境界
時刻は、一方ではL S Pパラメータ等の音韻パラメ
ータを生成するために用いられる。また■については、
文章ピッチ制御パラメータ生成部11において、音素制
御機構パラメータ値を決定するために用いられる。 先の文章タイプ情報は、イントネーション規則部8およ
び音源パワー(振l1li)修正値計算手段15に入力
され、文章のタイプに従い、標準イントネーション(例
えば平叙文)からの変形が加えられる。変形には時間の
変形と、ピッチ振幅(指令の大きさ)の変形、および音
源パワーあるいは振幅の変形の3種類がある。時間の変
形は、音韻境界決定手段7に作用し、音韻境界時刻に変
更が加5 6 えられる。他方指令の大きさの変形は、文章ピッチ制御
パラメータ生成部11に作用し、指令の大きさが変更さ
れるか、あるいは新たな文形指定指令や強調指令が追加
される。この際標準イントネーションの制御パラメータ
はアクセン1ル規則部10より供給される。なお文章ピ
ッチ制御パラメータ生成部11では音韻情報との時間的
整合をとるため、基準となる音韻境界時刻(タイミング
基準情報)を音韻境界決定手段7より得る。また音源パ
ワーの変形は、音源パワー(振@)修正値計算手段15
に作用し、音源パワー値の修正値が計算され、音源生成
部に送られる。 以上のイントネーションの規則は、規則テーブル(公知
例5)をイントネーション規則部8に設けておき参照す
ることにより達成できる。かくして、プロミネンスのう
ち、文形固有の卓立は、上記手段により実現される。 他方、意図的な卓立(上記(4)、(5))やその他の
デフオル1−の卓立(上記(2)、(3)等)に対する
プロミネンス情報は、音節コード中からプロミネンス情
報抽出手段14により、プロミネンス情報のコートを抽
出し、このコードから得られる。プロミネンス情報は、
イントネーション規則部8と音源パワー(振It@)修
正値HI算平手段5に作用する。 ここで、音節コード列より、■文章タイプ情報、■音節
情報、■プロミネンス情報をそれぞれ抽出する方法の一
具体例を示す。例えば、音節コードの番号に応じ、第1
5図に示すように情報内容を定義しておけば、文章タイ
プ決定手段5、音節情報抽出手段16、プロミネンス情
報抽出手段]4のそれぞれに数値大小判定機能を持たせ
ることにより、該当情報か否か判定できる。すなわち音
節コードが1〜400であるならば音節情報と判定、9
004〜9020であるならば文章タイプを与える情報
であるので、前述の方法により文章タイプ情報を決定す
ることが出来る。また、音節コードが9100〜919
9であるならばプロミネンス情報と判定、例えば下2桁
の数字に分類情報等を割り当てれば良い。 次に、パワーを制御しポーズを生成する方法の具体例を
示す。第13図では、音声合成部に生成源方式(例えば
残差圧縮法十LSP合成器)を用いた例を示しているが
、生成源方式に限定されない。 勿論波形合成方式でもまったく同し考え方で波形振幅の
パワーを制御することが出来る。 第16図は、音声合成部に残差圧縮法を用いた場合の例
を示している。スペクトル包絡パラメータは、LSPパ
ラメータ、PARCOR係数等、任意のパラメータを利
用出来る。音源パワー(振幅)修正値計算手段15(第
13図)で得・られたパワー値の平方根(振幅値で与え
られるならばそのままの値)が有声音源生成部あるいは
無声音源生成部に与えらえ、残差(音源)振幅が修正さ
れる。修正値は、実際の値で与える場合は、例えば時間
不連続を防ぐために、フレームごとに、パワー実測値(
例えば第5図〜第11図)の平方根に近似した振幅包絡
曲線(例えば、第18図)の値として与えれば良い。も
し修正値を倍率で与える場合は、合成単位が本来持って
いる自然音声の振幅包絡形を活用出来るので、強調部に
対応するフレーム間のみで、合成単位の音源振幅値に指
定した倍率を乗ずれば良い。また所定持続時間のポーズ
を生成する場合は、その時間の間だけ無音生成指令を発
行して、無音(O値)を出力すれば良い。 第17図は、音声合成部に波形合成方式を用いた場合の
例を示している。この場合は、第13図の音源パワー(
振幅)修正値計算手段15は、波形パワー(振@)修正
値計算手段と置き換えられるが、処理内容は、音源の場
合と全く同様である。 違いは、単に実現値が異なるだけである。波形パワー(
振@)修正値計算手段で得られたパワー値の平方根(振
幅値で与えられるならばそのままの値)が素片窓生成部
に与えられ、素片編集時に素片振幅が修正される。修正
値の時間変化パタンは、上記残差圧縮法の場合と全く同
様の考え方で与えられる。また、ポーズの生成方法も残
差圧縮法の場合と同様、所定時間長のO振幅波形を出力
すれば実現出来る。 他の合成方式の場合も、各波形振幅制御手段に9 0 応じて、全く同様の方法でパワー(振幅)制御が実現で
きる。 プロミネンスをどの様なパラメータ値の組み合わせでで
実現するかを定めた韻律(ピッチ、パワ、時間長)の制
御方法の一例を示したのが第1図である。更に、第1図
の具体的数値例を示したのが第19図である。第19図
に示したように、パラメータ値は、非強調時に対する倍
率で与えても良いし、パラメータの実際の数値で与えて
も良い。第19図は、自然音声の解析結果(例えば第5
図〜第11図)に基き求めたものであるので、第19図
に従い、音声を合成すれば、自然な強調部をもった合成
音声が得られる。勿論、第19図はパラメータ実現値の
一例であり、これらの数値に限定されない。実際には、
様々な強調の変形がありうるので、それに対応した数値
の変形の可能性は無数に存在する。この第1図および第
19図が本発明の中枢をなす。実際に第19図の韻律制
御を実現する方法は、例えば第19図に示す数値テーブ
ルを予めメモリ手段に作成しておき、プロミネンス情報
に含まれている分類情報により検索すれば良い。 ここで、ピッチの強調あるいは弱めの開始・終了時点の
決め方の例を示す。特に強調・弱めの対象が本来のアク
セントそのものである場合(例えば文節の卓立の場合)
、公知のアクセント規則をそのまま用いれば良い(公知
例3)。すなわち、アクセント指令開始はアクセント上
昇直後の音節始端、アクセント終了時点はアクセント下
降直前の音節、すなわちアクセント核のある音節終端を
基準に一40m5〜40m5に設定すれば良い。なお平
板型の場合は、終了時点はその文節の最後の音節の終端
を基準にすれば良い。最も簡単な規則は、上記音節始終
端を基準に一律Omsに設定することである。これでも
十分自然な音声が合成可能である。 また、強調・弱めの対象が本来のアクセントと異なる場
合(例えばアクセント変形の場合)も上記アクセント規
則と同様の規則で設定すれば良い。 すなわち、卓立の対象の音節(群)の先頭・末尾音節の
それぞれ始端・終端を基準に上記値を設定すれば良い。 本実施例では、プロミネンスのピッチによる強調あるい
は弱めをアクセント指令の増減により行う例を示したが
、勿論、前述のように、強調成分を用いて行っても良い
。この場合、例えば(4)〜(6)式によりパラメータ
値を変換しても良いし、新たにパラメータテーブルを作
り直しても良い。 他方、音素制御パラメータは、音素ごとに指令の大きさ
、固有角周波数、境界からの相対時刻、上限値等を予め
解析して求めておき、音節情報に対応するテーブルとし
て音素規則部13に設けておけば良い。ここから音節情
報列の順に従って、音素制御パラメータ列が文章ピッチ
制御パラメータ部11に送られる。ここで音素開始ある
いは終了時点(相対時刻)は、タイミング基準情報に基
いて絶対時刻に変換される。かくして文章ピッチ制御パ
ラメータ生成部11で作成されたピッチ制御パラメータ
はピッチパタン生成部12に送られ。 ここで新ピッチ制御機構モデル((i)〜(幅)式)に
より文章ピッチパタンか生成される。 本実施例における韻律制御方法(第19図)は、自然文
章音声の解析に基き求められたものなので、この方法に
より韻律の制御を行えば、漢字仮名混じり文テキストか
ら合成される音声に、人間らしい自然な強調、弱めを与
える効果をもたらすことができる。第20図は、本実施
例により生成したプロミネンスを含有するピッチパタン
の実例を示したものであり、強調の効果が明確に実証さ
れている。 以上本実施例では、プロミネンスのピッチによる強調あ
るいは弱めをピッチ制御機構モデルあるいは新ピッチ制
御機構モデルにより実現する方法を示したが、勿論プロ
ミネンス実現方法は、これらのモデルのみに限定されな
い。どの様なモデルを用いても良い。例えば、点ピッチ
(折線近似ピッチパタン)でも実現可能であるし、ある
いは階段状のピッチパタンを用いても何ら支障は無い。 [発明の効果] 以上示したように、本発明は、人間の発声する自然な文
章音声に含まれる強調や弱めを規則合成3 4 において実現する手段を提供するものである。本発明に
よれば、現実の文章音声に起こりうるほとんど全ての場
合の強調、弱めを実現することができる。そのため、利
用者が特別の注意を払うことなく発話内容を容易に理解
することができるので、利用者の負担を著しく軽減する
ことが可能となる。 特に、例えば新聞校閲のような長時間作業時の疲労軽減
効果は著しく、作業効率向上により得られる利益は図り
知れない。
最良近似推定により制御パラメータを求めた例であり、
第4図の小分類に対応している。 なお、本解析においては、強調をアクセント変形型(第
3図(b)の(2))で表現しているが、勿論強調成分
付加型(第3図(b)の(1))で表現しても良い。 第5図〜第11図より、強調のある文章では、強調のな
い場合に比して、卓立している部分の(1)アクセント
指令の大きさ、(2)パワー、あるいは(3)音素持続
時間が増大し、場合によってはポーズが発生しているこ
とがわかる。また逆に、平叙文の文末弱めのように、(
1)アクセント指令の大きさ、あるいは(2)パワーが
減少する場合もある。 したがって、プロミネンスによる強調、あるいは弱めは
、これら(1)〜(3)(これら(1)〜(3)は総称
して「韻律」と呼ばれている)の各値を増大させたり、
逆に減少させることにより実現される。韻律の各要素(
])〜(3)は、単独で増大、減少する場合もあるし、
組合せにより増大、減少する場合もある。当然のことな
がら、組み合わせにより増大、減少させた場合の方が卓
立の効果は大きくなる。 第1図は、第4図の各分類に対応したプロミネンスを生
成するための韻律の各要素の増減(強調あるいは弱め)
の組合せを自然音声の解析結果(例えば第5図〜第11
図)に基き求めたものである。第1図に従い制御規則を
作成すれば、自然なプロミネンスを合成音声に付与する
ことが出来る。勿論、第1図の指定された強調あるいは
弱めの一部分を省略しても良いし、逆に、指定されてい
ない部分に強調あるいは弱めを追加しても良い。 適宜省略、追加することにより、様々な度合いに卓立効
果を変化させることが出来る。 (実施例] 以下、本発明の実施例を第1図および第12図〜第20
図により説明する。 第12図は任意文章合成方式の全体構成を示す。 本方式では、漢字仮名混じり文のテキス1〜を入力デー
タとして与えれば、それに対応する合成音声を出力とし
て得ることができる。処理手順は以下の通りである。 まず入力テキストは、日本語解析部1(特開昭57−2
0615] )の形態素解析手段により、各単語に分解
され、品詞が決定され、さらに読みが決定さ7 8 れる。次にこの結果に基づき、音声言語処理部2(公知
例:特公昭59−13040、特願昭57−19086
1、特願昭59−126841)において、各単語ある
いは文節のアクセント型が決定される。以上のような構
文レベルの処理結果として、音節情報、アクセント情報
、プロミネンス情報などが得られる。なお句や文章の区
切りは、入力テキスト中の句読点等区切り記号に基づい
て決定される。文章中や文章間のポーズ長は、読点や句
点の後のスペースの数で指定できる。また疑問文、命令
文、願望文等文のタイプは、語尾の活用によって判定す
ることができる場合もあるし、あるいは文章の終止に句
点の代わりにそれぞれ「?」、「!!」および「!」な
どの線上記号を使うことにより指定することもできる。 例えば同じ音韻列「川を渡る」であってもF川を渡る。 」は平叙文であり、r川を渡る?Jは疑問文である。 以上の■音節情報、■アクセント情報、■ポーズ情報、
■句・文章区切り情報、(必要ならば例えば品詞名等の
)■文法情報、および■プロミネンス情報は、「音節コ
ード」と呼ばれる一連の数字によって表現される。音節
コートは制御パラメータ生成部3の入力情報である。 制御パラメータ生成部3では、アクセント、イントネー
ション、音韻持続時間、および音源パワー(振@)修正
値が規則により決定され、それに従ってピッチパタンと
音韻パラメータ時系列が生成される。ここで、音源パワ
ー修正値とは、強調の有無により、標準的な音源パワー
の値を増減するための係数である。この音源パワー修正
値は、強調の無い場合に対する倍率で与えても良いし、
絶対数値で与えても良い。また、アクセン1へ型は、ア
クセント情報により知ることができる。アクセント情報
は、具体的にはアクセント核のある音韻(アクセントが
下降する直前の音韻)の直後にアクセントを示す音節コ
ード番号を挿入することによって与えている。ただし、
この音節コードがない場合は、平板型アクセントである
ことを示している。またイントネーションは、基本的に
は文章タイプ情報およびプロミネ、ンス情報より定めら
れる。ただし、語尾の音韻の並びの違いによる変形も加
えられる。例えば、願望文「川を渡りたい!」と「川を
渡りたいなあ!」とではイントネーション・パタンか異
なる。最終的なピッチパタンは、アクセント型とイント
ネーションの両者に基づいて生成される。ただし、後に
述べるプロミネンスを含有する文章については、アクセ
ント変形を伴うこともある。音韻持続時間は、子音の場
合は周囲条件の影響が少ないので、子音の種類ごとに固
有長として決定される。それに対して、母音の場合は周
囲条件によって様々な変形を受ける。そのため、アクセ
ント型、音節数、単語内の位置、直前の子音の種類、そ
の母音の種類などから持続時間を決定している(公知例
:特願昭57−190861 )。 このようにして音韻持続時間が決定されたら、CV(子
音−母音連鎖)単位でファイルに登録されている音韻パ
ラメータ(生成源方式の場合はスペクトル包絡パラメー
タと音源パラメータ、波形合成方式の場合は音声素片)
を音節コードに対応させて抽出し、配列する。この際、
長すぎれば持続時間内に収まるように切断する。しかる
後に、切断部あるいは隙間部を埋めるようにCV単位間
を補間(生成源方式ニスベクトル包絡パラメータは直線
補間、音源パラメータは同、−値の繰り返し、波形合成
方式:素片切り出し窓の最大値の補間)により接続する
。最後に、以上の処理によって生成された基本周波数と
音韻パラメータは、順次音声合成部4に送られ、音声波
形が出力される。ここで、音声合成方式としては、例え
ば残差圧縮法(公知例:特願昭59−5583)を用い
ればよい。この場合、音源パルスは基本的には、フレー
ムごとに1ピッチ分の残差パルス(代表残差)を抽出し
、その代表残差を外から与えるピッチ周期の間隔で並べ
ることによって生成している。このとき外から与えるピ
ッチ周期が代表残差の長さより短ければ、その長さの差
だけ代表残差の末尾を切り捨て、逆に長ければ、代表残
差の不足している区間だけ0を埋めている。第12図に
は音声合成部に残差圧縮法を用いた例を示しているが、
勿論、音声合成方式は残差圧縮法に限定されない。例え
ば、波1 2 形合成方式、特に素片編集方式を用いても良い。 以上の処理は、以下に述べるプロミネンス生成規則を除
いて、すべて公知の手段により構成することができる。 以下では、上記任意文章合成方式の内、本発明の最も重
要な部分である、制御パラメータ生成部3におけるプロ
ミネンス生成規則の実施例を第13図〜第19図を引用
して示す。 まず、プロミネンス情報取得手段について説明する。そ
の例を以下に記す。 (1)平叙文/疑問文等の文のタイプより(文形固有の
卓立) (2)構文情報より(公知例10)。 (3)旧情報/新情報(公知例11)、慣用的な口調。 (4)テキスト情報より(カギ括弧、太字、アンダーラ
イン等)。 (5)意味情報より(例:先行疑問文に対する答えの部
分を強調)。 上記(1)では、文章タイプ情報よりプロミネンスを実
現するパラメータを生成することができるのに対し、(
2)〜(5)では、音声言語処理部2等で、プロミネン
ス情報(音節コード表現)を生成しなければならない。 例えば上記(4)におけるカギ括弧の場合、カギ括弧開
きが検出されたら、アクセント指令の開始時点と大きさ
情報(あるいはプロミネンスの分類情報(例えば第4図
のような情報))を含有する音節コードを発行し、カギ
括弧開じが検出されたら、アクセント指令の終了時点の
情報を含有する音節コードを発行すれば良い。また、(
5)の場合は、意味解析手段が必要となる。もし意味解
析手段を用いないならば、(4)で代用することになる
。すなわち、人間が強調したいところを上記のカギ括弧
等によりテキスト内で指定すれば良い。 続いて、上記(1)文形固有の卓立を実現する規則の実
施例を示す。まず、第13図において、音声言語処理部
2から得られた音節コード列は、文章タイプ決定手段5
に入力される。ここでは第一段階として、文章タイプ情
報辞書6中の語尾辞書に登録されている語尾形と音節コ
ード列の文末の形とを照合することにより、該当する文
章タイプを決定する。なお第13図における終止形は、
現代文の場合は動詞なら「つ」行で終わる語尾、形容詞
なら[イJでおわる語尾等、公知の国文法の規則に基い
て定められる。命令形の場合も同様に、現代文なら活用
語尾が「工」行であることがら定められる。以上の文章
タイプの判定は、品詞情報などの文法情報があれば、さ
らに確実となる。 ここでもし語尾の活用が終止形と判定された場合は、こ
の文章は必ずしも平叙文とは限らない。そこで第二段階
として、この場合は文章の終始記号(文末記号)を見に
行き、この記号の種類によって文章タイプを決定する(
例えば、「。」あるいは「、」なら平叙文、「?」なら
疑問文、「!!」なら命令文、「!」なら願望文、等)
。以上の文章タイプ決定手段5の処理の一例を第14図
に示す。 第13図に戻り、文章タイプ決定手段5では、上で述べ
た文章タイプ情報のみが選択的に出力される。音節コー
ドより音節情報抽出手段16により抽出された音節情報
(例えは、「あ」、「い」、「う」等の音節の種類を数
字で表したもの)は、■音韻境界を決定するため、およ
び■ピッチパタンにおける音素成分生成のために用いら
れる。すなわち、■については、音節情報をもとに、音
韻持続時間規則部9において各音節の音韻持続時間が決
定され(前記公知例)、これらを配列した形で音韻境界
時刻が音韻境界決定手段7により決定される。音韻境界
時刻は、一方ではL S Pパラメータ等の音韻パラメ
ータを生成するために用いられる。また■については、
文章ピッチ制御パラメータ生成部11において、音素制
御機構パラメータ値を決定するために用いられる。 先の文章タイプ情報は、イントネーション規則部8およ
び音源パワー(振l1li)修正値計算手段15に入力
され、文章のタイプに従い、標準イントネーション(例
えば平叙文)からの変形が加えられる。変形には時間の
変形と、ピッチ振幅(指令の大きさ)の変形、および音
源パワーあるいは振幅の変形の3種類がある。時間の変
形は、音韻境界決定手段7に作用し、音韻境界時刻に変
更が加5 6 えられる。他方指令の大きさの変形は、文章ピッチ制御
パラメータ生成部11に作用し、指令の大きさが変更さ
れるか、あるいは新たな文形指定指令や強調指令が追加
される。この際標準イントネーションの制御パラメータ
はアクセン1ル規則部10より供給される。なお文章ピ
ッチ制御パラメータ生成部11では音韻情報との時間的
整合をとるため、基準となる音韻境界時刻(タイミング
基準情報)を音韻境界決定手段7より得る。また音源パ
ワーの変形は、音源パワー(振@)修正値計算手段15
に作用し、音源パワー値の修正値が計算され、音源生成
部に送られる。 以上のイントネーションの規則は、規則テーブル(公知
例5)をイントネーション規則部8に設けておき参照す
ることにより達成できる。かくして、プロミネンスのう
ち、文形固有の卓立は、上記手段により実現される。 他方、意図的な卓立(上記(4)、(5))やその他の
デフオル1−の卓立(上記(2)、(3)等)に対する
プロミネンス情報は、音節コード中からプロミネンス情
報抽出手段14により、プロミネンス情報のコートを抽
出し、このコードから得られる。プロミネンス情報は、
イントネーション規則部8と音源パワー(振It@)修
正値HI算平手段5に作用する。 ここで、音節コード列より、■文章タイプ情報、■音節
情報、■プロミネンス情報をそれぞれ抽出する方法の一
具体例を示す。例えば、音節コードの番号に応じ、第1
5図に示すように情報内容を定義しておけば、文章タイ
プ決定手段5、音節情報抽出手段16、プロミネンス情
報抽出手段]4のそれぞれに数値大小判定機能を持たせ
ることにより、該当情報か否か判定できる。すなわち音
節コードが1〜400であるならば音節情報と判定、9
004〜9020であるならば文章タイプを与える情報
であるので、前述の方法により文章タイプ情報を決定す
ることが出来る。また、音節コードが9100〜919
9であるならばプロミネンス情報と判定、例えば下2桁
の数字に分類情報等を割り当てれば良い。 次に、パワーを制御しポーズを生成する方法の具体例を
示す。第13図では、音声合成部に生成源方式(例えば
残差圧縮法十LSP合成器)を用いた例を示しているが
、生成源方式に限定されない。 勿論波形合成方式でもまったく同し考え方で波形振幅の
パワーを制御することが出来る。 第16図は、音声合成部に残差圧縮法を用いた場合の例
を示している。スペクトル包絡パラメータは、LSPパ
ラメータ、PARCOR係数等、任意のパラメータを利
用出来る。音源パワー(振幅)修正値計算手段15(第
13図)で得・られたパワー値の平方根(振幅値で与え
られるならばそのままの値)が有声音源生成部あるいは
無声音源生成部に与えらえ、残差(音源)振幅が修正さ
れる。修正値は、実際の値で与える場合は、例えば時間
不連続を防ぐために、フレームごとに、パワー実測値(
例えば第5図〜第11図)の平方根に近似した振幅包絡
曲線(例えば、第18図)の値として与えれば良い。も
し修正値を倍率で与える場合は、合成単位が本来持って
いる自然音声の振幅包絡形を活用出来るので、強調部に
対応するフレーム間のみで、合成単位の音源振幅値に指
定した倍率を乗ずれば良い。また所定持続時間のポーズ
を生成する場合は、その時間の間だけ無音生成指令を発
行して、無音(O値)を出力すれば良い。 第17図は、音声合成部に波形合成方式を用いた場合の
例を示している。この場合は、第13図の音源パワー(
振幅)修正値計算手段15は、波形パワー(振@)修正
値計算手段と置き換えられるが、処理内容は、音源の場
合と全く同様である。 違いは、単に実現値が異なるだけである。波形パワー(
振@)修正値計算手段で得られたパワー値の平方根(振
幅値で与えられるならばそのままの値)が素片窓生成部
に与えられ、素片編集時に素片振幅が修正される。修正
値の時間変化パタンは、上記残差圧縮法の場合と全く同
様の考え方で与えられる。また、ポーズの生成方法も残
差圧縮法の場合と同様、所定時間長のO振幅波形を出力
すれば実現出来る。 他の合成方式の場合も、各波形振幅制御手段に9 0 応じて、全く同様の方法でパワー(振幅)制御が実現で
きる。 プロミネンスをどの様なパラメータ値の組み合わせでで
実現するかを定めた韻律(ピッチ、パワ、時間長)の制
御方法の一例を示したのが第1図である。更に、第1図
の具体的数値例を示したのが第19図である。第19図
に示したように、パラメータ値は、非強調時に対する倍
率で与えても良いし、パラメータの実際の数値で与えて
も良い。第19図は、自然音声の解析結果(例えば第5
図〜第11図)に基き求めたものであるので、第19図
に従い、音声を合成すれば、自然な強調部をもった合成
音声が得られる。勿論、第19図はパラメータ実現値の
一例であり、これらの数値に限定されない。実際には、
様々な強調の変形がありうるので、それに対応した数値
の変形の可能性は無数に存在する。この第1図および第
19図が本発明の中枢をなす。実際に第19図の韻律制
御を実現する方法は、例えば第19図に示す数値テーブ
ルを予めメモリ手段に作成しておき、プロミネンス情報
に含まれている分類情報により検索すれば良い。 ここで、ピッチの強調あるいは弱めの開始・終了時点の
決め方の例を示す。特に強調・弱めの対象が本来のアク
セントそのものである場合(例えば文節の卓立の場合)
、公知のアクセント規則をそのまま用いれば良い(公知
例3)。すなわち、アクセント指令開始はアクセント上
昇直後の音節始端、アクセント終了時点はアクセント下
降直前の音節、すなわちアクセント核のある音節終端を
基準に一40m5〜40m5に設定すれば良い。なお平
板型の場合は、終了時点はその文節の最後の音節の終端
を基準にすれば良い。最も簡単な規則は、上記音節始終
端を基準に一律Omsに設定することである。これでも
十分自然な音声が合成可能である。 また、強調・弱めの対象が本来のアクセントと異なる場
合(例えばアクセント変形の場合)も上記アクセント規
則と同様の規則で設定すれば良い。 すなわち、卓立の対象の音節(群)の先頭・末尾音節の
それぞれ始端・終端を基準に上記値を設定すれば良い。 本実施例では、プロミネンスのピッチによる強調あるい
は弱めをアクセント指令の増減により行う例を示したが
、勿論、前述のように、強調成分を用いて行っても良い
。この場合、例えば(4)〜(6)式によりパラメータ
値を変換しても良いし、新たにパラメータテーブルを作
り直しても良い。 他方、音素制御パラメータは、音素ごとに指令の大きさ
、固有角周波数、境界からの相対時刻、上限値等を予め
解析して求めておき、音節情報に対応するテーブルとし
て音素規則部13に設けておけば良い。ここから音節情
報列の順に従って、音素制御パラメータ列が文章ピッチ
制御パラメータ部11に送られる。ここで音素開始ある
いは終了時点(相対時刻)は、タイミング基準情報に基
いて絶対時刻に変換される。かくして文章ピッチ制御パ
ラメータ生成部11で作成されたピッチ制御パラメータ
はピッチパタン生成部12に送られ。 ここで新ピッチ制御機構モデル((i)〜(幅)式)に
より文章ピッチパタンか生成される。 本実施例における韻律制御方法(第19図)は、自然文
章音声の解析に基き求められたものなので、この方法に
より韻律の制御を行えば、漢字仮名混じり文テキストか
ら合成される音声に、人間らしい自然な強調、弱めを与
える効果をもたらすことができる。第20図は、本実施
例により生成したプロミネンスを含有するピッチパタン
の実例を示したものであり、強調の効果が明確に実証さ
れている。 以上本実施例では、プロミネンスのピッチによる強調あ
るいは弱めをピッチ制御機構モデルあるいは新ピッチ制
御機構モデルにより実現する方法を示したが、勿論プロ
ミネンス実現方法は、これらのモデルのみに限定されな
い。どの様なモデルを用いても良い。例えば、点ピッチ
(折線近似ピッチパタン)でも実現可能であるし、ある
いは階段状のピッチパタンを用いても何ら支障は無い。 [発明の効果] 以上示したように、本発明は、人間の発声する自然な文
章音声に含まれる強調や弱めを規則合成3 4 において実現する手段を提供するものである。本発明に
よれば、現実の文章音声に起こりうるほとんど全ての場
合の強調、弱めを実現することができる。そのため、利
用者が特別の注意を払うことなく発話内容を容易に理解
することができるので、利用者の負担を著しく軽減する
ことが可能となる。 特に、例えば新聞校閲のような長時間作業時の疲労軽減
効果は著しく、作業効率向上により得られる利益は図り
知れない。
第1図:本発明の基本部分を示す図、第2図〜第3図:
本発明を実現する手段の例を示す図、第4図:本発明の
基本部分を補足する図、第2図〜第3図二本発明の考え
方を例示する図、第2図〜第3図二本発明の実施例を示
す図、第20図:本発明の効果の例を示す図。 符号の説明 3:制御パラメータ生成部 8:イントネーション規則部 10:アクセント規則部 11:文章ピッチ制御パラメータ生成部12:ピッチパ
タン生成部 14:プロミネンス情報抽出手段 15:音源パワー(振@)修正値計算手段=880− 仏滅 一乙ト/ (7日)賞n借吋Y −887− や、で む
本発明を実現する手段の例を示す図、第4図:本発明の
基本部分を補足する図、第2図〜第3図二本発明の考え
方を例示する図、第2図〜第3図二本発明の実施例を示
す図、第20図:本発明の効果の例を示す図。 符号の説明 3:制御パラメータ生成部 8:イントネーション規則部 10:アクセント規則部 11:文章ピッチ制御パラメータ生成部12:ピッチパ
タン生成部 14:プロミネンス情報抽出手段 15:音源パワー(振@)修正値計算手段=880− 仏滅 一乙ト/ (7日)賞n借吋Y −887− や、で む
Claims (1)
- 【特許請求の範囲】 1、文形(例えば平叙文や疑問文)を指定する手段ある
いは強調情報を指定する手段のいずれか、あるいは両方
を具備し、 該文形を指定する手段が与えられたときは、更に文形か
ら強調情報を求める手段を具備し、基本周波数の時間変
化パタン(以下略して 「ピッチパタン」と呼ぶ)を生成する手段とピッチパタ
ン生成を制御する手段とから成る第1の韻律制御手段、
および該強調情報に基き、該ピッチパタンを制御する第
1の制御パラメータ値を変更する手段、 音声波形の振幅(パワー)値を制御する第2の韻律制御
手段、および該強調情報に基き、該振幅値を制御する第
2の制御パラメータ値を変更する手段、 音素の持続時間を制御する第3の韻律制御手段、および
該強調情報に基き、該音素の持続時間長を制御する第3
の制御パラメータ値を変更する手段、 音声間の無音部の持続時間を制御する第4の韻律制御手
段、および該強調情報に基き、該無音部の持続時間長を
制御する第4の制御パラメータ値を変更する手段、 のうち、少なくとも2つの韻律制御手段および該2つの
韻律制御手段に対応する2つの制御パラメータ値を変更
する手段を具備することを特徴とする音声規則合成方式
。 2、特許請求の範囲第1項記載の第1の韻律制御手段、
を具備し、 かつ文形を指定する手段あるいは強調情報を指定する手
段のいずれか、あるいは両方を具備し、 該文形を指定する手段が与えられたときは、更に文形か
ら強調情報を求める手段を具備し、該強調情報に基き、
特許請求の範囲第1項記載の第1の制御パラメータ値を
変更する手段を具備することを特徴とする音声規則合成
方式。 3、特許請求の範囲第1項記載の第2の韻律制御手段、
を具備し、 かつ文形を指定する手段あるいは強調情報を指定する手
段のいずれか、あるいは両方を具備し、 該文形を指定する手段が与えられたときは、更に文形か
ら強調情報を求める手段を具備し、該強調情報に基き、
特許請求の範囲第1項記載の第2の制御パラメータ値を
変更する手段を具備することを特徴とする音声規則合成
方式。 4、特許請求の範囲第1項記載の第3の韻律制御手段、
を具備し、 かつ文形を指定する手段あるいは強調情報を指定する手
段のいずれか、あるいは両方を具備し、 該文形を指定する手段が与えられたときは、更に文形か
ら強調情報を求める手段を具備し、該強調情報に基き、
特許請求の範囲第1項記載の第3の制御パラメータ値を
変更する手段を具備することを特徴とする音声規則合成
方式。 5、特許請求の範囲第1項記載の第4の韻律制御手段、
を具備し、 かつ文形を指定する手段あるいは強調情報を指定する手
段のいずれか、あるいは両方を具備し、 該文形を指定する手段が与えられたときは、更に文形か
ら強調情報を求める手段を具備し、該強調情報に基き、
特許請求の範囲第1項記載の第4の制御パラメータ値を
変更する手段を具備することを特徴とする音声規則合成
方式。 6、特許請求の範囲第1項および第2項記載の音声規則
合成方式において、第1の韻律制御手段は、(1)フレ
ーズ制御機構、および(2)アクセント制御機構を持つ
ことを特徴とする音声規則合成方式。 7、特許請求の範囲第1項および第2項記載の音声規則
合成方式において、第1の韻律制御手段は、(1)フレ
ーズ制御機構、(2)アクセント制御機構、および(5
)強調制御機構を持つか、あるいは(1)フレーズ制御
機構、(2)アクセント制御機構、および(5)強調制
御機構の他、(3)音素制御機構あるいは(4)文形指
定制御機構の少なくとも1つの制御機構を持つことを特
徴とする音声規則合成方式。 8、上記各制御機構のうち、音素制御機構以外は、入力
指令に対して臨界制動2次線形系の応答関数を出力し、 音素制御機構を持つ場合、該音素制御機構は、音素の種
類に応じて、入力指令に対して臨界制動2次線形系の応
答関数あるいは指数関数のいずれかを出力する ことを特徴とする特許請求の範囲第6項および第7項記
載の音声規則合成方式。 9、上記各制御機構の出力曲線は、折線(点ピッチ)で
記述されることを特徴とする特許請求の範囲第6項およ
び第7項記載の音声規則合成方式。 10、上記各制御機構の出力曲線は、階段状変化直線で
記述されることを特徴とする特許請求の範囲第6項およ
び第7項記載の音声規則合成方式。 11、上記各制御機構は、それぞれ次の(i)〜(vi
)式で記述され、かつ上記ピッチパタンは(vii)あ
るいは(viii)式で記述されることを特徴とする特
許請求の範囲第8項記載の音声規則合成方式。 (1)フレーズ制御機構: G_P_i(t)=α_itexp(−α_it)u(
t)(i)t:時刻 α_i:i番目の固有角周波数 u(t):単位ステップ関数 (2)アクセント制御機構: Ga_j(t)=Min[1−(1+β_jt)exp
(−β_jt)u(t)、θ_j](ii) β_j:j番目の固有角周波数 θ_j:j番目の上限値 (3)音素制御機構: G_i_k(t)=−Min[1−(1+γ_kt)e
xp(−γ_kt)u(t)、φ_k](iii) あるいは G_f_k(t)=exp(−γ_kt)u(t)(i
v)γ_k:k番目の固有角周波数 φ_k:k番目の上限値 (4)文形指定制御機構: G_t_l(t)=Min[1−(1+ζ_lt)ex
p(−ζ_lt)u(t)、θ_t_l](v) ζ_l:l番目の固有角周波数 θ_t_l:l番目の上限値 (5)強調制御機構: G_s_m(t)=Min[1−(1+η_mt)ex
p(−η_mt)u(t)、θ_s_m](vi) η_m:m番目の固有角周波数 θ_s_m:m番目の上限値 ピッチパタン: ▲数式、化学式、表等があります▼ ((iii)式のG_f_k(t)使用の場合)(vi
i)あるいは ▲数式、化学式、表等があります▼ ((iv)式のG_f_k(t)使用の場合)(vii
i)ここで、 F_m_i_nは最低周波数、 Iはフレーズ指令の数、A_p_iはi番目のフレーズ
指令の大きさ、T_0_iはi番目のフレーズ指令の時
点、 Jはアクセント指令の数、A_a_jはj番目のアクセ
ント指令の大きさ、T_1_j、T_2_jはそれぞれ
j番目のアクセント指令の開始時点と終了時点、には音
素指令の数、A_f_kはk番目の音素指令の大きさ、
T_3_k、T_4_kはそれぞれj番目の音素指令の
開始時点と終了時点、 Lは文形指定指令の数、A_t_lはl番目の文形指定
指令の大きさ、T_5_l、T_6_lはそれぞれl番
目の文形指定指令の開始時点と終了時点、 Mは強調指令の数、A_s_mはm番目の強調指令の大
きさ、T_7_m、T_8_mはそれぞれm番目の強調
指令の開始時点と終了時点である。 12、特許請求の範囲第1項および第3項記載の音声規
則合成方式において、 音声信号を声道情報と音源情報に分解、再合成すること
を特徴とする分析合成手段を具備し、第2の韻律制御手
段は、該音源情報の振幅値を増減させることにより実行
すること を特徴とする音声規則合成方式。 13、特許請求の範囲第1項および第3項記載の音声規
則合成方式において、 音声信号を該音声信号の特徴を有する最小単位(素片)
に分解、再合成する手段を具備し、第2の韻律制御手段
は、該素片の振幅値を増減させることにより実行するこ
と を特徴とする音声規則合成方式。 14、特許請求の範囲第1項および第4項記載の音声規
則合成方式において、第3の韻律制御手段は、 特許請求の範囲第12項あるいは第13項記載の音声信
号を分解する手段により得られる声道情報と音源情報、
あるいは素片を 同一情報の繰返し手段、情報の間引き手段、あるいは情
報間の補間手段により、 設定された時間長に伸縮して配列することにより実行す
ること を特徴とする音声規則合成方式。 15、特許請求の範囲第1項および第5項記載の音声規
則合成方式において、第4の韻律制御手段は、 特許請求の範囲第12項あるいは第13項記載の音声信
号を分解、再合成する手段における音源情報の振幅値、
あるいは素片の振幅値に、設定された時間長分だけ0値
を与えることにより実行すること を特徴とする音声規則合成方式。 16、特許請求の範囲第1項記載の音声規則合成方式に
おいて、該文形を指定する手段の出力値に応じて、 文形が平叙文なら、該第1の韻律制御手段が文末ピッチ
の弱め、該第2の韻律制御手段が文末パワーの弱めを同
時に出力し、 文形が疑問文なら、該第1の韻律制御手段が文末ピッチ
の強調、該第2の韻律制御手段が文末パワーの強調、該
第3の韻律制御手段が文末音素持続時間の伸長を同時に
出力 することを特徴とする音声規則合成方式。 17、特許請求の範囲第1項記載の音声規則合成方式に
おいて、該強調情報は、強調の範囲の情報を含み、 該強調の範囲が文節であるならば、該文節において、該
第1の韻律制御手段がピッチの強調、該第2の韻律制御
手段がパワーの強調を同時に出力し、 該強調の範囲が句の途中であるならば、該句の途中にお
いて、該第1の韻律制御手段がピッチの強調、該第4の
韻律制御手段が該句直後の無音部持続時間長の伸長を同
時にあるいは単独で出力し、 該強調の範囲が複合単語の一部であるならば、該複合単
語の一部において、該第1の韻律制御手段がピッチの強
調、該第2の韻律制御手段がパワーの強調、該第3の韻
律制御手段が文全体の音素の持続時間長の伸長、該第4
の韻律制御手段が該複合単語の一部の直後の無音部持続
時間長の伸長を同時に出力し、 該強調の範囲が話題の一拍であるならば、その拍におい
て、該第1の韻律制御手段がピッチの強調、該第3の韻
律制御手段が文全体の音素の持続時間長の伸長を同時に
出力し、 該強調の範囲が話題の文節の中の一拍であるならば、そ
の拍において、該第1の韻律制御手段がピッチの強調、
更にその話題の文節において、該第1の韻律制御手段が
ピッチの強調、該第3の韻律制御手段が上記拍の音素の
持続時間長の伸長を同時に出力 することを特徴とする音声規則合成方式。 18、特許請求の範囲第16項記載の文形を指定する手
段の出力値に応じて、ピッチの強調あるいは弱め、パワ
ーの強調あるいは弱め、音素あるいは無音部の伸縮を出
力する手段と、 特許請求の範囲第17項記載の強調の範囲の情報の出力
値に応じて、ピッチの強調あるいは弱め、パワーの強調
あるいは弱め、音素あるいは無音部の伸縮を出力する手
段を共に具備することを特徴とする音声規則合成方式。 19、ピッチの強調あるいは弱めを 特許請求の範囲第11項記載のアクセント制御機構((
ii)式)の指令の大きさ((vii)あるいは(vi
ii)式におけるA_a_j)の値の増減により行い、
強調の範囲を該アクセント制御機構の指令の開始時点お
よび終了時点(それぞれ(vii)あるいは(viii
)式におけるT_1_jおよびT_2_j)で指定する
か、あるいは、特許請求の範囲第11項記載の強調制御
機構((vi)式)の指令の大きさ((vii)あるい
は(viii)式におけるA_s_m)の値の増減によ
り行い、強調の範囲を該強調制御機構の指令の開始時点
および終了時点(それぞれ(vii)あるいは(vii
i)式におけるT_7_mおよびT_8_m)で指定し
、パワーの強調あるいは弱めを 特許請求の範囲第12項記載の音源情報の振幅値で指定
するか、 あるいは、特許請求の範囲第13項記載の素片の振幅値
で指定し、 音素の伸縮を 特許請求の範囲第14項記載の時間長伸縮手段により実
行し、 無音部の伸縮を 特許請求の範囲第15項記載の0値を与える手段により
実行する ことを特徴とする特許請求の範囲第16〜 18項記載の音声規則合成方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP21479989A JPH0378800A (ja) | 1989-08-23 | 1989-08-23 | 音声規則合成方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP21479989A JPH0378800A (ja) | 1989-08-23 | 1989-08-23 | 音声規則合成方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0378800A true JPH0378800A (ja) | 1991-04-03 |
Family
ID=16661717
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP21479989A Pending JPH0378800A (ja) | 1989-08-23 | 1989-08-23 | 音声規則合成方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0378800A (ja) |
-
1989
- 1989-08-23 JP JP21479989A patent/JPH0378800A/ja active Pending
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6470316B1 (en) | Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing | |
| US7240005B2 (en) | Method of controlling high-speed reading in a text-to-speech conversion system | |
| US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
| DE19610019C2 (de) | Digitales Sprachsyntheseverfahren | |
| JPH086591A (ja) | 音声出力装置 | |
| Sproat et al. | Text‐to‐Speech Synthesis | |
| JPH0632020B2 (ja) | 音声合成方法および装置 | |
| JP2006227589A (ja) | 音声合成装置および音声合成方法 | |
| Bonafonte Cávez et al. | A billingual texto-to-speech system in spanish and catalan | |
| JPH0580791A (ja) | 音声規則合成装置および方法 | |
| JPS62138898A (ja) | 音声規則合成方式 | |
| JP2001034284A (ja) | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 | |
| JPS5972494A (ja) | 規則合成方式 | |
| JPH0378800A (ja) | 音声規則合成方式 | |
| Niimi et al. | Synthesis of emotional speech using prosodically balanced VCV segments. | |
| KR0173340B1 (ko) | 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법 | |
| JP3235747B2 (ja) | 音声合成装置及び音声合成方法 | |
| JP3397406B2 (ja) | 音声合成装置及び音声合成方法 | |
| JP2001100777A (ja) | 音声合成方法及び装置 | |
| JPS63174100A (ja) | 音声規則合成方式 | |
| Kaur et al. | Building atext-to-speech system for punjabi language | |
| JPH06214585A (ja) | 音声合成装置 | |
| JPH04149500A (ja) | テキスト音声合成装置 | |
| Rudzicz | Speech Synthesis | |
| JPH01321496A (ja) | 音声合成装置 |