JPH0363696A - テキスト音声合成装置 - Google Patents
テキスト音声合成装置Info
- Publication number
- JPH0363696A JPH0363696A JP1200181A JP20018189A JPH0363696A JP H0363696 A JPH0363696 A JP H0363696A JP 1200181 A JP1200181 A JP 1200181A JP 20018189 A JP20018189 A JP 20018189A JP H0363696 A JPH0363696 A JP H0363696A
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech
- processing
- processing part
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は、文゛字列の入力に基づいて音声を合成出力す
るテキスト音声合成装置に関する。
るテキスト音声合成装置に関する。
[従来の技術〕
テキスト音声合成においては、日本語正書法(漢字仮名
交り文)から音韻系列や韻律情報を抽出し、これら抽出
内容に基づき所定の規則に従って音声パラメータを生成
することにより音声を合成することが行われる。
交り文)から音韻系列や韻律情報を抽出し、これら抽出
内容に基づき所定の規則に従って音声パラメータを生成
することにより音声を合成することが行われる。
このような規則音声合成を行う場合、合成音の明瞭性及
び了解性を確保することはもちろんのこと、自然性を向
上させることも合成音の高品質化の点で重要である。し
かしながら、明瞭性及び了解性と自然性とを同時に向上
させることは難しく、このため、まず合成するテキスト
全般に渡っである程度の明瞭性を確保し、その上で自然
性の向上を図ることが一般に行われている。即ち、合成
音の音節明瞭度はテキストの内容にかかわらず一定に保
たれるのである。
び了解性を確保することはもちろんのこと、自然性を向
上させることも合成音の高品質化の点で重要である。し
かしながら、明瞭性及び了解性と自然性とを同時に向上
させることは難しく、このため、まず合成するテキスト
全般に渡っである程度の明瞭性を確保し、その上で自然
性の向上を図ることが一般に行われている。即ち、合成
音の音節明瞭度はテキストの内容にかかわらず一定に保
たれるのである。
[発明が解決しようとする課1!il
上述したごとき従来のテキスト音声合成方法によると、
テキストの流れから容易に了解できる単語であってもあ
る程度の明瞭度を保つように合成されるため、自然音声
と比べて耳につきやすく、自然性の損なわれた感じを受
けてしまう、I!に使用頻度の低い単語、例えば馴染み
の薄い単語、固有名詞、又は数詞等、については聴き取
ることができない場合も生じてしまう。
テキストの流れから容易に了解できる単語であってもあ
る程度の明瞭度を保つように合成されるため、自然音声
と比べて耳につきやすく、自然性の損なわれた感じを受
けてしまう、I!に使用頻度の低い単語、例えば馴染み
の薄い単語、固有名詞、又は数詞等、については聴き取
ることができない場合も生じてしまう。
また従来のテキスト音声合成方法によると、合成音が一
本調子のため、聴取者は常に緊張して合成音に耳を傾け
ていなければならず、長時間聴〜1ていると疲れやすい
という問題があった。
本調子のため、聴取者は常に緊張して合成音に耳を傾け
ていなければならず、長時間聴〜1ていると疲れやすい
という問題があった。
即ち、人間の発声の場合にはテキストの難易度や聴取者
の理解度等を考慮して発声の方法を適宜変えることによ
り、情報を正確に伝えることができかつ自然性を保った
音声を生成できるが、従来のテキスト音声合成方法では
このような音声の生成が不可能であった。
の理解度等を考慮して発声の方法を適宜変えることによ
り、情報を正確に伝えることができかつ自然性を保った
音声を生成できるが、従来のテキスト音声合成方法では
このような音声の生成が不可能であった。
従って本発明の目的は、了解性及び自然性の高い合成音
声を生成できるテキスト音声合成装置を提供することに
ある。
声を生成できるテキスト音声合成装置を提供することに
ある。
[課題を解決するための手段]
上述の目的を遠戚する本発明の特徴は、入力される文字
列を構文解析して音声パラメータを生成し、該生成した
音声パラメータに基づいて音声を合成するテキスト音声
合成装置であって、前記文字列の各単語の了解難易度を
求める文字列解析部と、該求めた各単語の了解難易度に
応じて合成音声の韻律を制御する韻律処理部と、該求め
た各単語の了解難易度に応じて合成音声の音節明瞭度を
制御する音声パラメータ生成部とを備えたことにある。
列を構文解析して音声パラメータを生成し、該生成した
音声パラメータに基づいて音声を合成するテキスト音声
合成装置であって、前記文字列の各単語の了解難易度を
求める文字列解析部と、該求めた各単語の了解難易度に
応じて合成音声の韻律を制御する韻律処理部と、該求め
た各単語の了解難易度に応じて合成音声の音節明瞭度を
制御する音声パラメータ生成部とを備えたことにある。
文字列解析部は、文字列の各単語の使用頻度をも記憶し
ている日本語辞書を参照して得られる単語の馴染み度合
いと単語の品詞及び出現回数と出現間隔とから了解難易
度を求める了解難易度算出機能を備えることが望ましい
。
ている日本語辞書を参照して得られる単語の馴染み度合
いと単語の品詞及び出現回数と出現間隔とから了解難易
度を求める了解難易度算出機能を備えることが望ましい
。
韻律処理部は、単語の了解難易度に応じて合成音声の基
本周波数、パワー、及び時間長を変化せしめる韻律制御
機能を備えることが望ましい。
本周波数、パワー、及び時間長を変化せしめる韻律制御
機能を備えることが望ましい。
音声パラメータ生成部は、了解難易度の高い単語につい
ては母音の定常部を長くすることによって音節明瞭度を
向上させるように母音の定常部と母音の過渡部との比率
を変化せしめる母音定常部制御機能を備えることが望ま
しい。
ては母音の定常部を長くすることによって音節明瞭度を
向上させるように母音の定常部と母音の過渡部との比率
を変化せしめる母音定常部制御機能を備えることが望ま
しい。
音声パラメータ生成部は、了解難易度の高い単語につい
ては音声パラメータの時間的変化の許容量を大きくする
ことによって音節明瞭度を向上させるように該許容量を
変化せしめる過渡部制御機能を備えることが望ましい。
ては音声パラメータの時間的変化の許容量を大きくする
ことによって音節明瞭度を向上させるように該許容量を
変化せしめる過渡部制御機能を備えることが望ましい。
音声パラメータ生成部は、了解難易度の高い単語につい
てはその母音の無声化を行わない無声化判定機能を備え
ることが望ましい。
てはその母音の無声化を行わない無声化判定機能を備え
ることが望ましい。
[実施例]
以下図面を用いて本発明の実施例を詳細に説明する。
第2図は本発明の一実施例の構成を概略的に示すブロッ
ク図である。
ク図である。
同図において、10は音声合成すべき漢字仮名交り文の
入力される入力部、11は制御部、12は音声パラメー
タに従って音声の合成を行いこれを出力する音声合成部
、13は音声合成部12からの合成音声信号を出力する
出力部、14は日本語辞書及び漢字辞書用メモリ、15
は韻律制御用メモリ、16は音声データ辞書用メモリを
それぞれ示している。これら入力部10、制御部11、
音声合成部12、及びメモリ14.15.16は、バス
17を介して互いに接続されている。
入力される入力部、11は制御部、12は音声パラメー
タに従って音声の合成を行いこれを出力する音声合成部
、13は音声合成部12からの合成音声信号を出力する
出力部、14は日本語辞書及び漢字辞書用メモリ、15
は韻律制御用メモリ、16は音声データ辞書用メモリを
それぞれ示している。これら入力部10、制御部11、
音声合成部12、及びメモリ14.15.16は、バス
17を介して互いに接続されている。
制御部11は、プログラムされたコンピュータで主とし
て構成されており、後述する如く、入力部10から与え
られる入力データからメモリ14.15.16を用いて
音声パラメータを生成する。
て構成されており、後述する如く、入力部10から与え
られる入力データからメモリ14.15.16を用いて
音声パラメータを生成する。
第3図は、特にこの制御部11の機能的構成を詳しく表
すブロック図である。
すブロック図である。
入力部10から与えられる漢字仮名交り文は、文字列解
析部20内の単語分割処理部21に印加される。
析部20内の単語分割処理部21に印加される。
単語分割処理部21において漢字仮名交り文は、日本語
辞書14aを参照し、公知の最長一致法又は文中の文節
数が最小となるように単語を選択する文節最小法等を用
いて各単語に分割される0日本語辞書14aには、単語
毎に一般的な使用頻度、品詞、読み、及びアクセント等
があらかじめ格納されている。
辞書14aを参照し、公知の最長一致法又は文中の文節
数が最小となるように単語を選択する文節最小法等を用
いて各単語に分割される0日本語辞書14aには、単語
毎に一般的な使用頻度、品詞、読み、及びアクセント等
があらかじめ格納されている。
単語分割処理部21においては、さらに、分割された単
語の了解のし易さ、即ち了解難易度を算出する。この了
解難易度算出の前処理として、過去に出現したn個の単
語を記憶することが行われる。
語の了解のし易さ、即ち了解難易度を算出する。この了
解難易度算出の前処理として、過去に出現したn個の単
語を記憶することが行われる。
n個の単語配列として、f(n)〜f(1)の記憶場所
を用意しておき、以下の如く順次シフトを行った後、現
在の単語をf(1)に格納する。
を用意しておき、以下の如く順次シフトを行った後、現
在の単語をf(1)に格納する。
f(n) ←f(n−1)
f(n−1)−f(n−2)
f(2) ←f(1)
ただし、nは下記の第1表におけるb(w)がb(w)
=0となるWの値であり、第1表の例ではn=100と
なる。
=0となるWの値であり、第1表の例ではn=100と
なる。
了解難易度の算出処理は、第4図に示すプログラムに従
って実行される。まずステップS1において、−数的な
使用頻度を各単語毎に5段階ずつ記憶している日本語辞
書14aを参照して該当する単語の使用頻度を求め、こ
れを了解難易度「として格納する。ただし、日本語辞書
14aにその単語がなかった場合は、了解難易度「は最
も低い値「=1とする。了解難易度rは、数値が大きい
ほど頻度が高く了解し易い。
って実行される。まずステップS1において、−数的な
使用頻度を各単語毎に5段階ずつ記憶している日本語辞
書14aを参照して該当する単語の使用頻度を求め、こ
れを了解難易度「として格納する。ただし、日本語辞書
14aにその単語がなかった場合は、了解難易度「は最
も低い値「=1とする。了解難易度rは、数値が大きい
ほど頻度が高く了解し易い。
次いで、ステップS2において、該当する単語の品詞が
数詞又は固有名詞であるかを日本語辞書14aにより調
べ、数詞又は固有名詞の場合は了解難易度「を「=1と
する。ただし、日本語辞書14aに格納しておく際に、
固有名詞に関しては使用頻度を少し低めにすることで対
処してもよい。
数詞又は固有名詞であるかを日本語辞書14aにより調
べ、数詞又は固有名詞の場合は了解難易度「を「=1と
する。ただし、日本語辞書14aに格納しておく際に、
固有名詞に関しては使用頻度を少し低めにすることで対
処してもよい。
次のステップS3では、該当する単語が過去に出現した
nfilの単語に含まれるかどうかを出現単語配列f(
2)からf(n)までさかのぼって調べる。ただし、前
述の如くnは第1表におけるb(w)がb(w)=0と
なるWの値であり、第1表の例では旧100である。過
去のn個の単語に含まれる場合はステップS4に進み、
含まれない場合はステップS5に進む。
nfilの単語に含まれるかどうかを出現単語配列f(
2)からf(n)までさかのぼって調べる。ただし、前
述の如くnは第1表におけるb(w)がb(w)=0と
なるWの値であり、第1表の例では旧100である。過
去のn個の単語に含まれる場合はステップS4に進み、
含まれない場合はステップS5に進む。
ステップS4では、該当する単語が出現単語配列の何番
目であるかを調べ、その番号n=2をWとする。さらに
、第1表からこのWに応じたb(w)を求め、その求め
たb(w)を「に加算する。
目であるかを調べ、その番号n=2をWとする。さらに
、第1表からこのWに応じたb(w)を求め、その求め
たb(w)を「に加算する。
ステップS5では、単語が後続するかどうかを判別し、
後続する場合はステップS1へ進み、後続しない場合は
この算出処理を終了する。
後続する場合はステップS1へ進み、後続しない場合は
この算出処理を終了する。
第 1 表
単語分割処理部21において分割された単語が、日本語
辞書14aの格納内容とマツチングして分割された単語
であれば、単語読みアクセント処理部22で同型単語選
択処理が行われる。この処理は公知であり、同じ文字で
ありながら異なる読み及びアクセントで発声される単語
の区別を行うものである。処理された単語は、韻律処理
部23へ出力される。
辞書14aの格納内容とマツチングして分割された単語
であれば、単語読みアクセント処理部22で同型単語選
択処理が行われる。この処理は公知であり、同じ文字で
ありながら異なる読み及びアクセントで発声される単語
の区別を行うものである。処理された単語は、韻律処理
部23へ出力される。
一方、日本語辞書14aの格納内容とマツチングせずに
分割された未知単語は、公知の方法で次の如く処理され
る。即ち、未知単語のうち漢字未知語は、漢字1文字毎
の読みがあらかじめ格納されている漢字辞書14bを参
照して未知単語読み処理部24においていったん読みに
変換された後、未知単語アクセント処理部25へ出力さ
れる。未知単語のうち平板名、片仮名の未知語は、その
平板名、片仮名を読みとしてそのまま未知単語アクセン
ト処理部25へ出力される。未知単語アクセント処理部
25においては、所定のルールを用いることによって読
みからアクセントを生成する処理が行われ、アクセント
を付与された未知単語は韻律処理部23へ出力される。
分割された未知単語は、公知の方法で次の如く処理され
る。即ち、未知単語のうち漢字未知語は、漢字1文字毎
の読みがあらかじめ格納されている漢字辞書14bを参
照して未知単語読み処理部24においていったん読みに
変換された後、未知単語アクセント処理部25へ出力さ
れる。未知単語のうち平板名、片仮名の未知語は、その
平板名、片仮名を読みとしてそのまま未知単語アクセン
ト処理部25へ出力される。未知単語アクセント処理部
25においては、所定のルールを用いることによって読
みからアクセントを生成する処理が行われ、アクセント
を付与された未知単語は韻律処理部23へ出力される。
韻律処理部23では、単語読みアクセント処理部22又
は未知単語アクセント処理部25から得られる各単語の
アクセントから、単語が連鎖した際の分節のアクセント
の設定、フレーズの設定、及び呼気段落間のポーズの設
定が公知の方法で行われる。
は未知単語アクセント処理部25から得られる各単語の
アクセントから、単語が連鎖した際の分節のアクセント
の設定、フレーズの設定、及び呼気段落間のポーズの設
定が公知の方法で行われる。
さらにこの韻律処理部23では、了解難易度「に応じた
韻律パラメータの算出及び韻律制御処理が韻律制御用メ
モリ15を用いて行われる。以下この処理について、第
1図に示すプログラムを用いて説明する。
韻律パラメータの算出及び韻律制御処理が韻律制御用メ
モリ15を用いて行われる。以下この処理について、第
1図に示すプログラムを用いて説明する。
なお、ここで述べる韻律パラメータFO1pw、■「と
は、テキスト全体の平均基本周波数、平均パワ、平均時
間長をそれぞれ制御するものであり、これらの韻律パラ
メータは公知の方法で既に算出されているものとする。
は、テキスト全体の平均基本周波数、平均パワ、平均時
間長をそれぞれ制御するものであり、これらの韻律パラ
メータは公知の方法で既に算出されているものとする。
ステップ81Gにおいて、各韻律パラメータFo、Pw
、 Trに関数S(「)を掛ける。即ち、FoをFo−
3(r)に、pwをPw−3(r)に■「を■「・S(
「)にそれぞれ変更する。ただし、関数S(「)は了解
難易度rを変数とする例えば第2表に示す如き関数であ
る。この第2表に示す関数は、韻律パラメータの拳類に
よって変わるが、了解のしにくさに伴って各韻律パラメ
ータを同一に保つか又は大きくする点では互いに一致し
たものである。
、 Trに関数S(「)を掛ける。即ち、FoをFo−
3(r)に、pwをPw−3(r)に■「を■「・S(
「)にそれぞれ変更する。ただし、関数S(「)は了解
難易度rを変数とする例えば第2表に示す如き関数であ
る。この第2表に示す関数は、韻律パラメータの拳類に
よって変わるが、了解のしにくさに伴って各韻律パラメ
ータを同一に保つか又は大きくする点では互いに一致し
たものである。
第 2 表
次いで、ステップ811において、母音長Iv及び子音
長1cを次式から算出する。
長1cを次式から算出する。
Iv=IV/C/−1c(v、I) −TrIC雪1
/c/ ・Ic(c、I) ・■「ただし、Iv/c
/は先行子音別母音の基本長、I/C/は子音固有長、
Ic(v、I) 、Ic(c、I)は音素毎のモーラ位
置係数、T「は基本時間長、■は母音、Cは子音、Iは
モーラ位置である。なお、母音区間は時間軸に対して内
部が過渡部1v1、定常部1v2、過渡部1v3に分割
されている。この定常部Iv2の算出方法は公知のどの
ようなものであっても良いが、後述する音節明瞭度の制
御処理において補正される。
/c/ ・Ic(c、I) ・■「ただし、Iv/c
/は先行子音別母音の基本長、I/C/は子音固有長、
Ic(v、I) 、Ic(c、I)は音素毎のモーラ位
置係数、T「は基本時間長、■は母音、Cは子音、Iは
モーラ位置である。なお、母音区間は時間軸に対して内
部が過渡部1v1、定常部1v2、過渡部1v3に分割
されている。この定常部Iv2の算出方法は公知のどの
ようなものであっても良いが、後述する音節明瞭度の制
御処理において補正される。
次のステップSi2では、ピッチパターンF(t)が下
記の如く算出される。
記の如く算出される。
I n(F(t))−j n(Fmin)+Ap−Gp
(t−To)+Aa−Fo−(Ga(t−TI)−Ga
(t−72))Gl)(t)=a + t −exEl
(−a −t)Ga(t)=1−(1+β −t)−e
xp(−β−13ただし、^D−GE)(t−To)は
フレーズ成分、^a−F。
(t−To)+Aa−Fo−(Ga(t−TI)−Ga
(t−72))Gl)(t)=a + t −exEl
(−a −t)Ga(t)=1−(1+β −t)−e
xp(−β−13ただし、^D−GE)(t−To)は
フレーズ成分、^a−F。
−(Ga(t−Tl)−Ga(t−72))はアクセン
ト成分、Fm1nは下限臨界値、Ap、^qはフレーズ
成分、アクセント成分の振幅、TO1■1はフレーズ成
分、アクセント成分の開始指令時点、12はアクセント
成分の終了指令時点、α、βはフレーズ成分、アクセン
ト成分の下降時係数、tは時間である。
ト成分、Fm1nは下限臨界値、Ap、^qはフレーズ
成分、アクセント成分の振幅、TO1■1はフレーズ成
分、アクセント成分の開始指令時点、12はアクセント
成分の終了指令時点、α、βはフレーズ成分、アクセン
ト成分の下降時係数、tは時間である。
次のステップ313では、パワーパターンpH)を上述
のピッチパターンF(t)の算出と同様の方法で算出す
る。ただし、ステップ812におけるFoをPwに、F
minをPm1n(下限臨界値)に置き換えて行う。
のピッチパターンF(t)の算出と同様の方法で算出す
る。ただし、ステップ812におけるFoをPwに、F
minをPm1n(下限臨界値)に置き換えて行う。
以上の如く韻律の制御を行うことにより、了解しにくい
単語は、例えば時間長が長くなりパワーが大きくなる。
単語は、例えば時間長が長くなりパワーが大きくなる。
その結果、後述するように、聴き取り易くなるのである
。
。
韻律処理部23で算出された母音長Iv、子音長1c、
ピッチパターンF(t)、パワーパターンp(t)は音
声パラメータ主成部26に印加される。この音声パラメ
ータ主成部26では、合成用単位の音声データ辞書16
を参照して各単語の読みに対応する合成単位が検索され
、さらにこれらの補間及び合成が韻律処理部23からの
上述の情報に従って行われ、最終的に音声合成用の音声
パラメータの時系列が得られる。
ピッチパターンF(t)、パワーパターンp(t)は音
声パラメータ主成部26に印加される。この音声パラメ
ータ主成部26では、合成用単位の音声データ辞書16
を参照して各単語の読みに対応する合成単位が検索され
、さらにこれらの補間及び合成が韻律処理部23からの
上述の情報に従って行われ、最終的に音声合成用の音声
パラメータの時系列が得られる。
さらにこの音声パラメータ主成部26では、了解難易度
rに応じた音節明瞭度の制御処理が行われる。
rに応じた音節明瞭度の制御処理が行われる。
第5図はこの音節明瞭度の制御処理方法の一例を示して
いる。この例は、了解難易度の高い単語については母音
の定常部を長くすることによって音節明瞭度を向上させ
るように母音の定常部と母音の過渡部との比率を変化せ
しめるものである。
いる。この例は、了解難易度の高い単語については母音
の定常部を長くすることによって音節明瞭度を向上させ
るように母音の定常部と母音の過渡部との比率を変化せ
しめるものである。
韻律処理部23で、母音部の過渡部時間長IVl 。
定常部時間長1v2 、過渡部時間長1v3を算出して
おき、この第5図のプログラムで各区間の補正を行う。
おき、この第5図のプログラムで各区間の補正を行う。
まずステップ820では、了解難易度「を変数とする例
えば第2表に示す如き関数S(「)を用いて過渡部時間
長1vl 、 Iv3を次のように補正する。
えば第2表に示す如き関数S(「)を用いて過渡部時間
長1vl 、 Iv3を次のように補正する。
Ivl ←Ivl−1v2 ・(S(r)−1)/2I
v3←Iv3−1v2 ・(S(r)−1)/2次のス
テップ821では、同様に定常部時間長Iv2を次のよ
うに補正する。
v3←Iv3−1v2 ・(S(r)−1)/2次のス
テップ821では、同様に定常部時間長Iv2を次のよ
うに補正する。
Iv2 +Iv2−5(r)
次いでステップS22において、過渡部時間長1v1の
音声パラメータが先行する音の中で最も近いターゲット
パラメータに線形に補間され、過渡部時間長1v3の音
声パラメータが後続する音の中で最も近いターゲットパ
ラメータに線形に補間される。
音声パラメータが先行する音の中で最も近いターゲット
パラメータに線形に補間され、過渡部時間長1v3の音
声パラメータが後続する音の中で最も近いターゲットパ
ラメータに線形に補間される。
以上の処理によって音声パラメータが生成される。
第6図は、上述の制御処理方法による作用を説明する図
であり、母音連鎖の音響パラメータの時間的変化、即ち
、母音の/a/から/i/への第1ホルマント及び第2
ホルマントの時間的遷移を表している。同図(^)に示
す従来の制御処理方法に比して、同図(B)に示す上述
の制御処理方法によれば、各母音の定常部の時間長が長
くなり母音部が明瞭になることから音節明瞭度が向上す
る。
であり、母音連鎖の音響パラメータの時間的変化、即ち
、母音の/a/から/i/への第1ホルマント及び第2
ホルマントの時間的遷移を表している。同図(^)に示
す従来の制御処理方法に比して、同図(B)に示す上述
の制御処理方法によれば、各母音の定常部の時間長が長
くなり母音部が明瞭になることから音節明瞭度が向上す
る。
第7図は音節明瞭度の制御処理方法の他の例を示してい
る。この例は、了解難易度の高い単語については音響パ
ラメータの時間的変化の許容量を大きくすることによっ
て音節明瞭度を向上させるようにこの許容量を変化せし
めて音声パラメータを生成する方法である。
る。この例は、了解難易度の高い単語については音響パ
ラメータの時間的変化の許容量を大きくすることによっ
て音節明瞭度を向上させるようにこの許容量を変化せし
めて音声パラメータを生成する方法である。
まずステップ330では、合成用単位の音声データ辞書
16を参照しつつ、韻律処理部23で算出した音素時間
長に応じて音素毎にターゲットパラメータを抽出する。
16を参照しつつ、韻律処理部23で算出した音素時間
長に応じて音素毎にターゲットパラメータを抽出する。
以下の説明のために、例えば母音連@/a(/を合成す
ると仮定する。また、各々の母音のターゲットパラメー
タの中心位置をtl、t2(各々は母音区間の中心)、
各々の第1パラメータの大きさをFl(i) 、F2(
i)とする、ただし、iはターゲットパラメータの番号
を示している。
ると仮定する。また、各々の母音のターゲットパラメー
タの中心位置をtl、t2(各々は母音区間の中心)、
各々の第1パラメータの大きさをFl(i) 、F2(
i)とする、ただし、iはターゲットパラメータの番号
を示している。
次のステップ831では、了解難易度「を変数とする例
えば第2表に示す如き関数S(「)を用いて通常発声の
時間的変化の許容量τ(i)を次のように補正する。
えば第2表に示す如き関数S(「)を用いて通常発声の
時間的変化の許容量τ(i)を次のように補正する。
τ(i)←τに)・S(「)
次いで、ステップ832において、音素毎に後続するタ
ーゲットパラメータの中心位IFt2とこの音素の中心
位置tlとの間の時間的中心となる位置t。
ーゲットパラメータの中心位IFt2とこの音素の中心
位置tlとの間の時間的中心となる位置t。
を次式から算出する。
tO雪t1+(t2−tl)/2
次のステップ533では、toでのターゲットパラメー
タFo(i)の大きさを次式から算出する。
タFo(i)の大きさを次式から算出する。
Fo(i)=(Fl (i)+F2(i))/2次のス
テップ334では、tlから12の間のターゲットパラ
メータの時間的変化F(t、i)をFl(i)とF2(
i)との大小関係で場合骨けし次式で算出する。
テップ334では、tlから12の間のターゲットパラ
メータの時間的変化F(t、i)をFl(i)とF2(
i)との大小関係で場合骨けし次式で算出する。
ただし、tは時間を表す。
Fl(i) <F2(i)のとき
F(t、 1)−FHi)
tl< t < (Fl(i)−Fo(i))/τ(i
)+t。
)+t。
F(t、1)=Fo(i)+ r(i) −(t−t
o)(Fl(i)−Fo(i))/r (i)+to≦
t≦(F2(i)−Fo(i))/τ(i)+t。
o)(Fl(i)−Fo(i))/r (i)+to≦
t≦(F2(i)−Fo(i))/τ(i)+t。
F(t、 1)=F2(i)
(F2(i)−Fo(i))/r (i)+to< t
< t2F1(i) >F2(i)のとき F(t、 1)=FHi) tl< t < (Fo(t)−Fl(i))/r (
i)+t。
< t2F1(i) >F2(i)のとき F(t、 1)=FHi) tl< t < (Fo(t)−Fl(i))/r (
i)+t。
F(t、1)=Fo(i)−r(i) ・(t−to
)(Fo(i)−Fl(i))/τ(i)+to≦t≦
(Fo(i)−F2(i))/τ(i)+t。
)(Fo(i)−Fl(i))/τ(i)+to≦t≦
(Fo(i)−F2(i))/τ(i)+t。
F(t、 1)=F2(i)
(Fo(i)−F2(i))/r (i)+to< t
< t2以上の処理によって音声パラメータが生成さ
れる。
< t2以上の処理によって音声パラメータが生成さ
れる。
第8図は、上述の制御処理方法による作用を説明する図
であり、母音の/a/から/i/への第1ホルマント及
び第2ホルマントの時間的遷移を表している。同図(A
)に示す従来の制御処理方法によれば、母音過渡部の時
間的変化の制限が大きく変化が緩やかである。しかしな
がら、同図(B)に示す上述の制御処理方法によれば、
例えば、了解しにくい単語では時間的変化が大きくなり
、それだけ過渡部が短くなり定常部が長くできるので結
果的に音節明瞭度が向上する。
であり、母音の/a/から/i/への第1ホルマント及
び第2ホルマントの時間的遷移を表している。同図(A
)に示す従来の制御処理方法によれば、母音過渡部の時
間的変化の制限が大きく変化が緩やかである。しかしな
がら、同図(B)に示す上述の制御処理方法によれば、
例えば、了解しにくい単語では時間的変化が大きくなり
、それだけ過渡部が短くなり定常部が長くできるので結
果的に音節明瞭度が向上する。
音声パラメータ主成部26における了解難易度「に応じ
た音節明瞭度の制御処理方法として、了解難易度の高い
単語についてはその母音の無声化を行わない無声化判定
処理について以下説明する。
た音節明瞭度の制御処理方法として、了解難易度の高い
単語についてはその母音の無声化を行わない無声化判定
処理について以下説明する。
一般に、アクセント核にない無声子音に挾まれた高貴母
音/i/ 、/u/は、無声化した方が自然性を増すた
め、ルールによって無声化処理する場合が多い、しかし
ながら、了解しにくい単語ではその部分の了解度が低下
してしまう、そこで、了解難易度「が例えば2以下の場
合には無声化処理を行わないで時間長を短くしたり、パ
ワーを小さくするような準無声化処理を行う無声化判定
機能を音声パラメータ主成部26に設けることで音節明
瞭度を向上させることができる。
音/i/ 、/u/は、無声化した方が自然性を増すた
め、ルールによって無声化処理する場合が多い、しかし
ながら、了解しにくい単語ではその部分の了解度が低下
してしまう、そこで、了解難易度「が例えば2以下の場
合には無声化処理を行わないで時間長を短くしたり、パ
ワーを小さくするような準無声化処理を行う無声化判定
機能を音声パラメータ主成部26に設けることで音節明
瞭度を向上させることができる。
この無声化判定処理の手順について、第9図を用いて以
下説明する。
下説明する。
まずステップS40において、対象とする母音が高舌母
音(/i八へU/)かどうか判別し、高舌母音でない場
合は有声と判断してステップS44へ進んで無声化処理
を行わず、高舌母音である場合は次のステップ541へ
進む。
音(/i八へU/)かどうか判別し、高舌母音でない場
合は有声と判断してステップS44へ進んで無声化処理
を行わず、高舌母音である場合は次のステップ541へ
進む。
ステップ841では、対象とする母音が無声子音に挾ま
れているかどうか判別し、挾まれてない場合は有声と判
断してステップ344へ進んで無声化処理を行わず、挾
まれている場合は次のステ・ノブ342へ進む。
れているかどうか判別し、挾まれてない場合は有声と判
断してステップ344へ進んで無声化処理を行わず、挾
まれている場合は次のステ・ノブ342へ進む。
ステップ842では、対象とする母音がアクセント核を
有しているかどうか判別し、有していれば時間長を短く
したり、パワーを小さくするような準無声化処理を行う
ステップ846へ進む、アクセント核を有していない場
合は次のステップ343へ進む。
有しているかどうか判別し、有していれば時間長を短く
したり、パワーを小さくするような準無声化処理を行う
ステップ846へ進む、アクセント核を有していない場
合は次のステップ343へ進む。
ステップS43では、対象とする母音の了解難易度「が
2以下かどうか判別し、2以下の場合には上述の準無声
化処理を行うステップ846へ進む。
2以下かどうか判別し、2以下の場合には上述の準無声
化処理を行うステップ846へ進む。
3以上の場合は無声と判断してステップ845へ進み、
無声か処理を行う。
無声か処理を行う。
音声パラメータ主成部26で以上の如き処理を行うこと
により、合成用音声パラメータが生成され、音声合成部
12に印加される。
により、合成用音声パラメータが生成され、音声合成部
12に印加される。
音声合成部12では、音声パラメータに基づいて公知の
方法により実際の合成音声波形に対応した信号を合成し
、出力部13に出力する。
方法により実際の合成音声波形に対応した信号を合成し
、出力部13に出力する。
次に、本実施例の作用を、「私の名前は、前出伊津子で
す、」という文を実際に合成する場合について説明する
。
す、」という文を実際に合成する場合について説明する
。
入力部10よりこの文が入力されると、単語分割処理部
21において第3表の(A)の如く分割され、さらに日
本語辞書14aによって第3表の(B)の如く単語毎に
品詞及び使用頻度が得られる。単語分割処理部21では
さらにまた分割された各単語の了解難易度「が第3表の
(C)の如く算出される。
21において第3表の(A)の如く分割され、さらに日
本語辞書14aによって第3表の(B)の如く単語毎に
品詞及び使用頻度が得られる。単語分割処理部21では
さらにまた分割された各単語の了解難易度「が第3表の
(C)の如く算出される。
単語絖みアクセント処理部22において、第3表の(0
)に示す読みとアクセントとが与えられる。
)に示す読みとアクセントとが与えられる。
韻律処理部23においては、了解難易度「の低い「前出
伊津子」の部分の基本周波数を高く、パワーを大きく、
時間長を長くする韻律制御が行われ、この部分が非常に
聴き取り易くなる。
伊津子」の部分の基本周波数を高く、パワーを大きく、
時間長を長くする韻律制御が行われ、この部分が非常に
聴き取り易くなる。
音声パラメータ生成部26では、前述の音節明瞭度の制
御処理によって「前出」の「え」が「名前jの「え」よ
りも母音での定常部の比率を高められている。これは、
「前出」の「え」が「名前」の「え」よりも了解難易度
「が低いためである。さらに従来の処理では、音韻系列
から「いつこ」の[つ」が無声化されるが、本発明では
前述の制御処理により了解難易度「の低い「いつこ」の
[つ」は無声化処理されない。
御処理によって「前出」の「え」が「名前jの「え」よ
りも母音での定常部の比率を高められている。これは、
「前出」の「え」が「名前」の「え」よりも了解難易度
「が低いためである。さらに従来の処理では、音韻系列
から「いつこ」の[つ」が無声化されるが、本発明では
前述の制御処理により了解難易度「の低い「いつこ」の
[つ」は無声化処理されない。
以上の処理により、「前出伊津子」の部分が他の部分に
比べて明瞭に発声されるため、通常では理解しにくい固
有名詞が聴き取り易くなる。また、逆に容易に聴き取る
ことができる文末の「です」等は、パワー、基本周波数
が小さくなり、従って、聴取者の耳への負担が低減でき
、従来の合成音声に比べて聴き疲れしにくい合成音声を
作ることが可能となる。
比べて明瞭に発声されるため、通常では理解しにくい固
有名詞が聴き取り易くなる。また、逆に容易に聴き取る
ことができる文末の「です」等は、パワー、基本周波数
が小さくなり、従って、聴取者の耳への負担が低減でき
、従来の合成音声に比べて聴き疲れしにくい合成音声を
作ることが可能となる。
本発明のテキスト音声合成装置は、上述した実施例に限
定されるものではない。
定されるものではない。
例えば、文字列解析部は文字列の各単語の了解難易度を
求めるものであれば、それ以外の構成はどのようなもの
であっても良い、また、韻律処理部も求めた各単語の了
解難易度に応じて合成音声の韻律を制御するものであれ
ば、それ以外の構成はどのようなものであっても良い、
同様に、音声パラメータ生成部も求めた各単語の了解難
易度に応じて合成音声の音節明瞭度を制御するものであ
れば、それ以外の構成はどのようなものであっても良い
。
求めるものであれば、それ以外の構成はどのようなもの
であっても良い、また、韻律処理部も求めた各単語の了
解難易度に応じて合成音声の韻律を制御するものであれ
ば、それ以外の構成はどのようなものであっても良い、
同様に、音声パラメータ生成部も求めた各単語の了解難
易度に応じて合成音声の音節明瞭度を制御するものであ
れば、それ以外の構成はどのようなものであっても良い
。
さらに、音声パラメータ生成部の構成として、前述の実
施例の全ての構成を必ずしも備える必要はなく、各単語
の了解難易度に応じて合成音声の音節明瞭度を制御する
構成が少なくとも1つあれば良い。
施例の全ての構成を必ずしも備える必要はなく、各単語
の了解難易度に応じて合成音声の音節明瞭度を制御する
構成が少なくとも1つあれば良い。
音声合成部も、音声パラメータを用いて音声合成を行う
ものであればどのようなものであっても良い。
ものであればどのようなものであっても良い。
[発明の効果]
以上詳細に説明したように本発明のテキスト音声合成装
置によれば、入力される文字列の各単語の了解難易度を
求める文字列解析部と、求めた各単語の了解難易度に応
じて合成音声の韻律を制御する韻律処理部と、求めた各
単語の了解難易度に応じて合成音声の音節明瞭度を制御
する音声パラメータ生成部とを備えているため、了解性
及び自然性の高い高品質の合成音声を生成することがで
きる。
置によれば、入力される文字列の各単語の了解難易度を
求める文字列解析部と、求めた各単語の了解難易度に応
じて合成音声の韻律を制御する韻律処理部と、求めた各
単語の了解難易度に応じて合成音声の音節明瞭度を制御
する音声パラメータ生成部とを備えているため、了解性
及び自然性の高い高品質の合成音声を生成することがで
きる。
第3表
第1図は本発明の一実施例における韻律制御処理用プロ
グラムのフローチャート、第2図は上記実施例の構成を
概略的に示すブロック図、第3図は制御部の機能的構成
を詳しく表すブロック図、第4図は了解難易度の算出処
理用プログラムのフローチャート、第5図は音節明瞭度
の制御処理の一例のプログラムのフローチャート、第6
図は第5図の制御処理による作用を説明する図、第7図
は音節明瞭度の制御処理の他の例のプログラムのフロー
チャート、第8図は第7図の制御処理による作用を説明
する図、第9図は無声化判定処理用プログラムのフロー
チャートである。 10・・・・・・入力部、11・・団・制御部、12・
・・・・・音声合成部、13・・・・・・出力部、14
・・・・・・日本語辞書及び漢字辞書用メモリ、14a
・・・・・・日本語辞書、14b・・・・・・漢字辞書
、15・・・・・・韻律制御用メモリ、16・・・・・
・音声データ辞書用メモリ、17・・・・・・バス、2
1・・・・・・単語分割処理部、22・・・・・・単語
読みアクセント処理部、23・・・・・・韻律処理部、
24・旧・・未知単語読み処理部、25・・・・・・未
知単語アクセント処理部、 夕生成部。 26・・・・・・音声バラメー 第 図 第6図 /a/ /1/ 第8図
グラムのフローチャート、第2図は上記実施例の構成を
概略的に示すブロック図、第3図は制御部の機能的構成
を詳しく表すブロック図、第4図は了解難易度の算出処
理用プログラムのフローチャート、第5図は音節明瞭度
の制御処理の一例のプログラムのフローチャート、第6
図は第5図の制御処理による作用を説明する図、第7図
は音節明瞭度の制御処理の他の例のプログラムのフロー
チャート、第8図は第7図の制御処理による作用を説明
する図、第9図は無声化判定処理用プログラムのフロー
チャートである。 10・・・・・・入力部、11・・団・制御部、12・
・・・・・音声合成部、13・・・・・・出力部、14
・・・・・・日本語辞書及び漢字辞書用メモリ、14a
・・・・・・日本語辞書、14b・・・・・・漢字辞書
、15・・・・・・韻律制御用メモリ、16・・・・・
・音声データ辞書用メモリ、17・・・・・・バス、2
1・・・・・・単語分割処理部、22・・・・・・単語
読みアクセント処理部、23・・・・・・韻律処理部、
24・旧・・未知単語読み処理部、25・・・・・・未
知単語アクセント処理部、 夕生成部。 26・・・・・・音声バラメー 第 図 第6図 /a/ /1/ 第8図
Claims (1)
- 入力される文字列を構文解析して音声パラメータを生成
し、該生成した音声パラメータに基づいて音声を合成す
るテキスト音声合成装置であって、前記文字列の各単語
の了解難易度を求める文字列解析部と、該求めた各単語
の了解難易度に応じて合成音声の韻律を制御する韻律処
理部と、該求めた各単語の了解難易度に応じて合成音声
の音節明瞭度を制御する音声パラメータ生成部とを備え
たことを特徴とするテキスト音声合成装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1200181A JPH0363696A (ja) | 1989-08-01 | 1989-08-01 | テキスト音声合成装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1200181A JPH0363696A (ja) | 1989-08-01 | 1989-08-01 | テキスト音声合成装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0363696A true JPH0363696A (ja) | 1991-03-19 |
Family
ID=16420144
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1200181A Pending JPH0363696A (ja) | 1989-08-01 | 1989-08-01 | テキスト音声合成装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0363696A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5028578A (en) * | 1988-08-23 | 1991-07-02 | Ernst R | Oxygen absorbent and use thereof |
| US6751592B1 (en) | 1999-01-12 | 2004-06-15 | Kabushiki Kaisha Toshiba | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically |
-
1989
- 1989-08-01 JP JP1200181A patent/JPH0363696A/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5028578A (en) * | 1988-08-23 | 1991-07-02 | Ernst R | Oxygen absorbent and use thereof |
| US6751592B1 (en) | 1999-01-12 | 2004-06-15 | Kabushiki Kaisha Toshiba | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6470316B1 (en) | Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing | |
| US7565291B2 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
| EP2009620B1 (en) | Phoneme length adjustment for speech synthesis | |
| JP2000206982A (ja) | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 | |
| JPH0363696A (ja) | テキスト音声合成装置 | |
| JP4260071B2 (ja) | 音声合成方法、音声合成プログラム及び音声合成装置 | |
| JP3113101B2 (ja) | 音声合成装置 | |
| JP3575919B2 (ja) | テキスト音声変換装置 | |
| JPH0580791A (ja) | 音声規則合成装置および方法 | |
| JP2703253B2 (ja) | 音声合成装置 | |
| Olaszy | MULTIVOX-A FLEXIBLE TEXT-TO-SPEECH SYSTEM FOR HUNGARIAN, FINNISH, GERMAN, ESPERANTO, ITALIAN ANO OTHER LANGUAGES FOR IBM-PC | |
| JPH01321496A (ja) | 音声合成装置 | |
| JP2573586B2 (ja) | 規則型音声合成装置 | |
| JPH08160983A (ja) | 音声合成装置 | |
| JPH056191A (ja) | 音声合成装置 | |
| JP2573585B2 (ja) | 音声スペクトルパタン生成装置 | |
| JP2675883B2 (ja) | 音声合成方式 | |
| JPH04134499A (ja) | 音声規則合成装置 | |
| JPH01200292A (ja) | 音声合成装置 | |
| Albro | Synthesizing intonation and stress for English | |
| JPS63174100A (ja) | 音声規則合成方式 | |
| JPH08328578A (ja) | テキスト音声合成装置 | |
| JPH1097290A (ja) | 音声合成装置 | |
| JPH06118981A (ja) | 音声合成装置 | |
| JPH08160990A (ja) | 音声合成装置 |