JPH03216699A - 音声合成装置の音源データ生成方法 - Google Patents
音声合成装置の音源データ生成方法Info
- Publication number
- JPH03216699A JPH03216699A JP2012283A JP1228390A JPH03216699A JP H03216699 A JPH03216699 A JP H03216699A JP 2012283 A JP2012283 A JP 2012283A JP 1228390 A JP1228390 A JP 1228390A JP H03216699 A JPH03216699 A JP H03216699A
- Authority
- JP
- Japan
- Prior art keywords
- peak position
- sound source
- waveform
- residue
- residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000012935 Averaging Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 abstract description 7
- 238000003786 synthesis reaction Methods 0.000 abstract description 7
- 238000012950 reanalysis Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
A.産業上の利用分野
本発明は、規則合成方式による音声合成装置に係り、特
に音源データの生成方法に関する。
に音源データの生成方法に関する。
B.発明の概要
本発明は、複数の音声波形から得る残差情報を音源情報
とする音声合成装置において、残差情報の各ピッチ区間
でのピーク位置のバラツキを少なくする処理を行い、さ
らにはピーク値の変動及びインパルス性の弱い区間のイ
ンパルス性強調処理を行うことにより、 合成音声にざらつく感じのノイズを低減したものである
。
とする音声合成装置において、残差情報の各ピッチ区間
でのピーク位置のバラツキを少なくする処理を行い、さ
らにはピーク値の変動及びインパルス性の弱い区間のイ
ンパルス性強調処理を行うことにより、 合成音声にざらつく感じのノイズを低減したものである
。
C.従来の技術
規則合成方式による音声合成装置は、入力文字列を構文
解析によって単語,文節に区切り、夫々にはイントネー
ション.アクセントを決定し、単語や文節を音節さらに
は音素にまで分解し、音節又は音素単位の音源波及び調
音フィルタのパラメータを求め、音源波に対する調音フ
ィルタの応答出力として合成音声を得るようにしている
。
解析によって単語,文節に区切り、夫々にはイントネー
ション.アクセントを決定し、単語や文節を音節さらに
は音素にまで分解し、音節又は音素単位の音源波及び調
音フィルタのパラメータを求め、音源波に対する調音フ
ィルタの応答出力として合成音声を得るようにしている
。
このような音声合成装置において、音源情報としてイン
パルスとノイズを使用する方式、又は残差情報を使用す
る方式がある。このうち、残差を音源情報とする方式は
、音声波形を線形予測分析して調音パラメータを求め、
このパラメータによる調音フィルタに音声波形を入力し
てその出力に残差波形を求め、この残差波形をサンプリ
ングと符号化によって音源情報とする。また、音声波形
の切出しには元の波形に窓関数(ハミング窓.ハニング
窓等)を乗じ、切出し区間の両端に急激な変化が起きな
いようにする。
パルスとノイズを使用する方式、又は残差情報を使用す
る方式がある。このうち、残差を音源情報とする方式は
、音声波形を線形予測分析して調音パラメータを求め、
このパラメータによる調音フィルタに音声波形を入力し
てその出力に残差波形を求め、この残差波形をサンプリ
ングと符号化によって音源情報とする。また、音声波形
の切出しには元の波形に窓関数(ハミング窓.ハニング
窓等)を乗じ、切出し区間の両端に急激な変化が起きな
いようにする。
D.発明が解決しようとする課題
残差を音源とする方式において、音源情報の圧縮のため
に残差波形のサンプリングと符号化に情報圧縮を施す場
合、この音源情報を用いた合成音声は人の音声特徴から
著しく外れた音声になってしまう問題があった。
に残差波形のサンプリングと符号化に情報圧縮を施す場
合、この音源情報を用いた合成音声は人の音声特徴から
著しく外れた音声になってしまう問題があった。
一方、音源情報を得るための元の音声波形として子音士
母音(CV波形)のほかに、母音十子音(VC波形)や
共通母音(V波形)を推移区間で波形混合し、この混合
波形から残差情報を得て音源とする場合、ピッチ区間毎
の音源の振幅や形状に大きなバラツキが生じる場合があ
り(特に女性の音声分析時)、その結果、合成音声にざ
らつく感じのノイズが含まれることが多く、全体的に質
の良い合成音声が得られない問題があった。
母音(CV波形)のほかに、母音十子音(VC波形)や
共通母音(V波形)を推移区間で波形混合し、この混合
波形から残差情報を得て音源とする場合、ピッチ区間毎
の音源の振幅や形状に大きなバラツキが生じる場合があ
り(特に女性の音声分析時)、その結果、合成音声にざ
らつく感じのノイズが含まれることが多く、全体的に質
の良い合成音声が得られない問題があった。
例えば、女性音声の残差波形図は、第4図に示すように
、ピッチ毎の基準点L0〜t3からピーク(インパルス
)の位置までの時間T0〜T3にバラツキがあるし、ピ
ーク値し。−し,にピッヂ毎の変動が大きく、さらにイ
ンパルスの強く表れる区間2と殆どノイズに近い(イン
パルス性の弱い)区間3が混在する。このようなピーク
位置のバラツキやピーク値の変動さらにはインパルス性
の弱い区間の混在が合成音声にざらつきノイズの主要因
と考えられる。
、ピッチ毎の基準点L0〜t3からピーク(インパルス
)の位置までの時間T0〜T3にバラツキがあるし、ピ
ーク値し。−し,にピッヂ毎の変動が大きく、さらにイ
ンパルスの強く表れる区間2と殆どノイズに近い(イン
パルス性の弱い)区間3が混在する。このようなピーク
位置のバラツキやピーク値の変動さらにはインパルス性
の弱い区間の混在が合成音声にざらつきノイズの主要因
と考えられる。
本発明の目的は、複数の音声波形から残差情報を得て音
源とする音声合成装置において、ざらつく感じのノイズ
を低減した音源データの生成方法を提供することにある
。
源とする音声合成装置において、ざらつく感じのノイズ
を低減した音源データの生成方法を提供することにある
。
E.課題を解決するための手段
本発明は、前記目的を達成するため、音声波形の分析に
よって得る残差情報の各ピッチ区間毎に完全インパルス
列と該残差情報の相互相関を計算し、該相関が最大とな
る位置から各ピッチ区間毎のピーク位置を計算し、この
ピーク位置列の平均化処理による平均化ピーク位置を中
心にして順次分析窓を取って該残差情報の再分析を行い
、この再分析による残差情報を前記ピーク位置を基準に
して切出して音源データを生成することを特徴とする。
よって得る残差情報の各ピッチ区間毎に完全インパルス
列と該残差情報の相互相関を計算し、該相関が最大とな
る位置から各ピッチ区間毎のピーク位置を計算し、この
ピーク位置列の平均化処理による平均化ピーク位置を中
心にして順次分析窓を取って該残差情報の再分析を行い
、この再分析による残差情報を前記ピーク位置を基準に
して切出して音源データを生成することを特徴とする。
また、本発明は前記切出した残差情報をピッチ区間毎に
各残差波形の位相をそろえて時間軸方向の平均化処理を
行うことを特徴とする。
各残差波形の位相をそろえて時間軸方向の平均化処理を
行うことを特徴とする。
F、作用
残差波形のピーク位置のバラッキには、残差波形の各ピ
ッチ区間毎に完全インパルスとの相互相関によって各ピ
ッチ区間毎のピーク位置を求め、このピーク位置の平均
化処理による平均化ピーク位置を中心にした分析窓によ
る切出しと再分析によってピーク位置のバラツキを低紘
した残差波形を得る。
ッチ区間毎に完全インパルスとの相互相関によって各ピ
ッチ区間毎のピーク位置を求め、このピーク位置の平均
化処理による平均化ピーク位置を中心にした分析窓によ
る切出しと再分析によってピーク位置のバラツキを低紘
した残差波形を得る。
また、ピーク位置のバラツキを低減した残差波形をピッ
チ区間毎に位相をそろえて平均化処理を行うことでピー
ク値のピッチ毎の変動及びインパルス性の弱い区間のイ
ンパルス性強調を行う。
チ区間毎に位相をそろえて平均化処理を行うことでピー
ク値のピッチ毎の変動及びインパルス性の弱い区間のイ
ンパルス性強調を行う。
G.実施例
第1図は本発明方法の一実施例を示す処理手順図である
。ステップSlは、従来の残差情報生成と同様に、複数
の音声波形の混合波形から音声特徴パラメータを求める
と共に音源情報としての残差抽出を行う。ステップ82
〜s7は残差情報に対してそのピーク(インパルス状)
がフレーム毎に大きく変動しないように波形処理を行う
。このため、まず、フレームiにおいて得られた残差波
形(第2図の&)に対して、各ピッチ区間毎の基準点t
0〜t4からある固定時間ΔLだけづれた完全インパル
ス列(第2図のb)を用意し、この完全インパルス列と
残差波形との相互相関を計算する(ステップS2)。こ
の計算より、相関係数の最大となるようなずらし幅をX
+とじ、このXtを各ピッチ区間毎に求める(ステップ
S3)。この算出値は(Xt+Δt)としてフレームi
における基準点t,からのピーク位置とする。
。ステップSlは、従来の残差情報生成と同様に、複数
の音声波形の混合波形から音声特徴パラメータを求める
と共に音源情報としての残差抽出を行う。ステップ82
〜s7は残差情報に対してそのピーク(インパルス状)
がフレーム毎に大きく変動しないように波形処理を行う
。このため、まず、フレームiにおいて得られた残差波
形(第2図の&)に対して、各ピッチ区間毎の基準点t
0〜t4からある固定時間ΔLだけづれた完全インパル
ス列(第2図のb)を用意し、この完全インパルス列と
残差波形との相互相関を計算する(ステップS2)。こ
の計算より、相関係数の最大となるようなずらし幅をX
+とじ、このXtを各ピッチ区間毎に求める(ステップ
S3)。この算出値は(Xt+Δt)としてフレームi
における基準点t,からのピーク位置とする。
各フレームにおいて求められたピーク位置列(xt+Δ
t)はフレーム方向で平均化処理を行い、ピーク位置が
なめらかに推移するようにする(ステップS4)。この
平均化処理は、例えば女性音声波形ではその残差のイン
パルス性が弱い区間やバラツキが非常に大きくなる場合
にピーク位置の抽出誤りによるバラツキの軽減を図る。
t)はフレーム方向で平均化処理を行い、ピーク位置が
なめらかに推移するようにする(ステップS4)。この
平均化処理は、例えば女性音声波形ではその残差のイン
パルス性が弱い区間やバラツキが非常に大きくなる場合
にピーク位置の抽出誤りによるバラツキの軽減を図る。
なお、平均化ピーク位置列は、実際の残差渡形のピーク
点にならない場合もあるが、本来その位置に残差ピーク
が現れるべき(ピッチ間隔でピークが現れるはず)のも
のであり、この位置をピーク位置とすることでバラツキ
軽減を図る。
点にならない場合もあるが、本来その位置に残差ピーク
が現れるべき(ピッチ間隔でピークが現れるはず)のも
のであり、この位置をピーク位置とすることでバラツキ
軽減を図る。
次に、平均化したピーク位置列を中心にして残差波形に
順次分析窓を取った再切出し(ステップSS)と再分析
を行う(ステップS6)。この結果得られた残差を先の
ピーク位置列を基準に一様に切出し、音源ファイルを作
成する(ステップS7)。この結果、音源波としてはピ
ッチ毎のピーク位置はなめらかに推移し、残差波形にピ
ーク位置の位相的なバラッキを無くす。
順次分析窓を取った再切出し(ステップSS)と再分析
を行う(ステップS6)。この結果得られた残差を先の
ピーク位置列を基準に一様に切出し、音源ファイルを作
成する(ステップS7)。この結果、音源波としてはピ
ッチ毎のピーク位置はなめらかに推移し、残差波形にピ
ーク位置の位相的なバラッキを無くす。
次に、ピッチ区間毎の残差波形は夫々の位相をそろえた
状態で時間軸方向の平均化処理を行う(ステップS8)
。この平均化処理は、第3図に示すように処理対象とす
る残差波形Bと他の残差波形A,Cとの加算平均又は加
重平均を行い、この結果の残差波形B′には全体的にイ
ンパルス性の弱いピッチ区間にもインパルス性を向上さ
せ、またインパルス振幅の推移もなめらかにする。
状態で時間軸方向の平均化処理を行う(ステップS8)
。この平均化処理は、第3図に示すように処理対象とす
る残差波形Bと他の残差波形A,Cとの加算平均又は加
重平均を行い、この結果の残差波形B′には全体的にイ
ンパルス性の弱いピッチ区間にもインパルス性を向上さ
せ、またインパルス振幅の推移もなめらかにする。
H.発明の効果
以上のとおり、本発明によれば、残差情報の各ピッチ区
間でのピーク位置のバラツキを少なくし、さらにはピー
ク値の変動の平滑化及びインパルス性の弱い区間のイン
パルス性強調を行って音源データを生成するようにした
ため、女性音声の合成等に適用して合成音声にざらつく
感じのノイズを低減し、全体的に質の良い合成音声を得
ることができる。
間でのピーク位置のバラツキを少なくし、さらにはピー
ク値の変動の平滑化及びインパルス性の弱い区間のイン
パルス性強調を行って音源データを生成するようにした
ため、女性音声の合成等に適用して合成音声にざらつく
感じのノイズを低減し、全体的に質の良い合成音声を得
ることができる。
第1図は本発明方法の一実施例を示す処理手順図、第2
図は残差波形と完全インパルス波形図、第3図は残差波
形の平均化処理波形図、第4図は従来の残差波形図であ
る。 第1図 実尤整汐1jのガリ里予1l旧回
図は残差波形と完全インパルス波形図、第3図は残差波
形の平均化処理波形図、第4図は従来の残差波形図であ
る。 第1図 実尤整汐1jのガリ里予1l旧回
Claims (2)
- (1)音声波形の分析によって得る残差情報の各ピッチ
区間毎に完全インパルス列と該残差情報の相互相関を計
算し、該相関が最大となる位置から各ピッチ区間毎のピ
ーク位置を計算し、このピーク位置列の平均化処理によ
る平均化ピーク位置を中心にして順次分析窓を取って該
残差情報の再分析を行い、この再分析による残差情報を
前記ピーク位置を基準にして切出して音源データを生成
することを特徴とする音声合成装置の音源データ生成方
法。 - (2)前記切出した残差情報をピッチ区間毎に各残差波
形の位相をそろえて時間軸方向の平均化処理を行うこと
を特徴とする音声合成装置の音源データ生成方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012283A JP3038755B2 (ja) | 1990-01-22 | 1990-01-22 | 音声合成装置の音源データ生成方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012283A JP3038755B2 (ja) | 1990-01-22 | 1990-01-22 | 音声合成装置の音源データ生成方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03216699A true JPH03216699A (ja) | 1991-09-24 |
| JP3038755B2 JP3038755B2 (ja) | 2000-05-08 |
Family
ID=11801035
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2012283A Expired - Lifetime JP3038755B2 (ja) | 1990-01-22 | 1990-01-22 | 音声合成装置の音源データ生成方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3038755B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1999059139A3 (en) * | 1998-05-11 | 2000-02-17 | Koninkl Philips Electronics Nv | Speech coding based on determining a noise contribution from a phase change |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6246070B1 (en) | 1998-08-21 | 2001-06-12 | Semiconductor Energy Laboratory Co., Ltd. | Semiconductor device provided with semiconductor circuit made of semiconductor element and method of fabricating the same |
| US6261881B1 (en) | 1998-08-21 | 2001-07-17 | Semiconductor Energy Laboratory Co., Ltd. | Semiconductor device provided with semiconductor circuit consisting of semiconductor element and method of manufacturing the same |
-
1990
- 1990-01-22 JP JP2012283A patent/JP3038755B2/ja not_active Expired - Lifetime
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1999059139A3 (en) * | 1998-05-11 | 2000-02-17 | Koninkl Philips Electronics Nv | Speech coding based on determining a noise contribution from a phase change |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3038755B2 (ja) | 2000-05-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPS62160495A (ja) | 音声合成装置 | |
| Bonada et al. | Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016 | |
| JPH031200A (ja) | 規則型音声合成装置 | |
| JPH02239293A (ja) | 音声処理方法 | |
| WO2011026247A1 (en) | Speech enhancement techniques on the power spectrum | |
| US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
| Roebel | A shape-invariant phase vocoder for speech transformation | |
| JP2798003B2 (ja) | 音声帯域拡大装置および音声帯域拡大方法 | |
| JP2904279B2 (ja) | 音声合成方法および装置 | |
| JPH03216699A (ja) | 音声合成装置の音源データ生成方法 | |
| JP3030869B2 (ja) | 音声合成装置の音源データ生成方法 | |
| JP3035939B2 (ja) | 音声分析合成装置 | |
| JP3727885B2 (ja) | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 | |
| Lehana et al. | Speech synthesis in Indian languages | |
| Ohtsuka et al. | Aperiodicity control in ARX-based speech analysis-synthesis method. | |
| JP2900454B2 (ja) | 音声合成装置の音節データ作成方式 | |
| JPH07261798A (ja) | 音声分析合成装置 | |
| JP2956069B2 (ja) | 音声合成装置のデータ処理方式 | |
| JP2995774B2 (ja) | 音声合成方式 | |
| D’Souza et al. | Comparative analysis of Kannada formant synthesized utterances and their quality | |
| JP4313740B2 (ja) | 残響除去方法、プログラムおよび記録媒体 | |
| JPH0756590A (ja) | 音声合成装置、音声合成方法及び記録媒体 | |
| JPH0358100A (ja) | 規則型音声合成装置 | |
| Roebel | Between physics and perception: Signal models for high level audio processing | |
| JPH0258640B2 (ja) |