JPH056197A

JPH056197A - 音声合成装置用ポストフイルタ

Info

Publication number: JPH056197A
Application number: JP3158670A
Authority: JP
Inventors: Shiyuuichi Kawama; 修一河間
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1991-06-28
Filing date: 1991-06-28
Publication date: 1993-01-14
Anticipated expiration: 2015-08-14
Also published as: US5506934A; JP3076086B2

Abstract

(57)【要約】【目的】増大した振幅を抑えて合成信号の品質の劣化
を防止できる音声合成用ポストフィルタを提供する。【構成】合成信号をフィルタリングするフィルタリン
グ部11と、フィルタリング部11からの出力信号及び合成
信号に基づいてスケ―リングファクタを算出するスケ―
リングファクタ計算部13と、出力信号の振幅を検出し検
出結果に基づいて出力信号の振幅が所定の振幅値を越え
ないようにスケ―リングファクタの値を調整する振幅検
出部14と、出力信号と調整されたスケ―リングファクタ
との積を算出する乗算器15とを備えている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声合成装置に係わ
り、特にメロディ等音声以外の音を劣化させないで再生
する音声合成装置用ポストフィルタに関する。

【０００２】

【従来の技術】一般に、圧縮及び符号化された音声を再
生する音声合成装置には、合成された音声の品質を高め
るために音声合成装置用ポストフィルタ（以下、ポスト
フィルタと称する）が用いられている。

【０００３】このポストフィルタは、聴覚のマスキング
特性を利用したノイズシェ―ピング機能を実現するため
の一手段であり、コ−ド・エキサイテド・リニア・プレ
ディクション（Code-Excited Linear Prediction）（以
下、ＣＥＬＰと称する）等の符号化方法を用いた音声合
成装置に使用されている。

【０００４】ノイズシェ―ピングとは、本来はほぼ平坦
となる合成音声と原音との間で生ずる誤差信号のスペク
トル形状を、原音のスペクトル形状に近くなるように処
理して、スペクトルの谷間での原音と誤差とのエネルギ
―差を広げて、マスキングによりノイズの知覚を抑える
機能をいう。

【０００５】上述のポストフィルタは、通常、音声合成
装置の復号化器の直後に配置されている。

【０００６】一般に、ポストフィルタの伝達関数Ｈ
（ｚ）は、次式で表される。

【０００７】

【数１】

【０００８】ここで、１／Ｐ（ｚ）は復号化器で使われ
るスペクトル包絡合成フィルタの伝達関数であり、分母
のＰ（ｚ）は短期フイルタ、スペクトル包絡予測フィル
タまたは逆フィルタと呼ばれる（以下、逆フィルタと称
する）。

【０００９】

【数２】

【００１０】ここで、α_iは、ｉを正の整数とするｉ次
線形予測係数である（ｐを正の整数とすると予測次数は
ｐで表される）。この逆フィルタＰ（ｚ）のスペクトル
のピ―ク部分（フォルマント）の帯域を広げた特性を持
つものが、Ｐ′（ｚ）、Ｐ″（ｚ）であり、Ｐ′（ｚ）
の方がＰ″（ｚ）よりフォルマントの帯域の広げ方が大
きい。

【００１１】上記フイルタにより、復号化器の直後の合
成音声は、フォルマントが少し強調されて、原音との誤
差のスペクトルもこのフォルマント部分にエネルギ―が
集まって誤差スペクトルの形状が原音のスペクトル形状
に近付く。

【００１２】一般的なＰ′（ｚ）、Ｐ″（ｚ）は、次式
でそれぞれ表される。

【００１３】

【数３】

【００１４】

【数４】

【００１５】上記の関係式は、例えば、ジェ−・エイチ
・チェイン及びエイ・ガ−ショによる「アダプティブ・
ポストフィルタを用いた48800bpsにおける実時間ベクト
ルＡＰＣスピ−チ・コ−ディング」，アコ−スティッ
ク、スピ−チ及びシグナルプロセシング・IEEEインタ−
ナショナル・カンファレンス・プロシ−ディングズ，p
p.51.3.1-51.3.4，1987年４月，（J. H. Chain ，A.Ger
sho，“Real-Time Vector APC Speech Coding at 48800
bps with Adaptive Postfilter”，Proc. IEEE Int. C
onf. on Acoustics, Speech and Signal Processing，p
p.51.3.1-51.3.4，April ，1987）に示されている。

【００１６】このポストフィルタを用いる音声合成装置
の復号化方法は、一定時間（通常、フレ―ムと呼ぶ）ご
とに、線形予測係数を受け取り、場合によってはフレ―
ムを分割して（分割した区間をサブフレ―ムと呼ぶ）サ
ブフレ―ムごとにフレ―ム単位で受け取った線形予測係
数を補間し、この補間した線形予測係数を用いて音声を
合成する。

【００１７】なお、ポストフィルタの係数は補間した線
形予測係数から求められと共に、ポストフィルタの利得
は線形予測係数により変化する。

【００１８】上述したポストフィルタは、利得により増
幅または減衰した合成音声のエネルギ―をポストフィル
タに通す前と同じ状態にするために、実際には自動利得
制御（オ−トマティック・ゲイン・コントロ−ル（Auto
maticGain Control），以下、ＡＧＣと称する）機能を
有している。

【００１９】次に、上記ＡＧＣ機能を実現する一方法を
述べる。

【００２０】この方法は、アイ・エイ・ジャ−ソン及び
エム・エイ・ジャイスクによる「 8kbpsにおけるベクト
ル・サム・エキサイティド・リニア・プレディクション
（ＶＳＥＬＰ）・スピ−チ・コ−ディング」，アコ−ス
ティック、スピ−チ及びシグナルプロセシング・IEEEイ
ンタ−ナショナル・カンファレンス・プロシ−ディング
ズ，pp.461-464，1990年４月，（I.A. Gerson ，M.A.Ja
isuk，“Vector Sum Excited Linear Prediction (VSEL
P) Speech Coding at 8kbps ”，Proc. IEEE Int. Con
f. on Acoustics，Speech and Signal Processing，pp.
461-464，April，1990）に示されている。

【００２１】この方法は、まず、スケ―リングファクタ
Ｓを求め、求まったスケ―リングファクタＳをポストフ
ィルタ通過直後の信号に掛けることにより、サブフレ―
ムまたはフレ−ム内のポストフイルタ通過前後のエネル
ギ―を求める。そして、サブフレ―ム（フレ−ム）内の
ポストフイルタ通過前後のエネルギ―の平方根の比を仮
のスケ―リングフアクタＳ′として求める。

【００２２】仮のスケ―レングフアクタＳ′をそのまま
ＡＧＣに利用すると、サブフレ―ム（フレ−ム）によっ
て仮のスケ―リングファクタＳ′が大きく異なる場合が
あるので隣接するサブフレ―ム（フレ−ム）の境界で合
成音声の不連続性が生じる。不連続性が生じると、不連
続性が生じた箇所で合成音声に雑音が知覚されてしまう
ので、仮のスケ―リングファクタＳ′を１次低域通過フ
イルタにかけて、徐々にスケ―リングフィルタを変えて
使用する。この関係を次式に示す。

【００２３】

【数５】

【００２４】ここで、ｎ（ｎは正の整数）はサブフレ―
ム（フレ−ム）内でのサンプリング時点、Ｎ（Ｎは正の
整数）はサブフレ―ム（フレ−ム）内のサンプル数であ
り、Ｓ（０）を求めるときの右辺のＳ（-1）は前サブフ
レ―ム（前フレ−ム）のＳ（Ｎ-1）とする。スケ―リン
グファクタＳ（ｎ）の急激な変動を抑えるため、定数ζ
は通常、１に近い値を取る。

【００２５】各種電話サ―ビスでは、保留時にメロディ
を流したり、ダイヤリングにデュアル・ト−ン・マルチ
・フリクエンシ（Dual Tone Multi-Frequency)（以下、
ＤＴＭＦと称する）信号を用いていおり、上述したＡＧ
Ｃ機能付きのポストフィルタを再生側に備えているＶＳ
ＥＬＰの符号化方法を用いた音声合成装置が電話に用い
られるとき、メロディ等のト―ン信号も音声と同様に再
生処理を行う。

【００２６】

【発明が解決しようとする課題】しかし、上述した従来
の音声合成装置では、ト―ンの変り目や無音からの立上
り部分で線形予測係数の値が大きく異なることがあり、
同時にポストフィルタの利得も大きく変化する。このよ
うな場合には、サブフレ―ム（フレ−ム）の開始時点付
近から、ポストフィルタによってト―ン信号の振幅が増
大することがあり、このときに仮のスケ―リングファク
タＳ′が、前のサブフレ―ム（フレ−ム）よりもかなり
小さくなるが、実際のスケ―リングファクタＳ（ｎ）の
ｎが小さい時点では、スケ―リングファクタＳ（ｎ）が
仮のスケ―リングファクタＳ′と大きく値が異なってし
まうために、スケ―リングファクタＳ（ｎ）ではト―ン
信号の増大した振幅を抑えきれなくなる。

【００２７】この例を図２に示す。図２（ａ）は音声合
成装置のポストフィルタを通す直前の合成ト−ン信号、
（ｂ）、（ｃ）はポストフィルタ通過後の合成ト−ン信
号で、（ｂ）はＡＧＣ前、（ｃ）はＡＧＣ後の波形であ
る。（ｄ）は（ｃ）におけるＡＧＣのスケ−リングファ
クタＳ（ｎ）と仮のスケ−リングファクタＳ′を示す。
ポストフィルタにより、（ｂ）のように振幅が（ａ）に
比べ急激に増大した時、（ｄ）のように仮のスケ−リン
グファクタＳ′がサブフレ−ム又はフレ−ムの開始点ｎ
＝０でのスケ−リングファクタＳ（０）と大きく異なっ
ており、スケ−リングファクタＳ（ｎ）が仮のスケ−リ
ングファクタＳ′に近付くのに時間がかかるため、
（ｂ）の増大した振幅はＡＧＣは抑えきれないため
（ｃ）のように振幅が大きく変化した波形になってしま
う。

【００２８】合成信号の振幅が大きくなると振幅値がＤ
／Ａ変換できる範囲を超えてしまう場合があり、このと
きに大きな「ポツ」という音が聞えてしまい、また、Ｄ
／Ａ変換の範囲内であっても合成信号の波形は原音の波
形より大きく異なってしまうので合成信号の品質が劣化
するという問題点がある。

【００２９】本発明は、上述した従来の音声合成装置に
おける問題点に鑑み、合成信号の品質の劣化を防止でき
る音声合成装置用ポストフィルタを提供する。

【００３０】

【課題を解決するための手段】本発明は、合成信号をフ
ィルタリングするフィルタリング手段と、フィルタリン
グ手段からの出力信号及び合成信号に基づいてスケ―リ
ング係数を算出する係数算出手段と、出力信号の振幅を
検出し検出結果に基づいて出力信号の振幅が所定の振幅
値を越えないようにスケ―リング係数の値を調整する振
幅検出手段と、出力信号と調整されたスケ―リング係数
との積を算出する演算手段とを備えている音声合成装置
用ポストフィルタによって達成される。

【００３１】

【作用】本発明の音声合成用ポストフィルタによれば、
増幅手段は合成信号を増幅し、係数算出手段は増幅手段
からの出力信号及び合成信号に基づいてスケ―リング係
数を算出し、振幅検出手段は出力信号の振幅を検出し検
出結果に基づいて出力信号の振幅が所定の振幅値を越え
ないようにスケ―リング係数の値を調整し、演算手段は
出力信号と調整されたスケ―リング係数との積を算出す
る。

【００３２】

【実施例】以下、図面を参照して本発明の音声合成装置
用ポストフィルタにおける実施例を詳述する。

【００３３】図１は、本発明の音声合成用ポストフィル
タにおける一実施例の構成を示す。図１のポストフィル
タ10は、合成信号をフィルタリングする手段であるフィ
ルタリング部11、フィルタリング部11の係数を求める係
数計算部12、フィルタリング部11の出力とフィルタリン
グ部11を通る前の信号とのエネルギ―を計算してスケ―
リング係数（以下、スケ―リングフアクタと称する）を
求める係数算出手段であるスケ―リングファクタ計算部
13、ＡＧＣでフィルタリング部11の出力信号の振幅を検
出する振幅検出手段である振幅検出部14、フィルタリン
グ部11の出力信号とスケ―リングファクタ計算部13から
送られてきたスケ―リングファクトとの積を算出する演
算手段である乗算器15によって構成されている。

【００３４】なお、ＡＧＣの機能はスケ―リングファク
タ計算部13、振幅検出部14及び乗算器15によって実現さ
れる。

【００３５】次に、上記各構成部分を詳述する。

【００３６】フィルタリング部11は、入力信号のスペク
トルピ―クを強調させる伝達関数を有する。

【００３７】係数計算部12は、フィルタリング部11のフ
ィルタ係数を線形予測係数から算出する。なお、フィル
タ係数はサブフレ―ムまたはフレ−ム単位で更新され
る。

【００３８】スケ―リングファクタ計算部13は、フィル
タリング部11で増幅または減衰した信号のエネルギ−を
フィルタリング部11を通す前のエネルギ−とほぼ等しく
するためのスケ―リングファクタを計算する。

【００３９】振幅検出部14は、スケ―リングファクタ計
算部13のサンプル時点ｎごとに変化するスケ―リングフ
ァクタの速度を制御し、通常のＡＧＣではフィルタリン
グ部11の出力信号の振幅の増大を抑えきれない場合でも
この振幅の増大を押え込むように構成されている。

【００４０】振幅検出部14は、ト―ン信号の立上り部分
等を再生するときなどにおいて、フィルタリング部11の
出力信号の振幅が増大したときに、通常のＡＧＣにより
増大した振幅を抑えられるかどうかを検出する。

【００４１】スケ―リングファクタ計算部13では、振幅
検出部14の判定結果より、低域通過フィルタの変数ζを
変える。そして、仮のスケ―リングファクタＳ′を１次
の低域通過フィルタ（図示省略）に掛けて、実際のスケ
―リングファクタＳ（ｎ）を次式により求める。

【００４２】

【数６】

【００４３】このスケ―リングファクタＳ（ｎ）をサン
プル時点ｎ（ｎは正の整数）ごとに乗算器15に送る。

【００４４】次に、図３を参照して、上記音声合成用ポ
ストフィルト動作、特にスケ―リングファクタを求める
ときの動作を説明する。

【００４５】まず、サブフレ―ム（フレ−ム）の開始時
に、フィルタリング部11の入出力信号のサブフレ―ム
（フレ−ム）内のエネルギ―（各信号のサブフレ―ム
（フレ−ム）内の振幅の２乗和）を求め、（入力信号の
エネルギ―）／（出力信号のエネルギ―）の平方根を計
算することにより仮のスケ―リングファクタＳ′を求め
（ステップＳ１）、スケ―リングファクタ計算部13で仮
のスケ―リングファクタＳ′が求められた時点で、この
仮のスケ―リングファクタＳ′と前サブフレ―ム（フレ
−ム）終端のスケ―リングファクタＳ（Ｎ-1）との比
｛Ｓ′／Ｓ（Ｎ-1）｝を計算して、比｛Ｓ′／Ｓ（Ｎ-
1）｝と閾値θとが関係式｛Ｓ′／Ｓ（Ｎ-1）｝＜θを
満足するか否か判定し（ステップＳ２）、上記ステップ
Ｓ２でＹＥＳのときには、振幅が増大しても通常のＡＧ
Ｃではこの増大した振幅を抑えきれないと判定する（ス
テップＳ３）。即ち、仮のスケ―リングファクタＳ′
が、前サブフレ―ム（前フレ−ム）終端のスケ―リング
ファクタＳ（Ｎ-1）よりある程度小さいときに、１に近
い値を有する変数ζを持つ上記スケ―リングファクタの
低域通過フイルタでは、スケ―リングファクタＳ（ｎ）
が、仮のスケ―リングファクタＳ′に近付くのに時間が
かかってしまうのでサブフレ―ム（フレ−ム）の前部で
は増大した振幅をＳ′よりも大きいＳ（ｎ）では抑えき
れないとみなす。即ち、振幅検出部14の検出結果によ
り、出力信号の増大した振幅を抑えきれないと判定した
ときには変数ζを０または０に近い値に設定し（ステッ
プＳ４）、スケ―リングファクタＳ（ｎ）を計算する
（ステップＳ５）。ｎ＝０またはｎが小さい時点でスケ
―リングファクタＳ（ｎ）は仮のスケ―リングファクタ
Ｓ′の値になるので、ＡＧＣは増大した振幅を抑えるこ
とができる。

【００４６】上記ステップＳ２でＮＯの場合には、フィ
ルタリング部11の出力信号の振幅が振幅の増大をＡＧＣ
で抑えきると判定し（ステップＳ６）、変数ζを１に近
い値に設定して（ステップＳ７）、上記ステップＳ５に
示すようにスケ―リングファクタＳ（ｎ）を計算する。
従って、スケ―リングファクタＳ（ｎ）を緩やかに変え
ることにより、隣接するサブフレ―ム（フレ−ム）の境
界でのＡＧＣ後の信号の不連続性をなくす。

【００４７】これにより、ＡＧＣ後の信号のサブフレ―
ム（フレ−ム）の境界での不連続性による雑音が聞こえ
る恐れがある。しかし、振幅を抑えなかったときの信号
をポストフィルタの出力の後にあるＤ／Ａ変換器（図示
省略）において、ディジタル信号からアナログ信号に変
換するときの信号の振幅がＤ／Ａ変換できる範囲を超え
てしまうことによって発生する雑音に比べれば、サブフ
レ―ム（フレ−ム）の境界での不連続性による雑音が与
える信号の聴覚的な品質の劣化は、非常に小さい。

【００４８】また、振幅検出部14において、一旦、通常
のＡＧＣを行って、フィルタリング部11に入力する前の
信号との振幅を比較し、ＡＧＣにより振幅が抑えきれな
かったかどうかを判定する方法もある。

【００４９】図４は、上述したポストフィルタ10を備え
た音声合成装置16と音声合成装置16の入力信号を作成す
る音声符号化装置17を示す。

【００５０】音声符号化装置17では、音声やその他の信
号を変換して符号化する。ここで用いる符号化方法とし
ては、線形予測係数を用いたＣＥＬＰ系符号化等の、フ
レ―ム単位で線形予測係数を求め、線形予測係数（反射
係数）等の他のパラメ―タを他の情報と共に符号化する
方法を考える。

【００５１】音声符号化装置17で作成された符号は、チ
ャンネル18を通して音声合成装置16に送られる。ここ
で、チャンネル18とは、無線系や有線系の伝送路または
符号を一旦蓄えられる蓄積系の記憶装置をいう。

【００５２】音声合成装置16は、復号化部19で、チャン
ネル18を通して送られてきた符号を復号化し、線形予測
係数や他の情報を得てこれら情報に基づいて音声等の信
号を合成し、ポストフィルタ10により合成信号の品質を
改善して、外部に合成信号を送る。ポストフィルタ10
は、フレ―ムまたはフレ―ムを分割したサブフレ―ムの
開始時に線形予測係数を受け取る。なお、サブフレ―ム
の場合には、線形予測係数はすでに補間されている。

【００５３】

【発明の効果】本発明の音声合成装置用ポストフィルタ
は、合成信号をフィルタリングするフィルタリング手段
と、フィルタリング手段からの出力信号及び合成信号に
基づいてスケ―リング係数を算出する係数算出手段と、
出力信号の振幅を検出し検出結果に基づいて出力信号の
振幅が所定の振幅値を越えないようにスケ―リング係数
の値を調整する振幅検出手段と、出力信号と調整された
スケ―リング係数との積を算出する演算手段とを備えて
いるので、スケ―リング係数を出力信号の振幅を抑えれ
る値に変更でき、その結果、合成信号の振幅増大による
品質劣化をなくすことができる。

【図面の簡単な説明】

【図１】本発明の音声合成用ポストフィルタにおける一
実施例の構成を示すブロック図である。

【図２】通常のＡＧＣ機能で生じるポストフィルタによ
る振幅増大とスケ―リングファクタＳの関係を示す図で
ある。

【図３】図１の音声合成用ポストフィルタを動作を説明
するためのフロ−チャ−トである。

【図４】図１の音声合成用ポストフィルトを備えた音声
合成装置及び音声合成装置の入力信号を作成する音声符
号化装置の概略構成を示すブロック図である。

【符号の説明】

10 音声合成用ポストフィルタ 11 フィルタリング部 12 係数計算器 13 スケ―リングファクタ計算部 14 振幅検査部 15 乗算器 16 音声合成装置 17 音声符号化装置 18 チャンネル 19 復号化部

Claims

【特許請求の範囲】【請求項１】合成信号をフィルタリングするフィルタ
リング手段と、前記フィルタリング手段からの出力信号
及び前記合成信号に基づいてスケ―リング係数を算出す
る係数算出手段と、前記出力信号の振幅を検出し当該検
出結果に基づいて該出力信号の振幅が所定の振幅値を越
えないように前記スケ―リング係数の値を調整する振幅
検出手段と、前記出力信号と前記調整されたスケ―リン
グ係数との積を算出する演算手段とを備えていることを
特徴とする音声合成装置用ポストフィルタ。