JPS6211900A - 音声分析合成に於ける音源ゲイン設定方式 - Google Patents

音声分析合成に於ける音源ゲイン設定方式

Info

Publication number
JPS6211900A
JPS6211900A JP60151815A JP15181585A JPS6211900A JP S6211900 A JPS6211900 A JP S6211900A JP 60151815 A JP60151815 A JP 60151815A JP 15181585 A JP15181585 A JP 15181585A JP S6211900 A JPS6211900 A JP S6211900A
Authority
JP
Japan
Prior art keywords
sound source
resonance
power
abnormal
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60151815A
Other languages
English (en)
Inventor
船橋 賢一
鬼頭 淳悟
延佳 海木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP60151815A priority Critical patent/JPS6211900A/ja
Publication of JPS6211900A publication Critical patent/JPS6211900A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、線形予測分析法を用いた音声分析合成系に於
ける伝送パラメータの一つである音源ゲインを設定する
方式に関するものである。
背景技術 線形予測分析は、ある時間フレーム単位で、ある時開間
隔でシフト”して行なわれる。合成音声の振幅を決定す
る音源ゲインは、通常、原音声のパワーの平方根あるい
は残差パワーの平方根の形で分析部で算出されて伝送さ
れ、合成時の音源が、有声・無声情報とピッチ周波数と
から決定される。
ピッチ周波数及び有声・無声情報は、分析側で抽出され
る。このような音声分析合成系に於いて、合成音の振幅
変化が原音のそれとできるだけ一致していることが望ま
しい。
第5図は線形予測に依る分析部の一般的な構成を示すブ
ロック図である。ブリ・エン7アシス部1でブリ・エン
ファシスされた音声データ(土、自己相関部2で自己相
関関数とパワーを求められたに一パラメータ(反射係数
)と残差パワーとが算出され墓。上方、ピッチ抽出シ有
声・無声判定部4で、ピッチ長と有声・無声情報が求め
られる。音源ゲインは、ここでは平方根演算部5で^差
パワーの平方根を算出し、量子化部6でこれを量子化−
して伝送している。
通常は、線形予測による駆動音源の1時間7レーム当た
りのパワーを、残差波形のパワタに一致させるように、
音源ゲインの設定が一行なわ、れている。有声音におい
ては、通常、インパルス列を音源として用いるが、この
とき上記の方法ではインパルスの高さeは、 ・=・・(IP/N)1/2       ・・・(1
)σ2:17レームの残差パワー N:1フレームの点数 ■P:ピッチ長(点数) で与えられる。これらの詳細については、例えばJ、D
、Markel &  A、HoGray Jr、Li
near PrediC’tion of S pee
ch、S pringer Verlag 1976 
:Chap、10.10.2.4に述べられている。
この方式によって音源ゲインを設定するとき、以下述べ
る様な問題点があることが知られている。
特に女性の音声の場合、ピッチ周波数と第1ホルマント
周波数とが近くなり、更に波形が正弦波に近い有声音の
部分では、線型予想符号化法(以下LPC法と略称する
)分析に依ると、第1ホルマント周波数の帯域幅が過少
に推定される (これを以下ここでは異常共振と呼ぶ)
そのため合成フィルタのインパルス応答は、1ピッチ周
期を経ても十分に減衰することがなく、これにより合成
波形の振幅が原音声波形に比して、異常に増大すること
がある。このため最悪の場合、合成フィルタに於いてオ
ーバーフローが起り、合成音の劣化が起り、または合成
音のその箇所が強調されて聞こえる等、音質の劣化の原
因となる。
これを解決するため、従来はLPG分析に用いる自己相
関係数に、後述され兎窓関数(ラグ窓と呼ばれる)をか
けることで、推定スペクトノCのホルマントの帯域幅を
拡げることに相当する処理がなされてきた。
ラグ社を用いだ場合、′全体的な゛整合度は向上するが
、異常共振によるゲインの増大には、十分に対応できな
い。さらに等細帯域幅の広いラグ窓を掛けて帯域幅を広
げすぎると、音質の劣化を招くという間′趙点があった
″また、合成側に於゛ける対策として、二乗算方式の合
成フィルタの遅延のあとに□減1定数を掛けること゛で
、インパルス゛応答の減衰を早゛めて、ディンの異常”
増大を防ぐこともなされてきた。しかしこの場合でも、
減衰定数を小さくシて減衰を早めると、音質の劣化を招
く゛という問題点があ−った。
また、異常共振の箇所に於ける駆動ディン゛を一1通常
よりも小さくすることで、この問題を解決することが試
みられてはいるが、−異常共振の分析側での検出及び音
源ゲインの適切な設定はされていなかった。たとえば正
規化残差パワーは異常共振のとき、非常に小さくなるが
、ゲインの増大は女性音声の場合、特に発生しやすいこ
とからも分かるように、ピッチ周波数との関係があるた
め、正規化残差パワーのみに依存する音源ゲインの補正
によっては、ゲインの増大が生じない箇所での合成音の
ゲインが押゛えられてしまうという問題がおこる。
発明が解決しようとする問題点 本発明の目的は上述の問題点を解決し、上記の合成音声
ゲインの異常増大の原因となる異常共振を、分析時に自
動検出して、音源ゲインを従来上りも妥当なものに補正
して伝送することに依って、合成音声ゲインの異常増大
の解決を行い、またゲインの異常増大の原因となる異常
共振を自動検出する方式を与えることで、従来の自己相
関係数にラグ窓を掛ける方式、または合成フィルタの遅
延のあとに減衰定数をかける方式を部分的に”実施し゛
、音質の劣化を招くことなく合成音−声デインの異常増
大を防ぐことを可能にする音声努折合戒に於ける音源ゲ
イン設定方式を提供することである。
問題点を解決するための手段 本発明は、音声波形をある期間単位に線形予測分析を行
ない、振幅情報として残差波形のパワーを、1期間あた
りの音源のパワーとなるよう設定する分析合成に於いて
、 原波形の2次の共振系による同定から求めた共振周波数
とピッチ抽出器によるピッチ周波数の差と、共振周波数
とをピッチ周波数に設定して、2次の共振系の同定を行
なうことで得られる共振の帯域幅が、それぞれある閾値
以下のとき、異常共振すなわちホルマント帯域幅の過少
推定による合成波形のゲインの異常増大の可能性が在る
と判断し、ピッチ周波数と帯域幅とから定める補正係数
を残差パワーに掛けて得られる値、またはその平方根を
、1期間あたりの音源パワー、または音源ゲインとして
設定することにより合成音のゲインの異常増大を防ぎ、
かつ異常共振を検出するようにしたことを特徴とする音
声合成分析に於ける音源ゲイン設定方式である。
作  用 本発明に従えば、音声波形を予め定める期間単位に、線
形予測分析を行ない、振幅情報として残差波形のパワー
を、1期間あたりの音源のパワーとなるよう設定する音
声分析合成に於いて、原波形の2次の共振系による同定
から求めた共振周波数とピッチ抽出器によるピッチ周波
数との差と、共振周波数とをピッチ周波数に設定して、
2次の共振系で同定を行ケうこ、とで得られる共振の帯
域幅が、それぞれある閾値以下のとき、異常共振すなわ
ちホルマント帯域幅の過少推定による合成波形のゲイン
の異常増大の可能性が在ると判断し、ピッチ周波数と帯
域幅とから定める補正係数を残差パワーに掛けて得られ
る値、またはその平方根を、1期間あたりの音源パワー
、または音源ゲインと設定することにより合成音のゲイ
ンの異常増大を防ぎ、かつ異常共振を検出するようにし
て音源ゲインを設定するようにした。
したがって合成音に関する異常共振検出を行なうことが
でき、また音源ゲインを合成音のゲインが異常増大しな
t;ように設定することができる。
−’/一 実施例 以下、本発明の実施例を図面を用いて説明する。
本実施例において、入力音声は、たとえば3 +’ 4
 、、k H2の低域フィルタに通し、8kHz周波数
の信号でサンプリングし、分析フレーム長を、3o+n
sとし、20IIlsのシフト間隔で分析を行なってい
る。また線形予測分析は、サンプリングされた原音声を
、たとえli’(1=μ・Z−’) (、+7 =−0
,9,375) (1)特性に従うブリ・エン7アシス
にかけた後に行なっている。
第1図は本発明の一実施例の異常共振検出部10と音源
ゲイン設定方式を加味した分析部の構成・を示す。音源
ゲインは、残差パワーに補正係数設定部10で求めら、
れた補正係数gを掛けた後、平方根演算部11で平方根
をとることで算出される。
第2図は第1図の異常共振検出・補正係数設定部10の
構成を示すブロック図である。ま、ず本実施例の異常共
振検出および補正係数設定の考え方を述べる。以下、異
常共振とはLPG分析において、スペクトルとホルマン
ト帯域幅が過少に推定されることをさす。異常共振は、
ホルマント周波数とピッチ周波数とが鉾近した場合に起
こる。しかも原音声波形が正弦波的な場合に起こる。即
ち、音声波形が二次の共振系の出力とみなせる場合で、
共振の帯域幅が小さい場合である。
合成音のゲインの異常増大は、異常共振があり、しかも
特に女性音の場合、すなわちピッチ周波数が高い (ピ
ッチ間隔が短゛い)場合に起こる。
まず異常共振の検出法を説明する。第一にサンプリング
された原音を2次の共振系で同定する。
この同定は、原波形の1次及び2次の自己相関係数、ま
たは1次及び2次のに一パラメータに依って・・・(2
) で与えられる。θを、ピッチ抽出・有声無声判定部20
で判定されるピッチ周波数、 θp=2・π/IP         ・・・(3)こ
こで’IPはピッチ長(点数) と比較する。この比較は、 sinθp&=?θp−θp3/6        ・
・・(4)としてsinθとsinθpとで行なう。
これらが接近しているとき、異常共振の可能性がある。
この場合、二次の共振系に依る同定を、共振周波数をピ
ッチ周波数にして、パワーの観点から行なう。すなわち
、残差パワーと同じパワーのインパルスあるいは白色ノ
イズを、下式の特性を有する2次フィルタ に入力したときの出力パワーが、原音声パワーに等しい
として、 を得る。ここでNRPWは、原音声を線形予測したとき
の正規残差パワー (残差パワーを原音声パワーで正規
化したもの)である。
値rが1に十分近いとして、 δを とおけば、rは、 であり、したがって共振の帯域幅−2・logrは、r
が1に十分近い場合 −2・logr^2・δ(rad)       −(
10)となる。δが小さい場合、これは異常共振の度合
をあられす。
ここで5in2θpは で算出する。
第3図に本発明の異常共振検出のアルゴリズムを示す。
即ち、ステップn1で、1時間フレームの入力が有声で
あるか否かが判定される。有声であれば、ステップn2
  に移り、 1sin7sinθ、l< T hl        
 ・(12)が成立するか否かが判定される。第12式
が成立すれば、ステップn3  に移り、 δ<Th2              ・・・(13
)が成立するか否かが判定される。第13式が成立すれ
ば、ステップn4  に移り、異常共振が発生したと判
定される。一方、前記各ステップ01〜n3に於いて、
判定結果が否定的であればステップn5に移り、異常共
振がないと判定される。
ブリ・エンファシスを行なうシステムでは、自己相関係
rl、’r2はブリ・エン7アシス後の音声パワーPW
D以外に、原音声のパワーPWを求めて、 ・・・(15) μはブリ・エン7アシスの係数、 ρ1はブリ・エン7アシス後の音声の1次自己相関係数
(−kl;ここでに1は1次反射係数) で算出する。
さらに原音声に対する正規化残差パワーNRPWは、ブ
リ・エン7アシスしたデータに対する残差パワーRPW
Dを、原音声パワーPWで正規化したもので代用する。
すなわち、 NRPW=RPWD/PW       ・・・(16
)次に音源ゲインの設定方式について述べる。音源ゲイ
ンは、残差パワーの平方根で与えられ、量子化部21で
量子化され伝送される。従来技術のところで述べたよう
に、これを用いて音源が設定される。これは合成フィル
タのインパルス応答が1ピッチ過ぎたところで、十分小
さくなるという前提の下で妥当であるが、異常共振の際
はこれが小さくならず、合成音の異常増大が起こる。異
常共振の場合、合成フィルタは2次共振フィルタで近似
できる。この極を ±jo・とじたとき、値・は共振の帯域幅2・r @ 
e と表される。異常増大の度合は、IPをピッチ間P 隔(点数)として、r が1に近いほど大きいことが認
められる。
したが・て本発明では音声ディンを、・1Pの単調減少
関数で与えられる補正係数をかけて補正してもとめ、ゲ
インの異常増大を防ぐ。
補正係数としては、残差パワーの段階で、P g= 1− b−r     (0< b< 1)  
     −(18)をとり、残差パワーにかけその後
、平方根をとり音源ディンδとして伝送している。
P r  の算出は、 ・1P =((1−・、I P / 4 、・   ・
・・(20)IP/4 として(1−ε)    を、2次までの近似式、こニ
で、a= I P /4 を用いて行なっている。定数すは、0.5〜0.6程度
に設定している。補正係数gは、異常共振が検出されな
ければg=1とする。
以下、図面に従って本発明の異常共振検出・補正係数設
定方式を説明しよう。第1図は本発明の方式による異常
共振検出・補正係数設定部10の分析合成系の分析部に
於ける位置付けを示す。第2図は異常共振検出・補正係
数設定部10の構成を示す。パラメータ算出部19では
、原音声の2次共振系に依る同定に対する共振周波数を
θとしたときのsinθ、ピッチ周波数θpとしたとき
のsinθp1及び帯域幅の半分に対応するδを算出す
る。
sinθ の算出は第2式にもとづいて行なわれ、自己
相関部12によるこれに必要な自己相関係数r1、r2
は、ブリ・エン7アシス部14によるブリ・エン7アシ
ス後の音声パワーPWD、原音声パワーpw、i次反射
係数に1から第12式および第13式にもとづいて算出
される。ここで必要な原音声パワーPWは、原音声デー
タからパワー算出部15で求められる。但し、ブリ・エ
ン7アシスを行なわないシステムではこの算出は必要な
く、LPC分析部16でLPC分析を行なう前の自己相
関部12で既に算出されたものを用いる。
帯域幅の半分にあたる量δは、第8式で算出する。正規
化残差パワーNRPWは第16式で求める。但し、ブリ
・エン7アシスを行なわないシステムではこれはLPG
分析の際、算出される。
異常共振検出部17では、13図に示したアルゴリズム
に従って、異常共振が在るかどうかを検出する。ここで
閾値Thl、Th2は、Th1=0,033(a=rπ
/ 96 )    ・(22)Th2 = 0.04
9 (&Pπ/64)   ・・・(23)と設定した
補正係数算出部18では、補正係数gを異常共振が検出
されない場合g=lとし、異常共振が検出された場合、
第18式にもとづき算出する。この際、第20式および
第21式によって、近似計算を行なって算出する。
本実施例の方式で、音源ゲインを設定することにより合
成した合成音声波形および原音声波形、従来の音源ゲイ
ン設定による合成音声波形の比較をそれぞれ第4図(1
)〜第4図(3)に示す。第4図(1)は原音声波形を
示し、第4図(2)は従来の合成音声波形を示し、第4
図(3)は本実施例における合成音声波形を示す。本方
式による合成音声では、従来のものにみられた合成音声
の振幅の異常増大はみられず、はぼ同じ振幅になる。ま
た、聴覚的にも従来の合成音声にみられるように、振幅
の異常増大部が強調されて聞こえるということもない。
効  果 以上のように本発明に従えば、合成音に関する異常共振
検出を行ない、したがって音源のゲインを、合成音のゲ
インが異常増大しないように設定することができた。し
たがって合成音に関して、振幅の異常増大が発生するこ
とを防ぐことができ、原音声と同じ振幅にすることがで
きる。また振幅の異常増大部が強調されて聞こえるとい
う現象を防ぐことができる。
【図面の簡単な説明】
第1図は本発明に依る線形予測分析合成系の分析部を示
すブロック図、第2図は本発明に依る分析部に於ける異
常共振検出・音源ゲイン設定部10の構成を示すブロッ
ク図、第3図は異常共振検出アルゴリズムを示すフロー
チャート、第4図は本発明の効果を示す波形図、第5図
は先行技術の一般的な線形予測による分析合成系の分析
部を示すブロック図である。 10・・・異常共振検出・補正係数設定部、11・・・
平方根演算部、12・・・自己相関部、14・・・ブリ
・エン7アシス、15・・・パワーW、出部、1.6・
・・LPC分析部、17・・・異常共振検出部、18・
・・補正係数算出部、19・・・パラメータ算出部、2
0・・・ピッチ抽出・有声無声判定部

Claims (1)

  1. 【特許請求の範囲】 音声波形を予め定める期間単位に、線形予測分析を行な
    い、振幅情報として残差波形のパワーを、1期間あたり
    の音源のパワーとなるよう設定する音声分析合成に於い
    て、 原波形の2次の共振系による同定から求めた共振周波数
    とピッチ抽出器によるピッチ周波数との差と、共振周波
    数とをピッチ周波数に設定して、2次の共振系の同定を
    行なうことで得られる共振の帯域幅が、それぞれある閾
    値以下のとき、異常共振すなわちホルマント帯域幅の過
    少推定による合成波形のゲインの異常増大の可能性が在
    ると判断し、ピッチ周波数と帯域幅とから定める補正係
    数を残差パワーに掛けて得られる値、またはその平方根
    を、1期間あたりの音源パワー、または音源ゲインとし
    て設定することにより合成音のゲインの異常増大を防ぎ
    、かつ異常共振を検出するようにしたことを特徴とする
    音声分析合成に於ける音源ゲイン設定方式。
JP60151815A 1985-07-10 1985-07-10 音声分析合成に於ける音源ゲイン設定方式 Pending JPS6211900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60151815A JPS6211900A (ja) 1985-07-10 1985-07-10 音声分析合成に於ける音源ゲイン設定方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60151815A JPS6211900A (ja) 1985-07-10 1985-07-10 音声分析合成に於ける音源ゲイン設定方式

Publications (1)

Publication Number Publication Date
JPS6211900A true JPS6211900A (ja) 1987-01-20

Family

ID=15526914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60151815A Pending JPS6211900A (ja) 1985-07-10 1985-07-10 音声分析合成に於ける音源ゲイン設定方式

Country Status (1)

Country Link
JP (1) JPS6211900A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010170124A (ja) * 2008-12-30 2010-08-05 Huawei Technologies Co Ltd 信号圧縮方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010170124A (ja) * 2008-12-30 2010-08-05 Huawei Technologies Co Ltd 信号圧縮方法及び装置

Similar Documents

Publication Publication Date Title
US7516066B2 (en) Audio coding
JP2964879B2 (ja) ポストフィルタ
CN1064772C (zh) 语音活动性检测器
US20110218801A1 (en) Method for error concealment in the transmission of speech data with errors
US8249270B2 (en) Sound signal correcting method, sound signal correcting apparatus and computer program
JP2022022247A (ja) 時間領域励振デコーダによって復号化された時間領域励振の合成物を修正するための方法および装置
EP1973104A2 (en) Method and apparatus for estimating noise by using harmonics of a voice signal
US7313517B2 (en) Method and system for speech quality prediction of an audio transmission system
US8892430B2 (en) Noise detecting device and noise detecting method
WO1998049673A1 (en) Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device
JP3024468B2 (ja) 音声復号装置
JPH09179585A (ja) 音声認識をする方法とシステム
CN112669872B (zh) 一种音频数据的增益方法及装置
EP2828853B1 (en) Method and system for bias corrected speech level determination
US6125344A (en) Pitch modification method by glottal closure interval extrapolation
US20210201938A1 (en) Real-time pitch tracking by detection of glottal excitation epochs in speech signal using hilbert envelope
JPS6211900A (ja) 音声分析合成に於ける音源ゲイン設定方式
US20240071411A1 (en) Determining dialog quality metrics of a mixed audio signal
US20130275141A1 (en) Preprocessing method, preprocessing apparatus and coding device
US20250191602A1 (en) Method for processing an audio signal
JPH0467200A (ja) 有音区間判定方法
JPH087596B2 (ja) 雑音抑圧型音声検出器
KR0171004B1 (ko) Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법
CN121237113A (zh) 一种基于级联降噪与盲源分离的阵列麦克风降噪录音方法
JPS6127598A (ja) 音声信号の有音・無音判定方法