JPH0782360B2 - 音声分析合成方法 - Google Patents
音声分析合成方法Info
- Publication number
- JPH0782360B2 JPH0782360B2 JP1257503A JP25750389A JPH0782360B2 JP H0782360 B2 JPH0782360 B2 JP H0782360B2 JP 1257503 A JP1257503 A JP 1257503A JP 25750389 A JP25750389 A JP 25750389A JP H0782360 B2 JPH0782360 B2 JP H0782360B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- filter
- sound source
- pulse
- source signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
【発明の詳細な説明】 「産業上の利用分野」 この発明は音声スペクトル包絡特性を表す線形フィルタ
を音源信号で駆動して音声信号を合成する音声分析合成
方法に関する。
を音源信号で駆動して音声信号を合成する音声分析合成
方法に関する。
「従来の技術」 この発明に関連する従来技術として、線形予測ボコーダ
とマルチパルス予測符号化がある。線形予測ボコーダ
は、4.8kb/s以下の低ビットレート領域における音声符
号化方法としてこれまで広く用いられ、パーコール方式
や線スペクトル対(LSP)方式などの方法がある。これ
らの方式の詳細は、例えば斉藤、中田著“音声情報処理
の基礎”(オーム社出版)に記載されている。線形予測
ボコーダは、音声のスペクトル包絡特性を表す全極形の
フィルタとそれを駆動する音源信号の生成部とによって
構成される。その駆動音源信号には、有声音に対しては
ピッチ周期パルス列、無声音に対しては白色雑音が用い
られる。音源パラメータは、有声・無声の区別、ピッチ
周期および音源信号の振幅であり、これらのパラメータ
は30ミリ秒程度の分析区間における音声信号の平均的な
特徴として抽出される。線形予測ボコーダでは、このよ
うに一定の分析区間毎に抽出した音声の特徴パラメータ
を時間的に補間して音声を合成するため、音声のピッチ
周期、振幅、およびスペクトル特性が急速に変化する場
合には、音声波形の特徴が十分な精度では再現すること
ができない。さらに、周期パルス列と白色雑音からなる
駆動音源信号は多様な音声波形の特徴を再現するには不
十分なため、自然性の高い合成音声を得ることは困難で
あった。このように、線形予測ボコーダにおいて合成音
声の品質を高めるには、より音声波形の特徴を再現でき
る駆動音源が必要とされてきた。
とマルチパルス予測符号化がある。線形予測ボコーダ
は、4.8kb/s以下の低ビットレート領域における音声符
号化方法としてこれまで広く用いられ、パーコール方式
や線スペクトル対(LSP)方式などの方法がある。これ
らの方式の詳細は、例えば斉藤、中田著“音声情報処理
の基礎”(オーム社出版)に記載されている。線形予測
ボコーダは、音声のスペクトル包絡特性を表す全極形の
フィルタとそれを駆動する音源信号の生成部とによって
構成される。その駆動音源信号には、有声音に対しては
ピッチ周期パルス列、無声音に対しては白色雑音が用い
られる。音源パラメータは、有声・無声の区別、ピッチ
周期および音源信号の振幅であり、これらのパラメータ
は30ミリ秒程度の分析区間における音声信号の平均的な
特徴として抽出される。線形予測ボコーダでは、このよ
うに一定の分析区間毎に抽出した音声の特徴パラメータ
を時間的に補間して音声を合成するため、音声のピッチ
周期、振幅、およびスペクトル特性が急速に変化する場
合には、音声波形の特徴が十分な精度では再現すること
ができない。さらに、周期パルス列と白色雑音からなる
駆動音源信号は多様な音声波形の特徴を再現するには不
十分なため、自然性の高い合成音声を得ることは困難で
あった。このように、線形予測ボコーダにおいて合成音
声の品質を高めるには、より音声波形の特徴を再現でき
る駆動音源が必要とされてきた。
一方、マルチパルス予測符号化は従来のボコーダにくら
べて再現能力の高い駆動音源を用いる方法である(特許
1234567)。この方法では、複数個のパルスにより駆動
音源信号を表現し、音声の近接相関とピッチ相関特性を
表す2つの全極形フィルタを駆動することにより音声を
合成する。パルスの時間的位置と振幅は、入力音声波形
と合成音声波形との誤差を最小にするように決定され
る。その詳細は、文献(B.S.Atal,“A New model of LP
C excitation for producing natural-sounding speech
at low bit rates",IEEE Int.Conf.on ASSP,pp614-61
7,1982)に示されている。マルチパルス予測符号化で
は、パルスの個数を増やすことによって音声品質を高め
ることができるが、逆にビットレートが低くなるとパル
スの個数が制限されるため音声波形の再現精度が劣化
し、その結果十分な音声品質が得られなくなる。良好な
音声品質を得るには8kb/s程度の情報量が必要とされ
た。
べて再現能力の高い駆動音源を用いる方法である(特許
1234567)。この方法では、複数個のパルスにより駆動
音源信号を表現し、音声の近接相関とピッチ相関特性を
表す2つの全極形フィルタを駆動することにより音声を
合成する。パルスの時間的位置と振幅は、入力音声波形
と合成音声波形との誤差を最小にするように決定され
る。その詳細は、文献(B.S.Atal,“A New model of LP
C excitation for producing natural-sounding speech
at low bit rates",IEEE Int.Conf.on ASSP,pp614-61
7,1982)に示されている。マルチパルス予測符号化で
は、パルスの個数を増やすことによって音声品質を高め
ることができるが、逆にビットレートが低くなるとパル
スの個数が制限されるため音声波形の再現精度が劣化
し、その結果十分な音声品質が得られなくなる。良好な
音声品質を得るには8kb/s程度の情報量が必要とされ
た。
マルチパルス予測符号化では、入力音声波形そのものを
再現するように駆動音源が決定されるのに対して、特願
昭59-53757“音声信号処理方法”の実施例に見られるよ
うに、音声波形の位相成分を一定の位相に等化した後の
位相等化音声信号をマルチパルス予測符号化する方法が
提案されている。この方法では、聴覚的に鈍感な音声の
位相成分を音声波形から取り除くことにより、駆動音源
信号がより少ない個数のパルスで再現されるため、低ビ
ットレートでの音声品質が改善できる。しかし、この方
法でもビットレートが4.8kb/s程度に低くなると、パル
スの個数が不足して音声波形の特徴が十分には再現でき
ず、品質の高い音声を得ることはできなかった。
再現するように駆動音源が決定されるのに対して、特願
昭59-53757“音声信号処理方法”の実施例に見られるよ
うに、音声波形の位相成分を一定の位相に等化した後の
位相等化音声信号をマルチパルス予測符号化する方法が
提案されている。この方法では、聴覚的に鈍感な音声の
位相成分を音声波形から取り除くことにより、駆動音源
信号がより少ない個数のパルスで再現されるため、低ビ
ットレートでの音声品質が改善できる。しかし、この方
法でもビットレートが4.8kb/s程度に低くなると、パル
スの個数が不足して音声波形の特徴が十分には再現でき
ず、品質の高い音声を得ることはできなかった。
この発明の目的は、線形予測ボコーダと波形符号化の境
界領域(2.4-4.8kb/s)において、品質の高い音声分析
合成方法を提供することにある。
界領域(2.4-4.8kb/s)において、品質の高い音声分析
合成方法を提供することにある。
「課題を解決するための手段」 この発明は、音声分析合成に用いられる有声音に対する
駆動音源信号を、ピッチ周期のゆらぎの大きさを制限し
た準周期パルス列と位相等化された音声の予測残差を特
徴づける零形のフィルタとで表現し、この駆動音源信号
により合成された音声波形と位相等化された入力音声波
形との誤差が最小になるように、音源信号を構成するパ
ラメータ、すなわちパルスの時間的位置、振幅、および
零形フィルタの係数を決定することを特徴とする。従来
のボコーダでは一定分析区間毎に求めたピッチ周期と振
幅から生成される周期パルス列を駆動音源信号として用
いているのに対して、この発明ではピッチ周期毎にパル
スの位置と振幅が決定され、さらに零形フィルタを新た
に導入することにより音声波形の再現性の向上が図られ
ている。また、従来のマルチパルス予測符号化では複数
個のパルスによって1ピッチ周期の駆動音源信号を表し
ているのに対して、この発明ではピッチ当たり1個のパ
ルスと一定分析区間毎に設定される零形フィルタで駆動
音源信号を表しており、駆動音源信号の情報量の低減が
図られている。さらに、音源パラメータを決定する評価
基準として、従来方式では入力音声波形との誤差が用い
られているのに対して、この発明では位相等化音声波形
との誤差が用いられている。位相等化音声波形に対する
誤差評価尺度を用いることで、この発明で用いられる駆
動音源信号から合成される音声波形と入力音声波形との
整合度が向上することが可能となる。位相等化音声波形
と合成音声波形と互いに近いため、これらを比較して音
源パラメータを決定することにより音源パラメータの数
を少くすることができる。最後に、従来の位相等化とマ
ルチパルス予測符号化とを組み合わせた方法との相違
は、使用する駆動音源信号および音源パラメータの決定
方法の違いである。
駆動音源信号を、ピッチ周期のゆらぎの大きさを制限し
た準周期パルス列と位相等化された音声の予測残差を特
徴づける零形のフィルタとで表現し、この駆動音源信号
により合成された音声波形と位相等化された入力音声波
形との誤差が最小になるように、音源信号を構成するパ
ラメータ、すなわちパルスの時間的位置、振幅、および
零形フィルタの係数を決定することを特徴とする。従来
のボコーダでは一定分析区間毎に求めたピッチ周期と振
幅から生成される周期パルス列を駆動音源信号として用
いているのに対して、この発明ではピッチ周期毎にパル
スの位置と振幅が決定され、さらに零形フィルタを新た
に導入することにより音声波形の再現性の向上が図られ
ている。また、従来のマルチパルス予測符号化では複数
個のパルスによって1ピッチ周期の駆動音源信号を表し
ているのに対して、この発明ではピッチ当たり1個のパ
ルスと一定分析区間毎に設定される零形フィルタで駆動
音源信号を表しており、駆動音源信号の情報量の低減が
図られている。さらに、音源パラメータを決定する評価
基準として、従来方式では入力音声波形との誤差が用い
られているのに対して、この発明では位相等化音声波形
との誤差が用いられている。位相等化音声波形に対する
誤差評価尺度を用いることで、この発明で用いられる駆
動音源信号から合成される音声波形と入力音声波形との
整合度が向上することが可能となる。位相等化音声波形
と合成音声波形と互いに近いため、これらを比較して音
源パラメータを決定することにより音源パラメータの数
を少くすることができる。最後に、従来の位相等化とマ
ルチパルス予測符号化とを組み合わせた方法との相違
は、使用する駆動音源信号および音源パラメータの決定
方法の違いである。
「実施例」 第1図は、この発明による音声分析合成法の構成を示し
たものである。入力端子1からは標本化されたデジタル
の音声信号s(t)が入力される。線形予測分析部2で
は、N個の音声信号のサンプルを一旦データバッファに
蓄えた後、これらのサンプルに対して線形予測分析を行
って予測係数ai(i=1,2,・・・,p)を算出し、その予
測係数aiを量子化器3で量子化する。また、その予測係
数をフィルタ係数とする逆フィルタを用いて予測残差信
号を求め、その予測残差信号の自己相関係数の最大値に
対するレベル判定にもとづいて音声の有声・無声VUを判
定する。これらの処理方法の詳細は、前述の斉藤等によ
る著書に記載されている。
たものである。入力端子1からは標本化されたデジタル
の音声信号s(t)が入力される。線形予測分析部2で
は、N個の音声信号のサンプルを一旦データバッファに
蓄えた後、これらのサンプルに対して線形予測分析を行
って予測係数ai(i=1,2,・・・,p)を算出し、その予
測係数aiを量子化器3で量子化する。また、その予測係
数をフィルタ係数とする逆フィルタを用いて予測残差信
号を求め、その予測残差信号の自己相関係数の最大値に
対するレベル判定にもとづいて音声の有声・無声VUを判
定する。これらの処理方法の詳細は、前述の斉藤等によ
る著書に記載されている。
位相等化分析部4では、音声の位相特性を零位相化する
位相等化フィルタの係数と位相等化の基準時点を算出す
る。第2図は位相等化分析部4の細部の構成を示したも
のである。音声信号s(t)を逆フィルタ31に入力して
予測残差e(t)が求まる。その予測残差は最大振幅位
置検出部32と位相等化フィルタ37に供給される。スイッ
チ33は通常振幅比較部38の出力側に設定されており、当
該分析フレームが有声で一つ前の分析フレームが無声の
場合のみ最大振幅位置検出部32の出力側に設定される。
この場合は、最大振幅位置検出部32において予測残差の
振幅が最大になる時点t′0が検出され、これがフィル
タ係数算出部34に入力されて位相等化フィルタの係数が
次式により求められる。
位相等化フィルタの係数と位相等化の基準時点を算出す
る。第2図は位相等化分析部4の細部の構成を示したも
のである。音声信号s(t)を逆フィルタ31に入力して
予測残差e(t)が求まる。その予測残差は最大振幅位
置検出部32と位相等化フィルタ37に供給される。スイッ
チ33は通常振幅比較部38の出力側に設定されており、当
該分析フレームが有声で一つ前の分析フレームが無声の
場合のみ最大振幅位置検出部32の出力側に設定される。
この場合は、最大振幅位置検出部32において予測残差の
振幅が最大になる時点t′0が検出され、これがフィル
タ係数算出部34に入力されて位相等化フィルタの係数が
次式により求められる。
その後スイッチ33は振幅比較部38の出力側に切り替わ
り、振幅比較部38の出力がフィルタ係数算出部34に入力
される。
り、振幅比較部38の出力がフィルタ係数算出部34に入力
される。
フィルタ係数算出部34では、当該フレームが有声の場合
は基準時点tiに対して、上式と同様に次式で計算され
る。
は基準時点tiに対して、上式と同様に次式で計算され
る。
また、当該フレームが無声の場合は、次のように設定さ
れる。
れる。
フィルタ係数算出部34の出力は平滑部35へ供給され、例
えば次式のような1次のフィルタを用いて位相等化フィ
ルタの係数h*(m)が時間的に平滑化される。
えば次式のような1次のフィルタを用いて位相等化フィ
ルタの係数h*(m)が時間的に平滑化される。
ht(m)=bht-1(m)+(1-b)h*(m)ti-1<tti ここで、係数bは.97程度の値に設定される。フィルタ
係数保持部36では、平滑化されたフィルタ係数ht(m)を
各基準時点での値hti(m)を保持し、位相等化フィルタ37
を制御する。位相等化フィルタ37へは予測残差e(t)
が入力され、次式により位相等化予測残差ep(t)を出力
する。
係数保持部36では、平滑化されたフィルタ係数ht(m)を
各基準時点での値hti(m)を保持し、位相等化フィルタ37
を制御する。位相等化フィルタ37へは予測残差e(t)
が入力され、次式により位相等化予測残差ep(t)を出力
する。
振幅比較部38では、位相等化予測残差ep(t)の振幅レベ
ルがしきい値と比較され、しきい値を越える場合はその
時点を次の基準時点t′iとして検出する。
ルがしきい値と比較され、しきい値を越える場合はその
時点を次の基準時点t′iとして検出する。
第1図に示すように、位相等化分析部4で求められたフ
ィルタ係数ht(m)は位相等化フィルタ5を制御する。こ
の位相等化フィルタ5に音声信号s(t)を入力するこ
とにより位相等化音声信号sp(t)がその出力として求め
られる。
ィルタ係数ht(m)は位相等化フィルタ5を制御する。こ
の位相等化フィルタ5に音声信号s(t)を入力するこ
とにより位相等化音声信号sp(t)がその出力として求め
られる。
次に、音源パラメータ分析部30について説明する。この
分析合成法では有声音と無声音とで別々の駆動音源を使
用し、有声・無声パラメータVUによってスッチ17が切り
替えられる。有声音の駆動音源はパルス系列生成部7と
零形フィルタ10から構成される。
分析合成法では有声音と無声音とで別々の駆動音源を使
用し、有声・無声パラメータVUによってスッチ17が切り
替えられる。有声音の駆動音源はパルス系列生成部7と
零形フィルタ10から構成される。
パルス系列生成部7では第3図に示すような準周期パル
ス列を生成する。準周期パルス列は、各パルスの時間的
な位置(パルス位置)tiと振幅miをパラメータとして表
される。パルス位置はパルス位置生成部6により制御さ
れ、パルス振幅はパルス振幅算出部8によって制御され
る。パルス位置は位置間隔が準周期的になるように制限
される。すなわち、第3図におけるパルス位置間隔Ti=
ti−ti-1は、連続するパルス位置間隔の差が一定値以下
で、かつその差の分析フレーム内での総和が一定値以下
になるように次式によって制限される。
ス列を生成する。準周期パルス列は、各パルスの時間的
な位置(パルス位置)tiと振幅miをパラメータとして表
される。パルス位置はパルス位置生成部6により制御さ
れ、パルス振幅はパルス振幅算出部8によって制御され
る。パルス位置は位置間隔が準周期的になるように制限
される。すなわち、第3図におけるパルス位置間隔Ti=
ti−ti-1は、連続するパルス位置間隔の差が一定値以下
で、かつその差の分析フレーム内での総和が一定値以下
になるように次式によって制限される。
条件1 ΔTi=|Ti−Ti-1|J 条件2 ここで、npは分析フレーム内でのパルスの個数、JとJ
sumは定数である。パルス位置生成部6では、位相等化
分析部4で求められる基準時点t′iを基に、上記の制
限を満足するパルス位置の系列を生成する。第4図は基
準時点からパルス位置系列を生成する処理手順を示した
ものである。この処理では、まず基準時点から求まる位
置間隔の差に関して条件1に関する判定を行い、条件1
を満たさない場合は第4図の手順にしたがってパルス位
置の挿入、除去、修正を行う。その結果、全ての基準時
点が条件1を満たす場合は条件2の判定を行い、条件2
を満たす場合はその基準時点をパルス位置とする。条件
2を満たさない場合、基準時点の近傍で条件2を満たす
全てのパルス位置を候補として生成する。また、条件1
を満たさない場合は、基準時点の個数をその最大取り得
る個数NPと比較し、最大パルス数より少ない時は基準時
点をそのままパルス位置として用いる。基準時点の個数
が最大パルス数より多い時は、基準時点の中から個数が
最大パルス数となるパルス位置の全部の組み合わせを生
成する。生成されるパルス位置の候補が複数個ある場合
は、各パルス位置に対して合成される音声波形と位相等
化後の入力音声波形との誤差を波形歪み算出部19で求
め、歪み判定部20において誤差が最小になるパルス位置
を選択する。
sumは定数である。パルス位置生成部6では、位相等化
分析部4で求められる基準時点t′iを基に、上記の制
限を満足するパルス位置の系列を生成する。第4図は基
準時点からパルス位置系列を生成する処理手順を示した
ものである。この処理では、まず基準時点から求まる位
置間隔の差に関して条件1に関する判定を行い、条件1
を満たさない場合は第4図の手順にしたがってパルス位
置の挿入、除去、修正を行う。その結果、全ての基準時
点が条件1を満たす場合は条件2の判定を行い、条件2
を満たす場合はその基準時点をパルス位置とする。条件
2を満たさない場合、基準時点の近傍で条件2を満たす
全てのパルス位置を候補として生成する。また、条件1
を満たさない場合は、基準時点の個数をその最大取り得
る個数NPと比較し、最大パルス数より少ない時は基準時
点をそのままパルス位置として用いる。基準時点の個数
が最大パルス数より多い時は、基準時点の中から個数が
最大パルス数となるパルス位置の全部の組み合わせを生
成する。生成されるパルス位置の候補が複数個ある場合
は、各パルス位置に対して合成される音声波形と位相等
化後の入力音声波形との誤差を波形歪み算出部19で求
め、歪み判定部20において誤差が最小になるパルス位置
を選択する。
パルス振幅算出部8では、各パルスの振幅を合成音声波
形と位相等化後の入力音声波形との周波数重み付け平均
二乗誤差が最小になるように決定する。第5図は、パル
ス振幅算出部8の内部の構成を示したものである。位相
等化信号の入力音声波形sp(t)は周波数重み付けフィル
タ39へ供給され、このフィルタ39は音声スペクトルの強
い周波数成分を抑圧する働きを持ち、その伝達特性は次
のように表される。
形と位相等化後の入力音声波形との周波数重み付け平均
二乗誤差が最小になるように決定する。第5図は、パル
ス振幅算出部8の内部の構成を示したものである。位相
等化信号の入力音声波形sp(t)は周波数重み付けフィル
タ39へ供給され、このフィルタ39は音声スペクトルの強
い周波数成分を抑圧する働きを持ち、その伝達特性は次
のように表される。
ただし、 ここで、aiは線形予測係数であり、z-1は標本化遅延を
表す。γは抑圧の程度を制御するパラメータであり、0
<γ1の範囲の値をとり、小さい値になるほど抑圧の
程度が大きくなる。通常は0.7−0.9の値が用いられる。
周波数重み付きフィルタ39は、位相等化音声信号を周波
数重み付きフィルタに通した出力信号から、1つ前の分
析フレームの合成音声を初期値としてフィルタ1/A(γ
z)を零入力で駆動した時の初期値応答を差し引くこと
により信号sw(t)を得る。一方、線形予測係数aiは、イ
ンパルス応答算出部40へ供給され、1/A(γz)の伝達
特性をもつフィルタのインパルス応答f(t)が算出さ
れる。相関器41では、各パルス位置tiに対してインパル
ス応答f(t−ti)と周波数信号Sw(t)との相互共分散
ψ(i)を次式で算出する。
表す。γは抑圧の程度を制御するパラメータであり、0
<γ1の範囲の値をとり、小さい値になるほど抑圧の
程度が大きくなる。通常は0.7−0.9の値が用いられる。
周波数重み付きフィルタ39は、位相等化音声信号を周波
数重み付きフィルタに通した出力信号から、1つ前の分
析フレームの合成音声を初期値としてフィルタ1/A(γ
z)を零入力で駆動した時の初期値応答を差し引くこと
により信号sw(t)を得る。一方、線形予測係数aiは、イ
ンパルス応答算出部40へ供給され、1/A(γz)の伝達
特性をもつフィルタのインパルス応答f(t)が算出さ
れる。相関器41では、各パルス位置tiに対してインパル
ス応答f(t−ti)と周波数信号Sw(t)との相互共分散
ψ(i)を次式で算出する。
また、相関器42では、各パルス位置ti,tjの組に関して
インパルス応答の自己供分散φ(i,j)を次式で算出す
る。
インパルス応答の自己供分散φ(i,j)を次式で算出す
る。
パルス振幅算出部43では、ψ(t)とφ(i,j)とから
パルス振幅を次の連立方程式を解くことによって求め
る。
パルス振幅を次の連立方程式を解くことによって求め
る。
第1図中のパルス振幅は量子化器9において、例えばベ
クトル量子化の手法を用いて量子化される。ベクトル量
子化を用いる場合、パルス振幅を要素とするベクトル
(振幅パタン)を複数個のパルス振幅標準パタンと比較
し、パタン間の距離が最小となる標準パタンに量子化さ
れる。振幅パタンの距離尺度としては、パルス振幅標準
パタンから零形フィルムを用いず合成された音声波形と
位相等化後の入力音声波形との平均二乗誤差が用いられ
る。振幅パタンベクトルをm=(m1,m2,...,mnp)(t
は行列の転値を表す)、標準パタンベクトルをmci(i
=1,2,...,Nc)とすると、平均二乗誤差は次式で表され
る。
クトル量子化の手法を用いて量子化される。ベクトル量
子化を用いる場合、パルス振幅を要素とするベクトル
(振幅パタン)を複数個のパルス振幅標準パタンと比較
し、パタン間の距離が最小となる標準パタンに量子化さ
れる。振幅パタンの距離尺度としては、パルス振幅標準
パタンから零形フィルムを用いず合成された音声波形と
位相等化後の入力音声波形との平均二乗誤差が用いられ
る。振幅パタンベクトルをm=(m1,m2,...,mnp)(t
は行列の転値を表す)、標準パタンベクトルをmci(i
=1,2,...,Nc)とすると、平均二乗誤差は次式で表され
る。
d(m,mc)=(m−mci)tΦ(m−mci) ここで、Φはインパルス応答の自己共分散φ(i,j)を
要素とする行列である。この時、振幅パタンの量子化値
は、平均二乗誤差を最小にする標準パタンとして次式
で求められる。
要素とする行列である。この時、振幅パタンの量子化値
は、平均二乗誤差を最小にする標準パタンとして次式
で求められる。
零形フィルタ10は位相等化後の予測残差波形を特徴づけ
るフィルタであり、フィルタの係数は零形フィルタ係数
算出部11によって制御される。第6図は、位相等化後の
予測残差波形の例とそれに対する零形フィルタ10のイン
パルス応答波形を示したものである。位相等化後の予測
残差は、スペクトル包絡特性が平坦で位相が零位相に近
いことからインパルス的になり、各パルス位置で大きな
振幅を示して、それ以外の区間では比較的小さな振幅と
なる。また、パルス位置および隣り合うパルス位置の中
間時点を中心に対称に近い波形となる。パルス位置の中
間時点での振幅は、第6図にも見られるように他の区間
にくらべて比較的大きな振幅をもつことが多く、特にピ
ッチ周期が長い音声に対して、この傾向が強くなる。零
形フィルタ10は、第6図に示すようにそのインパルス応
答がパルス位置を中心に左右に各q個の時点とパルス位
置の中間時点を中心に左右にr個の時点で値をとるよう
に設定される。この時、零形フィルタ10の伝達特性は次
のように表される。
るフィルタであり、フィルタの係数は零形フィルタ係数
算出部11によって制御される。第6図は、位相等化後の
予測残差波形の例とそれに対する零形フィルタ10のイン
パルス応答波形を示したものである。位相等化後の予測
残差は、スペクトル包絡特性が平坦で位相が零位相に近
いことからインパルス的になり、各パルス位置で大きな
振幅を示して、それ以外の区間では比較的小さな振幅と
なる。また、パルス位置および隣り合うパルス位置の中
間時点を中心に対称に近い波形となる。パルス位置の中
間時点での振幅は、第6図にも見られるように他の区間
にくらべて比較的大きな振幅をもつことが多く、特にピ
ッチ周期が長い音声に対して、この傾向が強くなる。零
形フィルタ10は、第6図に示すようにそのインパルス応
答がパルス位置を中心に左右に各q個の時点とパルス位
置の中間時点を中心に左右にr個の時点で値をとるよう
に設定される。この時、零形フィルタ10の伝達特性は次
のように表される。
零形フィルタ係数算出部11では、与えられたピッチ位置
とパルス振幅に対してフィルタ係数vkを合成音声波形と
位相等化後の入力音声波形との周波数重み付き平均二乗
誤差が最小になるように算出する。第7図は、フィルタ
係数算出部11の構成を示したものである。周波数重み付
きフィルタ44とインパルス応答算出部45はそれぞれ第5
図の周波数重み付きフィルタ39とインパルス応答算出部
40と同じ構成をもつ。加算器46は次式にしたがってイン
パルス応答f(t)を加算する。
とパルス振幅に対してフィルタ係数vkを合成音声波形と
位相等化後の入力音声波形との周波数重み付き平均二乗
誤差が最小になるように算出する。第7図は、フィルタ
係数算出部11の構成を示したものである。周波数重み付
きフィルタ44とインパルス応答算出部45はそれぞれ第5
図の周波数重み付きフィルタ39とインパルス応答算出部
40と同じ構成をもつ。加算器46は次式にしたがってイン
パルス応答f(t)を加算する。
相関器47は、信号sw(t)とui(t)との相互共分散ψ
(i)を計算し、相関器48は、信号ui(t)とuj(t)
との自己共分散φ(i,J)を計算する。フィルタ係数算
出部49では、ψ(i)とφ(i,J)とから次の連立方程
式を解くことにより零形フィルタ10の係数viを算出す
る。
(i)を計算し、相関器48は、信号ui(t)とuj(t)
との自己共分散φ(i,J)を計算する。フィルタ係数算
出部49では、ψ(i)とφ(i,J)とから次の連立方程
式を解くことにより零形フィルタ10の係数viを算出す
る。
フィルタ係数viは第1図中の量子化器12において、例え
ばベクトル量子化の手法を用いて量子化される。ベクト
ル量子化を用いる場合、フィルタ係数を要素とするベク
トル(振幅パタン)を複数個のパルス振幅標準パタンと
比較し、パタン間の距離が最小となる標準パタンに量子
化される。パルス振幅のベクトル量子化と同様にして、
合成音声波形と位相等化後の入力音声波形との平均二乗
誤差を距離尺度とすると、フィルタ係数の量子化値
は、次式で求められる。
ばベクトル量子化の手法を用いて量子化される。ベクト
ル量子化を用いる場合、フィルタ係数を要素とするベク
トル(振幅パタン)を複数個のパルス振幅標準パタンと
比較し、パタン間の距離が最小となる標準パタンに量子
化される。パルス振幅のベクトル量子化と同様にして、
合成音声波形と位相等化後の入力音声波形との平均二乗
誤差を距離尺度とすると、フィルタ係数の量子化値
は、次式で求められる。
d(v,vc)=(v−vci)tΦ(v−vci) ただし、vはフィルタ係数を要素とするベクトル、vci
はその標準パタンベクトルである。また、Φはインパル
ス応答ui(t)の自己共分散φ(i,j)を要素とする行列で
ある。
はその標準パタンベクトルである。また、Φはインパル
ス応答ui(t)の自己共分散φ(i,j)を要素とする行列で
ある。
以上まとめると、音声音区間においては、パルス位置の
振幅によって決まる準周期パルス列を零形フィルタ10に
通した後の信号を駆動音源信号として、音声スペクトル
包絡特性を特徴づける全極形フィルタ18を駆動すること
により音声を合成する。音源パラメータは、パルス振幅
と零形フィルタの係数については、合成音声波形と位相
等化後の入力音声波形との誤差を最小とする最適値がパ
ルス位置に対して決定される。パルス位置の候補が複数
存在する場合は、各候補に対して上記の誤差を求め、誤
差が最小となる最適なパルス位置を全探索によって決定
する。
振幅によって決まる準周期パルス列を零形フィルタ10に
通した後の信号を駆動音源信号として、音声スペクトル
包絡特性を特徴づける全極形フィルタ18を駆動すること
により音声を合成する。音源パラメータは、パルス振幅
と零形フィルタの係数については、合成音声波形と位相
等化後の入力音声波形との誤差を最小とする最適値がパ
ルス位置に対して決定される。パルス位置の候補が複数
存在する場合は、各候補に対して上記の誤差を求め、誤
差が最小となる最適なパルス位置を全探索によって決定
する。
次に、無声音区間における駆動音源について説明する。
無声音区間ではコード励振型予測符号化(文献Schroede
r他、“Code excited Iinearprediction(CELP)",IEEE
Int.Conf.on ASSP,pp937−940,1985)と同じく、駆動
音源信号として乱数パタンを使用する。第1図の乱数パ
タン生成部13には、平均0、分散1の正規乱数を複数サ
ンプルまとめたパタンが複数個蓄えられている。乱数振
幅算出部15では各乱数パタン毎に、乱数パタンについて
合成音声波形と位相等化後の入力音声波形との誤差が最
小となるゲイン最適値を算出し、量子化器16で量子化さ
れたゲインを用いてゲイン増幅器14を制御する。次に、
各乱数パタンに対して合成音声と位相等化音声との誤差
を求め、それが最小となる最適な乱数パタンを全探索に
よって求め、この乱数パタンの系列をゲイン増幅器14を
通じて駆動音源信号として全極形フィルタ18へ供給す
る。
無声音区間ではコード励振型予測符号化(文献Schroede
r他、“Code excited Iinearprediction(CELP)",IEEE
Int.Conf.on ASSP,pp937−940,1985)と同じく、駆動
音源信号として乱数パタンを使用する。第1図の乱数パ
タン生成部13には、平均0、分散1の正規乱数を複数サ
ンプルまとめたパタンが複数個蓄えられている。乱数振
幅算出部15では各乱数パタン毎に、乱数パタンについて
合成音声波形と位相等化後の入力音声波形との誤差が最
小となるゲイン最適値を算出し、量子化器16で量子化さ
れたゲインを用いてゲイン増幅器14を制御する。次に、
各乱数パタンに対して合成音声と位相等化音声との誤差
を求め、それが最小となる最適な乱数パタンを全探索に
よって求め、この乱数パタンの系列をゲイン増幅器14を
通じて駆動音源信号として全極形フィルタ18へ供給す
る。
以上の手順により、音声信号は線形予測係数ai、有声・
無声パラメータVU、有声音ではパルス位置ti、パルス振
幅mi、零形フィルタ係数vi、無声音では乱数コードパタ
ン(番号)ciとゲインgiによって表される。これらの音
声パラメータは符号化部21で符号化された後、伝送ある
いは蓄積される。音声合成部では、音声パラメータを復
号化部22で復号化した後、有声音の場合はパルス系列生
成部23でパルス位置tiとパルス振幅miとにより生成され
たパルス列を零形フィルタ24に通して駆動音源信号を生
成し、無声音の場合は乱数コードパタン(信号)ciで乱
数パタン生成部25より乱数パタンを選択生成し、これを
ゲインgiにより制御される増幅器26に通して振幅制御し
て駆動音源信号を生成し、有声・無声によって切り替わ
るスイッチ27で両駆動音源信号の一方が選択され、全極
形フィルタ28を駆動することによりその出力端29に合成
音声が出力される。零形フィルタ24のフィルタ係数はvi
で制御され、全極形フィルタ28のフィルタ係数はaiで制
御される。
無声パラメータVU、有声音ではパルス位置ti、パルス振
幅mi、零形フィルタ係数vi、無声音では乱数コードパタ
ン(番号)ciとゲインgiによって表される。これらの音
声パラメータは符号化部21で符号化された後、伝送ある
いは蓄積される。音声合成部では、音声パラメータを復
号化部22で復号化した後、有声音の場合はパルス系列生
成部23でパルス位置tiとパルス振幅miとにより生成され
たパルス列を零形フィルタ24に通して駆動音源信号を生
成し、無声音の場合は乱数コードパタン(信号)ciで乱
数パタン生成部25より乱数パタンを選択生成し、これを
ゲインgiにより制御される増幅器26に通して振幅制御し
て駆動音源信号を生成し、有声・無声によって切り替わ
るスイッチ27で両駆動音源信号の一方が選択され、全極
形フィルタ28を駆動することによりその出力端29に合成
音声が出力される。零形フィルタ24のフィルタ係数はvi
で制御され、全極形フィルタ28のフィルタ係数はaiで制
御される。
変形例 有声と無声によって駆動音源を区別せず、いずれの場合
もパルス駆動音源を用いる。この場合、摩擦子音に対し
て品質が若干劣化するが、処理構成が簡単で処理量が低
減でき、ハード規模が小さくて済む。また、有声・無声
パラメータを伝送する必要がないため、毎秒60ビット分
ビットレートが低減される。
もパルス駆動音源を用いる。この場合、摩擦子音に対し
て品質が若干劣化するが、処理構成が簡単で処理量が低
減でき、ハード規模が小さくて済む。また、有声・無声
パラメータを伝送する必要がないため、毎秒60ビット分
ビットレートが低減される。
パルス駆動音源において零形フィルタを含めない構成。
この方法では、特にピッチ周波数が低い男声音声に対し
て合成音声の自然性が若干劣化するが、零形フィルタを
除くことによりハード規模が低減され、またフィルタ係
数の符号化に要する毎秒600ビット分、ビットレートが
低減される。
この方法では、特にピッチ周波数が低い男声音声に対し
て合成音声の自然性が若干劣化するが、零形フィルタを
除くことによりハード規模が低減され、またフィルタ係
数の符号化に要する毎秒600ビット分、ビットレートが
低減される。
パルス振幅算出部8とベクトル量子化部9の処理を統合
してパルス振幅の量子化値を算出する構成。この方法に
よる構成を第8図に示す。周波数重み付きフィルタ50、
インパルス応答算出部51、相関器52、相関器53は実施例
1の第5図の対応するものと同じ構成である。パルス振
幅量子化部54では、パタンコード帳55に蓄えられている
各パルス振幅標準パタンmci(i=1,2,…,Nc)につい
て、その振幅標準パタンを用いて合成した時の音声波形
と位相等化後の入力音声波形の平均二乗誤差を算出し、
誤差が最も小さくなるパルス振幅標準パタンが求められ
る。距離計算は次式にしたがって行われる。
してパルス振幅の量子化値を算出する構成。この方法に
よる構成を第8図に示す。周波数重み付きフィルタ50、
インパルス応答算出部51、相関器52、相関器53は実施例
1の第5図の対応するものと同じ構成である。パルス振
幅量子化部54では、パタンコード帳55に蓄えられている
各パルス振幅標準パタンmci(i=1,2,…,Nc)につい
て、その振幅標準パタンを用いて合成した時の音声波形
と位相等化後の入力音声波形の平均二乗誤差を算出し、
誤差が最も小さくなるパルス振幅標準パタンが求められ
る。距離計算は次式にしたがって行われる。
ここで、Φはインパルス応答f(t)の自己共分散φ
(i,j)を要素とする行列、ψはインパルス応答と周波
数重み付きフィルタの出力sw(t)との相互共分散ψ
(i)(i=1,2,…,nP)を要素とする列ベクトルであ
る。
(i,j)を要素とする行列、ψはインパルス応答と周波
数重み付きフィルタの出力sw(t)との相互共分散ψ
(i)(i=1,2,…,nP)を要素とする列ベクトルであ
る。
この第8図と第5図とでは、最適なパルス振幅を求める
のに必要な処理量はほぼ同じであるが、第8図では第5
図の処理に含まれる連立方程式の解法が不要となり、処
理構成が簡単になる。ただし、第5図ではパルス振幅の
最適値を求めた後に、これをスカラー量子化することが
可能であるのに対して、第8図では量子化法としてベク
トル量子化を使用することが前提となる。
のに必要な処理量はほぼ同じであるが、第8図では第5
図の処理に含まれる連立方程式の解法が不要となり、処
理構成が簡単になる。ただし、第5図ではパルス振幅の
最適値を求めた後に、これをスカラー量子化することが
可能であるのに対して、第8図では量子化法としてベク
トル量子化を使用することが前提となる。
第8図と同様な方法で、零形フィルタの係数の算出とベ
クトル量子化を統合して、係数の量子化値を算出するこ
ともできる。
クトル量子化を統合して、係数の量子化値を算出するこ
ともできる。
「発明の効果」 この発明による音声分析合成法の効果を調べるために、
以下の条件で分析合成音声実験をおこなった。0−4kHz
帯域の音声を標本化周波数8kHzで標本化した後、音声信
号に分析窓長30msのハミング窓を乗じ、分析次数を12次
として自己相関法による線形予測分析を行い、12個の予
測係数と音声・無声パラメータを求める。符号化の分析
フレーム長は15ms(120音声サンプル)とする。予測係
数は差分多段ベクトル量子化法を用いて量子化する。ベ
クトル量子化における距離尺度としては、周波数重み付
きケプストラム距離を用いた。ビットレートが4.8kb/s
の場合、フレーム当たりのビット数は72ビットであり、
その内訳は次の様になる。
以下の条件で分析合成音声実験をおこなった。0−4kHz
帯域の音声を標本化周波数8kHzで標本化した後、音声信
号に分析窓長30msのハミング窓を乗じ、分析次数を12次
として自己相関法による線形予測分析を行い、12個の予
測係数と音声・無声パラメータを求める。符号化の分析
フレーム長は15ms(120音声サンプル)とする。予測係
数は差分多段ベクトル量子化法を用いて量子化する。ベ
クトル量子化における距離尺度としては、周波数重み付
きケプストラム距離を用いた。ビットレートが4.8kb/s
の場合、フレーム当たりのビット数は72ビットであり、
その内訳は次の様になる。
パルス音源におけるパルス周期のゆらぎの許容範囲を表
す定数JとJsum、及び許容範囲に入らない場合の最大パ
ルス数NPは、パルス位置の符号化に割り当てられるビッ
ト数によって定まる。パルス位置を29ビット/フレーム
で符号化する場合、隣り合うパルス周期の差ΔTは5サ
ンプル以下、そのフレーム内で総和は14サンプル以下と
なる。また、許容範囲に入らない場合のパルスの最大個
数は5となる。零形フィルタは7次(q=r=1)のフ
ィルタを用いた。乱数パタンベクトルは40サンプル(5m
s)からなり、512種類(9bit)のパタンから選択され
る。また、乱数振幅は正負の符号を含めて6ビットで量
子化される。
す定数JとJsum、及び許容範囲に入らない場合の最大パ
ルス数NPは、パルス位置の符号化に割り当てられるビッ
ト数によって定まる。パルス位置を29ビット/フレーム
で符号化する場合、隣り合うパルス周期の差ΔTは5サ
ンプル以下、そのフレーム内で総和は14サンプル以下と
なる。また、許容範囲に入らない場合のパルスの最大個
数は5となる。零形フィルタは7次(q=r=1)のフ
ィルタを用いた。乱数パタンベクトルは40サンプル(5m
s)からなり、512種類(9bit)のパタンから選択され
る。また、乱数振幅は正負の符号を含めて6ビットで量
子化される。
上記の条件で符号化された音声は、従来のボコーダにく
らべてはるかに高い自然性をもち、その品質は原音に近
いものになっている。また、従来のボコーダにくらべて
話者に対する音声品質の依存性は小さい。また、従来の
マルチパルス予測符号化やコード励振形予測符号化とく
らべても、符号化音声に品質が明らかに高いことが確認
された。4.8kb/sで符号化された音声のスペクトル包絡
歪みは約1dBである。符号化で生じる時間遅延は45msで
あり、低ビットレート領域における従来の方法と同程度
以下である。
らべてはるかに高い自然性をもち、その品質は原音に近
いものになっている。また、従来のボコーダにくらべて
話者に対する音声品質の依存性は小さい。また、従来の
マルチパルス予測符号化やコード励振形予測符号化とく
らべても、符号化音声に品質が明らかに高いことが確認
された。4.8kb/sで符号化された音声のスペクトル包絡
歪みは約1dBである。符号化で生じる時間遅延は45msで
あり、低ビットレート領域における従来の方法と同程度
以下である。
この発明の効果は、有声音に対する駆動音源信号を準周
期パルス列として表現することにより、従来のボコーダ
より音声の波形情報の再現性が高く、また従来のマルチ
パルス予測符号化より少ない情報量で駆動音源信号を表
現できることにある。また、この駆動音源信号のパラメ
ータを入力音声から推定する方法として、位相等化後の
音声波形に対する誤差を評価尺度として用いているため
に、入力音声そのものに対する誤差を用いる従来方法に
比べて、合成音声波形と入力音声波形との整合度が向上
し、より精度良く音源パラメータの推定が行える効果が
ある。また、零形フィルタは音声スペクトルの微細な特
徴を再現する効果があり、これにより合成音声の自然性
が向上する。
期パルス列として表現することにより、従来のボコーダ
より音声の波形情報の再現性が高く、また従来のマルチ
パルス予測符号化より少ない情報量で駆動音源信号を表
現できることにある。また、この駆動音源信号のパラメ
ータを入力音声から推定する方法として、位相等化後の
音声波形に対する誤差を評価尺度として用いているため
に、入力音声そのものに対する誤差を用いる従来方法に
比べて、合成音声波形と入力音声波形との整合度が向上
し、より精度良く音源パラメータの推定が行える効果が
ある。また、零形フィルタは音声スペクトルの微細な特
徴を再現する効果があり、これにより合成音声の自然性
が向上する。
第1図はこの発明による分析合成法の一例を示す構成
図、第2図は位相等化分析部4の構成例を示すブロック
図、第3図は準周期パルス駆動音源信号の説明図、第4
図はパルス位置を生成する処理の流れ図、第5図はパル
ス振幅算出部8の構成例を示すブロック図、第6図は零
形フィルタの説明図、第7図は零形フィルタ係数算出部
11の構成例を示すブロック図、第8図はパルス振幅算出
部8の他の構成例を示すブロック図である。
図、第2図は位相等化分析部4の構成例を示すブロック
図、第3図は準周期パルス駆動音源信号の説明図、第4
図はパルス位置を生成する処理の流れ図、第5図はパル
ス振幅算出部8の構成例を示すブロック図、第6図は零
形フィルタの説明図、第7図は零形フィルタ係数算出部
11の構成例を示すブロック図、第8図はパルス振幅算出
部8の他の構成例を示すブロック図である。
Claims (3)
- 【請求項1】音声スペクトル包絡特性を表す線形フィル
タと、それを駆動する音源信号の生成部とから構成され
る音声分析合成系において、 上記音源信号をピッチ周期のゆらぎの大きさを制限した
準周期パルス列により表現し、 その音源信号を構成するパラメータを入力音声の位相を
ピッチ同期的に零位相化した後の位相等化音声波形と合
成音声波形との誤差を最小にするように決定し、 上記音源信号で上記音声スペクトル包絡特性を表す線形
フィルタを駆動することにより音声信号を合成すること
を特徴とする音声分析合成方法。 - 【請求項2】上記音源信号は有声音に対して用い、無声
音に対しては複数個の乱数パタンから選択した乱数系列
にその平均電力を設定したものを音源信号として使用
し、かつこの無声音に対する音源信号を構成するパラメ
ータを上記位相等化音声波形と合成音声波形との誤差を
最小にするように決定することに特徴とする請求項1記
載の音声分析合成方法。 - 【請求項3】上記ピッチ周期のゆらぎの大きさを制限し
た準周期パルス列により表現された音源信号を、音声ス
ペクトルの微細構造を特徴づける零形フィルタに通して
上記線形フィルタへ供給し、その零形フィルタの係数を
上記位相等化音声波形と合成音声波形との誤差を最小に
するように決定することを特徴とする請求項1又は2記
載の音声分析合成方法。
Priority Applications (6)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1257503A JPH0782360B2 (ja) | 1989-10-02 | 1989-10-02 | 音声分析合成方法 |
| CA002026640A CA2026640C (en) | 1989-10-02 | 1990-10-01 | Speech analysis-synthesis method and apparatus therefor |
| EP90118888A EP0421360B1 (en) | 1989-10-02 | 1990-10-02 | Speech analysis-synthesis method and apparatus therefor |
| DE69024899T DE69024899T2 (de) | 1989-10-02 | 1990-10-02 | Verfahren und Einrichtung zur Analyse durch Synthetisieren von Sprache |
| US07/939,049 US5293448A (en) | 1989-10-02 | 1992-09-03 | Speech analysis-synthesis method and apparatus therefor |
| US08/181,415 US5495556A (en) | 1989-01-02 | 1994-01-14 | Speech synthesizing method and apparatus therefor |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1257503A JPH0782360B2 (ja) | 1989-10-02 | 1989-10-02 | 音声分析合成方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03119398A JPH03119398A (ja) | 1991-05-21 |
| JPH0782360B2 true JPH0782360B2 (ja) | 1995-09-06 |
Family
ID=17307200
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1257503A Expired - Lifetime JPH0782360B2 (ja) | 1989-01-02 | 1989-10-02 | 音声分析合成方法 |
Country Status (4)
| Country | Link |
|---|---|
| EP (1) | EP0421360B1 (ja) |
| JP (1) | JPH0782360B2 (ja) |
| CA (1) | CA2026640C (ja) |
| DE (1) | DE69024899T2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009244723A (ja) * | 2008-03-31 | 2009-10-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体 |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| FR2741744B1 (fr) * | 1995-11-23 | 1998-01-02 | Thomson Csf | Procede et dispositif d'evaluation de l'energie du signal de parole par sous bande pour vocodeur bas debits |
| WO1998040877A1 (en) * | 1997-03-12 | 1998-09-17 | Mitsubishi Denki Kabushiki Kaisha | Voice encoder, voice decoder, voice encoder/decoder, voice encoding method, voice decoding method and voice encoding/decoding method |
| US6385573B1 (en) * | 1998-08-24 | 2002-05-07 | Conexant Systems, Inc. | Adaptive tilt compensation for synthesized speech residual |
| US7072832B1 (en) | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
| JP5325130B2 (ja) * | 2010-01-25 | 2013-10-23 | 日本電信電話株式会社 | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム |
| CN108281150B (zh) * | 2018-01-29 | 2020-11-17 | 上海泰亿格康复医疗科技股份有限公司 | 一种基于微分声门波模型的语音变调变嗓音方法 |
| CN113066476B (zh) * | 2019-12-13 | 2024-05-31 | 科大讯飞股份有限公司 | 合成语音处理方法及相关装置 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0163829B1 (en) * | 1984-03-21 | 1989-08-23 | Nippon Telegraph And Telephone Corporation | Speech signal processing system |
-
1989
- 1989-10-02 JP JP1257503A patent/JPH0782360B2/ja not_active Expired - Lifetime
-
1990
- 1990-10-01 CA CA002026640A patent/CA2026640C/en not_active Expired - Fee Related
- 1990-10-02 EP EP90118888A patent/EP0421360B1/en not_active Expired - Lifetime
- 1990-10-02 DE DE69024899T patent/DE69024899T2/de not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009244723A (ja) * | 2008-03-31 | 2009-10-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP0421360B1 (en) | 1996-01-17 |
| EP0421360A2 (en) | 1991-04-10 |
| CA2026640A1 (en) | 1991-04-03 |
| DE69024899T2 (de) | 1996-07-04 |
| DE69024899D1 (de) | 1996-02-29 |
| JPH03119398A (ja) | 1991-05-21 |
| EP0421360A3 (en) | 1991-12-27 |
| CA2026640C (en) | 1996-07-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5293448A (en) | Speech analysis-synthesis method and apparatus therefor | |
| EP0745971A2 (en) | Pitch lag estimation system using linear predictive coding residual | |
| US5953697A (en) | Gain estimation scheme for LPC vocoders with a shape index based on signal envelopes | |
| JP3602593B2 (ja) | 音声エンコーダ及び音声デコーダ、並びに音声符号化方法及び音声復号化方法 | |
| JP3180762B2 (ja) | 音声符号化装置及び音声復号化装置 | |
| JP3582589B2 (ja) | 音声符号化装置及び音声復号化装置 | |
| US6169970B1 (en) | Generalized analysis-by-synthesis speech coding method and apparatus | |
| JPH0782360B2 (ja) | 音声分析合成方法 | |
| JP2002140099A (ja) | 音声復号化装置 | |
| JP3531780B2 (ja) | 音声符号化方法および復号化方法 | |
| JPH08328597A (ja) | 音声符号化装置 | |
| JP2829978B2 (ja) | 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置 | |
| JP3583945B2 (ja) | 音声符号化方法 | |
| JP3319396B2 (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
| JP3481027B2 (ja) | 音声符号化装置 | |
| JP2000235400A (ja) | 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体 | |
| EP0713208B1 (en) | Pitch lag estimation system | |
| JP3299099B2 (ja) | 音声符号化装置 | |
| JP3552201B2 (ja) | 音声符号化方法および装置 | |
| JP2001142499A (ja) | 音声符号化装置ならびに音声復号化装置 | |
| JPH08185199A (ja) | 音声符号化装置 | |
| JP3192051B2 (ja) | 音声符号化装置 | |
| JPH08320700A (ja) | 音声符号化装置 | |
| JPH05232995A (ja) | 一般化された合成による分析音声符号化方法と装置 | |
| JPH06130994A (ja) | 音声符号化方法 |