JPH0339320B2 - - Google Patents

Info

Publication number
JPH0339320B2
JPH0339320B2 JP59250133A JP25013384A JPH0339320B2 JP H0339320 B2 JPH0339320 B2 JP H0339320B2 JP 59250133 A JP59250133 A JP 59250133A JP 25013384 A JP25013384 A JP 25013384A JP H0339320 B2 JPH0339320 B2 JP H0339320B2
Authority
JP
Japan
Prior art keywords
sound source
vocal cord
source waveform
pitch period
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59250133A
Other languages
English (en)
Other versions
JPS61128299A (ja
Inventor
Yunkuisuto Matsutsu
Hiroya Fujisaki
Yasuo Sato
Tadayasu Sugita
Akio Hanada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP59250133A priority Critical patent/JPS61128299A/ja
Publication of JPS61128299A publication Critical patent/JPS61128299A/ja
Publication of JPH0339320B2 publication Critical patent/JPH0339320B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声処理装置、特にいわゆるA−b−
S(Analysis−by−Synthesis)の手法を用いる
ことにより、平均2乗誤差が最大となるように声
帯音源波形モデルのパラメータを定め、声帯音源
波形モデルを線形予測分析法と組合わせることに
より音声を分析する音声処理装置に関するもので
ある。
〔従来の技術と問題点〕
音声の認識、伝送、蓄積などにあたつて、音声
に関する情報量をできるだけ圧縮し、かつその音
声に関する情報から高品質の音声の再生を可能と
するために、従来から種々の方式が考えられてい
る。その1つとして、例えばADPCM等の音声の
波形をそのまま符号化する波形符号化方式があ
り、また、これに対するものとして、いわゆるボ
コーダによる狭義の分析合成方式がある。
波形符号化方式の場合、音声信号を線形予測分
析し、線形予測係数と予測誤差を得て、その予測
誤差を量子化する。再生にあたつては、量子化さ
れた予測誤差を分析で得られた線形予測係数によ
るフイルタで駆動する。この波形符号化方式によ
る再生音声の歪は、予測誤差の量子化によるもの
であり、高品質の再生音声が得られる。しかし、
その情報量は、例えば16Kbps〜64Kbpsであり、
音声に関する情報量はかなり多くなる。
分析合成方式の場合、音声の生成機構をモデル
化し、音源信号と調音器官による音響フイルタ特
性とに着目する。そして、例えば有声音の音源信
号を周期的インパルス列と、無声音の音源信号を
白色雑音として近似する。これによれば、例えば
音声は、有声音/無声音の区別情報、周期音源に
関するピツチ周波数、振幅情報、線形フイルタ特
性によつて表される。換言すれば、予測誤差分を
モデル化していると見ることができ、音声情報を
例えば1.2Kbps〜9.2Kbps程度に圧縮できる。し
かし、合成される音声の品質は、上記波形符号化
方式に比べると、かなり落ちる。
音声の分析または合成において、音声に関する
情報量が少なく、かつ上記波形符号化方式に近い
高品質の合成音声が得られる方式が望まれる。
〔問題点を解決するための手段〕
本発明は上記問題点の解決を図り、音源波形の
モデル化に当たつて、音源をパルスと雑音信号で
近似するのではなく、ローゼンベルグ
(Rosenberg)波形などの声帯音源波形モデルを
使用する。そして、この声帯音源波形モデルを規
定するためのピツチ周期、立上がり時間、立下が
り時間および振幅の4種パラメータを、A−b−
S(Analysis−by−Synthesis)の手法によりも
とめる手段を備えている。即ち、本発明の音声処
理装置は、音源波形をモデル化した情報に基づい
て音声の処理を行う音声処置装置において、入力
音声信号からピツチ周期を推定する周期推定部
と、少なくともピツチ周期、立上がり時間、立下
がり時間および振幅に関する4種のパラメータに
基づいて声帯音源波形の信号を合成し出力する声
帯音源波形生成部と、この声帯音源波形生成部の
出力と入力音声信号とから予測誤差を求め、その
線形予測係数を出力する線形予測分析部と、前記
ピツチ周期推定部が推定したピツチ周期を入力す
るとともに、前記線形予測分析部の出力である予
測誤差を入力し、その予測誤差が小さくなるよう
に、前の声帯音源波形を規定するパラメータと異
なる値をとるパラメータを選択して、前記声帯音
源波形生成部に出力し、最適な前記4種のパラメ
ータを決定する最適パラメータ決定部とを備えた
ことを特徴としている。
〔作用〕
本発明は、ピツチ周期、立上がり時間、立下が
り時間および振幅の4種パラメータにより規定さ
れる声帯音源波形モデルの音源信号で駆動される
線形予測フイルタによつて音声信号を生成する音
声合成系を用意し、入力音声信号に対し、上記4
種のパラメータを選択した後、線形予測分析を行
つて、合成音声信号と入力音声信号との誤差を求
める手順を繰り返すA−b−S手法によつて、上
記4種の最適なパラメータを決定する。そして、
この4種のパラメータと線形予測係数とを音声に
関する情報とする。必要に応じて上記4種のパラ
メータと線形予測係数とを受信ないし蓄積し、上
記モデルによつて合成すれば、少ない情報量でも
つて、高品質の音声を分析合成することができる
ことになる。以下、図面を参照しつつ、実施例に
従つて説明する。
〔実施例〕
第1図は本発明の一実施例構成ブロツク図、第
2図は声帯音源波形モデルの説明図、第3図は合
成音声について本発明を適用した例の波形図、第
4図は第3図と対比するための従来方式による例
の波形図、第5図は自然音声について本発明を適
用した例の波形図を示す。
第1図において、符号1はピツチ周期推定部、
2は最適パラメータ決定部、3はパラメータ選択
部、4は声帯音源波形生成部、5は線形予測分析
部を表す。
本発明は、分析合成のための音源のモデル化に
あたつて、周期音源としてインパルスを用いるの
ではなく、声帯音源波形モデルを利用する。例え
ば、人の声には、明瞭な声や嗄れ声など種々の変
化がある。これには、音源の相違による影響が考
えられ、一律にインパルスで近似した場合、妥当
な結果を得ることが難しい。声帯音源波形モデル
を用いることにより、より近似性を向上させるこ
とができる。なお、三角波で近似してもよい。
声帯音源波形は、例えば第2図図示のような形
をしている。この波形g(n)は、次式で表され
る。
t1<t≦t2のとき、g(n)=0 t2<t≦t3のとき、 g(n)=α/2〔1−cos(t−t2/t3−t2π)
〕 t2<t≦t3のとき、 g(n)=αcos(t−t3/t4−t3π/2) この波形はピツチ周期T、立上がり時間の比
R、立下がり時間の比Fおよび振幅Aの4つのパ
ラメータにより表すことができ、以下のようにな
る。
T=t4−t1 R=(t3−t2)/T F=(t4−t3)/T A=α 第1図図示ピツチ周期推定部1は、このピツチ
周期Tを、従来から知られている種々の手段によ
り、入力音声から推定するものである。推定した
ピツチ周期は、最適パラメータ決定部2に供給さ
れる。また、立上がり時間の比R、立下がり時間
の比F、振幅Aのパラメータについては、予め適
当な初期値を定めておき、それを最適パラメータ
決定部2へ与える。パラメータ選択部3は、最初
にこれら4種のパラメータを選択し、声帯音源波
形生成部4に出力する。
声帯音源波形生成部4は、これらのピツチ周期
T、立上がり時間の比R、立下がり時間の比Fお
よび振幅Aの4つのパラメータから、第2図に示
すような声帯音源波形の信号を合成し出力するも
のである。この出力信号は、図示省略したが、必
要に応じていわゆる放射特性を加味した補正がな
され、線形予測分析部5に供給される。
線形予測分析部5は、この合成音声信号と入力
音声信号とから予測誤差を求め、その線形予測係
数を出力する。求められた予測誤差は、最適パラ
メータ決定部2へフイードバツクされる。
最適パラメータ決定部2は、この予測誤差を小
さくするために、上記声帯音源波形を規定するパ
ラメータを少しずつ変化させていくように、パラ
メータ選択部3に指示を与える。パラメータ選択
部3は、前のパラメータと異なる値をとるパラメ
ータを選択して、声帯音源波形生成部4に出力す
る。この手順を繰り返し、最適な4種のパラメー
タを決定する。即ち、いわゆるA−b−S手法を
用いることにより、時間領域における平均2乗誤
差が最小となるように、ピツチ周期T、立上がり
時間の比R、立下がり時間の比Fおよび振幅Aの
4つのパラメータを定める。A−b−S手法によ
つてパラメータを抽出することにより、例えば逆
フイルタリング手法によつてパラメータを決定す
るよりも、精度の良い分析が可能である 音声信号に対し、全極形モデルを仮設する線形
予測分析によれば、音声信号s(n)は、次式で
表される。
s(n)=Pi=1 aiS(n−i)+ap+1g(n) ここで、aiは予測係数、pは予測次数であり、
ap+1はゲインである。g(n)は白色雑音シーケ
ンスが仮定されている。
しかしながら、声帯音源波形モデルを線形予測
分析法と組合わせるGLPC法によれば、g(n)
は既知の波形であり、平坦なスペクトルを持たな
い。即ち、音声信号s(n)は、次式で現される。
s(n)=Pi=1 aiS(n−i)+ap+1g(n) +e(n) ここでe(n)は白色雑音シーケンスであり、
最小化されるべき誤差Egは、次のようになる。
Eg=N-1n=1 〔s(n)−Pi=1 ais(n−i) +ap+1g(n)〕2 第1図に示した最適パラメータ決定部2によ
り、この誤差Egが最小となるパラメータが決定
されることになる。線形予測係数aiは、音声信号
s(n)とg(n)とに関して最適化され、ap+1
は、誤差Egを最小化するg(n)のゲインとな
る。
第3図は本発明による方式を評価するため、合
成音声について本発明を適用し、上記GLPCによ
る分析を行つた結果を示しているものである。第
3図aの波形は、合成に用いられた声帯音源波形
であり、第3図bは、それによつて合成された音
声信号である。第3図cは、第3図b図示音声信
号についてGLPCにより推定した声帯音源波形で
あり、これによつて再合成された音声信号が、第
3図dに示されている。
第3図eは、分析対象となつた第3図bの音声
信号と、再合成された第3図dの音声信号との誤
差信号を示しており、これによるSN比は、
12.7dBとなつている。
第3図と対比するために、同じ合成音声につい
て、従来行われている周期的なインパルス列で音
源モデルを近似した例を、第4図に示す。
第4図a,bは、第3図a,bにそれぞれ対応
する合成に用いた声帯音源波形と、それにより合
成された分析対象の音声信号とを示している。ピ
ツチ周期と振幅にのみ着目し、第4図cのような
インパルス列によつて、線形予測フイルタを駆動
し、それによつて得られた再合成音声信号が、第
4図d図示の信号である。この信号と第4図bの
元の音声信号との誤差が、第4図eに示されてい
る。これによるSN比は、3.2dBである。これに
比べて、本発明による方式の場合、大幅にSN比
が向上していることがわかる。
もちろん、自然音声についても、本発明によれ
ば、同様に良好な結果を得ることができる。第5
図は、母音/a/についての自然音声信号につい
て、本発明を適用した例を示している。
第5図aは、分析対象となつた母音/a/の音
声波形であり、第5図bは、本発明を用いて分析
し再合成した音声信号を示している。その誤差
は、第5図c図示の通りであり、極めて小さい。
第5図dは、その際GLPCにより推定された声帯
音源波形を示している。因に、第5図e図示の波
形は、逆フイルタリングによつて得られた声帯音
源波形である。
本発明は、特に有声音に対して有効であり、無
声音部分に対して分析合成を行う場合、例えばそ
の部分だけ、従来の波形符号化方式または分析合
成式を用い、本発明による方式と従来用いられて
いる方式とを組合わせて、本発明を実施すること
ができる。
〔発明の効果〕
以上説明した如く、本発明によれば、音声に関
する情報量を効率的に圧縮し、波形符号化方式を
とるものに比較して、大幅に少なくすることがで
きるようになると共に、従来のLPC分析合成音
声よりも高品質な合成音声を得ることができるよ
うになる。
【図面の簡単な説明】
第1図は本発明の一実施例構成ブロツク図、第
2図は声帯音源波形モデルの説明図、第3図は合
成音声について本発明を適用した例の波形図、第
4図は第3図と対比するための従来方式による例
の波形図、第5図は自然音声について本発明を適
用した例の波形図を示す。 図中、1はピツチ周期推定部、2は最適パラメ
ータ決定部、3はパラメータ選択部、4は声帯音
源波形生成部、5は線形予測分析部を表す。

Claims (1)

  1. 【特許請求の範囲】 1 音源波形をモデル化した情報に基づいて音声
    の処理を行う音声処理装置において、 入力音声信号からピツチ周期を推定するピツチ
    周期推定部と、 少なくともピツチ周期、立上がり時間、立下が
    り時間および振幅に関する4種のパラメータに基
    づいて声帯音源波形の信号を合成し出力する声帯
    音源波形生成部と、 この声帯音源波形生成部の出力と入力音声信号
    とから予測誤差を求め、その線形予測係数を出力
    する線形予測分析部と、 前記ピツチ周期推定部が推定したピツチ周期を
    入力するとともに、前記線形予測分析部の出力で
    ある予測誤差を入力し、その予測誤差が小さくな
    るように、前の声帯音源波形を規定するパラメー
    タと異なる値をとるパラメータを選択して、前記
    声帯音源波形生成部に出力し、最適な前記4種の
    パラメータを決定する最適パラメータ決定部とを
    備えたことを特徴とする音声処理装置。
JP59250133A 1984-11-27 1984-11-27 音声処理装置 Granted JPS61128299A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59250133A JPS61128299A (ja) 1984-11-27 1984-11-27 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59250133A JPS61128299A (ja) 1984-11-27 1984-11-27 音声処理装置

Publications (2)

Publication Number Publication Date
JPS61128299A JPS61128299A (ja) 1986-06-16
JPH0339320B2 true JPH0339320B2 (ja) 1991-06-13

Family

ID=17203317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59250133A Granted JPS61128299A (ja) 1984-11-27 1984-11-27 音声処理装置

Country Status (1)

Country Link
JP (1) JPS61128299A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2683734B2 (ja) * 1987-09-11 1997-12-03 日本電信電話株式会社 音声符号化法
JP2009237590A (ja) * 2009-07-16 2009-10-15 Casio Comput Co Ltd 音声効果付与装置

Also Published As

Publication number Publication date
JPS61128299A (ja) 1986-06-16

Similar Documents

Publication Publication Date Title
RU2257556C2 (ru) Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением
US6782359B2 (en) Determining linear predictive coding filter parameters for encoding a voice signal
JPS62261238A (ja) ボコーダ装置
TW200822062A (en) Time-warping frames of wideband vocoder
JPH02249000A (ja) 音声符号化方式
JPH0782360B2 (ja) 音声分析合成方法
JPH08305396A (ja) 音声帯域拡大装置および音声帯域拡大方法
JPH0339320B2 (ja)
JP4433668B2 (ja) 帯域拡張装置及び方法
JP3481027B2 (ja) 音声符号化装置
US7389226B2 (en) Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard
JPS6238500A (ja) 高能率音声符号化方式とその装置
JP3510168B2 (ja) 音声符号化方法及び音声復号化方法
JP2000235400A (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JP2583883B2 (ja) 音声分析装置および音声合成装置
US20050171777A1 (en) Generation of synthetic speech
JPS63118200A (ja) マルチパルス符号化装置
JPH05500573A (ja) 低減されたスペクトルひずみを有するポストフィルタを備えたデジタル音声デコーダ
JP3074703B2 (ja) マルチパルス符号化装置
US7512534B2 (en) Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard
JPS62102294A (ja) 音声符号化方式
JP3071800B2 (ja) 適応ポストフィルタ
CA1202419A (en) Speech encoder
JPS6087400A (ja) マルチパルス型音声符号復号化装置
JPH10105200A (ja) 音声符号化/復号化方法

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term