JPH01261700A

JPH01261700A - 音声符号化方式

Info

Publication number: JPH01261700A
Application number: JP63089050A
Authority: JP
Inventors: Yoshiaki Asakawa; 浅川　吉章; Kazuhiro Kondo; 和弘近藤; Hiroshi Ichikawa; 市川　熹; Toshiro Suzuki; 鈴木　俊郎
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1988-04-13
Filing date: 1988-04-13
Publication date: 1989-10-18

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、音声符号化方式に係り、特に音声情報を８　
ｋｂｐｓ前後に圧縮する際に符号化音声の品質を向上さ
せるための方式に関するものである。

〔従来の技術〕

音声信号をディジタル化して伝送するためには、音声信
号をサンプリングし、量子化して２進のディジタル符号
に変換することにより、ＰＣＭ伝送する。

一方、専用ディジタル回線を用いて通信ネットワークを
構築する場合、通信コストの低減は非常に重要な課題で
あり、６４ｋｂｐｓにも及ぶ音声信号の情報量は多過ぎ
るため、そのままでは非常に不経済である。そこで、伝
送のための音声信号の情報圧縮（つまり低ビツトレール
符号化）が必要となる。

音声信号を８　ｋｂｐｓ前後で圧縮する音声符号化方式
としては、音声をスペクトル包絡情報と音源情報とに分
離して、各々を符号化する方法が知られている。その中
で、音源情報を単一パルス列と白色雑音でモデル化した
ものが、いわゆるＰＡＲＣＯＲ（Ｐａｒｔｉａｌ　Ａｕ
ｔｏｃｏｒｒｅｌａｔｉｏｎ　：　　偏自己相関）法で
あり、この方法では低ビツトレートで符号化できるが、
その反面、品質の劣化が大きい。これに対して、音源を
複数のパルス列で表現する方法として、マルチパルス法
（例えば、小浜、他「マルチパルス駆動形音声符号化法
の品質改善」日本音響学会音声研究会資料５８３−７８
（１９８４，１）参照）や、あるいは残差圧縮法（桟用
、他、「残差情報を利用した音声合成法の検討」日本音
響学会講演論文集３−１−７　（昭和５９．１０）参照
）等がある。

残差圧縮法としては、例えば特開昭６０−１５０１００
に記載された方法が提案されており、また同６１−２９
６３９８号、同６２−１９４２９６号の各明細書にも記
載されている。

これらの方法では、音源の表現が精密化する分だけ、Ｐ
ＡＲＣＯＲ法に比べて品質が向上している。

〔発明が解決しようとする課題〕

前述の従来技術においては、音源である複数のパルス列
を、フレーム毎に独立して一定の基準で生成する。ここ
で、フレームとは、音声を分析する時間単位であって、
通常は２０ｍ５程度に設定される６ところで、音声波形は、サンプリングされてサンプル値
ｘｔの系列に変換されているものとする。

現在値をＸｔ　とし、それから過去にさかのぼる９個の
サンプル値を（ｘｔ−ｉ）　、　（ｉ　＝　１　、２　
、・・・。

ｐ）とする、ここで、音声波形は近似的に過去の９個の
サンプルから予測できるものと仮定する。

予測の中で最も簡単なものは線形予測であるから、過去
のサンプル値の各々にある一定の係数を乗じて加え合わ
せたもので、現在の値が近似されるものと考える。この
とき、現在点ｔでの実現値Ｘｔと予測値ｙｔとの差を、
予測誤差εｔとする。この予測誤差Ｅｔ　を、予測残差
または単に残差と呼ぶ。

音声波形の予測残差波形は、２種類の波形の和と考えら
れる。ぞの１つは、いわゆる誤差成分であり、その振幅
はあまり大きくなく、ランダムな雑音波形に近い、また
、他の１つは、入力に声帯振動によるパルスが加わった
ときの誤差であって、予測が大きく狂い、振幅の大きな
残差波形となる。

この残差成分は、音源の周期性に対応して、繰り返し周
期的に現われる。

音声は周期性を有する区間（有声音）と１周期性が顕著
でない区間（無音声）とに大別されるので、それに対応
して、予測残差波形も、有声音部では周期性を有してい
る。

一方、マルチパルス法や残差圧縮法において生成される
パルス列は、残差の近似と見なすことができるので、有
声音部では周期性を有するはずである。そこで例えば残
差圧縮法では前記特開昭６１−２９６３９８号に開示し
である手法を用いて、１ピッチ周期につき所定本数の代
表残差パルス数を抽出し、復号時にこれをピッチ周期毎
にくり返すことにより実効的に駆動音源パルス数を増や
す工夫がなされている。ところが無声音の場合には、特
開昭６０−１５０１００号あるいは特開昭６２−１９４
２９６号に開示しである方法は、基本的には予測残差か
ら振幅の小さいものを取り除く、すなわち振幅の大きな
残差パルスのみを用いることを意味しており、所定のビ
ット・レートにするためには使用できる残差パルスの実
効的な数は、有声音の場合はど多くすることができない
、その結果、パルス数不足のために、本来ランダム雑音
性の強い無音摩擦音部でも、合成された音声の品質に「
チリチリ」、「ブチブチ」するといった劣化が生じる問
題があった。

これは有声無声で処理を切替える方式のマルチパルス法
においても同様である。

このような間厘点で解決する方法として、特開昭６２−
３１２２２がある。これはマルチパルス法において無声
と判定されたフレームにおいては、パワの原残差のパワ
と一致させるようらマルチパルス列に白色雑音を付加す
るものである。しかしながらこの方法によれば、無声フ
レームに一様に雑音が付加されるため、復号音声に雑音
感が増えたり。

本来有声フレームを誤って無声フレームと判定した場合
にはバースト的な雑音感が発生するという問題があった
。

本発明の目的は、このような従来の問題を解決し、マル
チパルス法や残差圧縮法における無声摩擦音の品質劣化
を改善し、かつ他に悪影響を与えることのない音声符号
化方式を提供することにある。

〔課題を解決するための手段〕

上記目的を達成するため、本発明の音声符号化方式は、
有声／無声判定手段と、無声摩擦音を検出する手段を有
し、該検出された無声フレームにおいては、復号器側で
生成された音源パルス列にパワ（振幅）を制御した白色
雑音（ランダム雑音）を付加する手段を具備することに
特徴がある。

〔作用〕

本発明の作用を残差圧縮法を例として説明する。

残差圧縮法では符号化側で有声／無声の判定を行い、有
声フレームでは例えば前記特開昭６１−２９６３９８号
の手法により予測残差を間引き符号化し、無声フレーム
においては、例えば特開昭６２−１９４２９６号の手法
により予測残差を間引き符号化する。これらの圧縮残差
情報はスペクトル包絡パラメータであるにパラメータな
どの補助情報と共に復号化側へ伝送される。

一方、復号化側では伝送されてきた圧縮残差情報から残
差を復号する。復号化された残差は合成フィルタに入力
され、合成波形が出力される。

以上が残差圧縮法の動作の概略であるが１次に無声摩擦
音の検出について述べる。無声摩擦音は音韻では／　ｓ
　／や／ｆ／に相当し、パワは比較的小さく、スペクト
ルは高域にエネルギを持っている。また継続時間長も比
較的長いのが特徴である。

音声符号化では実時間処理が必要なため、遅延時間の大
きくなる継続時間長に関する特徴は利用できないが、他
の特徴は安定に利用することができる。スペクトル形状
が高域上がすなことは、例えば１次のにパラメータの値
が小さいことを、そしてパワが小さいことは原音声や原
残差、ひいては復号残差のパワが小さいことを意味して
おり、これらの特徴量を用いることにより容易に無声摩
擦音を検出することが出来る。

無声摩擦音と判定されたフレームにおいては。

原残差のパワと復号残差のパワの差に相当するパワを持
つ白色雑音を付加し、新たに復号残差とする。この新復
号残差は原残差と類似の構造を持つことになり、これを
駆動源として音声を合成すると、より自然に近い無声摩
擦音が得られる。

〔実施例〕

以下、本発明の実施例を、図面により詳細に説明する。

第１図は、本発明の音声符号化方式を残差圧縮法を用い
た音声符号化装置（音声ＧＯＤＥＣ）に適用した場合の
ブロック構成図であって、同図ａが符号化部であり、ｂ
が復号化部である。

本発明の符号化部は、ディジタル音声信号入力端子１と
、同信号を格納するバッファメモリ２と、線形予測を行
う線形予測回路４と、パラメータ５を用いて制御される
逆フィルタ６と、残差相関法等を用いて音声のピッチを
抽出するピッチ抽出回路８と、有声無声判定回路１ｏと
、有声無声判定結果に応じて無声音源パルスを生成する
無声音源生成回路１２ａと、同様に有声音源パルスを生
成する有声音源生成回路１２ｂと、残差波形信号７のパ
ワを計算するパワ計算回路１４と、量子化符号化回路１
６を具備している。

また本発明の復号化部は、入力信号を５種のパラメータ
に分離する復号逆量子化回路１９と、復号化されたスペ
クトル包絡パラメータ５′を格納するバッファメモリ２
１と、有声無声判定結果１１′によって圧縮化残差情報
１３′を切替して無声音源パルスを再生する無声音源パ
ルス再生回路２０ａと、有声音源パルスを再生する有声
音源パルス再生回路２０ｂがあり、これにはピッチ周期
９′も入力される。さらに、原残差パワ１５′とバッフ
ァメモリ２１から読み出したスペクトル包絡パラメータ
とを用いて無声摩擦音を検出する無声摩擦音検出回路２
２と、無声音源パルス列２４のパワを計算するパワ計算
回路２５と、該パワ２６と原残差パワ１５’　とから雑
音発生回路２７の出力であるランダム雑音パルス列２８
の最大振幅を決定する振幅計算回路２９と、それによっ
て決定された雑音３０を無声摩擦音検出回路２２の検出
結果２３に基づいて切替えるスイッチ３１と、無声音源
パルス列２４に雑音を付加する加算回路３２と、再生音
源パルス列３；３を入力として、上記の処理遅延を補正
するためにバッファメモリ２１から読み出されたスペク
トル包絡パラメータを係数とする合成フィルタ３４と、
合成音声３５を出力する出力＠３６とを具備している。

第１図（ａ）において、符号化時にディジタル化された
音声信号は、バッファメモリ２に１フレ一ム分格納され
、よく知られている線形予測回路４により、スペクトル
包絡を表わすパラメータ（例えば、偏自己相関係数）５
に変換される。次に、このスペクトル包絡パラメータ５
を係数に用いて逆フィルタ６を構成し、これを音声信号
３を入力することにより、残差波形信号７を得る。

ピッチ抽出回路８は、残差相関法やΔＭＤＦ（アベレー
ジ　マグニチュード　ディファレンシャル　ファンクシ
ョン：　Ａｖｅｒａｇｅ　ＭａｇｎｉｔｕｄｅＤｉｆｆ
ｅｒｅｎｔｉａｌ　Ｆｕｎｃｔｉｏｎ）法等の良く知ら
れた手法を用いており、残差信号７を入力としてフレー
ムのピッチ周期９を抽出する。なおピッチ抽出回路の入
力としては、残差信号７のかわりに、音声信号３を用い
ることも可能である。有声無声判定回路１０は良く知ら
れているように、スペクトル包絡を表わすパラメータ５
や残差波形７などを入力として、そのフレームが有声で
あるか無声であるかの判定結果１１を出力する。

この判定結果に従って、残差信号７はフレームが無声の
場合には無声音源生成回路１２ａによりまた有声の場合
には有声音源生成回路１．２　ｂによりそれぞれ残差圧
縮さ九、圧縮化残差情報１３が出力される。無声音源生
成回路１２ａとしては。

例えば特開昭６２−１．９４２９６号に開示されている
手法を、また有声音源生成回路１２ｂとしては、例えば
特開昭６１〜２９６３９１１１号に開示されている手法
をそれぞれ用いることが出来る。

パワ計算回路１４では、１フレ一ム分の残差信号７のパ
ワを次式により計算し、原残差パワ１５を得るものであ
る。

ｉ＝１ここに１１はフレーム内のアドレスｉの残差信号の振幅
を示し、Ｎはフレームの残差パルス数である。

量子化符号化回路１６は、スペクトル包絡パラメータ５
と有声無声判定結果１１と、圧縮化残差情報１３とピッ
チ周期９と原残差パワ１５とを受けとり、所定のビット
数に量子化して、所定の書式に変換された結果であるデ
ィジタルデータ１７を、ディジモル回Ｉ！１８に送出す
る。

第１図（ｂ）において、１復号時には、ディジタル回線
１８から受信されたディジタルデータ１７が復号逆量子
化回路１９に入力されると、５種のパラメータ（スペク
トル包絡パラメータ５′、原残差パワ１５′、有声無声
判定結果１１′、圧縮化残差情報１３′、ピッチ周期９
′）に分離される。上記パラメータのうちスペクトル包
絡パラメータ５′は一旦バッファメモリ２１に格納して
おく、圧縮化残差情報１３′は有無声判定結果１１′の
値に従って、無声音源パルス再生回路２０ａに接続され
、無声音源パルス列２４ａを出力するか、有声音源パル
ス再生回路２０ｂに接続され、ピッチ周期９′も入力し
て有声音源パルス列２４ｂを出力する。無声有源パルス
再生回路２０ａには前記特開昭６２−１９４２９６に開
示されている手法を、有声音源パルス再生回路２０ｂに
は特開昭６１−２９６３９８に開示されている手法を用
いている。

バッファメモリ２１から読み出されたスペクトル包絡を
表わすパラメータであるｋｘ　　（１次の偏自己相関係
数）と原残差パワ１５′が無声摩擦音検出回路２２に入
力される。この検出回路では次に示す判定論理によって
無声摩擦音を検出する。

ここにに１は１次の偏自己相関係数の値、ＰＷＲは原残
差パワ１５′の値、θ１．θ、はそれぞれ前もって定め
られた閾値である。（２）式を満足するときにこのフレ
ームを無声摩擦音と判定し、結果２３を出力する。

パワ計算回路２５では１フレ一ム分の無声音源パルス列
２４ａのパワＰＷＲ’　２６を出力する。

振幅計算回路２９では、原残差パワ１５′と無声音源パ
ルス列２４のパワ２６とを入力として、雑音発生回路２
７からのランダム雑音パルス列２８の振幅を制御する。

１フレームが２０　ｍ　ｓ、すなわちＮ＝１６０サンプ
ルのとき、無声音源パルス列２４ａのパルス数をＭとす
ると、付加するランダム雑音パルス数はＬ＝Ｎ−Ｍとな
る。このときのランダム雑音パルス列２８のパワをＰＷ
Ｒｒとすると。

ＰＷＲ＝　ＰＷＲ’　　＋　ＰＷＲｒ　　　　−（３）
なる関係が成立するようにランダム雑音パルス列２８の
振幅を制御すれば良い、雑音パルスが−様なランダムパ
ルスとすれば、その最大振幅をａとすればＬ本分のパワ
は近似的にとなる。よって（３）式と（４）式とからランダム雑音
の最大振幅ａを次式に従って決定すれば、ランダム雑音
を付加したあとの再生音源パルス列３３のパワは原残差
のパワ１５′に一致する。

ａ＝　　３（ＰＷＲ−ＰＷＲ’）／Ｌ　　・＝（５）こ
のようにして最大振幅を決定したランダム雑音パルス列
２８を、無声摩擦音検出部の検出結果２３に従ってスイ
ッチ３１で制御し、雑音加算回路３２に入力する。雑音
加算回路３２では無声音源パルス列の振幅がＯのところ
に振幅を制御した雑音パルス３０を付加し、再生音源パ
ルス列３３を生成する。上記処理における遅延を補正し
た上で、バッファメモリ２１の出方を合成フィルタ３４
の係数として用いる。再生音源パルス列３３をこの合成
フィルタ３４に入力することにより、その出力として合
成音声３５が得られ、出力端子３６へ接続される。

以上説明したように、本発明によれば、無声摩擦音にお
いて原残差と性質（スペクトル）が近くかつパワの等し
い再生音源を得ることが出来るので１合成音声の品質を
向上することができる。

次に本発明の第２の実施例について説明する。

第２図は、本発明の音声符号化方式を、残差圧縮法を用
いた音声符号化装置（音声Ｃ０ＤＥＣ）に適用した第２
の場合のブロック構成図であって、同図（ａ）が符号化
部であり、同図すが復号化部である。

この第２の実施例においては、第１の実施例と共通する
点も多いので、異なる部分を中心に説明する。

符号化部については、第１図（ａ）の符号化部から原残
差パワの計算部１４を省略した形になっており、従って
、伝送パラメータもスペクトル包絡パラメータ５と、有
声無声判定結果１１と、圧縮化残差情報１３と、ピッチ
周期９の４通りとなっている。

一方、第２図（ｂ）に示す復号化部においては上記４つ
のパラメータを受信２分離する、有声無声判定結果１１
′に従って圧縮化残差情報１３′は無声音源パルス再生
回路２０ａに接続されている。ここで第２図（ａ）の無
声音源生成回路１２ａと同図（ｂ）の無声音源パルス再
生回路２０ａは、特開昭６０−１５０１００号に開示し
である手法によっており、再生された音源パルスは原残
差パルスのうち振幅の大きな値に予め定められたパルス
数だけ元の残差の時系列と同順に並んだものになってい
る。この再生された無声音源パルスのパワがパワ計算回
路２５で計算され、パワＰＷＲ’　２６が出力される。

無声摩擦音検出回路２２′では基本的には第１図（ｂ）
の無声摩擦音検出回路２２と同じであるが、式（２）に
おいて、とすることによって、無声摩擦音を検出する。ここにθ
Ｐ′　は再生音源パルス列のパワＰＷＲ’に対する閾値
であり、一般に式（２）のＯＦよりも小さ目に設定され
る。

次に振幅計算回路２９′では、無声音源パルス列２４ａ
を入力として、雑音発生回路２７の出力゛であるランダ
ム雑音パルス列２８の最大振幅を決定する。すでに述べ
たように、無声音源パルス列２４ａの振幅は、原人差７
の振幅の大きい順に持ってきたものであるから、その最
小値以下のパルスの振幅はＯとなっている。そこでそれ
を補う意味でランダム雑音パルス列２８を付加すると考
えると、ランダム雑音パルス列２８の最大振幅としては
無声音源パルス列２４ａの最小振幅に一致させるのが妥
当である。すなわち、ランダム雑音パルス列２８の最大
振幅ａをａ　＝ｍｉｎ　　（ｌ　Ｅ　’　　ｔｌ）　　　　　　
　　　・・１６）ｉ＝１．Ｍと決定すれば良い、ここにε、′　は振幅がＯでない無
声再生残差パルス（パルス数はＭ）の振幅である。この
ようにした場合、雑音が付加された再生音源パルス列３
３のパルスが原人差のパワに一致するという保証はない
が、実験によれば第１の実施例と同程度の音質改善の効
果が認めら九た。

また第２の実施例では原人差のパワ情報と伝送する必要
がないので、その分だけ他に情報を配分することが可能
である。

〔発明の効果〕

以上説明したように１本発明によれば、復号時に無声摩
擦音部において駆動音源パルス数の不足によって生じて
いた音質の劣化が、雑音パルスの付加により原人差と類
似度の高い駆動音源パルスを生成することができるので
、符号化音声の品質を向上させることが可能である。さ
らに従来のように無声と判定されたフレームに無条件に
雑音を付加させることによる合成音声の品質の劣化や、
本来有声と判定されるべきフレームが無声と判定される
ことによって生じるバースト的な雑音による劣化が、無
声摩擦音検出機能を付加したことにより防止される。

【図面の簡単な説明】

第１図は本発明の第１の実施例を示す音声符号化システ
ムのブロック図で、（ａ）は符号化部。（ｂ）は復号化部である。第２図は本発明の第２の実施
例を示す音声符号化システムのブロック図で、（ａ）は
符号化部、（ｂ）は復号化部である。４・・・線形予測回路、６・・・逆フィルタ、８・・・
ピッチ抽出回路、１０・・・有声無声判定回路、１２ａ
・・・無声音源生成回路、１２ｂ・・・有声音源生成回
路。１４．２５・・・パワ計算回路、２０ａ・・・無声音源
パルス再生回路、２０ｂ・・・有声音源パルス再生回路
。

Claims

【特許請求の範囲】１、音声信号をフレームごとに分析し、かつスペクトル
包絡情報と音源情報とに分離し、駆動音源として複数本
のパルスを用いた音声符号化方式において、上記音声フ
レームが無声摩擦音であることを検出する手段と、雑音
発生手段と、該雑音発生手段の出力である雑音系列の振
幅制御手段と、上記無音摩擦音が検出された場合に前記
音源パルスに上記振幅を制御した雑音系列を重畳する手
段とを具備することを特徴とする音声符号化方式。２、上記雑音系列の振幅の制御においては、音声信号の
予測残差信号を抽出する手段と、そのパワを算出する手
段と、前記駆動音源パルス列のパワを算出する手段とを
具備し、該駆動音源パルス列のパワとそれに重畳する雑
音系列のパワとの和が前記原残差信号のパワと一致する
ようにしたことを特徴とする特許請求の範囲第１項記載
の音声符号化方式。３、上記雑音系列の振幅の制御においては、前記駆動音
源パルス列の最小値を検出する手段を具備し、前記雑音
系列の振幅の最大値が、上記駆動音源パルス振幅の最小
値に一致するようにしたことを特徴とする特許請求の範
囲第１項記載の音声符号化方式。