JPS58203500A - 可変長フレ−ム型線形予測ボコ−ダ - Google Patents

可変長フレ−ム型線形予測ボコ−ダ

Info

Publication number
JPS58203500A
JPS58203500A JP57087479A JP8747982A JPS58203500A JP S58203500 A JPS58203500 A JP S58203500A JP 57087479 A JP57087479 A JP 57087479A JP 8747982 A JP8747982 A JP 8747982A JP S58203500 A JPS58203500 A JP S58203500A
Authority
JP
Japan
Prior art keywords
frame
transmission
basic
frames
linear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57087479A
Other languages
English (en)
Other versions
JPH0235997B2 (ja
Inventor
哲 田口
小林 雅徳
孝行 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP57087479A priority Critical patent/JPS58203500A/ja
Publication of JPS58203500A publication Critical patent/JPS58203500A/ja
Publication of JPH0235997B2 publication Critical patent/JPH0235997B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は可変長フレーム型線形予測ボコーダ、特に伝送
パラメータである線形予測係数を最適線形近似の手法を
用いて伝送する可変長フレーム型線形予測ボコーダに関
する。
可変長フレーム型線形予測ボコーダは、入力音声信号を
分析し伝送すべきパラメータを抽出してこれを送信する
分析側(送信側)において、入力音声信号を、たとえば
10m5EC程度の基本分析フレーム周期ごとに線形予
測分析を行ない、得られる線形予測係数を他の音源情報
、たとえばピッチ周波数、短時間平均電力、有声無声判
定信号等とともに、これを合成側(受信側)に伝送し、
合成側ではこれらのパラメータから元の入力音声信号を
合成し、再生する。
この場合、前記線形予測係数としては、通常PARCO
R(偏自己相関)パラメータと呼ばれにパラメータが広
く用いられていることはよく知られておシ、さらに、伝
送すべき音声情報の情報量をできるだけ圧縮するため一
般的に次のような手法が用いられていることもまたよく
知られている。
すなわち、従来のこの種のボコーダにおいては、基本フ
レーム周期ごとに得られる線形予測係数をこの周期ごと
に忠実に分析側から合成側に伝送するかわりに、特定数
のN1個の基本フレーム分をまとめて1個の代表基本フ
レームを選び、この代表基本フレームの線形予測係数と
その繰返し数Ntとを伝送する。
繰返し数Ntは、予め定めた最大数をMとすると、1〈
Nt<Mによって示される正の整数であり、また次に述
べるような最適値をもつようにダイナミックプログラミ
ング手法によって求められ、時間とともに変化する。
基本フレームごとに得られる線形予測係数、あるいはこ
れに予め設定した一定の演算処理を施し2 、−−−P
、 13は基本フレーム番号とすると、XツはP次元空
間における1つの空間ベクトルを表わすものと考えるこ
とができ、従ってこれはP次元空間における距離ベクト
ルとして扱うことができる。
いま、ある1つの伝送フレームを考え、その中に含まれ
る任意の基本フレームlの距離ベクトルすると、これら
基本フレームと代表基本フレームとの距離d!、Sは次
の(1)式で示される。
従って、一般的に1番目の伝送フレームにおける各基本
フレームと代表基本フレームとの距離の和Dtは次の(
2)式の如くなる。
Dt−Σd4s            ・・・・・・
(2)1 (2)式におけるlは前述の如く、を番目の伝送フレー
ム中のすべての基本フレームの番号に対応するものであ
る。前述したダイナミックプログラミングによる各Nt
および代表フレームの選出は、ある条件のもとて(2)
式に示すようなりtの和が最小となるような組合せを選
択するために行われるものである。
このようにして決定されるNtの数の基本フレームを各
々が有することにより、可変長フレームの組合せによる
伝送フレーム群を構成し、各基本フレームごとに線形予
測係数を忠実に伝送するかわりに、各伝送フレームごと
に代表基本フレームの線形予測係数と、この伝送フレー
ムのフレーム長とを伝送することによりいわゆる最適矩
形近似を行なって情報量の低減を図った伝送データを合
成側に送出して、合成側ではこれから入力音声信号を合
成するという方法をとっている。
しかしながら、このような従来の方式においては、有音
区間とともに、実際には音声が存在しない無音区間に対
しても上述した最適矩形近似を行なっているため、聴覚
的に意味のない無音区間の5− 伝送データも送信しなければならず、さらに分析側で行
なっているこの最適矩形近似処理によって伝送された伝
送データを受ける合成側では、構成すべき入力音声信号
の品質を保持するため、入力した伝送データに対する線
形補間を行ガっており、最適矩形近似処理によって各伝
送フレームの境界面で発生する伝送データの不連続分ま
では処理されることなく、合成音としての最適化処理が
実施されないために合成音の品質もこの分損なわれると
いう欠点がある。
本発明の目的は上述した欠点を除去し、伝送すべき可変
フレームを有音区間に限定したうえ、各伝送フレ、−ム
ごとに代表する線形予測係数は、これら各伝送フレーム
に分布する線形予測係数を入力音声信号の特性によって
決定する複数の伝送フレーム区間にわたって最適直線近
似した近似直線で代表するという手段を備えることによ
り、伝送すべきデータの情報量の低減と、合成音の品質
の向上を図った可変長フレーム型線形予測ボコーダを提
供することにある。
6− 本発明のボコーダは、入力音声信号を線形予測分析し抽
出した線形予測係数を前記入力音声信号の音声情報とし
て伝送しこの音声情報から入力音声信号を合成し再生す
る可変長フレーム型線形予測ボコーダにおいて前記入力
音声信号を有声音および無声音を含む有音区間と音声を
含まない無音区間とに判別する有音無音判別手段と、こ
の有音無音判別手段によって判別された前記有音区間を
可変長の伝送区間(フレーム)によって最適線形近似す
るとともに前記無音区間の間に介在する連続した所定の
有音区間(犬フレーム)においても可変長フレームによ
る前記入力音声信号の分析を行なう最適線形近似手段と
、この最適線形近似手段により出力し伝送される前記音
声情報を受けこれに所定の線形補間を施して前記入力音
声信号を合成し再生せしめる線形予測係数補間手段とを
備えて構成される。     □1 次に図面を参照して本発明の詳細な説明する。
第1図は本発明の一実施例を示すブロック図である。第
1図の実施例は、分析側(送信側)12合成側(受信側
)2および伝送路3から構成され、分析側1は低域フィ
ルタ・A/Dコンバータ101゜ウィンドウ処理器10
2.自己相関係数計測器103゜自己相関係数メモリ1
04.線形予測係数(LPC)分析器105.自己相関
係数二次差分計測器106、距離ベクトルメモ1710
7’、距離計測器108、フレーム選択器109.有声
/無声/無音判別器110.ピッチ抽出器111.およ
び符号化器112を含んで構成され、また合成側2は、
復号化器201.にパラメータメモリ202.にパラメ
ータ補間器203.線形近似区間制御器204゜補間制
御器205.にパラメータ/αパラメータ変換器206
 、 L P C(Linear Predictio
nCoefficient 、線形予測係数)フィルタ
2o7゜ピッチ発生器208.切替器209.雑音発生
器210、可変利得増幅器211.およびD/Aコンバ
ータ・低域フィルタ212を含んで構成される。
分析側1の入力端子1oooを介して入力した入力音声
信号1001は、低域フィルタ・A/Dコンバータ10
1によって低域フィルタリングされたのちA/Dコンバ
ータによってデジタル化される。
本実施例においては、この低域フィルタの遮断周波数は
3.4 K Hzとしこれ以上の高域成分は遮断してお
り、これを分析側1の内蔵するタイミング回路(図示せ
ず)の出力する8 K Hzのサンプリング周波数によ
ってサンプリングしたものをψコンバータにより1サン
プル当り12ビツトの量子化音声信号1012に量子化
し、これをウィンドウ処理器102に送出する。
ウィンドウ処理器102は、入力した量子化音声信号1
012を、−皿内部メモリにストアする。
このメモリは入力した量子化入力音声信号のたとえば3
0m5EC分、すなわち240サンプルの窓時間分を記
憶し、これにハミング関数あるいは矩形関数醇をウィン
ドウ関数として乗算するウィンドウ処理を行なう。この
ウィンドウ処理は10m5EC周期で繰返しており、こ
れが前述した基本フレーム周期となる。
このようにしてウィンドウ処理された入力音声9− 信号の音声波形データ1021は、前記基本フレーム周
期ごとに自己相関係数器10,3.有声/無声/無音判
別器110およびヒツチ抽出器111に送出される。
自己相関係数計測器103は、ウィンドウ処理こ沖 器102から次次入力した音声波形データを利用し乗算
回路等によって各遅れ時間における自己相関係数を必要
な遅れ時間の範囲で計則し、この耐己相関保数データ1
031を自己相関係数メモリ104および自己相関係数
二次差分計測器106に送出する。
自己相関係数計測器103は、さらに、遅れ時間0にお
ける自己相関係数、すなわち基本フレームあたりの平均
電力を計測し、これをその基本フレームの音声電力デー
タ1032として符号化器112各基本フレームごとに
ストアしておくためのメモリである。この自己相関係数
メモリ104にストアされた自己相関係数データ1o3
1は、後述する10− フレーム選択器109によって選択される代表基本フレ
ーム番号データ1090を入力すると、この基本フレー
ム番号データ1090によって指定されたフレームの自
己相関係数データの組1041が読出されて線形予測係
数分析器105に出力される。
線形予測係数分析器105は、このようにしてフレーム
選択器109の制御のもとに指定されるフレームの自己
相関係数のデータの組が、自己相関係数メモリ104か
ら読出され送出されると、このデータの組からにパラメ
ータを予め定める所定の次数までオートコリレーション
(AUTOCORRELATION)法によって抽出し
、抽出されたにパラメータ1051は符号化器113に
送出する。
線形予測係数、すなわちにパラメータの分析内容につい
ては、たとえばジョン マツコール:ゝゝリニア プレ
ディクション:ア チュー、ト、リアル レビーー〃(
John Makhoul :ゝLinear Pre
diction :ATutorial Review
“) Proceedings of theIEEE
、Vol、63.No、4pp、561〜580゜Ap
ril、1975やその他多くの文献に詳細に記載され
ている。
自己相関関数二次差分計測器106は、自己相関係数計
測器103から自己相関係数データ1o31を入力する
と、この二次差分データを計測し、これを距離ベクトル
1061として距離ベクトルメモリ107に送出する。
この二次差分データは次のようにして算出される。
すなわち、サンプリング周期を単位として、そのj倍(
j=1,2、−−−K)の遅れ時間を有し、自己相関係
数計測器103から送出される自己相関係数をρj と
すると、その−次差分ρノ′は、次の(3)式で示され
る。
ρノ′−ρl−ρlヤ□         ・・・・・
・(3)(3)式において7=1 、2 、−−−に−
1である。この(3)式からさらにρjの二次差分ρイ
′を求めると次の(4)式の如くなる。
//   t   ”)。
qqqヤ1        ・・・・・・(4)(4)
弐においてq =1121−−− K  2である。
このようにして定義される自己相関係数の二次差分デー
タ1061が、基本フレーム間の距離を表わす距離ベク
トルとして利用するのに特に適しているととはよく知ら
れている。
距離ベクトルメモリ107は、各基本フレームに対する
距離ベクトル、すなわち(4)式に示す自己相関係数の
二次差分データを各基本フレームごとに次数にストアし
記憶する。
距離計測器108は距離ベクトルメモリ107から基本
フレーム番号を指定しその距離ベクトル1071を読出
して入力し、次のようにして距離計測を行う。
すなわち、任意のa番目とb番目の基本フレーム間の距
離をdabとすると、dabは次の(5)式で表わすこ
とができる。
(5)式においてX(i)およびX (i)は、それぞ
れa番a         b 目およびb番目の基本フレームの距離ベクトルのi番目
の成分、すなわちそれぞれ(4)式で示される基本フレ
ームのρi“に相当する量である。
13− (5)式を用いて計測された基本フレーム間の距離デー
タ1081は、フレーム選択器109に送出される。
有声/無声/無音判別器110は、ウィンドウ処理器1
02によってウィンドウ処理された音声波形データ10
21を受け、各基本フレームごとに、フレームに含まれ
る入力音声信号のデータが有声音が無声音か、あるいは
また全く音声が存在しない無音かのいずれかの状態かを
判別し、その結果の判別データ1101をフレーム選択
器109および符号化器112に送出する。
有声、無声および無音の状態を判別する方法は、いわば
パターン認識とも通ずる技術としてよく知られており、
これに関しては、ビー・ニス・エイタル他: ゝア パ
ターン リコグニッション アプローチ ツウ ボイス
ドーアンボイスドーサイレンス クラシフーイケーショ
ン ウィズ アフリケージ日ン ツウ スピーチ リコ
グニッション“14− cation with Application  
to 5peech Re−cognition//、
 IEEE  Trans、 on A、、 S、・。
S、、P、、Vol 、A38P−24、No、3 、
pp 201〜212 、June +1976  や
その他多くの文献に詳細に記載されている。
フレーム選択器109は、このような公知の技術によっ
て入力音声信号の有声、無声および無音を判別する有声
/無声/無音判別器110から出力する有P/無声/無
音の判別信号1101と、距離計測器108から出力す
る距離データ1081とを受け、これらのデータを利用
してダイナミックプログラミング手法によって次のよう
な演算を行う。
すなわち、入力音声信号を有声音または無声音の有音の
基本フレームの連続した有音区間と、無音の基本フレー
ムの連続した無音区間とに分離し、これら2つの区間に
おいてそれぞれ可変長伝送7レームのフレーム長を求め
るとともに1さらに有音区間からは各伝送フレームごと
に代表基本フレームも同時に選択する。このような有音
区間と無音区間における可変長伝送フレームは次のよう
にして決定する。
無音区間における伝送フレームの設定については、基本
フレームを単位とした最大炎は予め設定したLs ma
x以下とすることにより容易に伝送フレーム長を決定で
きる。すなわち、無音の基本フレ・−メの連続した長さ
がLs max以下のときには、その長さをそのまま伝
送フレーム長とすればよく、無音の基本フレームの連続
した長さがLs max以上のときには、Ls max
の長さの伝送フレームを数次に設定し、残余の部分がL
s max以下になったときこれをそのまま最後の伝送
フレーム長とすればよい。
有音区間における伝送フレームの設定については、伝送
すべきある有音区間の長さが、基本フレームを単位とし
、このV倍の長さVにわたって連続しているとする。い
まとのVの長さの部分を、可変フレーム長の伝送フレー
ムに分解するとする。
またこのように無音区間に隣接し、かつ無音区間に挾ま
れた区間に連続して存在する有音区間は犬フレームと呼
ばれるが、いまの例では犬フレームの長さはVとなる。
まず、この長さVの大フレームの中に含まれるべき代表
基本フレームの数Nvを決定する。これは予め定めた演
算からVに対する関数としてのNvを求めるか、または
予め用意されているVとNvとの対応表を参照すること
等により決定することができる。なおNvはv/Nv<
Lsmaxを満足するように定められている。ただし、
本実施例においては、有音区間における伝送フレームの
最大炎を2 Ls maxとしている〇このようにして
、代表基本フレームの数Nvを求めたあと、次に長さV
の大フレームの中に相互の間隔がLs max以下とな
るようにしてNv個の代表基本フレームを選び、かつこ
の代表基本フレームをそれぞれ1個ずつその中に含むよ
りなNv個の伝送フレームが隣接するように設定する。
このような代表基本フレームの選び方と伝送フレームの
設定の仕方は明らかに有限個の組合せしかないので、こ
の有限個の組合せの中から、さらに次の条件を満足する
ものを求めて決定すること17− ができる。
第2図は代表基本フレームと伝送フレームの設定の仕方
を示す代表基本フレームおよび伝送フレーム設定関係図
である。
入力音声信号に対応する距離特性を示す曲線りは第2図
の如く有音区間と無音区間とからなるものとし、無音区
間についての伝送フレームの設定の仕方は上述したとお
りである。さて、有著区間については上述の如くNv個
の代表基本フレームとNv個の伝送フレームの組合せの
中から、その組合せが曲線りに最適線形近似するものを
選べばよい。伝送フレーム1 v + 2y + 37
−−−(N)yはこうして選れた伝送フレームとなるが
、これは次のようにして設定することができる。
たとえば、フレーム1vにおいては、代表基本フレーム
N1とN、が曲線り上に有する点P1およびP!を結ん
だ点線P1P、によって示される各基本フレームの示す
距離の和と、この伝送フレーム1vの区間の曲線部分d
によって示される各基本フレームの示す距離の和との差
が最小になる18− ようにN1およびN、の代表基本フレームを選んでおり
、他の伝送フレーム2V r av t −−一(へ)
■についても全く同様である。これは次のようにして求
めることができる。
いま、ある選択したg番目(g=l、2,3.−−−N
v−□)の代表基本フレームからはじまる伝送フレーム
に含まれる各基本フレームの距離ベクトル位置における
距離ベクトル、たとえば第2図の伝送フレーム1vでは
mで表される距離ベクトルを一般的にX罐とすると、各
基本フレームと、この中心位置の示す距離との和Dgは
次の(6)式の如くなる。
この場合、各基本フレームとの距離の和Dgを求める距
離ベクトルの設定位−を、相隣る代表基本フレームの中
心位置としたのは、この位置が近似直線の中心値を示す
ものであり、無音区間に隣接する距離ベクトル値をX(
1)、とすることを避け、また後述する分析側での線形
補間の始点ともなるべき位置だからである。
さて、■の長さの犬フレーム有音区間に含まれるすべて
の伝送フレームにおけるこのような距離の和Dgの総和
はIJ = ”、 Dgとなる。
代表フレームの選択の仕方と伝送フレームの設定の仕方
の条件はこのDが最小になる組合せを選択すれはよく、
このような選択の1つとしてよく知られるダイナミック
プログラミング手法があり、これによって比較的容易に
処理することができる。
このような演算、処理によって無音区間を除いたVの長
さの有音区間について、与えられた距離ベクトルを用い
て可変長の伝送フI/−ムの組合せが決定される。した
がって、これらの可変長フレームはそnらのフレームの
有する各基本フレーム中のはじめの基本フレームの距離
データを有するものを代表基本フ、、ル−ムとし、これ
と各フレーム長とを伝送すべき情報として合成側に送信
すればよい。
このような可変伝送フレームの情報伝送のあり方は、相
接する伝送フレームをそれぞれ1個の矩形近似による代
表フレームによって代表させた代表値と基本フレーム数
とで構成する矩形近似方式と異なり、数次に伝送される
伝送フレームの初期値でもある代表基本フレームのもつ
距離の変化が、同時に送出する基本フレーム数で直線的
に行なわれると見做す直線近似情報として伝送すること
ができる。
以上の演算により、無音区間を除いた長さVの有音区間
について与えられた距離ベクトルから最適線形近似によ
る可変フレーム長の伝送フレームが設定され、同時に各
伝送フレームの代表フレームも選択されたこととなる。
第1図の実施例において、フレーム選択器1o9は、こ
うして設定された最適線形近似情報に含まれる代表基本
フレーム番号を指定する代表基本フレーム番号デ’−’
F、1090を自己相関係数メモリ104に送出し、こ
れらの各代表基本フレームに対する自己相関係数データ
1041を読出して粉型予測係数分析器105に送出せ
しめ、また各伝送=21− フレームのフレーム長は繰返し数制御信号1091とし
て符号化器112に送出する。
線型予測係数分析器105は、自己相関係数メモリ10
4から読出される代表基本フレームの自己相関係数デー
タ1041を入力し、前述し九にパラメータの演算を行
ない、このにパラメータデータ1051を符号化器11
2に送出する。
ピッチ抽出器111は、ウィンドウ処理器102から各
基本フレームの音声波形データ1021を受け、これか
らピッチ情報1111を抽出し符号化器11に送出する
符号化器112は、こうして送出された上述の各種の入
力情報を適宜組合せて伝送符号化を行ない伝送路3を介
して合成側2に伝送する。この場合、無音区間の符号化
は、無音区間の指定と、その無音区間の長さまたは無音
区間の伝送フレームの長さを指定する情報とを伝送する
だけとし、また有音区間については各基本フレームごと
のにパラメータを送るかわりに選択した代表基本フレー
ムのにパラメータと、とのにパラメータを含む伝22− 送フレーム長とを組合せて伝送し、各伝送フレーム中の
代表基本フレーム以外のK ハラメータは、そのにパラ
メータ値から隣接する伝送フレームのはじめに送る代表
基本フレームのにパラメータ値まで各伝送フレームに含
まれる基本フレームの数で増減する直線近似で近似させ
るものとして伝送フレーム長をとのにパラメータの繰返
し数を指定する情報として扱うことによって情報量の圧
縮を図っている。
合成側2においては、伝送路3を介して伝送された、こ
のような符号化信号を復号化器201で受信する。
復号化器201は受信した諸情報を復号化し、再生した
情報のうち代表基本フレームのにパラメータ2011は
にパラメータメモリ202に、伝送フレーム長を指定す
る情報2012は線形近似区間制御器204に、またピ
ッチ情報2013はピッチ発生器208にそれぞれ送出
する。
Kパラメータメモリ202は入力した各代表基本フレー
ムのにパラメータをメモリにストアし、また線形近似区
間制御器204は入力した伝送フレーム長を指定する情
報により各伝送フレームの長さ、すなわち各線形近似区
間を指定する線形近似区間指定信号2041を発生し、
これを補間制御器205に送出する。
補間制御器205は、線形近似区間制御器204から受
けた線形近似区間指定信号2041を受け、これにより
にパラメータメモリ制御信号2o51゜Kパラメータ補
間器制御信号2052を出力する。
K ハラメータメモリ202からは、Kパラメータメモ
リ制御信号2051の制御のもとに各可変伝送フレーム
の代表基本フレームのにパラメータが数次に読出され、
各伝送フレームの代表基本フレームごとのK ハラメー
タ系列が再現され、とのにパラメータ系列2021はに
パラメータ補間器203に出力される。
Kパラメータ補間器203は、こうして入力した各伝送
フレームの代表基□本フレームのにパラメータと、各伝
送フレームごとの基本フレーム数との情報により、補間
制御器205から受けるにパラメータ補間器制御信号2
052によって供給されるにパラメータの変化点すなわ
ち各伝送フレームの代表基本フレームの位置を示す情報
を利用して代表基本フレーム間の基本フレームごとのに
パラメータの再生、補間を行う。
この再生および補間は、無音区間に隣接する有音区間の
伝送フレームが、無音区間との無意味な補間を受けるこ
とを避けるために、各伝送フレームの時間中心位置をそ
れぞれの補間始点とし、これらの補間始点を結んだ折線
の近似直線とするものである。
第3図は合成側における線形補間の内容を示す合成側線
形補間図である。
点al+82+83+84+85+およびa6は任意の
入力音声信号の伝送フレームの代表基本フレームのにパ
ラメータ値を示し、これらはまた、それぞれの伝送フレ
ームの初期基本フレームのにパラメータ値でもある。点
a(、aイ、aイtattおよびa、/はそれぞれ点a
l l al + al 1 a4−、およびallの
示すにパラメータ値に等しく、たとえば線25− 分alal’の長さflは、alのにパラメータ値を有
する基本フレームを代表基本フレームとする伝送フレー
ム長に等しく、線分” 2 a2’  + al a3
Za4a4’およびa5a6’についてもそれぞれ数次
に隣接する伝送フレーム長f 2 + f 3 + f
 4’ +  およびf、に対応するそれぞれの可変伝
送フレーム長である。通★の可変長フレーム線形予測ボ
コーダにおいては、伝送フレームf、、f、、f、、f
4およびf5を代表する代表基本“フレームとともに、
これらの伝送フレームに含まれる基本フレーム数を分析
側から合成側に伝送して入力音声信号を合成する、いわ
ゆる矩形近似を行っているが、この方法によれば伝送フ
レームf1からf2に移行するとき、Kパラメータの値
が、たとえば伝送フレームf1ではa(すなわちalか
らalにステップ的に不連続変化し、このため再生すべ
き音声の品質を劣化せしめることとなる。
本実施例においては、伝送フレームf 1 + f 2
 +f3.f4.fI+およびf6の時間中心点ml 
、 m2 。
m3.m4およびm5をそれぞれ補間始点とし、26− 第3図の点線で示すように数次に直線で結んだものをそ
れぞれの伝送フレームにおけるにパラメータに対応する
特性として、この点線に対応して各伝送フレームに含ま
れる各基本フレームがもつべきにパラメータを設定して
いる。また、このよりなにパラメータの設定は、基本フ
レーム間をさらに必要に応じ所望の分割数、たとえば4
分割して前接の基本フレームのにパラメータ値を利用し
て補間値とすることも可能であり、このことは所望に応
じて任意の基本フレームに設定できるものである。なお
、第3図において、伝送フレームflでは点m1を補間
始点として補間を行なっているが、これは伝送フレーム
f1には無音区間が隣接するためこれとの無意味な補間
を避けるため上述した如<mtを補間の始点としている
ためである。
なお、とのにパラメータ補間器203は、合成側で再生
する音声波形の入力童声波形に対する近似度の改善を図
るものであり、可変長線形予測ボコーダの使用目的等に
よってはこれを省略できることも明らかである。
Kパラメータ/αパラメータ変換器206は、このよう
にして送出されるにパラメータ2031をαパラメータ
に変換し、とのαパラメータ2061をLPCフィルタ
207のフィルタ係数として供給する。このLPCフィ
ルタ207はαパラメータ値フィルタ係数とするデジタ
ル合成フィルタであり、また線形予測係数フィルタとし
てよく知られるものであり、αパラメータおよび彼達す
る音源励振電力とを入力し音声波形を再生するものであ
る。
さて、復号化器201は前述1〜だ如く分析側lから入
力した情報を復号化するが、このうち各代表基本フレー
ムにおける音声電力を表わす情報を再生したものは利得
制御情報2014として可変利得増幅器211に送出さ
れる。また、有声音/無声音を区別する情報を復号化し
再生したものは有声/無声切換信−J、2015として
これを切替器209に送出し、さらに前述した如くピッ
チ周波数を指定する情報を復号化し再生したピッチ周波
数指定信号2013はピッチ発生器208に送出する。
ピッチ発生器208は指定された周波数のピッチパルス
データ2081を発生し、これを切替器209に送出す
る。
切替器209は復号化器201より送出される有声/無
声切換信号2015が有声を指定するときにはピッチ発
生器208からのピッチパルスデータ2081を選択す
るように切替接続し゛、これを可変利得増幅器211に
接続する。また有声/無声切換信号2014が無声を指
定するときには、雑音発生器210の出力する白色雑音
信号2101を可変利得増幅器211に接続するように
切替え動作する。
可変利得増幅器211は、このようにして入力したピッ
チパルスデータ2081、または白色雑音信号2101
を、別に入力した利得制御情報2014に対応した重み
付けを行なうことにより可変増幅して音源励振信号21
11を出力し、これをLPCフィルタ207に送出する
LPCフィルタはK ハラメータ/αパラメータ変換器
206から受けるαパラメータ2061をフ29− ィルタ係数とし、可変利得増幅器211から受ける音源
励振信号2111を得て音声データ2071を再生しこ
れをD/Aコンバータ・低域フィルタ212に送出する
D/Aコンバータ拳低域フィルタ212に送出された音
声データ207は、D/Aコンバータおよヒ低域フィル
タによりアナログ変換され、不要の高域成分が除去され
てアナログ音声信号となり出力端子2000から出力す
る。
なお、上述したにパラメータ/αパラメータ変換器20
6は前述したオートコリレーション法等を用いて容易に
構成することができ、またLPCフィルタ207は巡回
型フィルタとして容易に構成できる。
ところで、上述した第1図の実施例においては、いわゆ
る犬フレームとしての区間を、ある無音区間と次の無音
区間とにはさまれる区間を以って取扱った。可変長伝送
フレームを用いて最適線形近似を行う場合には、少くと
も大フレーム分の入力音声を処理した彼はじめてこの有
音区間の情報を30− 分析側1から合成側2に送り込むことができる。
従って合成側2で音声が再生されるまでには不特定の大
きな時間の遅れが発生する可能性があるが、これを避け
るためには次の如くにすればよい。
すなわち、許容される最大の遅れ時間に基づいて予め犬
フレーム長の最大値を設定しておく。この最大値をVm
axとすると、有音区間が開始し、それがVmax以上
連続する場合はこの有無区間をVmaxごとに区切って
これを犬フレームとして取扱い、1つの大フレームの入
力が終了するごとにこの犬フレームを最適線形近似によ
る可変長の伝送フレームに分解する上述の処理を行う。
このようにすることによって予め定めた遅れ時間内で実
時間処理を行うことができる。
本発明は、可変長フレーム型線形予測ボコーダにおいて
、伝送すべき可変長フレーム区間を有音区間に限定した
うえ、この有★区間を所定の犬フレームを含み最適線形
近似子る点に基本的特徴を有するものであり、本実施例
の変形も種種考えられる。
たとえば第1図の実施例において、入力音声信号の距離
ベクトルは自己相関係数二次差分計測器106によって
得られる自己相関係数の二次差分を利用しているが、こ
れは同じ自己相関係数から求めることが出来る他のにパ
ラメータ、αパラメータ、LSP(ライン スペクトラ
ム ベアグ)、およびケプヌトラム尋のいずれかを用い
ても差支えない。
これらの他のパラメータを用いるときには、自己相関係
数計測器103から得られる自己相関係数からこれらの
いずれかのパラメータをそれぞれ公知の手段を利用して
抽出し、それらを利用すればよい。
また、有声/無声/無音判別器110およびピッチ抽出
器111の入力は、本実施例においてはウィンドウ処理
器102の出力を受けてこの出力の自己相関係数をとっ
て、これを利用して処理しているが、この自己相関係数
は自己相関係数計測器103から得られるものを利用す
る方法で処理してもよいことは明らかである。さらに、
本実施例においては、各可変フレームの基本フレーム間
の距離を距離計測器108によって演算、計測する場合
、これを(5)式によって計測し、これをそのまま利用
しているが、これに聴覚的に重み付けをそれぞれ有声音
フレームか無声音フレームであるかの情報によっ、て異
る重み付は係数WvV、WUvおよびWUUを乗じたも
の新[〜くその基本フレーム間の距離とし、他の処理は
全く同様にして伝送フレームおよび代表フレームを決定
することによって、有声音および無声音によって異る聴
覚的ルみ付けを行なった処理が可能となる。この場合の
重み付は係数Wvvは基本フレームaおよびbがいずれ
も有声音フレームの場合の重み付は係数、′wUvは基
本フレームaおよびbのいずれか一方のみが有声音フレ
ームの場合の重み付は係数、WUUは基本フレームaお
よびbがいずれも無声音のときの重み付は係数とする。
このような聴覚的重み付けはまた、次のように33− して他の手段で行うことができることも明らかである。
たとえば、基本フレームaの音声電力、すなわち基本フ
レームaにおける遅れ時間Oの自己相関係数をPa、基
本フレームbの音声電力をPbとし、基本フレームaと
基本フレームbとの距離dabにPa 、:Pbとの幾
伺平均罎aPbを乗じた値砂T九dabを新しく基本フ
レームa、b間の距離として利用することにより、有声
音および無声音に対応して異る音声電力を介して聴覚的
重み付けを行うことができることは明らかである。
また、本実施例においては合成側2において行う線形補
間の際、第3図に示す如く設定した各可変フレームの中
心位置をそれぞれ補間始点としているが、これは無音区
間と隣接する伝送フレーム、たとえばflおよびfli
等にあっては聴覚的に無意な無音区間との線形補間を避
けるとともに、各伝送フレームのほぼ中心位置ではその
フレームを代表する距離ベクトル、従ってにパラメータ
等の安定した値が得易いためであり、この補間始点は3
4− 他の方法、たとえば補間すべき隣接伝送フレーム間のに
パラメータ値の差に対応する割合で中心位置からシフト
させた位置に設定しこれらの点を接続する近似直線によ
って線形補間を行うことなども容易に実施できるもので
あり、このような線形補間の1つとして、第2図におけ
る各伝送フレームf s 、f 2.f 3.−−−−
 f−等を代表する代表基本フレームのにパラメータ値
al+a2+a3+−−a6等を接続(−た直線系列を
補間用の近似直線とすること等も所望により容易に実施
できる。
なお、第3図における点al、a2+ a8+−a6等
で示されるにパラメータ値を有する代表基本フレームを
選択するために、本実施例においては前述したダイナミ
ックプログラミング分析手法を用いているが、これは別
なダイナミックプログラミング分析によって実施するこ
とも可能である。第4図は本発明におけるダイナミック
プログラミング分析の第2の手法を説明するための第2
のダイナミックプログラミング分析説明図である。
第4図に示す如く、長さ10m8ECの基本フレームを
たとえば20フレーム並べてダイナミックプログラミン
グフレームAを構成する。このダイナミックプログラミ
ング(DP)フレーム人の長さは200m5ECであり
、第4図に示す如く基本フレームF1からF9までは有
音区間、基本フレームF’toからFtstでは無音区
間、さらに基本フレームFI6からF2Oまでは有音区
間であるとする。このDPフレームAの各基本フレーム
ごとに有音無音の判別を行ない基本フレームF’toか
ら1Ftsまでの無音区間を除いて基本フレームを並べ
1FiDPフレームBを得る。この新DPフレームのう
ち有音区間の基本フレームF1からF9までを■グルー
プ、基本フレームF’taからF2oi+でを■グルー
プとし、この■および■のフレームグループ内で計測さ
れる距離には係数Xを、また■グループと■グループと
にまたがるフレーム間の距離には係数yをかけ蕾。この
場合X < Yとすること■。
により有音区間と無音区間との境界がいつも可変フレー
ムの境界となるようにする。また、DPすべきフレーム
内に無音区間が存在しないときは、たとえばDPフレー
ムAがすべて有音区間の20基本フレームとしこの中か
ら5個の基本フレームを選択しようとする場合、DPフ
レームBの14基本フレーメからは4基本フレームを選
択すればよいというようにする。
このようなダイナミックプログラミング手法を実施する
ことにより分析側2における分析遅延時間が一定となす
ことができ、ダイナミックプログラミング処理を簡単に
することができる。このようなダイナミックプログラミ
ング手段をとるか、前述した実施例におけるダイナミッ
クプログラミング手段をとるかは分析すべき入力音声信
号の内容、処理すべき装置の規模、および処理目的等を
勘案し所望により任意に設定できる。
最後に伝送符号の効率化について説明する。本実施例に
おける分析側から合成側に伝送すべきデータの伝送符号
を効率化するために、無音区間の伝送フレーム長を表現
するビットと有)区間における伝送フレーム長を表現す
るビットとを互いに独立させることにより容易に実施で
きる。
37− 第5図は伝送符号の構成を示す伝送符号構成図である。
第5図(5)は有音区間における伝送符号構成図、第5
図に)は無音区間における伝送符号構成図である。
第5図(5)に示すように伝送符号フレームの区切りを
示すフレームとットFには2値の論理値111が、続い
て伝送フレーム長フィールドLには伝送゛フレーム長を
指定する2値の論理値の組合せを配置し、次は伝送すべ
き代表基本フレームの各種伝送パラメータを配置する。
これに対し無音区間では第5図(ロ)に示すように、フ
レームの区切りを示すフレームビットFの論理値11@
に続いて無音区間指定フィールドSの内容をすべて論理
値lO1として、これが無声区間を示す符号であること
を指定する。これは第5図(5)のLの代りに伝送され
る。続いて第5図(8)のPに指定されるパラメータ符
号の代りに無音区間の伝送フレーム長を指示するフィー
ルドL′として使用する。このような形式で符号化する
ことにより、無音区間における伝送フィールドの最大長
を有音区38− 間の伝送フィールドの最大長に比較して充分長く選ぶこ
とができ、そただけ符号の効率化が図れることとなる。
あるいはまた、伝送符号フレーム中の特定のビット、た
とえば第5図(6)および(ロ)の伝送符号フレームビ
ットFを専用の有音区間/無音区間判別ビットとして使
用し、とれ以外の符号の構成は、有音区間と無音区間と
では全く独立的にそれぞれに最適なフィールド構成をと
るようにしてもよい。
いずれをとるかは所望により任意に設定でき、これらは
いずれも符号の効率化が得られるものである。
以上説明したように本発明によれば、入力音声信号を分
析側で分析し、これを伝送符号として伝送ラインを介し
て合成側で合成再生する可変長フレーム型線形予測ボコ
ーダにおいて、無音区間を除いた有音区間を可変長伝送
イレームを用いた最適線形近似を行ない、また構成にお
いては線形補間を施すという手段を備えることにより、
伝送すべき情報量の大幅な節減が可能となり、伝送情報
の低ビツトレート化および低ビツトレート伝送における
再生音質の大幅な改善が得られるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
代表基本フレームおよび伝送フレーム設定関係図、第3
図は合成側線形補間図、第4図はダイナミックプログラ
ミング分析の第2の手法を示す第2のダイナミックプロ
グラミング分析説明図、第5図は有音区間における伝送
符号構成図である。 1・・・・・・合成側、2・・・・・・分析側、3・・
・・・・伝送路、101・・・・・・低域フィルタ・A
/Dコンバータ、102・・・・・・ウィンドウ処理器
、103・パ°°°自己相関係数計測器、104・・・
・・・自己相関係数メモ1ハ105・・・・・・線形予
測係数分析器、106・・・・・・自己11 相関係数二次差分計測器、107・・・・・・距離ベク
トルメモ+J、108・・・・・・距離計測器、109
・・・・・・フレーム選択器、110・・・・・・有声
/無声/無音判別器、111・・・・・・ピッチ抽出器
、112・・・・・・符号化器、201・・・・・・復
号化器、202・・・・・・Kパラメータメモリ、2o
3・・・・・・K /<ラメータ補間器、2o4°パ・
°°線形近似区間制御器、205・・・・・・補間制御
器、206・・・・・・Kパラメータ/αパラメータ変
換器、207−−I−P C7イルタ、208°°°・
−°ヒ、)、 チ抽出器、209・・・・°゛切替器、
210・・・・・・雑音発生器、211・・・・・・可
変利得増幅器、212・・・・・・D/Aコンバータ・
低域フィルタ。 代理人 弁理士  内 原   晋 41− 第2図 第3図 第4図

Claims (1)

    【特許請求の範囲】
  1. 入力音声信号を線形予測分析し抽出した線形予測係数を
    前記入力音声信号の音声情報として伝送しこの音声情報
    から入力音声信号を合成し再生する可変長フレーム型線
    形予測ボコーダにおいて、前記入力音声信号を有声音お
    よび無声音を含む有音区間と音声を含まない無音区間と
    に判別する有音無音判別手段と、この有音無音判別手段
    によって判別された前記有音区間を可変長の伝送区間(
    フレーム)によって最適線形近似するとともに前記無音
    区間の間に介在する連続した所定の有音区間(犬フレー
    ム)においても可変長フレームによる前記入力音声信号
    の分析を行なう最適線形近似手段と、この最適線形近似
    手段により出力し伝送される前記音声情報を受けこれに
    所定の線形補間を施して前記入力音声信号を合成し再生
    せしめる線形予測係数補間手段とを備えて成ることを特
    徴とする可変長フレーム型線形予測ボコーダ。
JP57087479A 1982-05-24 1982-05-24 可変長フレ−ム型線形予測ボコ−ダ Granted JPS58203500A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57087479A JPS58203500A (ja) 1982-05-24 1982-05-24 可変長フレ−ム型線形予測ボコ−ダ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57087479A JPS58203500A (ja) 1982-05-24 1982-05-24 可変長フレ−ム型線形予測ボコ−ダ

Publications (2)

Publication Number Publication Date
JPS58203500A true JPS58203500A (ja) 1983-11-26
JPH0235997B2 JPH0235997B2 (ja) 1990-08-14

Family

ID=13916061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57087479A Granted JPS58203500A (ja) 1982-05-24 1982-05-24 可変長フレ−ム型線形予測ボコ−ダ

Country Status (1)

Country Link
JP (1) JPS58203500A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286200A (ja) * 2006-04-13 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 適応ブロック長符号化装置、その方法、プログラム及び記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286200A (ja) * 2006-04-13 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 適応ブロック長符号化装置、その方法、プログラム及び記録媒体

Also Published As

Publication number Publication date
JPH0235997B2 (ja) 1990-08-14

Similar Documents

Publication Publication Date Title
KR100427753B1 (ko) 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치
US4301329A (en) Speech analysis and synthesis apparatus
KR100472585B1 (ko) 음성신호의재생방법및장치와그전송방법
JPH02272500A (ja) コード駆動音声符号化方式
JP2903533B2 (ja) 音声符号化方式
KR0155315B1 (ko) Lsp를 이용한 celp보코더의 피치 검색방법
JPS58203500A (ja) 可変長フレ−ム型線形予測ボコ−ダ
JP2796408B2 (ja) 音声情報圧縮装置
JPS6238500A (ja) 高能率音声符号化方式とその装置
JPH0235994B2 (ja)
JP2615991B2 (ja) 線形予測型音声分析合成装置
JP2000298500A (ja) 音声符号化方法
JPS6162100A (ja) マルチパルス型符号化復号化装置
JPH0235320B2 (ja)
JPH0235996B2 (ja)
JP2508002B2 (ja) 音声符号化方法とその装置
JP2650355B2 (ja) 音声分析合成装置
JP3112462B2 (ja) 音声符号化装置
JPS6232800B2 (ja)
JPH0736119B2 (ja) 区分的最適関数近似方法
KR0138878B1 (ko) 보코더용 피치검색 처리시간 단축법
JPH0468400A (ja) 音声符号化方式
JPH0738119B2 (ja) 音声波形符号復号化装置
JPS593493A (ja) 帯域分割型ボコ−ダ
JPH043878B2 (ja)