JPS58203500A

JPS58203500A - 可変長フレ−ム型線形予測ボコ−ダ

Info

Publication number: JPS58203500A
Application number: JP57087479A
Authority: JP
Inventors: 哲田口; 小林　雅徳; 孝行石川
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1982-05-24
Filing date: 1982-05-24
Publication date: 1983-11-26
Also published as: JPH0235997B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は可変長フレーム型線形予測ボコーダ、特に伝送
パラメータである線形予測係数を最適線形近似の手法を
用いて伝送する可変長フレーム型線形予測ボコーダに関
する。

可変長フレーム型線形予測ボコーダは、入力音声信号を
分析し伝送すべきパラメータを抽出してこれを送信する
分析側（送信側）において、入力音声信号を、たとえば
１０ｍ５ＥＣ程度の基本分析フレーム周期ごとに線形予
測分析を行ない、得られる線形予測係数を他の音源情報
、たとえばピッチ周波数、短時間平均電力、有声無声判
定信号等とともに、これを合成側（受信側）に伝送し、
合成側ではこれらのパラメータから元の入力音声信号を
合成し、再生する。

この場合、前記線形予測係数としては、通常ＰＡＲＣＯ
Ｒ（偏自己相関）パラメータと呼ばれにパラメータが広
く用いられていることはよく知られておシ、さらに、伝
送すべき音声情報の情報量をできるだけ圧縮するため一
般的に次のような手法が用いられていることもまたよく
知られている。

すなわち、従来のこの種のボコーダにおいては、基本フ
レーム周期ごとに得られる線形予測係数をこの周期ごと
に忠実に分析側から合成側に伝送するかわりに、特定数
のＮ１個の基本フレーム分をまとめて１個の代表基本フ
レームを選び、この代表基本フレームの線形予測係数と
その繰返し数Ｎｔとを伝送する。

繰返し数Ｎｔは、予め定めた最大数をＭとすると、１〈
Ｎｔ＜Ｍによって示される正の整数であり、また次に述
べるような最適値をもつようにダイナミックプログラミ
ング手法によって求められ、時間とともに変化する。

基本フレームごとに得られる線形予測係数、あるいはこ
れに予め設定した一定の演算処理を施し２　、−−−Ｐ
、　１３は基本フレーム番号とすると、ＸツはＰ次元空
間における１つの空間ベクトルを表わすものと考えるこ
とができ、従ってこれはＰ次元空間における距離ベクト
ルとして扱うことができる。

いま、ある１つの伝送フレームを考え、その中に含まれ
る任意の基本フレームｌの距離ベクトルすると、これら
基本フレームと代表基本フレームとの距離ｄ！、Ｓは次
の（１）式で示される。

従って、一般的に１番目の伝送フレームにおける各基本
フレームと代表基本フレームとの距離の和Ｄｔは次の（
２）式の如くなる。

Ｄｔ−Σｄ４ｓ　　　　　　　　　　　　・・・・・・
（２）１（２）式におけるｌは前述の如く、を番目の伝送フレー
ム中のすべての基本フレームの番号に対応するものであ
る。前述したダイナミックプログラミングによる各Ｎｔ
および代表フレームの選出は、ある条件のもとて（２）
式に示すようなりｔの和が最小となるような組合せを選
択するために行われるものである。

このようにして決定されるＮｔの数の基本フレームを各
々が有することにより、可変長フレームの組合せによる
伝送フレーム群を構成し、各基本フレームごとに線形予
測係数を忠実に伝送するかわりに、各伝送フレームごと
に代表基本フレームの線形予測係数と、この伝送フレー
ムのフレーム長とを伝送することによりいわゆる最適矩
形近似を行なって情報量の低減を図った伝送データを合
成側に送出して、合成側ではこれから入力音声信号を合
成するという方法をとっている。

しかしながら、このような従来の方式においては、有音
区間とともに、実際には音声が存在しない無音区間に対
しても上述した最適矩形近似を行なっているため、聴覚
的に意味のない無音区間の５− 伝送データも送信しなければならず、さらに分析側で行
なっているこの最適矩形近似処理によって伝送された伝
送データを受ける合成側では、構成すべき入力音声信号
の品質を保持するため、入力した伝送データに対する線
形補間を行ガっており、最適矩形近似処理によって各伝
送フレームの境界面で発生する伝送データの不連続分ま
では処理されることなく、合成音としての最適化処理が
実施されないために合成音の品質もこの分損なわれると
いう欠点がある。

本発明の目的は上述した欠点を除去し、伝送すべき可変
フレームを有音区間に限定したうえ、各伝送フレ、−ム
ごとに代表する線形予測係数は、これら各伝送フレーム
に分布する線形予測係数を入力音声信号の特性によって
決定する複数の伝送フレーム区間にわたって最適直線近
似した近似直線で代表するという手段を備えることによ
り、伝送すべきデータの情報量の低減と、合成音の品質
の向上を図った可変長フレーム型線形予測ボコーダを提
供することにある。

６− 本発明のボコーダは、入力音声信号を線形予測分析し抽
出した線形予測係数を前記入力音声信号の音声情報とし
て伝送しこの音声情報から入力音声信号を合成し再生す
る可変長フレーム型線形予測ボコーダにおいて前記入力
音声信号を有声音および無声音を含む有音区間と音声を
含まない無音区間とに判別する有音無音判別手段と、こ
の有音無音判別手段によって判別された前記有音区間を
可変長の伝送区間（フレーム）によって最適線形近似す
るとともに前記無音区間の間に介在する連続した所定の
有音区間（犬フレーム）においても可変長フレームによ
る前記入力音声信号の分析を行なう最適線形近似手段と
、この最適線形近似手段により出力し伝送される前記音
声情報を受けこれに所定の線形補間を施して前記入力音
声信号を合成し再生せしめる線形予測係数補間手段とを
備えて構成される。　　　　　□１次に図面を参照して本発明の詳細な説明する。

第１図は本発明の一実施例を示すブロック図である。第
１図の実施例は、分析側（送信側）１２合成側（受信側
）２および伝送路３から構成され、分析側１は低域フィ
ルタ・Ａ／Ｄコンバータ１０１゜ウィンドウ処理器１０
２．自己相関係数計測器１０３゜自己相関係数メモリ１
０４．線形予測係数（ＬＰＣ）分析器１０５．自己相関
係数二次差分計測器１０６、距離ベクトルメモ１７１０
７’、距離計測器１０８、フレーム選択器１０９．有声
／無声／無音判別器１１０．ピッチ抽出器１１１．およ
び符号化器１１２を含んで構成され、また合成側２は、
復号化器２０１．にパラメータメモリ２０２．にパラメ
ータ補間器２０３．線形近似区間制御器２０４゜補間制
御器２０５．にパラメータ／αパラメータ変換器２０６
　、　Ｌ　Ｐ　Ｃ（Ｌｉｎｅａｒ　Ｐｒｅｄｉｃｔｉｏ
ｎＣｏｅｆｆｉｃｉｅｎｔ　、線形予測係数）フィルタ
２ｏ７゜ピッチ発生器２０８．切替器２０９．雑音発生
器２１０、可変利得増幅器２１１．およびＤ／Ａコンバ
ータ・低域フィルタ２１２を含んで構成される。

分析側１の入力端子１ｏｏｏを介して入力した入力音声
信号１００１は、低域フィルタ・Ａ／Ｄコンバータ１０
１によって低域フィルタリングされたのちＡ／Ｄコンバ
ータによってデジタル化される。

本実施例においては、この低域フィルタの遮断周波数は
３．４　Ｋ　Ｈｚとしこれ以上の高域成分は遮断してお
り、これを分析側１の内蔵するタイミング回路（図示せ
ず）の出力する８　Ｋ　Ｈｚのサンプリング周波数によ
ってサンプリングしたものをψコンバータにより１サン
プル当り１２ビツトの量子化音声信号１０１２に量子化
し、これをウィンドウ処理器１０２に送出する。

ウィンドウ処理器１０２は、入力した量子化音声信号１
０１２を、−皿内部メモリにストアする。

このメモリは入力した量子化入力音声信号のたとえば３
０ｍ５ＥＣ分、すなわち２４０サンプルの窓時間分を記
憶し、これにハミング関数あるいは矩形関数醇をウィン
ドウ関数として乗算するウィンドウ処理を行なう。この
ウィンドウ処理は１０ｍ５ＥＣ周期で繰返しており、こ
れが前述した基本フレーム周期となる。

このようにしてウィンドウ処理された入力音声９− 信号の音声波形データ１０２１は、前記基本フレーム周
期ごとに自己相関係数器１０，３．有声／無声／無音判
別器１１０およびヒツチ抽出器１１１に送出される。

自己相関係数計測器１０３は、ウィンドウ処理こ沖器１０２から次次入力した音声波形データを利用し乗算
回路等によって各遅れ時間における自己相関係数を必要
な遅れ時間の範囲で計則し、この耐己相関保数データ１
０３１を自己相関係数メモリ１０４および自己相関係数
二次差分計測器１０６に送出する。

自己相関係数計測器１０３は、さらに、遅れ時間０にお
ける自己相関係数、すなわち基本フレームあたりの平均
電力を計測し、これをその基本フレームの音声電力デー
タ１０３２として符号化器１１２各基本フレームごとに
ストアしておくためのメモリである。この自己相関係数
メモリ１０４にストアされた自己相関係数データ１ｏ３
１は、後述する１０− フレーム選択器１０９によって選択される代表基本フレ
ーム番号データ１０９０を入力すると、この基本フレー
ム番号データ１０９０によって指定されたフレームの自
己相関係数データの組１０４１が読出されて線形予測係
数分析器１０５に出力される。

線形予測係数分析器１０５は、このようにしてフレーム
選択器１０９の制御のもとに指定されるフレームの自己
相関係数のデータの組が、自己相関係数メモリ１０４か
ら読出され送出されると、このデータの組からにパラメ
ータを予め定める所定の次数までオートコリレーション
（ＡＵＴＯＣＯＲＲＥＬＡＴＩＯＮ）法によって抽出し
、抽出されたにパラメータ１０５１は符号化器１１３に
送出する。

線形予測係数、すなわちにパラメータの分析内容につい
ては、たとえばジョン　マツコール：ゝゝリニア　プレ
ディクション：ア　チュー、ト、リアル　レビーー〃（
Ｊｏｈｎ　Ｍａｋｈｏｕｌ　：ゝＬｉｎｅａｒ　Ｐｒｅ
ｄｉｃｔｉｏｎ　：ＡＴｕｔｏｒｉａｌ　Ｒｅｖｉｅｗ
“）　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅＩＥＥＥ
、Ｖｏｌ、６３．Ｎｏ、４ｐｐ、５６１〜５８０゜Ａｐ
ｒｉｌ、１９７５やその他多くの文献に詳細に記載され
ている。

自己相関関数二次差分計測器１０６は、自己相関係数計
測器１０３から自己相関係数データ１ｏ３１を入力する
と、この二次差分データを計測し、これを距離ベクトル
１０６１として距離ベクトルメモリ１０７に送出する。

この二次差分データは次のようにして算出される。

すなわち、サンプリング周期を単位として、そのｊ倍（
ｊ＝１，２、−−−Ｋ）の遅れ時間を有し、自己相関係
数計測器１０３から送出される自己相関係数をρｊ　と
すると、その−次差分ρノ′は、次の（３）式で示され
る。

ρノ′−ρｌ−ρｌヤ□　　　　　　　　　・・・・・
・（３）（３）式において７＝１　、２　、−−−に−
１である。この（３）式からさらにρｊの二次差分ρイ
′を求めると次の（４）式の如くなる。

／／　　　ｔ　　　”）。

ｑｑｑヤ１　　　　　　　　・・・・・・（４）（４）
弐においてｑ　＝１１２１−−−　Ｋ　　２である。

このようにして定義される自己相関係数の二次差分デー
タ１０６１が、基本フレーム間の距離を表わす距離ベク
トルとして利用するのに特に適しているととはよく知ら
れている。

距離ベクトルメモリ１０７は、各基本フレームに対する
距離ベクトル、すなわち（４）式に示す自己相関係数の
二次差分データを各基本フレームごとに次数にストアし
記憶する。

距離計測器１０８は距離ベクトルメモリ１０７から基本
フレーム番号を指定しその距離ベクトル１０７１を読出
して入力し、次のようにして距離計測を行う。

すなわち、任意のａ番目とｂ番目の基本フレーム間の距
離をｄａｂとすると、ｄａｂは次の（５）式で表わすこ
とができる。

（５）式においてＸ（ｉ）およびＸ　（ｉ）は、それぞ
れａ番ａ　　　　　　　　　ｂ目およびｂ番目の基本フレームの距離ベクトルのｉ番目
の成分、すなわちそれぞれ（４）式で示される基本フレ
ームのρｉ“に相当する量である。

１３− （５）式を用いて計測された基本フレーム間の距離デー
タ１０８１は、フレーム選択器１０９に送出される。

有声／無声／無音判別器１１０は、ウィンドウ処理器１
０２によってウィンドウ処理された音声波形データ１０
２１を受け、各基本フレームごとに、フレームに含まれ
る入力音声信号のデータが有声音が無声音か、あるいは
また全く音声が存在しない無音かのいずれかの状態かを
判別し、その結果の判別データ１１０１をフレーム選択
器１０９および符号化器１１２に送出する。

有声、無声および無音の状態を判別する方法は、いわば
パターン認識とも通ずる技術としてよく知られており、
これに関しては、ビー・ニス・エイタル他：　ゝア　パ
ターン　リコグニッション　アプローチ　ツウ　ボイス
ドーアンボイスドーサイレンス　クラシフーイケーショ
ン　ウィズ　アフリケージ日ン　ツウ　スピーチ　リコ
グニッション“１４− ｃａｔｉｏｎ　ｗｉｔｈ　Ａｐｐｌｉｃａｔｉｏｎ　　
ｔｏ　５ｐｅｅｃｈ　Ｒｅ−ｃｏｇｎｉｔｉｏｎ／／、
　ＩＥＥＥ　　Ｔｒａｎｓ、　ｏｎ　Ａ、、　Ｓ、・。

Ｓ、、Ｐ、、Ｖｏｌ　、Ａ３８Ｐ−２４、Ｎｏ、３　、
ｐｐ　２０１〜２１２　、Ｊｕｎｅ　＋１９７６　　や
その他多くの文献に詳細に記載されている。

フレーム選択器１０９は、このような公知の技術によっ
て入力音声信号の有声、無声および無音を判別する有声
／無声／無音判別器１１０から出力する有Ｐ／無声／無
音の判別信号１１０１と、距離計測器１０８から出力す
る距離データ１０８１とを受け、これらのデータを利用
してダイナミックプログラミング手法によって次のよう
な演算を行う。

すなわち、入力音声信号を有声音または無声音の有音の
基本フレームの連続した有音区間と、無音の基本フレー
ムの連続した無音区間とに分離し、これら２つの区間に
おいてそれぞれ可変長伝送７レームのフレーム長を求め
るとともに１さらに有音区間からは各伝送フレームごと
に代表基本フレームも同時に選択する。このような有音
区間と無音区間における可変長伝送フレームは次のよう
にして決定する。

無音区間における伝送フレームの設定については、基本
フレームを単位とした最大炎は予め設定したＬｓ　ｍａ
ｘ以下とすることにより容易に伝送フレーム長を決定で
きる。すなわち、無音の基本フレ・−メの連続した長さ
がＬｓ　ｍａｘ以下のときには、その長さをそのまま伝
送フレーム長とすればよく、無音の基本フレームの連続
した長さがＬｓ　ｍａｘ以上のときには、Ｌｓ　ｍａｘ
の長さの伝送フレームを数次に設定し、残余の部分がＬ
ｓ　ｍａｘ以下になったときこれをそのまま最後の伝送
フレーム長とすればよい。

有音区間における伝送フレームの設定については、伝送
すべきある有音区間の長さが、基本フレームを単位とし
、このＶ倍の長さＶにわたって連続しているとする。い
まとのＶの長さの部分を、可変フレーム長の伝送フレー
ムに分解するとする。

またこのように無音区間に隣接し、かつ無音区間に挾ま
れた区間に連続して存在する有音区間は犬フレームと呼
ばれるが、いまの例では犬フレームの長さはＶとなる。

まず、この長さＶの大フレームの中に含まれるべき代表
基本フレームの数Ｎｖを決定する。これは予め定めた演
算からＶに対する関数としてのＮｖを求めるか、または
予め用意されているＶとＮｖとの対応表を参照すること
等により決定することができる。なおＮｖはｖ／Ｎｖ＜
Ｌｓｍａｘを満足するように定められている。ただし、
本実施例においては、有音区間における伝送フレームの
最大炎を２　Ｌｓ　ｍａｘとしている〇このようにして
、代表基本フレームの数Ｎｖを求めたあと、次に長さＶ
の大フレームの中に相互の間隔がＬｓ　ｍａｘ以下とな
るようにしてＮｖ個の代表基本フレームを選び、かつこ
の代表基本フレームをそれぞれ１個ずつその中に含むよ
りなＮｖ個の伝送フレームが隣接するように設定する。

このような代表基本フレームの選び方と伝送フレームの
設定の仕方は明らかに有限個の組合せしかないので、こ
の有限個の組合せの中から、さらに次の条件を満足する
ものを求めて決定すること１７− ができる。

第２図は代表基本フレームと伝送フレームの設定の仕方
を示す代表基本フレームおよび伝送フレーム設定関係図
である。

入力音声信号に対応する距離特性を示す曲線りは第２図
の如く有音区間と無音区間とからなるものとし、無音区
間についての伝送フレームの設定の仕方は上述したとお
りである。さて、有著区間については上述の如くＮｖ個
の代表基本フレームとＮｖ個の伝送フレームの組合せの
中から、その組合せが曲線りに最適線形近似するものを
選べばよい。伝送フレーム１　ｖ　＋　２ｙ　＋　３７
−−−（Ｎ）ｙはこうして選れた伝送フレームとなるが
、これは次のようにして設定することができる。

たとえば、フレーム１ｖにおいては、代表基本フレーム
Ｎ１とＮ、が曲線り上に有する点Ｐ１およびＰ！を結ん
だ点線Ｐ１Ｐ、によって示される各基本フレームの示す
距離の和と、この伝送フレーム１ｖの区間の曲線部分ｄ
によって示される各基本フレームの示す距離の和との差
が最小になる１８− ようにＮ１およびＮ、の代表基本フレームを選んでおり
、他の伝送フレーム２Ｖ　ｒ　ａｖ　ｔ　−−一（へ）
■についても全く同様である。これは次のようにして求
めることができる。

いま、ある選択したｇ番目（ｇ＝ｌ、２，３．−−−Ｎ
ｖ−□）の代表基本フレームからはじまる伝送フレーム
に含まれる各基本フレームの距離ベクトル位置における
距離ベクトル、たとえば第２図の伝送フレーム１ｖでは
ｍで表される距離ベクトルを一般的にＸ罐とすると、各
基本フレームと、この中心位置の示す距離との和Ｄｇは
次の（６）式の如くなる。

この場合、各基本フレームとの距離の和Ｄｇを求める距
離ベクトルの設定位−を、相隣る代表基本フレームの中
心位置としたのは、この位置が近似直線の中心値を示す
ものであり、無音区間に隣接する距離ベクトル値をＸ（
１）、とすることを避け、また後述する分析側での線形
補間の始点ともなるべき位置だからである。

さて、■の長さの犬フレーム有音区間に含まれるすべて
の伝送フレームにおけるこのような距離の和Ｄｇの総和
はＩＪ　＝　”、　Ｄｇとなる。

代表フレームの選択の仕方と伝送フレームの設定の仕方
の条件はこのＤが最小になる組合せを選択すれはよく、
このような選択の１つとしてよく知られるダイナミック
プログラミング手法があり、これによって比較的容易に
処理することができる。

このような演算、処理によって無音区間を除いたＶの長
さの有音区間について、与えられた距離ベクトルを用い
て可変長の伝送フＩ／−ムの組合せが決定される。した
がって、これらの可変長フレームはそｎらのフレームの
有する各基本フレーム中のはじめの基本フレームの距離
データを有するものを代表基本フ、、ル−ムとし、これ
と各フレーム長とを伝送すべき情報として合成側に送信
すればよい。

このような可変伝送フレームの情報伝送のあり方は、相
接する伝送フレームをそれぞれ１個の矩形近似による代
表フレームによって代表させた代表値と基本フレーム数
とで構成する矩形近似方式と異なり、数次に伝送される
伝送フレームの初期値でもある代表基本フレームのもつ
距離の変化が、同時に送出する基本フレーム数で直線的
に行なわれると見做す直線近似情報として伝送すること
ができる。

以上の演算により、無音区間を除いた長さＶの有音区間
について与えられた距離ベクトルから最適線形近似によ
る可変フレーム長の伝送フレームが設定され、同時に各
伝送フレームの代表フレームも選択されたこととなる。

第１図の実施例において、フレーム選択器１ｏ９は、こ
うして設定された最適線形近似情報に含まれる代表基本
フレーム番号を指定する代表基本フレーム番号デ’−’
Ｆ、１０９０を自己相関係数メモリ１０４に送出し、こ
れらの各代表基本フレームに対する自己相関係数データ
１０４１を読出して粉型予測係数分析器１０５に送出せ
しめ、また各伝送＝２１− フレームのフレーム長は繰返し数制御信号１０９１とし
て符号化器１１２に送出する。

線型予測係数分析器１０５は、自己相関係数メモリ１０
４から読出される代表基本フレームの自己相関係数デー
タ１０４１を入力し、前述し九にパラメータの演算を行
ない、このにパラメータデータ１０５１を符号化器１１
２に送出する。

ピッチ抽出器１１１は、ウィンドウ処理器１０２から各
基本フレームの音声波形データ１０２１を受け、これか
らピッチ情報１１１１を抽出し符号化器１１に送出する
。

符号化器１１２は、こうして送出された上述の各種の入
力情報を適宜組合せて伝送符号化を行ない伝送路３を介
して合成側２に伝送する。この場合、無音区間の符号化
は、無音区間の指定と、その無音区間の長さまたは無音
区間の伝送フレームの長さを指定する情報とを伝送する
だけとし、また有音区間については各基本フレームごと
のにパラメータを送るかわりに選択した代表基本フレー
ムのにパラメータと、とのにパラメータを含む伝２２− 送フレーム長とを組合せて伝送し、各伝送フレーム中の
代表基本フレーム以外のＫ　ハラメータは、そのにパラ
メータ値から隣接する伝送フレームのはじめに送る代表
基本フレームのにパラメータ値まで各伝送フレームに含
まれる基本フレームの数で増減する直線近似で近似させ
るものとして伝送フレーム長をとのにパラメータの繰返
し数を指定する情報として扱うことによって情報量の圧
縮を図っている。

合成側２においては、伝送路３を介して伝送された、こ
のような符号化信号を復号化器２０１で受信する。

復号化器２０１は受信した諸情報を復号化し、再生した
情報のうち代表基本フレームのにパラメータ２０１１は
にパラメータメモリ２０２に、伝送フレーム長を指定す
る情報２０１２は線形近似区間制御器２０４に、またピ
ッチ情報２０１３はピッチ発生器２０８にそれぞれ送出
する。

Ｋパラメータメモリ２０２は入力した各代表基本フレー
ムのにパラメータをメモリにストアし、また線形近似区
間制御器２０４は入力した伝送フレーム長を指定する情
報により各伝送フレームの長さ、すなわち各線形近似区
間を指定する線形近似区間指定信号２０４１を発生し、
これを補間制御器２０５に送出する。

補間制御器２０５は、線形近似区間制御器２０４から受
けた線形近似区間指定信号２０４１を受け、これにより
にパラメータメモリ制御信号２ｏ５１゜Ｋパラメータ補
間器制御信号２０５２を出力する。

Ｋ　ハラメータメモリ２０２からは、Ｋパラメータメモ
リ制御信号２０５１の制御のもとに各可変伝送フレーム
の代表基本フレームのにパラメータが数次に読出され、
各伝送フレームの代表基本フレームごとのＫ　ハラメー
タ系列が再現され、とのにパラメータ系列２０２１はに
パラメータ補間器２０３に出力される。

Ｋパラメータ補間器２０３は、こうして入力した各伝送
フレームの代表基□本フレームのにパラメータと、各伝
送フレームごとの基本フレーム数との情報により、補間
制御器２０５から受けるにパラメータ補間器制御信号２
０５２によって供給されるにパラメータの変化点すなわ
ち各伝送フレームの代表基本フレームの位置を示す情報
を利用して代表基本フレーム間の基本フレームごとのに
パラメータの再生、補間を行う。

この再生および補間は、無音区間に隣接する有音区間の
伝送フレームが、無音区間との無意味な補間を受けるこ
とを避けるために、各伝送フレームの時間中心位置をそ
れぞれの補間始点とし、これらの補間始点を結んだ折線
の近似直線とするものである。

第３図は合成側における線形補間の内容を示す合成側線
形補間図である。

点ａｌ＋８２＋８３＋８４＋８５＋およびａ６は任意の
入力音声信号の伝送フレームの代表基本フレームのにパ
ラメータ値を示し、これらはまた、それぞれの伝送フレ
ームの初期基本フレームのにパラメータ値でもある。点
ａ（、ａイ、ａイｔａｔｔおよびａ、／はそれぞれ点ａ
ｌ　ｌ　ａｌ　＋　ａｌ　１　ａ４−、およびａｌｌの
示すにパラメータ値に等しく、たとえば線２５− 分ａｌａｌ’の長さｆｌは、ａｌのにパラメータ値を有
する基本フレームを代表基本フレームとする伝送フレー
ム長に等しく、線分”　２　ａ２’　　＋　ａｌ　ａ３
Ｚａ４ａ４’およびａ５ａ６’についてもそれぞれ数次
に隣接する伝送フレーム長ｆ　２　＋　ｆ　３　＋　ｆ
　４’　＋　　およびｆ、に対応するそれぞれの可変伝
送フレーム長である。通★の可変長フレーム線形予測ボ
コーダにおいては、伝送フレームｆ、、ｆ、、ｆ、、ｆ
４およびｆ５を代表する代表基本“フレームとともに、
これらの伝送フレームに含まれる基本フレーム数を分析
側から合成側に伝送して入力音声信号を合成する、いわ
ゆる矩形近似を行っているが、この方法によれば伝送フ
レームｆ１からｆ２に移行するとき、Ｋパラメータの値
が、たとえば伝送フレームｆ１ではａ（すなわちａｌか
らａｌにステップ的に不連続変化し、このため再生すべ
き音声の品質を劣化せしめることとなる。

本実施例においては、伝送フレームｆ　１　＋　ｆ　２
　＋ｆ３．ｆ４．ｆＩ＋およびｆ６の時間中心点ｍｌ　
、　ｍ２　。

ｍ３．ｍ４およびｍ５をそれぞれ補間始点とし、２６− 第３図の点線で示すように数次に直線で結んだものをそ
れぞれの伝送フレームにおけるにパラメータに対応する
特性として、この点線に対応して各伝送フレームに含ま
れる各基本フレームがもつべきにパラメータを設定して
いる。また、このよりなにパラメータの設定は、基本フ
レーム間をさらに必要に応じ所望の分割数、たとえば４
分割して前接の基本フレームのにパラメータ値を利用し
て補間値とすることも可能であり、このことは所望に応
じて任意の基本フレームに設定できるものである。なお
、第３図において、伝送フレームｆｌでは点ｍ１を補間
始点として補間を行なっているが、これは伝送フレーム
ｆ１には無音区間が隣接するためこれとの無意味な補間
を避けるため上述した如＜ｍｔを補間の始点としている
ためである。

なお、とのにパラメータ補間器２０３は、合成側で再生
する音声波形の入力童声波形に対する近似度の改善を図
るものであり、可変長線形予測ボコーダの使用目的等に
よってはこれを省略できることも明らかである。

Ｋパラメータ／αパラメータ変換器２０６は、このよう
にして送出されるにパラメータ２０３１をαパラメータ
に変換し、とのαパラメータ２０６１をＬＰＣフィルタ
２０７のフィルタ係数として供給する。このＬＰＣフィ
ルタ２０７はαパラメータ値フィルタ係数とするデジタ
ル合成フィルタであり、また線形予測係数フィルタとし
てよく知られるものであり、αパラメータおよび彼達す
る音源励振電力とを入力し音声波形を再生するものであ
る。

さて、復号化器２０１は前述１〜だ如く分析側ｌから入
力した情報を復号化するが、このうち各代表基本フレー
ムにおける音声電力を表わす情報を再生したものは利得
制御情報２０１４として可変利得増幅器２１１に送出さ
れる。また、有声音／無声音を区別する情報を復号化し
再生したものは有声／無声切換信−Ｊ、２０１５として
これを切替器２０９に送出し、さらに前述した如くピッ
チ周波数を指定する情報を復号化し再生したピッチ周波
数指定信号２０１３はピッチ発生器２０８に送出する。

ピッチ発生器２０８は指定された周波数のピッチパルス
データ２０８１を発生し、これを切替器２０９に送出す
る。

切替器２０９は復号化器２０１より送出される有声／無
声切換信号２０１５が有声を指定するときにはピッチ発
生器２０８からのピッチパルスデータ２０８１を選択す
るように切替接続し゛、これを可変利得増幅器２１１に
接続する。また有声／無声切換信号２０１４が無声を指
定するときには、雑音発生器２１０の出力する白色雑音
信号２１０１を可変利得増幅器２１１に接続するように
切替え動作する。

可変利得増幅器２１１は、このようにして入力したピッ
チパルスデータ２０８１、または白色雑音信号２１０１
を、別に入力した利得制御情報２０１４に対応した重み
付けを行なうことにより可変増幅して音源励振信号２１
１１を出力し、これをＬＰＣフィルタ２０７に送出する
。

ＬＰＣフィルタはＫ　ハラメータ／αパラメータ変換器
２０６から受けるαパラメータ２０６１をフ２９− ィルタ係数とし、可変利得増幅器２１１から受ける音源
励振信号２１１１を得て音声データ２０７１を再生しこ
れをＤ／Ａコンバータ・低域フィルタ２１２に送出する
。

Ｄ／Ａコンバータ拳低域フィルタ２１２に送出された音
声データ２０７は、Ｄ／Ａコンバータおよヒ低域フィル
タによりアナログ変換され、不要の高域成分が除去され
てアナログ音声信号となり出力端子２０００から出力す
る。

なお、上述したにパラメータ／αパラメータ変換器２０
６は前述したオートコリレーション法等を用いて容易に
構成することができ、またＬＰＣフィルタ２０７は巡回
型フィルタとして容易に構成できる。

ところで、上述した第１図の実施例においては、いわゆ
る犬フレームとしての区間を、ある無音区間と次の無音
区間とにはさまれる区間を以って取扱った。可変長伝送
フレームを用いて最適線形近似を行う場合には、少くと
も大フレーム分の入力音声を処理した彼はじめてこの有
音区間の情報を３０− 分析側１から合成側２に送り込むことができる。

従って合成側２で音声が再生されるまでには不特定の大
きな時間の遅れが発生する可能性があるが、これを避け
るためには次の如くにすればよい。

すなわち、許容される最大の遅れ時間に基づいて予め犬
フレーム長の最大値を設定しておく。この最大値をＶｍ
ａｘとすると、有音区間が開始し、それがＶｍａｘ以上
連続する場合はこの有無区間をＶｍａｘごとに区切って
これを犬フレームとして取扱い、１つの大フレームの入
力が終了するごとにこの犬フレームを最適線形近似によ
る可変長の伝送フレームに分解する上述の処理を行う。

このようにすることによって予め定めた遅れ時間内で実
時間処理を行うことができる。

本発明は、可変長フレーム型線形予測ボコーダにおいて
、伝送すべき可変長フレーム区間を有音区間に限定した
うえ、この有★区間を所定の犬フレームを含み最適線形
近似子る点に基本的特徴を有するものであり、本実施例
の変形も種種考えられる。

たとえば第１図の実施例において、入力音声信号の距離
ベクトルは自己相関係数二次差分計測器１０６によって
得られる自己相関係数の二次差分を利用しているが、こ
れは同じ自己相関係数から求めることが出来る他のにパ
ラメータ、αパラメータ、ＬＳＰ（ライン　スペクトラ
ム　ベアグ）、およびケプヌトラム尋のいずれかを用い
ても差支えない。

これらの他のパラメータを用いるときには、自己相関係
数計測器１０３から得られる自己相関係数からこれらの
いずれかのパラメータをそれぞれ公知の手段を利用して
抽出し、それらを利用すればよい。

また、有声／無声／無音判別器１１０およびピッチ抽出
器１１１の入力は、本実施例においてはウィンドウ処理
器１０２の出力を受けてこの出力の自己相関係数をとっ
て、これを利用して処理しているが、この自己相関係数
は自己相関係数計測器１０３から得られるものを利用す
る方法で処理してもよいことは明らかである。さらに、
本実施例においては、各可変フレームの基本フレーム間
の距離を距離計測器１０８によって演算、計測する場合
、これを（５）式によって計測し、これをそのまま利用
しているが、これに聴覚的に重み付けをそれぞれ有声音
フレームか無声音フレームであるかの情報によっ、て異
る重み付は係数ＷｖＶ、ＷＵｖおよびＷＵＵを乗じたも
の新［〜くその基本フレーム間の距離とし、他の処理は
全く同様にして伝送フレームおよび代表フレームを決定
することによって、有声音および無声音によって異る聴
覚的ルみ付けを行なった処理が可能となる。この場合の
重み付は係数Ｗｖｖは基本フレームａおよびｂがいずれ
も有声音フレームの場合の重み付は係数、′ｗＵｖは基
本フレームａおよびｂのいずれか一方のみが有声音フレ
ームの場合の重み付は係数、ＷＵＵは基本フレームａお
よびｂがいずれも無声音のときの重み付は係数とする。

このような聴覚的重み付けはまた、次のように３３− して他の手段で行うことができることも明らかである。

たとえば、基本フレームａの音声電力、すなわち基本フ
レームａにおける遅れ時間Ｏの自己相関係数をＰａ、基
本フレームｂの音声電力をＰｂとし、基本フレームａと
基本フレームｂとの距離ｄａｂにＰａ　、：Ｐｂとの幾
伺平均罎ａＰｂを乗じた値砂Ｔ九ｄａｂを新しく基本フ
レームａ、ｂ間の距離として利用することにより、有声
音および無声音に対応して異る音声電力を介して聴覚的
重み付けを行うことができることは明らかである。

また、本実施例においては合成側２において行う線形補
間の際、第３図に示す如く設定した各可変フレームの中
心位置をそれぞれ補間始点としているが、これは無音区
間と隣接する伝送フレーム、たとえばｆｌおよびｆｌｉ
等にあっては聴覚的に無意な無音区間との線形補間を避
けるとともに、各伝送フレームのほぼ中心位置ではその
フレームを代表する距離ベクトル、従ってにパラメータ
等の安定した値が得易いためであり、この補間始点は３
４− 他の方法、たとえば補間すべき隣接伝送フレーム間のに
パラメータ値の差に対応する割合で中心位置からシフト
させた位置に設定しこれらの点を接続する近似直線によ
って線形補間を行うことなども容易に実施できるもので
あり、このような線形補間の１つとして、第２図におけ
る各伝送フレームｆ　ｓ　、ｆ　２．ｆ　３．−−−−
　ｆ−等を代表する代表基本フレームのにパラメータ値
ａｌ＋ａ２＋ａ３＋−−ａ６等を接続（−た直線系列を
補間用の近似直線とすること等も所望により容易に実施
できる。

なお、第３図における点ａｌ、ａ２＋　ａ８＋−ａ６等
で示されるにパラメータ値を有する代表基本フレームを
選択するために、本実施例においては前述したダイナミ
ックプログラミング分析手法を用いているが、これは別
なダイナミックプログラミング分析によって実施するこ
とも可能である。第４図は本発明におけるダイナミック
プログラミング分析の第２の手法を説明するための第２
のダイナミックプログラミング分析説明図である。

第４図に示す如く、長さ１０ｍ８ＥＣの基本フレームを
たとえば２０フレーム並べてダイナミックプログラミン
グフレームＡを構成する。このダイナミックプログラミ
ング（ＤＰ）フレーム人の長さは２００ｍ５ＥＣであり
、第４図に示す如く基本フレームＦ１からＦ９までは有
音区間、基本フレームＦ’ｔｏからＦｔｓｔでは無音区
間、さらに基本フレームＦＩ６からＦ２Ｏまでは有音区
間であるとする。このＤＰフレームＡの各基本フレーム
ごとに有音無音の判別を行ない基本フレームＦ’ｔｏか
ら１Ｆｔｓまでの無音区間を除いて基本フレームを並べ
１ＦｉＤＰフレームＢを得る。この新ＤＰフレームのう
ち有音区間の基本フレームＦ１からＦ９までを■グルー
プ、基本フレームＦ’ｔａからＦ２ｏｉ＋でを■グルー
プとし、この■および■のフレームグループ内で計測さ
れる距離には係数Ｘを、また■グループと■グループと
にまたがるフレーム間の距離には係数ｙをかけ蕾。この
場合Ｘ　＜　Ｙとすること■。

により有音区間と無音区間との境界がいつも可変フレー
ムの境界となるようにする。また、ＤＰすべきフレーム
内に無音区間が存在しないときは、たとえばＤＰフレー
ムＡがすべて有音区間の２０基本フレームとしこの中か
ら５個の基本フレームを選択しようとする場合、ＤＰフ
レームＢの１４基本フレーメからは４基本フレームを選
択すればよいというようにする。

このようなダイナミックプログラミング手法を実施する
ことにより分析側２における分析遅延時間が一定となす
ことができ、ダイナミックプログラミング処理を簡単に
することができる。このようなダイナミックプログラミ
ング手段をとるか、前述した実施例におけるダイナミッ
クプログラミング手段をとるかは分析すべき入力音声信
号の内容、処理すべき装置の規模、および処理目的等を
勘案し所望により任意に設定できる。

最後に伝送符号の効率化について説明する。本実施例に
おける分析側から合成側に伝送すべきデータの伝送符号
を効率化するために、無音区間の伝送フレーム長を表現
するビットと有）区間における伝送フレーム長を表現す
るビットとを互いに独立させることにより容易に実施で
きる。

３７− 第５図は伝送符号の構成を示す伝送符号構成図である。

第５図（５）は有音区間における伝送符号構成図、第５
図に）は無音区間における伝送符号構成図である。

第５図（５）に示すように伝送符号フレームの区切りを
示すフレームとットＦには２値の論理値１１１が、続い
て伝送フレーム長フィールドＬには伝送゛フレーム長を
指定する２値の論理値の組合せを配置し、次は伝送すべ
き代表基本フレームの各種伝送パラメータを配置する。

これに対し無音区間では第５図（ロ）に示すように、フ
レームの区切りを示すフレームビットＦの論理値１１＠
に続いて無音区間指定フィールドＳの内容をすべて論理
値ｌＯ１として、これが無声区間を示す符号であること
を指定する。これは第５図（５）のＬの代りに伝送され
る。続いて第５図（８）のＰに指定されるパラメータ符
号の代りに無音区間の伝送フレーム長を指示するフィー
ルドＬ′として使用する。このような形式で符号化する
ことにより、無音区間における伝送フィールドの最大長
を有音区３８− 間の伝送フィールドの最大長に比較して充分長く選ぶこ
とができ、そただけ符号の効率化が図れることとなる。

あるいはまた、伝送符号フレーム中の特定のビット、た
とえば第５図（６）および（ロ）の伝送符号フレームビ
ットＦを専用の有音区間／無音区間判別ビットとして使
用し、とれ以外の符号の構成は、有音区間と無音区間と
では全く独立的にそれぞれに最適なフィールド構成をと
るようにしてもよい。

いずれをとるかは所望により任意に設定でき、これらは
いずれも符号の効率化が得られるものである。

以上説明したように本発明によれば、入力音声信号を分
析側で分析し、これを伝送符号として伝送ラインを介し
て合成側で合成再生する可変長フレーム型線形予測ボコ
ーダにおいて、無音区間を除いた有音区間を可変長伝送
イレームを用いた最適線形近似を行ない、また構成にお
いては線形補間を施すという手段を備えることにより、
伝送すべき情報量の大幅な節減が可能となり、伝送情報
の低ビツトレート化および低ビツトレート伝送における
再生音質の大幅な改善が得られるという効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
代表基本フレームおよび伝送フレーム設定関係図、第３
図は合成側線形補間図、第４図はダイナミックプログラ
ミング分析の第２の手法を示す第２のダイナミックプロ
グラミング分析説明図、第５図は有音区間における伝送
符号構成図である。１・・・・・・合成側、２・・・・・・分析側、３・・
・・・・伝送路、１０１・・・・・・低域フィルタ・Ａ
／Ｄコンバータ、１０２・・・・・・ウィンドウ処理器
、１０３・パ°°°自己相関係数計測器、１０４・・・
・・・自己相関係数メモ１ハ１０５・・・・・・線形予
測係数分析器、１０６・・・・・・自己１１相関係数二次差分計測器、１０７・・・・・・距離ベク
トルメモ＋Ｊ、１０８・・・・・・距離計測器、１０９
・・・・・・フレーム選択器、１１０・・・・・・有声
／無声／無音判別器、１１１・・・・・・ピッチ抽出器
、１１２・・・・・・符号化器、２０１・・・・・・復
号化器、２０２・・・・・・Ｋパラメータメモリ、２ｏ
３・・・・・・Ｋ　／＜ラメータ補間器、２ｏ４°パ・
°°線形近似区間制御器、２０５・・・・・・補間制御
器、２０６・・・・・・Ｋパラメータ／αパラメータ変
換器、２０７−−Ｉ−Ｐ　Ｃ７イルタ、２０８°°°・
−°ヒ、）、　チ抽出器、２０９・・・・°゛切替器、
２１０・・・・・・雑音発生器、２１１・・・・・・可
変利得増幅器、２１２・・・・・・Ｄ／Ａコンバータ・
低域フィルタ。代理人　弁理士　　内　原　　　晋４１− 第２図第３図第４図

Claims

【特許請求の範囲】

入力音声信号を線形予測分析し抽出した線形予測係数を
前記入力音声信号の音声情報として伝送しこの音声情報
から入力音声信号を合成し再生する可変長フレーム型線
形予測ボコーダにおいて、前記入力音声信号を有声音お
よび無声音を含む有音区間と音声を含まない無音区間と
に判別する有音無音判別手段と、この有音無音判別手段
によって判別された前記有音区間を可変長の伝送区間（
フレーム）によって最適線形近似するとともに前記無音
区間の間に介在する連続した所定の有音区間（犬フレー
ム）においても可変長フレームによる前記入力音声信号
の分析を行なう最適線形近似手段と、この最適線形近似
手段により出力し伝送される前記音声情報を受けこれに
所定の線形補間を施して前記入力音声信号を合成し再生
せしめる線形予測係数補間手段とを備えて成ることを特
徴とする可変長フレーム型線形予測ボコーダ。