JPS6132900A

JPS6132900A - 信号符号化装置とその方法

Info

Publication number: JPS6132900A
Application number: JP14687785A
Authority: JP
Inventors: マーク　バーナード　ドンヴイト; ブリアン　ウイリアム　シユーンハー
Original assignee: American Telephone and Telegraph Co Inc
Current assignee: AT&T Corp
Priority date: 1984-07-06
Filing date: 1985-07-05
Publication date: 1986-02-15
Also published as: EP0167364A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】通常の人の音声は無声の期間を含むが、ここではこの期
間を″音声不在期間″′と呼ぶ。

音声が電子的に伝送される場合、例えば、通信ネットワ
ークなどにおいては、この音声不在期間が全伝送時間の
大きな部分を占める。

これは、音声不在期間の間に伝送される情報は、この期
間の長さと関係なく、この期間の存在とその長さを示す
のみであるため、結果として、通信ネットワークの使用
効率を低下することとなる。

他の情報、例えば、データ等を時間割当てベースにてこ
の音声不在期間内に挿入することによって、伝送の効率
を向上させる試がなされている。このようなアプローチ
は、現在、大陸間ケーブル及び衛星通信などに使用され
ており、ＴＡＳ工（時間割当て及び音声補間）システム
として知られている。このタイプのシステムは、例えば
、合衆国特許第４，１００，３７７号において説明され
ている。

音声不在期間は既にパルス符号変調（ＰＣＭ）形式にデ
ジタル的に符号化された音声信号内で検出することもで
きる。これは、例えば、合衆国特許第３，９０９，５３
２号において説明されている。

符号化された音声信号とデータ信号の両方が時間割当て
ベースにて搬送波を共有する場合、再構成音声の劣化な
しに音声不在期間を最大限に利用するためには、音声不
在期間を高精度にて検出することが必要できる。従って
、これと関連しての第１の問題は、音声の存在−不在の
境界を知ることである。これらは、音声期間から沈黙期
間への遷移、あるいは沈黙期間から音声期間への遷移の
いずれかである。従って、音声の存在−不在期間の境界
の検出の精度を向上することが要求される。

本発明による新規の方法及び装置においては、音声の存
在−不在境界は音声信号の少なくとも２つのサブバンド
の所のデジタル的に符号化されたデータ内で検出される
。短期音声エネルギーを推定するための検出統計値を生
成するために個々の周波数サブバンドについてのエネル
ギーの推定が行なわれる。長期音声レベルとして使用さ
れるいき値が計算される。このいき値が検出統計値と比
較され、これによって、沈黙期間の存在の判定が行なわ
れる。この検出力法は１つの周波数ハンドを使用する方
法と比較して精度を著しく向上することができる。

第１図に示す音声検出を伴なう２ハンドサブバンド符号
器１０は低域直角位相ミラーフィルタ１４、ハイ−ツウ
−デシメータ１６、及びＡＤＰＣＭ　（適応デジタルパ
ルス符号器Ａ）符号器１８からなる下側周波数サブバン
ドあるいは低域バンド符号器回路１２を含む。

低域バンド回路１２と平行して、高域直角位相ミラーフ
ィルタ２２、ハイ−ツウ−デシメータ２４、及びＡＤＰ
ＣＭ符号器２６から構成される上側周波数サブバンドあ
るいは高ハンド符号器回路２０が存在する。符号器回路
１２及び２０の両方は１２　ｋＨｚ　（キロヘルツ）の
サンプリング速度にて動作し、同一の５５ｋＨｚアナロ
グ音声入力信号を受信する。これらはこれらの出力を伝
送の目的でマルチプレクサ２８に送信する。サブバンド
符号器回路、例えば、回路１２．２０及びマルチプレク
サ２８は当技術において周知の−ものであり、例えば、
合衆国特許第４，０４８，４４３号、ベルシステムテク
ニカルジャーナル（Ｂｅ１ｌ　ＳｙｓｔｅｍＴｅｃｈｎ
ｉｃａｌ　Ｊｏｕｒｎａｌ　）　ｖｏｌ、　６０、Ｎ（
Ｌ７、パート２、ページ１６３３−１６５３．１９８１
年９月号において発表のＲ，Ｅ、クローチャー（Ｒ，Ｅ
、　Ｃｒｏｃｈｊｅｒ、ｅ　）による論文〔サブバンド
　コーディング（５ｕｂ−ｂａｎｄ　Ｃｏｄｉｎｇ）　
’Ｊ　、並びにＩＥＥＥ　　トランザクション　オン　
コミュニケーション（ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏ
ｎｓ　ＯｎＣｏｍｍｕｎｉｃａｔｉｏｎｓ　）、１９８
２年、２月、ｖｏｌ。

Ｃ０Ｍ３０、ＮＩＬ　２、ページ３３６−３４５に発表
のＪ、　Ｌ、フラナカン（Ｊ、　Ｌ、　Ｆｌａｎａｇａ
ｎ　）、Ｊ、　Ｄ、ジョンストン（Ｊ、　Ｄ、　Ｊｏｈ
ｎｓｔｏｎ　）、及びＪ、Ｗ。アブトン（Ｊ、　Ｗ’、
　Ｕｐｔｏｎ　）らによる論文〔マイクロプロセッサ内
へのテジタル音声格Ｈ１３（Ｄｉｇｉｔａｌ　Ｖｏｉｃ
ｅ　Ｓｔｏｒａｇｅ　Ｉｎ　ａ　Ｍｉｃｒｏｐｒｏ　−
ｃｅｓｓｏｒ　）　）において説明されている。

音声いき値計算サブユニット３２、音声統計値計算サブ
ユニット３４、及び音声検出サブユニット３６を含む音
声検出器３０はマルチプレクサ２８に出力を提供するよ
うに設計されているが、これは、伝送される出力に音声
存在指標、あるいは音声標識を挿入する。

音声いき埴計算サブユニット３２への入力は低域ハンド
符号器１２からのステップサイズ情報である。音声統計
値計鏝−サフユニット３４への入力は低域ハンド符号器
１２及び高域ハンド符号器２００両方からのサンプルス
テップサイズ情報である。いき値サブユニット３２及び
統計値サブユニット３４０両方はこれら出力を音声検出
サブユニット３Ｇに与える。

第２図には統計値計算サブユニット３４の詳細を示す。

音声検出は符号器１２及び２゜から情報を派生し、これ
を使用して音声が存在するか否かを検出するのに使用さ
れる。正規の符号器機能の動作において、符号器１２及
び２０の各々は、その対応するサブバンド内の信号振幅
に基づいて、量子化器ステップサイズの個別の測定を行
なう。計算の効率上、ステップサイズのログが測定され
、ステップ−サイズテーフルへのポインタとして使用さ
れる。このログステップーサイズパラメータは任意の時
間における各ハンド内の音声パワーの推定値として使用
される。

第２図の説明にうつり、音声サンプリング期間はτ０に
よって表わされる。低域ハンド内のステップサイズのロ
グはｄＬ（ｉτ０）によって衣わされ、一方、高域ハン
ド内のステップサイズのログは時間ｔ＝ｊτ０における
ｄＨ（ｉτＯ）によって表わされる。Ｔ（ｉτＯ）を音
声レベルを決定するのに使用される音声検出統計値を表
わすものとする。σＬ及びσＨをｄＬ（ｉτ０）及びｄ
Ｈ（ｉτＯ）と関連する固定の重みを表わすものとし、
そして、βＤＳをＯくβＤＳ　＜　１であるような固定
の重みを衣わすものとする４゜すると、検出統計値Ｔ（
ｉτ０）は以下のように計算できる。

Ｔ（ｉτＯ）−βＤＳＴ［（ｉ−１）τ０〕十σＬｄＬ
（ｌτＯ）＋σＨｄ）（（ｉτ０）・・・・（１）検出
統計値Ｔ（ｉτ０）は個々のサブバンドから取られた音
声情報の低域ろ波総和となる゛　工うに平滑化される。

重みβＤＳは情報の必要な平滑化を制御する特定の時定
数にＴ（ｉτＯ）を与えるように選択される。１６ミリ
秒の時定数が過当でおることが知られている。

定数σＬ及びσＨは各々のサブバンドに与えられる相対
恵みを決定する。σＨをσＬの値の約１．５から２５倍
の値にセットするのが特に有利であることが知られてい
る。これは高域サブバンド内の弁別を強調するが、これ
は摩擦音及び他の子音の検出に対する詳細な情報を含む
。特定のアプリケーションに対するこれら定数の値は当
業者にとって、実験室での試験によって容易に決定でき
る。

第３図は音声存在エネルギーいき値λＯＮ及び音声不在
エネルギーいき値λＯＦＦを計算する方法を示す。この
方法はＡＤＰＣＭ音声検出に使用される方法と非常に類
似しており、下側サブバンドのみからのログステップサ
イズｄＬ（ｉτＯ）を使用する。Ｍ　（ｉτＯ）は値σ
ＭｄＬ（ｉσＯ）の最大であり、０Ｍは一定の重みであ
る。従って、０Ｍ　ｄＬ　（ｉ　ｒｏ）が増加すると、
Ｍ（ｌτＯ）はσＭｄＬ（ｉτＯ）が減少すると増加し
、Ｍ（ｉτＯ）はリーク係数βＭに従って非常に緩やか
に減少する。Ｍ　（ｉτ０）はその下限（ＭＯ）以下に
減少するのを抑止されるため、Ｍ（ｌτＯ）は下側サブ
バンド内の最大音声エネルギーを測定する。

変数ｄ′は以下のように定義できる。

ｄ’Ｌ（ｉτＱ）−ｄＬ（ｉτＯ）　＋３２・・・・・
（２）この３２のバイアスはｄ’Ｌ及びＭが常に正であ
ることを確保するために使用される。時間ｉτＯにおけ
るＭの値は次式によって表わすことができる。

Ｍ（ｉ　ｒｏ）＝ｍａｘ　（βＭＭ（ｉ−ｉ　）　ｒｏ
ａＭａ’　Ｌ（ｌτＯ）、ＭＯ）・・・・・（３）このいき埴はＭ以下の冗距離であり、音声がＯＦＦから
ＯＮに変化する時期を検出するのに使用される、いき値
λＯＮは、以下のように計算することができる。

λ０Ｎ（ｉτＯ）−Ｍ（ｉτ０）−ＣＯＮ　　・・・・
（４）音声がＯＮからＯＦＦに変化する時期を検出する
のに使用される、いき値λＯＦＦは、以下によって衣わ
される。

λＯＦＦ　（ｉτＯ）−Ｍ（ｉτＯ）　−ＣＯＦＦ・・
・・　（５）ＣＯＮ及びＣＯＦＦの値はＣＯＦＦ　＞　
ＣＯＮ　である定数である。

第４図はいかにして比較が行なわれるかを示す。音声サ
ンプルはある適当な長さのブロックに分割される。（こ
の場合、ブロック当たり２４のサンプルが使用される。

）ブロック当たり１度、音声がＯＮであるかＯＦＦであ
るかの判定が行なわれる。前のブロックで、音声がＯＮ
であったときは、ＯＮのいき値が使用され、ＯＦＦであ
ったときは、ＯＦＦのいき値が使用される。第４図のス
イッチは、−正しいいき値を選択するが、これが検出統
計値と比較される。音声標識が検出統計値がいき値より
上か下かによってＯＮあるいはＯＦＦにセットされる。

τＤＳを１ブロツクと関連する時間間隔を表わすものと
する。（この場合、τＤＳ＝２４τＯとなる）。Ｓが２
つの可能な値の音声状態を表わすものとすると、Ｓは以
下のように表わされる。

時間ｔ＝ｉτＤＳの時の音声状態Ｓ（ｉτＤＳ）は以下
のように音声状態Ｓ［：（ｉ−１）τＤｓ〕に依存する
。５Ｃ（ｉ−１）τＤＳ、）＝１の場合は、以下のよう
に表わされる。

・・・・（７）ｓｃ（ｉ−１）ｒＤｓｌ］＝１の場合は、以下のように
表わされる。

・・・（８）システム１０はサブバンド符号化の分野に通常の知識を
持つ者であれは、２個あるいはその以上のデジタル信号
プロセッサ　マイクロコンピュータを適当に構成するこ
とによって実現することができる。このようなマイクロ
コンピュータは現在使用されており、単一のＶＬＳ　Ｉ
回路内にメモリ装置、演算装置、制御装置、入／出力装
置、及びマシーン言語記憶装置を含む。別の方法として
、これら機能は相互接続された数個の異なるＶＬＳＩ回
路の組合せによって提供することもできる。

システム１０を実現するのに適当な１つのマイクロコン
ピュータとして、合衆国、ニューヨーク州の会社である
エイティ　アント　ティ　テクノロジー社（ＡＴ＆Ｔ　
Ｔｅｃｈｎｏｌｏｇｉｅｓ　。

Ｉｎｃ　）によって製造され、例えば、前述のヘルシス
テム　テクニカル　ジャーナル（ＢｅｌｌＳｙｓｔｅｍ
　Ｔｅｃｈｎｉｃａｌ　Ｊｏｕｒｎａｌ　）に説明のＤ
ＳＰ（デジタル信号プロセッサ）を挙げることができる
。

２個のＤＳＰによって実現されるシステムの一例におい
ては、１つのＤＳＰが音声の符号化及び伝送に使用され
、もう１つのＤＳＰが音声の受信及び復号に使用される
。外部論理が個々のＤＳＰのＰＣＭ（パルス符号変調）
ビット流を音声の入力及び出力のためにアナログ−デジ
タル変換器及びデジタル−アナログ変換器の両方にイン
タフェースするのに使用される。ＤＳＰマイクロコンピ
ュータは音声信号の音声存在不在の検出を遂行し、不在
期間がユーザ供給データを伝送するのに使用゛できるよ
うにする。

ＤＳＰマイクロコンピュータは２ミリ秒ごとに音声状態
を−べる。送信ＤＳＰは外部回路に対し音声状態の状態
を提供し、伝送のための１１２ビツト　フレームを生成
する。このフレームは３ビツトのフレーム指示パターン
、１ビツトの音声標識、及びサブバンド符号化音声の２
４サンプルから成る。この音声は１２　Ｋｈｚの速度の
所でサンプルされ、低域ハンド内の５ヒツト精度及び高
域ハンド内の４ビット精度にて符号化される。ＤＳＰが
音声標識がＯＮであることを示すと、外部回線インタフ
ェース回路はＤＳＰ生成フレームを無変換のま捷で送信
する。音声標識がＯＦＦのときは、音声の２４のサンプ
ルがユーザ供紹データの１０８ビツトにて交換される。

構築の後、フレームが５６　Ｋｂｐｓ　（キロビット／
秒）デジタル　チャネルを通じて復号するために別の端
末に送られる。

受信機内においては、ＤＳＰファームウェアと外部回線
インタフェース回路との組合せによって単一フレーム指
示アルゴリスムが実現される。フレーム指示アルゴリス
ムは３ビツト　フレーム指示パターンの方位を検出する
ために入り５６　Ｋｂｐｓ信号を検索する。受信ＤＳＰ
が自体をフレーム指示パターンと同期させると、これは
音声状態標識を読出す。音声状態標識が存在する場合は
、ＤＳＰはりスニングのために入り音声信号の復号を開
始するが、標識が不在の場合は、ＤＳＰは外部回路にテ
ークを除去し、これをユーザ　インタフェースに送信す
るよう指令する。このパターンは、正当フレーム指示パ
ターンが検出される限り、毎２ミリ秒毎に反復される。

上述の直角位相は音声検出器によって必要とされる量を
決定する一般概念を記述する。

有限ヒツト長であること、及びＤＳＰ内のタイミングの
問題から、これら直角位相の幾つかは、好捷しくは、多
少の修正を行なう。例えば、システム１０は、２４−サ
ンプル　フレームに基づくため、２４サンプルごとく音
声が存在するか否かの判定が行なわれる。この音声検出
統計値はこのフレームワーク内でＤＳＰによって以下の
ように計算される。

Ｔ（ｉτ１）Ｓ）−βＤ８’ｒ［（＋−１）τＤＳ”＋
σＨｄ’Ｈ［ｊτｏ＋（ｉ−１）τＤＳ）、ｊ＝１．２
’＝・・・・　（９）このためＴ（ｉτＤＳ）は各サンプル期間毎にこれにσ
Ｌｄ’Ｌ＋σＨｄ’を加えることによって更新され、こ
れは２４サンプルのフロック当た１１７１ｉリークされ
る。最大レベルＭの値もＤＳＰの正確な結果が得られる
ように少し異って計算される。τＭＡＸ　ｆ　Ｍがリー
クされる２つの連続ポイント間の時間間隔を表わすもの
とすると、経験的上から、τＭＡＸ−８秒が適当である
ことが知られている。ＤＳＰ内に実現可−能なＭに関す
る式は以下のように表わすことができる。

１°“°４・ＭＡＸ　’”Ｏ″′０・”−１・２パ°°
゛゛いき値は２４サンプルに一度計算することが必要で
あるのみで、これらは音声が存在するか否かを検出する
のに使用することができる。

λ０ＦＦ（’τＤ３）＝Ｍ（ｉｆＤＳ）Ｃ□ＦＦ音声状
態はセクション１１．２に説明と同様の方法にて式（６
−８）によって決定される。

本発明は２ハンド　サブバンド符号化に限定されるもの
でない。検出統計ＩＤＩＴ（ｉτＯ）及び最大レベルＭ
’（ｉτＯ）はより多くの数のサブバンドからの情報を
含むが、これは上述の式（１）　−（１１）と類似の公
式を使用する。５バンド−サブバンド符号の沈黙期間検
出がとの例である。ｊ−１、・・・・５に対するｄｊ（
１τＯ）を５ハンドの各々に対するログ　ステップ　サ
イズ値を表わすものとし、σＪ１Ｊ−１、・・・・・・
５を固定の重みを表わすものとし、そしてβＤＳ　　を
１より少し小さなリーク係数を表わすものとする。式（
１）と類比して、音声検出統計値を記述する一般式は以
下のように表わすことができる。

μ、Ｊ＝１％　・・・・・・５を固定の重み、βＭを１
より少し小さな固定リーク係数とすると、最大レベルに
対する一般式は以下のように衣わすことができる。

・・・・　（１３）幾つかの重み係数σＪ　あるいはμはゼロであり得る。

式（９）、−（１１）と同様、式（１２）　−（１３）
は特定のハードウェア構成、例えば、ＤＳＰマイクロプ
ロセッサを使用する構成にあうように多少の修正を行な
°うことができる。式（１２）　７　（１３）　　内の
パラメータの特定の値を選択することも必要である。上
側周波数ハンドにより大きな重みを与える検出統計値、
σ１−σ２、及びσ３−σ４−２σ１の計算には、ハン
ド５は使用されず、従って、σ５−０で−ある。最大レ
ベルの計算では、μｍ−μ２、及びμ３−μ４−μ５−
０　である。この最大レベルは低域周波数バンド内のエ
ネルギーに依存し、平滑長期平均を与える。

理論上、式（１２）及び（１３）は任意の数のハンドに
拡張できる。しかし、ハンドの数が増大すると、検出統
計値及び最大レヘルの計算と関連する時間遅延も増大す
る。従って、ネジステム内に使用できるハンド数には実
現上の限界がある。

【図面の簡単な説明】

第１図は本発明の一例に従って音声の検出を行なうため
の２ハンド　サブバンド符号器の機能上のフロック回路
図を示す。第２図は第１図の装置の音声統計値計算サブユニットを
より詳細に示す機能流れ図を示す。第３図は第１図の装置のいき値計算すブユニットをより
詳細に示す機能流れ図を示す。第４図は第１図の装置の音声検出サブユニットをより詳
細に示す機能流れ図を示す。〈主要部分の符号の説明〉サブバンド符号器　・・・・・・　１０高バンド符号器
具路・・・−・・・　２０音声検出器　　　　・・・・
・　３０ＦＴ、”；、　　＋

Claims

【特許請求の範囲】１、信号符号化装置において、個々のサブバンドの信号サンプルに対する電圧ステップサイズ値を生成するための装置を含む信号
の複数の周波数サブバンド部を符号化するための装置；一つの周波数サブバンドに対する電圧ステップサイズ値及びもう一つの周波数サブバンドに対する
電圧ステップサイズ値に基づいて音声統計値を計算する
ための装置；及び音声統計値に対して音声存在エネルギーいき値及び音声不在エネルギーいき値を比較して音声存在
出力信号を選択的に生成するための装置を含むことを特
徴とする信号符号化装置。２、特許請求の範囲第１項に記載の装置において、該音
声統計値計算装置が、各々のサブバンドのステップサイズ値に対応する音声検出係数を掛けることによつて対応する音声
検出値の積を生成するための装置；該音声検出値の積を
総和することによつて音声検出値の総和を生成するための装置、及び音声検出値の総和を平滑化するための装置を含むことを特徴とする装置。３、特許請求の範囲第２項に記載の装置において、該平滑化装置が個々の音声検出値総和に遅延値を加算して音声検出統計出力値を生成するための装
置を含み、該遅延値が検出定数と前の検出統計出力値と
の積であることを特徴とする装置。４、特許請求の範囲第３項に記載の装置において、サブバンドの１つに対する電圧ステップサイズ値に基づいて音声エネルギーいき値及び音声不在い
き値を計算するための装置が含まれることを特徴とする
装置。５、特許請求の範囲第４項に記載の装置において、該音
声統計値計算装置が、最大エネルギーレベル値から音声存在いき値及び音声不在値を生成するための装置を含み、該最大
エネルギーレベル値が第１及び第２のエネルギーレベル
の最大を選択することによつて生成され、該第１のエネ
ルギーレベルが低周波数サブバンドのステップサイズ値
の積であり、該第２のエネルギーレベルが前のサンプル
の最大エネルギーレベル値に係数を掛けた値か下限のい
ずれか大きな方であることを特徴とする装置。６、特許請求の範囲第５項に記載の装置において、制御信号に応答して該生成装置からの該音声いき値か該音声不在値のいずれかを比較器の１つの入
力に接続し、該比較器の他の入力は該音声検出統計値を
受信するように接続するためのスイッチ装置、及び該比較器の該出力と該スイッチの間に接続され該制御信号を生成するための１サンプル遅延装置を
含む帰還装置を含むことを特徴とする装置。７、信号内の音声内容の存在を検出するための方法にお
いて、該サブバンドの少なくとも２つのステップサイズ値情報から短期音声統計値を計算し、そして該音声統計値を長期音声エネルギーいき値と比較して選択的に音声存在指標信号を生成するステッ
プからなることを特徴とする方法。８、特許請求の範囲第７項に記載の方法において、さら
にサブバンドの少なくとも１つのステップサイズ情報から長期音声エネルギーいき値を計算するステ
ップが含まれることを特徴とする方法。９、特許請求の範囲第８項に記載の方法において、短期音声統計値を計算するとき上側周波数サブバンドに対して下側周波数サブバンドにより大きな
重みを与えることを特徴とする方法。