JPH10164574A - ビデオ圧縮 - Google Patents
ビデオ圧縮Info
- Publication number
- JPH10164574A JPH10164574A JP9315588A JP31558897A JPH10164574A JP H10164574 A JPH10164574 A JP H10164574A JP 9315588 A JP9315588 A JP 9315588A JP 31558897 A JP31558897 A JP 31558897A JP H10164574 A JPH10164574 A JP H10164574A
- Authority
- JP
- Japan
- Prior art keywords
- pixel
- pixels
- video
- coding
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/1883—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit relating to sub-band structure, e.g. hierarchical level, directional tree, e.g. low-high [LH], high-low [HL], high-high [HH]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/107—Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/164—Feedback from the receiver or from the transmission channel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/63—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
- H04N19/64—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by ordering of coefficients or of bits for transmission
- H04N19/647—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by ordering of coefficients or of bits for transmission using significance based coding, e.g. Embedded Zerotrees of Wavelets [EZW] or Set Partitioning in Hierarchical Trees [SPIHT]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/63—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
【課題】 ビデオ圧縮および圧縮解除を行うための、画
像の効率的な低ビットレートのエンコード方法を提供す
る。 【解決手段】 画像をローパスフィルタリングおよびハ
イパスフィルタリングにより、階層に従って区分された
サブバンドへ分解し、それに続いて、最高レベルのロー
パス画像の独立した(DPCMなどによる)コーディン
グと高バンドのゼロツリーコーディングとを併せて用い
ることにより、ビデオ圧縮および圧縮解除を行うための
画像のエンコーディングを行う。
像の効率的な低ビットレートのエンコード方法を提供す
る。 【解決手段】 画像をローパスフィルタリングおよびハ
イパスフィルタリングにより、階層に従って区分された
サブバンドへ分解し、それに続いて、最高レベルのロー
パス画像の独立した(DPCMなどによる)コーディン
グと高バンドのゼロツリーコーディングとを併せて用い
ることにより、ビデオ圧縮および圧縮解除を行うための
画像のエンコーディングを行う。
Description
【0001】
【発明の属する技術分野】本発明は、電子ビデオ方法お
よび装置に関し、特に、圧縮されたビデオを用いるディ
ジタル通信および記憶システムに関する。
よび装置に関し、特に、圧縮されたビデオを用いるディ
ジタル通信および記憶システムに関する。
【0002】
【従来の技術】ビデオ通信(テレビジョンやテレビ会議
など)は、典型的には、オーディオと共にビデオフレー
ム(ピクチャー,画像)のストリームをリアルタイムで
視聴または記憶のために送信チャネルを介して送信す
る。しかし、送信チャネルは、妨害雑音をしばしば与
え、かつ、制限された帯域幅を有する。従って、圧縮を
行うディジタルビデオ送信が広く用いられている。特
に、ディジタルビデオの圧縮のためにはさまざまな規格
が現れ、それらには、H.261,MPEG−1および
MPEG−2が含まれ、発展中のH.263およびMP
EG−4を含むもっと多くのものが続こうとしている。
同様のオーディオ圧縮方法がある。
など)は、典型的には、オーディオと共にビデオフレー
ム(ピクチャー,画像)のストリームをリアルタイムで
視聴または記憶のために送信チャネルを介して送信す
る。しかし、送信チャネルは、妨害雑音をしばしば与
え、かつ、制限された帯域幅を有する。従って、圧縮を
行うディジタルビデオ送信が広く用いられている。特
に、ディジタルビデオの圧縮のためにはさまざまな規格
が現れ、それらには、H.261,MPEG−1および
MPEG−2が含まれ、発展中のH.263およびMP
EG−4を含むもっと多くのものが続こうとしている。
同様のオーディオ圧縮方法がある。
【0003】テカルプ(Tekalp)著,「ディジタ
ルビデオ処理(Digital Video Proc
essing)」,(プレンティス・ホール(Pren
tice Hall)1995年),クラーク(cla
rke)著,「静止画およびビデオのディジタル圧
縮」,(アカデミック プレス1995年)およびシェ
イファ(Schafer)ら著,「ディジタルビデオコ
ーディング規格およびビデオ通信におけるそれらの役割
(Digital Video Coding Sta
ndards and Their Role in
Video Communications)」,83
Proc. IEEE 907(1995年)には、
H.261,MPEG−1およびMPEG−2規格と
H.263勧告およびMPEG−4の所望の機能性の表
示との記述が含まれている。これらの参考文献および引
用されている全ての他の参考文献は、ここで参照してそ
の内容を本願に取り込むこととする。
ルビデオ処理(Digital Video Proc
essing)」,(プレンティス・ホール(Pren
tice Hall)1995年),クラーク(cla
rke)著,「静止画およびビデオのディジタル圧
縮」,(アカデミック プレス1995年)およびシェ
イファ(Schafer)ら著,「ディジタルビデオコ
ーディング規格およびビデオ通信におけるそれらの役割
(Digital Video Coding Sta
ndards and Their Role in
Video Communications)」,83
Proc. IEEE 907(1995年)には、
H.261,MPEG−1およびMPEG−2規格と
H.263勧告およびMPEG−4の所望の機能性の表
示との記述が含まれている。これらの参考文献および引
用されている全ての他の参考文献は、ここで参照してそ
の内容を本願に取り込むこととする。
【0004】H.261圧縮は、時間的冗長性を低減す
るためにフレーム間予測を用い、また、空間的冗長性を
低減するために高い空間的周波数のカットオフと共にブ
ロックレベルにおける離散的コサイン変換(DCT)を
用いる。H.261は、64Kbps(キロビット毎
秒)乃至2Mbps(メガビット毎秒)の倍数の伝送速
度用として勧告されている。
るためにフレーム間予測を用い、また、空間的冗長性を
低減するために高い空間的周波数のカットオフと共にブ
ロックレベルにおける離散的コサイン変換(DCT)を
用いる。H.261は、64Kbps(キロビット毎
秒)乃至2Mbps(メガビット毎秒)の倍数の伝送速
度用として勧告されている。
【0005】H.263の勧告はH.261に類似して
いるが、約22Kbps(撚り対電話線とコンパチブ
ル)のビットレートのためのものであり、多くの計算と
16×16マクロブロックおよび8×8ブロックによる
動き補償間の適応性スイッチングとを負担することによ
り、高密度の動きフィールド(動きベクトルの集合)を
得るための半ピクセル精度での動き予測(これはH.2
61において利用されるループフィルタリングを不必要
にする)およびオーバラップ動き補償を行う。
いるが、約22Kbps(撚り対電話線とコンパチブ
ル)のビットレートのためのものであり、多くの計算と
16×16マクロブロックおよび8×8ブロックによる
動き補償間の適応性スイッチングとを負担することによ
り、高密度の動きフィールド(動きベクトルの集合)を
得るための半ピクセル精度での動き予測(これはH.2
61において利用されるループフィルタリングを不必要
にする)およびオーバラップ動き補償を行う。
【0006】MPEG−1およびMPEG−2はまた、
時間的予測を用い、それに続いてH.261のようにブ
ロックレベルにおける2次元DCT変換を行うが、それ
らはさらに、動き補償予測と補間とフレーム間コーディ
ングとのさまざまな組合せをさらに用いる。MPEG−
1は、ビデオCDを目標としており、約360ピクセル
×240ラインのフレームおよび24乃至30フレーム
毎秒に対して約1乃至1.5Mbpsレートにおいて良
好に動作する。MPEG−1は、I,PおよびBフレー
ムを定めており、Iフレームはイントラフレームであ
り、Pフレームは前のIまたはPフレームからの動き補
償予測を用いてコーディングされたものであり、Bフレ
ームは隣接するIおよびPフレームからの動き補償双方
向予測/補間を用いたものである。
時間的予測を用い、それに続いてH.261のようにブ
ロックレベルにおける2次元DCT変換を行うが、それ
らはさらに、動き補償予測と補間とフレーム間コーディ
ングとのさまざまな組合せをさらに用いる。MPEG−
1は、ビデオCDを目標としており、約360ピクセル
×240ラインのフレームおよび24乃至30フレーム
毎秒に対して約1乃至1.5Mbpsレートにおいて良
好に動作する。MPEG−1は、I,PおよびBフレー
ムを定めており、Iフレームはイントラフレームであ
り、Pフレームは前のIまたはPフレームからの動き補
償予測を用いてコーディングされたものであり、Bフレ
ームは隣接するIおよびPフレームからの動き補償双方
向予測/補間を用いたものである。
【0007】MPEG−2はディジタルテレビジョン
(720ピクセル×480ライン)を目標としており、
I,PおよびBフレームと追加されたスケーラビリティ
とによるMPEG−1形動き補償を行い、約10Mbp
sに達するビットレートを用いる(低解像度の画像を送
信するためには低ビットレートが抽出され得る)。
(720ピクセル×480ライン)を目標としており、
I,PおよびBフレームと追加されたスケーラビリティ
とによるMPEG−1形動き補償を行い、約10Mbp
sに達するビットレートを用いる(低解像度の画像を送
信するためには低ビットレートが抽出され得る)。
【0008】しかし、上述のMPEGの圧縮方法は、極
めて低いビットレートにおいて動作する時には、ブロッ
ク性および不自然な対象の運動のような、いくつかの受
け入れえないアーティファクトを生じる。これらの技術
は、ブロックレベルにおける信号の統計的依存性のみを
用い、ビデオストリームの意味内容を考慮しないので、
極めて低いビットレート(高量子化因子)のもとではブ
ロック境界にアーティファクトが導入される。通常は、
これらのブロック境界は運動対象の物理的境界に対応し
ていないので、視覚的に邪魔なアーティファクトを生じ
る。制限された帯域幅がフレームレートを強制的に滑ら
かな運動に必要なフレームレートより低く抑える時に
は、不自然な動きが発生する。
めて低いビットレートにおいて動作する時には、ブロッ
ク性および不自然な対象の運動のような、いくつかの受
け入れえないアーティファクトを生じる。これらの技術
は、ブロックレベルにおける信号の統計的依存性のみを
用い、ビデオストリームの意味内容を考慮しないので、
極めて低いビットレート(高量子化因子)のもとではブ
ロック境界にアーティファクトが導入される。通常は、
これらのブロック境界は運動対象の物理的境界に対応し
ていないので、視覚的に邪魔なアーティファクトを生じ
る。制限された帯域幅がフレームレートを強制的に滑ら
かな運動に必要なフレームレートより低く抑える時に
は、不自然な動きが発生する。
【0009】MPEG−4は、10Kbps乃至1Mb
psの送信ビットレートを適用し、スケーラビリティ,
内容に基づく操作,エラー傾向のある環境における堅牢
性,マルチメディアデータアクセスツール,改善された
コーディング効率,グラフィックスおよびビデオの双方
をエンコードする能力および改善されたランダムアクセ
スなどの機能性による、内容に基づくコーディングアプ
ローチを用いる。ビデオコーディングスキームは、もし
コーディングされる同時的な対象の数および/または品
質を変化させ得れば、内容スケーラブルであると考えら
れる。対象スケーラビリティは、コーディングされる同
時的な対象の数の制御に関し、品質スケーラビリティ
は、コーディングされる対象の空間的および/または時
間的解像度の制御に関する。スケーラビリティは、制限
された帯域幅の送信チャネルと帯域幅が動的であるチャ
ネルとを介して動作するビデオコーディング方法の重要
な特徴である。例えば、内容スケーラブルビデオコーダ
は、シーン内の重要な対象のみを高品質でエンコードし
て送信することにより、制限された帯域幅によるパフォ
ーマンスを最適化する能力を有する。それは次に、残余
の対象を省略するかまたは著しく低い品質でコーディン
グするかを選択し得る。チャネルの帯域幅が増加する
と、コーダは追加のビットを送信して、劣ったコーディ
ングを行った対象の品質を改善し、あるいは失われた対
象を再生することができる。
psの送信ビットレートを適用し、スケーラビリティ,
内容に基づく操作,エラー傾向のある環境における堅牢
性,マルチメディアデータアクセスツール,改善された
コーディング効率,グラフィックスおよびビデオの双方
をエンコードする能力および改善されたランダムアクセ
スなどの機能性による、内容に基づくコーディングアプ
ローチを用いる。ビデオコーディングスキームは、もし
コーディングされる同時的な対象の数および/または品
質を変化させ得れば、内容スケーラブルであると考えら
れる。対象スケーラビリティは、コーディングされる同
時的な対象の数の制御に関し、品質スケーラビリティ
は、コーディングされる対象の空間的および/または時
間的解像度の制御に関する。スケーラビリティは、制限
された帯域幅の送信チャネルと帯域幅が動的であるチャ
ネルとを介して動作するビデオコーディング方法の重要
な特徴である。例えば、内容スケーラブルビデオコーダ
は、シーン内の重要な対象のみを高品質でエンコードし
て送信することにより、制限された帯域幅によるパフォ
ーマンスを最適化する能力を有する。それは次に、残余
の対象を省略するかまたは著しく低い品質でコーディン
グするかを選択し得る。チャネルの帯域幅が増加する
と、コーダは追加のビットを送信して、劣ったコーディ
ングを行った対象の品質を改善し、あるいは失われた対
象を再生することができる。
【0010】Iフレームのコーディングに関しては、シ
ャピロ(Shapiro)著,「ウェーブレット係数の
ゼロツリーを用いた埋込み形画像コーディング(Emb
edded Image Coding Using
Zerotrees ofWavelet Coeff
icients)」,41 IEEE Tr.Sig.
Proc 3445(1993年)が、異なるスケール
におけるウェーブレット係数をグループ化し、かつスケ
ールと交差するゼロを予測する、ウェーブレット階層サ
ブバンドへの分解を記載している。これは、低ビットレ
ートのビットストリームが高ビットレートのビットスト
リーム内に埋込まれているという意味で、完全に埋込ま
れたビットストリームを与える。
ャピロ(Shapiro)著,「ウェーブレット係数の
ゼロツリーを用いた埋込み形画像コーディング(Emb
edded Image Coding Using
Zerotrees ofWavelet Coeff
icients)」,41 IEEE Tr.Sig.
Proc 3445(1993年)が、異なるスケール
におけるウェーブレット係数をグループ化し、かつスケ
ールと交差するゼロを予測する、ウェーブレット階層サ
ブバンドへの分解を記載している。これは、低ビットレ
ートのビットストリームが高ビットレートのビットスト
リーム内に埋込まれているという意味で、完全に埋込ま
れたビットストリームを与える。
【0011】ビラセナー(Villasenor)ら
著,「画像圧縮のためのウェーブレットフィルタ評価
(Wavelet Filter Evaluatio
n for Image Compressio
n)」,4 IEEE Tr.Image Proc.
1053(1995年)は、さまざまなマザーウェーブ
レットを用いるウェーブレットサブバンドへの分解を論
じている。しかし、低ビットレートにおけるもっと効率
的なコーディングが、問題として残る。
著,「画像圧縮のためのウェーブレットフィルタ評価
(Wavelet Filter Evaluatio
n for Image Compressio
n)」,4 IEEE Tr.Image Proc.
1053(1995年)は、さまざまなマザーウェーブ
レットを用いるウェーブレットサブバンドへの分解を論
じている。しかし、低ビットレートにおけるもっと効率
的なコーディングが、問題として残る。
【0012】H.261,MPEG−1およびMPEG
−2の圧縮および圧縮解除(伸長)のハードウェアおよ
びソフトウェア・インプリメンテーションは存在する。
さらに、適切なソフトウェアを実行する、ウルトラスパ
ーク(Ultrasparc)またはTMS320C8
0のようなプログラム可能なマイクロプロセッサまたは
ディジタル信号プロセッサは、大抵の圧縮および圧縮解
除を扱うことができ、また、能力の低いプロセッサは低
ビットレートの圧縮および圧縮解除を扱い得る。
−2の圧縮および圧縮解除(伸長)のハードウェアおよ
びソフトウェア・インプリメンテーションは存在する。
さらに、適切なソフトウェアを実行する、ウルトラスパ
ーク(Ultrasparc)またはTMS320C8
0のようなプログラム可能なマイクロプロセッサまたは
ディジタル信号プロセッサは、大抵の圧縮および圧縮解
除を扱うことができ、また、能力の低いプロセッサは低
ビットレートの圧縮および圧縮解除を扱い得る。
【0013】
【発明が解決しようとする課題】本発明は、ビデオ圧縮
および圧縮解除を行うための効率的な低ビットレートの
ビデオコーディングを提供することを目的とする。
および圧縮解除を行うための効率的な低ビットレートの
ビデオコーディングを提供することを目的とする。
【0014】
【課題を解決するための手段】本発明は、サブバンドの
最初の区間を階層に従ってベースバンドと3組の高バン
ドとに区分してゼロツリーを用いる、(ウェーブレット
を含む)階層サブバンドのコーディングによるビデオ圧
縮および圧縮解除を提供する:最初ベースバンドを独立
して(DPCMによるなどして)コーディングし、次に
高バンドの組のそれぞれをそれ自身の初期スレショルド
によりゼロツリーコーディングする。
最初の区間を階層に従ってベースバンドと3組の高バン
ドとに区分してゼロツリーを用いる、(ウェーブレット
を含む)階層サブバンドのコーディングによるビデオ圧
縮および圧縮解除を提供する:最初ベースバンドを独立
して(DPCMによるなどして)コーディングし、次に
高バンドの組のそれぞれをそれ自身の初期スレショルド
によりゼロツリーコーディングする。
【0015】本発明はまた、このコーディングに関する
アプリケーションを有する、ランダムアクセスメモリ内
への記憶を伴うビデオ電話およびセキュリティのための
低速度撮影監視を含む固定カメラ監視のようなビデオシ
ステムをも提供する。
アプリケーションを有する、ランダムアクセスメモリ内
への記憶を伴うビデオ電話およびセキュリティのための
低速度撮影監視を含む固定カメラ監視のようなビデオシ
ステムをも提供する。
【0016】利点には、完全に埋込まれた特徴を保持し
つつ、埋込み形ゼロツリーウェーブレットコーディング
よりも効率的である、低ビットレートのビデオコーディ
ングを実現していることが含まれる。これにより、低ビ
ットレートのテレビ会議および監視情報記憶が可能にな
る。
つつ、埋込み形ゼロツリーウェーブレットコーディング
よりも効率的である、低ビットレートのビデオコーディ
ングを実現していることが含まれる。これにより、低ビ
ットレートのテレビ会議および監視情報記憶が可能にな
る。
【0017】
【発明の実施の形態】実施例の単一フレームゼロツリーコーディング 図面は、わかりやすくするために概略的なものとしてあ
る。図1は、第1の実施例のフレームエンコーディング
のフローダイヤグラムであり、このフレームエンコーデ
ィングは、ベースバンドにおけるPCMおよび高バンド
におけるゼロツリーと共にウェーブレット階層分解を用
いる。このフローダイヤグラムを、簡単にするため例を
用いて説明する。すなわち、8ビットピクセル(−12
8乃至+127)の144×176フレームを仮定し、
ウェーブレット階層分解においては4つのスケールレベ
ルを仮定する。(j,k)にあるピクセルの値はx
(j,k)で表される。ただし、0≦j≦143および
0≦k≦175である。
る。図1は、第1の実施例のフレームエンコーディング
のフローダイヤグラムであり、このフレームエンコーデ
ィングは、ベースバンドにおけるPCMおよび高バンド
におけるゼロツリーと共にウェーブレット階層分解を用
いる。このフローダイヤグラムを、簡単にするため例を
用いて説明する。すなわち、8ビットピクセル(−12
8乃至+127)の144×176フレームを仮定し、
ウェーブレット階層分解においては4つのスケールレベ
ルを仮定する。(j,k)にあるピクセルの値はx
(j,k)で表される。ただし、0≦j≦143および
0≦k≦175である。
【0018】分解を開始するには、まず144×176
フレームを4つのフィルタh0 (j)h0 (k ),h0
(j)h1 (k ),h1 (j)h0 (k )およびh
1 (j)h1 (k )のそれぞれによりフィルタし、14
4×176のフィルタされたフレームを与える(境界ピ
クセルの値は計算用のフレームを拡大するのに用いら
れ、それはそうでない場合でもフレームを越えて拡大し
得る)。計算上簡単なh0 (k )関数は、k=0,1に
おいて1/√2に等しく、全ての他のkに対して0とな
る。h1 (k )は、k=0において1/√2に等しく、
k=1において−1/√2に、k=2,3において1/
8√2に、k=−1,−2において−1/8√2に等し
く、また全ての他のkに対して0となる。従来の技術の
項において引用したビラセナーの文献は、他のフィルタ
関数をリストしている。フィルタリングは、数学的には
これらの関数による畳込みであり、それゆえ、h0 は1
次元のローパスフィルタ(2つの隣接ピクセルにおける
平均)であり、h1 は1次元のハイパスフィルタ(本質
的には隣接ピクセルの差)である。従って、これら4つ
のフィルタはそれぞれ、2次元のローパス−ローパス,
ローパス−ハイパス,ハイパス−ローパス,およびハイ
パス−ハイパスである。
フレームを4つのフィルタh0 (j)h0 (k ),h0
(j)h1 (k ),h1 (j)h0 (k )およびh
1 (j)h1 (k )のそれぞれによりフィルタし、14
4×176のフィルタされたフレームを与える(境界ピ
クセルの値は計算用のフレームを拡大するのに用いら
れ、それはそうでない場合でもフレームを越えて拡大し
得る)。計算上簡単なh0 (k )関数は、k=0,1に
おいて1/√2に等しく、全ての他のkに対して0とな
る。h1 (k )は、k=0において1/√2に等しく、
k=1において−1/√2に、k=2,3において1/
8√2に、k=−1,−2において−1/8√2に等し
く、また全ての他のkに対して0となる。従来の技術の
項において引用したビラセナーの文献は、他のフィルタ
関数をリストしている。フィルタリングは、数学的には
これらの関数による畳込みであり、それゆえ、h0 は1
次元のローパスフィルタ(2つの隣接ピクセルにおける
平均)であり、h1 は1次元のハイパスフィルタ(本質
的には隣接ピクセルの差)である。従って、これら4つ
のフィルタはそれぞれ、2次元のローパス−ローパス,
ローパス−ハイパス,ハイパス−ローパス,およびハイ
パス−ハイパスである。
【0019】次に、jおよびkの双方が偶数である
(j,k)におけるピクセルのみを保持することによ
り、因子“4”によりそれぞれのフィルタされたフレー
ムをサブサンプリングする。このサブサンプリングは4
つの72×88ピクセル画像を生じ、それらはLL1,
LH1,HL1およびHH1でそれぞれ表され、それら
のピクセル位置(j,k)は0≦j≦71および0≦k
≦87に対するものとして再表示される。これは分解の
第1レベルをなし、これら4つの画像はいっしょに配置
されると単一の144×176画像を形成することがで
き、この画像は、図2(a)に示されているように分解
を簡単に視覚化したものを与える。このようにして、L
L1は、原フレームの低解像度バージョンであり、原フ
レームの圧縮バージョンとして用いられ得る。
(j,k)におけるピクセルのみを保持することによ
り、因子“4”によりそれぞれのフィルタされたフレー
ムをサブサンプリングする。このサブサンプリングは4
つの72×88ピクセル画像を生じ、それらはLL1,
LH1,HL1およびHH1でそれぞれ表され、それら
のピクセル位置(j,k)は0≦j≦71および0≦k
≦87に対するものとして再表示される。これは分解の
第1レベルをなし、これら4つの画像はいっしょに配置
されると単一の144×176画像を形成することがで
き、この画像は、図2(a)に示されているように分解
を簡単に視覚化したものを与える。このようにして、L
L1は、原フレームの低解像度バージョンであり、原フ
レームの圧縮バージョンとして用いられ得る。
【0020】LL1,LH1,HL1およびHH1の画
像は、まずそれぞれの画像を因子“4”により補間して
(144×176サイズを再生し)、次に4つの144
×176画像を、フィルタg0 (j)g0 (k ),g0
(j)g1 (k ),g1 (j)g0 (k )およびg
1 (j)g1 (k )によりそれぞれフィルタし、最後に
これら4つのフィルタされた画像をピクセル毎に互いに
加算することにより、原フレームを再構成するために用
いられ得る。関数g0 ,g1 はそれぞれ、ローパスフィ
ルタおよびハイパスフィルタであり、h0 およびh1 と
g0 (n)=(−1)n h1 (n)およびg1 (n)=
(−1)n h0 (n)の関係にある。h0 ,h1 ,g0
およびg1 の関数は、奇数タップフィルタの場合におけ
るように0の回りではなく、1/2の回りに対称であ
り、それゆえ、再構成の後には、ピクセルインデックス
は2回のフィルタリングにおける1/2ピクセルシフト
のための調節として“1”だけシフトされる。
像は、まずそれぞれの画像を因子“4”により補間して
(144×176サイズを再生し)、次に4つの144
×176画像を、フィルタg0 (j)g0 (k ),g0
(j)g1 (k ),g1 (j)g0 (k )およびg
1 (j)g1 (k )によりそれぞれフィルタし、最後に
これら4つのフィルタされた画像をピクセル毎に互いに
加算することにより、原フレームを再構成するために用
いられ得る。関数g0 ,g1 はそれぞれ、ローパスフィ
ルタおよびハイパスフィルタであり、h0 およびh1 と
g0 (n)=(−1)n h1 (n)およびg1 (n)=
(−1)n h0 (n)の関係にある。h0 ,h1 ,g0
およびg1 の関数は、奇数タップフィルタの場合におけ
るように0の回りではなく、1/2の回りに対称であ
り、それゆえ、再構成の後には、ピクセルインデックス
は2回のフィルタリングにおける1/2ピクセルシフト
のための調節として“1”だけシフトされる。
【0021】分解の第2レベルは、h0 およびh1 関数
による4種のフィルタリングおよび因子“4”によるサ
ブサンプリングを単に繰返すのであるが、入力としては
LL1画像を用いる。このようにして、4つのフィルタ
された画像はそれぞれ36×44となり、LL2,LH
2,HL2およびHH2により表される。前と同様に、
LL2,LH2,HL2およびHH2は、LL1の分解
を視覚化するように配置することができ、また、g0 お
よびg1 に基づくフィルタによるLL1の再構成のため
に用いることができる。LH1,HL1およびHH1の
画像は、フィルタされないまま残される。
による4種のフィルタリングおよび因子“4”によるサ
ブサンプリングを単に繰返すのであるが、入力としては
LL1画像を用いる。このようにして、4つのフィルタ
された画像はそれぞれ36×44となり、LL2,LH
2,HL2およびHH2により表される。前と同様に、
LL2,LH2,HL2およびHH2は、LL1の分解
を視覚化するように配置することができ、また、g0 お
よびg1 に基づくフィルタによるLL1の再構成のため
に用いることができる。LH1,HL1およびHH1の
画像は、フィルタされないまま残される。
【0022】この分解はLL2に対しても繰返され、そ
れはh0 およびh1 に基づく4つのフィルタによるフィ
ルタリングとそれに続くサブサンプリングとにより行わ
れて、18×22ピクセル画像であるLL3,LH3,
HL3およびHH3が得られる。再び、LL3,LH
3,HL3およびHH3は、LL2の分解を視覚化する
ように配置され得る。
れはh0 およびh1 に基づく4つのフィルタによるフィ
ルタリングとそれに続くサブサンプリングとにより行わ
れて、18×22ピクセル画像であるLL3,LH3,
HL3およびHH3が得られる。再び、LL3,LH
3,HL3およびHH3は、LL2の分解を視覚化する
ように配置され得る。
【0023】原フレームの4レベルの階層分解は、LL
3のh0 およびh1 に基づく4つのフィルタによる最後
のフィルタリングとそれに続くサブサンプリングとによ
り完成され、9×11ピクセル画像であるLL4,LH
4,HL4およびHH4が得られる。図2(c)は、全
体として144×176ピクセルレイアウトを形成する
ように配列された、全ての得られた画像を示している。
図2(c)はまた、分解のさまざまなレベルにおけるピ
クセルのツリー関係を表示している。実際、LH4内の
ピクセルy(j,k)は、LL3内のピクセルx(j,
k)のフィルタリングおよびサブサンプリングの結果で
あり、次の関係がある。
3のh0 およびh1 に基づく4つのフィルタによる最後
のフィルタリングとそれに続くサブサンプリングとによ
り完成され、9×11ピクセル画像であるLL4,LH
4,HL4およびHH4が得られる。図2(c)は、全
体として144×176ピクセルレイアウトを形成する
ように配列された、全ての得られた画像を示している。
図2(c)はまた、分解のさまざまなレベルにおけるピ
クセルのツリー関係を表示している。実際、LH4内の
ピクセルy(j,k)は、LL3内のピクセルx(j,
k)のフィルタリングおよびサブサンプリングの結果で
あり、次の関係がある。
【0024】
【数1】
【0025】フィルタリングとサブサンプリングとを併
せたものは基本的にはLL3内の2×2領域からy
(j,k)を計算することであり(k=0,1以外では
h1 (k)の値は小さい)、LL3内には、LH4内の
y(j,k)を決定する4つのピクセル(x(2j−
1,2k−1),x(2j−1,2k),x(2j,2
k−1)およびx(2j,2k))がある。ここでは、
LL3内のこれら4つのピクセルは、LH3内の同じ位
置((2j−1,2k−1),(2j−1,2k),
(2j,2k−1)および(2j,2k))の4つのピ
クセルに関係している。そのわけは、それらは全てLL
2内の本質的に同じ16位置から計算されているからで
ある。従って、LH4内のピクセルy(j,k)は、L
H3内の関連するピクセルz(2j−1,2k−1),
z(2j−1,2k),z(2j,2k−1)およびz
(2j,2k)の親と呼ばれ、LH3内のこれら4つの
ピクセルのそれぞれは、LH4内の親ピクセルの子であ
る。
せたものは基本的にはLL3内の2×2領域からy
(j,k)を計算することであり(k=0,1以外では
h1 (k)の値は小さい)、LL3内には、LH4内の
y(j,k)を決定する4つのピクセル(x(2j−
1,2k−1),x(2j−1,2k),x(2j,2
k−1)およびx(2j,2k))がある。ここでは、
LL3内のこれら4つのピクセルは、LH3内の同じ位
置((2j−1,2k−1),(2j−1,2k),
(2j,2k−1)および(2j,2k))の4つのピ
クセルに関係している。そのわけは、それらは全てLL
2内の本質的に同じ16位置から計算されているからで
ある。従って、LH4内のピクセルy(j,k)は、L
H3内の関連するピクセルz(2j−1,2k−1),
z(2j−1,2k),z(2j,2k−1)およびz
(2j,2k)の親と呼ばれ、LH3内のこれら4つの
ピクセルのそれぞれは、LH4内の親ピクセルの子であ
る。
【0026】原フレームをLL4,LH4,...,H
H1へ分解した後、まず9×11のLL4をPCM(パ
ルス符号変調)によりエンコードし、これはちょうど9
9個のピクセル値のそれぞれを量子化して、空間的相関
を無視することにあたる。基本的には、LL4内のそれ
ぞれのピクセルは、原フレーム内の対応する16×16
マクロブロックの直流成分(平均)であり、従って、そ
れは原フレームの低解像度バージョンである。LL4の
このエンコーディングは、それぞれのピクセルをエンコ
ードするためにNビットが用いられるとすると、99N
ビットを用いる。
H1へ分解した後、まず9×11のLL4をPCM(パ
ルス符号変調)によりエンコードし、これはちょうど9
9個のピクセル値のそれぞれを量子化して、空間的相関
を無視することにあたる。基本的には、LL4内のそれ
ぞれのピクセルは、原フレーム内の対応する16×16
マクロブロックの直流成分(平均)であり、従って、そ
れは原フレームの低解像度バージョンである。LL4の
このエンコーディングは、それぞれのピクセルをエンコ
ードするためにNビットが用いられるとすると、99N
ビットを用いる。
【0027】次に、3つのハイパスチャネルのそれぞれ
に対してゼロツリーコーディングを用いる。特に、ま
ず、LH4,LH3,LH2およびLH1内のピクセル
の最大振幅を見出す。次に、その最大振幅の1/2に等
しい初期量子化スレショルドT LHをセットする。8ビッ
トピクセルを有する例においては、TLHは約100であ
り得る。次に、99ピクセルのそれぞれを以下に挙げる
クラスの1つの中に配置することにより、LH4をエン
コードする。(i)もしピクセル値が正でTLHより大き
ければ、POS(正の意味)、(ii)もしピクセル値が
負で振幅がTLHより大きければ、NEG(負の意味)、
(iii)もしピクセル値がTLH以下で、かつ全ての子孫の
ピクセル(LH3内の子ピクセル、これらのLH3子ピ
クセルのLH2子ピクセル、これらのLH2子ピクセル
のLH1子ピクセル)もまたTLH以下の振幅を有すれ
ば、ZTR(ゼロツリールート(zerotree r
oot))、(iv)もし、ピクセルはTLH以下の振幅を
有するが、少なくとも1つの子孫ピクセルがTLHより大
きい振幅を有すれば、IZ(孤立したゼロ)。LH4内
の99ピクセルはラスタ走査され、それぞれのピクセル
は2ビットを用いるので、このエンコーディングは19
8ビットを用いる。
に対してゼロツリーコーディングを用いる。特に、ま
ず、LH4,LH3,LH2およびLH1内のピクセル
の最大振幅を見出す。次に、その最大振幅の1/2に等
しい初期量子化スレショルドT LHをセットする。8ビッ
トピクセルを有する例においては、TLHは約100であ
り得る。次に、99ピクセルのそれぞれを以下に挙げる
クラスの1つの中に配置することにより、LH4をエン
コードする。(i)もしピクセル値が正でTLHより大き
ければ、POS(正の意味)、(ii)もしピクセル値が
負で振幅がTLHより大きければ、NEG(負の意味)、
(iii)もしピクセル値がTLH以下で、かつ全ての子孫の
ピクセル(LH3内の子ピクセル、これらのLH3子ピ
クセルのLH2子ピクセル、これらのLH2子ピクセル
のLH1子ピクセル)もまたTLH以下の振幅を有すれ
ば、ZTR(ゼロツリールート(zerotree r
oot))、(iv)もし、ピクセルはTLH以下の振幅を
有するが、少なくとも1つの子孫ピクセルがTLHより大
きい振幅を有すれば、IZ(孤立したゼロ)。LH4内
の99ピクセルはラスタ走査され、それぞれのピクセル
は2ビットを用いるので、このエンコーディングは19
8ビットを用いる。
【0028】次に、HL4,HL3,HL2およびHL
1内のピクセルにおける最大ピクセル振幅およびスレシ
ョルドTHLを見出すために同じステップを行い、同じク
ラスPOS,NEG,ZTRおよびIZによりエンコー
ドするが、その際量子化スレショルドとしてはTHLを用
いる。次に、HH4,HH3,HH2およびHH1に対
してスレショルドTHHを用いて同じことを行う。LH
4,HL4およびHH4のこれらのエンコーディングの
送信を前のLL4のエンコーディングに追加すれば、最
終再構成フレームの解像度は、LH4においてコーディ
ングされたPOS,NEG内のピクセルに対し±1.5
TLHの値を用い、LH4内においてコーディングされた
ZTR,IZのピクセルに対し0の値を用い、同様にし
てHL4およびHH4に対しては±1.5THLおよび±
1.5THHを用いることにより、増大する。
1内のピクセルにおける最大ピクセル振幅およびスレシ
ョルドTHLを見出すために同じステップを行い、同じク
ラスPOS,NEG,ZTRおよびIZによりエンコー
ドするが、その際量子化スレショルドとしてはTHLを用
いる。次に、HH4,HH3,HH2およびHH1に対
してスレショルドTHHを用いて同じことを行う。LH
4,HL4およびHH4のこれらのエンコーディングの
送信を前のLL4のエンコーディングに追加すれば、最
終再構成フレームの解像度は、LH4においてコーディ
ングされたPOS,NEG内のピクセルに対し±1.5
TLHの値を用い、LH4内においてコーディングされた
ZTR,IZのピクセルに対し0の値を用い、同様にし
てHL4およびHH4に対しては±1.5THLおよび±
1.5THHを用いることにより、増大する。
【0029】LH3,HL3,HH3,LH2,HL
2,HH2,LH1,HL1およびHH1に対するコー
ディングを、対応するTLH,THLまたはTHHを用いて続
行する。ゼロツリールートの定義により、ゼロツリール
ートピクセルの全ての子ピクセルをコーディングする必
要はなく、それゆえ、これらのピクセルを走査において
スキップして、ビットストリームを受けるデコーダによ
りゼロを補充し得ることに注意すべきである。LH1,
HL1およびHH1においては子孫のピクセルがなく、
それゆえ、単純なゼロがゼロツリールートおよび孤立し
たゼロの代わりに用いられることにも注意すべきであ
る。このエンコーディングは、本質的に、(スレショル
ドより大きい)有効ピクセルの位置(および正負符号)
の写像である。
2,HH2,LH1,HL1およびHH1に対するコー
ディングを、対応するTLH,THLまたはTHHを用いて続
行する。ゼロツリールートの定義により、ゼロツリール
ートピクセルの全ての子ピクセルをコーディングする必
要はなく、それゆえ、これらのピクセルを走査において
スキップして、ビットストリームを受けるデコーダによ
りゼロを補充し得ることに注意すべきである。LH1,
HL1およびHH1においては子孫のピクセルがなく、
それゆえ、単純なゼロがゼロツリールートおよび孤立し
たゼロの代わりに用いられることにも注意すべきであ
る。このエンコーディングは、本質的に、(スレショル
ドより大きい)有効ピクセルの位置(および正負符号)
の写像である。
【0030】次に、(POSまたはNEGとしてエンコ
ードされた)有効ピクセルを経ての走査を行い、それぞ
れを追加のビットによりエンコードして、範囲(TXX,
1.5TXX]および(1.5TXX,2TXX]内のピクセ
ル値を区別する。ただし、添字TXXは適切なスレショル
ドを意味する。
ードされた)有効ピクセルを経ての走査を行い、それぞ
れを追加のビットによりエンコードして、範囲(TXX,
1.5TXX]および(1.5TXX,2TXX]内のピクセ
ル値を区別する。ただし、添字TXXは適切なスレショル
ドを意味する。
【0031】LH4,HL4,...,HL1,HH1
における全ての有効ピクセルをゼロにより置換する。有
効ピクセルは、前述のエンコーディングにおいて識別さ
れており、それらの値は、後のもっと精密な量子化およ
びエンコーディングのためにリストされている。また、
TLHをTLH/2により、THLをTHL/2により、またT
HHをTHH/2により置換し、前の有効ピクセルをゼロに
より置換して改変されたLH4,HL4,...,HL
1,HH1のための新しいこれらのスレショルドによ
り、POS,NEG,ZTRまたはIZとしてのエンコ
ーディングを繰返す。これは本質的に量子化を精密化
し、新しい有効ピクセルを定める。ゼロにより置換され
た前の有効ピクセルをスキップしてLH4,HL
4,...,HL1,HH1を再び走査し、エンコーデ
ィングPOS,NEG,ZTRおよびIZを送信する。
再び、これは、有効ピクセルに対する値を量子化範囲の
中点として用いることにより、これまでに発生せしめら
れたコードから再構成されたフレームにおける解像度の
さらなる増大を与える。
における全ての有効ピクセルをゼロにより置換する。有
効ピクセルは、前述のエンコーディングにおいて識別さ
れており、それらの値は、後のもっと精密な量子化およ
びエンコーディングのためにリストされている。また、
TLHをTLH/2により、THLをTHL/2により、またT
HHをTHH/2により置換し、前の有効ピクセルをゼロに
より置換して改変されたLH4,HL4,...,HL
1,HH1のための新しいこれらのスレショルドによ
り、POS,NEG,ZTRまたはIZとしてのエンコ
ーディングを繰返す。これは本質的に量子化を精密化
し、新しい有効ピクセルを定める。ゼロにより置換され
た前の有効ピクセルをスキップしてLH4,HL
4,...,HL1,HH1を再び走査し、エンコーデ
ィングPOS,NEG,ZTRおよびIZを送信する。
再び、これは、有効ピクセルに対する値を量子化範囲の
中点として用いることにより、これまでに発生せしめら
れたコードから再構成されたフレームにおける解像度の
さらなる増大を与える。
【0032】再び、有効ピクセルの新しいリストを経て
の走査を繰返し、追加のビットをエンコードして、適切
な量子化範囲の上半分(0.75TXX,TXX],(1.
25TXX,1.5TXX]および(1.75TXX,2
TXX]と前記範囲の下半分(0.5TXX,0.75
TXX],(TXX,1.25TXX]および(1.5TXX,
1.75TXX]との中のピクセル値を区別する。
の走査を繰返し、追加のビットをエンコードして、適切
な量子化範囲の上半分(0.75TXX,TXX],(1.
25TXX,1.5TXX]および(1.75TXX,2
TXX]と前記範囲の下半分(0.5TXX,0.75
TXX],(TXX,1.25TXX]および(1.5TXX,
1.75TXX]との中のピクセル値を区別する。
【0033】同様にして、再び、有効ピクセルをゼロに
より置換し、かつスレショルドをその半分により、すな
わちTLH/2をTLH/4により、THL/2をTHL/4に
より、またTHH/2をTHH/4により置換し、前の有効
ピクセルをゼロにより置換して改変されたLH4,HL
4,...,HL1,HH1のための新しいこれらのス
レショルドにより、POS,NEG,ZTRまたはIZ
としてエンコーディングを繰返す。
より置換し、かつスレショルドをその半分により、すな
わちTLH/2をTLH/4により、THL/2をTHL/4に
より、またTHH/2をTHH/4により置換し、前の有効
ピクセルをゼロにより置換して改変されたLH4,HL
4,...,HL1,HH1のための新しいこれらのス
レショルドにより、POS,NEG,ZTRまたはIZ
としてエンコーディングを繰返す。
【0034】量子化スレショルドの相次ぐ増加は、原フ
レームのますます高解像度の再構成を与える。さらに、
もし3つの初期スレショルドTLH,THL,およびTHHが
著しく異なっていれば、小さいスレショルドを有する画
像のビットストリームは、大きいスレショルドが繰返し
に際して比較可能な大きさへ減少せしめられるまで、延
ばされ得る。例えば、もしTLHがTHLの2倍ならば、L
H内の全てのピクセルはTHLより小さく、HL内の少な
くとも1つのピクセルと比較すると有効でない。これ
は、HL内の最大ピクセルの解像度によれば、LH内の
全てのピクセルはゼロであり、この解像度においては再
構成のために不必要であることを意味する。逆に、もし
3つの初期スレショルドの大きさが全てある程度匹敵し
ていれば、簡単にするために全ての3つのチャネルに対
して単一のスレショルドを用いることができる。
レームのますます高解像度の再構成を与える。さらに、
もし3つの初期スレショルドTLH,THL,およびTHHが
著しく異なっていれば、小さいスレショルドを有する画
像のビットストリームは、大きいスレショルドが繰返し
に際して比較可能な大きさへ減少せしめられるまで、延
ばされ得る。例えば、もしTLHがTHLの2倍ならば、L
H内の全てのピクセルはTHLより小さく、HL内の少な
くとも1つのピクセルと比較すると有効でない。これ
は、HL内の最大ピクセルの解像度によれば、LH内の
全てのピクセルはゼロであり、この解像度においては再
構成のために不必要であることを意味する。逆に、もし
3つの初期スレショルドの大きさが全てある程度匹敵し
ていれば、簡単にするために全ての3つのチャネルに対
して単一のスレショルドを用いることができる。
【0035】LL4の独立したPCMエンコーディング
は最大振幅のピクセルをしばしば除去し、それにより、
小さい初期量子化スレショルドによるLH4,HL
4,...,HH1のエンコーディングの開始を可能に
し、また、該エンコーディングをLL4の独立したエン
コーディングを行わない場合よりも効率的にする。同様
にして、3つのハイパスチャネルのそれぞれに対し別個
のスレショルドを決定すると、単一スレショルドの代わ
りに3つの初期量子化スレショルドを送信するという負
担はあるが、初期量子化スレショルドはより正確にな
る。
は最大振幅のピクセルをしばしば除去し、それにより、
小さい初期量子化スレショルドによるLH4,HL
4,...,HH1のエンコーディングの開始を可能に
し、また、該エンコーディングをLL4の独立したエン
コーディングを行わない場合よりも効率的にする。同様
にして、3つのハイパスチャネルのそれぞれに対し別個
のスレショルドを決定すると、単一スレショルドの代わ
りに3つの初期量子化スレショルドを送信するという負
担はあるが、初期量子化スレショルドはより正確にな
る。
【0036】全ビットストリームは、LL4を完全にエ
ンコードした初期ビットブロックと、次に初期量子化ス
レショルドTLH,THL,THHを用いて有効ピクセル位置
をエンコードしたビットブロックと、次に有効ピクセル
のそれぞれに対して1ビットの正確さを追加したビット
ブロックと、次に精密化された量子化スレショルドT LH
/2,THL/2,THH/2を用いて有効ピクセル位置を
エンコードしたビットブロックと、次に(初期量子化ス
レショルドおよび精密化されたスレショルドの双方によ
り)有効ピクセルのそれぞれに対して1ビットの正確さ
を追加したビットブロックとなどを、目標の量子化の精
密化または他のビットレート制約が生じるまで、含む。
ンコードした初期ビットブロックと、次に初期量子化ス
レショルドTLH,THL,THHを用いて有効ピクセル位置
をエンコードしたビットブロックと、次に有効ピクセル
のそれぞれに対して1ビットの正確さを追加したビット
ブロックと、次に精密化された量子化スレショルドT LH
/2,THL/2,THH/2を用いて有効ピクセル位置を
エンコードしたビットブロックと、次に(初期量子化ス
レショルドおよび精密化されたスレショルドの双方によ
り)有効ピクセルのそれぞれに対して1ビットの正確さ
を追加したビットブロックとなどを、目標の量子化の精
密化または他のビットレート制約が生じるまで、含む。
【0037】完全埋込み形の実施例 前述の第1の実施例は、別個の初期量子化スレショルド
によりLH,HLまたはHH画像をエンコードする前
に、(例においては9×11のLL4である)最高レベ
ルのLL画像をコーディングした。これとは対照的に、
第2の実施例は、LH,HLおよびHH画像のゼロツリ
ーコーディングにおける量子化スレショルドの精密化に
類似した相次ぐ量子化コーディングの精密化を最高レベ
ルのLL画像に対して適用する。例えば、LL4ピクセ
ルのPCMコードの最上位ビットは、送信される最初の
99ビットブロックであり、次はLH,HLおよびHH
に対する第1レベルのゼロツリーコーディングであり、
その次にはLL4PCMコードの第2最上位ビットに対
する99ビットブロックなどが続く。これは、多重スケ
ールに基づく高解像度情報の初期部分としての低解像度
情報の完全な埋込みを与える。
によりLH,HLまたはHH画像をエンコードする前
に、(例においては9×11のLL4である)最高レベ
ルのLL画像をコーディングした。これとは対照的に、
第2の実施例は、LH,HLおよびHH画像のゼロツリ
ーコーディングにおける量子化スレショルドの精密化に
類似した相次ぐ量子化コーディングの精密化を最高レベ
ルのLL画像に対して適用する。例えば、LL4ピクセ
ルのPCMコードの最上位ビットは、送信される最初の
99ビットブロックであり、次はLH,HLおよびHH
に対する第1レベルのゼロツリーコーディングであり、
その次にはLL4PCMコードの第2最上位ビットに対
する99ビットブロックなどが続く。これは、多重スケ
ールに基づく高解像度情報の初期部分としての低解像度
情報の完全な埋込みを与える。
【0038】DPCMの実施例 前述の第1および第2の実施例は、最高レベルのLL画
像(例においては9×11のLL4)をPCMによりコ
ーディングしたので、空間的相関を利用し得なかった。
第3の実施例は、第1の実施例に追随するものである
が、最高LLレベルのDPCMコーディングを用いる。
像(例においては9×11のLL4)をPCMによりコ
ーディングしたので、空間的相関を利用し得なかった。
第3の実施例は、第1の実施例に追随するものである
が、最高LLレベルのDPCMコーディングを用いる。
【0039】詳述すると、まずプリセットされた量子化
ステップサイズにより、それぞれのピクセル値に対する
量子化値を計算する。次に、それぞれのピクセル値に対
し、隣接ピクセルとの差を以下のように計算する。上お
よび左の境界(量子化)ピクセルw(0,k),w
(j,0)から開始して、ピクセル差z(j,0)=w
(j,0)−w(j−1,0)[ただし、1≦j≦9]
およびz(0,k)=w(0,k)−w(0,k−1)
[ただし、1≦k≦11]を再帰的に形成する。このよ
うにすれば、w(0,0)と差z(j,0),z(0,
k)とにより、w(j,0)およびw(0,k)を再構
成し得るが、z(j,0)およびz(0,k)の振幅は
通常著しく小さいので、エンコードするために必要なビ
ットは少ない。
ステップサイズにより、それぞれのピクセル値に対する
量子化値を計算する。次に、それぞれのピクセル値に対
し、隣接ピクセルとの差を以下のように計算する。上お
よび左の境界(量子化)ピクセルw(0,k),w
(j,0)から開始して、ピクセル差z(j,0)=w
(j,0)−w(j−1,0)[ただし、1≦j≦9]
およびz(0,k)=w(0,k)−w(0,k−1)
[ただし、1≦k≦11]を再帰的に形成する。このよ
うにすれば、w(0,0)と差z(j,0),z(0,
k)とにより、w(j,0)およびw(0,k)を再構
成し得るが、z(j,0)およびz(0,k)の振幅は
通常著しく小さいので、エンコードするために必要なビ
ットは少ない。
【0040】次に、より小さい導関数からの予測によ
り、全ての他の差を再帰的に形成する。すなわち、もし
|w(j,k−1)−w(j−1,k−1)|<|w
(j−1,k)−w(j−1,k−1)|ならば、z
(j,k)=w(j,k)−w(j−1,k)、それ以
外の場合はz(j,k)=w(j,k)−w(j,k−
1)。再び、w(j,k)はw(0,0)とz(j,
k)とから再構成され得るが、z(j,k)の振幅はw
(j,k)の振幅よりも小さくなければならない。もち
ろん、w(0,0)は大きくてもよく、直接エンコード
される。
り、全ての他の差を再帰的に形成する。すなわち、もし
|w(j,k−1)−w(j−1,k−1)|<|w
(j−1,k)−w(j−1,k−1)|ならば、z
(j,k)=w(j,k)−w(j−1,k)、それ以
外の場合はz(j,k)=w(j,k)−w(j,k−
1)。再び、w(j,k)はw(0,0)とz(j,
k)とから再構成され得るが、z(j,k)の振幅はw
(j,k)の振幅よりも小さくなければならない。もち
ろん、w(0,0)は大きくてもよく、直接エンコード
される。
【0041】次に、z(j,k)を適応可変長エントロ
ピーコードにより以下のようにエンコードする。経験的
に、z(j,k)は次の2つのクラスに属する。(A)
予測の有効性により典型的に15未満である小さい値、
および(B)データの分散により比較的に大きい値。こ
の実施例は、コードを2つの組に分割する。1つの組
は、短い長さのコードによりコーディングされる小さい
値のためのものであり、他の組は、大きい値のためのも
のである。それぞれの組内においては、一般に値が一様
に分布する(高エントロピー)ので、簡単なインプリメ
ンテーションのためには、それぞれの記号を同数のビッ
トを用いてコーディングする。
ピーコードにより以下のようにエンコードする。経験的
に、z(j,k)は次の2つのクラスに属する。(A)
予測の有効性により典型的に15未満である小さい値、
および(B)データの分散により比較的に大きい値。こ
の実施例は、コードを2つの組に分割する。1つの組
は、短い長さのコードによりコーディングされる小さい
値のためのものであり、他の組は、大きい値のためのも
のである。それぞれの組内においては、一般に値が一様
に分布する(高エントロピー)ので、簡単なインプリメ
ンテーションのためには、それぞれの記号を同数のビッ
トを用いてコーディングする。
【0042】次に、|z(j,k)|の最大値を計算
し、これを最大値Gと呼ぶ。残りのz(j,k)のそれ
ぞれをエンコードするための最大ビット数nbitsは次の
ようになる。
し、これを最大値Gと呼ぶ。残りのz(j,k)のそれ
ぞれをエンコードするための最大ビット数nbitsは次の
ようになる。
【0043】
【数2】 ただし、「ceil〔.〕」はシーリング関数であり、
その値はこの関数の引数以下の最小の整数である。
その値はこの関数の引数以下の最小の整数である。
【0044】次に、ビットの最適数nopt を求める。こ
の最適数nopt はz(j,k)を2つの組に分割し、そ
の1つの組はnopt ビットによりコーディングされ、他
の組は、nbits+1ビットによりコーディングされる。
総計N個のz(j,k)(例においてはこれは98とな
る)に対し、bを、最小振幅z(j,k)の組内のそれ
ぞれのz(j,k)のために必要なビット数とする。そ
の時、PCMにおける記号あたりのコーディング利得は
次のようになる。
の最適数nopt はz(j,k)を2つの組に分割し、そ
の1つの組はnopt ビットによりコーディングされ、他
の組は、nbits+1ビットによりコーディングされる。
総計N個のz(j,k)(例においてはこれは98とな
る)に対し、bを、最小振幅z(j,k)の組内のそれ
ぞれのz(j,k)のために必要なビット数とする。そ
の時、PCMにおける記号あたりのコーディング利得は
次のようになる。
【0045】
【数3】
【0046】このようにして、bの全ての値(b=0,
1,2,...,nbits)を経てループし、この利得を
最大化するbの値としてのnopt を採用することによ
り、n opt を見出す。このDPCMは、典型的には、P
CMにおいて用いられる総ビットの約20%を節約す
る。
1,2,...,nbits)を経てループし、この利得を
最大化するbの値としてのnopt を採用することによ
り、n opt を見出す。このDPCMは、典型的には、P
CMにおいて用いられる総ビットの約20%を節約す
る。
【0047】カラー実施例 以上の実施例は、単一値ピクセルのみを考慮していた。
カラーフレームとしては、3つの別個のフレーム(強度
ピクセルのYフレーム、赤および青のクロミナンスピク
セルCr,CbのためのUおよびVフレーム)が用いら
れ、それらは典型的に異なるサイズを有する(Yは14
4×176などの全解像度、UおよびVは72×88な
どの半解像度のものである)。この時、3つのフレーム
のそれぞれは、前述の実施例の1つによりエンコードさ
れる。ビットストリームは、次のように連結され得る:
|Yストリーム|Crストリーム|Cbストリーム|。
カラーフレームとしては、3つの別個のフレーム(強度
ピクセルのYフレーム、赤および青のクロミナンスピク
セルCr,CbのためのUおよびVフレーム)が用いら
れ、それらは典型的に異なるサイズを有する(Yは14
4×176などの全解像度、UおよびVは72×88な
どの半解像度のものである)。この時、3つのフレーム
のそれぞれは、前述の実施例の1つによりエンコードさ
れる。ビットストリームは、次のように連結され得る:
|Yストリーム|Crストリーム|Cbストリーム|。
【0048】実施例のシンタックス 実施例のビットストリームは、ベースバンドのそれぞれ
のカラー成分に対し以下のシンタックスを有する:|Q
b|バイト|W0|ビット0|ビット1|DPCMスト
リーム|、ただし「Qb」(8ビット)はベースバンド
のための量子化ステップサイズであり、「バイト」はバ
イトを単位とするベースバンドビットストリームの長さ
であり、「W0」はw(0,0)の量子化された値であ
り、「ビット0」はベースバンドz(j,k)のための
ビットの最大数であり、「ビット1」は小さい値の組の
ための記号毎のビット数であり、「DPCMストリー
ム」はw(0,0)以外の量子化されたz(j,k)の
ためのビットストリームである。
のカラー成分に対し以下のシンタックスを有する:|Q
b|バイト|W0|ビット0|ビット1|DPCMスト
リーム|、ただし「Qb」(8ビット)はベースバンド
のための量子化ステップサイズであり、「バイト」はバ
イトを単位とするベースバンドビットストリームの長さ
であり、「W0」はw(0,0)の量子化された値であ
り、「ビット0」はベースバンドz(j,k)のための
ビットの最大数であり、「ビット1」は小さい値の組の
ための記号毎のビット数であり、「DPCMストリー
ム」はw(0,0)以外の量子化されたz(j,k)の
ためのビットストリームである。
【0049】より高いバンドにおいては、シンタックス
は次のようになり得る:|Q|サイズ|ストリーム|、
ただし「Q」はゼロツリー量子化のための初期スレショ
ルド(16ビット)であり、「サイズ」(16ビット)
はバイトを単位とする「ストリーム」の長さであり、
「ストリーム」はビットストリームである。
は次のようになり得る:|Q|サイズ|ストリーム|、
ただし「Q」はゼロツリー量子化のための初期スレショ
ルド(16ビット)であり、「サイズ」(16ビット)
はバイトを単位とする「ストリーム」の長さであり、
「ストリーム」はビットストリームである。
【0050】経験的結果 図3から図5までは、さまざまなビットレートにおける
3つの異なる標準テストフレームに対する、従来の技術
の項において述べたシャピロのゼロツリーの方法と比較
した場合の、第3の実施例におけるピーク信号対雑音比
(PSNR)の比較を示す。実施例は、大体1dBに達
する改善を与える。
3つの異なる標準テストフレームに対する、従来の技術
の項において述べたシャピロのゼロツリーの方法と比較
した場合の、第3の実施例におけるピーク信号対雑音比
(PSNR)の比較を示す。実施例は、大体1dBに達
する改善を与える。
【0051】圧縮および圧縮解除の概説 図6は、実施例の圧縮とエンコーディングとデコーディ
ングとエンコーディングおよびデコーディングによるエ
ラーの補正を含む圧縮解除とを用いて話者の音声および
画像の双方を送信する実施例のビデオ電話(テレビ会
議)システムのブロック図を示す。もちろん、図6は、
1つの受信機のみへの一方向の送信のみを示している
が、実際には、第2のカメラおよび第2の受信機が反対
方向への送信に用いられ、このシステム内に第3または
それ以上の受信機および送信機を接続することもでき
る。ビデオおよび音声は別個に圧縮され、ビデオおよび
音声の送信チャネル帯域幅の割当ては状況に依存して動
的に調節され得る。電話網の帯域幅は、経費上、低ビッ
トレート送信を要求する。実際、極めて低いビットレー
トのビデオ圧縮はマルチメディアへ応用され、その場
合、視覚上の品質は劣化し得る。
ングとエンコーディングおよびデコーディングによるエ
ラーの補正を含む圧縮解除とを用いて話者の音声および
画像の双方を送信する実施例のビデオ電話(テレビ会
議)システムのブロック図を示す。もちろん、図6は、
1つの受信機のみへの一方向の送信のみを示している
が、実際には、第2のカメラおよび第2の受信機が反対
方向への送信に用いられ、このシステム内に第3または
それ以上の受信機および送信機を接続することもでき
る。ビデオおよび音声は別個に圧縮され、ビデオおよび
音声の送信チャネル帯域幅の割当ては状況に依存して動
的に調節され得る。電話網の帯域幅は、経費上、低ビッ
トレート送信を要求する。実際、極めて低いビットレー
トのビデオ圧縮はマルチメディアへ応用され、その場
合、視覚上の品質は劣化し得る。
【0052】図7は、全体が参照番号200により示さ
れている第1の実施例の監視システムを示し、それは、
定置背景204(運動対象206がたまたま視野内を通
過している)上に焦点を合わせた1つまたはそれ以上の
固定ビデオカメラ202と、ビデオ圧縮機208と、遠
隔メモリ210と、検出器およびディスプレイ220と
を含む。圧縮機208は、シーンのビデオ画像のストリ
ーム(例えば、30フレーム毎秒で、それぞれのフレー
ムは144×176の8ビット白黒ピクセルを有する)
を、高品質画像を保持しつつ、圧縮機208からメモリ
210へのデータ通信速度が極めて低く(例えば、22
Kbps)なるように圧縮する。システム200は定置
背景に依存しており、運動対象(これは背景に対して運
動するフレーム内の領域として現れる)は、低いデータ
通信速度を実現するために予測運動を用いてエンコード
されるのみである。この低いデータ通信速度は、カメラ
からモニタおよびパーソナルコンピュータ用の磁気ハー
ドディスクのようなランダムアクセスメモリ装置への伝
送チャネルを簡単化し得る。実際、モデムを有する単一
電話線は、圧縮されたビデオ画像ストリームを遠隔モニ
タへ伝送し得る。さらに、特定の監視状況が必要とする
1日または1週間などのある時間間隔の間のビデオ画像
ストリームの記憶装置は、そのような圧縮の後には遙か
に少ないメモリしか必要としない。
れている第1の実施例の監視システムを示し、それは、
定置背景204(運動対象206がたまたま視野内を通
過している)上に焦点を合わせた1つまたはそれ以上の
固定ビデオカメラ202と、ビデオ圧縮機208と、遠
隔メモリ210と、検出器およびディスプレイ220と
を含む。圧縮機208は、シーンのビデオ画像のストリ
ーム(例えば、30フレーム毎秒で、それぞれのフレー
ムは144×176の8ビット白黒ピクセルを有する)
を、高品質画像を保持しつつ、圧縮機208からメモリ
210へのデータ通信速度が極めて低く(例えば、22
Kbps)なるように圧縮する。システム200は定置
背景に依存しており、運動対象(これは背景に対して運
動するフレーム内の領域として現れる)は、低いデータ
通信速度を実現するために予測運動を用いてエンコード
されるのみである。この低いデータ通信速度は、カメラ
からモニタおよびパーソナルコンピュータ用の磁気ハー
ドディスクのようなランダムアクセスメモリ装置への伝
送チャネルを簡単化し得る。実際、モデムを有する単一
電話線は、圧縮されたビデオ画像ストリームを遠隔モニ
タへ伝送し得る。さらに、特定の監視状況が必要とする
1日または1週間などのある時間間隔の間のビデオ画像
ストリームの記憶装置は、そのような圧縮の後には遙か
に少ないメモリしか必要としない。
【0053】ビデオカメラ202は、圧縮機208への
出力が図7に一般的に示されているようにディジタルフ
レームのシーケンスであるよう、カメラ内アナログ/デ
ィジタル変換器を有するCCDカメラであればよい。あ
るいは、追加のハードウェアを有するアナログカメラを
用いても、フレームのディジタルビデオストリームを発
生し得る。圧縮機208は、ハードワイヤード形のもの
でもよく、または、もっと便利ものとして、圧縮ステッ
プをオンボードメモリであるRAMまたはROMまたは
双方に記憶している、ディジタル信号プロセッサ(DS
P)であってもよい。例えば、TMS320C50また
はTMS320C80形のDSPならば十分である。ま
た、図1に示されているようなテレビ会議システムにお
いては、リアルタイム受信に関するエラー補正が含ま
れ、汎用プロセッサ上に具体化され得る。
出力が図7に一般的に示されているようにディジタルフ
レームのシーケンスであるよう、カメラ内アナログ/デ
ィジタル変換器を有するCCDカメラであればよい。あ
るいは、追加のハードウェアを有するアナログカメラを
用いても、フレームのディジタルビデオストリームを発
生し得る。圧縮機208は、ハードワイヤード形のもの
でもよく、または、もっと便利ものとして、圧縮ステッ
プをオンボードメモリであるRAMまたはROMまたは
双方に記憶している、ディジタル信号プロセッサ(DS
P)であってもよい。例えば、TMS320C50また
はTMS320C80形のDSPならば十分である。ま
た、図1に示されているようなテレビ会議システムにお
いては、リアルタイム受信に関するエラー補正が含ま
れ、汎用プロセッサ上に具体化され得る。
【0054】図8は、実施例のビデオ圧縮方法の高レベ
ルフローダイヤグラムを示し、該方法は、それぞれのフ
レームが176ピクセルを144行または352ピクセ
ルを288行有しかつ10フレーム毎秒のフレームレー
トを有するフレームF0 ,F 1 ,F2 ,...のシーケ
ンスから成る入力に対する後述のステップを含む。それ
ぞれのステップの詳細は、以下のそれぞれの項に述べ
る。
ルフローダイヤグラムを示し、該方法は、それぞれのフ
レームが176ピクセルを144行または352ピクセ
ルを288行有しかつ10フレーム毎秒のフレームレー
トを有するフレームF0 ,F 1 ,F2 ,...のシーケ
ンスから成る入力に対する後述のステップを含む。それ
ぞれのステップの詳細は、以下のそれぞれの項に述べ
る。
【0055】上述の2つのサイズのフレームは、それぞ
れのマクロブロックが16ピクセル×16ピクセルであ
るとして11マクロブロックを9行含むアレイへまたは
22マクロブロックを18行含むアレイへ区分される。
これらのフレームは、IピクチャまたはPピクチャとし
てエンコードされる。Bピクチャは後方への補間を有
し、極めて低いビットレートの伝送においては過度に大
きい時間遅延を生じる。Iピクチャは5または10秒毎
に一度だけ発生し、大部分のフレームはPピクチャであ
る。176ピクセルを144行含むサイズのフレームに
おいては、ほぼIピクチャは20Kbitによりエンコ
ードされ、Pピクチャは2Kbitによりエンコードさ
れるので、全体としてのビットレートは大体22Kbp
sとなる(わずか10フレーム毎秒またはそれ以下)。
フレームは白黒またはカラーのものであり得、カラー
は、強度フレーム(Y信号)と1/4解像度の(サブサ
ンプリングされた)カラー組合せフレーム(UおよびV
信号)とにより与えられる。
れのマクロブロックが16ピクセル×16ピクセルであ
るとして11マクロブロックを9行含むアレイへまたは
22マクロブロックを18行含むアレイへ区分される。
これらのフレームは、IピクチャまたはPピクチャとし
てエンコードされる。Bピクチャは後方への補間を有
し、極めて低いビットレートの伝送においては過度に大
きい時間遅延を生じる。Iピクチャは5または10秒毎
に一度だけ発生し、大部分のフレームはPピクチャであ
る。176ピクセルを144行含むサイズのフレームに
おいては、ほぼIピクチャは20Kbitによりエンコ
ードされ、Pピクチャは2Kbitによりエンコードさ
れるので、全体としてのビットレートは大体22Kbp
sとなる(わずか10フレーム毎秒またはそれ以下)。
フレームは白黒またはカラーのものであり得、カラー
は、強度フレーム(Y信号)と1/4解像度の(サブサ
ンプリングされた)カラー組合せフレーム(UおよびV
信号)とにより与えられる。
【0056】(1)最初、第0フレームF0 を、ウェー
ブレット変換に基づく実施例を用いて、MPEG−1,
2におけるように、Iピクチャとしてエンコードする。
フレームの多重レベル分解を計算し;ベースバンド(も
しk個のレベルが用いられていればLLk)を分離し
て、それをPCMまたはDPCMによりエンコードし
(PCMは簡単な完全埋込みを与える);高バンド(H
H1,HH2,...,HHk;HL1,HL
2,...,HLk;およびLH1,LH2,...,
LHk)の3つの組のそれぞれのために、ウェーブレッ
ト係数をゼロツリーエンコードし;完全な埋込みのため
にインタリーブされたLLkのPCMにより走査線の順
序で送信する。他のフレームもまたIフレームとしてエ
ンコードされ、Iフレームの割合は伝送チャネルのビッ
トレートに依存する。もしFN がIピクチャであるべき
であれば、F0 と同様にエンコードする。
ブレット変換に基づく実施例を用いて、MPEG−1,
2におけるように、Iピクチャとしてエンコードする。
フレームの多重レベル分解を計算し;ベースバンド(も
しk個のレベルが用いられていればLLk)を分離し
て、それをPCMまたはDPCMによりエンコードし
(PCMは簡単な完全埋込みを与える);高バンド(H
H1,HH2,...,HHk;HL1,HL
2,...,HLk;およびLH1,LH2,...,
LHk)の3つの組のそれぞれのために、ウェーブレッ
ト係数をゼロツリーエンコードし;完全な埋込みのため
にインタリーブされたLLkのPCMにより走査線の順
序で送信する。他のフレームもまたIフレームとしてエ
ンコードされ、Iフレームの割合は伝送チャネルのビッ
トレートに依存する。もしFN がIピクチャであるべき
であれば、F0 と同様にエンコードする。
【0057】(2)PピクチャであるべきフレームFN
においては、フレーム内の運動対象を、再構成されたF
N-1 からFN への変化の領域を見出すことにより検出す
る。再構成されたFN-1 はFN-1 に対する近似であり、
それは実際に後述のように送信される。変化の領域は、
運動対象と露出背景とに区分される必要はなく、運動対
象を近似的にのみ記述することに注意すべきである。し
かし、この近似は、より効率的な低コーディングを行う
ためには十分である。もちろん、ある領域が前のフレー
ム内の変化領域外へマップされ従って露出背景であるか
どうかを決定するための逆運動ベクトル,対象を決定す
るためのエッジ検出または対象を背景から区別するため
の対象特性(モデル)の仮定などのメカニズムにより、
運動対象と露出背景とへのこの区分を行う別の方法もあ
ろう。
においては、フレーム内の運動対象を、再構成されたF
N-1 からFN への変化の領域を見出すことにより検出す
る。再構成されたFN-1 はFN-1 に対する近似であり、
それは実際に後述のように送信される。変化の領域は、
運動対象と露出背景とに区分される必要はなく、運動対
象を近似的にのみ記述することに注意すべきである。し
かし、この近似は、より効率的な低コーディングを行う
ためには十分である。もちろん、ある領域が前のフレー
ム内の変化領域外へマップされ従って露出背景であるか
どうかを決定するための逆運動ベクトル,対象を決定す
るためのエッジ検出または対象を背景から区別するため
の対象特性(モデル)の仮定などのメカニズムにより、
運動対象と露出背景とへのこの区分を行う別の方法もあ
ろう。
【0058】(3)ステップ(2)から得られた変化の
領域のそれぞれの連結された成分のために、内部の穴を
含めその境界輪郭をコーディングする。従って、運動対
象の境界は正確にはコーディングされず、変化の全領域
の境界がコーディングされ、運動対象の境界を近似す
る。境界のコーディングは、境界を近似するスプライン
によるかまたは変化の領域内のブロックを示す2進マス
クにより行われ得る。スプラインは境界のより正確な表
示を与えるが、2進マスクはより少数のビットを用い
る。変化の領域の連結成分は2進画像マスクのラスタ走
査とマスク内のピクセルのグループ化するソーティング
とにより決定され、それらのグループは隣接ピクセルの
ソーティングによりマージされ得ることに注意すべきで
ある。ピクセルの最終グループは、連結された成分(連
結された領域)である。プログラムの例については、バ
ラード(Ballard)ら著,「コンピュータビジョ
ン(Computer Vision)」,(プレンテ
ィス・ホール(Prentice Hall)),第1
49乃至152頁を参照されたい。便宜上以下において
は、連結された成分(連結された領域)を(運動)対象
と呼ぶ。
領域のそれぞれの連結された成分のために、内部の穴を
含めその境界輪郭をコーディングする。従って、運動対
象の境界は正確にはコーディングされず、変化の全領域
の境界がコーディングされ、運動対象の境界を近似す
る。境界のコーディングは、境界を近似するスプライン
によるかまたは変化の領域内のブロックを示す2進マス
クにより行われ得る。スプラインは境界のより正確な表
示を与えるが、2進マスクはより少数のビットを用い
る。変化の領域の連結成分は2進画像マスクのラスタ走
査とマスク内のピクセルのグループ化するソーティング
とにより決定され、それらのグループは隣接ピクセルの
ソーティングによりマージされ得ることに注意すべきで
ある。ピクセルの最終グループは、連結された成分(連
結された領域)である。プログラムの例については、バ
ラード(Ballard)ら著,「コンピュータビジョ
ン(Computer Vision)」,(プレンテ
ィス・ホール(Prentice Hall)),第1
49乃至152頁を参照されたい。便宜上以下において
は、連結された成分(連結された領域)を(運動)対象
と呼ぶ。
【0059】(4)前のフレームからの対象の運動予測
により、ビデオシーケンス内の時間的冗長性を除去す
る。特に、現フレームFN における対象内の16×16
ブロックを、前の再構成フレームFN-1 内の同位置の1
6×16ブロック、および全ての方向へこのブロックを
15ピクセルまで平行移動したもの、と突き合わせる。
最良の突き合わせはこのブロックの運動ベクトルを定
め、現フレームFN に対する近似F’N は、運動ベクト
ルを、前のフレームFN-1 の該運動ベクトルに対応する
ブロックと共に用いることにより、前のフレームFN-1
から合成され得る。
により、ビデオシーケンス内の時間的冗長性を除去す
る。特に、現フレームFN における対象内の16×16
ブロックを、前の再構成フレームFN-1 内の同位置の1
6×16ブロック、および全ての方向へこのブロックを
15ピクセルまで平行移動したもの、と突き合わせる。
最良の突き合わせはこのブロックの運動ベクトルを定
め、現フレームFN に対する近似F’N は、運動ベクト
ルを、前のフレームFN-1 の該運動ベクトルに対応する
ブロックと共に用いることにより、前のフレームFN-1
から合成され得る。
【0060】(5)対象の運動を用いて近似F’N を合
成した後においても、フレーム内には、高速で変化する
領域などのかなりの量の残留情報を含む領域が存在し得
る。すなわち、FN と合成された近似F’N との間の差
の領域は、ステップ(2)から(3)までと類似した運
動のセグメンテーションの適用を受け、かなりの有効情
報を含む運動故障領域を定める。
成した後においても、フレーム内には、高速で変化する
領域などのかなりの量の残留情報を含む領域が存在し得
る。すなわち、FN と合成された近似F’N との間の差
の領域は、ステップ(2)から(3)までと類似した運
動のセグメンテーションの適用を受け、かなりの有効情
報を含む運動故障領域を定める。
【0061】(6)ステップ(5)から得られた運動故
障領域を、DCTまたはウェーブレット変換に基づく波
形コーティング技術を用いてエンコードする。DCTの
場合には、領域を16×16マクロブロックに区分し、
マクロブロックの8×8ブロックに対してDCTを適用
し、量子化し、エンコードする(ランレングスコーディ
ングおよび次にハフマンコーディング)。ウェーブレッ
トの場合には、領域外の全てのピクセル値を定数(例え
ば0)にセットし、多重レベル分解を適用し、量子化
し、選択された領域に対応するウェーブレット係数のみ
をエンコードする(ゼロツリーコーディングおよび次に
算術コーディング)。
障領域を、DCTまたはウェーブレット変換に基づく波
形コーティング技術を用いてエンコードする。DCTの
場合には、領域を16×16マクロブロックに区分し、
マクロブロックの8×8ブロックに対してDCTを適用
し、量子化し、エンコードする(ランレングスコーディ
ングおよび次にハフマンコーディング)。ウェーブレッ
トの場合には、領域外の全てのピクセル値を定数(例え
ば0)にセットし、多重レベル分解を適用し、量子化
し、選択された領域に対応するウェーブレット係数のみ
をエンコードする(ゼロツリーコーディングおよび次に
算術コーディング)。
【0062】(7)Iピクチャのためにエンコードされ
た情報(DCTデータまたはウェーブレットデータ)お
よびPピクチャのためのそれ(対象は輪郭,運動ベクト
ルおよび運動故障データを有するそれぞれの対象により
順序づけられている)を組立てる。これらは、ハフマン
コードのテーブルからのコードワードであり得、それは
ダイナミックテーブルからではなく、むしろ実験的に発
生せしめられる。
た情報(DCTデータまたはウェーブレットデータ)お
よびPピクチャのためのそれ(対象は輪郭,運動ベクト
ルおよび運動故障データを有するそれぞれの対象により
順序づけられている)を組立てる。これらは、ハフマン
コードのテーブルからのコードワードであり得、それは
ダイナミックテーブルからではなく、むしろ実験的に発
生せしめられる。
【0063】(8)それぞれのIピクチャデータ,それ
ぞれのPピクチャ,それぞれの輪郭データ,それぞれの
ベクトルデータおよびそれぞれの運動故障データの最初
の部分に再同期ワードを挿入する。これらの再同期ワー
ドは、ハフマンコードワードのテーブル内には現れず、
従って明確に決定され得る。 (9)ステップ(8)から得られたビットストリームを
リード・ソロモンコードとインタリービングとにより,
エンコードする。次に、送信または記憶する。
ぞれのPピクチャ,それぞれの輪郭データ,それぞれの
ベクトルデータおよびそれぞれの運動故障データの最初
の部分に再同期ワードを挿入する。これらの再同期ワー
ドは、ハフマンコードワードのテーブル内には現れず、
従って明確に決定され得る。 (9)ステップ(8)から得られたビットストリームを
リード・ソロモンコードとインタリービングとにより,
エンコードする。次に、送信または記憶する。
【0064】(10)受信したエンコードされたビット
ストリームをリード・ソロモンとインタリービング解除
とによりデコードする。再同期ワードは、デコーディン
グ後の故障を改善し、またランダムアクセスのためのア
クセスポイントを提供する。さらに、デコーディング
は、インタリービング解除装置の両側の短縮リード・ソ
ロモンデコーダとエラー補正の強化のための第2のデコ
ーダから第1のデコーダへの帰還(デコーダ入力の記憶
されているコピー)とによるものであり得る。
ストリームをリード・ソロモンとインタリービング解除
とによりデコードする。再同期ワードは、デコーディン
グ後の故障を改善し、またランダムアクセスのためのア
クセスポイントを提供する。さらに、デコーディング
は、インタリービング解除装置の両側の短縮リード・ソ
ロモンデコーダとエラー補正の強化のための第2のデコ
ーダから第1のデコーダへの帰還(デコーダ入力の記憶
されているコピー)とによるものであり得る。
【0065】(11)スケーラブルビットストリームを
与える、対象のスケーラビリティ(シーケンス内の対象
の選択的エンコーディング/デコーディング)および品
質のスケーラビリティ(対象の品質の選択的改善)のよ
うな追加の機能性もまたサポートされる。
与える、対象のスケーラビリティ(シーケンス内の対象
の選択的エンコーディング/デコーディング)および品
質のスケーラビリティ(対象の品質の選択的改善)のよ
うな追加の機能性もまたサポートされる。
【0066】改変 実施例は、最高のLLバンドの独立したエンコーディン
グおよびLHk,...,LH1,HLk,...,H
L1,HHk,...,HH1の諸バンドのゼロツリー
エンコーディングなどの、1つまたはそれ以上の特徴を
保持しつつ多様に変更され得る。
グおよびLHk,...,LH1,HLk,...,H
L1,HHk,...,HH1の諸バンドのゼロツリー
エンコーディングなどの、1つまたはそれ以上の特徴を
保持しつつ多様に変更され得る。
【0067】例えば、フレームのサイズ,分解レベル,
スレショルド,量子化レベル,記号などは変更できる。
一般に、重要な領域に基づくアプローチが維持される限
り、ウェーブレットフィルタリングの代わりに、QMF
およびジョンソンなどの他のタイプのサブバンドフィル
タリングを用いることもできる。1次元または3次元ま
たはそれ以上の次元を有する画像も、分解と最高レベル
のローパスフィルタされた画像の独立したエンコーディ
ングとにより、同様にしてエンコードされ得る。
スレショルド,量子化レベル,記号などは変更できる。
一般に、重要な領域に基づくアプローチが維持される限
り、ウェーブレットフィルタリングの代わりに、QMF
およびジョンソンなどの他のタイプのサブバンドフィル
タリングを用いることもできる。1次元または3次元ま
たはそれ以上の次元を有する画像も、分解と最高レベル
のローパスフィルタされた画像の独立したエンコーディ
ングとにより、同様にしてエンコードされ得る。
【0068】以上の説明に関して更に以下の項を開示す
る。 (1)(a)画像をローパスフィルタリングおよびハイ
パスフィルタリングによりk個のレベルのサブバンドへ
分解するステップと、(b)最低サブバンドをエンコー
ドするステップと、(c)前記最低サブバンド以外の前
記サブバンドをゼロツリーエンコーディングによりエン
コードするステップと、を含む、画像のエンコード方
法。
る。 (1)(a)画像をローパスフィルタリングおよびハイ
パスフィルタリングによりk個のレベルのサブバンドへ
分解するステップと、(b)最低サブバンドをエンコー
ドするステップと、(c)前記最低サブバンド以外の前
記サブバンドをゼロツリーエンコーディングによりエン
コードするステップと、を含む、画像のエンコード方
法。
【0069】(2)サブバンドへの分解に続いて、最高
レベルのローパス画像の独立したコーディングと高バン
ドのゼロツリーコーディングとを併せて用いる画像のエ
ンコード方法。
レベルのローパス画像の独立したコーディングと高バン
ドのゼロツリーコーディングとを併せて用いる画像のエ
ンコード方法。
【0070】(関連出願に対するクロスリファレンス)
本出願の権利者を権利者とする次の同時係属出願は、関
連する内容を開示している。1996年10月25日付
出願の出願第 号。
本出願の権利者を権利者とする次の同時係属出願は、関
連する内容を開示している。1996年10月25日付
出願の出願第 号。
【図1】実施例のエンコーディングのフローダイヤグラ
ム。
ム。
【図2】サブバンド階層分解を示す図。
【図3】経験的結果を示す図。
【図4】経験的結果を示す図。
【図5】経験的結果を示す図。
【図6】実施例の電話システムを示す図。
【図7】実施例の監視システムを示す図。
【図8】実施例のビデオ圧縮のフローダイヤグラム。
【符号の説明】 200 監視システム 202 固定カメラ 208 圧縮機 210 遠隔メモリ 220 遠隔デコーダおよびディスプレイ
Claims (1)
- 【請求項1】 (a)画像をローパスフィルタリングお
よびハイパスフィルタリングによりk個のレベルのサブ
バンドへ分解するステップと、 (b)最低サブバンドをエンコードするステップと、 (c)前記最低サブバンド以外の前記サブバンドをゼロ
ツリーエンコーディングによりエンコードするステップ
と、を含む、画像のエンコード方法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US746702 | 1991-08-16 | ||
| US74670296A | 1996-11-15 | 1996-11-15 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH10164574A true JPH10164574A (ja) | 1998-06-19 |
Family
ID=25001979
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9315588A Pending JPH10164574A (ja) | 1996-11-15 | 1997-11-17 | ビデオ圧縮 |
Country Status (2)
| Country | Link |
|---|---|
| EP (1) | EP0848557A3 (ja) |
| JP (1) | JPH10164574A (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6459731B1 (en) | 1998-08-28 | 2002-10-01 | Lucent Technologies Inc. | Technique for video communications using a coding-matched filter arrangement |
| US20030002582A1 (en) * | 2001-06-13 | 2003-01-02 | Pere Obrador | Multi-resolution boundary encoding applied to region based still image and video encoding |
-
1997
- 1997-11-14 EP EP97309207A patent/EP0848557A3/en not_active Withdrawn
- 1997-11-17 JP JP9315588A patent/JPH10164574A/ja active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| EP0848557A3 (en) | 1998-07-22 |
| EP0848557A2 (en) | 1998-06-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Marcellin et al. | An overview of JPEG-2000 | |
| Shen et al. | Wavelet based rate scalable video compression | |
| US6272253B1 (en) | Content-based video compression | |
| JP3204645B2 (ja) | 映像符号化及び復号化方法並びにその装置 | |
| US20060088096A1 (en) | Video coding method and apparatus | |
| US20120230414A1 (en) | Method Of Signalling Motion Information For Efficient Scalable Video Compression | |
| US20050193311A1 (en) | Content-based video compression | |
| Nister et al. | Lossless region of interest with a naturally progressive still image coding algorithm | |
| EP0892557A1 (en) | Image compression | |
| US6445823B1 (en) | Image compression | |
| EP1555829A1 (en) | Video/image coding method and system enabling region-of-interest | |
| EP0790741B1 (en) | Video compression method using sub-band decomposition | |
| US9264736B2 (en) | Encoding method, decoding method, encoding device, and decoding device | |
| JP7514107B2 (ja) | 画像符号化装置、画像復号装置及びこれらのプログラム | |
| Mohsenian et al. | Edge-based subband VQ techniques for images and video | |
| Chen | Fully scalable subband/wavelet coding | |
| US6956973B1 (en) | Image compression | |
| JPH10164574A (ja) | ビデオ圧縮 | |
| Hwang et al. | Digital picture compression and coding structure | |
| Al-Shaykh | Video Sequence Compression | |
| Hsu et al. | Wavelet and lapped orthogonal transforms with overlapped motion-compensation for multiresolution coding of HDTV | |
| Apostolopoulos et al. | Video compression for digital advanced television systems | |
| Thanapirom et al. | A zerotree stereo video encoder | |
| Bhojani et al. | Introduction to video compression | |
| Mei | A DWT based perceptual video coding framework: concepts, issues and techniques |