JP2004248285A

JP2004248285A - 画像通話時における話者の映像の差動的符号化可能のビデオエンコーダ及びこれを利用したビデオ信号圧縮方法

Info

Publication number: JP2004248285A
Application number: JP2004034105A
Authority: JP
Inventors: Seung Cheol Lee; 承徹李; Dae-Kyu Shin; 大揆愼
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-02-10
Filing date: 2004-02-10
Publication date: 2004-09-02
Also published as: EP1453321A2; US20040158719A1; KR20040072259A; EP1453321A3; CN1225914C; KR100539923B1; CN1522073A

Abstract

【課題】画像通話時、話者の映像を区分して差動的符号化できるビデオエンコーダを提供する。
【解決手段】入力されるビデオ信号から個体の動きを推定し、個体の動きベクトルを算出する動き推定部と、動きベクトルから話者の輪郭を示す話者領域を検出する話者領域検出部と、動き推定部から出力されたビデオ信号を離散コサイン変換によって離散コサイン変換係数を算出する離散コサイン変換部と、離散コサイン変換係数を利用して話者領域から話者の顔領域を検出し、検出された顔領域と非顔領域を区分することによって、差別量子化テーブルを生成する顔領域検出部と、話者領域に基づいて量子化のための量子化ステップサイズを可変的に設定する適応的ビット率制御部と、量子化ステップサイズ及び差別量子化テーブルによって離散コサイン変換係数を量子化する量子化部と、を含む。
【選択図】図３

Description

本発明は、画像通信用のビデオエンコーダ及びこれを利用した映像圧縮方法に関し、より詳細には、話者の顔部分及びその他の部分を区分して映像の質を差動的に適用することができる画像通信用のビデオエンコーダ及びこれを利用した映像圧縮方法に関する。

通信技術の発達に伴い映像圧縮技術及びマルチメディア伝送技術などが急速に進歩している。さらに、デジタルカメラのような撮像装置の普及によって、撮像装置と外部ディバイスとの間の映像データの交換ができる技術が要求されている。また、携帯電話を利用して通話する時、使用者は、音声通信だけでなく相手の顔を見ながら画像通信をすることを希望するようになっている。

このような使用者の希望を満足させるために、ＭＰＥＧ１(Motion Picture Expert Group 1)、ＭＰＥＧ２、ＭＰＥＧ４、及びＨ．２６３のような映像圧縮技術が提案され、この映像圧縮技術を通じて携帯電話を利用した画像通信が現実化及び常用化されている。
ＭＰＥＧ４は、国際標準化委員会(International Standardization Organization: ＩＳＯ)及び国際電気学会(International Electrotechnical Commission: ＩＥＣ)によって共通設立された技術諮問委員会(Joint Technical Committee: ＪＴＣ)傘下のマルチメディア関連の符号化技術の国際標準規格を制定する組織であるＳＣ２９(Sub Committee 29)においてＷＧ１１(Working Group 11)という名で活動している動映像及び関連オーディオ信号圧縮及び復元に関する技術標準組織である。ＭＰＥＧ１及びＭＰＥＧ２は、予め決定されたデータ処理量によって任意のサイズで入力される動映像及び音声情報をビットストリーム(bit stream)に圧縮し、前記ビットストリームを伝送する技術である。ＭＰＥＧ２によって圧縮されたビットストリームを受信する受信段は、前記受信されたビットストリームをデコーディング(decoding)し、前記デコーディングされたビットストリームを画面やスピーカを通じて出力する。

Ｈ．２６３は、低伝送率を有する通信線路(64kbps以下)を通じる映像会議またはビデオ電話などのために、ＩＴＵ−Ｔ(International Telecommunications Union - Telecommunication Standardization Sector)によって提案された動映像圧縮技術である。
現在常用化進行中のＣＤＭＡ(Code Division Multiple Access)ＥＶＤＯ及びＵＭＴＳ(Universal Mobile Telecommunications System)ネットワークを通じた両方向画像通話が支援できる携帯電話に内蔵されるＨ．２６３／ＭＰＥＧ４ビデオエンコーダは、携帯電話に装着されたカメラから映像を受信し、前記受信された映像を効率的な圧縮方法によって圧縮し、前記圧縮された映像を伝送プロトコル階層に伝達する。このＨ．２６３／ＭＰＥＧ４ビデオエンコーダは、携帯電話という制限されたリソース及び計算能力を有する環境に適合するように最適化され、１２８kbps以下の狭帯域通信環境に合うように画質及びビットストリームサイズを適切に調節する。

図１は、従来のデジタルビデオ信号を圧縮するためのビデオエンコーダ、例えば、ＭＰＥＧ２方式のイメージ符号化システムを示すブロック図である。

図１を参照すると、フレーム形式のビデオ信号は、第１フレームメモリ１０に入力される。前記フレームは、ブロック単位で処理できるように画素データの連続的なブロックとして第１フレームメモリ１０に貯蔵される。フレームのブロックは、通常的に８×８または１６×１６の画素サイズを有する。

離散コサイン変換(Discrete Cosine Transform: ＤＣＴ)部１２は、第１フレームメモリ１０からブロック単位で読み取られるビデオ信号をＤＣＴ変換し、ＤＣＴ係数を発生する。ビット率制御部３０は、目標伝送ビット率を合わせるために量子化部(quantizer)１４によって量子化のために使用される量子化テーブルを決定するための量子化ステップサイズ情報を量子化部１４に提供する。量子化部１４は、前記量子化ステップサイズ情報に基づいて量子化テーブルを決定し、前記決定された量子化テーブルによってＤＣＴ係数を量子化する。

前記量子化されたＤＣＴ係数は、ジグザグパターンでスキャニングされて可変長符号化部(Variable Length Coder)１６に入力される。可変長符号化部１６は、前記スキャニングされたＤＣＴ係数を可変長符号化されたデータに変換する。前記可変長符号化されたＤＣＴ係数は、ビットストリーム発生部(図示せず)によって連続的なビットストリームに変換される。前記ビットストリームは、所定の時間の間にバッファ１８に貯蔵され、入力信号によって出力される。バッファ１８は、いくらのビットストリームを貯蔵することができるかを示すバッファ状態情報をビット率制御部３０に提供する。ビット率制御部３０は、前記バッファ状態情報に基づいて量子化ステップサイズを決定し、前記決定された量子化ステップサイズ情報を量子化部１４及び可変長符号化部１６に提供する。その結果、量子化部１４は、前記量子化ステップサイズ情報に基づいてＤＣＴ係数を量子化し、可変長符号化部１６は、前記量子化ステップサイズ情報に基づいて前記量子化されたＤＣＴ係数を可変的に符号化する。

量子化部１４によって量子化されたＤＣＴ係数は、逆量子化(dequantizer)部２０に入力されて逆量子化される。逆量子化部２０によって逆量子化されたＤＣＴ係数は、逆離散コサイン変換(Inverse Discrete Cosine Transform: ＩＤＣＴ)部２２によってブロック単位の画素データにＩＤＣＴ変換される。前記ブロック単位の画素データは、第２フレームメモリ２４に貯蔵される。１つのビデオフレームの全体ブロックが順次に再生されて第２フレームメモリ２４に貯蔵される。第２フレームメモリ２４に貯蔵された前記再生されたイメージフレームは、動き推定部(Motion Estimation)２６によって前記再生されたイメージから動きの客体を推定するための参照フレームとして使用される。

１番目のビデオフレームの全体ブロックが図１のビデオエンコーダによって符号化された後、２番目のビデオフレームが前記ビデオエンコーダに入力される。動き推定部２６は、第２フレームメモリ２４に貯蔵された参照フレームの探索領域から前記２番目のフレームの１番目のマクロブロック(Macro Block: ＭＢ)と最も類似た領域を探索する。通常的に、探索領域は、複数の候補マクロブロックから構成される。動き推定部２６は、マクロブロックと同一の画素サイズを有する参照領域を探索領域内で上下左右に半(0.5)画素(Half Pixel)単位で移動しながら、マクロブロックと参照領域とのそれぞれの画素対画素を比較する。マクロブロックは、通常的に、８×８または１６×１６のサイズを有する。ここで、動き推定のためにＦＢＭＡ(Full Searching Block Matching Algorithm)、ＴＳＳ(Three Step Search)、ダイアモンド探索(Diamond Search)及び階層的動き推定(Hierarchical Motion Estimation)のような通常の多様な探索アルゴリズム(Searching Algorithm)またはブロックマッチング(Block Matching)技法が使用される。この比較過程を通じて動き推定部２６によって比較された前記参照フレームの最も類似した参照領域と２番目のイメージフレームのマクロブロックとの間の位置関係を示す動きベクトル(Motion Vector: ＭＶ)が決定される。

加算部２８は、２番目のフレームの１番目のマクロブロックと参照フレームの最も類似した参照領域とを加算し、２番目のフレームの１番目のマクロブロックと参照フレームの最も類似した参照領域との間の差分を算出する。前記差分は、動きベクトル(ＭＶ)と共にＤＣＴ部１２、量子化部１４及び可変長符号化部１６を通じて符号化される。前記差分及び動きベクトルが別のモジュールによって別の過程を通じて算出されると説明したが、前記差分及び前記動きベクトルは１つのモジュールを通じて算出されることもできる。差分は、逆量子化部２０及びＩＤＣＴ部２２に入力され、次のフレームの動き推定のために、再生された画素データとして第２フレームメモリ２４に貯蔵される。前記過程は、２番目のフレームの全体ブロックに対して順次に適用される。

前記動き推定のために使用される参照フレームは、原のイメージフレームでなく、予め符号化された、つまり、量子化されたＤＣＴ係数を復号化することによって再生されたフレームである。これは、ビデオエンコーダによって符号化されたイメージデータを受信して復号化時の過程と同一の過程を遂行することによって、ビデオエンコーダとビデオデコーダとの間の誤差を最小化するためである。

前述したビデオエンコーダ及びデコーダが適用された携帯電話を利用した画像通信用ビデオコーデック(ＣＯＤＥＣ)の場合、遅延時間及び演算量を考慮してＩピクチャ(Intra-Picture)及びＰピクチャ(Predictive-Picture)のフレームのみを使用する。前記ビデオエンコーダは、通信帯域幅を合わせるために、映像の内容によって量子化値を動的に適用することによって画質を調節しながら一定サイズのビットストリームを生成する。

前記Ｉピクチャは、イントラ(intra)符号化映像、つまり、フレーム内の符号化映像である。Ｉピクチャの役割は、ＧＯＰ(Group of Picture)の独立性を確保し、画面上の全てをイントラ符号化することである。前記Ｉピクチャは、原の映像と同一の順序で符号化される。前記Ｐピクチャは、フレーム間順方向予測符号化映像である。前記Ｐピクチャは、画面上のサブブロック単位の部分でイントラ符号化を含む場合もある。前記Ｐピクチャは、原の映像と同一の順序で符号化される。

従って、映像の動きが多いか、画面が複雑である場合、ビット量が増加する。このビット量の増加は、量子化値を増加させ、この量子化値の増加は、画質を低下させるが、圧縮率を向上させる。逆に、映像の動きが少なく、画面が単純である場合、減少された量子化値を適用して原の映像の画質を維持することができる。

一般的に、画像通話の場合、全体映像内に背景を除いた個体の数が制限される可能性が高く、前記個体の一部分は、話者にとって重要な意味を有する。つまり、画像通話の間には、背景の重要度が最も低く、話者周辺の人や話者に近接した個体が次の重要度を有し、話者自身が最高の重要度を有する。特に、話者の顔部分は、画像通話時に最高の重要度を有する。

しかしながら、現在使用されている画像通信用ビデオエンコーダ装置は、個体に対する概念を考慮せずに全体映像に対する圧縮を遂行する。つまり、従来の画像通信用ビデオエンコーダは、全体映像に対して同一に圧縮率を適用する。

図２（ａ）及び図２（ｂ）は、全体映像に同一の圧縮率または同一の量子化ステップサイズを適用による画質変化の例を示す。図示されたように、全体映像に対して同一の量子化ステップサイズを適用する場合、圧縮された画面に表示される映像の画質が全体的に低下する。つまり、従来の画像通信用ビデオエンコーダ装置は、全体映像のうち高画質を維持する必要がある部分と、高画質を維持する必要のない部分とを区分することができない。

現在、ＭＰＥＧは、個体を分離して符号化する技術が提案されている。しかしながら、前記個体を精密に分離する目的は、多様な背景で対応する個体を使用することである。従って、このような技術は、実時間及び移動通信環境では具現することが困難である。従って、３ＧＰＰ／３ＧＰＰ２によって提案される画像通信用標準ビデオコーデックは、個体を区分することを考慮していない。

前述したような問題点を解決するための本発明の目的は、話者の顔として推定される領域を他の領域に比べて適応的に高画質に維持することのできる画像通信用ビデオエンコーダ及びこれを利用して映像圧縮方法を提供することにある。

本発明の他の目的は、話者の顔として推定される領域を他の領域に比べて適応的に高画質に維持するために標準画像通信用ビデオエンコーダに容易に適用できる画像通信用ビデオエンコーダ及びこれを利用した映像圧縮方法を提供することにある。

また、本発明の他の目的は、動映像の動きベクトル情報及び話者の顔領域の色情報を利用して顔色領域が検出される場合、他の領域に比べて高画質の話者の顔領域を表示することのできる画像通信用ビデオエンコーダ及びこれを利用した映像圧縮方法を提供することにある。

このような目的を達成するための本発明による離散コサイン変換及び動き推定を通じてビデオ信号を符号化するビデオエンコーダは、入力されるビデオ信号から個体の動きを推定し、前記個体の動きベクトルを算出する動き推定部と、前記動きベクトルから話者の輪郭を示す話者領域を検出する話者領域検出部と、前記動き推定部から出力されたビデオ信号を離散コサイン変換することによって離散コサイン変換係数を算出する離散コサイン変換部と、前記離散コサイン変換係数を利用して前記話者領域から前記話者の顔領域を検出し、前記検出された前記顔領域と非顔領域を区分することによって、差別量子化テーブルを生成する顔領域検出部と、前記話者領域に基づいて量子化のための量子化ステップサイズを可変的に設定する適応的ビット率制御部と、前記量子化ステップサイズ及び前記差別量子化テーブルによって前記離散コサイン変換係数を量子化する量子化部と、を含む。

望ましくは、前記適応的ビット率制御部は、前記話者領域及び前記顔領域のうち少なくとも１つに基づいて前記量子化ステップサイズを可変的に設定する。さらに、前記動き推定部は、前記ビデオ信号の現在フレームと、前記ビデオ信号の以前のフレームを符号化及び復号化し、前記符号化及び復号化された以前フレームの動きを補償することによって得られた参照フレームとを一定の画素間隔でそれぞれの画素対画素を比較して最も類似した画素を検出して前記個体の動きを推定し、前記個体の動き推定に対応する動きベクトルを算出する。

また、前記話者領域検出部は、前記動きベクトルから前記動きベクトルのサイズ及び方向によって背景イメージベクトル及び前景イメージベクトルを算出し、前記背景イメージベクトル及び前記前景イメージベクトルから話者領域を検出する。

前記顔領域検出部は、前記離散コサイン変換部によって発生した離散コサイン変換係数のうち前記話者領域検出部によって検出された話者領域に対応する離散コサイン変換係数から同一領域に対して赤色成分のＤＣ値と青色成分のＤＣ値とを比較し、前記赤色成分が大きく、また設定されたしきい値より大きい場合、前記話者領域のうち前記比較された離散コサイン変換係数に対応する領域を前記話者の顔領域として判断する。

本発明によるビデオエンコーダは、前記量子化部によって差別量子化された離散コサイン変換係数に対して逆量子化を遂行する逆量子化部と、前記逆量子化された離散コサイン変換係数に対して逆離散コサイン変換を遂行する逆離散コサイン変換部と、予め入力された逆離散コサイン変換されたビデオ信号と入力される逆離散コサイン変換されたビデオ信号とを比較することによって前記個体の動きを補償する動き補償部と、をさらに含む。前記動き補償部は、前記動き補償部から動きが補償されたビデオ信号に基づいて外部から入力されるビデオ信号に対する前記動きベクトルを算出する。

前述したような目的を達成するための本発明による離散コサイン変換及び動き推定を通じてビデオ信号を符号化するビデオエンコーダを利用した画像通信のためのビデオ信号圧縮方法は、入力されるビデオ信号から個体の動きを推定して前記個体の動きベクトルを算出する段階と、前記動きベクトルから話者の輪郭を示す話者領域を検出する段階と、前記ビデオ信号を離散コサイン変換することによって離散コサイン変換係数を算出する段階と、前記離散コサイン変換係数に基づいて前記話者領域から前記話者の顔領域を検出し、前記検出された顔領域と非顔領域とを区分することによって差別量子化テーブルを生成する段階と、前記話者領域に基づいて量子化のための量子化ステップサイズを可変的に設定する段階と、前記量子化ステップサイズ及び前記差別量子化テーブルによって前記離散コサイン変換係数を量子化する段階と、を含む。

望ましくは、前記量子化ステップサイズ設定段階は、前記話者領域及び前記顔領域のうち少なくとも１つに基づいて前記量子化ステップサイズを可変的に設定する。さらに、前記動き推定段階は、前記ビデオ信号の現在フレームと、前記ビデオ信号の以前のフレームを符号化及び復号化し、前記符号化及び復号化された以前フレームの動きを補償することによって得られた参照フレームとを一定の画素間隔でそれぞれの画素対画素を比較して最も類似した画素を検出して前記個体の動きを推定し、前記個体の動き推定に対応する前記動きベクトルを算出する。

前記話者領域検出段階は、前記動きベクトルから前記動きベクトルのサイズ及び方向によって背景イメージベクトル及び前景イメージベクトルを算出し、前記背景イメージベクトル及び前記前景イメージベクトルから話者領域を検出する。

前記顔領域検出段階は、前記離散コサイン変換係数のうち前記話者領域に対応する離散コサイン変換係数から同一領域に対して赤色成分のＤＣ値と青色成分のＤＣ値とを比較し、前記赤色成分が前記青色成分より大きく、また設定されたしきい値より大きい場合は、話者領域のうち前記比較された離散コサイン変換係数に対応する領域を前記話者の顔領域として判断する。

本発明は、話者の顔領域と非顔領域とを区分し、顔領域は小さい量子化ステップサイズで、非顔領域は大きい量子化ステップサイズで、それぞれ差別的に量子化を遂行することによって、画像通信時にビデオエンコーダの動作による負荷及び話者の顔領域の映像の画質低下を防止することができる。その結果、動きのある顔領域だけでなく赤いブロックの画質低下が他のブロックに比べて小さくなる。

以下、本発明の好適な一実施形態について添付図を参照しつつ詳細に説明する。下記の説明において、本発明の要旨のみを明確にする目的で、関連した公知機能又は構成に関する具体的な説明は省略する。

図３は、本発明の好適な実施形態による画像通話時に話者の映像を差動的符号化するビデオエンコーダを示すブロック図である。

図示されたように、ビデオエンコーダは、動き推定部１００、話者領域検出部１２０、ＤＣＴ(Discrete Cosine Transform)部１４０、顔領域検出部１６０、適応的ビット率制御部１８０、量子化部２００、可変長符号化部２２０、逆量子化部２４０、ＩＤＣＴ(Inverse Discrete Cosine Transform)部２６０、及び動き補償部２８０を含む。

動き推定部１００は、入力されるビデオ信号の現在フレームと、前記入力されたビデオ信号の以前フレームを符号化及び復号化されした後、前記符号化及び復号化された以前フレームの動きを補償することによって得られた参照フレームとを、一定の画素間隔でそれぞれの画素対画素を比較することによって、最も類似した画素を検出する。動き推定部１００は、前記検出された参照フレームの最も類似した参照領域と前記現在フレームのマクロブロックとの間の位置関係を示す動きベクトル(Motion Vector: ＭＶ)を決定する。

話者領域検出部１２０は、動き推定部１００によって決定された動きベクトルのうち、ビデオ信号の中心から所定の領域を除いた周辺領域の動きベクトルのサイズ及び方向の一貫性を検出する。話者領域検出部１２０は、前記検出された周辺領域の動きベクトルのサイズに対する平均値を算出する。この時、話者領域検出部１２０は、前記算出された平均値のうち設定された偏差値の範囲内に含まれる平均値の平均値を算出する。前記算出された平均値の平均値は、ビデオ信号に対する背景イメージベクトル(background image vector)として決定される。話者領域検出部１２０は、動き推定部１００によって決定された動きベクトルから背景イメージベクトルを減算することによってビデオ信号の周辺領域を除いた中心領域に対して前景イメージベクトル(foreground image vector)を算出する。さらに、話者領域検出部１２０は、前景イメージベクトルのうち所定の範囲内に含まれたサイズ及び方向を有する前景イメージベクトルを集めることによって話者領域の境界を決定する。話者領域検出部１２０は、前記決定された話者領域内の領域に対して水平及び垂直指向スキャニング(horizontal and vertical directional scanning)を遂行することによって直角形の話者領域を検出する。

ＤＣＴ部１４０は、動き推定部１００から提供されたビデオ信号をＤＴＣ変換してＤＣＴ係数を発生する。

顔領域検出部１６０は、ＤＣＴ部１４０によって発生したＤＣＴ係数のうち話者領域検出部１２０によって検出された話者領域に対応するＤＣＴ係数から同一領域に対して赤色成分のＤＣ値と青色成分のＤＣ値とを比較する。その比較の結果、赤色成分が青色成分より大きく、設定されたしきい値より大きい場合、顔領域検出部１６０は、話者領域のうち前記比較されたＤＣＴ係数に対応する領域を話者の顔領域として判断する。前記しきい値は、使用者によって任意で設定されることができ、または、実験値によって得られた最適値として定義されることもできる。顔領域検出部１６０は、話者領域から顔領域の判断結果に基づいて、ＤＣＴ係数が差別的に量子化されるか否かを示す情報である差別量子化テーブルを生成する。

適応的ビット率制御部１８０は、話者領域検出部１２０によって検出された話者領域情報及び顔領域検出部１６０によって検出された顔領域情報を利用して量子化ステップサイズの調整に使用される加重テーブルを生成する。望ましくは、適応的ビット率制御部１８０は、対応するビデオ信号の所定の領域が話者領域における顔領域である場合、量子化ステップサイズを基準値より小さく設定し、そうでない場合は、量子化ステップサイズを基準値より大きく設定する。

量子化部２００は、顔領域検出部１６０によって生成された差別量子化テーブル及び適応的ビット率制御部１８０から出力された量子化ステップサイズによって、ＤＣＴ部１４０から出力されたＤＣＴ係数を可変的に量子化する。

可変長符号化部２２０は、量子化されたＤＣＴ係数を可変長符号化されたデータに変換する。前記可変長符号化されたＤＣＴ係数は、ビットストリーム発生部(図示せず)によってビットストリームに変換される。

逆量子化部２４０は、量子化部２００によって量子化されたＤＣＴ係数を逆量子化する。ＩＤＣＴ部２６０は、逆量子化されたＤＣＴ係数をＩＤＣＴ変換によってブロック単位の再生された画素データに変換する。

動き補償部２８０は、ＩＤＣＴ部２６０によって再生された画素データの動きを補償する。動き補償部２８０によって補償された画素データは、動き推定部１００によって再生されるイメージから動き客体を推定するための参照フレームとして使用される。

従って、本発明によるビデオエンコーダは、入力されるビデオ信号に同一の量子化ステップサイズを適用せずに、話者の顔領域と非顔領域とを区分して、前記顔領域及び前記非顔領域を異なる量子化ステップサイズによって量子化する。そうすることによって、顔領域に対する基準解像度を維持することができる。その結果、動きのある顔領域だけでなく、赤いブロックの画質低下が他のブロックより小さくなる。

本実施形態においては、赤色成分と青色成分を区分し、前記赤色成分の値と前記青色成分の値を比較することによって顔領域を決定し、前記決定された顔領域を差別量子化して、顔領域の画質低下を防止する。しかしながら、前記ビデオエンコーダは、使用者インターフェースによって顔領域の大略の特徴を得ることができ、前記大略の特徴によって赤色成分の範囲をしきい値として指定することができる。

図４（ａ）ないし図４（ｄ）は、図３のビデオエンコーダで受信されるビデオ信号から顔領域及び非顔領域を差別量子化する過程を示す。図４（ａ）は、動き推定部１００によって受信される原のビデオ信号を再生して画面に表示される場合の画質の映像である。図４（ｂ）は、話者領域検出部１２０によって検出された話者領域１２０ａが画面の中央領域に位置した状態を示す。図４（ｃ）は、顔領域検出部１６０によって検出された話者の顔領域１６０ａが画面に表示された状態を示す。図４（ｄ）は、量子化部２００によって顔領域１６０ａ及び非顔領域を差別的に量子化することによって表示されるビデオ信号の映像を示す。

図５（ａ）及び図５（ｂ）は、図３の量子化部２００が全体映像に対して顔領域及び非顔領域に差別量子化ステップを適用することによって画面上に表示された映像の例を示す。図示されたように、量子化部２００は、全体映像のうち顔領域に対して基準値より小さい量子化ステップサイズを適用し、非顔領域に対しては基準値より大きい量子化ステップサイズを適用して該当領域を量子化することによって、顔領域に対して基準値以上の画質の維持を保障することができる。

図６は、本発明の好適の実施形態によるビデオエンコーダを利用したビデオ信号の圧縮方法を示す。

図６を参照すると、動き推定部１００は、入力されるビデオ信号の現在フレームと、前記入力された信号の以前フレームを符号化及び復号化した後に前記符号化及び復号化された以前フレームの動きを補償することによって決定された参照フレームとを、一定の画素間隔で対応するそれぞれの画素対画素を比較することによって、最も類似した画素を検出し、前記検出された最も類似した画素と前記現在のフレームのマクロブロックとの間の位置関係を示す動きベクトル(ＭＶ)を算出する(段階１００)。話者領域検出部１２０は、動き推定部１００によって決定された動きベクトルのうちビデオ信号の中心から所定の領域を除いた周辺領域の動きベクトルのサイズ及び方向の一貫性を検出することによって、ビデオ信号の話者領域を検出する(段階１２０)。ＤＣＴ部１４０は、動き推定部１００から提供されたビデオ信号をＤＣＴ変換してＤＣＴ係数を発生する(段階１４０)。

顔領域検出部１６０は、ＤＣＴ部１４０によって発生したＤＣＴ係数のうち話者領域検出部１２０によって検出された話者領域に対応するＤＣＴ係数を利用して前記話者の顔領域を検出する(段階１６０)。望ましくは、顔領域検出部１６０は、ＤＣＴ部１４０によって発生したＤＣＴ係数のうち話者領域検出部１２０によって検出された話者領域に対応するＤＣＴ係数から同一領域に対して赤色成分のＤＣ値と青色成分のＤＣ値とを比較する。その比較の結果、赤色成分が青色成分より大きく、また設定されたしきい値より大きい場合、顔領域検出部１６０は、話者領域のうち前記比較されたＤＣＴ係数に対応する領域を話者の顔領域として判断する。前記しきい値の設定は、使用者によって任意で設定されることができ、または、実験値によって得られた最適値として定義されることができる。顔領域検出部１６０は、話者領域から顔領域の判断結果に基づいて、ＤＣＴ係数が差別的に量子化されるか否かを示す情報である差別量子化テーブルを生成する。

適応的ビット率制御部１８０は、話者領域検出部１２０によって検出された話者領域情報及び顔領域検出部１６０によって検出された顔領域情報を利用して量子化ステップサイズを可変的に設定する(段階１８０)。望ましくは、適応的ビット率制御部１８０は、対応するビデオ信号の所定領域が話者領域の顔領域である場合、量子化ステップサイズを基準値より小さく設定し、そうでない場合は、量子化ステップサイズを基準値より大きく設定する。

量子化部２００は、顔領域検出部１６０によって生成された差別量子化テーブル及び適応的ビット率制御部１８０から出力された量子化ステップサイズによってＤＣＴ部１４０から出力されたＤＣＴ係数を可変的に量子化する(段階２００)。可変長符号化部２２０は、顔領域と非顔領域を区分して可変的に量子化されたＤＣＴ係数を可変長符号化されたデータに変換する(段階２２０)。前記可変長符号化されたＤＣＴ係数は、ビットストリーム発生部(図示せず)によってビットストリームに変換される。

従って、入力されるビデオ信号に同一の量子化ステップサイズを適用せず、話者の顔領域と非顔領域とを区分して、異なる量子化ステップサイズによって前記顔領域及び前記非顔領域を量子化する。そうすることによって、顔領域に対する基準解像度を維持することができる。その結果、動きのある顔領域だけでなく赤いブロックの画質低下が他のブロックに比べて小さくなる。

本実施形態においては、赤色成分と青色成分を区分し、前記赤色成分の値と前記青色成分の値を比較することによって顔領域を決定し、前記決定された顔領域を差別量子化して、顔領域の画質低下を防止する。しかしながら、使用者インターフェースによって顔領域の大略の特徴を得ることができ。前記大略の特徴によって赤色成分の範囲をしきい値として指定することができる。

前述の如く、本発明を具体的な一実施形態を参照して詳細に説明してきたが、本発明の範囲は前述の一実施形態によって限られるべきではなく、本発明の範囲内で様々な変形が可能であるということは、当該技術分野における通常の知識を持つ者には明らかである。

従来のデジタルビデオ信号を圧縮するためのビデオエンコーダのブロック図。全体映像に同一の圧縮率または同一の量子化ステップサイズを適用する時に画質が低下する例を示す図。本発明の好適な実施形態による画像通話時、話者の映像を区分して差動的符号化するビデオエンコーダを示すブロック図。図３のビデオエンコーダで受信されるビデオ信号から顔領域と非顔領域を差別量子化する過程を示す図。図３の量子化部が全体映像に対して顔領域と非顔領域を区分して差別量子化ステップを適用することによって画面上に表示される映像の例を示す図。本発明の好適な実施形態によるビデオエンコーダを利用したビデオ信号の圧縮方法を示す図。

符号の説明

１００動き推定部
１２０話者領域検出部
１４０ＤＣＴ部
１６０顔領域検出部
１８０適応的ビット率制御部
２００量子化部
２２０可変長符号化部
２４０逆量子化部
２６０ＩＤＣＴ部
２８０動き補償部

Claims

離散コサイン変換及び動き推定を通じてビデオ信号を符号化するビデオエンコーダにおいて、
入力されるビデオ信号から個体の動きを推定し、前記個体の動きベクトルを算出する動き推定部と、
前記動きベクトルから話者の輪郭を示す話者領域を検出する話者領域検出部と、
前記動き推定部から出力されたビデオ信号を離散コサイン変換することによって離散コサイン変換係数を算出する離散コサイン変換部と、
前記離散コサイン変換係数を利用して前記話者領域から前記話者の顔領域を検出し、前記検出された前記顔領域と非顔領域を区分することによって、差別量子化テーブルを生成する顔領域検出部と、
前記話者領域に基づいて量子化のための量子化ステップサイズを可変的に設定する適応的ビット率制御部と、
前記量子化ステップサイズ及び前記差別量子化テーブルによって前記離散コサイン変換係数を量子化する量子化部と
を含むことを特徴とするビデオエンコーダ。
前記適応的ビット率制御部は、前記話者領域及び前記顔領域のうち少なくとも１つに基づいて前記量子化ステップサイズを可変的に設定することを特徴とする請求項１に記載のビデオエンコーダ。
前記動き推定部は、前記ビデオ信号の現在フレームと、前記ビデオ信号の以前のフレームを符号化及び復号化し、前記符号化及び復号化された以前フレームの動きを補償することによって得られた参照フレームとを一定の画素間隔でそれぞれの画素対画素を比較して最も類似した画素を検出して前記個体の動きを推定し、前記個体の動き推定に対応する動きベクトルを算出することを特徴とする請求項２に記載のビデオエンコーダ。
前記話者領域検出部は、前記動きベクトルから前記動きベクトルのサイズ及び方向によって背景イメージベクトル及び前景イメージベクトルを算出し、前記背景イメージベクトル及び前記前景イメージベクトルから話者領域を検出することを特徴とする請求項３に記載のビデオエンコーダ。
前記顔領域検出部は、前記離散コサイン変換部によって発生した離散コサイン変換係数のうち前記話者領域検出部によって検出された話者領域に対応する離散コサイン変換係数から同一領域に対して赤色成分のＤＣ値と青色成分のＤＣ値とを比較し、前記赤色成分が大きく、また設定されたしきい値より大きい場合、前記話者領域のうち前記比較された離散コサイン変換係数に対応する領域を前記話者の顔領域として判断することを特徴とする請求項４に記載のビデオエンコーダ。
前記量子化部によって差別量子化された離散コサイン変換係数に対して可変長符号化を遂行する可変長符号化部をさらに含むことを特徴とする請求項５に記載のビデオエンコーダ。
前記量子化部によって差別量子化された離散コサイン変換係数に対して逆量子化を遂行する逆量子化部と、
前記逆量子化された離散コサイン変換係数に対して逆離散コサイン変換を遂行する逆離散コサイン変換部と、
予め入力された逆離散コサイン変換されたビデオ信号と入力される逆離散コサイン変換されたビデオ信号とを比較することによって前記個体の動きを補償する動き補償部と、をさらに含むことを特徴とする請求項６に記載のビデオエンコーダ。
前記動き補償部は、前記動き補償部から動きが補償されたビデオ信号に基づいて外部から入力されるビデオ信号に対する前記動きベクトルを算出することを特徴とする請求項７に記載のビデオエンコーダ。
離散コサイン変換及び動き推定を通じてビデオ信号を符号化するビデオエンコーダを利用した画像通信のためのビデオ信号圧縮方法において、
入力されるビデオ信号から個体の動きを推定して前記個体の動きベクトルを算出する段階と、
前記動きベクトルから話者の輪郭を示す話者領域を検出する段階と、
前記ビデオ信号を離散コサイン変換することによって離散コサイン変換係数を算出する段階と、
前記離散コサイン変換係数に基づいて前記話者領域から前記話者の顔領域を検出し、前記検出された顔領域と非顔領域とを区分することによって差別量子化テーブルを生成する段階と、
前記話者領域に基づいて量子化のための量子化ステップサイズを可変的に設定する段階と、
前記量子化ステップサイズ及び前記差別量子化テーブルによって前記離散コサイン変換係数を量子化する段階と
を含むことを特徴とするビデオエンコーダを利用した画像通信のためのビデオ信号圧縮方法。
前記量子化ステップサイズ設定段階は、前記話者領域及び前記顔領域のうち少なくとも１つに基づいて前記量子化ステップサイズを可変的に設定する段階からなることを特徴とする請求項９に記載のビデオエンコーダを利用した画像通信のためのビデオ信号圧縮方法。
前記動き推定段階は、前記ビデオ信号の現在フレームと、前記ビデオ信号の以前のフレームを符号化及び復号化し、前記符号化及び復号化された以前フレームの動きを補償することによって得られた参照フレームとを一定の画素間隔でそれぞれの画素対画素を比較して最も類似した画素を検出して前記個体の動きを推定し、前記個体の動き推定に対応する前記動きベクトルを算出することを特徴とする請求項１０に記載のビデオエンコーダを利用した画像通信のためのビデオ信号圧縮方法。
前記話者領域検出段階は、前記動きベクトルから前記動きベクトルのサイズ及び方向によって背景イメージベクトル及び前景イメージベクトルを算出し、前記背景イメージベクトル及び前記前景イメージベクトルから話者領域を検出する段階からなることを特徴とする請求項１１に記載のビデオエンコーダを利用した画像通信のためのビデオ信号圧縮方法。
前記顔領域検出段階は、前記離散コサイン変換係数のうち前記話者領域に対応する離散コサイン変換係数から同一領域に対して赤色成分のＤＣ値と青色成分のＤＣ値とを比較し、前記赤色成分が前記青色成分より大きく、また設定されたしきい値より大きい場合は、話者領域のうち前記比較された離散コサイン変換係数に対応する領域を前記話者の顔領域として判断する段階からなることを特徴とする請求項１２に記載のビデオエンコーダを利用した画像通信のためのビデオ信号圧縮方法。
前記量子化段階において差別量子化された離散コサイン変換係数に対して可変長符号化を遂行する段階をさらに含むことを特徴とする請求項１３に記載のビデオエンコーダを利用した画像通信のためのビデオ信号圧縮方法。
前記量子化段階において差別量子化された離散コサイン変換係数に対して逆量子化を遂行する段階と、
前記逆量子化された離散コサイン変換係数に対して逆離散コサイン変換を遂行する段階と、
予め入力された逆離散コサイン変換されたビデオ信号と入力される逆離散コサイン変換されたビデオ信号とを比較することによって前記個体の動きを補償する段階と、をさらに含むことを特徴とする請求項１４に記載のビデオエンコーダを利用した画像通信のためのビデオ信号圧縮方法。
前記動き推定段階は、前記動き補償段階において動きが補償されたビデオ信号に基づいて外部から入力されるビデオ信号に対する前記動きベクトルを算出する段階からなることを特徴とする請求項１５に記載のビデオエンコーダを利用した画像通信のためのビデオ信号圧縮方法。