JPH06217276A

JPH06217276A - 動画像符号化装置

Info

Publication number: JPH06217276A
Application number: JP21302693A
Authority: JP
Inventors: Osamu Okada; 理岡田; Shigenobu Minami; 重信南; Shoichiro Yamazaki; 彰一郎山崎
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1992-08-27
Filing date: 1993-08-27
Publication date: 1994-08-05

Abstract

(57)【要約】【目的】本発明は、発言者の位置を精度良く推定し、発
言者の表示領域を鮮明に表示することができる動画像符
号化装置を提供する。【構成】被写体を撮像して画像信号化するテレビカメラ
１２と、互いに離間して配置され、テレビカメラにより
撮像される被写体の音声を収音して音声信号を出力する
複数のマイクロフォン１１Ｌ，１１Ｒと、これらマイク
ロフォンから得られた音声信号から音源位置を推定する
推定回路１３と、推定回路により推定された音源位置を
中心に所定の範囲の画像領域を他の画像領域よりも高い
解像度となるように所定範囲の画像領域の映像信号を他
の画像領域の映像信号よりも多めに符号量を割り当てて
符号化する符号化回路とにより構成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、映像信号を符号化する
ための符号化装置に係わり、特に画像の注目部分を、映
像信号とともに得られる音声信号により特定し、その特
定した画像領域については割り当て符号量を増大して画
像符号化を行う動画像符号化装置に関する。

【０００２】

【従来の技術】近年、通信技術の進歩に伴い、離れた場
所にいながら会議のできる遠隔会議システム（テレビ会
議システム）や、個人でも利用できるテレビ電話システ
ムなどが実用に供されるようになっている。

【０００３】このようなシステムにおいては、電話回線
等の通信回線を使用して映像と音声を伝送するが、その
ためにチャネル当たりの伝送可能な符号量が制限される
ために、この制限される上限の符号量以内に映像信号の
データ量を抑えるべく、符号化して画像情報を伝送す
る。

【０００４】単位時間当たりの伝送可能な符号量は十分
なものではないから、動画像を伝送する場合には、自然
な動きを確保するために１コマ当たりの画像の符号量は
伝送レートで決まってしまう。

【０００５】一般的には、画面全体が均一の解像度にな
るように符号化を行うが、そのために、相手の顔が不鮮
明であったりする弊害がある。通常、人間の感覚では画
面全体に注意が行き届くわけではなく、画面中の注目部
分に神経が集中する傾向がある。従って、注目部分の画
質を向上させれば、他の部分は多少解像度が悪くとも気
にならない。

【０００６】このような観点から、主観的な画質を向上
させることを目的として、より重要な情報源である人物
の顔領域を他の領域よりも鮮明に表示する符号化方式の
検討が行われており、その中にフレーム間差分画像を用
いた手法（文献「上野他、“カラー動画ＴＶ電話におけ
る顔領域検出方式の一検討”，1989年電子情報通信学会
春期全国大会D-92」）等が提案されている。

【０００７】このシステムは、テレビカメラで通話者を
撮影し、これにより得られた映像信号から、画像上の動
きのある部分を検出し、検出した領域から発言者の顔領
域を推定し、この推定した顔領域について符号量を多め
に割り当て、他の領域には割り当て符号量を少なくする
符号化処理を施すことにより、人物の顔領域を他の領域
よりも鮮明に表示できるようにしている。

【０００８】

【発明が解決しようとする課題】動画ＴＶ電話における
顔領域検出方式を会議システムに応用する場合に、人物
以外に動きのあるものが写ってしまったり、あるいは複
数の人物が写っていて、それぞれの表情に動きがあるよ
うな場合などでは発言者の顔領域の推定が困難になって
しまう。

【０００９】このように、複数の人物が写っていたり、
人物以外に動きのあるものが写っている場合に、動画像
の顔領域を検出する方式で最も重要である発言者の顔領
域のみを抽出することができないと云う欠点がある。

【００１０】そこで、この発明の目的は、映像信号中の
発言者の位置を精度良く推定することができて、画面中
の発言者の領域を適確に抽出でき、従って、発言者の写
っている領域を鮮明に表示することができる動画像符号
化装置を提供することにある。

【００１１】

【課題を解決するための手段】この発明によると、映像
信号を符号化して伝送する画像伝送装置において、被写
体を撮像し、映像信号を発生するテレビカメラと、この
テレビカメラにより撮像される被写体の音声を収音し、
音声信号を出力し、互いに離間して配置された複数のマ
イクロフォンと、これら複数のマイクロフォンから得ら
れた音声信号から音源位置を推定する音源位置推定回路
と、この音源位置推定回路により推定された音源位置を
中心に所定の範囲の画像領域を高い解像度となるように
この画像領域に対応する映像信号を、他の画像領域より
多めに割り当てた符号量(codedbit rate)で符号化する
符号化回路とより構成される動画像符号化装置が提供さ
れる。

【００１２】

【作用】上記構成の動画像符号化装置によると、テレビ
カメラが被写体を撮像し、映像信号を出力する。一方、
被写体の前に互いに離間して配置された複数のマイクロ
フォンが音声を収音し、音源位置推定回路は収音した複
数チャンネル分の音声信号に基づいて被写体中の音源位
置を推定する。符号化回路はテレビカメラから出力され
る映像信号を符号化するに当たり、推定回路により推定
された音源位置を中心に所定の範囲の画像領域が高い解
像度となるように他の画像領域よりも多めに割り当てた
符号量で当該画像領域の映像信号が符号化される。

【００１３】この結果、画面の音源位置周辺を重点的に
高解像度で符号化することができるので、発言者をより
鮮明に映し出されるように映像信号を符号化できる動画
像符号化が実現できる。特に、推定された音源位置を中
心に所定の範囲の画像領域を画面中の被写体顔領域の範
囲に合わせておくことにより、発言者の顔領域が高い解
像度となるように映像信号を符号化できる。

【００１４】

【実施例】以下、この発明の一実施例について図面を参
照しながら説明する。この発明は、複数チャンネルの音
声信号から音源位置を推定し、この推定した音源位置周
辺を重点的に画像を符号化することにより、発言者をよ
り鮮明なるように符号化する動画像符号化方式を採用し
た画像符号化装置を提供する。

【００１５】図２は、この発明の画像符号化装置を有す
るテレビ会議システムの会議室の概略構成を示してお
り、この図では、１台のテレビカメラが３名の会議出席
者を捉えている。

【００１６】図２に示すように、会議出席者Ａ１ないし
Ａ３が座っている机９上には、出席者の音声を取り込む
ように左右に一定の間隔で２個のマイクロフォン（感音
手段）１１Ｒおよび１１Ｌが置かれている。また、机９
の前方には、テレビカメラ１２が設けられ、机９に並ん
で座っている会議出席者Ａ１ないしＡ３の像を捉えて映
像信号を発生する。

【００１７】右用および左用のマイクロフォン１１Ｒお
よび１１Ｌによって入力された音声信号およびテレビカ
メラ１２によって入力された映像信号は、画像処理系で
ある図１に示す画像推定符号化部１０に入力され、ここ
で１画面当たり所定の符号量に収まるように符号化され
る。なお、音声信号は図示しない音声信号処理系にも与
えられ、ここでディジタル信号に変換され、符号化され
た映像信号と共に伝送路へと送り出され、相手側に伝送
される。

【００１８】画像処理系である画像推定符号化部１０
は、テレビカメラ１２が捉えた会議出席者Ａ１ないしＡ
３の像のうち、発言者の顔領域の位置を推定してこの推
定位置の領域の映像信号を他の領域の映像信号より多め
に割り当てた符号量Ｍ（ｉ）で符号化し、他の領域をそ
の残りの符号量Ｍ（０）で符号化する。すなわち、１画
面当たりの総符号量Ｍ(total) は決められており、この
決められた符号量を推定位置の領域に割り当てる符号量
（Ｍ（ｉ））と、その他の領域に割り当てる符号量（Ｍ
（０））とに配分される。即ち、Ｍ(total) ＝Ｍ（ｉ）
＋Ｍ（０）となる。

【００１９】この画像推定符号化部１０は図１に示すよ
うに、音源位置推定部１３と音源位置情報記憶部１４と
画像符号化部１５および画像メモリ１６とからなる。画
像メモリ１６はテレビカメラ１２から得られる映像信号
をディジタル変換して得た画像データを、画面単位で一
時保持するメモリであり、画像を扱うために複数枚分の
画像を記憶する容量を有し、画像データを逐次更新記憶
する。音源位置推定部１３は音源位置を推定する。即
ち、この推定部１３は発言者の位置をマイクロフォン１
１Ｒおよび１１Ｌの音声信号出力から推定すると共に、
画像メモリ１６に保持された画像データから左右のマイ
クロフォン１１Ｌおよび１１Ｒ位置から画像上の音源位
置、すなわち、発言者領域を推定する。音源位置情報記
憶部１４は音源位置推定部１３にて推定された音源位置
の情報と、推定を行った時刻の情報とを記憶する。この
とき、時刻情報は外部から与えるか、若しくは画像推定
符号化部１０に時計回路を設けてこれより得るようにす
る。

【００２０】画像符号化部１５は音源位置情報記憶部１
４の情報を用いて画像メモリ１６に保持された画像デー
タを符号化して出力する。即ち、これは、映像信号のう
ち、発言者位置を中心とした領域をより鮮明に表示する
ような符号化を行う。そのために、画像符号化部１５
は、音源位置情報記憶部１４に記憶された発言者位置情
報をもとに、その発言者位置の画像上の領域を重点符号
化領域として決定し、この重点符号化領域の映像信号に
対して符号量Ｍ（ｉ）を割り当て、他の領域の映像信号
に対して符号量Ｍ（０）を割り当てて、その割り当てら
れた範囲内に収まるように、それぞれの領域の映像信号
を符号化する。

【００２１】音源位置推定部１３は図３に示すように、
遅延回路３１、推定回路３２、減算回路３３および音源
位置推定回路３４とから構成されている。これらのう
ち、遅延回路３１は左マイクロフォン１１Ｌで得た左チ
ャンネルの音声入力信号を遅延し、推定回路３２はこの
遅延回路３１から出力する遅延左チャンネルの音声入力
信号と右マイクロフォン１１Ｒで得た右チャンネル音声
信号とから左チャンネル音声信号を推定する。減算回路
３３は遅延回路３１から出力する遅延左チャンネル音声
信号と推定回路３２から出力する推定左チャンネル音声
信号を入力とし、左チャンネル音声信号から推定左チャ
ンネル音声信号を差し引いてその差信号を得る回路であ
る。この差信号が推定回路３２にフィードバックされる
ことにより、推定回路３２は当該差信号が零になるよう
な推定左チャンネル音声信号を推定して出力し、それに
より、推定回路３２は遅延左チャンネルの音声入力信号
を参照して右マイクロフォン１１Ｒで得た右チャンネル
音声信号から左チャンネル音声信号を推定インパルス応
答系列Ｈ（ｋ）として推定できることになる。音源位置
推定回路３４は推定回路３２の求めた推定インパルス応
答系列Ｈ（ｋ）を用いて音源位置を推定する。

【００２２】上記のような構成において、テレビカメラ
１２により会議出席者を撮影し、同時に机９上のマイク
ロフォン１１Ｒおよび１１Ｌにより音声を収音する。テ
レビカメラ１２からの映像信号は画像符号化部１５に送
られ、マイクロフォン１１Ｒおよび１１Ｌからの音声信
号は音源位置推定部１３に送られる。音源位置推定部１
３はこの音声信号をもとに、音源の位置を推定し、推定
結果は音源位置情報記憶部１４に記憶される。

【００２３】画像符号化部１５はこの音源位置情報記憶
部１４に記憶されている最新の音源位置情報を利用して
テレビ画像における画面上の音源位置対応領域を特定
し、その領域を予め設定した符号量Ｍ（ｉ）で、また、
その他の領域は符号量Ｍ（０）で符号化し、伝送する。
これにより、テレビ会議に出席している人のうち、発言
者が受信側のモニタ（図示せず）に高解像度で表示でき
る。

【００２４】発言者の特定についてもう少し具体的に説
明する。図３において、発言者Ａ１が発した音声をＸ
（ω）とすると、この音声Ｘ（ω）はマイクロフォン１
１Ｒおよび１１Ｌに収音される。いま、この音声Ｘ
（ω）を発することにより右側のマイクロフォン１１Ｒ
の入力音声信号をＹＲ（ω）および左側のマイクロフォ
ン１１Ｌの入力音声信号をＹＬＯ（ω）とすると、これ
ら入力音声信号ＹＲ（ω）およびＹＬＯ（ω）は発生源
からマイクロフォンまでの音声の伝播遅延並びに室内の
音声特性で決まる伝達関数ＦＲ（ω）およびＧＬ（ω）
により以下のように表わされる。ただし、ωは角周波数
である。

【００２５】ＹＲ（ω）＝ＦＲ（ω）Ｘ（ω） … （１）ＹＬＯ（ω）＝ＧＬ（ω）Ｘ（ω） … （２）さらに、左チャンネル入力音声信号ＹＬＯ（ω）は、推
定回路３２における因果律を保証するための遅延回路３
１によってＣ（ω）なるフラットな遅延を受ける。これ
によって左チャンネル入力音声信号ＹＬＯ（ω）は、遅
延回路３１まで含めた伝達関数ＦＬ（ω）により以下の
ＹＬ（ω）のように表わすことができる。

【００２６】ＹＬ（ω）＝Ｃ（ω）ＧＬ（ω）Ｘ（ω）＝ＦＬ（ω）Ｘ（ω） … （３）この左チャンネル入力音声信号ＹＬ（ω）は、減算回路
３３に入力される。推定回路３２は、右チャンネルの音
声信号ＹＲ（ω）および左チャンネルの音声信号ＹＬ
（ω）を用い、右チャンネル音声信号ＹＲ（ω）より左
チャンネル音声信号ＹＬ（ω）を得るための伝達関数Ｇ
（ω）を次式（４）に基づき推定し、この伝達関数Ｇ
（ω）から推定伝達関数Ｇｐ（ω）を生成する。

【００２７】Ｇ（ω）＝ＧＬ（ω）／ＦＲ（ω） … （４）上記伝達関数Ｇ（ω）に対する推定伝達関数Ｇｐ（ω）
の生成は、具体的には次のようにして行う。

【００２８】推定回路３２は、まず右チャンネルの音声
信号ＹＲ（ω）を用いて時間領域の推定左チャンネル音
声信号ｙｐ（ω）を算出する。推定回路３２は、図４Ａ
に示すような時間領域の推定左チャンネル音声信号ｙｐ
（ｋ）を算出する適応トランスバーサルフィルタ３２ａ
と、図４Ｂに示すような伝達関数Ｇ（ω）の推定インパ
ルス応答系列Ｈｐ（ｋ）を逐次更新する修正回路３２ｂ
とにより構成されている。適応トランスバーサルフィル
タ３２ａと修正回路３２ｂは図示しないクロック発生源
から与えられるシステムクロックに同期して動作する。
適応トランスバーサルフィルタ３２ａは、入力音声信号
ＹＲ（ω）を順次送って右チャンネル音声信号ｘ（ｋ）
ないしｘ（ｋ−ｎ＋１）を各時間成分毎の値に変換する
ｎタップのシフトレジスタ４１₁ ないし４１_n-1 と、修
正回路３２ｂで修正された各時間成分毎の推定インパル
ス応答ｈｐ１（ｋ）ないしｈｐｎ（ｋ）と上記シフトレ
ジスタ４１₁ ないし４１_n-1 を経て得られる右チャンネ
ル音声信号ｘ（ｋ）ないしｘ（ｋ−ｎ−１）との各成分
毎の乗算を行う乗算器４２₁ ないし４２_n と、この乗算
結果の総和（Σ）を求めて推定左チャンネル音声入力信
号ｙｐ（ｋ）を得る加算器４３とより構成されている。

【００２９】すなわち、修正回路３２ｂは後述する（１
０）式の演算を行って推定インパルス応答系列ｈｐ１
（ｋ）ないしｈｐｎ（ｋ）を求め、それらを時間成分別
に分けて適応トランスバーサルフィルタ３２ａの対応す
る乗算器４２₁ ないし４２_n に与える。乗算器４２₁ な
いし４２_n は推定インパルス応答系列ｈｐ１（ｋ）ない
しｈｐｎ（ｋ）とシフトレジスタ４１₁ ないし４１_n-1
を経て得られる右チャンネル音声信号ｘ（ｋ）ないしｘ
（ｋ−ｎ＋１）とを各成分毎に乗算し、時間成分別の推
定左チャンネル音声信号を得る。これら時間成分別推定
左チャンネル音声信号を加算器４３が加算することによ
って推定左チャンネル音声信号ｙｐ（ｋ）を求める。

【００３０】このような推定回路３２において、まず右
チャンネル音声信号ｘ（ｋ）は一段当たり１サンプル時
間分の遅延時間を有するｎ段のシフトレジスタ４１₁ な
いし４１_n-1 に入力され、次式（５）に示すような時系
列ベクトルが生成される。

【００３１】Ｘ（ｋ）＝（ｘ（ｋ），ｘ（ｋ−１），…，ｘ（ｋ−ｎ
＋１))^T …（５）但し、（）^T は転置ベクトルを示す。一方、推定伝達
関数Ｇｐ（ω）に時間領域において近似した推定インパ
ルス応答系列Ｈｐ（ｋ）を次式（６）により表すと、Ｈｐ（ｋ）＝（ｈｐ１（ｋ），ｈｐ２（ｋ），…，ｈｐ
ｎ（ｋ))^T …（６）次式（７）により左チャンネル音声信号ｙ（ｋ）の推定
値である推定左チャンネル音声信号ｙｐ（ｋ）を得るこ
とができる。

【００３２】ｙｐ（ｋ）＝Ｈｐ（ｋ）^T ・Ｘ（ｋ） … （７）このとき、伝達関数Ｇ（ω）のインパルス応答系列Ｈが
次式（８）により表されると（但し、ｎは任意の整
数）、伝達関数の推定が良好に行われることになる。

【００３３】Ｈ＝（ｈ１，ｈ２，…，ｈｎ）T … （８）従って、推定インパルス応答系列Ｈｐ（ｋ）がＨｐ（ｋ）＝Ｈ … （９）となったときに、推定左チャンネル音声信号ｙｐ（ｋ）
が実際の左チャンネル音声信号ｙ（ｋ）にかなり近似す
る。

【００３４】従って、（９）式の関係が得られる伝達関
数Ｇ（ω）になるような推定伝達関数Ｇｐ（ω）を探せ
ば良いわけであり、それには推定伝達関数Ｇｐ（ω）が
伝達関数Ｇ（ω）になるような推定インパルス応答系列
Ｈｐ（ｋ）を推定できれば良いことになる。

【００３５】ここで、推定回路３２における推定インパ
ルス応答系列Ｈｐ（ｋ）の推定は、適応トランスバーサ
ルフィルタ３２ａにおいて、ｎ段のシフトレジスタ４１
₁ ないし４１_n-1 の入出力として得られる時系列ベクト
ルｘ（ｋ）ないしｘ（ｋ−ｎ＋１）を用いて、修正回路
３２ｂにより逐次的に例えば、以下の演算を行うことに
より達成される。

【００３６】

【数１】

【００３７】このアルゴリズムは、公知の学習同定法で
ある。なお、（１０）式において、ｅ（ｋ）は、図３の
減算回路３３の出力であり、この出力ｅ（ｋ）は推定左
チャンネル音声信号をｙｐ（ｋ）とすると、つぎの（１
１）式の関係を有している。

【００３８】ｅ（ｋ）＝ｙ（ｋ）−ｙｐ（ｋ） … （１１）従って、減算回路３３の出力ｅ（ｋ）は左チャンネル音
声信号ｙ（ｋ）に対する推定左チャンネル音声信号ｙｐ
（ｋ）との差信号と云うことになる。また、（１０）式
において、αは（１０）式の収束速度および安定性を決
定する係数となり、音源５１から左右のマイクロフォン
１１Ｌおよび１１Ｒ位置までの距離差を表す。

【００３９】従って、画像推定符号化部１０では、画像
メモリ１６に保持された画像データから左右のマイクロ
フォン１１Ｌおよび１１Ｒ位置を調べ、距離差αを求
め、これと減算回路３３の出力ｅ（ｋ）を利用して修正
回路３２ｂは（１０）式の演算を行うことにより、推定
インパルス応答系列Ｈｐ（ｋ）の推定を行うことができ
る。

【００４０】以上の処理により求められた推定インパル
ス応答系列Ｈｐ（ｋ）から、音源位置推定回路３４によ
り音源位置が推定される。この推定はつぎのようにして
行う。

【００４１】推定インパルス応答系列Ｈｐ（ｋ）の係数
のうち、最大値をとる項をＭx とする。このとき、サン
プリング周期をＴ（sec)、音速をｖ（m/sec)、タップ数
をｎとすると、音源から左右のマイクロフォン１１Ｌお
よび１１Ｒ位置までの距離差αは次式（１２）により推
定できる。

【００４２】 α＝ｖ・Ｔ（Ｍx −Ｎ／２） … （１２）ここで、図５に示すように、左右のマイクロフォン１１
Ｌおよび１１Ｒを直線５２で結び、この直線５２に平行
な直線５３を想定し、音源５１の位置が左右のマイクロ
フォン１１Ｌおよび１１Ｒから一定距離離れた直線５３
上に存在すると仮定する。このとき、直線５２における
左右のマイクロフォン１１Ｌおよび１１Ｒの中心点位置
Ｐｏを通り、直線５２に垂直な線５４と直線５３との交
点から音源５１までの距離をａ、右マイクロフォン１１
Ｒから音源５１までの直線距離をｂ、音源５１を通る直
線５３とマイクロフォン１１Ｌおよび１１Ｒを通る直線
５２との間の垂線の長さをｃ，マイクロフォン１１Ｌお
よび１１Ｒ間の距離を２ｄとすると、次の連立方程式が
成り立つ。

【００４３】（ｂ＋ａ）2 ＝（ｄ＋ａ）2 ＋ｃ2 ｂ2 ＝（ｄ−ａ）2 ＋ｃ2 … （１３）この連立方程式からｂを消去してａを解くことにより、
音源位置Ｐａを推定することができる。

【００４４】上記のように推定された音源位置Ｐａのデ
ータが音源位置情報記憶部１４を介して画像符号化部１
５に入力されると、音源位置を中心とする画像領域が重
点符号化領域としてこの領域に対応する画像データが他
の領域の画像データよりも多い符号化量で符号化され
る。この符号化について詳しく説明する。

【００４５】画像メモリ１６には、図６に示されるよう
に１フレームの画像データが、例えば、１ブロックを８
画素×８ラインとして４４×３６ブロックに分けて記憶
されている。この画像メモリ１６に記憶された画像デー
タはブロック単位で順次に画像符号化部１５に送られ
る。画像符号化部１５は、図７に示されるように画像メ
モリ１６の読み出し端子に接続される直交変換（ＤＣ
Ｔ）回路７１と、ＤＣＴ回路７１の出力端子に接続され
る量子化回路７２と、量子化回路７２の出力端子に接続
される可変長符号化回路７３と、量子化回路７２の制御
端子に接続される量子化ステップサイズ決定回路７４と
により構成される。この画像符号化部１５には、更にマ
ーカ認識回路７５および重点符号化領域決定回路７６が
含まれている。マーカ認識回路７５は画像メモリ１６か
ら読み出された画像データから左右マイクロフォン１１
Ｌおよび１１Ｒの位置に対応付けて設けられた２つのマ
ーカ６１ａおよび６１ｂを認識し、画面上でのマイクロ
フォン１１Ｌと１１Ｒとの間の距離２ｄ’を求める。な
お、マーカはマイクロフォンを会議室に配置したときに
オペレータによって装置に入力される。

【００４６】求められた距離２ｄ’の情報が重点符号化
領域決定回路７６に入力されることにより、この回路７
６はこの距離（２ｄ’）情報と音源位置情報記憶部１４
から読み出される音源位置情報とから距離２ｄ’の中心
から発言者の位置６２までの距離ａ’を次式１４により
求める。

【００４７】ａ´＝ａ・ｄ´／ｄ … （１４）更に、重点符号化領域決定回路７６は発言者位置６２を
中心として予め設定した幅２ｗ´の領域６３を重点符号
化領域と決定する。この重点符号化領域に関する情報が
ステップサイズ決定回路７４に入力されると、このステ
ップサイズ決定回路７４は重点符号化領域の画像データ
を、他の領域の画像データよりも多くの符号量で符号化
するためのステップサイズを決定する。決定されたステ
ップサイズの情報が量子化回路７２に入力されると、量
子化回路７２は画像メモリ１６から読み出され、ＤＣＴ
回路７１により直交変換された画像データを決定された
ステップサイズで、即ち符号量で量子化する。この場
合、重点符号化領域６３に対応する画像データが量子化
回路７２に入力されたときに決定されたステップサイズ
で量子化されるが、他の領域の画像データは領域６３の
画像データに対するステップサイズよりも荒いステップ
サイズで量子化される。量子化された画像データは可変
長符号化回路７３により可変長符号化され、符号化画像
データとして出力される。

【００４８】上記のように符号化された画像データが受
信側に送られ、受信モニタに表示されると、発言者の画
像が他の画像よりも高解像度で表示される。上記実施例
においては、音源位置情報記憶部１４には音源情報だけ
記憶されるとして説明したが次のように時間情報をも記
憶しても良い。

【００４９】即ち、音源位置推定部１３は音源位置推定
回路３４において、推定インパルス応答系列Ｈｐ（ｋ）
の係数のうち、最大値をとる項をもとに音源位置Ｐａを
推定するが、この音源位置推定部１３にて推定された音
源位置Ｐａの情報と、推定を行った時刻を、図示しない
制御装置の制御のもとに音源位置情報記憶部１４に記憶
する。このとき、現在よりｔ時刻だけ過去の音源位置Ｐ
ａ（ｔ）が、最新の音源位置Ｐａから左右にそれぞれ一
定の幅ｗ以内にある場合には過去の音源位置Ｐａ（ｔ）
の記憶情報を音源位置情報記憶部１４から消去するよう
に、制御装置によって記憶部１４が制御される。これに
よって、音源位置情報記憶部１４には現在の発言者の発
言位置と、過去に発言した者（Ｎ人）の最後の発言位置
の情報が以下のように記憶される。

【００５０】Ｔ（１），Ｌ（１）Ｔ（２），Ｌ（２）：：Ｔ（Ｎ），Ｌ（Ｎ）ただし、Ｔ（１）＜Ｔ（２）＜ … ＜Ｔ（Ｎ） … （１５）ここで、Ｔ（ｉ）は発言者ｉが最後に発言してから経過
した時間、Ｌ（ｉ）は発言者ｉが最後に発言した位置を
示すデータである。また、Ｔ（１）は現在の発言者の音
声サンプリングにより上記演算処理した時点での時間、
Ｌ（１）は現在の発言者の発言した位置を示すデータで
ある。

【００５１】画像符号化部１５では、音源位置情報記憶
部１４に記憶された最新の発言者の位置Ｌ（１）の情報
をもとに、上述したように画像の符号化を行う。いま、
画面全体の符号量をＭ、画面全体の幅をＷL とし、発言
者ｉの重点符号化領域の重要度をＲ（ｉ）、重点符号化
領域以外の領域の重要度をＲ（０）とする。このとき、
重要度Ｒ（ｉ）およびＲ（０）は自由に設定できるが、
より最近に発言した人に高い重要度を与えるとすると、Ｒ（１）＞Ｒ（２）＞ … ＞Ｒ（Ｎ）＞Ｒ（０） … （１６）となるように設定できる。

【００５２】このとき、最新の発言者の重点符号化領域
（最新の発言者の画像領域）の符号量Ｍ（ｉ）、この重
点符号化領域以外の領域の符号量Ｍ（０）は、Ｍ（ｉ）＝Ｍ・ｗ´・Ｒ（ｉ）／ＲＴＭ（０）＝Ｍ・（ＷL −Ｎ・ｗ´）Ｒ（０）／ＲＴとなるように割り当てる。ただし、ＲＴはＲＴ＝ｗ´（Ｒ(1) ＋Ｒ(2) ＋…＋Ｒ(N) ）＋（ＷL −Ｎ・ｗ´）Ｒ(0) … （１７）従って、このように発言者ｉの重点符号化領域に多めの
符号量Ｍ（ｉ）を割り当て、他の領域に残りの符号量Ｍ
（０）を割り当ててその割り当て範囲内で符号化を行う
ことにより、発言者位置を中心とした領域をより鮮明に
表示するような符号化を行うことができるようになるた
め、画面当たりの総符号量は従来と変わりないが、画面
全体の主観的な画質の向上を計ることができるようにな
る。

【００５３】以上のように、異なる位置に配置した複数
のマイクロフォンでそれぞれ収音した複数チャンネルの
音声信号と、マイクロフォンおよび発言者を含めた映像
画面上のマイクロフォン位置とから音源位置を推定する
ようにしたことにより、映像画面上の発言者の画像領域
を適確に抽出できるようになり、発言者の画像領域につ
いて符号量を多めに割り当てて符号化するようにしたこ
とにより、発言者の像領域について鮮明に表示すること
が可能な動画像符号化方式が得られる。

【００５４】なお、この発明は、上述した実施例に限定
されるものではなく、その要旨を変更しない範囲内で適
宜変形して実施し得る。例えば、上述した実施例におけ
る音源位置推定部１３の推定回路３２では、時間領域の
適応トランスバーサルフィルタを用いているが、周波数
領域の適応トランスバーサルフィルタなどの他の回路構
成であっても良い。また、推定アルゴリズムとして学習
同定法を例にして説明したが、最急降下法などの他の学
習アルゴリズムを用いることもできる。

【００５５】さらに、音源位置推定回路３４において、
推定インパルス応答系列Ｈｐ（ｋ）の係数のうち、最大
値をとる項をもとに音源位置を推定したが、他の方法を
用いても良い。

【００５６】また、画像符号化部１５の重点符号化領域
の決定方法も、上述した方法に限らず、重点符号化領域
６３において顔領域検出を行うなどの他の方法であって
も良い。また、画像符号化部１５における重要度の設定
方法についても、現在までに発言した時間に応じて重要
度を設定する方法、最後に発言してからの時間と現在ま
でに発言した時間との両方を加味して重要度を設定する
方法などの他の手法であっても構わない。

【００５７】また、テレビ会議システムでは、被写体は
ほぼ定位置固定であり、テレビ画面は被写体に対して同
一視野角を維持するために、画面上の被写体は被写体自
身が移動しない限り、位置に変化はないから、画像符号
化部１５における重要度の設定や重点符号化領域の設定
を外部から行うことにより、例えばＶＩＰは常に高精細
に符号化を行うようにすることもできる。更には、画面
と被写体との関係が変わらないことから、発言者の画像
領域ではなく、発言者の顔部分の領域を特定することは
容易であるから、この特定した顔領域について解像度を
高めるように符号量を割り当てる構成とすることもでき
る。

【００５８】さらに、画像符号化部１５の符号化方式に
ついても、上述の実施例において、各フレーム毎に重点
符号化領域６３に多くの符号量を与えて精細に符号化を
行う手法について述べたが、重点符号化領域６３以外の
部分をコマ落としの状態にすることによって重点符号化
領域６３に多くの符号量を与えて精細に符号化を行って
も良い。また、発言者の履歴に対応して最新の発言者ほ
ど高解像度にし、発言の古い者ほど低解像度にする等
の、発言順位等に対応させた重み付けにより解像度を変
えるなどしても良い。

【００５９】なお、上述した実施例では、音声入力を２
チャンネルとしたが、３チャンネル以上あっても良い。
この場合、マイクロフォンの配置に上下方向の高低差を
与えることにより、音源位置の２次元の推定が可能とな
り、この場合には音源として画面上の一点を推定するこ
とができるようになり、より高精度の音源位置推定が可
能となる。

【００６０】

【発明の効果】上述した発明によれば、複数チャンネル
の音声信号から音源位置を推定し、音源位置周辺を重点
的に符号化することにより、発言者をより鮮明なるよう
に符号化する動画像符号化方式を提供できる。

【図面の簡単な説明】

【図１】本発明の一実施例に係わるテレビ会議システム
の画像符号化部の構成例を示すブロック図。

【図２】本発明の実施例を説明するための図であって、
本発明に係わるテレビ会議システムの会議室の構成を示
す図。

【図３】図１に示す音源位置推定部の構成を示すブロッ
ク図。

【図４】図３に示す音源位置推定回路の構成を示す回路
図。

【図５】図３に示す音源位置推定回路の推定方法を説明
するための図。

【図６】図１に示す画像符号化部の重点符号化領域の決
定方法を説明するための図。

【図７】図１に示す画像符号化部のブロック回路図。

【符号の説明】

１０…画像推定符号化部１１Ｒ，１１Ｌ…マイクロフォン１２…テレビカメラ１３…音源位置推定部１４…音源位置情報記憶部１５…画像符号化部１６…画像メモリ３１…遅延回路３２…推定回路３３…減算回路３４…音源位置推定回路。

Claims

【特許請求の範囲】

【請求項１】音声を発する少なくとも１つの被写体を
撮像して映像信号を出力する撮像手段と、互いに離間して配置配され、前記撮像手段により撮像さ
れる被写体の音声を収音して音声信号を出力する複数の
感音手段と、前記複数の感音手段から出力される音声信号から音源位
置を推定する推定手段と、前記推定手段より推定された音源位置を中心に所定の範
囲の画像領域に対応する映像信号を、他の画像領域に対
応する映像信号よりも多く符号量を割当て符号化する符
号化手段と、により構成される動画像符号化装置。
【請求項２】音声を発する少なくとも１つの被写体を
撮像して映像信号を出力する撮像手段と、互いに離間して配置され、前記撮像手段により撮像され
る被写体の音声を収音して音声信号を出力する複数の感
音手段と、前記複数の感音手段から得られた音声信号から音源位置
を推定する推定手段と、前記推定手段により推定された現在及び過去の音源位置
情報の履歴を記憶する音源位置記憶手段と、前記音源位置記憶手段に記憶された音源位置情報及び過
去の音源位置情報の履歴を利用して位置に応じた符号量
で映像信号を符号化する符号化手段と、により構成される動画像符号化装置。