JPH06217276A - 動画像符号化装置 - Google Patents
動画像符号化装置Info
- Publication number
- JPH06217276A JPH06217276A JP21302693A JP21302693A JPH06217276A JP H06217276 A JPH06217276 A JP H06217276A JP 21302693 A JP21302693 A JP 21302693A JP 21302693 A JP21302693 A JP 21302693A JP H06217276 A JPH06217276 A JP H06217276A
- Authority
- JP
- Japan
- Prior art keywords
- image
- sound source
- source position
- sound
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
(57)【要約】
【目的】本発明は、発言者の位置を精度良く推定し、発
言者の表示領域を鮮明に表示することができる動画像符
号化装置を提供する。 【構成】被写体を撮像して画像信号化するテレビカメラ
12と、互いに離間して配置され、テレビカメラにより
撮像される被写体の音声を収音して音声信号を出力する
複数のマイクロフォン11L,11Rと、これらマイク
ロフォンから得られた音声信号から音源位置を推定する
推定回路13と、推定回路により推定された音源位置を
中心に所定の範囲の画像領域を他の画像領域よりも高い
解像度となるように所定範囲の画像領域の映像信号を他
の画像領域の映像信号よりも多めに符号量を割り当てて
符号化する符号化回路とにより構成する。
言者の表示領域を鮮明に表示することができる動画像符
号化装置を提供する。 【構成】被写体を撮像して画像信号化するテレビカメラ
12と、互いに離間して配置され、テレビカメラにより
撮像される被写体の音声を収音して音声信号を出力する
複数のマイクロフォン11L,11Rと、これらマイク
ロフォンから得られた音声信号から音源位置を推定する
推定回路13と、推定回路により推定された音源位置を
中心に所定の範囲の画像領域を他の画像領域よりも高い
解像度となるように所定範囲の画像領域の映像信号を他
の画像領域の映像信号よりも多めに符号量を割り当てて
符号化する符号化回路とにより構成する。
Description
【0001】
【産業上の利用分野】本発明は、映像信号を符号化する
ための符号化装置に係わり、特に画像の注目部分を、映
像信号とともに得られる音声信号により特定し、その特
定した画像領域については割り当て符号量を増大して画
像符号化を行う動画像符号化装置に関する。
ための符号化装置に係わり、特に画像の注目部分を、映
像信号とともに得られる音声信号により特定し、その特
定した画像領域については割り当て符号量を増大して画
像符号化を行う動画像符号化装置に関する。
【0002】
【従来の技術】近年、通信技術の進歩に伴い、離れた場
所にいながら会議のできる遠隔会議システム(テレビ会
議システム)や、個人でも利用できるテレビ電話システ
ムなどが実用に供されるようになっている。
所にいながら会議のできる遠隔会議システム(テレビ会
議システム)や、個人でも利用できるテレビ電話システ
ムなどが実用に供されるようになっている。
【0003】このようなシステムにおいては、電話回線
等の通信回線を使用して映像と音声を伝送するが、その
ためにチャネル当たりの伝送可能な符号量が制限される
ために、この制限される上限の符号量以内に映像信号の
データ量を抑えるべく、符号化して画像情報を伝送す
る。
等の通信回線を使用して映像と音声を伝送するが、その
ためにチャネル当たりの伝送可能な符号量が制限される
ために、この制限される上限の符号量以内に映像信号の
データ量を抑えるべく、符号化して画像情報を伝送す
る。
【0004】単位時間当たりの伝送可能な符号量は十分
なものではないから、動画像を伝送する場合には、自然
な動きを確保するために1コマ当たりの画像の符号量は
伝送レートで決まってしまう。
なものではないから、動画像を伝送する場合には、自然
な動きを確保するために1コマ当たりの画像の符号量は
伝送レートで決まってしまう。
【0005】一般的には、画面全体が均一の解像度にな
るように符号化を行うが、そのために、相手の顔が不鮮
明であったりする弊害がある。通常、人間の感覚では画
面全体に注意が行き届くわけではなく、画面中の注目部
分に神経が集中する傾向がある。従って、注目部分の画
質を向上させれば、他の部分は多少解像度が悪くとも気
にならない。
るように符号化を行うが、そのために、相手の顔が不鮮
明であったりする弊害がある。通常、人間の感覚では画
面全体に注意が行き届くわけではなく、画面中の注目部
分に神経が集中する傾向がある。従って、注目部分の画
質を向上させれば、他の部分は多少解像度が悪くとも気
にならない。
【0006】このような観点から、主観的な画質を向上
させることを目的として、より重要な情報源である人物
の顔領域を他の領域よりも鮮明に表示する符号化方式の
検討が行われており、その中にフレーム間差分画像を用
いた手法(文献「上野他、“カラー動画TV電話におけ
る顔領域検出方式の一検討”,1989年電子情報通信学会
春期全国大会D-92」)等が提案されている。
させることを目的として、より重要な情報源である人物
の顔領域を他の領域よりも鮮明に表示する符号化方式の
検討が行われており、その中にフレーム間差分画像を用
いた手法(文献「上野他、“カラー動画TV電話におけ
る顔領域検出方式の一検討”,1989年電子情報通信学会
春期全国大会D-92」)等が提案されている。
【0007】このシステムは、テレビカメラで通話者を
撮影し、これにより得られた映像信号から、画像上の動
きのある部分を検出し、検出した領域から発言者の顔領
域を推定し、この推定した顔領域について符号量を多め
に割り当て、他の領域には割り当て符号量を少なくする
符号化処理を施すことにより、人物の顔領域を他の領域
よりも鮮明に表示できるようにしている。
撮影し、これにより得られた映像信号から、画像上の動
きのある部分を検出し、検出した領域から発言者の顔領
域を推定し、この推定した顔領域について符号量を多め
に割り当て、他の領域には割り当て符号量を少なくする
符号化処理を施すことにより、人物の顔領域を他の領域
よりも鮮明に表示できるようにしている。
【0008】
【発明が解決しようとする課題】動画TV電話における
顔領域検出方式を会議システムに応用する場合に、人物
以外に動きのあるものが写ってしまったり、あるいは複
数の人物が写っていて、それぞれの表情に動きがあるよ
うな場合などでは発言者の顔領域の推定が困難になって
しまう。
顔領域検出方式を会議システムに応用する場合に、人物
以外に動きのあるものが写ってしまったり、あるいは複
数の人物が写っていて、それぞれの表情に動きがあるよ
うな場合などでは発言者の顔領域の推定が困難になって
しまう。
【0009】このように、複数の人物が写っていたり、
人物以外に動きのあるものが写っている場合に、動画像
の顔領域を検出する方式で最も重要である発言者の顔領
域のみを抽出することができないと云う欠点がある。
人物以外に動きのあるものが写っている場合に、動画像
の顔領域を検出する方式で最も重要である発言者の顔領
域のみを抽出することができないと云う欠点がある。
【0010】そこで、この発明の目的は、映像信号中の
発言者の位置を精度良く推定することができて、画面中
の発言者の領域を適確に抽出でき、従って、発言者の写
っている領域を鮮明に表示することができる動画像符号
化装置を提供することにある。
発言者の位置を精度良く推定することができて、画面中
の発言者の領域を適確に抽出でき、従って、発言者の写
っている領域を鮮明に表示することができる動画像符号
化装置を提供することにある。
【0011】
【課題を解決するための手段】この発明によると、映像
信号を符号化して伝送する画像伝送装置において、被写
体を撮像し、映像信号を発生するテレビカメラと、この
テレビカメラにより撮像される被写体の音声を収音し、
音声信号を出力し、互いに離間して配置された複数のマ
イクロフォンと、これら複数のマイクロフォンから得ら
れた音声信号から音源位置を推定する音源位置推定回路
と、この音源位置推定回路により推定された音源位置を
中心に所定の範囲の画像領域を高い解像度となるように
この画像領域に対応する映像信号を、他の画像領域より
多めに割り当てた符号量(codedbit rate)で符号化する
符号化回路とより構成される動画像符号化装置が提供さ
れる。
信号を符号化して伝送する画像伝送装置において、被写
体を撮像し、映像信号を発生するテレビカメラと、この
テレビカメラにより撮像される被写体の音声を収音し、
音声信号を出力し、互いに離間して配置された複数のマ
イクロフォンと、これら複数のマイクロフォンから得ら
れた音声信号から音源位置を推定する音源位置推定回路
と、この音源位置推定回路により推定された音源位置を
中心に所定の範囲の画像領域を高い解像度となるように
この画像領域に対応する映像信号を、他の画像領域より
多めに割り当てた符号量(codedbit rate)で符号化する
符号化回路とより構成される動画像符号化装置が提供さ
れる。
【0012】
【作用】上記構成の動画像符号化装置によると、テレビ
カメラが被写体を撮像し、映像信号を出力する。一方、
被写体の前に互いに離間して配置された複数のマイクロ
フォンが音声を収音し、音源位置推定回路は収音した複
数チャンネル分の音声信号に基づいて被写体中の音源位
置を推定する。符号化回路はテレビカメラから出力され
る映像信号を符号化するに当たり、推定回路により推定
された音源位置を中心に所定の範囲の画像領域が高い解
像度となるように他の画像領域よりも多めに割り当てた
符号量で当該画像領域の映像信号が符号化される。
カメラが被写体を撮像し、映像信号を出力する。一方、
被写体の前に互いに離間して配置された複数のマイクロ
フォンが音声を収音し、音源位置推定回路は収音した複
数チャンネル分の音声信号に基づいて被写体中の音源位
置を推定する。符号化回路はテレビカメラから出力され
る映像信号を符号化するに当たり、推定回路により推定
された音源位置を中心に所定の範囲の画像領域が高い解
像度となるように他の画像領域よりも多めに割り当てた
符号量で当該画像領域の映像信号が符号化される。
【0013】この結果、画面の音源位置周辺を重点的に
高解像度で符号化することができるので、発言者をより
鮮明に映し出されるように映像信号を符号化できる動画
像符号化が実現できる。特に、推定された音源位置を中
心に所定の範囲の画像領域を画面中の被写体顔領域の範
囲に合わせておくことにより、発言者の顔領域が高い解
像度となるように映像信号を符号化できる。
高解像度で符号化することができるので、発言者をより
鮮明に映し出されるように映像信号を符号化できる動画
像符号化が実現できる。特に、推定された音源位置を中
心に所定の範囲の画像領域を画面中の被写体顔領域の範
囲に合わせておくことにより、発言者の顔領域が高い解
像度となるように映像信号を符号化できる。
【0014】
【実施例】以下、この発明の一実施例について図面を参
照しながら説明する。この発明は、複数チャンネルの音
声信号から音源位置を推定し、この推定した音源位置周
辺を重点的に画像を符号化することにより、発言者をよ
り鮮明なるように符号化する動画像符号化方式を採用し
た画像符号化装置を提供する。
照しながら説明する。この発明は、複数チャンネルの音
声信号から音源位置を推定し、この推定した音源位置周
辺を重点的に画像を符号化することにより、発言者をよ
り鮮明なるように符号化する動画像符号化方式を採用し
た画像符号化装置を提供する。
【0015】図2は、この発明の画像符号化装置を有す
るテレビ会議システムの会議室の概略構成を示してお
り、この図では、1台のテレビカメラが3名の会議出席
者を捉えている。
るテレビ会議システムの会議室の概略構成を示してお
り、この図では、1台のテレビカメラが3名の会議出席
者を捉えている。
【0016】図2に示すように、会議出席者A1ないし
A3が座っている机9上には、出席者の音声を取り込む
ように左右に一定の間隔で2個のマイクロフォン(感音
手段)11Rおよび11Lが置かれている。また、机9
の前方には、テレビカメラ12が設けられ、机9に並ん
で座っている会議出席者A1ないしA3の像を捉えて映
像信号を発生する。
A3が座っている机9上には、出席者の音声を取り込む
ように左右に一定の間隔で2個のマイクロフォン(感音
手段)11Rおよび11Lが置かれている。また、机9
の前方には、テレビカメラ12が設けられ、机9に並ん
で座っている会議出席者A1ないしA3の像を捉えて映
像信号を発生する。
【0017】右用および左用のマイクロフォン11Rお
よび11Lによって入力された音声信号およびテレビカ
メラ12によって入力された映像信号は、画像処理系で
ある図1に示す画像推定符号化部10に入力され、ここ
で1画面当たり所定の符号量に収まるように符号化され
る。なお、音声信号は図示しない音声信号処理系にも与
えられ、ここでディジタル信号に変換され、符号化され
た映像信号と共に伝送路へと送り出され、相手側に伝送
される。
よび11Lによって入力された音声信号およびテレビカ
メラ12によって入力された映像信号は、画像処理系で
ある図1に示す画像推定符号化部10に入力され、ここ
で1画面当たり所定の符号量に収まるように符号化され
る。なお、音声信号は図示しない音声信号処理系にも与
えられ、ここでディジタル信号に変換され、符号化され
た映像信号と共に伝送路へと送り出され、相手側に伝送
される。
【0018】画像処理系である画像推定符号化部10
は、テレビカメラ12が捉えた会議出席者A1ないしA
3の像のうち、発言者の顔領域の位置を推定してこの推
定位置の領域の映像信号を他の領域の映像信号より多め
に割り当てた符号量M(i)で符号化し、他の領域をそ
の残りの符号量M(0)で符号化する。すなわち、1画
面当たりの総符号量M(total) は決められており、この
決められた符号量を推定位置の領域に割り当てる符号量
(M(i))と、その他の領域に割り当てる符号量(M
(0))とに配分される。即ち、M(total) =M(i)
+M(0)となる。
は、テレビカメラ12が捉えた会議出席者A1ないしA
3の像のうち、発言者の顔領域の位置を推定してこの推
定位置の領域の映像信号を他の領域の映像信号より多め
に割り当てた符号量M(i)で符号化し、他の領域をそ
の残りの符号量M(0)で符号化する。すなわち、1画
面当たりの総符号量M(total) は決められており、この
決められた符号量を推定位置の領域に割り当てる符号量
(M(i))と、その他の領域に割り当てる符号量(M
(0))とに配分される。即ち、M(total) =M(i)
+M(0)となる。
【0019】この画像推定符号化部10は図1に示すよ
うに、音源位置推定部13と音源位置情報記憶部14と
画像符号化部15および画像メモリ16とからなる。画
像メモリ16はテレビカメラ12から得られる映像信号
をディジタル変換して得た画像データを、画面単位で一
時保持するメモリであり、画像を扱うために複数枚分の
画像を記憶する容量を有し、画像データを逐次更新記憶
する。音源位置推定部13は音源位置を推定する。即
ち、この推定部13は発言者の位置をマイクロフォン1
1Rおよび11Lの音声信号出力から推定すると共に、
画像メモリ16に保持された画像データから左右のマイ
クロフォン11Lおよび11R位置から画像上の音源位
置、すなわち、発言者領域を推定する。音源位置情報記
憶部14は音源位置推定部13にて推定された音源位置
の情報と、推定を行った時刻の情報とを記憶する。この
とき、時刻情報は外部から与えるか、若しくは画像推定
符号化部10に時計回路を設けてこれより得るようにす
る。
うに、音源位置推定部13と音源位置情報記憶部14と
画像符号化部15および画像メモリ16とからなる。画
像メモリ16はテレビカメラ12から得られる映像信号
をディジタル変換して得た画像データを、画面単位で一
時保持するメモリであり、画像を扱うために複数枚分の
画像を記憶する容量を有し、画像データを逐次更新記憶
する。音源位置推定部13は音源位置を推定する。即
ち、この推定部13は発言者の位置をマイクロフォン1
1Rおよび11Lの音声信号出力から推定すると共に、
画像メモリ16に保持された画像データから左右のマイ
クロフォン11Lおよび11R位置から画像上の音源位
置、すなわち、発言者領域を推定する。音源位置情報記
憶部14は音源位置推定部13にて推定された音源位置
の情報と、推定を行った時刻の情報とを記憶する。この
とき、時刻情報は外部から与えるか、若しくは画像推定
符号化部10に時計回路を設けてこれより得るようにす
る。
【0020】画像符号化部15は音源位置情報記憶部1
4の情報を用いて画像メモリ16に保持された画像デー
タを符号化して出力する。即ち、これは、映像信号のう
ち、発言者位置を中心とした領域をより鮮明に表示する
ような符号化を行う。そのために、画像符号化部15
は、音源位置情報記憶部14に記憶された発言者位置情
報をもとに、その発言者位置の画像上の領域を重点符号
化領域として決定し、この重点符号化領域の映像信号に
対して符号量M(i)を割り当て、他の領域の映像信号
に対して符号量M(0)を割り当てて、その割り当てら
れた範囲内に収まるように、それぞれの領域の映像信号
を符号化する。
4の情報を用いて画像メモリ16に保持された画像デー
タを符号化して出力する。即ち、これは、映像信号のう
ち、発言者位置を中心とした領域をより鮮明に表示する
ような符号化を行う。そのために、画像符号化部15
は、音源位置情報記憶部14に記憶された発言者位置情
報をもとに、その発言者位置の画像上の領域を重点符号
化領域として決定し、この重点符号化領域の映像信号に
対して符号量M(i)を割り当て、他の領域の映像信号
に対して符号量M(0)を割り当てて、その割り当てら
れた範囲内に収まるように、それぞれの領域の映像信号
を符号化する。
【0021】音源位置推定部13は図3に示すように、
遅延回路31、推定回路32、減算回路33および音源
位置推定回路34とから構成されている。これらのう
ち、遅延回路31は左マイクロフォン11Lで得た左チ
ャンネルの音声入力信号を遅延し、推定回路32はこの
遅延回路31から出力する遅延左チャンネルの音声入力
信号と右マイクロフォン11Rで得た右チャンネル音声
信号とから左チャンネル音声信号を推定する。減算回路
33は遅延回路31から出力する遅延左チャンネル音声
信号と推定回路32から出力する推定左チャンネル音声
信号を入力とし、左チャンネル音声信号から推定左チャ
ンネル音声信号を差し引いてその差信号を得る回路であ
る。この差信号が推定回路32にフィードバックされる
ことにより、推定回路32は当該差信号が零になるよう
な推定左チャンネル音声信号を推定して出力し、それに
より、推定回路32は遅延左チャンネルの音声入力信号
を参照して右マイクロフォン11Rで得た右チャンネル
音声信号から左チャンネル音声信号を推定インパルス応
答系列H(k)として推定できることになる。音源位置
推定回路34は推定回路32の求めた推定インパルス応
答系列H(k)を用いて音源位置を推定する。
遅延回路31、推定回路32、減算回路33および音源
位置推定回路34とから構成されている。これらのう
ち、遅延回路31は左マイクロフォン11Lで得た左チ
ャンネルの音声入力信号を遅延し、推定回路32はこの
遅延回路31から出力する遅延左チャンネルの音声入力
信号と右マイクロフォン11Rで得た右チャンネル音声
信号とから左チャンネル音声信号を推定する。減算回路
33は遅延回路31から出力する遅延左チャンネル音声
信号と推定回路32から出力する推定左チャンネル音声
信号を入力とし、左チャンネル音声信号から推定左チャ
ンネル音声信号を差し引いてその差信号を得る回路であ
る。この差信号が推定回路32にフィードバックされる
ことにより、推定回路32は当該差信号が零になるよう
な推定左チャンネル音声信号を推定して出力し、それに
より、推定回路32は遅延左チャンネルの音声入力信号
を参照して右マイクロフォン11Rで得た右チャンネル
音声信号から左チャンネル音声信号を推定インパルス応
答系列H(k)として推定できることになる。音源位置
推定回路34は推定回路32の求めた推定インパルス応
答系列H(k)を用いて音源位置を推定する。
【0022】上記のような構成において、テレビカメラ
12により会議出席者を撮影し、同時に机9上のマイク
ロフォン11Rおよび11Lにより音声を収音する。テ
レビカメラ12からの映像信号は画像符号化部15に送
られ、マイクロフォン11Rおよび11Lからの音声信
号は音源位置推定部13に送られる。音源位置推定部1
3はこの音声信号をもとに、音源の位置を推定し、推定
結果は音源位置情報記憶部14に記憶される。
12により会議出席者を撮影し、同時に机9上のマイク
ロフォン11Rおよび11Lにより音声を収音する。テ
レビカメラ12からの映像信号は画像符号化部15に送
られ、マイクロフォン11Rおよび11Lからの音声信
号は音源位置推定部13に送られる。音源位置推定部1
3はこの音声信号をもとに、音源の位置を推定し、推定
結果は音源位置情報記憶部14に記憶される。
【0023】画像符号化部15はこの音源位置情報記憶
部14に記憶されている最新の音源位置情報を利用して
テレビ画像における画面上の音源位置対応領域を特定
し、その領域を予め設定した符号量M(i)で、また、
その他の領域は符号量M(0)で符号化し、伝送する。
これにより、テレビ会議に出席している人のうち、発言
者が受信側のモニタ(図示せず)に高解像度で表示でき
る。
部14に記憶されている最新の音源位置情報を利用して
テレビ画像における画面上の音源位置対応領域を特定
し、その領域を予め設定した符号量M(i)で、また、
その他の領域は符号量M(0)で符号化し、伝送する。
これにより、テレビ会議に出席している人のうち、発言
者が受信側のモニタ(図示せず)に高解像度で表示でき
る。
【0024】発言者の特定についてもう少し具体的に説
明する。図3において、発言者A1が発した音声をX
(ω)とすると、この音声X(ω)はマイクロフォン1
1Rおよび11Lに収音される。いま、この音声X
(ω)を発することにより右側のマイクロフォン11R
の入力音声信号をYR(ω)および左側のマイクロフォ
ン11Lの入力音声信号をYLO(ω)とすると、これ
ら入力音声信号YR(ω)およびYLO(ω)は発生源
からマイクロフォンまでの音声の伝播遅延並びに室内の
音声特性で決まる伝達関数FR(ω)およびGL(ω)
により以下のように表わされる。ただし、ωは角周波数
である。
明する。図3において、発言者A1が発した音声をX
(ω)とすると、この音声X(ω)はマイクロフォン1
1Rおよび11Lに収音される。いま、この音声X
(ω)を発することにより右側のマイクロフォン11R
の入力音声信号をYR(ω)および左側のマイクロフォ
ン11Lの入力音声信号をYLO(ω)とすると、これ
ら入力音声信号YR(ω)およびYLO(ω)は発生源
からマイクロフォンまでの音声の伝播遅延並びに室内の
音声特性で決まる伝達関数FR(ω)およびGL(ω)
により以下のように表わされる。ただし、ωは角周波数
である。
【0025】 YR(ω)=FR(ω)X(ω) … (1) YLO(ω)=GL(ω)X(ω) … (2) さらに、左チャンネル入力音声信号YLO(ω)は、推
定回路32における因果律を保証するための遅延回路3
1によってC(ω)なるフラットな遅延を受ける。これ
によって左チャンネル入力音声信号YLO(ω)は、遅
延回路31まで含めた伝達関数FL(ω)により以下の
YL(ω)のように表わすことができる。
定回路32における因果律を保証するための遅延回路3
1によってC(ω)なるフラットな遅延を受ける。これ
によって左チャンネル入力音声信号YLO(ω)は、遅
延回路31まで含めた伝達関数FL(ω)により以下の
YL(ω)のように表わすことができる。
【0026】 YL(ω)=C(ω)GL(ω)X(ω) =FL(ω)X(ω) … (3) この左チャンネル入力音声信号YL(ω)は、減算回路
33に入力される。推定回路32は、右チャンネルの音
声信号YR(ω)および左チャンネルの音声信号YL
(ω)を用い、右チャンネル音声信号YR(ω)より左
チャンネル音声信号YL(ω)を得るための伝達関数G
(ω)を次式(4)に基づき推定し、この伝達関数G
(ω)から推定伝達関数Gp(ω)を生成する。
33に入力される。推定回路32は、右チャンネルの音
声信号YR(ω)および左チャンネルの音声信号YL
(ω)を用い、右チャンネル音声信号YR(ω)より左
チャンネル音声信号YL(ω)を得るための伝達関数G
(ω)を次式(4)に基づき推定し、この伝達関数G
(ω)から推定伝達関数Gp(ω)を生成する。
【0027】 G(ω)=GL(ω)/FR(ω) … (4) 上記伝達関数G(ω)に対する推定伝達関数Gp(ω)
の生成は、具体的には次のようにして行う。
の生成は、具体的には次のようにして行う。
【0028】推定回路32は、まず右チャンネルの音声
信号YR(ω)を用いて時間領域の推定左チャンネル音
声信号yp(ω)を算出する。推定回路32は、図4A
に示すような時間領域の推定左チャンネル音声信号yp
(k)を算出する適応トランスバーサルフィルタ32a
と、図4Bに示すような伝達関数G(ω)の推定インパ
ルス応答系列Hp(k)を逐次更新する修正回路32b
とにより構成されている。適応トランスバーサルフィル
タ32aと修正回路32bは図示しないクロック発生源
から与えられるシステムクロックに同期して動作する。
適応トランスバーサルフィルタ32aは、入力音声信号
YR(ω)を順次送って右チャンネル音声信号x(k)
ないしx(k−n+1)を各時間成分毎の値に変換する
nタップのシフトレジスタ411 ないし41n-1 と、修
正回路32bで修正された各時間成分毎の推定インパル
ス応答hp1(k)ないしhpn(k)と上記シフトレ
ジスタ411 ないし41n-1 を経て得られる右チャンネ
ル音声信号x(k)ないしx(k−n−1)との各成分
毎の乗算を行う乗算器421 ないし42n と、この乗算
結果の総和(Σ)を求めて推定左チャンネル音声入力信
号yp(k)を得る加算器43とより構成されている。
信号YR(ω)を用いて時間領域の推定左チャンネル音
声信号yp(ω)を算出する。推定回路32は、図4A
に示すような時間領域の推定左チャンネル音声信号yp
(k)を算出する適応トランスバーサルフィルタ32a
と、図4Bに示すような伝達関数G(ω)の推定インパ
ルス応答系列Hp(k)を逐次更新する修正回路32b
とにより構成されている。適応トランスバーサルフィル
タ32aと修正回路32bは図示しないクロック発生源
から与えられるシステムクロックに同期して動作する。
適応トランスバーサルフィルタ32aは、入力音声信号
YR(ω)を順次送って右チャンネル音声信号x(k)
ないしx(k−n+1)を各時間成分毎の値に変換する
nタップのシフトレジスタ411 ないし41n-1 と、修
正回路32bで修正された各時間成分毎の推定インパル
ス応答hp1(k)ないしhpn(k)と上記シフトレ
ジスタ411 ないし41n-1 を経て得られる右チャンネ
ル音声信号x(k)ないしx(k−n−1)との各成分
毎の乗算を行う乗算器421 ないし42n と、この乗算
結果の総和(Σ)を求めて推定左チャンネル音声入力信
号yp(k)を得る加算器43とより構成されている。
【0029】すなわち、修正回路32bは後述する(1
0)式の演算を行って推定インパルス応答系列hp1
(k)ないしhpn(k)を求め、それらを時間成分別
に分けて適応トランスバーサルフィルタ32aの対応す
る乗算器421 ないし42n に与える。乗算器421 な
いし42n は推定インパルス応答系列hp1(k)ない
しhpn(k)とシフトレジスタ411 ないし41n-1
を経て得られる右チャンネル音声信号x(k)ないしx
(k−n+1)とを各成分毎に乗算し、時間成分別の推
定左チャンネル音声信号を得る。これら時間成分別推定
左チャンネル音声信号を加算器43が加算することによ
って推定左チャンネル音声信号yp(k)を求める。
0)式の演算を行って推定インパルス応答系列hp1
(k)ないしhpn(k)を求め、それらを時間成分別
に分けて適応トランスバーサルフィルタ32aの対応す
る乗算器421 ないし42n に与える。乗算器421 な
いし42n は推定インパルス応答系列hp1(k)ない
しhpn(k)とシフトレジスタ411 ないし41n-1
を経て得られる右チャンネル音声信号x(k)ないしx
(k−n+1)とを各成分毎に乗算し、時間成分別の推
定左チャンネル音声信号を得る。これら時間成分別推定
左チャンネル音声信号を加算器43が加算することによ
って推定左チャンネル音声信号yp(k)を求める。
【0030】このような推定回路32において、まず右
チャンネル音声信号x(k)は一段当たり1サンプル時
間分の遅延時間を有するn段のシフトレジスタ411 な
いし41n-1 に入力され、次式(5)に示すような時系
列ベクトルが生成される。
チャンネル音声信号x(k)は一段当たり1サンプル時
間分の遅延時間を有するn段のシフトレジスタ411 な
いし41n-1 に入力され、次式(5)に示すような時系
列ベクトルが生成される。
【0031】 X(k)=(x(k),x(k−1),…,x(k−n
+1))T …(5) 但し、( )T は転置ベクトルを示す。一方、推定伝達
関数Gp(ω)に時間領域において近似した推定インパ
ルス応答系列Hp(k)を次式(6)により表すと、 Hp(k)=(hp1(k),hp2(k),…,hp
n(k))T …(6) 次式(7)により左チャンネル音声信号y(k)の推定
値である推定左チャンネル音声信号yp(k)を得るこ
とができる。
+1))T …(5) 但し、( )T は転置ベクトルを示す。一方、推定伝達
関数Gp(ω)に時間領域において近似した推定インパ
ルス応答系列Hp(k)を次式(6)により表すと、 Hp(k)=(hp1(k),hp2(k),…,hp
n(k))T …(6) 次式(7)により左チャンネル音声信号y(k)の推定
値である推定左チャンネル音声信号yp(k)を得るこ
とができる。
【0032】 yp(k)=Hp(k)T ・ X(k) … (7) このとき、伝達関数G(ω)のインパルス応答系列Hが
次式(8)により表されると(但し、nは任意の整
数)、伝達関数の推定が良好に行われることになる。
次式(8)により表されると(但し、nは任意の整
数)、伝達関数の推定が良好に行われることになる。
【0033】 H=(h1,h2,…,hn)T … (8) 従って、推定インパルス応答系列Hp(k)が Hp(k)=H … (9) となったときに、推定左チャンネル音声信号yp(k)
が実際の左チャンネル音声信号y(k)にかなり近似す
る。
が実際の左チャンネル音声信号y(k)にかなり近似す
る。
【0034】従って、(9)式の関係が得られる伝達関
数G(ω)になるような推定伝達関数Gp(ω)を探せ
ば良いわけであり、それには推定伝達関数Gp(ω)が
伝達関数G(ω)になるような推定インパルス応答系列
Hp(k)を推定できれば良いことになる。
数G(ω)になるような推定伝達関数Gp(ω)を探せ
ば良いわけであり、それには推定伝達関数Gp(ω)が
伝達関数G(ω)になるような推定インパルス応答系列
Hp(k)を推定できれば良いことになる。
【0035】ここで、推定回路32における推定インパ
ルス応答系列Hp(k)の推定は、適応トランスバーサ
ルフィルタ32aにおいて、n段のシフトレジスタ41
1 ないし41n-1 の入出力として得られる時系列ベクト
ルx(k)ないしx(k−n+1)を用いて、修正回路
32bにより逐次的に例えば、以下の演算を行うことに
より達成される。
ルス応答系列Hp(k)の推定は、適応トランスバーサ
ルフィルタ32aにおいて、n段のシフトレジスタ41
1 ないし41n-1 の入出力として得られる時系列ベクト
ルx(k)ないしx(k−n+1)を用いて、修正回路
32bにより逐次的に例えば、以下の演算を行うことに
より達成される。
【0036】
【数1】
【0037】このアルゴリズムは、公知の学習同定法で
ある。なお、(10)式において、e(k)は、図3の
減算回路33の出力であり、この出力e(k)は推定左
チャンネル音声信号をyp(k)とすると、つぎの(1
1)式の関係を有している。
ある。なお、(10)式において、e(k)は、図3の
減算回路33の出力であり、この出力e(k)は推定左
チャンネル音声信号をyp(k)とすると、つぎの(1
1)式の関係を有している。
【0038】 e(k)=y(k)−yp(k) … (11) 従って、減算回路33の出力e(k)は左チャンネル音
声信号y(k)に対する推定左チャンネル音声信号yp
(k)との差信号と云うことになる。また、(10)式
において、αは(10)式の収束速度および安定性を決
定する係数となり、音源51から左右のマイクロフォン
11Lおよび11R位置までの距離差を表す。
声信号y(k)に対する推定左チャンネル音声信号yp
(k)との差信号と云うことになる。また、(10)式
において、αは(10)式の収束速度および安定性を決
定する係数となり、音源51から左右のマイクロフォン
11Lおよび11R位置までの距離差を表す。
【0039】従って、画像推定符号化部10では、画像
メモリ16に保持された画像データから左右のマイクロ
フォン11Lおよび11R位置を調べ、距離差αを求
め、これと減算回路33の出力e(k)を利用して修正
回路32bは(10)式の演算を行うことにより、推定
インパルス応答系列Hp(k)の推定を行うことができ
る。
メモリ16に保持された画像データから左右のマイクロ
フォン11Lおよび11R位置を調べ、距離差αを求
め、これと減算回路33の出力e(k)を利用して修正
回路32bは(10)式の演算を行うことにより、推定
インパルス応答系列Hp(k)の推定を行うことができ
る。
【0040】以上の処理により求められた推定インパル
ス応答系列Hp(k)から、音源位置推定回路34によ
り音源位置が推定される。この推定はつぎのようにして
行う。
ス応答系列Hp(k)から、音源位置推定回路34によ
り音源位置が推定される。この推定はつぎのようにして
行う。
【0041】推定インパルス応答系列Hp(k)の係数
のうち、最大値をとる項をMx とする。このとき、サン
プリング周期をT(sec)、音速をv(m/sec)、タップ数
をnとすると、音源から左右のマイクロフォン11Lお
よび11R位置までの距離差αは次式(12)により推
定できる。
のうち、最大値をとる項をMx とする。このとき、サン
プリング周期をT(sec)、音速をv(m/sec)、タップ数
をnとすると、音源から左右のマイクロフォン11Lお
よび11R位置までの距離差αは次式(12)により推
定できる。
【0042】 α=v・T(Mx −N/2) … (12) ここで、図5に示すように、左右のマイクロフォン11
Lおよび11Rを直線52で結び、この直線52に平行
な直線53を想定し、音源51の位置が左右のマイクロ
フォン11Lおよび11Rから一定距離離れた直線53
上に存在すると仮定する。このとき、直線52における
左右のマイクロフォン11Lおよび11Rの中心点位置
Poを通り、直線52に垂直な線54と直線53との交
点から音源51までの距離をa、右マイクロフォン11
Rから音源51までの直線距離をb、音源51を通る直
線53とマイクロフォン11Lおよび11Rを通る直線
52との間の垂線の長さをc,マイクロフォン11Lお
よび11R間の距離を2dとすると、次の連立方程式が
成り立つ。
Lおよび11Rを直線52で結び、この直線52に平行
な直線53を想定し、音源51の位置が左右のマイクロ
フォン11Lおよび11Rから一定距離離れた直線53
上に存在すると仮定する。このとき、直線52における
左右のマイクロフォン11Lおよび11Rの中心点位置
Poを通り、直線52に垂直な線54と直線53との交
点から音源51までの距離をa、右マイクロフォン11
Rから音源51までの直線距離をb、音源51を通る直
線53とマイクロフォン11Lおよび11Rを通る直線
52との間の垂線の長さをc,マイクロフォン11Lお
よび11R間の距離を2dとすると、次の連立方程式が
成り立つ。
【0043】 (b+a)2 =(d+a)2 +c2 b2 =(d−a)2 +c2 … (13) この連立方程式からbを消去してaを解くことにより、
音源位置Paを推定することができる。
音源位置Paを推定することができる。
【0044】上記のように推定された音源位置Paのデ
ータが音源位置情報記憶部14を介して画像符号化部1
5に入力されると、音源位置を中心とする画像領域が重
点符号化領域としてこの領域に対応する画像データが他
の領域の画像データよりも多い符号化量で符号化され
る。この符号化について詳しく説明する。
ータが音源位置情報記憶部14を介して画像符号化部1
5に入力されると、音源位置を中心とする画像領域が重
点符号化領域としてこの領域に対応する画像データが他
の領域の画像データよりも多い符号化量で符号化され
る。この符号化について詳しく説明する。
【0045】画像メモリ16には、図6に示されるよう
に1フレームの画像データが、例えば、1ブロックを8
画素×8ラインとして44×36ブロックに分けて記憶
されている。この画像メモリ16に記憶された画像デー
タはブロック単位で順次に画像符号化部15に送られ
る。画像符号化部15は、図7に示されるように画像メ
モリ16の読み出し端子に接続される直交変換(DC
T)回路71と、DCT回路71の出力端子に接続され
る量子化回路72と、量子化回路72の出力端子に接続
される可変長符号化回路73と、量子化回路72の制御
端子に接続される量子化ステップサイズ決定回路74と
により構成される。この画像符号化部15には、更にマ
ーカ認識回路75および重点符号化領域決定回路76が
含まれている。マーカ認識回路75は画像メモリ16か
ら読み出された画像データから左右マイクロフォン11
Lおよび11Rの位置に対応付けて設けられた2つのマ
ーカ61aおよび61bを認識し、画面上でのマイクロ
フォン11Lと11Rとの間の距離2d’を求める。な
お、マーカはマイクロフォンを会議室に配置したときに
オペレータによって装置に入力される。
に1フレームの画像データが、例えば、1ブロックを8
画素×8ラインとして44×36ブロックに分けて記憶
されている。この画像メモリ16に記憶された画像デー
タはブロック単位で順次に画像符号化部15に送られ
る。画像符号化部15は、図7に示されるように画像メ
モリ16の読み出し端子に接続される直交変換(DC
T)回路71と、DCT回路71の出力端子に接続され
る量子化回路72と、量子化回路72の出力端子に接続
される可変長符号化回路73と、量子化回路72の制御
端子に接続される量子化ステップサイズ決定回路74と
により構成される。この画像符号化部15には、更にマ
ーカ認識回路75および重点符号化領域決定回路76が
含まれている。マーカ認識回路75は画像メモリ16か
ら読み出された画像データから左右マイクロフォン11
Lおよび11Rの位置に対応付けて設けられた2つのマ
ーカ61aおよび61bを認識し、画面上でのマイクロ
フォン11Lと11Rとの間の距離2d’を求める。な
お、マーカはマイクロフォンを会議室に配置したときに
オペレータによって装置に入力される。
【0046】求められた距離2d’の情報が重点符号化
領域決定回路76に入力されることにより、この回路7
6はこの距離(2d’)情報と音源位置情報記憶部14
から読み出される音源位置情報とから距離2d’の中心
から発言者の位置62までの距離a’を次式14により
求める。
領域決定回路76に入力されることにより、この回路7
6はこの距離(2d’)情報と音源位置情報記憶部14
から読み出される音源位置情報とから距離2d’の中心
から発言者の位置62までの距離a’を次式14により
求める。
【0047】 a´=a・d´/d … (14) 更に、重点符号化領域決定回路76は発言者位置62を
中心として予め設定した幅2w´の領域63を重点符号
化領域と決定する。この重点符号化領域に関する情報が
ステップサイズ決定回路74に入力されると、このステ
ップサイズ決定回路74は重点符号化領域の画像データ
を、他の領域の画像データよりも多くの符号量で符号化
するためのステップサイズを決定する。決定されたステ
ップサイズの情報が量子化回路72に入力されると、量
子化回路72は画像メモリ16から読み出され、DCT
回路71により直交変換された画像データを決定された
ステップサイズで、即ち符号量で量子化する。この場
合、重点符号化領域63に対応する画像データが量子化
回路72に入力されたときに決定されたステップサイズ
で量子化されるが、他の領域の画像データは領域63の
画像データに対するステップサイズよりも荒いステップ
サイズで量子化される。量子化された画像データは可変
長符号化回路73により可変長符号化され、符号化画像
データとして出力される。
中心として予め設定した幅2w´の領域63を重点符号
化領域と決定する。この重点符号化領域に関する情報が
ステップサイズ決定回路74に入力されると、このステ
ップサイズ決定回路74は重点符号化領域の画像データ
を、他の領域の画像データよりも多くの符号量で符号化
するためのステップサイズを決定する。決定されたステ
ップサイズの情報が量子化回路72に入力されると、量
子化回路72は画像メモリ16から読み出され、DCT
回路71により直交変換された画像データを決定された
ステップサイズで、即ち符号量で量子化する。この場
合、重点符号化領域63に対応する画像データが量子化
回路72に入力されたときに決定されたステップサイズ
で量子化されるが、他の領域の画像データは領域63の
画像データに対するステップサイズよりも荒いステップ
サイズで量子化される。量子化された画像データは可変
長符号化回路73により可変長符号化され、符号化画像
データとして出力される。
【0048】上記のように符号化された画像データが受
信側に送られ、受信モニタに表示されると、発言者の画
像が他の画像よりも高解像度で表示される。上記実施例
においては、音源位置情報記憶部14には音源情報だけ
記憶されるとして説明したが次のように時間情報をも記
憶しても良い。
信側に送られ、受信モニタに表示されると、発言者の画
像が他の画像よりも高解像度で表示される。上記実施例
においては、音源位置情報記憶部14には音源情報だけ
記憶されるとして説明したが次のように時間情報をも記
憶しても良い。
【0049】即ち、音源位置推定部13は音源位置推定
回路34において、推定インパルス応答系列Hp(k)
の係数のうち、最大値をとる項をもとに音源位置Paを
推定するが、この音源位置推定部13にて推定された音
源位置Paの情報と、推定を行った時刻を、図示しない
制御装置の制御のもとに音源位置情報記憶部14に記憶
する。このとき、現在よりt時刻だけ過去の音源位置P
a(t)が、最新の音源位置Paから左右にそれぞれ一
定の幅w以内にある場合には過去の音源位置Pa(t)
の記憶情報を音源位置情報記憶部14から消去するよう
に、制御装置によって記憶部14が制御される。これに
よって、音源位置情報記憶部14には現在の発言者の発
言位置と、過去に発言した者(N人)の最後の発言位置
の情報が以下のように記憶される。
回路34において、推定インパルス応答系列Hp(k)
の係数のうち、最大値をとる項をもとに音源位置Paを
推定するが、この音源位置推定部13にて推定された音
源位置Paの情報と、推定を行った時刻を、図示しない
制御装置の制御のもとに音源位置情報記憶部14に記憶
する。このとき、現在よりt時刻だけ過去の音源位置P
a(t)が、最新の音源位置Paから左右にそれぞれ一
定の幅w以内にある場合には過去の音源位置Pa(t)
の記憶情報を音源位置情報記憶部14から消去するよう
に、制御装置によって記憶部14が制御される。これに
よって、音源位置情報記憶部14には現在の発言者の発
言位置と、過去に発言した者(N人)の最後の発言位置
の情報が以下のように記憶される。
【0050】 T(1),L(1) T(2),L(2) : : T(N),L(N) ただし、 T(1)<T(2)< … <T(N) … (15) ここで、T(i)は発言者iが最後に発言してから経過
した時間、L(i)は発言者iが最後に発言した位置を
示すデータである。また、T(1)は現在の発言者の音
声サンプリングにより上記演算処理した時点での時間、
L(1)は現在の発言者の発言した位置を示すデータで
ある。
した時間、L(i)は発言者iが最後に発言した位置を
示すデータである。また、T(1)は現在の発言者の音
声サンプリングにより上記演算処理した時点での時間、
L(1)は現在の発言者の発言した位置を示すデータで
ある。
【0051】画像符号化部15では、音源位置情報記憶
部14に記憶された最新の発言者の位置L(1)の情報
をもとに、上述したように画像の符号化を行う。いま、
画面全体の符号量をM、画面全体の幅をWL とし、発言
者iの重点符号化領域の重要度をR(i)、重点符号化
領域以外の領域の重要度をR(0)とする。このとき、
重要度R(i)およびR(0)は自由に設定できるが、
より最近に発言した人に高い重要度を与えるとすると、 R(1)>R(2)> … >R(N)>R(0) … (16) となるように設定できる。
部14に記憶された最新の発言者の位置L(1)の情報
をもとに、上述したように画像の符号化を行う。いま、
画面全体の符号量をM、画面全体の幅をWL とし、発言
者iの重点符号化領域の重要度をR(i)、重点符号化
領域以外の領域の重要度をR(0)とする。このとき、
重要度R(i)およびR(0)は自由に設定できるが、
より最近に発言した人に高い重要度を与えるとすると、 R(1)>R(2)> … >R(N)>R(0) … (16) となるように設定できる。
【0052】このとき、最新の発言者の重点符号化領域
(最新の発言者の画像領域)の符号量M(i)、この重
点符号化領域以外の領域の符号量M(0)は、 M(i)=M・w´・R(i)/RT M(0)=M・(WL −N・w´)R(0)/RT となるように割り当てる。ただし、RTは RT=w´(R(1) +R(2) +…+R(N) )+(WL −N・w´)R(0) … (17) 従って、このように発言者iの重点符号化領域に多めの
符号量M(i)を割り当て、他の領域に残りの符号量M
(0)を割り当ててその割り当て範囲内で符号化を行う
ことにより、発言者位置を中心とした領域をより鮮明に
表示するような符号化を行うことができるようになるた
め、画面当たりの総符号量は従来と変わりないが、画面
全体の主観的な画質の向上を計ることができるようにな
る。
(最新の発言者の画像領域)の符号量M(i)、この重
点符号化領域以外の領域の符号量M(0)は、 M(i)=M・w´・R(i)/RT M(0)=M・(WL −N・w´)R(0)/RT となるように割り当てる。ただし、RTは RT=w´(R(1) +R(2) +…+R(N) )+(WL −N・w´)R(0) … (17) 従って、このように発言者iの重点符号化領域に多めの
符号量M(i)を割り当て、他の領域に残りの符号量M
(0)を割り当ててその割り当て範囲内で符号化を行う
ことにより、発言者位置を中心とした領域をより鮮明に
表示するような符号化を行うことができるようになるた
め、画面当たりの総符号量は従来と変わりないが、画面
全体の主観的な画質の向上を計ることができるようにな
る。
【0053】以上のように、異なる位置に配置した複数
のマイクロフォンでそれぞれ収音した複数チャンネルの
音声信号と、マイクロフォンおよび発言者を含めた映像
画面上のマイクロフォン位置とから音源位置を推定する
ようにしたことにより、映像画面上の発言者の画像領域
を適確に抽出できるようになり、発言者の画像領域につ
いて符号量を多めに割り当てて符号化するようにしたこ
とにより、発言者の像領域について鮮明に表示すること
が可能な動画像符号化方式が得られる。
のマイクロフォンでそれぞれ収音した複数チャンネルの
音声信号と、マイクロフォンおよび発言者を含めた映像
画面上のマイクロフォン位置とから音源位置を推定する
ようにしたことにより、映像画面上の発言者の画像領域
を適確に抽出できるようになり、発言者の画像領域につ
いて符号量を多めに割り当てて符号化するようにしたこ
とにより、発言者の像領域について鮮明に表示すること
が可能な動画像符号化方式が得られる。
【0054】なお、この発明は、上述した実施例に限定
されるものではなく、その要旨を変更しない範囲内で適
宜変形して実施し得る。例えば、上述した実施例におけ
る音源位置推定部13の推定回路32では、時間領域の
適応トランスバーサルフィルタを用いているが、周波数
領域の適応トランスバーサルフィルタなどの他の回路構
成であっても良い。また、推定アルゴリズムとして学習
同定法を例にして説明したが、最急降下法などの他の学
習アルゴリズムを用いることもできる。
されるものではなく、その要旨を変更しない範囲内で適
宜変形して実施し得る。例えば、上述した実施例におけ
る音源位置推定部13の推定回路32では、時間領域の
適応トランスバーサルフィルタを用いているが、周波数
領域の適応トランスバーサルフィルタなどの他の回路構
成であっても良い。また、推定アルゴリズムとして学習
同定法を例にして説明したが、最急降下法などの他の学
習アルゴリズムを用いることもできる。
【0055】さらに、音源位置推定回路34において、
推定インパルス応答系列Hp(k)の係数のうち、最大
値をとる項をもとに音源位置を推定したが、他の方法を
用いても良い。
推定インパルス応答系列Hp(k)の係数のうち、最大
値をとる項をもとに音源位置を推定したが、他の方法を
用いても良い。
【0056】また、画像符号化部15の重点符号化領域
の決定方法も、上述した方法に限らず、重点符号化領域
63において顔領域検出を行うなどの他の方法であって
も良い。また、画像符号化部15における重要度の設定
方法についても、現在までに発言した時間に応じて重要
度を設定する方法、最後に発言してからの時間と現在ま
でに発言した時間との両方を加味して重要度を設定する
方法などの他の手法であっても構わない。
の決定方法も、上述した方法に限らず、重点符号化領域
63において顔領域検出を行うなどの他の方法であって
も良い。また、画像符号化部15における重要度の設定
方法についても、現在までに発言した時間に応じて重要
度を設定する方法、最後に発言してからの時間と現在ま
でに発言した時間との両方を加味して重要度を設定する
方法などの他の手法であっても構わない。
【0057】また、テレビ会議システムでは、被写体は
ほぼ定位置固定であり、テレビ画面は被写体に対して同
一視野角を維持するために、画面上の被写体は被写体自
身が移動しない限り、位置に変化はないから、画像符号
化部15における重要度の設定や重点符号化領域の設定
を外部から行うことにより、例えばVIPは常に高精細
に符号化を行うようにすることもできる。更には、画面
と被写体との関係が変わらないことから、発言者の画像
領域ではなく、発言者の顔部分の領域を特定することは
容易であるから、この特定した顔領域について解像度を
高めるように符号量を割り当てる構成とすることもでき
る。
ほぼ定位置固定であり、テレビ画面は被写体に対して同
一視野角を維持するために、画面上の被写体は被写体自
身が移動しない限り、位置に変化はないから、画像符号
化部15における重要度の設定や重点符号化領域の設定
を外部から行うことにより、例えばVIPは常に高精細
に符号化を行うようにすることもできる。更には、画面
と被写体との関係が変わらないことから、発言者の画像
領域ではなく、発言者の顔部分の領域を特定することは
容易であるから、この特定した顔領域について解像度を
高めるように符号量を割り当てる構成とすることもでき
る。
【0058】さらに、画像符号化部15の符号化方式に
ついても、上述の実施例において、各フレーム毎に重点
符号化領域63に多くの符号量を与えて精細に符号化を
行う手法について述べたが、重点符号化領域63以外の
部分をコマ落としの状態にすることによって重点符号化
領域63に多くの符号量を与えて精細に符号化を行って
も良い。また、発言者の履歴に対応して最新の発言者ほ
ど高解像度にし、発言の古い者ほど低解像度にする等
の、発言順位等に対応させた重み付けにより解像度を変
えるなどしても良い。
ついても、上述の実施例において、各フレーム毎に重点
符号化領域63に多くの符号量を与えて精細に符号化を
行う手法について述べたが、重点符号化領域63以外の
部分をコマ落としの状態にすることによって重点符号化
領域63に多くの符号量を与えて精細に符号化を行って
も良い。また、発言者の履歴に対応して最新の発言者ほ
ど高解像度にし、発言の古い者ほど低解像度にする等
の、発言順位等に対応させた重み付けにより解像度を変
えるなどしても良い。
【0059】なお、上述した実施例では、音声入力を2
チャンネルとしたが、3チャンネル以上あっても良い。
この場合、マイクロフォンの配置に上下方向の高低差を
与えることにより、音源位置の2次元の推定が可能とな
り、この場合には音源として画面上の一点を推定するこ
とができるようになり、より高精度の音源位置推定が可
能となる。
チャンネルとしたが、3チャンネル以上あっても良い。
この場合、マイクロフォンの配置に上下方向の高低差を
与えることにより、音源位置の2次元の推定が可能とな
り、この場合には音源として画面上の一点を推定するこ
とができるようになり、より高精度の音源位置推定が可
能となる。
【0060】
【発明の効果】上述した発明によれば、複数チャンネル
の音声信号から音源位置を推定し、音源位置周辺を重点
的に符号化することにより、発言者をより鮮明なるよう
に符号化する動画像符号化方式を提供できる。
の音声信号から音源位置を推定し、音源位置周辺を重点
的に符号化することにより、発言者をより鮮明なるよう
に符号化する動画像符号化方式を提供できる。
【図1】本発明の一実施例に係わるテレビ会議システム
の画像符号化部の構成例を示すブロック図。
の画像符号化部の構成例を示すブロック図。
【図2】本発明の実施例を説明するための図であって、
本発明に係わるテレビ会議システムの会議室の構成を示
す図。
本発明に係わるテレビ会議システムの会議室の構成を示
す図。
【図3】図1に示す音源位置推定部の構成を示すブロッ
ク図。
ク図。
【図4】図3に示す音源位置推定回路の構成を示す回路
図。
図。
【図5】図3に示す音源位置推定回路の推定方法を説明
するための図。
するための図。
【図6】図1に示す画像符号化部の重点符号化領域の決
定方法を説明するための図。
定方法を説明するための図。
【図7】図1に示す画像符号化部のブロック回路図。
10…画像推定符号化部 11R,11L…マイクロフォン 12…テレビカメラ 13…音源位置推定部 14…音源位置情報記憶部 15…画像符号化部 16…画像メモリ 31…遅延回路 32…推定回路 33…減算回路 34…音源位置推定回路。
Claims (2)
- 【請求項1】 音声を発する少なくとも1つの被写体を
撮像して映像信号を出力する撮像手段と、 互いに離間して配置配され、前記撮像手段により撮像さ
れる被写体の音声を収音して音声信号を出力する複数の
感音手段と、 前記複数の感音手段から出力される音声信号から音源位
置を推定する推定手段と、 前記推定手段より推定された音源位置を中心に所定の範
囲の画像領域に対応する映像信号を、他の画像領域に対
応する映像信号よりも多く符号量を割当て符号化する符
号化手段と、 により構成される動画像符号化装置。 - 【請求項2】 音声を発する少なくとも1つの被写体を
撮像して映像信号を出力する撮像手段と、 互いに離間して配置され、前記撮像手段により撮像され
る被写体の音声を収音して音声信号を出力する複数の感
音手段と、 前記複数の感音手段から得られた音声信号から音源位置
を推定する推定手段と、 前記推定手段により推定された現在及び過去の音源位置
情報の履歴を記憶する音源位置記憶手段と、 前記音源位置記憶手段に記憶された音源位置情報及び過
去の音源位置情報の履歴を利用して位置に応じた符号量
で映像信号を符号化する符号化手段と、 により構成される動画像符号化装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP21302693A JPH06217276A (ja) | 1992-08-27 | 1993-08-27 | 動画像符号化装置 |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP22857292 | 1992-08-27 | ||
| JP4-228572 | 1992-08-27 | ||
| JP21302693A JPH06217276A (ja) | 1992-08-27 | 1993-08-27 | 動画像符号化装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH06217276A true JPH06217276A (ja) | 1994-08-05 |
Family
ID=26519581
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP21302693A Pending JPH06217276A (ja) | 1992-08-27 | 1993-08-27 | 動画像符号化装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH06217276A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004179997A (ja) * | 2002-11-27 | 2004-06-24 | Sony Corp | 双方向コミュニケーションシステム,映像通信装置,および映像通信装置の映像データ配信方法 |
| JP2006325179A (ja) * | 2005-04-20 | 2006-11-30 | Mitsubishi Electric Corp | 画像処理装置 |
| JP2010219786A (ja) * | 2009-03-16 | 2010-09-30 | Canon Inc | 画像処理装置、画像処理方法 |
| JP2015195458A (ja) * | 2014-03-31 | 2015-11-05 | 株式会社ニコン | 電子機器 |
| JP2019004520A (ja) * | 2018-09-27 | 2019-01-10 | 株式会社ニコン | 電子機器及び電子機器システム |
| JP2019050482A (ja) * | 2017-09-08 | 2019-03-28 | オリンパス株式会社 | 情報取得機器、表示方法およびプログラム |
| JP2023052537A (ja) * | 2016-07-22 | 2023-04-11 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送 |
-
1993
- 1993-08-27 JP JP21302693A patent/JPH06217276A/ja active Pending
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004179997A (ja) * | 2002-11-27 | 2004-06-24 | Sony Corp | 双方向コミュニケーションシステム,映像通信装置,および映像通信装置の映像データ配信方法 |
| JP2006325179A (ja) * | 2005-04-20 | 2006-11-30 | Mitsubishi Electric Corp | 画像処理装置 |
| JP2010219786A (ja) * | 2009-03-16 | 2010-09-30 | Canon Inc | 画像処理装置、画像処理方法 |
| JP2015195458A (ja) * | 2014-03-31 | 2015-11-05 | 株式会社ニコン | 電子機器 |
| JP2023052537A (ja) * | 2016-07-22 | 2023-04-11 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送 |
| JP2019050482A (ja) * | 2017-09-08 | 2019-03-28 | オリンパス株式会社 | 情報取得機器、表示方法およびプログラム |
| JP2019004520A (ja) * | 2018-09-27 | 2019-01-10 | 株式会社ニコン | 電子機器及び電子機器システム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0615387B1 (en) | Moving picture encoder | |
| Thoma et al. | Motion compensating interpolation considering covered and uncovered background | |
| US6675145B1 (en) | Method and system for integrated audiovisual speech coding at low bitrate | |
| USRE40054E1 (en) | Video-assisted audio signal processing system and method | |
| US5555310A (en) | Stereo voice transmission apparatus, stereo signal coding/decoding apparatus, echo canceler, and voice input/output apparatus to which this echo canceler is applied | |
| JP5857674B2 (ja) | 画像処理装置、及び画像処理システム | |
| JP4872871B2 (ja) | 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ | |
| CN107911644B (zh) | 基于虚拟人脸表情进行视频通话的方法及装置 | |
| CN110289009B (zh) | 声音信号的处理方法、装置和交互智能设备 | |
| WO2013122183A1 (ja) | 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム | |
| JP2000338987A (ja) | 発話開始監視装置、話者同定装置、音声入力システム、および話者同定システム、並びに通信システム | |
| US20220115021A1 (en) | Talker Prediction Method, Talker Prediction Device, and Communication System | |
| CN102571147A (zh) | 声音处理设备、方法和程序 | |
| JPH06217276A (ja) | 動画像符号化装置 | |
| CN116189697A (zh) | 一种多通道回声消除方法和相关装置 | |
| JP2012213013A (ja) | Tv会議システム | |
| JP4244416B2 (ja) | 情報処理装置および方法、並びに記録媒体 | |
| CN113223543B (zh) | 语音增强方法、装置和存储介质 | |
| CN119211474B (zh) | 一种音视频信号处理系统及使用其的视频会议终端设备 | |
| WO2023120244A1 (ja) | 伝送装置、伝送方法、およびプログラム | |
| JPWO2016151974A1 (ja) | 情報処理装置、情報処理方法、クライアント装置、サーバ装置および情報処理システム | |
| JP3625325B2 (ja) | 拡声通話装置およびエコーキャンセラ | |
| JPS62239631A (ja) | ステレオ音声伝送蓄積方式 | |
| JPH10126757A (ja) | ビデオ会議システム | |
| JPH0591407A (ja) | 映像通信装置 |