JPH09233231A

JPH09233231A - データ伝送方法及び装置

Info

Publication number: JPH09233231A
Application number: JP3157896A
Authority: JP
Inventors: Katsuya Ishikawa; 川克也石
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1996-02-20
Filing date: 1996-02-20
Publication date: 1997-09-05
Also published as: US6084911A

Abstract

(57)【要約】（修正有）【課題】画像データに割り当てられる帯域幅が変動し
ても、好適に伝送できるようにする。【解決手段】符号化圧縮した音声データと画像データ
を固定長のパケットに混合して伝送するタイプのデータ
伝送方法において、（ａ）音声データの入力を試みる段
階と、（ｂ）音声データの入力の有無を検出する段階
と、（ｃ）画像データを所定の捕捉間隔で捕捉する段階
と、（ｄ）画像データを所定の圧縮率で符号化圧縮する
段階と、（ｅ）前記（ｂ）段階の検出結果に応じて、音
声データを符号化圧縮し、符号化圧縮された画像データ
と混合してパケットを生成する段階と、（ｆ）生成した
パケットを伝送する段階と、（ｇ）過去１回以上の前記
（ｂ）段階における検出結果を基に、以後の音声データ
の有無を予測する音声予測段階と、（ｈ）前記（ｇ）段
階の予測結果を基に、前記（ｃ）段階の前記所定の捕捉
間隔を調整する段階と、を具備する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、パケット形式でデ
ータを伝送するタイプのデータ伝送方法及び装置に係
り、特に、ビデオ会議のための音声データ及び画像デー
タをパケット形式にして伝送するためのデータ伝送方法
及び装置に関する。更に詳しくは、本発明は、音声デー
タ及び画像データを多重化したパケット形式にして伝送
するためのデータ伝送方法及び装置に関する。

【０００２】

【従来の技術】ビデオ会議システム：最近、パーソナル・コンピュータ
（ＰＣ）が広範に普及し、事務用及び家庭用のユーザ間
で相当に一般的なものとなってきている。これに伴っ
て、その用途も拡大し、単なるＯＡ機器としてだけでは
なく、情報交換の媒体としても用いられるようになって
きた。例えば、遠隔にある会議室間を通信回線によって
結び、授受される音声データや画像データをＰＣで処理
するという、いわゆるビデオ会議システム（若しくはテ
レビ会議システム）が注目を集めるようになってきた。

【０００３】このようなビデオ会議システムには、通信
媒体としてＩＳＤＮ（Integrated Services Digital Ne
twork）を、処理装置としてデスクトップＰＣを用いる
のが主流であった。ＩＳＤＮは、１本の通信線に対して
音声伝送用及びデータ伝送用の２種類のチャネルを論理
的に割り当てることができる、デジタル・データ伝送用
のネットワークである。すなわち、ＩＳＤＮは、電話な
どの音声に限らず、テキスト、データ、静止画、動画な
どのいわゆるマルチメディアを総合的に扱うことができ
る伝送媒体なのである。また、デスクトップＰＣが主流
なのは、普及率が高いことの他、ビデオ会議の各参加者
がそれぞれのオフィスの定められた場所に居ることが前
提であったことにも依拠する。

【０００４】ところが、昨今の目覚しい技術革新に伴っ
て、小型・軽量な、いわゆるノートブックＰＣが出現し
てきた。殆ど全てのノートブックＰＣは、バッテリ駆動
型であり、屋外での携帯的・可搬的な使用、すなわちモ
ーバイル環境での使用が可能となっている。これに伴っ
て、モーバイル環境下でのビデオ会議に対するニーズも
高まりつつある。

【０００５】モーバイル環境下でビデオ会議を実現する
場合、データ伝送媒体として何を用いるか、ということ
が１つの問題となる。先述したＩＳＤＮは、高機能な反
面、高価で普及率も未だ高くない。したがって、ＩＳＤ
Ｎによれば接続個所がかなり限定されてしまい、モーバ
イル性を損なうことになる。これに対して、一般公衆回
線（ＰＯＴＳ：ＰｌａｉｎＯｌｄＴｅｌｅｐｈｏｎ
ｅＳｙｓｔｅｍ）は、安価で普及率が高い。会議の各
参加者は、自身のノートブックＰＣを、モデムを介して
最寄の場所から一般公衆回線に接続することができる。
したがって、ビデオ会議の通信媒体として、一般公衆回
線への期待が必然的に膨らむ訳である。

【０００６】図９には、一般公衆回線とＰＣを用いたビ
デオ会議ネットワークの構成を模式的に示している。同
図に示すように、各ＰＣはモデムを介して一般公衆回線
網に接続される。また、ＰＢＸ（Private Branch eXcha
nge：構内交換機）を経由して構内回線網上にＰＣが接
続されている場合もある。なお、図示していないが、各
ＰＣには、ユーザの姿態等を撮像するためのビデオ・カ
メラ、入力映像をデジタル化してコンピュータ内に取り
込むためのビデオ・キャプチャ・ボード／コントロー
ラ、音声を入出力するためのマイク及びスピーカ、音声
入出力をデジタル処理するためのオーディオ・コントロ
ーラ等、ビデオ会議に必須のハードウェア構成要素も備
えられている。

【０００７】一般公衆回線を用いてビデオ会議を実現す
る場合、データ転送量が最大の問題となる。何故なら
ば、ビデオ会議のためには、音声や画像を含むため、伝
送しなければならない総データ量は、１本の回線に許容
される帯域幅（すなわち最大の転送レート）よりもはる
かに大きいからである。一般公衆回線を用いたビデオ会
議システムの過去の例では、（１）音声の伝送を諦め
る、あるいは、（２）音声データと画像に各１本ずつ専
用の回線を使用する、などの安直なソリューションが採
られていた。しかし、最近では、音声及び画像について
のデータ圧縮技術やＣＰＵの処理能力が向上したことに
伴って、１本の公衆回線だけで音声データと画像データ
の両方を混合（若しくは多重化）して、伝送することが
可能になってきた。

【０００８】パケット方式による音声データ・画像デー
タの伝送：回線上でのコミュニケーションは、一般に
は、パケット通信、すなわち一連のデータを固定ビット
幅のパケット単位に分割して行われる。ここで、パケッ
トとは、伝送データの実体を含んだデータ部と、伝送デ
ータの属性情報などからなるヘッダ部とで構成される。
通常、音声データや画像データは、パケットに分割する
前に、それぞれ符号化圧縮されている。

【０００９】ビデオ会議のための音声データ及び画像デ
ータを一本化して伝送する場合、音声データの方にプラ
イオリティを与えるべきと考えられる。何故ならば、音
声の途切れは不快感を与えるのみならず会話自体を不能
にするため、音声により高いリアルタイム性が要求され
るからである。このため、音声データと画像データを同
時に送る場合には、パケット中の帯域を先ず音声データ
に割り当て、残りを画像データに割り当てられる。但
し、このことは、同じ通信路を共有する画像データに対
して遅延を強要することをも意味している。

【００１０】図１０には、音声データ及び画像データを
伝送するためのパケット構造の一例を示している。１つ
のパケットは２８８ビット長である。これは、最大転送
レートが１４．４ｋｂｐｓのモデムを用いた場合の、２
０（＝５０分の１）ｍｓｅｃ分のデータ量に相当する。
パケット内のデータ・フィールドの割り振り方は、音声
データを含むかどうかによって２種類に分かれる。

【００１１】図１０（ａ）には、音声データ付きパケッ
ト（「ＶＯＤ（Voice Over Data）パケット」ともい
う）の構造を示している。第１ビットは、ＳＹＮＣであ
り、同期を採るために用いられる。第２ビットは、該パ
ケット中に音声データを含んでいるかどうかを示すため
のＧＳＭビットであり、音声データを含む場合には音声
フラグ（「ＶｏｉｃｅＡｃｔｉｖｉｔｙビット（音声
入出力監視ビット）」ともいう）が設定（ＯＮ）され
る。ＳＹＮＣビットとＧＳＭビットが、パケットのヘッ
ダー部であり、第３ビット以降がデータ部である。第３
ビットから第８ビットの６ビットは、ＣＲＣ（Cyclic R
edundancy Check）、すなわち、送信データのエラー検
出のために用いられる。第９〜第２７２の２６４ビット
は、音声データに割り当てられる（但し、２６４ビット
中の４ビットはパリティ・ビットとして使用される）。
伝送される音声データは、例えばＧＳＭ^/*/アルゴリズ
ムによって符号化圧縮されている。残りの第２７３〜第
２８８ビットの１６ビットは、画像データに割り当てら
れる。画像データは、例えばＭＰＥＧ（Motion Picture
Experts Group）１やＨ２６１^**によって符号化圧縮さ
れている。このパケットによれば、最大１３ｋｂｐｓ
（＝２６０ビット÷２０ｍｓｅｃ）の転送レートで音声
データが伝送される。

【００１２】また、図１０（ｂ）には、音声データを含
まないパケット（「ＮＯＮＶＯＩＣＥパケット」とも
いう）の構造を示している。第１ビットは、ＳＹＮＣで
あり、同期を採るために用いられる。第２ビットは、該
パケット中に音声データを含んでいるかどうかを示すた
めのＧＳＭビットであり、音声データを含まない場合に
はＶｏｉｃｅＡｃｔｉｖｉｔｙフラグが解除（ＯＦ
Ｆ）される。ＳＹＮＣビットとＧＳＭビットが、パケッ
トのヘッダー部であり、第３ビット以降がデータ部であ
る。この場合、残りの第３〜第２８８ビットの２８６ビ
ットの帯域全てが画像データに割り当てられる。画像デ
ータは、前述同様、ＭＰＥＧ１やＨ２６１に基づいて符
号化圧縮されている。

【００１３】パケット通信に伴う問題点：音声データと
画像データを多重化して伝送する場合、前述したよう
に、リアルタイム性を要求される音声データの方にプラ
イオリティを与えられる。このため、音声データがパケ
ット中に存在するかどうかによって、画像データに割り
当てられる帯域幅が大きく異なってくる。このことは図
１０を参照すれば、直感的に理解できよう。パケット中
の画像データの帯域幅が変動することの帰結として、以
下のような問題点が派生する。

【００１４】（１）画像データの符号化圧縮のビット・
レートの問題画像データの符号化圧縮モジュール（ソフトウェア）、
若しくは動画圧縮器（ハードウェア）は、一般には、自
身に与えられたパラメータ（例えばビット・レート）に
従って、データ圧縮率を調整するようになっている。よ
り具体的には、ビット・レートに応じて、単位時間当り
に符号化圧縮処理する画像フレーム数を一定に保つよう
に働く。したがって、適切なビット・レートを与えるこ
とによって、画像データの転送レート（帯域幅）と画質
のバランスのとれた最適なデータ転送を行うことができ
る。しかしながら、上述のように画像データに割り当て
られる帯域幅が動的に変化すると、これに応じて最適な
ビット・レートも変動してしまう。音声データがパケッ
ト中に存在しない（すなわち画像データに与えられた帯
域幅が広い）ことを前提にして、予め大きなビット・レ
ートを与えてしまうと、画質はよくなるが、画像１フレ
ーム分のデータ量が厖大になってしまう。動画の圧縮／
伸長モジュール、若しくは圧縮／伸長器は、一般には１
フレーム単位で画像データを捌くようになっている。し
たがって、１フレーム分のデータ量が大きくなり、受信
側で画像１フレームを受信するための所要時間が長くな
れば、その分画像データの伸長や表示する時期も遅滞す
る。この結果、受信者は数秒前の画像を見せられること
になる。逆に、音声データがパケット中に存在する（す
なわち画像データに与えられた帯域幅が狭い）ことを前
提にして、予め小さなビット・レートを与えれば、画像
１フレーム分のデータ量が少なくなるので、画像の遅延
は解消される。しかし、そのトレードオフとして、音声
データがなく広い帯域を与えられている間も、画像は貧
弱なものになる。

【００１５】（２）ビデオ・キャプチャのフレーム・レ
ートの問題ＰＣをビデオ会議に利用するには、通常、ビデオ・キャ
プチャ・ボード若しくはビデオ・キャプチャ・コントロ
ーラなどのような、ビデオ・カメラからの入力画像をデ
ジタル化してファイルに落とすためのデバイスが用いら
れる。ビデオ・キャプチャ・コントローラは、一般に
は、１フレーム単位で画像データのキャプチャリングを
行う。キャブチャリング動作は、例えば、上位のハード
ウェア（例えば「ビデオ・アプリケーション・プログラ
ム」を実行するＣＰＵ）からの画像入力要求に応答して
行われる。画像の動きをなるべくスムースに見せるため
には、フレーム・レート、すなわち１秒当りにキャプチ
ャする画像フレーム数を上げればよい。しかし、その当
然の帰結として、画像データの総量が増えることにな
る。狭い帯域幅しか与えられていないとき（図１０
（ａ）参照）には、フレーム・レートを高くしていて
は、データの滞り（バッファリング）が生じ、受信者に
は数秒前の画像を見せられることになる。逆に、フレー
ム・レートを下げ過ぎると、画像の遅延は避けられる
が、見た目の動画のスムースさを欠くことになる。ま
た、次フレームとの間にビデオ・データが送られない空
白のパケット（隙間）が生じるなど、効率的な伝送を行
えない。１フレーム以上のデータ・バッファリングは、
画像の遅延を将来するだけで全く意味がない。つまり、
１フレームの伝送を完了したときに次の１フレームの伝
送を開始できるような間隔でキャプチャリングするのが
望ましい。画像１フレーム分のデータ量（ビット数）と
通信路中で画像データに割り当てられた帯域幅とから１
フレーム分の伝送時間を計算すれば、次に画像フレーム
をキャプチャすべき最適な時間間隔が求められよう。し
かしながら、画像データに割り当てられる帯域幅が動的
に変化したのでは、この計算は成り立たない。

【００１６】音声データの方にプライオリティが与えら
れるといっても、画像も一定の速度で且つ極力滑らかに
再生することが望ましい。したがって、画像データの符
号化圧縮や、ビデオ・キャプチャリングの問題の解決は
不可避なのである。

【００１７】ＩＳＤＮやＬＡＮのように、音声データと
画像データの各々に対して広い帯域幅の通信路を割り当
てることができるような伝送方式であれば、上述した問
題点は目立たない。単一の電話回線のように狭帯域の１
通信路をデータ・チャネルが共有するような伝送方式の
場合、このような問題点は、とりわけ重大となる。

【００１８】《注釈》＊：ＧＳＭは、Global System for Mobile communicati
on の略である。ＧＳＭにおける音声符号化アルゴリズ
ムは、Regular Pulse Excited-Linear Predictive Code
r（ＲＰＥ−ＬＰＣ）として知られている。＊＊：Ｈ２６１はＩＴＵ（International Telecommunic
ation Union）勧告に従った圧縮アルゴリズム

【００１９】

【発明が解決しようとする課題】本発明の目的は、ビデ
オ会議のためのデータをパケット形式で伝送するため
の、優れたデータ伝送方法及び装置を提供することにあ
る。

【００２０】本発明の更なる目的は、ビデオ会議の音声
データ及び画像データを多重化したパケット形式にして
伝送するための、優れたデータ伝送方法及び装置を提供
することにある。

【００２１】本発明の更なる目的は、符号化圧縮した音
声データと符号化圧縮した画像データを多重化して固定
ビット幅のパケットにして伝送するときに、音声データ
にプライオリティを与えながらも画像データも滞りなく
伝送することができる、優れたデータ伝送方法を提供及
び装置することにある。

【００２２】本発明の更なる目的は、符号化圧縮した画
像データを固定ビット幅のパケット内に入れて伝送する
場合において、画像データに割り当てられる帯域幅が変
動しても、好適に画像データを伝送することができる優
れたデータ伝送方法及び装置を提供することにある。

【００２３】

【課題を解決するための手段】本発明は、上記課題を参
酌してなされたものであり、その第１の側面は、符号化
圧縮した音声データと符号化圧縮した画像データを固定
ビット幅のパケットに混合してネットワーク上に伝送す
るタイプのデータ伝送方法において、パケット内に音声
データを含むかどうかに応じて画像データの圧縮率を調
整する、ことを特徴とするデータ伝送方法である。

【００２４】また、本発明の第２の側面は、入力した音
声データを符号化圧縮するとともに、捕捉した画像デー
タを符号化圧縮し、符号化圧縮された音声データと符号
化圧縮された画像データを固定ビット幅のパケットに混
合して、ネットワーク上に伝送するタイプのデータ伝送
方法において、パケット内に音声データを含むかどうか
に応じて画像データの捕捉間隔を調整する、ことを特徴
とするデータ伝送方法である。

【００２５】また、本発明の第３の側面は、符号化圧縮
した音声データと符号化圧縮した画像データを固定ビッ
ト幅のパケットに混合してネットワーク上に伝送するタ
イプのデータ伝送方法において、（ａ）音声データの入
力を試みる段階と、（ｂ）音声データの入力の有無を検
出する段階と、（ｃ）画像データを所定の捕捉間隔で捕
捉する段階と、（ｄ）画像データを所定の圧縮率で符号
化圧縮する段階と、（ｅ）前記（ｂ）段階の検出結果に
応じて、音声データを符号化圧縮するとともに、符号化
圧縮された画像データと混合して、パケットを生成する
段階と、（ｆ）生成したパケットを伝送する段階と、
（ｇ）過去１回以上の前記（ｂ）段階における検出結果
を基に、以後の音声データの有無を予測する音声予測段
階と、（ｈ）前記（ｇ）段階の予測結果を基に、前記
（ｃ）段階の前記所定の捕捉間隔を調整する段階と、を
具備することを特徴とするデータ伝送方法である。

【００２６】ここで、前記（ｃ）段階では比較的短い第
１の捕捉間隔又は比較的長い第２の捕捉間隔のうちのい
ずれか一方で画像データを捕捉し、また、前記（ｈ）段
階では、予測結果が音声データ有りを示す場合は第２の
捕捉間隔を選択し、予測結果が音声データ無しを示す場
合は第１の捕捉間隔を選択する、ようにしてもよい。

【００２７】また、本発明の第４の側面は、符号化圧縮
した音声データと符号化圧縮した画像データを固定ビッ
ト幅のパケットに混合してネットワーク上に伝送するタ
イプのデータ伝送方法において、（ａ）音声データの入
力を試みる段階と、（ｂ）音声データの入力の有無を検
出する段階と、（ｃ）画像データを所定の捕捉間隔で捕
捉する段階と、（ｄ）画像データを所定の圧縮率で符号
化圧縮する段階と、（ｅ）前記（ｂ）段階の検出結果に
応じて、音声データを符号化圧縮するとともに、符号化
圧縮された画像データと混合して、パケットを生成する
段階と、（ｆ）生成したパケットを伝送する段階と、
（ｇ）過去１回以上の前記（ｂ）段階における検出結果
を基に、以後の音声データの有無を予測する音声予測段
階と、（ｈ）前記（ｇ）段階の予測結果を基に、前記
（ｄ）段階の前記所定の圧縮率を調整する段階と、を具
備することを特徴とするデータ伝送方法である。

【００２８】ここで、前記（ｄ）段階では、比較的高い
第１の圧縮率又は比較的低い第２の圧縮率のうちいずれ
か一方で画像データを圧縮し、また、前記（ｈ）段階で
は、予測結果が音声データ有りを示す場合は第１の圧縮
率を選択し、予測結果が音声データ無しを示す場合は第
２の圧縮率を選択する、ようにしてもよい。

【００２９】また、本発明の第５の側面は、符号化圧縮
した音声データと符号化圧縮した画像データを固定ビッ
ト幅のパケットに混合してネットワーク上に伝送するタ
イプのデータ伝送装置において、（ａ）音声データの入
力を試みる音声入力手段と、（ｂ）音声データの入力の
有無を検出する音声検出手段と、（ｃ）画像データを入
力する画像入力手段と、（ｄ）入力した画像データを所
定の捕捉間隔で捕捉する画像捕捉手段と、（ｅ）画像デ
ータを所定の圧縮率で符号化圧縮する画像符号化圧縮手
段と、（ｆ）前記音声検出手段による検出結果に応じ
て、音声データを符号化圧縮するとともに、符号化圧縮
された画像データと混合して、パケットを生成するデー
タ混合手段と、（ｇ）生成したパケットを伝送する伝送
手段と、（ｈ）前記音声検出手段による過去１回以上の
検出結果を基に、以後の音声データの有無を予測する音
声予測手段と、（ｉ）音声予測手段による予測結果に応
じて、前記画像捕捉手段の前記所定の捕捉間隔を調整す
る調整手段と、を具備することを特徴とするデータ伝送
装置である。

【００３０】ここで、前記画像捕捉手段は比較的短い第
１の捕捉間隔又は比較的低速な第２の捕捉間隔のうちの
いずれか一方で画像データを捕捉し、また、前記調整手
段は、予測結果が音声データ有りを示す場合は第２の捕
捉間隔を選択し、予測結果が音声データ無しを示す場合
は第１の捕捉間隔を選択する、ようにしてもよい。

【００３１】また、本発明の第６の側面は、符号化圧縮
した音声データと符号化圧縮した画像データを固定ビッ
ト幅のパケットに混合してネットワーク上に伝送するタ
イプのデータ伝送装置において、（ａ）音声データの入
力を試みる音声入力手段と、（ｂ）音声データの入力の
有無を検出する音声検出手段と、（ｃ）画像データを入
力する画像入力手段と、（ｄ）入力した画像データを所
定の捕捉間隔で捕捉する画像捕捉手段と、（ｅ）画像デ
ータを所定の圧縮率で符号化圧縮する画像符号化圧縮手
段と、（ｆ）前記音声検出手段による検出結果に応じ
て、音声データを符号化圧縮するとともに、符号化圧縮
された画像データと混合して、パケットを生成するデー
タ混合手段と、（ｇ）生成したパケットを伝送する伝送
手段と、（ｈ）前記音声検出手段による過去１回以上の
検出結果を基に、以後の音声データの有無を予測する音
声予測手段と、（ｉ）音声予測手段による予測結果に応
じて、前記画像符号化圧縮手段の前記所定の圧縮率を調
整する調整手段と、を具備することを特徴とするデータ
伝送装置である。

【００３２】ここで、前記画像符号化圧縮手段は比較的
高い第１の圧縮率又は比較的低い第２の圧縮率のうちの
いずれか一方で画像データを捕捉し、また、前記調整手
段は、予測結果が音声データ有りを示す場合は第１の圧
縮率を選択し、予測結果が音声データ無しを示す場合は
第２の圧縮率を選択する、ようにしてもよい。

【００３３】

【作用】音声データと画像データとを混合して固定ビッ
ト幅のパケットを生成する場合、プライオリティを与え
られた音声データが存在するかどうかによって、画像デ
ータに割り当てられる帯域幅を大いに相違する。例えば
図１０に示す例では、画像データの帯域幅は１６ビット
又は２８６ビットであり、その差は非常に大きい。

【００３４】本発明に係るデータ伝送方法及び装置によ
れば、音声データが無いと考えられ、したがって、比較
的広い帯域幅が画像データに与えられる期間には、画質
を重視してパケットを生成する。すなわち、画像データ
の圧縮率を低くし、あるいは画像データをキャプチャリ
ングするフレーム・レートを上げるなどして、許容され
る範囲で、画質の向上を図っている。

【００３５】逆に、音声データが有ると考えられ、した
がって、比較的狭い帯域幅しか画像データに与えられな
い期間には、画像データのトラフィックを重視してパケ
ットを生成する。すなわち、画像データの圧縮率を高く
し、あるいは、画像データをキャプチャリングするフレ
ーム・レートを下げるなどして、データの滞り（１フレ
ーム以上の無意味なバッファリング）を生じないように
している。

【００３６】したがって、本発明によれば、符号化圧縮
した音声データと符号化圧縮した画像データを多重化し
て固定ビット幅長のパケットにして伝送するときに、音
声データにプライオリティを与えながらも画像データも
滞りなく伝送することができる。

【００３７】また、本発明によれば、符号化圧縮した画
像データを固定ビット幅のパケット内に入れて伝送する
場合において、画像データに割り当てられる帯域幅が変
動しても、好適に画像データを伝送することができる。
換言すれば、本発明によれば、滞らず且つ隙間なく、画
像データを伝送できる訳である。

【００３８】本発明のさらに他の目的、特徴や利点は、
後述する本発明の実施例や添付する図面に基づくより詳
細な説明によって明らかになるであろう。

【００３９】

【発明の実施の形態】以下、図面を参照しながら本発明
の実施例を詳解する。

【００４０】Ａ．コンピュータ・システムのハードウェ
ア構成図１には、本発明の実施に供されるコンピュータ・シス
テム１００のハードウェア構成を模式的に示している。
システム１００は、一般公衆回線上に接続された１つの
コンピュータ・システムに該当する。以下、各部につい
て説明する。

【００４１】メイン・コントローラであるＣＰＵ１１
は、オペレーティング・システム（ＯＳ）の制御下で、
各種プログラムを実行するようになっている。ＣＰＵ１
１の動作クロックは、発振器（ＯＳＣ）１２から供給さ
れる。ＣＰＵ１１は、例えば、米ＩＢＭ社、米Ｍｏｔｏ
ｒｏｌａ社及び米Ａｐｐｌｅ社が共同開発した"Ｐｏｗ
ｅｒＰＣ６０３ｅ−１００ＭＨｚ"（"ＰｏｗｅｒＰ
Ｃ"は米ＩＢＭ社の商標）でよい。ＣＰＵ１１は、自身
の外部ピンに直結したプロセッサ・バス１６、ローカル
・バスとしてのＰＣＩ（Peripheral Component Interco
nnect）バス１７、及び入出力バスとしてのＩＳＡ（Ind
ustry Standard Architecture）バス２３という３階層
のバスを介して、各デバイスと相互接続している。

【００４２】プロセッサ・バス１６とＰＣＩバス１７と
は、ブリッジ回路（ホスト−ＰＣＩブリッジ）１３によ
って連絡されている。本実施例のブリッジ回路１３は、
メイン・メモリ１５へのアクセス動作を制御するための
メモリ・コントローラと、両バス１６，１７間の速度差
を吸収するためのデータ・バッファを含んだ構成となっ
ている。メイン・メモリ１５は、ＤＲＡＭのような書き
込み可能な半導体メモリで構成され、各プログラムの格
納領域、及び実行中のプログラムの作業領域として用い
られる。メイン・メモリ１５の記憶容量は、通常、数Ｍ
Ｂ〜数十ＭＢ程度である。また、Ｌ２−キャッシュ１４
は、ＳＲＡＭのような高速アクセス可能な半導体メモリ
で構成され、ＣＰＵ１１の処理速度とメモリ１５へのア
クセス速度のギャップを吸収するために、必要最小限の
データの一時的保持に用いられる。Ｌ２−キャッシュ１
４の記憶容量は、例えば２５６ＫＢである。また、ＲＯ
Ｍ１８は、ハードウェア操作のための制御コード（ＢＩ
ＯＳ）や、始動時のテスト・プログラム（ＰＯＳＴ）な
どを恒久的に記憶するための不揮発性半導体メモリであ
る。

【００４３】ＰＣＩバス１７は、米Ｉｎｔｅｌ社の提唱
に基づいて規格化されたバスであり、バス幅３２ビッ
ト、動作周波数３３ＭＨｚ、最高データ転送速度１３２
Ｍｂｐｓを主な性能としている。ＰＣＩバス１７には、
グラフィック・コントローラ１９やビデオ・キャプチャ
・コントローラ２０などのような、比較的高速なデータ
転送を要するＰＣＩデバイスが接続される。

【００４４】グラフィック・コントローラ１９は、コン
ピュータ画像の表示処理を行うための周辺コントローラ
であり、ＣＰＵ１１からの描画命令に従って描画情報を
画面バッファ（ＶＲＡＭ）１９ｂに一旦書き込むととも
に、ＶＲＡＭ１９ｂから描画情報を読み出して、標準装
備された液晶表示ディスプレイ（ＬＣＤ）１９ａに出力
するようになっている。また、グラフィック・コントロ
ーラ１９は、読み出した描画情報を付設するＤＡコンバ
ータ１９ｃによってアナログ化して、外付けＣＲＴ（Ca
thod Ray Tube）ディスプレイ１９ｄに出力することも
できる。

【００４５】ビデオ・キャプチャ・コントローラ２０
は、ビデオ・カメラ２０ａ（又はＶＴＲ：図示しない）
からアナログ入力した映像信号をデジタル化してファイ
ルに落とすためのコントローラである。ビデオ・キャプ
チャ・コントローラ２０は、一般には、ビデオ・キャプ
チャ用デバイス・ドライバ（後述）によってハードウェ
ア操作され、フレーム（すなわち画面）単位でキャプチ
ャリングを行うようになっている。フレーム・レート
（すなわち単位時間当りにキャプチャリングするフレー
ム数）は、ハードウェアの許容する範囲（通常は１５〜
３０フレーム／秒程度）で制御可能である。ビデオ・キ
ャプチャ・コントローラ２０は、ビデオ会議のための画
像データの捕捉にも用いられる。

【００４６】ＰＣＩバス１７とＩＳＡバス２３とは、ブ
リッジ回路（ＰＣＩ−ＩＳＡブリッジ）２１によって相
互接続されている。本実施例のブリッジ回路２１は、Ｄ
ＭＡコントローラ、プログラマブル割込みコントローラ
（ＰＩＣ）、プログラマブル・インターバル・タイマ
（ＰＩＴ）を含んだ構成となっている。さらに、ブリッ
ジ回路２１は、ハード・ディスク・ドライブ（ＨＤＤ）
２２を接続するためのＩＤＥインターフェース（Integr
ated Drive Electronics：ＩＤＥは本来ＩＳＡバスにＨ
ＤＤを直結させるための規格）を含んでいる。

【００４７】ＩＳＡバス２３上には、キーボード／マウ
ス・コントローラ（ＫＭＣ）２４、シリアルＩ／Ｏコン
トローラ２５、パラレルＩ／Ｏコントローラ２６、フロ
ッピー・ディスク・コントローラ（ＦＤＣ）２７ａ、オ
ーディオ・コントローラ２８などの、比較的低速なデー
タ転送で済むＩＳＡデバイスが接続されている。

【００４８】ＫＭＣ２４は、キーボード２４ａからの入
力マトリックスやマウス２４ｂによる指示座標値を処理
するためのコントローラである。

【００４９】シリアルＩ／Ｏコントローラ２５は、シリ
アル・ポート２５ａを介して行われる、他の機器との間
のシリアル・データ転送を制御するためのものである。
シリアル・ポート２５ａには例えばモデムが装着され
る。モデムは、一般公衆回線のようなアナログ通信回線
を介してデータ通信を行うための信号変換装置である。
換言すれば、コンピュータ・システム１００は、モデム
によって、一般公衆回線を利用したビデオ会議に参入す
ることができる訳である。モデムの最大転送レートは、
例えば１４．４ｋｂｐｓ（又は２８．８ｋｂｐｓ）程度
である。

【００５０】パラレルＩ／Ｏコントローラ２６は、パラ
レル・ポート２６ａを介して行われる、他の機器との間
のパラレル・データ転送を制御するためのものである。
パラレル・ポート２６ａに接続される装置の代表例は、
プリンタである。

【００５１】ＦＤＣ２７ａは、フロッピー・ディスク・
ドライブ２７の駆動を制御するためのコントローラであ
る。

【００５２】オーディオ・コントローラ２８は、オーデ
ィオ・ラインイン・ジャック２８ａに接続されたマイク
からのオーディオ入力や、オーディオ・ラインアウト・
ジャック２８ｂに接続されたスピーカによるオーディオ
出力を制御するためのコントローラである。オーディオ
・コントローラ２８は、オーディオ用デバイス・ドライ
バ（後述）によってハードウェア操作される。ビデオ会
議のための音声データの入出力は、オーディオ・コント
ローラによって行われる。

【００５３】コンピュータ・システム１００は、デスク
トップＰＣ、ノートブックＰＣ、あるいはその他のハイ
エンド・マシンであってもよい。システム１００の一例
は、日本アイ・ビー・エム（株）が市販する"ＩＢＭ
ＴｈｉｎｋＰａｄＰｏｗｅｒＳｅｒｉｅｓ８５
０"（"ＴｈｉｎｋＰａｄ"は米ＩＢＭ社の商標）であ
る。

【００５４】なお、コンピュータ・システム１００を構
成するためには、図１に示した以外にも多くの電気回路
等が必要であるが、これらは当業者には周知であり、且
つ本発明の要旨とは関連がないので、本明細書中では省
略してある。

【００５５】Ｂ．コンピュータ・システム上で稼働する
ソフトウェアＢ−１．ソフトウェアの階層的構成図２には、コンピュータ・システム１００で実行される
各ソフトウェア間の連携的構成を模式的に示している。

【００５６】最下層のソフトウェアは、デバイス・ドラ
イバ（Ｄ／Ｄ）のような、ハードウェアを直接制御する
ためのプログラムである。例えば、グラフィック・コン
トローラ１９を操作するためのディスプレイ用デバイス
・ドライバや、ビデオ・キャプチャ・コントローラ２０
を操作するためのビデオ・キャプチャ用デバイス・ドラ
イバ、シリアルＩ／Ｏコントローラ２５を操作するため
のＣＯＭデバイス・ドライバ、オーディオ・コントロー
ラ２８を操作するためのオーディオ用デバイス・ドライ
バなどがこれに該当する。

【００５７】オペレーティング・システム（ＯＳ）は、
システム１００のハードウェア及びソフトウェアを総合
的に管理するための基本ソフトウェアであり、例えば、
ＯＳ／２（"ＯＳ／２"は米ＩＢＭ社の商標）がこれに該
当する。ＯＳは、ＨＤＤ２２なとのの記憶装置に格納さ
れたファイルを管理するための「ファイル・マネージ
ャ」、メモリ領域の割り当てを管理するための「メモリ
・マネージャ」、ＣＰＵ１１のタスク実行の順序を管理
するための「スケジューラ」を含んでいる。また、ウィ
ンドウ表示やキーボード／マウス操作等の処理のための
「ユード・インターフェース」も含んでいる。

【００５８】ＯＳ層の上位には、ＯＳの管理下で実行さ
れる各種アプリケーション・プログラムが存在する。ア
プリケーション・プログラムは、必要に応じて適宜ＨＤ
Ｄ２２などの外部記憶装置からメモリ１５にロードされ
る。本発明の具現に関連するアプリケーション・プログ
ラムは、ビデオ会議制御プログラム、ビデオ・アプリケ
ーション・プログラム、データ混合分離プログラムであ
る。以下、各アプリケーション・プログラムについて簡
単に説明する。

【００５９】ビデオ会議制御プログラム：ビデオ会議制
御プログラムは、会議（セッション）の開始・終了（電
話をかける・切るなどの操作）、ディスプレイ画面上の
ビデオ表示の開始・終了、ビデオ・アプリケーションに
よる圧縮作業の開始・終了、音声の音量やマイクロフォ
ンのゲイン調整など、会議全体の制御を行うためのソフ
トウェアである。モデムの接続速度の表示やエラー・メ
ッセージの表示も行う。

【００６０】ビデオ・アプリケーション・プログラム：
ビデオ・アプリケーション・プログラムは、画像データ
の捕捉やパケット転送に伴う以下の機能を行うためのソ
フトウェアである。１）ビデオ・キャプチャ・コントローラ２０によって取
り込まれた画像フレームを符号化圧縮する。２）符号化圧縮された画像フレームを、データ混合分離
プログラムに渡す。３）データ混合分離プログラムより渡された画像フレー
ムを復号化伸長する。４）復号化伸長された画像フレームを、グラフィック・
コントローラ１９に渡して、コンピュータ画面上で再生
する（但し、グラフィック・コントローラ１９へのハー
ドウェア的な入出力操作には、ディスプレイ・デバイス
・ドライバが介在する。）。

【００６１】ビデオ・アプリケーション・プログラム
は、画像データを圧縮・伸長処理するための画像符号化
圧縮／復号化伸長モジュールを含んでいる。画像圧縮／
伸長モジュールは、例えば"ＭＰＥＧ１"に従うものでよ
い。画像圧縮／伸長モジュールは、一般には、フレーム
単位で画像データの圧縮及び伸長処理を行うようなって
いる。したがって、送信側では、１フレームの圧縮を完
了する前に取り込まれた次のフレームの画像データは、
バッファリングされ、データの停滞の原因になる。ま
た、受信側では、１フレーム分の画像データを受け取る
までは画像データの復号化伸長を行えないので、１フレ
ーム分の画像データが厖大で転送時間が長引けば、表示
処理の遅延につながる。また、画像符号化圧縮モジュー
ルは、与えられたパラメータ（例えばビット・レート）
に応じて、フレーム・レートを維持するように、すなわ
ち一定間隔で画像フレームを処理するように稼働する。
例えば画像データの送信が滞っている場合には、圧縮率
を上げる（すなわち画質を下げる）ことによってフレー
ム・レートの維持に努める。逆に画像データの送信に余
裕がある場合には、圧縮率を下げる（すなわち画質を上
げる）ようになっている。

【００６２】データ混合分離プログラム：データ混合分
離プログラムは、音声データと画像データを混合してパ
ケットを生成したり、受け取ったパケットから音声デー
タや画像データを組み立てるためのソフトウェアであ
る。主な機能は以下の通りである。１）オーディオ・コントローラ２８により入力した音声
データを、符号化圧縮する（但し、オーディオ・コント
ローラ２８へのハードウェア的な入出力操作には、オー
ディオ・デバイス・ドライバが介在する。）。２）ビデオ・アプリケーションから渡された符号化圧縮
済みの画像データと、自身で符号化圧縮した音声データ
とを、混合する。３）混合したデータをパケットに分割する。４）パケットをシリアルＩ／Ｏコントローラ２５に渡す
（但し、シリアルＩ／Ｏコントローラ２５へのハードウ
ェア的な入出力動作には、ＣＯＭデバイス・ドライバが
介在する）。シリアルＩ／Ｏコントローラ２５に渡され
たパケットは、モデム、一般公衆回線経由で受信側のコ
ンピュータ・システムに伝送される。５）受信側のコンピュータ・システムから伝送されてき
たパケットを、シリアルＩ／Ｏコントローラ２５より受
け取る（但し、シリアルＩ／Ｏコントローラ２５へのハ
ードウェア的な入出力動作には、ＣＯＭデバイス・ドラ
イバが介在する。）。６）受け取ったパケットを組み立てる。７）組み立てられたデータを、音声データと画像データ
とに分離する（但し、音声データと画像データは、とも
に符号化圧縮されたままの状態）。８）画像データを、ビデオ・アプリケーションに渡す。９）音声データを復号化伸長して、オーディオ・コント
ローラ２８により再生する（但し、オーディオ・コント
ローラ２８へのハードウェア的な入出力操作には、オー
ディオ・デバイス・ドライバが介在する。）。１０）モデムのコントロール、音声の入出力の一時停
止、再開、接続後の回線の状況の監視を行う。

【００６３】データ混合分離プログラムは、現在の音声
の入力の有無（すなわちＶｏｉｃｅＡｃｔｉｖｉｔｙ）
も監視して、この監視結果をＶｏｉｃｅＡｃｔｉｖｉ
ｔｙビットに書き込むようにもなっている。パケットの
ＧＳＭビットは、ＶｏｉｃｅＡｃｔｉｖｉｔｙに応じ
て設定／解除するとともに、パケットの構造を決める
（図１０参照）。本実施例では、データ混合分離プログ
ラムはＶｏｉｃｅＡｃｔｉｖｉｔｙビットを２０ｍｓ
ｅｃ毎に更新するようになっている。また、データ混合
分離プログラムをライブラリ形式にしておくことによ
り、これとリンクした他のアプリケーション・プログラ
ムと同一のプロセス空間内で動作し、同じリソースとし
てＶｏｉｃｅＡＣｔｉｖｉｔｙビットを共有すること
ができる。すなわち、アプリケーション・プログラム
（例えばビデオ・アプリケーション）はＶｏｉｃｅＡ
ｃｔｉｖｉｔｙビットを自ら直接参照することができる
訳である。

【００６４】なお、ＯＳ層とアプリケーション層の間
に、破線で図示したようなプラットフォーム層が介在し
ていてもよい。プラットフォーム層は、通信回線によっ
て相互接続されたコンピュータ・システム間で、ソフト
ウェアやデータのシェアリングを可能にするためのもの
である。プラットフォーム層は"Collaboration Framewo
rk"と呼ばれることもある。

【００６５】Ｂ−２．各ソフトウェア間の協働的オペレ
ーションここで、各ソフトウェア間の協働的動作を、簡単に説明
しておく。

【００６６】図３には、入力した音声データと画像デー
タを分割してパケット化して一般公衆回線上に伝送する
様子を、模式的に示している。

【００６７】マイクを介して入力された音声データは、
オーディオ・デバイス・ドライバによる入出力操作によ
って、データ混合分離プログラムに渡される（矢印Ｐ
１，Ｐ２，Ｐ３）。データ混合分離プログラムでは、音
声データはＧＳＭアルゴリズムなどに従って、符号化圧
縮される。

【００６８】一方、ビデオ・カメラ２０ａによって撮像
された画像フレームは、ビデオ・キャプチャ・コントロ
ーラ２０によってデジタル化される（矢印Ｐ４，Ｐ
５）。ビデオ・アプリケーションは、ビデオ・キャプチ
ャ・デバイス・ドライバによる入出力操作によって、１
フレーム単位で画像データを取得し（矢印Ｐ６）、これ
をＭＰＥＧ１などに従って符号化圧縮する。フレーム・
レートが速過ぎるなどの理由により、１フレームを符号
化圧縮処理する前に次の１フレームをキャプチャした場
合には、次の１フレーム分の画像データはバッファリン
グされ、データの停滞の原因になる。

【００６９】データ混合分離プログラムは、ビデオ・ア
プリケーションより符号化圧縮された画像データを受け
取り（矢印Ｐ７）、符号化圧縮された音声データと画像
データとを混合し、混合データを所定ビット幅のパケッ
トに分割する。このとき、ＶｏｉｃｅＡｃｔｉｖｉｔ
ｙビットの内容に応じて、ヘッダ部のＧＳＭビットが設
定／解除されるとともに、パケット構造が決定される。
音声データは、圧縮方式で定められた所定の帯域幅（本
実施例では２６４ビット幅の帯域）を優先して占有す
る。また、画像データは、その余の帯域（音声有りの場
合は１６ビット幅の帯域、音声無しの場合は２８６ビッ
ト幅の帯域）に入れられる（図１０参照）。フレーム・
サイズが厖大な画像データを伝送する場合や、音声有り
の状態が継続する場合には、所要パケット数が多くな
り、画像１フレーム分の伝送時間が長くかかることにな
る。

【００７０】逐次分割されたパケットは、ＣＯＭデバイ
ス・ドライバの入出力操作によって、シリアルＩ／Ｏコ
ントローラ２５に渡される（矢印Ｐ９，Ｐ１０）。シリ
アルＩ／Ｏコントローラ２５は、モデム経由で一般公衆
回線上にパケットを伝送する。

【００７１】また、図４には、一般公衆回線を介して受
け取ったパケットから音声データと画像データを組み立
てる様子を、模式的に示している。

【００７２】一般公衆回線を経由して送られてきたパケ
ットは、モデムによって受け取られ且つデジタル化され
る。データ混合分離プログラムは、シリアルＩ／Ｏデバ
イス・ドライバによる入出力操作によって、パケットを
受け取る（矢印Ｐ１１，Ｐ１２，Ｐ１３）。

【００７３】データ混合分離プログラムは、パケットを
組み立てるとともに、音声データと画像データに分離す
る。音声データは、データ混合分離プログラム内で復号
化伸長処理され、オーディオ・コントローラ２８に渡さ
れる（矢印Ｐ１３，Ｐ１４）。オーディオ・コントロー
ラ２８は、音声データをスピーカによって音声出力する
（矢印Ｐ１５）。

【００７４】一方、画像データは、ビデオ・アプリケー
ションに渡される（矢印Ｐ１６）。ビデオ・アプリケー
ションは、画像データを復号化伸長して、１フレーム分
の画像データを組み立てる。

【００７５】組み立てられた画像フレームは、ディスプ
レイ・デバイス・ドライバによる入出力操作によってグ
ラフィック・コントローラ１９に渡され（矢印Ｐ１７，
Ｐ１８）、ＬＣＤ１９ｂ画面上に表示される（矢印Ｐ１
９）。なお、１フレームのデータ・サイズが厖大であ
る、あるいはパケット中で画像データに割り当てられた
帯域幅が狭いなどの理由により、画像１フレーム分のデ
ータ伝送に長時間を要した場合には、ビデオ・アプリケ
ーションによる画像フレームの出力は遅延する。この結
果、受信側のＬＣＤ１９ｂ画面上には数秒前の画像が表
示されることになる。

【００７６】Ｃ．画像データ伝送の最適化オペレーショ
ン本発明の特徴を略言すれば、現在までの音声データの有
無に従って、将来通信路中で画像データに割り当てられ
ている帯域幅を予知し、画像データの伝送の最適化を図
ることである。音声データの有無は、データ混合分離プ
ログラムが返すＶｏｉｃｅＡｃｔｉｖｉｔｙビットを
参照することによって判定できる。過去所定期間内のＶ
ｏｉｃｅＡｃｔｉｖｉｔｙビットの履歴を基にすれ
ば、将来音声入力があるかどうかを経験的に予測するこ
とができる。この予測結果は将来画像データに割り当て
られるべき帯域幅を一義的に意味する。この予測された
帯域幅に応じて画像データ伝送の最適化を図ればよい、
という訳である。

【００７７】ここで言う画像データ伝送の最適化とは、
データが滞らず、且つ隙間なく伝送することを意味す
る。最適化処理の具体的な例として、（１）音声の予測
結果を符号化圧縮工程にフィードバックする手法と、
（２）音声の予測結果を画像捕捉工程にフィードバック
するする手法とが挙げられる。前者によれば、予測され
た帯域幅に応じて画像データの圧縮率を調整することに
よって、データ伝送の遅延を最小化することができる。
また、後者によれば、予測された帯域幅に応じて次の画
像フレームをキャプチャすべき時間間隔を設定すること
により、隙間なく画像フレームを供給することができ
る。

【００７８】Ｃ−１．遅延の最小化この項では、音声の予測結果を符号化圧縮工程にフィー
ドバックする手法について説明する。図５には、同手法
の概念図を示している。

【００７９】この例のビデオ・アプリケーションは、画
像データをフレーム単位で符号化圧縮するための画像符
号化圧縮モジュールの他に、キャプチャ・モジュール
と、音声予測モジュールを含んでいる。キャプチャ・モ
ジュールは、ビデオ・キャプチャ・コントローラ２０に
対して、１フレーム分の画像データの供給を要求する機
能を備えている。また、音声予測モジュールは、過去の
所定期間内の音声入力の履歴に従ってこれから音声入力
があるかどうかを予測し、予測結果に基づいて、最適な
ビット・レートを画像符号化圧縮モジュールにフィード
バックする機構を備えている。以下、データの流れに従
って、各部の動作について説明する。

【００８０】第（Ｎ−１）フレーム目の画像データが入
力されると、画像符号化圧縮モジュールは、これを符号
化圧縮してデータ混合分離プログラムに渡す。データ混
合分離プログラムは、この時点で入力した音声データを
符号化圧縮するとともに、渡された画像データと混合
し、パケットに分割する。さらに、データ混合分離プロ
グラムは、音声入力の有無を示すＶｏｉｃｅＡｃｔｉ
ｖｉｔｙビットを２０ｍｓｅｃ毎に更新する。

【００８１】音声予測モジュールは、所定の時間周期ｔ
［ｓｅｃ］ごとにＶｏｉｅＡｃｔｉｖｉｔｙビットを
読み、且つ所定時間Ｔ［ｓｅｃ］（但しＴ＞ｔ）内にお
けるＶｏｉｃｅＡｃｔｉｖｉｔｙビットの履歴を参照
し、所定の音声予測アルゴリズム（Ｄ項参照）に従っ
て、次の第Ｎフレーム目の画像データを転送する間に音
声入力があるかどうかを予測する。

【００８２】さらに、音声予測モジュールは、予測結果
に基づいて最適なビット・レートを計算して、画像符号
化圧縮モジュールにフィードバックする。音声予測が"
Ｔｒｕｅ"、すなわち音声入力が有ると予測された場
合、最適なビット・レートは以下の式（１）により算出
される。

【００８３】

【数１】 (ビット・レート) ＝(モデムＤＣＥ速度)−(オーバーヘッド)−(音声データのビット・レート) …（１）

【００８４】ここで、モデムＤＣＥ（Data Communicati
on Equipment）速度とは、モデムの最大転送速度と等価
であり、例えば１４．４ｋｂｐｓである。モデムＤＣＥ
速度は、データ混合分離プログラムにより設定され、一
旦回線に接続された後は固定的に用いられる。また、オ
ーバーヘッドは、パケットのヘッダー部に割かれるビッ
ト・レートであり、固定値である（図１０（ａ）では
０．４ｋｂｐｓ）。また、音声データのビット・レート
は、優先して割かれる固定値であり、ＧＳＭアルゴリズ
ムを用いる場合（図１０（ａ）参照）には、１３．２ｋ
ｂｐｓ（＝（２６０＋４）ビット÷２０ｍｓｅｃ）であ
る。したがって、画像符号化圧縮モジュールにフィード
バックされるビット・レートは０．８ｋｂｐｓというこ
とになる。

【００８５】一方、音声予測が"Ｆａｌｓｅ"、すなわち
音声入力がないと予測された場合、最適なビット・レー
トは以下の式（２）により算出される。

【００８６】

【数２】 (ビット・レート)＝(モデムＤＣＥ速度)−(オーバーヘッド) …（２）

【００８７】この場合、オーバーヘッド（０．１ｋｂｐ
ｓ（＝２ビット÷２０ｍｓｅｃ））以外の全てのモデム
ＤＣＥ速度、すなわち１４．３ｋｂｐｓが画像符号化圧
縮モジュールにフィードバックされることになる。

【００８８】画像符号化圧縮モジュールは、新たに受け
取ったビット・レートに応じて、フレーム・レートを維
持するように、第Ｎフレーム目の画像データの符号化圧
縮処理を行う。以下、同様の処理が繰り返されることに
なる。

【００８９】この方法によれば、音声予測がＴｒｕｅで
あれば必然的に圧縮率が上がり（画質が低下し）、Ｆａ
ｌｓｅであれば圧縮率が下がる（画質が向上する）。こ
の結果、データ伝送の遅延を最小化することができる。

【００９０】なお、音声入力の有無を予測するためのア
ルゴリズムについては、次項Ｄで詳解する。

【００９１】Ｃ−２．フレーム・レートの最大化この項では、音声の予測結果を画像捕捉工程にフィード
バックする手法について説明する。図６には、同手法の
概念図を示している。

【００９２】この例のビデオ・アプリケーションは、画
像データをフレーム単位で符号化圧縮するための画像符
号化圧縮モジュールの他に、キャプチャ・モジュール
と、音声予測モジュールを含んでいる。キャプチャ・モ
ジュールは、ビデオ・キャプチャ・コントローラ２０に
対して、１フレーム分の画像データの供給を要求する機
能を備えている。また、音声予測モジュールは、過去の
所定期間内の音声入力の履歴に従ってこれから音声入力
があるかどうかを予測し、予測結果に基づいて、次の画
像フレームを取り込むべき最適な時間間隔をキャプチャ
・モジュールにフィードバックする機構を備えている。
以下、データの流れに従って、各部の動作について説明
する。

【００９３】キャプチャ・モジュールが発行した入力要
求に応じて、第（Ｎ−１）フレーム目の画像データが入
力される。画像符号化圧縮モジュールは、これを符号化
圧縮してデータ混合分離プログラムに渡す。データ混合
分離プログラムは、この時点で入力した音声データを符
号化圧縮するとともに、渡された画像データと混合し、
パケットに分割する。さらに、データ混合分離プログラ
ムは、音声入力の有無を示すＶｏｉｃｅＡｃｔｉｖｉ
ｔｙビットを２０ｍｓｅｃ毎に更新する。

【００９４】音声予測モジュールは、所定の時間周期ｔ
［ｓｅｃ］ごとにＶｏｉｅＡｃｔｉｖｉｔｙビットを
読み、且つ所定時間Ｔ［ｓｅｃ］（但しＴ＞ｔ）内にお
けるＶｏｉｃｅＡｃｔｉｖｉｔｙビットの履歴を参照
し、所定のアルゴリズムに従って、次の第Ｎフレーム目
の画像データを転送する間に音声入力があるかどうかを
予測する。

【００９５】さらに、音声予測モジュールは、予測結果
に基づいて、第（Ｎ−１）フレームの画像データを取り
込んでから第Ｎフレーム目の画像データを取り込むまで
の最適な時間間隔Ｔ_cを計算して、キャプチャ・モジュ
ールにフィードバックする。ここで言う最適な時間間隔
Ｔ_cとは、データの滞りも隙間もなく画像フレームを取
り込めるタイミングを意味する。したがって、時間間隔
Ｔ_cは以下の式（３）により算出される。

【００９６】

【数３】Ｔ_c ＝Ｆ_r × １０／Ｂ＋ α …（３）

【００９７】ここで、Ｆ_rは、第（Ｎ−１）フレーム目
の符号化圧縮後のフレーム・サイズ（バイト数）であ
り、Ｂはパケット中で画像データに割り当てられた帯域
幅である。第１項で１０を乗算しているのは、１バイト
（＝８ビット）分のデータをシリアル転送する場合に
は、その前後各端に同期用のスタート／ストップ・ビッ
トを足した１０ビット長にして伝送するからである。式
（３）の右辺第１項は、第（Ｎ−１）フレーム目の画像
データの伝送に要する時間に該当する。また、同第２項
の定数αは、画像フレームを取り込んだ後の処理（例え
ば画像符号化圧縮処理やデータ混合処理）に要する時間
であり、ＣＰＵ１１に依存する値である。

【００９８】キャプチャ・モジュールは、Ｔ_c秒後に、
第Ｎフレーム目の画像データの入力を要求する。以下、
同様の処理が繰り返されることになる。

【００９９】この方法によれば、画像フレームの伝送が
完了する前に次の画像フレームの取り込みを開始して無
益なデータ・バッファリングを誘発する、ということは
ない。また、許容範囲で最大限の画像フレームの取り込
みに努めるため、既に画像フレームの伝送が完了してい
るにも拘らず次の画像フレームの取り込みを行わない、
という帯域の浪費も避けることができる。

【０１００】なお、音声入力の有無を予測するためのア
ルゴリズムは、Ｃ−１項と同様のものでよい。詳しくは
次項Ｄで説明する。

【０１０１】Ｄ．音声予測アルゴリズムＣ項で説明したように、音声入力の予測結果に基づいて
データ伝送の最適化が図られるようになっている。この
項では、図５及び図６の音声予測モジュールに適用可能
な音声予測アルゴリズムについて説明する。

【０１０２】図７には、音声予測アルゴリズムの第１の
例を、フローチャート化して示している。該アルゴリズ
ムは、データ混合分離プログラムより取得した現在及び
過去一定期間のＶｏｉｃｅＡｃｔｉｖｉｔｙビットに
従って、将来の音声入力の有無を予測する、ということ
を基本原理としている。

【０１０３】音声予測モジュールは、タイマー機能を持
っており、ｔ［ｓｅｃ］周期でＶｏｉｃｅＡｃｔｉｖ
ｉｔｙビットを参照し、その値（すなわちＴｒｕｅかＦ
ａｌｓｅか）を自身のバッファ（以下、「音声予測バッ
ファ」という）に逐次書き込む（ステップＳ１０）。こ
の音声予測バッファは、Ｔ［ｓｅｃ］（Ｔ＞ｔ）分、す
なわち過去複数個のＶｏｉｃｅＡｃｔｉｖｉｔｙビッ
トの値を書き込む記憶容量を持ち、バッファが一杯にな
ると古い順にデータを廃棄して新しいデータを書き込
む、という性質を持っている。

【０１０４】次いで、音声予測モジュールは、音声予測
バッファを参照することによって、最近Ｔ［ｓｅｃ］間
の音声入力の履歴を調べる。本例では、過去Ｔ［ｓｅ
ｃ］間でのＴｒｕｅの割合を調べ（ステップＳ２０）、
所定値Ｐ［％］を上回れば、画像符号化圧縮モジュール
（又はキャプチャ・モジュール）に対してＴｒｕｅを出
力し（ステップＳ３０）、Ｐ［％］未満であればＦａｌ
ｓｅを出力する（ステップＳ４０）。

【０１０５】図８には、音声予測アルゴリズムの第２の
例を、フローチャート化して示している。該アルゴリズ
ムも、図７と同様に、現在及び過去一定期間のＶｏｉｃ
ｅＡｃｔｉｖｉｔｙビットに従って、将来の音声入力の
有無を予測することを基本原理としている。

【０１０６】音声予測モジュールは、タイマー機能を持
っており、ｔ［ｓｅｃ］周期でＶｏｉｃｅＡｃｔｉｖ
ｉｔｙビットを参照し、その値（すなわちＴｒｕｅかＦ
ａｌｓｅか）を自身のバッファ（以下、「音声予測バッ
ファ」という）に逐次書き込む（ステップＳ１１０）。
この音声予測バッファは、Ｔ［ｓｅｃ］（Ｔ＞ｔ）分、
すなわち過去複数個のＶｏｉｃｅＡｃｔｉｖｉｔｙビ
ットの値を書き込む記憶容量を持ち、バッファが一杯に
なると古い順にデータを廃棄して新しいデータを書き込
む、という性質を持っている。

【０１０７】次いで、音声予測モジュールは、音声予測
バッファを参照することによって、最近Ｔ［ｓｅｃ］間
の音声入力の履歴を調べる。本例では、過去Ｔ［ｓｅ
ｃ］間におけるＶｏｉｃｅＡｃｔｉｖｉｔｙビットの
時間による加重平均値Ａ_wを計算するようになっている
（ステップＳ１２０）。加重平均値Ａ_wは、下式（４）
により求められる。

【０１０８】

【数４】

【０１０９】ここで、Ｎは、音声予測バッファ内のデー
タの個数である。また、Ｖ_iは音声予測バッファ内のｉ
番目のＶｏｉｃｅＡｃｔｉｖｉｔｙビットの値であ
り、Ｔｒｕｅであれば１とし、Ｆａｌｓｅであれば０と
する。また、Ｗ_iはｉ番目のデータに対する時間的な重
み因子であり、新しいデータほど大きく評価するためで
ある。

【０１１０】Ａ_wが閾値Ｑを上回れば、画像符号化圧縮
モジュール（又はキャプチャ・モジュール）に対してＴ
ｒｕｅを出力し（ステップＳ１３０）、閾値Ｑ未満であ
ればＦａｌｓｅを出力する（ステップＳ１４０）。

【０１１１】なお、所定時間Ｔ［ｓｅｃ］だけ遡って音
声予測するのは、人間は一度話し始めるとある程度の期
間は話し続ける、という習性に依拠する。Ｖｏｉｃｅ
Ａｃｔｉｖｉｔｙビットは２０ｍｓｅｃ毎の音声入力の
有無を示すに過ぎない。これに対して、ある一定期間Ｔ
［ｓｅｃ］だけ該ビットを監視した方が、１フレーム分
の画像データを伝送する間（通常複数パケットに跨が
る）という、比較的長期の音声予測をより正確に行うこ
とができる。

【０１１２】Ｅ．追補以上、特定の実施例を参照しながら、本発明について詳
解してきた。しかしながら、本発明の要旨を逸脱しない
範囲で当業者が該実施例の修正や代用を成し得ることは
自明である。すなわち、例示という形態で本発明を開示
してきたのであり、限定的に解釈されるべきではない。
本発明の要旨を判断するためには、冒頭に記載した特許
請求の範囲の欄を参酌すべきである。

【０１１３】

【発明の効果】本発明に係るデータ伝送方法及び装置
は、音声データが無いと考えられ、したがって、比較的
広い帯域幅が画像データに与えられる期間には、画質を
重視してパケットを生成する。すなわち、画像データの
圧縮率を低くし、あるいは画像データをキャプチャリン
グするフレーム・レートを上げるなどして、許容される
範囲で、画質の向上を図っている。

【０１１４】逆に、音声データが有ると考えられ、した
がって、比較的狭い帯域幅しか画像データに与えられな
い期間には、画像データのトラフィックを重視してパケ
ットを生成する。すなわち、画像データの圧縮率を高く
し、あるいは、画像データをキャプチャリングするフレ
ーム・レートを下げるなどして、データの滞り（１フレ
ーム以上の無意味なバッファリング）を生じないように
している。

【０１１５】したがって、本発明によれば、符号化圧縮
した音声データと符号化圧縮した画像データを多重化し
て固定長のパケットにして伝送するときに、音声データ
にプライオリティを与えながらも画像データも滞りなく
伝送することができる、優れたデータ伝送方法及び装置
を提供することができる。

【０１１６】また、本発明によれば、符号化圧縮した画
像データを固定長のパケット内に入れて伝送する場合に
おいて、画像データに割り当てられる帯域幅が変動して
も、好適に画像データを伝送することができる優れたデ
ータ伝送方法及び装置を提供することができる。換言す
れば、本発明によれば、映像の遅延と品質を最適化し
て、画像データを伝送できる訳である。

【図面の簡単な説明】

【図１】図１は、本発明の実施に供されるコンピュータ
・システム１００のハードウェア構成を模式的に示した
図である。

【図２】図２は、コンピュータ・システム１００で実行
される各ソフトウェアの構成を模式的に示した図であ
る。

【図３】図３は、入力した音声データと画像データを分
割してパケット化して一般公衆回線上に伝送する様子
を、模式的に示した図である。

【図４】図４は、一般公衆回線を介して受け取ったパケ
ットから音声データと画像データを組み立てる様子を、
模式的に示した図である。

【図５】図５は、音声の予測結果を符号化圧縮工程にフ
ィードバックする手法の概念図を示している。

【図６】図６は、音声の予測結果を画像捕捉工程にフィ
ードバックする手法の概念図を示している。

【図７】図７は、音声予測アルゴリズムの第１の例をフ
ローチャート化して示した図である。

【図８】図８は、音声予測アルゴリズムの第１の例をフ
ローチャート化して示した図である。

【図９】図９は、一般公衆回線とＰＣを用いたネットワ
ークの構成を模式的に示した図である。

【図１０】図１０は、音声データ及び画像データを伝送
するためのパケット構造の一例を示した図である。

【符号の説明】

１１…ＣＰＵ、１２…発振器、１３…ブリッジ回路、１
４…Ｌ２−キャッシュ、１５…メイン・メモリ、１６…
プロセッサ・バス、１７…ＰＣＩバス、１８…ＲＯＭ、
１９…グラフィック・コントローラ、２０…ビデオ・キ
ャプチャ・コントローラ、２１…ブリッジ回路、２２…
ＨＤＤ、２３…ＩＳＡバス、２４…ＫＭＣ、２５…シリ
アルＩ／Ｏコントローラ、２６…パラレルＩ／Ｏコント
ローラ、２７…ＦＤＤ、２８…オーディオ・コントロー
ラ、１００…コンピュータ・システム。

Claims

【特許請求の範囲】

【請求項１】符号化圧縮した音声データと符号化圧縮し
た画像データを固定ビット幅のパケットに混合してネッ
トワーク上に伝送するタイプのデータ伝送方法におい
て、パケット内に音声データを含むかどうかに応じて画
像データの圧縮率を調整する、ことを特徴とするデータ
伝送方法。
【請求項２】入力した音声データを符号化圧縮するとと
もに、捕捉した画像データを符号化圧縮し、符号化圧縮
された音声データと符号化圧縮された画像データを固定
ビット幅のパケットに混合して、ネットワーク上に伝送
するタイプのデータ伝送方法において、パケット内に音
声データを含むかどうかに応じて画像データの捕捉間隔
を調整する、ことを特徴とするデータ伝送方法。
【請求項３】符号化圧縮した音声データと符号化圧縮し
た画像データを固定ビット幅のパケットに混合してネッ
トワーク上に伝送するタイプのデータ伝送方法におい
て、（ａ）音声データの入力を試みる段階と、（ｂ）音
声データの入力の有無を検出する段階と、（ｃ）画像デ
ータを所定の捕捉間隔で捕捉する段階と、（ｄ）画像デ
ータを所定の圧縮率で符号化圧縮する段階と、（ｅ）前
記（ｂ）段階の検出結果に応じて、音声データを符号化
圧縮するとともに、符号化圧縮された画像データと混合
して、パケットを生成する段階と、（ｆ）生成したパケ
ットを伝送する段階と、（ｇ）過去１回以上の前記
（ｂ）段階における検出結果を基に、以後の音声データ
の有無を予測する音声予測段階と、（ｈ）前記（ｇ）段
階の予測結果を基に、前記（ｃ）段階の前記所定の捕捉
間隔を調整する段階と、を具備することを特徴とするデ
ータ伝送方法。
【請求項４】前記音声予測段階では、過去の所定期間内
で複数回音声入力の有無を調べ、音声入力が所定の割合
以上あれば将来音声入力があると判断し、所定の割合未
満であれば将来音声入力がないと判断する、ことを特徴
とする請求項３に記載のデータ伝送方法。
【請求項５】前記音声予測段階では、過去の所定期間内
で複数回調べた音声入力の有無を時間的に加重平均し、
加重平均値が閾値以上であれば将来音声入力があると判
断し、閾値未満であれば将来音声入力がないと判断す
る、ことを特徴とする請求項３に記載のデータ伝送方
法。
【請求項６】前記（ｃ）段階では比較的短い第１の捕捉
間隔又は比較的長い第２の捕捉間隔のうちのいずれか一
方で画像データを捕捉し、前記（ｈ）段階では、予測結果が音声データ有りを示す
場合は第２の捕捉間隔を選択し、予測結果が音声データ
無しを示す場合は第１の捕捉間隔を選択する、ことを特
徴とする請求項３に記載のデータ伝送方法。
【請求項７】符号化圧縮した音声データと符号化圧縮し
た画像データを固定ビット幅のパケットに混合してネッ
トワーク上に伝送するタイプのデータ伝送方法におい
て、（ａ）音声データの入力を試みる段階と、（ｂ）音
声データの入力の有無を検出する段階と、（ｃ）画像デ
ータを所定の捕捉間隔で捕捉する段階と、（ｄ）画像デ
ータを所定の圧縮率で符号化圧縮する段階と、（ｅ）前
記（ｂ）段階の検出結果に応じて、音声データを符号化
圧縮するとともに、符号化圧縮された画像データと混合
して、パケットを生成する段階と、（ｆ）生成したパケ
ットを伝送する段階と、（ｇ）過去１回以上の前記
（ｂ）段階における検出結果を基に、以後の音声データ
の有無を予測する音声予測段階と、（ｈ）前記（ｇ）段
階の予測結果を基に、前記（ｄ）段階の前記所定の圧縮
率を調整する段階と、を具備することを特徴とするデー
タ伝送方法。
【請求項８】前記（ｄ）段階では、比較的高い第１の圧
縮率又は比較的低い第２の圧縮率のうちいずれか一方で
画像データを圧縮し、前記（ｈ）段階では、予測結果が音声データ有りを示す
場合は第１の圧縮率を選択し、予測結果が音声データ無
しを示す場合は第２の圧縮率を選択する、ことを特徴と
する請求項７に記載のデータ伝送方法。
【請求項９】前記音声予測段階では、過去の所定期間内
で複数回音声入力の有無を調べ、音声入力が所定の割合
以上あれば将来音声入力があると判断し、所定の割合未
満であれば将来音声入力がないと判断する、ことを特徴
とする請求項７に記載のデータ伝送方法。
【請求項１０】前記音声予測段階では、過去の所定期間
内で複数回調べた音声入力の有無を時間的に加重平均
し、加重平均値が閾値以上であれば将来音声入力がある
と判断し、閾値未満であれば将来音声入力がないと判断
する、ことを特徴とする請求項７に記載のデータ伝送方
法。
【請求項１１】符号化圧縮した音声データと符号化圧縮
した画像データを固定ビット幅のパケットに混合してネ
ットワーク上に伝送するタイプのデータ伝送装置におい
て、（ａ）音声データの入力を試みる音声入力手段と、
（ｂ）音声データの入力の有無を検出する音声検出手段
と、（ｃ）画像データを入力する画像入力手段と、
（ｄ）入力した画像データを所定の捕捉間隔で捕捉する
画像捕捉手段と、（ｅ）画像データを所定の圧縮率で符
号化圧縮する画像符号化圧縮手段と、（ｆ）前記音声検
出手段による検出結果に応じて、音声データを符号化圧
縮するとともに、符号化圧縮された画像データと混合し
て、パケットを生成するデータ混合手段と、（ｇ）生成
したパケットを伝送する伝送手段と、（ｈ）前記音声検
出手段による過去１回以上の検出結果を基に、以後の音
声データの有無を予測する音声予測手段と、（ｉ）音声
予測手段による予測結果に応じて、前記画像捕捉手段の
前記所定の捕捉間隔を調整する調整手段と、を具備する
ことを特徴とするデータ伝送装置。
【請求項１２】前記画像捕捉手段は比較的短い第１の捕
捉間隔又は比較的長い第２の捕捉間隔のうちのいずれか
一方で画像データを捕捉し、前記調整手段は、予測結果が音声データ有りを示す場合
は第２の捕捉間隔を選択し、予測結果が音声データ無し
を示す場合は第１の捕捉間隔を選択する、ことを特徴と
する請求項１１に記載のデータ伝送装置。
【請求項１３】前記音声予測手段は、過去の所定期間内
で複数回音声入力の有無を調べ、音声入力が所定の割合
以上あれば将来音声入力があると判断し、所定の割合未
満であれば将来音声入力がないと判断する、ことを特徴
とする請求項１１に記載のデータ伝送装置。
【請求項１４】前記音声予測手段は、過去の所定期間内
で複数回調べた音声入力の有無を時間的に加重平均し、
加重平均値が閾値以上であれば将来音声入力があると判
断し、閾値未満であれば将来音声入力がないと判断す
る、ことを特徴とする請求項１１に記載のデータ伝送装
置。
【請求項１５】符号化圧縮した音声データと符号化圧縮
した画像データを固定ビット幅のパケットに混合してネ
ットワーク上に伝送するタイプのデータ伝送装置におい
て、（ａ）音声データの入力を試みる音声入力手段と、
（ｂ）音声データの入力の有無を検出する音声検出手段
と、（ｃ）画像データを入力する画像入力手段と、
（ｄ）入力した画像データを所定の捕捉間隔で捕捉する
画像捕捉手段と、（ｅ）画像データを所定の圧縮率で符
号化圧縮する画像符号化圧縮手段と、（ｆ）前記音声検
出手段による検出結果に応じて、音声データを符号化圧
縮するとともに、符号化圧縮された画像データと混合し
て、パケットを生成するデータ混合手段と、（ｇ）生成
したパケットを伝送する伝送手段と、（ｈ）前記音声検
出手段による過去１回以上の検出結果を基に、以後の音
声データの有無を予測する音声予測手段と、（ｉ）音声
予測手段による予測結果に応じて、前記画像符号化圧縮
手段の前記所定の圧縮率を調整する調整手段と、を具備
することを特徴とするデータ伝送装置。
【請求項１６】前記画像符号化圧縮手段は比較的高い第
１の圧縮率又は比較的低い第２の圧縮率のうちのいずれ
か一方で画像データを捕捉し、前記調整手段は、予測結果が音声データ有りを示す場合
は第１の圧縮率を選択し、予測結果が音声データ無しを
示す場合は第２の圧縮率を選択する、ことを特徴とする
請求項１５に記載のデータ伝送装置。
【請求項１７】前記音声予測手段は、過去の所定期間内
で複数回音声入力の有無を調べ、音声入力が所定の割合
以上あれば将来音声入力があると判断し、所定の割合未
満であれば将来音声入力がないと判断する、ことを特徴
とする請求項１５に記載のデータ伝送装置。
【請求項１８】前記音声予測手段は、過去の所定期間内
で複数回調べた音声入力の有無を時間的に加重平均し、
加重平均値が閾値以上であれば将来音声入力があると判
断し、閾値未満であれば将来音声入力がないと判断す
る、ことを特徴とする請求項１５に記載のデータ伝送装
置。