JPH08307841A

JPH08307841A - 擬似動画ｔｖ電話装置

Info

Publication number: JPH08307841A
Application number: JP7111524A
Authority: JP
Inventors: Hiroaki Matsushita; 博明松下; Shigeyuki Sudo; 茂幸須藤; Tomohiro Ezaki; 智宏江崎; Atsushi Yoshioka; 厚吉岡
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-05-10
Filing date: 1995-05-10
Publication date: 1996-11-22

Abstract

(57)【要約】【目的】電話回線を用いて、送信側から画像伝送を行わ
ずに音声信号からその話者の擬似顔動画像を受信側で表
示できる方法を提供する。【構成】電話回線２を介して送信側話者から送られてく
る信号は通信手段４を介して音声信号が出力され、音声
分析手段５で、線形予測符号化により音声パラメータに
変換出力される。一方、モデル生成手段７ではワイヤフ
レームで構成された複数の口形モデルと頭部モデルが蓄
積され、選択されたモデルに関する口形及び頭部モデル
データが出力される。音声パラメータは口形モデルデー
タをもとに、パラメータ変換手段８で口形パラメータに
変換出力され、画像合成手段９で、口形パラメータと頭
部モデルデータをもとに、送信側話者の擬似顔動画像の
生成を行い、表示手段１０により表示する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は電話回線などを利用する
通信装置に係り、特に送信側からの音声信号をもとに受
信側で擬似動画の表示を行う擬似動画ＴＶ電話装置に関
する。

【０００２】

【従来の技術】従来、話者をＴＶカメラ等で撮像し、画
像データ圧縮して音声信号と共に伝送し、受信側で画像
伸長を行いＴＶ画面等に表示するといったようなＴＶ電
話が実用化されている。その詳細については村上治著
「画像メディアと通信革命」（産業図書ｐ６１１９
８４年）に記載されている。

【０００３】

【発明が解決しようとする課題】従来のＴＶ電話におけ
る問題点として以下のようなことがあげられる。まず、
伝送すべき画像は話者をＴＶカメラ等で撮像したもので
あるため、画像圧縮の方式にもよるが、仮に画像圧縮し
たとしても情報量が膨大であり、１枚の画面を送るのに
数秒程度かかってしまう。また、送信側においてＴＶ電
話装置を持たない場合、すなわち、一般の電話や公衆電
話、携帯電話からの送信に対しては受信側におけるＴＶ
電話装置としての機能を発揮できないなど問題があっ
た。

【０００４】本発明の目的は電話回線を用いて、送信側
から画像伝送を行わずに音声信号からその話者の擬似顔
動画像を受信側で表示できるＴＶ電話装置を提供するこ
とにある。

【０００５】

【課題を解決するための手段】上記の問題を解決するた
め、本発明の擬似動画ＴＶ電話装置は音声信号の声道特
性と放射特性の特徴を分析し、線形予測符号化を行い、
特徴抽出した音声パラメータを出力する音声分析手段
と、ワイヤフレームで構成された複数の口形モデル及び
頭部モデルを蓄積し、選択されたモデルに関する口形及
び頭部モデルデータを出力するモデル生成手段と、前記
音声パラメータと口形モデルデータを入力し、音声パラ
メータを時々刻々と変化する口形パラメータに変換出力
するパラメータ変換手段と、前記口形パラメータ及び頭
部モデルデータをもとに、送信側話者の擬似顔動画像の
生成を行う画像合成手段と、前記画像合成手段で得られ
る送信側話者の擬似顔動画像を表示する表示手段とを備
えたことを特徴とする。

【０００６】

【作用】本発明では例えば電話回線を介して送信側話者
から送られてくる音声信号は音声分析手段において線形
予測符号化に基づく特徴抽出により音声パラメータに変
換される。一方、モデル生成手段ではワイヤフレームで
構成された複数の口形モデルと頭部モデルが蓄積され、
選択されたモデルに関する口形及び頭部モデルデータが
出力される。音声パラメータは口形モデルデータをもと
に、パラメータ変換手段で口形パラメータに変換出力さ
れる。そして画像合成手段で、口形パラメータと頭部モ
デルデータをもとに、送信側話者の擬似顔動画像の生成
を行い、表示手段により表示する。

【０００７】このように本発明によれば、送信側話者の
音声信号からその擬似顔動画像を受信側で生成表示する
ので、実際に伝送する信号は音声に関するものだけとな
り、従来のＴＶ電話装置と比較すると、情報量や伝送時
間がはるかに低減でき、一般のアナログ電話回線や、さ
らに公衆電話、携帯電話からの送信に対して適応でき、
送信側話者の音声信号からその擬似顔動画像を受信側で
生成表示するので、ＴＶ電話同士で通話しているような
感覚で通話が行える。

【０００８】これは受信側で表示される送信側話者の擬
似顔動画像については実際の通信時の送信側話者の状態
とは相違するものの、少なくとも送信側話者の擬似顔が
表示され、しかも音声に合わせた口の動きが動画表示さ
れるので、擬似的に送信側とＴＶ電話で通話しているよ
うな感覚で通話が行える。

【０００９】

【実施例】以下、本発明の実施例を図面を用いながら詳
しく説明する。図１は本発明の第１の実施例を示すブロ
ック図である。尚、図面では擬似動画ＴＶ電話装置にお
ける受信部のブロック図のみを示しており、送信部のブ
ロック図は公知の一般の電話機であっても良いため省略
してある。

【００１０】図１で、１は各家庭の一般電話、公衆電
話、自動車携帯電話など画像伝送装置を持たない電話
機、２は電話回線である。３は本発明の擬似動画ＴＶ電
話装置、４は電話回線を介して送信側話者から送られて
くる音声信号を出力する通信手段であり、この場合は電
話機の受信回路となる。５は音声信号を音声パラメータ
に変換出力する音声分析手段である。６は受信側話者が
送信側話者の擬似顔を選択するための選択信号を出力す
る選択手段である。７は口形モデルデータと頭部モデル
データを出力するモデル生成手段である。８は音声パラ
メータと口形モデルデータを入力し、音声パラメータを
口形パラメータに変換出力するパラメータ変換手段であ
る。９は口形パラメータと頭部モデルデータをもとに、
送信側話者の擬似顔動画像の生成を行う画像合成手段で
ある。１０は送信側話者の擬似顔動画像を表示する表示
手段である。

【００１１】次に各部の動作について説明する。

【００１２】電話機１が送信側で、擬似動画ＴＶ電話装
置３の受信動作を考える場合、電話機１から送られてく
る信号は電話回線２を介して擬似動画ＴＶ電話装置３に
入力される。信号は通信手段４より、送信側話者の音声
信号ａが出力される。その後、音声信号ａは音声分析手
段５に入力され、音声信号ａの声道特性と放射特性の特
徴を分析し、線形予測符号化を行うことにより、特徴抽
出した音声パラメータｂへ変換され、パラメータ変換手
段８に出力される。

【００１３】一方、送信側話者の話し声を聞くことによ
り、受信側話者は選択手段６で表示したい送信側話者の
擬似顔の選択を行う。これに伴い選択手段６からは選択
信号ｃが出力され、モデル生成手段７に入力される。モ
デル生成手段７にはワイヤフレームで構成された複数の
口形モデルと頭部モデルが蓄積されており、選択信号ｃ
を受けたモデル生成手段７は選択信号ｃをもとに選択さ
れたモデルに関する口形モデルデータｄをパラメータ変
換手段８に、頭部モデルデータｆを画像合成手段９に、
それぞれ出力する。

【００１４】ここで、選択手段６とモデル生成手段７の
動作に関連し、受信側話者における送信側話者の擬似顔
の選択について詳しく説明する。例えば、受信側話者
が、肉親、知人、友人などのよく電話がかかってくる人
達の顔をあらかじめ撮像するなどしておき、頭部モデル
としてモデル生成手段７に蓄積しておく。また、肉親、
知人、友人などのよく電話がかかってくる人達、以外の
人達に対応するための顔は初めからモデル生成手段７に
標準モデルの顔が頭部モデルとして蓄積されており、受
信側話者がその標準モデルの顔を自ら作成編集し、モデ
ル生成手段７に頭部モデルとして蓄積しておいても良
い。さて電話がかかってきたら、まず受信側話者はその
送信側話者の声より人物を判断する。もしその人物が肉
親、知人、友人などであれば、その顔を選択手段６で選
択し、それに伴い選択信号ｃがモデル生成手段７に出力
される。また、もしその人物が肉親、知人、友人などの
人物以外であれば、標準モデルの顔を選択手段６で選択
し、それに伴い選択信号ｃがモデル生成手段７に出力さ
れる。さらに、送信側話者の人物が誰であろうとも、あ
らかじめ受信側話者が自ら作成し蓄積しておいた標準モ
デルの顔を、選択手段６で選択しても良い。

【００１５】さて、音声パラメータｂには送信側話者の
会話における発音時の口形の情報が含まれており、パラ
メータ変換手段８に入力される。同時に、口形モデルデ
ータｄもパラメータ変換手段８に入力される。ここで音
声パラメータｂは口形モデルデータｄをもとに、時々刻
々と変化する口形パラメータｅに変換出力される。その
後、口形パラメータｅと頭部モデルデータｆは画像合成
手段９に入力される。画像合成手段９では口形パラメー
タｅと頭部モデルデータｆをもとに、三角形ポリゴンで
構成される三次元モデル（ワイヤフレームモデル）を変
形させ、各ポリゴンにテクスチャマッピング処理を施す
ことにより送信側話者の擬似顔動画像を合成する。尚、
図２に、三次元モデル（ワイヤフレームモデル）のイメ
ージ図を示す。図２で示した三次元モデル（ワイヤフレ
ームモデル）９０を構成する無数の三角形、すなわち、
三角形ポリゴンを変形させ、その各ポリゴンに、口形パ
ラメータｅと頭部モデルデータｆをもとにテクスチャマ
ッピング処理を施すことにより、送信側話者の擬似顔動
画像が得られる。最後に画像合成手段９で得られた送信
側話者の擬似顔動画像を、表示手段１０により表示す
る。

【００１６】このように、図１の実施例では送信側話者
の音声信号からその擬似顔動画像を受信側で生成表示す
ることを特徴としているので、従来のＴＶ電話装置と比
較すると、情報量や伝送時間がはるかに低減できる。ま
た一般の電話や公衆電話、携帯電話からの送信に対して
も、従来のＴＶ電話同士で通話しているような感覚で通
話が行える。さらに送信側話者の音声信号からその擬似
顔動画像を受信側で生成表示するのに際し、音声信号を
パラメータに変換し、そのパラメータから直接的に画像
合成へ結び付ける、というような方法を用いているた
め、複雑な音声認識の手段を用いる必要がないという長
所もある。

【００１７】次に図３、図４のブロック図を用いて本発
明の第２の実施例を詳しく説明する。図３で、１００は
自動車・携帯電話といったような受信側話者における移
動体通信の無線端末装置であり、３００は本発明の擬似
動画ＴＶ電話装置である。６は受信側話者が送信側話者
の擬似顔を選択するための選択信号を出力する選択手段
である。７は口形モデルデータと頭部モデルデータを出
力するモデル生成手段である。８は音声パラメータと口
形モデルデータを入力し、音声パラメータを口形パラメ
ータに変換出力するパラメータ変換手段である。９は口
形パラメータと頭部モデルデータをもとに、送信側話者
の擬似顔動画像の生成を行う画像合成手段である。１０
は送信側話者の擬似顔動画像を表示する表示手段であ
る。さらに無線端末装置１００における詳しいブロック
図を図４に示す。図４で、１０１は送受信アンテナ、１
０２は高周波部、１０３は変復調部、１０４はチャネル
コーデック、１０５は音声符号化手段、１０６は音声合
成手段、１０７はスピーカ、１０８はマイクであり、例
えばＰＤＣ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＣｅ
ｌｌｕｌａｒ）などの、財団法人電波システム開発セン
ター刊「ディジタル自動車電話システム標準規格（ＲＣ
ＲＳＴＤ−２７Ｂ」で規定されている端末である。

【００１８】次に各部の動作について、図１における第
１の実施例と異なる点についてのみ詳しく説明する。

【００１９】無線端末装置１００に電話がかかってきた
とすると、送受信アンテナ１０１に受信した信号は高周
波部１０２で周波数の低い信号に変換され、変復調部１
０３で復調される。その後、チャネルコーデック１０４
で誤り訂正の処理が行われ、音声処理部１０５に入力さ
れる。音声処理部１０５では内部の音声符号化手段１０
６で、音声の声道特性と放射特性の特徴を分析し線形予
測符号化を行うことにより、特徴抽出した音声パラメー
タｂが存在する。線形予測符号化における処理に関して
はＰＤＣの場合、ＶＳＥＬＰ（Ｖｅｃｔｏｒ−Ｓｕｍ
ＥｘｃｉｔｅｄｌｉｎｅａｒＰｒｅｄｉｃｔｉｖｅ
Ｃｏｄｉｎｇ）が採用されており、同様の処理が行われ
る。音声パラメータｂには送信側話者の会話における発
音時の口形の情報が含まれており、パラメータ変換手段
８に入力される。以下、選択手段６、モデル生成手段
７、パラメータ変換手段８、画像合成手段９、表示手段
１０に至る機能及び動作については図１における第１の
実施例と同じであるため省略する。以上説明したよう
に、図１における第１の実施例と異なる点は通信手段４
と音声分析手段５が無線端末装置１００に含まれている
ことである。

【００２０】次に図３、図４との実施例と本質的には同
じながらも若干変更を施したものとして一つの変形例を
図５に示す。図５で図３、図４と異なる点は図３におけ
る擬似動画ＴＶ電話装置３００を無線端末装置１００に
取り込んだことである。尚、図３における選択手段６は
図５における無線端末装置１００には存在しないが、公
知の一般の無線端末装置における、制御部１１０を介し
たキーパッド１１１などの操作により代用が可能であ
る。また同様に、図３における表示手段１０は図５にお
ける無線端末装置１００には存在しないが、これも公知
の一般の無線端末装置における、電話番号などを表示す
るＬＣＤ１１２などで代用が可能である。図５における
具体的な動作については図３、図４における動作と実質
的に同じであるため省略する。

【００２１】このように、図３、図４、図５における第
２の実施例における効果は第１の実施例と同様に得るこ
とができる。また、周波数の有効利用に伴う伝送速度の
許容限度を考えた場合、送信側話者の画像伝送をせず
に、音声信号からその擬似顔動画像を受信側で生成表示
できる手段を無線端末装置に持たせた効果は大きい。

【００２２】

【発明の効果】本発明によれば、送信側話者の音声信号
からその擬似顔動画像を受信側で生成表示するので、実
際に伝送する信号は音声に関するものだけとなり、従来
のＴＶ電話装置と比較すると、情報量や伝送時間がはる
かに低減でき、もちろん一般のアナログ電話回線でも実
現できる。さらに一般の電話や公衆電話、携帯電話から
の送信に対しても、送信側話者の音声信号からその擬似
顔動画像を受信側で生成表示するので、従来のＴＶ電話
同士で通話しているような感覚で通話が行える。

【図面の簡単な説明】

【図１】本発明の第１の実施例を示すブロック図。

【図２】本発明の第１の実施例で用いる三次元モデルの
斜視図。

【図３】本発明の第２の実施例を示すブロック図。

【図４】図３の実施例で用いる無線端末装置を示すブロ
ック図。

【図５】本発明の第２の実施例の変形例を示すブロック
図。

【符号の説明】

１…電話機、２…電話回線、３…疑似動画ＴＶ電話装置、４…通信手段、５…音声分析手段、６…選択手段、７…モデル生成手段、８…パラメータ変換手段、９…画像合成手段、１０…表示手段。

───────────────────────────────────────────────────── フロントページの続き (72)発明者吉岡厚神奈川県横浜市戸塚区吉田町292番地株式会社日立製作所映像メディア研究所内

Claims

【特許請求の範囲】

【請求項１】音声信号の声道特性と放射特性の特徴を分
析し、特徴抽出した音声パラメータを出力する音声分析
手段と、ワイヤフレームで構成された複数の口形モデル
及び頭部モデルを蓄積し、選択されたモデルに関する口
形及び頭部モデルデータを出力するモデル生成手段と、前記音声パラメータと前記口形モデルデータを入力し、
前記音声パラメータを時々刻々と変化する口形パラメー
タに変換出力するパラメータ変換手段と、前記口形パラメータ及び前記頭部モデルデータをもと
に、送信側話者の擬似顔動画像の生成を行う画像合成手
段と、前記画像合成手段で得られる送信側話者の前記擬似顔動
画像を表示する表示手段とを備えたことを特徴とする
擬似動画ＴＶ電話装置。
【請求項２】移動体通信の無線端末装置において、音声
の声道特性と放射特性の特徴を分析し線形予測符号化を
行う音声符号化手段と、符号化された音声データからア
ナログ音声信号を合成する音声合成手段と、前記符号化
された音声データで音声情報の送受信を行う通信手段
と、特徴抽出された音声パラメータを出力するための出
力手段とを備え、ワイヤフレームで構成された複数の口
形モデル及び頭部モデルを蓄積し、選択されたモデルに
関する口形及び頭部モデルデータを出力するモデル生成
手段と、前記出力手段の出力する前記音声パラメータと、前記モ
デル生成手段の出力する前記口形モデルデータを入力
し、前記音声パラメータを時々刻々と変化する口形パラ
メータに変換するパラメータ変換手段と、前記口形パラ
メータ及び前記頭部モデルデータをもとに、送信側話者
の前記擬似顔動画像の生成を行う画像合成手段と、前記
画像合成手段で得られる送信側話者の前記擬似顔動画像
を表示する表示手段とを備えたことを特徴とする擬似動
画ＴＶ電話装置。