JPH0216681A

JPH0216681A - 顔動画像合成用まばたき信号発生方式

Info

Publication number: JPH0216681A
Application number: JP63168482A
Authority: JP
Inventors: Eiji Morimatsu; 映史森松; Toshitaka Tsuda; 俊隆津田; Kiichi Matsuda; 松田　喜一
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1988-07-05
Filing date: 1988-07-05
Publication date: 1990-01-19

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［目　次］概要産業上の利用分野従来の技術（第１９図）発明が解決しようとする課題課題を解決するための手段（第１図）作　用（第１図）実施例第１実施例の説明（第２〜１２図）第２実施例の説明（第１３図）第３実施例の説明（第１４〜１８図）発明の効果［概　要］初期化時に伝送される少数の初期化データを用いること
により、通信中に伝送される音声情報に応じて、受信側
で顔の動画像を合成して表示するものにおいて、顔動画
像合成用のまばたき信号を発生する方式に関し、話をしている時と、そうでない時とで、まばたきの様子
を変えることができるようにして、より自然な動画像の
合成を可能にすることを目的とし、初期化時に、初期化
データとして１発声中および非発声中における各まばた
きの時間間隔の平均値、ＩＩ準偏差を伝送し、通信時に
は、発声中および非発声中における各まばたきの時間間
隔の平均値、標準偏差に応じた正規分布に従う時間間隔
で。

発声時用パルス列信号および非発声時用パルス列信号を
それぞれ発生し、受信側で、音声入力検出部で検出した
検出信号に応じて、発声中は、発声時用パルス列信号を
まばたき信号として出力するとともに、非発声中は、非
発声時用パルス列信号をまばたき信号として出力するよ
うに構成する。

［産業上の利用分野］本発明は、初期化時に伝送される少数の初期化データを
用いることにより、通信中に伝送される音声情報に応じ
て、受信側で顔の動画像を合成して表示するものにおい
て、顔動画像合成用のまばたき信号を発生する方式に関
する。

テレビ（ＴＶ）電話、ＴＶ会議等においては、最終的に
公衆電話回線を利用した伝送方式を採用することが目標
とされており、このため、得られた画像情報を可能な限
り圧縮することが要望されている。

［従来の技術］ＴＶ電話等において伝送される画像は１通常、人物の原
動画像であるが、かかる動画像情報は。

第１９図に示すように、音声情報とは独立して伝送され
るのが従来からの方式である４、即ち、入力画像は、送
信側においてＴＶカメラ６１によりアナログ画像信号と
して発生され、この画像信号は画像符号化装置６２でデ
ィジタル信号に変換されて符号化され圧縮されて受信側
に送られる。受信側では、画像復号化装置６３により受
信画像を元の信号に復号化してデイスプレィ６４に出力
画像として表示する。

また、入力音声は送信側でマイクロ５で音声情報として
得た後、音声符号化装置６６で音声特有の符号化を行な
って圧縮した後、受信側で音声復号化装置６７で復号化
されてスピーカー６８から出力音声として得られる。

しかしながら、このような従来から一般的に行なわれて
きた動画像の伝送方式は、動画像の情報量が大きいため
、低ビツトレートの通信回線を利用することができず、
コストが高くなってしまうとともに、公衆電話回線を利
用したＴＶ電話等の適用には程遠いという問題点があっ
た。

そこで、送信側からは例えば顔の静止画情報をあらかじ
め送っておき、受信側で、送信側から送られてくる音声
情報からこの音声情報に適合するように、口の部分だけ
を変形させて、画像を再生することも考えられる。

しかし、これでは顔の表情の中で重要な位置を占める瞼
が全く動かず、不自然さが増すという問題点がある。

そこで、更に口の部分の変形に加えて、まばたきをラン
ダムに行なわせることにより、顔の表情に不自然さを出
さないようにしながら、原動画の情報をより圧縮できる
ようにした画像伝送方式も提案されている。

［発明が解決しようとする課題］しかしながら、このように口の部分の変形に加えてまば
たきをランダムに行なわせる従来の手段では、まばたき
の発生が全くランダムなものであるため、話をしている
ときでもそうでないときでも、まばたきの様子は変わら
ず、やはり不自然さが残るため、なんらかの改善が望ま
れている。

本発明は、このような状況下において創案されたもので
、話をしているときと、そうでないときとで、まばたき
の様子を変えることができるようにして、より自然な動
画像の合成を可能にした。

顔動画像合成用まばたき信号発生方式を提供することを
目的とする。

［課題を解決するための手段］第１図は本発明の原理ブロック図である。

第１図において、２８は顔動画像合成用まばたき信号発
生部で、このまばたき信号発生部２８は。

標準正規乱数テーブル２８１．第１．第２の乱数変換部
２８２，２８３．第１．第２のパルス発生部２８４，２
８５．音声入力検出部２８６．パルス列選択部２８７を
そなえて構成されている。

ここで、標準正規乱数テーブル２８１は、平均値Ｏ２標
準偏差１の正規分布に従う乱数系列Ｕｉ（ｉ＝１．２，
３．　　・・、ｎｊ；ｎは十分大きな整数）の値を記憶
したテーブルである。

第１の乱数変換部２８２は、初期化時に発声中における
まばたきの時間間隔の平均値ｍ工と標準偏差σ、とを受
けて、通信が開始されると、標準正規乱数テーブル２８
１の１より乱数値Ｕｉを読み出し、これに（１）式のよ
うな変換を施して平均値ｍ、と標準偏差σ１の正規分布
に従う乱数値Ｘに変換するものであり、同様に、第２の
乱数変換部２８３も、初期化時に非発声中におけるまば
たきの時間間隔の平均値ｍ２と標準偏差σ２とを受けて
、通信が開始されると、標準正規乱数テーブル２８１の
１より乱数値Ｕｉを読み出し、これに（２）式のような
変換を施して平均値ｍ２と標準偏差σ２の正規分布に従
う乱数値Ｘに変換するものである。

Ｘ＝ＵｉＸ　ａ１＋ｍ１　（但しＸ＞Ｏ）−−（１）Ｘ
＝ＵｉＸｃｒ、＋ｍ、　　（但しＸ＞０）−−（２）第
１のパルス発生部２８４は、第１の乱数変換部２８２よ
り乱数値Ｘが入力されると、クロックをカウントし、カ
ウント値が乱数値Ｘの値と等しくなると、パルスを発生
し、その後、第１の乱数変換部２８２へ制御信号を発生
して、次の乱数値Ｘの値を入力し、同じ処理を繰り返す
ことにより。

パルス列信号Ｐ□を出力するもので、同様に、第２のパ
ルス発生部２８５も、第２の乱数変換部２８３より乱数
値Ｘが入力されると、クロックをカウントし、カウント
値が乱数値Ｘの値と等しくなると、パルスＰ２を発生し
、その後、第２の乱数変換部２８３へ制御信号を発生し
て、次の乱数値Ｘの値を入力し、同じ処理を繰り返すこ
とにより、パルス列信号Ｐ２を出力するものである。

音声入力検出部２８６は、伝送されてきた音声のエネル
ギーを一定時間間隔でサンプリングし。

そのエネルギーが予め設定されたしきい値より大きけれ
ばオンとなり、小さければオフとなることにより、発声
中か非発声中かを検出するものである。

パルス列選択部２８７は、音声入力検出部２８６で発声
中であることが検出されている間は第１のパルス発生部
２８４からのパルスＰ□を出力し、音声入力検出部２８
６で非発声中であることが検出されている間は第２のパ
ルス発生部２８５からのパルスＰ２を出力するように切
り替わるものである。

［作　用］このような構成により、初期化時に、初期化データとし
て、発声中におけるまばたきの時間間隔の平均値ｍｉお
よび標準偏差σ１が第１の乱数変換部２８２へ伝送され
るとともに、非発声中におけるまばたきの時間間隔の平
均値ｍ、および標準偏差σ２が第２の乱数変換部２８３
へ伝送される。

そして、通信時には、発声中および非発声中における各
まばたきの時間間隔の平均値ｍ工１ｍ２と標準偏差σ１
．σ２とに応じた正規分布に従う時間間隔で、第１．第
２のパルス発生部２８４，２８５から発声時用パルス列
信号Ｐ１および非発声時用パルス列信号Ｐ２がそれぞれ
発生せしめられる。

さらに、この受信側では、音声入力検出部２８６で検出
した検出信号に応じて、パルス列選択部２８７が切り替
わることにより、発声中は、発声時用パルス列信号Ｐ１
がまばたき信号として出力されるとともに、非発声中は
、非発声時用パルス列信号Ｐ２がまばたき信号として出
力される。

これにより、話をしているときと、そうでないときとで
、まばたきの様子を変えることができる。

［実施例］以下、図面を参照して本発明の詳細な説明する。

（ａ）第１実施例の説明第２図は本発明の第１実施例を示すブロック図で、この
第１実施例では、送信部１０と受信部２０とが設けられ
、送信部１０は、顔画像入力を画像処理する画像処理部
１１と、音声入力を符号化する音声符号化部１２とを含
んでいる。

また、受信部２０は、背景画メモリ１９．音声復号化部
２１．音声認識部２２．コードブック２３Ａ、口形モデ
ル変形部（口形モデル画像記憶手段）２４Ａ、制御点座
標メモリ（テーブル）２３Ｂ、陰影モデル変形部（瞼形
モデル画像記憶手段）２４Ｂ９合成部２５．補間点計算
部２７．顔動画像合成用まばたき信号発生部２８．座標
テーブル制御部２９を有している。

ここで、背景画メモリ１９は、初期化時に送信側より送
られた１フレ一ム分の顔画像の静止画データを記憶し格
納するものである。

また、音声復号化部２１は送信部１０で符号化された音
声符号を復号化するもので、音声認識部２２は音声復号
化部２１から出力された音声信号を音声認識するもので
、コードブック２３Ａは音声認識部２２から次々と出力
される音素符号（音声の基本構成単位である母音又は子
音などから成るもの）から１組の口形パラメータ値を逐
次選択するもので、口形モデル変形部（口形モデル画像
記憶手段）２４Ａはコードブック２３で逐次選択された
１組の口形パラメータ値に応じて口形モデル画像を変形
するものである。

ところで、コードブック２３Ａには、第４図に示すよう
に、特定の話者が各音素■、■・・・９ｍを発生した場
合の口の形状をパラメータ■　（例えば口の横幅）、■
（例えば唇の厚さ）、・・・ｔｎ（例えば口の縦幅）と
して数値化したテーブルが予めその個人情報として記憶
されている。ここで、例えば、音素１．ｎ、ＩＩＩに対
する口画像の一例を模式的に示すと、第６図（ａ）、（
ｂ）、（ｃ）のようになる。

また、口形モデル変形部２４Ａは、その個人情報として
予めその特定話者の１画面（１フレーム）分の口画像デ
ータを背景画メモリ１９を介してもらい、これを口の幾
何学的形状の骨組となるパッチ・モデルにマツピングし
たものを口形モデル画像として記憶しておく。このよう
に、最初に送信部１０から目部分の画像を１画面分送っ
ておく場合でも、コードブック２３Ａは予め作っておく
必要がある。

補間点計算部２７は、静止画データに対応する瞼形状モ
デル（第７図参照）の全頂点Ｐ、〜Ｐ、の座標データを
初期化時に受けて、まばたき開始から終了までの各フレ
ーム時点での制御点ｐ、、ｐ、。

Ｐ４の座標を線形補間計算し、そのデータを制御点座標
メモリ２３Ｂへ送るものである。

すなわち、この瞼形状モデルは、第７図に示すごとく、
８個の頂点Ｐ１〜Ｐ、（各点がＸｔ’ｊの２次元座標値
をもつ）と、これらの頂点Ｐ１〜Ｐ、をつないでできる
６個の三角形パッチＴ１〜Ｔｌｌとで構成されるが、こ
の瞼形状モデルは、まばたきの動作を合成するため、ｐ
、、ｐ、、ｐ、を制御点（ｘ、ｙ座標を変化させる点）
とし、その他の５点は不動（固定点）としている。

そして、この補間点計算部２７においては、初期化時に
、８個の頂点Ｐ１〜Ｐ、の座標のほかに、ｐ、、　ｐ、
、　ｐ、の最下点を示すｐ、、ｐ。

Ｐ４′の３点の座標値も与えられ、あらかじめ与えられ
たまばたき１回当りのフレーム数Ｎより、Ｐ２→Ｐ２′
→Ｐ、、Ｐ□→Ｐ、′→ｐ、、ｐ４→Ｐ。

→Ｐ４の各区間を線形補間するようになっている。

制御点座標メモリ２３Ｂは、陰影モデル画像の瞼パラメ
ータを基に瞼のまばたき動作を記憶するものである。具
体的には、上記補間点計算部２７で補間計算されたまば
たき開始から終了までの各フレーム時点における３つの
制御点ｐ、、　ｐ、。

Ｐ４の座標をテーブルの形で、制御点座標メモリ２３Ｂ
に記憶領域に保管するのである。この制御点座標テーブ
ルの構成例を第５図に示す。

まばたき信号発生部２８は、まばたき信号（パルス信号
）を発生するもので、第３図に示すごとく、乱数発生器
２８０９機標準正規乱数テーブル２８１、第１．第２の
乱数変換部２８２，２８３゜第１．第２のパルス発生部
２８４，２８５．音声入力検出部２８６．パルス列選択
部２８７をそなえて構成されている。

ここで、乱数発生器２８０は、初期化時の信号入力に応
じて乱数開始位置を設定するポインタ値ｉｌｌ　１２　
（１≦１１ｔ’１２≦ｎ）をランダムに発生するもので
ある。

標準正規乱数テーブル２８１は、第９図に示すような平
均値ｏ、ｍ準偏差１の正規分布に従う乱数系列Ｕｉ（ｉ
＝＝１，２，３．　　・ａ、ｎｕｎは十分大きな整数）
の値を記憶したテーブル（メモリ）である。

第１の乱数変換部２８２は、初期化時に発声中における
まばたきの時間間隔の平均値ｍ、、＠準偏差σ１と乱数
発生器２８０から乱数開始位置を設定するポインタ値１
１とを受けて、通信が開始されると、標準正規乱数テー
ブル２８１の番地１１よりこの番地ｉＬに対応する乱数
値Ｕｉを読み出し、これに前述の（１）式（下記参照）
のような変換を施して第１０図に示すような平均値ｍ工
と標準偏差σ１の正規分布に従う乱数値Ｘに変換するも
のである。

ｘ：＝ｔＪｉｘ　ａ、＋ｍ、　　（但しＸ＞０）−−（
１）そして、この第１の乱数変換部２８２は、後述の第
１のパルス発生部２８４から制御信号を待って１８を１
ずつ増やして同じ処理を繰り返す。

かかる処理を第１１図に示す、即ち、まずステップａ１
で、初期値ｍ工、σ□ｐ　ｘｚを設定し、ステップａ２
で、標準正規乱数テーブル２８１から１１に対応するＵ
ｉを読み出し、ステップａ３で。

乱数値Ｘ、＝ＵｉＸσ□＋ｍ０を演算し、ステップａ４
で、Ｘ〉０かどうかを判定し、ＹＥＳなら、ステップａ
５で、乱数値Ｘを入力し、ステップａ６で、第１のパル
ス発生部２８４から制御信号の入力があったかどうかが
判定され、制御信号の入力があった場合は、ステップａ
７で、ｉ、＝ｉｌ＋１として１次のステップａ８で、１
１≦ｎかどうかを判定する。かかる処理はｉ、＝ｎ＋１
になるまで行なわれ、ｉ、＝ｎ＋１となると、ステップ
ａ９で、１ｉ＝１と初期化して同様の処理を繰り返す。

なお、ステップａ４で、乱数値Ｘが負の値になった場合
は、ステップａ５．ａ６はジャンプする。

また、ステップａ６で、制御信号が入力されないうちは
１次のステップへは移らない。

同様に、第２の乱数変換部２８３も、初期化時に非発声
中におけるまばたきの時間間隔の平均値ｍ２．標準偏差
σ、および乱数発生器２８０から乱数開始位置を設定す
るポインタ値１２とを受けて、通信が開始されると、標
準正規乱数テーブル２８１の番地１２よりこの番地１２
に対応する乱数値Ｕｉを読み出し、これに前述の（２）
式（下記参照）のような変換を施して第１０図に示すも
のとほぼ同様な平均値ｍ２と標準偏差σ２の正規分布に
従う乱数値Ｘに変換するものである。

Ｘ＝ＵｉＸ　ａ２＋ｍ２　（但しＸ＞Ｏ）−−（２）そ
して、この第２の乱数変換部２８３も、後述の第２のパ
ルス発生部２８５から制御信号を待って１２を１ずつ増
やして同じ処理を繰り返す。

なお、この第２の乱数変換部２８３における処理フロー
も第１１図に示すものと同じである。

第１のパルス発生部２８４は、クロックを計数するカウ
ンタ２８４ａ、このカウンタ２８４ａからのカウント値
と第１の乱数変換部２８２からの乱数値Ｘとを比較する
比較器２８４ｂ、この比較器２８４ｂから一致パルスが
出されるとパルスを出力するパルス発生器２８４Ｃとを
そなえてなり、これにより第１の乱数変換部２８２より
乱数値Ｘが入力されると、クロックをカウントし、カウ
ント値が乱数値Ｘの値と等しくなると、パルスを発生し
、その後、第１の乱数変換部２８２へ制御信号を発生し
て９次の乱数値Ｘの値を入力し、同じ処理を繰り返すこ
とにより、第１２図（ａ）に示すようなパルス列信号Ｐ
□を出力するもので、同様に、第２のパルス発生部２８
５も、クロックを計数するカウンタ２８５ａ、このカウ
ンタ２８５ａからのカウント値と第２の乱数変換部２８
３からの乱数値Ｘとを比較する比較器２８５ｂ、この比
較器２８５ｂから一致パルスが出されるとパルスを出力
するパルス発生器２８５Ｃとをそなえてなり、これによ
り第２の乱数変換部２８３より乱数値Ｘが入力されると
、クロックをカウントし、カウント値が乱数値Ｘの値と
等しくなると、パルスを発生し、その後、第２の乱数変
換部２８３へ制御信号を発生して、次の乱数値Ｘの値を
入力し、同じ処理を繰り返すことにより、第１２図（ｂ
）に示すようなパルス列信号Ｐ２を出力するものである
。

音声入力検出部２８６は、伝送されてきた音声のエネル
ギーを一定時間間隔でサンプリングし、そのエネルギー
が予め設定されたしきい値より大きければオンとなり、
小さければオフとなることにより［第１２図（ｃ）参照
］、発声中か非発声中かを検出するものである。

パルス列選択部２８７は、音声入力検出部２８６で発声
中であることが検出されている間は第１のパルス発生部
２８４からのパルスＰ０をまばたき開始信号として出力
し、音声入力検出部２８６で非発声中であることが検出
されている間は第２のパルス発生部２８５からのパルス
Ｐ２をまばたき開始信号として出力するように切り替わ
るものでで、マルチプレクサが使用される。

従って、このパルス列選択部２８７からの出力パルス列
は第１２図（ｄ）のようになるので、話をしているとき
と、そうでないときとで、異なったパルス列信号を発生
させることができ、これにより、まばたきの様子を変え
ることができる。

ところで、第２図の座標テーブル制御部２９は、まばた
き信号発生部２８からまばたき開始信号を受けた時点か
ら制御点座標メモリ２３Ｂの座標テーブル内の全頂点デ
ータを順次読み出し、各フレームごとに陰影モデル変形
部２４Ｂへと転送するものである。

陰影モデル変形部２４Ｂは、顔の瞼部分の幾何学的形状
を示す陰影パラメータによって定義される除温モデル画
像を記憶するもので、この陰影モデル変形部２４Ｂでは
、制御点座標メモリ２３Ｂから瞼パラメータを取り出し
、この瞼パラメータに基づいて除温モデル画像を変形す
るものである。

具体的には、座標テーブル制御部２９の作用により、制
御点座標メモリ２３Ｂから順次送られてくる瞼パラメー
タを取り込んで、この瞼パラメータに基づいて除温モデ
ル画像を変形するのである。

ここで、この除温モデル画像の変形の様子を模式的に示
すと、第８図（ａ）〜（ｃ）のようになる。

合成部２５は、口形モデル変形部２４Ａから発生された
自画像および陰影モデル変形部２４Ｂから発生された瞼
画像を、背景画メモリ１９に記憶された静止顔画像の目
部分および瞼部分以外の画像と合成するものである。

次に、この第１実施例の動作を説明する。

音声入力は音声符号化部１２で符号化されて受信部２０
に伝送されるが、この音声符号は音声復号化部２１で復
号化して音声として出力される。

また、一方において、この音声出力は音声認識部２２に
送られ、その音素符号が逐次抽出されてコードブック２
３Ａに送られる。コードブック２３Ａでは、入力した音
素符号に基づいて第４図に示すコードブックの中から対
応する口形に関する１組のパラメータ値１．ＩＩ、・・
・、ｎを選択する。

そして、これらの選択された１組のパラメータ値により
、予め記憶した口形モデル画像を変形した自画像を口形
モデル変形部２４Ａで発生する。この結果、発生された
自画像と音声認識部２２で抽出された音素との対応関係
は、例えば第６図（ａ）（ｂ）、（Ｑ）に示すようにな
る。

一方、まばたき信号発生部２８からは、話中とそうでな
いときとで、異なったランダムな時間間隔で、まばたき
開始信号が発せられる。

即ち、初期化時に、初期化データとして１発声中におけ
るまばたきの時間間隔の平均値ｍ工、Ｉｔｌ準偏差σ１
および乱数開始位置を設定するポインタ値１１が第３図
に示す第１の乱数変換部２８２へ伝送されるとともに、
非発声中におけるまばたきの時間間隔の平均値ｍ、、４
！１１１準偏差σ２および乱数開始位置を設定するポイ
ンタ値ｉ、Ｉが第２の乱数変換部２８３へ伝送される。

そして、通信時には１発声中および非発声中における各
まばたきの時間間隔の平均値ｍ１．ｍ２と標準偏差σ１
．σ□とに応じた正規分布に従う時間間隔で、第１．第
２のパルス発生部２８４，２８５から発声時用パルス列
信号Ｐ工および非発声時用パルス列信号Ｐ２がそれぞれ
発生される。

さらに、この受信側では、音声入力検出部２８６で検出
した検出信号に応じて、パルス列選択部２８７が切り替
わることにより、発声中は、第１２図（２）に示すよう
な発声時用パルス列信号Ｐ工がまばたき開始信号として
出力されるとともに、非発声中は、第１２図（ｂ）に示
すような非発声時用パルス列信号Ｐ２がまばたき開始信
号として出力される。

これにより１話をしているときと、そうでないときとで
、異なったパルス列信号が出力される［第１２図（ｃ）
、（ｄ）参照］。

このようにまばたき信号発生部２８からパルス列信号が
出力されると、座標テーブル制御部２９では、このまば
たき開始信号を受けた時点から、制御点座標メモリ２３
Ｂの座標テーブル内の全頂点データを読み出し、各フレ
ーム毎に陰影モデル変形部２４Ｂへと転送する。かかる
転送はまばたき開始信号発生時から単位まばたき当りの
フレーム数が経過した時点で終了する。そして、陰影モ
デル変形部２４Ｂでは、上記の頂点データに従って、あ
らかじめ記憶した除温モデル画像を変形した瞼画像を発
生する。

このようにして変形して発生された自画像および瞼画像
は、背景画メモリ１９に記憶された静止顔画像の口およ
び瞼以外の画像と、合成部２５で、合成されて、顔全体
の動画像として出力されることとなる。

これにより、原動画の情報をより圧縮できるので、情報
量を大きく削減することができ、その結果、低ビツトレ
ートの回線を利用した低置な画像伝送方式を実現できる
ほか、顔の中の瞼の部分が会話の途中において、話して
いるときとそうでないときとで、異なった間隔でまばた
きをするので、顔の表情がより自然になる。

なお、上記の口形モデル変形部２４Ａでの口形モデル画
像の変形および陰影モデル変形部２４Ｂでの陰影モデル
画像の変形に用いられる手法は、信学技報ＩＥ８７−２
．第８７巻、第１９号、１９８７に記述されている。

（ｂ）第２実施例の説明第１３図は本発明の第２実施例を示すブロック図である
が、前述した第２図の第１実施例と異なる点は、送信部
１０に音声認識部１３を設け、送信側で音素符号とその
他の情報（イントネーション、ピッチ等）とに分離して
受信部２０に送り、受信部２０では、音素符号をそのま
まコードブック２３Ａで用いるとともに音素符号とイン
トネーション等の情報とを音声合成部２６で合成して音
声出力を発生していることである。その他の構成および
動作（まばたき信号発生部の構成および動作を含む）は
第２，３図の場合と同様である。従って、この第２実施
例においても、前述の第１実施例と同様の効果ないし利
点が得られる。

（ｃ）第３実施例の説明ところで１以上の各実施例では、予め記憶されたコード
ブック２３Ａは予め決められた話者固有のものであるた
め、不特定多数の人物の口画像を伝送しようとすると、
コードブックに記憶された全口形符号を、話者が変わる
度にその話者に適合させるための書き換え処理を行なう
か、または、登録されている話者のコードブック情報を
すべて記録しておくための膨大なメモリ領域をコードブ
ックに用意しておかなければならない。

そこで、以下に示す第３実施例では、コードブックを不
特定の話者に合わせて用いることができるようにした。

即ち、第１４図に示すように、標準的な人間の全音素を
発音した字の口形に対する口形モデルの各パラメータ値
を測定して標準コードブックを作成し、このコードブッ
ク内の各パラメータ値を予め決めた基本音素符号（例え
ば無音符号）のパラメータ値で正規化（割算）してパラ
メータ後とに正規化したコードブックを作る（第１５図
参照）。

そして、第１６図に示すように、基本音素符号に対応す
る個人の口画像から１組のパラメータを測定し、パラメ
ータ毎に第１５図のように求めた正規化されたコードブ
ックの全音素符号に対する各パラメータに乗算すること
により個人用のコードブックが作成できることとなる。

即ち１例えば、得られた１組の個人口画像パラメータが
ｂよ、〜ｂ、ｎとすれば、第１５図において音素符号■
でパラメータ■の正規化コードａ　２１／　ａ　１□に
は上記のパラメータｂ１□が掛けられて（ａｓ□／ａ工
ｚ）　ｂｌｌというコードに変換され、同様にしてパラ
メータｌに関してはパラメータｂ１１が全音素符号に関
して乗算されることとなる。

第１７図はかかる個人用のコードブックを作成するため
の初期化装置３０を設けた第３実施例を示すブロック図
であるが、この初期化装置３０でコードブック２３Ａを
個人用に初期化することにより不特定多数の話者の原動
画像を再生するものである。

そして、この初期化装置３０の具体的な構成が第１８図
に示されており、最初に送信部１０の画像処理部１１か
ら顔画像中の基本音素符号（この場合、無音符号）の口
画像が送られてきた時、この初期化装置３０では、特徴
点抽出部３１でその口画像の特徴点を抽出する。そして
、この特徴点間距離等からパラメータ計算部３２で１組
のパラメータを計算する。この１組のパラメータを第１
５図に示すように正規化コードブックメモリ３３に予め
用意しておいた正規化コードブックの各パラメータ毎の
乗算を乗算器３４で行なって個人用コードブックメモリ
３５を作成してコードブック２３に格納する。

以後、その個人の０画像伝送の際に参照されることとな
る。

このように、用意したコードブックを話者毎に更新でき
るように初期化装置３０を設けたので、不特定多数の話
者に対しても容易に対応することが可能と成る。

なお、この初期化装置３０は、第１３図に示すような実
施例にも同様に適用される。

［発明の効果］以上のように、本発明の顔動画像合成用まばたき信号発
生方式によれば５話をしているときと、そうでないとき
とで、まばたき信号の発生頻度を変えることができるの
で、まばたきの様子を変えることができ、これにより、
より自然な動画像を合成できるという利点がある。

【図面の簡単な説明】

第１図は本発明の原理ブロック図、第２図は本発明の第１実施例を示すブロック図、第３図
はまばたき信号発生部のブロック図、第４図はコードブ
ックの構成図、第５図は制御点座標テーブルの構成図、第６図（ａ）、
（ｂ）、（ｃ）は音素符号に対する口画像を示す図、第７図は瞼領域の形状モデル構成を示す図、第８図（ａ
）、（ｂ）、（ｃ）は陰影モデル画像の変形の概念を説
明する図、第９図は平均０．標準偏差１の正規分布を示す図、第１０図は平均ｍ８．標準偏差σ、の正規分布を示す図
、第１１図は乱数値演算要領を示すフローチャート、第１２図はまばたき信号発生部での各部波形を示す図、第１３図は本発明の第２実施例を示すブロック図、第１４図は本発明の第３実施例における正規化コードブ
ックの作成手順を示す図、第１５図は正規化コードブックの構成図、第１６図は本
発明の第３実施例における個人用コードブックの作成手
順を示す図、第１７図は本発明の第３実施例を示すブロック図、第１８図は初期化装置のブロック図、第１９図は従来の一般的な画像伝送方式を示す系統図で
ある。図において、１０は送信部、１１は画像処理部、１２は音声符号化部、１３は音声認識部。１９は背景画メモリ、２０は受信部。２１は音声復号化部、２２は音声認識部、２３Ａはフードブック、２３Ｂは制御点座標メモリ（テーブル）、２４Ａは口形
モデル変形部（口形モデル画像記憶手段）。２４Ｂは陰影モデル変形部（瞼形モデル画像記憶手段）
、２５は合成部、２６は音声合成部、２７は補間点計算部、２８はまばたき信号発生部、２９は座標テーブル制御部。３０は初期化装置、３１は特徴点抽出部、３２はパラメータ計算部。３３は正規化コードブックメモリ、３４は乗算部、３５は個人用コードブックメモリ、２８０は乱数発生器、２８１は標準正規乱数テーブル。２８２は第１の乱数変換部、２８３は第２の乱数変換部、２８４は第１のパルス発生部、２８４ａはカウンタ。２８４ｂは比較器、２８４ｃはパルス発生器、２８５は第２のパルス発生部、２８５ａはカウンタ、２８５ｂは比較器、２８５ｃはパルス発生器、２８６は音声入力検出部、２８７はパルス列選択部である。ツードブ１ワめ講放凹第４図刺ｆＪＰ虐。怜り卸、化１１オ水イープル／ｌａ６支し］巨舎瀬域／
ｌ形状七程槙広乞小す図第７図音素工音素■ 音＃：ＩＩ（ｂ）（Ｃ）冬昔素１；丈寸オろロ山イ家！ホす刀第６図平均ｍ＋、標譚イ鼎左σ輪正規７分卆乞小す口笛１゜図Ｓ！−均ｏＪ譚（橢井１め正規分布乞がす口第図ｄ）数％亘演算９１貝ぎ示すフロー手ヤード第図、正犬見イヒコードブ７グイ丁〜キＰ１貝七す固第１４
図正絹、化コードブッグめわＩｆｆ画第１５図イ固人用コード°ブ７グイＴｉマイトｌｌｌ貝乞ホすロ
第１６図判ｓｌイロ

Claims

【特許請求の範囲】

（１）初期化時に伝送される少数の初期化データを用い
ることにより、通信中に伝送される音声情報に応じて、
受信側で顔の動画像を合成して表示するものにおいて、初期化時に、該初期化データとして、発声中および非発
声中における各まばたきの時間間隔の平均値（ｍ＿１、
ｍ＿２）と標準偏差（σ＿１、σ＿２）とを伝送し、通
信時には、発声中および非発声中における各まばたきの
時間間隔の平均値（ｍ＿１、ｍ＿２）と標準偏差（σ＿
１、σ＿２）とに応じた正規分布に従う時間間隔で、発
声時用パルス列信号（Ｐ＿１）および非発声時用パルス
列信号（Ｐ＿２）をそれぞれ発生し、受信側で、音声入力検出部（２８６）で検出した検出信
号（Ｓ）に応じて、発声中は、該発声時用パルス列信号
（Ｐ＿１）をまばたき信号として出力するとともに、非
発声中は、該非発声時用パルス列信号（Ｐ＿２）をまば
たき信号として出力することを特徴とする、顔動画像合
成用まばたき信号発生方式。
（２）標準の正規分布に従う乱数系列Ｕｉ（ｉ＝１、２
、３、・・、ｎ；ｎは十分大きな整数）の値を記憶した
標準正規乱数テーブル（２８１）と、初期化時に発声中
におけるまばたきの時間間隔の平均値（ｍ＿１）と標準
偏差（σ＿１）とを受けて、通信が開始されると、該標
準正規乱数テーブル（２８１）より乱数値Ｕｉを読み出
し、これに所要の変換を施して平均値（ｍ＿１）と標準
偏差（σ＿１）の正規分布に従う乱数値（Ｘ）に変換す
る第１の乱数変換部（２８２）と、初期化時に非発声中におけるまばたきの時間間隔の平均
値（ｍ＿２）と標準偏差（σ＿２）とを受けて、通信が
開始されると、該標準正規乱数テーブル（２８１）より
乱数値Ｕｉを読み出し、これに所要の変換を施して平均
値（ｍ＿２）と標準偏差（σ＿２）の正規分布に従う乱
数値（Ｘ）に変換する第２の乱数変換部（２８３）と、該第１の乱数変換部（２８２）より乱数値（Ｘ）が入力
されると、クロックをカウントし、カウント値が乱数値
（Ｘ）の値と等しくなると、パルスを発生し、その後、
該第１の乱数変換部（２８２）へ制御信号を発生して、
次の乱数値（Ｘ）の値を入力し、同じ処理を繰り返す第
１のパルス発生部（２８４）と、該第２の乱数変換部（
２８３）より乱数値（Ｘ）が入力されると、クロックを
カウントし、カウント値が乱数値（Ｘ）の値と等しくな
ると、パルスを発生し、その後、該第２の乱数変換部（
２８３）へ制御信号を発生して、次の乱数値（Ｘ）の値
を入力し、同じ処理を繰り返す第２のパルス発生部（２
８５）と、伝送されてきた音声のエネルギーを一定時間
間隔でサンプリングし、そのエネルギーが予め設定され
たしきい値より大きければオンとなり、小さければオフ
となることにより、発声中か非発声中かを検出する音声
入力検出部（２８６）と、該音声入力検出部（２８６）
で発声中であることが検出されている間は該第１のパル
ス発生部（２８４）からのパルス（Ｐ１）を出力し、該
音声入力検出部（２８６）で非発声中であることが検出
されている間は該第２のパルス発生部（２８５）からの
パルス（Ｐ＿２）を出力するように切り替わるパルス列
選択部（２８７）とをそなえて構成されたことを特徴とする、顔動画像合成用まばたき信号発生方式。