JPH0216681A - 顔動画像合成用まばたき信号発生方式 - Google Patents
顔動画像合成用まばたき信号発生方式Info
- Publication number
- JPH0216681A JPH0216681A JP63168482A JP16848288A JPH0216681A JP H0216681 A JPH0216681 A JP H0216681A JP 63168482 A JP63168482 A JP 63168482A JP 16848288 A JP16848288 A JP 16848288A JP H0216681 A JPH0216681 A JP H0216681A
- Authority
- JP
- Japan
- Prior art keywords
- random number
- value
- pulse
- signal
- vocalization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Processing Or Creating Images (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[目 次]
概要
産業上の利用分野
従来の技術(第19図)
発明が解決しようとする課題
課題を解決するための手段(第1図)
作 用(第1図)
実施例
第1実施例の説明(第2〜12図)
第2実施例の説明(第13図)
第3実施例の説明(第14〜18図)
発明の効果
[概 要]
初期化時に伝送される少数の初期化データを用いること
により、通信中に伝送される音声情報に応じて、受信側
で顔の動画像を合成して表示するものにおいて、顔動画
像合成用のまばたき信号を発生する方式に関し、 話をしている時と、そうでない時とで、まばたきの様子
を変えることができるようにして、より自然な動画像の
合成を可能にすることを目的とし、初期化時に、初期化
データとして1発声中および非発声中における各まばた
きの時間間隔の平均値、II準偏差を伝送し、通信時に
は、発声中および非発声中における各まばたきの時間間
隔の平均値、標準偏差に応じた正規分布に従う時間間隔
で。
により、通信中に伝送される音声情報に応じて、受信側
で顔の動画像を合成して表示するものにおいて、顔動画
像合成用のまばたき信号を発生する方式に関し、 話をしている時と、そうでない時とで、まばたきの様子
を変えることができるようにして、より自然な動画像の
合成を可能にすることを目的とし、初期化時に、初期化
データとして1発声中および非発声中における各まばた
きの時間間隔の平均値、II準偏差を伝送し、通信時に
は、発声中および非発声中における各まばたきの時間間
隔の平均値、標準偏差に応じた正規分布に従う時間間隔
で。
発声時用パルス列信号および非発声時用パルス列信号を
それぞれ発生し、受信側で、音声入力検出部で検出した
検出信号に応じて、発声中は、発声時用パルス列信号を
まばたき信号として出力するとともに、非発声中は、非
発声時用パルス列信号をまばたき信号として出力するよ
うに構成する。
それぞれ発生し、受信側で、音声入力検出部で検出した
検出信号に応じて、発声中は、発声時用パルス列信号を
まばたき信号として出力するとともに、非発声中は、非
発声時用パルス列信号をまばたき信号として出力するよ
うに構成する。
[産業上の利用分野]
本発明は、初期化時に伝送される少数の初期化データを
用いることにより、通信中に伝送される音声情報に応じ
て、受信側で顔の動画像を合成して表示するものにおい
て、顔動画像合成用のまばたき信号を発生する方式に関
する。
用いることにより、通信中に伝送される音声情報に応じ
て、受信側で顔の動画像を合成して表示するものにおい
て、顔動画像合成用のまばたき信号を発生する方式に関
する。
テレビ(TV)電話、TV会議等においては、最終的に
公衆電話回線を利用した伝送方式を採用することが目標
とされており、このため、得られた画像情報を可能な限
り圧縮することが要望されている。
公衆電話回線を利用した伝送方式を採用することが目標
とされており、このため、得られた画像情報を可能な限
り圧縮することが要望されている。
[従来の技術]
TV電話等において伝送される画像は1通常、人物の原
動画像であるが、かかる動画像情報は。
動画像であるが、かかる動画像情報は。
第19図に示すように、音声情報とは独立して伝送され
るのが従来からの方式である4、即ち、入力画像は、送
信側においてTVカメラ61によりアナログ画像信号と
して発生され、この画像信号は画像符号化装置62でデ
ィジタル信号に変換されて符号化され圧縮されて受信側
に送られる。受信側では、画像復号化装置63により受
信画像を元の信号に復号化してデイスプレィ64に出力
画像として表示する。
るのが従来からの方式である4、即ち、入力画像は、送
信側においてTVカメラ61によりアナログ画像信号と
して発生され、この画像信号は画像符号化装置62でデ
ィジタル信号に変換されて符号化され圧縮されて受信側
に送られる。受信側では、画像復号化装置63により受
信画像を元の信号に復号化してデイスプレィ64に出力
画像として表示する。
また、入力音声は送信側でマイクロ5で音声情報として
得た後、音声符号化装置66で音声特有の符号化を行な
って圧縮した後、受信側で音声復号化装置67で復号化
されてスピーカー68から出力音声として得られる。
得た後、音声符号化装置66で音声特有の符号化を行な
って圧縮した後、受信側で音声復号化装置67で復号化
されてスピーカー68から出力音声として得られる。
しかしながら、このような従来から一般的に行なわれて
きた動画像の伝送方式は、動画像の情報量が大きいため
、低ビツトレートの通信回線を利用することができず、
コストが高くなってしまうとともに、公衆電話回線を利
用したTV電話等の適用には程遠いという問題点があっ
た。
きた動画像の伝送方式は、動画像の情報量が大きいため
、低ビツトレートの通信回線を利用することができず、
コストが高くなってしまうとともに、公衆電話回線を利
用したTV電話等の適用には程遠いという問題点があっ
た。
そこで、送信側からは例えば顔の静止画情報をあらかじ
め送っておき、受信側で、送信側から送られてくる音声
情報からこの音声情報に適合するように、口の部分だけ
を変形させて、画像を再生することも考えられる。
め送っておき、受信側で、送信側から送られてくる音声
情報からこの音声情報に適合するように、口の部分だけ
を変形させて、画像を再生することも考えられる。
しかし、これでは顔の表情の中で重要な位置を占める瞼
が全く動かず、不自然さが増すという問題点がある。
が全く動かず、不自然さが増すという問題点がある。
そこで、更に口の部分の変形に加えて、まばたきをラン
ダムに行なわせることにより、顔の表情に不自然さを出
さないようにしながら、原動画の情報をより圧縮できる
ようにした画像伝送方式も提案されている。
ダムに行なわせることにより、顔の表情に不自然さを出
さないようにしながら、原動画の情報をより圧縮できる
ようにした画像伝送方式も提案されている。
[発明が解決しようとする課題]
しかしながら、このように口の部分の変形に加えてまば
たきをランダムに行なわせる従来の手段では、まばたき
の発生が全くランダムなものであるため、話をしている
ときでもそうでないときでも、まばたきの様子は変わら
ず、やはり不自然さが残るため、なんらかの改善が望ま
れている。
たきをランダムに行なわせる従来の手段では、まばたき
の発生が全くランダムなものであるため、話をしている
ときでもそうでないときでも、まばたきの様子は変わら
ず、やはり不自然さが残るため、なんらかの改善が望ま
れている。
本発明は、このような状況下において創案されたもので
、話をしているときと、そうでないときとで、まばたき
の様子を変えることができるようにして、より自然な動
画像の合成を可能にした。
、話をしているときと、そうでないときとで、まばたき
の様子を変えることができるようにして、より自然な動
画像の合成を可能にした。
顔動画像合成用まばたき信号発生方式を提供することを
目的とする。
目的とする。
[課題を解決するための手段]
第1図は本発明の原理ブロック図である。
第1図において、28は顔動画像合成用まばたき信号発
生部で、このまばたき信号発生部28は。
生部で、このまばたき信号発生部28は。
標準正規乱数テーブル281.第1.第2の乱数変換部
282,283.第1.第2のパルス発生部284,2
85.音声入力検出部286.パルス列選択部287を
そなえて構成されている。
282,283.第1.第2のパルス発生部284,2
85.音声入力検出部286.パルス列選択部287を
そなえて構成されている。
ここで、標準正規乱数テーブル281は、平均値O2標
準偏差1の正規分布に従う乱数系列Ui(i=1.2,
3. ・・、nj;nは十分大きな整数)の値を記憶
したテーブルである。
準偏差1の正規分布に従う乱数系列Ui(i=1.2,
3. ・・、nj;nは十分大きな整数)の値を記憶
したテーブルである。
第1の乱数変換部282は、初期化時に発声中における
まばたきの時間間隔の平均値m工と標準偏差σ、とを受
けて、通信が開始されると、標準正規乱数テーブル28
1の1より乱数値Uiを読み出し、これに(1)式のよ
うな変換を施して平均値m、と標準偏差σ1の正規分布
に従う乱数値Xに変換するものであり、同様に、第2の
乱数変換部283も、初期化時に非発声中におけるまば
たきの時間間隔の平均値m2と標準偏差σ2とを受けて
、通信が開始されると、標準正規乱数テーブル281の
1より乱数値Uiを読み出し、これに(2)式のような
変換を施して平均値m2と標準偏差σ2の正規分布に従
う乱数値Xに変換するものである。
まばたきの時間間隔の平均値m工と標準偏差σ、とを受
けて、通信が開始されると、標準正規乱数テーブル28
1の1より乱数値Uiを読み出し、これに(1)式のよ
うな変換を施して平均値m、と標準偏差σ1の正規分布
に従う乱数値Xに変換するものであり、同様に、第2の
乱数変換部283も、初期化時に非発声中におけるまば
たきの時間間隔の平均値m2と標準偏差σ2とを受けて
、通信が開始されると、標準正規乱数テーブル281の
1より乱数値Uiを読み出し、これに(2)式のような
変換を施して平均値m2と標準偏差σ2の正規分布に従
う乱数値Xに変換するものである。
X=UiX a1+m1 (但しX>O)−−(1)X
=UiXcr、+m、 (但しX>0)−−(2)第
1のパルス発生部284は、第1の乱数変換部282よ
り乱数値Xが入力されると、クロックをカウントし、カ
ウント値が乱数値Xの値と等しくなると、パルスを発生
し、その後、第1の乱数変換部282へ制御信号を発生
して、次の乱数値Xの値を入力し、同じ処理を繰り返す
ことにより。
=UiXcr、+m、 (但しX>0)−−(2)第
1のパルス発生部284は、第1の乱数変換部282よ
り乱数値Xが入力されると、クロックをカウントし、カ
ウント値が乱数値Xの値と等しくなると、パルスを発生
し、その後、第1の乱数変換部282へ制御信号を発生
して、次の乱数値Xの値を入力し、同じ処理を繰り返す
ことにより。
パルス列信号P□を出力するもので、同様に、第2のパ
ルス発生部285も、第2の乱数変換部283より乱数
値Xが入力されると、クロックをカウントし、カウント
値が乱数値Xの値と等しくなると、パルスP2を発生し
、その後、第2の乱数変換部283へ制御信号を発生し
て、次の乱数値Xの値を入力し、同じ処理を繰り返すこ
とにより、パルス列信号P2を出力するものである。
ルス発生部285も、第2の乱数変換部283より乱数
値Xが入力されると、クロックをカウントし、カウント
値が乱数値Xの値と等しくなると、パルスP2を発生し
、その後、第2の乱数変換部283へ制御信号を発生し
て、次の乱数値Xの値を入力し、同じ処理を繰り返すこ
とにより、パルス列信号P2を出力するものである。
音声入力検出部286は、伝送されてきた音声のエネル
ギーを一定時間間隔でサンプリングし。
ギーを一定時間間隔でサンプリングし。
そのエネルギーが予め設定されたしきい値より大きけれ
ばオンとなり、小さければオフとなることにより、発声
中か非発声中かを検出するものである。
ばオンとなり、小さければオフとなることにより、発声
中か非発声中かを検出するものである。
パルス列選択部287は、音声入力検出部286で発声
中であることが検出されている間は第1のパルス発生部
284からのパルスP□を出力し、音声入力検出部28
6で非発声中であることが検出されている間は第2のパ
ルス発生部285からのパルスP2を出力するように切
り替わるものである。
中であることが検出されている間は第1のパルス発生部
284からのパルスP□を出力し、音声入力検出部28
6で非発声中であることが検出されている間は第2のパ
ルス発生部285からのパルスP2を出力するように切
り替わるものである。
[作 用]
このような構成により、初期化時に、初期化データとし
て、発声中におけるまばたきの時間間隔の平均値miお
よび標準偏差σ1が第1の乱数変換部282へ伝送され
るとともに、非発声中におけるまばたきの時間間隔の平
均値m、および標準偏差σ2が第2の乱数変換部283
へ伝送される。
て、発声中におけるまばたきの時間間隔の平均値miお
よび標準偏差σ1が第1の乱数変換部282へ伝送され
るとともに、非発声中におけるまばたきの時間間隔の平
均値m、および標準偏差σ2が第2の乱数変換部283
へ伝送される。
そして、通信時には、発声中および非発声中における各
まばたきの時間間隔の平均値m工1m2と標準偏差σ1
.σ2とに応じた正規分布に従う時間間隔で、第1.第
2のパルス発生部284,285から発声時用パルス列
信号P1および非発声時用パルス列信号P2がそれぞれ
発生せしめられる。
まばたきの時間間隔の平均値m工1m2と標準偏差σ1
.σ2とに応じた正規分布に従う時間間隔で、第1.第
2のパルス発生部284,285から発声時用パルス列
信号P1および非発声時用パルス列信号P2がそれぞれ
発生せしめられる。
さらに、この受信側では、音声入力検出部286で検出
した検出信号に応じて、パルス列選択部287が切り替
わることにより、発声中は、発声時用パルス列信号P1
がまばたき信号として出力されるとともに、非発声中は
、非発声時用パルス列信号P2がまばたき信号として出
力される。
した検出信号に応じて、パルス列選択部287が切り替
わることにより、発声中は、発声時用パルス列信号P1
がまばたき信号として出力されるとともに、非発声中は
、非発声時用パルス列信号P2がまばたき信号として出
力される。
これにより、話をしているときと、そうでないときとで
、まばたきの様子を変えることができる。
、まばたきの様子を変えることができる。
[実施例]
以下、図面を参照して本発明の詳細な説明する。
(a)第1実施例の説明
第2図は本発明の第1実施例を示すブロック図で、この
第1実施例では、送信部10と受信部20とが設けられ
、送信部10は、顔画像入力を画像処理する画像処理部
11と、音声入力を符号化する音声符号化部12とを含
んでいる。
第1実施例では、送信部10と受信部20とが設けられ
、送信部10は、顔画像入力を画像処理する画像処理部
11と、音声入力を符号化する音声符号化部12とを含
んでいる。
また、受信部20は、背景画メモリ19.音声復号化部
21.音声認識部22.コードブック23A、口形モデ
ル変形部(口形モデル画像記憶手段)24A、制御点座
標メモリ(テーブル)23B、陰影モデル変形部(瞼形
モデル画像記憶手段)24B9合成部25.補間点計算
部27.顔動画像合成用まばたき信号発生部28.座標
テーブル制御部29を有している。
21.音声認識部22.コードブック23A、口形モデ
ル変形部(口形モデル画像記憶手段)24A、制御点座
標メモリ(テーブル)23B、陰影モデル変形部(瞼形
モデル画像記憶手段)24B9合成部25.補間点計算
部27.顔動画像合成用まばたき信号発生部28.座標
テーブル制御部29を有している。
ここで、背景画メモリ19は、初期化時に送信側より送
られた1フレ一ム分の顔画像の静止画データを記憶し格
納するものである。
られた1フレ一ム分の顔画像の静止画データを記憶し格
納するものである。
また、音声復号化部21は送信部10で符号化された音
声符号を復号化するもので、音声認識部22は音声復号
化部21から出力された音声信号を音声認識するもので
、コードブック23Aは音声認識部22から次々と出力
される音素符号(音声の基本構成単位である母音又は子
音などから成るもの)から1組の口形パラメータ値を逐
次選択するもので、口形モデル変形部(口形モデル画像
記憶手段)24Aはコードブック23で逐次選択された
1組の口形パラメータ値に応じて口形モデル画像を変形
するものである。
声符号を復号化するもので、音声認識部22は音声復号
化部21から出力された音声信号を音声認識するもので
、コードブック23Aは音声認識部22から次々と出力
される音素符号(音声の基本構成単位である母音又は子
音などから成るもの)から1組の口形パラメータ値を逐
次選択するもので、口形モデル変形部(口形モデル画像
記憶手段)24Aはコードブック23で逐次選択された
1組の口形パラメータ値に応じて口形モデル画像を変形
するものである。
ところで、コードブック23Aには、第4図に示すよう
に、特定の話者が各音素■、■・・・9mを発生した場
合の口の形状をパラメータ■ (例えば口の横幅)、■
(例えば唇の厚さ)、・・・tn(例えば口の縦幅)と
して数値化したテーブルが予めその個人情報として記憶
されている。ここで、例えば、音素1.n、IIIに対
する口画像の一例を模式的に示すと、第6図(a)、(
b)、(c)のようになる。
に、特定の話者が各音素■、■・・・9mを発生した場
合の口の形状をパラメータ■ (例えば口の横幅)、■
(例えば唇の厚さ)、・・・tn(例えば口の縦幅)と
して数値化したテーブルが予めその個人情報として記憶
されている。ここで、例えば、音素1.n、IIIに対
する口画像の一例を模式的に示すと、第6図(a)、(
b)、(c)のようになる。
また、口形モデル変形部24Aは、その個人情報として
予めその特定話者の1画面(1フレーム)分の口画像デ
ータを背景画メモリ19を介してもらい、これを口の幾
何学的形状の骨組となるパッチ・モデルにマツピングし
たものを口形モデル画像として記憶しておく。このよう
に、最初に送信部10から目部分の画像を1画面分送っ
ておく場合でも、コードブック23Aは予め作っておく
必要がある。
予めその特定話者の1画面(1フレーム)分の口画像デ
ータを背景画メモリ19を介してもらい、これを口の幾
何学的形状の骨組となるパッチ・モデルにマツピングし
たものを口形モデル画像として記憶しておく。このよう
に、最初に送信部10から目部分の画像を1画面分送っ
ておく場合でも、コードブック23Aは予め作っておく
必要がある。
補間点計算部27は、静止画データに対応する瞼形状モ
デル(第7図参照)の全頂点P、〜P、の座標データを
初期化時に受けて、まばたき開始から終了までの各フレ
ーム時点での制御点p、、p、。
デル(第7図参照)の全頂点P、〜P、の座標データを
初期化時に受けて、まばたき開始から終了までの各フレ
ーム時点での制御点p、、p、。
P4の座標を線形補間計算し、そのデータを制御点座標
メモリ23Bへ送るものである。
メモリ23Bへ送るものである。
すなわち、この瞼形状モデルは、第7図に示すごとく、
8個の頂点P1〜P、(各点がXt’jの2次元座標値
をもつ)と、これらの頂点P1〜P、をつないでできる
6個の三角形パッチT1〜Tllとで構成されるが、こ
の瞼形状モデルは、まばたきの動作を合成するため、p
、、p、、p、を制御点(x、y座標を変化させる点)
とし、その他の5点は不動(固定点)としている。
8個の頂点P1〜P、(各点がXt’jの2次元座標値
をもつ)と、これらの頂点P1〜P、をつないでできる
6個の三角形パッチT1〜Tllとで構成されるが、こ
の瞼形状モデルは、まばたきの動作を合成するため、p
、、p、、p、を制御点(x、y座標を変化させる点)
とし、その他の5点は不動(固定点)としている。
そして、この補間点計算部27においては、初期化時に
、8個の頂点P1〜P、の座標のほかに、p、、 p、
、 p、の最下点を示すp、、p。
、8個の頂点P1〜P、の座標のほかに、p、、 p、
、 p、の最下点を示すp、、p。
P4′の3点の座標値も与えられ、あらかじめ与えられ
たまばたき1回当りのフレーム数Nより、P2→P2′
→P、、P□→P、′→p、、p4→P。
たまばたき1回当りのフレーム数Nより、P2→P2′
→P、、P□→P、′→p、、p4→P。
→P4の各区間を線形補間するようになっている。
制御点座標メモリ23Bは、陰影モデル画像の瞼パラメ
ータを基に瞼のまばたき動作を記憶するものである。具
体的には、上記補間点計算部27で補間計算されたまば
たき開始から終了までの各フレーム時点における3つの
制御点p、、 p、。
ータを基に瞼のまばたき動作を記憶するものである。具
体的には、上記補間点計算部27で補間計算されたまば
たき開始から終了までの各フレーム時点における3つの
制御点p、、 p、。
P4の座標をテーブルの形で、制御点座標メモリ23B
に記憶領域に保管するのである。この制御点座標テーブ
ルの構成例を第5図に示す。
に記憶領域に保管するのである。この制御点座標テーブ
ルの構成例を第5図に示す。
まばたき信号発生部28は、まばたき信号(パルス信号
)を発生するもので、第3図に示すごとく、乱数発生器
2809機標準正規乱数テーブル281、第1.第2の
乱数変換部282,283゜第1.第2のパルス発生部
284,285.音声入力検出部286.パルス列選択
部287をそなえて構成されている。
)を発生するもので、第3図に示すごとく、乱数発生器
2809機標準正規乱数テーブル281、第1.第2の
乱数変換部282,283゜第1.第2のパルス発生部
284,285.音声入力検出部286.パルス列選択
部287をそなえて構成されている。
ここで、乱数発生器280は、初期化時の信号入力に応
じて乱数開始位置を設定するポインタ値ill 12
(1≦11t’12≦n)をランダムに発生するもので
ある。
じて乱数開始位置を設定するポインタ値ill 12
(1≦11t’12≦n)をランダムに発生するもので
ある。
標準正規乱数テーブル281は、第9図に示すような平
均値o、m準偏差1の正規分布に従う乱数系列Ui(i
==1,2,3. ・a、nunは十分大きな整数)
の値を記憶したテーブル(メモリ)である。
均値o、m準偏差1の正規分布に従う乱数系列Ui(i
==1,2,3. ・a、nunは十分大きな整数)
の値を記憶したテーブル(メモリ)である。
第1の乱数変換部282は、初期化時に発声中における
まばたきの時間間隔の平均値m、、@準偏差σ1と乱数
発生器280から乱数開始位置を設定するポインタ値1
1とを受けて、通信が開始されると、標準正規乱数テー
ブル281の番地11よりこの番地iLに対応する乱数
値Uiを読み出し、これに前述の(1)式(下記参照)
のような変換を施して第10図に示すような平均値m工
と標準偏差σ1の正規分布に従う乱数値Xに変換するも
のである。
まばたきの時間間隔の平均値m、、@準偏差σ1と乱数
発生器280から乱数開始位置を設定するポインタ値1
1とを受けて、通信が開始されると、標準正規乱数テー
ブル281の番地11よりこの番地iLに対応する乱数
値Uiを読み出し、これに前述の(1)式(下記参照)
のような変換を施して第10図に示すような平均値m工
と標準偏差σ1の正規分布に従う乱数値Xに変換するも
のである。
x:=tJix a、+m、 (但しX>0)−−(
1)そして、この第1の乱数変換部282は、後述の第
1のパルス発生部284から制御信号を待って18を1
ずつ増やして同じ処理を繰り返す。
1)そして、この第1の乱数変換部282は、後述の第
1のパルス発生部284から制御信号を待って18を1
ずつ増やして同じ処理を繰り返す。
かかる処理を第11図に示す、即ち、まずステップa1
で、初期値m工、σ□p xzを設定し、ステップa2
で、標準正規乱数テーブル281から11に対応するU
iを読み出し、ステップa3で。
で、初期値m工、σ□p xzを設定し、ステップa2
で、標準正規乱数テーブル281から11に対応するU
iを読み出し、ステップa3で。
乱数値X、=UiXσ□+m0を演算し、ステップa4
で、X〉0かどうかを判定し、YESなら、ステップa
5で、乱数値Xを入力し、ステップa6で、第1のパル
ス発生部284から制御信号の入力があったかどうかが
判定され、制御信号の入力があった場合は、ステップa
7で、i、=il+1として1次のステップa8で、1
1≦nかどうかを判定する。かかる処理はi、=n+1
になるまで行なわれ、i、=n+1となると、ステップ
a9で、1i=1と初期化して同様の処理を繰り返す。
で、X〉0かどうかを判定し、YESなら、ステップa
5で、乱数値Xを入力し、ステップa6で、第1のパル
ス発生部284から制御信号の入力があったかどうかが
判定され、制御信号の入力があった場合は、ステップa
7で、i、=il+1として1次のステップa8で、1
1≦nかどうかを判定する。かかる処理はi、=n+1
になるまで行なわれ、i、=n+1となると、ステップ
a9で、1i=1と初期化して同様の処理を繰り返す。
なお、ステップa4で、乱数値Xが負の値になった場合
は、ステップa5.a6はジャンプする。
は、ステップa5.a6はジャンプする。
また、ステップa6で、制御信号が入力されないうちは
1次のステップへは移らない。
1次のステップへは移らない。
同様に、第2の乱数変換部283も、初期化時に非発声
中におけるまばたきの時間間隔の平均値m2.標準偏差
σ、および乱数発生器280から乱数開始位置を設定す
るポインタ値12とを受けて、通信が開始されると、標
準正規乱数テーブル281の番地12よりこの番地12
に対応する乱数値Uiを読み出し、これに前述の(2)
式(下記参照)のような変換を施して第10図に示すも
のとほぼ同様な平均値m2と標準偏差σ2の正規分布に
従う乱数値Xに変換するものである。
中におけるまばたきの時間間隔の平均値m2.標準偏差
σ、および乱数発生器280から乱数開始位置を設定す
るポインタ値12とを受けて、通信が開始されると、標
準正規乱数テーブル281の番地12よりこの番地12
に対応する乱数値Uiを読み出し、これに前述の(2)
式(下記参照)のような変換を施して第10図に示すも
のとほぼ同様な平均値m2と標準偏差σ2の正規分布に
従う乱数値Xに変換するものである。
X=UiX a2+m2 (但しX>O)−−(2)そ
して、この第2の乱数変換部283も、後述の第2のパ
ルス発生部285から制御信号を待って12を1ずつ増
やして同じ処理を繰り返す。
して、この第2の乱数変換部283も、後述の第2のパ
ルス発生部285から制御信号を待って12を1ずつ増
やして同じ処理を繰り返す。
なお、この第2の乱数変換部283における処理フロー
も第11図に示すものと同じである。
も第11図に示すものと同じである。
第1のパルス発生部284は、クロックを計数するカウ
ンタ284a、このカウンタ284aからのカウント値
と第1の乱数変換部282からの乱数値Xとを比較する
比較器284b、この比較器284bから一致パルスが
出されるとパルスを出力するパルス発生器284Cとを
そなえてなり、これにより第1の乱数変換部282より
乱数値Xが入力されると、クロックをカウントし、カウ
ント値が乱数値Xの値と等しくなると、パルスを発生し
、その後、第1の乱数変換部282へ制御信号を発生し
て9次の乱数値Xの値を入力し、同じ処理を繰り返すこ
とにより、第12図(a)に示すようなパルス列信号P
□を出力するもので、同様に、第2のパルス発生部28
5も、クロックを計数するカウンタ285a、このカウ
ンタ285aからのカウント値と第2の乱数変換部28
3からの乱数値Xとを比較する比較器285b、この比
較器285bから一致パルスが出されるとパルスを出力
するパルス発生器285Cとをそなえてなり、これによ
り第2の乱数変換部283より乱数値Xが入力されると
、クロックをカウントし、カウント値が乱数値Xの値と
等しくなると、パルスを発生し、その後、第2の乱数変
換部283へ制御信号を発生して、次の乱数値Xの値を
入力し、同じ処理を繰り返すことにより、第12図(b
)に示すようなパルス列信号P2を出力するものである
。
ンタ284a、このカウンタ284aからのカウント値
と第1の乱数変換部282からの乱数値Xとを比較する
比較器284b、この比較器284bから一致パルスが
出されるとパルスを出力するパルス発生器284Cとを
そなえてなり、これにより第1の乱数変換部282より
乱数値Xが入力されると、クロックをカウントし、カウ
ント値が乱数値Xの値と等しくなると、パルスを発生し
、その後、第1の乱数変換部282へ制御信号を発生し
て9次の乱数値Xの値を入力し、同じ処理を繰り返すこ
とにより、第12図(a)に示すようなパルス列信号P
□を出力するもので、同様に、第2のパルス発生部28
5も、クロックを計数するカウンタ285a、このカウ
ンタ285aからのカウント値と第2の乱数変換部28
3からの乱数値Xとを比較する比較器285b、この比
較器285bから一致パルスが出されるとパルスを出力
するパルス発生器285Cとをそなえてなり、これによ
り第2の乱数変換部283より乱数値Xが入力されると
、クロックをカウントし、カウント値が乱数値Xの値と
等しくなると、パルスを発生し、その後、第2の乱数変
換部283へ制御信号を発生して、次の乱数値Xの値を
入力し、同じ処理を繰り返すことにより、第12図(b
)に示すようなパルス列信号P2を出力するものである
。
音声入力検出部286は、伝送されてきた音声のエネル
ギーを一定時間間隔でサンプリングし、そのエネルギー
が予め設定されたしきい値より大きければオンとなり、
小さければオフとなることにより[第12図(c)参照
]、発声中か非発声中かを検出するものである。
ギーを一定時間間隔でサンプリングし、そのエネルギー
が予め設定されたしきい値より大きければオンとなり、
小さければオフとなることにより[第12図(c)参照
]、発声中か非発声中かを検出するものである。
パルス列選択部287は、音声入力検出部286で発声
中であることが検出されている間は第1のパルス発生部
284からのパルスP0をまばたき開始信号として出力
し、音声入力検出部286で非発声中であることが検出
されている間は第2のパルス発生部285からのパルス
P2をまばたき開始信号として出力するように切り替わ
るものでで、マルチプレクサが使用される。
中であることが検出されている間は第1のパルス発生部
284からのパルスP0をまばたき開始信号として出力
し、音声入力検出部286で非発声中であることが検出
されている間は第2のパルス発生部285からのパルス
P2をまばたき開始信号として出力するように切り替わ
るものでで、マルチプレクサが使用される。
従って、このパルス列選択部287からの出力パルス列
は第12図(d)のようになるので、話をしているとき
と、そうでないときとで、異なったパルス列信号を発生
させることができ、これにより、まばたきの様子を変え
ることができる。
は第12図(d)のようになるので、話をしているとき
と、そうでないときとで、異なったパルス列信号を発生
させることができ、これにより、まばたきの様子を変え
ることができる。
ところで、第2図の座標テーブル制御部29は、まばた
き信号発生部28からまばたき開始信号を受けた時点か
ら制御点座標メモリ23Bの座標テーブル内の全頂点デ
ータを順次読み出し、各フレームごとに陰影モデル変形
部24Bへと転送するものである。
き信号発生部28からまばたき開始信号を受けた時点か
ら制御点座標メモリ23Bの座標テーブル内の全頂点デ
ータを順次読み出し、各フレームごとに陰影モデル変形
部24Bへと転送するものである。
陰影モデル変形部24Bは、顔の瞼部分の幾何学的形状
を示す陰影パラメータによって定義される除温モデル画
像を記憶するもので、この陰影モデル変形部24Bでは
、制御点座標メモリ23Bから瞼パラメータを取り出し
、この瞼パラメータに基づいて除温モデル画像を変形す
るものである。
を示す陰影パラメータによって定義される除温モデル画
像を記憶するもので、この陰影モデル変形部24Bでは
、制御点座標メモリ23Bから瞼パラメータを取り出し
、この瞼パラメータに基づいて除温モデル画像を変形す
るものである。
具体的には、座標テーブル制御部29の作用により、制
御点座標メモリ23Bから順次送られてくる瞼パラメー
タを取り込んで、この瞼パラメータに基づいて除温モデ
ル画像を変形するのである。
御点座標メモリ23Bから順次送られてくる瞼パラメー
タを取り込んで、この瞼パラメータに基づいて除温モデ
ル画像を変形するのである。
ここで、この除温モデル画像の変形の様子を模式的に示
すと、第8図(a)〜(c)のようになる。
すと、第8図(a)〜(c)のようになる。
合成部25は、口形モデル変形部24Aから発生された
自画像および陰影モデル変形部24Bから発生された瞼
画像を、背景画メモリ19に記憶された静止顔画像の目
部分および瞼部分以外の画像と合成するものである。
自画像および陰影モデル変形部24Bから発生された瞼
画像を、背景画メモリ19に記憶された静止顔画像の目
部分および瞼部分以外の画像と合成するものである。
次に、この第1実施例の動作を説明する。
音声入力は音声符号化部12で符号化されて受信部20
に伝送されるが、この音声符号は音声復号化部21で復
号化して音声として出力される。
に伝送されるが、この音声符号は音声復号化部21で復
号化して音声として出力される。
また、一方において、この音声出力は音声認識部22に
送られ、その音素符号が逐次抽出されてコードブック2
3Aに送られる。コードブック23Aでは、入力した音
素符号に基づいて第4図に示すコードブックの中から対
応する口形に関する1組のパラメータ値1.II、・・
・、nを選択する。
送られ、その音素符号が逐次抽出されてコードブック2
3Aに送られる。コードブック23Aでは、入力した音
素符号に基づいて第4図に示すコードブックの中から対
応する口形に関する1組のパラメータ値1.II、・・
・、nを選択する。
そして、これらの選択された1組のパラメータ値により
、予め記憶した口形モデル画像を変形した自画像を口形
モデル変形部24Aで発生する。この結果、発生された
自画像と音声認識部22で抽出された音素との対応関係
は、例えば第6図(a)(b)、(Q)に示すようにな
る。
、予め記憶した口形モデル画像を変形した自画像を口形
モデル変形部24Aで発生する。この結果、発生された
自画像と音声認識部22で抽出された音素との対応関係
は、例えば第6図(a)(b)、(Q)に示すようにな
る。
一方、まばたき信号発生部28からは、話中とそうでな
いときとで、異なったランダムな時間間隔で、まばたき
開始信号が発せられる。
いときとで、異なったランダムな時間間隔で、まばたき
開始信号が発せられる。
即ち、初期化時に、初期化データとして1発声中におけ
るまばたきの時間間隔の平均値m工、Itl準偏差σ1
および乱数開始位置を設定するポインタ値11が第3図
に示す第1の乱数変換部282へ伝送されるとともに、
非発声中におけるまばたきの時間間隔の平均値m、、4
!111準偏差σ2および乱数開始位置を設定するポイ
ンタ値i、Iが第2の乱数変換部283へ伝送される。
るまばたきの時間間隔の平均値m工、Itl準偏差σ1
および乱数開始位置を設定するポインタ値11が第3図
に示す第1の乱数変換部282へ伝送されるとともに、
非発声中におけるまばたきの時間間隔の平均値m、、4
!111準偏差σ2および乱数開始位置を設定するポイ
ンタ値i、Iが第2の乱数変換部283へ伝送される。
そして、通信時には1発声中および非発声中における各
まばたきの時間間隔の平均値m1.m2と標準偏差σ1
.σ□とに応じた正規分布に従う時間間隔で、第1.第
2のパルス発生部284,285から発声時用パルス列
信号P工および非発声時用パルス列信号P2がそれぞれ
発生される。
まばたきの時間間隔の平均値m1.m2と標準偏差σ1
.σ□とに応じた正規分布に従う時間間隔で、第1.第
2のパルス発生部284,285から発声時用パルス列
信号P工および非発声時用パルス列信号P2がそれぞれ
発生される。
さらに、この受信側では、音声入力検出部286で検出
した検出信号に応じて、パルス列選択部287が切り替
わることにより、発声中は、第12図(2)に示すよう
な発声時用パルス列信号P工がまばたき開始信号として
出力されるとともに、非発声中は、第12図(b)に示
すような非発声時用パルス列信号P2がまばたき開始信
号として出力される。
した検出信号に応じて、パルス列選択部287が切り替
わることにより、発声中は、第12図(2)に示すよう
な発声時用パルス列信号P工がまばたき開始信号として
出力されるとともに、非発声中は、第12図(b)に示
すような非発声時用パルス列信号P2がまばたき開始信
号として出力される。
これにより1話をしているときと、そうでないときとで
、異なったパルス列信号が出力される[第12図(c)
、(d)参照]。
、異なったパルス列信号が出力される[第12図(c)
、(d)参照]。
このようにまばたき信号発生部28からパルス列信号が
出力されると、座標テーブル制御部29では、このまば
たき開始信号を受けた時点から、制御点座標メモリ23
Bの座標テーブル内の全頂点データを読み出し、各フレ
ーム毎に陰影モデル変形部24Bへと転送する。かかる
転送はまばたき開始信号発生時から単位まばたき当りの
フレーム数が経過した時点で終了する。そして、陰影モ
デル変形部24Bでは、上記の頂点データに従って、あ
らかじめ記憶した除温モデル画像を変形した瞼画像を発
生する。
出力されると、座標テーブル制御部29では、このまば
たき開始信号を受けた時点から、制御点座標メモリ23
Bの座標テーブル内の全頂点データを読み出し、各フレ
ーム毎に陰影モデル変形部24Bへと転送する。かかる
転送はまばたき開始信号発生時から単位まばたき当りの
フレーム数が経過した時点で終了する。そして、陰影モ
デル変形部24Bでは、上記の頂点データに従って、あ
らかじめ記憶した除温モデル画像を変形した瞼画像を発
生する。
このようにして変形して発生された自画像および瞼画像
は、背景画メモリ19に記憶された静止顔画像の口およ
び瞼以外の画像と、合成部25で、合成されて、顔全体
の動画像として出力されることとなる。
は、背景画メモリ19に記憶された静止顔画像の口およ
び瞼以外の画像と、合成部25で、合成されて、顔全体
の動画像として出力されることとなる。
これにより、原動画の情報をより圧縮できるので、情報
量を大きく削減することができ、その結果、低ビツトレ
ートの回線を利用した低置な画像伝送方式を実現できる
ほか、顔の中の瞼の部分が会話の途中において、話して
いるときとそうでないときとで、異なった間隔でまばた
きをするので、顔の表情がより自然になる。
量を大きく削減することができ、その結果、低ビツトレ
ートの回線を利用した低置な画像伝送方式を実現できる
ほか、顔の中の瞼の部分が会話の途中において、話して
いるときとそうでないときとで、異なった間隔でまばた
きをするので、顔の表情がより自然になる。
なお、上記の口形モデル変形部24Aでの口形モデル画
像の変形および陰影モデル変形部24Bでの陰影モデル
画像の変形に用いられる手法は、信学技報IE87−2
.第87巻、第19号、1987に記述されている。
像の変形および陰影モデル変形部24Bでの陰影モデル
画像の変形に用いられる手法は、信学技報IE87−2
.第87巻、第19号、1987に記述されている。
(b)第2実施例の説明
第13図は本発明の第2実施例を示すブロック図である
が、前述した第2図の第1実施例と異なる点は、送信部
10に音声認識部13を設け、送信側で音素符号とその
他の情報(イントネーション、ピッチ等)とに分離して
受信部20に送り、受信部20では、音素符号をそのま
まコードブック23Aで用いるとともに音素符号とイン
トネーション等の情報とを音声合成部26で合成して音
声出力を発生していることである。その他の構成および
動作(まばたき信号発生部の構成および動作を含む)は
第2,3図の場合と同様である。従って、この第2実施
例においても、前述の第1実施例と同様の効果ないし利
点が得られる。
が、前述した第2図の第1実施例と異なる点は、送信部
10に音声認識部13を設け、送信側で音素符号とその
他の情報(イントネーション、ピッチ等)とに分離して
受信部20に送り、受信部20では、音素符号をそのま
まコードブック23Aで用いるとともに音素符号とイン
トネーション等の情報とを音声合成部26で合成して音
声出力を発生していることである。その他の構成および
動作(まばたき信号発生部の構成および動作を含む)は
第2,3図の場合と同様である。従って、この第2実施
例においても、前述の第1実施例と同様の効果ないし利
点が得られる。
(c)第3実施例の説明
ところで1以上の各実施例では、予め記憶されたコード
ブック23Aは予め決められた話者固有のものであるた
め、不特定多数の人物の口画像を伝送しようとすると、
コードブックに記憶された全口形符号を、話者が変わる
度にその話者に適合させるための書き換え処理を行なう
か、または、登録されている話者のコードブック情報を
すべて記録しておくための膨大なメモリ領域をコードブ
ックに用意しておかなければならない。
ブック23Aは予め決められた話者固有のものであるた
め、不特定多数の人物の口画像を伝送しようとすると、
コードブックに記憶された全口形符号を、話者が変わる
度にその話者に適合させるための書き換え処理を行なう
か、または、登録されている話者のコードブック情報を
すべて記録しておくための膨大なメモリ領域をコードブ
ックに用意しておかなければならない。
そこで、以下に示す第3実施例では、コードブックを不
特定の話者に合わせて用いることができるようにした。
特定の話者に合わせて用いることができるようにした。
即ち、第14図に示すように、標準的な人間の全音素を
発音した字の口形に対する口形モデルの各パラメータ値
を測定して標準コードブックを作成し、このコードブッ
ク内の各パラメータ値を予め決めた基本音素符号(例え
ば無音符号)のパラメータ値で正規化(割算)してパラ
メータ後とに正規化したコードブックを作る(第15図
参照)。
発音した字の口形に対する口形モデルの各パラメータ値
を測定して標準コードブックを作成し、このコードブッ
ク内の各パラメータ値を予め決めた基本音素符号(例え
ば無音符号)のパラメータ値で正規化(割算)してパラ
メータ後とに正規化したコードブックを作る(第15図
参照)。
そして、第16図に示すように、基本音素符号に対応す
る個人の口画像から1組のパラメータを測定し、パラメ
ータ毎に第15図のように求めた正規化されたコードブ
ックの全音素符号に対する各パラメータに乗算すること
により個人用のコードブックが作成できることとなる。
る個人の口画像から1組のパラメータを測定し、パラメ
ータ毎に第15図のように求めた正規化されたコードブ
ックの全音素符号に対する各パラメータに乗算すること
により個人用のコードブックが作成できることとなる。
即ち1例えば、得られた1組の個人口画像パラメータが
bよ、〜b、nとすれば、第15図において音素符号■
でパラメータ■の正規化コードa 21/ a 1□に
は上記のパラメータb1□が掛けられて(as□/a工
z) bllというコードに変換され、同様にしてパラ
メータlに関してはパラメータb11が全音素符号に関
して乗算されることとなる。
bよ、〜b、nとすれば、第15図において音素符号■
でパラメータ■の正規化コードa 21/ a 1□に
は上記のパラメータb1□が掛けられて(as□/a工
z) bllというコードに変換され、同様にしてパラ
メータlに関してはパラメータb11が全音素符号に関
して乗算されることとなる。
第17図はかかる個人用のコードブックを作成するため
の初期化装置30を設けた第3実施例を示すブロック図
であるが、この初期化装置30でコードブック23Aを
個人用に初期化することにより不特定多数の話者の原動
画像を再生するものである。
の初期化装置30を設けた第3実施例を示すブロック図
であるが、この初期化装置30でコードブック23Aを
個人用に初期化することにより不特定多数の話者の原動
画像を再生するものである。
そして、この初期化装置30の具体的な構成が第18図
に示されており、最初に送信部10の画像処理部11か
ら顔画像中の基本音素符号(この場合、無音符号)の口
画像が送られてきた時、この初期化装置30では、特徴
点抽出部31でその口画像の特徴点を抽出する。そして
、この特徴点間距離等からパラメータ計算部32で1組
のパラメータを計算する。この1組のパラメータを第1
5図に示すように正規化コードブックメモリ33に予め
用意しておいた正規化コードブックの各パラメータ毎の
乗算を乗算器34で行なって個人用コードブックメモリ
35を作成してコードブック23に格納する。
に示されており、最初に送信部10の画像処理部11か
ら顔画像中の基本音素符号(この場合、無音符号)の口
画像が送られてきた時、この初期化装置30では、特徴
点抽出部31でその口画像の特徴点を抽出する。そして
、この特徴点間距離等からパラメータ計算部32で1組
のパラメータを計算する。この1組のパラメータを第1
5図に示すように正規化コードブックメモリ33に予め
用意しておいた正規化コードブックの各パラメータ毎の
乗算を乗算器34で行なって個人用コードブックメモリ
35を作成してコードブック23に格納する。
以後、その個人の0画像伝送の際に参照されることとな
る。
る。
このように、用意したコードブックを話者毎に更新でき
るように初期化装置30を設けたので、不特定多数の話
者に対しても容易に対応することが可能と成る。
るように初期化装置30を設けたので、不特定多数の話
者に対しても容易に対応することが可能と成る。
なお、この初期化装置30は、第13図に示すような実
施例にも同様に適用される。
施例にも同様に適用される。
[発明の効果]
以上のように、本発明の顔動画像合成用まばたき信号発
生方式によれば5話をしているときと、そうでないとき
とで、まばたき信号の発生頻度を変えることができるの
で、まばたきの様子を変えることができ、これにより、
より自然な動画像を合成できるという利点がある。
生方式によれば5話をしているときと、そうでないとき
とで、まばたき信号の発生頻度を変えることができるの
で、まばたきの様子を変えることができ、これにより、
より自然な動画像を合成できるという利点がある。
第1図は本発明の原理ブロック図、
第2図は本発明の第1実施例を示すブロック図、第3図
はまばたき信号発生部のブロック図、第4図はコードブ
ックの構成図、 第5図は制御点座標テーブルの構成図、第6図(a)、
(b)、(c)は音素符号に対する口画像を示す図、 第7図は瞼領域の形状モデル構成を示す図、第8図(a
)、(b)、(c)は陰影モデル画像の変形の概念を説
明する図、 第9図は平均0.標準偏差1の正規分布を示す図、 第10図は平均m8.標準偏差σ、の正規分布を示す図
、 第11図は乱数値演算要領を示すフローチャート、 第12図はまばたき信号発生部での各部波形を示す図、 第13図は本発明の第2実施例を示すブロック図、 第14図は本発明の第3実施例における正規化コードブ
ックの作成手順を示す図、 第15図は正規化コードブックの構成図、第16図は本
発明の第3実施例における個人用コードブックの作成手
順を示す図、 第17図は本発明の第3実施例を示すブロック図、 第18図は初期化装置のブロック図、 第19図は従来の一般的な画像伝送方式を示す系統図で
ある。 図において、 10は送信部、 11は画像処理部、 12は音声符号化部、 13は音声認識部。 19は背景画メモリ、 20は受信部。 21は音声復号化部、 22は音声認識部、 23Aはフードブック、 23Bは制御点座標メモリ(テーブル)、24Aは口形
モデル変形部(口形モデル画像記憶手段)。 24Bは陰影モデル変形部(瞼形モデル画像記憶手段)
、 25は合成部、 26は音声合成部、 27は補間点計算部、 28はまばたき信号発生部、 29は座標テーブル制御部。 30は初期化装置、 31は特徴点抽出部、 32はパラメータ計算部。 33は正規化コードブックメモリ、 34は乗算部、 35は個人用コードブックメモリ、 280は乱数発生器、 281は標準正規乱数テーブル。 282は第1の乱数変換部、 283は第2の乱数変換部、 284は第1のパルス発生部、 284aはカウンタ。 284bは比較器、 284cはパルス発生器、 285は第2のパルス発生部、 285aはカウンタ、 285bは比較器、 285cはパルス発生器、 286は音声入力検出部、 287はパルス列選択部である。 ツードブ1ワめ講放凹 第4図 刺fJP虐。 怜り卸、化11オ水イープル/la6支し]巨舎瀬域/
l形状七程槙広乞小す図 第7 図 音素工 音素■ 音#:II (b) (C) 冬昔素1;丈寸オろロ山イ家!ホす刀 第6図 平均m+、標譚イ鼎左σ輪正規7分卆乞小す口笛 1゜ 図 S!−均oJ譚(橢井1め正規分布乞がす口第 図 d)数%亘演算91貝ぎ示すフロー手ヤード第 図 、正犬見イヒコードブ7グイ丁〜キP1貝七す固第14
図 正絹、化コードブッグめわIff画 第15図 イ固人用コード°ブ7グイTiマイトlll貝乞ホすロ
第16図 判 slイ ロ
はまばたき信号発生部のブロック図、第4図はコードブ
ックの構成図、 第5図は制御点座標テーブルの構成図、第6図(a)、
(b)、(c)は音素符号に対する口画像を示す図、 第7図は瞼領域の形状モデル構成を示す図、第8図(a
)、(b)、(c)は陰影モデル画像の変形の概念を説
明する図、 第9図は平均0.標準偏差1の正規分布を示す図、 第10図は平均m8.標準偏差σ、の正規分布を示す図
、 第11図は乱数値演算要領を示すフローチャート、 第12図はまばたき信号発生部での各部波形を示す図、 第13図は本発明の第2実施例を示すブロック図、 第14図は本発明の第3実施例における正規化コードブ
ックの作成手順を示す図、 第15図は正規化コードブックの構成図、第16図は本
発明の第3実施例における個人用コードブックの作成手
順を示す図、 第17図は本発明の第3実施例を示すブロック図、 第18図は初期化装置のブロック図、 第19図は従来の一般的な画像伝送方式を示す系統図で
ある。 図において、 10は送信部、 11は画像処理部、 12は音声符号化部、 13は音声認識部。 19は背景画メモリ、 20は受信部。 21は音声復号化部、 22は音声認識部、 23Aはフードブック、 23Bは制御点座標メモリ(テーブル)、24Aは口形
モデル変形部(口形モデル画像記憶手段)。 24Bは陰影モデル変形部(瞼形モデル画像記憶手段)
、 25は合成部、 26は音声合成部、 27は補間点計算部、 28はまばたき信号発生部、 29は座標テーブル制御部。 30は初期化装置、 31は特徴点抽出部、 32はパラメータ計算部。 33は正規化コードブックメモリ、 34は乗算部、 35は個人用コードブックメモリ、 280は乱数発生器、 281は標準正規乱数テーブル。 282は第1の乱数変換部、 283は第2の乱数変換部、 284は第1のパルス発生部、 284aはカウンタ。 284bは比較器、 284cはパルス発生器、 285は第2のパルス発生部、 285aはカウンタ、 285bは比較器、 285cはパルス発生器、 286は音声入力検出部、 287はパルス列選択部である。 ツードブ1ワめ講放凹 第4図 刺fJP虐。 怜り卸、化11オ水イープル/la6支し]巨舎瀬域/
l形状七程槙広乞小す図 第7 図 音素工 音素■ 音#:II (b) (C) 冬昔素1;丈寸オろロ山イ家!ホす刀 第6図 平均m+、標譚イ鼎左σ輪正規7分卆乞小す口笛 1゜ 図 S!−均oJ譚(橢井1め正規分布乞がす口第 図 d)数%亘演算91貝ぎ示すフロー手ヤード第 図 、正犬見イヒコードブ7グイ丁〜キP1貝七す固第14
図 正絹、化コードブッグめわIff画 第15図 イ固人用コード°ブ7グイTiマイトlll貝乞ホすロ
第16図 判 slイ ロ
Claims (2)
- (1)初期化時に伝送される少数の初期化データを用い
ることにより、通信中に伝送される音声情報に応じて、
受信側で顔の動画像を合成して表示するものにおいて、 初期化時に、該初期化データとして、発声中および非発
声中における各まばたきの時間間隔の平均値(m_1、
m_2)と標準偏差(σ_1、σ_2)とを伝送し、通
信時には、発声中および非発声中における各まばたきの
時間間隔の平均値(m_1、m_2)と標準偏差(σ_
1、σ_2)とに応じた正規分布に従う時間間隔で、発
声時用パルス列信号(P_1)および非発声時用パルス
列信号(P_2)をそれぞれ発生し、 受信側で、音声入力検出部(286)で検出した検出信
号(S)に応じて、発声中は、該発声時用パルス列信号
(P_1)をまばたき信号として出力するとともに、非
発声中は、該非発声時用パルス列信号(P_2)をまば
たき信号として出力することを特徴とする、顔動画像合
成用まばたき信号発生方式。 - (2)標準の正規分布に従う乱数系列Ui(i=1、2
、3、・・、n;nは十分大きな整数)の値を記憶した
標準正規乱数テーブル(281)と、初期化時に発声中
におけるまばたきの時間間隔の平均値(m_1)と標準
偏差(σ_1)とを受けて、通信が開始されると、該標
準正規乱数テーブル(281)より乱数値Uiを読み出
し、これに所要の変換を施して平均値(m_1)と標準
偏差(σ_1)の正規分布に従う乱数値(X)に変換す
る第1の乱数変換部(282)と、 初期化時に非発声中におけるまばたきの時間間隔の平均
値(m_2)と標準偏差(σ_2)とを受けて、通信が
開始されると、該標準正規乱数テーブル(281)より
乱数値Uiを読み出し、これに所要の変換を施して平均
値(m_2)と標準偏差(σ_2)の正規分布に従う乱
数値(X)に変換する第2の乱数変換部(283)と、 該第1の乱数変換部(282)より乱数値(X)が入力
されると、クロックをカウントし、カウント値が乱数値
(X)の値と等しくなると、パルスを発生し、その後、
該第1の乱数変換部(282)へ制御信号を発生して、
次の乱数値(X)の値を入力し、同じ処理を繰り返す第
1のパルス発生部(284)と、該第2の乱数変換部(
283)より乱数値(X)が入力されると、クロックを
カウントし、カウント値が乱数値(X)の値と等しくな
ると、パルスを発生し、その後、該第2の乱数変換部(
283)へ制御信号を発生して、次の乱数値(X)の値
を入力し、同じ処理を繰り返す第2のパルス発生部(2
85)と、伝送されてきた音声のエネルギーを一定時間
間隔でサンプリングし、そのエネルギーが予め設定され
たしきい値より大きければオンとなり、小さければオフ
となることにより、発声中か非発声中かを検出する音声
入力検出部(286)と、該音声入力検出部(286)
で発声中であることが検出されている間は該第1のパル
ス発生部(284)からのパルス(P1)を出力し、該
音声入力検出部(286)で非発声中であることが検出
されている間は該第2のパルス発生部(285)からの
パルス(P_2)を出力するように切り替わるパルス列
選択部(287)とをそなえて構成されたことを 特徴とする、顔動画像合成用まばたき信号発生方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63168482A JPH0216681A (ja) | 1988-07-05 | 1988-07-05 | 顔動画像合成用まばたき信号発生方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63168482A JPH0216681A (ja) | 1988-07-05 | 1988-07-05 | 顔動画像合成用まばたき信号発生方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0216681A true JPH0216681A (ja) | 1990-01-19 |
Family
ID=15868912
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63168482A Pending JPH0216681A (ja) | 1988-07-05 | 1988-07-05 | 顔動画像合成用まばたき信号発生方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0216681A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0374777A (ja) * | 1989-08-17 | 1991-03-29 | Graphic Commun Technol:Kk | 顔画像合成装置 |
| JPH0795550A (ja) * | 1993-07-15 | 1995-04-07 | Nec Corp | 映像表示装置 |
| JP2002042166A (ja) * | 2000-07-28 | 2002-02-08 | Namco Ltd | ゲームシステム及び情報記憶媒体 |
| JP2003108502A (ja) * | 2001-09-28 | 2003-04-11 | Interrobot Inc | 身体性メディア通信システム |
-
1988
- 1988-07-05 JP JP63168482A patent/JPH0216681A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0374777A (ja) * | 1989-08-17 | 1991-03-29 | Graphic Commun Technol:Kk | 顔画像合成装置 |
| JPH0795550A (ja) * | 1993-07-15 | 1995-04-07 | Nec Corp | 映像表示装置 |
| JP2002042166A (ja) * | 2000-07-28 | 2002-02-08 | Namco Ltd | ゲームシステム及び情報記憶媒体 |
| JP2003108502A (ja) * | 2001-09-28 | 2003-04-11 | Interrobot Inc | 身体性メディア通信システム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5826234A (en) | Device and method for dubbing an audio-visual presentation which generates synthesized speech and corresponding facial movements | |
| US6161091A (en) | Speech recognition-synthesis based encoding/decoding method, and speech encoding/decoding system | |
| JP4087935B2 (ja) | 唇動きパラメータ発生装置 | |
| US5890120A (en) | Matching, synchronization, and superposition on orginal speaking subject images of modified signs from sign language database corresponding to recognized speech segments | |
| JPH02234285A (ja) | 画像合成方法及びその装置 | |
| JPH0823530A (ja) | 音声信号及び映像信号のストリームの処理方法及び装置 | |
| JPS63502303A (ja) | デ−タ整理ワ−ド・テンプレ−トを使用する音声認識システムにおけるワ−ド認識 | |
| EP0890168B1 (en) | Image synthesis | |
| TW307090B (ja) | ||
| EP1974337A2 (en) | Method for animating an image using speech data | |
| CN115761075A (zh) | 脸部图像生成方法及其装置、设备、介质、产品 | |
| CN113724683A (zh) | 音频生成方法、计算机设备及计算机可读存储介质 | |
| JP2667455B2 (ja) | 顔動画像合成システム | |
| JPH0216681A (ja) | 顔動画像合成用まばたき信号発生方式 | |
| JP3299797B2 (ja) | 合成画像表示システム | |
| JP2644789B2 (ja) | 画像伝送方式 | |
| CN117275485B (zh) | 一种音视频的生成方法、装置、设备及存储介质 | |
| CN117115318B (zh) | 口型动画合成方法及装置和电子设备 | |
| KR100229538B1 (ko) | 얼글 움직임을 인코딩하기 위한 방법 및 장치한 방법 및 장치 | |
| JPH01190187A (ja) | 画像伝送方式 | |
| JPH02196585A (ja) | 音声信号通信装置 | |
| Hasegawa et al. | Oral image to voice converter-image input microphone | |
| JPH01190188A (ja) | 画像伝送方式 | |
| EP4693280A1 (en) | Voice signal decoding method and apparatus, and electronic device | |
| Chen et al. | Audio visual interaction in multimedia |