JPH10247254A

JPH10247254A - 唇動きパラメータ発生装置

Info

Publication number: JPH10247254A
Application number: JP34757997A
Authority: JP
Inventors: Min-Sup Lee; 敏燮李
Original assignee: Daewoo Electronics Co Ltd
Current assignee: WiniaDaewoo Co Ltd
Priority date: 1996-12-30
Filing date: 1997-12-17
Publication date: 1998-09-14
Anticipated expiration: 2017-12-17
Also published as: CN1167276C; GB2320838A; JP4087935B2; CN1189059A; GB2320838B; US6014625A; GB9725873D0

Abstract

(57)【要約】【課題】３次元モデルベース符号化システムにおけ
る個々人の唇動きパラメータを効率的に発生し得る唇動
きパラメータ発生装置を提供する。【解決手段】人の音声信号から音節を認識して、認
識音節及び選択信号を発生する音声認識部３０と、映像
信号から人の実唇映像を取出す映像分割部２０と、人に
対する特徴的な３次元唇モデルを発生する３次元モデル
発生部５０と、特徴的な３次元唇モデルを特徴的な２次
元唇モデルに変換し、特徴的な２次元唇モデルと実唇映
像とを比較して回転角度を計算して、回転された２次元
唇モデル及び回転角度を発生する回転角度計算部６０
と、音節に基づいて回転された２次元唇モデルを再構成
して、再構成２次元唇モデルを発生する唇再構成部３５
と、唇動きパラメータ、音声信号及び回転角度を復号化
器に伝送するＭＵＸ７５とを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、顔面表現情報を符
号化する装置に関し、特に、３次元モデルベース符号化
システムにおける唇動きパラメータを発生する唇動きパ
ラメータ発生装置に関する。

【０００２】

【従来の技術】通常、テレビ電話、電子会議及び高精細
度テレビジョンシステムのようなディジタルビデオシス
テムにおいて、映像フレーム信号内の映像ライン信号が
「画素」と呼ばれる一連のディジタルデータからなって
いるため、各映像フレーム信号を表現するのには大量の
ディジタルデータが必要である。

【０００３】しかしながら、通常の伝送チャネル上の利
用可能な周波数帯域幅は制限されているので、そのチャ
ネルを通じて大量のディジタルデータを伝送するために
は、特に、人間の形状をチャネルを通じて伝送するテレ
ビ電話及び電子会議のような低ビットレートの映像信号
符号化器の場合、様々なデータ圧縮技法を用いて伝送す
べきデータの量を圧縮するか減らさなければならない。

【０００４】映像符号化システムにおいては、通常、連
続的に変化する画素から構成される映像が伝送される。
しかし、３次元モデルベース符号化システムにおいて
は、特定の動きパラメータが映像から取出されて、受信
端に伝送される。受信端においては、映像（例えば、顔
面映像）を再構成するためには、伝送された動きパラメ
ータが、以前に受信端に伝送された人の基本的な顔面の
形状及び頭に対する一般的な３次元モデルのようなデー
タと組み合せられる。

【０００５】テレビ電話及び電子会議システムにおい
て、ビデオ映像は、主に、頭及び肩の画面（即ち、人間
の上体）から構成される。さらに、視聴者が最も感心を
持つ対象物は人間の顔であるだろうから、視聴者は、特
に、人間が映像画面内で話している場合に、背景画面ま
たは他の詳細なものに対して動いている部分(即ち、
唇、顎及び頭等)を有する人間の口元に注目するはずで
ある。従って、顔面形状に対する一般的な情報のみが伝
送される場合、デジタルデータの量が非常に減少され得
る。

【０００６】３次元モデルベース符号化システムにおい
て、口の形状、特に、唇の形状は、顔面の重要な視覚情
報を有する。人間のメッセージ及び感情は、唇の形状に
よって良く伝達され得る。

【０００７】図１を参照すると、デジタル映像を符号化
する従来の唇動きパラメータ発生装置１００の概略的な
ブロック図が示されている。

【０００８】唇映像取出部１０１は、顔面の映像のよう
なデジタル入力信号から予め定められた特徴部分（例え
ば、口元）に対応する画素の信号を取出して、各特徴信
号を、位置情報検出部１０５及び形状情報検出部１２０
に、各々、供給する。

【０００９】位置情報検出部１０５は、特徴部分を構成
する個人的要素の実際位置（例えば、上部及び下部の
唇）を探索して、位置情報表示部１２５に供給する。

【００１０】位置情報表示部１２５は、実際位置を絶対
座標に変換する。

【００１１】形状情報検出部１２０は、特徴部分の構成
要素の形状を分析し、構成要素の終端点及び中心点の適
切な特徴点を検出して、これを形状情報表示部１３０に
伝送する。

【００１２】形状情報表示部１３０は、特徴点の座標を
検出し、口の大きさと、口の映像などの形状を表す相関
値とを表す２つの終端点の間の長さの出力パラメータを
計算する。

【００１３】しかし、個々の人間は異なる唇の形状を有
するので、新たな映像が入力される場合、上記装置は適
切に動作しない。従って、３次元唇モデルが個々人の実
際唇映像に最適に近似化されるように変換する必要があ
る。

【００１４】

【発明が解決しようとする課題】従って、本発明の主な
目的は、３次元モデルベース符号化システムにおける個
々人の唇動きパラメータを効率的に発生し得る唇動きパ
ラメータ発生装置を提供することにある。

【００１５】

【課題を解決するための手段】上記の目的を達成するた
めに、本発明によれば、実唇映像が連続的に変化するデ
ィスプレーされる人の唇の映像を表す時、３次元のモデ
ルベース符号化システムにおける音声信号及び映像信号
を用いて、前記実唇映像と２次元の変換唇モデルとの間
の距離である唇動きパラメータを発生する唇動きパラメ
ータ発生装置であって、前記人の音声信号から音節を認
識して、認識音節及び選択信号を発生する音節認識手段
と、前記映像信号から前記人の実唇映像を取出す実際唇
映像取出手段と、無表情で黙っている人の正顔面を表す
基本的な顔面映像、前記人の基本的な唇の位置、及び一
般的な３次元唇モデルを用いて、前記人に対する特徴的
な３次元唇モデルを発生する３次元唇モデル発生手段
と、前記特徴的な３次元唇モデルを特徴的な２次元唇モ
デルに変換し、前記特徴的な２次元唇モデルと前記実唇
映像とを比較して、回転角度を計算して、回転された２
次元唇モデル及び前記回転角度を発生する変換手段と、
前記音節に基づいて前記回転された２次元唇モデルを再
構成して、再構成２次元唇モデルを発生する再構成手段
と、前記唇動きパラメータ、前記音声信号及び前記回転
角度を復号化器に伝送する伝送手段とを含むことを特徴
とする唇動きパラメータ発生装置が提供される。

【００１６】

【発明の実施の形態】以下、本発明の好適実施例につい
て図面を参照しながらより詳しく説明する。

【００１７】図２を参照すると、本発明による唇動きパ
ラメータを発生する唇動きパラメータ発生装置２００の
ブロック図が示されている。ここで、唇動きパラメータ
は、実唇映像と変換された２次元唇モデルとの間の差分
を表し、実際唇は、連続的に変化するスクリーン上にデ
ィスプレーされる人間の唇の映像である。

【００１８】最初、一旦通信チャネルが接続されると、
基本的な顔面映像発生部４０及び基本唇位置発生部４５
から、人間の基本的な顔面映像及び基本唇の位置が、人
間の全体的な顔面の映像を再構成するために、受信端の
復号化器にただ一度伝送される。ここで、基本的な顔面
映像は、無表情で黙っている人の正顔面である。

【００１９】その後、音声信号が、マイクロホン(図示
せず)からラインＬ１０を介してＡ／Ｄ変換器１０及び
ＭＵＸ７５に各々入力され、映像信号は、カメラ（図示
せず）から映像分割部２０に供給される。

【００２０】Ａ／Ｄ変換器１０は、音声信号をデジタル
化音声信号に変換して、それを音声認識部１５に伝達す
る。同時に、映像分割部２０は、映像の光分布を用いた
従来の分割方法を用いて、本発明の好適実施例による予
め定められた特徴部分の例である実唇映像のエッジを取
出し、ラインＬ２０を介して、唇の境界を表す輪郭線及
び輪郭線の内部情報を、回転角度計算部６０及び唇動き
計算部７０に、各々、供給する。

【００２１】然る後、音声認識部１５は、本特許出願と
出願人を同じくする米国特許出願番号第5，675，705号
明細書に「SPECTROGRAM−FEATURE−BASED SPEECH SYLLA
BLE AND WORD RECOGNITION USING SYLLABLE LANGUAGE D
ICTIONARY」との名称で開示されているように、従来の
音声認識方法を用いて、デジタル音声信号から音節を取
出して、その音節を音声認識部30に供給する。さらに、
音声認識部15は、時間軸及び周波数軸に沿って音節のエ
ネルギー量が人が話していることを表す予め定められた
閾値より大きくなった場合は、第１選択信号をスイッチ
６５に、そのエネルギー量が人が感情を表現することを
表す予め定められた閾値以下になった場合は、第２選択
信号を、スイッチ６５に、各々、供給する（米国特許出
願番号第5，675，705号、参照）。

【００２２】音声認識部３０は、上記引用特許に開示さ
れたように、従来の音声認識方法を用いて、音声認識部
１５から入力された音節を認識し、その音節を唇再構成
部３５に供給する。

【００２３】一方、基本的な顔面映像発生部４０及び基
本唇位置発生部４５は、基本的な顔面映像及び基本的な
顔面の唇の位置情報を基本的唇整合部５５に、各々、供
給する。その後、頭に対する一般的な３次元モデルを有
する３次元モデル発生部５０が、３次元モデルの唇領域
を基本的唇整合部５５に供給する。ここで、唇動きパラ
メータ発生装置２００に対する３次元唇モデルは、図３
Ａに示した複数の多角形と接続される網形状におけるワ
イヤーフレームの３次元コンピュータグラフィックとし
て格納される。

【００２４】基本的唇整合部５５は、後述する方法を用
いて、３次元モデルの唇を人間の基本的な唇に整合さ
せ、その整合結果を個々人に対応する特徴的な３次元唇
モデルとして回転角度計算部６０に供給する。

【００２５】図３Ａ及び図３Ｂは、３次元唇モデル２０
０を個人の基本唇映像３００に整合させるためのプロセ
スである。最初、図３Ａに示したように、３次元唇モデ
ル２００の輪郭線上に位置した各点（例えば、３次元唇
モデルの左端点及び右端点）２１、２３)、３次元唇モ
デルの上部領域内の両尖頭点（４１、４３）、及び３次
元唇モデルの中心領域を長手方向に横切る３つの点（３
１、３５、３７）のうち、最も明確な特徴点が、最優先
順位を有する特徴点として選択される。しかる後、図３
Ｂに示したように、３次元唇モデル２００と基本唇映像
３００との間の最も類似な領域を、各特徴点に対して、
正規探索範囲内で探索し、その特徴点を基本唇映像３０
０の輪郭線上に移動させる。続いて、３次元唇モデルの
輪郭線が、移動された特徴点に基づいて再構成される。
残余の特徴点に対して、再構成３次元唇モデルの輪郭線
上の点と基本唇の近似領域の点との間の距離が、予め定
められた閾値より大きい場合、上記方法が反復的に行わ
れる。

【００２６】回転角度計算部６０は、基本的唇整合部５
５からの特徴的な３次元唇モデルを特徴的な２次元唇モ
デルに変換し、従来の方法（例えば、アフィン変換方
法）を用いて、映像分割部２０から入力された実唇映像
を特徴的な２次元唇モデルと比較することによって回転
角度を計算し、その回転角度をＭＵＸ７５に供給する。
その後、回転角度によって回転された２次元唇モデル
を、唇再構成部３５及びスイッチ６５に、各々、供給す
る。

【００２７】唇再構成部３５は、音声認識部３０にて認
識音節に基づいて規則的な比率で、回転角度計算部６０
からの回転された２次元唇モデルの形状を、拡大するか
縮小させ、その結果を再構成２次元唇モデルとしてスイ
ッチ６５に供給する。

【００２８】図４は、音声認識部３０にて認識された基
本的音声音節による複数の代表的な唇表現パターンであ
る。ここで、基本的音声音節は、人間音声システムによ
って７つの可能な領域から求められる。例えば、「ａ」
音が音声認識部３０で認識される場合は、回転された２
次元唇モデルが、唇再構成部３５の左右方向より上下方
向に拡張する。人の話している場合は、２次元唇モデル
が、認識音節を用いて実唇映像に近接されて、符号化過
程におけるデータの量を非常に減少させることができ
る。図４において、閉鎖音節は子音で終了される音節を
意味する。

【００２９】スイッチ６５は、音声認識部１５から入力
される第１選択信号に応じて、唇再構成部３５からの再
構成２次元唇モデル、または音声認識部１５から入力さ
れる第2選択信号に応じて、回転角度計算部６０からの
回転された２次元唇モデルのうちの何れか１つを選択し
て、選択した２次元唇モデルを唇動き計算部７０に供給
する。

【００３０】唇動き計算部７０は、図５に示した次のパ
ラメータ（即ち、２次元唇モデルの両終端点の右左動き
パラメータ）（Ｌ１、Ｌ２）、２次元唇モデルの中心領
域内の最上位点及び最下位点の上下動きパラメータ（Ｌ
３、Ｌ４）、２次元唇モデルの中心領域内の最上位点及
び最下位点の前後方動きパラメータ（Ｌ５、Ｌ６）、２
次元唇モデルの終端点の上下動きパラメータ（Ｌ７、Ｌ
８））に対して、人が話している場合に対応する実唇映
像及び再構成２次元唇モデルとの間の動きの量、または
人が感情を表現する場合に対応する実唇映像と回転され
た２次元唇モデルとの間の動きの量を計算して、その動
きの量を動きパラメータとして、ＭＵＸ７５に供給す
る。唇動きパラメータは、予め定められた計算範囲（例
えば、−１より１まで）内で選択され、中間値「０」
は、２次元唇モデルに対応する実唇映像を意味する。

【００３１】ＭＵＸ７５は、唇動きパラメータ、音声信
号、及び回転角度を多重化して、それを受信端の復号化
器に伝送する。

【００３２】受信端の復号化器は、受信端の第１段にお
いて、その自体の３次元唇モデルと伝送された基本的な
顔面映像の写しとを組合せて、基本的な顔面に対する３
次元唇モデルの写しを発生する。続いて、３次元唇モデ
ルが２次元唇モデルに変換される。然る後、伝送データ
ストリームにおいて、回転角度及び音声信号によって、
２次元唇モデルが唇動きパラメータ発生装置２００にお
ける回転角度計算部６０及び唇再構成部３５と同様な方
法にて回転され再構成される。最後、唇動きパラメータ
が、２次元唇モデルに加算されて、実際顔面の映像の写
しを構成する。

【００３３】上記において、本発明の好適な実施の形態
について説明したが、本発明の請求範囲を逸脱すること
なく、当業者は種々の改変をなし得るであろう。

【００３４】

【発明の効果】従って、本発明によれば、３次元モデル
ベース符号化システムにおける個々人の唇動きパラメー
タを効率的に発生することができる。

【図面の簡単な説明】

【図１】デジタル映像を符号化するための従来の唇動き
パラメータ発生装置のブロック図。

【図２】本発明による個々人の唇動きパラメータ発生装
置のブロック図。

【図３】Ａ及びＢよりなり、Ａ及びＢは、各々、本発
明によって個々人の基本唇映像の３次元唇モデルへの整
合を説明するための模式図。

【図４】本発明の音節による複数の唇パターンを示す模
式図。

【図５】本発明による複数の唇動きパラメータを示す模
式図。

【符号の説明】

１０Ａ／Ｄ変換器１５音声認識部２０映像分割部３０音声認識部３５唇再構成部４０基本的顔面映像発生部４５基本的唇位置発生部５０３次元モデル発生部５５基本的唇整合部６０回転角度計算部６５スイッチ７０唇動き計算部７５マルチプレクサ（ＭＵＸ）１００唇動きパラメータ発生装置１０１唇映像取出部１０５位置情報検出部１２０形状情報検出部１２５位置情報表示部１３０形状情報表示部２００唇動きパラメータ発生装置３００基本唇映像

Claims

【特許請求の範囲】

【請求項１】実唇映像が連続的に変化するディス
プレーされる人の唇の映像を表す時、３次元のモデルベ
ース符号化システムにおける音声信号及び映像信号を用
いて、前記実唇映像と２次元の変換唇モデルとの間の距
離である唇動きパラメータを発生する唇動きパラメータ
発生装置であって、前記人の音声信号から音節を認識して、認識音節及び選
択信号を発生する音節認識手段と、前記映像信号から前記人の実唇映像を取出す実際唇映像
取出手段と、無表情で黙っている人の正顔面を表す基本的な顔面映
像、前記人の基本的な唇の位置、及び一般的な３次元唇
モデルを用いて、前記人に対する特徴的な３次元唇モデ
ルを発生する３次元唇モデル発生手段と、前記特徴的な３次元唇モデルを特徴的な２次元唇モデル
に変換し、前記特徴的な２次元唇モデルと前記実唇映像
とを比較して、回転角度を計算して、回転された２次元
唇モデル及び前記回転角度を発生する変換手段と、前記音節に基づいて前記回転された２次元唇モデルを再
構成して、再構成２次元唇モデルを発生する再構成手段
と、前記唇動きパラメータ、前記音声信号及び前記回転角度
を復号化器に伝送する伝送手段とを有することを特徴と
する唇動きパラメータ発生装置。
【請求項２】前記認識手段が、前記音声信号をデジタル音声信号に変換する音声信号変
換手段と、前記デジタル音声信号から音節を認識する音声認識手段
と、時間軸及び周波数軸に沿って前記認識音節のエネルギー
の量が、予め定められた閾値より大きくなる場合、第１
選択信号を、前記認識音節のエネルギーの量が予め定め
られた閾値以下の場合、第２選択信号を、各々、発生す
る選択信号発生手段とを有することを特徴とする請求項
１に記載の唇動きパラメータ発生装置。
【請求項３】前記実際唇映像取出手段が、分割方法
を用いることを特徴とする請求項２に記載の唇動きパラ
メータ発生装置。
【請求項４】前記３次元唇モデル発生手段が、前記３次元唇モデルの輪郭線上で複数の特徴点を選択し
て、各特徴点に優先順位を割当てる特徴点選択手段と、正規探索範囲内で、前記３次元唇モデルと前記基本的な
唇映像との間の最も類似な領域を探索して、前記各特徴
点を前記基本的な唇映像の輪郭線上に移動させる特徴点
移動手段と、前記移動された特徴点に基づいて、前記３次元唇モデル
の輪郭線を再構成する輪郭線再構成手段と、前記再構成３次元唇モデルの点と前記基本的な唇映像の
最も類似な領域の点との間の距離が、予め定められた閾
値より大きい場合、残余の特徴点に対して、前記特徴点
移動手段、及び前記輪郭線再構成手段を反復的に適用す
る反復手段とを有することを特徴とする請求項３に記載
の唇動きパラメータ発生装置。
【請求項５】前記特徴点が、前記３次元唇モデルの左端点及び右端点と、前記３次元唇モデルの上部領域における尖頭点と、前記３次元唇モデルの前記輪郭線上に位置する点のうち
の前記３次元唇モデルの中心領域を長手方向で横切る点
とを有することを特徴とする請求項４に記載の唇動きパ
ラメータ発生装置。
【請求項６】前記再構成２次元唇モデルが、７つの
基本的音声音節に基づいて再構成されることを特徴とす
る請求項５に記載の唇動きパラメータ発生装置。
【請求項７】前記回転角度が、アフィン変換技法を
用いて計算されることを特徴とする請求項６に記載の唇
動きパラメータ発生装置。
【請求項８】前記伝送手段が、予め定められた計算範囲内で、前記実唇映像と、前記３
次元唇モデル発生手段からの前記第１選択信号に応じる
前記再構成２次元唇モデル、及び前記３次元唇モデル発
生手段からの前記第２選択信号に応じる前記回転された
２次元唇モデルのうちの何れか１つとの間の動きの量を
計算して、前記唇動きパラメータを発生する動き量計算
手段と、前記唇動きパラメータ、前記音声信号及び前記回転角度
を多重化する多重化手段とを有することを特徴とする請
求項７に記載の唇動きパラメータ発生装置。
【請求項９】前記唇動きパラメータが、前記２次元唇モデルの左端点及び右端点共の上下動きパ
ラメータ及び左右動きパラメータと、前記２次元唇モデルの中央領域における最上位点及び最
下位点の上下動きパラメータ及び前後方動きパラメータ
とを有することを特徴とする請求項８に記載の唇動きパ
ラメータ発生装置。
【請求項１０】前記予め定められた計算範囲が、−
１より１までであることを特徴とする請求項９に記載の
唇動きパラメータ発生装置。