JP2013149251A - 顔の口をアニメーション化するコンピュータ実施方法及び装置 - Google Patents

顔の口をアニメーション化するコンピュータ実施方法及び装置 Download PDF

Info

Publication number
JP2013149251A
JP2013149251A JP2013006090A JP2013006090A JP2013149251A JP 2013149251 A JP2013149251 A JP 2013149251A JP 2013006090 A JP2013006090 A JP 2013006090A JP 2013006090 A JP2013006090 A JP 2013006090A JP 2013149251 A JP2013149251 A JP 2013149251A
Authority
JP
Japan
Prior art keywords
visual
phoneme
computer
visual phoneme
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013006090A
Other languages
English (en)
Other versions
JP5529299B2 (ja
Inventor
Knothe Reinhard
ラインハルト・クノーテ
Vetter Thomas
トーマス・フェッター
Ajaj Rami
ラミ・アジャジ
Michael Fahrmair
ミヒャエル・ファールマイアー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2013149251A publication Critical patent/JP2013149251A/ja
Application granted granted Critical
Publication of JP5529299B2 publication Critical patent/JP5529299B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/20Three-dimensional [3D] animation
    • G06T13/205Three-dimensional [3D] animation driven by audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法を提供する。
【解決手段】フェイスモデルにより顔をグラフィックで表現するステップと、複数のV個の可能な視覚音素の各々に、その視覚音素の複数のI個の異なるスキャン又はサンプルを測定により取得するステップと、上記フェイスアニメーションモデルにより上記複数のV個の異なる視覚音素の各々の上記複数のI個の各サンプルを表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、上記視覚音素空間に広がる上記スキャン又はサンプルに基づいて行列を生成する、表現するステップと、ベイズ手法を適用して、上記所与の視覚音素シーケンスの上記視覚音素空間を通る最良のパスを取得する、適用するステップと、を含む、所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法。
【選択図】なし

Description

本発明は、顔の口をアニメーション化するコンピュータ実施方法及び対応する装置に関する。
一実施の形態では、本発明は、人のような仮想アバターの分野に関する。より詳細には、本発明は、発話アバター(speaking avatar)の口アニメーションの現実性及び自然性を増大させる。そのような人のようなアバターは、オンライン仮想アシスタント、仮想教師、パーソナルアバター(例えば、ビデオチャットで人物に取って代わる)、そして更に多くのものとすることができる。
キャラクタのアニメーション化は、コンピュータグラフィックス領域での困難な技術分野である。キャラクタのアニメーション化は、アニメーション化された動画を生成する際に使用されるが、動画のみならず、いわゆるアバターをアニメーション化する際にも使用することができる。
仮想アバターは、オンラインアシスタント又はe−教師等の多くの用途で広く使用されている。仮想アバターは、発話及び体の動きを通じてそれ自体を表現して、情報を現実的な方法で伝える。アニメーションの表現性及び自然性により、これらのアバターはユーザから高く評価されるようになる。したがって、ユーザは、サービスが自然で良質なアバターを提供する場合、そのサービスの使用を高く評価する。
自然な発話表現を提供するためには、唇(すなわち、発話の視覚的部分)は発話(すなわち、音声)と同期しなければならず、自然にアニメーション化されなければならない。このプロセスは通常、2つのステップで行われる:
・視覚音素(viseme)に対応するキーフレーム(すなわち、意味を区別する音の最小単位である視覚的な音素(visual phonene))を定義する、
・キーフレーム間のアニメーションを補間又は実行する。
キーフレームの定義及び音声との同期は、音声と視覚とのいかなる不連続性も回避するために重要である。第2のステップは、信頼性が高く自然なアニメーションを提供し、いかなる視覚的な不連続性も回避するためにも重要である。これらの不連続性(すなわち、音声と視覚との不連続性及び視覚的な不連続性)は、アバターの現実性レベル及び自然性を低下させ、ユーザを困惑させる。これは、自然ではないアバターを使用する場合、ユーザによるサービスの使用回避に繋がり得る。
顔のアニメーションは数年来、活発な研究分野であり、大規模な調査については、Deng及びNoh「Computer Facial Animation: A Survey」、(Deng及びNeumann「Data-Driven 3D Facial Animation」掲載)を参照のこと。既存の解決策は、ヒューリスティック手法、サンプルベースの手法、及び学習ベースの手法に分類することができる。
ヒューリスティック手法は、手動で作成された視覚音素形状及び経験的な平滑化関数を使用する。サンプルベースの手法は、「トライフォンビデオセグメント」を取得して使用し、同時調音をモデリングする。
学習ベースの手法は、データから視覚音素及び同時調音を学習する。例えば、BrandはHMMベースモデルを使用する(Brand、「Voice pupperty」、SIGGRAPH 99、参照)。Ezzat、Geiger及びPoggio「Trainable videorealistic speech animation」、ACM Trans.Graph.,388-398,2002、では、多次元モーフィングモデルを使用する。視覚音素ごとに1スキャンを使用する視覚音素モデルを使用することが、例えばV.Blanz、C.Basso、T.Poggio及びT.Vetter、「Reanimating Faces in Images and Video」、EUROGRAPHICS 2003、に開示されている。Deng、Neumann、Lewis、Kim、Bulut、Narayanan、「Expressive facial animation synthesis by learning speech co-articulations and expression spaces」、IEEE Transaction on Visualization and Computer Graphics,2006、では、同時調音モデルの学習が開示されている。
本発明の目的は、発話アバターの口のアニメーションの現実性及び自然性を増大させるように口のアニメーションを改良することである。そのような人のようなアバターは、オンライン仮想アシスタント、仮想教師、パーソナルアバター(例えば、ビデオチャットで人物に取って代わる)、そして更に多くのものとすることができる。
本発明の一実施の形態によれば、所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法であって、
フェイスモデルにより前記顔をグラフィックで表現するステップと、
複数のV個の可能な各視覚音素に、該視覚音素の複数のI個の異なるスキャン又はサンプルを測定により取得するステップと、
前記フェイスアニメーションモデルにより前記複数のV個の異なる各視覚音素の前記複数のI個の各サンプルを表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、前記視覚音素空間に広がる前記スキャン又はサンプルに基づいて行列を生成する、表現するステップと、
ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得する、適用するステップと、
を含む、所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法が提供される。
このようにして、視覚音素表現の生じ得る変動性を考慮に入れることができ、それにより、より自然なアニメーションが達成される。
一実施の形態によれば、前記方法は、前記行列に基づいて主成分解析を実行して、前記複数の各視覚音素の前記主成分を取得する、実行するステップと、
前記サンプルに基づいて、前記フェイスアニメーションモデル内の前記複数のV個の各視覚音素の前記統計学的変動性を表す統計学的モデルを生成するステップと、
前記視覚音素空間を通る前記軌跡の平滑性の確率的表現により、或る視覚音素表現の前記事前確率を表現するステップと、
前記事前確率及び前記統計学的モデルに基づいて、前記ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得する、適用するステップと、
を更に含む。
統計学的モデル及び平滑性基準により、ベイズモデルの適用及び実施が可能である。
一実施の形態によれば、前記複数のI個のサンプルは、異なる被写体により話された或る視覚音素のサンプルであるか、又は
前記複数のI個のサンプルは、異なる言葉に属するか又は一人の対象が異なる時点において話した或る視覚音素のサンプルである。
これにより、視覚音素の変動性をモデルで考慮することが可能である。
一実施の形態によれば、視覚音素vについて位置合わせされた人物iのスキャンがxviとして示され、対応するニュートラルフリースキャン
は、同じ個人Iのニュートラルスキャン
を差し引くことにより計算され、全ての視覚音素の前記ニュートラルフリースキャンが前記データ行列に積み重ねられる。
これは、視覚音素形状を抽出し、形状へのニュートラルスキャンの影響をなくす。
一実施の形態によれば、前記フェイスアニメーションモデル内のスキャンされた前記各視覚音素の前記変動性を記述する統計学的モデルを取得するステップは、
により特定の視覚音素vの全てのスキャンiを前記フェイスアニメーションモデルに射影するステップと、
好ましくは再びPCAを使用して、前記データポイントに多変数正規分布をフィッティングするステップと、
を含む。
これにより、統計学的モデルの実施が可能になる。
一実施の形態によれば、前記各視覚音素の前記統計学的モデル
は、前記FAM
内の平均、成分の(列)正規直交行列B、及び加重diag(σ)により定義される。
一実施の形態によれば、時点tにおける視覚音素
のリスト
をアニメーション化する場合、前記アニメーションは、フェイスアニメーションモデル
を通じて平滑な軌跡をフィッティングすることにより生成され、前記フェイスアニメーションモデルは、頂点空間内で形状シーケンス
を定義する。
これにより、最適な軌跡の導出が可能になる。
一実施の形態によれば、前記視覚音素リストを所与とした前記軌跡の確率
は、前記軌跡を所与とした前記視覚音素リストの確率
に比例する。
これはベイズ理論の実施である。
一実施の形態によれば、前記軌跡を所与とした前記視覚音素リストの確率は、
これにより、確率分布の実施が可能になる。
一実施の形態によれば、
である。
一実施の形態によれば、前記確率を最大化するために、前記費用関数
は最小化される。
一実施の形態によれば、所与の視覚音素シーケンスに従って顔の口をアニメーション化する装置であって、
フェイスモデルにより前記顔をグラフィックで表現するモジュールと、
複数のV個の可能な各視覚音素に、該視覚音素の複数のI個の異なるスキャン又はサンプルを測定により取得するモジュールと、
前記フェイスアニメーションモデルにより前記複数のV個の異なる各視覚音素の前記複数のI個の各サンプルを表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、前記視覚音素空間に広がる前記スキャン又はサンプルに基づいて行列を生成するモジュールと、
ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得するモジュールと、
を備える、所与の視覚音素シーケンスに従って顔の口をアニメーション化する装置が提供される。
このようにして、本発明の一実施形態による装置を実施することができる。
一実施形態によれば、方法が提供され、本発明の実施形態の1つによる方法を実行するモジュールを備える装置が提供される。
一実施の形態によれば、コンピュータで実行されると、前記コンピュータが本発明の実施の形態のうちの1つによる方法を実行できるようにするコンピュータ実行可能なコードを含むコンピュータプログラムが提供される。
本発明の実施形態を概略的に示す図である。 本発明の実施形態を概略的に示す図である。 本発明の実施形態を概略的に示す図である。 本発明の実施形態を概略的に示す図である。
以下、本発明の幾つかの実施形態について説明する。
一実施形態によれば、発話に従ってアバターの口をアニメーション化する方法は、
・視覚音素ごとに1組の可能な形状を取得し、
・動きの成分を通じて、視覚音素空間内の全ての視覚音素について全ての可能な口の動きを生成することができる生成統計学的モデルであるフェイスアニメーションモデル(FAM)を作成する、
・FAM視覚音素空間内の視覚音素間で統計的に最良のパスを見つける、
である。
視覚音素ごとに複数の形状を作成することにより、各視覚音素の表現に柔軟性が提供される。実際には、視覚音素の表現は、異なる事例で(例えば、人ごと、かつ、言葉ごとに)異なり得る。したがって、視覚音素ごとのこのより広い1組の形状によって、より大きな1組の可能性を有することができる。
視覚音素は異なる方法で表現することができるため(すなわち、異なる値を仮定する視覚音素空間内の成分による僅かな違いを有する)、最も適切に表現された視覚音素(成分の「最良値」)を識別する選択を行う必要がある。それを達成するために、生成統計学的モデルが作成される。このモデル(すなわち、FAM)は、視覚音素の全ての可能な形状間の全ての可能な口の動きを生成可能である。これは、フェイスアニメーションモデルを作成するステップにおいて作成された形状セットに基づいて、全ての可能な口の動きを含む空間として視覚化することができる。FAMの作成後、次のステップは、シーケンスの個々の視覚音素を表す形状間を自然に補間するために、この空間内の最良パスを見つけることである。
視覚音素ごとに1つの形状を使用するこれまでの手法とは対照的に、この手法では、各視覚音素の口形状の統計学的3Dモデルが使用される。このモデルは、異なる被写体(又は別の実施形態では、同じ視覚音素を含む異なる言葉)にわたる特定の視覚音素の口形状の変動性を符号化する。この手法の主要な利点は、はるかに自然な口のアニメーション化が可能なことである。一実施形態によれば、これにより、時点tにおいて抽出された視覚音素に属する口形状の尤度と、軌跡の平滑性についての先験的仮定とをトレードオフして、ベイズ手法を使用してキーフレーム間を補間することができる。
以下、更なる実施形態について幾らかより詳細に説明する。
以下に説明される実施形態は、モーフィングモデル(MM)と呼ばれ、V.Blanz及びT.Vetter、「A Morphable Model for the Synthesis of 3D Faces」、SIGGRAPH 99,187-194、に記載されている特定の3Dフェイスモデルを利用する。しかし、視覚音素がその視覚音素を表す個々の成分からなる視覚音素空間内にアニメーション化された視覚音素を表すことが可能な任意のモデルを使用することができる。
この実施形態では、特定の人物の口(歯を含む)の現実的でもっともらしいアニメーションを生成可能なフェイスアニメーションシステムについて説明する。口の動きのために、データから学習される口形状の統計学的モデル(すなわち、13個の各視覚音素に1つの統計学的モデル)が使用される。
このために、幾つかのステップが実行される。
第1のステップにおいて、視覚音素が獲得又は取得される。
視覚音素は、既知のスキャン装置を用いて取得される。一実施形態によれば、アイデンティティ(identity)ごと(すなわち、人物ごと)に、16個のスキャン(13個の視覚音素及び基準として口が閉じられた状態での3つのニュートラルスキャン)が取得される。実施形態では、12のアイデンティティの視覚音素がスキャンされ、合計で192のスキャンが得られる。スキャン又は人物の数に他の値を選ぶことも同様に可能である。
次のステップにおいて、フェイスアニメーションモデルが生成される。フェイスアニメーションモデル(FAM)は、全ての視覚音素の全ての可能な口の動きを生成可能な生成統計学的モデルである。FAMはモーフィングモデル(MM)と一緒に使用される:MMは、アイデンティティを符号化し、3D再構築の計算に使用される。FAMは、口の動きを符号化し(アイデンティティに影響を及ぼさない)、フェイスアニメーションに使用される。
FAMを完了するために、まず、スキャンを対応させ、これは、この例で図1の3行目に示されるように、全てのスキャンの共通パラメータ化(すなわち、共通メッシュ)を定義する。図1は、3つのアイデンティティ(1列目、2列目、3列目のそれぞれ)の視覚音素aoの幾つかのスキャン例を示す。2列目は未処理スキャンを示し、3列目は処理済みデータを示す。
視覚音素vの人物iの位置合わせされたスキャンがxviとして示され、対応するニュートラルフリースキャン
は、同じ個人iのニュートラルスキャン
を差し引くことにより計算される。全ての視覚音素のニュートラルフリースキャンがデータ行列
に積み重ねられる。
モデルの成分を計算するために、主成分解析(PCA)が1組のスキャン例に対して使用される。
式中、成分V=[v,...,v]は(列)正規直交成分であり、Wは対角成分であり、σiv=w/√nであり、式中、nはスキャン数である。結果として生成される、データから学習されるモデルは図2において視覚化される。
上述したように、フェイスアニメーションモデルFAMはMMと一緒に使用される:各アニメーション化顔形状
は、MM平均μ、単位成分uの線形結合(MM及びフィッティングにより与えられる)、及びアニメーションの成分の線形結合(加重σivとともに前に計算されたv)として表現される。次に、各形状が、単位系数α及びそのアニメーション係数βにより符号化される。
次のステップにおいて、発話アニメーションの場合、フェイスアニメーションモデル内でスキャンされた13個の各視覚音素の変動性を記述する統計学的モデルが取得される。そのようなモデルを計算するために、特定の視覚音素vの全てのスキャンiがFAMに射影され、
再びPCAを使用して、データポイントに多変数正規分布がフィッティングされる。各視覚音素の統計学的モデル
は、FAM
内の平均、成分の(列)正規直交行列B、及び加重diag(σ)により定義される。そのような視覚音素モデルの例は図3に見ることができ、図3は、視覚音素ao(上)及びf(下)の視覚音素モデル例を示す。
このようにして、視覚音素の視覚音素空間の成分の「確率分布」を取得することができる。そうして得られた統計学的モデルは、上記サンプルに基づいて上記フェイスアニメーションモデル内で複数のV個の視覚音素のそれぞれの統計学的変動性を表す。
以下、一実施形態によるアニメーションについて説明する。
この実施形態では、視覚音素取得時に得られたタイミング情報を視覚音素モデルと共に使用して、事前に記録された音ファイルに従って画像アニメーションをレンダリングする。このタイミング情報は、書かれた言葉に基づいて、又は何らかの方法で得られた連結された視覚音素のみに基づいて導出された視覚音素シーケンスのレンダリングにも同様に使用することができる。
発話解析の出力は、時点tにおける視覚音素
のリスト
である。アニメーションは、FAM
を通じて平滑な軌跡をフィッティングすることにより生成され、このFAMは、頂点空間内で形状シーケンス
を定義する。
フィッティングはベイズ手法を使用して行われる。これは図4に示され、図4は、発話アニメーションの場合、フェイスアニメーションモデルを通じて平滑な軌跡をどのようにしてフィッティングするかを示す。時点tにおいて、対応する視覚音素のもっともらしい形状が生成される(3つの異なる視覚音素の統計学的モデルが可視化される)(図4参照)。
ベイズ手法は、その時点における視覚音素に属するキーフレームf内の形状の確率と、一次導関数及び二次導関数を使用する口の動きの平滑性の先験的仮定とのトレードオフを含む。
換言すれば、平滑性の確率的表現により表される軌跡の平滑性についての先験的仮定が利用される。これは、特定の口の動き(或る形状から他の形状への遷移を表す)の速度及び加速度が、この速度及び加速度が幾らか制限されるように或る確率分布に従うという仮定に基づく。
視覚音素リストを所与とした軌跡の確率
は、軌跡を所与とした視覚音素リストの確率
に比例し(これはベイズ理論の適用)、ここでは、前に得られた統計学的視覚音素モデル、及び軌跡の先験的確率
が利用され、ここでは、軌跡の平滑性についての先験的仮定、特に、人が口を素早く動かすことができず(一次導関数=速さ、パラメータη)、素早く加速させることができない(二次導関数=速度:パラメータη)という先験的仮定がなされる。
パラメータη、パラメータηは実験的に決定することができる。
確率を最大にするために、L−BFGS−Bを使用して、標準準ニュートンオプティマイザを使用して費用関数
が最小化され、Mはフレーム数である。上記式2.8中、以下の修正を行うべきである:UはWを示し、s(ti)は
を示し、

を示すべきである。
上記例の代わりに、同様に他の最適化関数を使用することもできる。
このようにして、視覚音素空間を通る最適な軌跡を与える視覚音素表現を取得することができ、口アニメーションのレンダリングに使用することができる。
最後のビデオは、結果として生成される形状をレンダリングすることにより、当該技術分野で既知のワープフィールド/3D組み合わせ手法を使用してレンダリングされる。
本発明の実施形態に関連して説明された方法、要素、ユニット、及び装置をハードウェア、ソフトウェア、又は両方の組み合わせとして実施可能なことが当業者には容易に明らかであろう。特に、本発明の実施形態及び実施形態に関連して説明されたモジュールの要素が、コンピュータで実行されるか、又はマイクロプロセッサにより実行される単数又は複数のコンピュータプログラムにより実施可能なことが理解されよう。本発明を実施する任意の装置は特に、ネットワーク内で動作するルータ、サーバ、モジュール等のネットワークエンティティの形態、又は携帯電話、スマートフォン、PDA等のモバイル装置の形態、又は同様の任意のものの形態をとることができる。

Claims (13)

  1. 所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法であって、
    フェイスモデルにより前記顔をグラフィックで表現するステップと、
    複数のV個の可能な各視覚音素に、該視覚音素の複数のI個の異なるスキャン又はサンプルを測定により取得するステップと、
    前記フェイスアニメーションモデルにより前記複数のV個の異なる各視覚音素の前記複数のI個の各サンプルを表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、前記視覚音素空間に広がる前記スキャン又はサンプルに基づいて行列を生成する、表現するステップと、
    ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得する、適用するステップと、
    を含み、
    前記視覚音素リストを所与とした前記軌跡の確率
    は、前記軌跡を所与とした前記視覚音素リストの確率
    に比例する、所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法。
  2. 前記行列に基づいて主成分解析を実行して、前記複数の視覚音素の各々の前記主成分を取得する、実行するステップと、
    前記サンプルに基づいて、前記フェイスアニメーションモデル内の前記複数のV個の視覚音素の各々の前記統計学的変動性を表す統計学的モデルを取得することステップと、
    前記視覚音素空間を通る前記軌跡の平滑性の確率的表現により、或る視覚音素表現の前記事前確率を表現するステップと、
    前記事前確率及び前記統計学的モデルに基づいて、前記ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得する、適用するステップと、
    を更に含む、請求項1に記載のコンピュータ実施方法。
  3. 前記複数のI個のサンプルは、異なる被写体により話された或る視覚音素のサンプルであるか、又は
    前記複数のI個のサンプルは、異なる言葉に属するか又は一人の被写体が異なる時点において話した或る視覚音素のサンプルである、請求項1〜3のいずれか一項に記載のコンピュータ実施方法。
  4. 視覚音素vについて位置合わせされた人物iのスキャンがxviとして示され、対応するニュートラルフリースキャン
    は、同じ個人Iのニュートラルスキャン
    を差し引くことにより計算され、全ての視覚音素の前記ニュートラルフリースキャンが前記データ行列に積み重ねられる、請求項1〜4のいずれか一項に記載のコンピュータ実施方法。
  5. 前記フェイスアニメーションモデル内のスキャンされた前記各視覚音素の前記変動性を記述する統計学的モデルを取得するステップは、
    により特定の視覚音素vの全てのスキャンiを前記フェイスアニメーションモデルに射影するステップと、
    好ましくは再びPCAを使用して、前記データポイントに多変数正規分布をフィッティングするステップと、
    を含む、請求項1〜4のいずれか一項に記載のコンピュータ実施方法。
  6. 前記各視覚音素の前記統計学的モデル
    は、前記FAM
    内の平均、成分の(列)正規直交行列B、及び加重diag(σ)により定義される、請求項1〜5のいずれか一項に記載のコンピュータ実施方法。
  7. 時点tにおける視覚音素
    のリスト
    をアニメーション化する場合、前記アニメーションは、フェイスアニメーションモデル
    を通じて平滑な軌跡をフィッティングすることにより生成され、前記フェイスアニメーションモデルは、頂点空間内で形状シーケンス
    を定義する、請求項1〜6のいずれか一項に記載のコンピュータ実施方法。
  8. である、請求項1〜7のいずれか一項に記載のコンピュータ実施方法。
  9. である、請求項1〜8のいずれか一項に記載のコンピュータ実施方法。
  10. 前記確率を最大化するために、前記費用関数
    は最小化される、請求項5〜9のいずれか一項に記載の方法。
  11. 所与の視覚音素シーケンスに従って顔の口をアニメーション化する装置であって、
    フェイスモデルにより前記顔をグラフィックで表現するモジュールと、
    複数のV個の可能な視覚音素の各々に、該視覚音素の複数のI個の異なるスキャン又はサンプルを測定により取得するモジュールと、
    前記フェイスアニメーションモデルにより前記複数のV個の異なる視覚音素の各々の前記複数のI個のサンプルの各々を表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、前記視覚音素空間に広がる前記スキャン又はサンプルに基づいて行列を生成するモジュールと、
    ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得するモジュールと、
    を備える、装置。
  12. 請求項2〜10のいずれか一項に記載の方法を実行するモジュールを更に備える、請求項11に記載の装置。
  13. コンピュータで実行されると、前記コンピュータが請求項1〜10のいずれか一項に記載の方法を実行できるようにするコンピュータ実行可能なコードを含むコンピュータプログラム。
JP2013006090A 2012-01-17 2013-01-17 顔の口をアニメーション化するコンピュータ実施方法及び装置 Expired - Fee Related JP5529299B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP12151415.2 2012-01-17
EP20120151415 EP2618310B1 (en) 2012-01-17 2012-01-17 Computer-implemented method and apparatus for animating the mouth of a face

Publications (2)

Publication Number Publication Date
JP2013149251A true JP2013149251A (ja) 2013-08-01
JP5529299B2 JP5529299B2 (ja) 2014-06-25

Family

ID=45478248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013006090A Expired - Fee Related JP5529299B2 (ja) 2012-01-17 2013-01-17 顔の口をアニメーション化するコンピュータ実施方法及び装置

Country Status (2)

Country Link
EP (1) EP2618310B1 (ja)
JP (1) JP5529299B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112639964B (zh) * 2018-09-04 2024-07-26 Oppo广东移动通信有限公司 利用深度信息识别语音的方法、系统及计算机可读介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123192A (ja) * 1998-10-09 2000-04-28 Mitsubishi Electric Inf Technol Center America Inc 顔面アニメ―ション生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8743125B2 (en) * 2008-03-11 2014-06-03 Sony Computer Entertainment Inc. Method and apparatus for providing natural facial animation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123192A (ja) * 1998-10-09 2000-04-28 Mitsubishi Electric Inf Technol Center America Inc 顔面アニメ―ション生成方法

Also Published As

Publication number Publication date
EP2618310A1 (en) 2013-07-24
EP2618310B1 (en) 2014-12-03
JP5529299B2 (ja) 2014-06-25

Similar Documents

Publication Publication Date Title
CN111145322B (zh) 用于驱动虚拟形象的方法、设备和计算机可读存储介质
Le et al. Live speech driven head-and-eye motion generators
Chuang et al. Mood swings: expressive speech animation
KR102509666B1 (ko) 텍스트 및 오디오 기반 실시간 얼굴 재연
Pham et al. End-to-end learning for 3d facial animation from speech
Sadoughi et al. Speech-driven expressive talking lips with conditional sequential generative adversarial networks
CN110910479B (zh) 视频处理方法、装置、电子设备及可读存储介质
Rebol et al. Passing a non-verbal turing test: Evaluating gesture animations generated from speech
US20240013464A1 (en) Multimodal disentanglement for generating virtual human avatars
US12361621B2 (en) Creating images, meshes, and talking animations from mouth shape data
EP4152269B1 (en) Method and apparatus of training model, device, and medium
CN116721191B (zh) 口型动画处理方法、装置及存储介质
Mattos et al. Improving CNN-based viseme recognition using synthetic data
Khodabakhsh et al. A taxonomy of audiovisual fake multimedia content creation technology
Li et al. A survey of computer facial animation techniques
CN120894474B (zh) 一种数字人实时构建方法和相关设备
Krinidis et al. Facial expression analysis and synthesis: A survey.
Tang et al. Real-time conversion from a single 2D face image to a 3D text-driven emotive audio-visual avatar
Wei et al. A comparative study of four 3D facial animation methods: skeleton, blendshape, audio-driven, and vision-based capture
Hwang et al. Audio-driven facial animation: A survey
JP5529299B2 (ja) 顔の口をアニメーション化するコンピュータ実施方法及び装置
Molano et al. Parametric facial animation for affective interaction workflow for avatar retargeting
Müller et al. Realistic speech animation based on observed 3-D face dynamics
Kalberer et al. Lip animation based on observed 3D speech dynamics
Čereković et al. Multimodal behavior realization for embodied conversational agents

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140416

R150 Certificate of patent or registration of utility model

Ref document number: 5529299

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees