JP2013149251A

JP2013149251A - 顔の口をアニメーション化するコンピュータ実施方法及び装置

Info

Publication number: JP2013149251A
Application number: JP2013006090A
Authority: JP
Inventors: Knothe Reinhard; ラインハルト・クノーテ; Vetter Thomas; トーマス・フェッター; Ajaj Rami; ラミ・アジャジ; Michael Fahrmair; ミヒャエル・ファールマイアー
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2012-01-17
Filing date: 2013-01-17
Publication date: 2013-08-01
Anticipated expiration: 2033-01-17
Also published as: EP2618310A1; EP2618310B1; JP5529299B2

Abstract

【課題】所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法を提供する。
【解決手段】フェイスモデルにより顔をグラフィックで表現するステップと、複数のＶ個の可能な視覚音素の各々に、その視覚音素の複数のＩ個の異なるスキャン又はサンプルを測定により取得するステップと、上記フェイスアニメーションモデルにより上記複数のＶ個の異なる視覚音素の各々の上記複数のＩ個の各サンプルを表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、上記視覚音素空間に広がる上記スキャン又はサンプルに基づいて行列を生成する、表現するステップと、ベイズ手法を適用して、上記所与の視覚音素シーケンスの上記視覚音素空間を通る最良のパスを取得する、適用するステップと、を含む、所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法。
【選択図】なし

Description

本発明は、顔の口をアニメーション化するコンピュータ実施方法及び対応する装置に関する。

一実施の形態では、本発明は、人のような仮想アバターの分野に関する。より詳細には、本発明は、発話アバター（speaking avatar）の口アニメーションの現実性及び自然性を増大させる。そのような人のようなアバターは、オンライン仮想アシスタント、仮想教師、パーソナルアバター（例えば、ビデオチャットで人物に取って代わる）、そして更に多くのものとすることができる。

キャラクタのアニメーション化は、コンピュータグラフィックス領域での困難な技術分野である。キャラクタのアニメーション化は、アニメーション化された動画を生成する際に使用されるが、動画のみならず、いわゆるアバターをアニメーション化する際にも使用することができる。

仮想アバターは、オンラインアシスタント又はｅ−教師等の多くの用途で広く使用されている。仮想アバターは、発話及び体の動きを通じてそれ自体を表現して、情報を現実的な方法で伝える。アニメーションの表現性及び自然性により、これらのアバターはユーザから高く評価されるようになる。したがって、ユーザは、サービスが自然で良質なアバターを提供する場合、そのサービスの使用を高く評価する。

自然な発話表現を提供するためには、唇（すなわち、発話の視覚的部分）は発話（すなわち、音声）と同期しなければならず、自然にアニメーション化されなければならない。このプロセスは通常、２つのステップで行われる：
・視覚音素（viseme）に対応するキーフレーム（すなわち、意味を区別する音の最小単位である視覚的な音素(visual phonene)）を定義する、
・キーフレーム間のアニメーションを補間又は実行する。

キーフレームの定義及び音声との同期は、音声と視覚とのいかなる不連続性も回避するために重要である。第２のステップは、信頼性が高く自然なアニメーションを提供し、いかなる視覚的な不連続性も回避するためにも重要である。これらの不連続性（すなわち、音声と視覚との不連続性及び視覚的な不連続性）は、アバターの現実性レベル及び自然性を低下させ、ユーザを困惑させる。これは、自然ではないアバターを使用する場合、ユーザによるサービスの使用回避に繋がり得る。

顔のアニメーションは数年来、活発な研究分野であり、大規模な調査については、Deng及びNoh「Computer Facial Animation: A Survey」、（Deng及びNeumann「Data-Driven 3D Facial Animation」掲載)を参照のこと。既存の解決策は、ヒューリスティック手法、サンプルベースの手法、及び学習ベースの手法に分類することができる。

ヒューリスティック手法は、手動で作成された視覚音素形状及び経験的な平滑化関数を使用する。サンプルベースの手法は、「トライフォンビデオセグメント」を取得して使用し、同時調音をモデリングする。

学習ベースの手法は、データから視覚音素及び同時調音を学習する。例えば、BrandはＨＭＭベースモデルを使用する（Brand、「Voice pupperty」、SIGGRAPH 99、参照）。Ezzat、Geiger及びPoggio「Trainable videorealistic speech animation」、ACM Trans.Graph.,388-398,2002、では、多次元モーフィングモデルを使用する。視覚音素ごとに１スキャンを使用する視覚音素モデルを使用することが、例えばV.Blanz、C.Basso、T.Poggio及びT.Vetter、「Reanimating Faces in Images and Video」、EUROGRAPHICS 2003、に開示されている。Deng、Neumann、Lewis、Kim、Bulut、Narayanan、「Expressive facial animation synthesis by learning speech co-articulations and expression spaces」、IEEE Transaction on Visualization and Computer Graphics,2006、では、同時調音モデルの学習が開示されている。

本発明の目的は、発話アバターの口のアニメーションの現実性及び自然性を増大させるように口のアニメーションを改良することである。そのような人のようなアバターは、オンライン仮想アシスタント、仮想教師、パーソナルアバター（例えば、ビデオチャットで人物に取って代わる）、そして更に多くのものとすることができる。

本発明の一実施の形態によれば、所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法であって、
フェイスモデルにより前記顔をグラフィックで表現するステップと、
複数のＶ個の可能な各視覚音素に、該視覚音素の複数のＩ個の異なるスキャン又はサンプルを測定により取得するステップと、
前記フェイスアニメーションモデルにより前記複数のＶ個の異なる各視覚音素の前記複数のＩ個の各サンプルを表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、前記視覚音素空間に広がる前記スキャン又はサンプルに基づいて行列を生成する、表現するステップと、
ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得する、適用するステップと、
を含む、所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法が提供される。

このようにして、視覚音素表現の生じ得る変動性を考慮に入れることができ、それにより、より自然なアニメーションが達成される。

一実施の形態によれば、前記方法は、前記行列に基づいて主成分解析を実行して、前記複数の各視覚音素の前記主成分を取得する、実行するステップと、
前記サンプルに基づいて、前記フェイスアニメーションモデル内の前記複数のＶ個の各視覚音素の前記統計学的変動性を表す統計学的モデルを生成するステップと、
前記視覚音素空間を通る前記軌跡の平滑性の確率的表現により、或る視覚音素表現の前記事前確率を表現するステップと、
前記事前確率及び前記統計学的モデルに基づいて、前記ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得する、適用するステップと、
を更に含む。

統計学的モデル及び平滑性基準により、ベイズモデルの適用及び実施が可能である。

一実施の形態によれば、前記複数のＩ個のサンプルは、異なる被写体により話された或る視覚音素のサンプルであるか、又は
前記複数のＩ個のサンプルは、異なる言葉に属するか又は一人の対象が異なる時点において話した或る視覚音素のサンプルである。

これにより、視覚音素の変動性をモデルで考慮することが可能である。

一実施の形態によれば、視覚音素ｖについて位置合わせされた人物ｉのスキャンがｘ_ｖｉとして示され、対応するニュートラルフリースキャン
は、同じ個人Ｉのニュートラルスキャン
を差し引くことにより計算され、全ての視覚音素の前記ニュートラルフリースキャンが前記データ行列に積み重ねられる。

これは、視覚音素形状を抽出し、形状へのニュートラルスキャンの影響をなくす。

一実施の形態によれば、前記フェイスアニメーションモデル内のスキャンされた前記各視覚音素の前記変動性を記述する統計学的モデルを取得するステップは、
により特定の視覚音素ｖの全てのスキャンｉを前記フェイスアニメーションモデルに射影するステップと、
好ましくは再びＰＣＡを使用して、前記データポイントに多変数正規分布をフィッティングするステップと、
を含む。

これにより、統計学的モデルの実施が可能になる。

一実施の形態によれば、前記各視覚音素の前記統計学的モデル
は、前記ＦＡＭ
内の平均、成分の（列）正規直交行列Ｂ、及び加重ｄｉａｇ（σ_ｉ）により定義される。

一実施の形態によれば、時点ｔ_ｉにおける視覚音素
のリスト
をアニメーション化する場合、前記アニメーションは、フェイスアニメーションモデル
を通じて平滑な軌跡をフィッティングすることにより生成され、前記フェイスアニメーションモデルは、頂点空間内で形状シーケンス
を定義する。

これにより、最適な軌跡の導出が可能になる。

一実施の形態によれば、前記視覚音素リストを所与とした前記軌跡の確率
は、前記軌跡を所与とした前記視覚音素リストの確率
に比例する。

これはベイズ理論の実施である。

一実施の形態によれば、前記軌跡を所与とした前記視覚音素リストの確率は、

これにより、確率分布の実施が可能になる。

一実施の形態によれば、
である。

一実施の形態によれば、前記確率を最大化するために、前記費用関数
は最小化される。

一実施の形態によれば、所与の視覚音素シーケンスに従って顔の口をアニメーション化する装置であって、
フェイスモデルにより前記顔をグラフィックで表現するモジュールと、
複数のＶ個の可能な各視覚音素に、該視覚音素の複数のＩ個の異なるスキャン又はサンプルを測定により取得するモジュールと、
前記フェイスアニメーションモデルにより前記複数のＶ個の異なる各視覚音素の前記複数のＩ個の各サンプルを表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、前記視覚音素空間に広がる前記スキャン又はサンプルに基づいて行列を生成するモジュールと、
ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得するモジュールと、
を備える、所与の視覚音素シーケンスに従って顔の口をアニメーション化する装置が提供される。

このようにして、本発明の一実施形態による装置を実施することができる。

一実施形態によれば、方法が提供され、本発明の実施形態の１つによる方法を実行するモジュールを備える装置が提供される。

一実施の形態によれば、コンピュータで実行されると、前記コンピュータが本発明の実施の形態のうちの１つによる方法を実行できるようにするコンピュータ実行可能なコードを含むコンピュータプログラムが提供される。

本発明の実施形態を概略的に示す図である。本発明の実施形態を概略的に示す図である。本発明の実施形態を概略的に示す図である。本発明の実施形態を概略的に示す図である。

以下、本発明の幾つかの実施形態について説明する。

一実施形態によれば、発話に従ってアバターの口をアニメーション化する方法は、
・視覚音素ごとに１組の可能な形状を取得し、
・動きの成分を通じて、視覚音素空間内の全ての視覚音素について全ての可能な口の動きを生成することができる生成統計学的モデルであるフェイスアニメーションモデル（ＦＡＭ）を作成する、
・ＦＡＭ視覚音素空間内の視覚音素間で統計的に最良のパスを見つける、
である。

視覚音素ごとに複数の形状を作成することにより、各視覚音素の表現に柔軟性が提供される。実際には、視覚音素の表現は、異なる事例で（例えば、人ごと、かつ、言葉ごとに）異なり得る。したがって、視覚音素ごとのこのより広い１組の形状によって、より大きな１組の可能性を有することができる。

視覚音素は異なる方法で表現することができるため（すなわち、異なる値を仮定する視覚音素空間内の成分による僅かな違いを有する）、最も適切に表現された視覚音素（成分の「最良値」）を識別する選択を行う必要がある。それを達成するために、生成統計学的モデルが作成される。このモデル（すなわち、ＦＡＭ）は、視覚音素の全ての可能な形状間の全ての可能な口の動きを生成可能である。これは、フェイスアニメーションモデルを作成するステップにおいて作成された形状セットに基づいて、全ての可能な口の動きを含む空間として視覚化することができる。ＦＡＭの作成後、次のステップは、シーケンスの個々の視覚音素を表す形状間を自然に補間するために、この空間内の最良パスを見つけることである。

視覚音素ごとに１つの形状を使用するこれまでの手法とは対照的に、この手法では、各視覚音素の口形状の統計学的３Ｄモデルが使用される。このモデルは、異なる被写体（又は別の実施形態では、同じ視覚音素を含む異なる言葉）にわたる特定の視覚音素の口形状の変動性を符号化する。この手法の主要な利点は、はるかに自然な口のアニメーション化が可能なことである。一実施形態によれば、これにより、時点ｔにおいて抽出された視覚音素に属する口形状の尤度と、軌跡の平滑性についての先験的仮定とをトレードオフして、ベイズ手法を使用してキーフレーム間を補間することができる。

以下、更なる実施形態について幾らかより詳細に説明する。

以下に説明される実施形態は、モーフィングモデル（ＭＭ）と呼ばれ、V.Blanz及びT.Vetter、「A Morphable Model for the Synthesis of 3D Faces」、SIGGRAPH 99,187-194、に記載されている特定の３Ｄフェイスモデルを利用する。しかし、視覚音素がその視覚音素を表す個々の成分からなる視覚音素空間内にアニメーション化された視覚音素を表すことが可能な任意のモデルを使用することができる。

この実施形態では、特定の人物の口（歯を含む）の現実的でもっともらしいアニメーションを生成可能なフェイスアニメーションシステムについて説明する。口の動きのために、データから学習される口形状の統計学的モデル（すなわち、１３個の各視覚音素に１つの統計学的モデル）が使用される。

このために、幾つかのステップが実行される。

第１のステップにおいて、視覚音素が獲得又は取得される。

視覚音素は、既知のスキャン装置を用いて取得される。一実施形態によれば、アイデンティティ（identity）ごと（すなわち、人物ごと）に、１６個のスキャン（１３個の視覚音素及び基準として口が閉じられた状態での３つのニュートラルスキャン）が取得される。実施形態では、１２のアイデンティティの視覚音素がスキャンされ、合計で１９２のスキャンが得られる。スキャン又は人物の数に他の値を選ぶことも同様に可能である。

次のステップにおいて、フェイスアニメーションモデルが生成される。フェイスアニメーションモデル（ＦＡＭ）は、全ての視覚音素の全ての可能な口の動きを生成可能な生成統計学的モデルである。ＦＡＭはモーフィングモデル（ＭＭ）と一緒に使用される：ＭＭは、アイデンティティを符号化し、３Ｄ再構築の計算に使用される。ＦＡＭは、口の動きを符号化し（アイデンティティに影響を及ぼさない）、フェイスアニメーションに使用される。

ＦＡＭを完了するために、まず、スキャンを対応させ、これは、この例で図１の３行目に示されるように、全てのスキャンの共通パラメータ化（すなわち、共通メッシュ）を定義する。図１は、３つのアイデンティティ（１列目、２列目、３列目のそれぞれ）の視覚音素ａｏの幾つかのスキャン例を示す。２列目は未処理スキャンを示し、３列目は処理済みデータを示す。

視覚音素ｖの人物ｉの位置合わせされたスキャンがｘ_ｖｉとして示され、対応するニュートラルフリースキャン
は、同じ個人ｉのニュートラルスキャン
を差し引くことにより計算される。全ての視覚音素のニュートラルフリースキャンがデータ行列
に積み重ねられる。

モデルの成分を計算するために、主成分解析（ＰＣＡ）が１組のスキャン例に対して使用される。
式中、成分Ｖ＝［ｖ_１，．．．，ｖ_ｎ］は（列）正規直交成分であり、Ｗは対角成分であり、σ_ｉｖ＝ｗ_ｉ／√ｎであり、式中、ｎはスキャン数である。結果として生成される、データから学習されるモデルは図２において視覚化される。

上述したように、フェイスアニメーションモデルＦＡＭはＭＭと一緒に使用される：各アニメーション化顔形状
は、ＭＭ平均μ、単位成分ｕ_ｉの線形結合（ＭＭ及びフィッティングにより与えられる）、及びアニメーションの成分の線形結合（加重σ_ｉｖとともに前に計算されたｖ_ｉ）として表現される。次に、各形状が、単位系数α_ｉ及びそのアニメーション係数β_ｉにより符号化される。

次のステップにおいて、発話アニメーションの場合、フェイスアニメーションモデル内でスキャンされた１３個の各視覚音素の変動性を記述する統計学的モデルが取得される。そのようなモデルを計算するために、特定の視覚音素ｖの全てのスキャンｉがＦＡＭに射影され、
再びＰＣＡを使用して、データポイントに多変数正規分布がフィッティングされる。各視覚音素の統計学的モデル
は、ＦＡＭ
内の平均、成分の（列）正規直交行列Ｂ、及び加重ｄｉａｇ（σ_ｉ）により定義される。そのような視覚音素モデルの例は図３に見ることができ、図３は、視覚音素ａｏ（上）及びｆ（下）の視覚音素モデル例を示す。

このようにして、視覚音素の視覚音素空間の成分の「確率分布」を取得することができる。そうして得られた統計学的モデルは、上記サンプルに基づいて上記フェイスアニメーションモデル内で複数のＶ個の視覚音素のそれぞれの統計学的変動性を表す。

以下、一実施形態によるアニメーションについて説明する。

この実施形態では、視覚音素取得時に得られたタイミング情報を視覚音素モデルと共に使用して、事前に記録された音ファイルに従って画像アニメーションをレンダリングする。このタイミング情報は、書かれた言葉に基づいて、又は何らかの方法で得られた連結された視覚音素のみに基づいて導出された視覚音素シーケンスのレンダリングにも同様に使用することができる。

発話解析の出力は、時点ｔ_ｉにおける視覚音素
のリスト
である。アニメーションは、ＦＡＭ
を通じて平滑な軌跡をフィッティングすることにより生成され、このＦＡＭは、頂点空間内で形状シーケンス
を定義する。

フィッティングはベイズ手法を使用して行われる。これは図４に示され、図４は、発話アニメーションの場合、フェイスアニメーションモデルを通じて平滑な軌跡をどのようにしてフィッティングするかを示す。時点ｔにおいて、対応する視覚音素のもっともらしい形状が生成される（３つの異なる視覚音素の統計学的モデルが可視化される）（図４参照）。

ベイズ手法は、その時点における視覚音素に属するキーフレームｆ内の形状の確率と、一次導関数及び二次導関数を使用する口の動きの平滑性の先験的仮定とのトレードオフを含む。

換言すれば、平滑性の確率的表現により表される軌跡の平滑性についての先験的仮定が利用される。これは、特定の口の動き（或る形状から他の形状への遷移を表す）の速度及び加速度が、この速度及び加速度が幾らか制限されるように或る確率分布に従うという仮定に基づく。

視覚音素リストを所与とした軌跡の確率
は、軌跡を所与とした視覚音素リストの確率
に比例し（これはベイズ理論の適用）、ここでは、前に得られた統計学的視覚音素モデル、及び軌跡の先験的確率
が利用され、ここでは、軌跡の平滑性についての先験的仮定、特に、人が口を素早く動かすことができず（一次導関数＝速さ、パラメータη_１）、素早く加速させることができない（二次導関数＝速度：パラメータη_２）という先験的仮定がなされる。

パラメータη_１、パラメータη_２は実験的に決定することができる。

確率を最大にするために、Ｌ−ＢＦＧＳ−Ｂを使用して、標準準ニュートンオプティマイザを使用して費用関数
が最小化され、Ｍはフレーム数である。上記式２．８中、以下の修正を行うべきである：ＵはＷを示し、ｓ（ｔｉ）は
を示し、
は
を示すべきである。

上記例の代わりに、同様に他の最適化関数を使用することもできる。

このようにして、視覚音素空間を通る最適な軌跡を与える視覚音素表現を取得することができ、口アニメーションのレンダリングに使用することができる。

最後のビデオは、結果として生成される形状をレンダリングすることにより、当該技術分野で既知のワープフィールド／３Ｄ組み合わせ手法を使用してレンダリングされる。

本発明の実施形態に関連して説明された方法、要素、ユニット、及び装置をハードウェア、ソフトウェア、又は両方の組み合わせとして実施可能なことが当業者には容易に明らかであろう。特に、本発明の実施形態及び実施形態に関連して説明されたモジュールの要素が、コンピュータで実行されるか、又はマイクロプロセッサにより実行される単数又は複数のコンピュータプログラムにより実施可能なことが理解されよう。本発明を実施する任意の装置は特に、ネットワーク内で動作するルータ、サーバ、モジュール等のネットワークエンティティの形態、又は携帯電話、スマートフォン、ＰＤＡ等のモバイル装置の形態、又は同様の任意のものの形態をとることができる。

Claims

所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法であって、
フェイスモデルにより前記顔をグラフィックで表現するステップと、
複数のＶ個の可能な各視覚音素に、該視覚音素の複数のＩ個の異なるスキャン又はサンプルを測定により取得するステップと、
前記フェイスアニメーションモデルにより前記複数のＶ個の異なる各視覚音素の前記複数のＩ個の各サンプルを表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、前記視覚音素空間に広がる前記スキャン又はサンプルに基づいて行列を生成する、表現するステップと、
ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得する、適用するステップと、
を含み、
前記視覚音素リストを所与とした前記軌跡の確率
は、前記軌跡を所与とした前記視覚音素リストの確率
に比例する、所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法。
前記行列に基づいて主成分解析を実行して、前記複数の視覚音素の各々の前記主成分を取得する、実行するステップと、
前記サンプルに基づいて、前記フェイスアニメーションモデル内の前記複数のＶ個の視覚音素の各々の前記統計学的変動性を表す統計学的モデルを取得することステップと、
前記視覚音素空間を通る前記軌跡の平滑性の確率的表現により、或る視覚音素表現の前記事前確率を表現するステップと、
前記事前確率及び前記統計学的モデルに基づいて、前記ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得する、適用するステップと、
を更に含む、請求項１に記載のコンピュータ実施方法。
前記複数のＩ個のサンプルは、異なる被写体により話された或る視覚音素のサンプルであるか、又は
前記複数のＩ個のサンプルは、異なる言葉に属するか又は一人の被写体が異なる時点において話した或る視覚音素のサンプルである、請求項１〜３のいずれか一項に記載のコンピュータ実施方法。
視覚音素ｖについて位置合わせされた人物ｉのスキャンがｘ_ｖｉとして示され、対応するニュートラルフリースキャン
は、同じ個人Ｉのニュートラルスキャン
を差し引くことにより計算され、全ての視覚音素の前記ニュートラルフリースキャンが前記データ行列に積み重ねられる、請求項１〜４のいずれか一項に記載のコンピュータ実施方法。
前記フェイスアニメーションモデル内のスキャンされた前記各視覚音素の前記変動性を記述する統計学的モデルを取得するステップは、
により特定の視覚音素ｖの全てのスキャンｉを前記フェイスアニメーションモデルに射影するステップと、
好ましくは再びＰＣＡを使用して、前記データポイントに多変数正規分布をフィッティングするステップと、
を含む、請求項１〜４のいずれか一項に記載のコンピュータ実施方法。
前記各視覚音素の前記統計学的モデル
は、前記ＦＡＭ
内の平均、成分の（列）正規直交行列Ｂ、及び加重ｄｉａｇ（σ_ｉ）により定義される、請求項１〜５のいずれか一項に記載のコンピュータ実施方法。
時点ｔ_ｉにおける視覚音素
のリスト
をアニメーション化する場合、前記アニメーションは、フェイスアニメーションモデル
を通じて平滑な軌跡をフィッティングすることにより生成され、前記フェイスアニメーションモデルは、頂点空間内で形状シーケンス
を定義する、請求項１〜６のいずれか一項に記載のコンピュータ実施方法。
である、請求項１〜７のいずれか一項に記載のコンピュータ実施方法。
である、請求項１〜８のいずれか一項に記載のコンピュータ実施方法。
前記確率を最大化するために、前記費用関数
は最小化される、請求項５〜９のいずれか一項に記載の方法。
所与の視覚音素シーケンスに従って顔の口をアニメーション化する装置であって、
フェイスモデルにより前記顔をグラフィックで表現するモジュールと、
複数のＶ個の可能な視覚音素の各々に、該視覚音素の複数のＩ個の異なるスキャン又はサンプルを測定により取得するモジュールと、
前記フェイスアニメーションモデルにより前記複数のＶ個の異なる視覚音素の各々の前記複数のＩ個のサンプルの各々を表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、前記視覚音素空間に広がる前記スキャン又はサンプルに基づいて行列を生成するモジュールと、
ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得するモジュールと、
を備える、装置。
請求項２〜１０のいずれか一項に記載の方法を実行するモジュールを更に備える、請求項１１に記載の装置。
コンピュータで実行されると、前記コンピュータが請求項１〜１０のいずれか一項に記載の方法を実行できるようにするコンピュータ実行可能なコードを含むコンピュータプログラム。