JP2013149251A - 顔の口をアニメーション化するコンピュータ実施方法及び装置 - Google Patents
顔の口をアニメーション化するコンピュータ実施方法及び装置 Download PDFInfo
- Publication number
- JP2013149251A JP2013149251A JP2013006090A JP2013006090A JP2013149251A JP 2013149251 A JP2013149251 A JP 2013149251A JP 2013006090 A JP2013006090 A JP 2013006090A JP 2013006090 A JP2013006090 A JP 2013006090A JP 2013149251 A JP2013149251 A JP 2013149251A
- Authority
- JP
- Japan
- Prior art keywords
- visual
- phoneme
- computer
- visual phoneme
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—Three-dimensional [3D] animation
- G06T13/205—Three-dimensional [3D] animation driven by audio data
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
Abstract
【解決手段】フェイスモデルにより顔をグラフィックで表現するステップと、複数のV個の可能な視覚音素の各々に、その視覚音素の複数のI個の異なるスキャン又はサンプルを測定により取得するステップと、上記フェイスアニメーションモデルにより上記複数のV個の異なる視覚音素の各々の上記複数のI個の各サンプルを表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、上記視覚音素空間に広がる上記スキャン又はサンプルに基づいて行列を生成する、表現するステップと、ベイズ手法を適用して、上記所与の視覚音素シーケンスの上記視覚音素空間を通る最良のパスを取得する、適用するステップと、を含む、所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法。
【選択図】なし
Description
・視覚音素(viseme)に対応するキーフレーム(すなわち、意味を区別する音の最小単位である視覚的な音素(visual phonene))を定義する、
・キーフレーム間のアニメーションを補間又は実行する。
フェイスモデルにより前記顔をグラフィックで表現するステップと、
複数のV個の可能な各視覚音素に、該視覚音素の複数のI個の異なるスキャン又はサンプルを測定により取得するステップと、
前記フェイスアニメーションモデルにより前記複数のV個の異なる各視覚音素の前記複数のI個の各サンプルを表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、前記視覚音素空間に広がる前記スキャン又はサンプルに基づいて行列を生成する、表現するステップと、
ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得する、適用するステップと、
を含む、所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法が提供される。
前記サンプルに基づいて、前記フェイスアニメーションモデル内の前記複数のV個の各視覚音素の前記統計学的変動性を表す統計学的モデルを生成するステップと、
前記視覚音素空間を通る前記軌跡の平滑性の確率的表現により、或る視覚音素表現の前記事前確率を表現するステップと、
前記事前確率及び前記統計学的モデルに基づいて、前記ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得する、適用するステップと、
を更に含む。
前記複数のI個のサンプルは、異なる言葉に属するか又は一人の対象が異なる時点において話した或る視覚音素のサンプルである。
好ましくは再びPCAを使用して、前記データポイントに多変数正規分布をフィッティングするステップと、
を含む。
フェイスモデルにより前記顔をグラフィックで表現するモジュールと、
複数のV個の可能な各視覚音素に、該視覚音素の複数のI個の異なるスキャン又はサンプルを測定により取得するモジュールと、
前記フェイスアニメーションモデルにより前記複数のV個の異なる各視覚音素の前記複数のI個の各サンプルを表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、前記視覚音素空間に広がる前記スキャン又はサンプルに基づいて行列を生成するモジュールと、
ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得するモジュールと、
を備える、所与の視覚音素シーケンスに従って顔の口をアニメーション化する装置が提供される。
・視覚音素ごとに1組の可能な形状を取得し、
・動きの成分を通じて、視覚音素空間内の全ての視覚音素について全ての可能な口の動きを生成することができる生成統計学的モデルであるフェイスアニメーションモデル(FAM)を作成する、
・FAM視覚音素空間内の視覚音素間で統計的に最良のパスを見つける、
である。
Claims (13)
- 所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法であって、
フェイスモデルにより前記顔をグラフィックで表現するステップと、
複数のV個の可能な各視覚音素に、該視覚音素の複数のI個の異なるスキャン又はサンプルを測定により取得するステップと、
前記フェイスアニメーションモデルにより前記複数のV個の異なる各視覚音素の前記複数のI個の各サンプルを表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、前記視覚音素空間に広がる前記スキャン又はサンプルに基づいて行列を生成する、表現するステップと、
ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得する、適用するステップと、
を含み、
前記視覚音素リストを所与とした前記軌跡の確率
は、前記軌跡を所与とした前記視覚音素リストの確率
に比例する、所与の視覚音素シーケンスに従って顔の口をアニメーション化するコンピュータ実施方法。 - 前記行列に基づいて主成分解析を実行して、前記複数の視覚音素の各々の前記主成分を取得する、実行するステップと、
前記サンプルに基づいて、前記フェイスアニメーションモデル内の前記複数のV個の視覚音素の各々の前記統計学的変動性を表す統計学的モデルを取得することステップと、
前記視覚音素空間を通る前記軌跡の平滑性の確率的表現により、或る視覚音素表現の前記事前確率を表現するステップと、
前記事前確率及び前記統計学的モデルに基づいて、前記ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得する、適用するステップと、
を更に含む、請求項1に記載のコンピュータ実施方法。 - 前記複数のI個のサンプルは、異なる被写体により話された或る視覚音素のサンプルであるか、又は
前記複数のI個のサンプルは、異なる言葉に属するか又は一人の被写体が異なる時点において話した或る視覚音素のサンプルである、請求項1〜3のいずれか一項に記載のコンピュータ実施方法。 - 視覚音素vについて位置合わせされた人物iのスキャンがxviとして示され、対応するニュートラルフリースキャン
は、同じ個人Iのニュートラルスキャン
を差し引くことにより計算され、全ての視覚音素の前記ニュートラルフリースキャンが前記データ行列に積み重ねられる、請求項1〜4のいずれか一項に記載のコンピュータ実施方法。 - 前記フェイスアニメーションモデル内のスキャンされた前記各視覚音素の前記変動性を記述する統計学的モデルを取得するステップは、
により特定の視覚音素vの全てのスキャンiを前記フェイスアニメーションモデルに射影するステップと、
好ましくは再びPCAを使用して、前記データポイントに多変数正規分布をフィッティングするステップと、
を含む、請求項1〜4のいずれか一項に記載のコンピュータ実施方法。 - 前記各視覚音素の前記統計学的モデル
は、前記FAM
内の平均、成分の(列)正規直交行列B、及び加重diag(σi)により定義される、請求項1〜5のいずれか一項に記載のコンピュータ実施方法。 - 時点tiにおける視覚音素
のリスト
をアニメーション化する場合、前記アニメーションは、フェイスアニメーションモデル
を通じて平滑な軌跡をフィッティングすることにより生成され、前記フェイスアニメーションモデルは、頂点空間内で形状シーケンス
を定義する、請求項1〜6のいずれか一項に記載のコンピュータ実施方法。 -
である、請求項1〜7のいずれか一項に記載のコンピュータ実施方法。 -
である、請求項1〜8のいずれか一項に記載のコンピュータ実施方法。 - 前記確率を最大化するために、前記費用関数
は最小化される、請求項5〜9のいずれか一項に記載の方法。 - 所与の視覚音素シーケンスに従って顔の口をアニメーション化する装置であって、
フェイスモデルにより前記顔をグラフィックで表現するモジュールと、
複数のV個の可能な視覚音素の各々に、該視覚音素の複数のI個の異なるスキャン又はサンプルを測定により取得するモジュールと、
前記フェイスアニメーションモデルにより前記複数のV個の異なる視覚音素の各々の前記複数のI個のサンプルの各々を表現して、視覚音素シーケンスを視覚音素空間を通る軌跡を通じて表現することができるように、前記視覚音素空間に広がる前記スキャン又はサンプルに基づいて行列を生成するモジュールと、
ベイズ手法を適用して、前記所与の視覚音素シーケンスの前記視覚音素空間を通る最良のパスを取得するモジュールと、
を備える、装置。 - 請求項2〜10のいずれか一項に記載の方法を実行するモジュールを更に備える、請求項11に記載の装置。
- コンピュータで実行されると、前記コンピュータが請求項1〜10のいずれか一項に記載の方法を実行できるようにするコンピュータ実行可能なコードを含むコンピュータプログラム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP12151415.2 | 2012-01-17 | ||
| EP20120151415 EP2618310B1 (en) | 2012-01-17 | 2012-01-17 | Computer-implemented method and apparatus for animating the mouth of a face |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2013149251A true JP2013149251A (ja) | 2013-08-01 |
| JP5529299B2 JP5529299B2 (ja) | 2014-06-25 |
Family
ID=45478248
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013006090A Expired - Fee Related JP5529299B2 (ja) | 2012-01-17 | 2013-01-17 | 顔の口をアニメーション化するコンピュータ実施方法及び装置 |
Country Status (2)
| Country | Link |
|---|---|
| EP (1) | EP2618310B1 (ja) |
| JP (1) | JP5529299B2 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112639964B (zh) * | 2018-09-04 | 2024-07-26 | Oppo广东移动通信有限公司 | 利用深度信息识别语音的方法、系统及计算机可读介质 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000123192A (ja) * | 1998-10-09 | 2000-04-28 | Mitsubishi Electric Inf Technol Center America Inc | 顔面アニメ―ション生成方法 |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8743125B2 (en) * | 2008-03-11 | 2014-06-03 | Sony Computer Entertainment Inc. | Method and apparatus for providing natural facial animation |
-
2012
- 2012-01-17 EP EP20120151415 patent/EP2618310B1/en not_active Not-in-force
-
2013
- 2013-01-17 JP JP2013006090A patent/JP5529299B2/ja not_active Expired - Fee Related
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000123192A (ja) * | 1998-10-09 | 2000-04-28 | Mitsubishi Electric Inf Technol Center America Inc | 顔面アニメ―ション生成方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP2618310A1 (en) | 2013-07-24 |
| EP2618310B1 (en) | 2014-12-03 |
| JP5529299B2 (ja) | 2014-06-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111145322B (zh) | 用于驱动虚拟形象的方法、设备和计算机可读存储介质 | |
| Le et al. | Live speech driven head-and-eye motion generators | |
| Chuang et al. | Mood swings: expressive speech animation | |
| KR102509666B1 (ko) | 텍스트 및 오디오 기반 실시간 얼굴 재연 | |
| Pham et al. | End-to-end learning for 3d facial animation from speech | |
| Sadoughi et al. | Speech-driven expressive talking lips with conditional sequential generative adversarial networks | |
| CN110910479B (zh) | 视频处理方法、装置、电子设备及可读存储介质 | |
| Rebol et al. | Passing a non-verbal turing test: Evaluating gesture animations generated from speech | |
| US20240013464A1 (en) | Multimodal disentanglement for generating virtual human avatars | |
| US12361621B2 (en) | Creating images, meshes, and talking animations from mouth shape data | |
| EP4152269B1 (en) | Method and apparatus of training model, device, and medium | |
| CN116721191B (zh) | 口型动画处理方法、装置及存储介质 | |
| Mattos et al. | Improving CNN-based viseme recognition using synthetic data | |
| Khodabakhsh et al. | A taxonomy of audiovisual fake multimedia content creation technology | |
| Li et al. | A survey of computer facial animation techniques | |
| CN120894474B (zh) | 一种数字人实时构建方法和相关设备 | |
| Krinidis et al. | Facial expression analysis and synthesis: A survey. | |
| Tang et al. | Real-time conversion from a single 2D face image to a 3D text-driven emotive audio-visual avatar | |
| Wei et al. | A comparative study of four 3D facial animation methods: skeleton, blendshape, audio-driven, and vision-based capture | |
| Hwang et al. | Audio-driven facial animation: A survey | |
| JP5529299B2 (ja) | 顔の口をアニメーション化するコンピュータ実施方法及び装置 | |
| Molano et al. | Parametric facial animation for affective interaction workflow for avatar retargeting | |
| Müller et al. | Realistic speech animation based on observed 3-D face dynamics | |
| Kalberer et al. | Lip animation based on observed 3D speech dynamics | |
| Čereković et al. | Multimodal behavior realization for embodied conversational agents |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131128 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131206 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140128 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140328 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140416 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5529299 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |