JPH08235384A - 音響支援画像処理 - Google Patents
音響支援画像処理Info
- Publication number
- JPH08235384A JPH08235384A JP7311639A JP31163995A JPH08235384A JP H08235384 A JPH08235384 A JP H08235384A JP 7311639 A JP7311639 A JP 7311639A JP 31163995 A JP31163995 A JP 31163995A JP H08235384 A JPH08235384 A JP H08235384A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- image
- rate
- video
- sampling rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—Three-dimensional [3D] animation
- G06T13/205—Three-dimensional [3D] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—Three-dimensional [3D] animation
- G06T13/40—Three-dimensional [3D] animation of characters, e.g. humans, animals or virtual beings
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Abstract
(57)【要約】
【課題】 音声支援画像処理の方法と手段を提供する。
【解決手段】 音声信号をサンプリングしこのサンプリ
ングした音声信号に応答してその音声領域サンプリング
レートに対応する第1のレートで第1のビシームシーケ
ンスを生成し映像領域フレームレートに対応する第2の
レートで変換基準を用いて前記第1のビシームシーケン
スを第2のビシームシーケンスに変換しこの第2のビシ
ームシーケンスに応答して画像を処理する。例えば、表
面テクスチャをマッピングする3次元ワイヤフレーム顔
モデルを用い話者の顔の映像をアニメーションとするが
音声信号から抽出したレート変換ビシームシーケンスに
応答しその映像の口部が音声に応じて動くよう前記顔モ
デルを構造変形する。
ングした音声信号に応答してその音声領域サンプリング
レートに対応する第1のレートで第1のビシームシーケ
ンスを生成し映像領域フレームレートに対応する第2の
レートで変換基準を用いて前記第1のビシームシーケン
スを第2のビシームシーケンスに変換しこの第2のビシ
ームシーケンスに応答して画像を処理する。例えば、表
面テクスチャをマッピングする3次元ワイヤフレーム顔
モデルを用い話者の顔の映像をアニメーションとするが
音声信号から抽出したレート変換ビシームシーケンスに
応答しその映像の口部が音声に応じて動くよう前記顔モ
デルを構造変形する。
Description
【0001】
【発明の属する技術分野】本発明は、音声認識と画像ア
ニメーションに係り、特に音声支援画像処理に関する。
ニメーションに係り、特に音声支援画像処理に関する。
【0002】
【従来の技術】聴覚障害者が音声コミュニケーションを
理解する際の支援には手話以外に古くから有用な手段と
して口話または視話の読唇術がある。最近音声コミュニ
ケーション理解の支援に画像情報を利用する考えが成功
裡に進展し機械による音声認識の精度が向上し画像支援
音声認識は進展しつつある。ところがこの逆の機械によ
る画像情報の処理の支援に音声コミュニケーションを利
用する音声支援画像処理にはまだ満足すべきものは全く
得られていない。さらに具体的には、映像のアニメーシ
ョンの支援に発話音声のような音声情報を利用できれば
望ましいことである。特に、このようなアニメーション
が、リアルタイムで、いずれの話者の場合でも好都合に
実施でき、語彙にも制限が無く、さらにこの話者の側に
は何らかの特定のアクションをする必要も無く、実現で
きれば望ましいことである。
理解する際の支援には手話以外に古くから有用な手段と
して口話または視話の読唇術がある。最近音声コミュニ
ケーション理解の支援に画像情報を利用する考えが成功
裡に進展し機械による音声認識の精度が向上し画像支援
音声認識は進展しつつある。ところがこの逆の機械によ
る画像情報の処理の支援に音声コミュニケーションを利
用する音声支援画像処理にはまだ満足すべきものは全く
得られていない。さらに具体的には、映像のアニメーシ
ョンの支援に発話音声のような音声情報を利用できれば
望ましいことである。特に、このようなアニメーション
が、リアルタイムで、いずれの話者の場合でも好都合に
実施でき、語彙にも制限が無く、さらにこの話者の側に
は何らかの特定のアクションをする必要も無く、実現で
きれば望ましいことである。
【0003】
【発明が解決しようとする課題】音声支援画像処理によ
る映像のアニメーションの実現が望まれている。
る映像のアニメーションの実現が望まれている。
【0004】
【課題を解決するための手段】本発明は、以下に説明す
る新規な方法と装置によって音声支援画像処理を行い前
記課題を解決しこの技術分野の進歩を遂げる。すなわち
本発明の方法には次のステップが行われる。音声信号を
音声領域サンプリング・レートでサンプリングするサン
プリング・ステップがある。さらにこの音声領域サンプ
リング・レートに対応する第1のレートで前記サンプリ
ングした音声信号に応答し第1のビシーム・シーケンス
を生成する生成ステップがある。さらに変換基準の所定
の集合を用いて映像領域フレーム・レートに対応する第
2のレートで前記第1のビシーム・シーケンスを第2の
ビシーム・シーケンスに変換する変換ステップがある。
さらにこの第2のビシーム・シーケンスに応答し画像を
処理する画像処理ステップがある。
る新規な方法と装置によって音声支援画像処理を行い前
記課題を解決しこの技術分野の進歩を遂げる。すなわち
本発明の方法には次のステップが行われる。音声信号を
音声領域サンプリング・レートでサンプリングするサン
プリング・ステップがある。さらにこの音声領域サンプ
リング・レートに対応する第1のレートで前記サンプリ
ングした音声信号に応答し第1のビシーム・シーケンス
を生成する生成ステップがある。さらに変換基準の所定
の集合を用いて映像領域フレーム・レートに対応する第
2のレートで前記第1のビシーム・シーケンスを第2の
ビシーム・シーケンスに変換する変換ステップがある。
さらにこの第2のビシーム・シーケンスに応答し画像を
処理する画像処理ステップがある。
【0005】本発明を実施の一形態例で説明する。人間
である話者の顔の映像を表面テクスチャをマッピングし
た3次元ワイヤフレーム顔モデルを用いてアニメーショ
ンとする。この3次元ワイヤフレーム顔モデルを音声信
号から抽出したレート変換ビシーム・シーケンスに応答
し構造的に変形しこの映像の口部がその音声に対応し動
く。好都合なことに本アニメーションは、リアルタイム
で、いずれの話者の場合でも実施でき、語彙にも制限が
無く、この話者の側には何らかの特定のアクションをす
る必要もない。
である話者の顔の映像を表面テクスチャをマッピングし
た3次元ワイヤフレーム顔モデルを用いてアニメーショ
ンとする。この3次元ワイヤフレーム顔モデルを音声信
号から抽出したレート変換ビシーム・シーケンスに応答
し構造的に変形しこの映像の口部がその音声に対応し動
く。好都合なことに本アニメーションは、リアルタイム
で、いずれの話者の場合でも実施でき、語彙にも制限が
無く、この話者の側には何らかの特定のアクションをす
る必要もない。
【0006】
【発明の実施の形態】図面を参照し実施例で本発明が開
示する方法と装置を説明する。本発明は音声信号から抽
出したパラメタを用いてアニメーションとする映像を合
成する方法と装置を開示する。本発明の最初に説明する
実施例では話者のアニメーションとする顔画像を音声信
号に応答し合成する。本発明のこの実施例には多数の利
点があって、例えば、ビデオ・ゲームや漫画動画の機械
によるアニメーションの生成が迅速かつ正確である利点
を挙げることができる。漫画動画キャラクタの口と声優
の音声を一致させるアラインメントは、漫画動画とビデ
オ・ゲームの作成に付随する難しく時間の掛かるプロセ
スの一つであると考えられてきた。
示する方法と装置を説明する。本発明は音声信号から抽
出したパラメタを用いてアニメーションとする映像を合
成する方法と装置を開示する。本発明の最初に説明する
実施例では話者のアニメーションとする顔画像を音声信
号に応答し合成する。本発明のこの実施例には多数の利
点があって、例えば、ビデオ・ゲームや漫画動画の機械
によるアニメーションの生成が迅速かつ正確である利点
を挙げることができる。漫画動画キャラクタの口と声優
の音声を一致させるアラインメントは、漫画動画とビデ
オ・ゲームの作成に付随する難しく時間の掛かるプロセ
スの一つであると考えられてきた。
【0007】本発明のこの最初の実施例のこれらの利点
は以下の記述から明白である。図1は本発明の音声支援
画像プロセッサ100を簡単に示すブロック図である。
音声支援であることから明らかなことは、画像プロセッ
サ100はその音声領域と映像領域の両者で動作するこ
とである。画像プロセッサ100は、ビシーム・シーケ
ンス・ジェネレータ120と、ビシーム・シーケンス・
トランスフォマ130と、構造変形ジェネレータ150
と、テクスチャ・マッパ160とを有するが、これらは
図示するように直列配置に結合している。次にこれら各
コンポーネントの動作の詳細を以下に説明する。説明を
明瞭にするためこの実施例ではそれぞれ個別の機能と動
作のブロックから構成されているものとして説明する。
は以下の記述から明白である。図1は本発明の音声支援
画像プロセッサ100を簡単に示すブロック図である。
音声支援であることから明らかなことは、画像プロセッ
サ100はその音声領域と映像領域の両者で動作するこ
とである。画像プロセッサ100は、ビシーム・シーケ
ンス・ジェネレータ120と、ビシーム・シーケンス・
トランスフォマ130と、構造変形ジェネレータ150
と、テクスチャ・マッパ160とを有するが、これらは
図示するように直列配置に結合している。次にこれら各
コンポーネントの動作の詳細を以下に説明する。説明を
明瞭にするためこの実施例ではそれぞれ個別の機能と動
作のブロックから構成されているものとして説明する。
【0008】これらブロックが表す機能と動作は、ソフ
トウェアを実行することができるハードウェアも含め共
用かまたは専用かのいずれかのハードウェアを用いて実
施することができる。例えば、図1に示すこの音声支援
画像プロセッサ100の機能は1個の共用プロセッサに
よって提供することができる。ただしここで注記すべき
ことはこの“プロセッサ”の用語はソフトウェアを実行
できるハードウェアを示すものに限る必要はないことで
ある。図1に示すように、音声信号はパス110で画像
プロセッサ100に入力される。この実施の形態例の音
声信号は音声を表す連続波形である。この音声信号に応
答しビシーム・シーケンス・ジェネレータ120はビシ
ーム・シーケンスを生成する。
トウェアを実行することができるハードウェアも含め共
用かまたは専用かのいずれかのハードウェアを用いて実
施することができる。例えば、図1に示すこの音声支援
画像プロセッサ100の機能は1個の共用プロセッサに
よって提供することができる。ただしここで注記すべき
ことはこの“プロセッサ”の用語はソフトウェアを実行
できるハードウェアを示すものに限る必要はないことで
ある。図1に示すように、音声信号はパス110で画像
プロセッサ100に入力される。この実施の形態例の音
声信号は音声を表す連続波形である。この音声信号に応
答しビシーム・シーケンス・ジェネレータ120はビシ
ーム・シーケンスを生成する。
【0009】ビシームとは、音声フォニームのようなあ
る音声分節の言語ベースの音声素片ユニットに対応する
音声の顔の動き、つまり素片ユニットとしての口形のシ
ーケンスである。ビシームは次に記載例を挙げるように
既知である。例えば、K.W.Berger,Speechreading,Princ
iples and Methods,National Education Press,1972を
参照のこと。図2にビシーム・シーケンス・ジェネレー
タ120の詳細を示す。ビシーム・シーケンス・ジェネ
レータ120には、ビシーム音声特徴抽出器210があ
り、さらにビシーム認識器220があり、これらは直列
配置で結合する。ビシーム音声特徴抽出器210はパス
110で入力した連続音声信号から音声特徴ベクトル・
シーケンスを抽出しパス215でこの音声ベクトル・シ
ーケンスを出力する。
る音声分節の言語ベースの音声素片ユニットに対応する
音声の顔の動き、つまり素片ユニットとしての口形のシ
ーケンスである。ビシームは次に記載例を挙げるように
既知である。例えば、K.W.Berger,Speechreading,Princ
iples and Methods,National Education Press,1972を
参照のこと。図2にビシーム・シーケンス・ジェネレー
タ120の詳細を示す。ビシーム・シーケンス・ジェネ
レータ120には、ビシーム音声特徴抽出器210があ
り、さらにビシーム認識器220があり、これらは直列
配置で結合する。ビシーム音声特徴抽出器210はパス
110で入力した連続音声信号から音声特徴ベクトル・
シーケンスを抽出しパス215でこの音声ベクトル・シ
ーケンスを出力する。
【0010】ビシーム認識器220はその音声特徴ベク
トル・シーケンスからビシーム・シーケンスを生成する
がこの音声特徴ベクトル・シーケンスはビシーム音声特
徴抽出器210から出力されたものである。図3は図2
に示すビシーム音声特徴抽出器210の動作の詳細を簡
単に示すブロック図である。図3を参照し説明を続け
る。動作ブロック310においてこの連続音声信号をサ
ンプリングしさらに式、SΛ (n)=S(n)−αS
(n−1)、ただし式中のS(n)はここでサンプリン
グした音声信号でありさらに本例ではα=0.95であ
る、によってプレエンファシスされ、動作ブロック32
0においてSΛ(n)のこのプレエンファシスしたサン
プリング音声信号をフレームにブロックする。
トル・シーケンスからビシーム・シーケンスを生成する
がこの音声特徴ベクトル・シーケンスはビシーム音声特
徴抽出器210から出力されたものである。図3は図2
に示すビシーム音声特徴抽出器210の動作の詳細を簡
単に示すブロック図である。図3を参照し説明を続け
る。動作ブロック310においてこの連続音声信号をサ
ンプリングしさらに式、SΛ (n)=S(n)−αS
(n−1)、ただし式中のS(n)はここでサンプリン
グした音声信号でありさらに本例ではα=0.95であ
る、によってプレエンファシスされ、動作ブロック32
0においてSΛ(n)のこのプレエンファシスしたサン
プリング音声信号をフレームにブロックする。
【0011】動作ブロック330においてハミング窓を
適用するがこれは30msの幅と10msのシフトを有
するものである。この結果得られた特徴ベクトル・シー
ケンスを100サンプル/秒の音声領域レートでパス3
35で出力する。ここでこの技術分野の当業者には勿論
明白に理解できることであるが他の音声領域サンプリン
グ・レートも本発明の特定の利用の場合の要件に応じ容
易に適用可能である。動作ブロック340において10
次の自己相関分析と動作ブロック350において線形予
測分析(“LPC”)のケプストラム分析をこの特徴ベ
クトルについてそれぞれ行う。LPCのケプストラム分
析は例えば、下記の記載例のように既知である。例え
ば、C.H.Lee ら、“Improved Acoustic Modeling for S
peaker Independent Large Vocabulary Continuous Spe
ech Recognition,”Computer Speech and Language,103
-127,1992 を参照のこと。
適用するがこれは30msの幅と10msのシフトを有
するものである。この結果得られた特徴ベクトル・シー
ケンスを100サンプル/秒の音声領域レートでパス3
35で出力する。ここでこの技術分野の当業者には勿論
明白に理解できることであるが他の音声領域サンプリン
グ・レートも本発明の特定の利用の場合の要件に応じ容
易に適用可能である。動作ブロック340において10
次の自己相関分析と動作ブロック350において線形予
測分析(“LPC”)のケプストラム分析をこの特徴ベ
クトルについてそれぞれ行う。LPCのケプストラム分
析は例えば、下記の記載例のように既知である。例え
ば、C.H.Lee ら、“Improved Acoustic Modeling for S
peaker Independent Large Vocabulary Continuous Spe
ech Recognition,”Computer Speech and Language,103
-127,1992 を参照のこと。
【0012】動作ブロック360においてこのLPC分
析のパス355での出力はケプストラム重み付けされそ
の1次のケプストラム特徴ベクトルを形成する。動作ブ
ロック370においてこの1次のケプストラム特徴ベク
トルに高次ケプストラムの特徴とエネルギー(すなわ
ち、微係数のΔ、ΔΔケプストラムとΔ、ΔΔエネルギ
ー)を加える。次にパス375のこの音声特徴ベクトル
・シーケンスはビシーム認識器220(図2)によって
処理される。次に図4を参照し説明を続けるが、これは
ビシーム認識器220の動作を簡単に示すブロック略図
である。動作ブロック410においてビシーム認識器2
20はこの音声特徴ベクトル・シーケンスを復号化する
がこれは例えば、既知のビタービの復号化とアラインメ
ントのスキームを用い、蓄積機構420からのビシーム
IDによって復号化する。
析のパス355での出力はケプストラム重み付けされそ
の1次のケプストラム特徴ベクトルを形成する。動作ブ
ロック370においてこの1次のケプストラム特徴ベク
トルに高次ケプストラムの特徴とエネルギー(すなわ
ち、微係数のΔ、ΔΔケプストラムとΔ、ΔΔエネルギ
ー)を加える。次にパス375のこの音声特徴ベクトル
・シーケンスはビシーム認識器220(図2)によって
処理される。次に図4を参照し説明を続けるが、これは
ビシーム認識器220の動作を簡単に示すブロック略図
である。動作ブロック410においてビシーム認識器2
20はこの音声特徴ベクトル・シーケンスを復号化する
がこれは例えば、既知のビタービの復号化とアラインメ
ントのスキームを用い、蓄積機構420からのビシーム
IDによって復号化する。
【0013】ビシームIDは、例えば、既知の連続密度
の隠れマルコフモデル(“HMM”)によって記述され
る。動作ブロック410においてこの特徴ベクトル・シ
ーケンスはフレーム同期または非同期で復号化すること
ができる。知られていることであるがビシームは非常に
短い音声事象に相当しサブフォニーム・レベルであるこ
とが多い。したがって本発明ではその音声信号からビシ
ームを正確に識別するためには精密な時間分解能を用い
る。本発明の実施のこの形態例では、前述のように、こ
のビシーム音声特徴抽出器210は100サンプル/秒
の音声領域サンプリング・レートで特徴ベクトル・シー
ケンスを出力する。そこでビシーム・シーケンス・ジェ
ネレータ120はこのレートでビシーム・シーケンスを
生成する。
の隠れマルコフモデル(“HMM”)によって記述され
る。動作ブロック410においてこの特徴ベクトル・シ
ーケンスはフレーム同期または非同期で復号化すること
ができる。知られていることであるがビシームは非常に
短い音声事象に相当しサブフォニーム・レベルであるこ
とが多い。したがって本発明ではその音声信号からビシ
ームを正確に識別するためには精密な時間分解能を用い
る。本発明の実施のこの形態例では、前述のように、こ
のビシーム音声特徴抽出器210は100サンプル/秒
の音声領域サンプリング・レートで特徴ベクトル・シー
ケンスを出力する。そこでビシーム・シーケンス・ジェ
ネレータ120はこのレートでビシーム・シーケンスを
生成する。
【0014】比較すると、当業者には分ることである
が、その映像領域フレーム・レートは15ないし30フ
レーム/秒が通常である。このレートの不一致を解決す
るためシーケンス・トランスフォーマ130(図1)は
パス125での高レートの音声領域ビシーム・シーケン
スを低レートの映像領域ビシーム・シーケンスに変換す
る。この機能をシーケンス・トランスフォーマ130は
所定の基準によって行うが、これには例えば、その音声
領域におけるビシームの生理的音声規則があり、またそ
の映像領域におけるビシームの視知覚があり、さらに他
の知識ベースの基準がある。これら所定の変換基準は、
例えば、変換基準蓄積機構140を用いて蓄積すること
ができるが、これは図1に示すようにパス145を介し
シーケンス・トランスフォーマ130に結合するもので
ある。
が、その映像領域フレーム・レートは15ないし30フ
レーム/秒が通常である。このレートの不一致を解決す
るためシーケンス・トランスフォーマ130(図1)は
パス125での高レートの音声領域ビシーム・シーケン
スを低レートの映像領域ビシーム・シーケンスに変換す
る。この機能をシーケンス・トランスフォーマ130は
所定の基準によって行うが、これには例えば、その音声
領域におけるビシームの生理的音声規則があり、またそ
の映像領域におけるビシームの視知覚があり、さらに他
の知識ベースの基準がある。これら所定の変換基準は、
例えば、変換基準蓄積機構140を用いて蓄積すること
ができるが、これは図1に示すようにパス145を介し
シーケンス・トランスフォーマ130に結合するもので
ある。
【0015】レートの変換に加えて、シーケンス・トラ
ンスフォーマ130はまた所定の知識ベース規則にした
がって画像の平滑化とエラーの修正を行う。この低レー
トの映像領域ビシーム・シーケンスに応答してシーケン
ス・トランスフォーマ130はパス147で口形を表す
口パラメタ・シーケンスを出力する。この口パラメタは
その映像領域フレーム・レートで出力される。例えば、
本実施例では、この映像フレーム・レートは30フレー
ム/秒であり、したがって口パラメタは30口パラメタ
・シーケンス/秒のレートで出力される。この口パラメ
タは口パラメタ・ルックアップ・テーブルに蓄積され
る。適当なルックアップ・テーブルの一例を表1に示
す。
ンスフォーマ130はまた所定の知識ベース規則にした
がって画像の平滑化とエラーの修正を行う。この低レー
トの映像領域ビシーム・シーケンスに応答してシーケン
ス・トランスフォーマ130はパス147で口形を表す
口パラメタ・シーケンスを出力する。この口パラメタは
その映像領域フレーム・レートで出力される。例えば、
本実施例では、この映像フレーム・レートは30フレー
ム/秒であり、したがって口パラメタは30口パラメタ
・シーケンス/秒のレートで出力される。この口パラメ
タは口パラメタ・ルックアップ・テーブルに蓄積され
る。適当なルックアップ・テーブルの一例を表1に示
す。
【表1】
【0016】表1においてはこの口パラメタは図5に図
示するこの口周辺の6個の唇の特徴点の座標が示され
る。本発明の実施のこの形態例では唇の特徴点は6個が
用いられているが、本発明では他の数の特徴点を用いる
こともその意図する範囲に含まれる。さらにこの技術分
野の当業者には明白に理解できることであるが、本発明
ではその顔の他の周辺部分の特徴点の制御を所望する利
用の場合も一部にはある。例えば、このアニメーション
にした最終画像を外見上さらに自然にするためその目部
や頭部を制御することもまた可能である。図6は図1に
図示するシーケンス・トランスフォーマ130の動作の
フローを簡単に示すフローチャートである。本発明にお
いて音声領域レートから映像領域レートへの変換は下記
の3ステップで実現される。
示するこの口周辺の6個の唇の特徴点の座標が示され
る。本発明の実施のこの形態例では唇の特徴点は6個が
用いられているが、本発明では他の数の特徴点を用いる
こともその意図する範囲に含まれる。さらにこの技術分
野の当業者には明白に理解できることであるが、本発明
ではその顔の他の周辺部分の特徴点の制御を所望する利
用の場合も一部にはある。例えば、このアニメーション
にした最終画像を外見上さらに自然にするためその目部
や頭部を制御することもまた可能である。図6は図1に
図示するシーケンス・トランスフォーマ130の動作の
フローを簡単に示すフローチャートである。本発明にお
いて音声領域レートから映像領域レートへの変換は下記
の3ステップで実現される。
【0017】すなわち、レート変換と重み付け移動平均
と知識ベース平滑化の3ステップである。本プロセスは
パス610で入りここでビシームViは100サンプル
/秒の音声領域レートで入力される。動作ブロック61
0においてフレーム・カウンタcならびにインデックス
i、jおよびkはゼロに初期化される。動作ブロック6
20においてこのフレーム・カウンタcは各処理ビシー
ムに対し0.3だけインクリメントされる。動作ブロッ
ク630においてこの映像フレーム数fを計算するが、
これは切捨て操作を行った後のcの値である。判断ブロ
ック640においてこのフレーム・カウンタfがそのイ
ンデックスkより大きい場合、新規フレームが生成され
る。
と知識ベース平滑化の3ステップである。本プロセスは
パス610で入りここでビシームViは100サンプル
/秒の音声領域レートで入力される。動作ブロック61
0においてフレーム・カウンタcならびにインデックス
i、jおよびkはゼロに初期化される。動作ブロック6
20においてこのフレーム・カウンタcは各処理ビシー
ムに対し0.3だけインクリメントされる。動作ブロッ
ク630においてこの映像フレーム数fを計算するが、
これは切捨て操作を行った後のcの値である。判断ブロ
ック640においてこのフレーム・カウンタfがそのイ
ンデックスkより大きい場合、新規フレームが生成され
る。
【0018】fがkより小さい場合、動作ブロック65
0に示すようにこの現入力ビシームをバッファに蓄積す
る。ここで動作ブロック650においてビシームはイン
デックスBjで示される。このバッファに蓄積されるビ
シーム数は3と4間に変ることは明らかである。動作ブ
ロック660においてそのインデックスiとjは1だけ
インクリメントされ、制御は動作ブロック620に進
む。動作ブロック670においてこの映像領域のビシー
ムVΛfをその入力する音声領域ビシームViに等しいと
してそれを求める。動作ブロック680において重み付
け移動平均をこの映像領域ビシームに適用する。図7は
この重み付け移動平均プロセスの説明例を簡単に示すブ
ロック図である。
0に示すようにこの現入力ビシームをバッファに蓄積す
る。ここで動作ブロック650においてビシームはイン
デックスBjで示される。このバッファに蓄積されるビ
シーム数は3と4間に変ることは明らかである。動作ブ
ロック660においてそのインデックスiとjは1だけ
インクリメントされ、制御は動作ブロック620に進
む。動作ブロック670においてこの映像領域のビシー
ムVΛfをその入力する音声領域ビシームViに等しいと
してそれを求める。動作ブロック680において重み付
け移動平均をこの映像領域ビシームに適用する。図7は
この重み付け移動平均プロセスの説明例を簡単に示すブ
ロック図である。
【0019】ブロック720においてこのバッファ71
0に蓄積されたビシームB0、B1…Bjを、例えば、前
記表1のようなビシーム・テーブル730を用いて復号
化する。重み付け合計をブロック680からこの復号化
口パラメタに適用するがこれはそのバッファされたビシ
ームに対応するものであり、そして新規集合の口パラメ
タが生成される。図6に戻り説明を続ける。動作ブロッ
ク680からこの重み付け移動平均した口パラメタは動
作ブロック690において知識ベース平滑化が行われ
る。この動作は人間である話者の生理的特性に基づくも
のである。例えば、人間の音声分節は物理的な規則で限
定され、そこで口は一方の極端な位置から他方の極端な
位置へ瞬間的に移動することは不可能である。
0に蓄積されたビシームB0、B1…Bjを、例えば、前
記表1のようなビシーム・テーブル730を用いて復号
化する。重み付け合計をブロック680からこの復号化
口パラメタに適用するがこれはそのバッファされたビシ
ームに対応するものであり、そして新規集合の口パラメ
タが生成される。図6に戻り説明を続ける。動作ブロッ
ク680からこの重み付け移動平均した口パラメタは動
作ブロック690において知識ベース平滑化が行われ
る。この動作は人間である話者の生理的特性に基づくも
のである。例えば、人間の音声分節は物理的な規則で限
定され、そこで口は一方の極端な位置から他方の極端な
位置へ瞬間的に移動することは不可能である。
【0020】迅速な発声状態ではこの口形は中間位置に
移動しその次のビシームを処理する前にこの次の移行に
備える。したがってこの知識ベースの平滑化動作は、そ
の音声領域における生理的音声分節規則と映像領域にお
けるその口形の視知覚に基づき処理することができる。
さらに加えて、不自然な高周波運動があるが、これはそ
の音声領域の誤って生成されたビシームから生じうるも
ので、これをその平滑化動作で除去することができる。
動作ブロック690におけるこの知識ベース平滑化処理
後、制御は動作ブロック695に進みここでこのインデ
ックスkをそのフレーム数fに等しくする。動作ブロッ
ク697においてそのインデックスjをゼロに再初期化
しそのインデックスiを1だけインクリメントする。
移動しその次のビシームを処理する前にこの次の移行に
備える。したがってこの知識ベースの平滑化動作は、そ
の音声領域における生理的音声分節規則と映像領域にお
けるその口形の視知覚に基づき処理することができる。
さらに加えて、不自然な高周波運動があるが、これはそ
の音声領域の誤って生成されたビシームから生じうるも
ので、これをその平滑化動作で除去することができる。
動作ブロック690におけるこの知識ベース平滑化処理
後、制御は動作ブロック695に進みここでこのインデ
ックスkをそのフレーム数fに等しくする。動作ブロッ
ク697においてそのインデックスjをゼロに再初期化
しそのインデックスiを1だけインクリメントする。
【0021】そして制御は動作ブロック620に進み前
記プロセスを反復する。好都合なことであるが、この口
パラメタはシーケンス・トランスフォーマ130(図
1)によってリアルタイムに生成される。さらに加え
て、この音声信号に対応する口形を生成するのに音声支
援画像プロセッサの“トレーニング”は不要であるの
で、本発明はいずれの話者の場合でも好都合に実施で
き、その話者は何らの特定のアクションをする必要もな
く、さらに語彙にも制限がなく実施できる。構造変形ジ
ェネレータ150(図1)は、パス147で受信した口
パラメタに応答し3次元(“3D”)ワイヤフレーム顔
モデルを制御する信号を生成する。図8に3Dワイヤフ
レーム顔モデルを例示するがこれは約500のポリゴン
・エレメントの格子からできており、この中の約80を
その口部に用いている。
記プロセスを反復する。好都合なことであるが、この口
パラメタはシーケンス・トランスフォーマ130(図
1)によってリアルタイムに生成される。さらに加え
て、この音声信号に対応する口形を生成するのに音声支
援画像プロセッサの“トレーニング”は不要であるの
で、本発明はいずれの話者の場合でも好都合に実施で
き、その話者は何らの特定のアクションをする必要もな
く、さらに語彙にも制限がなく実施できる。構造変形ジ
ェネレータ150(図1)は、パス147で受信した口
パラメタに応答し3次元(“3D”)ワイヤフレーム顔
モデルを制御する信号を生成する。図8に3Dワイヤフ
レーム顔モデルを例示するがこれは約500のポリゴン
・エレメントの格子からできており、この中の約80を
その口部に用いている。
【0022】この3Dワイヤフレーム顔モデルを処理し
て顔の動きを表現するがこれは通常の変形またはモーフ
ィングの方法を用いてこのワイヤフレームの格子点を制
御して行う。このような方法の一つに次例を挙げること
ができる。例えば、K.Akizawa ら、“Model-Based Anal
ysis Synthesis Image Coding(MBASIC)System for aPer
son's Face ”、Signal Processing:Image Communicati
ons 1,139-152,1989を参照のこと。この3Dワイヤフレ
ーム200上の格子点のすべてを独立して制御する必要
はない、というのは1個の格子点の動きは隣接する格子
点に影響を及ぼすからである。したがって本発明のこの
説明例では図5に示す6個の特徴点に対応する6個の格
子点を構造変形ジェネレータ150がパス147で受信
した口パラメタに含まれる座標を用いて制御する。
て顔の動きを表現するがこれは通常の変形またはモーフ
ィングの方法を用いてこのワイヤフレームの格子点を制
御して行う。このような方法の一つに次例を挙げること
ができる。例えば、K.Akizawa ら、“Model-Based Anal
ysis Synthesis Image Coding(MBASIC)System for aPer
son's Face ”、Signal Processing:Image Communicati
ons 1,139-152,1989を参照のこと。この3Dワイヤフレ
ーム200上の格子点のすべてを独立して制御する必要
はない、というのは1個の格子点の動きは隣接する格子
点に影響を及ぼすからである。したがって本発明のこの
説明例では図5に示す6個の特徴点に対応する6個の格
子点を構造変形ジェネレータ150がパス147で受信
した口パラメタに含まれる座標を用いて制御する。
【0023】そこでパス147で受信した口パラメタの
シーケンスはこの3Dワイヤフレーム顔モデルの口の動
きのシーケンスを記述する。構造変形ジェネレータ15
0はその映像領域において動作するが本説明例ではこれ
は30フレーム/秒のレートである。したがって映像シ
ーケンスがアニメーションとする口部を持つワイヤフレ
ーム画像を記述するような3Dワイヤフレームの映像シ
ーケンスは、構造変形ジェネレータ150によって30
映像フレーム/秒のレートでパス155に出力される。
図9と図10にこのアニメーションを表す2個の映像フ
レームの説明例を示す。テクスチャ・マッパ160はパ
ス155でこのアニメーションとする3Dワイヤフレー
ムの映像シーケンスを受信する。
シーケンスはこの3Dワイヤフレーム顔モデルの口の動
きのシーケンスを記述する。構造変形ジェネレータ15
0はその映像領域において動作するが本説明例ではこれ
は30フレーム/秒のレートである。したがって映像シ
ーケンスがアニメーションとする口部を持つワイヤフレ
ーム画像を記述するような3Dワイヤフレームの映像シ
ーケンスは、構造変形ジェネレータ150によって30
映像フレーム/秒のレートでパス155に出力される。
図9と図10にこのアニメーションを表す2個の映像フ
レームの説明例を示す。テクスチャ・マッパ160はパ
ス155でこのアニメーションとする3Dワイヤフレー
ムの映像シーケンスを受信する。
【0024】テクスチャ・マッパ160はテクスチャ蓄
積機構165から蓄積した表面テクスチャを各映像フレ
ームの3Dワイヤフレーム画像に投射またはマップす
る。テクスチャ・マッピングは従来技術で既知であるた
めここでは詳述しない。図11と図12に表面テクスチ
ャを適用した図9と図10に示す3Dワイヤフレーム画
像を示す。このアニメーションとする映像はパス170
で30フレーム/秒の映像領域フレーム・レートで出力
される。図13に本発明の特徴を組込む通信システム1
300の説明例を示す。ここで、例えば、発声信号のよ
うな音声信号をパス1310で音声符号器1320に入
力する。音声符号器は既知であってこれを通常用いて音
声信号をディジタル・ビットストリームにディジタル化
および/または圧縮化する、ただしこれはこの通信シス
テムではさらに小さい帯域幅を用いるものである。
積機構165から蓄積した表面テクスチャを各映像フレ
ームの3Dワイヤフレーム画像に投射またはマップす
る。テクスチャ・マッピングは従来技術で既知であるた
めここでは詳述しない。図11と図12に表面テクスチ
ャを適用した図9と図10に示す3Dワイヤフレーム画
像を示す。このアニメーションとする映像はパス170
で30フレーム/秒の映像領域フレーム・レートで出力
される。図13に本発明の特徴を組込む通信システム1
300の説明例を示す。ここで、例えば、発声信号のよ
うな音声信号をパス1310で音声符号器1320に入
力する。音声符号器は既知であってこれを通常用いて音
声信号をディジタル・ビットストリームにディジタル化
および/または圧縮化する、ただしこれはこの通信シス
テムではさらに小さい帯域幅を用いるものである。
【0025】次にこの符号化音声信号を伝送システム1
330上で遠隔音声復号器1340に送信する。また音
声復号器も既知であってこれを通常用いてこの圧縮化ビ
ットストリームから元の音声を再構成する。音声復号器
はこの再構成した元の音声信号をパス1350で、例え
ば、電話、音声メール・システムなどの種類の装置(図
示せず)に出力する。この再構成音声信号をまた図1に
示す前記音声支援画像プロセッサ100も受信する。音
声支援画像プロセッサは映像信号をモニタ、テレビ電話
などの種類の映像表示装置に出力する。この技術分野の
当業者には明白に理解できることであるがこの音声支援
画像プロセッサの一部分を通信システム1300の送信
側で行うことも可能である。
330上で遠隔音声復号器1340に送信する。また音
声復号器も既知であってこれを通常用いてこの圧縮化ビ
ットストリームから元の音声を再構成する。音声復号器
はこの再構成した元の音声信号をパス1350で、例え
ば、電話、音声メール・システムなどの種類の装置(図
示せず)に出力する。この再構成音声信号をまた図1に
示す前記音声支援画像プロセッサ100も受信する。音
声支援画像プロセッサは映像信号をモニタ、テレビ電話
などの種類の映像表示装置に出力する。この技術分野の
当業者には明白に理解できることであるがこの音声支援
画像プロセッサの一部分を通信システム1300の送信
側で行うことも可能である。
【0026】例えば、ビシーム・シーケンスジェネレー
タ120(図1)やビシーム・シーケンス・トランスフ
ォーマ130(図1)をその送信器側に配置しその元の
音声信号を受信するよう結合することも可能である。そ
こでさらに口パラメタは伝送システム1330上で通信
システム1300の受信器側に配置した構造変形ジェネ
レータ150(図1)やテクスチャ・マッパ160(図
1)に送信することも可能である。さらにこの口パラメ
タは、別個の回線を介しその受信側に送信することも可
能であり、またはその符号化音声信号と多重化すること
も可能である。図14に本発明の特徴を組込む通信シス
テム1400の説明例を示す。図14のこのシステム例
は図13のシステム例と類似しているが、ただしここで
は映像符号器1410がこの通信システム1400の送
信器側にある。
タ120(図1)やビシーム・シーケンス・トランスフ
ォーマ130(図1)をその送信器側に配置しその元の
音声信号を受信するよう結合することも可能である。そ
こでさらに口パラメタは伝送システム1330上で通信
システム1300の受信器側に配置した構造変形ジェネ
レータ150(図1)やテクスチャ・マッパ160(図
1)に送信することも可能である。さらにこの口パラメ
タは、別個の回線を介しその受信側に送信することも可
能であり、またはその符号化音声信号と多重化すること
も可能である。図14に本発明の特徴を組込む通信シス
テム1400の説明例を示す。図14のこのシステム例
は図13のシステム例と類似しているが、ただしここで
は映像符号器1410がこの通信システム1400の送
信器側にある。
【0027】映像符号器1410はパス1405で映像
信号を受信する。パス1410のこの映像信号は、例え
ば、話者の顔画像とすることができる。映像符号器はこ
の映像信号を符号化しこの符号化映像信号を伝送システ
ム1440を介し映像復号器1420に送信する。また
はこの符号化映像信号を伝送システム1330で送信す
ることができるがこれは異なる回線を使用する、または
同一回線でその符号化音声信号と多重化して行う。映像
の符号器と復号器は既知である。映像復号器1420は
元の映像信号を再構成しそれを音声支援画像プロセッサ
100に出力する。特徴認識やトラッキングのような既
知の方法を用いて音声支援画像プロセッサ100はその
元の顔画像に対しこの3Dワイヤフレーム顔モデルをレ
ジスタすることができる。
信号を受信する。パス1410のこの映像信号は、例え
ば、話者の顔画像とすることができる。映像符号器はこ
の映像信号を符号化しこの符号化映像信号を伝送システ
ム1440を介し映像復号器1420に送信する。また
はこの符号化映像信号を伝送システム1330で送信す
ることができるがこれは異なる回線を使用する、または
同一回線でその符号化音声信号と多重化して行う。映像
の符号器と復号器は既知である。映像復号器1420は
元の映像信号を再構成しそれを音声支援画像プロセッサ
100に出力する。特徴認識やトラッキングのような既
知の方法を用いて音声支援画像プロセッサ100はその
元の顔画像に対しこの3Dワイヤフレーム顔モデルをレ
ジスタすることができる。
【0028】またテクスチャ蓄積機構165(図1)に
蓄積したテクスチャよりむしろこの元の顔画像をその3
Dワイヤフレーム顔モデルに対する表面テクスチャとし
て使用する。このアニメーションとする映像信号を前述
のようにバス1360でビデオ・モニタのような装置に
出力する。音声支援画像プロセッサ100は画像をアニ
メーションとするがこれは話者と見られる画像である。
好都合なことであるが、このアニメーション・スキーム
は通常のテレビ電話より大きい伝送帯域幅の節約を提供
することができるというのは最低で音声支援画像プロセ
ッサ100に送信する必要があるのは1個の映像フレー
ムだけである。この1個のフレーム、または“スナップ
ショット”は、例えば、音声信号送信開始の際、別個の
回線、またはその音声信号と多重化して、送信される。
蓄積したテクスチャよりむしろこの元の顔画像をその3
Dワイヤフレーム顔モデルに対する表面テクスチャとし
て使用する。このアニメーションとする映像信号を前述
のようにバス1360でビデオ・モニタのような装置に
出力する。音声支援画像プロセッサ100は画像をアニ
メーションとするがこれは話者と見られる画像である。
好都合なことであるが、このアニメーション・スキーム
は通常のテレビ電話より大きい伝送帯域幅の節約を提供
することができるというのは最低で音声支援画像プロセ
ッサ100に送信する必要があるのは1個の映像フレー
ムだけである。この1個のフレーム、または“スナップ
ショット”は、例えば、音声信号送信開始の際、別個の
回線、またはその音声信号と多重化して、送信される。
【0029】オプションであるが、追加の映像フレーム
を周期的に映像符号器1410から送信してそのアニメ
ーションとする画像をリフレッシュしたりまたはエラー
訂正を支援することができる。この周期的リフレッシュ
・フレームの場合でも帯域幅の節約は大きい。本発明の
例には、例えば、聴力障害者に音声信号の理解の増強に
映像の役目を提供する手段として所望される例を挙げる
ことができる。当然のことであるが、映像情報は他の関
連でも同様に有用であるというのはこれはさらにパーソ
ナル化した通信を考慮するからである。さらにまた話者
IDは映像情報の付加によって向上しこれにはクレジッ
ト・カードの認定、ホームショッピング、飛行機や車の
予約などの利用の場合に好都合な例を挙げることができ
る。
を周期的に映像符号器1410から送信してそのアニメ
ーションとする画像をリフレッシュしたりまたはエラー
訂正を支援することができる。この周期的リフレッシュ
・フレームの場合でも帯域幅の節約は大きい。本発明の
例には、例えば、聴力障害者に音声信号の理解の増強に
映像の役目を提供する手段として所望される例を挙げる
ことができる。当然のことであるが、映像情報は他の関
連でも同様に有用であるというのはこれはさらにパーソ
ナル化した通信を考慮するからである。さらにまた話者
IDは映像情報の付加によって向上しこれにはクレジッ
ト・カードの認定、ホームショッピング、飛行機や車の
予約などの利用の場合に好都合な例を挙げることができ
る。
【0030】以上の説明は、本発明の実施の一形態例に
関するもので、この技術分野の当業者であれば、本発明
の種々の変形例が考え得るが、それらはいずれも本発明
の技術的範囲に包含される。尚、特許請求の範囲に記載
した参照番号は発明の容易なる理解のためで、その技術
的範囲を制限するよう解釈されるべきではない。
関するもので、この技術分野の当業者であれば、本発明
の種々の変形例が考え得るが、それらはいずれも本発明
の技術的範囲に包含される。尚、特許請求の範囲に記載
した参照番号は発明の容易なる理解のためで、その技術
的範囲を制限するよう解釈されるべきではない。
【0031】
【発明の効果】以上述べたごとく、本発明の方法と装置
によってアニメーションは、リアルタイムで、いずれの
話者の場合でも好都合に実施でき、語彙にも制限が無
く、この話者の側にも何らかの特定のアクションをする
必要もなく実現でき、アニメーション生成が迅速かつ正
確であり、例えば、聴力障害者にとって有用な方法と装
置を提供できる。
によってアニメーションは、リアルタイムで、いずれの
話者の場合でも好都合に実施でき、語彙にも制限が無
く、この話者の側にも何らかの特定のアクションをする
必要もなく実現でき、アニメーション生成が迅速かつ正
確であり、例えば、聴力障害者にとって有用な方法と装
置を提供できる。
【図1】本発明の音声支援画像プロセッサの説明例を簡
単に示すブロック略図である。
単に示すブロック略図である。
【図2】図1のビシーム・シーケンス・ジェネレータの
詳細を示す図である。
詳細を示す図である。
【図3】図2のビシーム音声特徴抽出器の動作の詳細を
簡単に示すブロック略図である。
簡単に示すブロック略図である。
【図4】図2のビシーム認識器の動作の詳細を簡単に示
すブロック略図である。
すブロック略図である。
【図5】顔画像をアニメーションにする際に用いる6個
の特徴点を示す図である。
の特徴点を示す図である。
【図6】図1のシーケンス・トランスフォーマの動作の
フローを簡単に示すフロー・チャートである。
フローを簡単に示すフロー・チャートである。
【図7】本発明の重み付け移動平均プロセスの説明例を
簡単に示すブロック図である。
簡単に示すブロック図である。
【図8】3次元ワイヤフレーム顔モデルの説明例を示す
図である。
図である。
【図9】2個の3次元ワイヤフレーム・モデルの中の1
個の例を図示し本発明の一部の原理の説明例を示す図で
ある。
個の例を図示し本発明の一部の原理の説明例を示す図で
ある。
【図10】2個の3次元ワイヤフレーム・モデルの中の
1個の例を図示し本発明の一部の原理の説明例を示す図
である。
1個の例を図示し本発明の一部の原理の説明例を示す図
である。
【図11】表面テクスチャを適用した図9に示す3次元
ワイヤフレーム画像を示す図である。
ワイヤフレーム画像を示す図である。
【図12】表面テクスチャを適用した図10に示す3次
元ワイヤフレーム画像を示す図である。
元ワイヤフレーム画像を示す図である。
【図13】本発明の特徴を実現する通信システムの説明
例を示す図である。
例を示す図である。
【図14】本発明の特徴を実現する別の通信システムの
説明例を示す図である。
説明例を示す図である。
100 音声支援画像プロセッサ 110 パス 120 ビシーム・シーケンス・ジェネレータ 125 パス 130 シーケンス・トランスフォーマ 140 変換基準蓄積機構 145 パス 147 パス 150 構造変形ジェネレータ 155 パス 160 マッパ 165 テクスチャ蓄積機構 170 パス 200 3次元ワイヤフレーム 210 ビシーム抽出器 215 パス 220 ビシーム認識器 310 サンプリングとプリエンファシス 315 パス 320 フレームにブロック 325 パス 330 窓フレーム 335 パス 340 自己相関分析 345 パス 350 線形予測分析/ケプストラム分析 355 パス 360 ケプストラム重み付け 365 パス 370 高次特徴分析器 375 パス 410 ビシーム認識器(ビタービ復号化とアライメン
ト) 420 ビシームの音声IDモデル(HMM) 710 バッファ 720 復号器 730 ビシーム・テーブル 1300 通信システム 1310 パス 1320 音声符号器 1330 伝送システム 1340 音声復号器 1350 パス 1360 パス 1400 通信システム 1405 パス 1410 映像符号器 1420 映像復号器 1440 伝送システム
ト) 420 ビシームの音声IDモデル(HMM) 710 バッファ 720 復号器 730 ビシーム・テーブル 1300 通信システム 1310 パス 1320 音声符号器 1330 伝送システム 1340 音声復号器 1350 パス 1360 パス 1400 通信システム 1405 パス 1410 映像符号器 1420 映像復号器 1440 伝送システム
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ウー チョー アメリカ合衆国,07922 ニュージャージ ー,バークレー ハイツ、グリーンブライ アー ドライブ 22
Claims (36)
- 【請求項1】 (A)音声領域サンプリング・レートで
音声信号をサンプリングするサンプリング・ステップ
と、 (B)前記音声領域サンプリング・レートに対応する第
1のレートで前記サンプリングした音声信号に応答し第
1のビシーム・シーケンスを生成する生成ステップと、 (C)変換基準の所定の集合にしたがって映像領域フレ
ーム・レートに対応する第2のレートで前記第1のビシ
ーム・シーケンスを第2のビシーム・シーケンスに変換
する変換ステップと、 (D)前記第2のビシーム・シーケンスに応答し画像を
処理する画像処理ステップを有することを特徴とする画
像処理ステップ含有方法。 - 【請求項2】 前記音声領域サンプリング・レートは1
00サンプル/秒のサンプリング・レートであることを
特徴とする請求項1に記載の方法。 - 【請求項3】 前記映像領域サンプリング・レートは1
5フレーム/秒と30フレーム/秒からなるグループか
ら選択されるサンプリング・レートであることを特徴と
する請求項1に記載の方法。 - 【請求項4】 前記変換基準は知識ベース規則を有する
ことを特徴とする請求項1に記載の方法。 - 【請求項5】 前記知識ベース規則は生理的音声分節規
則を有することを特徴とする請求項4に記載の方法。 - 【請求項6】 前記変換基準は前記処理画像の視知覚を
有することを特徴とする請求項1に記載の方法。 - 【請求項7】 前記変換ステップは前記第1のビシーム
・シーケンスの各ビシームに重み付け移動平均を適用す
る適用ステップを有することを特徴とする請求項1に記
載の方法。 - 【請求項8】 前記画像は映像であることを特徴とする
請求項1に記載の方法。 - 【請求項9】 前記画像は話者の顔画像を含むことを特
徴とする請求項1に記載の方法。 - 【請求項10】 前記処理ステップは前記顔画像の口部
をアニメーションにする口部アニメーション・ステップ
を有することを特徴とする請求項9に記載の方法。 - 【請求項11】 前記処理ステップは前記顔画像の目部
をアニメーションにする目部アニメーション・ステップ
を有することを特徴とする請求項9に記載の方法。 - 【請求項12】 前記処理ステップは前記顔画像の頭部
をアニメーションにする頭部アニメーション・ステップ
を有することを特徴とする請求項1に記載の方法。 - 【請求項13】 前記アニメーション・ステップは前記
顔画像に対応する3次元ワイヤフレーム顔モデルを制御
して変形する変形ステップを有することを特徴とする請
求項10に記載の方法。 - 【請求項14】 さらに、前記3次元ワイヤフレーム顔
モデルに表面テクスチャをマッピングするテクスチャ・
マッピング・ステップを有することを特徴とする請求項
13に記載の方法。 - 【請求項15】 (A)伝送システムの送信側で音声信
号を符号化する符号化ステップと、 (B)前記伝送システム上で前記符号化音声信号を送信
する送信ステップと、 (C)前記伝送システムの受信側で前記送信符号化音声
信号を復号化する復号化ステップと、 (D)音声領域サンプリング・レートで前記復号化音声
信号をサンプリングするサンプリング・ステップと、 (E)前記音声領域サンプリング・レートに対応する第
1のレートで前記サンプリングした音声信号に応答し第
1のビシーム・シーケンスを生成する生成ステップと、 (F)映像領域フレーム・レートに対応する第2のレー
トで変換基準の所定の集合にしたがって前記第1のビシ
ーム・シーケンスを第2のビシーム・シーケンスに変換
する変換ステップと、 (G)前記第2のビシーム・シーケンスに応答し画像を
処理する画像処理ステップを有することを特徴とする画
像処理ステップ含有方法。 - 【請求項16】 さらに、前記伝送システムの送信側で
映像信号を符号化する符号化ステップを有することを特
徴とする請求項15に記載の方法。 - 【請求項17】 さらに、前記伝送システム上で前記符
号化映像信号を送信する送信ステップを有することを特
徴とする請求項16に記載の方法。 - 【請求項18】 さらに、前記送信符号化映像信号を復
号化する復号化ステップを有することを特徴とする請求
項16に記載の方法。 - 【請求項19】 さらに、前記復号化映像信号に対し3
次元ワイヤフレーム・モデルをレジスタするレジスタ・
ステップを有することを特徴とする請求項18に記載の
方法。 - 【請求項20】 さらに、前記復号化映像信号に含まれ
る表面テクスチャを前記3次元ワイヤフレーム・モデル
に適用するテクスチャ適用ステップを有することを特徴
とする請求項19に記載の方法。 - 【請求項21】 前記変換ステップを前記伝送システム
の送信側で行うことを特徴とする請求項15に記載の方
法。 - 【請求項22】 (A)音声領域サンプリング・レート
で音声信号をサンプリングするサンプリング手段と、 (B)前記音声領域サンプリング・レートに対応する第
1のレートで前記サンプリングした音声信号に応答し第
1のビシーム・シーケンスを生成する生成手段と、 (C)変換基準の所定の集合にしたがって映像領域フレ
ーム・レートに対応する第2のレートで前記第1のビシ
ーム・シーケンスを第2のビシーム・シーケンスに変換
する変換手段と、 (D)前記第2のビシーム・シーケンスに応答し画像を
処理する画像処理手段を有することを特徴とする画像処
理手段含有装置。 - 【請求項23】 (A)音声領域サンプリング・レート
に対応する第1のレートでサンプリングした音声信号に
応答し第1のビシーム・シーケンスを生成するビシーム
・シーケンス・ジェネレータ(120)と、 (B)前記ビシーム・シーケンス・ジェネレータに結合
し変換基準の所定の集合にしたがって映像領域フレーム
・レートに対応する第2のレートで前記第1のビシーム
・シーケンスを第2のビシーム・シーケンスに変換する
ビシーム・シーケンス・トランスフォーマ(130)
と、 (C)前記ビシーム・シーケンス・トランスフォーマに
結合し前記第2のビシーム・シーケンスに応答し画像を
処理する画像プロセッサ(150、160)を有するこ
とを特徴とする画像プロセッサ含有装置。 - 【請求項24】 前記音声領域サンプリング・レートは
100サンプル/秒のサンプリング・レートであること
を特徴とする請求項23に記載の装置。 - 【請求項25】 前記映像領域サンプリング・レートは
15フレーム/秒と30フレーム/秒からなるグループ
から選択されるサンプリング・レートであることを特徴
とする請求項23に記載の装置。 - 【請求項26】 前記変換基準は知識ベース規則を有す
ることを特徴とする請求項23に記載の装置。 - 【請求項27】 前記知識ベース規則は生理的音声分節
規則を有することを特徴とする請求項26に記載の装
置。 - 【請求項28】 前記変換基準は前記処理画像の視知覚
を有することを特徴請求項23に記載の装置。 - 【請求項29】 前記ビシーム・シーケンス・トランス
フォーマは前記第1のビシーム・シーケンスの各ビシー
ムに重み付け移動平均を適用する重み付け移動平均適用
手段を有することを特徴とする請求項23に記載の装
置。 - 【請求項30】 前記画像は映像であることを特徴とす
る請求項23に記載の装置。 - 【請求項31】 前記画像は話者の顔画像を有すること
を特徴とする請求項23に記載の装置。 - 【請求項32】 前記画像プロセッサは前記顔画像の口
部をアニメーションにする口部アニメーション手段を有
することを特徴とする請求項31に記載の手段。 - 【請求項33】 前記画像プロセッサは前記顔画像の目
部をアニメーションにする目部アニメーション手段を有
することを特徴とする請求項31に記載の装置。 - 【請求項34】 前記画像プロセッサは前記顔画像の頭
部をアニメーションにする頭部アニメーション手段を有
することを特徴とする請求項31に記載の装置。 - 【請求項35】 前記画像プロセッサは前記顔画像に対
応する3次元ワイヤフレーム顔モデルを制御して変形す
る構造変形ジェネレータ(150)を有することを特徴
とする請求項34に記載の装置。 - 【請求項36】 前記画像プロセッサは前記3次元ワイ
ヤフレーム顔モデルに表面テクスチャをマッピングする
テクスチャ・マッパ(160)を有することを特徴とす
る請求項35に記載の装置。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US33528594A | 1994-11-07 | 1994-11-07 | |
| US335285 | 1994-11-07 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH08235384A true JPH08235384A (ja) | 1996-09-13 |
Family
ID=23311104
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP7311639A Pending JPH08235384A (ja) | 1994-11-07 | 1995-11-07 | 音響支援画像処理 |
Country Status (7)
| Country | Link |
|---|---|
| EP (1) | EP0710929A3 (ja) |
| JP (1) | JPH08235384A (ja) |
| KR (1) | KR960018988A (ja) |
| AU (1) | AU3668095A (ja) |
| CA (1) | CA2162199A1 (ja) |
| MX (1) | MX9504648A (ja) |
| TW (1) | TW307090B (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003529861A (ja) * | 2000-03-31 | 2003-10-07 | テレコム・イタリア・ラブ・エツセ・ピー・アー | 音響信号により駆動される人間の顔の合成モデルのアニメ化方法 |
| JP2022518989A (ja) * | 2019-12-26 | 2022-03-18 | 浙江大学 | 音声信号により駆動される顔アニメーションの生成方法 |
Families Citing this family (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0990973A (ja) * | 1995-09-22 | 1997-04-04 | Nikon Corp | 音声処理装置 |
| US6014625A (en) * | 1996-12-30 | 2000-01-11 | Daewoo Electronics Co., Ltd | Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model |
| SE519679C2 (sv) | 1997-03-25 | 2003-03-25 | Telia Ab | Metod vid talsyntes |
| SE520065C2 (sv) | 1997-03-25 | 2003-05-20 | Telia Ab | Anordning och metod för prosodigenerering vid visuell talsyntes |
| SE511927C2 (sv) * | 1997-05-27 | 1999-12-20 | Telia Ab | Förbättringar i, eller med avseende på, visuell talsyntes |
| WO1999012128A1 (en) * | 1997-09-01 | 1999-03-11 | Koninklijke Philips Electronics N.V. | A method and apparatus for synchronizing a computer-animated model with an audio wave output |
| JP4236815B2 (ja) | 1998-03-11 | 2009-03-11 | マイクロソフト コーポレーション | 顔合成装置および顔合成方法 |
| IT1314671B1 (it) * | 1998-10-07 | 2002-12-31 | Cselt Centro Studi Lab Telecom | Procedimento e apparecchiatura per l'animazione di un modellosintetizzato di volto umano pilotata da un segnale audio. |
| EP1108246A1 (en) * | 1999-06-24 | 2001-06-20 | Koninklijke Philips Electronics N.V. | Post-synchronizing an information stream |
| KR20020022504A (ko) * | 2000-09-20 | 2002-03-27 | 박종만 | 3차원 캐릭터의 동작, 얼굴 표정, 립싱크 및 립싱크된음성 합성을 지원하는 3차원 동영상 저작 도구의 제작시스템 및 방법 |
| US6662154B2 (en) * | 2001-12-12 | 2003-12-09 | Motorola, Inc. | Method and system for information signal coding using combinatorial and huffman codes |
| EP1912175A1 (en) * | 2006-10-09 | 2008-04-16 | Muzlach AG | System and method for generating a video signal |
| FR3033660A1 (fr) | 2015-03-12 | 2016-09-16 | Univ De Lorraine | Dispositif de traitement d'image |
| WO2021055208A1 (en) | 2019-09-17 | 2021-03-25 | Lexia Learning Systems Llc | System and method for talking avatar |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4913539A (en) * | 1988-04-04 | 1990-04-03 | New York Institute Of Technology | Apparatus and method for lip-synching animation |
| GB9019829D0 (en) * | 1990-09-11 | 1990-10-24 | British Telecomm | Speech analysis and image synthesis |
| MY109854A (en) * | 1992-12-21 | 1997-09-30 | Casio Computer Co Ltd | Object image display devices |
-
1995
- 1995-11-06 KR KR1019950039978A patent/KR960018988A/ko not_active Withdrawn
- 1995-11-06 MX MX9504648A patent/MX9504648A/es unknown
- 1995-11-06 CA CA002162199A patent/CA2162199A1/en not_active Abandoned
- 1995-11-06 AU AU36680/95A patent/AU3668095A/en not_active Abandoned
- 1995-11-06 EP EP95307884A patent/EP0710929A3/en not_active Withdrawn
- 1995-11-07 JP JP7311639A patent/JPH08235384A/ja active Pending
- 1995-11-08 TW TW084111895A patent/TW307090B/zh active
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003529861A (ja) * | 2000-03-31 | 2003-10-07 | テレコム・イタリア・ラブ・エツセ・ピー・アー | 音響信号により駆動される人間の顔の合成モデルのアニメ化方法 |
| JP4913973B2 (ja) * | 2000-03-31 | 2012-04-11 | テレコム・イタリア・エッセ・ピー・アー | 音響信号により駆動される人間の顔の合成モデルのアニメ化方法 |
| JP2022518989A (ja) * | 2019-12-26 | 2022-03-18 | 浙江大学 | 音声信号により駆動される顔アニメーションの生成方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CA2162199A1 (en) | 1996-05-08 |
| AU3668095A (en) | 1996-05-16 |
| KR960018988A (ko) | 1996-06-17 |
| EP0710929A3 (en) | 1996-07-03 |
| EP0710929A2 (en) | 1996-05-08 |
| MX9504648A (es) | 1997-02-28 |
| TW307090B (ja) | 1997-06-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6330023B1 (en) | Video signal processing systems and methods utilizing automated speech analysis | |
| US8725507B2 (en) | Systems and methods for synthesis of motion for animation of virtual heads/characters via voice processing in portable devices | |
| EP1203352B1 (en) | Method of animating a synthesised model of a human face driven by an acoustic signal | |
| JP2518683B2 (ja) | 画像合成方法及びその装置 | |
| CN112785671B (zh) | 虚假人脸动画合成方法 | |
| JPH08235384A (ja) | 音響支援画像処理 | |
| US20040120554A1 (en) | System and method for real time lip synchronization | |
| CN112001992A (zh) | 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统 | |
| Ostermann | Face Animation in MPEG‐4 | |
| CN114360491A (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
| JPH10247254A (ja) | 唇動きパラメータ発生装置 | |
| CN101930619A (zh) | 基于协同过滤算法的实时语音驱动人脸唇部同步动画系统 | |
| CN108648745B (zh) | 一种由唇部图像序列到语音编码参数的转换方法 | |
| US6839672B1 (en) | Integration of talking heads and text-to-speech synthesizers for visual TTS | |
| CN116828129A (zh) | 一种超清2d数字人生成方法及系统 | |
| Capin et al. | Very low bit rate coding of virtual human animation in MPEG-4 | |
| Brooke et al. | Two-and Three-Dimensional Audio-Visual Speech Synthesis. | |
| Hong et al. | Real-time speech-driven 3D face animation | |
| Chou et al. | Speech recognition for image animation and coding | |
| Chen et al. | Lip synchronization in talking head video utilizing speech information | |
| Lin et al. | A speech driven talking head system based on a single face image | |
| CN120708647B (zh) | 一种基于语音驱动的唇型生成方法、设备及介质 | |
| Chen et al. | Audio visual interaction in multimedia | |
| Vanroose et al. | From speech to 3D face animation | |
| CN121304866B (zh) | 一种基于声音驱动的数字人生成方法 |