JPH08235384A

JPH08235384A - 音響支援画像処理

Info

Publication number: JPH08235384A
Application number: JP7311639A
Authority: JP
Inventors: Homer H Chen; エッチ．チェンホーマー; Wu Chou; チョーウー
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1994-11-07
Filing date: 1995-11-07
Publication date: 1996-09-13
Also published as: CA2162199A1; AU3668095A; KR960018988A; EP0710929A3; EP0710929A2; MX9504648A; TW307090B

Abstract

(57)【要約】【課題】音声支援画像処理の方法と手段を提供する。【解決手段】音声信号をサンプリングしこのサンプリ
ングした音声信号に応答してその音声領域サンプリング
レートに対応する第１のレートで第１のビシームシーケ
ンスを生成し映像領域フレームレートに対応する第２の
レートで変換基準を用いて前記第１のビシームシーケン
スを第２のビシームシーケンスに変換しこの第２のビシ
ームシーケンスに応答して画像を処理する。例えば、表
面テクスチャをマッピングする３次元ワイヤフレーム顔
モデルを用い話者の顔の映像をアニメーションとするが
音声信号から抽出したレート変換ビシームシーケンスに
応答しその映像の口部が音声に応じて動くよう前記顔モ
デルを構造変形する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識と画像ア
ニメーションに係り、特に音声支援画像処理に関する。

【０００２】

【従来の技術】聴覚障害者が音声コミュニケーションを
理解する際の支援には手話以外に古くから有用な手段と
して口話または視話の読唇術がある。最近音声コミュニ
ケーション理解の支援に画像情報を利用する考えが成功
裡に進展し機械による音声認識の精度が向上し画像支援
音声認識は進展しつつある。ところがこの逆の機械によ
る画像情報の処理の支援に音声コミュニケーションを利
用する音声支援画像処理にはまだ満足すべきものは全く
得られていない。さらに具体的には、映像のアニメーシ
ョンの支援に発話音声のような音声情報を利用できれば
望ましいことである。特に、このようなアニメーション
が、リアルタイムで、いずれの話者の場合でも好都合に
実施でき、語彙にも制限が無く、さらにこの話者の側に
は何らかの特定のアクションをする必要も無く、実現で
きれば望ましいことである。

【０００３】

【発明が解決しようとする課題】音声支援画像処理によ
る映像のアニメーションの実現が望まれている。

【０００４】

【課題を解決するための手段】本発明は、以下に説明す
る新規な方法と装置によって音声支援画像処理を行い前
記課題を解決しこの技術分野の進歩を遂げる。すなわち
本発明の方法には次のステップが行われる。音声信号を
音声領域サンプリング・レートでサンプリングするサン
プリング・ステップがある。さらにこの音声領域サンプ
リング・レートに対応する第１のレートで前記サンプリ
ングした音声信号に応答し第１のビシーム・シーケンス
を生成する生成ステップがある。さらに変換基準の所定
の集合を用いて映像領域フレーム・レートに対応する第
２のレートで前記第１のビシーム・シーケンスを第２の
ビシーム・シーケンスに変換する変換ステップがある。
さらにこの第２のビシーム・シーケンスに応答し画像を
処理する画像処理ステップがある。

【０００５】本発明を実施の一形態例で説明する。人間
である話者の顔の映像を表面テクスチャをマッピングし
た３次元ワイヤフレーム顔モデルを用いてアニメーショ
ンとする。この３次元ワイヤフレーム顔モデルを音声信
号から抽出したレート変換ビシーム・シーケンスに応答
し構造的に変形しこの映像の口部がその音声に対応し動
く。好都合なことに本アニメーションは、リアルタイム
で、いずれの話者の場合でも実施でき、語彙にも制限が
無く、この話者の側には何らかの特定のアクションをす
る必要もない。

【０００６】

【発明の実施の形態】図面を参照し実施例で本発明が開
示する方法と装置を説明する。本発明は音声信号から抽
出したパラメタを用いてアニメーションとする映像を合
成する方法と装置を開示する。本発明の最初に説明する
実施例では話者のアニメーションとする顔画像を音声信
号に応答し合成する。本発明のこの実施例には多数の利
点があって、例えば、ビデオ・ゲームや漫画動画の機械
によるアニメーションの生成が迅速かつ正確である利点
を挙げることができる。漫画動画キャラクタの口と声優
の音声を一致させるアラインメントは、漫画動画とビデ
オ・ゲームの作成に付随する難しく時間の掛かるプロセ
スの一つであると考えられてきた。

【０００７】本発明のこの最初の実施例のこれらの利点
は以下の記述から明白である。図１は本発明の音声支援
画像プロセッサ１００を簡単に示すブロック図である。
音声支援であることから明らかなことは、画像プロセッ
サ１００はその音声領域と映像領域の両者で動作するこ
とである。画像プロセッサ１００は、ビシーム・シーケ
ンス・ジェネレータ１２０と、ビシーム・シーケンス・
トランスフォマ１３０と、構造変形ジェネレータ１５０
と、テクスチャ・マッパ１６０とを有するが、これらは
図示するように直列配置に結合している。次にこれら各
コンポーネントの動作の詳細を以下に説明する。説明を
明瞭にするためこの実施例ではそれぞれ個別の機能と動
作のブロックから構成されているものとして説明する。

【０００８】これらブロックが表す機能と動作は、ソフ
トウェアを実行することができるハードウェアも含め共
用かまたは専用かのいずれかのハードウェアを用いて実
施することができる。例えば、図１に示すこの音声支援
画像プロセッサ１００の機能は１個の共用プロセッサに
よって提供することができる。ただしここで注記すべき
ことはこの“プロセッサ”の用語はソフトウェアを実行
できるハードウェアを示すものに限る必要はないことで
ある。図１に示すように、音声信号はパス１１０で画像
プロセッサ１００に入力される。この実施の形態例の音
声信号は音声を表す連続波形である。この音声信号に応
答しビシーム・シーケンス・ジェネレータ１２０はビシ
ーム・シーケンスを生成する。

【０００９】ビシームとは、音声フォニームのようなあ
る音声分節の言語ベースの音声素片ユニットに対応する
音声の顔の動き、つまり素片ユニットとしての口形のシ
ーケンスである。ビシームは次に記載例を挙げるように
既知である。例えば、K.W.Berger,Speechreading,Princ
iples and Methods,National Education Press,1972を
参照のこと。図２にビシーム・シーケンス・ジェネレー
タ１２０の詳細を示す。ビシーム・シーケンス・ジェネ
レータ１２０には、ビシーム音声特徴抽出器２１０があ
り、さらにビシーム認識器２２０があり、これらは直列
配置で結合する。ビシーム音声特徴抽出器２１０はパス
１１０で入力した連続音声信号から音声特徴ベクトル・
シーケンスを抽出しパス２１５でこの音声ベクトル・シ
ーケンスを出力する。

【００１０】ビシーム認識器２２０はその音声特徴ベク
トル・シーケンスからビシーム・シーケンスを生成する
がこの音声特徴ベクトル・シーケンスはビシーム音声特
徴抽出器２１０から出力されたものである。図３は図２
に示すビシーム音声特徴抽出器２１０の動作の詳細を簡
単に示すブロック図である。図３を参照し説明を続け
る。動作ブロック３１０においてこの連続音声信号をサ
ンプリングしさらに式、ＳΛ （ｎ）＝Ｓ（ｎ）−αＳ
（ｎ−１）、ただし式中のＳ（ｎ）はここでサンプリン
グした音声信号でありさらに本例ではα＝０．９５であ
る、によってプレエンファシスされ、動作ブロック３２
０においてＳΛ（ｎ）のこのプレエンファシスしたサン
プリング音声信号をフレームにブロックする。

【００１１】動作ブロック３３０においてハミング窓を
適用するがこれは３０ｍｓの幅と１０ｍｓのシフトを有
するものである。この結果得られた特徴ベクトル・シー
ケンスを１００サンプル／秒の音声領域レートでパス３
３５で出力する。ここでこの技術分野の当業者には勿論
明白に理解できることであるが他の音声領域サンプリン
グ・レートも本発明の特定の利用の場合の要件に応じ容
易に適用可能である。動作ブロック３４０において１０
次の自己相関分析と動作ブロック３５０において線形予
測分析（“ＬＰＣ”）のケプストラム分析をこの特徴ベ
クトルについてそれぞれ行う。ＬＰＣのケプストラム分
析は例えば、下記の記載例のように既知である。例え
ば、C.H.Lee ら、“Improved Acoustic Modeling for S
peaker Independent Large Vocabulary Continuous Spe
ech Recognition,”Computer Speech and Language,103
-127,1992 を参照のこと。

【００１２】動作ブロック３６０においてこのＬＰＣ分
析のパス３５５での出力はケプストラム重み付けされそ
の１次のケプストラム特徴ベクトルを形成する。動作ブ
ロック３７０においてこの１次のケプストラム特徴ベク
トルに高次ケプストラムの特徴とエネルギー（すなわ
ち、微係数のΔ、ΔΔケプストラムとΔ、ΔΔエネルギ
ー）を加える。次にパス３７５のこの音声特徴ベクトル
・シーケンスはビシーム認識器２２０（図２）によって
処理される。次に図４を参照し説明を続けるが、これは
ビシーム認識器２２０の動作を簡単に示すブロック略図
である。動作ブロック４１０においてビシーム認識器２
２０はこの音声特徴ベクトル・シーケンスを復号化する
がこれは例えば、既知のビタービの復号化とアラインメ
ントのスキームを用い、蓄積機構４２０からのビシーム
ＩＤによって復号化する。

【００１３】ビシームＩＤは、例えば、既知の連続密度
の隠れマルコフモデル（“ＨＭＭ”）によって記述され
る。動作ブロック４１０においてこの特徴ベクトル・シ
ーケンスはフレーム同期または非同期で復号化すること
ができる。知られていることであるがビシームは非常に
短い音声事象に相当しサブフォニーム・レベルであるこ
とが多い。したがって本発明ではその音声信号からビシ
ームを正確に識別するためには精密な時間分解能を用い
る。本発明の実施のこの形態例では、前述のように、こ
のビシーム音声特徴抽出器２１０は１００サンプル／秒
の音声領域サンプリング・レートで特徴ベクトル・シー
ケンスを出力する。そこでビシーム・シーケンス・ジェ
ネレータ１２０はこのレートでビシーム・シーケンスを
生成する。

【００１４】比較すると、当業者には分ることである
が、その映像領域フレーム・レートは１５ないし３０フ
レーム／秒が通常である。このレートの不一致を解決す
るためシーケンス・トランスフォーマ１３０（図１）は
パス１２５での高レートの音声領域ビシーム・シーケン
スを低レートの映像領域ビシーム・シーケンスに変換す
る。この機能をシーケンス・トランスフォーマ１３０は
所定の基準によって行うが、これには例えば、その音声
領域におけるビシームの生理的音声規則があり、またそ
の映像領域におけるビシームの視知覚があり、さらに他
の知識ベースの基準がある。これら所定の変換基準は、
例えば、変換基準蓄積機構１４０を用いて蓄積すること
ができるが、これは図１に示すようにパス１４５を介し
シーケンス・トランスフォーマ１３０に結合するもので
ある。

【００１５】レートの変換に加えて、シーケンス・トラ
ンスフォーマ１３０はまた所定の知識ベース規則にした
がって画像の平滑化とエラーの修正を行う。この低レー
トの映像領域ビシーム・シーケンスに応答してシーケン
ス・トランスフォーマ１３０はパス１４７で口形を表す
口パラメタ・シーケンスを出力する。この口パラメタは
その映像領域フレーム・レートで出力される。例えば、
本実施例では、この映像フレーム・レートは３０フレー
ム／秒であり、したがって口パラメタは３０口パラメタ
・シーケンス／秒のレートで出力される。この口パラメ
タは口パラメタ・ルックアップ・テーブルに蓄積され
る。適当なルックアップ・テーブルの一例を表１に示
す。

【表１】

【００１６】表１においてはこの口パラメタは図５に図
示するこの口周辺の６個の唇の特徴点の座標が示され
る。本発明の実施のこの形態例では唇の特徴点は６個が
用いられているが、本発明では他の数の特徴点を用いる
こともその意図する範囲に含まれる。さらにこの技術分
野の当業者には明白に理解できることであるが、本発明
ではその顔の他の周辺部分の特徴点の制御を所望する利
用の場合も一部にはある。例えば、このアニメーション
にした最終画像を外見上さらに自然にするためその目部
や頭部を制御することもまた可能である。図６は図１に
図示するシーケンス・トランスフォーマ１３０の動作の
フローを簡単に示すフローチャートである。本発明にお
いて音声領域レートから映像領域レートへの変換は下記
の３ステップで実現される。

【００１７】すなわち、レート変換と重み付け移動平均
と知識ベース平滑化の３ステップである。本プロセスは
パス６１０で入りここでビシームＶ_iは１００サンプル
／秒の音声領域レートで入力される。動作ブロック６１
０においてフレーム・カウンタｃならびにインデックス
ｉ、ｊおよびｋはゼロに初期化される。動作ブロック６
２０においてこのフレーム・カウンタｃは各処理ビシー
ムに対し０．３だけインクリメントされる。動作ブロッ
ク６３０においてこの映像フレーム数ｆを計算するが、
これは切捨て操作を行った後のｃの値である。判断ブロ
ック６４０においてこのフレーム・カウンタｆがそのイ
ンデックスｋより大きい場合、新規フレームが生成され
る。

【００１８】ｆがｋより小さい場合、動作ブロック６５
０に示すようにこの現入力ビシームをバッファに蓄積す
る。ここで動作ブロック６５０においてビシームはイン
デックスＢ_jで示される。このバッファに蓄積されるビ
シーム数は３と４間に変ることは明らかである。動作ブ
ロック６６０においてそのインデックスｉとｊは１だけ
インクリメントされ、制御は動作ブロック６２０に進
む。動作ブロック６７０においてこの映像領域のビシー
ムＶΛ_fをその入力する音声領域ビシームＶ_iに等しいと
してそれを求める。動作ブロック６８０において重み付
け移動平均をこの映像領域ビシームに適用する。図７は
この重み付け移動平均プロセスの説明例を簡単に示すブ
ロック図である。

【００１９】ブロック７２０においてこのバッファ７１
０に蓄積されたビシームＢ₀、Ｂ₁…Ｂ_jを、例えば、前
記表１のようなビシーム・テーブル７３０を用いて復号
化する。重み付け合計をブロック６８０からこの復号化
口パラメタに適用するがこれはそのバッファされたビシ
ームに対応するものであり、そして新規集合の口パラメ
タが生成される。図６に戻り説明を続ける。動作ブロッ
ク６８０からこの重み付け移動平均した口パラメタは動
作ブロック６９０において知識ベース平滑化が行われ
る。この動作は人間である話者の生理的特性に基づくも
のである。例えば、人間の音声分節は物理的な規則で限
定され、そこで口は一方の極端な位置から他方の極端な
位置へ瞬間的に移動することは不可能である。

【００２０】迅速な発声状態ではこの口形は中間位置に
移動しその次のビシームを処理する前にこの次の移行に
備える。したがってこの知識ベースの平滑化動作は、そ
の音声領域における生理的音声分節規則と映像領域にお
けるその口形の視知覚に基づき処理することができる。
さらに加えて、不自然な高周波運動があるが、これはそ
の音声領域の誤って生成されたビシームから生じうるも
ので、これをその平滑化動作で除去することができる。
動作ブロック６９０におけるこの知識ベース平滑化処理
後、制御は動作ブロック６９５に進みここでこのインデ
ックスｋをそのフレーム数ｆに等しくする。動作ブロッ
ク６９７においてそのインデックスｊをゼロに再初期化
しそのインデックスｉを１だけインクリメントする。

【００２１】そして制御は動作ブロック６２０に進み前
記プロセスを反復する。好都合なことであるが、この口
パラメタはシーケンス・トランスフォーマ１３０（図
１）によってリアルタイムに生成される。さらに加え
て、この音声信号に対応する口形を生成するのに音声支
援画像プロセッサの“トレーニング”は不要であるの
で、本発明はいずれの話者の場合でも好都合に実施で
き、その話者は何らの特定のアクションをする必要もな
く、さらに語彙にも制限がなく実施できる。構造変形ジ
ェネレータ１５０（図１）は、パス１４７で受信した口
パラメタに応答し３次元（“３Ｄ”）ワイヤフレーム顔
モデルを制御する信号を生成する。図８に３Ｄワイヤフ
レーム顔モデルを例示するがこれは約５００のポリゴン
・エレメントの格子からできており、この中の約８０を
その口部に用いている。

【００２２】この３Ｄワイヤフレーム顔モデルを処理し
て顔の動きを表現するがこれは通常の変形またはモーフ
ィングの方法を用いてこのワイヤフレームの格子点を制
御して行う。このような方法の一つに次例を挙げること
ができる。例えば、K.Akizawa ら、“Model-Based Anal
ysis Synthesis Image Coding(MBASIC)System for aPer
son's Face ”、Signal Processing:Image Communicati
ons 1,139-152,1989を参照のこと。この３Ｄワイヤフレ
ーム２００上の格子点のすべてを独立して制御する必要
はない、というのは１個の格子点の動きは隣接する格子
点に影響を及ぼすからである。したがって本発明のこの
説明例では図５に示す６個の特徴点に対応する６個の格
子点を構造変形ジェネレータ１５０がパス１４７で受信
した口パラメタに含まれる座標を用いて制御する。

【００２３】そこでパス１４７で受信した口パラメタの
シーケンスはこの３Ｄワイヤフレーム顔モデルの口の動
きのシーケンスを記述する。構造変形ジェネレータ１５
０はその映像領域において動作するが本説明例ではこれ
は３０フレーム／秒のレートである。したがって映像シ
ーケンスがアニメーションとする口部を持つワイヤフレ
ーム画像を記述するような３Ｄワイヤフレームの映像シ
ーケンスは、構造変形ジェネレータ１５０によって３０
映像フレーム／秒のレートでパス１５５に出力される。
図９と図１０にこのアニメーションを表す２個の映像フ
レームの説明例を示す。テクスチャ・マッパ１６０はパ
ス１５５でこのアニメーションとする３Ｄワイヤフレー
ムの映像シーケンスを受信する。

【００２４】テクスチャ・マッパ１６０はテクスチャ蓄
積機構１６５から蓄積した表面テクスチャを各映像フレ
ームの３Ｄワイヤフレーム画像に投射またはマップす
る。テクスチャ・マッピングは従来技術で既知であるた
めここでは詳述しない。図１１と図１２に表面テクスチ
ャを適用した図９と図１０に示す３Ｄワイヤフレーム画
像を示す。このアニメーションとする映像はパス１７０
で３０フレーム／秒の映像領域フレーム・レートで出力
される。図１３に本発明の特徴を組込む通信システム１
３００の説明例を示す。ここで、例えば、発声信号のよ
うな音声信号をパス１３１０で音声符号器１３２０に入
力する。音声符号器は既知であってこれを通常用いて音
声信号をディジタル・ビットストリームにディジタル化
および／または圧縮化する、ただしこれはこの通信シス
テムではさらに小さい帯域幅を用いるものである。

【００２５】次にこの符号化音声信号を伝送システム１
３３０上で遠隔音声復号器１３４０に送信する。また音
声復号器も既知であってこれを通常用いてこの圧縮化ビ
ットストリームから元の音声を再構成する。音声復号器
はこの再構成した元の音声信号をパス１３５０で、例え
ば、電話、音声メール・システムなどの種類の装置（図
示せず）に出力する。この再構成音声信号をまた図１に
示す前記音声支援画像プロセッサ１００も受信する。音
声支援画像プロセッサは映像信号をモニタ、テレビ電話
などの種類の映像表示装置に出力する。この技術分野の
当業者には明白に理解できることであるがこの音声支援
画像プロセッサの一部分を通信システム１３００の送信
側で行うことも可能である。

【００２６】例えば、ビシーム・シーケンスジェネレー
タ１２０（図１）やビシーム・シーケンス・トランスフ
ォーマ１３０（図１）をその送信器側に配置しその元の
音声信号を受信するよう結合することも可能である。そ
こでさらに口パラメタは伝送システム１３３０上で通信
システム１３００の受信器側に配置した構造変形ジェネ
レータ１５０（図１）やテクスチャ・マッパ１６０（図
１）に送信することも可能である。さらにこの口パラメ
タは、別個の回線を介しその受信側に送信することも可
能であり、またはその符号化音声信号と多重化すること
も可能である。図１４に本発明の特徴を組込む通信シス
テム１４００の説明例を示す。図１４のこのシステム例
は図１３のシステム例と類似しているが、ただしここで
は映像符号器１４１０がこの通信システム１４００の送
信器側にある。

【００２７】映像符号器１４１０はパス１４０５で映像
信号を受信する。パス１４１０のこの映像信号は、例え
ば、話者の顔画像とすることができる。映像符号器はこ
の映像信号を符号化しこの符号化映像信号を伝送システ
ム１４４０を介し映像復号器１４２０に送信する。また
はこの符号化映像信号を伝送システム１３３０で送信す
ることができるがこれは異なる回線を使用する、または
同一回線でその符号化音声信号と多重化して行う。映像
の符号器と復号器は既知である。映像復号器１４２０は
元の映像信号を再構成しそれを音声支援画像プロセッサ
１００に出力する。特徴認識やトラッキングのような既
知の方法を用いて音声支援画像プロセッサ１００はその
元の顔画像に対しこの３Ｄワイヤフレーム顔モデルをレ
ジスタすることができる。

【００２８】またテクスチャ蓄積機構１６５（図１）に
蓄積したテクスチャよりむしろこの元の顔画像をその３
Ｄワイヤフレーム顔モデルに対する表面テクスチャとし
て使用する。このアニメーションとする映像信号を前述
のようにバス１３６０でビデオ・モニタのような装置に
出力する。音声支援画像プロセッサ１００は画像をアニ
メーションとするがこれは話者と見られる画像である。
好都合なことであるが、このアニメーション・スキーム
は通常のテレビ電話より大きい伝送帯域幅の節約を提供
することができるというのは最低で音声支援画像プロセ
ッサ１００に送信する必要があるのは１個の映像フレー
ムだけである。この１個のフレーム、または“スナップ
ショット”は、例えば、音声信号送信開始の際、別個の
回線、またはその音声信号と多重化して、送信される。

【００２９】オプションであるが、追加の映像フレーム
を周期的に映像符号器１４１０から送信してそのアニメ
ーションとする画像をリフレッシュしたりまたはエラー
訂正を支援することができる。この周期的リフレッシュ
・フレームの場合でも帯域幅の節約は大きい。本発明の
例には、例えば、聴力障害者に音声信号の理解の増強に
映像の役目を提供する手段として所望される例を挙げる
ことができる。当然のことであるが、映像情報は他の関
連でも同様に有用であるというのはこれはさらにパーソ
ナル化した通信を考慮するからである。さらにまた話者
ＩＤは映像情報の付加によって向上しこれにはクレジッ
ト・カードの認定、ホームショッピング、飛行機や車の
予約などの利用の場合に好都合な例を挙げることができ
る。

【００３０】以上の説明は、本発明の実施の一形態例に
関するもので、この技術分野の当業者であれば、本発明
の種々の変形例が考え得るが、それらはいずれも本発明
の技術的範囲に包含される。尚、特許請求の範囲に記載
した参照番号は発明の容易なる理解のためで、その技術
的範囲を制限するよう解釈されるべきではない。

【００３１】

【発明の効果】以上述べたごとく、本発明の方法と装置
によってアニメーションは、リアルタイムで、いずれの
話者の場合でも好都合に実施でき、語彙にも制限が無
く、この話者の側にも何らかの特定のアクションをする
必要もなく実現でき、アニメーション生成が迅速かつ正
確であり、例えば、聴力障害者にとって有用な方法と装
置を提供できる。

【図面の簡単な説明】

【図１】本発明の音声支援画像プロセッサの説明例を簡
単に示すブロック略図である。

【図２】図１のビシーム・シーケンス・ジェネレータの
詳細を示す図である。

【図３】図２のビシーム音声特徴抽出器の動作の詳細を
簡単に示すブロック略図である。

【図４】図２のビシーム認識器の動作の詳細を簡単に示
すブロック略図である。

【図５】顔画像をアニメーションにする際に用いる６個
の特徴点を示す図である。

【図６】図１のシーケンス・トランスフォーマの動作の
フローを簡単に示すフロー・チャートである。

【図７】本発明の重み付け移動平均プロセスの説明例を
簡単に示すブロック図である。

【図８】３次元ワイヤフレーム顔モデルの説明例を示す
図である。

【図９】２個の３次元ワイヤフレーム・モデルの中の１
個の例を図示し本発明の一部の原理の説明例を示す図で
ある。

【図１０】２個の３次元ワイヤフレーム・モデルの中の
１個の例を図示し本発明の一部の原理の説明例を示す図
である。

【図１１】表面テクスチャを適用した図９に示す３次元
ワイヤフレーム画像を示す図である。

【図１２】表面テクスチャを適用した図１０に示す３次
元ワイヤフレーム画像を示す図である。

【図１３】本発明の特徴を実現する通信システムの説明
例を示す図である。

【図１４】本発明の特徴を実現する別の通信システムの
説明例を示す図である。

【符号の説明】

１００音声支援画像プロセッサ１１０パス１２０ビシーム・シーケンス・ジェネレータ１２５パス１３０シーケンス・トランスフォーマ１４０変換基準蓄積機構１４５パス１４７パス１５０構造変形ジェネレータ１５５パス１６０マッパ１６５テクスチャ蓄積機構１７０パス２００３次元ワイヤフレーム２１０ビシーム抽出器２１５パス２２０ビシーム認識器３１０サンプリングとプリエンファシス３１５パス３２０フレームにブロック３２５パス３３０窓フレーム３３５パス３４０自己相関分析３４５パス３５０線形予測分析／ケプストラム分析３５５パス３６０ケプストラム重み付け３６５パス３７０高次特徴分析器３７５パス４１０ビシーム認識器（ビタービ復号化とアライメン
ト）４２０ビシームの音声ＩＤモデル（ＨＭＭ）７１０バッファ７２０復号器７３０ビシーム・テーブル１３００通信システム１３１０パス１３２０音声符号器１３３０伝送システム１３４０音声復号器１３５０パス１３６０パス１４００通信システム１４０５パス１４１０映像符号器１４２０映像復号器１４４０伝送システム

───────────────────────────────────────────────────── フロントページの続き (72)発明者ウーチョーアメリカ合衆国，07922 ニュージャージー，バークレーハイツ、グリーンブライアードライブ 22

Claims

【特許請求の範囲】

【請求項１】（Ａ）音声領域サンプリング・レートで
音声信号をサンプリングするサンプリング・ステップ
と、（Ｂ）前記音声領域サンプリング・レートに対応する第
１のレートで前記サンプリングした音声信号に応答し第
１のビシーム・シーケンスを生成する生成ステップと、（Ｃ）変換基準の所定の集合にしたがって映像領域フレ
ーム・レートに対応する第２のレートで前記第１のビシ
ーム・シーケンスを第２のビシーム・シーケンスに変換
する変換ステップと、（Ｄ）前記第２のビシーム・シーケンスに応答し画像を
処理する画像処理ステップを有することを特徴とする画
像処理ステップ含有方法。
【請求項２】前記音声領域サンプリング・レートは１
００サンプル／秒のサンプリング・レートであることを
特徴とする請求項１に記載の方法。
【請求項３】前記映像領域サンプリング・レートは１
５フレーム／秒と３０フレーム／秒からなるグループか
ら選択されるサンプリング・レートであることを特徴と
する請求項１に記載の方法。
【請求項４】前記変換基準は知識ベース規則を有する
ことを特徴とする請求項１に記載の方法。
【請求項５】前記知識ベース規則は生理的音声分節規
則を有することを特徴とする請求項４に記載の方法。
【請求項６】前記変換基準は前記処理画像の視知覚を
有することを特徴とする請求項１に記載の方法。
【請求項７】前記変換ステップは前記第１のビシーム
・シーケンスの各ビシームに重み付け移動平均を適用す
る適用ステップを有することを特徴とする請求項１に記
載の方法。
【請求項８】前記画像は映像であることを特徴とする
請求項１に記載の方法。
【請求項９】前記画像は話者の顔画像を含むことを特
徴とする請求項１に記載の方法。
【請求項１０】前記処理ステップは前記顔画像の口部
をアニメーションにする口部アニメーション・ステップ
を有することを特徴とする請求項９に記載の方法。
【請求項１１】前記処理ステップは前記顔画像の目部
をアニメーションにする目部アニメーション・ステップ
を有することを特徴とする請求項９に記載の方法。
【請求項１２】前記処理ステップは前記顔画像の頭部
をアニメーションにする頭部アニメーション・ステップ
を有することを特徴とする請求項１に記載の方法。
【請求項１３】前記アニメーション・ステップは前記
顔画像に対応する３次元ワイヤフレーム顔モデルを制御
して変形する変形ステップを有することを特徴とする請
求項１０に記載の方法。
【請求項１４】さらに、前記３次元ワイヤフレーム顔
モデルに表面テクスチャをマッピングするテクスチャ・
マッピング・ステップを有することを特徴とする請求項
１３に記載の方法。
【請求項１５】（Ａ）伝送システムの送信側で音声信
号を符号化する符号化ステップと、（Ｂ）前記伝送システム上で前記符号化音声信号を送信
する送信ステップと、（Ｃ）前記伝送システムの受信側で前記送信符号化音声
信号を復号化する復号化ステップと、（Ｄ）音声領域サンプリング・レートで前記復号化音声
信号をサンプリングするサンプリング・ステップと、（Ｅ）前記音声領域サンプリング・レートに対応する第
１のレートで前記サンプリングした音声信号に応答し第
１のビシーム・シーケンスを生成する生成ステップと、（Ｆ）映像領域フレーム・レートに対応する第２のレー
トで変換基準の所定の集合にしたがって前記第１のビシ
ーム・シーケンスを第２のビシーム・シーケンスに変換
する変換ステップと、（Ｇ）前記第２のビシーム・シーケンスに応答し画像を
処理する画像処理ステップを有することを特徴とする画
像処理ステップ含有方法。
【請求項１６】さらに、前記伝送システムの送信側で
映像信号を符号化する符号化ステップを有することを特
徴とする請求項１５に記載の方法。
【請求項１７】さらに、前記伝送システム上で前記符
号化映像信号を送信する送信ステップを有することを特
徴とする請求項１６に記載の方法。
【請求項１８】さらに、前記送信符号化映像信号を復
号化する復号化ステップを有することを特徴とする請求
項１６に記載の方法。
【請求項１９】さらに、前記復号化映像信号に対し３
次元ワイヤフレーム・モデルをレジスタするレジスタ・
ステップを有することを特徴とする請求項１８に記載の
方法。
【請求項２０】さらに、前記復号化映像信号に含まれ
る表面テクスチャを前記３次元ワイヤフレーム・モデル
に適用するテクスチャ適用ステップを有することを特徴
とする請求項１９に記載の方法。
【請求項２１】前記変換ステップを前記伝送システム
の送信側で行うことを特徴とする請求項１５に記載の方
法。
【請求項２２】（Ａ）音声領域サンプリング・レート
で音声信号をサンプリングするサンプリング手段と、（Ｂ）前記音声領域サンプリング・レートに対応する第
１のレートで前記サンプリングした音声信号に応答し第
１のビシーム・シーケンスを生成する生成手段と、（Ｃ）変換基準の所定の集合にしたがって映像領域フレ
ーム・レートに対応する第２のレートで前記第１のビシ
ーム・シーケンスを第２のビシーム・シーケンスに変換
する変換手段と、（Ｄ）前記第２のビシーム・シーケンスに応答し画像を
処理する画像処理手段を有することを特徴とする画像処
理手段含有装置。
【請求項２３】（Ａ）音声領域サンプリング・レート
に対応する第１のレートでサンプリングした音声信号に
応答し第１のビシーム・シーケンスを生成するビシーム
・シーケンス・ジェネレータ（１２０）と、（Ｂ）前記ビシーム・シーケンス・ジェネレータに結合
し変換基準の所定の集合にしたがって映像領域フレーム
・レートに対応する第２のレートで前記第１のビシーム
・シーケンスを第２のビシーム・シーケンスに変換する
ビシーム・シーケンス・トランスフォーマ（１３０）
と、（Ｃ）前記ビシーム・シーケンス・トランスフォーマに
結合し前記第２のビシーム・シーケンスに応答し画像を
処理する画像プロセッサ（１５０、１６０）を有するこ
とを特徴とする画像プロセッサ含有装置。
【請求項２４】前記音声領域サンプリング・レートは
１００サンプル／秒のサンプリング・レートであること
を特徴とする請求項２３に記載の装置。
【請求項２５】前記映像領域サンプリング・レートは
１５フレーム／秒と３０フレーム／秒からなるグループ
から選択されるサンプリング・レートであることを特徴
とする請求項２３に記載の装置。
【請求項２６】前記変換基準は知識ベース規則を有す
ることを特徴とする請求項２３に記載の装置。
【請求項２７】前記知識ベース規則は生理的音声分節
規則を有することを特徴とする請求項２６に記載の装
置。
【請求項２８】前記変換基準は前記処理画像の視知覚
を有することを特徴請求項２３に記載の装置。
【請求項２９】前記ビシーム・シーケンス・トランス
フォーマは前記第１のビシーム・シーケンスの各ビシー
ムに重み付け移動平均を適用する重み付け移動平均適用
手段を有することを特徴とする請求項２３に記載の装
置。
【請求項３０】前記画像は映像であることを特徴とす
る請求項２３に記載の装置。
【請求項３１】前記画像は話者の顔画像を有すること
を特徴とする請求項２３に記載の装置。
【請求項３２】前記画像プロセッサは前記顔画像の口
部をアニメーションにする口部アニメーション手段を有
することを特徴とする請求項３１に記載の手段。
【請求項３３】前記画像プロセッサは前記顔画像の目
部をアニメーションにする目部アニメーション手段を有
することを特徴とする請求項３１に記載の装置。
【請求項３４】前記画像プロセッサは前記顔画像の頭
部をアニメーションにする頭部アニメーション手段を有
することを特徴とする請求項３１に記載の装置。
【請求項３５】前記画像プロセッサは前記顔画像に対
応する３次元ワイヤフレーム顔モデルを制御して変形す
る構造変形ジェネレータ（１５０）を有することを特徴
とする請求項３４に記載の装置。
【請求項３６】前記画像プロセッサは前記３次元ワイ
ヤフレーム顔モデルに表面テクスチャをマッピングする
テクスチャ・マッパ（１６０）を有することを特徴とす
る請求項３５に記載の装置。