JPH10506492A

JPH10506492A - 高性能密度を有するマルチメディアプロセッサアーキテクチャ

Info

Publication number: JPH10506492A
Application number: JP9506486A
Authority: JP
Inventors: ランゲアルフォンシウスアントニウスヨゼフデ; ヴィスペーターヘンドリクネリスデ
Original assignee: フィリップスエレクトロニクスネムローゼフェンノートシャップ
Priority date: 1995-07-21
Filing date: 1996-07-12
Publication date: 1998-06-23
Also published as: US5959689A; DE69610548T2; WO1997004401A2; WO1997004401A3; DE69610548D1; EP0789882B1; EP0789882A2

Abstract

(57)【要約】マルチメディアシステムは、高性能密度のプログラム不可能タスク特定プロセッサを有する。前記タスク特定プロセッサは、合わさってビデオアルゴリズムを構成する基礎機能を実行する。前記タスク特定プロセッサを、相互接続性をアービタによって制御する高速通信モジュールを経て相互接続する。前記アービタは、データフローグラフを格納する。低性能密度の完全プログラム可能汎用プロセッサは、前記基礎機能に容易にマッピングできないこれらのタスクを実行する。異なったレベルの性能密度およびプログラム可能性を有するこの構成は、システム全体の性能密度を先行技術に関して上昇させる。

Description

【発明の詳細な説明】高性能密度を有するマルチメディアプロセッサアーキテクチャ発明の分野本発明は、ビデオデータをビデオアルゴリズムに従って処理し、通信手段を経て相互接続されたマルチプロセッサを具えるビデオデータ処理システムに関するものである。前記マルチプロセッサは、１つの半導体基板上に集積するのが好適であるが、必須ではない。背景技術現在広く注目されている情報技術の分野内の主な発展の１つは、マルチメディアソフトウェアアプリケーションに関係する。マルチメディアアプリケーションは、代表的に、高解像度ディスプレイ上で、好適には相互作用的にリアルタイムにおいて、ビデオ、グラフィックスおよびオーディオ装置のような異なったソースを源とする複数の情報ストリームを結合することを可能にする。莫大な情報ストリームの費用効果的なリアルタイム処理の要求が、チップ設計者に多大に要求される。製造業がプログラム可能コンピュータアーキテクチャの性能を改善しようとする試みは、主に、クロックレートを上昇させることと、命令レベルおよびタスクレベルにおける対応を拡張することとに集中している。テキサスインスツルメンツ社は、マルチメディアビデオプロセッサ（Multlmed ia Video Processor：ＭＶＰ）TMS320C80と呼ばれる、完全プログラム可能ディジタル信号プロセッサを最近提案している。ＭＶＰは、１枚の半導体基板上に、１個の１００ＭＦＬＯＰ（１秒あたり１００万回の浮動小数点演算）の浮動小数点完全プログラム可能ＲＩＳＣプロセッサと、クロスバーネットワークを経てデータ用の２キロバイトＳＲＡＭの２５のバンクおよび命令キャッシュに接続された４個の同型の完全プログラム可能５００ＭＯＰＳ（１秒あたり１００万回の演算）並列プロセッサ（ＤＳＰ）と、４００Ｍバイト／秒でチップの外と通信するＩ／Ｏコントローラとを収容する。前記ＲＩＳＣプロセッサは、システムの制御と外部プロセッサとの通信とを取り扱う。浮動小数点ユニットを有するただ１つのものであることから、前記ＲＩＳＣプロセッサは、浮動小数点中心の計算を行う好適なプロセッサでもある。前記ＤＳＰは、Ｃまたはアセンブリにおいて完全プログラム可能であり、乗算−累積中心のアルゴリズムの実行に特に適している。各々の前記ＤＳＰは、３ないし１５のＲＩＳＣ命令を、同時に各々のサイクルにおいて実行できる。前記完全プログラム可能性は、今日の汎用プロセッサのそれと同様に、ＪＰＥＧおよびＭＰＥＧのような種々の画像圧縮技術の動的な選択を支持している。前記完全プログラム可能性は、前記プロセッサがどのような仮想的なタスクも行えるようにする。例えば、SID 94ダイジェスト６３７−６４０ページにおけるR.J．Goveによる”ＭＶＰ：画像およびビデオアプリケーション用シングルチップマルチプロセッサ（The MVP: A Single-Chip Multiprocesso r for Image and Video Applications）”、ＩＥＥＥコンピュータグラフィックスおよびアプリケーション（IEEE Computer Graphics & Applications），１９９２年１１月，５３−６４ページにおけるK．Guttag他による”マルチメディア用シングルチップマルチプロセッサ：ＭＶＰ（A Single-Chip Multiprocessor F or Multimedia: The MVP）”または、１９９４年５月１−４日，カリフォルニア州サンディエゴにおけるＩＥＥＥ１９９４年注文生産集積回路会議（IEEE 199 4 Custom Integrated Circuits Conference）の会報の９１−９４ページにおけるK．Balmer他による”シングルチップマルチメディアビデオプロセッサ（A Sin gle Chip Multimedia Video Processor）”を参照されたい。代表的に、マルチメディアビデオアルゴリズムは、高級プログラミング言語において最も簡単に設計できる。このときコンピュータを使用して、汎用プログラム可能プロセッサによって実行可能なコードを発生する。ハイレベルな支援手段なしで並列プロセッサをプログラムすることは極めて困難なため、もちろんこれには前記ＭＶＰを用いる。並列プロセッサ間の衝突、例えば、同じメモリのアクセスに関する予測されない争いに対する保護のために、前記ＭＶＰは、優先化回路網および再試行回路網のような追加のハードウェアを含む。プロセッサの能力を量化する単位の１つは、１平方ミリメートルの半導体基板面積当たりの計算性能であり、”性能密度（performance-density）”とも呼ばれる量である。一般に、汎用プロセッサの性能密度は、プログラム可能性が制限された専門化プロセッサのそれよりも相当低く、専用のハードウェア解決法の性能密度よりも相当低い。この低い性能密度は、特に、プログラム機能を実現するのに必要なハードウェアオーバヘッド（例えば、追加の回路網および相互接続部）が原因であり、利用可能なハードウェアのいくらか非能率的な使用も原因である。後者に関して、処理すべきデータの到着まで待たなければならない場合、すべてのクロックサイクルが計算に使用されるとは限らない。したがって、ＭＶＰの性能密度は、完全にプログラム可能な汎用ＤＳＰおよび完全にプログラム可能な汎用ＲＩＳＣプロセッサの使用によって、相当に制限される。他の欠点は、プログラムがＭＶＰの命令キャッシュに適合しない場合、命令のトラヒックがＭＶＰにおいて問題になる恐れがあることである。これは、例えば、マルチタスク動作中のリアルタイムな要求のために頻繁な文脈の切り替えが必要な場合、特により重大な問題になる。ＭＶＰは、１個のＤＳＰにおける動的な文脈の切り替えはできない。発明の目的本発明の目的は、性能密度が先行技術のシステムの性能密度よりも相当高いマルチメディアビデオデータプロセッサシステムを提供することである。発明の概略この目的のために、本発明は、以下の特徴を特徴とする序文において記述したようなシステムを提供する。前記マルチプロセッサが、画像処理レベルにおけるアルゴリズムにおいて生じる複数の基礎機能の各々１つを実行する各々タスクが特定された複数のプロセッサを含む。すなわち、前記基礎機能は、ビデオまたはグラフィックス画像の処理に特有の特性に関係する。代表的に、各々の基礎機能は、以下のタスク、フィルタ処理、ＤＣＴ、色空間変換、標本レート変換、動き予測および動き補償、特徴抽出、グラフィックスデータおよびビデオデータの合成、表参照、可変長復号化の各々１つを含む。これらのタスク特定プロセッサの各々は、代表的な汎用プロセッサより高い性能密度を有する。これらのタスク特定プロセッサの各々は、プログラム不可能であるか、汎用プロセッサより相当低いプログラム可能性を有し、例えば、前記タスク特定プロセッサの１つまたはそれ以上がパラメータ化可能である。前記通信手段は、前記タスク特定プロセッサに並列に結合し、前記タスク特定プロセッサの任意のもの同志で同時通信を可能にする高速通信モジュールを具える。前記通信手段は、好適には、通信アービタを具え、前記通信アービタに格納されたデータフローグラフの案内の下で前記通信モジュールを制御する。代表的に、汎用ＲＩＳＣプロセッサは、１−５ＭＯＰＳ／ｍｍ²程度の性能密度を有し、ＤＳＰは、５−１０ＭＯＰＳ／ｍｍ²程度の性能密度を有し、所定の基礎機能を行うタスク特定プロセッサは、５０−１００ＭＯＰＳ／ｍｍ²程度の性能密度を有する。例えば、本発明において、可変位相遅延フィルタを実現するタスク特定プロセッサは、８０ＭＯＰＳ／ｍｍ²が可能である。これは、前記プロセッサが特定のタスクに最適化されているためだけでなく、本発明におけるシステムによって提供されるマルチタスク環境における標本化レート変換、タイムベース補償、および幾何学画像補償に関する前記フィルタの多重使用のためでもある。上述した計算性能密度の数値は、例としてあげただけであり、現在の技術状態に関係する。より重要に、上述した分類は、低、中および高性能密度のプロセッサの計算性能密度が、少なくとも程度が互いに代表的に異なることを説明する。好適には、前記マルチプロセッサは、さらに、少なくとも１つの低性能密度の汎用プロセッサを具える。前記汎用プロセッサは、前記アルゴリズムにおいて生じる他の処理機能を実行することができ、前記機能は、そのアルゴリズム構造において、前記タスク特定プロセッサにおいてマッピングするには不規則過ぎる。前記タスク特定プロセッサのあるものは、例えば、前記タスク特定プロセッサおよび汎用プロセッサ間のインタフェースにおいて生じる高速データレートを取り扱う。この汎用プロセッサは、前記データストリームから特定の情報を抽出して、より低いデータレートであって前記汎用プロセッサに適したフォーマットに変換する。前記汎用プロセッサは、この特徴抽出を、バックグラウンドメモリのアクセスに関するＩ／Ｏプロセッサとして使用することもできる。前記汎用プロセッサによって発生された低速情報を、特定のタスク特定プロセッサによって表示レートに高速化することができる。好適には、前記マルチプロセッサは、さらに、前記タスク特定プロセッサを制御し、前記基礎機能に容易にマッピングできないビデオアルゴリズムの不規則な部分を実行する、少なくとも１つの中性能密度のプロセッサ、代表的にＤＳＰを具える。前記中性能密度のプロセッサは、完全プログラム可能汎用プロセッサと、基礎機能を実現するタスク特定高性能密度プロセッサとの間のレベルのプログラム可能性を有する。前記中性能密度のプロセッサを、グラフィックスコプロセッサとすることもできる。本発明の理論的根拠を、本発明によって行われた以下の観察の参照と共に説明する。第１の観察は、上述したように、汎用プログラム可能プロセッサの性能密度は、プログラム可能性が限定されるかまったくないタスク特定（すなわち、特定のルーチン専用または最適化された）プロセッサまたは専用ハードウェアのそれよりも相当低く、高速ビデオ処理には適していない汎用の解決法であるということである。第２の観察は、マルチメディア／ビデオ／グラフィックス処理アプリケーションにおける高速計算は、ほとんど複雑ではなく、したがって、条件付き分岐がない厳密なデータフロー言語のような、より強制的なプログラム言語において、容易に記述することができることである。この記述を、前記汎用プロセッサより極めて互い性能密度を有する、分岐ユニットがないデータフロープロセッサに能率的にマッピングすることができる。第３の観察は、代表的なマルチメディアビデオ処理アプリケーションは、画像処理レベルにおける比較的複雑な基礎機能によって構成されることである。マルチメディアビデオアプリケーションの代表的な例は、ノイズ除去のような画像強調、アナログビデオおよびオーディオ信号の復号化、拡大／縮小、例えば、輝度、ガンマまたはコントラストによる画像制御、高解像度グラフィックスを含む演算、ビデオデータ圧縮および伸張、データ通信である。第４の観察は、これらのアプリケーションが、共通の基礎機能の大きな組を有することである。これらの比較的複雑な基礎機能の代表的な例は、ＦＩＲフィルタ処理およびＤＣＴ、色空間変換、フィルタ演算を有するまたは有しない水平標本化レート変換、簡単な動き補償のためのフィルタ演算を有するまたは有しない垂直標本化レート変換、動き予測および動き補償、特徴抽出、グラフィックスおよびビデオの合成、表参照および表更新、可変長符号化である。これらの比較的複雑な基礎機能を、加算器、乗算器、累算器、演算装置、等の形態における基本的なプロセッサを必要とする、加算および乗算のようなより低いレベルの抽象におけるより多くの基本的な演算に分解する。これらの基本的なプロセッサのいくつかは、並列／パイプラインに、または順次に使用され、前記基礎機能の１つを形成する。しかしながら、個々の基本プロセッサのプログラミングと、前記プロセッサ間の通信とによって、オーバヘッドは、より低いレベルの抽象に対してより大きくなる。したがって、性能密度は、極めて低くなる。これらの比較的複雑な基礎機能を複数のより基本的な演算に分解する代わりに、前記機能をパラメータ化によってある程度一般化してもよい。この方法は、これらを、より複雑なマルチメディアビデオアルゴリズムの一般的なクラスにあてはめる。このやり方の理由は、前記複雑な基礎機能のさらなる分解は、ハードウェアの柔軟性を増加せず、そのプログラム可能性も増加しないことである。代わりに、パラメータ化基礎機能の実現と比べて非能率的であるＩＣによる実現になる。第５の観察は、異なったマルチメディアビデオ処理アプリケーションの大きなクラスは、基礎機能の小さな組から成ることである。第６の観察は、処理アプリケーションの大きなクラスは、多くの複雑な基礎機能を並列またはパイプラインにおいて使用することである。第７の観察は、前記基礎処理機能の各々が、代表的に１００−８００ＭＯＰＳの範囲における性能を必要とすることであり、ここで、演算を、加算、減算、乗算、除算、比較、メモリ参照とし、輝度／クロミナンス符号化に関して標本あたり２×１２ビットで、ＲＧＢ符号化に関して標本あたり３×１２ビットによる１３．５ＭＨｚのビデオ標本化レートとする。いくつかのアルゴリズムを含む処理アプリケーションの実行、またはいくつかのアプリケーションの並列における実行は、必要な性能を、基礎機能あたり４００−２０００ＭＯＰＳに上昇させる。明らかに、汎用プログラム可能ＤＳＰは、このような高性能を安価に提供しない。第８の観察は、前記ビデオアルゴリズムのいくつかの部分は、前記タスク特定プロセッサの基礎機能に適切にマッピングできないことである。低性能密度の完全プログラム可能汎用プロセッサか、ＤＳＰのような中性能密度のプロセッサかを、これらの部分を処理するために設けるべきである。第９の観察は、前記タスク特定プロセッサの制御と、ビデオアルゴリズムにおける前記基礎機能にマッピングできない部分の実行との双方は、より低速におけるより複雑なアルゴリズムを必要とし、したがって、少なくともいくらかの柔軟性を有するプロセッサによってより良く管理されることである。まとめると、本発明者は、ビデオアルゴリズムの特定の特性が、タスク特定のプログラム不可能または弱くプログラム可能なプロセッサの使用を可能にし、これらの各々１つを前記ビデオアルゴリズムの基礎機能の組のうちの各々１つを行うのに最適化することを実現した。本発明のシステムは、高性能密度を有し、多くて低レベルのプログラム可能性を有するタスク特定プロセッサを使用する。いくつかの状況の下で、ＡＳＩＣおよび同等のＦＰＧＡは、前記タスク特定プロセッサのより良い候補となる。さらに前記タスク特定プロセッサは、代表的に同型ではない。前記先行技術は、代わりに、汎用完全プログラム可能で同型のプロセッサのみを使用することに注意されたい。本発明のシステムを、混成プロセッサシステムと呼ぶ。プログラム可能性のオーバヘッドが減少するため、先行技術に関して性能密度が大幅に上昇し、前記アルゴリズムを基礎機能にモジュール分解したため、プログラミングが簡単になるという利点がある。低性能密度の完全プログラム可能汎用プロセッサは、前記基礎機能に容易にマッピングできないタスクを行う。中間レベルのプログラム可能性と中間レベルの性能密度を有する他のプロセッサを設け、前記タスク特定プロセッサを制御する。前記他のプロセッサは、前記基礎機能にマッピングできないが、中間レベルの性能密度およびプログラム可能性を有するプロセッサによって好適に実行することができるアルゴリズム部分を扱ってもよい。このように、本発明は、先行技術のシステムによって与えられるより高い全体的なシステム性能密度を達成するために、異なったレベルのプログラム可能性および計算性能密度による階層的処理の概念を導入する。本発明は、例えば、ＴＶ（ＴＸＴ復号化および音声の復号化）、カメラ、ＶＣＲ、ＣＤ−Ｉ装置およびマルチメディアＰＣにおける一般的な音声／ビデオ処理に特に好適であるが、これらに限定されない。図面の説明本発明を、さらに詳細に、添付した図の参照と共に例として以下に説明する。図１は、先行技術のマルチプロセッサアーキテクチャのブロック図である。図２および３は、本発明におけるマルチプロセッサアーキテクチャのブロック図である。図４は、本発明におけるマルチプロセッサアーキテクチャのより詳細なブロック図である。図５は、先回りテレビジョン処理アプリケーションに関するデータフローグラフである。図６は、図５のデータフローグラフを実現するマルチプロセッサアーキテクチャの詳細なブロック図である。図７は、本発明によるマルチプロセッサアーキテクチャの他のブロック図である。これらの図を通じて、同じ参照符は、対応するまたは同様の特徴を示す。詳細な実施例先行技術図１は、上述した先行技術のマルチメディアビデオプロセッサ（ＭＶＰ）１００のシングルチップマルチメディアプロセッサアーキテクチャのブロック図である。ＭＶＰ１００は、主プロセッサ１０２と、複数の同型並列プロセッサ（ＤＳＰ）１０４、１０６、１０８および１１０と、複数のメモリモジュール１１２、１１４、１１６、１１８、１２０、１２２、１２４、１２６および１２８と、クロスバースイッチ１３０と、伝送コントローラ１３２とを具える。主プロセッサ１０２を、浮動小数点ユニットを具えた汎用ＲＩＳＣプロセッサとする。主プロセッサ１０２は、ＤＳＰ１０４−１１０の動作を制御し、外部プロセッサ（図示せず）との通信を管理する。主プロセッサは、さらに、低性能の計算タスクを行うことができる。ＤＳＰ１０４−１１０を、完全プログラム可能並列プロセッサとする。メモリモジュール１１２−１１８は、ＤＳＰ１０４−１１０によってクロスバースイッチ１３０を経てすべて並列にアクセス可能であり、共有データメモリとして機能する。メモリモジュール１２０は、主プロセッサ１０２用の命令およびデータ双方のキャッシュとして機能する。メモリモジュール１２２−１２８は、ＤＳＰ１０４−１１０の各々１つ用の命令キャッシュとして各々機能する。クロスバースイッチ１３０は、ＤＳＰ１０４−１１０がメモリモジュール１１２−１１８の各々１つに独立して、モジュール１１２−１１８の他のものとのアクセスと平行してアクセスすることを可能にする。ＤＳＰ１０４ −１１０は、各々、２つのデータメモリポートを有し、主プロセッサ１０２は、１つのデータメモリポートを有し、伝送コントローラ１３２は、１つのデータメモリポートを有し、これらのすべては、モジュール１１２−１１８に並列にクロスバースイッチ１３０を経てアクセス可能である。伝送コントローラ１３２は、チップ上メモリ１１２−１１８とチップ外メモリ（図示せず）との間のメモリトラヒックを、メモリアクセス要求の優先順位スケジューリングを使用して管理する。この構成において固有の特徴に関して、上述した背景技術が参考になる。本発明の第１実施例図２は、本発明におけるビデオデータ処理システム２００に関するマルチプロセッサアーキテクチャの第１実施例のブロック図である。システム２００は、マルチメディアソフトウェアアプリケーションにおいて、ビデオおよびグラフィックスデータを処理する。システム２００は、高性能密度の多重のタスク特定プロセッサ２０２、２０４、．．．、および２０６を具える。タスク特定プロセッサ２０２−２０６は、ビデオ信号処理アルゴリズムの基礎的で複雑な機能を実行する。例としては、色空間変換、標本化レート変換、．．．、動き補償、等がある。プロセッサ２０２−２０６は、まったくプログラム可能ではなく、これらの振る舞いがパラメータ化されている場合、低レベルのプログラム可能性を有する。低レベルのプログラム可能性は、プロセッサ２０２−２０６を、同じ基礎機能が使用されるが異なったパラメータ値を有する異なったアーキテクチャにおいて使用できるようにする。好適には、パラメータ値の異なった組間の切り替えを可能にするために、そしてパラメータ化プロセッサ、例えばプロセッサ２０２の内部データ状態の保存／再生を可能にするために、高速制御をプロセッサ２０２−２０６の内部および外部において利用できるようにする。例えば、ユーザ相互作用の結果としての個々のアルゴリズムのパラメータ値の更新は、代表的に、極めて低いレートにおいて行われる。例えば、別個のバス（図示せず）を経て、パラメータのリロードを達成する。簡潔にするために、”低レベルプログラム可能性” という表現を、以下に、プログラム不可能プロセッサおよびパラメータ化可能プロセッサの双方に使用する。マルチメディアの状況内で、大部分のアルゴリズムおよび処理アプリケーションは、多数の複雑な基礎機能を、並列またはパイプラインにおいて使用する。好適には、プロセッサ２０２−２０６は、互いに、並列に、プロセッサ２０２−２０６のすべてが並列に実行を保てるように、通信できなければならない。したがって、システム２００は、高速通信モジュール２０８と、通信アービタ２０８とを含む。モジュール２０８は、プロセッサ２０２−２０６間の所望の相互接続を実現する。モジュール２０８は、例えば、高速超ワイドバス、レジスタファイル、または、バッファか小さいレジスタファイルかを有するクロスバースイッチを含む。通信アービタ２１０は、タスク特定プロセッサ２０２−２０６間のモジュール２０８を経た通信と、一方ではタスク特定プロセッサ２０２−２０６と他方ではバックグラウンドメモリ２１２との間の通信とを管理する。この目的のために、通信プロトコルとプロセッサ２０２−２０６間のデータのルート割り当てとを管理するデータフローグラフを、通信アービタ２１０に格納する。前記データフローグラフは、いずれかの特定の瞬時において、プロセッサ２０２−２０６のどれが、互いに、そしてバックグラウンドメモリ２１２と通信するかを規定する。本質的に、アービタ２１０は、プロセッサ２０２−２０６を、いずれかの所望の方法において相互接続することができる。プロセッサ２０２−２０６の内部バッファ容量に応じて、アービタ２１０は、好適には、通信モジュール２０８における相互接続を、ラインレート（プロセッサ２０２−２０６が搭載するおよび／または通信モジュール２０８におけるラインバッファ）に下がったクロックレート（バッファリングなし）において制御することができる。通信モジュール２０８は、内部メモリ（図示せず）をあるいは収容する。第２実施例図３は、本発明におけるビデオデータ処理システム３００に関するマルチプロセッサアーキテクチャの第２実施例のブロック図である。システム３００は、上述した部分２０２−２１２に加えて、汎用プロセッサ３０２を具える。処理アプリケーションのある部分を、例えば、該アプリケーションのアルゴリズム配置における規則性の程度が低いため、プロセッサ２０２、２０４または２０６のようなタスク特性パラメータ化可能プロセッサにおいて容易にマッピングすることができないことが常に起こりうる。したがって、これらの不規則なアルゴリズムを処理するために、十分にプログラム可能な１つまたはそれ以上のプロセッサ３０２を使用する。この混成処理アプローチを、システム３００によって反映させ、汎用プロセッサ３０２は、タスク特定プロセッサ２０２−２０６と通信し、特定のおよびより一般的な処理タスク間の連続的なデータ交換を可能にする。上述したように、プロセッサ３０２が、タスク特定プロセッサ２０２−２０６より相当に低い性能密度を有することは明らかである。したがって、不規則なアルゴリズムに関して強制する性能は、これらが関係する高度に規則正しいマルチメディア計算機能より低くなるに違いない。幸運にも、これは、ビデオ／オーディオ装置およびマルチメディア端末において使用される大部分のマルチメディア計算アルゴリズムに関して真である。一方では、タスク特定プロセッサ２０２−２０６のインタフェースにおいて生じる高速データレートと、他方では、汎用プロセッサ３０２における低速データレートとの間にあるデータレートを、ここで中間データレートと呼ぶ。この中間レートは、例えば、特徴抽出器において、プロセッサ３０２のようなより一般的な形式のプロセッサによって処理できるようにするために、より低いレートかつ好適なフォーマットへ変換するために、特定の情報をデータストリームから抽出する場合に生じる。汎用プロセッサ３０２は、バックグラウンドメモリ２１２におけるデータにアクセスするＩ／Ｏプロセッサとして特徴抽出器３０４を使用することもできる。他方では、プロセッサ３０２のような低速汎用プロセッサによって発生される低速データを、プロセッサ３０４のような特別なプロセッサによって表示レートに、またはグラフィックス表示プロセッサ（図示せず）によってさらにより高いレートに高速化することができる。第３実施例図４は、本発明におけるマルチプロセッサシステム４００のより詳細なブロック図である。低性能密度の汎用プロセッサと、同じアルゴリズムの異なった部分を実行する高性能密度のタスク特定プロセッサとを有する概念を、ここではより一般的な多層すなわち混成アーキテクチャに拡張した。システム４００は、上述したタスク特定プロセッサ２０２−２０６および汎用プロセッサ３０２を含む。加えて、システム４００は、中間レベルのプログラム可能性（制限的にプログラム可能）および中間レベルの性能密度を有する１つまたはそれ以上の他のプロセッサ４０２、．．．、４０４を具える。”中間”という言葉は、代表的な汎用プロセッサ３０２のレベルと、タスク特定プロセッサ、例えばプロセッサ２０２のレベルとの間にあるレベルを示す。プロセッサ４０２ −４０４は、一方で性能密度と、他方でプログラム可能性とのある程度の妥協を与える。グラフィックスコプロセッサまたはディジタル信号プロセッサ（ＤＳＰ）のような専用プログラム可能プロセッサも、中間性能密度を有するこのような制限プログラム可能プロセッサの範疇に入る。代表的に、制限プログラム可能プロセッサ４０２−４０４は、決定構成、分岐および循環を含む制御アルゴリズムの一般的なクラスを実行し、これらに関して、複雑な制御プログラムを読み出すことができる。プロセッサ４０２および４０４を、主として高速プロセッサ２０２−２０６の制御に使用する。加えて、プロセッサ４０２−４０４を、タスク特定プロセッサ２０２−２０６にマッピングすることができない中速アルゴリズム部分の実行に使用する。本発明におけるプロセッサは、異なったレベルの計算性能密度と、異なった程度のプログラム可能性とを有する。性能密度およびプログラム可能性は、性能密度がより高くなるとプログラム可能性がより低くなるように関係する。システム４００は、プロセッサ２０２−２０６、４０２−４０２および３０２の特定の１つの機能が、前記処理または実行すべき制御タスクをかんがみて、プロセッサの計算性能密度とそのプログラム可能性の程度とが最高になる、したがって、システム４００の全体的な性能が最適化される機能的階層化構成において、これらのプロセッサを使用する。高性能密度層を、前記基礎機能を実行するタスク特定プロセッサ２０２−２０６によって形成する。メモリインタフェースプロセッサ４０６と、ポート４１２および４１４に接続されたＩ／Ｏプロセッサ４０８および４１０とは、同様にタスク特定である。中間性能密度の処理層を、制限的プログラム可能プロセッサ４０２−４０４によって形成する。低性能密度処理層を、汎用完全プログラム可能プロセッサ３０２、すなわち、例えばＲＩＳＣプロセッサによって形成する。高速通信は、タスク特定プロセッサ２０２−２０６と、Ｉ／Ｏポート４１２および４１４と、バックグラウンドメモリ２１２との間で、高速通信モジュール２０８を介して生じる。中速通信は、制限的プログラム可能プロセッサ４０２−４０４とタスク特定プロセッサ２０２−２０６との間で、中速バス４１６または明確な相互接続を使用して起こる。低速通信は、完全プログラム可能汎用プロセッサ３０２および制限的プログラム可能プロセッサ４０２−４０４間と、プロセッサ３０２およびアービタ２１０間と、メモリインタフェースプロセッサ４０６内の１個のメモリインタフェースプロセッサを介してプロセッサ３０２およびバックグラウンドメモリ２１２間とに生じる。前記低速通信は、バスインタフェース４１８を使用する。バックグラウンドメモリ２１２をメモリバンクに分割し、あるいはメモリバンクごとに異なったバンド幅を有するようにする。好適には、すべてのプロセッサ２０２−２０６、３０２、４０２−４０４、４０６−４１０は、マルチタスク化に適切であり、データの状態保存またはデータの状態再生、プログラム記憶およびパラメータ記憶用の内部メモリ（図示せず）を有する。好適には、すべてのプロセッサを扱う通信の目的のために、キャッシング／バッファリング設備を有する。好適には、すべてのプロセッサは、ハンドシェークプロトコルを介した局部的かつ動的な相互作用、または静的スケジュール制御プログラムによる局部的／全体的相互作用を制御するスケジューラを具える。フローグラフ図５は、先回りテレビジョン処理アプリケーションに関するデータフローグラフの一例である。以下において、５４−７０ＭＨｚ程度のクロックレートが、消費者向けＩＣの実行に関して可能であるとする。１３．５Ｍ−１８Ｍ画素／秒程度の基本ビデオレートに関して、すなわち、２７−３６Ｍバイト／秒の基本バイトレート（ＢＲ）に関して、各々の高速プロセッサは、（準）並列に、４つの高速動作を行うことができる。この例における処理アプリケーションは、例えば、ローパスフィルタ処理（ＬＰＦ）と、水平／垂直ズームと、ノイズ除去と、動き予測（ＭＥ）および動き補償（ＭＣ）と、ビデオ／グラフィックス合成と、輝度、色合いおよびコントラスト強調のような画像制御とを具える。これらの機能の各々に関する計算要求は、１００ないし８００ＭＯＰＳ程度であり、１個の汎用プロセッサによってすべての機能を同時に実現するには高すぎる。図５は、以下の形式の複雑な基礎機能、すなわち、フィルタ演算を含む水平標本化レート変換（Ｈ−ＳＲＣ）と、簡単な動き補償のための特別なフィルタ処理を含む垂直標本化レート変換（Ｖ−ＳＲＣ）と、色空間変換と、ビデオおよびグラフィックスの合成と、画像制御のための表参照とを示す。図５のグラフにおいて示した演算の各々の計算が集中する部分を、これらの基礎機能の１つにマッピングすることができる。しかしながら、これらの固有の不規則性によって、低い頻度の制御および信号処理を、汎用プロセッサによって実行しなければならない。さらに、図５に示す演算の特定のもののいくつかの部分を、複数の基礎機能にマッピングしてもよい。例えば、”画像制御”演算は、２つの別個の色空間変換ステップを要求し、異なった形態のガンマ変化を可能にしてもよい。上述した６つの基礎機能の各々を、プロセッサ２０２−２０６の１つのような１個のタスク特定プロセッサによって実行すべきである。図５におけるアプリケーションを実行するために、ある数のプロセッサが必要である。この数と、必要なプロセッサの合計の数とを、所定の最高データスループットレートに関して決定することができる。以下においてこのデータスループットレートを、前記において規定したようなＢＲの単位において表す。以下の表は、図５におけるグラフの演算と、列”ｉｎ”においてこれらのデータ入力レートと、列”ｏｕｔ”においてこれらのデータ出力レートと、”ｉｎ”および”ｏｕｔ”の下での最大数とを、すべてＢＲ単位において記載する。前記表によれば、図５の演算を実行するために、合計３１のスループットを必要とする。各々のプロセッサは、この節の始めにおいて与えた仮定の下で、並列に４つの高速信号処理タスクを行うことができる。したがって、理論上、最低８（３１／４の端数を繰上）個のプロセッサが、この目的を満たすために必要である。前記タスク特定プロセッサの特性によって、同様のアルゴリズムを必要とする演算を、１個のタスク特定プロセッサによって能率的に実行する。したがって同様の演算を群にする。例えば、ＬＰＦおよびＨ−ＳＲＣ演算は、ノイズフィルタ処理およびアップコンバージョンと群になり、２（５／４の端数を繰上）個のタスク特定プロセッサを必要とする。ＹＵＶ−ＲＧＢ変換は、画像制御入力処理および画像制御出力処理と群になり、３（９／４の端数を繰上）個のプロセッサを必要とする。グラフィックス／真カラー変換は、画像制御ガンマ変化と群になり、２（６／４の端数を繰上）個のタスク特定プロセッサを必要とする。全部で、１０個のタスク特定プロセッサが、図５のアプリケーションを実行するために必要となる。前記１０個のプロセッサが、完全には使用されないことに注意されたい。これは、追加のタスク特定プロセッサの必要なしに、変更または拡張する余地を与えることができる。第４実施例図６は、本発明におけるマルチプロセッサシステム６００の注釈付きのブロック図である。システム６００は、図５のデータフローグラフに従って動作する。ビデオデータを、バックグラウンドメモリ２１２からメモリインタフェースプロセッサ４０６を経て取り出す。前記ビデオデータを、以下のタスク、すなわち、プロセッサ２０２における垂直標本化レート変換（“Ｖ−ＳＲＣ”）、プロセッサ６０２における動き予測および補償（“motion estim．comp．”）、プロセッサ２０４における水平標本化レート変換（“Ｈ−ＳＲＣ”）、プロセッサ６０４における例えば４：２：２から４：４：４への色空間変換（“color space conv ”）を行うタスク特定プロセッサ２０２−２０６、６０２、６０４および６０６の特定のものを連続して通過させる。入力部４１４において利用できるグラフィックスデータをＩ／Ｏプロセッサ４１０によって処理し、表参照用プロセッサ２０６に供給する。次に前記ビデオデータおよびグラフィックスデータを合成器６０６に供給し、そこからデータを、プロセッサ６０４における色空間変換と、例えば、４１２におけるビデオ出力部に供給する前にプロセッサ６０４においてガンマ設定および他の色空間変換をするために、プロセッサ２０６における表参照とによって処理する。タスク特定プロセッサ６０２（動き予測および補償）と、完全プログラム可能汎用プロセッサ３０２の範囲内のＣＰＵ６０８との間のデータフローに注目されたい。このデータフローは、動き予測／補償アルゴリズムの、高速部分および低速不規則部分への分割によるものである。動き予測器６０２は、ベクトル情報をＣＰＵ６０８に供給し、ＣＰＵ６０８はその結果最高の候補を選択し、動き予測器６０２によって使用するために送り返す。タスク特定プロセッサ２０２−２０６および６０２−６０６間の通信のトポロギにおいて変更が必要な場合、これらの変更は、例えば、基礎機能の実行のタイムスケールよりも相当に大きいタイムスケールにおいて生じる。したがって、前記データフローグラフを、アービタ２１０にロードするか、汎用プロセッサ３０２によって更新する。第５実施例図７は、本発明によるシステム７００の第５実施例のブロック図である。図３、４および６は、異なったレベルの性能密度およびプログラム可能性に属するプロセッサが階層的に相互接続されたアーキテクチャを示す。例えば、図６のシステム６００における高性能密度レベルにおける動き予測器／補償器として機能するタスク特定プロセッサ６０２は、低性能レベルにおける汎用プロセッサ６０８と、中間性能密度レベルにおいて属する制限プログラム可能プロセッサ４０２を経て通信する。しかしながら、２またはそれ以上の異なったレベルを、相互接続性が関係する限り合併することができる。すなわち、異なったレベルにおいて示したプロセッサを、並列に接続することができる。システム７００の例において、すべてのレベルを１つに合併する。高性能密度のタスク特定プロセッサ２０２ −２０６と、例えばＤＳＰである中間性能密度の制限プログラム可能プロセッサ４０２−４０４と、例えばＲＩＳＣである完全プログラム可能低性能密度プロセッサ３０２とを、通信モジュール２０８とＣＰＵバス４１８との間にすべて一様に接続する。この並列状態は、並列に配置されたプロセッサ間のデータの連続的かつ直接的な交換を可能にする。高速通信をモジュール２０８によって管理し、低速通信をＣＰＵバス４１８によって管理する。アービタ２１０およびメモリＩ／Ｏプロセッサ４０６を、図示したようにシステム７００におけるＣＰＵバス４１８に接続する。しかしながら、アービタ２１０およびメモリＩ／Ｏプロセッサ４０６を、これらがモジュール２０８を経てもアクセスできることから、ＣＰＵバス４１８に接続する必要はないことに注意されたい。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＪＰ，ＫＲ

Claims

【特許請求の範囲】１．ビデオデータをビデオアルゴリズムに従って処理し、通信手段を経て相互接続されたマルチプロセッサを具えるビデオデータ処理システム（２００；３００；４００；６００；７００）において、 − 前記マルチプロセッサが、各々が前記アルゴリズムの画像処理レベルにおける複数の基礎機能の各々１つを実行する複数のタスク特定プロセッサ（２０２，２０４，２０６；３０４；６０２，６０４，６０６）を含み、ここで、 − 前記タスク特定プロセッサの各々が代表的な汎用プロセッサより相当に高い性能密度を有し、 − 前記タスク特定プロセッサの各々が、プログラム不可能であるか、代表的な汎用プロセッサより実際的に低いプログラム可能性を有し、 − 前記通信手段が、 − 前記タスク特定プロセッサに並列に結合され、前記タスク特定プロセッサの任意のものの間の並列な通信を可能にする通信モジュール（２０８）を具えることを特徴とするシステム。２．請求の範囲１のシステムにおいて、前記基礎機能の各々１つが、以下のタスク、すなわち、フィルタ処理、ＤＣＴ、色空間変換、標本化レート変換、動き予測および補償、特徴抽出、グラフィックデータおよびビデオデータの合成、表参照、可変長復号化の各々１つを含むシステム。３．請求の範囲１または２のシステムにおいて、前記タスク特定プロセッサの少なくとも特定の１つを、パラメータの値を変えることによって前記基礎機能の関係する１つの制御を可能にするために、パラメータ化可能としたシステム。４．請求の範囲１、２または３のシステムにおいて、前記マルチプロセッサが少なくとも１つの汎用プロセッサ（３０２；６０８）を含み、前記汎用プロセッサが、各々のタスク特定プロセッサより相当に低い性能密度を有し、各々のタスク特定プロセッサより相当に高いレベルのプログラム可能性を有するシステム。５．請求の範囲４のシステムにおいて、前記汎用プロセッサが、前記基礎機能にマッピングするのに適していないアルゴリズムの部分を実行するシステム。６．請求の範囲１または４のシステムにおいて、前記マルチプロセッサが、前記汎用プロセッサと各々のタスク特定プロセッサとの間にある中間性能密度レベルおよびプログラム可能性レベルを有する少なくとも１つの他のプロセッサ（４０２，４０４）を含むシステム。７．請求の範囲６のシステムにおいて、前記他のプロセッサが、以下のタスク、すなわち、 − 前記タスク特定プロセッサの制御、 − グラフィックスコプロセッサとしての機能、 − 前記基礎機能にマッピングするのに適さないアルゴリズムの実行、の少なくとも１つを行うシステム。８．請求の範囲４または５のシステムにおいて、バックグラウンドメモリに接続するポートを具え、 − 前記タスク特定プロセッサの特定の１つ（３０４）が特徴抽出を行い、 − 前記汎用プロセッサが前記ポートに前記特定のタスク特定プロセッサを経てアクセスするシステム。９．請求の範囲１のシステムにおいて、通信アービタ（２１０）を具え、前記通信アービタに格納されたデータフローグラフの指示の下で前記通信モジュールによって与えられる通信を制御するシステム。１０．請求の範囲４のシステムにおいて、通信アービタ（２１０）を具え、前記通信アービタに格納されたデータフローグラフの指示の下で前記通信モジュールによって与えられる通信を制御し、前記汎用プロセッサが前記データフローグラフを制御するシステム。１１．１つの半導体基板上に集積した請求の範囲１、２、３、４、５、６、７、８、９または１０のシステム。