JPH09288722A

JPH09288722A - 高性能バンド結合機能

Info

Publication number: JPH09288722A
Application number: JP8330229A
Authority: JP
Inventors: Ihtisham Kabir; イヒシャム・カビール; Raymond Roth; レイモンド・ロス; Jaijiv Prabhakaran; ジェイジブ・プラブハカラン
Original assignee: Sun Microsystems Inc
Current assignee: Sun Microsystems Inc
Priority date: 1995-11-27
Filing date: 1996-11-27
Publication date: 1997-11-04
Also published as: US5933160A; EP0800140A1; US6538657B1; US6067099A

Abstract

(57)【要約】【課題】ｎバンドのソース画像をｍバンドの目的画像
に変換するさいに、その結合機能を向上させる。【解決手段】ソース画像ベクトルに、ｎ＋１列、ｍ行
の変換行列を乗じる。変換行列内の値はユーザ選択が可
能である。ソース画像と変換行列の積は目的画像ベクト
ルである。目的画像ベクトルはコンピュータ・モニタに
表示することができる。ディジタル・システムでこの機
能を実行するために、ソース画像の画素を区分形式に変
換する。区分算術演算を使用してソース画像に変換行列
値を乗じる。ディジタル・システムで、複数の区分算術
演算を並行して実行することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ディジタル・シス
テムで行うグラフィックスおよび画像処理の分野に関す
る。具体的には、本発明は、特に並列処理システムで行
う場合の、ｎバンドのソース画像をｍバンドの目的画像
に変換するバンド結合機能である。

【０００２】著作権表示本特許文書の開示の一部には、著作権保護の対象となる
題材が含まれている。著作権保有者は特許商標庁の特許
ファイルまたは記録に記載された厳密にそのままの形で
の何人による本特許文書または特許開示の電子写真複製
に対しても異議を持たないが、それ以外のものについて
はいかなる著作権もすべて保有する。

【０００３】付属文書付属文書Ａは、サン・マイクロシステムズ社によって開
発されたＵｌｔｒａＳＰＡＲＣ−Ｉスーパースカラ・プ
ロセッサの「ビジュアル命令セット・ユーザーズ・ガイ
ド」の準備原稿の（１９９５年１０月４日）の複写であ
る。

【０００４】

【従来の技術】ディジタルシステムでは、画像は画像の
画素によって記憶される。１画素はディジタル・システ
ム内の数ビットまたは数バイトのメモリで表される。画
像は一般に画素の二次元配列で表される。画像は多数の
画素の二次元配列である。１つの配列、すなわち「バン
ド」は、画像の特定の特徴を表す。たとえば、画像がＲ
ＧＢ形式のカラー画像である場合、画像の第１のバンド
は赤色成分を表す。第２のバンドは緑色成分を表す。さ
らに、第３のバンドは青色成分を表す。

【０００５】画像処理では多様な目的のためにバンド結
合を使用する。たとえば、バンド結合を使用して、モニ
タ上に表示するためにＹＵＶ形式のビデオ画像をＲＧＢ
形式に変換するなど、画像を１つの色空間から他の色空
間に変換することができる。その逆に、バンド結合を使
用して、画像をＲＧＢ形式からＹＵＶ形式に変換するこ
とができる。さらに、バンド結合を使用して、カラー画
像から輝度情報を抽出し、それを使用して白黒画像を作
成することができる。バンド結合を使用して、所望のバ
イアス値に従って画像の特定の特徴を強調することもで
きる。たとえば、地形画像の特定の特徴を特定の色で示
すことができる。

【０００６】バンド結合機能は、Ｄ＝Ａ＊Ｓという行列
乗算によって行うことができる。Ｓはソース画素を表す
ベクトルである。Ｄは目的画素を表すベクトルである。
Ａは変換行列であり、バイアス値も含む。行列Ａはユー
ザ定義値を含むことができる。さらに、ユーザはバイア
ス値を選択または定義することができる。たとえば、３
バンド・ソース画像をバンド結合して３バンド目的画像
を得る場合、行列表現は以下のようになる。変換行列内の値は、浮動小数点数とすることができる。
変数ｄ、ｈ、およびｌはバイアス値である。行列乗算を
使用すると、画像の各画素に対して行うその結果の計算
は次のようになる。ｄ０＝ａ＊ｓ０＋ｂ＊ｓ１＋ｃ＊ｓ２＋ｄ、ｄ１＝ｅ＊ｓ０＋ｆ＊ｓ１＋ｇ＊ｓ２＋ｈ、およびｄ２＝ｉ＊ｓ０＋ｊ＊ｓ１＋ｋ＊ｓ２＋１

【０００７】ディジタル処理技術の向上にもかかわら
ず、乗算や加算などの数学演算には依然として比較的時
間がかかる。したがって、バンド結合機能のような計算
を多用する機能は、相当な量の計算資源と時間を必要と
する。さらに、ディジタル処理技術に対するユーザの要
求が大きくなるにつれて、このようなタイプの画像処理
演算はさらに複雑化する。たとえば、画像の解像度が一
般に高くなり、それによって１画像当たりの画素数が増
える。したがって、バンド結合機能の実行は、画像の解
像度が高くなるほどそれに比例して長い時間を要するこ
とになる。したがって、バンド結合機能を生成するため
に使用する技法を向上させて、その機能をより迅速でよ
り効率的に実行することができるようにすることがます
ます重要になる。

【０００８】

【発明が解決しようとする課題】以上からわかるよう
に、バンド結合機能を生成する改良された技法が必要で
ある。

【０００９】

【課題を解決するための手段】本発明は、ｎバンドのソ
ース画像をｍバンドの目的画像に変換する高性能のバン
ド結合機能である。具体的には、この機能は変換行列を
使用してソース画像の任意のバンド間線形結合を行う。
変換行列は、任意の大きさとすることができ、それを使
用してソース画像から異なるバンド数を有する目的画像
を生成することができる。たとえば、ＲＧＢ画像を白黒
画像に変換することができる。

【００１０】本発明のバンド結合機能では、画像のソー
ス画像ベクトルを、ｎ＋１列、ｍ行の変換行列で乗算す
ることができる。変換行列内の値はユーザ選択可能であ
る。変換行列内の値は浮動小数点数とすることができ
る。ソース画像ベクトルと変換行列の積は、目的画像ベ
クトルである。バンド結合機能の結果である目的画像の
画素は、コンピュータ・モニタ上に表示することができ
る。

【００１１】本発明では、バンド結合機能を迅速に評価
することができるようにディジタル・システムを最適化
する。本発明は、計算を多様するタスクの多くが同時に
並行して実行されるバンド結合機能を評価する技法を提
供する。ディジタル・システムでこの機能を実行するた
めに、ソース画像の画素を区分形式に変換する。区分算
術演算を使用して、ソース画素バンドに変換行列値を乗
じる。ディジタル・システムでは、複数の区分算術演算
を並行して実行することができる。たとえば、ディジタ
ル・システム内の浮動小数点／グラフィックス・ユニッ
トは、１クロック・サイクルで複数を実行することがで
きる。さらに、本発明の一実施態様では、一度に１画素
の少なくとも２つのバンドに対して行列乗算を行うこと
ができる。実際に、これによってバンド結合機能の演算
速度が向上する。さらに、実行速度をさらに向上させる
ために、バンド結合機能の演算を他のプロセッサ演算と
共にパイプライン化することができる。

【００１２】具体的には、本発明のバンド結合機能は以
下のステップを含む。画素の第１のバンドを第１のレジ
スタの第１の部分に格納する。画素の第２のバンドを第
１のレジスタの第２の部分に格納する。変換行列の第１
の値を第２のレジスタの第１の部分に格納する。さら
に、変換行列の第２の値を第２のレジスタの第２の部分
に格納する。本発明の他の実施態様では、第１のレジス
タの第１の部分と第２のレジスタの第１の部分を乗算し
て第１の積を求める。第１のレジスタの第２の部分と第
２のレジスタの第２の部分を乗算して第２の積を求め
る。これらの乗算ステップは、ディジタル・システムで
並列実行することができる。

【００１３】本発明のその他の目的、特徴、および利点
は、以下の詳細な説明と添付図面を検討すれば明らかに
なろう。全図を通して同様の参照符号は同様の機構を表
す。

【００１４】

【発明の実施の形態】図１に、本発明のバンド結合機能
を実行するシステムを示す。具体的には、図１は本発明
のソフトウェアを実行するために使用するコンピュータ
またはディジタル・システムを含んでいる。たとえば、
本発明のバンド結合機能は、Ｓｕｎワークステーション
で実行することができる。図１には、モニタ３と画面５
とキャビネット７とキーボード９とマウス１１とを備え
るコンピュータ・システムが図示されている。マウス１
１は、マウス・ボタン１３などの１つまたは複数のボタ
ンを有する。キャビネット７には、プロセッサ、メモ
リ、大容量記憶装置１７、および同様のものなどの周知
のコンピュータ構成要素（図示せず）が収容されてい
る。大容量記憶装置１７は、大容量ディスク・ドライ
ブ、フロッピィ・ディスク、磁気ディスク、固定ディス
ク、ハード・ディスク、ＣＤ−ＲＯＭ、ＣＤ−ＷＯＲ
Ｍ、テープ記憶装置、リーダ、およびその他の同様の媒
体と、それらの組合せを含むことができる。大容量記憶
装置１７には、本発明のソフトウェアの２進機械実行可
能バージョンを格納、すなわち常駐させることができ
る。さらに、本発明のソフトウェアのソース・コード
も、（たとえば磁気ディスク、ＣＤ−ＲＯＭ、およびリ
ーダを含む）大容量記憶装置１７に記憶または常駐させ
ることができる。

【００１５】図２に、本発明のソフトウェアを実行する
ために使用するコンピュータ・システムのシステム・ブ
ロック図を示す。図１と同様に、コンピュータ・システ
ム１は、モニタ３、キーボード９、および大容量記憶装
置１７を備える。コンピュータ・システム１はさらに、
中央演算処理装置１０２、システム・メモリ１０４、入
出力制御装置１０６、ディスプレイ・アダプタ１０８、
シリアル・ポート１１２、ネットワーク・インタフェー
ス１１８、およびスピーカ１２０などのサブシステムを
備える。本発明と共に使用するのに適したその他のコン
ピュータ・システムは、追加のサブシステムまたはこれ
より少ないサブシステムを備えることもできる。たとえ
ば、他のコンピュータ・システムは、複数のプロセッサ
１０２を備えることもでき（すなわちマルチプロセッサ
・システム）、システムがキャッシュ・メモリを備える
こともできる。

【００１６】１２２などの矢印は、コンピュータ・シス
テム１のシステム・バス・アーキテクチャを表す。しか
し、これらの矢印はサブシステムをリンクする機能を果
たす任意の相互接続方式を例示するものである。たとえ
ば、スピーカ１２０は、ポートを介して他のサブシステ
ムに接続したり、中央演算処理装置１０２への内部直接
接続を有することもできる。しかし、図２に示すコンピ
ュータ・システム１は、本発明と共に使用するのに適し
たコンピュータ・システムの例である。当業者なら、本
発明と共に使用するのに適したサブシステムのその他の
構成も容易にわかるであろう。

【００１７】図３は、図１および図２に示すディジタル
・システムで実施することができるスーパースカラ・プ
ロセッサの略ブロック図である。具体的には、図３に
は、サン・マイクロシステムズ社によって開発および製
造されたＵｌｔｒａＳＰＡＲＣ−Ｉプロセッサが図示さ
れている。このプロセッサについては、以下で簡単に説
明し、付属文書Ａで詳述されている。このプロセッサに
ついては、１９９４年４月２９日に出願されたティモシ
ー・ジェイ・ヴァン・フック、レスリー・ディーン・コ
ーン、およびロバート・ヤングによる米国特許出願第０
８／２３６５７２号にも記載されており、これは参照に
よりその全体が本明細書に組み込まれる。

【００１８】プロセッサ１０２は、高集積スーパースカ
ラＲＩＳＣプロセッサである。このプロセッサは、条件
付き分岐やキャッシュ・ミスがある場合でも１サイクル
に４命令を高クロック・レートで実行することができ
る。プリフェッチおよびディスパッチ・ユニット（ＰＤ
Ｕ）３１５と分岐ユニット３２０は分岐命令を処理す
る。整数実行ユニット（ＩＥＵ）３２５はすべての算術
演算と論理演算を処理する。ロード／ストア・ユニット
（ＬＳＵ）３３０は、プロセッサの様々な構成要素間の
データ転送を処理する。浮動小数点／グラフィックス・
ユニット（ＦＰＵ）３３５は、浮動小数点演算とグラフ
ィックス演算を処理する。プロセッサは、複数のレジス
タ、キャッシュ、バッファ、およびその他の構成要素も
備える。

【００１９】図４はＦＰＵ３３５のブロック図である。
ＦＰＵ３３５は以下の機能ブロックを組み込んでいる。
すなわち、浮動小数点加算器４１０、浮動小数点乗算器
４１５、浮動小数点除算器（および平方根演算器）４１
８、グラフィックス加算器４２０、グラフィックス乗算
器４２５、およびレジスタ・ファイル４３０である。Ｆ
ＰＵ３３５とＰＤＵ３１５とＬＳＵ３３０の間の相互接
続が図示されている。

【００２０】ＦＰＵ３３５は、毎サイクルに２つの浮動
小数点／グラフィックス演算（ＦＧｏｐｓ）と１つのＦ
Ｐロード／ストア演算を実行することができる。演算は
完全にパイプライン化されている。ＦＰＵ３３５は、グ
ラフィックス・アプリケーションに必要と考えられる区
分算術演算を行う機能を備えるように強化されたデータ
経路を有する。たとえば、この機能は、グラフィックス
加算器、グラフィックス乗算器、および画素距離論理実
施によって実現される。グラフィックス加算器は、加算
を同時に並行して実行することができる４つの独立した
１６ビット加算器として構成されている。グラフィック
ス乗算器は、乗算を同時に並行して実行することができ
る４つの独立した８×１６乗算器から成る。形式変換と
メモリ位置合わせをサポートするように、スケール・フ
ァクタ・フィールドと位置合わせオフセットフィールド
を有するグラフィクス状態レジスタ（ＧＳＲ）（図示せ
ず）が組み込まれている。

【００２１】図５Ａに、区分算術の例を示す。具体的に
は、図５Ａには、８ビット×１６ビットの区分乗算演算
が示されている。たとえば、画素Ａ、Ｂ、Ｃ、およびＤ
を記憶場所５１０に区分化形式で格納することができ
る。記憶場所５１０は、２進データを記憶し、たとえば
ＲＡＭ記憶場所、レジスタ、一時レジスタ、ラッチ、お
よびその他の同様の構成要素と、それらの組合せを使用
して実装することができる。

【００２２】区分形式では、記憶場所の第１の部分が画
素Ａを、第２の部分が画素Ｂを、第３の部分が画素Ｃ
を、第４の部分が画素Ｄを保持する。たとえば、画素は
８ビットで表すことができる。記憶場所５１０は３２ビ
ット幅となる。その場合、画素Ｄは０から７までのビッ
ト位置に格納される。画素Ｃは８から１５までのビット
位置に格納される。画素Ｂは１６から２３までのビット
位置に格納される。さらに、画素Ａは２４から３１まで
のビット位置に格納される。

【００２３】乗数Ｗ、Ｘ、Ｙ、およびＺは、記憶場所５
２０に区分形式で記憶される。乗数は整数形式とするこ
とができる。乗数は１６ビット幅である。本発明の他の
実施形態では、乗数は浮動小数点表現などの他の形式と
することもできる。記憶場所５２０は、６４ビットの記
憶場所とすることができる。区分形式で、乗数Ｚは記憶
場所５２０の０から１５までのビット位置に格納するこ
とができる。乗数Ｙは１６から３１までのビット位置に
格納することができる。乗数Ｘは３２から４７までのビ
ット位置に格納することができる。乗数Ｗは４８から６
３までのビット位置に格納することができる。

【００２４】本発明の一実施形態では、乗数Ｗ、Ｘ、
Ｙ、およびＺが浮動小数点値の場合、それらの値は変換
されて記憶場所５２０に整数形式で格納される。たとえ
ば、浮動小数点値を整数形式に変換する１つの技法は、
浮動小数点値に、２の累乗である大きな整数（たとえば
４０９６、６５５３６）を乗じる（すなわち「スケール
・アップ」する）ことである。この積の整数部分がその
後の区分算術計算に使用される。整数演算は一般に浮動
小数点演算よりもはるかに速いため、浮動小数点値を整
数形式に変換することによって、区分算術計算の実行速
度が高速化する。さらに、一般に必要なのは浮動小数点
値の最上位ビットのみであるため、この変換の結果、確
度と精度の損失が比較的小さくなる。

【００２５】区分乗算の場合、画素ＤにＺを乗じ、画素
ＣにＹを乗じ、画素ＢにＸを乗じ、画素ＡにＷを乗じ
る。これらの乗算の積を区分形式で６４ビットの記憶場
所５３０に格納する。Ｄ＊Ｚの積は、記憶場所５３０の
ビット位置０から１５に格納される。Ｃ＊Ｙの積はビッ
ト位置１６から３１に格納される。Ｂ＊Ｘの積はビット
位置３２から４７に格納される。Ａ＊Ｗの積はビット位
置４８から６３に格納される。

【００２６】区分乗算などの区分算術は、図４に示すよ
うなプロセッサで実行することができる。演算は同時に
並行して実行される。例えば、図５Ａの４個の画素の乗
算は、グラフィックス乗算器４２５によって同時に並列
して行われることになる。さらに、この区分算術演算は
１つのクロック・サイクルで実行することができる。

【００２７】同じ期間により多くのデータに対する演算
が行われるため、区分算術演算の結果、パフォーマンス
が向上する。図５Ａに示す例では、４つの乗算が同時に
実行されるため、区分乗算によってパフォーマンスが４
倍に向上する。区分算術演算は、加算、減算、除算、お
よびその他の機能の場合も同様に実行することができ
る。その場合も同様のパフォーマンス向上が実現される
ことになる。区分化、区分データ形式、および区分算術
の詳細については付属文書Ａに記載されている。

【００２８】図５Ｂは、区分算術の他の例である。図５
Ａと同様に、図５Ｂにも区分乗算が示されている。区分
算術のこの例では、２つの乗算が同時に並行して実行さ
れる。さらに、データ・オペランドは、図５Ａに示すも
のとは多少異なる方式で格納される。４個の８ビット画
素Ｅ、Ｆ、Ｇ、およびＨは、区分形式で３２ビットの記
憶場所５５０に格納される。１６ビットの乗数Ｕおよび
Ｖは区分形式で３２ビットの記憶場所５６０に格納され
る。これらの乗数は、前述のように整数形式に変される
浮動小数点値とすることができる。Ｕ＊ＦおよびＶ＊Ｈ
の積は区分形式で６４ビットの記憶場所５７０に格納さ
れる。Ｕ＊Ｆの積が３２ビットを使用して格納される。
Ｖ＊Ｈの積が３２ビットを使用して格納される。

【００２９】図６Ａに本発明の流れ図を示す。本発明
は、バンド結合機能を実行する。バンド結合機能は、変
換行列で指定された値に従ってｎバンドのソース画像を
ｍバンドの目的画像に変換する。従来の技術の項で説明
したように、バンド結合演算はＤ＝Ａ＊Ｓの行列乗算を
必要とする。Ｄは目的画像の画素のバンドのベクトルで
ある。Ａはバイアス値を含む変換行列である。Ｓはソー
ス画像の画素のバンドのベクトルである。

【００３０】図６Ａに示す技法は、前述のように画像処
理用に特別に調整されたディジタル・システムまたは機
械で実行することができる。たとえば、本発明の実施形
態の実施のためのソース・コードは、ＵｌｔｒａＳＰＡ
ＲＣ−Ｉプロセッサ用のビジュアル命令セット（ＶＩ
Ｓ）言語を使用して作成することができる。ＶＩＳ言語
については、付属文書Ａの「ビジュアル命令セット・ユ
ーザーズ・ガイド」に記載されている。

【００３１】図６Ａの流れ図に、３バンド（ｎ＝３）ソ
ース画像と３バンド（ｍ＝３）目的画像の場合のバンド
結合演算を示す。特定の例について説明するが、ソース
画像および目的画像は、任意の大きなバンド数または小
さなバンド数を有することができる。たとえば、バンド
結合機能の一実施形態では、ソース画像は１〜４バンド
を有することができ、目的画像は１〜４バンドを有する
ことができる。しかし他の実施形態では、ソース画像と
目的画像は４バンドを超える数のバンド数を有すること
ができる。ただし典型的にはバンド数が増えるにつれて
必要な計算数も増える。

【００３２】ｎ＝３およびｍ＝３である特定の事例を選
択したのは本発明の原理を例示するためであり、本発明
をいかなる意味でも限定するものと解釈してはならな
い。ソース画像および目的画像のバンド数とは関係な
く、本発明のバンド結合機能は流れ図で説明しているの
と同様に実行される。

【００３３】ｎ＝３およびｍ＝３の場合、指定されたま
たは変換行列Ａ（ユーザが定義することができる）は
（ｎ＋１）列、ｍ行となる。したがって、ｎ＝３でｍ＝
３の場合、Ａは４列３行とになる。以下の行列式にバン
ド結合演算を示す。変数ｄ、ｈ、およびｌはバイアス値である。画像の各画
素に対して実行するこの結果の計算は以下のようにな
る。ｄ０＝ａ＊ｓ０＋ｂ＊ｓ１＋ｃ＊ｓ２＋ｄ、ｄ１＝ｅ＊ｓ０＋ｆ＊ｓ１＋ｇ＊ｓ２＋ｈ、およびｄ２＝ｉ＊ｓ０＋ｊ＊ｓ１＋ｋ＊ｓ２＋ｌ。

【００３４】図６Ａの流れ図で、ステップ６０３は指定
された行列Ａを転置し、値をプロセッサ内の倍長レジス
タに入れる。ａからｌまでの値は浮動小数点数とするこ
とができる。これらの値は、前述のようにスケール・ア
ップし、整数形式に変換することができる。特定の実施
形態では、ａからｌまでの値を１６ビットとして格納す
ることができる。ａからｌまでの値は、レジスタなどの
記憶場所に格納される。典型的なレジスタは３２ビット
幅である。倍長レジスタは６４ビット幅である。さら
に、ａからｌまでの値は区分形式で格納することができ
る。たとえば、４つの１６ビット値を倍長レジスタに区
分形式で格納することができる。

【００３５】図６Ｂに、変換行列Ａのａからｌまでの変
数を、６４ビットを有する倍長レジスタＣ０、Ｃ２、Ｃ
３、およびＣ４にどのように配置することができるかを
示す。Ｃ０、Ｃ２、Ｃ３、およびＣ４レジスタの内容は
区分形式であることに留意されたい。たとえば、レジス
タＣ２にはａ、ｅ、ｉ、およびｘの値を入れることがで
きる。レジスタＣ３にはｂ、ｆ、ｊ、およびｘが入れら
れる。レジスタＣ４にはｃ、ｇ、ｋ、およびｘが入れら
れる。レジスタＣ０にはｄ、ｈ、ｌ、およびｘが入れら
れる。値「ｘ」はドントケア値を示す。

【００３６】ステップ６０６はバンド結合機能の計算を
行うループを開始する。このループでは、目的画像Ｄの
各画素について必要な行列演算が実行される。

【００３７】ステップ６０９で、バイアス値ｄ、ｈ、お
よびｌがレジスタｄ０およびｄｌに入れられる。これら
のバイアス値は１６ビットを使用して表すことができ
る。図６Ｃに、これらのバイアス値がレジスタｄ０およ
びｄｌにどのように格納されるかを示す。たとえばｄお
よびｈはレジスタｄ０に（区分形式で）格納される。レ
ジスタｄ１はｌおよびｘを（区分形式で）保持する。値
「ｘ」はドントケア値を示す。

【００３８】ステップ６１２で、ソース画像のバンドが
読み取られる。この例では、ソース画像は３つのバンド
ｓ０、ｓ１、およびｓ２を有する。バンドの計算は任意
の所望の順序で実行することができる。たとえば、ステ
ップ６１２に示すようにｓ０の値を先に求める。次にバ
ンドｓ１とｓ２の値を順次に求める。

【００３９】ステップ６１５では、「スカラ」演算を行
う。スカラ演算によって、ソース画素のバンドが４回複
製され、それらは図６Ｄに示すように区分形式で
（「ｔ」で表されている）レジスタに入れられる。たと
えば、画素のバンドは８ビットで表すことができる。次
に、スカラ演算によって８ビット画素を３２ビットレジ
スタで４回複製する。スカラ演算によって区分算術演算
の画素値が作成される。

【００４０】ステップ６１８で、乗算加算演算であるＳ
ＡＸＰＹ演算を行う。具体的には、ＳＡＸＰＹ（Ａ，
Ｂ，Ｃ，Ｄ）は以下の計算を表す。Ａ＝Ｂ＊Ｃ＋ＤＡ、Ｂ、Ｃ、およびＤは２つの要素のベクトルである。
ＳＡＸＰＹ演算はプロセッサで区分算術を使用して実行
する。前述のように、複数の並列乗算を行うことができ
る。複数の並列加算も行うことができる。具体的には、
ステップ６１８で演算ＳＡＸＰＹ（ｄ１，ｔ，ｌｏ（ｃ
２），ｄ１）を実行し、この演算は以下の関数を表す。ｄ１＝ｔ＊ｌｏ（ｃ２）＋ｄ１レジスタｄ１の内容がレジスタｔと、レジスタｃ２の下
位ビットとの積に加算される。この積は、レジスタｄ１
の前の内容に加算される。具体的には、レジスタｔには
ｓ０とｓ０が入っている。レジスタｃ２の下位ビットに
はｉとｘが入っている。レジスタｄ１にはｌとｘが入っ
ている。（図５Ｂに示すような）区分乗算を使用して、
（レジスタｔ内の）値ｓ０に（レジスタｄ１）内のｉを
乗じ、（レジスタｔ内の）ｓ０に（レジスタｄ１）内の
ｘを乗じる。これらの積をレジスタｄ１の内容（すなわ
ちｌおよびｘ）に区分加算する。レジスタｄ１内の結果
はｉ＊ｓ０＋ｌおよびｘ（区分形式）である。これを図
６Ｅに示す。

【００４１】本発明では算術演算が区分化されるため、
乗算を同時に（たとえば１サイクルで）実行することが
できる。具体的には、目的画素の複数のバンドを同時に
並列で求めることができる。さらに、複数の加算も同様
に同時に実行される。したがって、本発明は、実行する
必要のある演算を、並列実行することができるように構
成する。計算がより短い帰還で実行されるため、算術演
算を同時に実行しない場合と比較して、本発明の技法は
本発明のバンド結合機能の実行速度とスループットを大
幅に向上させる。

【００４２】さらに、本発明の他の実施形態では、ＳＡ
ＸＰＹ演算を一度に２つの画素に対して実行する。たと
えば、第１の画素を２回複製してレジスタの第１の部分
と第２の部分に格納する。第２の画素を２回複製してそ
のレジスタの第３の部分と第４の部分に格納する。その
結果は、５Ａ図の記憶場所５１０のようになる。次に、
これらの画素に（図５Ａの記憶場所５２０に示すように
格納されている）適切な変換行列乗数を乗じる。図５Ａ
に示すように、４つの８×１６乗算を同時に並行して実
行する。グラフィックス乗算器４２５によって区分算術
演算を行うことができる。結果は６４ビット・レジスタ
に格納される。この区分算術演算技法によって、バンド
結合ルーチンのこの演算のパフォーマンスが４倍に向上
する。

【００４３】ステップ６２１でＳＡＸＰＹ（ｄ０，ｔ，
ｈｉ（ｃ２），ｄ０）演算を行う。この演算は以下の演
算を表す。ｄ０＝ｔ＊ｈｉ（ｃ２）＋ｄ０レジスタｄ０の内容がレジスタｔと、レジスタｃ２の上
位ビットとの積に加算される。レジスタｄ０にはｄとｈ
が入っている。レジスタｔにはｓ０とｓ０が入ってい
る。レジスタｃ２の上位ビットにはａとｅが入ってい
る。レジスタｔとｈｉ（ｃ２）との内容を乗じる。その
結果はａ＊ｓ０およびｅ＊ｓ０である。前述のように、
これらの乗算は区分算術演算を使用してプロセッサで同
時に並行して実行することができる。この結果をｄおよ
びｈにそれぞれ加算する。したがって、ｄ０レジスタに
入れられる結果は、図６Ｆに示すようにａ＊ｓ０＋ｄお
よびｅ＊ｓ０＋ｈである。前述のように、ステップ６２
１では２つの画素の計算を同時に処理することができ、
その結果さらにスループットが向上する。

【００４４】第２のバンドｓ１の計算を開始するため
に、ステップ６２４で画像の第２のバンドｓ１からソー
ス画素を読み取る。ステップ６２７で、そのソース画素
のスカラ演算（４回複製する）を行い、レジスタｔに格
納する。これを図６Ｇに示す。

【００４５】ステップ６３０でＳＡＸＰＹ（ｄ１，ｔ，
ｌｏ（ｃ３），ｄ１）演算を行う。この演算は以下の演
算を表す。ｄ１＝ｔ＊ｌｏ（ｃ３）＋ｄ１レジスタｄ１の内容をレジスタｔと、レジスタｃ３の下
位ビットとの積に加算する。この積をレジスタｄ１の前
の内容に加算する。具体的には、レジスタｔにはｓ１と
ｓ１が入っている。レジスタｃ３の下位ビットにはｊと
ｘが入っている。さらに、レジスタｄ１にはｉ＊ｓ０＋
ｌおよびｘが入っている。（レジスタｔ内の）バンドｓ
１のソース画素をｊで区分乗算し、（レジスタｔ内の）
ソース画素にｘを乗じる。積はｓｌ＊ｊおよびｊ＊ｘに
なる。これらの積をｄ１の内容に加算する。その結果で
あるｓｌ＊ｊ＋ｉ＊ｓ０＋１およびｘ（ドントケア）が
レジスタｄ１に格納される。これを図６Ｈに示す。

【００４６】前述のように、本発明の算術演算は区分化
されている。プロセッサで複数の演算を同時に（たとえ
ば１サイクルで）実行することができる。画素の複数の
バンドを同時に乗算することができる。区分算術演算の
結果、本発明のバンド結合機能の実行速度が速くなる。
さらに、前述のように、他の実施形態では、ＳＡＸＰＹ
演算を同時に２つの画素に対して実行する。この技法を
使用すると、バンド結合機能のこの演算のパフォーマン
スが４倍向上する。

【００４７】ステップ６３３で、ＳＡＸＰＹ（ｄ０，
ｔ，ｈｉ（ｃ３），ｄ０）演算を実行する。これは以下
の演算を表す。ｄ０＝ｔ＊ｈｉ（ｃ３）＋ｄ０レジスタｄ０の現在の内容をレジスタｔと、レジスタｃ
３の上位ビットとの積に加算する。この積をレジスタｄ
０の前の内容に加算する。具体的には、レジスタｔには
ｓ１とｓ１が入っている。レジスタｃ３の上位ビットに
はｂとｆが入っている。レジスタｄ０にはａ＊ｓ０＋ｄ
とｅ＊ｓ０＋ｈが入っている。（レジスタｔ内の）バン
ドｓ１のソース画素をレジスタｃ３内のｂで区分乗算す
る。（レジスタｔ内の）ソース画素にレジスタｃ３内の
ｆを乗じる。この積はｓ１＊ｂおよびｓ１＊ｆになる。
これらの積をｄ１の内容に区分加算する。その結果は、
ｂ＊ｓ１＋ａ＊ｓ０＋ｄおよびｆ＊ｓ１＋ｅ＊ｓ０＋ｈ
であり、レジスタｄ０に格納される。これを図６Ｉに示
す。

【００４８】本発明の算術演算は区分化されている。複
数の算術演算を同時に実行することができる。前述のよ
うに、区分算術演算の結果、本発明のバンド結合機能の
実行速度が速くなる。さらに、他の実施形態では、同じ
期間に（同じバンドの）２つの画素に対してＳＡＸＰＹ
演算が実行される。この技法を使用すると、バンド結合
機能のこの演算のパフォーマンスが４倍向上する。

【００４９】第３のバンドｓ２に対する計算を開始する
ために、ステップ６３６でイメージの第３のバンドｓ２
から画素を読み取る。ステップ６３９で、ソース画素の
スカラ演算を行い（４回複製する）、倍精度レジスタｔ
に格納する。これを図６Ｊに示す。一実施形態では、ソ
ース画素を１６ビットで表すことができる。したがっ
て、レジスタｔは６４ビット幅になる。

【００５０】ステップ６４２で、ＳＡＸＰＹ（ｄ１，
ｔ，ｌｏ（ｃ４），ｄ１）演算を実行する。これは以下
の演算を表す。ｄ１＝ｔ＊ｌｏ（ｃ４）＋ｄ１レジスタｄ１の内容をレジスタｔと、レジスタｃ３の下
位ビットとの積に加算する。この積をレジスタｄ１の内
容に加算する。具体的には、レジスタｔにはｓ２とｓ２
が入っている。レジスタｃ４の下位ビットにはｋとｘが
入っている。さらに、レジスタｄ１にはｉ＊ｓ０＋ｊ＊
ｓ１＋ｌおよびｘが入っている。（レジスタｔ内の）バ
ンドｓ２のソース画素に（レジスタｃ４内の）ｋを乗
じ、（レジスタｔ内の）ソース画素ｓ２を（レジスタｃ
４内の）ｘで区分乗算する。この積はｓ２＊ｋおよびｓ
２＊ｘになる。これらの積をｄ１の内容に区分加算す
る。その結果のｓ２＊ｋ＋ｓ１＊ｊ＋ｉ＊ｓ０＋ｌおよ
びｘ（ドントケア）がレジスタｄ１に格納される。これ
を図６Ｋに示す。

【００５１】前述のように、本発明の算術演算は区分化
されている。プロセッサで複数の乗算および加算を同時
に（たとえば１サイクルで）実行することができる。画
素の複数のバンドを同時に乗算することができる。区分
算術演算の結果、本発明のバンド結合機能の実行速度が
速くなる。さらに、他の実施形態では、同じクロック・
サイクルに（同じバンドの）２つの画素に対してＳＡＸ
ＰＹ演算が実行される。この技法を使用すると、バンド
結合機能のこの演算のパフォーマンスが４倍向上する。

【００５２】ステップ６４５で、ＳＡＸＰＹ（ｄ０，
ｔ，ｈｉ（ｃ４），ｄ０）演算を実行し、これは以下の
演算を表す。ｄ０＝ｔ＊ｈｉ（ｃ４）＋ｄ０レジスタｄ０の現在の内容をレジスタｔと、レジスタｃ
４の上位ビットとの積に加算する。この積をレジスタｄ
０の内容に加算する。具体的には、レジスタｔにはｓ２
とｓ２が入っている。レジスタｃ４の上位ビットにはｃ
とｇが入っている。レジスタｄ０にはａ＊ｓ０＋ｂ＊ｓ
１＋ｄとｅ＊ｓ０＋ｆ＊ｓ１＋ｈが入っている。（レジ
スタｔ内の）バンドｓ２のソース画素を（レジスタｃ４
内の）ｃで区分乗算し、（レジスタｔ内の）ソース画素
ｓ２をレジスタｃ４内のｇで乗算する。この積はｓ２＊
ｃおよびｓ２＊ｇになる。これらの積をｄ１の内容に区
分加算する。その結果はｃ＊ｓ２＋ｂ＊ｓ１＋ａ＊ｓ０
＋ｄおよびｇ＊ｓ２＋ｆ＊ｓ１＋ｅ＊ｓ０＋ｈであり、
レジスタｄ０に格納される。これを図６Ｌに示す。

【００５３】本発明の算術演算は区分化されている。前
述のような１つのプロセッサで複数の乗算を同時に（た
とえば１サイクルで）実行することができる。複数の加
算も同時に実行することができる。より短い期間により
多くの計算を実行することができるため、区分算術演算
の結果、本発明のバンド結合の実行速度が速くなる。さ
らに、他の実施形態では、同じクロック・サイクルに
（同じバンドの）２つの画素に対してＳＡＸＰＹ演算を
行う。２つの画素を同時に処理することによって、バン
ド結合機能のこの演算のパフォーマンスが４倍向上す
る。

【００５４】レジスタｄ０およびｄ１内の結果は、前記
の行列式によって説明したのと同じ結果であることに留
意されたい。本発明のバンド結合機能は、区分算術演算
を使用して計算が並列実行されるように計算を構成する
ことによって実行速度を速くする。

【００５５】ステップ６４８では、レジスタｄ０および
ｄ１に入っている結果を「パック」する。レジスタｄ０
およびｄ１には、目的イメージの画素が区分形式で入っ
ている。ステップ６４８で、区分形式の画素を標準画素
形式に変換する。さらに、行列内の値をスケール・アッ
プしてレジスタに整数形式で格納していることもある。
したがって、これを適切に反映させるために、目的画素
を「スケール・ダウン」する必要がある場合がある。ス
テップ６４８は、ＦＰＵ３３５のグラフィックス状態レ
ジスタ（ＧＳＲ）を使用して行うことができる。レジス
タｄ０およびｄ１の内容には、３つの目的バンドｄ０、
ｄ１、およびｄ２の結果が入っている。これらの値を標
準形式で保管し（ステップ６５１）、たとえばコンピュ
ータ表示メモリに書き込むことができる。

【００５６】画像全体のバンド結合機能を完了するため
に、目的画像内の各画素について上記のプロセスを繰り
返す（ステップ６０６）。次に、ディジタル・システム
に結合されたモニタまたは画面にそれらの画素を表示す
ることができる。画素は、計算を実行しながら画面に表
示することもできる。

【００５７】本発明のバンド結合機能は、プロセッサの
命令をパイプライン化することによっても向上させるこ
とができる。たとえば、バンド結合機能のパフォーマン
スは、区分算術演算を他のコンピュータ演算と共にパイ
プライン化することによってさらに向上させることがで
きる。具体的には、乗算を実行している間に、プロセッ
サは次のクロック・サイクルで加算する他のレジスタの
内容をロードすることができる。

【００５８】本発明の好ましい実施形態の以上の説明
は、例示および説明のために示したものである。網羅的
であることを意図したものではなく、本発明を説明した
厳密な態様に限定するものでもなく、上記の教示に鑑み
て多くの変更および変形が可能である。以上の実施形態
は、本発明の原理とその実施態様を最もよく明らかに
し、それによって当業者が本発明を様々な実施態様で、
企図した特定の用途に適合した様々な変更を加えて最も
良く利用することができるようにするために、選定し、
説明したものである。本発明の範囲は本明細書の特許請
求の範囲によって規定されるものである。

【図面の簡単な説明】

【図１】典型的なコンピュータ・システムを示す図で
ある。

【図２】コンピュータ・システムの構成要素とそれら
の相互接続を示す図である。

【図３】コンピュータ・システムのプロセッサを示す
ブロック図である。

【図４】プロセッサの浮動小数点／グラフィックス・
ユニットを示すブロック図である。

【図５】区分算術の例を示すブロック図である。

【図６】本発明の技法の流れ図と流れ図の様々なステ
ップの結果を示す図である。

【符号の説明】

１コンピュータ・システム３モニタ５画面９キーボード１７大容量記憶装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者レイモンド・ロスアメリカ合衆国 94087 カリフォルニア州・サニーベール・テンプルトンコート・630 (72)発明者ジェイジブ・プラブハカランアメリカ合衆国 94086 カリフォルニア州・サニーベール・ビセントドライブ・ナンバー277・1295

Claims

【特許請求の範囲】

【請求項１】ディジタル・システムにおいて、画像を
変換する方法であって、画像の画素のバンドを第１の記憶場所の第１の部分に格
納するステップと、画像の画素のバンドを第１の記憶場所の第２の部分に格
納するステップと、変換行列の第１の値を第２の記憶場所の第１の部分に格
納するステップと、変換行列の第２の値を第２の記憶場所の第２の部分に格
納するステップと、第１の記憶場所の第１の部分と第２の記憶場所の第１の
部分とを乗算して第１の積を求めるステップと、第１の記憶場所の第２の部分と第２の記憶場所の第２の
部分とを乗算して第２の積を求めるステップとを含む方
法。
【請求項２】第１の部分を乗算するステップと第２の
部分を乗算するステップをディジタル・システムで同時
に実行することを特徴とする請求項１に記載の方法。
【請求項３】第１の積に第１のバイアス値を加算する
ステップと、第２の積に第２のバイアス値を加算するステップとをさ
らに含む請求項１に記載の方法。
【請求項４】第１の積を加算するステップと第２の積
を加算するステップをと同一のクロック・サイクルで実
行することを特徴とする請求項３に記載の方法。
【請求項５】第１の積を第２の記憶場所の第１の部分
に格納し、第２の積を第２の記憶場所の第２の部分に格
納することを特徴とする請求項１に記載の方法。
【請求項６】ｎバンドのソース画像をｍバンドの目的
画像に変換する方法であって、コンピュータにおいて、変換行列の値を区分形式に変換
するステップと、ソース画像画素のバンドを区分形式に変換するステップ
と、区分形式の変換行列の値に区分形式のソース画像画素の
バンドを乗じて、区分形式の目的画像画素のバンドを得
るステップとを含む方法。
【請求項７】区分形式の目的画像画素のバンドに区分
形式で格納されているバイアス値を加算するステップを
さらに含む請求項６に記載の方法。
【請求項８】目的画像画素のバンドを区分形式化ら画
素形式に変換するステップをさらに含む請求項６に記載
の方法。
【請求項９】表示装置上に目的画像画素のバンドを表
示するステップをさらに含む請求項６に記載の方法。
【請求項１０】バンドを変換するステップが、ソース画像画素の１バンドを複製して記憶場所の第１の
部分と第２の部分とに入れるステップを含むことを特徴
とする請求項６に記載の方法。
【請求項１１】乗算ステップ中に、目的画像画素の少
なくとも２つのバンドのための結果を同時に算出するこ
とを特徴とする請求項６に記載の方法。
【請求項１２】乗算ステップ中に、コンピュータにお
いて複数の乗算を並行して実行することを特徴とする請
求項６に記載の方法。
【請求項１３】加算ステップ中に、コンピュータにお
いて複数の加算を並行して実行することを特徴とする請
求項７に記載の方法。
【請求項１４】変換行列の値を整数形式に変換するス
テップをさらに含む請求項３に記載の方法。
【請求項１５】値を変換するステップが、変換行列の値に２ⁿの倍数を乗じて値の整数形式表現を
求めるステップと、整数形式表現を区分形式でコンピュータに格納するステ
ップとを含むことを特徴とする請求項６に記載の方法。
【請求項１６】ｎバンドのソース画像からｍバンドの
目的画像への変換を行わせるコンピュータ可読コードを
記録したコンピュータ使用可能媒体を有するコンピュー
タ・プログラム製品であって、コンピュータに変換行列の値を区分形式に変換させるよ
うに構成されたコンピュータ可読コードと、コンピュータにソース画像画素を区分形式に変換させる
ように構成されたコンピュータ可読コードと、コンピュータに区分形式の変換行列の値と区分形式のソ
ース画像画素とを乗算させ、その結果として区分形式の
目的画像画素を得るように構成されたコンピュータ可読
コードとを含むコンピュータ・プログラム製品。
【請求項１７】コンピュータに変換行列の値を整数形
式に変換させるように構成されたコンピュータ可読コー
ドをさらに含む請求項１６に記載のコンピュータ・プロ
グラム製品。
【請求項１８】コンピュータに区分形式で格納されて
いるバイアス値を区分形式の目的画像画素に加算させる
ように構成されたコンピュータ可読コードをさらに含む
請求項１６に記載のコンピュータ・プログラム製品。
【請求項１９】コンピュータに複数の乗算の計算を並
行して実行させるように構成されたコンピュータ可読コ
ードをさらに含む請求項１６に記載のコンピュータ・プ
ログラム製品。
【請求項２０】コンピュータにソース画像画素の１つ
を複製して記憶場所の第１の部分と第２の部分とに入れ
させるように構成されたコンピュータ可読コードをさら
に含む請求項１６に記載のコンピュータ・プログラム製
品。