JP2000293494A

JP2000293494A - 並列計算装置および並列計算方法

Info

Publication number: JP2000293494A
Application number: JP11102020A
Authority: JP
Inventors: Shinjirou Inahata; 深二郎稲畑; Sou Yamada; 想山田; Nobuaki Miyagawa; 宣明宮川; Takashi Amisaki; 孝志網崎; Hajime Takashima; 一高島; Kazuyasu Kitamura; 一泰北村
Original assignee: Fuji Xerox Co Ltd; Taisho Pharmaceutical Co Ltd
Current assignee: Taisho Pharmaceutical Co Ltd; Fujifilm Business Innovation Corp
Priority date: 1999-04-09
Filing date: 1999-04-09
Publication date: 2000-10-20
Also published as: US6631391B1

Abstract

(57)【要約】【課題】オーバースペックになるようなハードウエア
規模とする必要がなく、また、計算速度も高速を保ちな
がら、高精度の並列計算ができる。【解決手段】ホストプロセッサと、複数個の専用プロ
セッサとがバスを介して接続されてシステムが構成され
る。ホストプロセッサでは、倍精度浮動小数点のフォー
マットで演算を行い、専用プロセッサでは、それより高
精度の浮動小数点の内部フォーマットで演算を行う。内
部フォーマットと、倍精度浮動小数点データとは、符号
部と、指数部とが共通の構成を有し、仮数部のビット幅
が内部フォーマットの方が大きく設定する。専用プロセ
ッサでは、倍精度から内部フォーマットへの変換を行う
入力データ変換部と、内部フォーマットから倍精度への
変換を行う出力データ変換部を備える。これらデータ変
換部では、変換の前後のデータにおいて、符号部および
指数部は、共通にデータを使用することができるので、
仮数部のみを、特定の手順で変換を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、医薬品の分子構
造設計や物性の予測などに用いられる非経験的分子軌道
計算を初めとする、浮動小数点演算による高精度な積和
演算を多数含んだ物理現象の解析に使用される並列計算
システムに関する。

【０００２】

【従来の技術】近年、半導体の微細化、高速化に伴い、
計算機の高性能化が実現され、薬学における分子構造設
計、物性値予測の分野にも、非経験的分子軌道計算を用
いた分子シミュレーションが行われるようになってき
た。

【０００３】非経験的分子軌道計算の中でも、比較的計
算量が少なく、定性的な解析には十分に対応することが
できる、ハートレーフォック法（ＨＦ法）が最も広く用
いられている。このＨＦ法については、例えば「藤永
茂、分子軌道法、岩波書店（１９８０）」、「大澤映二
編、分子軌道法、講談社サイエンティフィク（１９９
４）」、「菊池修、基礎量子化学、朝倉書店（１９９
７）」などに示されている。以下、ＨＦ法の概要につい
て述べる。

【０００４】ＨＦ法は、フォック方程式を、後述するＳ
ＣＦ法によって解く方法として定式化されている。ここ
で、フォック方程式は、分子に含まれている原子軌道の
総数をＮ、原子軌道の線形近似で表される分子軌道の総
数をｍとすると、分子全体に関するシュレディンガー方
程式に対して１電子近似、線形近似を行った結果得られ
るＦＣ＝ＳＣε （１）という式で表される。このフォック方程式を解くことに
よって、分子の有するエネルギーが求まるため、その値
により分子が安定な状態かどうかを判定できる。

【０００５】（１）式において、Ｆはフォック行列と呼
ばれるＮ×Ｎの行列であり、また、Ｓは重なり行列と呼
ばれるＮ×Ｎの行列、Ｃは係数を表すＮ×ｍの行列、ε
は分子軌道を占有するそれぞれの電子が持つエネルギー
を表すｍ×ｍの対角行列である。

【０００６】ここで、フォック行列の要素Ｆｒｓ（ｒ，
ｓ＝１〜Ｎ）は、以下の式で表される。

【０００７】Ｆｒｓ＝ｈｒｓ＋ｇｒｓ＝ｈｒｓ＋Σ〔ｔ，ｕ＝１〜Ｎ〕Ｐｔｕ（（ｒｓ，ｔｕ） −（１／２）（ｒｔ，ｓｕ））（２）

【０００８】この（２）式のｈｒｓは、１電子に対する
エネルギーを表す積分量であり、（１）式の１回の計算
でＮ²個に比例する数だけ計算される。

【０００９】なお、この明細書において、Σ〔ｉ，ｊ＝
１〜Ｎ〕ｆ（ｉ，ｊ）は、ｉおよびｊについて１からＮ
までの総和を関数ｆ（ｉ，ｊ）について求める演算を示
すものとしている。また、Σ〔ｉ＝１〜Ｎ〕ｆ（ｉ）
は、ｉについて１からＮまでの総和を関数ｆ（ｉ）につ
いて求める演算を示すものとしている。

【００１０】（２）式のＰｔｕは、密度行列と呼ばれ、
以下のように上記の行列Ｃを用いて表される。

【００１１】Ｐｔｕ＝Σ（ｊ＝１〜ｍ）Ｃｔｊ・Ｃｕｊ（３）また、（２）式の（ｒｓ，ｔｕ）（ｒ，ｓ，ｔ，ｕ＝１
〜Ｎ）は２電子積分と呼ばれる物理量であり、原子軌道
χ_ｉ（ｒ）（ｉ＝１〜Ｎ，ｒは座標）を用いて以下の式
のように表される。

【００１２】（ｒｓ，ｔｕ）＝∫∫χ_ｒ（ｒ１）χ_ｓ（ｒ１）（１／ｒ12） ×χ_ｔ（ｒ２）χ_ｕ（ｒ２）ｄｒ１・ｄｒ２（４）

【００１３】ここで、ｒ１、ｒ２はそれぞれ独立した２
つの座標系であり、それぞれ全空間にわたって二重積分
が行われる。また、ｒ12は、座標系ｒ１とｒ２との間の
距離を表す。この２電子積分は、ｒ，ｓ，ｔ，ｕが、そ
れぞれ原子軌道の数だけ存在するので、（１）式の１回
の計算でＮ⁴個に比例した数だけ必要となる。

【００１４】次に、重なり行列Ｓの要素Ｓｒｓは以下の
式で表される。

【００１５】Ｓｒｓ＝∫χ_ｒ（ｒ１）χ_ｓ（ｒ１）ｄｒ１（５）このように表されるので、ＨＦ法は（１）式で表される
ｍ個の固有値εｉ、固有ベクトルＣｉ（ｉ＝１〜ｍ）を
求める問題となる。しかしながら、（２）式、（３）式
より分かるように、（１）式に含まれるフォック行列
は、係数を表すベクトルＣｉを使って求められるので、
（１）式を解いて得られるＣｉを使用しないと、Ｆの値
も求められないことになる。

【００１６】したがって、まず、Ｃｉの初期推定値（ｉ
ｎｉｔｉａｌｇｕｅｓｓ）として適当な値を設定し、
そのＣｉを使用してＦを求め、（１）式の固有値問題を
解いて、新たなＣｉを求める。次に、このＣｉを使っ
て、新たなＦを計算して（１）式を解く。このように繰
り返し計算を行い、最後にＦの計算に使用されたＣｉ
と、求められたＣｉとの間に殆ど差がなくなったところ
で計算を終了する。この方法は、ＳＣＦ（ｓｅｌｆ−ｃ
ｏｎｓｉｓｔｅｎｔｆｉｅｌｄ）法と呼ばれ、分子軌
道計算において広く使われている方法である。

【００１７】（１）式で表される２電子積分の個数は、
原子軌道の総数Ｎの４乗に比例するため、例えば生物学
などの分野でよく現れる１００個程度の原子からなる分
子を考えた場合、Ｎの値は１０００程度となり、その４
乗の１００兆個のオーダーにものぼる。ここで、２電子
積分を計算する前に、値が小さいものを判定してカット
オフする方法が良く用いられるものの、計算が必要な２
電子積分の数は１億個程度であり、膨大な数であること
に変わりはない。

【００１８】このため、ＳＣＦ法の各反復には同じ２電
子積分が使用されるものの、２電子積分を一旦計算して
格納しておくメモリスペースがないため、反復毎に２電
子積分を計算し直すというダイレクト法が通常用いられ
る。このダイレクト法による分子軌道計算では、２電子
積分の計算に大部分の計算時間が占有されるため、この
部分の高速化が重要となる。

【００１９】ここで、（４）式で表される原子軌道χ_ｉ
には、通常、２電子積分を解析的に求めることができる
ガウス型関数が使用される。このガウス型関数の原子軌
道を用いた高速な２電子積分の計算法としては、従来、
文献１”Ｓ．ＯｂａｒａａｎｄＡ．Ｓａｉｋａ，
Ｊ．Ｃｈｅｍ．Ｐｈｙｓ．８４，３９６３（１９８
６）”に示されている方法（以下、小原の方法と称す
る）が知られていた。

【００２０】小原の方法は、２電子積分を拡張した補助
積分という値を導入し、補助積分を含んだ漸化式の形式
で表される。この漸化式によって、１つの２電子積分
は、より低次の補助積分を含む積和演算の形式によって
表される。ある２電子積分を求めるときは、まず、漸化
式に従って、最も次数の低い補助積分だけを含んだ形式
に展開し、次に、積和演算によって、次数の高い補助積
分を順次求めていくことによって計算が行われる。以下
に、小原の方法の具体的な計算方法を示す。

【００２１】まず、小原の方法では、ガウス型関数で表
される原子軌道χは、以下の式で表されている。

【００２２】 χ（ｒ−Ｒ；ｎ，ζ）＝（ｒｘ−Ｒｘ）^nx（ｒｙ−Ｒｙ）^ny ×（ｒｚ−Ｒｚ）^nzｅｘｐ［−ζ（ｒ−Ｒ）²］（６）

【００２３】ここで、ｒとＲは、空間上の位置を表すベ
クトルであり、特に、Ｒは原子の中心を表す。また、ｎ
は０以上の整数で構成されるベクトルであり、軌道量子
数ベクトルと呼ばれる。この軌道量子数ベクトルは、ｒ
などと同様、ｘ，ｙ，ｚの３つの成分ｎｘ，ｎｙ，ｎｚ
をもつ。

【００２４】さらに、ζは、原子の種類や軌道の種類に
応じて変化する軌道指数と呼ばれる定数である。また、軌道量子数ベクトルの３成分の和 λ＝ｎｘ＋ｎｙ＋ｎｚ（７）は、軌道量子数と呼ばれる。軌道量子数λが、それぞれ
０、１、２、３のとき、対応するガウス関数はｓ関数、
ｐ関数、ｄ関数、ｆ関数と呼ばれ、原子の持つｓ軌道、
ｐ軌道、ｄ軌道、ｆ軌道にそれぞれ対応した波動関数と
して扱われる。

【００２５】各軌道に対する波動関数は、これらの関数
の線形結合で近似される。例えば水素原子の１ｓ軌道に
対応する波動関数は、（７）式においてｎ＝（０，０，
０）とした上で、軌道指数ζが数種類の異なる値をとる
ものの線形結合で表される。このときのζの種類は基底
関数系で異なる。

【００２６】なお、軌道量子数λが０でないときには、
波動関数は複数個存在する。例えば、軌道量子数λが２
で表されるｄ関数は、軌道量子数ベクトルｎ＝（２，
０，０）、（０，２，０）、（０，０，２）、（１，
１，０）、（０，１，１）、（１，０，１）に応じて、
ｄｘ²、ｄｙ²、ｄｚ²、ｄｘｙ、ｄｙｚ、ｄｚｘの６
通りが存在する。

【００２７】したがって、（４）式で表される２電子積
分の中に１個のｄ関数が含まれている場合は、これらの
関数に応じて６通りの２電子積分が求められる。ここ
で、（６）式で表されるガウス型関数において、軌道量
子数と、原子の中心座標Ｒと、パラメータζとが同じガ
ウス型関数の集合は、シェルと呼ばれる。したがって、
軌道量子数λに応じてｐシェル、ｄシェルなどに分類さ
れ、例えばｄシェルには６つのガウス型関数が含まれて
いる。

【００２８】なお、（４）式の左辺で表される２電子積
分は、（ｐ＊ｓ＊，ｐ＊ｓ＊）など、それぞれの波動関
数が有するｐ、ｓなどの型で表すこともある。この場合
は、型の名前には「＊」を付与して、波動関数名と区別
するものとする。

【００２９】前記文献１では、（１）式で表される２電
子積分に含まれる波動関数ａ、ｂ、ｃ、ｄを、（３）式
で表現されるガウス型関数を使って表わしたとき、２電
子積分の値を効率的に計算する方法が、再帰的な式で表
されている。小原の方法では、２電子積分（ａｂ，ｃ
ｄ）に対して補助積分（ａｂ，ｃｄ）^(m)（ｍは０以上
の整数）という補助的な物理量が導入され、これを使っ
て以下のような形式の再帰式が導かれている。

【００３０】（ａｂ，ｃｄ）＝（ａｂ，ｃｄ）⁽⁰⁾ （８）（ａ＋１ｉｂ，ｃｄ）^(m)＝Ｐ０（ａｂ，ｃｄ）^(m) ＋Ｐ１（ａｂ，ｃｄ）^(m+1) ＋Ｎｉ（ａ）×Ｐ２（ａ−１ｉｂ，ｃｄ）^(m) ＋Ｎｉ（ａ）×Ｐ３（ａ−１ｉｂ，ｃｄ）^(m+1) ＋Ｎｉ（ｂ）×Ｐ４（ａｂ−１ｉ，ｃｄ）^(m) ＋Ｎｉ（ｂ）×Ｐ５（ａｂ−１ｉ，ｃｄ）^(m+1) ＋Ｎｉ（ｃ）×Ｐ６（ａｂ，ｃ−１ｉｄ）^(m+1) ＋Ｎｉ（ｄ）×Ｐ７（ａｂ，ｃｄ−１ｉ）^(m+1) （９）（但し、ｉ＝ｘ，ｙ，ｚ）（ａｂ，ｃｄ）^(m)＝（ｓ＊ｓ＊，ｓ＊ｓ＊）^(m) ＝Ｐ８×Ｋ（Ａ，Ｂ，ζａ，ζｂ）×Ｋ（Ｃ，Ｄ，ζｃ，ζｄ）×Ｆｍ（Ｔ）（１０）

【００３１】ここで、波動関数ａ，ｂ，ｃ，ｄは、全て
（６）式で表されるガウス型関数であり、それぞれが特
定の軌道量子数ベクトルｎを持つ。また、記号ａ＋１ｉ
は、ガウス型関数ａの軌道量子数ベクトルのうち、ｉ成
分（ｉ＝ｘ，ｙ，ｚ）の値を１つだけ増加させたガウス
型関数を意味する。したがって、例えば、ａがｎ＝
（１，０，０）で表されるｐｘ関数の場合、ａ＋１ｘ
は、ｎ＝（２，０，０）で表されるｄｘ²関数となる。

【００３２】また、記号ａ−１ｉは、ガウス型関数ａの
軌道量子数ベクトルのうち、ｉ成分（ｉ＝ｘ，ｙ，ｚ）
の値を１つだけ減少させたガウス型関数を意味する。ま
た、記号Ｎｉ（ａ）は、ガウス型関数ａの軌道量子数ベ
クトルのｉ成分を表す。したがって、例えば波動関数ｂ
の軌道量子数ベクトルのｉ成分が０であるときは、
（９）式のｂ−１ｉに関する項は０となる。

【００３３】また、補助積分に対して成立する関係を利用すると、（ａｂ＋１ｉ，ｃｄ）^(m)、（ａｂ，ｃ
＋１ｉｄ）^(m)、（ａｂ，ｃｄ＋１ｉ）^(m)に関しても
（９）式と同様の関係式を導くことができる。

【００３４】さらに、（９）式の補助積分の係数Ｐ０〜
Ｐ７は、中心となる原子核の座標Ａ，Ｂ，Ｃ，Ｄや波動
関数ａ，ｂ，ｃ，ｄの（６）式の軌道指数ζに対応する
ζａ，ζｂ，ζｃ，ζｄから計算されるパラメータであ
り、以下の式で表される。

【００３５】Ｐ０＝Ｐｉ−Ａｉ（１１）Ｐ１＝Ｗｉ−Ｐｉ（１２）Ｐ２＝１／（２ζ）（１３）Ｐ３＝−ρ／（２ζ²）（１４）Ｐ４＝１／（２ζ）（１５）Ｐ５＝−ρ／（２ζ²）（１６）Ｐ６＝１／（２（ζ＋η））（１７）Ｐ７＝１／（２（ζ＋η））（１８）ここで、 ζ＝ζａ＋ζｂ（１９） η＝ζｃ＋ζｄ（２０）Ｐ＝（ζａＡ＋ζｂＢ）／ζ （２１）Ｑ＝（ζｃＣ＋ζｄＤ）／η （２２）Ｗ＝（ζＰ＋ηＱ）／（ζ＋η）（２３） ρ＝ζη／（ζ＋η）（２４）となる。

【００３６】また、（１０）式の右辺を形成する係数Ｐ
８、パラメータＴ、および関数Ｋ（Ｒ０，Ｒ１，ζ０，
ζ１）、関数Ｆｍ（Ｔ）は、それぞれ以下の関係式で表
される。

【００３７】Ｐ８＝（ζ＋η）^-1/2 （２５）Ｔ＝ρ（Ｐ−Ｑ）² （２６）Ｋ（Ｒ０，Ｒ１，ζ０，ζ１）＝｛２^1/2・π^5/4／（ζ０＋ζ１）｝ ×ｅｘｐ［−｛ζ０ζ１／（ζ０＋ζ１）｝（Ｒ０−Ｒ１）²］（２７）Ｆｍ（Ｔ）＝（０〜ｌ）∫ｔ^2m・ｅｘｐ［−Ｔｔ²］ｄｔ（２８）

【００３８】ここで、（２８）式の関数Ｆｍ（Ｔ）は誤
差関数と呼ばれ、上記の文献１ではテーラー展開を使っ
て計算する方法が挙げられている。なお、（２８）式に
おいて、（０〜ｌ）∫は、０からｌまでの有限積分を示
すものとする。

【００３９】以上のように、小原の方法では２電子積分
が（８）〜（１０）式のように再帰的に表わされている
ので、（９）式を繰り返して適用して、右辺に軌道量子
数が０の補助積分が現れるようにして、さらに、（１
０）式を用いて軌道量子数が０の補助積分を求めること
によって、目的とする２電子積分の値を得ることができ
る。

【００４０】例えば、２電子積分（ｐ＊ｐ＊，ｓ＊ｓ
＊）を求める場合を例にして説明する。ここで、２電子
積分に含まれる４つのガウス型関数は、すべて特定のシ
ェルに含まれているとする。このとき、前述のように、
ｐ関数には、その軌道量子数ベクトルに応じて、ｐｘ、
ｐｙ、ｐｚの３通りが存在するから、求めるべき２電子
積分は、（ｐｘ＊ｐｘ＊，ｓ＊ｓ＊）、（ｐｘ＊ｐｙ
＊，ｓ＊ｓ＊）、（ｐｘ＊ｐｚ＊，ｓ＊ｓ＊）、（ｐｙ
＊ｐｘ＊，ｓ＊ｓ＊）、（ｐｙ＊ｐｙ＊，ｓ＊ｓ＊）、
（ｐｙ＊ｐｚ＊，ｓ＊ｓ＊）、（ｐｚ＊ｐｘ＊，ｓ＊ｓ
＊）、（ｐｚ＊ｐｙ＊，ｓ＊ｓ＊）、（ｐｚ＊ｐｚ＊，
ｓ＊ｓ＊）の９通りとなる。

【００４１】ここで、まず、このうちの（ｐｘ＊ｐｙ
＊，ｓ＊ｓ＊）を求める場合について説明する。
（８）、（９）式によって展開すると、以下の関係が成
立する。

【００４２】（ｐｘ＊ｐｙ＊，ｓ＊ｓ＊）＝（ｐｘ＊ｐｙ＊，ｓ＊ｓ＊）⁽⁰⁾ ＝Ｐ０（ｓ＊ｐｙ＊，ｓ＊ｓ＊）⁽⁰⁾ ＋Ｐ１（ｓ＊ｐｙ＊，ｓ＊ｓ＊）⁽¹⁾ （２９）

【００４３】この（２９）式の右辺の補助積分は、２番
目の波動関数だけがｓ関数でない形になっている。この
形式の補助積分に対しても、前述したように、波動関数
の入れ替えによって、（９）式と同様の式を得ることが
できる。したがって、（２９）式の右辺の補助積分を、
（９）式に再度適用して展開することによって、以下の
２つの式を得ることができる。

【００４４】（ｓ＊ｐｙ＊，ｓ＊ｓ＊）⁽⁰⁾ ＝Ｐ０’（ｓ＊ｓ＊，ｓ＊ｓ＊）⁽⁰⁾ ＋Ｐ１’（ｓ＊ｓ＊，ｓ＊ｓ＊）⁽¹⁾ （３０）（ｓ＊ｐｙ＊，ｓ＊ｓ＊）⁽¹⁾ ＝Ｐ０’’（ｓ＊ｓ＊，ｓ＊ｓ＊）⁽¹⁾ ＋Ｐ１’’（ｓ＊ｓ＊，ｓ＊ｓ＊）⁽²⁾ （３１）

【００４５】このようにして、全ての項を（ｓ＊ｓ＊，
ｓ＊ｓ＊）^(m)の形で表すことができた。次に、（３
０）式、（３１）式の右辺の（ｓ＊ｓ＊，ｓ＊ｓ＊）
⁽⁰⁾、（ｓ＊ｓ＊，ｓ＊ｓ＊）⁽¹⁾、（ｓ＊ｓ＊，ｓ＊
ｓ＊）⁽²⁾を、（１０）式を使用して求め、以後、展開
とは逆の順番で、最初に求められた値を、（３０）式、
（３１）式の右辺に代入して、（ｓ＊ｐｙ＊，ｓ＊ｓ
＊）⁽⁰⁾と（ｓ＊ｐｙ＊，ｓ＊ｓ＊）⁽¹⁾を求める。さ
らに、これを（２９）式の右辺に適用して最終的に（ｐ
ｘ＊ｐｙ＊，ｓ＊ｓ＊）＝（ｐｘ＊ｐｙ＊，ｓ＊ｓ＊）
⁽⁰⁾を得ることができる。

【００４６】また、残りの８つの２電子積分も、（２
９）式、（３０）式、（３１）式と同様の数式に展開し
て求めることができる。このとき、（３０）式、（３
１）式で使用した（ｓ＊ｓ＊，ｓ＊ｓ＊）⁽⁰⁾、（ｓ＊
ｓ＊，ｓ＊ｓ＊）⁽¹⁾、（ｓ＊ｓ＊，ｓ＊ｓ＊）⁽²⁾が
必ず使用されるので、これらの値を求め直すことなく、
再利用できる。また、これらの２電子積分は、原子核の
座標とζの値が同じであるため、積和計算に使用するＰ
０、Ｐ１などの係数の値も、ほぼ共通に使用することが
できる。

【００４７】このように、２電子積分に含まれる４つの
ガウス型関数が、それぞれ特定のシェルに含まれている
ときは、共通に利用できる補助積分が多い。したがっ
て、特定のシェルに含まれているガウス型関数を使った
２電子積分は、通常、まとめて計算される。２電子積分
の値は、以上の手順に従って、（８）式〜（１０）式を
使用することによって求めることができる。

【００４８】以上述べたように、２電子積分の計算は、
（９）式のように、（係数×補助積分）の値を、別の補
助積分の値に足し込んでいく、浮動小数点積和演算の繰
り返しで表される。このとき、（２８）式の誤差関数の
計算は、テーラー展開で表され、さらに（１３）式など
に現れる逆数、（２５）式に現れる平方根の逆数、さら
に（２７）式に現れるｅｘｐ計算も、公知のニュートン
法、テーラー展開で計算できる。

【００４９】ニュートン法やテーラー展開も、浮動小数
点積和演算の繰り返しによって表わすことができるの
で、結局、２電子積分は、連続する積和演算の繰返しと
なる。また、（９）式による１回の展開によって最大８
個の積和演算が増加するため、１つの２電子積分を計算
するときに必要となる積和演算の数も多くなる。

【００５０】以上述べたように、ＨＦ法に従った分子軌
道計算を行う場合、ＳＣＦ計算の１回の繰り返しにおい
て現れる２電子積分を、浮動小数点積和演算によって計
算することが必要とされる。この計算量は、２電子積分
の数および１つの２電子積分の計算に要する計算量の観
点から見て、膨大なものとなる。

【００５１】従来、分子軌道計算を高速に行う例とし
て、「超高速分子軌道計算専用機ＭＯＥのアーキテクチ
ャ」（白川他、信学技報、ＣＰＳＹ９６−４６（１９９
６−０５））（文献２）があった。これは、２電子積分
の計算は、ある程度独立に可能であることを利用して、
複数の２電子積分の計算を並列化するものである。

【００５２】この文献２の例では、システムに、複数の
プロセッサエレメントを用意して、それぞれのプロセッ
サエレメントに、２電子積分の計算の一部を分担させ
る。２電子積分の計算は、前述の小原の方法に基づく浮
動小数点積和演算によって行われ、プロセッサエレメン
トは、（２）式で表されるフォック行列のうち、ｇｒｓ
までを計算して、この値をホストプロセッサに送信す
る。その後、ホストプロセッサでは、（１）式で表され
る固有値問題が解かれる。

【００５３】また、別の例としては、特開平９−５０４
２８号公報に示されているものがある。この例では、複
数の相互接続された計算機よりなる計算機クラスタを備
え、各計算機において、２電子積分や（２）式で表され
るフォック行列要素を計算し、この値をベクトル計算機
に送る。その後、ベクトル計算機において（１）式で表
される固有値問題が解かれる。

【００５４】

【発明が解決しようとする課題】以上述べたような２電
子積分やフォック行列要素の計算では、前述の通り膨大
な浮動小数点演算が行われるため、演算の途中で発生す
る誤差およびそれによる精度が問題となってくる。そこ
で、まず、計算に必要とされる精度について検討する。

【００５５】分子軌道計算の規模は、分子の大きさや、
使用する基底系によっても変わってくるため、計算に必
要とされる精度を一律に決めることは困難であるが、前
述の文献１によれば、非経験的分子軌道計算の結果が十
分な精度をもつための目安として、（２８）式で表され
る誤差関数の値が持つ相対誤差が１０^-15程度よりも小
さい精度を持つことが必要とされている。

【００５６】つまり、誤差関数を、この程度の精度で計
算することによって、最終的にその誤差関数を使った分
子軌道計算で得られるエネルギーの値が、特定の範囲の
規模の分子軌道計算を行う場合に対して、実用上十分な
精度となる。そこで、文献１に示された目安をもとにし
て、精度の見積もりを行うことにする。

【００５７】ここで、ＩＥＥＥ規格７５４で定められて
いる倍精度の浮動小数点表現では、その仮数部の長さが
５２ビットであり、このうち、最上位の１の値は含まれ
ないために、５３ビットの精度をもつと考えられる。こ
のビット長は、相対誤差にして、２^-53＝１．１１×１
０^-16であるから、倍精度の浮動小数点は、上記精度を
満足している。

【００５８】そこで、ここでは、（２８）式に従って求
められた誤差関数が、仮数部が５３ビットの倍精度浮動
小数点の精度を持っていることを条件として、積和演算
が満足すべき精度を見積もることにする。

【００５９】このとき、前に述べたように、（２１）〜
（２４）式などで用いられる割り算の計算には、ニュー
トン法による逆数計算を用い、（２８）式の誤差関数の
計算には、テーラー展開による計算を用いることを前提
とする。したがって、誤差関数の値は、予め与えられた
Ａ、Ｂ、Ｃ、Ｄ、ζａ、ζｂ、ζｂ、ζｄの値から積和
演算の繰り返しで計算する。

【００６０】数学辞典（岩波書店）などによると、一般
に、誤差は、（１）入力誤差、（２）打ち切り誤差、
（３）丸め誤差、の３つに分類される。誤差関数の計算
値には、これら３種類の誤差が影響すると考えられる。
そこで、積和演算に必要な精度を見積もる準備として、
これら３つの誤差による影響について説明する。

【００６１】まず、入力誤差とは、予め与えられるデー
タの中に既に存在している誤差のことであり、浮動小数
点で表されたＡ、Ｂ、Ｃ、Ｄ、ζａ、ζｂ、ζｂ、ζｄ
（初期パラメータと称する）に含まれる誤差のことを指
す。ここでは、初期パラメータは、倍精度浮動小数点で
与えられると仮定する。したがって、これらの値は５３
ビット仮数部以上の精度を持っており、入力誤差もこの
程度である。

【００６２】次に、打ち切り誤差とは、例えば上述のよ
うに割り算をニュートン法、また、（２８）式の値をテ
ーラー展開で近似したときに、その繰り返し回数や展開
項数を有限回数で打ち切ることに由来する誤差である。
この誤差は、ニュートン法の繰り返し数、テーラー展開
の展開項数や、初期値や係数値の値の精度を大きくとる
ことによって制御できる。したがって、打ち切り誤差も
入力誤差と同様十分に小さくするように制御すると仮定
する。

【００６３】さらに、丸め誤差とは、計算の各段階で得
られる数値を限られた桁数に丸めるために発生する誤差
のことである。ここでは、有限長の乗算および加減算に
よる積和演算を繰り返し用いることによって、丸め誤差
が発生する。

【００６４】このとき、入力誤差、打ち切り誤差とも十
分に小さく、倍精度浮動小数点のもつ誤差以下と仮定し
ているので、これら２種類の誤差が誤差関数の値に与え
る影響は少ない。そこで、この解析では丸め誤差だけを
考慮し、積和演算の繰り返しによって累積する丸め誤差
を考慮しても、計算された誤差関数の値が、なお、５３
ビット仮数部を持つ倍精度浮動小数点の精度を維持して
いる、という条件から、積和演算に必要な精度を計算で
きる。

【００６５】次に、誤差関数の精度を具体的に解析する
前に、誤差関数の計算で使用される要素的な計算の誤差
を見積もる。

【００６６】まず、積和演算に含まれる加算、乗算によ
って発生する相対誤差について説明する。この説明で
は、有限長の桁数で行われて丸め誤差が生じる加算、乗
算を便宜的に＋ｒ、×ｒと表記し、無限長の桁数で行わ
れて丸め誤差が発生しない加算、乗算を便宜的に＋ｉ、
×ｉと表記することにする。また、簡単のため、有限長
の加算、乗算によって、一律に、有限長演算によって発
生する最悪の相対誤差εだけ相対誤差が発生するものと
仮定する。

【００６７】このとき、あるパラメータＡ、Ｂの間の有
限長の加算、乗算は、以下の（３２）式、（３３）式の
ように表される。

【００６８】Ａ＋ｒＢ＝（１＋ε）（Ａ＋ｉＢ）（３２）Ａ×ｒＢ＝（１＋ε）（Ａ×ｉＢ）（３３）

【００６９】また、パラメータＡ、Ｂ、Ｃ、Ｄを使っ
て、パラメータＸ、ＹがＸ＝Ａ＋ｒＢ（３４）Ｙ＝Ｃ＋ｒＤ（３５）と表されるとき、ＸとＹとの有限長の加算、乗算は以下
の（３６）式、（３７）式のように表される。

【００７０】Ｘ＋ｒＹ＝（Ａ＋ｒＢ）＋ｒ（Ｃ＋ｒＤ）＝（１＋ε）（Ａ＋ｉＢ）＋ｒ（１＋ε）（Ｃ＋ｉＤ）＝（１＋ε）²（（Ａ＋ｉＢ）＋ｉ（Ｃ＋ｉＤ））（３６）Ｘ×ｒＹ＝（Ａ＋ｒＢ）×ｒ（Ｃ＋ｒＤ）＝（１＋ε）（Ａ＋ｉＢ）×ｒ（１＋ε）（Ｃ＋ｉＤ）＝（１＋ε）³（（Ａ＋ｉＢ）×ｒ（Ｃ＋ｉＤ））（３７）

【００７１】したがって、（３６）式のように有限長の
加算を行うときは、理想的な結果に対して相対誤差の２
乗がかかり、（３７）式のように有限長の乗算を行うと
きは、理想的な結果に対して相対誤差が３乗でかかって
くる。このように、丸め誤差を含んだ式同志の演算で
は、式に含まれている相対誤差の残り方が、加算の場合
と乗算の場合とで異なる。

【００７２】さらに、パラメータＡ〜Ｄの累積を求める
場合、（３６）式のように、Ｘ、Ｙを、まず、求めてか
ら両者を加算する方法では、相対誤差が（１＋ε）²に
なるのに対し、パラメータＡ〜Ｄを順番に足していく方
法では、その式は、以下の（３８）式に示すように展開
される。

【００７３】（（Ａ＋ｒＢ）＋ｒＣ）＋ｒＤ＝（１＋ε）³Ａ＋ｉ（１＋ε）³Ｂ＋ｉ（１＋ε）²Ｃ＋ｉ（１＋ε）Ｄ（３８）

【００７４】したがって、ＡとＢに対しては、相対誤差
が（１＋ε）³になるため、この式全体に関しても、理
想的な結果に対して相対誤差が（１＋ε）³になるとみ
なされる。このように、加算の順番に対しても丸め誤差
が変わってくる。

【００７５】次に、逆数の値を求めるニュートン法によ
る丸め誤差について解析する。ある値ｙの逆数を求める
ためのニュートン法のステップは、まず、値ｙを特定の
範囲に正規化して、その逆数に近いｘの値を選び、以下
の（３９）〜（４１）式を繰り返すことによって得られ
るｘの計算値を、逆に正規化することで得ることができ
る。

【００７６】ｙ０＝ｙ×ｘ（３９）ｒ＝２−ｙ０（４０）ｘ＝ｒ×ｘ（４１）

【００７７】このときの繰り返し回数は、最初に選択し
たｘの値と真の値との差に依存するので、初期値の正確
さに依存する。ここでは、繰り返し回数を３としたとき
に、十分な打切り誤差となると仮定する。このとき、
（３９）〜（４１）式を有限長の乗算、加算で行うこと
によって、相対誤差は、それぞれ（１＋ε）が１回ずつ
かかる形になる。したがって、３回の繰り返しによって
発生する相対誤差は（１＋ε）⁹となる。

【００７８】ニュートン法は、上記（３９）〜（４１）
式の繰り返しによってｘの値を（１／ｙ）に近づけてい
く方法であるため、実際には、繰り返しの途中で混入す
る丸め誤差も補償されていく。このため、上記の（１＋
ε）⁹という相対誤差の値は、オーバーエステイメイト
であるが、ここでは最悪のケースを想定して、この値を
使用することにする。

【００７９】さらに、（２８）式に対し、テーラー展開
を適用したときの丸め誤差について解析する。前述の文
献１には、７項の展開の例が示されているので、ここで
も７項の展開を仮定する。このとき、テーラー展開は、
以下の（４２）式で表される。

【００８０】Ｆｍ（Ｔ）＝Σ〔ｋ＝０〜６〕１／ｋ！・
Ｃｋ（Ｔ−Ｔ´）（４２）ここで、Ｔ´は、与えら
れたＴの範囲を所定の分割数で分割したときに、Ｔに最
も近い境界値である。この分割数は、前述のように、テ
ーラー展開の打ち切り誤差が小さくなるように、十分大
きく取られていると仮定する。また、ＣｋはそのＴ´の
値に応じて決定される係数の値である。このテーラー展
開は、実際には以下のような手順で計算される。

【００８１】Ｆ６＝（１／６）×（Ｔ−Ｔ´）×Ｃ６（４３）Ｆ５＝（１／５）×（Ｔ−Ｔ´）×（Ｆ６＋Ｃ５）（４４）Ｆ４＝（１／４）×（Ｔ−Ｔ´）×（Ｆ５＋Ｃ４）（４５）．．．．．．Ｆｍ（Ｔ）＝Ｆ０＝（Ｔ−Ｔ´）×（Ｆ１＋Ｃ０）（４６）

【００８２】（４３）〜（４６）式を有限長の乗算、加
算を使って行うとき、（４３）式にかかる相対誤差は
（１＋ε）³、また、（４４）式以降にかかる相対誤差
は（１＋ε）⁴となる。但し、Ｆ４、Ｆ２、Ｆ１、Ｆ０
に対しては、最初の（整数分の１）の乗算は正確にでき
るので、（１＋ε）³となる。この結果、テーラー展開
によって発生する相対誤差は、（１＋ε）²⁴となる。

【００８３】実際のテーラー展開では、分割数は上述の
ように十分に大きくとられるため、（４２）式の（Ｔ−
Ｔ´）の値は十分に小さい。したがって、例えば（４
４）式に含まれる（Ｆ６＋Ｃ５）のように、直前に求め
られた値Ｆと係数Ｃとの足し算では、直前に（１／ｋ）
や（Ｔ−Ｔ´）の値が掛け合わされているＦよりも係数
Ｃの方が十分大きく、Ｆの値に混入している丸め誤差の
値は問題とならない可能性もある。このため、上記（１
＋ε）²⁴という相対誤差の値は、オーバーエステイメイ
トであるが、最悪のケースを想定して、この値を使用す
ることにする。

【００８４】さらに、（４３）〜（４６）式によって求
められる際に、（Ｔ−Ｔ´）が１回ずつ掛け合わされ
る。このため、機械的に解析すると、Ｔに含まれる相対
誤差は６乗となると思われるが、この相対誤差も繰り返
しの各段階におけるＦの値に混入していくため、上で述
べた理由により６乗とすることもオーバーエステイメイ
トである。しかし、ここでも最悪の場合を想定してＴに
含まれる誤差を６乗とみなすことにする。

【００８５】次に、以上述べた誤差関数の要素的な計算
に混入する相対誤差を考慮しながら、誤差関数の計算に
現れる丸め誤差について述べる。上述したように、ここ
で見積もった丸め誤差の値は、オーバーエステイメイト
な部分も含まれているが、ここでは誤差関数の値が所定
の誤差の範囲内にとどまるようにするために十分となる
積和演算の精度を求めたいので、見積もった誤差の値を
そのまま使用する。

【００８６】図７は、初期パラメータＡ、Ｂ、Ｃ、Ｄ、
ζａ、ζｂ、ζｃ、ζｄから誤差関数Ｆｍ（Ｔ）を計算
するまでの経路と、各計算で発生する相対誤差とを示し
たものである。この図７では、誤差関数が初期パラメー
タから順次積和演算を使って求められる経路を矢印で示
し、各積和演算だけによってかかる相対誤差の値を式の
右側に示している。

【００８７】まず、（２６）式のＴの値に含まれる相対
誤差を検討する。ここで、Ｔは、ρと、（Ｐ−Ｑ）²と
の２つの値の乗算で表されているため、これら２つの値
に含まれる丸め誤差について述べる。

【００８８】最初に、（Ｐ−Ｑ）²の相対誤差は、図７
のステップ１〜５のパスを解析することによって得られ
る。ステップ１〜３までは、各ステップでの相対誤差を
そのまま掛け合わせることで、Ｐｘの相対誤差が得ら
れ、その値は（１＋ε）¹³である。

【００８９】次に、ステップ４の値は、Ｐｘを含む項が
２回かかった形になっているため、相対誤差は、（（１
＋ε）¹³）²×（１＋ε）³＝（１＋ε）²⁹とみなし、
さらに、ステップ５の相対誤差をかけると、（１＋ε）
³¹となる。この値が、（Ｐ−Ｑ）²の相対誤差となる。

【００９０】次に、ρの相対誤差は、ステップ１、６、
７、８のパスと、ステップ１、８のパスを考慮する。ス
テップ１、６、７で、相対誤差は、（１＋ε）¹¹であ
り、ステップ８では、３者の乗算となるため、結局（１
＋ε）¹³となる。この値が、ρの相対誤差となる。

【００９１】以上求められた、（Ｐ−Ｑ）²の相対誤
差、ρの相対誤差から、ステップ９で求められるＴに含
まれる相対誤差は、（１＋ε）^31＋13＋1＝（１＋ε）
⁴⁵と計算される。

【００９２】さらに、Ｔに含まれる相対誤差から、ステ
ップ１０の誤差関数に含まれる相対誤差を求める。前述
したテーラー展開の丸め誤差による影響に基づいて計算
すると、誤差関数の相対誤差は、（１＋ε）^45×6＋24
＝（１＋ε）²⁹⁴となる。

【００９３】実際の誤差解析では、減算にともなう桁落
ちも考慮しなければならない。この場合は、（２６）式
に含まれる（Ｐ−Ｑ）の計算において、Ｐの値とＱの値
がかなり近い場合に、減算結果の有効桁数が減少してし
まうものである。ただし、この場合は、（Ｐ−Ｑ）で桁
落ちが発生するとＴの値も小さくなり、この結果、（４
２）式の（Ｔ−Ｔ´）の値も小さいとみなされ、結果的
に誤差関数に影響するのは、（４２）式のＣ０を含んだ
（Ｔ−Ｔ´）がかかっていない項とみなすことができ
る。このため、桁落ちが発生するときには、むしろ誤差
の影響は軽減されると考えられるので、今回は、桁落ち
は考慮しないことにする。

【００９４】以上述べたように、初期パラメータから誤
差関数を計算する際に混入する丸めによる相対誤差は、
（１＋ε）²⁹⁴となる。上で述べた丸め誤差に対する条
件から、この相対誤差が、倍精度浮動小数点に含まれる
相対誤差以下であることが要請されるため、積和演算器
による１回の相対誤差εに対して、以下の式が成り立
つ。

【００９５】（１＋ε）²⁹⁴＜（１＋２^-53）（４７）ここで、εが２^-53より小さい数字であるため、ε＜＜
２９４である。この結果、（４７）式の左辺は１＋２９
４εと近似でき、最終的に、（４７）式は、ε≦２^-62
と変形される。この条件式より、誤差関数が倍精度浮動
小数点程度の精度を持つために十分となる積和演算器の
仮数部の桁数は、６２ビットである。

【００９６】前述の文献２のような例では、通常、誤差
関数の計算と、２電子積分やフォック行列要素の計算と
に用いられる積和演算は、共通の演算装置が使用され
る。したがって、仮数部が６２ビット以上の積和演算
は、誤差関数だけでなく、２電子積分やフォック行列要
素を求めるときにも使われる。

【００９７】このように、６２ビット以上の積和演算で
計算することによって、誤差関数は、前述の文献１に目
安として示された精度を持つため、分子軌道計算の結果
にも十分な精度を持たせることができると考えられる。

【００９８】しかしながら、特開平９−５０４２８号公
報に示されている方法では、既存のホストとなるベクト
ル計算機と、計算機クラスタを構成する汎用計算機を用
いて分子軌道計算を行っている。このため、ホストとな
るベクトル計算機や、クラスタを構成する計算機に予め
用意されている演算精度によって、誤差関数の計算や、
固有値の演算精度が制限されてしまう問題がある。

【００９９】特に、通常の計算機では、ＩＥＥＥ規格７
５４で定められている倍精度浮動小数点表現に対応する
乗算回路や加減算回路が用意されているため、（１）式
で表される固有値の演算精度は上記の要求を満足するも
のの、誤差関数の計算には演算精度が不足するものとな
ってしまう。

【０１００】ここで、４倍精度浮動小数点などの高精度
な演算を用意している計算機を、クラスタとして使用す
ることもできるが、その場合には、誤差関数の計算に十
分な演算精度よりもかなりオーバースペックとなってし
まうため、ハードウエア資源を無駄に使用してしまうこ
とになり、効率が悪い。

【０１０１】さらに、ＩＥＥＥ規格７５４で定められて
いる倍精度浮動小数点と４倍精度浮動小数点のフォーマ
ットの変換に手間がかかる。例えば、倍精度浮動小数点
と４倍精度浮動小数点では、指数の値に対して特定のオ
フセットを加算したものを、指数を表すフィールドに格
納するが、倍精度浮動小数点と４倍精度浮動小数点と
で、この加算するオフセットの値が異なるため、両者の
間で指数部に対する加減算処理を行う等の処理が必要と
なる。

【０１０２】また、倍精度浮動小数点に対応したハード
ウエアを使い、ソフトウエア的に４倍精度浮動小数点な
どの、より精度の高い計算を行うことも可能であるが、
計算に余分なステップ数を要するため、その演算速度が
低下してしまう。

【０１０３】このように、目的とするフォーマットより
も小さい回路を用いて、そのフォーマットの計算を行う
例としては、特開平２−１７１９２３号公報、特開平６
−３０１７１０号公報、特開平８−１８５３０９号公報
に記載のものも挙げられるが、いずれも演算時間がかか
ってしまう問題がある。

【０１０４】以上の点にかんがみ、この発明は、オーバ
ースペックになるようなハードウエア規模とする必要が
なく、また、計算速度も高速を保ちながら、高精度の並
列計算ができるようにした装置および方法を提供するこ
とを目的とする。

【０１０５】

【課題を解決するための手段】上記課題を解決するため
に、請求項１の発明においては、ホストプロセッサと、
このホストプロセッサとバスを介して接続される１また
は複数のプロセッサエレメントとからなり、前記ホスト
プロセッサと、前記１または複数のプロセッサエレメン
トとが、特定の計算プロセスに含まれる浮動小数点演算
処理を分担して計算する並列計算装置において、前記プ
ロセッサエレメントは、前記ホストプロセッサとの間
で、１ビットの符号部と、ｍｅビットのビット幅の指数
部と、ｍ０ビットのビット幅の仮数部とからなる第１の
形式の浮動小数点データを入出力する浮動小数点入出力
インタフェース部と、前記浮動小数点入出力インタフェ
ース部より入力される前記第１の形式の浮動小数点デー
タを、１ビットの符号部と、前記ｍｅビットのビット幅
の指数部と、前記ｍ０よりも大きいｍ１ビットのビット
幅の仮数部とからなる第２の形式の浮動小数点データに
変換する入力データ変換部と、浮動小数点乗算手段およ
び浮動小数点加減算手段を備え、前記入力データ変換部
からの前記第２の形式の浮動小数点データについて、浮
動小数点演算処理を実行する浮動小数点演算部と、前記
浮動小数点演算部で演算が施された前記第２の形式の浮
動小数点データを前記第１の形式の浮動小数点データに
変換して、前記浮動小数点入出力インタフェース部に供
給する出力データ変換部と、を備えることを特徴とす
る。

【０１０６】また、請求項２の発明は、請求項１に記載
の並列計算装置において、前記入力データ変換部は、前
記第１の形式の浮動小数点データの符号部を、前記第２
の形式の浮動小数点データの符号部とし、前記第１の形
式の浮動小数点データの指数部を、前記第２の形式の浮
動小数点データの指数部とし、前記ｍ０ビットの前記第
１の形式の浮動小数点データの仮数部を、前記ｍ１ビッ
トの前記第２の形式の浮動小数点データの仮数部のうち
の上位の前記ｍ０ビットとし、前記第２の形式の浮動小
数点データの仮数部の下位ｍ１−ｍ０ビットを所定の数
値とし、前記出力データ変換部は、前記第２の形式の浮
動小数点データの符号部を、前記第１の形式の浮動小数
点データの符号部とし、前記第２の形式の浮動小数点デ
ータの指数部を、前記第１の形式の浮動小数点データの
指数部とし、前記第２の形式の浮動小数点データの仮数
部の上位の前記ｍ０ビットを、前記第１の形式の浮動小
数点データの仮数部としたことを特徴とする。

【０１０７】また、請求項３の発明は、請求項１に記載
の並列計算装置において、前記入力データ変換部は、前
記第１の形式の浮動小数点データの符号部を、前記第２
の形式の浮動小数点データの符号部とし、前記第１の形
式の浮動小数点データの指数部を、前記第２の形式の浮
動小数点データの指数部とし、前記ｍ１ビットの前記第
２の形式の浮動小数点データの仮数部のうち、その最上
位１ビットは１とし、最上位よりも下位の前記ｍ０ビッ
トは前記第１の形式の浮動小数点データの仮数部とし、
さらにそれより下位の前記ｍ１−前記ｍ０−１ビットは
所定の数値とし、前記出力データ変換部は、前記第２の
形式の浮動小数点データの符号部を、前記第１の形式の
浮動小数点データの符号部とし、前記第２の形式の浮動
小数点データの指数部を、前記第１の形式の浮動小数点
データの指数部とし、前記第２の形式の浮動小数点デー
タの仮数部の上位２ビット目からのｍ０ビットを、前記
ｍ０ビットの第１の形式の浮動小数点データの仮数部と
したことを特徴とする。

【０１０８】また、請求項４の発明は、請求項１〜３の
いずれかに記載の並列計算装置において、前記第２の形
式の浮動小数点データにおいては、前記指数部が第１の
所定の値ｅｍａｘのときに符号付き無限大を表し、前記
指数部が第２の所定の値ｅｍｉｎのときに零を表し、前
記浮動小数点演算部に含まれる浮動小数点乗算手段は、
オーバーフローを発生すると出力データの指数部を前記
値ｅｍａｘとし、アンダーフローを発生すると出力デー
タの指数部を前記値ｅｍｉｎとし、入力される前記第２
の形式の２つの浮動小数点データのうち、どちらか１つ
の指数部が前記値ｅｍａｘのときに出力データの指数部
を前記値ｅｍａｘとし、前記入力される前記第２の形式
の２つの浮動小数点データのうち双方とも指数部が前記
値ｅｍａｘでなく、かつ、どちらか１つの指数部が前記
値ｅｍｉｎのときに出力データの指数部を前記値ｅｍｉ
ｎとし、前記浮動小数点演算部に含まれる浮動小数点加
減算手段は、オーバーフローを発生すると出力データの
指数部を前記値ｅｍａｘとし、アンダーフローを発生す
ると出力データの指数部を前記値ｅｍｉｎとし、入力さ
れる前記第２の形式の２つの浮動小数点データのうち、
どちらか１つの指数部が前記値ｅｍａｘのときに出力デ
ータの指数部を前記値ｅｍａｘとすることを特徴とす
る。

【０１０９】また、請求項５の発明は、請求項１〜４の
いずれかに記載の並列計算装置において、前記浮動小数
点演算部に含まれる浮動小数点乗算手段は、その出力デ
ータの仮数部を求めるときに、切り捨てを実施し、前記
浮動小数点演算部に含まれる浮動小数点加減算手段は、
その出力データの仮数部を求めるときに、切り捨てを実
施することを特徴とする。

【０１１０】また、請求項６の発明は、ホストプロセッ
サと、このホストプロセッサとバスを介して接続される
１または複数のプロセッサエレメントとにより、特定の
計算プロセスに含まれる浮動小数点演算処理を分担して
計算する並列計算方法において、前記ホストプロセッサ
は、１ビットの符号部と、ｍｅビットのビット幅の指数
部と、ｍ０ビットのビット幅の仮数部とからなる第１の
形式の浮動小数点データについて演算処理を行い、前記
プロセッサエレメントは、前記第１の形式よりも高精度
で、１ビットの符号部と、前記ｍｅビットのビット幅の
指数部と、前記ｍ０よりも大きいｍ１ビットのビット幅
の仮数部とからなる第２の形式の浮動小数点データにつ
いて、浮動小数点演算処理を実行するものであって、か
つ、前記バスを通じて入力される第１の形式の浮動小数
点データ入力の符号部を前記第２の形式の浮動小数点デ
ータの符号部とし、前記第１の形式の浮動小数点データ
入力の指数部を前記第２の形式の浮動小数点データの指
数部とし、前記第１の形式の浮動小数点データ入力の仮
数部を、前記ｍ１ビットの前記第２の形式の浮動小数点
データの仮数部のうちの上位ｍ０ビットとすると共に、
前記第２の形式の浮動小数点データの仮数部の下位ｍ１
−ｍ０ビットを所定の数値として、前記第１の形式の浮
動小数点データ入力を、前記第２の形式の浮動小数点デ
ータに変換する入力データ変換工程と、前記入力データ
変換工程で変換された前記第２の形式の浮動小数点デー
タについて、浮動小数点演算を実行し、その演算結果と
しての前記第２の形式の浮動小数点データを得る浮動小
数点演算工程と、前記浮動小数点演算工程で得られる前
記演算結果としての前記第２の形式の浮動小数点データ
の符号部を前記第１の形式の浮動小数点データの符号部
とし、前記演算結果としての前記第２の形式の浮動小数
点データの指数部を前記第１の形式の浮動小数点データ
の指数部とし、さらに前記演算結果としての前記第２の
形式の浮動小数点データの仮数部の上位ｍ０ビットを前
記第１の形式の浮動小数点データの仮数部として、前記
演算結果としての前記第２の形式の浮動小数点データ
を、前記第１の形式の浮動小数点データ出力に変換し
て、前記バスに出力する出力データ変換工程と、を備え
ることを特徴とする。

【０１１１】また、請求項７の発明は、ホストプロセッ
サと、このホストプロセッサとバスを介して接続される
１または複数のプロセッサエレメントとにより、特定の
計算プロセスに含まれる浮動小数点演算処理を分担して
計算する並列計算方法において、前記ホストプロセッサ
は、１ビットの符号部と、ｍｅビットのビット幅の指数
部と、ｍ０ビットのビット幅の仮数部とからなる第１の
形式の浮動小数点データについて演算処理を行い、前記
プロセッサエレメントは、前記第１の形式よりも高精度
で、１ビットの符号部と、前記ｍｅビットのビット幅の
指数部と、前記ｍ０よりも大きいｍ１ビットのビット幅
の仮数部とからなる第２の形式の浮動小数点データにつ
いて、浮動小数点演算処理を実行するものであって、か
つ、前記バスを通じて入力される第１の形式の浮動小数
点データ入力の符号部を前記第２の形式の浮動小数点デ
ータの符号部とし、前記第１の形式の浮動小数点データ
入力の指数部を前記第２の形式の浮動小数点データの指
数部とし、さらにｍ１ビットの第２の形式の浮動小数点
データの仮数部のうち、その最上位１ビットは１とし、
最上位よりも下位の前記ｍ０ビットは前記第１の形式の
浮動小数点データ入力の仮数部とし、さらにそれより下
位の前記ｍ１−前記ｍ０−１ビットは所定の数値とし
て、前記第１の形式の浮動小数点データ入力を、前記第
２の形式の浮動小数点データに変換する入力データ変換
工程と、前記入力データ変換工程で変換されて得られた
前記第２の形式の浮動小数点データについて、浮動小数
点演算を実行して、その演算結果としての前記第２の形
式の浮動小数点データを得る浮動小数点演算工程と、前
記浮動小数点演算工程で得られる前記演算結果としての
前記第２の形式の浮動小数点データの符号部を前記第１
の形式の浮動小数点データの符号部とし、また前記演算
結果としての前記第２の形式の浮動小数点データの指数
部を前記第１の形式の浮動小数点データの指数部とし、
さらに前記演算結果としての前記第２の形式の浮動小数
点データの仮数部の上位２ビット目からのｍ０ビット
を、ｍ０ビットの前記第１の形式の浮動小数点データの
仮数部として、前記演算結果としての前記第２の形式の
浮動小数点データを、前記第１の形式の浮動小数点デー
タ出力に変換して、前記バスに出力する出力データ変換
工程と、を備えることを特徴とする。

【０１１２】また、請求項８の発明は、請求項１〜５の
いずれかに記載の並列計算装置において、前記計算プロ
セスは、分子軌道法に基づく計算プロセスであることを
特徴とする。

【０１１３】さらに、請求項９の発明は、請求項６また
は請求項７に記載の並列計算方法において、前記計算プ
ロセスは、分子軌道法に基づく計算プロセスであること
を特徴とする。

【０１１４】

【作用】請求項１の発明においては、ホストプロセッサ
は、第１の形式、例えば倍精度浮動小数点データについ
て演算処理を実行すると共に、このホストプロセッサと
浮動小数点演算処理を分担処理するプロセッサエレメン
トは、第１の形式の浮動小数点データよりも高精度であ
って、仮数部のビット幅のみが異なる第２の形式の浮動
小数点データを使って浮動小数点演算を行う。したがっ
て、４倍精度を用いる場合のような過剰なオーバースペ
ックとなってしまうようなことはない。

【０１１５】そして、プロセッサエレメントにおいて、
ホストプロセッサから入力データを受けるときに、入力
データ変換部により、第１の形式から第２の形式に浮動
小数点データの形式の変換を行うと共に、プロセッサエ
レメントからホストプロセッサに向けてデータを出力す
るときに、出力データ変換部により、第２の形式から第
１の形式に浮動小数点データの形式の変換を行う。

【０１１６】この浮動小数点データの形式の変換は、仮
数部のみが異なるので、前述した４倍精度と倍精度との
間での変換のように、指数部の変換を行う必要がない。
このため、簡単な変換処理で済むので、演算処理速度の
低下が少ない。

【０１１７】そして、一般に、並列計算装置において
は、プロセッサエレメントでの計算量が、ホストプロセ
ッサよりも多いが、上述の構成の請求項１によれば、こ
の計算量の多い演算が、高精度で実施されることにな
り、精度の高い計算が可能となるものである。

【０１１８】また、請求項２の発明によれば、入力デー
タ変換部および出力データ変換部で行われる第１の形式
の浮動小数点データと第２の形式の浮動小数点データと
の間の変換において、符号部と指数部とは、全く同一に
することができる。したがって、変換を単純に行うこと
ができるので、変換に要するハードウエア規模が小さく
なる。

【０１１９】また、請求項３の発明によれば、入力デー
タ変換部および出力データ変換部で行われる第１の形式
の浮動小数点データと第２の形式の浮動小数点データと
の変換を単純に保ったまま、第２の形式の浮動小数点デ
ータの仮数部を浮動小数点乗算手段で計算を行い易いよ
うに変更される。したがって、浮動小数点乗算手段の回
路規模を小さくできる。

【０１２０】また、請求項４の発明によれば、第２の形
式の浮動小数点データにおいて、零と無限大とが指数部
だけで表されるようになる。したがって、浮動小数点乗
算手段、および浮動小数点加減算手段で、零や無限大を
扱うための回路規模を小さくすることができる。

【０１２１】また、請求項５の発明においては、浮動小
数点乗算手段および浮動小数点加減算手段では、仮数部
を求めるときに、丸め処理が省略されて、切り捨て処理
が行われる。

【０１２２】この請求項５の発明の場合、第２の形式の
浮動小数点データの仮数部のビット幅が、第１の形式の
浮動小数点データの仮数部のビット幅が大きいことか
ら、丸め処理をしても、第１の形式の浮動小数点データ
として必要な仮数部のビット幅に影響がないようにする
ことができる。このため、丸め処理を省略しても、高精
度を維持することが可能であるとともに、丸め処理を省
略できるので、浮動小数点乗算手段、浮動小数点加減算
手段の回路規模を小さくし、高速に演算が実施できるよ
うになる。

【０１２３】また、請求項６および請求項７の発明によ
れば、第１の形式の浮動小数点データと第２の形式の浮
動小数点データとの間の変換工程によって、汎用的に使
用されるプロセッサを使用して変換が高速であり、ま
た、精度の高い浮動小数点演算を実行することができ
る。

【０１２４】また、請求項８および請求項９の発明によ
れば、従来と同程度の速度で、従来よりも高精度で分子
軌道計算を実行することができる。

【０１２５】

【発明の実施の形態】以下、この発明による並列計算装
置および並列計算方法の実施の形態を、図を参照して説
明する。

【０１２６】図１は、実施の形態の並列計算装置のシス
テム構成のブロック図である。この図１において、１は
ホストプロセッサであり、既存のパソコンやワークステ
ーションで構成される。２はプロセッサエレメントの例
としての専用プロセッサであり、システムに複数個用意
される。この複数個の専用プロセッサ２は、所定の個数
ごとにまとめられ、そのまとめられた単位はボード３と
して構成される。ホストプロセッサ１と、複数個のボー
ド３との間は、バス４によって接続される。

【０１２７】ここで、ボード３上では、バスプロトコル
変換用のバスブリッジを介してホストから出るバスとは
異なるバスを使用しても良いが、この例では、簡単のた
めに、ホストプロセッサ１から出るバスと、ボード３上
のバスとは同じものを使用するものとする。したがっ
て、この例では、バス４は、ホストプロセッサ１と、複
数個の専用プロセッサとの間を接続するものとなってい
る。

【０１２８】この図１のシステムは、前述の文献２に記
載されているシステムと、ほぼ同じ方法で分子軌道計算
を実施する。まず、以下に、このシステムによる分子軌
道計算の実施手順を示す。

【０１２９】（手順１）ボード３上に位置する複数の専
用プロセッサ２は、分子軌道計算で必要となる膨大な２
電子積分の計算を分担する。このため、まず、ホストプ
ロセッサ１は、各専用プロセッサ２での計算に必要とな
る原子の中心座標Ａ、Ｂ、Ｃ、Ｄや、軌道指数ζ、さら
に、係数Ｃの値から、前述の（３）式によって求めた密
度行列Ｐｔｕなどの初期パラメータを、バス４を通し
て、予め、各専用プロセッサ２に送信する。各専用プロ
セッサ２では、受け取ったこれらの初期パラメータを、
内蔵するメモリに格納する。

【０１３０】（手順２）次に、各専用プロセッサ２で
は、内蔵するメモリに格納された初期パラメータの値を
使用して、内蔵されている積和演算回路を使いながら、
誤差関数Ｆｍ（Ｔ）の計算や、前述の（９）式や（１
０）式で表される２電子積分の計算、および密度行列の
値を使用して、前述の（２）式で表されるフォック行列
要素を構成するｇｒｓの計算を実施する。その後、各専
用プロセッサ２は、ホストプロセッサ１に対して、求め
たｇｒｓの値をバス４を通して送り返す。

【０１３１】（手順３）ホストプロセッサ１では、前述
の（２）式に含まれるｈｒｓを計算し、また、各専用プ
ロセッサ２から送り返されたｇｒｓの値とともに、フォ
ック行列要素Ｆｒｓを計算する。また、ホストプロセッ
サ１は、求めたフォック行列要素Ｆｒｓの値を元にし
て、前述の（１）式の固有値問題を解き、新たな係数Ｃ
を求める。

【０１３２】上に述べた手順１〜３を繰返すことによっ
て、ＳＣＦ法が実現される。また、ホストプロセッサ１
は、求められた係数Ｃの値を、ＳＣＦの直前の繰り返し
で求められた係数の値と比較して、その差が十分に小さ
ければ、ＳＣＦの繰り返しを終了する。このシステムを
使って、以上のような手順で、計算を繰り返すことによ
り、分子のエネルギー値が求まる。

【０１３３】ここで、この実施の形態では、ホストプロ
セッサ１で扱う第１の形式の浮動小数点データは、ＩＥ
ＥＥ規格７９５で定められている倍精度の浮動小数点デ
ータとする（以下、単に倍精度という）。すなわち、こ
の実施の形態では、ホストプロセッサ１で実施される浮
動小数点演算は、全て倍精度で行われる。また、初期パ
ラメータも倍精度で表されている。この精度は、前述も
したように、ホストプロセッサ１で行われる固有値の演
算精度を満足するものである。また、前述の誤差関数の
精度に必要となる初期パラメータの入力誤差も満足して
いる。

【０１３４】次に、専用プロセッサ２の構成について説
明する。図２は、この実施の形態で用いられている専用
プロセッサ２の内部構成を示したブロック図である。こ
の専用プロセッサ２では、後述するように、第１の形式
である倍精度の浮動小数点データよりも、仮数部のビッ
ト幅が大きい第２の形式の浮動小数点データを扱うもの
である。

【０１３５】図２に示すように、専用プロセッサ２は、
バスインタフェース回路１０と、入力データ変換回路１
１と、出力データ変換回路１２と、積和演算回路２０
と、メモリ３０と、制御回路４０と、プログラムメモリ
４１とを備える。また、内部バス１００、１０１、１０
２と、メモリデータバス１０３と、メモリアドレスバス
１０４とを備える。

【０１３６】バスインタフェース回路１０は、バス４と
専用プロセッサ２とのインタフェースを行う。入力デー
タ変換回路１１は、バス４から入力される第１の形式の
浮動小数点データを、第２の形式の浮動小数点データに
変換する。出力変換回路１２は、演算結果をバス４へ出
力するために、第２の形式の浮動小数点データを、第１
の形式である倍精度の浮動小数点データに変換する。

【０１３７】積和演算回路２０は、第２の形式の浮動小
数点データについて積和演算を行うための回路で、第２
の形式の浮動小数点データを格納するレジスタ２１と、
浮動小数点乗算を実行する乗算回路２２と、浮動小数点
加減算を実行する加減算回路２３とを備える。

【０１３８】メモリ３０は、演算前後の第２の形式の浮
動小数点データを格納する。制御回路４０は、専用プロ
セッサ２の内部を制御する。プログラムメモリ４１は、
制御回路４０で実行されるプログラムを保持する。

【０１３９】内部バス１００〜１０２は、積和演算回路
２０に入力するデータを伝達するためのものである。メ
モリデータバス１０３は、メモリ３０に入出力するデー
タを伝達する。メモリアドレスバス１０４は、メモリ３
０のアドレスを伝達する。なお、２００は、バス４と入
出力を行うための入出力端子である。

【０１４０】次に、以上のような構成の専用プロセッサ
２の機能について説明する。まず、ホストプロセッサ１
と専用プロセッサ２とのデータ入出力機能について述べ
る。

【０１４１】専用プロセッサ２は、前述のように、第１
の形式である倍精度の浮動小数点データを、ホストプロ
セッサ１と入出力する。一方、専用プロセッサ２の内部
では、前述の通り、倍精度よりも高い精度の第２の形式
の浮動小数点フォーマットで演算を行うことが必要なの
で、この例では、倍精度の６４ビットよりも大きい７６
ビットの独自のフォーマット（以下、内部フォーマット
と呼ぶ）を用いて計算を行う。内部フォーマットに関す
る詳しい説明は、後述する。

【０１４２】このため、ホストプロセッサ１から専用プ
ロセッサ２にデータを入力するときは、バスインタフェ
ース回路１０で、バス４の伝送手順で入力される信号か
ら倍精度浮動小数点データを構成し、入力データ変換回
路１２によって、倍精度浮動小数点データを７６ビット
の内部フォーマットを持ったデータに変換し、この変換
後データをメモリデータバス１０３を経由してメモリ３
０に出力する。

【０１４３】これと同時に、バスインタフェース回路１
０は、バス４から指定されるメモリ３０のアドレスを生
成して、メモリアドレスバス１０４を経由してメモリ３
０に供給する。その後、制御回路４０は、適切な制御信
号を、メモリ３０に供給することにより、７６ビットデ
ータをメモリ３０に書き込む。

【０１４４】また、専用プロセッサ２からホストプロセ
ッサ１にデータを出力するときは、バスインタフェース
回路１０で、バス４から指定されるメモリ３０のアドレ
スを生成して、メモリ３０に供給し、メモリデータバス
１０３を経由して、７６ビットの内部フォーマットで表
されたデータを読み出す。その後、出力データ変換回路
１１によって、このデータを倍精度浮動小数点データに
変換し、バスインタフェース回路１０で、バス４の伝送
手順で入力される信号を生成して、バス４に出力する。

【０１４５】次に、積和演算回路２０の機能について説
明する。積和演算回路２０は、制御回路４０の制御を受
けながら、メモリ３０やレジスタ２１に格納された７６
ビットの内部フォーマットで表された浮動小数点データ
を使用して積和演算を実行し、その結果を、メモリ３０
やレジスタ２１に格納する。このとき、プログラムメモ
リ４１には、積和演算プログラムが予め格納されてお
り、制御回路４０は、積和演算プログラムを順番に読み
出して、それに従った制御信号を生成することにより、
積和演算回路２０やメモリ３０を制御する。以下に、積
和演算回路２０の各部分の機能をさらに詳しく述べる。

【０１４６】レジスタ２１あるいはメモリ３０からは、
７６ビットの内部フォーマットで表された浮動小数点デ
ータが、メモリデータバス１０３を経由して内部バス１
００〜１０２を通して積和演算回路２０の内部の乗算回
路２２、加減算回路２３に供給される。

【０１４７】このとき、レジスタ２１は、３ポートの読
み出しポートを有しており、各ポートから内部バス１０
０〜１０２に、独立にデータが読み出される。さらに、
メモリ３０から読み出されたデータは、メモリデータバ
ス１０３を通して、内部バス１００〜１０２のどれかに
入力される。

【０１４８】読み出しを行うときのレジスタ２１やメモ
リ３０へのアドレス、制御信号は、ともに制御回路４０
で、プログラムメモリ４１の積和演算プログラムに従っ
て生成される。

【０１４９】積和演算回路２０内部の乗算回路２２、加
減算回路２３は、内部バス１００〜１０２を通して供給
されたデータを使用して積和演算を実行し、その演算結
果を出力する。図２に示すように、乗算回路２２は、内
部バス１０１、１０２からデータを入力し、また、加減
算回路２３は、乗算回路２２の結果と内部バス１００か
らデータを入力する。この構成によって積和演算が実現
され、加減算回路２３の出力が、積和演算結果となって
出力される。

【０１５０】また、制御回路４０は、積和演算プログラ
ムに従って、乗算回路２２、加減算回路２３の制御信号
を生成して、積和演算回路２０に供給し、積和演算回路
２０の動作タイミングを制御する。

【０１５１】また、乗算回路２２、加減算回路２３は、
入力を、そのまま出力にバイパスする機能を備えてお
り、この機能は、制御回路４０からの制御信号によって
制御される。加減算回路２３の、乗算回路２２からの入
力を、出力にバイパスすることにより乗算が実現され、
また、乗算回路２２の片方の入力を出力にバイパスする
ことによって加算や減算が実現される。積和演算回路２
０の好適な構成として、この例では、パイプライン動作
するものが用いられる。

【０１５２】積和演算回路２０で求められた演算結果
は、加減算回路２３から出力され、レジスタ２１、また
は、メモリ３０に書き込まれる。メモリ３０には、メモ
リデータバス１０３を経由して積和演算の結果が供給さ
れる。このときのレジスタ２１やメモリ３０へのアドレ
スおよび制御信号は、読み出し時と同様にして、積和演
算プログラムに基づいて、制御回路４０によって生成さ
れ、供給される。

【０１５３】専用プロセッサ２は、以上のように動作す
るので、２電子積分の計算や、（２）式のｇｒｓの計算
を行うことが可能である。そこで、次に、専用プロセッ
サ２が、以上述べた機能を使って、ホストプロセッサ１
から初期パラメータを受け取り、（２）式のｇｒｓを計
算するまでの手順について説明する。

【０１５４】専用プロセッサ２は、まず、軌道指数ζや
座標Ａ、Ｂ、Ｃ、Ｄ、さらに密度行列Ｐｔｕや（４２）
式に示したテーラー展開の係数などを、倍精度浮動小数
点データの形式で、ホストプロセッサ１から受け取り、
入力データ変換回路１１で、７６ビットの内部フォーマ
ットに変換した後、メモリ３０に格納する。

【０１５５】次に、予め、プログラムメモリ４１に格納
された積和演算プログラムの計算手順に従って、メモリ
３０に格納した初期パラメータを読み出しながら、積和
演算回路２０を使用して、前述した（１）〜（２８）式
の通りに、誤差関数Ｆｍ（Ｔ）、（ｓ＊ｓ＊，ｓ＊ｓ
＊）^(m)の値、２電子積分の値、ｇｒｓの値を順番に計
算し、求められたｇｒｓの値をメモリ３０に書き込む。
このときの演算は、全て７６ビットの内部フォーマット
を使用して行われる。

【０１５６】また、この計算の途中で現れる中間結果
は、レジスタ２１やメモリ３０に格納して使用する。さ
らに、（２５）式に現れる（１／２）乗の逆数は、ニュ
ートン法により、（２７）式に現れるｅｘｐ計算は、テ
ーラー展開により、前述した逆数や誤差関数の計算と同
様に、積和演算の繰り返しによって計算される。したが
って、全ての計算は、積和演算回路２０を使って求めら
れる。

【０１５７】最後に、このようにしてメモリ３０に格納
された内部フォーマットのｇｒｓの値を、出力データ変
換回路１２で、倍精度浮動小数点データに変換した後、
バスインタフェース回路１０によってバス４に出力し、
ホストプロセッサ１に送る。以上のような計算手順によ
って、上述の実施の形態のシステムを用いた分子軌道計
算が実現される。

【０１５８】次に、この実施の形態で使用する、７６ビ
ット浮動小数点の内部フォーマットについて説明する。
図３（Ａ）に、ＩＥＥＥ規格７５４で決められている倍
精度浮動小数点のフォーマットを、また、図３（Ｂ）
に、この実施の形態で使用する専用プロセッサ２の内部
フォーマットを、それぞれ示す。

【０１５９】まず、ＩＥＥＥ規格７５４で定められてい
る倍精度浮動小数点フォーマットについて説明する。図
３（Ａ）に示したこのフォーマットは、１ビットの符号
部ｓと、１１ビットの指数部ｅと、５２ビットの仮数部
ｆ０とからなる。このフォーマットによって表現される
実数ｖは、図３（Ａ）に示した式に基づいて計算され
る。

【０１６０】すなわち、この倍精度浮動小数点のフォー
マットで、０以外の実数ｖを、浮動小数点で表現すると
きは、ｖ＝（−１）^sign×２^exp×（１．ｘｘｘ．．．）（４８）と正規化し、ｓｉｇｎを符号部ｓに、２進数で表された
最も右側の（１．ｘｘｘ．．．）の部分の小数点以下の
部分ｘｘｘ．．．のうち上位５２ビットを仮数部ｆ０
に、また、正規化するための指数ｅｘｐを指数部ｅに、
それぞれ格納する。

【０１６１】但し、ｅｘｐの値は負になりうるため、予
め、１０２３のオフセットが加えられて、指数部ｅに格
納される。このことにより、指数部ｅの値を１〜２０４
６として、ｅｘｐの値は、−１０２２〜＋１０２３の範
囲で指定することができる。

【０１６２】また、指数部ｅの値が０のときには、特別
な数字を表しており、そのときの仮数部ｆ０が０なら実
数ｖ＝０であり、そのときの仮数部ｆ０が０でないとき
には、実数ｖは、（４８）式に示した正規化ができない
ほど、その絶対値が小さい数を表すものとされる（非正
規化数と呼ぶ）。

【０１６３】また、指数部ｅの値が２０４７のときにも
特別な数字を表しており、そのときの仮数部ｆ０が０な
ら実数ｖ＝±∞であり、そのときの仮数部ｆ０が０でな
ければ、実数ｖは、例えば０×∞の計算を行った結果の
ように、不定となった数を表すものとされる。

【０１６４】次に、この実施の形態の専用プロセッサ２
の内部フォーマットの浮動小数点表現について説明す
る。

【０１６５】図３（Ｂ）に示したように、この内部フォ
ーマットの浮動小数点データは、１ビットの符号部ｓ
と、１１ビットの指数部ｅと、６４ビットの仮数部ｆ１
とからなる。１ビットの符号部ｓと、１１ビットの指数
部ｅは、上述した倍精度浮動小数点フォーマットの符号
部ｓと、指数部ｅと同じ構成である。ただし、仮数部ｆ
１は６４ビットとされて、倍精度浮動小数点フォーマッ
トよりも高精度の浮動小数点フォーマットとしている。

【０１６６】この内部フォーマットの指数部ｅには、ｅ
＝０、ｅ＝２０４７の場合を除き、倍精度表現と同じ意
味の値が格納される。さらに、仮数部ｆ１は、実数ｖ
を、前述した（４８）式のように正規化したときに、
１．ｘｘｘ．．．のうちのｘｘｘ．．．の部分の上位６
４ビットを格納したものとなる。

【０１６７】この内部フォーマットは倍精度浮動小数点
と異なり、非正規化数、不定の数に対する表現は持たな
い。したがって、仮数部ｆ１の値が０であるか否かに拘
らず、指数部ｅ＝０のときには、実数ｖ＝０であり、ま
た、指数部ｅ＝２０４７のときには、実数ｖ＝±∞を表
しているものとする。

【０１６８】この内部フォーマットのように６４ビット
の仮数部を持たせると、小数点の上位にある１も含めて
６５ビットの精度となるため、前述のように誤差関数の
計算に必要となる６２ビットの仮数部の精度を満足して
いる。この場合に、本来ならば、仮数部の精度は、６２
ビット丁度あれば良いが、この実施の形態では、仮数部
の長さを２の冪乗の数とすることによって、回路が構成
しやすい場合があるため、３ビット余裕を持たせて６４
ビットとしている。

【０１６９】次に、この実施の形態の専用プロセッサ２
の内部フォーマットを決定した背景について述べる。

【０１７０】特に、この実施の形態の専用プロセッサの
内部フォーマットは、仮数部が６４ビットにも拘わら
ず、従来の４倍精度フォーマットなどとは異なり、指数
部ｅの長さが、ＩＥＥＥ７５４規格の倍精度フォーマッ
トと同じになっている。

【０１７１】この実施の形態のように、特定のアルゴリ
ズムに従って動作する専用計算機のプロセッサは、ある
程度、決められた範囲の値を入力して、特定の手順で計
算を行うので、その計算の途中結果が取り得る範囲は限
定されている。このため、アルゴリズムの工夫などによ
って、内部表現の指数部は、倍精度の浮動小数点表現と
同様の１１ビットで表現することが可能である。このこ
とにより、内部フォーマットとしての第２の形式の浮動
小数点データを短くでき、このデータを格納するメモリ
容量を減少させることができるとともに、前述したオフ
セットの値も同じ１０２３にできるため、指数を計算す
る回路規模も減少させることができる。

【０１７２】また、この内部フォーマットを使用した場
合、ホストプロセッサ１から専用プロセッサ２に送付さ
れる初期パラメータに、万が一、∞や不定が混入してい
た場合には、エラーを出して計算自体を無効にするなど
の措置をホストプロセッサ１で講じれば良いので、専用
プロセッサ２に対して、∞や不定は送付されないとみな
すことができる。

【０１７３】また、初期パラメータに、万が一、非正規
化数が出てくる場合にも、ホストプロセッサ１で、予
め、値に定数をかけて、非正規化数でないようにすれば
良い。あるいは専用プロセッサ２で、０とみなしても良
い場合には、非正規化数でなく、０の値として送付すれ
ば良い。

【０１７４】さらに、きわめてまれに、専用プロセッサ
２での計算の途中結果が、１１ビットの指数部ｅで表せ
ないような非常に小さい数になる場合、あるいは非常に
大きい数になる場合や、乗算器で０×∞などの計算が発
生することもあり得る。このような場合は、積和演算回
路２０による計算結果の指数部ｅが、０か、あるいは２
０４７かを判定することで検出できる。

【０１７５】したがって、専用プロセッサ２は、指数部
ｅが０か、あるいは２０４７かを判定することにより、
このような場合を検出したら、非正規化数や不定をホス
トプロセッサ１に送付することなく、専用プロセッサ２
からホストプロセッサ１に割り込みを発生したり、特定
のフラグを立てるなどして通知するようにすることがで
きる。この通知を受けたホストプロセッサ１では、エラ
ーを発生させたり、計算結果を０にするなど、適切に処
理することができる。

【０１７６】以上のようにして、この実施の形態の７６
ビットの内部フォーマットでは、非正規化数や不定に対
する表現は持たず、非常に小さい数は０、非常に大きい
数や不定の数は∞とみなすことで不都合を生じないよう
にしている。

【０１７７】このように、ＩＥＥＥ規格７５４では、指
数部ｅと仮数部ｆ０の両方によって、０や非正規化数、
あるいは∞や不定を表しているが、この実施の形態の専
用プロセッサ２の内部フォーマットの場合には、非正規
化数や不定に対する表現は不要であり、この結果、内部
フォーマットでは指数部ｅの値が，０あるいは２０４７
のときには、仮数部ｆ１の値に関係なく、０と∞を表す
ようにしている。したがって、積和演算回路２０の乗算
回路２２や加減算回路２３中の例外的な処理を実施する
ための回路が単純になる。

【０１７８】次に、この実施の形態において、７６ビッ
ト内部フォーマットを用いた乗算、加減算の方法につい
て説明する。

【０１７９】まず、図４を参照して、乗算回路２２の構
成と動作について説明する。この実施の形態で使用され
る乗算回路２２は、図４のブロック図に示すように、乗
算コア回路３００と、オール０判定回路３０１、３０２
と、オール１判定回路３０３、３０４と、オアゲート３
１０、３１１、３１２と、マルチプレクサ３１３、３１
４、３１５とからなる。

【０１８０】乗算コア回路３００は、７６ビットの内部
フォーマットで表された入力Ａと、入力Ｂの浮動小数点
データどうしの乗算を行う。

【０１８１】オール０判定回路３０１および３０２は、
７６ビットの内部フォーマットで表現された入力Ａおよ
び入力Ｂの１１ビットの指数部を、それぞれ入力として
受けて、その値が全て０のときだけ、出力を“１”にす
る。また、オール１判定回路３０３および３０４は、入
力Ａおよび入力Ｂの１１ビットの指数部を、それぞれ入
力として受けて、その値が全て１のときだけ、出力を
“１”にする。

【０１８２】オアゲート３１０は、乗算コア回路３００
のアンダーフロー出力ｕｆと、オール０判定回路３０
１、３０２の出力の論理和をとる。オアゲート３１１
は、乗算コア回路３００のオーバーフロー出力ｏｆと、
オール１判定回路３０３、３０４の出力の論理和をと
る。さらに、オアゲート３１２は、オアゲート３１０と
３１１の論理和をとる。

【０１８３】マルチプレクサ３１３は、オアゲート３１
０および３１１の出力を２ビットの選択制御信号ＳＥ１
として受けて、オール０と、オール１と、乗算コア回路
３００の乗算出力Ｍ１のうちの指数部データとの３通り
の１１ビットの指数部データのうちの１つを選び出す。

【０１８４】マルチプレクサ３１４は、オアゲート３１
２の出力を選択制御信号ＳＥ２として受けて、オール０
と、乗算コア回路３００の乗算出力Ｍ１のうちの仮数部
データとの２通りの６４ビットの仮数部のうちの１つを
選び出す。

【０１８５】また、マルチプレクサ３１５は、乗算回路
２２の出力ＭＯとする７６ビットの内部フォーマットで
表現された浮動小数点データを、２通りのデータから選
択する。選択される２通りのデータの一方は、乗算回路
２２をバイパスするときの入力Ａである。他方は、乗算
コア回路３００の乗算出力Ｍ１のうちの符号部と、マル
チプレクサ３１３で選択された指数部と、マルチプレク
サ３１４で選択された仮数部からなる７６ビットの内部
フォーマットで表現された最終乗算結果Ｍ２である。

【０１８６】マルチプレクサ３１５は、制御回路４０か
ら入力する選択制御信号によって、出力ＭＯとして最終
乗算結果Ｍ２を出力するか、バイパス入力データＡを出
力するかを選択する。

【０１８７】次に、以上のような構成の乗算回路２２の
動作について、説明する。まず、内部フォーマットで表
された２つの入力Ａと入力Ｂとは、乗算コア回路３００
によって乗算が行われ、内部フォーマットで表された乗
算結果Ｍ１が、乗算コア回路３００から出力される。

【０１８８】この際、乗算コア回路３００においては、
２入力Ａ，Ｂの仮数部どうしの乗算結果は、丸められて
乗算結果Ｍ１の仮数部が得られる。この丸めにより、６
５ビットの演算精度が得られる。また、乗算コア回路３
００から出力される内部フォーマットの乗算結果Ｍ１の
指数部と仮数部とは、乗算コア回路３００の入力および
出力の指数部ｅフィールドが、１〜２０４６の範囲にあ
る場合だけに対して正しい結果となっていれば良い。

【０１８９】ここで、図３に示したように、内部フォー
マットは、倍精度浮動小数点の仮数部のビット幅を拡張
しただけなので、このような乗算コア回路は、従来公知
の倍精度浮動小数点に用いる乗算回路を用いて、その仮
数部のビット幅を単純に拡張するだけで構成できる。し
たがって、この実施の形態における乗算コア回路３００
の内部構成の詳細は省略する。

【０１９０】また、乗算コア回路３００では、（１×２
^-1000）どうしの乗算のように、入力Ａと入力Ｂとは内
部フォーマットで表されているにも拘わらず、指数部が
１１ビットの範囲を超えてしまうために、乗算出力が内
部フォーマットで表せないほど小さくなる（アンダーフ
ローする）場合には、アンダーフロー出力ｕｆから
“１”が出力される。

【０１９１】また、（１×２⁺¹⁰⁰⁰）どうしの乗算のよ
うに、入力Ａと入力Ｂとは内部フォーマットで表される
にも拘わらず、指数部が１１ビットの範囲を超えてしま
うために、乗算出力が内部フォーマットで表せないほど
大きくなる（オーバーフローする）場合には、オーバー
フロー出力ｏｆから“１”が出力される。

【０１９２】さらに、内部フォーマットの入力Ａ、入力
Ｂの指数部は、オール０判定回路３０１、３０２および
オール１判定回路３０３、３０４に入力されているた
め、オール０判定回路３０１からは、入力Ａが０のと
き、“１”が出力され、また、オール０判定回路３０２
からは、入力Ｂが０のとき、“１”が出力され、また、
オール１判定回路３０３からは、入力Ａが∞のとき、
“１”が出力され、また、オール１判定回路３０４から
は、入力Ｂが∞のとき、“１”が出力される。

【０１９３】次に、乗算コア回路３００によって生成さ
れた内部フォーマットの乗算結果Ｍ１から、内部フォー
マットの最終乗算結果Ｍ２を生成する方法について述べ
る。

【０１９４】まず、乗算結果Ｍ１の符号部は、そのま
ま、最終乗算結果Ｍ２の符号部となる。

【０１９５】次に、最終乗算結果Ｍ２の指数部は、マル
チプレクサ３１３によって出力される。このとき、オア
ゲート３１０には、乗算コア回路３００のアンダーフロ
ー出力ｕｆと、オール０判定回路３０１、３０２の判定
結果とが入力されているため、乗算がアンダーフローし
た場合、あるいは入力Ａか入力Ｂが０の場合に、オアゲ
ート３１０の出力は“１”になる。また、オアゲート３
１１には、乗算コア回路３００のオーバーフロー出力ｏ
ｆと、オール１判定回路３０３、３０４の判定結果とが
入力されているため、乗算がオーバーフローした場合、
あるいは入力Ａか入力Ｂが∞の場合に“１”になる。

【０１９６】これらのオアゲート３１０、３１１の出力
は、２ビットの選択制御信号ＳＥ１としてまとめられ、
マルチプレクサ３１３に入力されている。そして、マル
チプレクサ３１３からは、選択制御信号ＳＥ１が“０
０”のときには乗算結果Ｍ１の指数部が出力され、“１
０”のときには１１ビットの０（オール０）が出力さ
れ、それ以外のときには１１ビットの１（オール１）が
出力される。

【０１９７】さらに、最終乗算結果Ｍ２の仮数部として
は、マルチプレクサ３１４から、オアゲート３１２から
の選択制御信号ＳＥ２に応じ、信号ＳＥ２が“０”のと
きには乗算結果Ｍ１の仮数部が、“１”のときには６４
ビットの０（オール０）が出力される。オアゲート３１
２は、オアゲート３１０、３１１の論理和出力を選択制
御信号ＳＥ２として出力するので、乗算結果がオーバー
フローした場合、またはアンダーフローした場合、また
は、入力Ａ、入力Ｂのうち、０か∞のものが１つでもあ
る場合に、選択制御信号ＳＥ２が“１”になり、マルチ
プレクサ３１４からは最終乗算結果Ｍ２の仮数部として
６４ビットの０が出力され、その他のときには、乗算結
果Ｍ１の仮数部が出力される。

【０１９８】以上の結果、乗算結果Ｍ１がオーバーフロ
ーもアンダーフローもせず、また、入力Ａも入力Ｂも０
や∞でない場合には、選択制御信号ＳＥ１は“００”、
選択制御信号ＳＥ２は“０”になるので、最終乗算結果
Ｍ２には乗算結果Ｍ１が、そのまま出力される。

【０１９９】また、乗算結果がアンダーフローするか、
または、入力Ａか入力Ｂが、０の場合で、かつ、入力
Ａ，Ｂのどちらも∞でない場合には、選択制御信号ＳＥ
１が“１０”、選択制御信号ＳＥ２が“１”になるの
で、最終乗算結果Ｍ２の指数部は０になって、内部フォ
ーマットの０になる。なお、最終乗算結果Ｍ２の仮数部
も、マルチプレクサ３１４によって０になるので、後述
するように、内部フォーマットの６４ビット仮数部から
上位５２ビットを抽出することにより、ＩＥＥＥ規格７
５４の倍精度浮動小数点数を取り出しても、０を表す表
現となっている。

【０２００】また、乗算結果がオーバーフローするか、
または、入力Ａか入力Ｂが∞の場合で、かつ、入力Ａ，
Ｂのどちらも０でない場合には、選択制御信号ＳＥ１が
“０１”、選択制御信号ＳＥ２が“１”になるので、最
終乗算結果Ｍ２の指数部は、２０４７となり、内部フォ
ーマットの∞になる。なお、最終乗算結果Ｍ２の仮数部
も、マルチプレクサ３１４によって０になるので、後述
するように、内部フォーマットの６４ビット仮数部から
上位５２ビットを抽出してＩＥＥＥ規格７５４の倍精度
浮動小数点数を取り出しても、∞を表す表現となってい
る。

【０２０１】さらに、入力Ａと入力Ｂの一方が０、他方
が∞の場合には、選択制御信号ＳＥ１が“１１”、選択
制御信号ＳＥ２が“１”になるため、最終乗算結果Ｍ２
は、上述の∞を出力するときと同じ出力になる。この場
合は、結果を不定にするべきところで、ＩＥＥＥ規格７
５４で∞を表す表現となっている。しかし、この実施の
形態のようなシステムでは、∞と不定とを区別する必要
がないので、このまま出力すれば良い。

【０２０２】最後に、最終乗算結果Ｍ２は、マルチプレ
クサ３１５によって、入力Ａのバイパスデータとの間で
選択される一方の出力ＭＯとして出力される。ここで、
入力Ａのバイパス路は、前述のように、加減算命令を実
行する場合などのように、バイパスを行うために設けら
れている。

【０２０３】なお、前述の選択制御信号ＳＥ１は、フラ
グ信号ＦＬＡＧ１としても出力され、図２に示した破線
の経路を通じて制御回路４０に入力される。制御回路４
０は、このフラグ信号ＦＬＡＧ１による割り込みなどに
よって、乗算結果が０や∞になったことを検知して、そ
れに対応した適当な処理プログラムを実行することがで
きる。

【０２０４】以上のように、上に述べた乗算回路は、公
知の倍精度浮動小数点乗算回路に対してほぼ必要な精度
を満足するビット数だけを拡張した構成をとるので、回
路規模の増加を最小限に抑えることができ、かつ必要な
精度の計算を高速に実施することができる。

【０２０５】次に、図５を参照しながら加減算回路２３
の構成と動作について説明する。この実施の形態で使用
される加減算回路２３は、図５のブロック図に示すよう
に、加減算コア回路４００と、オール１判定回路４０
１、４０２と、オアゲート４１１、４１２と、マルチプ
レクサ４１３、４１４、４１５とからなる。

【０２０６】加減算コア回路４００は、７６ビットの内
部フォーマットで表された入力Ａと、入力Ｂの浮動小数
点データどうしの加減算を行う。オール１判定回路４０
１、４０２は、７６ビットの内部フォーマットで表され
た入力Ａおよび入力Ｂの１１ビットの指数部を、それぞ
れ入力として受けて、その値が全て１のときだけ、出力
を“１”にする。

【０２０７】オアゲート４１１は、加減算コア回路４０
０のオーバーフロー出力ｏｆと、オール１判定回路４０
１、４０２の出力の論理和をとる。オアゲート４１２
は、加減算コア回路４００のアンダーフロー出力ｕｆ
と、オアゲート４１１の出力との論理和をとる。

【０２０８】マルチプレクサ４１３は、加減算コア回路
４００のアンダーフロー出力ｕｆと、オアゲート４１１
の出力との２ビットを、選択制御信号ＳＥ３として受け
て、オール０と、オール１と、加減算コア回路４００の
加減算出力Ｄ１のうちの指数部データとの３通りの１１
ビットの指数部データのうちの１つを選び出す。

【０２０９】マルチプレクサ４１４は、オアゲート４１
２の出力を選択制御信号ＳＥ４として受けて、オール０
と、加減算コア回路４００の加減算出力Ｄ１のうちの仮
数部データとの２通りの６４ビットの仮数部のうちの１
つを選び出す。

【０２１０】また、マルチプレクサ４１５は、加減算回
路２３の出力ＤＯとする７６ビットの内部フォーマット
で表現された浮動小数点データを、２通りのデータから
選択する回路である。選択される２通りのデータの一方
は、加減算回路２３をバイパスするときの入力Ａであ
る。他方は、加減算コア回路４００の加減算出力Ｄ１の
うちの符号部と、マルチプレクサ４１３で選択された指
数部と、マルチプレクサ４１４で選択された仮数部から
なる７６ビットの内部フォーマットで表現された最終加
減算結果Ｄ２である。

【０２１１】マルチプレクサ４１５は、制御回路４０か
ら入力する選択制御信号によって、出力ＤＯとして、最
終加減算結果Ｄ２を出力するか、バイパス入力データＡ
を出力するかを選択する。

【０２１２】次に、以上のような構成の加減算回路２３
の動作について、説明する。まず、内部フォーマットで
表された２つの入力Ａと入力Ｂとは、加減算コア回路４
００によって加減算が行われ、内部フォーマットの加減
算結果Ｄ１が、加減算コア回路４００から出力される。

【０２１３】この際、加減算コア回路４００において
は、２入力Ａ，Ｂの仮数部どうしの加減算結果は、丸め
られて、加減算結果Ｄ１の仮数部が得られる。この丸め
により、６５ビットの演算精度が得られる。また、加減
算コア回路４００から出力される内部フォーマットの加
減算結果Ｄ１の指数部と仮数部とは、加減算コア回路４
００の出力の指数部ｅフィールドが、１〜２０４６の範
囲にある場合だけに対して正しい結果となっていれば良
い。

【０２１４】ここで、図３に示したように、内部フォー
マットは、倍精度浮動小数点データの仮数部のビット幅
を拡張しただけなので、このような加減算コア回路４０
０は、従来公知の倍精度浮動小数点データに対する加減
算回路を用いて、その仮数部のビット幅を単純に拡張す
るだけで構成できる。したがって、この実施の形態にお
ける加減算コア回路４００の内部構成の詳細は省略す
る。

【０２１５】ここで、加減算回路２３は、乗算回路２２
とは異なり、入力の一方が０の場合でも、入力の他方が
適当な範囲の値を持っていれば、出力は内部フォーマッ
トで表せる範囲の値となるため、乗算回路２２のよう
に、入力が０の場合に対応した例外的な処理は設けな
い。

【０２１６】また、加減算コア回路４００では、０どう
しの加算や、（１×２⁺²）−（１×２⁺²）の計算など、
計算結果が内部表現で１以上の指数部ｅの値で表せない
ほど小さくなるときには、アンダーフローしたとみなし
てアンダーフロー出力ｕｆから“１”が出力される。

【０２１７】さらに、（１．１×２⁺¹⁰²³）どうしの加
算のように、入力Ａと入力Ｂとは、内部フォーマットで
表されるにも拘わらず、指数部が１１ビットの範囲を超
えてしまうために、出力が内部フォーマットで表せない
ほど大きくなる（オーバーフローする）場合には、オー
バーフロー出力ｏｆから“１”が出力される。

【０２１８】また、入力Ａの指数部は、オール１判定回
路４０１に入力され、入力Ｂの指数部は、オール１判定
回路４０２に入力されているため、それぞれの判定回路
４０１、４０２からは、入力Ａ、入力Ｂが、∞であると
きに“１”が出力される。

【０２１９】次に、加減算コア回路４００から出力され
た加減算結果Ｄ１から、最終加減算結果Ｄ２を生成する
方法について説明する。

【０２２０】まず、最終加減算結果Ｄ２の符号部には、
加減算結果Ｄ１の符号部がそのまま出力される。

【０２２１】次に、最終加減算結果Ｄ２の指数部は、マ
ルチプレクサ４１３により選択される。このマルチプレ
クサ４１３の選択制御信号ＳＥ３を生成するオアゲート
４１１には、加減算コア回路４００のオーバーフロー出
力ｏｆと、オール１判定回路４０１、４０２の判定結果
とが入力されているため、加減算がオーバーフローした
場合、あるいは入力Ａか入力Ｂが∞の場合に、オアゲー
ト４１１の出力が“１”になる。

【０２２２】オアゲート４１１の出力は、加減算コア回
路４００のアンダーフロー出力ｕｆとともに２ビットの
制御信号ＳＥ３とされ、マルチプレクサ４１３を制御す
る。マルチプレクサ４１３は、２ビットの選択制御信号
ＳＥ３が“００”のときは、加減算結果Ｄ１の指数部を
出力し、“１０”のときには１１ビットの０（オール
０）を出力し、また、“０１”あるいは“１１”のとき
には１１ビットの１（オール１）を出力する。

【０２２３】さらに、最終加減算結果Ｄ２の仮数部は、
マルチプレクサ４１４から出力される。このマルチプレ
クサ４１４の選択制御信号ＳＥ４を出力するオアゲート
４１２は、加減算コア回路４００のアンダーフロー出力
ｕｆと、オアゲート４１１の出力との論理和をとるの
で、加減算結果Ｄ１がオーバーフローした場合や、アン
ダーフローした場合、または、入力Ａ、Ｂのうち∞のも
のが１つでもある場合に、その出力である選択制御信号
ＳＥ４が“１”になる。

【０２２４】そして、選択制御信号ＳＥ４が、“１”な
ら６４ビットの０（オール０）が、“０”なら加減算結
果Ｄ１の仮数部が、それぞれマルチプレクサ４１４から
出力される。

【０２２５】以上の結果、加減算結果Ｄ１が、オーバー
フローもアンダーフローもせず、また、入力Ａも入力Ｂ
も、∞でない場合には、選択制御信号ＳＥ３は“０
０”、制選択御信号ＳＥ４は“０”となるため、最終加
減算結果Ｄ２としては、加減算結果Ｄ１が、そのまま出
力される。

【０２２６】また、加減算結果Ｄ１がアンダーフローす
る場合には、選択制御信号ＳＥ３が“１０”になるの
で、最終加減算結果Ｄ２の指数部は、オール０になっ
て、内部フォーマットの０になる。なお、このとき、選
択制御信号ＳＥ４は“１”になるので、最終加減算結果
Ｄ２の仮数部もオール０になり、後述するように、内部
フォーマットの６４ビット仮数部から、その上位５２ビ
ットを抽出して、ＩＥＥＥ規格７５４表現の倍精度浮動
小数点数を取り出しても、０を表す表現となっている。

【０２２７】さらに、加減算結果Ｄ１が、オーバーフロ
ーするか、または、入力Ａか入力Ｂのうちの一方だけ
が、∞の場合には、選択制御信号ＳＥ３が“０１”にな
るので、最終加減算結果Ｄ２の指数部は２０４７にな
り、内部フォーマットの∞になる。なお、このとき、選
択制御信号ＳＥ４は“１”となって、最終加減算結果Ｄ
２の仮数部も０になり、後述するように、内部フォーマ
ットの６４ビット仮数部から、その上位５２ビットを抽
出して倍精度浮動小数点数を取り出しても、ＩＥＥＥ規
格７５４で∞を表す表現となっている。

【０２２８】また、∞−∞の計算を実施するときは、選
択制御信号ＳＥ３の値が“０１”または“１１”とな
る。まず、両入力Ａ，Ｂの仮数部が等しくなければ、加
減算コア回路４００のアンダーフロー出力は０であるの
で、上記と同様、選択制御信号ＳＥ３は“０１”にな
る。

【０２２９】次に、∞−∞の計算において、両入力Ａ，
Ｂの仮数部が等しければ、加減算コア回路４００の内部
での仮数部どうしの減算結果が丁度０になるため、アン
ダーフロー出力が１になり、この結果、選択制御信号Ｓ
Ｅ３は“１１”になる。この場合でも、マルチプレクサ
４１３からは、最終加減算結果Ｄ２の指数部として１１
ビットの１（オール１）が出力されるので、加減算結果
Ｄ１がオーバーフローする場合と同じく、最終加減算結
果Ｄ２は、仮数部が０であるため、ＩＥＥＥ７５４規格
で∞を表す数字になっている。この場合も、本来は結果
を不定とすべきところであるが、この実施の形態のよう
なシステムでは、∞と不定とを区別する必要がないの
で、このまま出力すれば良い。

【０２３０】最後に、最終加減算結果Ｄ２は、マルチプ
レクサ４１５によって、入力Ａのバイパスデータとの間
で選択される一方の出力ＤＯとして出力される。ここ
で、入力Ａのバイパス路は、前述のように、乗算命令を
実行する場合などのように、バイパスを行うために設け
られている。

【０２３１】また、２ビットの選択制御信号ＳＥ３は、
フラグ信号ＦＬＡＧ２としても出力され、図２に示した
破線の経路を通じて制御回路４０に入力される。制御回
路４０は、このフラグ信号ＦＬＡＧ２によって、割り込
みなどにより、加減算結果が０や∞になったことを検知
し、それに対応した適当な処理プログラムを実行するこ
とができる。

【０２３２】以上のように、上に述べた加減算回路２３
は、公知の倍精度浮動小数点加減算回路に対してほぼ必
要な精度を満足するビット数だけを拡張した構成をとる
ので、回路規模の増加を最小限に抑えることができ、か
つ必要な精度の計算を高速に実施することができる。

【０２３３】次に、入力データ変換回路１１、出力デー
タ変換回路１２について説明する。これらの変換回路で
は、図３（Ｂ）に示した内部フォーマットと、図３
（Ａ）に示した倍精度浮動小数点のフォーマットとの変
換をする。まず、倍精度浮動小数点フォーマットで表さ
れた数を、内部フォーマットに変換するための入力デー
タ変換回路１１は、以下の（ａ）、（ｂ）のようにし
て、フォーマット変換を行う。

【０２３４】（ａ）倍精度浮動小数点フォーマットの符
号部と指数部は、そのまま内部フォーマットの符号部と
指数部として出力する。

【０２３５】（ｂ）内部フォーマットの６４ビットの仮
数部の上位５２ビットに、倍精度フォーマットの５２ビ
ットの仮数部を出力し、また、内部フォーマットの６４
ビットの仮数部の下位１２ビットに、全て０データを出
力する。

【０２３６】また、出力データ変換回路１２は、以下の
（ｃ）、（ｄ）のようにして、フォーマット変換を行
う。

【０２３７】（ｃ）内部フォーマットの符号部と指数部
とは、そのまま倍精度フォーマットの符号部と指数部に
出力する。

【０２３８】（ｄ）内部フォーマットの６４ビットの仮
数部は、その上位から５２ビットを取り出して、倍精度
フォーマットの仮数部に出力する。

【０２３９】このように、前記（ｄ）のように、出力デ
ータ変換回路１２では、内部フォーマットの仮数部の５
３ビット目を、丸めることなしに出力するため、出力デ
ータｇｒｓ自体の精度は、丸めがある場合は５３ビット
であるのに対し、この場合は５２ビットになるが、ｇｒ
ｓを基にして（２）式によって計算されるフォック行列
要素Ｆｒｓの精度は、５２ビットで十分であると考えら
れる。

【０２４０】以上説明したように、この実施の形態で
は、倍精度浮動小数点よりも高精度の専用プロセッサ２
での内部フォーマットとして、図３に示したような、倍
精度浮動小数点データとは、仮数部のビット幅が異な
り、かつ、その仮数部のビット幅が倍精度浮動小数点の
仮数部よりも大きくしたフォーマットを採用したので、
簡単な倍精度浮動小数点数との間の変換回路を設けるだ
けで、専用プロセッサ２による高精度な浮動小数点演算
を実現できる。

【０２４１】なお、上記の実施の形態では、乗算コア回
路３００、加減算コア回路４００では、丸めが行われる
ため、６５ビットの演算精度が確保されていたが、仮数
部どうしの乗算結果、あるいは仮数部どうしの加減算結
果に対して、丸めを行わず、単純に下位のビットを切り
捨てて、結果の仮数部を構成しても良い。

【０２４２】このように構成した場合、演算精度は丸め
を行う場合より１ビット少ない６４ビットになるが、誤
差関数に必要な演算の精度である６２ビットは満足す
る。また、このような構成とすることにより、丸め回路
が不要になるため、回路規模を小さくできるとともに、
計算を速くすることができる。

【０２４３】また、図３に示した内部フォーマットの例
では、実数ｖを、前述の（４８）式のように表したとき
のｘｘｘ．．．の部分を仮数部としていたが、図６に示
すように、（４８）式の１ｘｘｘ．．．の部分を仮数部
としても良い。

【０２４４】このことによって、乗算コア回路３００、
加減算コア回路４００で丸めを行わない場合には、演算
精度は、上述の場合よりもさらに１ビット少ない６３ビ
ットになるが、誤差関数に必要な演算の精度６２ビット
は満足する。また、倍精度浮動小数点に対する乗算を行
う回路では、仮数部の最上位に１を付加することが必要
であったが、この構成にすることにより、乗算コア回路
３００では仮数部をそのまま乗算するようにすれば良
く、回路が簡単になる。

【０２４５】このようにする場合には、専用プロセッサ
２の入力データ変換回路１１では、（ｅ）倍精度の浮動
小数点データの符号部を、内部フォーマットの浮動小数
点データの符号部とし、（ｆ）倍精度の浮動小数点デー
タの指数部を、内部フォーマットの浮動小数点データの
指数部とし、（ｇ）内部フォーマットの浮動小数点デー
タの仮数部のうち、その最上位１ビットは１とし、最上
位よりも下位の５２ビットは倍精度の浮動小数点データ
の仮数部とし、さらにそれより下位のビットは０データ
とすることにより、倍精度の浮動小数点データを、専用
プロセッサ２の内部のフォーマットの浮動小数点データ
に変換する。

【０２４６】したがって、この例の場合には、内部フォ
ーマットの浮動小数点データの仮数部には、最上位に１
が含まれているため、乗算を行う場合に、仮数部の最上
位に１を付加することが不要となり、乗算コア回路３０
０では仮数部をそのまま乗算するようにすれば良くなっ
て、回路が簡単になるものである。

【０２４７】そして、この例の場合、この内部フォーマ
ットの浮動小数点データを、倍精度の浮動小数点データ
に変換する出力データ変換回路１２では、（ｈ）内部フ
ォーマットの浮動小数点データの符号部を、倍精度の浮
動小数点データの符号部とし、（ｉ）内部フォーマット
の浮動小数点データの指数部を、倍精度の浮動小数点デ
ータの指数部とし、（ｊ）内部フォーマットの浮動小数
点データの仮数部の上位２ビット目からの５２ビット
を、倍精度の浮動小数点データの５２ビットの仮数部と
することにより、専用プロセッサ２の内部フォーマット
の浮動小数点データを、倍精度の浮動小数点データに変
換する。

【０２４８】なお、上述の実施の形態の説明では、プロ
セッサエレメントとして、専用プロセッサを用意して、
倍精度浮動小数点と内部フォーマットとの間の変換や、
内部フォーマットでの浮動小数点演算をハードウエアで
実施する場合について述べたが、従来の倍精度浮動小数
点演算機能が用意されているプロセッサエレメントを使
用して、ソフトウエアでフォーマット間の変換や、内部
フォーマットでの計算を実施することもできる。

【０２４９】この場合は、専用プロセッサを用意する場
合よりも変換と演算の速度は低下するが、４倍精度を使
用する場合よりは、変換などが簡単にできるために高速
であり、この発明は、このような場合にも有効である。

【０２５０】また、上記説明では分子軌道計算を例にと
ったが、この発明は分子軌道計算以外の計算を行う、ホ
ストプロセッサと、複数個のプロセッサエレメントとで
浮動小数点による計算を分担するタイプの並列計算装置
のいずれにも適用することができることは言うまでもな
い。

【０２５１】特に、専用プロセッサが複数個あるような
場合には、一般に、演算回数が多い計算が専用プロセッ
サに割り当てられるため、専用プロセッサでの計算も高
い精度が必要となる。したがって、このような並列計算
装置に対しても、この発明は有効である。

【０２５２】

【発明の効果】以上説明したように、この発明によれ
ば、オーバースペックになるようなハードウエア規模と
する必要がなく、また、計算速度も高速を保ちながら、
高精度の並列計算ができる。特に、フォーマット変換に
必要な回路規模を小さく抑えることができる。

【図面の簡単な説明】

【図１】この発明による並列計算装置の実施の形態を示
すブロック図である。

【図２】実施の形態のプロセッサエレメントの内部構成
を示すブロック図である。

【図３】第１の形式の浮動小数点データのフォーマット
の例と、実施の形態で使用される第２の形式の浮動小数
点データフォーマットの例を示す図である。

【図４】実施の形態のプロセッサエレメントの積和演算
回路内の乗算回路の内部構成の例を示すブロック図であ
る。

【図５】実施の形態のプロセッサエレメントの積和演算
回路内の加減算回路の内部構成の例を示すブロック図で
ある。

【図６】この発明の別の実施の形態で使用する第２の形
式の浮動小数点データフォーマットを示す図である。

【図７】誤差関数の計算において、その経路で発生する
丸め誤差を説明するための図である。

【符号の説明】

１ホストプロセッサ２専用プロセッサ３ボード４バス１０バスインタフェース回路１１入力データ変換回路１２出力データ変換回路２０積和演算回路２１レジスタ２２乗算回路２３加減算回路３０メモリ４０制御回路４１プログラムメモリ１００〜１０２内部バス１０３メモリデータバス１０４メモリアドレスバス２００入出力端子３００乗算コア回路３０１、３０２オール０判定回路３０３、３０４オール１判定回路３１０〜３１２オアゲート３１３〜３１５マルチプレクサ４００加減算コア回路４０１，４０２オール１判定回路４１１，４１２オアゲート４１３〜４１５マルチプレクサ

フロントページの続き (72)発明者山田想神奈川県足柄上郡中井町境430 グリーンテクなかい富士ゼロックス株式会社内 (72)発明者宮川宣明神奈川県足柄上郡中井町境430 グリーンテクなかい富士ゼロックス株式会社内 (72)発明者網崎孝志鳥取県米子市旗ケ崎８−11−16 (72)発明者高島一埼玉県大宮市吉野町１−403 大正製薬株式会社内 (72)発明者北村一泰埼玉県大宮市吉野町１−403 大正製薬株式会社内Ｆターム(参考） 5B013 DD03 DD05 5B022 AA03 BA01 CA01 CA03 CA04 DA04 FA06 5B045 AA07 BB12 GG08 GG11

Claims

【特許請求の範囲】

【請求項１】ホストプロセッサと、このホストプロセッ
サとバスを介して接続される１または複数のプロセッサ
エレメントとからなり、前記ホストプロセッサと、前記
１または複数のプロセッサエレメントとが、特定の計算
プロセスに含まれる浮動小数点演算処理を分担して計算
する並列計算装置において、前記プロセッサエレメントは、前記ホストプロセッサとの間で、１ビットの符号部と、
ｍｅビットのビット幅の指数部と、ｍ０ビットのビット
幅の仮数部とからなる第１の形式の浮動小数点データを
入出力する浮動小数点入出力インタフェース部と、前記浮動小数点入出力インタフェース部より入力される
前記第１の形式の浮動小数点データを、１ビットの符号
部と、前記ｍｅビットのビット幅の指数部と、前記ｍ０
よりも大きいｍ１ビットのビット幅の仮数部とからなる
第２の形式の浮動小数点データに変換する入力データ変
換部と、前記入力データ変換部からの前記第２の形式の浮動小数
点データについて、浮動小数点演算処理を実行する浮動
小数点演算部と、前記浮動小数点演算部で演算が施された前記第２の形式
の浮動小数点データを前記第１の形式の浮動小数点デー
タに変換して、前記浮動小数点入出力インタフェース部
に供給する出力データ変換部と、を備えることを特徴とする並列計算装置。
【請求項２】請求項１に記載の並列計算装置において、前記入力データ変換部は、前記第１の形式の浮動小数点データの符号部を、前記第
２の形式の浮動小数点データの符号部とし、前記第１の形式の浮動小数点データの指数部を、前記第
２の形式の浮動小数点データの指数部とし、前記ｍ０ビットの前記第１の形式の浮動小数点データの
仮数部を、前記ｍ１ビットの前記第２の形式の浮動小数
点データの仮数部のうちの上位の前記ｍ０ビットとし、
前記第２の形式の浮動小数点データの仮数部の下位ｍ１
−ｍ０ビットを所定の数値とし、前記出力データ変換部は、前記第２の形式の浮動小数点データの符号部を、前記第
１の形式の浮動小数点データの符号部とし、前記第２の形式の浮動小数点データの指数部を、前記第
１の形式の浮動小数点データの指数部とし、前記第２の形式の浮動小数点データの仮数部の上位の前
記ｍ０ビットを、前記第１の形式の浮動小数点データの
仮数部としたことを特徴とする並列計算装置。
【請求項３】請求項１に記載の並列計算装置において、前記入力データ変換部は、前記第１の形式の浮動小数点データの符号部を、前記第
２の形式の浮動小数点データの符号部とし、前記第１の形式の浮動小数点データの指数部を、前記第
２の形式の浮動小数点データの指数部とし、前記ｍ１ビットの前記第２の形式の浮動小数点データの
仮数部のうち、その最上位１ビットは１とし、最上位よ
りも下位の前記ｍ０ビットは前記第１の形式の浮動小数
点データの仮数部とし、さらにそれより下位の前記ｍ１
−前記ｍ０−１ビットは所定の数値とし、前記出力データ変換部は、前記第２の形式の浮動小数点データの符号部を、前記第
１の形式の浮動小数点データの符号部とし、前記第２の形式の浮動小数点データの指数部を、前記第
１の形式の浮動小数点データの指数部とし、前記第２の形式の浮動小数点データの仮数部の上位２ビ
ット目からのｍ０ビットを、前記ｍ０ビットの第１の形
式の浮動小数点データの仮数部としたことを特徴とする
並列計算装置。
【請求項４】前記第２の形式の浮動小数点データにおい
ては、前記指数部が第１の所定の値ｅｍａｘのときに符
号付き無限大を表し、前記指数部が第２の所定の値ｅｍ
ｉｎのときに零を表し、前記浮動小数点演算部に含まれる浮動小数点乗算手段
は、オーバーフローを発生すると出力データの指数部を前記
値ｅｍａｘとし、アンダーフローを発生すると出力データの指数部を前記
値ｅｍｉｎとし、入力される前記第２の形式の２つの浮動小数点データの
うち、どちらか１つの指数部が前記値ｅｍａｘのときに
出力データの指数部を前記値ｅｍａｘとし、前記入力される前記第２の形式の２つの浮動小数点デー
タのうち双方とも指数部が前記値ｅｍａｘでなく、か
つ、どちらか１つの指数部が前記値ｅｍｉｎのときに出
力データの指数部を前記値ｅｍｉｎとし、前記浮動小数点演算部に含まれる浮動小数点加減算手段
は、オーバーフローを発生すると出力データの指数部を前記
値ｅｍａｘとし、アンダーフローを発生すると出力データの指数部を前記
値ｅｍｉｎとし、入力される前記第２の形式の２つの浮動小数点データの
うち、どちらか１つの指数部が前記値ｅｍａｘのときに
出力データの指数部を前記値ｅｍａｘとすることを特徴
とする請求項１〜３のいずれかに記載の並列計算装置。
【請求項５】前記浮動小数点演算部に含まれる浮動小数
点乗算手段は、その出力データの仮数部を求めるとき
に、切り捨てを実施し、前記浮動小数点演算部に含まれる浮動小数点加減算手段
は、その出力データの仮数部を求めるときに、切り捨て
を実施することを特徴とする請求項１〜４のいずれかに
記載の並列計算装置。
【請求項６】ホストプロセッサと、このホストプロセッ
サとバスを介して接続される１または複数のプロセッサ
エレメントとにより、特定の計算プロセスに含まれる浮
動小数点演算処理を分担して計算する並列計算方法にお
いて、前記ホストプロセッサは、１ビットの符号部と、ｍｅビットのビット幅の指数部
と、ｍ０ビットのビット幅の仮数部とからなる第１の形
式の浮動小数点データについて演算処理を行い、前記プロセッサエレメントは、前記第１の形式よりも高精度で、１ビットの符号部と、
前記ｍｅビットのビット幅の指数部と、前記ｍ０よりも
大きいｍ１ビットのビット幅の仮数部とからなる第２の
形式の浮動小数点データについて、浮動小数点演算処理
を実行するものであって、かつ、前記バスを通じて入力される前記第１の形式の浮動小数
点データ入力の符号部を前記第２の形式の浮動小数点デ
ータの符号部とし、前記第１の形式の浮動小数点データ
入力の指数部を前記第２の形式の浮動小数点データの指
数部とし、前記第１の形式の浮動小数点データ入力の仮
数部を、前記ｍ１ビットの前記第２の形式の浮動小数点
データの仮数部のうちの上位ｍ０ビットとすると共に、
前記第２の形式の浮動小数点データの仮数部の下位ｍ１
−ｍ０ビットを所定の数値として、前記第１の形式の浮
動小数点データ入力を、前記第２の形式の浮動小数点デ
ータに変換する入力データ変換工程と、前記入力データ変換工程で変換された前記第２の形式の
浮動小数点データについて、浮動小数点演算を実行し、
その演算結果としての前記第２の形式の浮動小数点デー
タを得る浮動小数点演算工程と、前記浮動小数点演算工程で得られる前記演算結果として
の前記第２の形式の浮動小数点データの符号部を前記第
１の形式の浮動小数点データの符号部とし、前記演算結
果としての前記第２の形式の浮動小数点データの指数部
を前記第１の形式の浮動小数点データの指数部とし、さ
らに前記演算結果としての前記第２の形式の浮動小数点
データの仮数部の上位ｍ０ビットを前記第１の形式の浮
動小数点データの仮数部として、前記演算結果としての
前記第２の形式の浮動小数点データを、前記第１の形式
の浮動小数点データ出力に変換して、前記バスに出力す
る出力データ変換工程と、を備えることを特徴とする並列計算方法。
【請求項７】ホストプロセッサと、このホストプロセッ
サとバスを介して接続される１または複数のプロセッサ
エレメントとにより、特定の計算プロセスに含まれる浮
動小数点演算処理を分担して計算する並列計算方法にお
いて、前記ホストプロセッサは、１ビットの符号部と、ｍｅビットのビット幅の指数部
と、ｍ０ビットのビット幅の仮数部とからなる第１の形
式の浮動小数点データについて演算処理を行い、前記プロセッサエレメントは、前記第１の形式よりも高精度で、１ビットの符号部と、
前記ｍｅビットのビット幅の指数部と、前記ｍ０よりも
大きいｍ１ビットのビット幅の仮数部とからなる第２の
形式の浮動小数点データについて、浮動小数点演算処理
を実行するものであって、かつ、前記バスを通じて入力される第１の形式の浮動小数点デ
ータ入力の符号部を前記第２の形式の浮動小数点データ
の符号部とし、前記第１の形式の浮動小数点データ入力
の指数部を前記第２の形式の浮動小数点データの指数部
とし、さらにｍ１ビットの第２の形式の浮動小数点デー
タの仮数部のうち、その最上位１ビットは１とし、最上
位よりも下位の前記ｍ０ビットは前記第１の形式の浮動
小数点データ入力の仮数部とし、さらにそれより下位の
前記ｍ１−前記ｍ０−１ビットは所定の数値として、前
記第１の形式の浮動小数点データ入力を、前記第２の形
式の浮動小数点データに変換する入力データ変換工程
と、前記入力データ変換工程で変換されて得られた前記第２
の形式の浮動小数点データについて、浮動小数点演算を
実行して、その演算結果としての前記第２の形式の浮動
小数点データを得る浮動小数点演算工程と、前記浮動小数点演算工程で得られる前記演算結果として
の前記第２の形式の浮動小数点データの符号部を前記第
１の形式の浮動小数点データの符号部とし、また前記演
算結果としての前記第２の形式の浮動小数点データの指
数部を前記第１の形式の浮動小数点データの指数部と
し、さらに前記演算結果としての前記第２の形式の浮動
小数点データの仮数部の上位２ビット目からのｍ０ビッ
トを、ｍ０ビットの前記第１の形式の浮動小数点データ
の仮数部として、前記演算結果としての前記第２の形式
の浮動小数点データを、前記第１の形式の浮動小数点デ
ータ出力に変換して、前記バスに出力する出力データ変
換工程と、を備えることを特徴とする並列計算方法。
【請求項８】前記計算プロセスは、分子軌道法に基づく
計算プロセスであることを特徴とする請求項１〜５のい
ずれかに記載の並列計算装置。
【請求項９】前記計算プロセスは、分子軌道法に基づく
計算プロセスであることを特徴とする請求項６または請
求項７に記載の並列計算方法。