JPH06208501A

JPH06208501A - 集積回路

Info

Publication number: JPH06208501A
Application number: JP3051143A
Authority: JP
Inventors: Shivaling S Mahant-Shetti; エス．マハント−シェッティシバリング; J Smith Derek; ジェイ．スミスデレック; I Pawate Basavaraj; アイ．パリテバサバラジ; George R Doddington; アール．ドディントンジョージ; L Bean Warren; エル．ビーンウォレン; Mark G Harward; ジー．ハーワードマーク; J Aton Thomas; ジェイ．アトントーマス
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1990-03-16
Filing date: 1991-03-15
Publication date: 1994-07-26
Also published as: DE69132495D1; EP0446721B1; EP0446721A3; EP0446721A2; US5751987A; CN1027103C; KR100227988B1; CN1056356A; DE69132495T2

Abstract

(57)【要約】（修正有）【目的】集積回路の数を増すだけで、大量の並列処理を
可能とする。【構成】データバス端子に接続されたデータメモリ２０
２、データバス端子に接続された同報通信メモリ２０
４、並びにデータメモリ２０２及び同報通信メモリ２０
４に接続されたデータ経路制御回路を備える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は一般的に分散処理に関す
るものであり、更に詳細には集積化されたメモリおよび
論理回路と、そのような集積化されたメモリおよび論理
回路のためのシステムに関するものである。

【０００２】

【従来の技術】典型的なフォンノイマン型のコンピュー
タシステムは１個の中央処理装置（ＣＰＵ）と複数個の
メモリチップを含んでいる。並列処理によって処理能力
を高めるために複数個の処理装置を付加することは困難
な仕事であり、他方単一の処理装置にメモリを付加する
ことは簡単である。これは、処理装置がシステムバスに
対して頻繁なアクセスを必要とし、１つのシステム中に
複数個の処理装置が存在する場合にはバスへのアクセス
を調整することが必要となるためである。メモリから各
処理装置への入出力（Ｉ／Ｏ）バスに適切な帯域幅を与
えることができないために、使用可能なＣＰＵサイクル
のすべてを効率的に使用することができない。従って、
現在の並列処理システムはバスあるいはＩ／Ｏで制限さ
れていると言われ、システムのスループットを高めるた
めに、高価なＣＰＵとメモリ間の帯域幅と高価な付加的
処理装置を必要とする。専用の１つのメモリを持つ単一
の処理装置システムと、データの各ビットについて計算
用ハードウエアを備えたシストリック方式との間で、計
算とメモリサイズとの比は連続的に変化する。設計シス
テムは、１秒間に百万動作単位（ＭＩＰＳ）で測られる
巨大な計算能力を有しているかもしれないが、処理装置
におけるデータ待ちで失われるサイクルのためにその潜
在的なＭＩＰＳのすべてが使用可能なわけではない。シ
ステム性能はそのシステムの全体的な帯域幅によって支
配される。システム帯域幅はバスの数とトグル周波数と
の積によって定義される。そして、システム性能コスト
関数は消費される電力であり、次の式で表される。

【０００３】

【数１】コスト≒帯域幅×容量×（電圧スイング）² 与えられたシステムＭＩＰＳとシステム帯域幅とに対し
て、このコスト関数はバス容量および／またはバス信号
スイングを減らすことによって最小化することができ
る。システム帯域幅を改善するための伝統的な方法は、
ゲート速度を高め、チップの複雑度を高め、ピン数を増
やすことなどである。これらの方法は、より高価な集積
回路（ＩＣ）製造技術および／または実装コストの増大
により、電気的なコスト関数の点でもまた資金の点で
も、より高いコストをかけて徐々に成功を収めてきた。

【０００４】並列処理の分野の研究者は、汎用的な並列
ハードウエアおよびソフトウエアに固有な困難を克服す
ることに取り組んでいる。一般に、大量並列処理マシン
の利用できる非常に多くの処理要素を、効果的に利用で
きる同程度の大きさのブロックに分割することが有望で
あると思われるようになってきている。市販されている
システムの最近の傾向は、セグメント化された問題を容
易に解くように設計された用途別の専用システムに向い
ている。コンピュータシステムの大きさが増大してくる
と計算能力とメモリサイズとの不一致が現れてくる。デ
ジタル信号処理のようないくつかのコンピュータタスク
ではシステムの大きさに比例した計算サイクルを要求さ
れ、メモリと中央処理装置との間のバスの交通量が処理
速度を制限する。計算能力をメモリへ分散させる解決法
は数年前から知られていたが、非イノマン型のコンピュ
ータアーキテクチャが含まれているためほとんど無視さ
れてきた。オックスフォードコンピュータ（Ｏｘｆｏｒ
ｄＣｏｍｐｕｔｅｒｓ）によって開発されたこのスマ
ートメモリの最近のモデルについては、ＶＬＳＩシステ
ム設計（ＶＬＳＩＳｙｓｔｅｍＤｅｓｉｇｎ）誌の１
９８８年１２月号の頁１８−３２に、クッシュマン（Ｃ
ｕｓｈｍａｎ）によって発表された“大量並列方式によ
る行列計算（ＭａｔｒｉｘＣｒｕｎｃｈｉｎｇｗｉｔ
ｈＭａｓｓｉｖｅＰａｒａｌｌｅｌｉｓｍ）”と、
レーザフォーカスワールド（ＬａｓｅｒＦｏｃｕｓ
Ｗｏｒｌｄ）誌の１９８９年４月号の頁１６３−１６４
にモルトン（Ｍｏｒｔｏｎ）によって発表された“光コ
ンピュータと競合する知的なメモリチップ（Ｉｎｔｅｌ
ｌｉｇｅｎｔＭｅｍｏｒｙＣｈｉｐＣｏｍｐｅｔ
ｅｓｗｉｔｈＯｐｔｉｃａｌＣｏｍｐｕｔｉｎ
ｇ）”に述べられている。しかし、このスマートメモリ
は、中央処理装置から個々のメモリチップへの書き込み
がシリアルのみであること、論理回路の複雑度に厳しい
制限があること、等の制約を有している。

【０００５】

【発明の概要】本発明は、すべてのチップに対して同報
通信されることのできる二次的メモリと内部計算論理回
路とを含むコンピュータメモリチップを供給するもので
あり、更にそのようなメモリを備えたシステムをも供給
するものである。このメモリチップは標準的な実装ピン
形式を有している。この構造の採用により、単にチップ
の数を増やすことによって、並列処理要素の数を拡張
し、大量の並列処理を実現することが容易になる。この
チップはまた、従来のＲＡＭとしても動作し得る。この
チップによって、基板レベルでのデータの移動の要求を
最小にして、従来のシステムの問題点を解決することが
できる。このチップは、記憶と計算とを結び付け、主Ｃ
ＰＵへ送られるデータ量を減らすことによってこのこと
を達成する。

【０００６】システムスループット増大の一次的な見積
は、“情報”データに対する生データの比によって与え
られる。例えば、行列乗算の場合には（後に詳細に説明
する）、２５６の生バイトから２バイトの情報が得られ
ると仮定する。従って、２５６バイトの生データの替わ
りに２バイトの情報だけがＣＰＵへ送られることからシ
ステムの改善は明かである。すなわち改善度は１２８で
ある。チップ中に含まれるデータ経路論理回路の量と、
システム中に含まれるチップ数とに依存して、ＭＩＰＳ
数とスループット改善度は上に述べた例の１２８よりも
大きくなり得る。このチップの設計は、チップの数を単
に増やすだけで分散並列処理能力を望みのレベルにまで
高めるように拡張することが容易なものとなっている。
メモリ商品の経済学では、製造ステップおよび実装のコ
ストを最小化しながら素子密度を最大化することが要求
される。作業負荷をＣＰＵからメモリへ移すことは、必
要とされるＣＰＵバスの帯域幅を大幅に低減する一方
で、メモリ製造技術を十分活用している。実施例の設計
では、処理要素の数がメモリチップの数によって定まる
ので、システム設計者が柔軟に処理能力対コストを設定
することができる。

【０００７】

【実施例】図面は分かりやすいように模式的に示してあ
る。第１ａ図は、システム１００に接続された第１の実
施例のメモリ１１０、１１１、１１２…１３９を示すブ
ロック図である。そのシステム１００は、中央処理装置
ＣＰＵ１０２、８ビットデータバス１０４、１１ビット
アドレスバス１０６、３０個のメモリチップ１１０、１
１１、１１２…１３９のための５ビットチップ選択デコ
ーダ１０８それとＩ／Ｏ１０９とを含む、メモリ１１
０、１１１、１１２…１３９は各々２Ｋ×８ビット又は
バイトのＳＲＡＭ部を有している。ＣＰＵ１０２はモト
ローラ社製の６８００やインテル社製の８０８０のよう
な簡単な処理装置でよく、メモリ１１０、１１１…１３
９の各々へ接続されたライトイネーブルピンとレディピ
ンを有している。合計６０Ｋ×８のメモリのための２Ｋ
×８のＳＲＡＭとして動作する各メモリ１１０、１１１
…１３９で汎用の処理を実行することもできるが、シス
テム１００は以下の節で述べるように、メモリ１１０、
１１１…１３９の構造によって、デジタル信号処理のよ
うな計算用途に特に向いている。実際、各メモリ１１
０、１１１、１１２…１３９は応用分野専用の論理回路
を含む埋め込みデータ経路であると共に、デュアルメモ
リ（データメモリと同報通信メモリ）である、（第１ｂ
図と第２図を参照のこと）。メモリチップに論理回路を
埋め込むことで、同一チップ上に低コストで帯域幅を確
保し、非常に高速のメモリアクセスを可能とするという
特長を発揮できる。更に、各チップ中に同報通信メモリ
を含むことによって、システムは大量並列分散計算のた
めに各チップのデータ経路処理要素を同時に使用するこ
とが可能になる。これらのメモリチップのピン出力は標
準的であり、ＳＲＡＭメモリのファミリと共通である。

【０００８】第１ｂ図のチップ配置図が示すように、各
メモリは３つの主要な回路ブロックを含んでいる： a) データＲＡＭまたはデータメモリ２０２と呼ばれる
２Ｋ×８のＳＲＡＭ、 b) アプリケーション論理回路およびデータ経路２０
６、 c) 同報通信ＲＡＭまたは同報通信メモリ２０４と呼ば
れる２５６×８のＳＲＡＭ。チップの平面配置はこれらの３つの部分を強く反映した
ものとなっている。上から下へ、データメモリ、アプリ
ケーション論理回路、同報通信メモリが見られ、データ
メモリと該論理回路との間、および該論理回路と同報通
信メモリとの間には明瞭な境界が見られる。データメモ
リ部は、すべてのアドレス、チップ選択論理回路、Ｖｃ
ｃパッドを含んでいる。同報通信メモリ部は、すべての
Ｉ／ＯパッドとＶｓｓパッドを含んでいる。この配慮さ
れた平面配置方法は、各種の大きさの特定顧客向けアプ
リケーション論理回路部に容易に組込むことができるよ
うに、チップ構成はプログラム可能である。この論理回
路は特注用に設計でき（ゲートアレイ、標準セル、
等）、あるいは特定のアプリケーション用に利用者が熔
断および非熔断（ａｎｔｉｆｕｓｅ）をプログラムする
ことで構成できる。この論理回路はまた、いくらか一般
的でもよく、あるいはハーバード（Ｈａｒｖａｒｄ）構
造のように、同一チップ上に命令解読を備えることで、
プログラム可能な論理回路とすることもできる。より高
密度の設計のためには、標準的な３２Ｋ×８のＳＲＡＭ
と同様なピン出力の構成を使用でき、そのときＣＰＵは
３２ビットアドレスを持つことができる。

【０００９】第１の実施例では、チップ内に含めること
のできる論理回路の部分用に外部信号ピンを利用するこ
ともできる。６０Ｋバイトメモリシステムとして、２Ｋ
×８のメモリを３０個備えた第１ａ図のシステムを取り
上げる。各チップのデータメモリは、フォンノイマンシ
ステムと同様にＣＰＵアドレス空間にマッピングされ
る。具体的には、ＣＰＵアドレスの０−２Ｋはチップ１
１０によって占められ、アドレスの２Ｋ−４Ｋはチップ
１１１によって占められ、以下同様である。しかし、各
チップの同報通信メモリの２５６バイトは同じＣＰＵア
ドレス空間を占めるようにマッピングされる。このよう
にすることによって、すべてのチップの同報通信メモリ
がＣＰＵの書き込み命令に対して同時に応答することが
できる。この目的のために６０Ｋ−６２ＫのＣＰＵアド
レス空間が使用されるとする。この領域の２５６バイト
のみが各チップ中の実際のメモリに対応している。第１
ｃ図がこのアドレスマッピングを示している。

【００１０】メモリシステムのチップ選択の従来の方法
が第１ａ図に示されており、ＣＰＵはアドレス上位５ビ
ットを供給し、それらはチップ選択のためデコードされ
る。チップ選択のこの第１の実施例の方法もまた、デー
タメモリへのアクセスのためにアドレス上位５ビットの
デコードを使用しているが、同報通信メモリへのアクセ
スのためには、以下に述べるように各チップ上のレジス
タを使用している。ＣＰＵアドレス空間中でのプログラ
マブル同報通信メモリの位置は各チップ上の初期化レジ
スタ（“ＣＢＳレジスタ”）によって設定される。ＣＢ
Ｓレジスタの初期化は、ＣＰＵからの同報通信に対する
応答のためにチップのシステムをグループ分けするため
に使用されることができる。初期化は任意の時点でＣＰ
Ｕによって実行することができ、簡便にシステムを再構
成することができる。初期化は、２つの特別なアドレス
の列へ何度も書き込みを行うことによって、逐次的に個
々のチップ上で実行することができる。初期化として受
け取られるようなデータメモリへの書き込み動作のラン
ダムな発生の可能性を避けるために、この事象は順番に
複数回発生することが必要である。各チップ上の事象カ
ウンタがそのシーケンスを検出し、それによってデータ
バス上のデータがＣＢＳレジスタへ書き込まれ、そのＣ
ＳＢレジスタはそのチップに対するグループを定義す
る。事象カウンタへのクロックは、アドレス遷移検出器
（ＡＴＤ）によって供給され、それはアドレスが変化す
る毎に一度パルスを発生する。これが事象が２つの異な
るアドレス列である理由である。通常のアドレス上位５
ビットに基づくチップ選択動作は初期化の間のＣＢＳレ
ジスタへの書き込み時には１つのチップを選ぶが、同報
通信命令の検出時にはアクティブではないことを思い出
されたい。

【００１１】すべてのチップはアドレスバス上の活動度
を見て、命令の同報通信のために使用することを許す。
アドレス上位５ビットに基づくチップ選択動作は命令の
問い合わせに対してアクティブになることは要求されて
いないので、すべてのチップが命令問い合わせを同時に
行うことができる設計になっている。グループの識別は
同報通信命令中に含まれており、要求されたグループ中
のチップのみがコマンドに応答する。この命令フィール
ドは、第１の実施例の２Ｋ×８の構成に関しては１１ビ
ットである：最初の３ビットはコマンドを指定し、次の
５ビットの内の１ビットはＡＴＤ信号を生成し、最後の
３ビットはＣＢＳレジスタ中に記憶されている値との比
較によってそのチップが属するグループを定義する。例
えば、次の表はグループ指定をＲＲＲ付きでエンコード
したときの様子を示す：

【００１２】

【表１】命令アドレスビット ─────────────────────────────────── 同報通信書き込みモード開始０００００００１ＲＲＲ００００００００ＲＲＲ同報通信書き込みモード終了００１００００１ＲＲＲ００１０００００ＲＲＲローカル計算開始０１０００００１ＲＲＲ０１００００００ＲＲＲ自己試験モード開始０１１００００１ＲＲＲ０１１０００００ＲＲＲローカルな計算のインターラプト１００００００１ＲＲＲ１０００００００ＲＲＲチップの事象カウンタは、次の事象の順次発生を制御論
理回路が検出した場合にインクリメントされる：“アド
レスバス上のデータが命令と一致、中間のビットが期待
されたもの、及び要求されたグループがＣＢＳレジスタ
中に設定されたグループと一致”。事象カウンタは、統
計的に計算された数の逐次的事象が発生したときに満足
される。次に制御論理回路はそのグループ内のすべての
チップに対して要求された操作を開始する。

【００１３】例えば、システムが４つの同報通信グルー
プ：０００、００１、０１０、０１１に初期化されたと
仮定する。グループ００１に対して同報通信書き込みモ
ード開始を命令するためには、ＣＰＵ１０２はまず、任
意のチップの０００００００１００１アドレスを読
み出し、次に００００００００００１アドレスを読
み出し、ＡＴＤによって生成されるクロックパルスを供
給し、グループ００１中のすべてのチップ上の事象カウ
ンタを増分させる。そのような読出しを逐次行うこと
で、グループ００１内の各チップ中の事象カウンタが満
足され、同一チップ上の制御論理回路が、要求されるコ
マンド０００（同報通信書き込みモード開始）を実行す
る。この命令において、グループ００１中のすべてのチ
ップに対する同報通信メモリチップ選択（ＣＳＢ）がア
クティブになる。これに従ってＣＰＵ１０２は一連の通
常の書き込みサイクルを実行することができ、それによ
ってグループ００１中の各チップの同報通信メモリへの
同時書き込みが行われる。１つのチップが、同報通信書
き込みモードにある間、ＣＳＢとデータメモリチップの
選択（ＣＳＤ）の両方がアクティブ状態になることがあ
る。その場合同一チップ上の論理回路はこれをチップの
同報通信メモリへの書き込み命令と解釈する。ＣＰＵ１
０２は、同報通信書き込みを完了すると、このプロセス
を繰り返すが、今度の命令はアドレスバス上へ００１
００００１００１を送出することによる同報通信書き
込みモード終了である。これによってグループ００１内
のチップはＣＳＢを非アクティブとし、通常のモードへ
戻る。

【００１４】このチップ選択方式は次のような特長を有
している。 1. 特別なプリント基板配線が不要。 2. システム中の各チップの同報通信ＲＡＭのＣＰＵア
ドレス空間中の記憶場所がプログラム可能な“ソフト”
的。 3. 標準的なＳＲＡＭ実装以上の付加的なピンが不要。 4. ＣＰＵからシステム中のチップすべてへ、または任
意のチップへ命令を同報通信することが可能。命令はロ
ーカル計算や自己試験のようなチップ動作を開始させる
ためにも用いられる。別のチップ選択方式では次のように、与えられたＣＰＵ
アドレス空間において１つ、または複数個の同報通信メ
モリを選択することができるように、チップレベルと基
板レベルでのデコードが組み合わされる。第１ａ図の６
０Ｋバイトメモリシステムとして３０個の２Ｋ×８のメ
モリを備えたシステムについて考える。各チップのデー
タメモリは従来のシステムのように、ＣＰＵのアドレス
空間へマッピングされる。具体的には、ＣＰＵアドレス
の０−２Ｋはチップ１１０で占められ、アドレス２Ｋ−
４Ｋはチップ１１１によって、以下同様にして、アドレ
ス５８Ｋ−６０Ｋはチップ１３９によって占められる。
各データメモリの間隔の２Ｋは１１ビットのアドレスバ
ス１０６で定義される。

【００１５】この別のチップ選択方式では、通常、３２
個のチップの各々を選択するためのＣＳＤ信号をデコー
ドするために使用されるアドレス上位５ビットがメモリ
チップ１１０−１３９の識別のために利用され、各チッ
プは同一チップ上のＣＳＤとＣＳＢをデコードするため
に、ＣＰＵ全アドレス空間の使用率を見る。実装された
チップはこの目的のための５本の付加的ピンを有してい
る。アドレス上位５ビット信号の各々は基板レベルで反
転され、真値と相補値の両方が各メモリチップによって
供給される。次にシステム設計者はチップを各信号の真
値または相補値のいずれかへつなぐ。より簡便には、各
チップにインバータを含めることによって、真値または
相補値の接続を同一チップ上のレジスタによって行うこ
とができる。ＣＳＢを発生させ、チップの同報通信メモ
リをグループに分割できるようにするために、各チップ
上の特別なメモリアドレスレジスタがそのチップの同報
通信メモリチップ選択場所を記憶するために用いられ
る。これは既に述べたチップ選択方式のためのＣＳＢレ
ジスタと同様のものである。５上位アドレスビットの各
々の真値と相補値は、５個のインバータによって同一チ
ップ上で利用可能である。レジスタ中の値がＣＳＢを発
生させるのに真値または相補値が使用されるかどうかを
決定し、ＣＳＢはこの場合でもプログラム可能な対象で
ある。もしチップの同報通信メモリすべてが同じアドレ
ス空間へマッピングされたとしたら、すべてのチップ中
の同報通信メモリが同時に書き込み可能となる。ＣＰＵ
のアドレス空間６０Ｋから６０．２５Ｋはこの目的のた
めに使用される。この領域の２５６バイトは各チップ上
の実際の同報通信メモリ記憶場所に対応する。第１ｃ図
はこのマッピングを示す。

【００１６】第２図は第１の実施例メモリ１１０の模式
的ブロック図である；メモリ１１０はシリコンＣＭＯＳ
集積回路で構成され、２Ｋ×８の標準的な１６ＫのＳＲ
ＡＭと同じピン出力形式で実装されている。このことは
既存の１６Ｋメモリチップを、メモリ１１０のようなチ
ップで単に置き換えることによって、１６Ｋメモリチッ
プを使用するシステムをシステム１００と同様なシステ
ムに変換可能であることを意味する。メモリ１１０は、
２Ｋ×８のＳＲＡＭ２０２（データＲＡＭ）、２５６×
８のＳＲＡＭ２０４（同報通信ＲＡＭ）、論理回路２０
６（アプリケーション論理回路処理要素を備えたローカ
ルデータ経路を含む）、データＲＡＭとデータ経路との
間のローカル３２ビットバス２０８、同報通信ＲＡＭと
データ経路との間のローカル３２ビットバス２０９、デ
ータＲＡＭ２０２と同報通信ＲＡＭ２０４とをデータバ
ス１０４へつなぐ８ビット入出力ポート２１０、データ
メモリ用チップ選択（ＣＳＤ）入力２１４、書き込み許
可（ＷＥ）入力２１６、マルチプレクサ２１２から１１
ビットアドレスを受け取るローカルアドレスバス２１
８、メモリレディ出力または出力イネーブル（ＯＥ）入
力２２０（ＣＰＵの型に依存する）を含んでいる。標準
的なピン出力形式を維持するために、外部レディピンは
オプションである。但しそれは標準的なピン出力形式が
必要でない場合には利用できる。レディ機能は、メモリ
中でローカルな計算が始められた時に、データＲＡＭ中
の予約された“フラグ”を“準備できていない（ノット
レディ）”値に設定することで実行される。ＣＰＵ１０
２はメモリチップに対してレディ信号のポーリングを行
う時だけ、ローカルな計算に割り込むことが許されてい
る。ポーリングは通常の読み出しによって行われる。割
り込みは以下で述べる１つの命令である。

【００１７】同報通信ＲＡＭ２０４はメモリ１１０に対
するＣＳＤ信号が存在しなくても書き込まれ得る；すな
わちメモリ１１０、１１１…１３９の同報通信ＲＡＭは
すべて同じＣＰＵアドレス空間を占めているため、同時
に書き込みできる。同報通信ＲＡＭ２０４のアドレスは
１１ビットアドレスの上位８ビットを占めている。デー
タは、ＣＰＵ１０２によってアドレスバス１０６上にア
ドレスを与え、メモリ１１０に対するＣＳＤをアクティ
ブにし、ＷＥをアクティブにすることによって、データ
ＲＡＭ２０２中へ書き込み、またはそこから読み出され
る。このように、このモードでメモリ１１０は標準的な
２Ｋ×８のメモリのように動作する。読み出し／書き込
みの真偽値表は次のようになる：

【表２】

【００１８】第３図はメモリ１１０のより詳細な図であ
り、回路の一部を示している。メモリ１１０は１２８個
のセルが１２８列に配置された配列を含んでおり、メモ
リセルのピッチは１５×２０μｍとなっている。同報通
信メモリは本質的に、主配列の内１２８×１６の部分で
ある。この設計は１μｍＣＭＯＳ技術を用いて作製され
ている。理想的な構造ではローカルなデータ処理のスル
ープットを最大化するために１２８ビットの内部データ
経路を設けたものになろう。しかし、ＳＲＡＭセルピッ
チの中にランダム論理回路を設計することは極めて困難
である。従って、メモリ１１０ではチップ内部で全論理
レベルを発生するためにビットラインからセンス増幅器
（およびデータ経路論理回路）および強化されたセンス
増幅器へ４：１の多重化が行なわれている。こうして、
内部データ経路は１２８／４＝３２ビット幅となる；３
２個の処理要素２１９が示されているが、第３の実施例
に示されているように処理要素の数は違ってもよい。更
に第２図の入出力ポート２１０は単にデータバス１０４
から３２ビットの内部バスへの接続を意味するものであ
る。

【００１９】４：１のビットライン多重化を使用するこ
とに決定したことによって、アルゴリズムを組み込むた
めに必要なアプリケーション論理回路の設計にかなり大
きい柔軟性が得られる。例えば、隣接する列の間には乗
算器と加算器とを作り込むのに十分な空間が得られる。
データ経路論理回路信号は６０μｍピッチであり、これ
は非拡張のゲートアレイセルピッチと一致している。デ
ータメモリに関しては、４：１の多重化によって隣接す
るデータ（データ経路に関して）が４番目の列毎に現れ
るようになる。従って、データ経路信号は更に順序立っ
て組織化されており、任意の２進演算が“桁上げ”信号
等を容易に通過させることができる。

【００２０】メモリ１１０は、ＣＰＵ１０２による２Ｋ
×８のＳＲＡＭとしての利用の他に、論理回路２０６中
のデータ経路におけるローカルな計算を含む第２の動作
モードを持っており、そのモードではメモリ１１０はＣ
ＰＵ１０２に対して低速メモリにみえる。ローカルな計
算の間、レディ２２０出力は低レベルであり、ローカル
計算が終了するとレディ２２０は高レベルへ変わる；メ
モリ１１０、１１１…１３９からのレディ出力は論理和
が取られてＣＰＵ１０２へ与えられる。既に述べたよう
に、標準的な２Ｋ×８ＳＲＡＭのピン出力形式におい
てはＣＰＵへのローカルな計算の終了を教えるための外
部レディピンは用いていない。ＣＰＵは常にスレーブで
あるメモリに対してマスタとして働く。ＣＰＵはメモリ
をポーリングして、“レディフラグ”値を保有している
各メモリ中の予約された場所を読み出すことによって、
ローカル計算が終了したかどうかを決定する。こうし
て、ＣＰＵはＣＳＤを低レベルに設定してローカルな計
算へ割り込み、その後通常の読み出しのように読み出し
動作を実行する。もし計算が割り込みを受けると、制御
論理回路２０６はＣＰＵによる読み出しへ進む前にデー
タ経路の状態を保存しておき、ＣＰＵがＣＳＤを高レベ
ルに、ＷＥを低レベルに設定した時に再開する。

【００２１】ローカルな計算をベクトルに対する行列演
算の例によって説明する：要素Ｖｊ（１≦ｊ≦Ｎ）のベ
クトルＶに、要素Ｔｉｊ（１≦ｉ≦Ｍ、１≦ｊ≦Ｎ）の
行列を作用させて、要素Ｗｉ＝Σ_jＴｉｊＶｊのＭ個の
要素を含むベクトルＷを得る。要素ＴｉｊとＶｊは８ビ
ットで、結果の要素Ｗｉは１６ビットであると仮定す
る。結果の要素は１６ビット以上でもよいが、多くのデ
ジタル信号処理応用において合計は多くの負の項を含
む。行列Ｔｉｊは行ブロックに分割され、１つのブロッ
クがデータＲＡＭの１つへ書き込まれる；これにより行
列乗算を並列的に行うことができる。行列の大きさはチ
ップメモリの配列のサイズで決まるのではなく、並列計
算のために行列をブロックに区分化することで、複数メ
モリ１１０、１１１…を用いて非常に大きい問題をも解
くことが可能であることは明かであろう。

【００２２】最初に、ＣＰＵ１０２は、まずＣＳＤ信号
で特定のメモリ（例えばメモリ１１０）を選び、１１ビ
ットアドレスバス１０６上へアドレス（２Ｋ×８のＲＡ
Ｍ２０２中にある）を与え、８ビットデータバス１０４
上へ行列要素を与え、ＷＥを高レベルとすることによっ
て、連続的にメモリ１１０、１１１…のデータＲＡＭ２
０４中へ行列要素Ｔｉｊを書き込む。メモリ１１０に対
しての低レベルのＣＳＤと高レベルのＷＥの組み合せは
論理回路２０６によって解釈されて、マルチプレクサ２
１２にローカルバス２１８上へ与えるべきアドレスをア
ドレスバス１０６から（論理回路２０６からではなく）
選ばせ、データＲＡＭ２０２の行および列のデコーダを
アクティブにし、同報通信ＲＡＭ２０４の行および列の
デコーダを非アクティブにする。こうしてデータバス１
０４上の８ビット行列要素はデータＲＡＭ２０２のアド
レス指定された８ビットへ書き込まれる。このことは、
要求されたすべての行列要素がデータＲＡＭ２０２へ書
き込まれるまで繰り返される。更に、選ばれないメモリ
１１１、１１２…は高レベルＣＳＤを有するが、それら
の論理回路は事象カウンタを満たすアドレスの変化が発
生しないので、高レベルへのＷＥの移行を同報通信ＲＡ
Ｍへの書き込み命令とは解釈せず、従って、データＲＡ
Ｍへも同報通信ＲＡＭへも何も書き込まれない。ＣＰＵ
１０２がメモリ１１０のデータＲＡＭ２０２中へ行列要
素を書き込んでしまった後、ＣＰＵ１０２はメモリ１１
１のデータＲＡＭ中への行列要素の書き込みを行い、こ
のことを行列がメモリ１１０、１１１、１１２…のデー
タＲＡＭ中へロードされてしまうまで行う。

【００２３】第２に、ＣＰＵ１０２は、まず、各チップ
の事象カウンタを満足するように使用され、また同報通
信ＲＡＭへの書き込みサイクルのための同報通信メモリ
チップ選択（ＣＳＢ）をアクティブにするように同一チ
ップ上の論理回路に知らせるために使用される、２つの
アドレスを変化させることによって、メモリ１１０、１
１１…の同報通信ＲＡＭのすべてへベクトル成分Ｖｊと
ローカル計算命令とを同時に書き込む。この計算に関し
てはＣＳＢレジスタによるチップのグループ分けは行わ
れないことに注意すべきである。ＣＰＵ１０２は次にす
べての同報通信ＲＡＭ中へ同時に通常の書き込みを行
う。論理回路２０６はマルチプレクサ２１２に対し、ア
ドレスバス１０６からのアドレスを通過させ、データＲ
ＡＭ２０２用のデコーダを非アクティブにさせ、同報通
信ＲＡＭ２０４用のデコーダをアクティブさせて、ベク
トル成分とローカル計算命令とを同報通信ＲＡＭ２０４
中へ書き込ませる。アドレスを変化させる方法は、既に
述べたように同報通信メモリ書き込みを終了させるため
に使用される。

【００２４】第３に、ローカル計算の準備として、ＣＰ
Ｕは、まず命令情報を同報通信ＲＡＭ中へ記憶し、それ
を制御論理回路２０６が使用して、各メモリに割り当て
られた行列ブロックの大きさを決定し、それによって要
求される内部読み出し動作のためのアドレスループ回数
を設定する。このことは更に一般化できて、論理回路２
０６が従来のマイクロプロセッサの制御論理回路と全く
同じであることが分かるであろう。すなわち、アプリケ
ーション専用のデータ経路が設計でき、チップ面積と標
準的なピン出力形式に合致すべきという要求とによって
のみ制限される複雑な機能を実行できる。ＣＰＵ１０２
がＷＥを低レベルに設定した時には、すべてのチップ１
１０、１１１…に対してＣＳＤが高レベルであれば、各
メモリの論理回路２０６はローカルな計算手順を開始す
る。論理回路２０６はまず任意の計算命令を含む同報通
信ＲＡＭ２０４中の記憶場所に対するアドレスを生成
し、マルチプレクサ２１２をしてこのアドレスを通過さ
せるように設定し、レディフラグ（またはピン）をノッ
トレディに設定し、データＲＡＭ２０２用のデコーダを
非アクティブにさせ、同報通信ＲＡＭ２０４用のデコー
ダをアクティブにさせ、そのアドレスの内容を読み出
す。もしそのアドレスがローカル計算命令を保有してい
れば、各メモリの論理回路２０６は同時に以下のループ
に入る。

【００２５】（Ｉ）論理回路２０６はまずベクトルＶ
の４つの成分（Ｖ１、Ｖ２、Ｖ３、Ｖ４）を含む同報通
信ＲＡＭ中の行のアドレスを生成し、それによってそれ
らの成分が並列的に３２ビット内部バス２０９上に現れ
る。（II）論理回路２０６は次に、行列の１つの行の最初
の４要素、すなわちＴｋ１、Ｔｋ２、Ｔｋ３、Ｔｋ４を
含むデータＲＡＭ２０２中の行アドレスを生成し、それ
によってそれら行列要素が３２ビット内部バス２０８上
へ並列的に現れる。もちろんｋはメモリ１１０、１１１
…１３９毎に異なる。（III ）論理回路２０６は次にバス２０８上の各行列要
素に、バス２０９上の対応するベクトル成分を乗算する
（各ｊ（１≦ｊ≦４）に対して積ＴｋｊＶｊを作る）。（IV）論理回路２０６は上のステップ（III ）で得ら
れた積を加え合わせてΣ ₁≦_j≦₄ＴｋｊＶｊを得る。
この合計は成分Ｗｋに関する最初の部分和に等しくなっ
ている。ここでも、このことは各ｋについてすべてのメ
モリ１１０、１１１…１３９中で同時に起こっている。（Ｖ）行アドレスを変更せずに、同報通信ＲＡＭ２０
４に対する列アドレスを増分させ（すなわち、列の４：
１多重化を利用する）、同報通信ＲＡＭ２０４の次の内
部読み出しを実行し、バス２０９上にベクトルの次の４
成分（Ｖ５、Ｖ６、Ｖ７、Ｖ８）を得る。（VI）行アドレスを変更せずに、データＲＡＭ２０２の
列アドレスを増分させ（ここでも４：１のマルチプレク
サによって）、データＲＡＭ２０２の次の内部読出しを
実行し、バス２０８上へ行列のｋ番目の行の次の４個の
行列要素（Ｔｋ５、Ｔｋ６、Ｔｋ７、Ｔｋ８）を得る。（VII ）ステップ（III ）と（IV）を繰り返してΣ₅≦
_j≦₈ＴｋｊＶｊを得る。これを既に得られているΣ₁
≦_j≦₄ＴｋｊＶｊに加えてΣ₁≦_j≦₈ＴｋｊＶｊを
得る。（VIII）４：１マルチプレクサによる増分によってステ
ップ（Ｖ）と（VI）と（VII ）をもう２回繰り返すこと
により、累算された部分和はΣ₁≦_j≦₁₆ＴｋｊＶｊと
なる（IX）ベクトルＶの残りの成分と行列Ｔのｋ番目の行の
残りの要素に対応する同報通信ＲＡＭ２０４の行とデー
タＲＡＭ２０２の行についてステップ（Ｉ）から（IX）
を繰り返す。その度に得られた部分和をその前のステッ
プで得られた部分和に加えることを行って、最終的に成
分Ｗｋが得られる。論理回路２０６は次に内部書き込み
命令を発し、Ｗｋを、行列のｋ番目の要素を保持するデ
ータＲＡＭ２０２の行の未使用の列中へ記憶させる。こ
のことはメモリ１１０、１１１…１３９の各々で同時に
起こる。

【００２６】データＲＡＭ２０２が行列Ｔの行ｋからｋ
＋ｎのブロックを記憶してしまうと、次にデータＲＡＭ
２０２中の行列要素の残りのものと同報通信ＲＡＭ２０
４からの同じベクトル成分Ｖｊとでステップ（Ｉ）から
（IX）をｎ回繰り返して成分Ｗｋ＋１、Ｗｋ＋２…Ｗｋ
＋ｎを作り、記憶させる。例えば、もしＶが１００個の
成分を含んでいれば同報通信ＲＡＭ２０４の７行（合計
の１６行の内）がそれら成分を記憶するために必要とさ
れ、７番目の行は４／１６だけ使用されることになる。
同様に、データＲＡＭ２０２が同じように行列要素を記
憶すれば（ＲＡＭの７番目の行は４分の１しか使用され
ないものの、行列の各行に対してＲＡＭの７行を使用す
る）、行列の１８行が記憶でき（従ってｎ＝１７とな
り、Ｔは５４０×１００の大きさの行列でもかまわな
い）、７番目毎の行には対応するＷｋ＋ｊを記憶するの
に十分な空間があることになる。更に、データＲＡＭ２
０２にはレディフラグとその他の項目を保持できる未使
用の行が２つ残る。

【００２７】このループは、行列の行ブロックを記憶す
るために使用されるデータＲＡＭ２０２のすべての行が
処理された後に終了する。同時に、メモリ１１１、１１
２…も他の成分Ｗ１、Ｗ２…ＷM のすべてを計算し、記
憶する。次に論理回路２０６はレディフラグ（またはピ
ン２２０）を高レベルに設定し、ＣＰＵ２０２は、ＷＥ
を低レベルに保ちながらＣＳＤを低レベルにすることで
論理回路２０６がマルチプレクサ２１２をしてバス１０
６上のアドレスを通過させ、データＲＡＭ２０２用のデ
コーダをアクティブにさせるようにすることによって、
データＲＡＭ２０２から結果を読み出すことができる。
このローカル計算は、計算のための、ＣＰＵ１０２によ
る各行列要素の取り込みを行わないため、バス１０４と
１０６上のトラヒック混雑が回避される。実際、メモリ
１１０、１１１…によるローカル計算の間、ＣＰＵ１０
２は他のタスクに関わることができる。

【００２８】ローカル計算の第２の例もベクトルによる
行列乗算に関するものである。行列Ｔｉｊは２５２×２
５２である。ベクトルＶｊは２５２個の要素を含んでい
る従って、結果は２５２個の要素を持つベクトルＷｊで
ある。各々の要素が８ビット幅であると仮定する。２Ｋ
×８のデータＲＡＭは行列Ｔｉｊ全体を納めることがで
きないので、Ｔは各行に２５２個の要素を含む行８個か
らなる３２個のブロックに分割される。各ブロックは１
６，１２８ビットを占め、それは１２８×１２８ビット
のデータＲＡＭの１２６列に相当する。データＲＡＭの
残りの４バイトは結果を納めるために使用される。必要
とされるチップの数は３２である。

【００２９】問題は行列Ｔｉｊの３２ブロックを連続的
にデータＲＡＭ３２個すべての中へ普通のように（上記
の例のように）書き込むことから始まる。次にベクトル
Ｖｊがすべての同報通信ＲＡＭ中へ同時に書き込まれ
る。同報通信ＲＡＭは２５６バイト（１６行で１２８
列）であり、ベクトルＶｊは２５２バイト（１６行で２
５２列）を占めることを思い出してほしい。メモリ内部
では演算はすべて３２ビット幅で行われ、計算の制御は
この幅に計算を揃えることで非常に容易なものとなって
いる。このことはシステムに対する行列ブロック分割規
則を設けることで実現される。ここでの３２要素の例で
は、原理的な説明ということからこのステップを省略し
ている。論理回路２０６中に要求されるデータ経路回路
は、８ビットのブース（Ｂｏｏｔｈ）乗算器が４個と、
結果を加算する加算器を含むものである。別のデータ経
路構成では、８ビット乗算器が１個と加算器を含むもの
である。これは更にオペランドのためのレジスタと、４
組のオペランドから１個を選ぶためのマルチプレクサを
必要とするであろう。明らかに、これによって並列処理
要素（ＰＥ）の数が減り、データ経路のシリコンの面積
も減る。

【００３０】次にすべての３２チップ中でローカル計算
が開始され、それによってレディフラグがノットレディ
に設定される。この時点でＣＰＵは自由となり、他のタ
スクを実行することができる。計算の手順では、データ
ＲＡＭからの行列Ｔｉｊの最初の４要素（３２ビット）
と、同報通信ＲＡＭからのベクトルＶｊの最初の４要素
がデータ経路回路へ与えられる。乗算と加算が行われた
後、ＴｉｊとＶｊの対応する次の４要素がそれぞれデー
タＲＡＭと同報通信ＲＡＭから与えられ、このことが行
列Ｔｉｊの最初の行中の２５２要素すべてについて行わ
れる。そして、その行に対して１６ビットの結果が１個
だけ、使用可能なデータＲＡＭ空間中へ記憶される。こ
の手順はそのブロックの８行すべてに対して操作が行わ
れるまで繰り返される。これが終了すると、すべてのチ
ップでレディ信号が設定され、ＣＰＵは３２チップの各
々から８ビットの結果要素８個を読み出す。

【００３１】ここで、上に述べたシステム動作を分析し
てみる。メモリへのロードに関しては、ＣＰＵは、３２
個（実際は３１．５個）のデータＲＡＭすべての初期メ
モリロードのために２５２×８＝６３，５０４回の書き
込み操作の命令を出す必要がある。次にＣＰＵはすべて
の同報通信ＲＡＭへのベクトルの同時書き込みをほんの
２５２回の書き込み操作で迅速に行うことができる。各
要素の計算には複数回の内部読み出し操作が必要であ
る。２５２個の８ビット要素については、各メモリの３
２ビットデータ経路は８ビット乗算器が４個あるので、
同時に４要素を処理することができる。従って、データ
ＲＡＭと同報通信ＲＡＭの両方の２５２／４＝６３回の
読み出しが実行される。もし各計算がブース乗算器に関
する４読み出しサイクルとほぼ同じ時間を要するとすれ
ば、１行に対するローカルな読み出しおよび計算時間の
合計は６３×５＝３１５サイクルとなる。このループ
は、最後のベクトルの８個の結果要素を得るために、各
メモリ中で８回繰り返される。１６ビットの結果要素２
５２個をデータＲＡＭ中へ書き戻すために、各要素につ
いて２サイクルを要するために、付加的に５０４サイク
ルが必要となる。こうして、各メモリはローカル計算に
３０２４サイクルを要することになる。

【００３２】ＣＰＵは最初の３１個のチップに対して２
×８＝１６回の読み出し操作を行ない、３２番目のメモ
リに対して２×４＝８回の読み出しを行うため、１６ビ
ットの結果ベクトル要素を２５２個取り出すために合計
で５０４回の読み出し操作が必要になる。従って、もし
６３，５０４サイクルのメモリロード時間を含めるとす
ると、合計の動作時間は：

【数２】データＲＡＭ同報通信ローカル結果ロード書き込み計算読み出し６３，５０４＋２５２＋３０２４＋５０４＝６６，７８０サイクル

【００３３】いくつかの応用においてはメモリへのＩ／
Ｏは重要ではないので、その場合にはロードサイクルを
無視することができる。その時の合計サイクルは、ロー
カル計算と結果の取り出し時間だけで、３７８０サイク
ルだけになる。従来のシステム：メモリロードは一定で６３，７５６サ
イクルである。従来のシステムの内でも最も優れた場合
を想定して、計算および読み出しがＣＰＵの中でパイプ
ライン処理されており、読み出し中のデータミスを起こ
すサイクル損失がないとする。ＣＰＵは同じブース乗算
器／累算器回路を採用しているとし、操作当たりのクロ
ックサイクル数が上記の実施例のデータ経路の場合と同
じと仮定する。ＣＰＵは行列とベクトルの要素のために
２５２×２５２＋２５２回の基板レベルでの読み出しを
行わなければならず、付加的に６３，７５６サイクルが
必要である。読み出しと計算が完全なパイプライン方式
で行われることを仮定して、２５２×２５２（ｎ²）の
計算の各々について４サイクルが必要であり、従って合
計２５９，０１６サイクルが必要になる。従って、もし
メモリロードを含めるとすれば従来のシステムでは３１
７，７７２サイクルが、また含めないとしても２５４，
０１６サイクルが必要となる。

【００３４】このように、メモリロードを含めた場合、
特性改善度は４となる。もしメモリロードが与えられて
いると仮定すれば、本実施例システムは速度で６９倍高
速化できることが分かる。既に述べた電力コスト関数に
ついて考えると、本実施例システムでは生データをＣＰ
Ｕへ送る前に生データと情報の比を減らすことにより、
ＣＰＵ対メモリ基板レベルのＩ／Ｏの比を６３，７５６
／２５２≒２５３倍減らすことができる。もし基板レベ
ル容量とチップレベル容量の比に関する付加的な倍率を
考慮すれば、システム電力要求は大幅に改善されている
ことが明かであろう。

【００３５】ローカル計算の第３の例は、行列と行列の
乗算である。行列Ｔｉｊは２５２×２５２である。行列
Ｕｉｊもまた２５２×２５２の要素を有している。演算
操作はベクトルの乗算と全く同じである。ここでは簡単
のために行列Ｕｉｊの各列をベクトルＶｊで行ったやり
方で処理することにする。ここでも行列Ｔｉｊはブロッ
クに分割される；この場合にも最初の３１個のメモリは
８行を受け取り、３２番目のメモリは最後の４行を受け
取る。従って、行列Ｔｉｊのメモリロードにはやはり６
３，５０４サイクルを必要とする。行列Ｕｉｊは１つの
区分を同時にすべての同報通信ＲＡＭへ通信される。１
６行１２８列の同報通信ＲＡＭは行列Ｕｉｊの１つの列
を保有する（第１および第２の例におけるベクトルＶｊ
と同様）。こうして各列はＣＰＵから同報通信ＲＡＭへ
２５２回の書き込みサイクルを必要とすることになる。
従って、行列Ｕｉｊを同報通信ＲＡＭへロードするのに
合計で２５２×２５２＝６３，５０４サイクルが必要と
なる。これらの例では大量記憶装置からＲＡＭへは１語
（行列要素）当たり１サイクルが必要であると仮定され
ていることを指摘しておく。次にＣＰＵによってローカ
ル計算が開始される。データ経路へオペランドを供給す
るためには、ここでもデータＲＡＭと同報通信ＲＡＭの
両方について２５２／４＝６３サイクルの内部読み出し
が必要である。６３のオペランド供給の計算のために更
に４サイクルが加わり、個々のメモリにおける行列Ｔｉ
ｊの８行の各々について３１５サイクルとなる。従って
再び行列Ｕｉｊの１つの列のローカル計算に合計３０２
４サイクルが必要とされる。これが行列Ｕｉｊの２５２
個の列の各々について繰り返され、合計のローカル計算
時間は７６２，０４８サイクルとなる。３２個のメモリ
はすべてこの操作を並列的に実行することを注意してお
く。次にＣＰＵはメモリのポーリングを行ない、すべて
のチップ上でローカル計算が終了したことを確認する。
終了していれば、ＣＰＵはデータＲＡＭから１６ビット
の結果の行列要素を読み出し、これに２５２×２５２×
２＝１２７，００８の読み出しサイクルがかかる。従っ
て、第１の実施例システムはＴｉｊのメモリロードを含
めると１９２，０２４サイクルを必要とする。もしＴｉ
ｊのロードを無視すると１６ビットの２５２要素の結果
のベクトルを取り出すために１２８，５２０サイクルを
必要とする。従って、もしメモリロード時間の６３，５
０４サイクルを含めると、合計の動作時間は：

【００３６】

【数３】データＲＡＭ同報通信ローカル結果ロード書き込み計算読み出し６３，５０４＋６３，５０４＋１，２７０，００８＋１２７，００８＝１，５２４，０９６サイクル従来のシステムでは２つの行列ＴｉｊとＵｉｊのメモリ
ロードに２ｎ²＝１２７，００８サイクルを必要とす
る。メモリからＣＰＵへのデータ読み出しのために更に
別に２ｎ²＝１２７，００８サイクルを必要とする。こ
こでも計算とメモリ読み出し操作がパイプライン方式で
行われ、読み出し操作に時間が不要と仮定しており、計
算のために８×２５２×２５２×２５２＝１２８，０２
４，０６４サイクルが必要となる。すなわち従来のシス
テムでは１２８，１５１，０７２サイクルが必要であ
る。明かなようにこの行列を内部メモリに保有できるＣ
ＰＵはない。従って、ここでは従来のシステムに対して
は最も優れた場合を想定しており、計算された結果をメ
モリへ書き戻すことは考えていない。もちろん実施例の
システムは結果を記憶している。比較のために、行列Ｔ
ｉｊとＵｉｊのメモリロードを含めると、実施例システ
ムは９１倍の改善度を持っている。すべてのメモリロー
ドサイクルを含めるとこのシステムによって得られる改
善度は８４倍となる。

【００３７】ローカル計算の第４の例はベクトルへの疎
行列（ｓｐａｒｓｅｍａｔｒｉｘ）の演算である。各
チップのデータメモリは疎行列の要素で埋められる。行
列要素には６４ビットのワードが使用され、行列要素の
行タグおよび列タグには１６ビットのワードが使用され
ると仮定する。更に部分的な内積結果にも６４ビットの
ワードが使用されるとする。従って３つの３２ビットワ
ードがタグと行列要素を保有することになる。データ経
路２０６は、現在のワードが同報通信メモリ中に乗算す
べき相手のワードを有しているかを調べるための６４ビ
ット乗算器と累算器および論理回路を含んでいる。ここ
でも操作されるベクトルは同時にすべてのチップへ通信
され、制御論理回路２０６は第１の例と同様にデータメ
モリを通して一連の操作を実行させる。データメモリに
はＣＰＵ１０２によって任意の順序に疎行列のタグを付
けられたワードが埋められるが、同じ行列行からのワー
ドを同じチップのデータメモリへグループ分けすること
によってＣＰＵ１０２によって読まれるべき結果のデー
タ量は減る。

【００３８】行列要素は既に述べたようにサイクル処理
され、そのワードが乗算されるべきかについてタグが調
べられ、もしそうであればその結果をどこへ記憶すべき
かを調べられる。すべてのベクトルが同報通信メモリ中
に納まるとは限らず、疎でない行列乗算例の場合でのよ
うに、個々のピース毎に同報通信されるべき場合もある
ことを注意しておく。ベクトルの１ピースが同報通信さ
れる度に、各チップはどのワードが乗算すべきものかを
調べるために行列要素のすべてをサイクル処理しなけれ
ばならない；行列要素のすべてをサイクル処理しなけれ
ばならないというこの要求は、疎でない場合のように同
報通信されたベクトルのそのピースに対応するデータメ
モリ部分のみをサイクル処理すればよい場合よりも１秒
間の乗算回数を減少させる。内積はデータメモリ中に記
憶され、それらに対して確保しておくべき記憶場所の数
はそのチップ上にある異なる行の数に等しい。ベクトル
全体が同報通信され、ローカル計算が終了した後、ＣＰ
Ｕ１０２は結果のベクトルを読み出すことができる。そ
れには各々のチップに逐次的にアクセスして、データＲ
ＡＭ中に記憶された行に対する内積を読み出す必要があ
る。

【００３９】ベクトルに疎行列を作用させる場合に関す
るシステム特性は次のようにして見積もられる。各メモ
リは、２Ｋの同報通信メモリを備え、２０ｎｓの内部サ
イクルタイムをもち、４０ｎｓの外部サイクルタイムを
持ち、ＣＰＵ１０２からのデータを調整しバッファとな
るＰＬＤを備え、パイプライン方式の読みだし／乗算／
累算を行うようになった１６Ｋのデータメモリを含む、
と仮定する。そうすると行当たり平均１０個の零でない
要素を有する２５６×２５６の疎行列に対して、各デー
タメモリは行列の約１８行を保有することになる：行列
の行当たり６４ビットワードを１０個と、その行とベク
トルとの内積に対して１個の６４ビットワードと、行当
たりのそれら１１個の６４ビットワードの各々に対する
行および列タグ（各１６ビット）の合計で行列の行当た
り３３個の３２ビットワードとなる。このように１６Ｋ
のデータメモリ１個で１５行を保有し、行列全体を保有
するためには１８チップが必要となる。同報通信メモリ
はベクトルの８分の１を保有する。

【００４０】時間決算： 1. 同報通信書き込み：（３２ワード／同報通信×６４
ビット／ワード×４０ｎｓ／サイクル）／８ビット／サ
イクル＝各同報通信当たり１０．２４μｓ 2. ローカル計算：１５０ワード×６００ｎｓ／６４ビ
ット浮動小数点乗算積算＝各同報通信当たり９０μｓ 3. ベクトルが終わるまでステップ１と２を８回繰り返
す；合計の同報通信および計算時間は約８００μｓ 4. ＣＰＵによる結果の収集：３２ビット当たり１００
ｎｓで６４ビットの内積を２５６個＝５１μｓ 5. 合計の計算時間は約８５０μｓ行列のサイズが増大すると共に、非零の行列要素の数は
直線的に増大し、ベクトルを同報通信する時間も直線的
に増大し、ローカル計算時間も直線的に増大し、結果を
収集する時間も直線的に増大する。

【００４１】別の例は、米国特許第４，３２６，２５９
号に述べられた神経回路網アルゴリズムをシステム１０
０で実現することである。具体的は、１００入力を備え
た回路網に対して、各々がすべての入力へつながれた内
部節が１，０００個；各内部節は設定可能なしきい値λ
を有している；５０個の出力ノードは入力ノードのすべ
てまたは任意のものへつながれることができ、各出力ノ
ードはしきい値１を有している；そして各出力ノードに
対応して５０個の出力（第１５図参照）；データメモリ
は１，０００ワードで、その各々が１２８ビット幅を持
っている。ワードの数は内部節の数に等しい。各ワード
中の１２８ビットは４つのことを記憶する：最初の１０
０ビットは入力に対応する入力ベクトルＷを表すベクト
ルであり、次の８ビットはしきい値λを記憶し、次の６
ビットはこの内部節が出力する１つの出力ノードを定義
し（アルゴリズムの一部）、次のビットはこの内部節が
コミットされているかを示す（アルゴリズムの一部）；
第１６図を参照。データメモリ中の最後のワードはその
チップの５０ビット出力ベクトルを記憶するために使用
される。

【００４２】データ経路は、１００ビットのハミング
（Ｈａｍｍｉｎｇ）距離計算器、結果のハミング距離を
要求されるしきい値と比較するための比較器、アルゴリ
ズムとアルゴリズム学習フェーズに特有な付加的な制御
論理回路、データメモリを通して一連の操作を実行し命
令を検出するための通常の制御論理回路、を含んでい
る。同報通信メモリは、アルゴリズムにおいて入力層と
して知られたチップへの１００ビットの入力ベクトルを
記憶する。通常の動作（訓練期間ではなく）においてチ
ップは次のように動作する。出力ベクトルはすべて零に
設定され、入力ベクトルは同報通信メモリ中へ書き込ま
れ、チップは１２８ビットのデータメモリ記憶場所１，
０００個を通してサイクル処理を実行して出力ベクトル
を計算し、ＣＰＵは出力ベクトルを含む記憶場所から読
み出しを行う。ｊ番目の１２８ビットデータメモリ記憶
場所が読み出される時には、もしベクトルがコミットさ
れていれば（１１５番目のビット）、Ｗｊを表す最初の
１００ビットと入力ベクトルとの間のハミング距離が計
算され、この内部節における８ビットのしきい値λｊと
比べられる。もしハミング距離がしきい値よりも大きけ
れば、１２８ビット記憶場所の次の６ビットで指定され
る出力ベクトル中のビットがセットされる。

【００４３】学習モードにおいては、“コミットされ
た”ビットをセットし、ベクトルＷ、しきい値、および
出力ノードを必要な値に設定することによって、内部セ
ルがコミットされる；これは簡単なメモリ書き込み操作
である。新しい出力セルをコミットすることは易しい：
それのビット番号をそれがつながれるべき内部セル中へ
書き込むだけである。内部節のすべてにおいてそれらの
何れもが発火しないようにしきい値を増大させるために
は、内部節を通してサイクル処理を行ない、入力までの
ハミング距離を計算し、各々に対するしきい値をその節
が発火しないように設定することが行わなければならな
い。このチップが通常のモードで動作する時は、そのチ
ップが内部節すべてを通してサイクル処理を行う時であ
る。学習モードに関しては、内部節および出力ノードの
コミットはメモリ書き込みの時であり、各アクセスがハ
ミング距離を計算するだけでなく新しいしきい値を書き
戻すことも行わなければならないため、特定の入力に対
して内部節をスイッチオフすることは通常モードの２倍
である。１６Ｋデータメモリを用いることはこのシステ
ムに対して８チップを必要とすることを意味する。

【００４４】メモリ１１０等のスマートＲＡＭに適した
組み込み自己試験（ＢＩＳＴ）および自動故障許容方式
は、メモリ１１０等に第３の動作モードをつけ加え、既
にチップ選択の議論のところで示したように自己試験モ
ードを実行させることで達成される。実際には、ＣＰＵ
１０２が自己試験モード開始コマンドを書き込み、それ
によってデータ経路制御論理回路が設計者の決定した値
にメモリを初期化し、すべてのアドレスのデータを通し
てサイクル処理を行い、結果を設計者の決定した結果の
期待値と比較する。失敗は特別なＲＡＭ記憶場所にフラ
グとして示される。更にデータ経路制御論理回路の試験
も含まれ得る；実際には行列乗算用のメモリを試験する
ためにはすべて零の行列を乗算し、零でない結果で失敗
フラグを設定すればよい。すべてのチップは並列的にＢ
ＩＳＴを実行する。これが完了すると、ＣＰＵは各チッ
プをポーリングし、失敗したチップのアドレスを記録
し、それらをアドレス空間からはずし、基板に冗長チッ
プを供給する。典型的にはＢＩＳＴはデータＲＡＭ中へ
のデータのロードに先だって行われる。

【００４５】第４図は第２の実施例のメモリ４００の模
式的ブロック図であり、それはローカル計算回路を含ん
でいるが、メモリ実装ピン出力は標準的なものとなって
いる。メモリ４００はＲＡＭ４０２中のベクトルの結合
されたリストを通して検索できるように構成されてい
る。各ベクトルは１つまたは２つのフィールドとリスト
中の次のベクトルへのポインタとを含んでいる；リスト
を通しての検索は典型的には次の手順を踏む：ＲＡＭ４
０２中にベクトルのアドレスを設定する。ＲＡＭ４０２
からそのベクトルの対象となるフィールドを取り出す。
取り出されたフィールド中の値を特定の条件と比較し、
その条件が満たされているかを調べる（その条件はレジ
スタ４０４中に記憶されている）。もし条件が満たされ
ていれば検索を終了する。そうでなければ取り出すフィ
ールドを変更し（ＲＡＭ４０２へ書き込む）、現在のベ
クトルからつぎのベクトルへのポインタを取り出す。ポ
インタを調べて検索を終了すべきかを決める；そうでな
ければ次のベクトルに対してステップを繰り返す。レジ
スタ４０４は第１の実施例での同報通信ＲＡＭ２０４に
類似しており、ＲＡＭ４０２はデータＲＡＭ２０２に類
似している。検索プログラムのためにはほんし小さな命
令セットが必要である。例えば、ＬＯＡＤＡＣ（累算器
をロード）、ＳＴＯＲＥＡＣ（累算器へ記憶）、ＡＮＤ
（累算器へ加算）、ＳＵＢ（累算器から減算）、ＢＲＡ
ＮＣＨ＜０、ＢＲＡＮＣＨ＞０、ＢＲＡＮＣＨ＝０、Ｂ
ＲＡＮＣＨ≠０、ＢＲＡＮＣＨ≦０、ＢＲＡＮＣＨ≧０
（６個の累算器試験条件）、ＩＤＬＥ、ＭＡＸ（現在の
累算器と入力の最大値を累算器中へ置く）である。

【００４６】ベクトルのｌ₁とｌ₂ノルム（ｎｏｒｍ）
の計算のような、他の型のローカル計算もメモリ１１
０、１１１、１１２…で実行することができる。特に、
デジタル信号処理においては、テストベクトルＶと複数
個の基準ベクトルＷ^r（１≦ｒ≦Ｒ）の１つとの“距
離”を見いだすことがしばしば必要となり、一般的に使
用される距離の測度は、差Ｖ−Ｗ^rのｌ₁とｌ₂のノル
ムである例えば差のｌ₁ノルムは

【数４】であり、成分Ｗ^r _jをデータＲＡＭ２０２中へ、成分Ｖ
ｊを同報通信ＲＡＭ２０４中へ既に述べたようにロード
し、次に各基準ベクトルについて論理回路２０６中で並
列的に減算を行い、絶対値を求めることによって計算さ
れる。

【００４７】第５ａ図は第３の実施例のメモリ５００の
模式的ブロック図であり、それは第１の実施例のメモリ
１１０と同じようにローカル計算回路を含んでいるが、
メモリ実装ピン出力は標準的なものである。メモリ５０
０は、ベクトルおよびベクトルのドット積（内積）のｌ
₁とｌ₂のノルムの計算において行われるような乗算と
累算に適したものとなっている。メモリ５００は、３２
Ｋ×８ビット（５１２×５１２配列のメモリセルであ
り、それらはバス５０８へ１６対１に多重化される）と
して構成された２５６ＫデータＲＡＭ５０２、４Ｋ×８
ビット（６４×５１２配列）として構成された３２Ｋの
同報通信ＲＡＭ５０４、３２ビットデータバス５０８、
１５ビットアドレスバス５０６、乗算−累算パイプライ
ン（１６ビット×１６ビット乗算器５１０、３２ビット
乗算器５１２、３２ビット桁移動回路５１４、３２ビッ
トマルチプレクサ５１６、１つのエントリ入力を有する
３２ビットＡＬＵ（算術論理演算装置）５１８、３２ビ
ット累算器５２０、３２ビットシフト回路５２２）、Ｒ
ＡＭから読み出されたばかりのデータを保持し、示され
たように、その内容の１、２、３、４個のいずれかのバ
イトがアクセスできるようにアンパックするための３２
ビットレジスタ５２４と５２６、レジスタ５２４または
５２６のアンロードによって自動的に増分または減分す
るアドレスレジスタ５２８−５３０、外部のＣＰＵによ
ってプログラムできる制御ワード５３２を含んでいる。
レジスタ５２４と５２６とをアンパックする機能は、デ
ータバスが固定された幅（この例では３２ビット）であ
るにも拘らず、１、２、３、４バイト（８ビットが１バ
イト）のいずれかのデータビット幅の選択を許容するた
めのものである。アンパックレジスタ５２４の構成例
は、データバス５０８によって並列的に書き込まれる４
個の８ビットレジスタである。“データ幅”制御ワード
は４つの制御信号を発生し、それらは次にクロック信号
と論理的に組み合わされて、望みのデータをマルチプレ
クサ５１２の入力へ与えるパスゲートの４個のバンクを
制御する。簡単な模式図は第５ｂ図に示されている。ア
ンパックレジスタ５２４と５２６はまた、必要とされる
データワードをシフトすることによって付加的なメモリ
読み出しなしにマルチプレクサ５１２へのパイプライン
式データロードを許容する。これはクロック信号と組み
合わされた“シフト回路”制御ワードによって制御され
る。同様に、クロック信号と組み合わされた“動作（オ
ペレーション）”制御ワードは、アンパックレジスタ５
２４から乗算器５１０への１６ビットのデータロードを
行う。メモリ１１０でそうであったように、メモリ５０
０は典型的には、ＣＰＵと、メモリ５００と同様な複数
のメモリとを備えたシステムの一部である。第２図のバ
ス１０４と、ポート２１０と同様な外部データバスとマ
ルチプレクサは第５ａ図には示されていない。第５ａ図
に示され、また第２図のマルチプレクサ２１２と同じよ
うに、外部アドレスバスはアドレスレジスタ５２８−５
３０によって多重化されている。

【００４８】別の構成では、データＲＡＭ５０２から３
２ビットバス５０８への５１２ビットラインの１６対１
の多重化が、５１２ビットラインから４個の３２ビット
バスへの４個の４対１の多重化で置き換えられ、４個の
乗算−累算パイプラインと対になった３２ビットアンパ
ックレジスタが含まれている。更に、１６ビット×１６
ビットの乗算器５１０は２４ビット×２４ビットあるい
は３２ビット×３２ビットの乗算器で置き換えられる。
行列はｎ行ｍ列で構成されているとみることができるた
め、１０個の制御ワード５３２の最初の３ワードは行列
の開始アドレス、行列中の行数、および列数を定める。
第４および第５の制御ワードはデータの幅を定め、第６
の制御ワードは計算された結果を記憶するアドレスを指
定し、第７の制御ワードはシフト回路をセットアップ
し、第８の制御ワードは構成（マルチプレクサ５１２お
よび５１６、自動増分または減分、等）を定め、第９の
制御ワードはＧＯワードであり、それは書き込まれた場
合メモリ５００中での計算を開始させる。また第１０の
制御ワードは同報通信ＲＡＭ５０４中のベクトルの開始
アドレスを指定する。すなわちＧＯワードが書き込まれ
ると、メモリアドレスレジスタ５２８−５３０がロード
され、シフト回路がセットアップされ、ＲＡＭ５０２と
５０４からレジスタ５２４と５２６へ読み出しを行い、
パイプライン結果をＲＡＭ中へ書き戻すことによって計
算が始まる。メモリ１１０でそうであったように、メモ
リ５００は、データＲＡＭ５０２中へロードされた基準
データと、すべての同報通信ＲＡＭ５０４中へ同時に書
き込まれた入力データとを有するシステムの一部であ
る。

【００４９】応用例は、記憶されていた基準フレームか
らの入力ベクトルのユークリッド距離を計算する実時間
言語理解であろう。基準フレームはデータＲＡＭ中のメ
モリ間に均等に分散しており、入力ベクトルが入ってく
るとそれは、各チップ中で計算を同時に開始させるよう
に書き込まれた同報通信ＲＡＭとＧＯワード中へ同時に
書き込まれる。ローカル計算の終了によって、ＧＯワー
ドはメモリによって変更され、外部ＣＰＵが結果を読み
出す。特に、次の計算を考える。

【数５】ここでＸ＝〔ｘ（１），ｘ（２），ｘ（３），ｘ
（４）〕であり、またＲ（１）＝〔ｒ（１，１），ｒ
（１，２），ｒ（１，３），ｒ（１，４）〕で、ｎ＝８
で、ｄ（ｎ）は記憶のために２バイトを要するスカラー
である。ｒ（ｉ，ｊ）はデータＲＡＭ５０２中に記憶さ
れる。ｘ（ｉ）とｒ（ｉ）はそれぞれ１バイト幅である
と仮定する。以下の手順で計算が行われる。

【００５０】1. 外部ＣＰＵが１０個の制御ワードを書
き込む。それらはこの例では次のものである：開始アドレス１＝１００（Ｒの開始アドレス）Ｎ列＝４Ｎ行＝８データ幅＝１結果幅＝２結果アドレス＝３００（結果が順に記憶されるアドレ
ス）シフト回路＝０動作＝乗算−累算、自動増分ＧＯ＝書き込み開始アドレス２＝Ｘの開始アドレス 2. ＧＯフラグが主ＣＰＵへ書き込まれた時には、ｒ
（ｉ，ｊ）の開始アドレスがＭＡＲ０５２８へロード
され、結果アドレスがＭＡＲ１５２９中へロードさ
れ、Ｘの開始アドレスがＭＡＲ２５３０中へロードさ
れる。 3. 累算器５２０が零に設定される。ＭＡＲ０を用い
て、３２ビットワード（ｒ（１，１），ｒ（１，２），
ｒ（１，３），ｒ（１，４））がアンパックレジスタ５
２４（第５ａ図ではＰＩＰＥ０と書かれている）中へ読
み込まれ、ＭＡＲ２を用いて３２ビットワード（ｘ
（１），ｘ（２），ｘ（３），ｘ（４））がアンパック
レジスタ５２６（第５ａ図ではＰＩＰＥ１と書かれてい
る）中へロードされる。 4. “データ幅”制御ワードが乗算器５１０へ送られる
オペランドのサイズを定める。 5. この例では、ｘ（１）とｒ（１，１）（ＰＩＰＥ０
とＰＩＰＥ１の内容の１バイト）が乗算器５１０中へ送
られ、その積が累算器５２０中に累算される。 6. 次に、ＰＩＰＥ０とＰＩＰＥ１の内容が１バイトシ
フトされ、乗算器５１０への次の送り時にｘ（２）とｒ
（１，２）はオペランドとなるはずの位置にあり、内容
のシフトと共にアドレスレジスタＭＡＲ０とＭＡＲ１は
自動的に増分される；すなわち最初のパスでＭＡＲ０は
増分の後１０１となる。 7. ステップ５と６が制御ワード“Ｎ列”で決まる回数
繰り返される。それはこの場合４である。（もし“Ｎ
列”が４より大きければＰＩＰＥ０とＰＩＰＥ１はそれ
らが空になるとすぐに別のメモリ読み出しによって満た
される。） 8. ステップ７が完了した後、結果は累算器中にあり、
これは書き込みの後自動的に増分されるアドレスレジス
タＭＡＲ１を用いてＲＡＭ５０２へ書き戻される。この
例では、もしＭＡＲ１が書き込みの前に３００に等しけ
れば、制御ワード“結果幅”が２（バイト）に等しいの
で、増分の後ＭＡＲ１は３０２に等しくなる。またこの
時点でＭＡＲ０は既に次のＲ（ｊ）を指していることを
指摘しておく。 9. ステップ３から８が制御ワード“Ｎ行”で決まる回
数繰り返される。これはこの例では８に等しい。 10. ステップ９の完了後、ＧＯフラグは計算が完了した
ことを示す別のパターンへ変更される。

【００５１】別の例はＸとＲとの間の差の大きさを累算
することである。この場合には、制御ワード“動作”が
この差の大きさを累算する操作を実行することをフラグ
で示す。この計算の実行は既に述べたのと同様である；
差が現れるのはステップ５のみであり、そこにおいては
“動作”制御ワードが論理回路に対してｘ（ｉ）とｒ
（ｊ，ｉ）との差を取らせ、これの絶対値が累算され
る。第３の実施例のより一般的な例は、特別な乗算−累
算パイプラインを、プログラム可能な処理装置と同報通
信ＲＡＭ中への書き込みプログラムで置き換えるもので
あろう。第５ｃ図はメモリチップ５６８を示しており、
このメモリの下位部分５７０はプログラムメモリとし
て、また上位部分５７２はデータメモリとみなされる。
プログラムメモリ５７０は、既に述べたようにデータメ
モリ５７２と同じＩ／Ｏピンを用いて外部の世界（ＣＰ
Ｕ）からアクセス可能である。同一チップ上のデコーダ
５７４、メモリ制御器５７６、および論理回路５７８は
プログラム可能な処理装置を提供する。命令はプログラ
ムメモリ５７０から取り出され、デコーダ５７４で解読
され、デコーダ５７４は適切な制御信号を発して論理回
路５７８を動作させる。外部世界がチップ５６８にアク
セスする時は、メモリ制御器５７６が論理回路５７８を
保留状態にし、外部世界のアクセスが終了した時には、
メモリ制御器５７６は論理回路５７８を解放し、論理回
路５７８はもとの動作を回復する。

【００５２】第４の実施例のメモリとシステムはアドレ
ス連想メモリ（あるいは疎分散メモリまたはカネルバ
（Ｋａｎｅｒｖａ）メモリとも呼ばれる）として使用さ
れる。第６図は、一般的に６００で示され、第４の実施
例メモリシステムの模式的ブロック図であり、それはア
ドレスメモリ６１０、６１１、６１２…とデータメモリ
６５０、６５１、６５２…を含んでいる。第７図は第５
の実施例メモリ６１０の模式的ブロック図であり、それ
は、アドレスＲＡＭ７０２（これはメモリ１１０のデー
タＲＡＭ２０２に相当する）、同報通信ＲＡＭ７０４、
論理回路７０６、を含む。メモリ６１０は他の同様なメ
モリ６１１、６１２…と共に、アドレス連想メモリシス
テム６００を構成する。アドレス連想メモリは通常のメ
モリとは異なり、１つのアドレスに記憶されたデータ
を、近隣のアドレスを読み出すことによって取り出すこ
とを許容する；すなわち一種の故障許容がその固有の特
性である。例えば、１つの入力アドレスと１個の入力デ
ータを備えたアドレス連想メモリは、入力データから特
定のハミング距離内にあるアドレスを持つすべてのメモ
リ記憶場所へそのデータを書き込むことができ、その書
き込まれたデータはそれらの記憶場所のいずれにおける
既存のデータも置き換えることなしにそれらに加えられ
る（メモリの各ビットはアップ−ダウン計数器によって
効果的に置き換えられる）。読み出しデータの入力アド
レスは入力アドレスから特定のハミング距離内にあるす
べてのアドレスをアクティブにし、これらアクティブに
されたすべてのアドレスにあるデータのしきい値を用い
たビット単位の加算によって、出力データ読み出しが得
られる。

【００５３】動作時には、アドレスＲＡＭ７０２中にキ
ーアドレスが記憶されており、第１の実施例に関連して
説明したのと同じように、読み書きすべきテストアドレ
スが各メモリ６１０、６１１…の同報通信ＲＡＭへ同時
に書き込まれる。一旦、テストアドレスが同報通信ＲＡ
Ｍ中へ書き込まれると、論理回路７０６はレディ７２０
出力を低レベルにし、テストアドレスとアドレスＲＡＭ
７０２中に記憶されたキーアドレスの各々との間のハミ
ング距離を計算し始める；ハミング距離計算はすべての
メモリ６１０、６１１…中で同時に進行する。テストア
ドレスから要求される距離内にキーアドレスが見いださ
れると、論理回路７０６は後でＣＰＵ６０２によってポ
ーリングするためにこれをアドレスＲＡＭの一部に記憶
させるか、または見いだす度にＣＰＵ６０２へ割り込み
をかける。次にＣＰＵ６０２は各々の見いだされたキー
アドレスに対応するデータをデータメモリ６５０、６５
１…から読み出し、ビット単位で加算し、データ読み出
しでしきい値を与え、出力データを得る。

【００５４】例えば、アドレスが３２ビット長で（その
場合約４．３×１０⁹個の可能なアドレスがある）、キ
ーアドレスとして１０，０００個の３２ビットワードＡ
１、Ａ２…Ａ１０，０００がランダムに選ばれるとする
と、Ａ１と最も近い他のキーアドレスとのハミング距離
はおよそ４であると期待され、またＡ１と百番目に最も
近い他のキーアドレスとの間のハミング距離はおよそ８
−１０であると期待される。このおよその見積は以下の
近似的な分析から導くことができる：キーアドレスはそ
れらのビットの内約半分が１で半分が０であると仮定す
る；次に組み合わせ解析によって一対のキーアドレス間
のハミング距離の累積確率分布を決定する：

【数６】そしてこの確率分布に対して順序統計量の分布を近似
し、適切な順序統計量の累積分布を約２分の１にするハ
ミング距離を見つける。

【００５５】別の近似解析は次のようなものである：与
えられた（キー）アドレスに対してハミング距離にある
アドレスの数ｎは与えられたアドレス中のｎビットを変
化させるやり方の数である、すなわち：

【数７】従って与えられたアドレスからハミング距離１０内にあ
るアドレスの数は次の和：

【数８】これは約１０８，０００，０００に等しい。このように
すべてのアドレスの約２．５％が与えられたアドレスか
ら１０の距離内にある；そしてキーアドレスがランダム
に分布している；従って２５０個のキーアドレス（１
０，０００の２．５％）が与えられたアドレスの１０内
にあると期待される。こうして１０，０００個の３２ビ
ットキーアドレスについてのハミング距離１０を用い
て、各入力アドレスに対して約２５０個のキーアドレス
が得られる（入力アドレスが１０，０００の１つである
かそうでないかによらない）。システム６００中へのデ
ータのロードは次のように進む：まず最初に１０，００
０個のキーアドレスが生成され（乱数発生器）、メモリ
６１０、６１１…のアドレスＲＡＭ中へ記憶される。各
アドレスＲＡＭは５１２個のアドレスのためのスペース
を有しており、従ってメモリ６１０、６１１…６２９は
十分なスペースを提供できる。ＣＰＵ６０２は各キーア
ドレスをデータメモリ６５０中のアドレスと対応づける
検索表を作成する。そしてデータメモリ６５０中では各
データワードは、３２×８で構成される２５６ビットを
占める；従ってデータメモリ６５０は少なくとも２５．
６メガビットを有していなければならない。次に、まず
２５０個のキーアドレス、あるいは１０，０００個の内
の入力アドレスの１０のハミング距離内にあるキーアド
レスを見いだすことによって、３２ビットのデータが入
力アドレス（さらにはランダム入力３２ビットアドレ
ス）へ記憶される。次にＣＰＵ６０２は３２ビットデー
タを、データメモリ６５０中の見いだされた活動的アド
レスに対応する記憶場所の各々へ書き込む。これらの３
２ビットデータの書き込みはそのデータワードに既に記
憶されていたデータを置き換えることはせずにそれに加
えられる：このことは３２×８のデータワード構成の８
ビットを用いて行われる。この８ビットは範囲１２８の
アップ−ダウン計数器として働き、３２ビットデータワ
ードの各ビットは計数器を、増分（もしビットが“１”
であれば）、または減分（もしビットが“０”であれ
ば）させる。もしデータ記憶が大幅なオーバーヘッド時
間となるようであれば、データメモリ６５０はこの計算
のために３２個の並列加算器を備えることができる。

【００５６】データが記憶された後、データは、入力ア
ドレスを同報通信ＲＡＭ中へ書き込み、１００個または
その程度の活動的アドレスを入力アドレスのハミング距
離１０内に局所的に見いだし、データメモリ６５０から
１００個またはその程度の対応するデータワードを読み
出し、これらの１００個またはその程度のデータワード
について計数器毎に８ビットアップ−ダウン計数器を平
均化し、しきい値処理を行って平均値を３２ビットの２
進数出力へ変換することによって、読み出される。

【００５７】第５の実施例は異なるメモリ構成をとった
別のアドレス連想メモリシステムである。第８図は第５
図の実施例メモリ８００の模式的ブロック図である。メ
モリ８００はＲＡＭ８０２を含み、それはキーアドレス
へのデータ書き込みのための論理回路８０６中の累算器
と共にキーアドレスとそれらのデータを含んでいる。メ
モリ８００は標準的な２Ｋ×８のＳＲＡＭと同じピン出
力を有しており、これも２Ｋ×８として構成されＣＰＵ
に対しても２Ｋ×８として見えるＲＡＭ８０２を含んで
いる。ＲＡＭ８０２は６個の２５６ビットアドレスと付
随する２５６項目のデータとを含んでおり、各データ項
目は範囲１２８のアップ−ダウン計数器として働く８ビ
ットである。これによってＲＡＭ８０２中には後にＣＰ
Ｕによって読み出される結果を記憶して置くための２Ｋ
ビットより少し大きいスペースが残る。アドレス連想メ
モリ動作に関しては、ＣＰＵは１個のキーアドレスをＲ
ＡＭ８０２中の３２バイト分の引き続く８ビット領域へ
書き込むことができ、付随するデータを次に続く２５６
バイト分の領域へ書き込むことができる。このようにメ
モリ８００はキーアドレスをそれが記憶しているデータ
と関連づけるために検索表を必要としない。替わりに、
入力アドレスが与えられると、ＣＰＵはローカル検索命
令と共に、システム中の各メモリ８００の同報通信ＲＡ
Ｍ８０４へ、入力アドレス（３２バイト）を同時に書き
込む。論理回路８０６はこれによって、ローカル検索命
令を読み、レディ信号を低レベルに設定し、入力アドレ
スとＲＡＭ８０２中に記憶されている６個のキーアドレ
スの各々との間のハミング距離を計算し始める。もし１
つのキーアドレスが入力アドレスの１０のハミング距離
内にあることが見いだされると、論理回路８０６は活動
的アドレスを通してのそれのサイクル処理を中断して、
見いだされた活動的アドレスに付随するデータを読みだ
し、それを累算器８１２へ加算し、キーアドレス・デー
タのために未使用のＲＡＭ８０２中の適当な２Ｋ領域へ
結果を記憶する。６個のキーアドレスのすべてが入力デ
ータと比較され、もしあればすべての対応するデータが
加算されＲＡＭ８０２中に記憶された後、レディ信号が
高レベルに設定される。次にＣＰＵは各メモリ８００の
結果を読み出し、加算し、しきい値処理して、データ読
み出しを回復することができる。

【００５８】メモリ８００へのデータの書き込みは、デ
ータが入力アドレスに近接した各キーアドレスにおいて
既存のデータへ加算されなければならないために、読み
出しの場合よりも複雑である。ＣＰＵは、入力アドレス
のハミング距離１０内にあることが見いだされた各キー
アドレスに記憶されているデータを読み出し、新しいデ
ータを加えて再記憶するか、またはデータを入力アドレ
スと共に単に同報通信ＲＡＭ８０４へ送り、論理回路８
０６が累算器８１２中で加算を行うかのいずれかを選ぶ
ことができる。もちろん、キーアドレスを指定するため
にハミング距離以外の別の距離測度を用いてもよい。

【００５９】第６の実施例システムは、メモリ８００の
ようなメモリを複数個用いた疎分散メモリ（ＳＤＭ）マ
シン９００であって、第１０ａ図から第１０ｃ図に模式
的に示されている。ＳＤＭマシンのための構築ブロック
は１６Ｋビットメモリと３２ビットカスタムデータ経路
を含むメモリ／処理装置チップである。各チップのメモ
リは６個の、２５６ビット幅の、ＳＤＭアドレス・デー
タ対を記憶するために使用される（第１０ａ図参照）。
各チップのデータ経路はＳＤＭ読み出しおよび書き込み
を制御および実行し、またハミング距離を計算し、ＳＤ
Ｍ形式の累算を実行するための特殊なチップを含んでい
る（第１０ａ図）。ＳＤＭマシンは主としてメモリ／処
理装置チップの５１２個で満たされた１枚または２枚
（要求される容量に依存する）の基板を含んでいる。基
板は、この実施例の目的のために、ＴＩ（テキサスイン
スツルメンツ）のエクスプローラ（Ｅｘｐｌｏｒｅｒ）
ＬＩＳＰマシンに差し込まれる（第１０ｃ図）。それら
はＬＩＳＰのＣＰＵにとってメモリ基板として見える。
ＬＩＳＰのＣＰＵは、疎分散メモリ（ＳＤＭ）アドレス
（および書き込みに関するデータ）を予め定められたメ
モリ記憶場所へ書き込むことでそれらとのインターフェ
ースを取り、メモリ／処理装置チップがＳＤＭ計算を実
行する。ＳＤＭ書き込みにはそれ以上の操作は不要であ
り、ＳＤＭ読み出しにおいては、処理装置が待機（約１
００μｓ）し、その後各基板の予め定められた記憶場所
から順にＳＤＭデータ（しきい値処理されていない）を
読み出す。ＬＩＳＰのＣＰＵは各基板からのデータを累
算し、結果をしきい値処理する。

【００６０】各基板は５１２個のメモリ／処理装置チッ
プを保有し、８ビットデータ計数器を用いて、各記憶場
所が２５６ビット長のＳＤＭ記憶場所を３０７２個の記
憶できる。ＣＰＵは、次のように、ＳＤＭに対して１秒
間に１０，０００回読み書きのためにアクセスすること
ができる：・ＬＩＳＰＣＰＵから基板へのデータ転送：１μｓ・処理装置／メモリチップへのデータ転送：２μｓ・チップ計算時間：３．６μｓ・読み出し時のデータ累算時間：８４μｓ・１つの基板をオフする時間：６．８μｓ容量は複数基板を用いて増やすことができる。ＳＤＭメ
モリ基板は標準的なメモリと大量並列方式とを混成した
ものである。それらは標準的なメモリ技術を用いて、Ｓ
ＤＭ計算のために最適化された処理装置を埋め込むこと
によって構築される。各１６Ｋメモリチップ中に３２ビ
ットのデータ経路が埋め込まれる。基板当たり５１２チ
ップであることから、これにより基板当たり１６Ｋ×５
１２＝８Ｍビットのメモリと、３２×５１２＝１６Ｋビ
ットのデータ経路が得られる。

【００６１】ＬＩＳＰＣＰＵにとっては基板はメモリ
基板であるように見えるため、それらをシステムへ追加
するのは容易である。ＴＩエクスプローラマシンの場合
には、それらはＮｕｂｕｓ（ニューバス）裏面へ差し込
まれ、メモリ基板として使用される。それらによってＳ
ＤＭ計算を行わせるために、エクスプローラシステムは
基板をページング空間として使用することを禁止されな
ければならない。ＳＤＭに読み出しと書き込みを行わせ
るソフトウエアは基板上の予め定められたメモリ記憶場
所へ書き込まれ、それは特別な基板ハードウエアによっ
て復号化されて、そのＳＤＭ計算のためのメモリ／処理
装置チップがアクティブにされる。各メモリ／処理装置
チップは内部的に５１２×３２として見える１６Ｋメモ
リと、内部的に６４×３２と見える２Ｋ同報通信メモリ
と、両メモリへの完全な３２ビットのアクセスを有する
データ経路を含んでいる。メモリは論理的には、６個の
アドレス・データ対と、読み出しデータを累積すべき領
域とに分割されている。第９図はメモリの論理構造を示
す。

【００６２】１６ＫメモリはＳＤＭアドレスとデータと
を記憶するために使用され、同報通信メモリは各ＳＤＭ
読み書きのために必要なデータを記憶するために使用さ
れ、データ経路はＳＤＭ計算を実行する。データ経路
は、１クロックサイクルの間に３２ビットワードのハミ
ング距離を計算する特別な論理回路と、各ワード中に記
憶された４個のデータ“ビット”に対して並列的に作用
する４個のＳＤＭ式の累算器を有している。データ経路
は最大の速度を達成するために高度にパイプライン化さ
れている。各チップ上の固定されたＳＤＭアドレスの初
期化と、ＳＤＭ読み書きに必要なアドレスおよびデータ
情報の同報通信の技術については以下に述べる。本説明
はＳＤＭメモリ／処理装置チップの内部の動作に関する
ものである。読み書き情報の同報通信を受信すると、デ
ータ経路はＳＤＭアドレスの各々を一時に１ワードずつ
サイクル処理して、標的ＳＤＭアドレスへのハミング距
離を計算し、同報通信メモリをサイクル処理してしまう
と、部分的ハミング距離を合計ハミング距離に累算す
る。

【００６３】合計ハミング距離はしきい値と比較され
て、そのアドレスが活動的かが決定される。もし活動的
でなければ、データ経路は次のＳＤＭアドレスへ進み、
またもし活動的であれば、書き込み時にはデータ更新
が、また読み出し時にはデータ累算が行われる。データ
更新では、ＳＤＭ“ビット”が、１の書き込み時には増
分され、また０の書き込み時には減分される。データ累
算では、主メモリからデータが読まれ、それまでの結果
が主メモリから読まれ、それらを加算したものが主メモ
リへ書き戻される。データ経路および累算領域はまたＳ
ＤＭ読み出しにおいて階層構造の基板レベルでのデータ
累算においても使用され、それについては以下に述べ
る。ここで、ビットｘ−１に対するデータが階層の入力
ピンを通して循環入力、累算され、他方ビットｘに対す
るデータが階層の出力ピンを通して循環出力される。し
かし、タグを付すことや一定数の応答器のような、標準
的ＳＤＭアルゴリズムの拡張が絶えず求められている。
従って、データ経路をＳＤＭでサポートされた処理装置
とし、プログラムを同報通信メモリに記憶された形が望
ましい。

【００６４】各基板は５１２個のメモリ／処理装置チッ
プを含み、各チップは６個の２５６ビット幅のＳＤＭア
ドレスと付随するデータとを含んでいる。更に、各基板
上にはＮｕｂｕｓアクセス、信号駆動、予め定められた
メモリ記憶場所検出を行うためのオフザシェルフ（ｏｆ
ｆ−ｔｈｅ−ｓｈｅｌｆ）部品が取り付けられている。
５１２個のメモリ／処理装置チップは次のような３つの
方法で構成される： 1. ２５６Ｋ×３２ビットの通常メモリ 2. ８レベルの深さを持つ２分岐ツリー 3. 同報通信メモリ通常メモリは非ＳＤＭ的使用と、ＳＤＭ的初期化とをサ
ポートし、２分岐ツリーはＳＤＭ読み出し中のデータの
基板レベルでの累算をサポートし、同時メモリ（すべて
のチップが同時にメモリ書き込みを受け取る）はＳＤＭ
アドレス、データ、しきい値の書き込みをサポートす
る。

【００６５】ＳＤＭ読み書きにおいて、アドレスおよび
データは予め定められたメモリ記憶場所へ書き込まれ
る。特別な論理回路がこれを検出し、すべてのメモリ／
処理装置への書き込みを許可する。次に、ＳＤＭアドレ
スとデータ、しきい値、読み書きフラグがすべてのメモ
リ／処理装置チップへ書き込まれる。ＳＤＭ読み出しで
は、各チップは局所的にデータ更新を行い、チップ間の
通信は不要であり、これは３．６μｓで完了する。ＳＤ
Ｍ読み出しでは、各チップはそれの活動的なＳＤＭ記憶
場所からのデータを局所的に累算し、次に５１２個のチ
ップの各々中に累算されているデータの基板レベルでの
累算が行われる。チップはこの動作を容易にするために
階層構造状つながれている。この階層構造は８の深さを
持ち、分岐因子は２であり、追加の５１２番目のチップ
が最上部に特別に加えられている（第１１図）。この階
層構造は、レベル８のすべてのチップを励起して、デー
タをそれらの親であるレベル７のチップへいっしょに通
過させるようにする。各メモリ／処理装置チップ上の６
個の付加的ピン（第１２図参照）が階層構造の接続のた
めに設けられている：２つは上方へ（ＨＯ０とＨＯ
１）、４つは下方へ（左側の子へのＨＬ０とＨＬ１、右
側の子へのＨＲ０とＨＲ１）である。階層構造を上方へ
向かうデータの通路もまた８の深さのパイプライン構造
になっている：バイトｘがレベル２からレベル１へ通過
し、バイトｘ＋１がレベル３からレベル２へ通過するこ
とを許容されている、等である。これらの特徴から、基
板全体でのデータ送信は８４μｓかかる。

【００６６】この階層構造の最上部にあるオフザシェル
フ論理回路は６４個の３２ビットワードへのデータバッ
ファとして用いられている。このバッファ論理回路はＮ
ｕｂｕｓ裏面への３２ビットの出力を有している。３２
ビットのデータ幅と、バッファ作用とを備えたＮｕｂｕ
ｓの爆発的転送機構を完全に利用して、ＳＤＭ読み出し
データを６．８μｓでＣＰＵへ転送することができる。
メモリ／処理装置チップはまた、それらが２Ｋ×８のメ
モリとして接続できるように２３個のピンを有している
（第１３図）。これらの接続を用いて、５１２個のメモ
リ／処理装置チップは通常のメモリ構造状に接続され、
基板はＣＰＵに対して２５６Ｋ×３２ビットのメモリ基
板として見える。通常のメモリ構造はＳＤＭアドレスの
初期の書き込みを容易にし、基板を通常のメモリ基板と
して使用することを許容し、システムの試験およびデバ
ッグのための観察可能性と制御可能性を付与する。

【００６７】チップ／基板アーキテクチャの最後の特徴
は同報通信モードである。各チップは、一時にすべての
チップへ同時送信されるデータを受信するために使用さ
れる付加的な２Ｋ×８同報通信メモリを有している。オ
フザシェルフ部品は特別な記憶場所へのメモリ書き込み
を検出するために使用される。これが発生すると、各メ
モリ／処理装置チップ上の同報通信モードピンは高レベ
ルになる。これはすべてのチップを選択し、２Ｋ×８同
報通信メモリへのメモリ書き込みが起こり得る。各チッ
プへＳＤＭアドレス、データおよび活動性範囲、読み書
きフラグが同報通信される。第１４図はメモリ／処理装
置チップのブロック構造を示す。

【００６８】ＳＤＭマシンは次のような優れたアーキテ
クチャの特徴を有している：・同一チップ（オンチップ）のメモリアクセス速度（オ
フチップの半分）・同一チップのメモリ帯域幅（３２ビット×８）・簡単な同一チップ処理（割り込みなし、仮想メモリな
し）・通常メモリとしての接続・階層構造接続・同報通信メモリとしての接続・プラグイン能力従って、これはその他の応用にも適用できる。言語理解
（動的時間ワープおよび隠れたマルコフモデル方式）と
行列乗算は、このアーキテクチャへうまくマッピングで
きる応用例である。

【００６９】このシステム設計は複数の方法で拡張でき
る。 −１６ＫＳＲＡＭの替わりに２５６ＫＳＲＡＭを用
いることで容量が１６倍になる。 −１６ＫＳＲＡＭの替わりに４ＭＤＲＡＭチップを
用いることで容量が２５６倍になる。 −多分階層構造に接続された基板を増やすことで容量を
増やすことができる。 −マッキントッシュサイズの基板で、容量は３分の１、
同じ速度、同じＮｕｂｕｓ。ＳＤＭマシンは単一の基板でここに提案された応用に適
用できるであろう。この装置の主たる特徴は、それの速
度、それの容易な使い方、同じアーキテクチャより大き
なＳＤＭマシンが可能であること、である。

【００７０】

【発明の修正および特長】実施例の装置と方法につい
て、同報通信ＲＡＭや低レベルの同一チップ論理回路等
の特長を保ちつつ、各種の修正が可能である。例えば、
ＲＡＭ、論理回路、バス等の寸法、形状、サイズを変え
ることができる。データが常に同じであるような応用で
はデータＲＡＭはＲＯＭやＰＲＯＭでよい；あるいは、
まれにしか変わらないデータに対してはデータＲＡＭは
ＥＰＲＯＭまたはＥＥＰＲＯＭでよい。この場合にはシ
ステムは不揮発性となる。更に、同報通信メモリをプロ
グラムメモリとし、データＲＡＭをデータメモリとみな
してロード−記憶処理装置をスマートメモリ中へ集積す
ることができ、その場合にはハーバードアーキテクチャ
が実現する。更に、データ集中カーネルでの計算をプロ
グラムメモリへダウンロードすることができる。より大
きいメモリ配列チップはより幅広い内部データ経路を許
容し、従って相応の内部読み出し回数をなくし、チップ
当たりの並列処理要素数を増大させる。複数チップシス
テムの必要な基板面積を最小化するために、簡便なピン
出力要求のチップから始める高密度多重チップモジュー
ルへの要望がある。スマートメモリに基づくＭＰＰシス
テムはこれから大いに利益を得るであろう。

【００７１】以上の説明に関して更に以下の項を開示す
る。 (1) 集積回路であって、(a) データメモリであって、デ
ータバス端子へつながれたデータメモリ、(b) 前記デー
タメモリへつながれたチップ選択端子、(c) 同報通信メ
モリであって、前記データバス端子へつながれ、前記チ
ップ選択端子へはつながれていない、同報通信メモリ、
(d) 前記データメモリと前記同報通信メモリの両方へつ
ながれたデータ経路、を含む、集積回路。

【００７２】(2) 第１項の集積回路であって、(a) 前記
データ経路が、前記データメモリからのデータで計算を
行うための回路と、前記計算を開始させ、終了させるた
めの検出器とを含む、ような、集積回路。

【００７３】(3) 第１項の集積回路であって、更に、
(a) 前記データメモリと前記同報通信メモリの両方へつ
ながれたアドレスバス端子、(b) 前記アドレスバス端子
と前記同報通信メモリへつながれた検出器、を含む、集
積回路。

【００７４】(4) コンピュータシステムであって、 (a) 少なくとも１つの中央処理装置、 (b) 入出力、 (c) メモリシステムであって、複数個のメモリを含み、
前記メモリの各々が、Ｉ．データメモリであって、データバス端子へつなが
れたデータメモリ、 II．前記データメモリへつながれたチップ選択端子、 III ．同報通信メモリであって、前記データバス端子へ
つながれ、前記チップ選択端子へはつながれていない、
同報通信メモリ、 IV．前記データメモリと前記同報通信メモリの両方へ
つながれたデータ経路、を含む、メモリシステム、を含む、コンピュータシステム。

【００７５】(5) 第４項のシステムであって、更に、
(a) 前記メモリの各々の中にあって、前記データメモリ
と前記同報通信メモリの両方へつながれた、アドレスバ
ス端子、(b) 前記メモリの各々の中にあって、前記アド
レスバス端子と前記同報通信メモリへつながれた、検出
器、を含む、コンピュータシステム。

【００７６】(6) 第４項のシステムであって、(a) 前記
複数個のメモリが階層構造に配置されている、ような、
コンピュータシステム。

【００７７】(7) 第４項のシステムであって、(a) 前記
複数個のメモリの各々が疎分散メモリアドレスとデータ
回路を含んでいる、ような、コンピュータシステム。

【００７８】(8) コンピュータであって、(a) メモリ、
(b) 前記メモリへつながれたレジスタ、(c) 第１と第２
の入力を有する処理要素であって、前記第１の入力は前
記第２の入力と異なるデータ幅を有し、前記第１と第２
の入力が互いに重なりあいながら前記レジスタへつなが
れている、処理要素、を含む、コンピュータ。

【００７９】(9) モノリシックメモリであって、(a) デ
ータメモリであって、データバス端子へつながれたデー
タメモリ、(b) 前記データメモリへつながれたプログラ
ム可能な処理要素、を含む、モノリシックメモリ。

【００８０】(10)データメモリ２０２、埋め込まれた論
理回路２０６、そして通常のメモリモードとローカル計
算モードとの２つの動作モードを持つ同報通信メモリ２
０４、を備えたメモリチップ。そのようなチップとアド
レス連想メモリシステムとの階層構造システム。

【図面の簡単な説明】

【図１】第１ａ図は第１の実施例のメモリのブロック
図。

【図２】第１ｂ図は第１の実施例のシステムのブロック
図。

【図３】第１ｃ図は第１の実施例のアドレス指定の仕組
みのブロック図。

【図４】第２図は第１の実施例のメモリのブロック図。

【図５】第３図は第１の実施例のメモリの一部分の回路
図。

【図６】第４図は第２の実施例のメモリのブロック図。

【図７】第５ａ図は第３の実施例のメモリの模式図。

【図８】第５ｂ図は第３の実施例のメモリの模式図。

【図９】第５ｃ図は第３の実施例のメモリの模式図。

【図１０】第６図は第４の実施例のシステムの回路図。

【図１１】第７図は第４の実施例のメモリのブロック
図。

【図１２】第８図は第５の実施例のメモリのブロック
図。

【図１３】第９図は第５の実施例のメモリのブロック
図。

【図１４】第１０ａ図から第１０ｃ図は第６の実施例の
システムの図。

【図１５】第１１図は第６の実施例のシステムの階層構
造を示す図。

【図１６】第１２図は第６の実施例のシステムの階層構
造におけるデータ経路を示す図。

【図１７】第１３図は第６の実施例のメモリのピン出力
を示す図。

【図１８】第１４図は第６の実施例のメモリの内部ブロ
ック構造と外部ブロック構造を示す図。

【図１９】第１５図は応用例を示す図。

【図２０】第１６図は応用例を示す図。

【符号の説明】

１００第１の実施例システム１０２ＣＰＵ（中央処理装置）１０４データバス１０６アドレスバス１０８チップ選択デコーダ１０９Ｉ／Ｏ１１０，１１１，１１２，…１３９メモリ２０２データメモリ（データＲＡＭ）２０４同報通信メモリ（同報通信ＲＡＭ）２０６データ経路論理回路２０８ローカルバス２０９ローカルバス２１０入出力ポート２１２アドレスマルチプレクサ２１４ＣＳＤ（データメモリ用チップ選択）入力２１６ＷＥ（書き込み許可）入力２１８ローカルアドレスバス２１９処理要素２２０ＯＥ（出力許可）入力４００第２の実施例メモリ４０２ＲＡＭ４０４レジスタ５００第３の実施例メモリ５０２ＲＡＭ５０４同報通信ＲＡＭ５０６アドレスバス５０８データバス５１０乗算器５１２マルチプレクサ５１４シフト回路５１６マルチプレクサ５１８ＡＬＵ５２０累算器５２２シフト回路５２４レジスタ５２６レジスタ５２８−５３０アドレスレジスタ５３２制御ワード５６８メモリチップ５７０下位部分５７２上位部分５７４同一チップデコーダ５７６メモリ制御器５７８論理回路６００第４の実施例メモリシステム６０２ＣＰＵ６１０、６１１、６１２、…６２９アドレスメモリ６５０、６５１、６５２、… データメモリ７０２アドレスＲＡＭ７０４同報通信ＲＡＭ７０６論理回路７２０レディ８００第５の実施例メモリ８０２ＲＡＭ８０４同報通信ＲＡＭ８０６論理回路８１２累算器９００ＳＤＭマシン

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成５年４月６日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】図面の簡単な説明

【補正方法】変更

【補正内容】

【図面の簡単な説明】

【図１ａ】第１の実施例のメモリのブロック図。

【図１ｂ】第１の実施例のシステムのブロック図。

【図１ｃ】第１の実施例のアドレス指定の仕組みのブロ
ック図。

【図２】第１の実施例のメモリのブロック図。

【図３】第１の実施例のメモリの一部分の回路図。

【図４】第２の実施例のメモリのブロック図。

【図５ａ】第３の実施例のメモリの模式図。

【図５ｂ】第３の実施例のメモリの模式図。

【図５ｃ】第３の実施例のメモリの模式図。

【図６】第４の実施例のシステムの回路図。

【図７】第４の実施例のメモリのブロック図。

【図８】第５の実施例のメモリのブロック図。

【図９】第５の実施例のメモリのブロック図。

【図１０】ａからｃは第６の実施例のシステムの図。

【図１１】第６の実施例のシステムの階層構造を示す
図。

【図１２】第６の実施例のシステムの階層構造における
データ経路を示す図。

【図１３】第６の実施例のメモリのピン出力を示す図。

【図１４】第６の実施例のメモリの内部ブロック構造と
外部ブロック構造を示す図。

【図１５】応用例を示す図。

【図１６】応用例を示す図。

【符号の説明】１００第１の実施例システム１０２ＣＰＵ（中央処理装置）１０４データバス１０６アドレスバス１０８チップ選択デコーダ１０９Ｉ／Ｏ１１０，１１１，１１２，…１３９メモリ２０２データメモリ（データＲＡＭ）２０４同報通信メモリ（同報通信ＲＡＭ）２０６データ経路論理回路２０８ローカルバス２０９ローカルバス２１０入出力ポート２１２アドレスマルチプレクサ２１４ＣＳＤ（データメモリ用チップ選択）入力２１６ＷＥ（書き込み許可）入力２１８ローカルアドレスバス２１９処理要素２２０ＯＥ（出力許可）入力４００第２の実施例メモリ４０２ＲＡＭ４０４レジスタ５００第３の実施例メモリ５０２ＲＡＭ５０４同報通信ＲＡＭ５０６アドレスバス５０８データバス５１０乗算器５１２マルチプレクサ５１４シフト回路５１６マルチプレクサ５１８ＡＬＵ５２０累算器５２２シフト回路５２４レジスタ５２６レジスタ５２８−５３０アドレスレジスタ５３２制御ワード５６８メモリチップ５７０下位部分５７２上位部分５７４同一チップデコーダ５７６メモリ制御器５７８論理回路６００第４の実施例メモリシステム６０２ＣＰＵ６１０、６１１、６１２、…６２９アドレスメモリ６５０、６５１、６５２、… データメモリ７０２アドレスＲＡＭ７０４同報通信ＲＡＭ７０６論理回路７２０レディ８００第５の実施例メモリ８０２ＲＡＭ８０４同報通信ＲＡＭ８０６論理回路８１２累算器９００ＳＤＭマシン

───────────────────────────────────────────────────── フロントページの続き (72)発明者バサバラジアイ．パリテアメリカ合衆国テキサス州，ダラス，ブレントリッジコート 10108 (72)発明者ジョージアール．ドディントンアメリカ合衆国テキサス州，リチャードソン，セントルークスドライブ 910 (72)発明者ウォレンエル．ビーンアメリカ合衆国テキサス州，ダラス，ウィンチェスター 7031 (72)発明者マークジー．ハーワードアメリカ合衆国テキサス州，ウィリー, ダグラス 100 (72)発明者トーマスジェイ．アトンアメリカ合衆国テキサス州，ダラス，デールコートサークル 15735

Claims

【特許請求の範囲】

【請求項１】集積回路であって、 (a) データメモリであって、データバス端子に接続され
たデータメモリ、 (b) 前記データメモリに接続されたチップ選択端子、 (c) 前記データバス端子に接続され、前記チップ選択端
子には接続されていない同報通信メモリ、 (d) 前記データメモリと前記同報通信メモリの両方へつ
ながれたデータ経路、を含む、集積回路。