JPH11149457A - Cpu degrading system for cluster connection multi-cpu system - Google Patents
Cpu degrading system for cluster connection multi-cpu systemInfo
- Publication number
- JPH11149457A JPH11149457A JP9331096A JP33109697A JPH11149457A JP H11149457 A JPH11149457 A JP H11149457A JP 9331096 A JP9331096 A JP 9331096A JP 33109697 A JP33109697 A JP 33109697A JP H11149457 A JPH11149457 A JP H11149457A
- Authority
- JP
- Japan
- Prior art keywords
- cpu
- register
- control unit
- node
- bus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000593 degrading effect Effects 0.000 title claims description 8
- 238000003745 diagnosis Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 9
- 230000005856 abnormality Effects 0.000 claims description 7
- 239000013256 coordination polymer Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 8
- 230000007850 degeneration Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
Landscapes
- Multi Processors (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
- Hardware Redundancy (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、複数のCPU間で
メモリを共有するマルチ・プロセッサを有するコンピュ
ーティング・システムに関し、特に複数のCPUをクラ
スタ接続し1つのノードとみなし、さらに複数のノード
がシステム・バスに接続されるクラスタ接続マルチ・プ
ロセッサ・システムにおいて、システム立ち上げ時の耐
故障システムが重要視される高信頼性の中小規模サーバ
・コンピューティング・システムのデグレード方式に関
する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a computing system having a multi-processor for sharing memory among a plurality of CPUs, and more particularly, to a method in which a plurality of CPUs are connected as a cluster and regarded as one node. In a cluster connection multi-processor system connected to a system bus, the present invention relates to a high-reliability small-to-medium-scale server computing system degrading method in which a fault-tolerant system at the time of system startup is regarded as important.
【0002】[0002]
【従来の技術】従来、複数個のCPUを有するマルチ・
プロセッサ・システムにおいては、システムの立ち上げ
時に故障したCPUが存在していた場合、故障CPUを
切り離してシステムを縮退(デグレード)して立ち上げ
を行うように構成される。2. Description of the Related Art Conventionally, a multi-processor having a plurality of CPUs
In a processor system, when a failed CPU is present at the time of starting the system, the failed CPU is separated and the system is degraded and started.
【0003】このため、全CPUが電源投入直後より共
用の記憶装置を設け、記憶装置各部に各CPUの初期診
断結果を書き込み、故障CPUが存在する場合にはメイ
ンとなるCPUがデグレード処理を行うという方法が採
られている。For this reason, all the CPUs are provided with a common storage device immediately after the power is turned on, write the initial diagnosis result of each CPU into each unit of the storage device, and when there is a faulty CPU, the main CPU performs a degrading process. The method is adopted.
【0004】この種の従来の技術として、例えば特開平
4−329462号公報には、一部の従プロセッサが不
正動作となってもマルチプロセッサシステムを動的に縮
退させて運用を続行できるようにしたマルチプロセッサ
の動的縮退運用方式が提案されている。For example, Japanese Patent Application Laid-Open No. Hei 4-329462 discloses a conventional multi-processor system in which even if some of the slave processors malfunction, the multiprocessor system can be dynamically degenerated and the operation can be continued. A multi-processor dynamic degenerate operation scheme has been proposed.
【0005】この方式は、共通領域に設けられたCPU
機能割り当てテーブルを主プロセッサが更新することに
より、ある従プロセッサが故障した場合、正常な従プロ
セッサの機能分担を変更し、動的に縮退運用させること
を可能としている。[0005] This system uses a CPU provided in a common area.
By updating the function assignment table by the main processor, when a certain sub-processor fails, the function allocation of the normal sub-processor can be changed and the degraded operation can be performed dynamically.
【0006】また、例えば特開平4−181435号公
報には、マルチプロセッサを有するシステムにおいて、
プロセッサ中でハードエラーが発生した場合に縮退情報
を作成して記憶して利用することでハードエラーが発生
したプロセッサを確実に認知でき、該プロセッサをシス
テムから切り放した縮退運転を実行し、信頼性を向上す
るコンピュータシステムが提案されている。このシステ
ムも、共通領域に各々のプロセッサの縮退情報を書き込
み、メイン・プロセッサが該縮退情報を参照し故障プロ
セッサを切り離して立ち上げることにより、縮退運転を
可能としたものである。For example, Japanese Patent Application Laid-Open No. 4-181435 discloses a system having a multiprocessor.
When a hard error occurs in a processor, the degeneration information is created, stored, and used, whereby the processor in which the hard error has occurred can be reliably recognized, the degeneration operation with the processor disconnected from the system is performed, and the reliability is reduced. Computer systems have been proposed to improve the performance. In this system as well, degeneration information of each processor is written in a common area, and the degenerate operation is enabled by the main processor referring to the degeneration information and starting up with the failed processor separated.
【0007】[0007]
【発明が解決しようとする課題】しかしながら、上記従
来のデグレート技術は、下記記載の問題点を有してい
る。However, the conventional degrate technique has the following problems.
【0008】第1の問題点は、縮退処理を実際に行うメ
インとなるプロセッサがハードウェア的に予め決まって
おり、このメインとなるCPUが故障していた場合に
は、システムが全く立ち上がらないという状況が発生し
得る、ということである。The first problem is that the main processor that actually performs the degeneration processing is predetermined in hardware, and if the main CPU fails, the system will not start at all. A situation can occur.
【0009】また、第2の問題点は、全CPUが共通に
使用可能な共用の記憶装置などが必須とされており、外
部回路の実装面積の増大とコストの上昇を招く、という
ことである。A second problem is that a common storage device that can be commonly used by all CPUs is required, which leads to an increase in the mounting area of external circuits and an increase in cost. .
【0010】さらに、第3の問題点として、故障のCP
UとCPU制御部をバス接続(クラスタ接続)して1ノ
ードとみなし、システム・バスに複数のノードを接続す
ることにより、バスの電気的負荷を上げることなく、よ
り多くのCPUを用いたシステムを構築することが可能
な、クラスタ接続マルチ・プロセッサ・システムを採用
した場合、クラスタ上のCPUが一つでも故障していた
場合、CPU制御部に悪影響を及ぼし、正常なCPUを
含む1ノードごとシステム・バスから切り離さざるを得
ないという事態が発生する、などの問題がある。Further, as a third problem, a faulty CP
A system using more CPUs without increasing the electrical load of the bus by connecting a plurality of nodes to the system bus by connecting the U and the CPU control unit as a node by bus connection (cluster connection). When a cluster-connected multi-processor system is adopted, even if at least one of the CPUs on the cluster fails, the CPU control unit is adversely affected, and each node including a normal CPU is used. There is a problem that a situation arises in which the system must be disconnected from the system bus.
【0011】そして、第4の問題点として、このクラス
タ接続マルチ・プロセッサ・システムにおいては、CP
Uの個別故障、CPU制御部の個別故障など様々な故障
要因が増大し、それぞれに応じた縮退技術を用いる必要
がある。As a fourth problem, in this cluster-connected multi-processor system, the CP
Various failure factors such as an individual failure of U and an individual failure of the CPU control unit increase, and it is necessary to use a degeneration technique corresponding to each failure factor.
【0012】したがって、本発明は、上記従来技術の問
題点を解消すべく創案されたものであって、その目的
は、CPUが故障した場合、及びCPU制御部が故障し
た場合に、可能な限り正常なCPUを失うことなく故障
部分をシステムから切り離して初期化動作を完了させ、
システムの故障に対する信頼性の向上を図るクラスタ接
続マルチ・プロセッサ・システムにおける故障CPUの
デグレード方式を提供することにある。Accordingly, the present invention has been made in order to solve the above-mentioned problems of the prior art, and its object is to solve the problem as much as possible when the CPU fails and the CPU control unit fails. The faulty part is separated from the system without losing the normal CPU, and the initialization operation is completed.
It is an object of the present invention to provide a method for degrading a failed CPU in a cluster-connected multi-processor system for improving reliability against a system failure.
【0013】[0013]
【課題を解決するための手段】前記目的を達成するた
め、本発明のクラスタ接続マルチ・プロセッサ・システ
ムのCPUデグレート方式は、複数個のCPUと、各々
のCPUの制御を行いシステムで一意のノードID番号
が付けられているCPU制御部がクラスタ・バスで接続
され、前記複数のCPUにより共有されるメモリ、I/
Oと、を備え、前記複数のCPU制御部がシステム・バ
スを介して結合されるマルチ・プロセッサ・システムに
おいて、前記CPU制御が、少なくとも、前記クラスタ
・バスからCPUを切り離し制御するための制御レジス
タ(フリーズ・レジスタ)と、前記CPUのクラスタ・
バスの接続状況を示すレジスタ(CPUステータス・レ
ジスタ)と、を備え、前記クラスタ・バス上のCPUの
各々が初期動作を開始すると、自CPUに対応するCP
Uステータス・レジスタにクラスタ接続を示すフラグを
書き込み、その後CPUの初期診断を継続しCPUに異
常が認められ故障と判断された場合は、フリーズ・レジ
スタにライトしCPUのクラスタ・バスからの論理的切
り離しを行い、CPU制御部は故障CPUからのリクエ
ストには一切応答しないことにより、前記CPUをシス
テム上から切り離すように制御することを特徴とする。In order to achieve the above object, a CPU degration method of a cluster-connected multi-processor system according to the present invention comprises a plurality of CPUs and a node unique to the system which controls each CPU. A CPU control unit to which an ID number is assigned is connected by a cluster bus, and a memory and an I / O shared by the plurality of CPUs.
O, in a multi-processor system in which the plurality of CPU control units are coupled via a system bus, the CPU control is at least a control register for controlling disconnection of a CPU from the cluster bus. (Freeze register) and the CPU cluster
And a register (CPU status register) indicating a bus connection status. When each of the CPUs on the cluster bus starts an initial operation, a CP corresponding to its own CPU is started.
A flag indicating the cluster connection is written in the U status register. After that, the initial diagnosis of the CPU is continued. It is characterized in that the CPU is disconnected and the CPU control unit does not respond to a request from the failed CPU at all, so that the CPU is controlled to be disconnected from the system.
【0014】また、本発明のクラスタ接続マルチ・プロ
セッサ・システムのCPUデグレート方式は、前記CP
U制御部が、クラスタ・バス上の前記CPUの、前記C
PU制御部内での一意のCPU ID番号を示すCPU
IDレジスタと、システムで一意のノードID番号を
示すノード(NODE)IDレジスタと、CPU制御部
とシステム・バスとの論理的接続状況を示す専用信号線
(コネクト線)と、複数の他CPU制御部からのコネク
ト線を受信し、リセット時に制御部の実装状況をホール
ドするレジスタ(コンフィギュレーション・レジスタ)
と、前記システム・バスと各々のCPU制御部とが、C
PU及びCPU制御部の初期診断後に前記システム・バ
スから切り離されていることを示すレジスタ(ディスコ
ネクト検出レジスタ)と、システム・バスとCPU制御
部を論理的に切り離し制御するための制御レジスタ(デ
ィスコネクト・レジスタ)と、更に備え、CPU初期診
断後、ノード内のCPUが故障と判断され全てのCPU
がフリーズ・レジスタにライトした場合、および、ノー
ド内の全てのCPUが故障、未実装などにより、前記C
PUステータス・レジスタへ一定期間内に書き込み動作
がない場合は直ちにコネクト線をネゲートし、該CPU
制御部とシステム・バスとの切り離しを行い、また、C
PU初期診断が正常終了した場合は、CPUステータス
・レジスタ、フリーズ・レジスタ、CPU ID番号レ
ジスタを読み出し、各々のCPU制御部内で正常かつI
D番号が一番小さいCPUがノード・マスタCPUとな
り、各々のCPU制御部の初期診断を開始し、CPU制
御部内に異常が認められ故障と判断された場合は、ディ
スコネクト・レジスタにライトし、コネクト線をネゲー
トさせシステム・バスからの切り離しを行い、CPU及
びCPU制御部の初期診断終了後、正常なノードマスタ
CPUはコンフィギュレーション・レジスタとディスコ
ネクト検出レジスタを読み出し、ID番号の一番小さい
ノード・マスタCPUがシステム・マスタCPUとして
決定するよう制御することを特徴とする。Further, the CPU degrate method of the cluster-connected multi-processor system of the present invention is the same as that of
A U control unit for controlling the CPU of the CPU on the cluster bus
CPU indicating a unique CPU ID number in the PU control unit
An ID register, a node (NODE) ID register indicating a unique node ID number in the system, a dedicated signal line (connect line) indicating a logical connection state between the CPU control unit and the system bus, and a plurality of other CPU control units. Register that receives the connection line from the control unit and holds the mounting status of the control unit at reset (configuration register)
And the system bus and each of the CPU controllers
A register (disconnect detection register) indicating that the PU and the CPU control unit are disconnected from the system bus after the initial diagnosis, and a control register (disconnect control) for logically disconnecting and controlling the system bus and the CPU control unit. Connect register), and after the initial diagnosis of the CPU, all the CPUs in the node are determined to be faulty.
Has written to the freeze register, and all the CPUs in the node have failed,
If there is no write operation to the PU status register within a certain period, the connect line is immediately negated and the CPU
Disconnects the control unit from the system bus.
If the PU initial diagnosis is completed normally, the CPU status register, freeze register, and CPU ID number register are read out, and the CPU
The CPU with the smallest D number becomes the node master CPU, starts initial diagnosis of each CPU control unit, and when an abnormality is recognized in the CPU control unit and it is determined that a failure has occurred, it is written to the disconnect register. After the connection line is negated and disconnected from the system bus, and the initial diagnosis of the CPU and the CPU control unit is completed, the normal node master CPU reads the configuration register and the disconnect detection register, and reads the node having the smallest ID number. -The master CPU is controlled to be determined as the system master CPU.
【0015】また、本発明のクラスタ接続マルチ・プロ
セッサ・システムのCPUデグレート方式は、CPU初
期診断、CPU制御部初期診断、システム初期診断のそ
れぞれのプログラムを格納したメモリを備え、電源投入
などのリセット時において、(a)各々の前記CPU制
御部はコネクト線をアサートし、CPU制御部の実装状
況を他CPU制御部へ通知し、一方他CPU制御部から
のコネクト線を受信ホールドし、コンフィギュレーショ
ン・レジスタに反映させ、(b)前記複数のCPUは前
記メモリから前記初期診断プログラムを読み出し、
(c)前記CPUは前記CPU制御部内の前記CPUス
テータス・レジスタにライトを行いCPUの存在を示
し、(d)前記CPUはCPU自身内部の初期診断を行
い、CPUに異常が認められた場合は故障と判断し、フ
リーズ・レジスタへライトを行い、さらに全てのCPU
がフリーズ・レジスタへライトした場合はコネクト線を
ネゲートし、該CPU制御部とシステム・バスとの論理
的切り離しを行い(e)一方、前記初期診断を正常終了
したCPUは、CPUステータス・レジスタ、フリーズ
・レジスタ、CPU IDレジスタを読み出し、正常に
CPU初期診断を終了し且つCPU ID番号の最も小
さいCPUが該CPU制御部内のノード・マスタCPU
となり、(f)前記ノード・マスタCPUは前記CPU
制御部初期診断を実行し、CPU制御部に異常が認めら
れた場合はディスコネクト・レジスタへライトを行い、
コネクト線をネゲートし、該CPU制御部とシステム・
バスとの論理的切り離しを行い、(g)前記CPU制御
部初期診断を正常終了したノード・マスタCPUは、コ
ンフィギュレーション・レジスタとディスコネクト検出
レジスタ、ノードIDレジスタを読み出し、前記システ
ム・バスと接続状態にあり、且つノードID番号の一番
小さいCPU制御部ノードIDを調べ、自己のノードI
D番号に等しい場合にシステム・マスタCPUとなり、
システム初期診断を実行を行うことにより、前記故障C
PUを動的にシステムから切り離すことを特徴とする。The CPU degrate method of the cluster-connected multi-processor system of the present invention comprises a memory storing programs for initial diagnosis of CPU, initial diagnosis of CPU control unit, and initial diagnosis of system, and resets when power is turned on. At time (a), each of the CPU control units asserts a connect line, notifies the other CPU control units of the mounting status of the CPU control unit, and receives and holds the connect line from the other CPU control unit, and (B) the plurality of CPUs read the initial diagnosis program from the memory,
(C) The CPU writes to the CPU status register in the CPU control unit to indicate the presence of the CPU. (D) The CPU performs an initial diagnosis inside the CPU itself, and when an abnormality is found in the CPU, Judge as failure, write to the freeze register, and all CPUs
When the CPU writes to the freeze register, the connection line is negated and the CPU control unit is logically disconnected from the system bus (e). The CPU reads the freeze register and the CPU ID register, completes the initial diagnosis of the CPU normally, and sets the CPU having the smallest CPU ID number to the node master CPU in the CPU controller.
(F) the node master CPU is the CPU
Execute the initial diagnosis of the control unit, and if an abnormality is found in the CPU control unit, write to the disconnect register,
The connection line is negated, and the CPU control unit and the system
(G) The node master CPU, which has completed the initial diagnosis of the CPU control unit normally, reads the configuration register, the disconnect detection register, and the node ID register, and connects to the system bus. Check the node ID of the CPU control unit which is in the state and has the smallest node ID number.
When it is equal to the D number, it becomes the system master CPU,
By performing the system initial diagnosis, the failure C
It is characterized in that the PU is dynamically disconnected from the system.
【0016】[0016]
【発明の実施の形態】本発明の好ましい実施の形態につ
いて以下に説明する。図1は、本発明の実施の形態の構
成を示す図である。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments of the present invention will be described below. FIG. 1 is a diagram showing a configuration of an embodiment of the present invention.
【0017】図1を参照すると、本発明の実施の形態に
おいて、複数のCPU1がクラスタ・バス7を構成し、
各クラスタ・バス7とシステム・バス6間の制御を行う
CPU制御部2が複数設けられ、複数のCPU1により
共有されるメモリ3と、I/O制御部5とがシステム・
バス6で結合されるマルチ・プロセッサ・システムとし
て構成されている。Referring to FIG. 1, in an embodiment of the present invention, a plurality of CPUs 1 constitute a cluster bus 7;
A plurality of CPU controllers 2 for controlling between each cluster bus 7 and the system bus 6 are provided, and a memory 3 shared by a plurality of CPUs 1 and an I / O controller 5
It is configured as a multi-processor system connected by a bus 6.
【0018】本発明の実施の形態においては、図2に示
すように、各CPU1が動作開始直後に自CPUの存在
を示すためにライトするレジスタとして、ステータス・
レジスタ201を備え、各CPU1がCPU初期診断を
開始し故障と判断された場合には、フリーズ・レジスタ
200へライトすることにより、クラスタ・バス7から
該故障CPU1を切り離す。In the embodiment of the present invention, as shown in FIG. 2, each of the CPUs 1 writes a status register immediately after the start of operation to indicate the presence of its own CPU.
A register 201 is provided, and when each CPU 1 starts the initial CPU diagnosis and is determined to be faulty, the CPU 1 is separated from the cluster bus 7 by writing to the freeze register 200.
【0019】一つのCPU制御部2に接続される複数の
CPU1のうち、ノード・マスタCPUの決定のための
用いられるCPU ID番号レジスタ205が備えられ
ている。A CPU ID number register 205 used for determining a node master CPU among a plurality of CPUs 1 connected to one CPU control unit 2 is provided.
【0020】また、ノード・マスタCPUがCPU制御
部2を故障と判断した場合には、ディスコネクト・レジ
スタ204へライトすることにより、システム・バス6
から該CPU制御部2が論理的に切り離される。When the node master CPU determines that the CPU control unit 2 has failed, the node master CPU writes the data to the disconnect register 204, thereby causing the system bus 6 to fail.
From the CPU controller 2 is logically disconnected.
【0021】さらに、システム・マスタCPUの決定に
おいては、図1に示すように、CPU制御部2の実装状
況、及びシステム・バス6との論理的接続状況を示すコ
ネクト線8が備えられ、他CPU制御部からのコネクト
線8をリセット解除直後に保持し、CPU制御部の実装
状況を反映するコンフィギュレーション・レジスタ20
2と、現在のコネクト線8の状況を反映させるディスコ
ネクト・レジスタ204と、を備えている。Further, in determining the system master CPU, as shown in FIG. 1, a connection line 8 indicating the mounting status of the CPU control unit 2 and the logical connection status with the system bus 6 is provided. The configuration register 20 which holds the connect line 8 from the CPU control unit immediately after reset release and reflects the mounting state of the CPU control unit
2 and a disconnect register 204 that reflects the current state of the connect line 8.
【0022】各CPU1は、電源投入動作開始直後に、
自CPUの存在を示すために、CPUステータス・レジ
スタ201へライトを行い、CPU初期診断を開始す
る。Immediately after the power-on operation starts, each CPU 1
In order to indicate the existence of the own CPU, a write to the CPU status register 201 is performed, and a CPU initial diagnosis is started.
【0023】故障と判断された場合には、フリーズ・レ
ジスタ200へライトを行うことにより、クラスタ・バ
ス7からの切り離し指示を行い、以後、CPU制御部2
は、故障CPUからのリクエストに一切応答しないこと
により、故障CPUを論理的に切り離す。If it is determined that a failure has occurred, a write to the freeze register 200 is performed to instruct disconnection from the cluster bus 7.
Does not respond to any request from the failed CPU, thereby logically separating the failed CPU.
【0024】CPU初期診断終了後、各CPU1は、C
PU ID番号レジスタ205、CPUステータス・レ
ジスタ201、フリーズ・レジスタ200を読み出し、
正常動作するCPUが存在しており、かつ、ID番号が
一番小さいCPUが、ノード・マスタCPUとなり、C
PU制御部の初期診断を開始する。After the completion of the CPU initial diagnosis, each CPU 1
Reads the PU ID number register 205, CPU status register 201, and freeze register 200,
The CPU having a normally operating CPU and the smallest ID number is the node master CPU,
The initial diagnosis of the PU control unit is started.
【0025】CPU制御部の初期診断において、CPU
制御部2が故障と判断された場合には、ディスコネクト
・レジスタ204へライトを行い、システム・バス6か
ら該故障CPU制御部2を切り離し、同時に、コネクト
線8がネゲートされ、他CPU制御部に対し、ディスコ
ネクトが通知される。In the initial diagnosis of the CPU control unit, the CPU
If the control unit 2 is determined to be faulty, it writes to the disconnect register 204 to disconnect the faulty CPU control unit 2 from the system bus 6, and at the same time, the connect line 8 is negated and the other CPU control unit Is notified of the disconnect.
【0026】CPU制御部初期診断を正常に終了したノ
ード・マスタCPU1は、一定期間のポーリング後、デ
ィスコネクト・レジスタ204と、ノードID番号レジ
スタ206を参照し、システム・バス6とコネクト状態
にあり、且つノードID番号の一番小さいノード・マス
タCPUが、システム・マスタとなる。The node master CPU 1 that has normally completed the initial diagnosis of the CPU control unit is in a connected state with the system bus 6 by referring to the disconnect register 204 and the node ID number register 206 after polling for a certain period. The node master CPU having the smallest node ID number becomes the system master.
【0027】[0027]
【実施例】上記した本発明の実施の形態についてさらに
詳細に説明すべく、本発明の一実施例について図面を参
照して以下に説明する。図3は、本発明の一実施例の構
成を示す図である。図3を参照すると、本発明の一実施
例において、ノード60〜63は、クラスタ・バス7で
接続されたCPU10〜17と、CPU制御部20〜2
3と、から構成され、システム・バス6とローカル・バ
ス9に接続され、コネクト線80〜83は、それぞれ全
てのCPU制御部に接続されている。BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram showing an embodiment of the present invention; FIG. 3 is a diagram showing the configuration of one embodiment of the present invention. Referring to FIG. 3, in one embodiment of the present invention, nodes 60 to 63 include CPUs 10 to 17 connected by a cluster bus 7 and CPU controllers 20 to 2.
3 are connected to the system bus 6 and the local bus 9, and the connection lines 80 to 83 are respectively connected to all the CPU control units.
【0028】ROM(読み出し専用メモリ)4には、全
プロセッサ共通の初期診断ファームウェアが格納されて
おり、各ノードからローカル・バス9を介してアクセス
される。なお、図3に示すした構成において、ノード
数、ノード内クラスタ・バスに接続されるCPU数はあ
くまで参考のために例示したものであり、本発明は、こ
れらの構成に限定されるものではない。A ROM (read only memory) 4 stores initial diagnostic firmware common to all processors, and is accessed from each node via a local bus 9. In the configuration shown in FIG. 3, the number of nodes and the number of CPUs connected to the intra-node cluster bus are merely examples for reference, and the present invention is not limited to these configurations. .
【0029】図4は、本発明の一実施例のCPU制御部
20〜23の構成の一例を示す図である。図4を参照す
ると、各CPU制御部20〜23は、フリーズ・レジス
タ200、CPUステータス・レジスタ201、コンフ
ィギュレーション・レジスタ202、ディスコネクト検
出レジスタ203、ディスコネクト・レジスタ204、
CPU ID番号レジスタ205、ノード(NODE)
ID番号レジスタ206と、論理回路(論理ゲート)2
11〜218と、を含み、フリーズ・レジスタ200、
CPUステータス・レジスタ201は接続される2個の
CPUに対応しており、ディスコネクト・レジスタ20
4と共にリセット直後は初期値“0”を持つ。FIG. 4 is a diagram showing an example of the configuration of the CPU controllers 20 to 23 according to one embodiment of the present invention. Referring to FIG. 4, each of the CPU control units 20 to 23 includes a freeze register 200, a CPU status register 201, a configuration register 202, a disconnect detection register 203, a disconnect register 204,
CPU ID number register 205, node (NODE)
ID number register 206 and logic circuit (logic gate) 2
11-218, including a freeze register 200;
The CPU status register 201 corresponds to the two CPUs to be connected, and is connected to the disconnect register 20.
Immediately after the reset together with 4, it has an initial value "0".
【0030】また、カウンタ207は、リセット解除後
にカウントを開始し、カウント値が所定のカウンタ設定
値を超えると、カウンタ・オーバーフロー線208をア
サートし続ける。カウンタ設定値はリセット後、CPU
がリクエストを出し始めるまでの仕様上の時間より長め
の時間を設定し、この設定時間を超えて、CPUからリ
クエストがない場合には、CPUの故障、または未実装
と判断するために用いられる。The counter 207 starts counting after reset is released, and continues to assert the counter overflow line 208 when the count value exceeds a predetermined counter set value. After resetting the counter setting, the CPU
Is set to a time longer than the specification time until the request starts to be issued, and if there is no request from the CPU beyond this set time, it is used to determine that the CPU has failed or is not mounted.
【0031】また、CPU ID番号レジスタ205
は、リード要求のあったCPUに応じてID番号を返す
ようになっており、ノードID番号レジスタ206は外
部からハードウェア的に設定される。The CPU ID number register 205
Returns the ID number according to the CPU that has issued the read request, and the node ID number register 206 is externally set in hardware.
【0032】また、コンフィギュレーション・レジスタ
202は、リセット解除直後にコネクト線80〜83を
フリップフロップ(F/F)でホールドし、ノード60
〜63の実装状況を反映し、ディスコネクト検出レジス
タ203は、現在のコネクト線80〜83の状態を反映
している。The configuration register 202 holds the connect lines 80 to 83 with flip-flops (F / F) immediately after the reset is released.
63, and the disconnection detection register 203 reflects the current state of the connect lines 80-83.
【0033】各CPU制御部20〜23は、リセット解
除後は、CPUステータス・レジスタ201、フリーズ
・レジスタ200、ディスコネクト・レジスタ204、
カウンタオーバーフロー線208、論理回路211〜2
18の初期状態により、コネクト線から“1”を出力す
る。After the reset is released, the CPU control units 20 to 23 reset the CPU status register 201, the freeze register 200, the disconnect register 204,
Counter overflow line 208, logic circuits 211-2
According to the initial state of 18, "1" is output from the connect line.
【0034】一方、各CPU制御部20〜23のコネク
ト線80〜83を受信しており、リセット解除後、各コ
ネクト線をホールドし、コンフィギュレーション・レジ
スタ202へ反映させ、CPU制御部が存在する場合に
は、所定のビットに“1”が立つ。On the other hand, the connection lines 80 to 83 of the CPU control units 20 to 23 are received, and after the reset is released, each connection line is held and reflected in the configuration register 202, and the CPU control unit exists. In this case, "1" is set in a predetermined bit.
【0035】図5は、本発明の一実施例の処理フローを
示す流れ図である。FIG. 5 is a flowchart showing the processing flow of one embodiment of the present invention.
【0036】まず、リセット解除後各CPU10〜17
はローカル・バス9を介して初期診断ファームウェアが
格納されているROM4の内容を読み出し、ROMに書
かれた命令を実行する(ステップ101)。First, after the reset is released, each of the CPUs 10 to 17 is reset.
Reads the contents of the ROM 4 storing the initial diagnostic firmware via the local bus 9 and executes the instructions written in the ROM (step 101).
【0037】ROM4の内容を読み出すことが出来た場
合、CPUは、CPUステータス・レジスタ201へラ
イトを行い(ステップ102)、所定のビットに“1”
が書き込まれる。If the contents of the ROM 4 can be read, the CPU writes data to the CPU status register 201 (step 102), and sets a predetermined bit to "1".
Is written.
【0038】故障のためROMを読み出せない、または
CPUが実装されていない場合には、CPUステータス
・レジスタ201へ値が書き込まれないため、システム
全体には最初から存在しないものとして認識される。If the ROM cannot be read due to a failure, or if the CPU is not mounted, no value is written to the CPU status register 201, so that it is recognized as not existing in the entire system from the beginning.
【0039】正常なCPUは、次にCPU初期診断ファ
ームウェアを実行し(ステップ103)、異常を検知し
(ステップ104)、故障と判断した場合には、フリー
ズ・レジスタ200へライトを行い(ステップ11
2)、クラスタ・バス7から該故障CPUを切り離すよ
う指示する。CPU制御部は以後、該故障CPUからの
リクエストには一切応答せず、結果的にクラスタ・バス
7上から論理的に切り離される。The normal CPU then executes the CPU initial diagnosis firmware (step 103), detects an abnormality (step 104), and if it is determined to be faulty, writes to the freeze register 200 (step 11).
2) Instruct to disconnect the failed CPU from the cluster bus 7. Thereafter, the CPU control unit does not respond to any request from the failed CPU, and is consequently logically disconnected from the cluster bus 7.
【0040】ここで、CPUが未実装、または故障のた
めCPUステータス・レジスタ201にライトが行われ
ていない場合には、CPUステータス・レジスタ201
の値(反転論理)と、一定期間を経てアサートされたカ
ウンタ・オーバーフロー線208との論理積をとる論理
積(AND)ゲート211、213の出力が“1”とな
り、また故障によりフリーズ・レジスタ200へ“1”
がライトされた場合、論理積(AND)ゲート212,
214の出力が“1”となり、論理積ゲート217へ入
力され、結果的にノード内の全てのCPUが動作不可能
な場合(ステップ115)には、否定論理和(NOR)
218を介して、コネクト線がネゲートされ、直ちに他
CPU制御部へ通知され、CPU制御部自体がシステム
・バスから切り離される(ステップ116)。Here, if the CPU is not mounted or the CPU status register 201 is not written due to a failure, the CPU status register 201
(AND) and the outputs of the AND gates 211 and 213 which take the logical product of the counter overflow line 208 asserted after a certain period of time become "1", and the freeze register 200 To “1”
Is written, an AND gate 212,
The output of 214 becomes "1" and is input to the AND gate 217. As a result, if all the CPUs in the node cannot operate (step 115), a NOR (NOR) is performed.
The connection line is negated via 218, immediately notified to another CPU control unit, and the CPU control unit itself is disconnected from the system bus (step 116).
【0041】コネクト線をネゲートしたCPU制御部は
以後システム・バスを介する一切の応答を停止する。The CPU control unit negating the connect line stops any response via the system bus thereafter.
【0042】ノード内に正常なCPUが残されている場
合には、CPUステータス・レジスタ201、フリーズ
・レジスタ200、CPU ID番号レジスタを読み出
し(ステップ105)、正常動作しているCPUが自己
CPU ID番号に等しい場合にノード・マスタCPU
となる(ステップ106)。If a normal CPU remains in the node, the CPU status register 201, the freeze register 200, and the CPU ID number register are read (step 105), and the CPU that is operating normally has its own CPU ID. Node master CPU if equal to number
(Step 106).
【0043】それ以外のCPUは、ノード・スレーブC
PUとなり、専用のポーリング・ルーチンへ移る(ステ
ップ114)。Other CPUs are node / slave C
It becomes a PU and moves to a dedicated polling routine (step 114).
【0044】ノード・マスクとなったCPUは、次に、
CPU制御部初期診断を行い(ステップ107)、異常
を検知し(ステップ108)故障と判断した場合には、
ディスコネクト・レジスタ204へライトを行い(ステ
ップ113)、否定論理和(NOR)ゲート218を介
してコネクト線がネゲートされ、直ちに他CPU制御部
へ通知され、CPU制御部自体がシステム・バスから切
り離される(ステップ116)。The CPU serving as the node mask then:
When the CPU control unit performs an initial diagnosis (step 107), detects an abnormality (step 108), and determines that a failure has occurred,
A write is made to the disconnect register 204 (step 113), the connect line is negated via a NOR (NOR) gate 218, immediately notified to another CPU control unit, and the CPU control unit itself is disconnected from the system bus. (Step 116).
【0045】CPU制御部初期診断を正常終了したノー
ド・マスタCPUは、全ノードが初期診断処理が終了す
るのを一定時間待ち合わせた後、コンフィギュレーショ
ン・レジスタ202、ディスコネクト検出レジスタ20
3、ノードID番号レジスタ206を読み出し(ステッ
プ109)、システム・バス6とコネクト状態にあり、
最も小さい番号を持つノードを調べ、自己のノードID
番号に等しい場合システム・マスタCPUとなる(ステ
ップ110)。The node master CPU, which has normally completed the initial diagnosis of the CPU control unit, waits for a certain period of time for all nodes to complete the initial diagnosis processing, and then waits for the configuration register 202 and the disconnect detection register 20.
3. The node ID number register 206 is read (step 109), and is connected to the system bus 6;
Check the node with the smallest number, and check its own node ID
If it is equal to the number, it becomes the system master CPU (step 110).
【0046】それ以外はスレーブCUPとなり、専用の
ポーリング・ルーチンへ移る(ステップ114)。Otherwise, it becomes a slave CUP and moves to a dedicated polling routine (step 114).
【0047】システム・マスタCPUはシステム全体の
初期化を完了する(ステップ111)。The system master CPU completes initialization of the entire system (step 111).
【0048】このように、本実施例によれば、クラスタ
・バスによって複数のCPUが一つのノードを構成し、
さらに複数のノードがシステム・バスへ接続されるシス
テムにおいて、どのCPU、またどのCPU制御部が故
障した場合においても、各々の階層でマスタとなるCP
Uが動的に変更され、効率的にデグレート処理が行うこ
とが可能とされている。以上、本発明は上記実施例にの
み限定されるものでなく、本発明の原理に準ずる各種態
様を含むことは勿論である。As described above, according to the present embodiment, a plurality of CPUs constitute one node by the cluster bus,
Further, in a system in which a plurality of nodes are connected to a system bus, even when any CPU or any CPU control unit fails, a CP which becomes a master in each hierarchy is used.
U is dynamically changed so that the degrating process can be performed efficiently. As described above, the present invention is not limited to the above-described embodiment, but includes various embodiments according to the principle of the present invention.
【0049】[0049]
【発明の効果】以上説明したように、本発明によれば、
複数のCPUとCPU制御部をクラスタ接続し一ノード
とみなし、システム・バスに複数のノードを接続するこ
とにより、バスの電気的負荷を上げることなくより、多
くのCPUを用いたシステムを構築することが可能な、
クラスタ接続マルチ・プロセッサ・システムを採用した
場合において、CPUの個別故障、CPU制御部の個別
故障などに対し、各々の階層でマスタとなるCPUが動
的に変更されるため、マスタCPUが故障、またはマス
タ・ノードが故障のためにシステム全体が立ち上がらな
くなるという問題点を解消し、効率的にデグレート処理
が行うことを可能とする、という効果を奏する。As described above, according to the present invention,
A plurality of CPUs and a CPU control unit are connected as a cluster and regarded as one node, and a plurality of nodes are connected to a system bus, thereby constructing a system using more CPUs without increasing the electrical load on the bus. Is possible,
When a cluster-connected multi-processor system is adopted, the master CPU in each hierarchy is dynamically changed in response to an individual failure of the CPU, an individual failure of the CPU control unit, etc. Alternatively, it is possible to solve the problem that the whole system cannot be started due to the failure of the master node, and it is possible to efficiently perform the degrating process.
【図1】本発明の実施の形態の基本構成を示すブロック
図である。FIG. 1 is a block diagram showing a basic configuration of an embodiment of the present invention.
【図2】本発明の実施の形態において、CPU制御部内
の構成を簡単に説明するための図である。FIG. 2 is a diagram for simply describing a configuration inside a CPU control unit in the embodiment of the present invention.
【図3】本発明の一実施例の構成を示す図である。FIG. 3 is a diagram showing a configuration of an embodiment of the present invention.
【図4】本発明の一実施例のCPU制御部内の構成を示
す図である。FIG. 4 is a diagram illustrating a configuration inside a CPU control unit according to an embodiment of the present invention.
【図5】本発明の一実施例の動作を説明する流れ図であ
る。FIG. 5 is a flowchart illustrating the operation of one embodiment of the present invention.
【符号の説明】 1,10〜17 CPU 2,20〜23 CPU制御部 3 メモリ 4 ROM 5 I/O制御部 6 システム・バス 7 クラスタ・バス 8,80〜83 コネクト線 9 ローカル・バス 60〜63 ノード[Description of Signs] 1, 10 to 17 CPUs 2, 20 to 23 CPU control unit 3 Memory 4 ROM 5 I / O control unit 6 System bus 7 Cluster bus 8, 80 to 83 Connect line 9 Local bus 60 to 63 nodes
Claims (4)
御を行うCPU制御部と、がクラスタ・バスで接続さ
れ、 前記複数のCPUにより共有されるメモリ、及びI/O
制御部と、を備え、 前記複数のCPU制御部が、システム・バスを介して結
合されるマルチCPUシステムであって、 前記CPU制御が、前記クラスタ・バスからCPUを切
り離し制御するための制御レジスタ(「フリーズ・レジ
スタ」という)と、 前記CPUのクラスタ・バスの接続状況を示すレジスタ
(「CPUステータス・レジスタ」という)と、 を少なくとも備え、 前記クラスタ・バス上の前記CPUの各々が動作を開始
すると、自CPUに対応するCPUステータス・レジス
タにクラスタ接続を示すフラグを書き込み、その後、C
PUの初期診断を開始し、CPUに異常が認められ故障
と判断された場合には、前記フリーズ・レジスタにライ
トし、前記故障と判断されたCPUの前記クラスタ・バ
スからの論理的切り離しを行い、前記CPU制御部は、
前記故障CPUからのリクエストには一切応答しないこ
とにより、前記CPUをシステム上から切り離すように
制御する、ことを特徴とするクラスタ接続マルチ・プロ
セッサ・システムのCPUデグレード方式。A plurality of CPUs and a CPU control unit for controlling each of the CPUs are connected by a cluster bus, a memory shared by the plurality of CPUs, and an I / O.
A multi-CPU system in which the plurality of CPU control units are coupled via a system bus, wherein the CPU control controls the CPU to disconnect the CPU from the cluster bus. (Referred to as a “freeze register”), and a register (referred to as a “CPU status register”) indicating a connection status of the cluster bus of the CPU, wherein each of the CPUs on the cluster bus operates. At the start, a flag indicating a cluster connection is written in the CPU status register corresponding to the own CPU, and thereafter,
Initial diagnosis of the PU is started, and if an abnormality is found in the CPU and it is determined that the CPU is faulty, the freeze register is written to logically disconnect the CPU determined to be faulty from the cluster bus. , The CPU control unit includes:
A CPU degrading method for a cluster-connected multi-processor system, wherein the CPU is controlled so as not to be disconnected from the system by not responding to a request from the failed CPU at all.
上の前記CPUの、前記CPU制御部内での一意のCP
UのID番号を示すCPU・ID番号レジスタと、 システムで一意のノードID番号を示すノードID番号
レジスタと、 前記CPU制御部とシステム・バスとの論理的接続状況
を示す専用信号線(「コネクト線」という)と、 複数の他CPU制御部からのコネクト線を受信し、リセ
ット時に制御部の実装状況をホールドするレジスタ
(「コンフィギュレーション・レジスタ」という)と、 前記システム・バスと各々の前記CPU制御部とが、前
記CPU及び前記CPU制御部の初期診断後に前記シス
テム・バスから切り離されていることを示すレジスタ
(「ディスコネクト検出レジスタ」という)と、 前記システム・バスと前記CPU制御部を論理的に切り
離し制御するための制御レジスタ(「ディスコネクト・
レジスタ」という)と、を更に備え、 CPU初期診断後、前記CPU制御部に接続されるクラ
スタ(ノード)上の全てのCPUが故障と判断され全て
のCPUがフリーズ・レジスタにライトした場合、およ
び、前記ノード内の全てCPUが故障、未実装などによ
り、前記CPUステータス・レジスタへ一定期間内に書
き込み動作がない場合には、直ちに、前記コネクト線を
ネゲートし、該CPU制御部と前記システム・バスとの
切り離しを行い、 CPU初期診断が正常終了した場合は、前記CPUステ
ータス・レジスタ、前記フリーズ・レジスタ、前記CP
U・ID番号レジスタを読み出し、各々のCPU制御部
内で正常かつCPU・ID番号が最小のCPUがノード
・マスタCPUとなり、各々のCPU制御部の初期診断
を開始し、 前記CPU制御部内に異常が認められ故障と判断された
場合は、前記ディスコネクト・レジスタにライトし、前
記コネクト線をネゲートさせ前記システム・バスから切
り離しを行い、 前記CPU及びCPU制御部の初期診断終了後、正常な
ノード・マスタCPUは、前記コンフィギュレーション
・レジスタ、前記ディスコネクト検出レジスタ、ノード
IDレジスタを読み出し、正常動作し、且つID番号の
一番小さいノード・マスタCPUがシステム・マスタC
PUとして決定するよう制御する、 ことを特徴とする請求項1記載のクラスタ接続マルチC
PUシステムのCPUデグレード方式。2. The system according to claim 1, wherein the CPU control unit is configured to control a unique CP of the CPU on the cluster bus in the CPU control unit.
U, a CPU ID number register indicating the ID number of the U, a node ID number register indicating a node ID number unique to the system, and a dedicated signal line (“connect”) indicating the logical connection status between the CPU control unit and the system bus. A register for receiving connection lines from a plurality of other CPU control units, and holding a mounting state of the control unit at the time of reset (referred to as a “configuration register”); A register (referred to as a “disconnect detection register”) indicating that the CPU and the CPU are disconnected from the system bus after an initial diagnosis of the CPU and the CPU control; Control register ("Disconnect
After the initial diagnosis of the CPU, when all the CPUs on the cluster (node) connected to the CPU control unit are determined to have failed and all the CPUs have written to the freeze register; and If there is no write operation to the CPU status register within a certain period due to failure or non-mounting of all CPUs in the node, the connection line is immediately negated, and the CPU control unit and the system When the CPU is disconnected from the bus and the initial diagnosis of the CPU is completed normally, the CPU status register, the freeze register, the CP
The U / ID number register is read out, and the normal CPU with the smallest CPU / ID number in each CPU control unit becomes the node / master CPU, and starts initial diagnosis of each CPU control unit. If it is determined that a failure has occurred, write to the disconnect register, negate the connect line and disconnect from the system bus. The master CPU reads the configuration register, the disconnect detection register, and the node ID register, and operates normally, and the node master CPU having the smallest ID number is the system master C.
The cluster connection multi-C according to claim 1, wherein control is performed so as to be determined as a PU.
CPU degrading method for PU system.
システム初期診断のそれぞれのプログラムを格納したメ
モリを備え、 電源投入などのリセット時において、(a)各々の前記
CPU制御部はコネクト線をアサートし、前記CPU制
御部の実装状況を他CPU制御部へ通知し、一方、他C
PU制御部からのコネクト線を受信ホールドしてコンフ
ィギュレーション・レジスタに反映させ、(b)前記複
数のCPUは、前記メモリから前記初期診断プログラム
を読み出し、(c)前記CPUは、前記CPU制御部内
の前記CPUステータス・レジスタにライトを行ってC
PUの存在を示し、(d)前記CPUは、CPU自身内
部の初期診断を行い、自CPUに異常が認められた場合
に故障と判断し、前記フリーズ・レジスタへライトを行
い、さらに全ての前記CPUが前記フリーズ・レジスタ
へライトした場合はコネクト線をネゲートし、前記CP
U制御部とシステム・バスとの論理的切り離しを行い
(e)一方、前記初期診断を正常終了したCPUは、前
記CPUステータス・レジスタ、前記フリーズ・レジス
タ、前記CPU・ID番号レジスタを読出し、正常にC
PU初期診断を終了し、且つCPU・ID番号の最も小
さいCPUが該CPU制御部内のノード・マスタCPU
となり、(f)前記ノード・マスタCPUは、前記CP
U制御部初期診断を実行し、塩基CPU制御部に異常が
認められた場合には、ディスコネクト・レジスタへライ
トを行い、コネクト線をネゲートし、該CPU制御部と
システム・バスとの論理的切り離しを行い、(g)前記
CPU制御部初期診断を正常終了したノード・マスタC
PUは、前記コンフィギュレーション・レジスタと前記
ディスコネクト検出レジスタ、前記ノードIDレジスタ
を読み出し、前記システム・バスと接続状態にあり、且
つノードID番号の最も小さいCPU制御部のノードI
Dを調べ、このノードIDが自己のノードID番号に等
しい場合に、システム・マスタCPUとなり、システム
初期診断の実行を行うことにより、前記故障CPUを動
的にシステムから切り離す、ことを特徴とする請求項1
記載のクラスタ接続マルチ・プロセッサ・システムのC
PUデグレート方式。3. An initial diagnosis of a CPU, an initial diagnosis of a CPU control unit,
A memory for storing respective programs for system initial diagnosis; and at reset such as when power is turned on, (a) each of the CPU control units asserts a connect line, and the mounting status of the CPU control unit is changed by another CPU control unit. , While the other C
(B) the plurality of CPUs read out the initial diagnosis program from the memory, and (c) the CPU reads the connection line from the PU control unit. Write to the CPU status register of
(D) The CPU performs an initial diagnosis inside the CPU itself, determines that a failure has occurred in its own CPU, writes to the freeze register, and writes all the If the CPU writes to the freeze register, the connection line is negated and the CP
The U control unit is logically disconnected from the system bus (e). On the other hand, the CPU that has normally completed the initial diagnosis reads the CPU status register, the freeze register, and the CPU ID number register, and performs normal operation. To C
The CPU that has completed the PU initial diagnosis and has the smallest CPU ID number is the node master CPU in the CPU control unit.
(F) the node master CPU is
The U control unit initial diagnosis is performed, and if an abnormality is found in the base CPU control unit, a write is performed to the disconnect register, the connect line is negated, and the logical connection between the CPU control unit and the system bus is performed. (G) The node master C that has successfully completed the initial diagnosis of the CPU control unit.
The PU reads the configuration register, the disconnect detection register, and the node ID register, and connects to the node I of the CPU control unit having the smallest node ID number while being connected to the system bus.
D is checked, and if this node ID is equal to its own node ID number, it becomes the system master CPU and performs the initial diagnosis of the system to dynamically disconnect the failed CPU from the system. Claim 1
C of the cluster-attached multi-processor system described
PU degrate method.
制御部がクラスタ・バスを介して接続されCPUノード
を構成し、前記CPU制御部がシステム・バスを介して
他のCPUノードのCPU制御部、及びメモリ、I/O
制御部に接続してなるマルチCPUシステムにおけるC
PUのデグレード方式であって、 前記CPU制御部に、CPUの切り離し制御のための第
1のレジスタと、CPUのクラスタ・バスの接続状態を
示す第2のレジスタと、を少なくとも含み、 故障したCPUを個別に前記クラスタ・バスから切り離
すように制御すると共に、各階層、すなわちCPU、ノ
ードにおけるマスタを動的に決定するための手段を備え
たことを特徴とするクラスタ接続マルチ・プロセッサ・
システムのCPUデグレード方式。4. A plurality of CPUs and a CPU for controlling the CPUs
A control unit is connected via a cluster bus to form a CPU node, and the CPU control unit is connected to a CPU control unit of another CPU node via a system bus, a memory, and an I / O.
C in the multi-CPU system connected to the control unit
A PU degrading method, wherein the CPU control unit includes at least a first register for CPU disconnection control and a second register indicating a connection state of a cluster bus of the CPU; And a means for dynamically determining a master in each hierarchy, that is, a CPU and a node.
System CPU degrading method.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP33109697A JP3365282B2 (en) | 1997-11-14 | 1997-11-14 | CPU degrading method of cluster connection multi CPU system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP33109697A JP3365282B2 (en) | 1997-11-14 | 1997-11-14 | CPU degrading method of cluster connection multi CPU system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH11149457A true JPH11149457A (en) | 1999-06-02 |
| JP3365282B2 JP3365282B2 (en) | 2003-01-08 |
Family
ID=18239819
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP33109697A Expired - Fee Related JP3365282B2 (en) | 1997-11-14 | 1997-11-14 | CPU degrading method of cluster connection multi CPU system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3365282B2 (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007272846A (en) * | 2006-03-31 | 2007-10-18 | Nec Corp | Core cell change control method for information processing system and control program for it |
| US7610509B2 (en) | 2004-12-16 | 2009-10-27 | Nec Corporation | Fault tolerant computer system |
| JP2012079266A (en) * | 2010-10-06 | 2012-04-19 | Nec Computertechno Ltd | Information processing apparatus, fault portion discrimination method and fault portion discrimination program |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4525188B2 (en) * | 2004-06-09 | 2010-08-18 | ソニー株式会社 | Multiprocessor system |
-
1997
- 1997-11-14 JP JP33109697A patent/JP3365282B2/en not_active Expired - Fee Related
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7610509B2 (en) | 2004-12-16 | 2009-10-27 | Nec Corporation | Fault tolerant computer system |
| JP2007272846A (en) * | 2006-03-31 | 2007-10-18 | Nec Corp | Core cell change control method for information processing system and control program for it |
| JP2012079266A (en) * | 2010-10-06 | 2012-04-19 | Nec Computertechno Ltd | Information processing apparatus, fault portion discrimination method and fault portion discrimination program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3365282B2 (en) | 2003-01-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1078317B1 (en) | Method for switching between multiple system processors | |
| US9798556B2 (en) | Method, system, and apparatus for dynamic reconfiguration of resources | |
| US7251746B2 (en) | Autonomous fail-over to hot-spare processor using SMI | |
| US6970948B2 (en) | Configuring system units using on-board class information | |
| JP3447404B2 (en) | Multiprocessor system | |
| US7007192B2 (en) | Information processing system, and method and program for controlling the same | |
| US6640203B2 (en) | Process monitoring in a computer system | |
| AU2020285262B2 (en) | Error recovery method and apparatus | |
| JP6098778B2 (en) | Redundant system, redundancy method, redundancy system availability improving method, and program | |
| US11360839B1 (en) | Systems and methods for storing error data from a crash dump in a computer system | |
| JPH11161625A (en) | Computer system | |
| US20050204123A1 (en) | Boot swap method for multiple processor computer systems | |
| US7441150B2 (en) | Fault tolerant computer system and interrupt control method for the same | |
| JP3329986B2 (en) | Multiprocessor system | |
| JP4912731B2 (en) | Redundant I/O interface management | |
| US6862645B2 (en) | Computer system | |
| GB2342471A (en) | Configuring system units | |
| CN116974809A (en) | Fault information acquisition method and device, baseboard management controller, system and medium | |
| JP3365282B2 (en) | CPU degrading method of cluster connection multi CPU system | |
| US7243257B2 (en) | Computer system for preventing inter-node fault propagation | |
| JP4165499B2 (en) | Computer system, fault tolerant system using the same, and operation control method thereof | |
| JP5733384B2 (en) | Information processing device | |
| JP5970846B2 (en) | Computer system and computer system control method | |
| GB2342472A (en) | Process monitoring in a computer system | |
| JPH08263455A (en) | Degrading method for fault processor in multiprocessor system |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20021001 |
|
| LAPS | Cancellation because of no payment of annual fees |