JPH1173336A - Automatic restoration method for fault in computer system - Google Patents
Automatic restoration method for fault in computer systemInfo
- Publication number
- JPH1173336A JPH1173336A JP9249565A JP24956597A JPH1173336A JP H1173336 A JPH1173336 A JP H1173336A JP 9249565 A JP9249565 A JP 9249565A JP 24956597 A JP24956597 A JP 24956597A JP H1173336 A JPH1173336 A JP H1173336A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- recovery
- information
- fault
- recovery procedure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000004891 communication Methods 0.000 claims abstract description 17
- 238000011084 recovery Methods 0.000 claims description 143
- 238000012544 monitoring process Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 4
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、計算機システムの
障害復旧システムに関し、特に自動復旧機能を有する障
害復旧システムに関する。The present invention relates to a failure recovery system for a computer system, and more particularly to a failure recovery system having an automatic recovery function.
【0002】[0002]
【従来の技術】従来、計算機のオペレーティングシステ
ムと計算機上で動作する各アプリケーション・ソフトウ
ェアおいて、障害が発生した際の警告方法としては、エ
ラーコードや障害の結果を表す簡単なメッセージを表示
させる方法が一般的である。2. Description of the Related Art Conventionally, in a computer operating system and each application software operating on the computer, as a warning method when a failure occurs, a method of displaying an error code or a simple message indicating a result of the failure is used. Is common.
【0003】そして、利用者は、障害の原因究明や解決
策を講じるために、利用者自身が表示されたメッセージ
を確認しながら、マニュアルを参照したり、各アプリケ
ーション開発元や、各ハードウェア開発元に復旧方法を
問い合わせるなどして、復旧処理を行っていた。[0003] Then, in order to investigate the cause of the failure and take a solution, the user refers to the manual while checking the displayed message, and develops each application and each hardware. The restoration process was performed by inquiring about the original restoration method.
【0004】また、例えば特開平4−147348号公
報に記載されているように、デュプレクス構成の計算機
システムにおいては、業務処理計算機に対し、待機用計
算機を個別に用意して障害発生状況を常に監視し、障害
発生時には、利用者が予め作成して待機用計算機に格納
しておいた障害処理レコードにより復旧処理を行う構成
とされている。Further, as described in Japanese Patent Application Laid-Open No. 4-147348, for example, in a computer system having a duplex configuration, a standby computer is separately prepared for a business processing computer to constantly monitor a failure occurrence state. When a failure occurs, the user performs recovery processing using a failure processing record created in advance and stored in the standby computer.
【0005】[0005]
【発明が解決しようとする課題】しかしながら、従来の
障害復旧方式は下記記載の問題点を有している。However, the conventional fault recovery system has the following problems.
【0006】第1の問題点として、上記特開平4−14
7348号公報等に提案される障害復旧方式において
は、障害復旧の為に用意されている障害処理レコードに
より全ての障害を復旧することは困難である、というこ
とである。As a first problem, the above-mentioned Japanese Patent Laid-Open Publication No.
In the failure recovery system proposed in Japanese Patent No. 7348 and the like, it is difficult to recover all failures by using a failure processing record prepared for recovery from a failure.
【0007】その理由は、前記障害処理レコーダが、利
用者によって作成される為、利用者が予め発生を予測し
得る障害以外については、復旧処理を行うことができな
い、からである。[0007] The reason is that, since the failure processing recorder is created by a user, recovery processing cannot be performed for a failure other than a failure that the user can predict in advance.
【0008】第2の問題点は、上記特開平4−1473
48号公報等に提案される障害復旧方式においては、シ
ステム全体、特にネットワークに対し、常に負荷がかか
ることになる、ということである。[0008] The second problem is the above-mentioned Japanese Patent Laid-Open No. 4-1473.
In the failure recovery system proposed in JP-A-48-48, the load is always imposed on the entire system, especially on the network.
【0009】その理由は、各業務処理計算機に対して待
機用計算機を個別に用意し、待機用計算機は常に業務処
理計算機の障害発生状況を監視する必要がある、ためで
ある。The reason is that a standby computer must be prepared for each business processing computer, and the standby computer must always monitor the failure occurrence status of the business processing computer.
【0010】第3の問題点は、従来の障害復旧方式にお
いては、障害発生時に表示されるメッセージを基に、利
用者が手動で復旧処理を行う場合、例えば利用者の不慣
れなどのため、障害の復旧に時間を要する、ということ
である。[0010] The third problem is that, in the conventional failure recovery method, when a user manually performs a recovery process based on a message displayed at the time of occurrence of a failure, for example, the user is unfamiliar with the failure. It will take time to recover.
【0011】その理由は、障害発生時に表示されるメッ
セージなどは予め各計算機上に格納する必要があるた
め、格納領域に制限があり、各障害の原因を取り除きシ
ステムを復旧させるのに充分な情報を格納させることは
困難であり、このため、障害の原因究明や解決策を講じ
るためには、利用者自身が表示されたメッセージを確認
しながらマニュアルを参照したり、各アプリケーション
開発元や、各ハードウェア開発元に復旧方法を問い合わ
せるなどして、復旧処理を行わなければならない、こと
による。The reason is that messages displayed at the time of occurrence of a fault need to be stored in advance on each computer, so the storage area is limited, and information sufficient to eliminate the cause of each fault and restore the system is required. Therefore, it is difficult for users to refer to the manual while checking the displayed message, and to check the message displayed by each user, The recovery process must be performed by inquiring the hardware developer about the recovery method.
【0012】したがって本発明は、上記問題点に鑑みて
なされたものであって、その目的は、計算機上で発生す
る全ての障害に対し、利用者の経験に依存せず、即時
に、自動的に復旧処理を行う計算機システムの障害復旧
方式を提供することにある。[0012] Therefore, the present invention has been made in view of the above problems, and its object is to automatically and immediately respond to all failures occurring on a computer without depending on the user's experience. Another object of the present invention is to provide a failure recovery method for a computer system that performs recovery processing.
【0013】[0013]
【課題を解決するための手段】前記目的を達成するた
め、本発明は、計算機システムにおいて、障害発生時に
システムまたはアプリケーションから発行されるエラー
コードに対応する障害詳細情報として障害内容説明情報
及び障害復旧手順格納先アドレス情報を格納した障害詳
細情報記憶部と、障害発生時のエラーコードから前記障
害詳細情報記憶部を検索して障害復旧手順格納先を特定
して該障害復旧手順格納先に通信接続する手段と、を備
え、前記障害復旧手順格納先には、エラーコードに対応
する障害復旧手順情報を予め用意しておき、前記障害復
旧手順格納先は、前記計算機システムにおける前記障害
発生時の前記エラーコードを受けて該エラーコードに対
応する障害復旧手順情報を前記計算機システムに通知
し、前記計算機システムでは前記障害復旧手順格納先か
ら送信された障害復旧手順情報を基に、障害復旧処理を
実行する。In order to achieve the above-mentioned object, the present invention provides a computer system, comprising: fault description information and fault recovery as fault detail information corresponding to an error code issued from the system or application when a fault occurs. A failure detail information storage unit storing the procedure storage destination address information, and searching the failure detail information storage unit from the error code at the time of the failure, specifying a failure recovery procedure storage location, and communicating with the failure recovery procedure storage location Means for storing the failure recovery procedure information corresponding to the error code in the storage location of the failure recovery procedure in advance, and the storage location of the failure recovery procedure stores the failure recovery procedure information when the failure occurs in the computer system. Upon receiving the error code, it notifies the computer system of failure recovery procedure information corresponding to the error code, and In the basis of the fault recovery procedure information transmitted from the disaster recovery procedure storage destination, and executes a fault recovery process.
【0014】[0014]
【発明の実施の形態】本発明の実施の形態について以下
に説明する。本発明の計算機システムの障害復旧方式
は、その好ましい実施の形態において、計算機のオペレ
ーティングシステム(図1の2)が検出するエラーコー
ドと計算機上で動作する各アプリケーション・ソフトウ
ェア(図1の3)が検出するエラーコードと、そのエラ
ーコードに対する障害詳細情報(障害復旧手順格納先の
アドレス、障害の原因などに関する情報)を記憶した障
害詳細情報記憶部(図1の6)と、常時計算機の障害発
生状況を監視する障害監視手段(図1の4)と、この障
害監視手段から通知されたエラーコードを基に障害詳細
情報記憶部を参照し障害詳細情報を取得する復旧支援制
御手段(図1の5)と、復旧支援制御手段で取得した障
害詳細情報を表示する障害情報表示手段(図1の7)
と、障害詳細情報(障害復旧手順格納先のアドレス)を
基に復旧支援制御手段からの指示により、遠隔地の障害
復旧手順格納先との通信を行う通信制御手段(図1の9
−1、9−2)と、遠隔地の障害復旧手順格納先におい
て障害復旧手順情報を格納した障害復旧手順記憶部(図
1の11)と、障害復旧手順記憶部を参照し復旧支援制
御手段に対し通信制御手段を経由して復旧処理の指示を
行う復旧処理指示手段(図1の10)と、復旧支援制御
手段からの指示により復旧処理を行う復旧処理実行制御
手段(図1の8)と、を備えて構成されている。Embodiments of the present invention will be described below. In a preferred embodiment of the failure recovery method for a computer system according to the present invention, an error code detected by an operating system (2 in FIG. 1) of the computer and each application software (3 in FIG. 1) operating on the computer are used. A failure detail information storage unit (6 in FIG. 1) that stores an error code to be detected and detailed failure information (information on an address of a failure recovery procedure storage destination, a failure cause, and the like) corresponding to the error code; Fault monitoring means (4 in FIG. 1) for monitoring the status, and recovery support control means (4 in FIG. 1) for obtaining detailed fault information by referring to the detailed fault information storage unit based on the error code notified from the fault monitoring means. 5) and failure information display means (7 in FIG. 1) for displaying detailed failure information acquired by the recovery support control means.
And communication control means (9 in FIG. 1) for communicating with a remote failure recovery procedure storage destination in accordance with an instruction from the recovery support control means based on the detailed failure information (failure recovery procedure storage destination address).
-1, 9-2), a fault recovery procedure storage unit (11 in FIG. 1) storing fault recovery procedure information at a remote fault recovery procedure storage location, and a recovery support control unit by referring to the fault recovery procedure storage unit. Recovery processing instruction means (10 in FIG. 1) for instructing recovery processing via communication control means, and recovery processing execution control means (8 in FIG. 1) for performing recovery processing in accordance with an instruction from the recovery support control means. And is provided.
【0015】本発明の実施の形態において、障害発生状
況は障害監視手段(図1の4)にて常に監視され検出さ
れる。このため、障害が発生した場合、即座に復旧処理
を開始することができる。また、計算機内で障害発生状
況の監視を行うため、監視のための待機用計算機を用意
する必要が無くなる。In the embodiment of the present invention, the fault occurrence status is constantly monitored and detected by fault monitoring means (4 in FIG. 1). Therefore, when a failure occurs, the recovery process can be started immediately. Further, since the failure occurrence status is monitored in the computer, there is no need to prepare a standby computer for monitoring.
【0016】そして、復旧支援制御手段(図1の5)の
指示により、障害情報表示部(図1の7)へは障害に関
する情報が表示される。このため、利用者は障害の発生
状況を自分の目で確認することができる。In response to an instruction from the recovery support control means (5 in FIG. 1), information on the failure is displayed on the failure information display section (7 in FIG. 1). For this reason, the user can check the occurrence status of the failure with his own eyes.
【0017】また、障害詳細情報記憶部(図1の6)に
は、エラーコードに対応する障害詳細情報として、遠隔
地の障害復旧手順格納先のアドレスを格納しており、障
害復旧手段については計算機内には格納させていない。
このため、計算機の資源を節約することができる。The failure detailed information storage unit (6 in FIG. 1) stores the address of a remote failure recovery procedure storage destination as detailed failure information corresponding to the error code. It is not stored in the computer.
For this reason, computer resources can be saved.
【0018】復旧支援制御手段(図1の5)の指示によ
り、障害詳細情報記憶部(図1の6)に格納されている
障害復旧手順格納先のアドレスを参照して、通信制御手
段(図1の9−1,9−2)にて遠隔地の障害復旧手順
格納先(図1の12)との間での通信を実現する。この
ため、障害が発生していない間は、外部と接続し通信を
行う必要が無い。In response to an instruction from the recovery support control means (5 in FIG. 1), the communication control means (FIG. 1) refers to the address of the failure recovery procedure storage destination stored in the failure detailed information storage unit (6 in FIG. 1). 1 9-1 and 9-2) realize communication with a remote failure recovery procedure storage destination (12 in FIG. 1). Therefore, there is no need to connect to the outside and perform communication while no failure occurs.
【0019】遠隔地の障害復旧手順格納先(図1の1
2)の障害復旧手順記憶部(図1の11)には、エラー
コードに対応する障害復旧手順情報が格納されており、
障害発生時に随時参照される。このため、各計算機上に
は障害復旧手順情報を格納しておく必要がない。Storage location of failure recovery procedure at remote location (1 in FIG. 1)
The failure recovery procedure storage section (11 in FIG. 1) stores failure recovery procedure information corresponding to the error code.
It is referred to whenever a failure occurs. Therefore, there is no need to store failure recovery procedure information on each computer.
【0020】遠隔地の障害復旧手順格納先(図1の1
2)の復旧処理指示手段(図1の10)は、障害復旧手
順記憶部(図1の11)を参照し、障害復旧手順情報を
取得し、復旧支援制御手段(図1の5)に対して復旧作
業を指示する。Storage location of remote recovery procedure (1 in FIG. 1)
The recovery process instructing means (2 in FIG. 1) refers to the fault recovery procedure storage unit (11 in FIG. 1), acquires the fault recovery procedure information, and sends the information to the recovery support control means (5 in FIG. 1). And instruct recovery work.
【0021】復旧支援制御手段(図1の5)では、遠隔
地の障害復旧手順格納先(図1の12)の復旧処理指示
部からの指示と障害復旧手順情報により、復旧処理実行
制御手段(図1の8)に対し、復旧処理の実行指示を行
う。復旧支援制御手段からの指示により、復旧処理実行
制御手段にて障害の復旧処理が実行される。このため、
利用者自身の介入無しに自動で障害を復旧することがで
きる。The recovery support control means (5 in FIG. 1) uses the recovery processing execution control means (12 in FIG. 1) based on the instruction from the recovery processing instruction section and the failure recovery procedure information. Instruct 8) in FIG. 1 to execute a recovery process. In response to an instruction from the recovery support control means, the recovery processing execution control means executes the failure recovery processing. For this reason,
Failures can be automatically recovered without user intervention.
【0022】[0022]
【実施例】次に、上記した本発明の実施の形態について
更に詳細に説明すべく、本発明の実施例について図面を
参照して詳細に説明する。Next, in order to explain the above-mentioned embodiment of the present invention in more detail, an embodiment of the present invention will be described in detail with reference to the drawings.
【0023】図1は、本発明の一実施例の構成を示す図
である。図1を参照すると、本発明の一実施例におい
て、オペレーティングシステム(OS)2と各アプリケ
ーション・ソフトウェア3が発行するエラーコードとそ
のエラーコードに対応する障害詳細情報を記憶した障害
詳細情報記憶部6と、常時計算機の障害発生状況を監視
する障害監視手段4と、障害監視手段に4よって検出さ
れたエラーコードを基に、障害詳細情報記憶部6を参照
して障害詳細情報を取得する復旧支援制御手段5と、復
旧支援制御手段5で取得した障害詳細情報を表示する障
害情報表示部7と、障害詳細情報(障害復旧手順格納先
のアドレス)を基に、復旧支援制御手段5からの指示に
より、遠隔地の障害復旧手順格納先12との通信を行う
通信制御手段9−1、9−2と、を備え、遠隔地の障害
復旧手順格納先12において、障害復旧手順情報を格納
した障害復旧手順記憶部11と、障害復旧手順記憶部1
1を参照し復旧支援制御手段5に対し復旧処理の指示を
行う復旧処理指示手段10と、通信制御手段9−1、9
−2を介し復旧処理指示手段10からの指示により復旧
処理を行う復旧処理実行制御手段8を備えて構成されて
いる。FIG. 1 is a diagram showing the configuration of an embodiment of the present invention. Referring to FIG. 1, in one embodiment of the present invention, an error code issued by an operating system (OS) 2 and each application software 3 and detailed error information storage unit 6 storing error detailed information corresponding to the error code. A failure monitoring means 4 for constantly monitoring the failure occurrence status of the computer; and a recovery support for acquiring detailed failure information by referring to the detailed failure information storage unit 6 based on the error code detected by the failure monitoring means 4. The control unit 5, a failure information display unit 7 for displaying the detailed failure information acquired by the recovery support control unit 5, and an instruction from the recovery support control unit 5 based on the detailed failure information (address of a failure recovery procedure storage destination) And communication control means 9-1 and 9-2 for communicating with the remote location for storing the failure recovery procedure 12. A failure recovery procedure storage unit 11 for storing the fault recovery procedure information, error recovery procedure storage unit 1
1, a recovery processing instruction means 10 for instructing the recovery support control means 5 to perform recovery processing, and communication control means 9-1, 9
And a recovery process execution control unit 8 for performing a recovery process in accordance with an instruction from the recovery process instruction unit 10 through the control unit 2.
【0024】図2は、本発明の一実施例における障害詳
細情報記憶部6の障害詳細情報レコードの内容を示す説
明図である。障害詳細情報レコードは、エラーコード2
0、障害詳細情報21からなり、障害詳細情報21は障
害内容説明情報22と復旧手順格納先アドレス情報23
からなる。FIG. 2 is an explanatory diagram showing the contents of the detailed fault information record in the detailed fault information storage unit 6 in one embodiment of the present invention. The error detail information record is error code 2
0, the detailed fault information 21, the detailed fault information 21 being the fault description information 22 and the recovery procedure storage destination address information 23
Consists of
【0025】次に、本発明の一実施例の動作について、
図1及び図2を参照して詳細に説明する。Next, the operation of one embodiment of the present invention will be described.
This will be described in detail with reference to FIGS.
【0026】オペレーティングシステム2や各アプリケ
ーション・ソフトウェア3において障害が発生した場
合、エラーコードが検出される。障害の発生状況は、障
害監視手段4により、常に監視されている。検出された
エラーコードは、障害監視手段4より復旧支援制御手段
5へ渡される。When a failure occurs in the operating system 2 or each application software 3, an error code is detected. The status of occurrence of a fault is constantly monitored by the fault monitoring means 4. The detected error code is passed from the fault monitoring means 4 to the recovery support control means 5.
【0027】復旧支援制御手段5は、エラーコードを受
け取ると、エラーコードとそのエラーコードに対応する
障害詳細情報21を記憶した障害詳細情報記憶部6を参
照し障害詳細情報21を取得する。When receiving the error code, the recovery support control means 5 refers to the fault detail information storage unit 6 storing the error code and the fault detail information 21 corresponding to the error code, and acquires the fault detail information 21.
【0028】復旧支援制御手段5は、障害詳細情報21
を取得すると、その中の障害内容説明情報22(図2参
照)を障害情報表示手段7へ引き渡す。また、復旧支援
制御手段5は、障害詳細情報21の中の、障害復旧手順
格納先アドレス情報23を通信制御手段9−1へ引き渡
す。The recovery support control means 5 is provided with detailed failure information 21
Is acquired, the failure content description information 22 (see FIG. 2) is passed to the failure information display means 7. Further, the recovery support control means 5 transfers the failure recovery procedure storage destination address information 23 in the detailed failure information 21 to the communication control means 9-1.
【0029】通信制御手段9−1は、障害復旧手順格納
先アドレス情報23により接続先を決定し、該当する遠
隔地の障害復旧手順格納先12内の通信制御手段9−2
との接続を行い、通信を確立する。The communication control means 9-1 determines a connection destination based on the failure recovery procedure storage destination address information 23, and the communication control means 9-2 in the failure recovery procedure storage destination 12 at the corresponding remote location.
And establish communication with the
【0030】通信制御手段9−1、9−2間で通信が確
立すると、復旧支援制御手段5はエラーコードを復旧処
理指示手段10へ引き渡す。When communication is established between the communication control means 9-1 and 9-2, the recovery support control means 5 passes the error code to the recovery processing instruction means 10.
【0031】復旧処理指示手段10は、取得したエラー
コードより、障害復旧手順記憶部11を参照し障害復旧
手順情報を取得する。障害復旧手順情報はオペレーティ
ングシステムの開発元や各アプリケーション・ソフトウ
ェアの開発元が予め用意するもので、好ましくは各エラ
ーコードに対応する障害復旧のための処理が実行形式に
て格納されている。The restoration process instructing means 10 acquires failure restoration procedure information from the acquired error code by referring to the failure restoration procedure storage unit 11. The failure recovery procedure information is prepared in advance by the developer of the operating system or the developer of each application software, and preferably stores processing for failure recovery corresponding to each error code in an execution format.
【0032】復旧処理指示手段10は、通信制御手段9
−1、9−2を介し、取得した障害復旧手順情報を復旧
支援制御手段5へ引き渡す。The restoration processing instructing means 10 is
The acquired failure recovery procedure information is passed to the recovery support control means 5 via -1, 9-2.
【0033】復旧支援制御手段5は取得した障害復旧手
順情報を、順次、復旧処理実行制御手段8へ引き渡す。The recovery support control means 5 transfers the obtained failure recovery procedure information to the recovery processing execution control means 8 sequentially.
【0034】復旧処理実行制御手段8は、順次取得した
障害復旧手順情報に従い、復旧処理を実行する。The recovery processing execution control means 8 executes recovery processing in accordance with the sequentially obtained failure recovery procedure information.
【0035】このような構成としたことにより、本発明
の一実施例においては、計算機のオペレーティングシス
テムや計算機上で動作するアプリケーション・ソフトウ
ェアにおいて障害が発生した場合において、利用者の介
入を必要とせずに、自動的に即座に障害復旧を行うこと
が可能となる。With such a configuration, in one embodiment of the present invention, when a failure occurs in the operating system of the computer or the application software running on the computer, no user intervention is required. In addition, it is possible to automatically and immediately perform a fault recovery.
【0036】[0036]
【発明の効果】以上説明したように、本発明によれば下
記記載の効果を奏する。As described above, according to the present invention, the following effects can be obtained.
【0037】本発明の第1の効果は、計算機上で発生す
るほぼ全ての障害に対して、復旧処理を行うことが可能
となる、ということである。A first effect of the present invention is that recovery processing can be performed for almost all failures occurring on a computer.
【0038】その理由は、本発明においては、計算機シ
ステムにおいて障害発生時に表示されるエラーメッセー
ジそれぞれに対し、復旧のための処理(障害復旧処理手
順情報)を、各開発元に用意させることで、確実な復旧
処理の実現を可能としている、からである。The reason is that, in the present invention, for each error message displayed when a failure occurs in the computer system, a process for recovery (failure recovery processing procedure information) is prepared by each developer. This is because a reliable recovery process can be realized.
【0039】本発明の第2の効果は、正常動作時には他
の計算機とその接続の必要が無くなり、これにより、シ
ステム全体、特にネットワークの負荷を低減するができ
る、ということである。A second effect of the present invention is that during normal operation, there is no need to connect to another computer and thereby, the load on the entire system, especially on the network, can be reduced.
【0040】その理由は、本発明においては、障害監視
手段を各計算機内で実行させることにより、常に待機用
計算機による障害監視を行う必要が無くなるからであ
る。The reason is that, in the present invention, by executing the fault monitoring means in each computer, it is not necessary to always perform the fault monitoring by the standby computer.
【0041】本発明の第3の効果は、利用者の経験によ
らず、即時に復旧が可能となる、ということである。A third effect of the present invention is that the restoration can be immediately performed irrespective of the user's experience.
【0042】その理由は、本発明においては、障害復旧
のための情報を遠隔地の障害復旧手順格納先に格納する
ことにより、情報の格納領域の制限を意識する必要が無
くなり、このため、システムを復旧するのに充分な情報
を用意することが可能となり、利用者の介入を必要とせ
ずに、自動的に復旧処理を完了することができる、ため
である。The reason for this is that, in the present invention, by storing information for fault recovery in a remote location where a fault recovery procedure is stored, there is no need to be aware of the limitation of the information storage area. This is because it is possible to prepare sufficient information for restoring, and to automatically complete the restoration process without requiring user intervention.
【図1】本発明の一実施例のシステム構成を示すブロッ
ク図である。FIG. 1 is a block diagram illustrating a system configuration according to an embodiment of the present invention.
【図2】本発明の一実施例における障害詳細情報レコー
ドの内容を示す説明図である。FIG. 2 is an explanatory diagram showing the contents of a failure detailed information record in one embodiment of the present invention.
1 障害監視機能 2 オペレーティングシステム(OS) 3 各アプリケーションソフトウェア 4 障害監視手段 5 復旧支援制御手段 6 障害詳細情報記憶部 7 障害情報表示手段 8 復旧処理実行制御手段 9−1,9−2 通信制御手段 10 復旧処理指示手段 11 障害復旧手順記憶部 12 遠隔地の障害復旧手順格納先 20 エラーコード 21 障害詳細情報 22 障害内容説明情報 23 障害復旧手順格納先アドレス情報 DESCRIPTION OF SYMBOLS 1 Fault monitoring function 2 Operating system (OS) 3 Each application software 4 Fault monitoring means 5 Recovery support control means 6 Fault detailed information storage unit 7 Fault information display means 8 Recovery processing execution control means 9-1, 9-2 Communication control means DESCRIPTION OF REFERENCE NUMERALS 10 recovery processing instruction means 11 failure recovery procedure storage unit 12 remote recovery procedure storage destination 20 error code 21 detailed failure information 22 failure description information 23 failure recovery procedure storage destination address information
Claims (2)
ステムまたはアプリケーションから発行されるエラーコ
ードに対応する障害詳細情報として障害内容説明情報及
び障害復旧手順格納先アドレス情報を格納した障害詳細
情報記憶部と、 障害発生時のエラーコードから前記障害詳細情報記憶部
を検索して障害復旧手順格納先を特定して該障害復旧手
順格納先に通信接続する手段と、を備え、 前記障害復旧手順格納先には、エラーコードに対応する
障害復旧手順情報を予め用意しておき、前記障害復旧手
順格納先は、前記計算機システムにおける前記障害発生
時の前記エラーコードを受けて該エラーコードに対応す
る障害復旧手順情報を前記計算機システムに通知し、前
記計算機システムでは前記障害復旧手順格納先から送信
された障害復旧手順情報を基に、障害復旧処理を実行す
る、ことを特徴とする計算機システムの障害自動復旧シ
ステム。1. A computer system, comprising: a failure detail information storage unit that stores failure content description information and failure recovery procedure storage destination address information as failure detail information corresponding to an error code issued from the system or application when a failure occurs; Means for retrieving the failure detailed information storage unit from the error code at the time of the failure, specifying the failure recovery procedure storage location, and communicating with the failure recovery procedure storage location, and The error recovery procedure information corresponding to the error code is prepared in advance, and the failure recovery procedure storage destination receives the error code at the time of occurrence of the error in the computer system and receives the error recovery procedure information corresponding to the error code. Is notified to the computer system, and the computer system transmits the failure recovery transmitted from the failure recovery procedure storage destination. Based on the procedure information, it executes the failure recovery processing, failure automatic recovery system of a computer system, characterized in that.
したエラーコードと、前記計算機上で動作する各アプリ
ケーション・ソフトウェアが検出したエラーコードと、
そのエラーコードに対する、障害復旧手順格納先のアド
レス、障害の原因などに関する情報からなる障害詳細情
報を記憶した障害詳細情報記憶部と、 常時、前記計算機の障害発生状況を監視する障害監視手
段と、 前記障害監視手段から通知されたエラーコードを基に、
前記障害詳細情報記憶部を参照し障害詳細情報を取得す
る復旧支援制御手段と、 前記復旧支援制御手段で取得した障害詳細情報を表示す
る障害情報表示手段と、 障害詳細情報の障害復旧手順格納先のアドレスを基に、
前記復旧支援制御手段からの指示により、遠隔地の障害
復旧手順格納先との通信を行う通信制御手段と、 遠隔地の障害復旧手順格納先において障害復旧手順情報
を格納した障害復旧手順記憶部と、 前記障害復旧手順記憶部を参照して前記復旧支援制御手
段に対し前記通信制御手段を経由し復旧処理の指示を行
う復旧処理指示手段と、 前記復旧処理指示手段からの指示により復旧処理を行う
復旧処理実行制御手段と、 を備え、 障害が発生した場合に複数存在する各障害復旧手順格納
先のうち該当する障害復旧手順格納先からの指示により
自動的に、即時に、復旧を行うようにしたことを特徴と
する、計算機システムの障害自動復旧システム。2. An error code detected by an operating system of a computer, an error code detected by each application software operating on the computer,
A failure detail information storage unit that stores failure detail information including information on a failure recovery procedure storage destination address, a failure cause, and the like for the error code; a failure monitoring unit that constantly monitors a failure occurrence state of the computer; Based on the error code notified from the fault monitoring means,
Recovery support control means for referring to the detailed failure information storage unit and acquiring detailed failure information; failure information display means for displaying the detailed failure information acquired by the recovery support control means; and a failure recovery procedure storage location for the detailed failure information. Based on the address of
A communication control unit that communicates with a remote failure recovery procedure storage destination according to an instruction from the recovery support control unit; and a failure recovery procedure storage unit that stores failure recovery procedure information at a remote failure recovery procedure storage destination. A recovery process instructing unit that instructs the recovery support control unit to perform a recovery process via the communication control unit with reference to the failure recovery procedure storage unit; and performs a recovery process according to an instruction from the recovery process instructing unit. And a recovery process execution control means, and when a failure occurs, automatically and immediately recovers according to an instruction from a corresponding failure recovery procedure storage destination among a plurality of failure recovery procedure storage destinations. An automatic recovery system for computer system failures.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9249565A JPH1173336A (en) | 1997-08-29 | 1997-08-29 | Automatic restoration method for fault in computer system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9249565A JPH1173336A (en) | 1997-08-29 | 1997-08-29 | Automatic restoration method for fault in computer system |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH1173336A true JPH1173336A (en) | 1999-03-16 |
Family
ID=17194902
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9249565A Pending JPH1173336A (en) | 1997-08-29 | 1997-08-29 | Automatic restoration method for fault in computer system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH1173336A (en) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002169707A (en) * | 2000-11-30 | 2002-06-14 | Nri & Ncc Co Ltd | Computer operation management system and operation management method |
| US6633997B1 (en) | 1999-06-22 | 2003-10-14 | Nec Corporation | System for automatically restoring trouble, method and storage medium |
| JP2005228323A (en) * | 2004-02-12 | 2005-08-25 | Internatl Business Mach Corp <Ibm> | Technology usage tracking and billing methods and systems |
| JP2007287042A (en) * | 2006-04-19 | 2007-11-01 | Oki Electric Ind Co Ltd | System trouble monitoring device and trouble information distribution system |
-
1997
- 1997-08-29 JP JP9249565A patent/JPH1173336A/en active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6633997B1 (en) | 1999-06-22 | 2003-10-14 | Nec Corporation | System for automatically restoring trouble, method and storage medium |
| JP2002169707A (en) * | 2000-11-30 | 2002-06-14 | Nri & Ncc Co Ltd | Computer operation management system and operation management method |
| JP2005228323A (en) * | 2004-02-12 | 2005-08-25 | Internatl Business Mach Corp <Ibm> | Technology usage tracking and billing methods and systems |
| JP2007287042A (en) * | 2006-04-19 | 2007-11-01 | Oki Electric Ind Co Ltd | System trouble monitoring device and trouble information distribution system |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5432715A (en) | Computer system and monitoring method | |
| KR20040047209A (en) | Method for automatically recovering computer system in network and recovering system for realizing the same | |
| JPH1173336A (en) | Automatic restoration method for fault in computer system | |
| KR20030048503A (en) | Communication system and method for data synchronization of duplexing server | |
| JP3691272B2 (en) | Distributed processing system and failure analysis information storage method | |
| JPH06250886A (en) | Remote monitoring method for computer system and remote computer management system | |
| JP3208885B2 (en) | Fault monitoring system | |
| JP3266904B2 (en) | Monitoring system in statically connected network | |
| JP5029697B2 (en) | Server system of operation system | |
| JPH10222324A (en) | Network system | |
| JP2000112847A (en) | Client server system and client operation monitoring method | |
| JP2003256399A (en) | Control method for switching in hot standby system | |
| JPH0291735A (en) | Maintenance managing system for remote fault | |
| JP2000215074A (en) | System operation method and failure automatic recovery method | |
| JPH10260870A (en) | System starting and termination controller | |
| JPH1125062A (en) | Fault recovery system | |
| JPH09160875A (en) | Multi-agent mutual back-up system | |
| JP2002222176A (en) | Automatic recovery apparatus and method for application server computer failure in server-based computing model | |
| JPH0955880A (en) | Television studio master system | |
| JPH11306153A (en) | Network management method for distributed systems | |
| JPH02310755A (en) | Health check system | |
| JPH10133915A (en) | Network monitoring device | |
| JP2889888B2 (en) | Communication processing device | |
| JP2000099482A (en) | Problem management system | |
| JPS62105243A (en) | Recovery device for system fault |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20000808 |