JPH117431A - 複数コンピュータで実行する業務の障害回復システム - Google Patents

複数コンピュータで実行する業務の障害回復システム

Info

Publication number
JPH117431A
JPH117431A JP9158304A JP15830497A JPH117431A JP H117431 A JPH117431 A JP H117431A JP 9158304 A JP9158304 A JP 9158304A JP 15830497 A JP15830497 A JP 15830497A JP H117431 A JPH117431 A JP H117431A
Authority
JP
Japan
Prior art keywords
job
task
computer
execution
executed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9158304A
Other languages
English (en)
Inventor
Ikuko Honma
郁子 本間
Hideto Kurose
秀人 黒瀬
Kazuko Narita
和子 成田
Tomoyuki Iwata
智之 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP9158304A priority Critical patent/JPH117431A/ja
Publication of JPH117431A publication Critical patent/JPH117431A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】複数のコンピュータで実行する複数のジョブス
テップからなる業務において、あるコンピュータで障害
が発生すると、障害発生コンピュータの特定化と影響の
ある業務の特定化ができない。 【解決手段】各業務のジョブステップの実行順序等を登
録する記憶手段をもとにジョブステップを管理する事に
より、影響のある業務と実行コンピュータを容易に特定
化する。また、遅延時間を通知し障害ジョブステップ以
降のジョブステップの実行を待たせることによって、業
務を正常終了させる。また、遅延時間をもとに他の業務
の実行スケジュールをやり直す。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は複数コンピュータで
実行する業務で、あるコンピュータで障害が発生した場
合の回復システムで、特に影響業務の検索方法及び早期
障害回復方法及び障害発生後の他の業務のスケジュール
方法に関する。
【0002】
【従来の技術】複数のコンピュータで実行するような複
数のジョブステップからなる業務において、あるコンピ
ュータで障害が発生すると、障害が発生したコンピュー
タの次にこの業務のジョブステップを実行する予定のコ
ンピュータの実行待ちジョブステップがタイムオーバと
なり、ジョブステップが開始されないまま異常終了する
ためこの業務は異常終了する。この業務を回復するため
には障害が発生したコンピュータの障害回復処理後に異
常終了した業務を最初から再実行していた。
【0003】
【発明が解決しようとする課題】従来の技術では障害が
発生したときに、異常が発生した業務はわかるが、障害
発生コンピュータから他の影響のある業務を容易に特定
化できない。
【0004】また、ジョブステップが異常終了したこと
しかわからず、業務回復に要する時間がわからないた
め、業務としては異常終了してしまう。異常終了した業
務を回復するためには最初から再実行する必要があり、
既に実行したジョブステップ実行時間分業務の終了時間
が遅くなる。また、この業務の遅延が他の業務の遅延に
つながる場合の考慮がない。
【0005】本発明の目的は障害発生コンピュータから
他の影響のある業務を容易に特定化することと、障害発
生コンピュータ分からのジョブステップを最優先で再実
行して障害発生時の業務の終了時間の短縮をすること
と、障害が発生した業務より後に実行する業務の実行ス
ケジュールの組み直しをすることにある。
【0006】
【課題を解決するための手段】各業務のジョブステップ
の実行順序や実行コンピュータ、実行ログ等を登録する
記憶手段、以下ジョブステップ管理DBと呼ぶ、をもと
にジョブステップを管理する事により影響のある業務と
実行コンピュータを容易に特定化し、その障害回復にか
かる時間を通知し、障害発生ステップ以降に実行するジ
ョブステップを待たせることによって業務を正常終了さ
せる。また、通知された遅延時間をもとに障害発生業務
以降の業務の実行スケジュールの組み直しをする。
【0007】
【発明の実施の形態】図1に複数コンピュータで実行す
る複数のジョブステップからなる業務1、2、3の流れ
を示す。監視サーバはすべてのコンピュータのジョブス
テップ及び業務の管理をジョブステップ管理DBをもと
に行っている。まず業務1が実行され次に業務2、最後
に業務3が実行されるように管理DBに登録しておく。
各業務の実行の流れを以下に示す。業務1はコンピュー
タAでジョブステップ1を実行した後、コンピュータB
でジョブステップ2を実行する。業務2はコンピュータ
Aでジョブステップ3を実行した後、コンピュータCで
ジョブステップ4を実行する。コンピュータBはジョブ
ステップ3とジョブステップ4の実行終了を待ってジョ
ブステップ5を実行する。業務3はコンピュータCでジ
ョブステップ6を実行した後、コンピュータBでジョブ
ステップ7を実行する。
【0008】図2は業務2実行中にコンピュータCで障
害が発生した場合の監視サーバ1−1の障害回復処理フ
ローである。
【0009】図3はジョブステップ管理DB要素であ
る。
【0010】図4は業務2実行中に障害が発生したとき
のジョブステップ管理DBである。
【0011】図5は図4の状態から業務2及び業務3を
再スケジュールしたときのジョブステップ管理DBであ
る。
【0012】以下これら5つの図を使い説明する。
【0013】あらかじめ各業務のジョブステップの実行
順序3−1、3−2及び最大実行時間3−3をジョブス
テップ管理DB3に登録しておく。
【0014】業務の実行を開始するときに、ジョブステ
ップ管理DB3に無限に待ち続けないため、業務の開始
時間と各ジョブステップの最大実行時間から求めた実行
予測時間3−4を登録する。(ステップ1) 監視サーバ1−1で各コンピュータのジョブステップの
終了を監視する。
【0015】各コンピュータはジョブステップの実行開
始3−5と終了3−6をジョブステップ管理DB3に登
録する。
【0016】コンピュータCで障害が発生すると最大実
行時間が過ぎてもジョブステップ4が終了しない、又は
ジョブステップが異常終了するので監視サーバ1−1が
コンピュータCの障害を検知する。
【0017】監視サーバ1−1はジョブステップ管理D
B4からコンピュータCの障害発生により影響する業務
2及び業務3を検索する。(ステップ2) 回復時間の入力により、監視サーバにコンピュータCの
障害回復時間を通知する。(ステップ3) 監視サーバ1−1はコンピュータC以降に影響する業務
2を実行するジョブステップ5の実行予測時間に遅延時
間を加算(5−1)し、ジョブステップ管理DB5に登
録し実行を待たせる。(ステップ4) また、監視サーバ1−1は後に実行する業務3の実行開
始時間を遅延時間分加算(5−3)してジョブステップ
管理DB5に登録し実行スケジュールをやり直す。(ス
テップ5) コンピュータCは障害回復処理後、再度業務2のジョブ
ステップ4を登録し実行する。この業務のジョブステッ
プ4、5は優先順位を一番高く(5−2)し実行する。
(ステップ6) 本実施例によれば、コンピュータCで障害が発生したと
きに監視サーバに遅延時間を連絡するので業務2が異常
終了することはない。またコンピュータCの障害回復後
コンピュータAで実行したジョブステップ3の分は再度
実行することなくコンピュータCのジョブステップ4か
ら業務2を最優先で再実行することによって、障害発生
時の業務の終了時間を短縮する事ができる。また、遅延
時間をもとに他の業務のスケジュールをやり直すため、
他の業務3の実行に影響を与えないようにできる。
【0018】
【発明の効果】本発明によれば、複数のコンピュータで
実行する複数のジョブステップからなる業務において、
あるコンピュータで障害が発生した場合、ジョブステッ
プ管理DBに情報を登録するため、コンピュータの障害
発生時に容易に影響のある業務を検索する事ができる。
また、その業務を最初から再実行することなく、障害回
復処理後、障害が発生したコンピュータのジョブステッ
プから最優先で再実行するため、既に正常に実行したジ
ョブステップの実行時間分障害発生時の業務の終了時間
を短縮する事ができる。また、遅延時間を元に他の業務
のスケジュールをやり直すため、他の業務の実行に影響
を与えないようにできる。
【図面の簡単な説明】
【図1】本発明の一実施例である複数コンピュータで実
行する業務の流れを示すシステムの全体図である。
【図2】図1に示すシステムの監視サーバの処理フロー
である。
【図3】ジョブステップ管理DBの要素である。
【図4】図1に示すシステムのうち業務2実行中にコン
ピュータCで障害が発生したときのジョブステップ管理
DBである。
【図5】図1に示すシステムのうちコンピュータCの障
害回復後、業務2及び業務3を再スケジュールしたジョ
ブステップ管理DBである。
【符号の説明】
───────────────────────────────────────────────────── フロントページの続き (72)発明者 岩田 智之 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】複数のコンピュータで実行する義務におい
    て、あるコンピュータで障害が発生した場合、1つの業
    務のうち各コンピュータで実行するジョブの単位、以下
    ジョブステップと呼ぶ、を管理する記憶手段と、障害回
    復後の再実行手段と、遅延時間管理機構を有し、影響の
    ある業務を容易に特定化し、監視サーバに遅延時間を通
    知する事により障害発生のコンピュータのジョブステッ
    プ以降に実行するジョブステップを待たせ、業務を正常
    に実行させること、また、通知された遅延時間をもとに
    障害発生業務以降の業務の実行スケジュールの組み直し
    をすることを特徴とする複数コンピュータで実行する業
    務の障害回復システム。
JP9158304A 1997-06-16 1997-06-16 複数コンピュータで実行する業務の障害回復システム Pending JPH117431A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9158304A JPH117431A (ja) 1997-06-16 1997-06-16 複数コンピュータで実行する業務の障害回復システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9158304A JPH117431A (ja) 1997-06-16 1997-06-16 複数コンピュータで実行する業務の障害回復システム

Publications (1)

Publication Number Publication Date
JPH117431A true JPH117431A (ja) 1999-01-12

Family

ID=15668706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9158304A Pending JPH117431A (ja) 1997-06-16 1997-06-16 複数コンピュータで実行する業務の障害回復システム

Country Status (1)

Country Link
JP (1) JPH117431A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7093252B1 (en) 2000-04-12 2006-08-15 International Business Machines Corporation Self-submitting job for testing a job scheduling/submitting software
JP2008518292A (ja) * 2004-10-25 2008-05-29 ローベルト ボッシュ ゲゼルシャフト ミット ベシュレンクテル ハフツング コンピュータプログラムを処理する方法、駆動システム、および計算装置
JP2009271833A (ja) * 2008-05-09 2009-11-19 Nikon Corp 自動機の制御装置
JP2011103030A (ja) * 2009-11-10 2011-05-26 Hitachi Ltd インシデント管理方法および運用管理サーバ
JP2016200981A (ja) * 2015-04-10 2016-12-01 富士通株式会社 運用管理プログラム、運用管理方法、および運用管理装置
JP2019139262A (ja) * 2018-02-06 2019-08-22 富士通株式会社 判定プログラム、判定方法、及び判定装置
CN113014412A (zh) * 2019-12-20 2021-06-22 中国移动通信集团陕西有限公司 一种宕机故障业务延迟时间的预测方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7093252B1 (en) 2000-04-12 2006-08-15 International Business Machines Corporation Self-submitting job for testing a job scheduling/submitting software
JP2008518292A (ja) * 2004-10-25 2008-05-29 ローベルト ボッシュ ゲゼルシャフト ミット ベシュレンクテル ハフツング コンピュータプログラムを処理する方法、駆動システム、および計算装置
JP2009271833A (ja) * 2008-05-09 2009-11-19 Nikon Corp 自動機の制御装置
JP2011103030A (ja) * 2009-11-10 2011-05-26 Hitachi Ltd インシデント管理方法および運用管理サーバ
JP2016200981A (ja) * 2015-04-10 2016-12-01 富士通株式会社 運用管理プログラム、運用管理方法、および運用管理装置
JP2019139262A (ja) * 2018-02-06 2019-08-22 富士通株式会社 判定プログラム、判定方法、及び判定装置
CN113014412A (zh) * 2019-12-20 2021-06-22 中国移动通信集团陕西有限公司 一种宕机故障业务延迟时间的预测方法和系统

Similar Documents

Publication Publication Date Title
JP3072048B2 (ja) 計算機システムおよび計算機システムのソフトウェア故障回復方法
CN103034554B (zh) 一种纠错重启以及自动判断启动的etl调度系统及方法
US6694345B1 (en) External job scheduling within a distributed processing system having a local job control system
US7269607B2 (en) Method and information technology infrastructure for establishing a log point for automatic recovery of federated databases to a prior point in time
CN101236515B (zh) 多核系统单核异常的恢复方法
JPH10214199A (ja) プロセスリスタート方法およびプロセスリスタートを実現するためのシステム
JP4141875B2 (ja) リカバリ処理方法及びその実施システム並びにその処理プログラム
CN110895487B (zh) 分布式任务调度系统
CN111124728B (zh) 业务自动恢复方法、系统、可读存储介质及服务器
CN110895488A (zh) 任务调度方法及装置
CN110895483A (zh) 任务恢复方法及装置
CN110895485A (zh) 任务调度系统
JPH117431A (ja) 複数コンピュータで実行する業務の障害回復システム
CN113010278B (zh) 一种用于财险核心系统的批处理方法及系统
JP7000797B2 (ja) 起動管理装置、起動管理システム、起動管理方法、および、起動管理プログラム
JP2001022709A (ja) クラスタシステム及びプログラムを記憶したコンピュータ読み取り可能な記憶媒体
CN118524006B (zh) 一种操作系统修复恢复方法和装置
JP7243207B2 (ja) 情報処理システム、情報処理装置及びプログラム
JPH11353284A (ja) ジョブ再実行方法
CN119415230A (zh) 一种面向大数据开发的任务调度方法及系统
US7065539B2 (en) Data transfer method
CN116662117A (zh) 基于定时器监控linux系统的方法、装置及存储介质
JPH10116261A (ja) 並列計算機システムのチェックポイントリスタート方法
JP2001229033A (ja) ファイル障害時のジョブネット再実行装置
JP6318031B2 (ja) バッチサーバメンテナンス方法