JPH04137023A - コンピユータシステムの再立ち上げ方式 - Google Patents
コンピユータシステムの再立ち上げ方式Info
- Publication number
- JPH04137023A JPH04137023A JP2256897A JP25689790A JPH04137023A JP H04137023 A JPH04137023 A JP H04137023A JP 2256897 A JP2256897 A JP 2256897A JP 25689790 A JP25689790 A JP 25689790A JP H04137023 A JPH04137023 A JP H04137023A
- Authority
- JP
- Japan
- Prior art keywords
- ipl
- computer system
- cause
- failure
- program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Stored Programmes (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は、分散コンピュータシステム等の無人コンピュ
ータシステムに好適なシステムの立ち上げ方式に係り、
特に、コンピュータシステム(以下に、単に、「システ
ム」という)の障害による停止が起きたときに、自動回
復を行い、障害の種類に対応した障害の拡大防止策を講
することにより、保守・運用を容易にするコンピュータ
システムの立ち上げ方式に関する。
ータシステムに好適なシステムの立ち上げ方式に係り、
特に、コンピュータシステム(以下に、単に、「システ
ム」という)の障害による停止が起きたときに、自動回
復を行い、障害の種類に対応した障害の拡大防止策を講
することにより、保守・運用を容易にするコンピュータ
システムの立ち上げ方式に関する。
[従来の技術]
一般に、分散コンピュータシステムのような無人のコン
ピュータシステムでは、システムの異常や障害の発生に
よるシステム停止時に、自動的に再IPLを行ってシス
テムの再立ち上げを行わせている。ここで、IPLは、
イニシャル・プログラム・ロード、すなわち、コンピュ
ータが運転を開始するための制御プログラムの常駐部°
を主メモリ上にロードする機能をいう。この種の再IP
Lを自動的に行うシステムの立ち上げ方式として、従来
、例えば特開昭61−221850号公報や。
ピュータシステムでは、システムの異常や障害の発生に
よるシステム停止時に、自動的に再IPLを行ってシス
テムの再立ち上げを行わせている。ここで、IPLは、
イニシャル・プログラム・ロード、すなわち、コンピュ
ータが運転を開始するための制御プログラムの常駐部°
を主メモリ上にロードする機能をいう。この種の再IP
Lを自動的に行うシステムの立ち上げ方式として、従来
、例えば特開昭61−221850号公報や。
特開昭60−45819号公報に記載の「再初期プログ
ラムローディング方式」がある。
ラムローディング方式」がある。
[発明が解決しようとする課題]
上記従来技術では、最初のIPL処理は成功したが、こ
のIPL完了後の業務プログラム実行中に再び停止が発
生した場合、自動的に(必ず)再度IPL処理を行うよ
うになっており、このため。
のIPL完了後の業務プログラム実行中に再び停止が発
生した場合、自動的に(必ず)再度IPL処理を行うよ
うになっており、このため。
同一要因の障害が繰り返し発生し繰り返し停止した場合
、再IPLを何回も行わなければならないという問題が
あった。すなわち、従来技術によると、IPL完了後の
システム稼動中に再度システム停止が発生すると、再I
PL処理が行われ、再立ち上げされ、障害再発生による
システム停止が繰り返され、システムが大きなり−プを
形成してしまうので、業務が行えない、対策が遅れると
いう問題があった。更に、同じ条件でシステムを再立ち
上げするため、同一障害が再発する確率が高く、正常に
業務が行えないという問題もあった。
、再IPLを何回も行わなければならないという問題が
あった。すなわち、従来技術によると、IPL完了後の
システム稼動中に再度システム停止が発生すると、再I
PL処理が行われ、再立ち上げされ、障害再発生による
システム停止が繰り返され、システムが大きなり−プを
形成してしまうので、業務が行えない、対策が遅れると
いう問題があった。更に、同じ条件でシステムを再立ち
上げするため、同一障害が再発する確率が高く、正常に
業務が行えないという問題もあった。
また、従来技術では、システム停止時に自動的にダンプ
記憶を取得するものもあったが、システム停止毎にダン
プ媒体に上書きする方法でダンプの取得を行っていたた
め、最初のシステム異常が原因でそれ以降のシステム停
止が繰り返されるような場合、最初のダンプデータが上
書きされることで消えてしまい、停止の根本的な原因が
わからなくなつしまうという問題もあった。
記憶を取得するものもあったが、システム停止毎にダン
プ媒体に上書きする方法でダンプの取得を行っていたた
め、最初のシステム異常が原因でそれ以降のシステム停
止が繰り返されるような場合、最初のダンプデータが上
書きされることで消えてしまい、停止の根本的な原因が
わからなくなつしまうという問題もあった。
従って、本発明の目的は、上記従来技術の問題点を解決
し、障害によるシステム停止後の再IPLによってシス
テムの再立ち上げを行う際に、以前のシステム停止の発
生原因や同一発生原因による停止回数を覚えておくこと
により(システム稼動時間の全体を管理することにより
)、同一発生原因によるシステム停止が繰り返されるよ
うなループ発生を防止すると共に、障害の拡大するのを
防止するようにしたコンピュータシステムの再立ち上げ
方式を提供することにある。
し、障害によるシステム停止後の再IPLによってシス
テムの再立ち上げを行う際に、以前のシステム停止の発
生原因や同一発生原因による停止回数を覚えておくこと
により(システム稼動時間の全体を管理することにより
)、同一発生原因によるシステム停止が繰り返されるよ
うなループ発生を防止すると共に、障害の拡大するのを
防止するようにしたコンピュータシステムの再立ち上げ
方式を提供することにある。
[課題を解決するための手段]
上記目的を達成するため5本発明は、IPL処理を行っ
て稼動中のコンピュータシステムが障害発生により停止
したとき、自動的に再IPL処理を行ってコンピュータ
システムを再立ち上げする方式において、前記コンピュ
ータシステムの停止の発生原因(障害要因の種別など)
および発生回数を検出する手段と、同一原因による停止
が(例えば一定時間以内に)所定回数以上発生したとき
、前記外IPLによる再立ち上げを抑止する手段を備え
たことを特徴とする。
て稼動中のコンピュータシステムが障害発生により停止
したとき、自動的に再IPL処理を行ってコンピュータ
システムを再立ち上げする方式において、前記コンピュ
ータシステムの停止の発生原因(障害要因の種別など)
および発生回数を検出する手段と、同一原因による停止
が(例えば一定時間以内に)所定回数以上発生したとき
、前記外IPLによる再立ち上げを抑止する手段を備え
たことを特徴とする。
なお、前記再立ち上げ抑止手段によりシステムの再立ち
上げ抑止が行われるときに、障害の拡大を防止するため
電源を自動的に切断し、警報を自動的に発生して保守員
を自動的に呼び出すようにすることができる。
上げ抑止が行われるときに、障害の拡大を防止するため
電源を自動的に切断し、警報を自動的に発生して保守員
を自動的に呼び出すようにすることができる。
また、システムが繰り返し停止した場合、過去のシステ
ム停止の原因が特定の(同一の)プログラムに起因して
いるときには、そのプログラムを起動せずに縮退させる
ような修正を行ってから、システムの再立ち上げを行う
ことができる。
ム停止の原因が特定の(同一の)プログラムに起因して
いるときには、そのプログラムを起動せずに縮退させる
ような修正を行ってから、システムの再立ち上げを行う
ことができる。
さらに、システムが繰り返し停止したとき、障害原因調
査のためのダンプ記憶を2個設け、1つのダンプ記憶に
最初の障害について取得し、もう1つのダンプ記憶に以
降の障害について上書きすることにより取得し、ダンプ
量を削減しながらかつ、必要なダンプを効果的に取得す
ることができる。
査のためのダンプ記憶を2個設け、1つのダンプ記憶に
最初の障害について取得し、もう1つのダンプ記憶に以
降の障害について上書きすることにより取得し、ダンプ
量を削減しながらかつ、必要なダンプを効果的に取得す
ることができる。
[作用]
上記構成に基づく作用を説明する。
本発明によれば、コンピュータシステムに、システム停
止要因(停止の発生原因)検出手段を設け、この検出手
段で検出された停止要因が所定回数未満のときには、再
IPL処理が自動的に起動されてシステムは再立ち上げ
される。しかし、同一の要因による停止が所定回数繰り
返されると、この検出結果に基づき、再IPL処理不可
と判定され、再IPL処理は行われずシステムの再立ち
上げは行われない。したがって、同一障害要因による停
止がいつまでも繰り返されることはない。
止要因(停止の発生原因)検出手段を設け、この検出手
段で検出された停止要因が所定回数未満のときには、再
IPL処理が自動的に起動されてシステムは再立ち上げ
される。しかし、同一の要因による停止が所定回数繰り
返されると、この検出結果に基づき、再IPL処理不可
と判定され、再IPL処理は行われずシステムの再立ち
上げは行われない。したがって、同一障害要因による停
止がいつまでも繰り返されることはない。
具体的には、停止要因検出手段には、障害の種別毎にシ
ステム停止の発生回数や発生原因を記録する障害記録フ
ァイルを設け、再IPL処理部では、この発生したシス
テム停止の原因や発生回数を、その停止発生毎に更新す
る。その後、この障害記録ファイルの内容に従って、再
IPL要否の決定や、ダンプデータの採取、再IPLを
行うか否か、電源を切断するか、警報を発生するかなど
の決定を行う。
ステム停止の発生回数や発生原因を記録する障害記録フ
ァイルを設け、再IPL処理部では、この発生したシス
テム停止の原因や発生回数を、その停止発生毎に更新す
る。その後、この障害記録ファイルの内容に従って、再
IPL要否の決定や、ダンプデータの採取、再IPLを
行うか否か、電源を切断するか、警報を発生するかなど
の決定を行う。
[実施例コ
以下に、本発明の実施例を図面によって説明する。
第1図は、本発明を実施するための計算機システムの基
本的な構成を示す。第1図において、計算機システム1
には、システム停止検出処理部2゜再IPL処理部3、
障害記録ファイル4、および起動プログラムファイル5
を設けている。障害記録ファイル4は、システム停止原
因毎に、最初に発生した日付、時刻、回数等を格納して
いる。起動プログラムファイル5にはIPL後起動する
プログラム名を格納している。この計算機1を用いたい
くつかの実施例を、以下に説明する。
本的な構成を示す。第1図において、計算機システム1
には、システム停止検出処理部2゜再IPL処理部3、
障害記録ファイル4、および起動プログラムファイル5
を設けている。障害記録ファイル4は、システム停止原
因毎に、最初に発生した日付、時刻、回数等を格納して
いる。起動プログラムファイル5にはIPL後起動する
プログラム名を格納している。この計算機1を用いたい
くつかの実施例を、以下に説明する。
[実施例1コ
本実施例は、一定時間以内例えば1日(24時間)以内
に同一原因のシステム停止が繰り返し発生した場合、2
回目までは再IPLを行い、3回目には再IPLを抑止
する例である。
に同一原因のシステム停止が繰り返し発生した場合、2
回目までは再IPLを行い、3回目には再IPLを抑止
する例である。
第2図はこの再IPL制御を行う処理フローを示す。同
図においてIPLが行われてシステム稼動中(ステップ
10)に、プログラムエラーによるシステム停止11が
発生したとする。システム停止検出処理部2はシステム
停止要因を判定しくステップ12)、再IPL処理部3
を起動する。
図においてIPLが行われてシステム稼動中(ステップ
10)に、プログラムエラーによるシステム停止11が
発生したとする。システム停止検出処理部2はシステム
停止要因を判定しくステップ12)、再IPL処理部3
を起動する。
再IPL処理部3は障害記録ファイル4を参照し同一原
因で1回目のシステム停止が起きたか否かを判定する(
ステップ13)。同一原因で1回目のシステム停止が起
きた場合またはシステム立ち上げ後最初のシステム停止
の場合は、障害記録ファイル4に発生時刻を設定すると
ともに回数として1を設定する(ステップ14.15)
。その後再IPL処理を行い(ステップ16)システム
を稼動させる(ステップ10)。障害記録ファイルの状
態は20のようになる。再びプログラムエラーによるシ
ステム停止11が発生すると同一原因で2回目なので発
生回数をカウントアツプする(ステップ17)。カウン
ト数を調べ、この時は発生回数が2回なので(ステップ
18)、再IPL処理を再度行う(ステップ16)。障
害記録ファイルの状態は21のようになる。この後、再
度プログラムエラーによるシステム停止11が発生する
と発生回数が3回になりシステム停止処理を行う(ステ
ップ19)。以上のようにして、一定時間以内に一定回
数以上の同一原因のシステム停止が発生したときシステ
ムの再IPLを抑止する。
因で1回目のシステム停止が起きたか否かを判定する(
ステップ13)。同一原因で1回目のシステム停止が起
きた場合またはシステム立ち上げ後最初のシステム停止
の場合は、障害記録ファイル4に発生時刻を設定すると
ともに回数として1を設定する(ステップ14.15)
。その後再IPL処理を行い(ステップ16)システム
を稼動させる(ステップ10)。障害記録ファイルの状
態は20のようになる。再びプログラムエラーによるシ
ステム停止11が発生すると同一原因で2回目なので発
生回数をカウントアツプする(ステップ17)。カウン
ト数を調べ、この時は発生回数が2回なので(ステップ
18)、再IPL処理を再度行う(ステップ16)。障
害記録ファイルの状態は21のようになる。この後、再
度プログラムエラーによるシステム停止11が発生する
と発生回数が3回になりシステム停止処理を行う(ステ
ップ19)。以上のようにして、一定時間以内に一定回
数以上の同一原因のシステム停止が発生したときシステ
ムの再IPLを抑止する。
[実施例2]
次に、実施例1で再IPL不可と判断したときに保守員
を呼び電源を切断する計算機システムの例を実施例2と
して示す。第3図に必要な構成を示す。計算機システム
1は外部接点32と電源スィッチ33と、これらを制御
する命令としてALARM命令およびPWOFF (パ
ワーオフ)命令34とを持っている。又外部接点32は
保守員室30内のブザー31に接続されている。実施例
1の再IPL不可で(ステップ18)システム停止する
と判断した場合に、再IPL処理部3は命令34のAL
ARMを実行する。これにより、保守員室30にあるブ
ザー31が鳴動し、システム停止を保守員へ通知する。
を呼び電源を切断する計算機システムの例を実施例2と
して示す。第3図に必要な構成を示す。計算機システム
1は外部接点32と電源スィッチ33と、これらを制御
する命令としてALARM命令およびPWOFF (パ
ワーオフ)命令34とを持っている。又外部接点32は
保守員室30内のブザー31に接続されている。実施例
1の再IPL不可で(ステップ18)システム停止する
と判断した場合に、再IPL処理部3は命令34のAL
ARMを実行する。これにより、保守員室30にあるブ
ザー31が鳴動し、システム停止を保守員へ通知する。
次に、再IPL処理部3は命令34のPWOFFを実行
し自動的に計算機システムの電源を切断する。このよう
にして、再IPL不可のとき自動的にブザー等の警報を
発生して保守員を呼び出し、また自動的に電源を切断す
ることによって障害の拡大防止のための早期対策を講じ
ることができる。
し自動的に計算機システムの電源を切断する。このよう
にして、再IPL不可のとき自動的にブザー等の警報を
発生して保守員を呼び出し、また自動的に電源を切断す
ることによって障害の拡大防止のための早期対策を講じ
ることができる。
[実施例3コ
次に、特定プログラムが原因でシステム停止要因が繰り
返し発生したシステムで、そのプログラムを縮退して再
IPLを行う例を実施例3として示す。第4図は再IP
L時障害が多発したプログラムを縮退する処理の流れを
示す。このシステムではIPLを行った後、起動プログ
ラムファイル49に従ってONL INElを起動しく
ステップ4o)、次にONL I NE 2を起動しく
ステップ41)オンラインを稼動する(ステップ42)
。
返し発生したシステムで、そのプログラムを縮退して再
IPLを行う例を実施例3として示す。第4図は再IP
L時障害が多発したプログラムを縮退する処理の流れを
示す。このシステムではIPLを行った後、起動プログ
ラムファイル49に従ってONL INElを起動しく
ステップ4o)、次にONL I NE 2を起動しく
ステップ41)オンラインを稼動する(ステップ42)
。
オンライン稼動中にONL I NE 2が原因となる
システム停止要因が発生したとすると(43)。
システム停止要因が発生したとすると(43)。
0NLINE2起動抑止を決定する(ステップ44)。
これに伴い、起動プログラムファイルを更新(修正)シ
(ステップ45)、起動プログラムファイル50の状態
にする。その後、再IPL処理を行う(ステップ46)
。再IPL後は起動プログラムファイル50に従って0
NLINE1だけを起動しく47)オンライン縮退稼動
する(48)。
(ステップ45)、起動プログラムファイル50の状態
にする。その後、再IPL処理を行う(ステップ46)
。再IPL後は起動プログラムファイル50に従って0
NLINE1だけを起動しく47)オンライン縮退稼動
する(48)。
このようにして、本実施例では、プログラムを起動する
ジョブ制御文を一部自動的に修正することにより、再I
PLの際に一部プログラムを縮退してシステムを稼動す
ることを実現する。
ジョブ制御文を一部自動的に修正することにより、再I
PLの際に一部プログラムを縮退してシステムを稼動す
ることを実現する。
以上の実施例1〜4において、システム停止時に最初の
ダンプ記憶を保存して障害の発生原因の究明を容易に行
うことができるようにするために。
ダンプ記憶を保存して障害の発生原因の究明を容易に行
うことができるようにするために。
ダンプ採取ファイルを2つ用意しておいて、最初のシス
テム停止のときには1つ目のファイルヘダンプ出力して
おき、2回目以降のシステム停止のときには2つ目のフ
ァイルへ上書きするようにすることもできる。
テム停止のときには1つ目のファイルヘダンプ出力して
おき、2回目以降のシステム停止のときには2つ目のフ
ァイルへ上書きするようにすることもできる。
テムの障害による停止の発生原因および発生回数を検出
し、同一障害要因による停止が所定個数以上になると、
システムの再立ち上げが抑止されるので、障害によるシ
ステム停止が繰り返され大きなループが形成されるよう
なことが防止され、障害の発生原因の早期究明が可能に
なる結果、システムの保守・運用が容易になるという効
果がある。
し、同一障害要因による停止が所定個数以上になると、
システムの再立ち上げが抑止されるので、障害によるシ
ステム停止が繰り返され大きなループが形成されるよう
なことが防止され、障害の発生原因の早期究明が可能に
なる結果、システムの保守・運用が容易になるという効
果がある。
第1図は本発明の実施例を実現する計算機システムの基
本的構成を示すシステム構成図、第2図は本発明の一実
施例として一定時間以内に一定回数以上の同一原因によ
るシステム停止が繰り返された場合システム停止を抑止
するときの処理例を示すフローチャート、第3図はシス
テム停止時に自動的に保守員を呼び出し電源を切断する
計算機システムの構成図、第4図は再IPL時縮退して
プログラムを起動する場合の処理例のフローチャートで
ある。 1・・・・・・計算機システム、2・・・・システム停
止検出処理部、3・・・・・・再IPL処理部、4・・
・・障害記録ファイル、5・・・起動プログラムファイ
ル、30・・・・保守員室、31・・・・・ブザー(警
報装置)、32・・・・・・外部接点、33・・・ 電
源スィッチ、34命令。 ! 第1図 / 第 図
本的構成を示すシステム構成図、第2図は本発明の一実
施例として一定時間以内に一定回数以上の同一原因によ
るシステム停止が繰り返された場合システム停止を抑止
するときの処理例を示すフローチャート、第3図はシス
テム停止時に自動的に保守員を呼び出し電源を切断する
計算機システムの構成図、第4図は再IPL時縮退して
プログラムを起動する場合の処理例のフローチャートで
ある。 1・・・・・・計算機システム、2・・・・システム停
止検出処理部、3・・・・・・再IPL処理部、4・・
・・障害記録ファイル、5・・・起動プログラムファイ
ル、30・・・・保守員室、31・・・・・ブザー(警
報装置)、32・・・・・・外部接点、33・・・ 電
源スィッチ、34命令。 ! 第1図 / 第 図
Claims (1)
- 1、IPL処理を行つて稼動中のコンピュータシステム
が障害発生により停止したとき、自動的に再IPL処理
を行つてコンピュータシステムを再立ち上げするコンピ
ュータシステムの再立ち上げ方式において、前記コンピ
ュータシステムの停止の発生原因および発生回数を検出
する手段と、同一原因による停止が所定回数以上発生し
たとき、前記再IPLによる再立ち上げを抑止する手段
とを備えたことを特徴とするコンピュータシステムの再
立ち上げ方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2256897A JPH04137023A (ja) | 1990-09-28 | 1990-09-28 | コンピユータシステムの再立ち上げ方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2256897A JPH04137023A (ja) | 1990-09-28 | 1990-09-28 | コンピユータシステムの再立ち上げ方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH04137023A true JPH04137023A (ja) | 1992-05-12 |
Family
ID=17298918
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2256897A Pending JPH04137023A (ja) | 1990-09-28 | 1990-09-28 | コンピユータシステムの再立ち上げ方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH04137023A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015232807A (ja) * | 2014-06-10 | 2015-12-24 | 富士ゼロックス株式会社 | 電子機器及びプログラム |
-
1990
- 1990-09-28 JP JP2256897A patent/JPH04137023A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015232807A (ja) * | 2014-06-10 | 2015-12-24 | 富士ゼロックス株式会社 | 電子機器及びプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN102141947B (zh) | 一种对采用嵌入式操作系统的计算机应用系统中异常任务的处理方法及系统 | |
| US7716520B2 (en) | Multi-CPU computer and method of restarting system | |
| US7305578B2 (en) | Failover method in a clustered computer system | |
| CN120723527B (zh) | 总线设备不可纠正错误处理方法及服务器 | |
| KR100899582B1 (ko) | 정보 처리 장치, 그 제어 장치, 그 제어 방법 및 제어프로그램을 저장한 컴퓨터 판독 가능한 기록 매체 | |
| CN113127245A (zh) | 一种系统管理中断的处理方法、系统及装置 | |
| CN116010134A (zh) | 应用与系统自动恢复的方法、系统、设备、介质 | |
| CN120255970A (zh) | 基板管理控制器启动方法、计算机设备、介质及产品 | |
| JPH04137023A (ja) | コンピユータシステムの再立ち上げ方式 | |
| JPH02294739A (ja) | 障害検出方式 | |
| JP2000099372A (ja) | コンピュータシステム | |
| US20010054130A1 (en) | Computing machine with hard stop-tolerant disk file management system | |
| CN111858183A (zh) | 一种电子设备的重启方法和装置 | |
| JPH0789308B2 (ja) | コンピュ−タの自動再スタ−ト方法 | |
| JPH0869593A (ja) | プラント性能監視システム | |
| JPS6012849A (ja) | 障害情報記録方式 | |
| JP2004258964A (ja) | 計算機システムの自動運転方法及び計算機システム | |
| JPH06266573A (ja) | 障害復旧情報管理システム | |
| JP2624106B2 (ja) | 交換システムにおけるバックアップファイルの自動検証処理方法 | |
| JP2522610B2 (ja) | 生産監視システムの復帰方式 | |
| CN120123124A (zh) | 日志服务的处理方法、装置、终端设备及存储介质 | |
| JPS585856A (ja) | 論理装置のエラ−回復システム | |
| CN116661869A (zh) | 一种t-box异常恢复方法与系统 | |
| JPS59133620A (ja) | 復電時の自動運転方式 | |
| CN121301076A (zh) | 引导分区恢复方法及电子设备 |