JPH05324596A - 並列多重処理システム - Google Patents

並列多重処理システム

Info

Publication number
JPH05324596A
JPH05324596A JP4128950A JP12895092A JPH05324596A JP H05324596 A JPH05324596 A JP H05324596A JP 4128950 A JP4128950 A JP 4128950A JP 12895092 A JP12895092 A JP 12895092A JP H05324596 A JPH05324596 A JP H05324596A
Authority
JP
Japan
Prior art keywords
message
process group
computer
unit
recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4128950A
Other languages
English (en)
Inventor
Tetsuo Hasegawa
哲夫 長谷川
Toshibumi Seki
俊文 關
Asako Kitamura
麻子 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP4128950A priority Critical patent/JPH05324596A/ja
Publication of JPH05324596A publication Critical patent/JPH05324596A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【目的】本発明は、計算機の一つが一時的に処理を中断
した後に復帰し再起動される際にデータを共有するプロ
セス群の復旧を行う。 【構成】通信回線1 に共通に接続される計算機2,3 より
同一処理を実行可能にしたもので、例えば、再起動され
る計算機3 は、復旧開始通知メッセージを送信部31より
他の計算機に送信し、これ以降に受信部段32より受信さ
れる復旧対象プロセス群に対するメッセージをメッセー
ジ保存部34に保存し、稼働中計算機2 から転送される共
有データを復旧対象プロセス群に渡し、保存しているメ
ッセージを復旧対象プロセス群に渡し、一方、稼働中計
算機22は、復旧開始通知メッセージ以降に受信部22より
受信されるメッセージをメッセージ保存部24に保存し、
プロセス群がメッセージ入力待ちになると、共有データ
を再起動計算機3 に送信部21より送信し、保存してい
るメッセージをプロセス群に渡すようにしている。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、共通の通信回線に複数
の計算機が接続され、これら複数の計算機により同一処
理を同時に実行可能にした並列多重処理システムに関す
る。
【0002】
【従来の技術】従来、並列多重処理システムにおける各
計算機のプロセスでは、それぞれ通信回線を介して同一
入力メッセージを受け取ると、これら入力メッセージに
従って所定の処理を行うとともに、その内部データを更
新し、必要に応じて出力メッセージを出力するようにな
っている。
【0003】ところで、このように並列多重処理される
プロセスの一つが計算機の故障などで一時的にその処理
を中断したような場合、計算機が復旧して処理を再開し
ても、この時点ではその内部データが他の計算機のプロ
セスのものと異なっているため、この状態から通信回線
より他の計算機のプロセスと同一メッセージを受けとる
と、他とプロセスのものと異なる出力メッセージを出力
することになる。
【0004】このため、故障計算機の復旧後にプロセス
を再稼働するには、正常に稼働されている他のプロセス
から内部データを転送するとともに、この転送元のプロ
セスが行っていた処理の続きから再稼働し、さらに転送
元プロセスが最後に受けた入力メッセージの次の入力メ
ッセージから受け取りを開始するようにする必要があっ
た。
【0005】従来では、このような問題を解決するため
の手段として、各プロセスの動きを監視するOS(オペ
レーティング・システム)を使用し、各プロセスが現在
プログラムのどこの箇所まで処理を進めているかを随時
把握させておいて、故障後復旧にともない処理を再開す
るプロセスについて、OSに把握された情報に基づいて
プログラムの該当箇所からの処理を再開するようにして
いる。
【0006】
【発明が解決しようとする課題】ところが、OSに対し
て各プロセスのプログラム処理状況を随時把握させ、処
理を再開するプロセスについて把握した情報を提供する
ような特殊な機能を付加することは、OSそのものの変
更を必要とするとともに、動作上の信頼性の低下を招く
おそれもあった。
【0007】本発明は上記事情に鑑みてなされたもの
で、OSの変更などを伴うことなく一時停止したプロセ
スの復旧を簡単に行うことができる並列多重処理システ
ムを提供することを目的とする。
【0008】
【課題を解決するための手段】本発明は、共通の通信回
線に複数の計算機が接続され、これら複数の計算機によ
り同一処理を実行可能にした並列多重処理システムにお
いて、各計算機は少なくとも送信および受信手段、プロ
セス群を有する演算手段、メッセージ保存手段を備え、
そして、計算機の一つが一時的に処理を中断した後に復
帰し再起動される際にデータを共有するプロセス群の復
旧を行う場合、再起動される計算機では、該計算機内の
復旧対象プロセス群毎に復旧開始通知メッセージを送信
手段により稼働中計算機に送信し、復旧開始通知メッセ
ージ以降に受信手段より受信される復旧対象プロセス群
に対するメッセージをメッセージ保存手段に保存し、稼
働中計算機から転送される共有データを前記復旧対象プ
ロセス群に渡し、その後にメッセージ保存手段に保存さ
れているメッセージを前記復旧対象プロセス群に渡すよ
うにし、一方、稼働中計算機では、復旧開始通知メッセ
ージ以降に受信手段より受信される前記復旧対象プロセ
ス群に対するメッセージをメッセージ保存手段に保存
し、該稼働中計算機のプロセス群がメッセージ入力待ち
になると、共有データを前記再起動計算機に転送し、そ
の後にメッセージ保存手段に保存されているメッセージ
を前記稼働中計算機のプロセス群に渡すように構成され
ている。
【0009】
【作用】この結果、本発明によれば、再起動される計算
機では、復旧開始通知メッセージ以降に受信される復旧
対象プロセス群に対するメッセージを保存し、稼働中計
算機から転送される共有データを復旧対象プロセス群に
渡した後に保存されているメッセージを復旧対象プロセ
ス群に渡すようになり、一方、稼働中計算機では、復旧
開始通知メッセージ以降に受信されるメッセージを保存
し、プロセス群がメッセージ入力待ちになると、共有デ
ータを再起動計算機に転送した後に保存されているメッ
セージをプロセス群に渡すようになって、これ以降の入
力メッセージから処理を再開できるようになるので、O
Sそのものの変更を必要とすることなく、一時的に処理
を中断したプロセスの復旧を行うことができる。
【0010】
【実施例】以下、本発明の一実施例を図面に従い説明す
る。
【0011】図1は同実施例の概略構成を示している。
図において、1は通信回線で、この通信回線1には複数
(図示例では2個)の計算機2、3が接続されている。
これら複数の計算機2、3は、同一処理を同時に実行す
る並列多重処理を可能にしている。
【0012】ここで、計算機2は、通信回線1に対して
各種メッセージを送受信する送信部21、受信部22を
接続している。そして、これら送信部21および受信部
22に演算部23を接続し、また、受信部22にメッセ
ージ保存部24を接続している。
【0013】ここで、演算部23は、図2(a)に示す
ようにプロセスA1 、A2 、A3 からなるプロセス群A
とプロセスB1 、B2 、B3 からなるプロセス群Bを搭
載している。また、メッセージ保存部24は、メッセー
ジを一時的に保存するものである。
【0014】送信部21、受信部22、演算部23およ
びメッセージ保存部24には、制御部25を接続してい
る。この制御部25は、これら送信部21、受信部2
2、演算部23およびメッセージ保存部24に対し所定
の制御指令を与えるようになっている。
【0015】一方、計算機3についても上述の計算機2
と同様で、送信部31、受信部32、演算部33、メッ
セージ保存部34および制御部35を有している。そし
て、ここでの演算部33も、図2(b)に示すようにプ
ロセスA1 、A2 、A3 からなるプロセス群Aとプロセ
スB1 、B2 、B3 からなるプロセス群Bを搭載してい
る。次に、以上のように構成した実施例の動作を説明す
る。
【0016】この場合、各計算機2、3は、受信部2
2、23より入力メッセージを受け取ると、各演算部2
3、33で何等かの計算を行うとともに、データを更新
し、出力メッセージを1つ送信して処理を終了し、それ
ぞれの受信部22、23に次の入力メッセージを要求す
るようになっている。
【0017】そして、いま、図3に示すように各プロセ
ス間のメッセージ通信が行われているものとし、この状
態から、計算機3の演算部33が故障から復旧して処理
を再開する場合を説明する。
【0018】この場合、計算機2、3において、各演算
部23、33のデータを共用する各プロセス群A、Bの
モードは、図4に示すようになっている。つまり、ここ
では演算部23は、プロセス群A、Bがともに「正常」
で、演算部33は、プロセス群A、Bがともに「未復
旧」になっている。また、図5に示すように各演算部2
3、33のプロセスは、演算部23のプロセスA1 のみ
が処理中で、これを除いたすべてのプロセスは、入力メ
ッセージ待ち状態になっている。さらに、各計算機2、
3でのメッセージ保存部24、34は空である。
【0019】この状態から、図3に示す通信1が演算部
23のプロセスA1 から出されると、送信部21では、
プロセスB1 宛てのメッセージを受信部22、32に対
して送信する。
【0020】受信部22は、制御部25により図12に
示すフローチャートに従って、まず、メッセージが復旧
開始通知のメッセージかを判断する(ステップ12
a)。ここでは、NOなので、ステップ12bに進み、
転送データかを判断する。ここでもNOなので、ステッ
プ12cに進み、宛先プロセスが「未復旧」モードかを
判断する。この場合、宛先プロセスの演算部23のプロ
セスB1 の状態は図4に示すように未復旧でないので、
こでもNOとなり、ステップ12dに進み、宛先プロセ
スは「復旧中」モードかを判断する。しかし、ここでも
NOとなるので、ステップ12eに進み、宛先プロセス
は「入力待ち」状態かを判断する。
【0021】この場合、宛先プロセスの演算部23のプ
ロセスB1 は図5に示すように「入力待ち」状態にある
ので、YESとなり、ステップ12fに進む。ステップ
12fでは、受信部22で受け取ったメッセージを演算
部23のプロセスB1 に渡す。そして、このプロセスB
1 を「処理中」にして処理を終了する(ステップ12
g)。
【0022】一方、受信部32も、制御部35により図
12に示すフローチャートに従って、メッセージが復旧
開始通知のメッセージかを判断する(ステップ12
a)。ここでは、NOなので、ステップ12bに進み、
転送データかを判断する。ここでもNOなので、ステッ
プ12cに進み、宛先プロセスが「未復旧」モードかを
判断する。この場合、宛先プロセスの演算部33のプロ
セスB1 の状態は図4に示すように未復旧でYESとな
るので、そのままメッセージを捨てて何もせず、演算部
33のプロセスB1 は何も受け取らない。その後、メッ
セージを送信した演算部23のプロセスA1 は、処理を
終了し、受信部22に対して次の入力メッセージを要求
する。
【0023】すると、受信部22は、制御部25により
図13に示すフローチャートに従って、まず、要求プロ
セスが「正常」モードかを判断する(ステップ13
a)。この場合、要求プロセスの演算部23のプロセス
A1 は図4に示すように「正常」モードにあるので、Y
ESとなり、ステップ13bに進む。ステップ13bで
は、メッセージ保存部24にプロセスA1 宛てのメッセ
ージがあるかを判断する。
【0024】この場合、プロセスA1 宛てのメッセージ
はないので、NOとなり、ステップ13cに進み、要求
プロセスA1 を「入力待ち」状態にする。この結果、各
プロセスの入力メッセージ待ち状態は、図6に示すよう
になる。
【0025】次に、上述した入力メッセージにより処理
を開始した演算部23のプロセスB1 が図3に示す通信
2を出すと、送信部21では、プロセスA1 宛てのメッ
セージを受信部22、32に対して送信する。この場合
も、上述した通信1とまったく同様な処理が行われ、受
信部22から入力メッセージが演算部23のプロセスA
1 に渡され、これによりプロセスA1 が処理を開始し、
一方、演算部33のプロセスA1 は何も受け取らない。
この結果、各プロセスの入力メッセージ待ち状態は、図
7に示すようになる。
【0026】この状態から、計算機3の演算部33でデ
ータを共有するプロセス群Aの復旧が開始されたとする
と、送信部31よりプロセス群Aの復旧開始メッセージ
を受信部22、32に同時に送信する。
【0027】受信部32では、図12に示すフローチャ
ートにより、まず、メッセージが復旧開始通知のメッセ
ージかを判断するが(ステップ12a)、ここではYE
Sとなるので、ステップ12hに進み、演算部33の宛
先プロセス群Aを「復旧中」モードに書き換える。ま
た、受信部22では、同様に図12に示すフローチャー
トにより、まず、メッセージが復旧開始通知のメッセー
ジかを判断するが(ステップ12a)、ここでもYES
となるので、ステップ12hに進み、演算部23の宛先
プロセス群Aを「復旧中」モードに書き換える。この場
合、元のモードが「正常」なので、送信部21に対して
データ転送要求を出力するようになる。この結果、各プ
ロセス群A、Bのモードは、図8に示すようになる。
【0028】次に、データ転送要求を受けた送信部21
は、制御部25により図14に示すフローチャートに従
って、まず、復旧対象プロセス群Aに「処理中」がある
かを判断するが(ステップ14a)、この時点では、図
7に示すようにプロセスA1が処理中でYESなので、
この状態が維持される。
【0029】次に、図3に示す通信3が演算部23のプ
ロセスA1 から出されると、送信部21では、プロセス
A2 宛てのメッセージを受信部22、32に対して送信
する。
【0030】すると、受信部22では、制御部25によ
り図12に示すフローチャートに従って、メッセージが
復旧開始通知のメッセージかを判断する(ステップ12
a)。ここでは、NOなので、ステップ12bに進み、
転送データかを判断する。ここでもNOなので、ステッ
プ12cに進み、宛先プロセスが「未復旧」モードかを
判断する。この場合、宛先プロセスの演算部23のプロ
セスA2 の状態は図8に示すように復旧中で未復旧でな
いので、こでもNOとなり、ステップ12dに進み、宛
先プロセスは「復旧中」モードかを判断する。すると、
ここでは、YESとなるので、ステップ12iに進み、
メッセージはメッセージ保存部24に保存される。
【0031】一方、受信部32も、制御部35により図
12に示すフローチャートに従って、メッセージが復旧
開始通知のメッセージかを判断する(ステップ12
a)。ここでは、NOなので、ステップ12bに進み、
転送データかを判断する。ここでもNOなので、ステッ
プ12cに進み、宛先プロセスが「未復旧」モードかを
判断する。この場合、宛先プロセスの演算部33のプロ
セスA2 の状態は図8に示すように復旧中で未復旧でな
いので、こでもNOとなり、ステップ12dに進み、宛
先プロセスは「復旧中」モードかを判断する。すると、
ここでは、YESとなるので、ステップ12iに進み、
メッセージはメッセージ保存部34に保存される。
【0032】そして、メッセージを送信した演算部23
のプロセスA1 が処理を終了し、受信部22に対して次
の入力メッセージを要求すると、受信部22は、制御部
25により図13に示すフローチャートに従って、要求
プロセスが「正常」モードかを判断する(ステップ13
a)。この場合、要求プロセスの演算部23のプロセス
A1 は図8に示すように「復旧中」モードにあるので、
NOとなり、ステップ13cに進み、要求プロセスA1
を「入力待ち」状態にする。この結果、各プロセスの入
力メッセージ待ち状態は、図9に示すようになる。
【0033】プロセスA1 が「入力待ち」になると、制
御部25により図14に示すフローチャートのステップ
14aでYESとなり、送信部21は演算部23のプロ
セス群Aのデータを計算機3の受信部32に転送する
(ステップ14b)。そして、転送終了の後に、ステッ
プ14cに進み、演算部23のプロセス群Aを「正常」
モードとする。この場合、メッセージ保存部24には、
プロセス群Aに含まれるプロセスA2 宛てのメッセージ
が保存されているので、これを演算部23のプロセスA
2 に渡し、プロセスA2 の待ち状態を「処理中」にする
(ステップ14d)。
【0034】一方、転送データを受信した計算機3の受
信部32は、制御部35により図12に示すフローチャ
ートに従って、メッセージが復旧開始通知のメッセージ
かを判断する(ステップ12a)。ここでは、NOなの
で、ステップ12bに進み、転送データかを判断する
が、この場合、転送データによりYESとなるので、ス
テップ12jに進み、演算部33の復旧対象プロセス群
Aにデータを渡す。
【0035】その後、該当プロセス群Aを「正常」モー
ドにし(ステップ12k)、さらに、メッセージ保存部
34にプロセスA2 宛てのメッセージが保存されている
ので、これをプロセスA2 に渡すとともに、このプロセ
スA2 を「処理中」モードにする(ステップ12l)。
この結果、各プロセス群A、Bのモードは、図10に示
すようになり、また、各プロセスの入力メッセージ待ち
状態は、図11に示すようになって、計算機2、3の各
演算部23、33でのそれぞれのプロセスA2は、処理
を開始する。
【0036】この結果、演算部33でのプロセス群A
は、図3に示すプロセス間のメッセージ通信のうち通信
2までの処理を終了した段階でデータが転送され、通信
3の入力メッセージから処理を開始するようになり、矛
盾なく復旧が成功することになる。また、プロセス群B
の復旧についても、上述と同様にして行われる。
【0037】従って、このようにすれば、従来のように
OSに対して各プロセスのプログラム処理状況を随時把
握させ、処理を再開するプロセスについて把握した情報
を提供するような特殊な機能を付加するなど、OSその
ものの変更を必要とすることがなくなるので、動作上の
信頼性の低下を招くことなく、一時停止したプロセスの
復旧を簡単に行うことができる。なお、本発明は、上記
実施例にのみ限定されず、要旨を変更しない範囲で適宜
変形して実施できる。
【0038】
【発明の効果】本発明によれば、OSの変更などを伴う
ことなく故障したプロセスの復旧を簡単に行うことがで
きる。
【図面の簡単な説明】
【図1】本発明の一実施例の概略構成を示す図。
【図2】実施例の各演算部に搭載されるプロセス例を示
す図。
【図3】実施例のプロセス間のメッセージ通信の例を示
す図。
【図4】実施例の各プロセス群のモードを示す図。
【図5】実施例の各プロセスの入力メッセージ待ち状態
を示す図。
【図6】実施例の各プロセスの入力メッセージ待ち状態
を示す図。
【図7】実施例の各プロセスの入力メッセージ待ち状態
を示す図。
【図8】実施例の各プロセス群のモードを示す図。
【図9】実施例の各プロセスの入力メッセージ待ち状態
を示す図。
【図10】実施例の各プロセス群のモードを示す図。
【図11】実施例の各プロセスの入力メッセージ待ち状
態を示す図。
【図12】実施例の受信部が送信部からのメッセージ受
信時の処理の流れを示す図。
【図13】実施例の入力メッセージを受けたときの受信
部の処理の流れを示す図。
【図14】実施例のデータ転送要求を受けたときの送信
部の処理の流れを示す図。
【符号の説明】
1…通信回線、2、3…計算機、21、31…送信部、
22、32…受信部、23、33…演算部、24、34
…メッセージ保存部、25、35…制御部。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 共通の通信回線に複数の計算機が接続さ
    れこれら複数の計算機により同一処理を実行可能にした
    並列多重処理システムにおいて、 前記各計算機は少なくとも送信および受信手段、プロセ
    ス群を有する演算手段、メッセージ保存手段を備え、 前記計算機の一つが一時的に処理を中断した後に復帰し
    再起動される際にデータを共有するプロセス群の復旧を
    行う場合、 該再起動される計算機では、 該計算機内の復旧対象プロセス群毎に復旧開始通知メッ
    セージを送信手段により稼働中計算機に送信し、前記復
    旧開始通知メッセージ以降に受信手段より受信される前
    記復旧対象プロセス群に対するメッセージをメッセージ
    保存手段に保存し、前記稼働中計算機から転送される共
    有データを前記復旧対象プロセス群に渡しその後に前記
    メッセージ保存手段に保存されているメッセージを前記
    復旧対象プロセス群に渡すようにし、 稼働中計算機では、 前記復旧開始通知メッセージ以降に受信手段より受信さ
    れる前記復旧対象プロセス群に対するメッセージをメッ
    セージ保存手段に保存し、該稼働中計算機のプロセス群
    がメッセージ入力待ちになると、共有データを前記再起
    動計算機に転送しその後に前記メッセージ保存手段に保
    存されているメッセージを前記稼働中計算機のプロセス
    群に渡すようにしたことを特徴とする並列多重処理シス
    テム。
JP4128950A 1992-05-21 1992-05-21 並列多重処理システム Pending JPH05324596A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4128950A JPH05324596A (ja) 1992-05-21 1992-05-21 並列多重処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4128950A JPH05324596A (ja) 1992-05-21 1992-05-21 並列多重処理システム

Publications (1)

Publication Number Publication Date
JPH05324596A true JPH05324596A (ja) 1993-12-07

Family

ID=14997421

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4128950A Pending JPH05324596A (ja) 1992-05-21 1992-05-21 並列多重処理システム

Country Status (1)

Country Link
JP (1) JPH05324596A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4808766A (en) * 1986-06-20 1989-02-28 Walter F. Buckner Oscillation dampener for aerial electrical transmission lines and line equipped therewith
CN112055041A (zh) * 2019-06-07 2020-12-08 京瓷办公信息系统株式会社 信息处理系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4808766A (en) * 1986-06-20 1989-02-28 Walter F. Buckner Oscillation dampener for aerial electrical transmission lines and line equipped therewith
CN112055041A (zh) * 2019-06-07 2020-12-08 京瓷办公信息系统株式会社 信息处理系统
CN112055041B (zh) * 2019-06-07 2023-11-07 京瓷办公信息系统株式会社 信息处理系统

Similar Documents

Publication Publication Date Title
US6161198A (en) System for providing transaction indivisibility in a transaction processing system upon recovery from a host processor failure by monitoring source message sequencing
US5301309A (en) Distributed processing system with checkpoint restart facilities wherein checkpoint data is updated only if all processors were able to collect new checkpoint data
JP2002522845A (ja) フォールトトレラント・コンピュータシステム
US6061807A (en) Methods systems and computer products for error recovery of endpoint nodes
JPH02310665A (ja) 分散トランザクション処理システム
JPH05324596A (ja) 並列多重処理システム
US5894547A (en) Virtual route synchronization
JP3447347B2 (ja) 障害検出方法
JP2001109642A (ja) クラスタシステム、及びそのデータ複写方法
JP2001159985A (ja) 二重化装置
JP3394189B2 (ja) 任意プロセッサのプログラム・データ無中断更新システム
JPH10320326A (ja) チェックポイント通信処理システム、及びチェックポイント通信処理方法、この通信処理方法を格納した記憶媒体
JPH1139273A (ja) 遠隔地でのバックアップ方式
JP3026350B2 (ja) 二重化システムの系切り替え方法
JP3122371B2 (ja) 計算機システム
JP3708891B2 (ja) フォールトトレラントシステムにおけるプロセスペア実行制御方法、プロセスペア実行制御プログラム、及びフォールトトレラントシステム
JP3176945B2 (ja) 情報処理装置、待機冗長型システムおよび待機冗長型システムの主系と待機系との間でチェックポイントをとる方法
JPH05257673A (ja) ファイル更新時の旧ファイル保存方法
JP2002149439A (ja) 分散処理システムにおけるサーバ切替え方法及びサーバ装置
JPH06243059A (ja) ファイル転送の中断・再開方式
JPH0458636A (ja) 通信パス二重化制御方式
JP3130892B2 (ja) 二重化システム
JP2000010868A (ja) 分散システムおよびそのバックアップ方法
JP2021086489A (ja) 疎結合システム
JPH04291650A (ja) データ破壊防止機能を有する情報処理システム