JP2003131900A

JP2003131900A - サーバシステム運用管理方式

Info

Publication number: JP2003131900A
Application number: JP2001325904A
Authority: JP
Inventors: Keimei Fujii; 啓明藤井; Yoshio Miki; 良雄三木; Tatsuya Kawashita; 達也川下; Akihiro Takamura; 明裕高村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2001-10-24
Filing date: 2001-10-24
Publication date: 2003-05-09
Also published as: US20030079093A1; US6832298B2

Abstract

(57)【要約】【課題】フェールオーバ、クローニング等によるアク
セス不可及びレスポンス不良時間をより短縮し、可用性
の高いサーバシステムを構築する。【解決手段】主記憶共有型マルチプロセッサにおい
て、構成管理処理部１０１が本番系論理システム１０２
と待機系論理システム１０３を定義し、また両論理シス
テムからアクセス可能な情報保持空間１０６を用意し、
本番系論理システム１０２が、自身が管理する主記憶領
域１０４上のメモリ領域を指すアドレス情報を当該情報
保持空間１０６に登録し、フェールオーバまたはクロー
ニングが必要になったとき待機系論理システム１０３
が、当該アドレス情報を参照し、さらに当該アドレス情
報から本番系論理システム１０２が管理する主記憶領域
１０４上の情報を参照して、本番系論理システム１０２
と同じ処理環境および状態を形成し、その後本番系論理
システム１０２の処理全部または一部を引き継ぐ。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、サーバと呼ばれる
クラスの計算機システムの運用管理方法に係わり、特
に、同システムの信頼性、可用性を高めるための障害時
フェールオーバや高負荷時クローニングといった処理を
高速に実施するためのサーバシステム運用管理方法に関
する。

【０００２】

【従来の技術】インターネットを活用したビジネス展開
を支えるインフラとしてのサーバシステムにおいては、
システムダウンに伴うアクセス不可時間や、急激なアク
セス量の増加に伴うレスポンス不良時間がビジネスチャ
ンスの喪失に直結するため、それらの時間を出来る限り
短縮する手段として、フェールオーバ、クローニングな
どの可用性向上機能が既に提案されている。ここで、フ
ェールオーバとは、本番系システムにおける処理におい
て障害が発生したとき、本番系システムから待機系シス
テムに切り替え、待機系システムに処理を引き継ぐこと
であり、クローニングとは、本番系システムにおける処
理において高負荷状態等が発生し、本番系システムにお
ける処理が滞る時、待機系システムに処理の一部を引き
継ぐことである。その具体的な事例は、ＳｕｎＭｉｃ
ｒｏｓｙｓｔｅｍｓ、Ｉｎｃ．が発行するｗｈｉｔｅ
ｐａｐｅｒの“Ｓｕｎ（ＴＭ）Ｅｎｔｅｒｐｒｉｓ
ｅ（ＴＭ）ＣｌｕｓｔｅｒＦａｉｌｏｖｅｒ”で紹介
されている。

【０００３】図２に上記従来技術に基づくサーバシステ
ム構成を示す。本図において、２０２は通常本システム
での処理を受け持つ本番系サーバシステムであり、２０
３は本番系サーバシステム２０２に異常が発生した場合
にその処理を引き継ぐ待機系サーバシステムである。２
０４は、本番系サーバシステム２０２および待機系サー
バシステム２０３で共有して使用される共有ディスク、
２０５は、ＬＡＮあるいはインターネットなどのネット
ワークである。また、２０１は、同ネットワーク２０５
を介してサーバシステムにアクセスし処理の要求を行う
クライアント端末である。本図に示したように、従来、
上記フェールオーバ、クローニングなどの可用性向上機
能は、クラスタ構成のシステムにおける本番系２０２と
待機系２０３間での共有ディスク２０４による情報共有
を前提として実現されている。

【０００４】ここで、図２に示したサーバシステムにお
けるフェールオーバ処理の様子を図３を用いて説明す
る。図３では、同処理に係わる構成要素としてのクライ
アント端末２０１、本番系サーバシステム２０２、待機
系サーバシステム２０３、共有ディスク２０４の相互関
係を上から下への時間の流れに沿って示している。ま
ず、処理要求および正常レスポンス３０１で示すとお
り、正常時にはクライアント端末２０１からの処理要求
に応じて本番系サーバシステム２０２が相当する処理を
行い、その結果などをレスポンスとしてクライアント端
末２０１に返している。本処理は、クライアント端末２
０１からの処理要求発生に応じてオンデマンドで繰り返
される。本番系処理状態保存処理３０２も正常時におけ
る動作である。ハードウェアやＯＳ／ソフトウェアの障
害などによって本番系サーバシステム２０２がいかなる
問合せに対しても応答不能となり、その主記憶上に存在
する状態情報が参照不能となるケースに備えて、本番系
サーバシステム２０２は、共有ディスク２０４に対して
所定のタイミング毎に必要な自身の状態情報を書きこ
む。なお、本処理動作に関しては、状態変化のイベント
発生毎に常に行うという形も考えられるが、ディスクア
クセス処理のオーバヘッドは一般に大きく、本番系サー
バシステム２０２の処理性能上問題があるため、そのよ
うな解は現実的ではない。次に、本番系動作状態チェッ
クの問い合わせ（以下、本番系動作状態チェックとい
う）および正常応答３０３の動作は、待機系サーバシス
テム２０３による本番系サーバシステム２０２の動作監
視処理動作であり、これも正常時の動作である。このよ
うに待機系サーバシステム２０３から所定のタイミング
毎に動作状態をチェックするための通信を本番系サーバ
システム２０２に対して行い、それに対して本番系サー
バシステム２０２が異常無く応答することで本番系サー
バシステム２０２が正常に動作しているのを確認でき
る。

【０００５】３０４は、本番系サーバシステム２０２に
おいて障害が発生したポイントを示している。動作３０
５は、障害発生後初めての待機系サーバシステム２０３
による本番系サーバシステム２０２の動作状態チェック
により、該障害発生を待機系サーバシステム２０３が検
出したことを示す。ここで、異常応答とは、全く応答し
ない、あるいは、異常に応答が遅れるなどのケースを指
す。一方、動作３０６は、障害発生後、待機系サーバシ
ステム２０３によってフェールオーバ処理が行われ、本
番系サーバシステム２０２の処理が待機系サーバシステ
ム２０３によって引き継がれるまでの間に発生したクラ
イアント端末２０１からの処理要求に対する動作を示
す。ここで異常レスポンスとは、所定の時間内にレスポ
ンスが返らないようなケースを指す。動作３０５によっ
て本番系サーバシステム２０２における障害発生を検出
した待機系サーバシステム２０３は、動作３０７に示す
とおりフェールオーバ処理を開始し、その処理の過程で
本番系サーバシステム２０２の処理状態を復元すべく、
本番系サーバシステム２０２が動作３０２で共有ディス
ク２０４に保存した状態情報を動作３０８によって共有
ディスク２０４から読み出す。待機系サーバシステム２
０３は、その状態情報を用いて、本番系サーバシステム
２０２の処理状態を可能な範囲で復元し、本番系サーバ
システム２０２からの処理の引継ぎに対する準備を行っ
た後、動作３０９にてフェールオーバ処理を完了させ
る。以降、待機系サーバシステム２０３は本番系サーバ
システムとして処理を開始し、動作３１０に示すような
形で、動作３０６の結果としてのクライアント端末２０
１からの再処理要求や別の処理要求等に応答していく。

【０００６】

【発明が解決しようとする課題】上記従来手法には、以
下の問題点が存在し、より高い可用性を求めるユーザの
要請に応えられない。（１）待機系サーバシステム２０３による本番系サーバ
システム２０２の処理状態復元が共有ディスク２０４の
アクセスを伴うため、処理に時間がかかる。（２）障害発生時点で本番系サーバシステム２０２の主
記憶上に存在する最新情報が共有ディスク２０４に反映
されず、またその読み出しも不可能であるため、状態回
復に限度がある。本発明の目的は、上記の問題を解決し、システムの異常
状態の発生により生じるアクセス不可及びレスポンス不
良時間をより短縮して可用性の高いサーバシステムを構
築することにある。

【０００７】

【課題を解決するための手段】本発明の代表的特徴は、
複数個のプロセッサ、主記憶装置、外部記憶装置、およ
びそれらを相互に接続する接続手段を有する単一の主記
憶共有型マルチプロセッサシステムにおいて、任意数の
プロセッサおよび主記憶装置の一部からなる論理的なシ
ステム単位を複数個定義し、さらに、そのうち２つ以上
の論理的なシステム単位について、１つを本番系論理シ
ステム、その他を待機系論理システムと定義し、本番系
論理システムおよび待機系論理システムの双方からアク
セス可能な主記憶装置上のメモリセグメントを用意し、
該メモリセグメントに本番系論理システムから待機系論
理システムへの制御引継ぎ用の情報を格納する制御引継
ぎ用の情報保持空間を設け、本番系論理システムはその
制御の引継ぎに必要な情報を該情報が作成される度に該
制御引継ぎ用の情報保持空間に登録し、待機系論理シス
テムは、本番系論理システムから待機系論理システムへ
の制御引継ぎの要求を受けた時点で、制御引継ぎ用の情
報保持空間に格納された情報を参照し、本番系論理シス
テムと同じ処理環境および状態を形成し、その後該本番
系論理システムの処理全部または一部を引き継ぐように
している点である。また、別の特徴は、待機系論理シス
テムによる本番系論理システムからの制御引継ぎに関し
て、待機系論理システムは、本番系論理システムから待
機系論理システムへの制御引継ぎの要求を受けた時点
で、前記制御引継ぎ用の情報保持空間に格納された情報
を参照した後、さらに、該参照の結果得られた情報を元
に、本番系論理システムが管理する主記憶資源をアクセ
スして該主記憶資源を待機系論理システムが管理する主
記憶装置に格納することにより本番系論理システムと同
じ処理環境および状態を形成し、その後本番系論理シス
テムの処理全部または一部を引き継ぐようにしている点
である。また、本番系論理システムは、本番系論理シス
テムが管理する主記憶領域上に存在して、本番系論理シ
ステムから待機系論理システムへの処理引継ぎ時に待機
系論理システムが管理する主記憶領域に複製する必要の
ある本番系論理システムの環境および処理状態情報が含
まれる複数個のメモリ領域について、該メモリ領域の確
保あるいは該メモリ領域の所在変更の際に、前記制御引
継ぎ用の情報保持空間に対して、その主記憶アドレスを
登録あるいは更新し、待機系論理システムは、該本番系
論理システムからの処理引継ぎ時に、該制御引継ぎ用の
情報保持空間から該複数個のメモリ領域に対する主記憶
アドレスを順次参照し、該主記憶アドレスを元に、本番
系論理システムが管理する主記憶領域上の情報を得るよ
うにしている。また、主記憶共有型マルチプロセッサシ
ステムにおいてその論理的な構成を管理する構成管理処
理部を定義し、該構成管理処理部は、前記論理的なシス
テム単位を複数個定義し、さらに、そのうち２つ以上の
論理的なシステム単位について、１つを本番系論理シス
テム、その他を待機系論理システムと定義し、本番系論
理システムおよび待機系論理システムの双方からアクセ
ス可能な主記憶上のメモリセグメントを用意し、該メモ
リセグメントに前記制御引継ぎ用の情報保持空間を設
け、これを維持・管理し、また、本番系論理システムの
運用状態を監視し、該監視の結果本番系論理システムに
異常を検出した場合に、その異常の状態に応じて前記制
御引継ぎの要求を該待機系論理システムに発し、待機系
論理システムに対して、本番系論理システムの処理全部
または一部を引き継ぐように指示するようにしている。
また、前記定義された構成管理処理部を、前記主記憶共
有型マルチプロセッサシステムを構成する複数個のプロ
セッサの内の１つとし、あるいは、前記主記憶共有型マ
ルチプロセッサシステムに対して用意される外部管理端
末とするようにしている。また、本番系論理システムが
管理する主記憶領域に対して、他の論理的なシステム単
位からのアクセスに対するプロテクト制御が施されてい
る場合、構成管理処理部が待機系論理システムからの本
番系論理システムが管理する主記憶領域へのアクセス要
求を受け、該アクセスを処理し、該アクセスによって得
た情報を待機系論理システムに引き渡すようにしてい
る。また、本番系論理システムの運用状態を監視し、該
監視の結果本番系論理システムに異常を検出した場合、
その異常の状態が障害発生である場合には本番系論理シ
ステムの処理全部の引き継ぎを、その異常の状態が高負
荷状態の発生である場合には本番系論理システムの処理
の一部の引き継ぎを待機系論理システムが実施するよう
にしている。また、待機系論理システムによる本番系論
理システムの処理引継ぎに際して、待機系論理システム
で実行されることになるプログラムコードに関して、待
機系論理システムは、本番系論理システムが管理する主
記憶領域から待機系論理システムが管理する主記憶領域
へ該プログラムコードを複写するようにし、あるいは、
本番系論理システムが管理する主記憶領域に既に存在し
ているものを直接使用するようにしている。

【０００８】

【発明の実施の形態】本発明の実施の形態を図を用いな
がら説明する。図４ならびに図５は、本発明に係わるサ
ーバシステム運用管理方式を実装するプラットフォーム
として想定している主記憶共有型のマルチプロセッサシ
ステムの構成を示す。図４ならびに図５に示す構成は既
に公知である。図４のシステム構成は、一般にＳｙｍｍ
ｅｔｒｉｃＭｕｌｔｉ−Ｐｒｏｃｅｓｓｏｒ（ＳＭ
Ｐ）と呼ばれる。本システムは、主に複数のＣＰＵ４０
１、相互接続ネットワーク４０２、共有主記憶４０３、
ストレージ（外部記憶装置）４０４で構成される。複数
のＣＰＵ４０１、共有主記憶４０３、ストレージ４０４
は、相互接続ネットワーク４０２で互いに結合される。
共有主記憶４０３については、図では論理的に1個の構
成要素として示しているが、物理的には複数のセグメン
トから構成され、それぞれのセグメントが相互接続ネッ
トワーク４０２に結合する形態が一般的である。また、
相互接続ネットワーク４０２については、バスやクロス
バスイッチなど種々の構成方法が存在する。このような
構成によって、本システムでは、総てのＣＰＵ４０１か
ら共有主記憶４０３およびストレージ４０４といった資
源を均質にアクセスできる。

【０００９】図５のシステム構成は、一般にＮｏｎ−Ｕ
ｎｉｆｏｒｍＭｅｍｏｒｙＡｃｃｅｓｓ（ＮＵＭ
Ａ）方式と呼ばれる。本システムは、複数のＣＰＵ４０
１、第一レベル相互接続ネットワーク５０２、ローカル
主記憶５０３、ローカルストレージ５０４などからなる
基本構成ブロック５０５を複数個、第二レベル相互接続
ネットワーク５０６で結合した形態を取る。基本構成ブ
ロック５０５は、図４で示したＳＭＰ型のシステムと等
価である。第二レベル相互接続ネットワーク５０６は、
各基本構成ブロック５０５の第一レベル相互接続ネット
ワーク同士を結合する。このような構成によって、シス
テム中のローカル主記憶５０３およびローカルストレー
ジ５０４は、基本構成ブロック５０５の枠を越えてシス
テム中のどのＣＰＵ４０１からもアクセスが可能にな
る。例えば、図中右側の基本構成ブロック５０５中のＣ
ＰＵ４０１から左側の基本構成ブロック５０５中のロー
カル主記憶５０３あるいはローカルストレージ５０４を
アクセスする際には、当該ＣＰＵ４０１から当該ＣＰＵ
４０１が属する基本構成ブロック５０５内の第一レベル
相互ネットワーク５０２、第二レベル相互接続ネットワ
ーク５０６、さらに、アクセス先のローカル主記憶５０
３あるいはローカルストレージ５０４が属する基本構成
ブロック５０５内の第一レベル相互ネットワーク５０２
を介して当該ローカル主記憶５０３あるいはローカルス
トレージ５０４をアクセスする。このシステム構成にお
いて、複数の第一レベル相互接続ネットワーク５０２と
第二レベル相互接続ネットワーク５０６からなる階層的
な相互接続ネットワークを論理的に1個のネットワーク
として見れば、図４と図５の論理的な構成は等しくな
る。その意味で、図４と図５の物理的な構成の違いは、
本発明に係わるサーバシステム運用管理方式を実装する
にあたって特に影響を及ぼさない。本発明に係わるサー
バシステム運用管理方式を実装するにあたって、プラッ
トフォームが満たすべき必要最低限の要件は、「主記憶
共有型」のマルチプロセッサである点である。

【００１０】この図４あるいは図５に示した主記憶共有
型マルチプロセッサの運用形態のひとつとして、同シス
テム内の任意の複数ＣＰＵ４０１および共有主記憶４０
３（あるいはローカル主記憶５０３群）の一部を組み合
わせて論理パーティションという論理的な運用管理単位
を定義し、これを仮想的に独立した1個の論理システム
として運用する手法が既に存在する。この手法によっ
て、本来物理的に複数のサーバシステムで構成されるト
ータルシステムを物理的に１個のシステムに統合でき、
これによってトータルシステムの運用管理コストの削減
が図れる。本発明に係わるサーバシステム運用管理方式
は、本運用手法による複数の論理システムの存在を前提
とする。

【００１１】続いて、図１を用いて本発明に係わるサー
バシステム運用管理方式の詳細を説明する。システム基
本構成は図４に準じており、上述の複数個の論理システ
ムとして、論理システムＡ１０２および論理システムＢ
１０３の２つを示している。論理システムＡ１０２およ
び論理システムＢ１０３は、それぞれ複数のＣＰＵ４０
１と共有主記憶４０３の一部を有している。その論理シ
ステムＡ１０２が管理する共有主記憶４０３の一部を主
記憶領域Ａ１０４、論理システムＢ１０３が管理する共
有主記憶４０３の一部を主記憶領域Ｂ１０５とする。さ
らに、本システムにおいては、ＣＰＵ４０１の１つであ
る構成管理ＣＰＵ１０１と共有主記憶４０３上の一領域
である制御引継ぎ用情報保持空間１０６が存在する。

【００１２】構成管理ＣＰＵ１０１は、論理システムの
定義および管理、システムの信頼性・可用性向上機能と
してのフェールオーバ、クローニングを実現するための
論理システム間での本番系−待機系関係の定義、本番系
論理システムの動作監視と、異常検出時の待機系論理シ
ステムへの処理引継ぎ指令、制御引継ぎ用情報保持空間
１０６の作成・管理などを受け持つ構成要素である。一
方、制御引継ぎ用情報保持空間１０６は、上記フェール
オーバ、クローニングといった処理の引継ぎを共有主記
憶４０３を活用して処理するために必要な情報を保持す
るためのメモリ領域である。

【００１３】具体的な構成例を図７に示す。図７では、
論理システムＡ１０２が本番系論理システムとして定義
されている場合の制御引継ぎ用情報保持空間１０６およ
び主記憶領域Ａ１０４の様子を示している。制御引継ぎ
用情報保持空間１０６中には、制御引継ぎ関係定義表７
０７や、本番系論理システム毎に用意されるポインタ表
７０８、７０９といった各種管理テーブルが存在する。
制御引継ぎ関係定義表７０７を構成するエントリ７１０
は、図８に示すとおり、本番系論理システム識別子フィ
ールド８０１、待機系論理システム識別子フィールド８
０２、本番系論理システム用ポインタ表へのポインタフ
ィールド８０３からなる。各エントリ７１０は、構成管
理ＣＰＵ１０１がフェールオーバ、クローニングを実現
するための論理システム間での本番系−待機系関係の定
義を行う毎に構成管理ＣＰＵ１０１によって消費され、
その本番系論理システムの識別子と待機系論理システム
の識別子がそれぞれフィールド８０１、８０２に登録さ
れる。さらに、構成管理ＣＰＵ１０１は、本番系論理シ
ステム用にポインタ表（７０８あるいは７０９など）の
領域を確保し、当該ポインタ表の先頭アドレスを上述の
本番系論理システムの識別子と待機系論理システムの識
別子を登録したエントリ７１０のフィールド８０３に登
録する。論理システムＡ用ポインタ表７０８を構成する
エントリ７１１は、図９に示すとおり、プロセス識別子
フィールド９０１、プロセス内識別子フィールド９０
２、アドレスポインタフィールド９０３からなる。各エ
ントリ７１１は、本番系論理システムがそのオペレーテ
ィングシステム（ＯＳ）を含めて信頼性・可用性保証が
必要なプロセスを立ち上げる毎に、基本的に当該プロセ
スの比較的初期の段階で当該プロセスによって消費され
る。その際、プロセス識別子フィールド９０１には当該
プロセスの識別子（例えばプロセスＩＤ）が登録され、
プロセス内識別子フィールド９０２には当該プロセスが
自身のアドレス空間に定義する複数のデータ領域を区別
するための識別子が登録され、さらに、アドレスポイン
タフィールド９０３に当該データ領域の先頭アドレスが
登録される。

【００１４】図７の説明に戻る。図７の状態において
は、本発明に係わるサーバシステムにおいて、本番系論
理システムとして少なくとも論理システムＡ１０２およ
び論理システムＣが登録されている。さらに、論理シス
テムＡ１０２においては既にＯＳが起動され、信頼性・
可用性保証が必要なアプリケーションとして少なくとも
アプリケーションＡおよびアプリケーションＢが実行中
である。これに伴って、論理システムＡ１０２が管理す
る主記憶領域Ａ１０４中にはＯＳが使用するＯＳ管理情
報領域７０１、ＯＳ処理ワーク領域７０２、アプリケー
ションＡが使用する管理情報領域７０３、ワーク領域７
０４、アプリケーションＢが使用する管理情報領域７０
５、ワーク領域７０６が存在している。この状態で、本
番系論理システムとして論理システムＡ１０２および論
理システムＣが登録されているのに対応してそれぞれ論
理システムＡ用ポインタ表７０８および、論理システム
Ｃ用ポインタ表７０９が制御引継ぎ用情報保持空間１０
６に確保され、その所在場所が制御引継ぎ関係定義表７
０７の本番系論理システムとして自身の識別子が本番系
論理システム識別子フィールド８０１に登録されている
それぞれのエントリ７１０の本番系論理システム用ポイ
ンタ表へのポインタフィールド８０３に登録されてい
る。図中エントリ７１０から出ている矢印線は当該ポイ
ンタフィールド８０３の値が何処を指し示しているかを
明示している。また、ＯＳが使用するＯＳ管理情報領域
７０１、ＯＳ処理ワーク領域７０２、アプリケーション
Ａが使用する管理情報領域７０３、ワーク領域７０４、
アプリケーションＢが使用する管理情報領域７０５、ワ
ーク領域７０６が主記憶領域Ａ１０４に存在しているの
に対応して、その所在場所が論理システムＡ用ポインタ
表７０８のそれぞれのデータ領域に対応するエントリ７
１１のアドレスポインタフィールド９０３に登録されて
いる。図中エントリ７１１から出ている矢印線は当該ア
ドレスポインタフィールド９０３の値が何処を指し示し
ているかを明示している。なお、図７で示した主記憶領
域Ａ１０４上のデータ領域の定義はあくまで一例であ
る。より具体的なイメージとしては、ＯＳのプロセス管
理テーブルや、トランザクション処理応用の処理トラン
ザクション管理テーブル、各トランザクションの状態ヒ
ープもしくはプール、データベース応用におけるオンメ
モリデータベースキャッシュなどのようなものが考えら
れる。

【００１５】続いて、図１のサーバシステム構成におい
てフェールオーバ、クローニングといった可用性向上機
能がどのように実現されるかを図６の処理フロー図を用
いて説明する。まず、サーバシステム立ち上げに際し
て、構成管理ＣＰＵ１０１は、論理システムの定義など
と並行して、動作６０１に示すとおり、制御引継ぎ用情
報保持空間１０６を作成し、以後これを管理する。さら
に、定義した論理システムのうち可用性向上機能を実現
するための本番系論理システム、待機系論理システム、
および、その本番系−待機系の関係を定義する。先述し
たとおり、構成管理ＣＰＵ１０１はまた、制御引継ぎ用
情報保持空間１０６の管理動作の一環として、制御引継
ぎ関係定義表７０７を作成し、そのエントリ７１０に上
述の本番系−待機系の関係を登録する。また、本番系論
理システムのそれぞれに対応してポインタ表（７０８あ
るいは７０９など）の領域を確保し、当該ポインタ表の
先頭アドレスを上述の本番系−待機系の関係を登録した
エントリ７１０のフィールド８０３に登録する。これら
の初期動作が完了した後、構成管理ＣＰＵ１０１は、こ
の例では論理システムＡ１０２に対して動作６０２によ
って本番系としての稼動を指示し、動作６０３によって
論理システムＢ１０３に対して待機系としての稼動を指
示する。この際、構成管理ＣＰＵ１０１は、論理システ
ムＡ１０２に対して論理システムＡ用ポインタ表７０８
の先頭アドレスを伝える。論理システムＢ１０３に対し
ては、動作６０３の段階で論理システムＡ用ポインタ表
７０８の先頭アドレスを伝えても良いし、あるいは後述
する動作６０９の処理引継ぎ指示時に伝えても良い。

【００１６】本番系として稼動を開始した論理システム
Ａ１０２は、まずそのＯＳを起動した際に、動作６０４
によって、図７を用いて説明したＯＳ管理情報領域７０
１やＯＳ処理ワーク領域７０２といったデータ領域の先
頭アドレスをポインタ情報として制御引継ぎ用情報保持
空間１０６内の論理システムＡ用ポインタ表７０８のエ
ントリ７１１のアドレスポインタフィールド９０３にそ
れぞれ登録する。その際、プロセス識別子やプロセス内
識別子といった情報も同時に、上記エントリ７１１の該
当するプロセス識別子フィールド９０１やプロセス内識
別子フィールド９０２にそれぞれ登録する。更に、以
降、信頼性・可用性保証が必要なアプリケーションを起
動する毎に、ＯＳ起動時と同様に、動作６０４によっ
て、アプリケーションが使用する管理情報領域やワーク
領域といったデータ領域の先頭アドレスをポインタ情報
として制御引継ぎ用情報保持空間１０６内の論理システ
ムＡ用ポインタ表７０８のエントリ７１１のアドレスポ
インタフィールド９０３にそれぞれ登録する。その際、
プロセス識別子やプロセス内識別子といった情報も同時
に、上記エントリ７１１の該当するプロセス識別子フィ
ールド９０１やプロセス内識別子フィールド９０２にそ
れぞれ登録する。なお、この動作６０４はＯＳやアプリ
ケーション起動時だけでなく、新たにデータ領域を確保
した場合や、既にあるデータ領域を動かしたりした場合
などにも随時発生する。また、動作６０５に示すとお
り、これは特別な動作というわけではなく、ごく一般的
なプログラム処理の動作として、主記憶領域Ａ１０４に
対する処理情報、状態の書込み処理は随時発生する。

【００１７】この論理システムＡ１０２の動作と並行し
て、構成管理ＣＰＵ１０１は動作６０６に示すとおり、
所定のタイミング毎に論理システムＡ１０２の動作状態
をチェックする。論理システムＡ１０２は正常に動作し
ていれば構成管理ＣＰＵ１０１の動作状態チェックに対
応して構成管理ＣＰＵ１０１に正常応答を返す。一方、
異常発生ポイント６０７以降の時間帯に動作状態チェッ
クがなされた場合の動作は動作６０８以降のようにな
る。まず、動作６０８において、構成管理ＣＰＵ１０１
からの動作状態チェックに対して、異常応答が構成管理
ＣＰＵ１０１によって検出される。この異常応答とは、
実際に論理システムＡ１０２からの応答の場合と、構成
管理ＣＰＵ１０１が論理システムＡ１０２からの応答に
よらずそのように判断する場合がある。前者は、論理シ
ステムＡ１０２が少なくとも動作状態チェックに対する
応答は可能であるが、障害あるいは極度の高負荷状態に
あって所定のレベルの可用性を保証できない場合であ
る。この場合、論理システムＡ１０２は、障害発生か、
あるいは極度の高負荷状態かを構成管理ＣＰＵ１０１に
伝える。一方、後者は、障害によって論理システムＡ１
０２が動作状態チェックに対して応答不能であるか、あ
るいは極度の高負荷状態で応答が非常に遅れる場合であ
る。この場合、構成管理ＣＰＵ１０１は一定の時間応答
を待った後に異常発生を判断する。すなわち、所定時間
以内に応答がなく、さらに一定の時間応答を待ち、この
一定の時間以内に応答があったとき、障害あるいは極度
の高負荷状態にあって所定のレベルの可用性を保証でき
ない場合であると判断し、この一定の時間以内に応答が
なかったとき障害発生と判断する。

【００１８】構成管理ＣＰＵ１０１は、異常発生を検出
した後、制御引継ぎ用情報保持空間１０６内の制御引継
ぎ関係定義表７０７を参照して、異常が発生した本番系
論理システムＡ１０２に対応する待機系論理システムを
特定し、この場合、当該待機系論理システムである論理
システムＢ１０３に対して、障害発生時にはフェールオ
ーバによる処理の引継ぎを、極度の高負荷状態発生時に
はクローニングによる処理の引継ぎを、動作６０９によ
り指示する。先述したとおり、このタイミングで構成管
理ＣＰＵ１０１から論理システムＢ１０３に対して制御
引継ぎ用情報保持空間１０６内の論理システムＡ用ポイ
ンタ表７０８の先頭アドレスを伝える場合がある。構成
管理ＣＰＵ１０１からの処理引継ぎ指示を受けた論理シ
ステムＢ１０３は、フェールオーバの要求、またはクロ
ーニングの要求に応じて、それぞれ所定の処理引継ぎ動
作を行う。当該動作の概略ステップを動作６１０以降動
作６１３までで示した。

【００１９】まず、動作６１０で処理が始まり、動作６
１１により、構成管理ＣＰＵ１０１から伝えられた制御
引継ぎ用情報保持空間１０６内の論理システムＡ用ポイ
ンタ表７０８の先頭アドレスを用いて、論理システムＡ
用ポインタ表７０８から各種ポインタ値を得る。当該ポ
インタ値は、本番系論理システムＡ１０２が管理してい
る主記憶領域Ａ１０４の各種データ領域の先頭アドレス
を示しているため、動作６１２では、当該ポインタ値を
用いて処理引継ぎに必要な処理情報、状態を当該データ
領域から読出し、これを自身が管理する主記憶領域Ｂ１
０５に複写する。この動作６１１、６１２の処理を繰り
返して主記憶領域Ｂ１０５上に論理システムＡ１０２が
管理する主記憶領域Ａ上のイメージ（すなわち論理シス
テムＡ１０２の処理状態）を復元して、動作６１３で処
理引継ぎを完了し、以降、フェールオーバの場合には論
理システムＡ１０２の肩代わりとして動作し、クローニ
ングの場合には論理システムＡ１０２の負荷を一部分担
して処理する。なお、動作６１１、６１２によって復元
する論理システムＡ１０２の処理状態は、処理引継ぎ形
態がフェールオーバの場合には論理システムＡ１０２の
総ての処理状態であり、処理引継ぎ形態がクローニング
の場合には、処理引継ぎを行うアプリケーションに関す
る処理状態とＯＳの当該アプリケーションに係わる管理
情報およびワーク領域情報である。なお、論理システム
Ｂ１０３の処理引継ぎ動作に関して、論理システムＢ１
０３で実行されることになるプログラムのコードについ
ても、上記の処理の枠組で主記憶領域Ａ１０４から主記
憶領域Ｂ１０５に複写することもできる。さらには、複
写せずに直接主記憶領域Ａ１０４を参照させるような処
理方法も実現可能である。以上が、本発明に係わるサー
バシステム運用管理方式によるフェールオーバ、クロー
ニングといった可用性向上機能の実現方法である。

【００２０】なお、ここでは主記憶上の情報の引継ぎと
いう観点での説明に終始したが、図１に示すとおり、本
サーバシステムの構成上の特性により、元々ストレージ
４０４に関しては論理システム間で共用されており、例
えば大規模なデータベースなどの当該ストレージ４０４
上の情報については複写などの処理を伴わずに引継ぎが
可能であるため、詳細な説明は省略する。また、先述し
た論理パーティションの実装および運用方法によって
は、異なる論理パーティションが管理する主記憶領域へ
のアクセスが禁じられるため、図６の動作６１２におけ
る論理システムＢ１０３による主記憶領域Ａ１０４の参
照については、困難である場合がある。その場合は、構
成管理ＣＰＵ１０１のみに上記のアクセス制約を受けな
い特権を与え、動作６１２の主記憶参照を論理システム
Ｂ１０３から構成管理ＣＰＵ１０１に依頼し、構成管理
ＣＰＵ１０１が当該主記憶アクセスを実施した後、その
結果を論理システムＢ１０３に引き渡すという方法が考
えられる。また、特開２０００−２３５５５８に開示さ
れている方法によって、論理パーティション間で特別に
相互参照可能な共有主記憶領域を定義するという方法に
よっても論理システムＢ１０３による動作６１２が可能
になる。以上が本発明に係わる実施の形態である。

【００２１】なお、本発明に係わる別の実施の形態とし
て、構成管理ＣＰＵ１０１が果たす役割に関して以下の
バリエーションが存在する。まず、構成管理の実態は1
個の処理プロセスであり、構成管理処理部自体は、１個
の固定的なＣＰＵ４０１である必然性は無く、ある特別
な論理パーティションであっても良い。この場合、構成
管理プロセスは当該論理パーティション内の固定的でな
いいずれかのＣＰＵで動作する。また、いわゆるシステ
ム制御用外部コンソール端末によっても構成管理を実現
できる。さらには、ここまでの説明で構成管理ＣＰＵ１
０１が行っていた処理の内、図６の動作６０６、６０
８、６０９に関しては待機系論理プロセッサが行うとい
う方法も考えられる。

【００２２】

【発明の効果】本発明によって、待機系システムが異常
状態になった本番系システムの処理状態を共有主記憶を
介して高速に参照できるようになり、待機系システムに
よる本番系システムの処理状態復元を高速化することが
できる。また、これによって、アクセス不可及びレスポ
ンス不良時間をより短縮して可用性の高いサーバシステ
ムを構築できる。さらに、処理状態情報そのものではな
く、当該処理状態を保持する各種データ領域の先頭アド
レスをあらかじめ登録して、異常発生時には当該アドレ
ス情報を元に最新の処理状態情報を参照させる形で処理
引継ぎを実現することで、処理引継ぎ動作以外の部分で
のオーバヘッドを削減でき、これによりアクセス不可及
びレスポンス不良時間をより短縮した可用性の高いサー
バシステムを構築できる。

【図面の簡単な説明】

【図１】本発明に係わる主記憶共有型マルチプロセッサ
・サーバシステムの構成を示す図である。

【図２】従来技術による可用性向上を目的としたクラス
タ型システムの構成を示す図である。

【図３】従来技術によるクラスタ型システムでの障害発
生時フェールオーバ処理の流れを示す図である。

【図４】本発明がプラットフォームとして想定する主記
憶共有型マルチプロセッサシステムの構成例を示す図で
ある。

【図５】本発明がプラットフォームとして想定する主記
憶共有型マルチプロセッサシステムの構成例を示す図で
ある。

【図６】本発明に係わる本番系システムに異常が発生し
た際の待機系システムによる処理引継ぎ処理の流れを示
す図である。

【図７】本発明に係わる制御引継ぎ用情報保持空間内の
情報および当該情報と本番系論理システムＡが管理する
主記憶領域Ａ内の各データ領域との関係を示す図であ
る。

【図８】本発明に係わる制御引継ぎ用情報保持空間内の
制御引継ぎ関係定義表のエントリ構成を示す図である。

【図９】本発明に係わる制御引継ぎ用情報保持空間内の
論理システム用ポインタ表のエントリ構成を示す図であ
る。

【符号の説明】

１０１構成管理ＣＰＵ１０２論理システムＡ１０３論理システムＢ１０４主記憶領域Ａ１０５主記憶領域Ｂ１０６制御引継ぎ用情報保持空間４０１ＣＰＵ４０２相互接続ネットワーク４０３共有主記憶４０４ストレージ５０２第一レベル相互接続ネットワーク５０３ローカル主記憶５０４ローカルストレージ５０５基本構成ブロック５０６第二レベル相互接続ネットワーク７０１ＯＳ管理情報領域７０２ＯＳ処理ワーク領域７０３アプリケーションＡの管理情報領域７０４アプリケーションＡのワーク領域７０５アプリケーションＢの管理情報領域７０６アプリケーションＢのワーク領域７０７制御引継ぎ関係定義表７０８論理システムＡ用ポインタ表７０９論理システムＣ用ポインタ表７１０制御引継ぎ関係定義表のエントリ７１１論理システム用ポインタ表のエントリ８０１本番系論理システム識別子フィールド８０２待機系論理システム識別子フィールド８０３本番系論理システム用ポインタ表へのポインタ
フィールド９０１プロセス識別子フィールド９０２プロセス内識別子フィールド９０３アドレスポインタフィールド

───────────────────────────────────────────────────── フロントページの続き (72)発明者川下達也東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内 (72)発明者高村明裕東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内Ｆターム(参考） 5B034 BB02 BB17 CC01 DD05 DD07 5B045 GG03 GG04 GG09 JJ04 JJ13 JJ26 JJ44

Claims

【特許請求の範囲】

【請求項１】複数個のプロセッサ、主記憶装置、外部
記憶装置、およびそれらを相互に接続する接続手段を有
する単一の主記憶共有型マルチプロセッサシステムにお
いて、任意数のプロセッサおよび主記憶装置の一部からなる論
理的なシステム単位を複数個定義し、さらに、そのうち
２つ以上の論理的なシステム単位について、１つを本番
系論理システム、その他を待機系論理システムと定義
し、該本番系論理システムおよび該待機系論理システム
の双方からアクセス可能な主記憶装置上のメモリセグメ
ントを用意し、該メモリセグメントに該本番系論理シス
テムから該待機系論理システムへの制御引継ぎ用の情報
を格納する制御引継ぎ用の情報保持空間を設け、該本番系論理システムはその制御の引継ぎに必要な情報
を該情報が作成される度に該制御引継ぎ用の情報保持空
間に登録し、該待機系論理システムは、該本番系論理システムから該
待機系論理システムへの制御引継ぎの要求を受けた時点
で、該制御引継ぎ用の情報保持空間に格納された情報を
参照し、該本番系論理システムと同じ処理環境および状
態を形成し、その後該本番系論理システムの処理全部ま
たは一部を引き継ぐことを特徴とするサーバシステム運
用管理方法。
【請求項２】請求項１記載のサーバシステム運用管理
方法において、前記待機系論理システムによる前記本番
系論理システムからの制御引継ぎに関して、該待機系論
理システムは、該本番系論理システムから該待機系論理
システムへの制御引継ぎの要求を受けた時点で、前記制
御引継ぎ用の情報保持空間に格納された情報を参照した
後、さらに、該参照の結果得られた情報を元に、該本番
系論理システムが管理する主記憶資源をアクセスして該
主記憶資源を該待機系論理システムが管理する主記憶装
置に格納することにより該本番系論理システムと同じ処
理環境および状態を形成し、その後該本番系論理システ
ムの処理全部または一部を引き継ぐことを特徴とする請
求項１のサーバシステム運用管理方法。
【請求項３】請求項１または請求項２記載のサーバシ
ステム運用管理方法において、前記本番系論理システムは、該本番系論理システムが管
理する主記憶領域上に存在して、該本番系論理システム
から前記待機系論理システムへの処理引継ぎ時に該待機
系論理システムが管理する主記憶領域に複製する必要の
ある該本番系論理システムの環境および処理状態情報が
含まれる複数個のメモリ領域について、該メモリ領域の
確保あるいは該メモリ領域の所在変更の際に、前記制御
引継ぎ用の情報保持空間に対して、その主記憶アドレス
を登録あるいは更新し、該待機系論理システムは、該本番系論理システムからの
処理引継ぎ時に、該制御引継ぎ用の情報保持空間から該
複数個のメモリ領域に対する主記憶アドレスを順次参照
し、該主記憶アドレスを元に、該本番系論理システムが
管理する主記憶領域上の情報を得ることを特徴とするサ
ーバシステム運用管理方法。
【請求項４】請求項１乃至請求項３のいずれかの請求
項記載のサーバシステム運用管理方法において、前記主記憶共有型マルチプロセッサシステムにおいてそ
の論理的な構成を管理する構成管理処理部を定義し、該
構成管理処理部は、前記論理的なシステム単位を複数個
定義し、さらに、そのうち２つ以上の論理的なシステム
単位について、１つを本番系論理システム、その他を待
機系論理システムと定義し、該本番系論理システムおよ
び待機系論理システムの双方からアクセス可能な主記憶
上のメモリセグメントを用意し、該メモリセグメントに
前記制御引継ぎ用の情報保持空間を設け、これを維持・
管理し、また、該本番系論理システムの運用状態を監視
し、該監視の結果該本番系論理システムに異常を検出し
た場合に、その異常の状態に応じて前記制御引継ぎの要
求を該待機系論理システムに発し、該待機系論理システ
ムに対して、該本番系論理システムの処理全部または一
部を引き継ぐように指示することを特徴とするサーバシ
ステム運用管理方法。
【請求項５】請求項４記載のサーバシステム運用管理
方法において、前記定義された構成管理処理部は、前記主記憶共有型マ
ルチプロセッサシステムを構成する複数個のプロセッサ
の内の１つであることを特徴とするサーバシステム運用
管理方法。
【請求項６】請求項４記載のサーバシステム運用管理
方法において、前記定義された構成管理処理部は、前記主記憶共有型マ
ルチプロセッサシステムに対して用意される外部管理端
末であることを特徴とするサーバシステム運用管理方
法。
【請求項７】請求項４乃至請求項６のいずれかの請求
項記載のサーバシステム運用管理方法において、前記本番系論理システムが管理する主記憶領域に対し
て、他の論理的なシステム単位からのアクセスに対する
プロテクト制御が施されている場合、前記構成管理処理
部が前記待機系論理システムからの該本番系論理システ
ムが管理する主記憶領域へのアクセス要求を受け、該ア
クセスを処理し、該アクセスによって得た情報を該待機
系論理システムに引き渡すことを特徴とするサーバシス
テム運用管理方法。
【請求項８】請求項４乃至請求項７のいずれかの請求
項記載のサーバシステム運用管理方法において、前記本番系論理システムの運用状態を監視し、該監視の
結果該本番系論理システムに異常を検出した場合、その
異常の状態が障害発生である場合には該本番系論理シス
テムの処理全部の引き継ぎを、その異常の状態が高負荷
状態の発生である場合には該本番系論理システムの処理
の一部の引き継ぎを前記待機系論理システムが実施する
ことを特徴とするサーバシステム運用管理方法。
【請求項９】請求項１乃至請求項８のいずれかの請求
項記載のサーバシステム運用管理方法において、前記待機系論理システムによる前記本番系論理システム
の処理引継ぎに際して、該待機系論理システムで実行さ
れることになるプログラムコードに関して、該待機系論
理システムは該本番系論理システムが管理する主記憶領
域から該待機系論理システムが管理する主記憶領域へ該
プログラムコードを複写することを特徴とするサーバシ
ステム運用管理方法。
【請求項１０】請求項１乃至請求項８のいずれかの請
求項記載のサーバシステム運用管理方法において、前記待機系論理システムによる前記本番系論理システム
の処理引継ぎに際して、該待機系論理システムで実行さ
れることになるプログラムコードに関して、該待機系論
理システムは該本番系論理システムが管理する主記憶領
域に既に存在しているものを直接使用することを特徴と
するサーバシステム運用管理方法。