JP2017527893A - 分散コンピューティング用のプロアクティブ障害回復モデル - Google Patents
分散コンピューティング用のプロアクティブ障害回復モデル Download PDFInfo
- Publication number
- JP2017527893A JP2017527893A JP2017505069A JP2017505069A JP2017527893A JP 2017527893 A JP2017527893 A JP 2017527893A JP 2017505069 A JP2017505069 A JP 2017505069A JP 2017505069 A JP2017505069 A JP 2017505069A JP 2017527893 A JP2017527893 A JP 2017527893A
- Authority
- JP
- Japan
- Prior art keywords
- node
- computing
- nodes
- mtbf
- computing node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/203—Failover techniques using migration
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operations
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1405—Saving, restoring, recovering or retrying at machine instruction level
- G06F11/1407—Checkpointing the instruction stream
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operations
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/1438—Restarting or rejuvenating
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operations
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1458—Management of the backup or restore process
- G06F11/1461—Backup scheduling policy
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operations
- G06F11/1471—Error detection or correction of the data by redundancy in operations involving logging of persistent data for recovery
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Hardware Redundancy (AREA)
- Retry When Errors Occur (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
優先権の主張
本願は、2014年7月29日に出願された米国特許出願第14/445,369号に基づく優先権を主張し、当該米国特許出願のすべての記載内容を援用する。
112において、ノードのチェックポイントは全く取得されず、MaxLimitはMTBFと等しくなるよう更新される。いくつかの実装において、特定の閾値より上のMaxLimitは、MaxLimitが高すぎる旨の警告の生成を開始できる。112から、方法100bは110に進む。
Claims (20)
- 複数のコンピューティングノードの仮想ツリー状コンピューティング構造を構築するステップと;
前記仮想ツリー状コンピューティング構造の各コンピューティングノードに対して、コンピューティングノードに関連する平均故障間隔(MTBF)を計算するために、ハードウェアプロセッサによって、ノード障害予測モデルを実行するステップと;
計算された前記MTBFと、最大閾値及び最小閾値との比較に基づいて、コンピューティングノードのチェックポイントを実行するかどうかを決定するステップと;
前記コンピューティングノードから、回復ノードとして機能する異なるコンピューティングノードへ、プロセスを移行するステップと;
前記異なるコンピューティングノード上で前記プロセスの実行を再開するステップと;を備える、
コンピュータに実装される方法。 - 前記各コンピューティングノードに対し、少なくともコンピューティング能力パラメータ値及びノード位置パラメータ値を収集するステップと;
前記ノード位置パラメータに基づいて、コンピューティングノードをコレクションに分割するステップと;
前記コンピューティング能力パラメータに基づいて、前記各コレクション内のノードをソートするステップと;をさらに備える、
請求項1の方法。 - ソートした前記コンピューティングノードのレベルを決定するために、上限及び下限を特定するステップと;
前記コンピューティング能力パラメータ並びに前記上限及び前記下限に基づいて、各コレクション内のコンピューティングノードを水平レベルにソートするステップと;
前記水平レベル配置及び垂直配置を、各コンピューティングノードに関連したノード記録情報テーブルに記録するステップと;
指定された回復ノードを前記各ノード記録情報テーブルに登録するステップと;をさらに備える、
請求項2の方法。 - 前記上限及び前記下限が、前記各コンピューティングノードに対して収集されたコンピューティング能力及びノード位置パラメータのクロスプロットから決定され、
前記垂直配置が、前記各コンピューティングノードに対するノード位置パラメータに少なくとも基づいて決定される、
請求項3の方法。 - 前記MTBFが、ネットワーク又はデータストレージ障害に少なくとも基づいて計算される、
請求項1の方法。 - 前記コンピューティングノードのMTBFが前記下限未満である場合にチェックポイントを作成するステップと;
前記MTBFに等しくなるように、前記コンピューティングノードに関連する下限を更新するステップと;をさらに備える、
請求項1の方法。 - 前記コンピューティングノードの障害が発生したことを判断するステップと;
前記コンピューティングノードに対して取得された最新のチェックポイントをプロセス状態として用いるステップとをさらに備える;
請求項6の方法。 - コンピュータ読取可能命令を格納している非一時的なコンピュータストレージ媒体であって、
コンピュータにより実行可能な前記命令が、
複数のコンピューティングノードの仮想ツリー状コンピューティング構造を構築する;
前記仮想ツリー状コンピューティング構造の各コンピューティングノードに対して、コンピューティングノードに関連する平均故障間隔(MTBF)を計算するために、ノード障害予測モデルを実行する;
計算された前記MTBFと、最大閾値及び最小閾値との比較に基づいて、コンピューティングノードのチェックポイントを実行するかどうかを決定する;
前記コンピューティングノードから、回復ノードとして機能する異なるコンピューティングノードへ、プロセスを移行する;および、
前記異なるコンピューティングノード上で前記プロセスの実行を再開する;ように構成されている、
非一時的なコンピュータストレージ媒体。 - 前記各コンピューティングノードに対し、少なくともコンピューティング能力パラメータ値及びノード位置パラメータ値を収集する;
前記ノード位置パラメータに基づいて、コンピューティングノードをコレクションに分割する;および、
前記コンピューティング能力パラメータに基づいて、前記各コレクション内のノードをソートする;命令をさらに含む、
請求項8の媒体。 - ソートした前記コンピューティングノードのレベルを決定するために、上限及び下限を特定する;
前記コンピューティング能力パラメータ並びに前記上限及び前記下限に基づいて、各コレクション内のコンピューティングノードを水平レベルにソートする;
前記水平レベル配置及び垂直配置を、各コンピューティングノードに関連したノード記録情報テーブルに記録する;および、
指定された回復ノードを前記各ノード記録情報テーブルに登録する;命令をさらに含む、
請求項9の媒体。 - 前記上限及び前記下限が、前記各コンピューティングノードに対して収集されたコンピューティング能力及びノード位置パラメータのクロスプロットから決定され、
前記垂直配置が、前記各コンピューティングノードに対するノード位置パラメータに少なくとも基づいて決定される、
請求項10の媒体。 - 前記MTBFが、ネットワーク又はデータストレージ障害に少なくとも基づいて計算される、
請求項8の媒体。 - 前記コンピューティングノードのMTBFが前記下限未満である場合にチェックポイントを作成する;および、
前記MTBFに等しくなるように、前記コンピューティングノードに関連する下限を更新する;命令をさらに含む、
請求項8の媒体。 - 前記コンピューティングノードの障害が発生したことを判断する;および、
前記コンピューティングノードに対して取得された最新のチェックポイントをプロセス状態として用いる;命令をさらに含む、
請求項13の媒体。 - メモリストレージと相互運用可能な少なくとも1つのハードウェアプロセッサを備え:
複数のコンピューティングノードの仮想ツリー状コンピューティング構造を構築する;
前記仮想ツリー状コンピューティング構造の各コンピューティングノードに対して、コンピューティングノードに関連する平均故障間隔(MTBF)を計算するために、ノード障害予測モデルを実行する;
計算された前記MTBFと、最大閾値及び最小閾値との比較に基づいて、コンピューティングノードのチェックポイントを実行するかどうかを決定する;
前記コンピューティングノードから、回復ノードとして機能する異なるコンピューティングノードへ、プロセスを移行する;および、
前記異なるコンピューティングノード上で前記プロセスの実行を再開する;ように構成された、
コンピュータシステム。 - 前記各コンピューティングノードに対し、少なくともコンピューティング能力パラメータ値及びノード位置パラメータ値を収集する;
前記ノード位置パラメータに基づいて、コンピューティングノードをコレクションに分割する;および、
前記コンピューティング能力パラメータに基づいて、前記各コレクション内のノードをソートする;ようにさらに構成された、
請求項15のシステム。 - ソートした前記コンピューティングノードのレベルを決定するために、上限及び下限を特定する;
前記コンピューティング能力パラメータ並びに前記上限及び前記下限に基づいて、各コレクション内のコンピューティングノードを水平レベルにソートする;
前記水平レベル配置及び垂直配置を、各コンピューティングノードに関連したノード記録情報テーブルに記録する;および、
指定された回復ノードを前記各ノード記録情報テーブルに登録する;ようにさらに構成された、
請求項16のシステム。 - 前記上限及び前記下限が、前記各コンピューティングノードに対して収集されたコンピューティング能力及びノード位置パラメータのクロスプロットから決定され、
前記垂直配置が、各コンピューティングノードに対するノード位置パラメータに少なくとも基づいて決定される、
請求項17のシステム。 - 前記MTBFが、ネットワーク又はデータストレージ障害に少なくとも基づいて計算される、
請求項15のシステム。 - 前記コンピューティングノードのMTBFが前記下限未満である場合にチェックポイントを作成する;
前記MTBFに等しくなるように、前記コンピューティングノードに関連する下限を更新する;
前記コンピューティングノードの障害が発生したことを判断する;および、
前記コンピューティングノードに対して取得された最新のチェックポイントをプロセス状態として用いる;ようにさらに構成された、
請求項15のシステム。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US14/445,369 | 2014-07-29 | ||
| US14/445,369 US9348710B2 (en) | 2014-07-29 | 2014-07-29 | Proactive failure recovery model for distributed computing using a checkpoint frequency determined by a MTBF threshold |
| PCT/US2015/041121 WO2016018663A1 (en) | 2014-07-29 | 2015-07-20 | Proactive failure recovery model for distributed computing |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2017527893A true JP2017527893A (ja) | 2017-09-21 |
| JP2017527893A5 JP2017527893A5 (ja) | 2018-08-30 |
| JP6662847B2 JP6662847B2 (ja) | 2020-03-11 |
Family
ID=53801170
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017505069A Active JP6662847B2 (ja) | 2014-07-29 | 2015-07-20 | 分散コンピューティング用のプロアクティブ障害回復モデル |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US9348710B2 (ja) |
| EP (1) | EP3175361B1 (ja) |
| JP (1) | JP6662847B2 (ja) |
| CN (1) | CN106796540B (ja) |
| CA (1) | CA2956567A1 (ja) |
| WO (1) | WO2016018663A1 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2022169072A (ja) * | 2021-04-27 | 2022-11-09 | 株式会社日立製作所 | ストレージシステム、ストレージノード仮想計算機復旧方法、及び復旧プログラム |
| JP2023024983A (ja) * | 2017-11-16 | 2023-02-21 | インテル・コーポレーション | オーケストレーションシステム、コンピュータプログラム、非一時的機械可読記憶媒体、および、方法 |
Families Citing this family (42)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10417076B2 (en) * | 2014-12-01 | 2019-09-17 | Uptake Technologies, Inc. | Asset health score |
| CN105988918B (zh) | 2015-02-26 | 2019-03-08 | 阿里巴巴集团控股有限公司 | 预测gpu故障的方法和装置 |
| JP6259414B2 (ja) * | 2015-03-24 | 2018-01-10 | ファナック株式会社 | 不揮発性メモリに格納されたデータ等のメインテナンス機能を備えた数値制御装置 |
| US9727366B2 (en) * | 2015-04-23 | 2017-08-08 | International Business Machines Corporation | Machine learning for virtual machine migration plan generation |
| US10496421B1 (en) * | 2015-09-29 | 2019-12-03 | EMC IP Holding Company LLC | Simulation of asynchronous modifications of shared data objects by a distributed application |
| US10460296B2 (en) | 2016-02-08 | 2019-10-29 | Bank Of America Corporation | System for processing data using parameters associated with the data for auto-processing |
| US10437880B2 (en) | 2016-02-08 | 2019-10-08 | Bank Of America Corporation | Archive validation system with data purge triggering |
| US9823958B2 (en) | 2016-02-08 | 2017-11-21 | Bank Of America Corporation | System for processing data using different processing channels based on source error probability |
| US10437778B2 (en) | 2016-02-08 | 2019-10-08 | Bank Of America Corporation | Archive validation system with data purge triggering |
| US10067869B2 (en) | 2016-02-12 | 2018-09-04 | Bank Of America Corporation | System for distributed data processing with automatic caching at various system levels |
| US9952942B2 (en) * | 2016-02-12 | 2018-04-24 | Bank Of America Corporation | System for distributed data processing with auto-recovery |
| CN105868398B (zh) * | 2016-04-20 | 2019-04-26 | 国网福建省电力有限公司 | 一种基于Fat-B树的分布式文件系统低开销数据传输方法 |
| US9985823B1 (en) * | 2016-06-17 | 2018-05-29 | Gravic, Inc. | Method and system for mitigating correlated failure modes |
| US10261874B2 (en) * | 2016-12-01 | 2019-04-16 | International Business Machines Corporation | Enabling a cloud controller to communicate with power systems |
| CN106685710B (zh) * | 2016-12-21 | 2019-11-05 | 海南大学 | 一种基于中间件的服务失败迁移方法 |
| US10747606B1 (en) * | 2016-12-21 | 2020-08-18 | EMC IP Holding Company LLC | Risk based analysis of adverse event impact on system availability |
| WO2018236350A1 (en) * | 2017-06-20 | 2018-12-27 | Hewlett-Packard Development Company, L.P. | Managing retail point of sale devices |
| CN107391301A (zh) * | 2017-08-16 | 2017-11-24 | 北京奇虎科技有限公司 | 存储系统的数据管理方法、装置、计算设备及存储介质 |
| KR102468737B1 (ko) * | 2017-12-19 | 2022-11-21 | 에스케이하이닉스 주식회사 | 메모리 시스템 및 메모리 시스템의 동작방법 |
| US10938696B2 (en) | 2017-12-21 | 2021-03-02 | Apple Inc. | Health status monitoring for services provided by computing devices |
| US10884843B2 (en) | 2018-01-12 | 2021-01-05 | International Business Machines Corporation | Traffic and geography based cognitive disaster recovery |
| US20190324832A1 (en) * | 2018-04-18 | 2019-10-24 | Alberto Avritzer | Metric for the assessment of distributed high-availability architectures using survivability modeling |
| CN112740290B (zh) * | 2018-06-29 | 2022-06-10 | 微软技术许可有限责任公司 | 多阶段云服务节点错误预测 |
| US10776225B2 (en) | 2018-06-29 | 2020-09-15 | Hewlett Packard Enterprise Development Lp | Proactive cluster compute node migration at next checkpoint of cluster cluster upon predicted node failure |
| CN108921229A (zh) * | 2018-07-17 | 2018-11-30 | 成都西加云杉科技有限公司 | 数据恢复方法及装置 |
| TWI686696B (zh) | 2018-08-14 | 2020-03-01 | 財團法人工業技術研究院 | 計算節點及其失效偵測方法與雲端資料處理系統 |
| US11474915B2 (en) * | 2018-08-28 | 2022-10-18 | Hewlett Packard Enterprise Development Lp | Cluster recovery manager to remediate failovers |
| US11586510B2 (en) * | 2018-10-19 | 2023-02-21 | International Business Machines Corporation | Dynamic checkpointing in a data processing system |
| US10997204B2 (en) * | 2018-12-21 | 2021-05-04 | Elasticsearch B.V. | Cross cluster replication |
| US11209808B2 (en) | 2019-05-21 | 2021-12-28 | At&T Intellectual Property I, L.P. | Systems and method for management and allocation of network assets |
| US11641395B2 (en) * | 2019-07-31 | 2023-05-02 | Stratus Technologies Ireland Ltd. | Fault tolerant systems and methods incorporating a minimum checkpoint interval |
| CN112632005B (zh) * | 2019-10-08 | 2024-01-23 | 中国石油化工股份有限公司 | 基于mpi的地震数据计算方法及系统 |
| US11093358B2 (en) | 2019-10-14 | 2021-08-17 | International Business Machines Corporation | Methods and systems for proactive management of node failure in distributed computing systems |
| US11593221B2 (en) * | 2020-02-28 | 2023-02-28 | EMC IP Holding Company LLC | Methods and systems for determining backup schedules |
| US11554783B2 (en) * | 2020-04-15 | 2023-01-17 | Baidu Usa Llc | Systems and methods to enhance early detection of performance induced risks for an autonomous driving vehicle |
| US12236261B2 (en) * | 2021-02-17 | 2025-02-25 | Bank Of America Corporation | System for decentralized edge computing enablement in robotic process automation |
| CN115687502A (zh) * | 2021-07-22 | 2023-02-03 | 京东科技控股股份有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
| CN114518974B (zh) * | 2022-02-21 | 2025-11-18 | 中国农业银行股份有限公司 | 数据处理任务的检查点恢复方法、装置、设备及介质 |
| CN115964207A (zh) * | 2022-03-09 | 2023-04-14 | 中电长城圣非凡信息系统有限公司 | 一种八路机架式服务器的故障隔离与恢复方法 |
| US11989098B2 (en) * | 2022-04-22 | 2024-05-21 | Dell Products L.P. | Method and apparatus for detecting pre-arrival of device or component failure |
| CN116755941B (zh) * | 2023-08-21 | 2024-01-09 | 之江实验室 | 一种节点故障感知的分布式模型训练的方法及装置 |
| CN120529103B (zh) * | 2025-07-23 | 2025-11-25 | 北京火山引擎科技有限公司 | 基于边缘计算的直播传输故障处理方法、装置及介质 |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05216845A (ja) * | 1991-10-31 | 1993-08-27 | Internatl Business Mach Corp <Ibm> | ネットワーク内のコンピュータを操作する方法 |
| US20020087913A1 (en) * | 2000-12-28 | 2002-07-04 | International Business Machines Corporation | System and method for performing automatic rejuvenation at the optimal time based on work load history in a distributed data processing environment |
| JP2006172065A (ja) * | 2004-12-15 | 2006-06-29 | Hitachi Ltd | チェックポイント採取方法、システム及びプログラム |
| JP2006251999A (ja) * | 2005-03-09 | 2006-09-21 | Mitsubishi Electric Corp | 計算機クラスタシステム |
| JP2007213670A (ja) * | 2006-02-08 | 2007-08-23 | Funai Electric Co Ltd | ハードディスク装置 |
| US20100011254A1 (en) * | 2008-07-09 | 2010-01-14 | Sun Microsystems, Inc. | Risk indices for enhanced throughput in computing systems |
| US20100088494A1 (en) * | 2008-10-02 | 2010-04-08 | International Business Machines Corporation | Total cost based checkpoint selection |
| US20100318837A1 (en) * | 2009-06-15 | 2010-12-16 | Microsoft Corporation | Failure-Model-Driven Repair and Backup |
Family Cites Families (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6161219A (en) * | 1997-07-03 | 2000-12-12 | The University Of Iowa Research Foundation | System and method for providing checkpointing with precompile directives and supporting software to produce checkpoints, independent of environment constraints |
| US6032194A (en) | 1997-12-24 | 2000-02-29 | Cisco Technology, Inc. | Method and apparatus for rapidly reconfiguring computer networks |
| US6353902B1 (en) | 1999-06-08 | 2002-03-05 | Nortel Networks Limited | Network fault prediction and proactive maintenance system |
| US6609212B1 (en) | 2000-03-09 | 2003-08-19 | International Business Machines Corporation | Apparatus and method for sharing predictive failure information on a computer network |
| US7028228B1 (en) | 2001-03-28 | 2006-04-11 | The Shoregroup, Inc. | Method and apparatus for identifying problems in computer networks |
| US6978398B2 (en) | 2001-08-15 | 2005-12-20 | International Business Machines Corporation | Method and system for proactively reducing the outage time of a computer system |
| US7007084B1 (en) | 2001-11-07 | 2006-02-28 | At&T Corp. | Proactive predictive preventative network management technique |
| US7269706B2 (en) * | 2004-12-09 | 2007-09-11 | International Business Machines Corporation | Adaptive incremental checkpointing |
| US7392433B2 (en) * | 2005-01-25 | 2008-06-24 | International Business Machines Corporation | Method and system for deciding when to checkpoint an application based on risk analysis |
| US7721157B2 (en) | 2006-03-08 | 2010-05-18 | Omneon Video Networks | Multi-node computer system component proactive monitoring and proactive repair |
| US7571347B2 (en) * | 2006-03-20 | 2009-08-04 | Sun Microsystems, Inc. | Method and apparatus for providing fault-tolerance in parallel-processing systems |
| DE102006019896A1 (de) | 2006-04-28 | 2007-10-31 | Siemens Ag | Verfahren zur Fehlerbaumanalyse |
| US7730364B2 (en) * | 2007-04-05 | 2010-06-01 | International Business Machines Corporation | Systems and methods for predictive failure management |
| US8103916B2 (en) * | 2008-12-01 | 2012-01-24 | Sap Ag | Scheduling of checks in computing systems |
| JP5672304B2 (ja) | 2010-01-04 | 2015-02-18 | 日本電気株式会社 | 障害リカバリのための方法、分散システム、およびコンピュータプログラム |
| US8250405B2 (en) | 2010-05-27 | 2012-08-21 | International Business Machines Corporation | Accelerating recovery in MPI environments |
| WO2012013509A1 (en) | 2010-07-28 | 2012-02-02 | Ecole Polytechnique Federale De Lausanne (Epfl) | A method and device for predicting faults in an it system |
| US9495477B1 (en) * | 2011-04-20 | 2016-11-15 | Google Inc. | Data storage in a graph processing system |
| WO2013101142A1 (en) * | 2011-12-30 | 2013-07-04 | Intel Corporation | Low latency cluster computing |
| EP2859437A4 (en) * | 2012-06-08 | 2016-06-08 | Hewlett Packard Development Co | CHECKPOINTING BY FPGA |
| CN103197982B (zh) * | 2013-03-28 | 2016-03-09 | 哈尔滨工程大学 | 一种任务局部最优检查点间隔搜索方法 |
| US9436552B2 (en) * | 2014-06-12 | 2016-09-06 | International Business Machines Corporation | Checkpoint triggering in a computer system |
-
2014
- 2014-07-29 US US14/445,369 patent/US9348710B2/en active Active
-
2015
- 2015-07-20 EP EP15748354.6A patent/EP3175361B1/en active Active
- 2015-07-20 WO PCT/US2015/041121 patent/WO2016018663A1/en not_active Ceased
- 2015-07-20 CN CN201580052408.6A patent/CN106796540B/zh active Active
- 2015-07-20 CA CA2956567A patent/CA2956567A1/en not_active Abandoned
- 2015-07-20 JP JP2017505069A patent/JP6662847B2/ja active Active
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05216845A (ja) * | 1991-10-31 | 1993-08-27 | Internatl Business Mach Corp <Ibm> | ネットワーク内のコンピュータを操作する方法 |
| US20020087913A1 (en) * | 2000-12-28 | 2002-07-04 | International Business Machines Corporation | System and method for performing automatic rejuvenation at the optimal time based on work load history in a distributed data processing environment |
| JP2006172065A (ja) * | 2004-12-15 | 2006-06-29 | Hitachi Ltd | チェックポイント採取方法、システム及びプログラム |
| JP2006251999A (ja) * | 2005-03-09 | 2006-09-21 | Mitsubishi Electric Corp | 計算機クラスタシステム |
| JP2007213670A (ja) * | 2006-02-08 | 2007-08-23 | Funai Electric Co Ltd | ハードディスク装置 |
| US20100011254A1 (en) * | 2008-07-09 | 2010-01-14 | Sun Microsystems, Inc. | Risk indices for enhanced throughput in computing systems |
| US20100088494A1 (en) * | 2008-10-02 | 2010-04-08 | International Business Machines Corporation | Total cost based checkpoint selection |
| US20100318837A1 (en) * | 2009-06-15 | 2010-12-16 | Microsoft Corporation | Failure-Model-Driven Repair and Backup |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2023024983A (ja) * | 2017-11-16 | 2023-02-21 | インテル・コーポレーション | オーケストレーションシステム、コンピュータプログラム、非一時的機械可読記憶媒体、および、方法 |
| JP7392245B2 (ja) | 2017-11-16 | 2023-12-06 | インテル・コーポレーション | オーケストレーションシステム、コンピュータプログラム、非一時的機械可読記憶媒体、および、方法 |
| US12034827B2 (en) | 2017-11-16 | 2024-07-09 | Intel Corporation | Distributed software-defined industrial systems |
| JP2022169072A (ja) * | 2021-04-27 | 2022-11-09 | 株式会社日立製作所 | ストレージシステム、ストレージノード仮想計算機復旧方法、及び復旧プログラム |
| US11762741B2 (en) | 2021-04-27 | 2023-09-19 | Hitachi, Ltd. | Storage system, storage node virtual machine restore method, and recording medium |
| JP7355778B2 (ja) | 2021-04-27 | 2023-10-03 | 株式会社日立製作所 | ストレージシステム、ストレージノード仮想計算機復旧方法、及び復旧プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| CN106796540A (zh) | 2017-05-31 |
| US9348710B2 (en) | 2016-05-24 |
| EP3175361A1 (en) | 2017-06-07 |
| JP6662847B2 (ja) | 2020-03-11 |
| WO2016018663A1 (en) | 2016-02-04 |
| US20160034362A1 (en) | 2016-02-04 |
| CN106796540B (zh) | 2021-01-05 |
| EP3175361B1 (en) | 2022-07-20 |
| CA2956567A1 (en) | 2016-02-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6662847B2 (ja) | 分散コンピューティング用のプロアクティブ障害回復モデル | |
| US11106489B2 (en) | Efficient, time-based leader node election in a distributed computing system | |
| US11379461B2 (en) | Multi-master architectures for distributed databases | |
| Cheraghlou et al. | A survey of fault tolerance architecture in cloud computing | |
| US20210004262A1 (en) | Managed orchestration of virtual machine instance migration | |
| CN108733509B (zh) | 用于在集群系统中备份和恢复数据的方法和系统 | |
| US10872070B2 (en) | Distributed data processing | |
| CN109669985B (zh) | 在微服务环境中使用相关数据分配执行任务 | |
| CN106462612A (zh) | 用于容错通信的系统和方法 | |
| US9229839B2 (en) | Implementing rate controls to limit timeout-based faults | |
| US10228969B1 (en) | Optimistic locking in virtual machine instance migration | |
| WO2024239865A1 (zh) | 虚拟机的热迁移方法及相关设备 | |
| CN116319758A (zh) | 数据迁移方法、装置、电子设备及可读存储介质 | |
| Rahman et al. | Aggressive fault tolerance in cloud computing using smart decision agent | |
| US12566628B2 (en) | System and method for managing a migration of a production environment executing logical devices | |
| Rathore et al. | Efficient checkpoint algorithm for distributed system | |
| US12468569B2 (en) | Application usage and auto maintenance driven migration of applications and their dependencies | |
| US20240176651A1 (en) | Auto time optimization for migration of applications | |
| US20240176727A1 (en) | Moving an application context to the cloud during maintenance | |
| CN116827946A (zh) | 负载均衡方法、数据同步方法、装置、电子设备及介质 | |
| CN114546705A (zh) | 操作响应方法、操作响应装置、电子设备以及存储介质 | |
| CN115373581A (zh) | 一种数据存储方法、装置、计算机设备及存储介质 | |
| WO2025255810A1 (en) | Leiden-refine optimization algorithm based on union-find algorithm | |
| US10467360B1 (en) | System and method for dynamically determining availability of a computing resource | |
| Sen et al. | A Resilient and Robust Edge-Cloud Network System Supporting CPS |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180720 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180720 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181228 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190205 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190507 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190705 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190805 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200114 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200213 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6662847 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |