TW200907702A - Dynamically rerouting node traffic on a massively parallel computer system using hint bits - Google Patents
Dynamically rerouting node traffic on a massively parallel computer system using hint bits Download PDFInfo
- Publication number
- TW200907702A TW200907702A TW097113660A TW97113660A TW200907702A TW 200907702 A TW200907702 A TW 200907702A TW 097113660 A TW097113660 A TW 097113660A TW 97113660 A TW97113660 A TW 97113660A TW 200907702 A TW200907702 A TW 200907702A
- Authority
- TW
- Taiwan
- Prior art keywords
- node
- network
- nodes
- computer system
- parallel computer
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/22—Alternate routing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/203—Failover techniques using migration
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/173—Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
- G06F15/17356—Indirect interconnection networks
- G06F15/17368—Indirect interconnection networks non hierarchical topologies
- G06F15/17381—Two dimensional, e.g. mesh, torus
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0659—Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/28—Routing or path finding of packets in data switching networks using route fault recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/34—Source routing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2051—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant in regular structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Retry When Errors Occur (AREA)
Description
200907702 九、發明說明: 【發明所屬之技術領域】 本發月大體係關於平行計算系統中之缺陷回復,且更特 疋口之係關w種用於在不重新啟動在大量平行超級電腦 上執行之應用程式的情況下使用暗示位元動態地重新路由 大量平行電腦系統之計算節點上之節點訊務的裝置及方 法。 【先前技術】 有效缺陷回復係重要的,以減少複雜電腦系統之停機時 間及修理成本。在具有大量計算節點之平行電腦系統上, 單一組件之故障可能引起大部分或整個電腦停止執行而進 行修理。重新啟動應用程式可能浪費故障之前之相當量的 處理時間。 大量平行電腦系統為一個類型之具有大量互連計算節點 之平行電腦系統。此等大量平行電腦之家族由國際商業機 器公司(IBM)以名稱Blue Gene(藍色基因)而開發。Blue Gene/L系統為計算節點之當前最大數目為65,536之可擴充 系統。Blue Gene/L節點由具有2個CPU及記憶體之單一 ASIC(特殊應用積體電路)組成。整個電腦收納於每一托架 中具有32個節點板之64個托架或機櫃中。
Blue Gene/L超級電腦經由若干通信網路進行通作。 65,536個計算節點配置於邏輯樹狀網路及三維環形網路二 者中。邏輯樹狀網路連接樹狀結構中之計算節點,以使得 每一節點與一母或一或兩個子進行通信。環形網路在允許 130144.doc 200907702 母一計算節點與電腦之一區段中其最接近之6個相鄰者進 行通心之二維晶格狀結構中邏輯地連接計算節點。由於計 算節點配置於要求與鄰近節點進行通信之環形及樹狀網路 中,故單一節點之硬體故障可引起系統之大部分停止直至 有缺陷硬體可經修理為止。舉例而言,單—節點故障可使 得環形網路之-完整區段不可操作,其中⑽以过系統 中之環形網路之-區段為半個托架或512個節點。此外,
指派給故障之分割區之所有硬體可能亦需要停止執行直至 故障經校正為止。 在先前技術巾之大平行電腦“上,在執行期間單一節 點的故障常常要求軟體應用程式自開始或自所保存之檢查 點重新啟動。當發生故障事件時,能夠移動故障節點之處 理至另-節點以使得應用程式可以最小之延遲在後備硬體 上恢復從而增加整體系統效率將為有利的。在無自故障或 正出現故障之節點更加有效地恢復的方法之情況下,平行 電腦系統將繼續浪費增加操作成本之潛在電腦 【發明内容】 描述-種用於在不重新啟動在大量平行電腦系統上執行 之應用程式的情況下使用暗示位元來路由繞過故障節點或 擁塞網路而動態地重新路由該系統之計算節點上之節點訊 務的裝置及方法。當節點具有故障或存在其可能出現故障 之指不時’系統上之應用程絲體暫時中纟,同時故 點上之資料經移動至後備節點。環形網路訊務經 故障節點且故障節點之訊務經重新路由至後備節點。類 130144.doc 200907702 地’網路訊務可經路由繞過擁塞網路β 實例及揭示内容係針對心〜 置於網路結構中之多個 擴展至具有配 夕1固處理器的任何平杆 節點硬體處置來自7十仃電恥系統,其中 处夏术自其他節點之 traffic)。 貫訊務(cut through 前述及其他特徵及優 下更特定描述而顯而易 見,如隨附圖式中所說明。 【實施方式】
:結合所附圖式描述本揭示案,其中相似名稱表示相似 元件。 本文中之揭示内容及中請專利範圍係針對用於在不重新 啟動在大量平行電腦系統上執行之應用程式的情況下使用 暗示位元動態地重新路由該系統之計算節點上之節點訊務 的裝置及方法。當節點具有故障或存在其可能出現故障之 指示時,系統上之應用程式軟體暫時中止,同時故障節點 上:資料經移動至後備節點。環形網路訊務經路由繞過故 障即點且故障節點之訊務經重新路由至後備節點。將關於 由國際商業機器公司(IBM)開發之Blue Gene/L大量平行電 腦而描述實例。 圖1展示表示諸如Blue Gene/L電腦系統之大量平行電腦 系統100之方塊圖。Blue Gene/L系統為計算節點之最大數 目為65,536之可擴充系統。每一節點11〇具有特殊應用積 體電路(ASIC) 112,亦稱為Blue Gene/L計算晶片112。計算 晶片併有兩個處理器或中央處理器單元(cpu)且安裝於節 130144.doc 200907702 Ο 點子卡114上。節點通常亦具有512個百萬位元組之區域記 憶體(未圖示)。節點板120容納32個各自具有節點11〇之節 點子卡114。因此’每一節點板具有32個節點,2個處理器 用於每一節點,且相關聯之記憶體用於每一處理器。托架 130為含有32個郎點板120之外殼。節點板12〇中之每一者 以一中平面連接器134連接入中平面印刷電路板132。中平 面132在托架内部且未在圖1中展示。整個Blue Gene/L電腦 系統將被收納於每一者中具有32個節點板之64個托架13〇 或機櫃中。整個系統接著將具有65,536個節點及131,〇72個 CPU(64個托架χ32個節點板x32個節點x2個CPU)。
Blue Gene/L電腦系統結構可描述為具有節點表面之 計算節點核心,其中至1〇24個計算節點11〇之通信由具有 連接至服務節點140的1/〇處理器17〇之每一 1/〇節點處置。 1/0節點不具有區域儲存器。I/O節點經由邏輯樹狀網路連 接至计具節點且亦具有經由功能網路(未圖示)之功能廣域 網路能力。功能網路連接至位於節點板12G上之處置自服 務即點160至多個節點的通信之1/〇處理器(或則此g_/l 鏈路日日片)170。Blue Gene/Lg統在連接至節點板㈣之卯 板(未圖示)上具有—或多個1/0處理器170。I/O處理器可經 組態以與8個、32個或64個銘it 2 飞64個郎點進行通信。除了I/O節點不 連接至環形網路’至1/〇節點之連接類似於至計算節點之 且:=Γ電腦系統100包括以軟體處置節點的加載 工 、統之操作的服務節點140。服務節‘點14〇通常 130144.doc 200907702 為諸如以控制台(未圖示)執行Linux之IBM p系列飼服器的 微型電腦系統。服務節點140以控制系統網路15〇連接至計 算即點110之托架13〇。控制系統網路提供針對Blue Gene/L 系統之控制、測試及提昇基礎結構。控制系統網路1 $ 〇包 括為大量平行電腦系統提供必要通信之各種網路介面。下 文進一步描述網路介面。 服務節點14〇管理專用於系統管理之控制系統網路15〇。 控制系統網路150包括連接至Id〇晶片18〇的私用i〇〇_Mb/s
=太網路,該Ido晶片180位於處置自服務節點16〇至多個 節點的通信的節點板120上。由於此網路使用mG協定進 行通信,故有時稱其為JTAG網路。節點板12〇上之計算節 點110之所有控制、測試及運作係經由與服務節點進行通 信之JTAG埠而支g卜另外,服務節點14()包括維護問題清 單144之節點/網路監視器142,該問題清單144指示已出現 故障、可能正出現故障之節點’或需避開之網路鍵路。節 點/網路監視器在服務節點140中包含軟體,但可能由在系 統之節點上執行之作業系統軟體協助。
Blue Gene/L超級電腦經由若干通信網路進行通信。圖2 之方塊圖展示Blue Gene/L電腦系統上計算節點之"◦連 接。65,536個計算節點及1〇24個1/〇處理器17〇配置於邏輯 樹狀網路及邏輯三維環形網路二者中。環形網路在允許每 -計算節點110與其最接近之6個相鄰者進行通信之晶格狀 結構中邏輯料接計算H在圖2中,由將節點連接至 六個各別鄰近節點之X+、X_、Y+、Y_、W_^ 130144.doc -10- 200907702
說明環形網路。樹狀網路在圖2中由樹〇、樹丨及樹2連接表 不。連接至節點之其他通信網路包括JTAG網路及總體中 斷網路。JTAG網路提供用於經由圖丨中所示之控制系統網 路150來自服務節點14〇之測試及控制的通信。總體中斷網 路用以針對計算節點上類似處理之同步而實施軟體障壁以 在完成某任務後即移動至處理之不同階段。總體中斷網路 可因此用以啟動、停止且暫停在節點之分割區上執行之應 用私式。此外,存在至每一計算節點丨1〇之時脈及功率信
Blue Gene/L環形互連在邏輯3D笛卡爾陣列中將每一節 點連接至其六個最近之相鄰者(χ+、χ_、γ+、γ_、z+、Z_)。 至該六個相鄰者之連接在節點層及在中平面層處完成。每 一中平面為8χ8χ8節點陣列。中平面中節點陣列之六個面 (X y+、γ-、z+、z-)尺寸上各自為8x8=64個節 來自八個面中之每-者上的64個節點之每一環形網路 U丄由連接至中平面的鏈路卡(未圖示)通信至鄰近中平 面t之相應H冑中平面用於在任何維度中具有一個中 平面之深度的分割區中時,# 、
Tf 每一面之信號亦可路由回至在 相對面上之同一中平面的輪入。 圖3說明根據先前技術之⑸贼電腦系統中計算節 #鬼圖。十算節點i i 〇具有節點計算晶片i i 2,節 點計算晶片m具有兩個處理器肅、3igb。每〆處理器 10B具有-處理核心312。處理器連接至層次三記 憶體快取記憶體㈤快取記㈣)32Q,且至靜態隨機存取 130144.doc 200907702 S己憶體(SRAM)記憶體組330。來自L3快取記憶體320之資 料借助於雙資料速率(DDR)記憶體控制器350加載至DDR同 步動態隨機存取記憶體(SDRAM)340之組。 再次參看圖3,SRAM記憶體330連接至通信離開計算晶 片112至Ido晶片18〇之JTAG介面3 60。服務節點經由乙太網 路鏈路通過Ido晶片18〇與計算節點進行通信,該乙太網路 鏈路為控制系統網路15〇(上文參看圖丨描述)之部分。在 Blue Gene/L系統中,每一節點板12〇存在一個Id〇晶片,且 Γ、 其他在每一中平面132(圖1)中之板上。Id0晶片使用原始 UDP封包經由可信賴之私用1〇〇 Mbit/s乙太網路控制網路 接收來自服務節點之命令D Id〇晶片支援用於與計算節點 之通k之多種系列協定。JTAG協定用於自服務節點14〇(圖 1)向計算節點110中SRAM 330之任何位址進行讀及寫且用 於系統初始化及引導(booting)處理。 說明於圖3中之節點計算晶片112進一步包括網路硬體 390。網路硬體390包括用於環392、樹394及總體中斷396 網路之硬體。Blue Gene/L之此等網路用於計算節點110以 如上文簡要描述而與系統中之其他節點進行通信。網路硬 - 體390允許計算節點經由環形網路接收且傳遞資料封包。 網路硬體390獨立地處置網路資料訊務,因此計算節點之 處理器不承受由在環形網路上流動之資料的量所引起之負 擔。傳遞通過即點之去往另一節點之此網路資料被稱為 ”切貫"訊務。 圖4說明圖3中介紹之環形網路硬體392之方塊圖。環形 130144.doc •12- 200907702 網路硬體3 92由三個主要單元-處理器介面410、環形發送 器420及環形接收器430組成。處理器介面410由處理器注 入412及處理器接收414 FIFO組成(存取係根據先進先出規 則之仔列)。對此等FIFO之存取係經由來自處理器(圖3中 之310A、310B)之雙浮點單元(FPU)暫存器(未圖示);亦 即,資料自一對FPU暫存器經由128位元記憶體映射之儲 存器加載入FIFO,且資料經由128位元負載自FIFO讀至 FPU暫存器。存在紐_織為兩個群之總共八個注入fif〇 :兩
個高優先級(用於節點間作業系統訊息)及六個正常優先級 FIFO ’其對於最近相鄰者連接性而言係足夠的。所有 FIFO中之封包可在環形網路上在任何方向上離開。在處理 器接收FIFO 414中,又存在兩個群之FIF〇。每一群含有七 個FIFO, 一個高優先級及專用於六個傳入方向中之每一者 之一個。更特定言之,在每一接收器與其相應接收FIF〇之 間存在一專用匯流排。對於儲存器而言,所有環形FIF〇使 用由錯誤檢查與校正(ECC)保護之靜態隨機存取記憶體晶 片(SRAM)’且所有内部資料路徑針對同位而經檢查。 上文描述之環形網路硬體392導引越過各種環形網路的 資料之可變尺寸封包。圖5說明環形網路封包51〇之實例。 Blue Gene/L系統中之每一封包51〇為ηχ32個位元組,其中 ㈣至8個"大塊”。諸如彼等符合訊息傳遞介面標準(Μρι) 之訊息的訊息可由許多封包組成,該等封包由在圖3中之 一個或兩個相關聯之BIue Gene/L處理器3 ι 〇α、3】⑽上執 行之軟體建構、發送且接收。每—封包之前人個位元組為 130144.doc 200907702 封包標頭512。封包標頭512含有鏈路層協定資訊(例如, 序號);路由資訊,包括目的地;虛擬通道及尺寸;及在 傳輸期間偵測標頭資料破壞之位元組寬循環冗餘檢查 (CRC)514。封包標頭512亦包括下文進一步描述之暗示位 元 516。
再次參看圖5,在封包標頭512之後包括多個資料位元組 518。另外,24位元CRC連同一位元組有效指示符52〇附加 至每一封&。由力封包可在經完全接收之前開始轉發,故 有效指示符係必要的。此CRC准許隨著每一封包經由每一 鏈路發^對其進行檢查。為經破壞封包之再傳輸使用逾 時機制。由於標頭CRC包括於完整封包⑽,故八位元 封包標頭CRC之使料准純早❹m包標頭錯誤之最佳 化。 上文所介紹,標頭5 12包括 ΪΜ 呀不 fJL j I q 〇 晤·未 位元5 1 6指示封句可大^興 了在環形網路之三維中路由之方向。暗 示位元以ΧΥΖ次序界定 义 π 卜.Χ+、X-、Υ+、γ_、ζ+ 舉例而言,10(^00暗 _。 由。由於—設m 意謂封包可在χ+及y-方向上路 、又 70指不導引在彼維度中的封包之方Θ 故可設定X+或者χ-暗示命一 d㈣匕之方向’ 復位或者為〇之所 f L用於待 發送。 ,、位兀以指示封包可在任何方向上
在環形網路中,诵I 序。假設在本文實例中::資料在節點之間流動之維度次 他次序。咖之維度次序為ΧΥΖ,但亦可使用其 '· &人序意謂資料將首先在χ維度中自節 130144.doc 200907702 點流動,接著通過Y維度中之節點,接著通過2維度中之 節點。分別在ΧΥΖ維度中之路由中使用ΧΥΖ暗示位元。 每一節點維護控制環形功能之一组軟體可組態暫存器 (未圖示)。舉例而言,一組暫存器含有其相鄰者之座標。 當封包在一方向上離開一節點時設定暗示位元為〇,以使 侍其將到達其在彼維度中之目的地,如由鄰座標暫存器所 判定。此等暗示位元較早出現於標頭中以使得仲裁可經有 效地管線輸送。暗示位元可由軟體或者硬體初始化;若由 硬體完成,則使用每維度一組兩個暫存器來判定適當方 向。此等暫存器可經組態以提供最小跳數路由。路由藉由 檢查暗示位元及虛擬通道而整體實現;亦即,無路由表。 封包可動態地或者確定維度次序地(xyz)經路由。亦即,其 可基於其他訊務遵循最小擁塞之路徑,或者其可在固定路 L上經路由。除點對點封包之外,可設定標頭中之位元使 得封包沿任何笛卡爾維度向下廣播且沈積於每一節點慮。 軟體可適當地設定暗示位元,以使得如下文進一步描述而 避開”死"節點或鏈路。當存在多至三個非共線性有缺陷節 點時’可維護完全連接性。 、圖6展示表示圖1中展示之大量平行電腦系統之部分600 以說明實例動態重新路由節點訊務的方塊圖。平行電腦系 統之部分600說明標記為節61G至節點9 612之九個節 點。圖6中之節點僅說明χΑγ維度中之節點以簡化實例, 但應認識到’冑腦系統亦可具有位於Ζ維度中之節點。χ 及Υ維度如由ΧΥ軸614指示。對於此實例而言,假設應用 130144.doc 15 200907702 程式係執行於節點】6 谓測到故障或潛在故μ Γ 當在節點5 618上 藉由等用程式暫時中止或暫停,且 默。故障節點:::中所有節點訊務為止而使網路靜 9⑴)。可能需要通之過:二式接著移動至備用節點(節點 經更新以藉由向所有:點移動資料之每-節點接著 斤有即點或至少向受影響節點發送 之問題清單(圖1中之⑷)而避開故障節點。 、新
-再次參看圖6 ’節點使用經更新之問題清單以確保 經路由繞過受影響節點或 之眘村私4 士 丧者°又疋自母一節點發送
#、…之適當暗示位元以使得封包將路由繞過故障 卽點。在圖6展示之實例中’來自節點2 62〇之資料封包將 具有針對X-設定之暗示位元以導引封包在乂_方向上行進至 節點8且因此避開故障節點。類似地,來自節點“22之資 料封包將具有針對χ+設定之暗示位元以導引封包在乂+方 向上行進至節點2。又,來自節點4似之資料封包將具有 針對Y+設定之暗示位元以導引封包在γ+方向上行進至節 點6且因此避開故障節點,而來自節點6 626之資料封包將 具有針對Y-設定之暗示位元以導引封包在γ_方向上行進至 節點4。 圖7展不表不圖1中展示之大量平行電腦系統的部分7〇〇 以§兒明用於動態地重新路由節點訊務之另一實例的方塊 圖。此實例說明如何針對非鄰近節點使用暗示位元。又, 平行電腦系統之部分700說明如針對圖6在上文描述之標記 為節點1 610至節點9 612的九個節點。在此實例中,在節 130144.doc -16- 200907702 點8 622_Μ貞測到故障或潛在故障。應用程式經暫停且使 網路靜默,且故隆銘& Μ β ρ # ^ ^ 障卽點618上之應用程式接著移動至備用 節點(節點9 612)。如上文,可能需要通過故障節點移動資 料之每gp點接著經更新以藉由向受影響節點發送經更新 之問題清單(圖1中之144)而避開故障節點。接著設定暗示 位70以確保資料經路由繞過故障節點。在圖7之實例中,
Ο 來自節點1 610之資料封包將不具有針對X方向設定之暗示 位兀’此係由於故障節點不在此方向上。但節點“聰 設定γ+暗示位元以導引封包在γ+方向上行進。當來自節 點1 610之封包到達節點7㈣且開始在丫維度中行進時, 其將經導引以如由γ+暗示位元設m而在Y+方向上行 進至節點9 612且因此避開故障節點8 622。 如上文所介紹’暗示位元亦可用於動態地路由繞過擁塞 網路。作為一實例,考慮圖7中言兒明之在節點8 622與節點 5 618之間的.網路71〇β若網路71〇由網路監視器(圖艸之 142)用旗號表示為擁塞網路,則使用暗示位元從而以如上 文針對路由繞過節點8 622描述之相同方式動態地路由繞 過此網路。或者,節點可能承受由切貫訊務引起之過度負 擔。舉例而言,若節點8歸因於通過節點8 622之切貫訊務 而由節點/網路監視器判定為過冑,則在節點8上之處理動 態地重新路由至可用交換節點以減輕在節點8上執行之處 理或應上所加載之切貫訊務。 執仃之處 圖8展示用於在平行電腦系統中監視節點以動態地重新 路由故障節點之處理的方法8〇〇。此方法由服務節點上之 I30144.doc 200907702 軟體執行,但可能需要在節點 所需要的資… 軟體及/或硬體以收集 錄於問題清單中(步驟82〇)。接著/ 將網路熱點記 將故障節點或可能出現故障之節點^ 步驟83〇)且 驟840)。方法於是完成。卩點5£錄於問題清單中(步 用於在平行電腦系統中動態地重新路由故障節 …占之處理的方法900。此方法 點中的每-者上之軟體及/或硬二在平行電腦系統之節 務節夕 /硬體執订。首先’偵測由服 經更新之Γ路監視器發送的含有需避開之節點或網路的 問題清單(步驟910)。接著’暫停在具有故障節點 =、統之为割區上執打之應用程式(步驟920)。接著, 藉由等待直至環形網路硬體胸已完成發送其訊息為止而 使網路靜默(步驟93〇)。接著定位用於網路之交換節點或替 代路徑(步驟940)且將故障節點之處理遷移至交換節點(步
C 驟95〇)。接著,告知將發送網路訊務通過故障節點或網路 之節點使用暗示位元來隔離節點且路由網路訊務繞過故障 節點或擁塞網路(步驟960)。應用程式接著可自其暫停之點 恢復(步驟970)。方法則完成。 ” 本文之揭示案包括用於在不重新啟動在大量平行電腦上 執行之應用程式的情況下使用暗示位元動態地重新路由大 量平行電腦系統之計算節點上之節點訊務的方法及裴置。 動態地重新路由節點訊務可針對電腦系統之提高的效率而 顯著地減少停機時間量。 熟習此項技術者將瞭解,許多變化在申請專利範圍之範 130144.doc 200907702 脅内係可能的。因ι儘管本揭示案在上文中特定地展示 且描述’但彼等熟習此項技術者將理解 .._ 鮮在不背離申請專 利乾圍之精神及範疇之情況下可在其中 穴丁逛仃形式及細節上 之此等及其他改變。 【圖式簡單說明】 圖1為大量平行電腦系統之方塊圖; 圖2為展示大量平行電腦系統中計算 即點之輸入及輸出 連接的方塊圖; 圖3為大量平行電腦系統中計算節點之方塊圖; 圖4為大量平行電腦系統中 方塊圖· 1 ^郎點之裱形網路硬體的 之方塊 圖; 圖5為大量平行電腦系統中環形網路資料封包 部分以說明實例之方 圖6為表示大量平行電腦系統之 塊圖; 圖7為表示大量平行電腦系統— J ^ V 丁%〈部分以說明另一實例 I乃一方塊圖; 問 圖8為用於監視節點及網路以在 ^ ^ ^ 镧、、主ro 社十仃電腦系統中建立 喊β早之方法流程圖;及 用暗示位元動態地重新 圖9為用於在平行電腦系統中使 路由知點處理之方法流程圖。 【主要元件符號說明】 100 大量平行電腦系統 110 計算節點 130I44.doc 19 200907702
112 特殊應用積體電路(ASIC)//Blue Gene/L計算晶片 114 節點子卡 120 節點板 130 托架 132 中平面印刷電路板/中平面 134 中平面連接器 140 服務節點 142 節點/網路監視器 144 問題清單 150 控制系統網路 160 服務節點 170 I/O處理器 180 Ido晶片 310A 處理器 310B 處理器 312 處理核心 320 層次三記憶體快取記憶體(L3快取記憶體) 330 靜態隨機存取記憶體(SRAM)記憶體组 340 雙資料速率(DDR)同步動態隨機存取記憶體 (SDRAM) " 350 DDR記憶體控制器 360 JTAG介面 390 網路硬體 392 環/環形網路硬體 130144.doc •20- 樹 總體中斷 處理器介面 處理器注入FIFO 處理器接收FIFO 環形發送器 環形接收器 環形網路封包 封包標頭 位元組寬循環冗餘檢查(CRC) 暗示位元 資料位元組 一位元組有效指示符 部分 節點1 節點9 XY軸 節點5 節點2 節點8 節點6 節點7 部分 網路 -21 -
Claims (1)
- 200907702 申請專利範圍: 1· 一種平行電腦系統,其包含. 複㈣節點,其由-或多個網路連接; 一卽點/網路St相协+丨 冰 皿現機制,其監視該平行電腦系絲♦q仿 節點及網路且逢*々… V电腦糸統之該等 一味 立各郎點及網路之一問題清單;及 即點’其使用若干暗示位元經 動態地路由—次或夕個網路而 ^胃料封包以避開該問題清單中之^% 及網路。 β干τ(孩4即點 I : = Γ平行電腦系統,其中該等暗示位元為指示 值方向以在-環形網路上導引訊務之複數個二進I 3· 如请求項1 t工 -經由該—:多:電腦系、统,其中該等暗示位元包括於 4. 如請求項3之+發送之資料封包之標頭中。 、平行電腦系統,其中該節點藉由暫停. 該即點上舳广a 士 曰印节1*r —在 丁之應用程式使用該等暗示位元而動能u 由一資料封句ri苗& 1兀而動態地路 暫停夕 t新該問題清單且接著該應用程式自| 暫停之點恢復。 狂式自其 5. 如。月求項4之平行電腦系統,其中該平 具有由一二給TJa 卞仃%鵰糸統為一 系統。—維㈣網路互連的該等節點之大量平行電腦 6. =二之:,電腦系統,其中該平行電腦系統為― 系統。二維每形網路互連的該等節點之大量平行電腦 7· 一種用+ 、重新啟動在一平行電腦系統上執行 右'干 130144.doc 200907702 應’用程式的情況下徒用# ; α — 由該平〜右干暗不位元動態地重新路由藉 /仃電腦系統中之一或多個網路連接之若 點上的若f節點處理 “郎 以下步驟: _施方法,其中該方法包含 問題清單 針對各種問題監視該等節點及網路且識別 中之各問題節點及網路; 侦測該問題清單何時更新; Ο 8. 9· CJ 10 11. 12. 暫停執行一應用程式之各節點之執行; ° 又疋該專暗示位元中一 ^ T、王y 考以隔離該問題清單中 一卽點或網路;及 k 〇該應用程式中之所有節點恢復執行。 求項7之電腦實施方法,其中該等暗示位元為指示 一較佳方向以在一環形網路上導引訊務之複數個二進 值。 ::青求項8之電腦實施方法,其中該等暗示位元包括於 、’、呈由4 —或多個網路發送之資料封包之標頭中。 如請求項7之電腦實施方法,其中該平行電腦系統為一 八有由一二維環形網路互連的該等節點之大量平行電腦 系統。 月长項7之電腦實施方法,其進一步包含以下步驟: 將至少一故障節點之處理遷移至至少一後備節點。 如喷求項7之電腦實施方法,其中該偵測一經更新問題 /月單之步驟包括偵測一擁塞網路至一節點且設定至少一 暗不位元以路由訊務繞過該擁塞節點。 130144.doc 200907702 Ϊ3·種用於在-具有由一或多個網路連接之複數個節點的 平灯電腦系統上執行之電腦可讀程式產品,其包含·· 即點/網路監視機制,其監視該平行電腦系統之該等 節點及網路且建立各節點及網路之—問題清單;及 -節點路由機制,其使用若干暗示位元經由該一或多 個網路而動態地路由—資料封包以避開該問題清單中之 該等節點及網路;及 ^有若干電腦程式指令之電腦儲存媒體,該等電腦程 4 U可操作以用於使_電腦執行該節點/網路監視機制 及该節點路由機制。 14·如請求項13之程式產品,其中該等暗示位元為指示-較 佳方向以在一環形網路上導引訊務之複數個二進位值。 15.如請求項13之程式產品’其中該等暗示位元包括於一經 由該一或多個網路發送之資料封包之標頭中。 之程式產品,其中該節點藉由暫停在該節點 ϋ 行之應用程式使用若干暗示位元而動態地路由一資 料封包以更新該問題清單且接著該應用程式 點恢復。 六· "W < 17. ^求項16之程式產品,其中該電腦系統為—且有由一 三維環形網路互連的該等節點之大量平 系、 求㈣之程式產品,其中該平行電腦“為1具有 統。 逆的这寺卽點之大量平行電腦系 130144.doc
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US11/736,811 US7644254B2 (en) | 2007-04-18 | 2007-04-18 | Routing data packets with hint bit for each six orthogonal directions in three dimensional torus computer system set to avoid nodes in problem list |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| TW200907702A true TW200907702A (en) | 2009-02-16 |
Family
ID=39739647
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW097113660A TW200907702A (en) | 2007-04-18 | 2008-04-15 | Dynamically rerouting node traffic on a massively parallel computer system using hint bits |
Country Status (7)
| Country | Link |
|---|---|
| US (1) | US7644254B2 (zh) |
| EP (1) | EP2156291A2 (zh) |
| JP (1) | JP5285690B2 (zh) |
| KR (1) | KR20090122209A (zh) |
| CN (1) | CN101663649B (zh) |
| TW (1) | TW200907702A (zh) |
| WO (1) | WO2008128836A2 (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10802900B2 (en) | 2018-08-14 | 2020-10-13 | Industrial Technology Research Institute | Compute node, failure detection method thereof and cloud data processing system |
Families Citing this family (22)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB2462492B (en) * | 2008-08-14 | 2012-08-15 | Gnodal Ltd | A multi-path network |
| JP5581326B2 (ja) * | 2008-11-26 | 2014-08-27 | ダンマークス・テクニスケ・ユニヴェルシテット | 生物学の影響を受けたハードウェアセルアーキテクチャ |
| KR20150038757A (ko) * | 2009-02-13 | 2015-04-08 | 아브 이니티오 테크놀로지 엘엘시 | 데이터 저장 시스템과의 통신 |
| US8479215B2 (en) * | 2009-08-18 | 2013-07-02 | International Business Machines Corporation | Decentralized load distribution to reduce power and/or cooling costs in an event-driven system |
| US8392661B1 (en) * | 2009-09-21 | 2013-03-05 | Tilera Corporation | Managing cache coherence |
| US8359404B2 (en) * | 2010-01-08 | 2013-01-22 | International Business Machines Corporation | Zone routing in a torus network |
| US8103910B2 (en) * | 2009-11-13 | 2012-01-24 | International Business Machines Corporation | Local rollback for fault-tolerance in parallel computing systems |
| WO2011081776A1 (en) * | 2009-12-14 | 2011-07-07 | Ab Initio Technology Llc | Specifying user interface elements |
| US8559307B2 (en) * | 2009-12-28 | 2013-10-15 | Empire Technology Development Llc | Routing packets in on-chip networks |
| US8140889B2 (en) * | 2010-08-23 | 2012-03-20 | International Business Machines Corporation | Dynamically reassigning a connected node to a block of compute nodes for re-launching a failed job |
| JP5750963B2 (ja) * | 2011-03-22 | 2015-07-22 | 富士通株式会社 | 並列計算機システム、制御装置、並列計算機システムの制御方法および並列計算機システムの制御プログラム |
| US9811233B2 (en) | 2013-02-12 | 2017-11-07 | Ab Initio Technology Llc | Building applications for configuring processes |
| US9424229B2 (en) * | 2013-02-13 | 2016-08-23 | Advanced Micro Devices, Inc. | Parallel torus network interconnect |
| US10996989B2 (en) * | 2016-06-13 | 2021-05-04 | International Business Machines Corporation | Flexible optimized data handling in systems with multiple memories |
| CN106130895B (zh) * | 2016-08-18 | 2019-11-15 | 中国联合网络通信集团有限公司 | Sdn网络故障的重路由方法及装置 |
| US11423083B2 (en) | 2017-10-27 | 2022-08-23 | Ab Initio Technology Llc | Transforming a specification into a persistent computer program |
| JP7167687B2 (ja) * | 2018-12-18 | 2022-11-09 | 富士通株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
| US11057265B2 (en) * | 2019-06-27 | 2021-07-06 | Cerner Innovation, Inc. | Path check insight |
| JP7575719B2 (ja) * | 2020-02-28 | 2024-10-30 | 京セラドキュメントソリューションズ株式会社 | データ収集蓄積システムおよびデータ収集システム |
| CN113364603B (zh) * | 2020-03-06 | 2023-05-02 | 华为技术有限公司 | 环形网络的故障恢复方法及物理节点 |
| CN116830546A (zh) * | 2021-03-05 | 2023-09-29 | 华为技术有限公司 | 一种发送数据包的系统和方法 |
| WO2023207952A1 (zh) * | 2022-04-29 | 2023-11-02 | 上海商汤智能科技有限公司 | 数据处理方法和装置、芯片、电子设备、介质 |
Family Cites Families (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0398971A1 (en) * | 1988-02-04 | 1990-11-28 | The City University | Improvements in or relating to data handling arrays |
| US5495426A (en) * | 1994-01-26 | 1996-02-27 | Waclawsky; John G. | Inband directed routing for load balancing and load distribution in a data communication network |
| JPH07239835A (ja) * | 1994-02-25 | 1995-09-12 | Hitachi Ltd | 並列計算機のネットワーク内データ転送制御方式 |
| US6865149B1 (en) * | 2000-03-03 | 2005-03-08 | Luminous Networks, Inc. | Dynamically allocated ring protection and restoration technique |
| US7729261B2 (en) * | 2004-08-10 | 2010-06-01 | Alcatel Lucent | Forwarding of network traffic in respect of differentiated restricted transit network nodes |
| US20070053283A1 (en) * | 2005-09-06 | 2007-03-08 | International Business Machines Corporation | Correlation and consolidation of link events to facilitate updating of status of source-destination routes in a multi-path network |
| US7835284B2 (en) | 2006-10-06 | 2010-11-16 | International Business Machines Corporation | Method and apparatus for routing data in an inter-nodal communications lattice of a massively parallel computer system by routing through transporter nodes |
| US8031614B2 (en) | 2006-10-06 | 2011-10-04 | International Business Machines Corporation | Method and apparatus for routing data in an inter-nodal communications lattice of a massively parallel computer system by dynamic global mapping of contended links |
| US7680048B2 (en) | 2006-10-06 | 2010-03-16 | International Business Machiens Corporation | Method and apparatus for routing data in an inter-nodal communications lattice of a massively parallel computer system by dynamically adjusting local routing strategies |
| US7839786B2 (en) | 2006-10-06 | 2010-11-23 | International Business Machines Corporation | Method and apparatus for routing data in an inter-nodal communications lattice of a massively parallel computer system by semi-randomly varying routing policies for different packets |
| US20080178177A1 (en) | 2007-01-19 | 2008-07-24 | Charles Jens Archer | Method and Apparatus for Operating a Massively Parallel Computer System to Utilize Idle Processor Capability at Process Synchronization Points |
| US7631169B2 (en) | 2007-02-02 | 2009-12-08 | International Business Machines Corporation | Fault recovery on a massively parallel computer system to handle node failures without ending an executing job |
| US7706275B2 (en) | 2007-02-07 | 2010-04-27 | International Business Machines Corporation | Method and apparatus for routing data in an inter-nodal communications lattice of a massively parallel computer system by employing bandwidth shells at areas of overutilization |
-
2007
- 2007-04-18 US US11/736,811 patent/US7644254B2/en not_active Expired - Fee Related
-
2008
- 2008-03-20 EP EP08718093A patent/EP2156291A2/en not_active Withdrawn
- 2008-03-20 KR KR1020097017336A patent/KR20090122209A/ko not_active Abandoned
- 2008-03-20 JP JP2010503440A patent/JP5285690B2/ja not_active Expired - Fee Related
- 2008-03-20 WO PCT/EP2008/053377 patent/WO2008128836A2/en not_active Ceased
- 2008-03-20 CN CN2008800124505A patent/CN101663649B/zh not_active Expired - Fee Related
- 2008-04-15 TW TW097113660A patent/TW200907702A/zh unknown
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10802900B2 (en) | 2018-08-14 | 2020-10-13 | Industrial Technology Research Institute | Compute node, failure detection method thereof and cloud data processing system |
Also Published As
| Publication number | Publication date |
|---|---|
| EP2156291A2 (en) | 2010-02-24 |
| JP5285690B2 (ja) | 2013-09-11 |
| CN101663649A (zh) | 2010-03-03 |
| US7644254B2 (en) | 2010-01-05 |
| JP2010525433A (ja) | 2010-07-22 |
| WO2008128836A2 (en) | 2008-10-30 |
| US20080263386A1 (en) | 2008-10-23 |
| KR20090122209A (ko) | 2009-11-26 |
| WO2008128836A3 (en) | 2008-12-18 |
| CN101663649B (zh) | 2012-07-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TW200907702A (en) | Dynamically rerouting node traffic on a massively parallel computer system using hint bits | |
| US9300574B2 (en) | Link aggregation emulation for virtual NICs in a cluster server | |
| JP3640187B2 (ja) | マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード | |
| TW200907701A (en) | Fault recovery on a parallel computer system with a torus network | |
| CN101494697B (zh) | 一种采用双刀片服务器的负载均衡方法和装置 | |
| WO2012037520A1 (en) | System and method for providing ethernet over infiniband virtual hub scalability in a middleware machine environment | |
| CN115550291B (zh) | 交换机的复位系统及方法、存储介质、电子设备 | |
| US12119950B2 (en) | Early acknowledgment for write operations | |
| KR20070033866A (ko) | 정보 처리 장치, 통신 부하 분산 방법 및 통신 부하 분산프로그램을 기록한 기록 매체 | |
| CN103490914A (zh) | 一种网络应用设备多机热备的切换系统及方法 | |
| CN102724073A (zh) | 一种网络流量恢复的方法和路由设备 | |
| US20240311246A1 (en) | High availability using virtual storage controllers in a scale out storage cluster | |
| US11968114B2 (en) | Embedded network packet data for use of alternative paths within a group of network devices | |
| US20230261971A1 (en) | Robust Vertical Redundancy Of Networking Devices | |
| CN100538647C (zh) | 多核处理器的业务流处理方法及多核处理器 | |
| CN106909322A (zh) | 一种虚拟化系统中支持存储灾备的路由方法及装置 | |
| Guay et al. | Host side dynamic reconfiguration with infiniband | |
| Wang et al. | Reliable and Resilient Collective Communication Library for LLM Training and Serving | |
| US11947431B1 (en) | Replication data facility failure detection and failover automation | |
| CN107197032A (zh) | 一种实时镜像的服务器数据在线备份方法 | |
| Guay | Dynamic Reconfiguration in Interconnection Networks | |
| Chen et al. | An Efficient, Reliable and Observable Collective Communication Library in Large-scale GPU Training Clusters | |
| Thompson | Globally Connected Fault-Tolerant Systems | |
| TW202445335A (zh) | 在水平擴充儲存器叢集中使用虛擬儲存控制器的高可用性 | |
| Marcon et al. | An implementation of a distributed fault-tolerant mechanism for 2D mesh NoCs |