TW201516672A - 伺服器監控系統及方法 - Google Patents
伺服器監控系統及方法 Download PDFInfo
- Publication number
- TW201516672A TW201516672A TW102140408A TW102140408A TW201516672A TW 201516672 A TW201516672 A TW 201516672A TW 102140408 A TW102140408 A TW 102140408A TW 102140408 A TW102140408 A TW 102140408A TW 201516672 A TW201516672 A TW 201516672A
- Authority
- TW
- Taiwan
- Prior art keywords
- management engine
- server
- module
- management
- specific fault
- Prior art date
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 14
- 238000009529 body temperature measurement Methods 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 abstract description 5
- 230000005856 abnormality Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Landscapes
- Debugging And Monitoring (AREA)
Abstract
一種伺服器監控方法,用於監控所述伺服器的管理引擎,該方法包括:定期命令所述管理引擎回饋運轉情況;判斷預定時間內是否接收到所述管理引擎的回饋訊號;在所述預定時間內接收到所述管理引擎非正常運轉的訊號時,命令所述管理引擎回傳該管理引擎的具體故障;接收所述管理引擎回傳的具體故障的消息;及根據上述具體故障通知所述伺服器的相關管理模組進行相應的處理。本發明還提供一種伺服器監控系統。利用本發明可對伺服器的管理引擎的運轉狀況進行定期監控。
Description
本發明涉及一種伺服器監控系統及方法,尤其涉及一種用於監控伺服器的管理引擎的系統及方法。
伺服器通常由主板上的BMC(Baseboard Management Controller,基板管理控制器)晶片獲取主板上的重要參數(溫度、電壓等)並傳遞給伺服器的相應管理模組(如溫度、電壓管理模組)從而對伺服器進行整體管理。其中,BMC所獲取的主板上的一些重要參數如CPU和儲存器的溫度、主板電力功耗等是透過伺服器的ME(Management Engine,管理引擎)來獲取的。當前,當ME發生錯誤時,BMC並不能及時發現,只能在錯誤產生後由人工從機櫃入手分析,花費大量時間,而且,由於無預警措施,一旦BMC從ME中獲取的錯誤參數資訊傳遞給了管理模組,則會導致伺服器出現異常,嚴重影響伺服器的穩定性和安全性。
鑒於以上內容,有必要提供一種伺服器監控系統,可對伺服器的管理引擎的運轉狀況進行定期監控,並在管理引擎出現故障時,及時通知伺服器的相關管理模組進行相應的處理。
鑒於以上內容,還有必要提供一種伺服器監控方法,可對伺服器的管理引擎的運轉狀況進行定期監控,並在管理引擎出現故障時,及時通知伺服器的相關管理模組進行相應的處理。
所述伺服器監控系統,用於監控所述伺服器的管理引擎,該系統包括:命令模組,用於定期命令所述管理引擎回饋運轉情況;判斷模組,用於判斷預定時間內是否接收到所述管理引擎的回饋訊號,其中,該回饋訊號包括所述管理引擎正常運轉的訊號、所述管理引擎非正常運轉的訊號;所述命令模組,還用於在所述預定時間內接收到所述管理引擎非正常運轉的訊號時,命令所述管理引擎回傳該管理引擎的具體故障;接收模組,用於接收所述管理引擎回傳的具體故障的消息;及通知模組,用於根據上述具體故障通知所述伺服器的相關管理模組進行相應的處理。
所述伺服器監控方法,用於監控所述伺服器的管理引擎,該方法包括:第一命令步驟,定期命令所述管理引擎回饋運轉情況;判斷步驟,判斷預定時間內是否接收到所述管理引擎的回饋訊號,其中,該回饋訊號包括所述管理引擎正常運轉的訊號、所述管理引擎非正常運轉的訊號;第二命令步驟,在所述預定時間內接收到所述管理引擎非正常運轉的訊號時,命令所述管理引擎回傳該管理引擎的具體故障;接收步驟,接收所述管理引擎回傳的具體故障的消息;及第一通知步驟,根據上述具體故障通知所述伺服器的相關管理模組進行相應的處理。
相較於習知技術,本發明提供的伺服器監控系統及方法,可對伺服器的管理引擎的運轉狀況進行定期監控,並在管理引擎出現故障時,及時通知伺服器的相關管理模組進行相應的處理。
圖1是本發明伺服器監控系統較佳實施例的應用環境圖。
圖2舉例說明管理引擎的故障。
圖3是本發明伺服器監控方法較佳實施例的流程圖。
參閱圖1所示,是本發明伺服器監控系統(以下簡稱監控系統)較佳實施例的應用環境圖。本實施例中,監控系統11運行於伺服器1的BMC(Baseboard Management Controller,基板管理控制器)10中。用於對所述伺服器1的ME(Management Engine,管理引擎)20的運轉狀況進行定期監控。
所述BMC 10還包括儲存器12及處理器13。所述儲存器12可以用於儲存各種資料。本實施例中,所述儲存器12中預先儲存了一個故障參照表,該故障參照表用於記錄所述ME 20可能出現的各類故障,並為每類故障分配了一個故障代碼。例如,參閱圖2所示,所述故障參照表記錄了該ME 20可能會發生更新程式異常,必須重新啟動的故障,並為該類故障分配故障代碼為“00000001”。
本實施例中,所述監控系統11定期命令所述ME 20回饋運轉情況,當接收到該ME 20回饋的是非正常運轉的訊號時,所述監控系統11命令該ME 20回傳具體故障。所述ME 20則透過發送所述故障代碼來通知所述監控系統11該ME 20的具體故障,所述監控系統11將具體故障通知到所述伺服器1的相關管理模組以作相應的處理,具體細節以下描述。
本實施例中,所述監控系統11包括命令模組111、判斷模組112、接收模組113及通知模組114。所述模組111~114儲存於所述儲存器12中,並由所述處理器13執行,以提供本發明的功能,具體細節下面介紹。
如圖3所示,是本發明伺服器監控方法較佳實施例的流程圖。
步驟S1,命令模組111定期命令所述ME 20回饋運轉情況。
具體地,所述命令模組111可以每隔一定時間(例如2分鐘、5分鐘或其他時間)命令所述ME 20回饋該ME 20的運轉情況。
步驟S2,判斷模組112判斷預定時間(例如1分鐘、2分鐘或其他時間)內是否接收到所述ME 20的回饋訊號,該回饋訊號包括所述ME 20正常運轉的訊號、所述ME 20非正常運轉的訊號。若預定時間內接收到所述ME 20的回饋訊號,執行步驟S3,否則執行步驟S7。
本實施例中,當所述ME 20正常運轉時,該ME 20回饋所述正常運轉的訊號,若該ME 20偵測到出現一個或多個故障(例如文檔系統出現故障),該ME 20回饋所述非正常運轉的訊號。在這裏,需要在所述ME 20的固件中增加偵測故障的功能,並當接收到所述命令模組111發送的命令時,還能根據當前的運轉狀況作出相應的回饋。
而當所述ME 20在所述預定時間內沒有發送回饋訊號時,例如,所述ME 20很可能因為固件被完全破壞等原因致使該ME 20不能向所述監控系統11發出回饋訊號。所述判斷模組112視該ME 20需要管理員立即進行維修,此時執行步驟S7,通知模組114發出警示(例如播放警示音效)以提醒管理員所述ME 20不能運轉,需要管理員立即進行維修,並將該ME 20在所述預定時間內沒有回饋運轉情況的事件記錄到SEL(System Event Log,系統事件日誌),供管理員後續查詢或統計分析所述ME 20的故障情況。
步驟S3,所述判斷模組112進一步判斷所述回饋訊號是ME 20正常運轉的訊號還是ME 20非正常運轉的訊號。若所述回饋訊號為該ME 20正常運轉的訊號,則回到步驟S1。若所述回饋訊號為該ME 20非正常運轉的訊號,執行步驟S4。
步驟S4,所述命令模組111命令所述ME 20回傳該ME 20的具體故障。
步驟S5,接收模組113接收所述ME 20回傳的具體故障的消息。
本實施例中,所述ME 20透過回傳故障代碼來回傳所述具體故障,例如,當所述ME 20發生更新程式異常,必須重新啟動的故障時,所述ME 20將故障代碼“00000001”回傳給所述監控系統11。所述接收模組113將所接收的該ME 20回傳的故障代碼與所述故障參照表中所記錄的故障代碼進行比較即可知道該ME 20的具體故障。
本實施例中,所述接收模組113還將所述ME 20的具體故障記錄到SEL,供管理員做進一步的處理分析及進行相應的故障維修。
例如,所述接收模組113記錄所述ME 20於2012-10-29 16:33 發生故障代碼為“00000001”的故障,並將該系統事件日誌儲存到儲存設備(例如所述儲存器12)中。
步驟S6,通知模組114根據上述具體故障通知所述伺服器1的相關管理模組進行相應的處理。
例如,當所述ME 20的文檔系統出現故障時,所述通知模組114通知所述伺服器1的風扇管理模組和溫度測量模組,不要採用從該ME 20所獲得的參數(如溫度、風扇運轉速度等)。又如,當所述ME 20的快閃儲存器發生錯誤如型號不匹配,由於ME 20的固件通常是和BIOS(Basic Input Output System,基本輸入輸出系統)的固件儲存在同一個快閃儲存器內, BIOS在快閃儲存器型號不符合要求時會無法正常啟動, 而一般情況下,系統時間的獲取是由BIOS控制的,所述通知模組114則通知伺服器1的遠端管理模組,來自該伺服器1的BIOS的系統時間存在異常,請用網路對時。
從本發明的流程步驟可以看出,本發明在監控到所述ME 20出現故障時,所述監控系統11會及時通知與該故障相關的管理模組作出相應的處理,避免相關管理模組由於從所述ME 20獲得的參數為錯誤參數而誤調整伺服器,進而導致伺服器出現異常,影響伺服器的穩定性和安全性。
最後應說明的是,以上實施例僅用以說明本發明的技術方案而非限制,儘管參照較佳實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方案進行修改或等同替換,而不脫離本發明技術方案的精神和範圍。
1‧‧‧伺服器
10‧‧‧BMC
11‧‧‧監控系統
12‧‧‧儲存器
13‧‧‧處理器
20‧‧‧管理引擎
111‧‧‧命令模組
112‧‧‧判斷模組
113‧‧‧接收模組
114‧‧‧通知模組
S1‧‧‧定期命令管理引擎ME回饋運轉情況
S2‧‧‧預定時間內是否接收到所述ME的回饋訊號?
S3‧‧‧該回饋訊號是所述ME正常運轉的訊號還是ME非正常運轉的訊號?
S4‧‧‧命令所述ME回傳該ME的具體故障
S5‧‧‧接收所述ME回傳具體故障的消息
S6‧‧‧根據上述具體故障通知伺服器的相關管理模組進行相應的處理
S7‧‧‧發出警示以提醒管理員並記錄到系統事件日誌
無
S1‧‧‧定期命令管理引擎ME回饋運轉情況
S2‧‧‧預定時間內是否接收到所述ME的回饋訊號?
S3‧‧‧該回饋訊號是所述ME正常運轉的訊號還是ME非正常運轉的訊號?
S4‧‧‧命令所述ME回傳該ME的具體故障
S5‧‧‧接收所述ME回傳具體故障的消息
S6‧‧‧根據上述具體故障通知伺服器的相關管理模組進行相應的處理
S7‧‧‧發出警示以提醒管理員並記錄到系統事件日誌
Claims (8)
- 一種伺服器監控系統,用於監控所述伺服器的管理引擎,該系統包括:
命令模組,用於定期命令所述管理引擎回饋運轉情況;
判斷模組,用於判斷預定時間內是否接收到所述管理引擎的回饋訊號,其中,該回饋訊號包括所述管理引擎正常運轉的訊號、所述管理引擎非正常運轉的訊號;
所述命令模組,還用於在所述預定時間內接收到所述管理引擎非正常運轉的訊號時,命令所述管理引擎回傳該管理引擎的具體故障;
接收模組,用於接收所述管理引擎回傳的具體故障的消息;及
通知模組,用於根據上述具體故障通知所述伺服器的相關管理模組進行相應的處理。 - 如申請專利範圍第1項所述的伺服器監控系統,所述接收模組還用於將所述管理引擎的具體故障記錄到系統事件日誌。
- 如申請專利範圍第1項所述的伺服器監控系統,所述通知模組通知所述伺服器的相關管理模組進行相應處理的操作包括:
當所述管理引擎的文檔系統出現故障時,通知所述伺服器的風扇管理模組和溫度測量模組,不要採用從該管理引擎所獲得的參數;及
當所述管理引擎的快閃儲存器型號不符合要求時,通知所述伺服器的遠端管理模組,不要採用來自該伺服器的基本輸入輸出系統的系統時間,而採用網路對時。 - 如申請專利範圍第1項所述的伺服器監控系統,所述通知模組還用於當預定時間內沒有接收到所述管理引擎的回饋訊號時,發出警示以提醒管理員所述管理引擎不能運轉,並將該管理引擎在所述預定時間內沒有回饋運轉情況的事件記錄到系統事件日誌。
- 一種伺服器監控方法,用於監控所述伺服器的管理引擎,該方法包括:
第一命令步驟,定期命令所述管理引擎回饋運轉情況;
判斷步驟,判斷預定時間內是否接收到所述管理引擎的回饋訊號,其中,該回饋訊號包括所述管理引擎正常運轉的訊號、所述管理引擎非正常運轉的訊號;
第二命令步驟,在所述預定時間內接收到所述管理引擎非正常運轉的訊號時,命令所述管理引擎回傳該管理引擎的具體故障;
接收步驟,接收所述管理引擎回傳的具體故障的消息;及
第一通知步驟,根據上述具體故障通知所述伺服器的相關管理模組進行相應的處理。 - 如申請專利範圍第5項所述的伺服器監控方法,所述接收步驟還包括將所述管理引擎的具體故障記錄到系統事件日誌。
- 如申請專利範圍第5項所述的伺服器監控方法,所述第一通知步驟包括:
當所述管理引擎的文檔系統出現故障時,通知所述伺服器的風扇管理模組和溫度測量模組,不要採用從該管理引擎所獲得的參數;及
當所述管理引擎的快閃儲存器型號不符合要求時,通知所述伺服器的遠端管理模組,不要採用來自該伺服器的基本輸入輸出系統的系統時間,而採用網路對時。 - 如申請專利範圍第5項所述的伺服器監控方法,該方法還包括第二通知步驟:
當預定時間內沒有接收到所述管理引擎的回饋訊號時,發出警示以提醒管理員所述管理引擎不能運轉,並將該管理引擎在所述預定時間內沒有回饋運轉情況的事件記錄到系統事件日誌。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201310532503.9A CN104598359A (zh) | 2013-10-31 | 2013-10-31 | 服务器监控系统及方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| TW201516672A true TW201516672A (zh) | 2015-05-01 |
Family
ID=53124172
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW102140408A TW201516672A (zh) | 2013-10-31 | 2013-11-07 | 伺服器監控系統及方法 |
Country Status (2)
| Country | Link |
|---|---|
| CN (1) | CN104598359A (zh) |
| TW (1) | TW201516672A (zh) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI611290B (zh) * | 2015-09-04 | 2018-01-11 | 神雲科技股份有限公司 | 伺服器機櫃監控方法 |
| US10298479B2 (en) | 2016-05-09 | 2019-05-21 | Mitac Computing Technology Corporation | Method of monitoring a server rack system, and the server rack system |
| TWI740358B (zh) * | 2020-01-21 | 2021-09-21 | 英業達股份有限公司 | 伺服器溫度控制方法、基板管理控制器以及伺服器溫度控制系統 |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108268360A (zh) * | 2018-01-19 | 2018-07-10 | 郑州云海信息技术有限公司 | 一种bmc获取内存温度的方法、系统、装置及存储介质 |
| CN111506174A (zh) * | 2020-04-17 | 2020-08-07 | 苏州浪潮智能科技有限公司 | 一种风扇控制方法、装置、电子设备和可读存储介质 |
| CN113064747B (zh) | 2021-03-26 | 2022-10-28 | 山东英信计算机技术有限公司 | 一种服务器启动过程中的故障定位方法、系统及装置 |
-
2013
- 2013-10-31 CN CN201310532503.9A patent/CN104598359A/zh active Pending
- 2013-11-07 TW TW102140408A patent/TW201516672A/zh unknown
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI611290B (zh) * | 2015-09-04 | 2018-01-11 | 神雲科技股份有限公司 | 伺服器機櫃監控方法 |
| US10298479B2 (en) | 2016-05-09 | 2019-05-21 | Mitac Computing Technology Corporation | Method of monitoring a server rack system, and the server rack system |
| TWI740358B (zh) * | 2020-01-21 | 2021-09-21 | 英業達股份有限公司 | 伺服器溫度控制方法、基板管理控制器以及伺服器溫度控制系統 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN104598359A (zh) | 2015-05-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN116225812B (zh) | 基板管理控制器系统运行方法、装置、设备及存储介质 | |
| TW201516672A (zh) | 伺服器監控系統及方法 | |
| CN103577298A (zh) | 基板管理控制器监控系统及方法 | |
| CN106980562A (zh) | 一种硬盘监控方法及装置 | |
| CN103514068A (zh) | 内存故障自动定位方法 | |
| CN104699589B (zh) | 风扇错误侦测系统及方法 | |
| US20200033928A1 (en) | Method of periodically recording for events | |
| CN102611726A (zh) | 监控报警装置及监控报警方法 | |
| TW201417536A (zh) | 伺服器自動管理方法及系統 | |
| TWI668567B (zh) | 伺服器及自動檢修基板管理控制器的方法 | |
| US20120131361A1 (en) | Remote controller and method for remotely controlling motherboard using the remote controller | |
| CN104809044A (zh) | 基板管理控制器启动状态检测方法及系统 | |
| US10496128B2 (en) | Method for obtaining timestamp and computer device using the same | |
| CN109032867A (zh) | 一种故障诊断方法、装置及设备 | |
| CN104754035A (zh) | 一种ntp和rtc芯片配合确保管理主板时间的方法 | |
| CN108616428A (zh) | 一种远程管理rack机房的移动app实施方法 | |
| CN110750427A (zh) | 一种数据中心设备巡检方法及系统 | |
| TW201516665A (zh) | 伺服器之系統錯誤資訊偵測系統及方法 | |
| TW201523239A (zh) | 風扇錯誤偵測系統及方法 | |
| CN114003426B (zh) | 故障处理方法、系统和电子设备 | |
| CN115080132A (zh) | 信息处理方法、装置、服务器及存储介质 | |
| CN111338891A (zh) | 一种风扇稳定性测试方法及装置 | |
| CN106899420A (zh) | 云端监控的警示设备 | |
| CN117873040A (zh) | 工控主板的远程监测与故障诊断方法以及相关设备 | |
| TW201516423A (zh) | 伺服器開機時間測試方法及系統 |