CN111190848B - 服务器读取gpu的方法及装置 - Google Patents

服务器读取gpu的方法及装置 Download PDF

Info

Publication number
CN111190848B
CN111190848B CN201911333280.7A CN201911333280A CN111190848B CN 111190848 B CN111190848 B CN 111190848B CN 201911333280 A CN201911333280 A CN 201911333280A CN 111190848 B CN111190848 B CN 111190848B
Authority
CN
China
Prior art keywords
gpu
information
bmc
hardware
pcie
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911333280.7A
Other languages
English (en)
Other versions
CN111190848A (zh
Inventor
梁晨光
黄洪
宋军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuguang Information Industry Shanghai Co ltd
Original Assignee
Dawning Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Co Ltd filed Critical Dawning Information Industry Co Ltd
Priority to CN201911333280.7A priority Critical patent/CN111190848B/zh
Publication of CN111190848A publication Critical patent/CN111190848A/zh
Application granted granted Critical
Publication of CN111190848B publication Critical patent/CN111190848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4022Coupling between buses using switching circuits, e.g. switching matrix, connection or expansion network
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0026PCI express

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种服务器读取GPU的方法及装置,该方法包括:BIOS将识别到的PCIE设备的第一部分信息同步至BMC;BMC通过BIOS同步的第一部分信息判断PCIE设备是否为GPU,当判断结果为是时,BMC将第一部分信息与相应的GPU的硬件位置进行对应,以定位至相应的GPU并读取相应的GPU的第二部分信息;整合并显示第一部分信息和第二部分信息。本发明的上述技术方案,能够直观的显示对应丝印位置下完整的GPU信息。

Description

服务器读取GPU的方法及装置
技术领域
本发明涉及服务器技术领域,具体来说,涉及一种服务器读取GPU的方法及装置。
背景技术
当前通过SMBUS Access方式获得图形处理器信息有限,只可以获得图形处理的温度、设备识别码、厂商识别码、子设备识别码、子厂商识别码。BIOS(Basic Input OutputSystem,基本输入输出系统)通过PCIE协议方式,只能获取到图形处理器的设备识别码、厂商识别码、子设备识别码、子厂商识别码、类型、型号、链接速率、链接宽度。
现有技术是通过OS系统安装图形处理器的驱动,通过SMBUS带内的方式可以获得图形处理器的详细信息,但是只能以命令行形式大量的返回呈现。
现有技术中GPU的地址是固定的,而在硬件设计上要实现多GPU同时使用,就需要将GPU设备放到不同的I2C通道上,或者相同的I2C通道芯片进行扩展区分,那么硬件上的位置信息是固定的,必然会有相关的丝印显示,BMC可以通过SMBUS Access的方式获取每一颗GPU的I2C通道的位置信息,与丝印做对应。但是只是用这种方式是无法获取GPU的所有信息的。
BIOS对GPU的识别,是按照PCIE接口的顺序来识别,不会因为硬件位置有完全对应的关系,而本身对应关系在不同PCIE线缆链接方式的变化中会有不确定性。
SMBUS带内的方式不够便捷,显示的信息只能通过命令行返回大量的数据无法快速定位到想要的信息,无法直观的对应GPU的实时状态信息进行监控显示,而一旦有不满配的GPU卡出现,在系统内GPU显示的顺序就会跟丝印顺序有差别。
发明内容
针对相关技术中的上述问题,本发明提出一种服务器读取GPU的方法及装置,能够直观的显示对应丝印位置下完整的GPU信息。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种服务器读取GPU的方法,其特征在于,包括:
BIOS将识别到的PCIE设备的第一部分信息同步至BMC;
BMC通过BIOS同步的第一部分信息判断PCIE设备是否为GPU,
当判断结果为是时,BMC将第一部分信息与相应的GPU的硬件位置进行对应,以定位至相应的GPU并读取相应的GPU的第二部分信息;
整合并显示第一部分信息和第二部分信息。
根据本发明的实施例,BMC将第一部分信息与相应的GPU的硬件位置进行对应,以定位至相应的GPU包括:BMC根据PCIE与硬件位置的对应关系,根据BIOS识别到的PCIE设备的第一部分信息进行匹配,以获得PCIE设备的硬件位置。
根据本发明的实施例,读取第二部分信息包括:通过I2C通道以OOB的方式读取相应的GPU内部的第二部分信息。
根据本发明的实施例,服务器读取GPU的方法还包括:在服务器每次开机时,更新GPU的固件版本信息与序列号;在GPU每次上电开机时,重新识别GPU的硬件位置。
根据本发明的实施例,第一部分信息包括:厂商信息、类型、型号、链接速率、链接宽度中的至少一种;第二部分信息包括:固件版本信息、制作时间、序列号、功耗、最大工作温度中的至少一种。
根据本发明的另一方面,提供了一种服务器读取GPU的装置,包括:
BIOS模块,用于识别PCIE设备的第一部分信息并将第一部分信息同步至BMC,
BMC,用于通过BIOS同步的第一部分信息判断PCIE设备是否为GPU,
当判断结果为是时,BMC将第一部分信息与相应的GPU的PCIE接口位置进行对应,BMC定位至相应的GPU并读取相应的GPU的第二部分信息;
显示模块,用于显示BMC整合后的第一部分信息和第二部分信息。
根据本发明的实施例,BMC根据PCIE与硬件位置的对应关系,根据BIOS识别到的PCIE设备的第一部分信息进行匹配,以获得PCIE设备的硬件位置。
根据本发明的实施例,BMC通过I2C通道以OOB的方式读取相应的GPU内部的第二部分信息。
根据本发明的实施例,BMC还用于:在服务器每次开机时,更新GPU的固件版本信息与序列号;在GPU每次上电开机时,重新识别GPU的硬件位置。
根据本发明的实施例,第一部分信息包括:厂商信息、类型、型号、链接速率、链接宽度中的至少一种;第二部分信息包括:固件版本信息、制作时间、序列号、功耗、最大工作温度中的至少一种。
本发明的上述技术方案,使用BMC作为对GPU完整信息的呈现,BIOS可以获得GPU的信息,其中BMC可以将BIOS获取的部分GPU信息,进行整事,并更直观的将GPU实际的硬件位置(例如硬件丝印位置)与GPU信息做对应,呈现给客户。因此,当运维人员或者用户想去查看硬件丝印上GPU的型号时候,可以直观的通过BMC的web页面去监控,大大提高了GPU信息显示上的完整性,降低了多种操作去查看GPU信息的技术成本和时间成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的服务器读取GPU的方法的流程图;
图2是根据本发明具体实施例的服务器读取GPU的方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
图1是根据本发明实施例的服务器读取GPU的方法的流程图。如图1所示,本发明的服务器读取GPU的方法可以包括以下步骤:
S11,BIOS将识别到的PCIE设备的第一部分信息同步至BMC。在一个实施例中,第一部分信息包括:厂商信息、类型、型号、链接速率、链接宽度中的至少一种。
S12,BMC通过BIOS同步的第一部分信息判断PCIE设备是否为GPU。
S13,当判断结果为是时,所述BMC将所述第一部分信息与相应的GPU的硬件位置进行对应,以定位至相应的GPU并读取相应的GPU的第二部分信息。
在一个实施例中,第二部分信息包括:固件版本信息、制作时间、序列号、功耗、最大工作温度中的至少一种。在一个实施例中,BMC通过I2C通道定位至相应的GPU。在一个实施例中,BMC通过OOB(Out Of Band,带外数据)的方式读取相应的GPU内部的第二部分信息。
S14,整合并显示第一部分信息和第二部分信息,例如显示在web端。
本发明的上述技术方案,使用BMC作为对GPU完整信息的呈现,BIOS可以获得GPU的信息,其中BMC可以将BIOS获取的部分GPU信息,进行整事,并更直观的将GPU实际的硬件位置(例如硬件丝印位置)与GPU信息做对应,呈现给客户。因此,当运维人员或者用户想去查看硬件丝印上GPU的型号时候,可以直观的通过BMC的web页面去监控,大大提高了GPU信息显示上的完整性,降低了多种操作去查看GPU信息的技术成本和时间成本。
在一些实施例中,可以在服务器每次开机时,更新GPU的固件版本信息与序列号;在GPU每次上电开机时,重新识别GPU的硬件位置。
图2是根据本发明具体实施例的服务器读取GPU的方法的流程图。如图2所示,在本实施例中,本发明使用BMC作为对GPU完整信息的呈现。上电开机后,BMC通过SMBUS方式识别硬件槽位上是否插放GPU设备,确定GPU在硬件上的位置。在BIOS完成设备初始化后,会抓取所有PCIE设备的厂商信息、类型、型号、链接速率、链接宽度信息,同时BIOS根据预先定义的IPMI SUGON OEM命令格式发给BMC。BMC预先根据硬件设计构建PCIE与硬件丝印的对应关系表,根据BIOS识别到PCIE设备BUS/DEVICE/FUNCTION信息进行逐一的匹配,获得所有PCIE设备所在硬件上位置信息,根据BaseClass、SubClass确定PCIE设备中的GPU设备。结合SMBUS识别结果、PCIE识别结果,可以确定GPU的硬件链路信息。循环监控,根据硬件链路信息循环打开硬件的I2C BUS通道,通过OOB的方式读取GPU更加完善的信息,比如:固件版本信息、制作时间、序列号、功耗、最大工作温度等等,结合这两部分信息进行整合,转换成中英文呈现到web界面上。
另外,在每次开机时候,都会去更新一次GPU的固件版本信息与序列号。GPU设备本身不支持热插拔,更换GPU设备需要进行断电操作,更换设备后,上电的第一次开机,会进行GPU的重新识别。重新进行上述识别过程,因此即使更换了不同型号的GPU,GPU插放位置发生改变,都不会影响GPU的显示,可以保证GPU信息的正确完整。
更具体的,参考图2所示,BMC接收识别到第一次开机后,开始识别GPU实际在硬件上的PCIE接口的位置,并且PCIE的BUS/DEVICE/FUNCTION记录,与硬件丝印信息一一对应。当BIOS在每次开机过程中识别到PCIE设备的信息时候,使用IPMI OEM命令在BMC与BIOS之间进行数据的交互,将获取的信息同步到BMC端。BMC端通过BIOS识别的信息,通过BaseClass、SubClass可以确定是否是GPU设备,并且通过BUS/DEVICE/FUNCTION与实际的硬件上PCIE接口位置进行对应,根据之前记录的位置信息,切换I2C通道去定位到每个GPU设备,通过OOB的方式读取GPU内部的信息,显示在web端。
继续参考图2所示,每次服务器的开机或者重启,BIOS都会识别PCIE设备所在PCIE链路的BUS/DEVICE/FUNCTION信息,同时可以根据PCIE的标准协议,获取PCIE设备的BaseClass/SubClass信息,用于确定PCIE设备的类型。根据IPMI SUGON OEM CMD,将PCIE识别信息传给BMC。BMC预先会根据服务器的硬件设计,构建整体的PCIE与硬件丝印的对应关系,通过BIOS发送的BusNum、DevNum、FunNum,可以通过循环对应表的数据,获得PCIE接口的位置信息。根据BaseClass、SubClass判断PCIE设备是否是GPU设备。当识别到GPU设备存在后,根据硬件丝印位置,可以确定GPU所在硬件的I2C链路信息,通过OOB的方式与GPU实现交互,获得GPU的详细信息。将所有信息进行整合,显示在WEB端,看到GPU详尽的信息。
综上所述,本发明提供的方法,BMC通过I2C的方式可以获得GPU在硬件上直观的丝印位置,而BIOS可以获得GPU的部分信息,BMC可以将BIOS目前可获取的GPU信息,进行再加工,再完善,更直观的将GPU实际在硬件上的位置与GPU信息做对应,呈现给客户。
当运维人员或者用户想去查看硬件丝印上GPU的型号时候,可以直观的通过BMC的web页面去监控,大大提高了GPU信息显示上的完整性,降低了多种操作去查看GPU信息的技术成本和时间成本。同时GPU的温度、功耗的实时信息也可以被监控,通过风扇及时的控制散热,提高了GPU的使用持续性。同时GPU的温度、功耗的实时信息也可以被监控,通过风扇及时的控制散热,提高了GPU的使用持续性。
根据本发明的实施例,还提供了一种服务器读取GPU的装置,包括:
BMC,用于识别并记录各个GPU的PCIE接口位置;
BIOS模块,用于识别PCIE设备的第一部分信息并将第一部分信息同步至BMC,
其中,BMC通过BIOS同步的第一部分信息判断PCIE设备是否为GPU,
当判断结果为是时,BMC将第一部分信息与相应的GPU的PCIE接口位置进行对应,BMC定位至相应的GPU并读取相应的GPU的第二部分信息;
显示模块,用于显示BMC整合后的第一部分信息和第二部分信息。
根据本发明的实施例,BMC通过I2C通道定位至相应的GPU。
根据本发明的实施例,BMC通过OOB的方式读取相应的GPU内部的第二部分信息。
根据本发明的实施例,BMC还用于:在服务器每次开机时,更新GPU的固件版本信息与序列号;在GPU每次上电开机时,重新识别GPU的硬件位置。
根据本发明的实施例,第一部分信息包括:链接速度和链接带宽中的至少一种;
第二部分信息包括:固件版本信息、制作时间、序列号、功耗和最大工作温度中的至少一种。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种服务器读取GPU的方法,其特征在于,包括:
BMC通过SMBUS方式识别硬件槽位上是否插放GPU设备,确定GPU在硬件上的位置;
BIOS将识别到的PCIE设备的第一部分信息同步至所述BMC;
所述BMC通过BIOS同步的所述第一部分信息判断所述PCIE设备是否为GPU,
当判断结果为是时,所述BMC将所述第一部分信息与相应的GPU的硬件位置进行对应,以定位至相应的GPU并读取相应的GPU的第二部分信息,其中,所述BMC根据PCIE与硬件位置的对应关系,根据BIOS识别到的PCIE设备的所述第一部分信息进行匹配,结合SMBUS识别结果、PCIE识别结果,确定GPU的硬件链路信息,并且循环监控,根据硬件链路信息循环打开硬件的I2C BUS通道;
整合并显示所述第一部分信息和所述第二部分信息。
2.根据权利要求1所述的服务器读取GPU的方法,其特征在于,读取所述第二部分信息包括:
通过I2C通道以OOB的方式读取所述相应的GPU内部的所述第二部分信息。
3.根据权利要求1所述的服务器读取GPU的方法,其特征在于,还包括:
在所述服务器每次开机时,更新GPU的固件版本信息与序列号;
在GPU每次上电开机时,重新识别GPU的硬件位置。
4.根据权利要求1-3任一项所述的服务器读取GPU的方法,其特征在于,
所述第一部分信息包括:厂商信息、类型、型号、链接速率、链接宽度中的至少一种;
所述第二部分信息包括:固件版本信息、制作时间、序列号、功耗、最大工作温度中的至少一种。
5.一种服务器读取GPU的装置,其特征在于,包括:
SMBUS模块,识别硬件槽位上是否插放GPU设备,确定GPU在硬件上的位置;
BIOS模块,用于识别PCIE设备的第一部分信息并将所述第一部分信息同步至BMC,
BMC,用于通过BIOS同步的所述第一部分信息判断所述PCIE设备是否为GPU,
当判断结果为是时,所述BMC将所述第一部分信息与相应的GPU的PCIE接口位置进行对应,所述BMC定位至相应的GPU并读取相应的GPU的第二部分信息,其中,所述BMC根据PCIE与硬件位置的对应关系,根据BIOS识别到的PCIE设备的所述第一部分信息进行匹配,所述BMC结合SMBUS识别结果、PCIE识别结果,可以确定GPU的硬件链路信息,并且循环监控,根据硬件链路信息循环打开硬件的I2C BUS通道;
显示模块,用于显示所述BMC整合后的所述第一部分信息和所述第二部分信息。
6.根据权利要求5所述的服务器读取GPU的装置,其特征在于,所述BMC通过I2C通道以OOB的方式读取所述相应的GPU内部的所述第二部分信息。
7.根据权利要求5所述的服务器读取GPU的装置,其特征在于,所述BMC还用于:
在所述服务器每次开机时,更新GPU的固件版本信息与序列号;
在GPU每次上电开机时,重新识别GPU的硬件位置。
8.根据权利要求5-7任一项所述的服务器读取GPU的装置,其特征在于,
所述第一部分信息包括:厂商信息、类型、型号、链接速率、链接宽度中的至少一种;
所述第二部分信息包括:固件版本信息、制作时间、序列号、功耗、最大工作温度中的至少一种。
CN201911333280.7A 2019-12-23 2019-12-23 服务器读取gpu的方法及装置 Active CN111190848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911333280.7A CN111190848B (zh) 2019-12-23 2019-12-23 服务器读取gpu的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911333280.7A CN111190848B (zh) 2019-12-23 2019-12-23 服务器读取gpu的方法及装置

Publications (2)

Publication Number Publication Date
CN111190848A CN111190848A (zh) 2020-05-22
CN111190848B true CN111190848B (zh) 2023-09-15

Family

ID=70705863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911333280.7A Active CN111190848B (zh) 2019-12-23 2019-12-23 服务器读取gpu的方法及装置

Country Status (1)

Country Link
CN (1) CN111190848B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114968862B (zh) * 2022-08-01 2022-11-11 摩尔线程智能科技(北京)有限责任公司 图形处理器管理方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090631A (zh) * 2013-04-01 2014-10-08 鸿富锦精密工业(深圳)有限公司 外围元件连接装置及具有外围元件连接接口的电子装置
CN108268361A (zh) * 2018-01-23 2018-07-10 郑州云海信息技术有限公司 一种bmc监控gpu的方法、系统、装置及存储介质
CN108776595A (zh) * 2018-06-11 2018-11-09 郑州云海信息技术有限公司 一种gpu服务器的显卡的识别方法、装置、设备及介质
CN109828798A (zh) * 2019-01-31 2019-05-31 郑州云海信息技术有限公司 一种给bmc发送pcie丝印信息的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090631A (zh) * 2013-04-01 2014-10-08 鸿富锦精密工业(深圳)有限公司 外围元件连接装置及具有外围元件连接接口的电子装置
CN108268361A (zh) * 2018-01-23 2018-07-10 郑州云海信息技术有限公司 一种bmc监控gpu的方法、系统、装置及存储介质
CN108776595A (zh) * 2018-06-11 2018-11-09 郑州云海信息技术有限公司 一种gpu服务器的显卡的识别方法、装置、设备及介质
CN109828798A (zh) * 2019-01-31 2019-05-31 郑州云海信息技术有限公司 一种给bmc发送pcie丝印信息的方法

Also Published As

Publication number Publication date
CN111190848A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
US6968414B2 (en) Monitoring insertion/removal of server blades in a data processing system
CN100472460C (zh) 检测和显示计算机自检信息的方法及装置
US7013385B2 (en) Remotely controlled boot settings in a server blade environment
US6044411A (en) Method and apparatus for correlating computer system device physical location with logical address
US6895532B2 (en) Wireless server diagnostic system and method
CN111782283A (zh) 一种裸金属服务器的自动化管理方法、装置及介质
US20100306357A1 (en) Server, computer system, and method for monitoring computer system
EP2472402A1 (en) Remote management systems and methods for mapping operating system and management controller located in a server
US11308002B2 (en) Systems and methods for detecting expected user intervention across multiple blades during a keyboard, video, and mouse (KVM) session
US20150058538A1 (en) Techniques for updating memory of a chassis management module
US20070076006A1 (en) Detection of displays for information handling system
CN119200761A (zh) 一种服务器设备位置定位方法、装置、服务器及介质
CN118643000B (zh) 服务器PCIe端口的配置信息表的生成方法、发送方法和装置
CN119201817A (zh) 基于扩展卡的外插卡管理方法、扩展卡以及服务器系统
CN115878533A (zh) Ai服务器的自适应配置方法、装置、设备和存储介质
CN109828798A (zh) 一种给bmc发送pcie丝印信息的方法
CN111190848B (zh) 服务器读取gpu的方法及装置
CN118245335B (zh) 一种硬盘点灯方法、装置、服务器以及产品
US7114067B2 (en) Method of efficiently detecting whether a device is connected to an information processing system by detecting short circuits to predetermined signal lines of an IDE interface
CN114253573A (zh) PCIe设备固件批量升级方法、系统、终端及存储介质
CN111382027A (zh) 一种bmc ip获取方法、装置和机柜式服务器
CN115913913B (zh) 网卡预启动执行环境功能故障定位方法及装置
US8554974B2 (en) Expanding functionality of one or more hard drive bays in a computing system
CN117826948A (zh) 一种主板、计算设备及控制方法
WO2026067060A1 (zh) 一种网卡热插拔配置方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20251010

Address after: 201203 Shanghai Pudong New Area Free Trade Zone Guoshoujing Road No. 351 Building 502B Room

Patentee after: Shuguang Information Industry (Shanghai) Co.,Ltd.

Country or region after: China

Address before: 300384 Tianjin city Xiqing District Huayuan Industrial Zone (outer ring) Haitai Huake Street No. 15 1-3

Patentee before: DAWNING INFORMATION INDUSTRY Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right