WO2024082674A1

WO2024082674A1 - 浮点数据精度转换方法和装置

Info

Publication number: WO2024082674A1
Application number: PCT/CN2023/102089
Authority: WO
Inventors: 罗元勇; 陈敏琪; 张忠星; 伍玮翔
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-10-19
Filing date: 2023-06-25
Publication date: 2024-04-25
Anticipated expiration: 2025-04-19
Also published as: CN117908827A; US20250278241A1; EP4597299A4; EP4597299A1

Abstract

本申请实施例提供一种浮点数据精度转换方法和装置，涉及芯片技术领域，提高了高精度数据向低精度数据转换时的整体均值不变性。具体方案为：根据第一指数域的第一编码值确定前缀码域的第一位宽、前缀码域的第一编码值、第二指数域的第一位宽、第二指数域的第一编码值以及第二尾数域的第一位宽；确定第一尾数域中的保留编码值和舍弃编码值，保留编码值包括第一尾数域中从最高位开始，且位宽与第二尾数域的第一位宽相同的编码值；根据舍弃编码值对保留编码值进行舍入操作，得到第二尾数域的第一编码值。本申请实施例用于高精度数据向低精度数据转换的过程。

Description

浮点数据精度转换方法和装置

本申请要求于2022年10月19日提交国家知识产权局、申请号为202211281416.6、申请名称为“浮点数据精度转换方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及芯片技术领域，尤其涉及一种浮点数据精度转换方法和装置。

背景技术

随着混合精度计算的快速发展，开始大规模的部署低精度浮点数据格式的计算资源。比如在人工智能(Artificial Intelligence，AI)领域部署有浮点(Floating Point，FP)16和FP32混合训练模式，脑浮点(Brain Floating Point，BF)16和FP32混合训练模式，以及高性能计算(High Performance Computing，HPC)业务领域的FP32和FP64混合精度等。目前，学界和业界提出了多种8比特浮点数据格式，比如共享指数位(Shard Exponent Bias，SEB)、混合FP8(Hybrid FP8，HFP8)以及可配置的FP8(Configurable FP8，CFP8)等。对于精度要求较高的HPC业务领域也想部署大规模的低精度算力，于是提出了多种混合精度的求解器算法。这些算法中先利用低精度算力，如FP16/BF16，计算出低精度的初始计算结果，然后使用迭代算法和高精度数据格式FP32/FP64，求解出高精度的计算结果。针对混合精度计算场景，需要涉及到不同精度数据间的相互转换。低精度数据向高精度数据进行格式转换时，可以实现无误差的转换。高精度数据向低精度数据进行格式转换时，需要对高精度数据进行舍入(round)操作，由此会产生转换误差，降低了高精度数据向低精度数据转换时的整体均值不变性。不同的舍入方式对应的转换误差也不相同，特别是AI训练场景，对高精度数据进行舍入操作会出现误差的累积效应，从而影响AI模型的训练精度。

发明内容

本申请实施例提供一种浮点数据精度转换方法和装置，实现了高精度数据向低精度数据的转换，第二浮点数据采用前缀码域指示第二指数域的位宽，有效平衡了第二浮点数据位宽、范围和精度之间的关系。并通过提供简单的舍入方式，根据第一尾数域中的舍弃编码值对保留编码值进行舍入操作，无需其他设备的支持，提高了高精度数据向低精度数据转换的转换效率，降低了硬件开销。

为达到上述目的，本申请实施例采用如下技术方案。

第一方面，本申请实施例提供一种浮点数据精度转换方法，第一浮点数据包括符号域、第一指数域和第一尾数域，第二浮点数据包括符号域、前缀码域、第二指数域和第二尾数域，前缀码域用于指示第二指数域的位宽，第一浮点数据的精度高于第二浮点数据的精度，该方法包括：根据第一指数域的第一编码值确定前缀码域的第一位宽、前缀码域的第一编码值、第二指数域的第一位宽、第二指数域的第一编码值以及第二尾数域的第一位宽；确定第一尾数域中的保留编码值和舍弃编码值，保留编码值包括第一尾数域中从最高位开始，且位宽域第二尾数域的第一位宽相同的编码值；根据舍弃编码值对保留编码值进行舍入操作，得到第二尾数域的第一编码值。

本申请实施例提供的浮点数据精度转换方法，实现了将高精度数据转换为低精度数据。在数据格式转换中，基于第一浮点数据的符号域可以得到第二浮点数据的符号域，基于第一浮点数据的第一指数域可以得到第二浮点数据的前缀码域和第二指数域，以及基于第一浮点数据的第一尾数域可以得到第二浮点数据的第二尾数域。第二浮点数据中通过较短的前缀码域指示第二指数域的位宽，可以有效提升第二浮点数据的尾数的精度或位宽，同时对于只提供1位尾数的精度的第二浮点数据可以表示较大的数值范围，有效平衡了第二浮点数据位宽、范围和精度之间的关系。且前缀码域可以采用前缀码编码方式，占用位宽少，解析第二指数域和第二尾数域便捷。并通过提供简单的舍入方式，根据第一尾数域中的舍弃编码值对保留编码值进行舍入操作，无需其他设备的支持，提高了高精度数据向低精度数据转换的转换效率，降低了硬件开销。

在一种可能的设计中，舍入操作包括进位操作和舍弃操作，根据舍弃编码值对保留编码值进行舍入操作，得到第二尾数域的第一编码值包括：舍弃编码值中从最高位开始，且位宽为预设位宽的编码值大于或等于第二预设阈值时，对保留编码值的最低位进行进位操作，对舍弃编码值进行舍弃操作，保留编码值进位后的编码值为第二尾数域的第一编码值；舍弃编码值中从最高位开始，且位宽为预设位宽的编码值小于第二预设阈值时，对舍弃编码值进行舍弃操作，保留编码值为第二尾数域的第一编码值；其中，第二预设阈值为舍弃编码值中从最低位开始，且位宽为预设位宽的编码值。

这种设计中，对于随机舍入方式，用于比较的第二预设阈值为舍弃编码值中从最低位开始，且位宽为预设位宽的编码值，第二预设阈值的生成无需额外的随机数生成器，不存在随机数生成的性能瓶颈，提高了高精度数据向低精度数据的转换效率，同时硬件开销更低。

在一种可能的设计中，舍入操作包括进位操作或舍弃操作，根据舍弃编码值对保留编码值进行舍入操作，得到第二尾数域的第一编码值包括：舍弃编码值的最高位大于或等于第一预设阈值时，对保留编码值的最低位进行进位操作，并对舍弃编码值进行舍弃操作，保留编码值进行进位操作后得到的编码值为第二尾数域的第一编码值；舍弃编码值的最高位小于第一预设阈值时，对舍弃编码值进行舍弃操作，保留编码值为第二尾数域的第一编码值。

这种设计中，第一预设阈值可以为0或1，将舍弃编码值的最高位和第一预设阈值进行比较，属于远离0进位舍入方式。除了远离0进位舍入方式，还可以包括远离偶数进位舍入方式和远离奇数进位舍入方式等。但远离0进位舍入方式对于其他舍入方式硬件实现面积更小、功耗开销更小，且具有更高的数据分辨率。

在一种可能的设计中，本申请实施例提供的浮点数据精度转换方法还包括：判断进位操作后的保留编码值是否溢出；若进位操作后的保留编码值溢出，则对第一指数域的第一编码值的最低位进行加1操作，得到第一指数域的第二编码值；若前缀码域的第二位宽和前缀码域的第一位宽不同，根据第一指数域的第二编码值确定前缀码域的第二编码值、第二指数域的第二编码值、第二尾数域的第二位宽和第二尾数域的第二编码值；若前缀码域的第二位宽和前缀码域的第一位宽相同，判断第二指数域的第一位宽和第二指数域的第二位宽是否相同；若第二指数域的第二位宽小于第二指数域的第一位宽，对保留编码值的位宽进行加1操作，得到第二尾数域的第二位宽和第二尾数域的第二编码值；若第二指数域的第二位宽大于或等于第二指数域的第一位宽，对保留编码值的最低位进行舍弃操作，得到第二尾数域的第二位宽和第二尾数域的第二编码值。

这种设计中，在溢出的情况下，对第一指数域的第一编码值的最低位进行加1操作之后得到前缀码域的第二位宽和第二指数域的位宽，如果前缀码域的第二位宽和前缀码域的第一位宽相同时，如果第二指数域的位宽变化，可以得到第二尾数域的第二位宽，可以解决保留编码值进行进位操作后产生的溢出的问题。

在一种可能的设计中，根据第一指数域的第一编码值确定前缀码域的第一位宽、前缀码域的第一编码值、第二指数域的第一位宽和第二指数域的第一编码值包括：根据第一指数域的第一编码值确定指示值，通过查表确定与指示值对应的前缀码域的第一位宽和前缀码域的第一编码值，指示值还用于指示第二指数域的第一位宽；根据第一指数域的第一编码值确定第二指数域的第一位宽对应的第一编码值。

在一种可能的设计中，根据第一指数域的第一编码值确定第二尾数域的第一位宽包括：根据第二浮点数据的总位宽、前缀码域的第一位宽、第二指数域的第一位宽确定第二尾数域的第一位宽。

这种设计中，例如，对于HiFloat8数据格式的第二浮点数据，符号域的位宽为1，前缀码域的位宽为2或3，第二指数域的第一位宽为0至4中的一个整数，第二尾数域的第一位宽为1至4中的一个整数。由此，第二浮点数据中采用较短的前缀码域指示第二指数域的第一位宽，使得第二浮点数据最高可以提供4位尾数的精度，同时对于只提供1位尾数的精度的第二浮点数据可以表示较大的数值范围，有效平衡了第二浮点数据位宽、范围和精度之间的关系。且第二指数域存储时隐藏最高位，减少了第二指数域需要存储的第一位宽，有效避免了不同前缀码域的指示值对应的第二指数域的第一编码值出现数值重叠的问题，使得HiFloat8数据格式中无冗余编码。

在一种可能的设计中，第一浮点数据超出第二浮点数据的数据范围的上限时，基于饱和方式或无穷大方式确定第二浮点数据；第一浮点数据超出第二浮点数据的数据范围的下限时，第二浮点数据为零；第一浮点数据为非数字值时，第二浮点数据为非数字值。

这种设计中，第一浮点数据超出第二浮点数据的数据范围的上限和下限时，第二浮点数据可以通过特殊值表示第一浮点数据，例如饱和值、无穷大值和零值。当第一浮点数据为非数字值时，第二浮点数据也为非数字值表示。

第二方面，本申请实施例提供一种浮点数据精度转换装置，第一浮点数据包括符号域、第一指数域和第一尾数域，第二浮点数据包括符号域、前缀码域、第二指数域和第二尾数域，前缀码域用于指示第二指数域的位宽，第一浮点数据的精度高于第二浮点数据的精度，该装置包括：位宽计算单元，用于根据第一指数域的第一编码值确定前缀码域的第一位宽、前缀码域的第一编码值、第二指数域的第一位宽、第二指数域的第一编码值以及第二尾数域的第一位宽；尾数域计算单元，用于确定第一尾数域中的保留编码值和舍弃编码值，保留编码值包括第一尾数域中从最高位开始，且位宽与第二尾数域的第一位宽相同的编码值；舍入操作单元，用于根据舍弃编码值对保留编码值进行舍入操作，得到第二尾数域的第一编码值。

第二方面的有益效果可参见第一方面的说明。

在一种可能的设计中，舍入操作包括进位操作或舍弃操作，舍入操作单元还用于：舍弃编码值中从最高位开始，且位宽为预设位宽的编码值大于或等于第二预设阈值时，对保留编码值的最低位进行进位操作，对舍弃编码值进行舍弃操作，保留编码值进位后的编码值为第二尾数域的第一编码值；舍弃编码值中从最高位开始，且位宽为预设位宽的编码值小于第二预设阈值时，对舍弃编码值进行舍弃操作，保留编码值为第二尾数域的第一编码值；其中，第二预设阈值为舍弃编码值中从最低位开始，且位宽为预设位宽的编码值。

在一种可能的设计中，舍入操作包括进位操作或舍弃操作，舍入操作单元还用于：舍弃编码值的最高位大于或等于第一预设阈值时，对保留编码值的最低位进行进位操作，并对舍弃编码值进行舍弃操作，保留编码值进行进位操作后得到的编码值为第二尾数域的第一编码值；舍弃编码值的最高位小于第一预设阈值时，对舍弃编码值进行舍弃操作，保留编码值为第二尾数域的第一编码值。

在一种可能的设计中，装置还包括：溢出单元，用于判断进位操作后的保留编码值是否溢出；位宽计算单元还用于若进位操作后的保留编码值溢出，则对第一指数域的第一编码值进行加1操作，得到第一指数域的第二编码值；根据第一指数域的第二编码值确定第二指数域的第二位宽和前缀码域的第二位宽；若前缀码域的第二位宽和前缀码域的第一位宽不同，根据第一指数域的第二编码值确定前缀码域的第二编码值、第二指数域的第二编码值、第二尾数域的第二位宽和第二尾数域的第二编码值；若所述前缀码域的第二位宽和所述前缀码域的第一位宽相同，判断所述第二指数域的第一位宽和第二指数域的第二位宽是否相同；若第二指数域的第二位宽小于第二指数域的第一位宽，对保留编码值的位宽进行加1操作，得到第二尾数域的第二位宽和第二尾数域的第二编码值；若第二指数域的第二位宽大于或等于第二指数域的第一位宽，对保留编码值的最低位进行舍弃操作，得到第二尾数域的第二位宽和第二尾数域的第二编码值。

在一种可能的设计中，位宽计算单元还用于：根据第一指数域的第一编码值确定指示值，通过查表确定与指示值对应的前缀码域的第一位宽和前缀码域的第一编码值，指示值还用于指示第二指数域的第一位宽；根据第一指数域的第一编码值确定第二指数域的第一位宽对应的第一编码值。

在一种可能的设计中，位宽计算单元还用于：根据第二浮点数据的总位宽、前缀码域的第一位宽、第二指数域的第一位宽确定第二尾数域的第一位宽。

在一种可能的设计中，位宽计算单元还用于：第一浮点数据超出第二浮点数据的转换范围的上限时，基于饱和方式或无穷大方式确定第二浮点数据；第一浮点数据超出第二浮点数据的转换范围的下限时，第二浮点数据为零；第一浮点数据为非数字值时，第二浮点数据为非数字值。

第三方面，提供一种通信装置，包括至少一个处理器，所述至少一个处理器与存储器相连，所述至少一个处理器用于读取并执行所述存储器中存储的程序，以使得所述装置执行如上述第一方面或第一方面的任一项所述的方法。

第四方面，提供一种芯片，所述芯片与存储器耦合，用于读取并执行所述存储器中存储的程序指令，以实现如上述第一方面或第一方面的任一项所述的方法。

第五方面，本申请提供一种芯片系统，该芯片系统应用于云中心。该芯片系统包括一个或多个接口电路，以及一个或多个处理器。该接口电路和该处理器通过线路互联；该接口电路用于从云中心的存储器接收信号，并向处理器发送该信号，该信号包括该存储器中存储的计算机指令。当该处理器执行该计算机指令时，云中心执行如第一方面或其相应的可能的设计提供的浮点数据精度转换方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述任一方面及任一项可能的实现方式中的浮点数据精度转换方法。

第七方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在计算机或处理器上运行时，使得计算机或处理器执行上述任一方面及任一项可能的实现方式中的浮点数据精度转换方法。

可以理解的是，上述提供的任一种浮点数据精度转换装置、芯片系统、计算机可读存储介质或计算机程序产品等均可以应用于上文所提供的对应的方法，因此，其所能达到的有益效果可参考对应的方法中的有益效果，此处不再赘述。

本申请的这些方面或其他方面在以下的描述中会更加简明易懂。

附图说明

图1为本申请实施例提供的一种IEEE754浮点数据格式图；

图2为本申请实施例提供的一种浮点数据精度转换方法或装置应用的系统或设备示意图；

图3为本申请实施例提供的一种SLC的结构示意图；

图4为本申请实施例提供的一种浮点数据精度转换方法的流程图；

图5为本申请实施例提供的一种随机舍入方式的结构示意图；

图6为本申请实施例提供的一种远离0进位舍入方式的流程图；

图7为本申请实施例提供的另一种浮点数据精度转换方法的流程图；

图8为本申请实施例提供的另一种浮点数据精度转换方法的流程图；

图9为本申请实施例提供的一种FP32数据转换为HiFloat8数据的流程图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了便于理解，示例的给出了部分与本申请实施例相关概念的说明以供参考。如下所示：

标量计算单元，针对标量计算的电路称为标量计算单元，其中，标量又称纯量，只有大小，没有方向。标量计算多用于通用计算，在中央处理器(Central Processing Unit，CPU)多级流水线的执行单元(Execution Unit，EXU)部分和其他类似功能的处理器的标量计算部分，可以嵌入基于HiFloat数据格式的算数逻辑单元(Arithmetic Logic Unit，ALU)。

向量计算单元，针对向量计算而特殊设计的具有一定并行度的计算单元，如单指令多数据流(Single Instruction Multiple Data，SIMD)处理机，其中，向量又称矢量，通常指长度大于1的一维数组。向量计算单元多用于HPC和AI机器学习等领域，包括如线性规划、傅里叶变换、滤波计算以及线性代数、偏微分方程、积分等数学问题的求解。在向量计算加速单元或向量处理机中，可以嵌入基于HiFloat数据格式的算数执行单元(Vector Unit)。

矩阵计算单元，针对矩阵计算而特殊设计的具有相应并行度的计算单元，如脉动阵列(systolic array)处理机，其中，矩阵是一个按照长方阵列排列的2维数组。矩阵计算单元多用于HPC和AI机器学习等领域的矩阵计算，包括如矩阵乘、矩阵求逆和矩阵分解等。在矩阵计算加速单元中，可以嵌入基于HiFloat数据格式的矩阵单元(Matrix Unit)。

张量计算单元，针对张量计算而特殊设计的具有相应并行度的计算单元称为张量计算单元，如立方(Cube)计算单元，其中，张量是维数超过2维的多维数组，常见的为3维数组。张量计算单元多用于AI机器学习领域，如卷积操作。在张量计算加速单元中，可以嵌入基于HiFloat数据格式的张量单元(Tensor Unit)。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

电气电子工程师协会(Institute of Electrical and Electronics Engineers，IEEE)制定了IEEE 754为二进制浮点数算数标准，分别定义了双精度FP64、单精度FP32以及半精度FP16等浮点数据表示方法。其中，双精度FP64数据和单精度FP32数据适用于CPU和浮点运算器环境，半精度FP16数据适用于计算机图形环境。如图1所示，图1为本申请实施例提供的IEEE754浮点数据格式图。IEEE754浮点数据包括符号域(bit sign，S)、指数域(bits exponent，E)和尾数域(bits mantissa，M)，其中，对于FP64数据，符号域为1比特，指数域为11比特，尾数域为52比特；对于FP32数据，符号域为1比特，指数域为8比特，尾数域为23比特；对于FP16数据，符号域为1比特，指数域为5比特，尾数域为10比特。IEEE 754表示的浮点数据与十进制的值(Value)的转换公式为：Value＝(-1)^sign*2^{exponent-bias}*(1+mantissa)，其中，bias对于FP64、FP32和FP16等浮点数据为不同的常数。

本申请实施例提供的第一浮点数据为FP32数据，下面先对FP32数据的数据格式进行介绍，例如表1所示，表1为FP32数据的数据格式。

表1FP32数据的数据格式表

FP32数据包括符号域S、指数域E和尾数域M，FP32数据的符号域决定FP32数据是正数或是负数，其中，0表示正数，1表示负数。FP32数据的指数域为2的幂，可以对FP32数据进行加权处理。FP32数据的尾数域是二进制小数。FP32数据转十进制数据的转换步骤如下：(1)FP32数据的符号域为0，则该FP32数据为正数。(2)FP32数据的指数域的编码值为01111100，表示十进制的124，去除FP32数据中的偏置(bias)(对于FP32数据，bias＝127),则该FP32数据的指数域为2的-3次方。(3)FP32数据的尾数域为01000000000000000000000，由于指数域不为全“0”或全“1”，则尾数域表示的十进制数据为1.25。则基于浮点数据与十进制的值的转换公式该FP32数据对应的十进制数据为0.15625。

对于AI的混合训练模式和HPC业务领域，现有的数据格式，例如FP32数据，数据的位宽较大，导致数据存储和转移开销大。且越来越多的应用，不需要例如FP64数据等高精度数据格式。因此，需要将高精度的数据转换为低精度的数据，在转换过程中，需要对高精度数据进行舍入操作，由此会产生转换误差。

现有技术提供了一种FP32向FP16或BF16数据格式转换的一种简化的随机舍入方式，随机舍入的阈值采用数据本身的特定的比特进行计算后完成。该方式中通过FP32数据的尾数域(共23位，最高有效位(Most Significant Bit，MSB)向最低有效位(Least Significant Bit，LSB)编号为1-23)中的第11-18比特与第16-23比特相加，溢出的比特作为随机输入的阈值。但该方式仅描述了单一的随机舍入转化方式，仅涉及到FP32到FP16或BF16数据格式的转换，无法满足其他格式的高精度数据向低精度数据的转换。且该方式的阈值生成方式涉及到较多尾数域的比特，计算较为复杂，硬件开销较大。

由此，本申请实施例提供的浮点数据精度转换方法，实现了将高精度数据转换为低精度数据。在数据格式转换中，基于第一浮点数据的符号域可以得到第二浮点数据的符号域，基于第一浮点数据的第一指数域可以得到第二浮点数据的前缀码域和第二指数域，以及基于第一浮点数据的第一尾数域可以得到第二浮点数据的第二尾数域。第二浮点数据中通过较短的前缀码域指示第二指数域的位宽，可以有效提升第二浮点数据的尾数的精度或位宽，同时对于只提供1位尾数的精度的第二浮点数据可以表示较大的数值范围，有效平衡了第二浮点数据位宽、范围和精度之间的关系。且前缀码域可以采用前缀码编码方式，占用位宽少，解析第二指数域和第二尾数域便捷。并通过提供简单的舍入方式，根据第一尾数域中的舍弃编码值对保留编码值进行舍入操作，无需其他设备的支持，提高了高精度数据向低精度数据转换的转换效率，降低了硬件开销。

本申请实施例提供的第二浮点数据为HiFloat8数据，如表2所示，表2为HiFloat8数据的编码方式。

表2 HiFloat8数据的编码方式

其中，8为HiFloat8数据的总位宽，总位宽可以变化。符号域占据一个比特位，0表示正数，1表示负数，或是1表示负数，0表示正数。前缀码域占据2或3个比特位，前缀码域可以表达5个不同信息，D的值(Value)可以是0、1、2、3、4。指数域的位宽根据D的值变化，以及尾数域占据剩余位宽。

其中，前缀码域可以采用整数(integer)编码，此时D为固定值。前缀码域也可以采用前缀码(prefix code)编码，此时D为有限值集合。前缀码编码中用2个比特位编码值2、3和4，用3个比特位编码值0和1。前缀码域的前缀码编码方式如表3所示，表3为前缀码域的编码方式。

表3前缀码域的前缀码编码方式

本申请实施例提供的HiFloat8数据和十进制的值(X)转换公式为：

其中，Ec为阶码对称中心，也是FP32数据中的bias。

当D为0时，表示指数域的值为0。当D不为0时，指数域采用符号量值(signed magnitude)编码，即符号位尾随原码(True Form，TF)，指数域的编码Ei＝{Se，1’b1，TF[2：end]},Se为指数位符号位。TF的最高位1’b1隐藏，不存储，则指数域的编码值为Es＝{Se，TF[2：end]}。指数域对应于十进制的编码值为Ev＝Ei+Ec。

HiFloat(N,5,Ec)可配置为HiFloat(8,5,0)，简写为HiF8，也可以配置为其他情况。HiFloat8编码数值分布如表4所示。

表4 HiFloat8编码数值分布表

在上述场景中，本申请的浮点数据精度转换方法和装置可以应用于不同的系统或设备中，如应用于图2所示的执行设备20，图2为本申请实施例提供的一种浮点数据精度转换方法和装置应用的系统或设备示意图。该执行设备可以是终端，如手机终端，平板电脑，笔记本电脑，AR设备(图2中未示出)，VR设备(图2中未示出)，车载终端(图2中未示出)等，还可以是服务器等。本申请提供的浮点数据精度转换方法可以应用于执行设备20中涉及到CPU、HPC和AI等关于混合精度计算的场景中，例如标量计算单元、向量计算单元、矩阵计算单元和张量计算单元等。

在一些实施例中，本申请提出的浮点数据精度转换的装置可以为芯片，例如该芯片为系统级芯片(System-on-a-Chip，SoC)。如图3所示，图3为本申请实施例提供的一种SoC的结构示意图。SoC包括处理器，该处理器可以为单核处理器或多核处理器、存储器和I/O接口等。处理器可加载存储器中的数据和应用程序后，对数据进行处理，例如进行本申请中的计算处理。例如数据为FP32数据时，可通过读取FP32数据中的符号域、第一指数域和第一尾数域确定第二浮点数据的符号域、前缀码域、第二指数域和第二尾数域。

本申请实施例提供一种浮点数据精度转换方法，应用于将第一浮点数据转换为第二浮点数据，第一浮点数据包括符号域、第一指数域和第一尾数域，第二浮点数据包括符号域、前缀码域、第二指数域和第二尾数域，前缀码域用于指示第二指数域的位宽，第一浮点数据的精度高于第二浮点数据的精度。如图4所示，图4为本申请实施例提供的一种浮点数据精度转换方法的流程图，该方法包括：

步骤401、执行设备根据第一指数域的第一编码值确定前缀码域的第一位宽、前缀码域的第一编码值、第二指数域的第一位宽、第二指数域的第一编码值以及第二尾数域的第一位宽。

示例性的，第一浮点数据的精度高于第二浮点数据的精度，其中，第一浮点数据可以是FP32数据，第二浮点数据可以是HiFloat8数据。

在转换过程中，由于数据格式转换并不会影响浮点数据的正负，因此，第一浮点数据的符号域和第二浮点数据的符号域相同。第一浮点数据或第二浮点数据包括二进制整数部分和二进制小数部分，其中，第一指数域和第二指数域分别决定第一浮点数据和第二浮点数据的二进制整数部分，第一尾数域决定第一浮点数据的二进制小数部分，前缀码域和第二尾数域决定第二浮点数据的二进制小数部分。基于第一指数域的第一编码值进行计算操作，可以得到前缀码域的第一位宽和前缀码域的第一编码值。基于第二浮点数据的数据格式，由此也可以得到第二指数域的第一位宽和第二指数域的第一编码值。在得到前缀码域的第一位宽、第二指数域的第一位宽后，可以确定第二尾数域的第一位宽。

步骤402、执行设备确定第一尾数域中的保留编码值和舍弃编码值，保留编码值包括第一尾数域中从最高位开始，且位宽与第二尾数域的第一位宽相同的编码值。

示例性的，由于第一浮点数据的精度高于第二浮点数据的精度，第一浮点数据的第一尾数域的位宽大于第二浮点数据的第二尾数域的位宽。将第一浮点数据转换为第二浮点数据，由于第二浮点数据的第二尾数域的位宽有限，需要对第一尾数域中的编码值进行取舍。将第一尾数域中从最高位开始，且位宽域第二尾数域的第一位宽相同的编码值确定为保留编码值，以及将第一尾数域中除保留编码值外剩余的编码值确定为舍弃编码值。

步骤403、执行设备根据舍弃编码值对保留编码值进行舍入操作，得到第二尾数域的第一编码值。

示例性的，舍入操作可以是进位操作和舍弃操作，根据舍弃编码值判断对保留编码值是进行进位操作还是对舍弃编码值进行舍弃操作。其中一种判断方式可以是通过将舍弃编码值和阈值进行比较，若舍弃编码值大于阈值，对保留编码值进行进位操作，若舍弃编码值小于阈值，对舍弃编码值进行舍弃操作。

示例性的，本申请实施例提供的浮点数据精度转换方法，实现了将高精度数据转换为低精度数据。在数据格式转换中，基于第一浮点数据的符号域可以得到第二浮点数据的符号域，基于第一浮点数据的第一指数域可以得到第二浮点数据的前缀码域和第二指数域，以及基于第一浮点数据的第一尾数域可以得到第二浮点数据的第二尾数域。第二浮点数据中通过较短的前缀码域指示第二指数域的位宽，使得第二浮点数据最高可以提供4位尾数的精度，同时对于只提供1位尾数的精度的第二浮点数据可以表示较大的数值范围，有效平衡了第二浮点数据位宽、范围和精度之间的关系。且前缀码域可以采用前缀码编码方式，占用位宽少，解析第二指数域和第二尾数域便捷。并通过提供简单的舍入方式，根据第一尾数域中的舍弃编码值对保留编码值进行舍入操作，无需其他设备的支持，提高了高精度数据向低精度数据转换的转换效率，降低了硬件开销。

可选的，本申请实施例还提供一种随机舍入(Stochastic Round，SR)方式。如图5所示，图5为本申请实施例提供的一种随机舍入方式的结构示意图。步骤403还可以包括：

步骤4033、舍弃编码值中从最高位开始，且位宽为预设位宽的编码值大于或等于第二预设阈值时，执行设备对保留编码值的最低位进行进位操作，对舍弃编码值进行舍弃操作，保留编码值进位后的编码值为第二尾数域的第一编码值。

步骤4034、舍弃编码值中从最高位开始，且位宽为预设位宽的编码值小于第二预设阈值时，执行设备对舍弃编码值进行舍弃操作，保留编码值为第二尾数域的第一编码值。

其中，第二预设阈值为舍弃编码值中从最低位开始，且位宽为预设位宽的编码值。

示例性的，对于SR舍入方式，预设位宽可以为10至14中的整数。以预设位宽为14为例，第二预设阈值可以为舍弃编码值中从最低位开始，且位宽为14的编码值，则舍弃编码值中用于与第二预设阈值比较的部分舍弃编码值为从最高位开始，且位宽为14的编码值。

在一个实例中，对于表1中的第一尾数域23’b01000000000000000000000，若第二尾数域的第一位宽为2，则第一尾数域中的保留编码值为2’b01，舍弃编码值为21’b000000000000000000000，则部分舍弃编码值为14’b00000000000000，第二预设阈值为14’b00000000000000。由于部分舍弃编码值等于第二预设阈值，则对舍弃编码值进行舍弃操作，保留编码值进位后的编码值为第二尾数域的第一编码值，即第二尾数域的第一编码值为2’b01。

在另一个实例中，对于表1中的第一尾数域23’b01000000000000000000000，若第二尾数域的第一位宽为1，则第一尾数域中的保留编码值为1’b0，舍弃编码值为22’b1000000000000000000000，则部分舍弃编码值为14’b10000000000000，第二预设阈值为14’b00000000000000。由于部分舍弃编码值大于第二预设阈值，则对保留编码值的最低位进行进位操作，并对舍弃编码值进行舍弃操作，保留编码值进行进位操作后得到的编码值为第二尾数域的第一编码值，即第二尾数域的第一编码值为1’b1。

示例性的，对于SR舍入方式，用于比较的第二预设阈值为舍弃编码值中从最低位开始，且位宽为预设位宽的编码值，第二预设阈值的生成无需额外的随机数生成器，不存在随机数生成的性能瓶颈，提高了高精度数据向低精度数据的转换效率，同时硬件开销更低。

可选的，舍入操作包括进位操作或舍弃操作，本申请实施例提供一种远离0进位(Round Half To Away，TA)的舍入方式，如图6所示，图6为本申请实施例提供的一种远离0进位舍入方式的流程图，步骤403可以包括：

步骤4031、舍弃编码值的最高位大于或等于第一预设阈值时，执行设备对保留编码值的最低位进行进位操作，并对舍弃编码值进行舍弃操作，保留编码值进行进位操作后得到的编码值为第二尾数域的第一编码值。

步骤4032、舍弃编码值的最高位小于第一预设阈值时，执行设备对舍弃编码值进行舍弃操作，保留编码值为第二尾数域的第一编码值。

示例性的，对于TA舍入方式，第一预设阈值可以为1。舍弃编码值的最高位大于或等于预设阈值时，即舍弃编码值的最高位为1，则对保留编码值的最低位进行进位操作，并对舍弃编码值进行舍弃操作。舍弃编码值的最高位小于第一预设阈值时，即舍弃编码值的最高位为0时，对舍弃编码值进行舍弃操作。

在一个实例中，对于表1中的第一尾数域23’b01000000000000000000000，若第二尾数域的第一位宽为2，则第一尾数域中的保留编码值为2’b01，舍弃编码值为21’b000000000000000000000，此时舍弃编码值的最高位为0。由于舍弃编码值的最高位小于第一预设阈值，则对舍弃编码值进行舍弃操作，保留编码值为第二尾数域的第一编码值，即第二尾数域的第一编码值为2’b01。

在另一个实例中，对于表1中的第一尾数域23’b01000000000000000000000，若第二尾数域的第一位宽为1，则第一尾数域中的保留编码值为1’b0，舍弃编码值为22’b1000000000000000000000，此时舍弃编码值的最高为1。由于舍弃编码值的最高位大于第一预设阈值，则对保留编码值的最低位进行进位操作，并对舍弃编码值进行舍弃操作，保留编码值进行进位操作后得到的编码值为第二尾数域的第一编码值，即第二尾数域的第一编码值为1’b1。

示例性的，对于TA舍入方式，其预设阈值也可以为0。舍弃编码值的最高位大于第一预设阈值时，对保留编码值的最低位进行进位操作，并对舍弃编码值进行舍弃操作，保留编码值进行进位操作后得到的编码值为第二尾数域的第一编码值。舍弃编码值的最高位小于或等于第一预设阈值时，对舍弃编码值进行舍弃操作，保留编码值为第二尾数域的第一编码值。

示例性的，除了TA舍入方式，还可以包括远离偶数进位(round half to even)舍入方式和远离奇数进位(round half to odd)舍入方式等。本申请实施例提供的TA舍入方式对于其他舍入方式硬件实现面积更小、功耗开销更小，且具有更高的数据分辨率。

可选的，如图7所示，图7为本申请实施例提供的另一种浮点数据精度转换方法的流程图。本申请实施例提供的浮点数据精度转换方法还可以包括：

步骤404、执行设备判断进位操作后的保留编码值是否溢出。

示例性的，若对保留编码值进行进位操作，保留编码值有可能产生溢出。在一个实例中，若保留编码值为3’b111，对保留编码值的最低位进行进位操作后，会出现溢出现象。

步骤405、若进位操作后的保留编码值溢出，执行设备则对第一指数域的第一编码值的最低位进行加1操作，得到第一指数域的第二编码值。

示例性的，如表1中的第一指数域，其第一编码值为8’b01111100，若进位操作后的保留编码值溢出，则对第一指数域的第一编码值的最低位进行加1操作，得到第一指数域的第二编码值，即第一指数域的第二编码值为8’b01111101。

步骤406、执行设备根据第一指数域的第二编码值确定第二指数域的第二位宽和前缀码域的第二位宽。

示例性的，根据第一指数域的第二编码值8’b01111101可以得到第二指数域的第二位宽为1和前缀码域的第二位宽为3。

步骤407、若前缀码域的第二位宽和前缀码域的第一位宽不同，执行设备根据第一指数域的第二编码值确定前缀码域的第二编码值、第二指数域的第二编码值第二尾数域的第二位宽和第二尾数域的第二编码值。

示例性的，请参看表4，若前缀码域的第二位宽和前缀码域的第一位宽不同，由于前缀码域用于指示第二指数域的位宽，则第二指数域的第一位宽和第二指数域的第二位宽不同。若前缀码域的第二位宽大于前缀码域的第一位宽，则第二指数域的第二位宽小于第二指数域的第一位宽，此时前缀码域增加的位宽数和第二指数域减少的位宽数相同，因此第二尾数域的第一位宽不变。若前缀码域的第二位宽小于前缀码域的第一位宽，则第二指数域的第二位宽大于第二指数域的第一位宽，此时前缀码域减少的位宽数和第二指数域减少的位宽数相同，因此第二尾数域的第一位宽不变。由此，若前缀码域的第二位宽和前缀码域的第一位宽不同，此时的第二指数域和前缀码域的位宽发生变化，而第二尾数域的第二位宽不变，执行设备根据第一指数域的第二编码值确定前缀码域的第二编码值和第二指数域的第二编码值。其中，第二尾数域的第二编码值为全0，例如若第二尾数域的第二位宽为3，则第二尾数域的第二编码值为3’b000。

在一个实例中，基于第一指数域的第一比特8’b01111100确定的前缀码域的第一位宽为2，第二指数域的第二位宽为2，此时前缀码域减少的位宽数和第二指数域增加的位宽数相同，因此第二尾数域的第一位宽不变。

步骤408、若前缀码域的第二位宽和前缀码域的第一位宽相同，执行设备判断第二指数域的第一位宽和第二指数域的第二位宽是否相同。

步骤409、若第二指数域的第二位宽小于第二指数域的第一位宽，执行设备对保留编码值的位宽进行加1操作，得到第二尾数域的第二位宽和第二尾数域的第二编码值。

示例性的，前缀码域的第二位宽和前缀码域的第一位宽相同，若第二指数域的第二位宽小于第二指数域的第一位宽，则第二尾数域的第一位宽会增加。对保留编码值的位宽进行加1操作得到第二尾数域的第二位宽和第二尾数域的第二编码值。在一个实例中，若保留编码值为2’b01，保留编码值的位宽为2，对保留编码值的位宽进行加1操作后，保留编码值的位宽为3，保留编码值为3’b010。

步骤4010、若第二指数域的第二位宽大于第二指数域的第一位宽，执行设备对保留编码值的最低位进行舍弃操作，得到所述第二尾数域的第二位宽和所述第二尾数域的第二编码值。

示例性的，前缀码域的第二位宽和前缀码域的第一位宽相同，若第二指数域的第二位宽大于第二指数域的第一位宽，则第二尾数域的第一位宽会减少。对保留编码值的最低位进行舍弃操作得到第二尾数域的第二位宽和第二尾数域的第二编码值。在一个实例中，若保留编码值为2’b01，保留编码值的位宽为2，对保留编码值的最低位进行舍弃操作后，保留编码值为1’b0，保留编码值的位宽为1。

下面对本申请提供的浮点数据精度转换方法进一步进行说明，如图8所示，图8为本申请实施例提供的另一种浮点数据精度转换方法的流程图，步骤401包括：

步骤4011、执行设备根据第一指数域的第一编码值确定指示值，通过查表确定与指示值对应的前缀码域的第一位宽和前缀码域的第一编码值，指示值还用于指示第二指数域的第一位宽。

示例性的，基于第一指数域的第一编码值可以确定第一指数域的指数值N，基于第一指数域的指数值可以确定指示值。此处的查表为查看表3，指示值为D的值，指示值可以是0、1、2、3、4。在一个实例中，例如表1中的第一指数域，其第一编码值为8’b01111100，表示十进制的124，去除对于FP32数据的偏置127后，得到十进制的-3，其中，-3为第一指数域的指数值N，利用公式D＝INT[log₂|N|]，可以得到D为2。通过查表3可以确定与2对应的前缀码域的第一位宽为2和前缀码域的第一编码值为01。指示值还用于指示第二指数域的第一位宽，即第二指数域的第一位宽为2。

步骤4012、执行设备根据第一指数域的第一编码值确定第二指数域的第一位宽对应的第一编码值。

示例性的，对于表1中的第一指数域，请参看表4，当D为2时，且第一指数域的指数值为-3，即指数位符号位Se为1，由于指示值确定的第二指数域的第一位宽为2，则确定的第二指数域的第一编码值为11。

步骤4013、执行设备根据第二浮点数据的总位宽、前缀码域的第一位宽、第二指数域的第一位宽确定第二尾数域的第一位宽。

示例性的，第二浮点数据的总位宽为Nb，前缀码域的第一位宽为Db，第二指数域的第一位宽为Eb，符号域的位宽为1，第二尾数域的第一位宽为Mb，则Mb＝Nb-Db-Eb-1。在一个实例中，对于HiFloat8数据，Nb＝8，Db＝2或3，则第二尾数域的第一位宽Mb＝Nb-3-Eb或Mb＝Nb-Eb-4。

示例性的，对于为HiFloat8数据格式的第二浮点数据，符号域的位宽为1，前缀码域的位宽为2或3，第二指数域的第一位宽为0至4中的一个整数，第二尾数域的第一位宽为1至4中的一个整数。由此，第二浮点数据中采用较短的前缀码域指示第二指数域的第一位宽，使得第二浮点数据最高可以提供4位尾数的精度，同时对于只提供1位尾数的精度的第二浮点数据可以表示较大的数值范围，有效平衡了第二浮点数据位宽、范围和精度之间的关系。且第二指数域存储时隐藏最高位，减少了第二指数域需要存储的第一位宽，有效避免了不同前缀码域的指示值对应的第二指数域的第一编码值出现数值重叠的问题，使得HiFloat8数据格式中无冗余编码。

可选的，第一浮点数据超出第二浮点数据的数据范围的上限时，基于饱和方式或无穷大方式确定第二浮点数据。

示例性的，饱和方式可以为用低精度浮点数据能表示的最大浮点数据作为第一浮点数据。无穷大方式可以为用低精度浮点数据的无穷大数据作为第一浮点数据。在一个实例中，对于HiFloat8数据，若第一浮点数据超出HiFloat8数据的数据范围的上限时，第一浮点数据精度转换后的第二浮点数据可以表示为8’b01101111。

可选的，第一浮点数据超出第二浮点数据的数据范围的下限时，第二浮点数据为零。

示例性的，对于HiFloat8数据，若第一浮点数据超出HiFloat8数据的数据范围的下限时，第二浮点数据为零，第二浮点数据可以表示为8’b01111110。

可选的，第一浮点数据为非数字值时，第二浮点数据为非数字值。

示例性的，对于HiFloat8数据，若第一浮点数据为非数字值(Not a Number，NAN)时，第二浮点数据可以表示为8’b11111110。

示例性的，如图9所示，图9为本申请实施例提供的一种FP32数据转换为HiFloat8数据的流程图。以FP32数据转换为HiFloat8数据为例，应用于转换模块，该转换过程包括以下流程。

(1)转换模块接收FP32数据，FP32数据包括符号域S，指数域E[0:7]和尾数域M[0:22]；

(2)对FP32数据进行判断是否为特殊值(零值、非数字值(Not a Number，NAN)、正无穷大和负无穷大)，若FP32数据为特殊值，转(21)；

(3)若FP32数据不为特殊值，获取FP32数据的符号域，转(21)；

(4)对于FP32数据的指数域进行去除偏置操作，即E＝E+bias；

(5)计算HiFloat8数据中前缀码域、指数域和尾数域对应的位宽，分别用db、eb和mb表示；

(6)根据FP32数据的指数域和HiFloat8数据的指数域的位宽，确定HiFloat8数据的指数域的编码值e＝E[0:k]，其中，k为对应于HiFloat8数据的指数域的位宽的值；

(7)配置舍入方式；

(8)生成阈值；

(9)获取FP32数据中的尾数域的舍弃编码值的最高位，作为舍弃位；

(10)舍弃位和阈值比较；

(11)进行舍入判断，若舍弃位大于阈值，进行进位操作，若舍弃位小于阈值，进行舍弃操作；

(12)若进行舍弃操作，FP32数据中尾数域的保留编码值为HiFloat8数据的尾数域m＝M[0:N-db-eb-1]，转(21)；

(13)若进行进位操作，FP32数据中尾数域的保留编码值进行加1操作，m＝M[0:N-db-eb-1]+1；

(14)判断FP32数据中尾数域的保留编码值是否溢出，若FP32数据中尾数域的保留编码值未溢出，转(21)；

(15)若FP32数据中尾数域的保留编码值溢出，FP32数据的指数域进行加1操作E＝E+1；

(16)基于进行加1操作后的FP32的指数域计算得到HiFloat8数据的新的前缀码域的位宽和指数域的位宽，分别用db1和eb1表示；

(17)判断db1是否等于db，若db1不等于db，转(21)；

(18)若db1等于db，判断eb1是否大于eb；

(19)若eb1小于eb，HiFloat8数据的尾数域的位宽进行加1操作，即；mb＝mb+1；

(20)若eb1大于eb，HiFloat8数据的尾数域的位宽进行减1操作，即mb＝mb-1；

(21)进行HiFloat8数据编码；

(22)得到HiFloat8数据；

可以理解的是，为了实现上述功能，电子设备包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图10示出了上述实施例中涉及的电子设备100的一种可能的组成示意图，如图10所示，图10为本申请实施例提供的一种电子设备的结构示意图。该电子设备100可以包括：位宽计算单元101、尾数域计算单元102和舍入操作单元103。

其中，位宽计算单元101可以用于支持电子设备100执行上述步骤401、步骤4011、步骤4012、步骤4013等，和/或用于本文所描述的技术的其他过程。

尾数域计算单元102可以用于支持电子设备100执行上述步骤402等，和/或用于本文所描述的技术的其他过程。

舍入操作单元103可以用于支持电子设备100执行上述步骤403、步骤4031、步骤4032等，和/或用于本文所描述的技术的其他过程。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例提供的电子设备100，用于执行上述浮点数据精度转换方法，因此可以达到与上述实现方法相同的效果。

在采用集成的单元的情况下，电子设备100可以包括处理模块、存储模块和通信模块。其中，处理模块可以用于对电子设备100的动作进行控制管理，例如，可以用于支持电子设备100执行上述位宽计算单元101、尾数域计算单元102和舍入操作单元103执行的步骤。存储模块可以用于支持电子设备100存储程序代码和数据等。通信模块，可以用于支持电子设备100与其他设备的通信，例如与无线接入设备的通信。

其中，处理模块可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理(digital signal processing，DSP)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、Wi-Fi芯片等与其他电子设备交互的设备。

在一个实施例中，当处理模块为处理器，存储模块为存储器时，本实施例所涉及的电子设备可以为服务器和电脑等。

本申请实施例还提供一种电子设备，包括一个或多个处理器以及一个或多个存储器。该一个或多个存储器与一个或多个处理器耦合，一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当一个或多个处理器执行计算机指令时，使得电子设备执行上述相关方法步骤实现上述实施例中的浮点数据精度转换方法。

本申请的实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的浮点数据精度转换方法。

本申请的实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中电子设备执行的浮点数据精度转换方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中电子设备执行的浮点数据精度转换方法。

其中，本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种浮点数据精度转换方法，其特征在于，第一浮点数据包括符号域、第一指数域和第一尾数域，第二浮点数据包括所述符号域、前缀码域、第二指数域和第二尾数域，所述前缀码域用于指示所述第二指数域的位宽，所述第一浮点数据的精度高于所述第二浮点数据的精度，所述方法包括：

根据所述第一指数域的第一编码值确定所述前缀码域的第一位宽、所述前缀码域的第一编码值、所述第二指数域的第一位宽、所述第二指数域的第一编码值以及所述第二尾数域的第一位宽；

确定所述第一尾数域中的保留编码值和舍弃编码值，所述保留编码值包括所述第一尾数域中从最高位开始，且位宽与所述第二尾数域的第一位宽相同的编码值；

根据所述舍弃编码值对所述保留编码值进行舍入操作，得到所述第二尾数域的第一编码值。
根据权利要求1所述的方法，其特征在于，所述舍入操作包括进位操作和舍弃操作，所述根据所述舍弃编码值对所述保留编码值进行舍入操作，得到所述第二尾数域的第一编码值包括：

所述舍弃编码值中从最高位开始，且位宽为预设位宽的编码值大于或等于第二预设阈值时，对所述保留编码值的最低位进行进位操作，对所述舍弃编码值进行舍弃操作，所述保留编码值进位后的编码值为所述第二尾数域的第一编码值；

所述舍弃编码值中从最高位开始，且位宽为预设位宽的编码值小于所述第二预设阈值时，对所述舍弃编码值进行舍弃操作，所述保留编码值为所述第二尾数域的第一编码值；

其中，所述第二预设阈值为所述舍弃编码值中从最低位开始，且位宽为预设位宽的编码值。
根据权利要求1所述的方法，其特征在于，所述舍入操作包括进位操作或舍弃操作，所述根据所述舍弃编码值对所述保留编码值进行舍入操作，得到所述第二尾数域的第一编码值包括：

所述舍弃编码值的最高位大于或等于第一预设阈值时，对所述保留编码值的最低位进行进位操作，并对所述舍弃编码值进行舍弃操作，所述保留编码值进行进位操作后得到的编码值为所述第二尾数域的第一编码值；

所述舍弃编码值的最高位小于所述第一预设阈值时，对所述舍弃编码值进行舍弃操作，所述保留编码值为所述第二尾数域的第一编码值。
根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

判断进位操作后的所述保留编码值是否溢出；

若进位操作后的所述保留编码值溢出，则对所述第一指数域的第一编码值的最低位执行加1操作，得到所述第一指数域的第二编码值；

根据所述第一指数域的第二编码值确定所述第二指数域的第二位宽和所述前缀码域的第二位宽；

若所述前缀码域的第二位宽和所述前缀码域的第一位宽不同，根据所述第一指数域的第二编码值确定所述前缀码域的第二编码值、所述第二指数域的第二编码值、所述第二尾数域的第二位宽和所述第二尾数域的第二编码值；

若所述前缀码域的第二位宽和所述前缀码域的第一位宽相同，判断所述第二指数域的第一位宽和所述第二指数域的第二位宽是否相同；

若所述第二指数域的第二位宽小于所述第二指数域的第一位宽，对所述保留编码值的位宽进行加1操作，得到所述第二尾数域的第二位宽和所述第二尾数域的第二编码值；

若所述第二指数域的第二位宽大于或等于所述第二指数域的第一位宽，对所述保留编码值的最低位进行舍弃操作，得到所述第二尾数域的第二位宽和所述第二尾数域的第二编码值。
根据权利要求1所述的方法，其特征在于，所述根据所述第一指数域的第一编码值确定所述前缀码域的第一位宽、所述前缀码域的第一编码值、所述第二指数域的第一位宽和所述第二指数域的第一编码值包括：

根据所述第一指数域的第一编码值确定指示值，通过查表确定与所述指示值对应的所述前缀码域的第一位宽和所述前缀码域的第一编码值，所述指示值还用于指示所述第二指数域的第一位宽；

根据所述第一指数域的第一编码值确定所述第二指数域的第一位宽对应的第一编码值。
根据权利要求1或5所述的方法，其特征在于，所述根据所述第一指数域的第一编码值确定所述第二尾数域的第一位宽包括：

根据所述第二浮点数据的总位宽、所述前缀码域的第一位宽、所述第二指数域的第一位宽确定所述第二尾数域的第一位宽。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述第一浮点数据超出所述第二浮点数据的数据范围的上限时，基于饱和方式或无穷大方式确定第二浮点数据；

所述第一浮点数据超出所述第二浮点数据的数据范围的下限时，所述第二浮点数据为零；

所述第一浮点数据为非数字值时，所述第二浮点数据为非数字值。
一种浮点数据精度转换装置，其特征在于，第一浮点数据包括符号域、第一指数域和第一尾数域，第二浮点数据包括所述符号域、前缀码域、第二指数域和第二尾数域，所述前缀码域用于指示所述第二指数域的位宽，所述第一浮点数据的精度高于所述第二浮点数据的精度，所述装置包括：

位宽计算单元，用于根据所述第一指数域的第一编码值确定所述前缀码域的第一位宽、所述前缀码域的第一编码值、所述第二指数域的第一位宽、所述第二指数域的第一编码值以及所述第二尾数域的第一位宽；

尾数域计算单元，用于确定所述第一尾数域中的保留编码值和舍弃编码值，所述保留编码值包括所述第一尾数域中从最高位开始，且位宽与所述第二尾数域的第一位宽相同的编码值；

舍入操作单元，用于根据所述舍弃编码值对所述保留编码值进行舍入操作，得到所述第二尾数域的第一编码值。
根据权利要求8所述的装置，其特征在于，所述舍入操作包括进位操作或舍弃操作，所述舍入操作单元还用于：

所述舍弃编码值中从最高位开始，且位宽为预设位宽的编码值大于或等于第二预设阈值时，对所述保留编码值的最低位进行进位操作，对所述舍弃编码值进行舍弃操作，所述保留编码值进位后的编码值为所述第二尾数域的第一编码值；

所述舍弃编码值中从最高位开始，且位宽为预设位宽的编码值小于所述第二预设阈值时，对所述舍弃编码值进行舍弃操作，所述保留编码值为所述第二尾数域的第一编码值；

其中，所述第二预设阈值为所述舍弃编码值中从最低位开始，且位宽为预设位宽的编码值。
根据权利要求8所述的装置，其特征在于，所述舍入操作包括进位操作或舍弃操作，所述舍入操作单元还用于：

所述舍弃编码值的最高位大于或等于第一预设阈值时，对所述保留编码值的最低位进行进位操作，并对所述舍弃编码值进行舍弃操作，所述保留编码值进行进位操作后得到的编码值为所述第二尾数域的第一编码值；

所述舍弃编码值的最高位小于所述第一预设阈值时，对所述舍弃编码值进行舍弃操作，所述保留编码值为所述第二尾数域的第一编码值。
根据权利要求9或10所述的装置，其特征在于，所述装置还包括：

溢出单元，用于判断进位操作后的所述保留编码值是否溢出；

所述位宽计算单元还用于若进位操作后的所述保留编码值溢出，则对所述第一指数域的第一编码值进行加1操作，得到所述第一指数域的第二编码值；

根据所述第一指数域的第二编码值确定所述第二指数域的第二位宽和所述前缀码域的第二位宽；

若所述前缀码域的第二位宽和所述前缀码域的第一位宽不同，根据所述第一指数域的第二编码值确定所述前缀码域的第二编码值、所述第二指数域的第二编码值、所述第二尾数域的第二位宽和所述第二尾数域的第二编码值；

若所述前缀码域的第二位宽和所述前缀码域的第一位宽相同，判断所述第二指数域的第一位宽和所述第二指数域的第二位宽是否相同；

若所述第二指数域的第二位宽小于所述第二指数域的第一位宽，对所述保留编码值的位宽进行加1操作，得到所述第二尾数域的第二位宽和所述第二尾数域的第二编码值；

若所述第二指数域的第二位宽大于或等于所述第二指数域的第一位宽，对所述保留编码值的最低位进行舍弃操作，得到所述第二尾数域的第二位宽和所述第二尾数域的第二编码值。
根据权利要求8所述的装置，其特征在于，所述位宽计算单元还用于：

根据所述第一指数域的第一编码值确定指示值，通过查表确定与所述指示值对应的所述前缀码域的第一位宽和所述前缀码域的第一编码值，所述指示值还用于指示所述第二指数域的第一位宽；

根据所述第一指数域的第一编码值确定所述第二指数域的第一位宽对应的第一编码值。
根据权利要求8至12任一项所述的装置，其特征在于，所述位宽计算单元还用于：

根据所述第二浮点数据的总位宽、所述前缀码域的第一位宽、所述第二指数域的第一位宽确定所述第二尾数域的第一位宽。
根据权利要求8所述的装置，其特征在于，所述位宽计算单元还用于：

所述第一浮点数据超出所述第二浮点数据的转换范围的上限时，基于饱和方式或无穷大方式确定所述第二浮点数据；

所述第一浮点数据超出所述第二浮点数据的转换范围的下限时，所述第二浮点数据为零；

所述第一浮点数据为非数字值时，所述第二浮点数据为非数字值。
一种计算机可读存储介质，其特征在于，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述权利要求1-7中的任一项所述的方法。
一种计算机程序产品，其特征在于，当计算机程序产品在计算机或处理器上运行时，使得所述计算机或所述处理器执行上述权利要求1-7中的任一项所述的方法。