WO2021208612A1

WO2021208612A1 - 数据处理的方法与装置

Info

Publication number: WO2021208612A1
Application number: PCT/CN2021/078390
Authority: WO
Inventors: 廖亿; 李博文; 郑豪; 蒋欣; 刘群
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-04-13
Filing date: 2021-03-01
Publication date: 2021-10-21
Anticipated expiration: 2022-10-13
Also published as: US20230048031A1; EP4131020A4; US12608606B2; CN111611790A; EP4131020A1; CN111611790B

Abstract

本申请提供一种数据处理的方法与装置。涉及人工智能领域，具体涉及自然语言处理领域。该方法包括：确定原始文本样本，原始文本样本未进行掩码处理；对原始文本样本进行掩码处理，获得掩码训练样本，该掩码处理使得掩码训练样本的掩码比例不固定，掩码训练样本用于训练预训练语言模型PLM。使用掩码比例不固定的掩码训练样本训练PLM，可以增强PLM的训练样本的模式多样性，从而可以使得PLM学习到的特征也较为多样，可以提高PLM的泛化能力，可以提高训练得到的PLM的自然语言理解能力。

Description

数据处理的方法与装置

本申请要求于2020年4月13日提交中国专利局、申请号为202010286915.9、申请名称为“数据处理的方法与装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，具体涉及一种数据处理的方法与装置。

背景技术

自然语言处理(natural language processing，NLP)是让计算机理解并处理人类自然语言的技术，是实现人工智能的重要技术手段。预训练语言模型(pertrained language model，PLM)是近年来兴起的NLP领域的一个重要的通用模型。PLM的训练方案是本领域的研究热点，PLM的训练方案具有两个改进方向：第一，提高PLM的自然语言理解能力；第二，加快模型训练速度(即加快模型收敛速度)。PLM常用的训练方案叫做掩码语言模型(masked language model，MLM)。

MLM的训练原理是，使得PLM学习到捕捉文字上下文信息的能力。在MLM训练方案中，PLM的训练样本是被掩码处理后的文本，即部分文字被替换成特殊的标记符号(例如，[MASK])的句子，例如，原文本是“今天是晴朗的周六”，被掩码处理后的文本为“今[MASK]是晴[MASK]的周六”；被掩码处理后的文本输入到PLM，PLM需要预测出被掩码的字分别是“天”和“朗”。PLM的训练样本可以称为掩码训练样本。

在当前的MLM训练方案中，按照固定掩码比例使用随机策略选择每个文本中的字进行掩码处理，获得掩码训练样本。这样获得的掩码训练样本会存在模式单一的问题，因此，使用这样的掩码训练样本训练PLM，会给PLM带来自然语言理解能力上的瓶颈。

发明内容

本申请提供一种数据处理的方法与装置，可以提高PLM的自然语言理解能力。

第一方面，提供一种数据处理的方法，所述方法包括：确定原始文本样本，所述原始文本样本未进行掩码处理；对所述原始文本样本进行掩码处理，获得掩码训练样本，所述掩码处理使得所述掩码训练样本的掩码比例不固定，所述掩码训练样本用于训练预训练语言模型PLM。

掩码训练样本的掩码比例包括文本级别掩码比例，和/或字级别掩码比例。

文本级别掩码比例用于表示，一个文本中被掩码处理的字占该文本中所有字的比例。

文本级别掩码比例也可以称为，句子级别的掩码比例或者文本级别掩码比例。

字级别掩码比例用于表示，一个字被掩码处理的概率。在一个文本中，每个字都具有一个字级别掩码比例。

字级别掩码比例也可称为字的掩码概率。

其中，所述掩码训练样本的掩码比例不固定包括：

所述掩码训练样本中不同样本的文本级别掩码比例不完全相同；和/或

所述掩码训练样本中任一个样本中每个字的字级别掩码比例不完全相同。

应理解，使用掩码比例不固定的掩码训练样本训练PLM，可以增强PLM的训练样本的模式多样性，从而可以使得PLM学习到的特征也较为多样，可以提高PLM的泛化能力，因此，可以提高训练得到的PLM的自然语言理解能力。

可以采用多种实现方式，对原始文本样本进行掩码处理，获得掩码训练样本。

结合第一方面，在第一方面的一种可能的实现方式中，所述对所述原始文本样本进行掩码处理，获得掩码训练样本，包括：使用先验概率分布模型，生成所述原始文本样本中每个样本的文本级别掩码比例，所述先验概率分布模型使得所述原始文本样本中不同样本的文本级别掩码比例不完全相同；按照所述原始文本样本中每个样本的文本级别掩码比例，对相应样本进行掩码处理，获得所述掩码训练样本。

可选地，所述先验概率分布模型的概率值区间长度不小于40％。

应理解，使用文本级别的掩码比例不固定的掩码训练样本训练PLM，可以增强PLM的训练样本的模式多样性，从而可以使得PLM学习到的特征也较为多样，可以提高训练得到的PLM的自然语言理解能力。

结合第一方面，在第一方面的一种可能的实现方式中，所述对所述原始文本样本进行掩码处理，获得掩码训练样本，包括：获取所述原始文本样本中的第一文本样本中每个字的字级别掩码比例，所述第一文本样本中不同字的字级别掩码比例不完全相同；根据所述第一文本样本中各个字的字级别掩码比例，对所述第一文本样本中的部分字进行掩码处理，获得所述掩码训练样本中的第一训练样本。

可许地，所述根据所述第一文本样本中各个字的字级别掩码比例，对所述第一文本样本中的部分字进行掩码处理，获得所述掩码训练样本中的第一训练样本，包括：按照字级别掩码比例从高到低的顺序，对所述第一文本样本中前S个字或者位于前G％的字进行掩码处理，获得所述第一训练样本，S为取值小于所述第一文本样本中字的总数量的正整数，G为大于0且小于100的整数。

应理解，通过使得原始文本样本的每个样本中的字具有不完全相同的掩码比例，并在原始文本样本的掩码处理过程中，是根据每个字的字级别掩码比例来确定掩码策略，而非按照随机策略确定，这样可以减少或者避免掩码训练样本存在重复特征，从而可在一定程度上避免PLM在训练过程中重复性地学习相同的样本，可以实现模型快速收敛。

可以采用多种实施方式，获取原始文本样本中的第一文本样本中每个字的字级别掩码比例，以使得第一文本样本中不同字的字级别掩码比例不完全相同。

结合第一方面，在第一方面的一种可能的实现方式中，所述获取所述原始文本样本中的第一文本样本中每个字的字级别掩码比例，包括：使用先验概率分布模型，生成所述第一文本样本中每个字的字级别掩码比例，所述先验概率分布模型使得所述第一文本样本中不同字的字级别掩码比例不完全相同。

结合第一方面，在第一方面的一种可能的实现方式中，所述获取所述原始文本样本中的第一文本样本中每个字的字级别掩码比例，包括：将所述第一文本样本输入神经网络模型，从所述神经网络模型的输出获得所述第一文本样本中每个字的字级别掩码比例，所述神经网络模型的输出为输入的文本中各个字的字级别掩码比例，其中，所述神经网络模型通过如下步骤进行优化学习得到，其中，i的初始取值为1。

1)，将所述原始文本样本中第i个样本输入所述神经网络模型，从所述神经网络模型的输出获得所述第i个样本中每个字的字级别掩码比例；

2)，根据所述第i个样本中各个字的字级别掩码比例，对所述第i个样本中的部分字进行掩码处理，获得所述第i个样本对应的训练样本；

3)，将所述第i个样本对应的训练样本输入所述PLM，获得所述PLM针对被掩码处理的字输出的损失值；

4)，根据所述PLM针对被掩码处理的字输出的损失值，以及所述神经网络模型针对所述被掩码处理的字的输出信号，更新优化所述神经网络网络；

5)，判断所述神经网络网络是否满足收敛条件，若是，转到步骤6)，若否，将i的取值加1，转到步骤1)；

6)，将所述步骤4)得到的神经网络模型作为优化学习到的所述神经网络模型。

可选地，所述步骤3)包括：利用所述第i个样本对应的训练样本对所述PLM进行一次训练更新；将所述第i个样本对应的训练样本输入经过所述训练更新的所述PLM，获得经过所述训练更新的所述PLM针对所述被掩码处理的字的损失值；其中，所述步骤4)包括：根据经过所述训练更新的所述PLM针对所述被掩码处理的字的损失值，以及所述神经网络模型针对所述被掩码处理的字的输出信号，更新优化所述神经网络网络。

应理解，通过使用优化学习到的神经网络模型生成原始文本样本中每个样本中每个字的字级别掩码比例，相当于对掩码策略进行了优化学习，从而可以生成更优的掩码训练样本，因此，使用这样的掩码训练样本训练PLM，可以实现PLM的模型快速收敛，以及PLM的自然语言理解能力的提升。

通过在优化学习用于生成字的字级别掩码比例时同时训练更新PLM，可以更进一步生成更优的掩码训练样本，使用这样的掩码训练样本训练PLM，可以实现PLM的模型快速收敛，以及PLM的自然语言理解能力的提升。

第二方面，提供一种数据处理的方法，所述方法包括：通过第一方面提供的方法获得掩码训练样本；使用所述掩码训练样本训练预训练语言模型PLM，所述PLM用于预测被掩码处理的文字。

通过使用掩码比例不固定的掩码训练样本训练PLM，可以增强PLM的训练样本的模式多样性，从而可以使得PLM学习到的特征也较为多样，可以提高PLM的泛化能力，因此，可以提高训练得到的PLM的自然语言理解能力。

第三方面，提供一种数据处理的方法，所述方法包括：确定待预测的目标文本，所述目标文本包括缺少部分文字的语句；将所述目标文本输入预训练语言模型PLM，从所述PLM的输出预测所述目标文本中缺少的文字，其中，所述PLM通过第二方面提供的方法训练得到。

第四方面，提供一种数据处理的装置，所述装置包括第一处理单元与第二处理单元。所述第一处理单元，用于确定原始文本样本，所述原始文本样本未进行掩码处理。所述第二处理单元，用于对所述原始文本样本进行掩码处理，获得掩码训练样本，所述掩码处理使得所述掩码训练样本的掩码比例不固定，所述掩码训练样本用于训练预训练语言模型PLM。

掩码训练样本的掩码比例包括文本级别掩码比例，和/或字级别掩码比例。详见上文描述，这里不再赘述。

结合第四方面，在第四方面的一种可能的实现方式中，所述第二处理单元用于：使用先验概率分布模型，生成所述原始文本样本中每个样本的文本级别掩码比例，所述先验概率分布模型使得所述原始文本样本中不同样本的文本级别掩码比例不完全相同；按照所述原始文本样本中每个样本的文本级别掩码比例，对相应样本进行掩码处理，获得所述掩码训练样本。

结合第四方面，在第四方面的一种可能的实现方式中，所述第二处理单元用于，获取所述原始文本样本中的第一文本样本中每个字的字级别掩码比例，所述第一文本样本中不同字的字级别掩码比例不完全相同；根据所述第一文本样本中各个字的字级别掩码比例，对所述第一文本样本中的部分字进行掩码处理，获得所述掩码训练样本中的第一训练样本。

结合第四方面，在第四方面的一种可能的实现方式中，所述第二处理单元用于，使用先验概率分布模型，生成所述第一文本样本中每个字的字级别掩码比例，所述先验概率分布模型使得所述第一文本样本中不同字的字级别掩码比例不完全相同。

结合第四方面，在第四方面的一种可能的实现方式中，所述第二处理单元用于，将所述第一文本样本输入神经网络模型，从所述神经网络模型的输出获得所述第一文本样本中每个字的字级别掩码比例，所述神经网络模型的输出为输入的文本中各个字的字级别掩码比例，其中，所述神经网络模型通过前文描述的步骤1)至步骤6)进行优化学习得到，其中，i的初始取值为1。详见前文，这里不再赘述。

结合第四方面，在第四方面的一种可能的实现方式中，所述第二处理单元用于，按照字的字级别掩码比例从高到低的顺序，对所述第一文本样本中前S个字或者位于前G％的字进行掩码处理，获得所述第一训练样本，S为取值小于所述第一文本样本中字的总数量的正整数，G为大于0且小于100的整数。

第五方面，提供一种数据处理的装置，所述装置包括：第一处理单元，用于通过第一方面提供的方法获得掩码训练样本；第二处理单元，用于使用所述掩码训练样本训练预训练语言模型PLM，所述PLM用于预测被掩码处理的文字。

第六方面，提供一种数据处理的装置，所述装置包括：第一处理单元，用于确定待预测的目标文本，所述目标文本包括缺少部分文字的语句；第二处理单元，用于将所述目标文本输入预训练语言模型PLM，从所述PLM的输出预测所述目标文本中缺少的文字，其中，所述PLM通过第二方面提供的方法训练得到。

第七方面，提供一种数据处理的装置，该装置包括：存储器，用于存储程序；处理器，用于执行存储器存储的程序，当存储器存储的程序被执行时，处理器用于执行上述第一方面、第二方面或第三方面中的方法。

第八方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行上述第一方面、第二方面或第三方面中的方法。

第九方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面、第二方面或第三方面中的方法。

第十方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第一方面、第二方面或第三方面中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行上述第一方面、第二方面或第三方面中的方法。

第十一方面，提供一种电子设备，该电子设备包括上述第四方面、第五方面、第六方面或第七方面提供的装置。

在本申请提供的方案中，使用掩码比例不固定的掩码训练样本训练PLM，可以增强PLM的训练样本的模式多样性，从而可以使得PLM学习到的特征也较为多样，可以提高PLM的泛化能力，因此，可以提高训练得到的PLM的自然语言理解能力。

附图说明

图1是预训练语言模型(PLM)的训练原理示意图。

图2是本申请实施例可应用的系统架构示意图。

图3是本申请实施例提供的获取掩码训练样本的方法的示意性流程图。

图4是本申请实施例提供的获取掩码训练样本的方法的另一示意性流程图。

图5是本申请实施例提供的获取掩码训练样本的方法的再一示意性流程图。

图6是本申请实施例中原始文本样本中字的字级别掩码比例的示意图。

图7是本申请实施例中的用于生成字的字级别掩码比例的神经网络模型的优化学习的示意性流程图。

图8是本申请实施例中的用于生成字的字级别掩码比例的神经网络模型的优化学习的另一示意性流程图。

图9是本申请另一实施例提供的数据处理的方法的示意性流程图。

图10是本申请又一实施例提供的数据处理的方法的示意性流程图。

图11是本申请实施例提供的数据处理的装置的示意性框图。

图12是图11所示的装置的应用示意图。

图13是本申请实施例提供的数据处理的装置的另一示意性框图。

图14是本申请实施例提供的数据处理的装置的又一示意性框图。

图15是本申请实施例提供的一种芯片硬件结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

自然语言处理(natural language processing，NLP)是让计算机理解并处理人类自然语言的技术，是实现人工智能(artificial intelligence，AI)的重要技术手段。例如，NLP可以涵盖如下多种下游任务：情感分析、词性分析、意图分析、命名实体识别、阅读理解、逻辑推理、机器翻译或对话机器人等。预训练语言模型(pertrained language model，PLM)是近年来兴起的NLP领域的一个重要的通用模型。PLM在大部分NLP领域的下游任务上都有较好的效果。

PLM常用的训练方案叫做掩码语言模型(masked language model，MLM)。MLM的训练原理是，使得PLM学习到捕捉文字上下文信息的能力。

如图1所示，在MLM训练方案中，PLM的训练样本是被掩码处理后的文本，即部分文字被替换成特殊的标记符号(例如，[MASK])的句子，例如，原文本是“今天是晴朗的周六”，被掩码处理后的文本为“今[MASK]是晴[MASK]的周六”；被掩码处理后的文本输入到PLM，PLM需要预测出被掩码的字分别是“天”和“朗”。PLM的训练样本可以称为掩码训练样本。在一个文本(例如，句子)中，对于被掩码处理的字，未被掩码处理的字是它的上下文信息，PLM通过预测被掩码处理的字，学习到了捕捉文字上下文信息的能力。因此按照MLM训练方案训练完成的PLM具有理解自然语言深度语义的能力，可用于一系列NLP相关的下游任务。

在当前的MLM训练方案中，按照固定掩码比例使用随机策略选择每个文本中的字进行掩码处理，获得掩码训练样本。

如前文描述，PLM的训练方案具有两个改进的方向：第一，提高PLM的自然语言理解能力；第二，加快模型训练速度(即加快模型收敛速度)。使用现有的MLM训练方案获得的掩码训练样本训练PLM，会给PLM带来自然语言理解能力上的瓶颈。原因如下。

在当前的MLM训练方案中，按照固定掩码比例使用随机策略选择每个文本中的字进行掩码处理，获得掩码训练样本。例如，将固定掩码比例记为r，对于每个文本，随机地选取r*N个字进行掩码处理，N表示文本包含的字的数量(若将文本视为句子，则N表示该句子的长度)。例如，假设某个句子的长度N＝100，在掩码比例r＝15％的情况下，随机地选择该句子中100*15％＝15个字替换成[MASK]。

在当前的MLM训练方案中，掩码训练样本是按照固定掩码比例使用随机策略得到的，这会导致PLM的训练样本的模式较为单一，从而使得PLM学习到的特征也较为固定，导致PLM在泛化能力上有所欠缺，因此，给训练得到的PLM带来自然语言理解能力上的瓶颈。

针对上述问题，本申请实施例提出一种生成PLM的掩码训练样本的方案，可以提高训练得到的PLM的自然语言理解能力。换言之，采用本申请实施例获得的掩码训练样本训练PLM，可以克服现有技术存在的PLM在自然语言理解能力上的瓶颈。

图2为本申请实施例可应用的系统架构的示意图。该系统可以包括数据收集设备21、服务器设备22与客户端设备23。数据收集设备21、服务器设备22与客户端设备23通过通信网络连接。

数据收集设备21用于，获取原始文本样本(例如，大量的句子)，并将原始文本样本传输至服务器设备22。

数据收集设备21可以通过多种途径，获取原始文本样本。例如，通过人工输入和/或网络查找等方式获取。

服务器设备22用于，使用本申请实施例提供的方案获得掩码训练数据，进而获得训练后的PLM，可以将PLM输出给客户端设备23。

客户端设备23用于，使用服务器设备22训练得到的PLM进行自然语言理解与处理，例如，进行下列NLP下游任务中的任一种或多种：情感分析、词性分析、意图分析、命名实体识别、阅读理解、逻辑推理、机器翻译或对话机器人等。

需要说明的是，图2仅为示例而非限定。

例如，数据收集设备21是可选的。例如，数据收集设备21的操作可以在服务器设备22上执行。

又如，客户端设备23是可选的。例如，客户端设备23的操作可以在服务器设备22上执行。

为了便于理解与描述，对本文中的术语做如下解释。

1、原始文本样本

原始文本样本表示，待进行掩码处理的文本的集合。原始文本样本中的每个样本表示一个文本(或称为文本语句)。例如，原始文本样本是多个文本句子的集合。

2、掩码训练样本

掩码训练样本表示，被掩码处理后的文本的集合。掩码训练样本中的每个样本表示一个经过掩码处理后的文本。

3、掩码比例

本申请实施例中涉及的掩码比例包括文本级别掩码比例与字级别掩码比例。

文本级别掩码比例也可以称为，句子级别的掩码比例或者样本级别掩码比例。

本文中涉及的表述“掩码训练样本的掩码比例”、“原始文本样本的掩码比例”，包括，文本级别掩码比例，和/或，字级别掩码比例。

字级别掩码比例也可称为字的掩码概率。

图3为本申请实施例提供的数据处理的方法300的示意性流程图。例如，该方法300可以由图2中的服务器设备22执行。该方法300包括步骤S310与步骤S320。

S310，确定原始文本样本，该原始文本样本未进行掩码处理。

作为示例，原始文本样本中的一个样本为“今天是晴朗的周六”。

可以通过多种途径，获取原始文本样本。例如，通过人工输入和/或网络查找等方式获取。

S320，对原始文本样本进行掩码处理，获得掩码训练样本，该掩码处理使得该掩码训练样本的掩码比例不固定。掩码训练样本用于训练PLM，PLM用于预测被掩码处理的文字。

作为示例，原始文本样本中的一个样本为“今天是晴朗的周六”，该样本被掩码处理后得到对应的训练样本为“今[MASK]是晴[MASK]的周六”。

例如，掩码训练样本的掩码比例为文本级别掩码比例。

在本例中，掩码训练样本的掩码比例不固定指的是，掩码训练样本中不同样本的文本级别掩码比例不完全相同。至于每个样本中不同字的字级别掩码比例，可以相同，或不同，或不完全相同。

作为示例，在掩码训练样本中，包括第一样本与第二样本，第一样本的文本级别掩码比例为15％，第二样本的文本级别掩码比例为20％，假设第一样本包含的字的总数量与第二样本包含的字的总数量均为100，则第一样本中15个字被掩码处理了，第二样本中20个字被掩码处理了。

又例如，掩码训练样本的掩码比例为字级别掩码比例。

在本例中，掩码训练样本的掩码比例不固定指的是，掩码训练样本中每个样本中的不同字的字级别掩码比例不完全相同。至于掩码训练样本中不同样本的文本级别掩码比例，可以相同，或不同，或不完全相同。

再例如，掩码训练样本的掩码比例包括文本级别掩码比例与字级别掩码比例。

在本例中，掩码训练样本的掩码比例不固定指的是，掩码训练样本中不同样本的文本级别掩码比例不完全相同，并且掩码训练样本中每个样本中的不同字的字级别掩码比例不完全相同。

例如，步骤S320包括：获取掩码策略，该掩码策略能够使得原始文本样本的掩码比例不固定；根据该掩码策略，判断原始文本样本中每个样本中每个字是否需要进行掩码处理，若是，将其替换为标记符号(例如[MASK])，若否，不作处理，最终获得掩码训练样本。

其中，可以采用多种方式获取该掩码策略，下文将描述，这里暂不详述。

需要说明的是，步骤S310是可选的。例如，在实际应用中，在原始文本样本为已知或现成的情况下，可以直接对原始文本样本进行掩码处理获得掩码训练样本，即直接执行步骤S310，而无需执行步骤S310。

在步骤S320中，可以采用多种实现方式，对原始文本样本进行掩码处理，获得掩码训练样本。换言之，可以采用多种方式获取原始文本样本的掩码策略。

可选地，作为一种实现方式，如图4所示，步骤S320包括步骤S321与步骤S322。

S321，使用先验概率分布模型，生成原始文本样本中每个样本的文本级别掩码比例，先验概率分布模型使得原始文本样本中不同样本的文本级别掩码比例不完全相同。

换句话说，使用先验概率分布模型，为原始文本样本中每个样本，生成掩码比例。

作为示例，针对原始文本样本中第i个样本，使用先验概率分布模型生成一个概率，并将该概率作为第i个样本的文本级别掩码比例，i为1，…，M，M表示原始文本样本的样本数量。

先验概率分布模型生成的概率服从某种概率分布，因此，使用先验概率分布模型生成的掩码比例是动态变化的，而非固定不变的。也就是说，使用先验概率分布模型生成的原始文本样本中每个样本的文本级别掩码比例不是完全相同的，例如，所有样本的文本级别掩码比例不同，或者，至少一部分样本中不同样本的文本级别掩码比例不同。

作为示例，将先验概率分布模型记为P(r)，r表示概率，r的取值区间可以为0％到100％之间，则使用P(r)生成的掩码比例的取值区间为0％到100％之间。

先验概率分布模型服从的概率分布可以是任意连续或离散的概率分布。例如，先验概率分布模型服从的概率分布为均匀分布或高斯分布等。高斯分布也可以称为正态分布 (normal distribution)。

可选地，先验概率分布模型服从的概率分布为截断高斯分布(也称为截断正态分布(truncated normal distribution))。

可以根据应用需求，设置截断高斯分布的变量限制范围。

S322，按照原始文本样本中每个样本的文本级别掩码比例，对相应样本进行掩码处理，获得掩码训练样本。

作为示例，假设在步骤S321中分别为原始文本样本中的文本样本1与文本样本2生成的掩码比例为r1与r2，则在步骤S322中，按照掩码比例r1对文本样本1进行掩码处理，获得文本样本1对应的训练样本(记为训练样本1)，按照掩码比例r2对文本样本2进行掩码处理，获得文本样本2对应的训练样本(记为训练样本2)。可以理解到，若r1与r2不同，则训练样本1与训练样本2的掩码比例不同。

在如上示例中，假设文本样本1包含的字的总数量为N1，获得文本样本1对应的训练样本的一种实现方式为：按照掩码比例r1，使用随机策略选择文本样本1中的r1*N1个子进行掩码处理，获得文本样本1对应的训练样本。或者，还可以使用其它可行的策略选择文本样本1中的r1*N1个子进行掩码处理，获得文本样本1对应的训练样本。本申请实施例对此不作限定。

应理解，在图4所示实施例中，掩码训练样本的文本级别掩码比例不完全相同，或者说，文本级别掩码比例不固定。

在本申请实施例中，使用文本级别掩码比例不固定的掩码训练样本训练PLM，可以增强PLM的训练样本的模式多样性，从而可以使得PLM学习到的特征也较为多样，可以提高训练得到的PLM的自然语言理解能力。

可选地，在图4所示的实施例中，先验概率分布模型的概率值区间长度不低于40％。

例如，先验概率分布模型的概率值区间为0％～40％。

通过仿真实验表明，使用本实施例获得的掩码训练样本训练得到的PLM具有按照随机顺序生成自然语言的能力。

作为示例，使用本实施例获得的掩码训练样本训练得到的PLM可以按照如表1所示的随机顺序生成方式生成自然语言。

通常意义上，自然语言文字生成的顺序是从左往右依次生成，而使用本实施例获得的掩码训练样本训练得到的PLM可以每次指定下一个生成的文字的坐标，在顺序随机的情况下，依然可以生成流畅的文本。

表1

在表1中，序列“This is a sentence generated in random order”中每个字的生成顺序为3→7→1→2→4→6→5→8。

可选地，作为另一种实现方式，如图5所示，步骤S320包括：步骤S323与步骤S324。通过步骤S323与步骤S324，可以获得原始文本样本中第一文本样本对应的第一训练样本。

为了便于描述而非限定，在如图5所示的实施例中，以第一文本样本为例说明原始文本样本中每个样本。也就是说，下文中对第一文本样本的描述适用于原始文本样本中的每个样本。

S323，获取原始文本样本中的第一文本样本中每个字的字级别掩码比例，第一文本样本中不同字的字级别掩码比例不完全相同。

第一文本样本中不同字的字级别掩码比例不完全相同，表示，第一文本样本中至少有两个字的字级别掩码比例不同。

可选地，第一文本样本中不同字的字级别掩码比例均不同。

可选地，第一文本样本中有部分字的字级别掩码比例不同，有部分字的字级别掩码比例相同。

作为示例，假设第一文本样本为“今天是晴朗的周六”，在步骤S323中，获取的“今天是晴朗的周六”中每个字的字级别掩码比例的分布示意图如图6所示。在图6的示例中，第一文本样本中所有字的字级别掩码比例都不同。

字的字级别掩码比例表示，这个字被掩码处理的概率。

S324，根据第一文本样本中各个字的字级别掩码比例，对第一文本样本中的部分字进行掩码处理，获得掩码训练样本中的第一训练样本。

对第一文本样本中的部分字进行掩码处理，指的是，对第一文本样本中掩码比例较大的字进行掩码处理。

基于第一文本样本中各个字的字级别掩码比例，可以采用多种方式，对第一文本样本进行掩码处理，获得所述第一训练样本。

可选地，作为一种方式，步骤S324包括：按照字级别掩码比例从高到低的顺序，对第一文本样本中前S个字进行掩码处理，获得第一训练样本，S为取值小于第一文本样本中字的总数量的正整数。

作为示例，还以图6为例，第一文本样本为“今天是晴朗的周六”，第一文本样本中各个字的字级别掩码比例如图6所示，假设S的取值为2，则对第一文本样本中掩码比例最大的2个字“朗”与“天”进行掩码处理，获得第一训练样本“今[MASK]是晴[MASK]的周六”。

可选地，作为另一种方式，步骤S324包括：按照字级别掩码比例从高到低的顺序，对第一文本样本中位于前G％的字进行掩码处理，获得第一训练样本，G为大于0且小于100的整数。

作为示例，还以图6为例，第一文本样本为“今天是晴朗的周六”，第一文本样本中各个字的字级别掩码比例如图6所示，假设G的取值为25，则按照字级别掩码比例从高到低的顺序，对第一文本样本中位于前25％的字，即“朗”与“天”进行掩码处理，获得第一训练样本“今[MASK]是晴[MASK]的周六”。

可选地，作为又一种方式，步骤S324包括：对第一文本样本中掩码比例达到D的字进行掩码处理，获得所述第一训练样本，D为大于0且小于1的小数，并且D小于第一文本样本中字级别掩码比例最小的字的字级别掩码比例。

字的字级别掩码比例达到D，表示，字的字级别掩码比例大于或等于D。

作为示例，还以图6为例，第一文本样本为“今天是晴朗的周六”，第一文本样本中各个字的字级别掩码比例如图6所示，假设只有“朗”与“天”的掩码比例达到D，则对“朗”与“天”进行掩码处理，获得第一训练样本“今[MASK]是晴[MASK]的周六”。

应理解，在图5所示实施例中，掩码训练样本的字级别掩码比例不完全相同，或者说，字的字级别掩码比例不固定。

如前文描述，现有技术按照固定掩码比例使用随机策略选择每个文本中的字进行掩码处理，获得掩码训练样本，而随机产生的掩码训练样本可能具有重复的特征，使用这样的掩码训练样本训练PLM会导致PLM在训练过程中重复性地学习同样的训练样本，从而无法保证模型快速收敛。

在本申请实施例中，使得原始文本样本的每个样本中的字具有不完全相同的掩码比例，并在原始文本样本的掩码处理过程中，是根据每个字的字级别掩码比例来确定掩码策略，而非按照随机策略确定，这样可以减少或者避免掩码训练样本存在重复特征，从而可在一定程度上避免PLM在训练过程中重复性地学习相同的样本，可以实现模型快速收敛。

在步骤S323，可以采用多种实施方式，获取原始文本样本中的第一文本样本中每个字的字级别掩码比例，以使得第一文本样本中不同字的字级别掩码比例不完全相同。

可选地，作为一种实施方式，步骤S323包括：使用先验概率分布模型，生成第一文本样本中每个字的字级别掩码比例，先验概率分布模型使得第一文本样本中不同字的字级别掩码比例不完全相同。

换句话说，使用先验概率分布模型，为第一文本样本中的每个字，生成掩码比例。例如，针对第一文本样本中的第j个字，使用先验概率分布模型生成一个概率，并将该概率作为第j个字的字级别掩码比例，j为1，…，N1，N表示第一文本样本中包含的字的总数量。

作为示例，假设第一文本样本为“今天是晴朗的周六”，在步骤S323中，使用先验概率分布模型获取的“今天是晴朗的周六”中每个字的字级别掩码比例的分布示意图如图6所示。

应理解，先验概率分布模型生成的概率服从某种概率分布，例如，先验概率分布模型的概率取值区间为0％到100％之间，因此，使用先验概率分布模型生成的掩码比例是动态变化的，而非固定不变的。

这里提及的先验概率分布模型与前文在步骤S321中提及的先验概率分布模型相同，关于先验概率分布模型的说明详见前文描述，这里不再赘述。

可选地，作为另一种实施方式，步骤S323包括：将第一文本样本输入神经网络模型，从该神经网络模型的输出获得第一文本样本中每个字的字级别掩码比例，该神经网络模型的输出为输入的文本中各个字的字级别掩码比例。该神经网络模型是优化学习得到的，该神经网络模型的学习优化过程如图7所示。在图7中，i的初始取值为1。

1)，将原始文本样本中第i个样本输入神经网络模型，从神经网络模型的输出获得第i个样本中每个字的字级别掩码比例。

从神经网络模型的输出获得第i个样本中每个字的字级别掩码比例，表示，可以根据神经网络模型针对第i个样本中每个字的输出信号，获得每个字的字级别掩码比例。

例如，该神经网络模型可以针对每个字输出一个损失值(loss)，该损失值可以映射到一个掩码比例。如8所示，神经网络模型针对样本“今天是晴朗的周六”中每个字可以输出一个损失值，例如loss_0表示神经网络模型针对样本中的“今”输出的损失值，loss_1至loss_7的含义类似，这里不再赘述。

在本例中，获取一个字的概率掩码的方法为，根据神经网络模型针对该字输出的损失值，以及损失值与掩码比例之间的映射关系，获得该字的字级别掩码比例。

在本例中，神经网络模型输出的损失值与掩码比例之间的映射关系可以根据应用需求设计，本申请对此不作限定。

又例如，该神经网络模型可以针对每个字直接输出该字的字级别掩码比例。

在本例中，可以直接根据神经网络模型针对第i个样本中每个字的输出信号，获得每个字的字级别掩码比例。

2)，根据第i个样本中各个字的字级别掩码比例，对第i个样本中的部分字进行掩码处理，获得第i个样本对应的训练样本。

步骤2)可以对应步骤S324，关于根据第i个样本中各个字的字级别掩码比例对第i个样本进行掩码处理的实现方式详见前文，这里不再赘述。

3)，将第i个样本对应的训练样本输入PLM，获得PLM针对被掩码处理的字输出的损失值。

因为步骤3)获取的PLM针对被掩码处理的字输出的损失值是作为神经网络模型的反馈信号，因此，可以将步骤3)获取的PLM针对被掩码处理的字输出的损失值称为反馈信号。

PLM针对输入的掩码训练数据可以预测被掩码处理的字，还可以输出针对被掩码处理的字的损失值(loss’)。

可选地，PLM可以是参数固定的模型。下文将描述，这里暂不详述。

4)，根据PLM针对被掩码处理的字输出的损失值，以及该神经网络模型针对被掩码处理的字的输出信号，更新优化神经网络网络。

根据PLM针对被掩码处理的字输出的损失值获得第一信号，根据该神经网络模型针对被掩码处理的字的输出信号获得第二信号，第一信号与第二信号是含义相同的信号(即能够进行比较的信号)；通过第一信号与第二信号之间的差值，对该神经网络模型进行优化更新。

可选地，PLM针对被掩码处理的字输出的损失值(记为输出信号1)，与该神经网络模型针对被掩码处理的字的输出信号(记为输出信号2)是相同含义的信号，即可直接进行比较，则可以直接根据输出信号1与输出信号2之间的差值，对该神经网络模型进行优化更新。

作为示例，如图8所示，PLM针对被掩码处理的字“天”与“朗”分别输出损失值loss_1’与loss_4’，该神经网络模型针对被掩码处理的字的输出信号也为损失值(如图8中所示的loss_1与loss_4)，则可以通过比较PLM输出的损失值与神经网络模型输出的损失值，对该神经网络模型进行优化更新。

可选地，PLM针对被掩码处理的字输出的损失值(记为输出信号1)，与该神经网络模型针对被掩码处理的字的输出信号(记为输出信号2)不是相同含义的信号，即无法进行比较，这种情况下，可以将输出信号1与输出信号2中的一方处理为与另一方相同含义的信号，然后进行比较。

作为一个示例，该神经网络模型针对被掩码处理的字的输出信号为掩码比例，PLM针对被掩码处理的字输出的损失值与掩码比例具有映射关系，这种情况下，可以先根据该映射关系将PLM针对被掩码处理的字输出的损失值换算为掩码比例，然后将其与该神经网络模型针对被掩码处理的字输出的掩码比例进行比较，从而对该神经网络模型进行优化更新。

关于损失值与掩码比例的映射关系的建立方法，本申请实施例对此不作限定。例如，分别用每个损失值除以同一个较大的数值(大于所有损失值)，求得的比值作为各个损失值映射的掩码比例。

5)，判断神经网络网络是否满足收敛条件，若是，转到步骤6)，若否，将i的取值加1，转到步骤1)。

6)，将步骤4)得到的神经网络模型作为优化学习到的神经网络模型。

作为一个示例，假设原始文本样本中的一个样本为“今天是晴朗的周六”，使用这个样本对该神经网络模型进行一次优化学习(一次迭代过程)的流程示意图如图8所示。

S810，将样本“今天是晴朗的周六”输入神经网络模型，从神经网络模型的输出获得样本“今天是晴朗的周六”中每个字的字级别掩码比例。S810对应图7中的步骤1)。

从神经网络模型的输出获得样本“今天是晴朗的周六”中每个字的字级别掩码比例，表示，可以根据神经网络模型针对样本中每个字的输出信号，获得每个字的字级别掩码比例。

如8所示，神经网络模型针对样本“今天是晴朗的周六”中每个字输出一个损失值，例如loss_0表示神经网络模型针对样本中的“今”输出的损失值，loss_1至loss_7的含义类似，这里不再赘述。神经网络模型针对每个字输出的损失值与掩码比例具有映射关系，如图8中所示的loss_0至loss_7分别映射一个掩码比例，则可以根据损失值与该映射关系，获得每个字的字级别掩码比例，当然可以获得被掩码处理的字的字级别掩码比例。

S820，对样本“今天是晴朗的周六”中掩码比例达到条件的字“天”与“朗”进行掩码处理，获得样本“今天是晴朗的周六”对应的训练样本“今[MASK]是晴[MASK]的周六”。S820对应图7中的步骤2)。

S830，将掩码训练样本“今[MASK]是晴[MASK]的周六”输入PLM，从PLM的输出获得该掩码训练样本中被掩码处理的字的预测结果，还可以获得PLM针对被掩码处理的字(即“天”与“朗”)的输出信号。S830对应图7中的步骤3)。

S840，根据神经网络模型针对被掩码处理的字(即“天”与“朗”)的输出信号，以及PLM针对被掩码处理的字输出的损失值，更新优化该神经网络网络。S840对应图7中的步骤4)。

可选地，在图7所示实施例中，PLM是基于掩码训练样本进行参数实时更新的模型。

例如，步骤3)包括：利用第i个样本对应的训练样本对PLM进行一次训练更新；将第i个样本对应的训练样本输入经过训练更新的PLM，获得经过训练更新的PLM针对被掩码处理的字输出的损失值。

利用第i个样本对应的训练样本对PLM进行一次训练更新，表示，利用第i个样本对应的训练样本对PLM进行一次训练，使得PLM的参数发生更新。

其中，步骤4)包括：根据经过训练更新的PLM针对被掩码处理的字输出的损失值，以及神经网络模型针对被掩码处理的字的输出信号，更新优化神经网络网络。

应理解，在图7或图8所示实施例中，实现神经网络模型的优化学习，相当于实现了掩码策略的优化学习。

在本实施例中，使用优化学习到的神经网络模型生成原始文本样本中每个样本中每个字的字级别掩码比例，相当于对掩码策略进行了优化学习，从而可以生成更优的掩码训练样本，因此，使用这样的掩码训练样本训练PLM，可以实现PLM的模型快速收敛，以及PLM的自然语言理解能力的提升。

相比于图7或图8所示实施例中通过可优化学习的神经网络模型获取掩码策略，前文描述根据概率分布模型获取掩码策略的实施例，可以视为，根据预设模型(或根据经验)获取掩码策略。

在本申请实施例中，可以通过一定的方式控制掩码训练样本的生成。例如，通过控制文本(即句子)的掩码比例(即文本级别掩码比例)来控制掩码训练样本的生成；又例如，通过控制文本中字的字级别掩码比例来控制掩码训练样本的生成。因此，在本申请实施例中，可以通过控制的方式生成掩码训练样本，而非随机生成掩码训练样本，从而可以通过对掩码训练样本的控制来实现PLM的自然语言理解能力的提高以及PLM收敛速度的提升。

本申请实施例提供的获得PLM的掩码训练样本的方案可应用于所有基于MLM的PLM。

如图9所示，本申请实施例还提供一种训练PLM的方法900。例如，该方法900可以由图2中的服务器设备22执行。该方法900包括步骤S910与步骤S920。

S910，通过上文实施例中的方法300获得掩码训练样本。

S920，使用掩码训练样本训练预训练语言模型PLM，PLM用于预测被掩码处理的文字。

在本申请实施例中，使用掩码比例不固定的掩码训练样本训练PLM，可以增强PLM的训练样本的模式多样性，从而可以使得PLM学习到的特征也较为多样，可以提高PLM的泛化能力，因此，可以提高训练得到的PLM的自然语言理解能力。

进一步地，通过使得原始文本样本的每个样本中的字具有不完全相同的掩码比例，并在原始文本样本的掩码处理过程中，是根据每个字的字级别掩码比例来确定掩码策略，而非按照随机策略确定，这样可以减少或者避免掩码训练样本存在重复特征，从而可在一定程度上避免PLM在训练过程中重复性地学习相同的样本，可以实现模型快速收敛。

再进一步，在原始文本样本的掩码处理过程中，通过使用优化学习到的神经网络模型生成原始文本样本中每个样本中每个字的字级别掩码比例，然后根据每个字的字级别掩码比例来确定掩码策略，可以生成更优的掩码训练样本，因此，使用这样的掩码训练样本训练PLM，可以实现PLM的模型快速收敛，以及PLM的自然语言理解能力的提升。

本申请实施例提供的训练PLM的方案可应用于所有基于MLM的PLM。

如图10所示，本申请实施例还提供一种数据处理的方法1000。例如，该方法1000可以由图2中的服务器设备22或客户端设备23执行。该方法1000包括步骤S1010与步骤S1020。

S1010，确定待预测的目标文本，目标文本包括缺少部分文字的语句。

目标文本包括缺少部分文字的语句，也可以表述为目标文本包括缺少上下文信息的语句。

S1020，将目标文本输入PLM，从该PLM的输出预测得到目标文本中缺少的文字，该PLM为通过上文实施例提供的方法900训练得到PLM。

实验仿真表明，使用本申请实施例提供的方案训练得到的PLM，在自然语言理解的相关下游任务上具有显著提升的效果。

作为一个示例，表2示出采用本申请实施例提供的方案训练得到的PLM(记为u-PMLM-A)相较于现有的BERT(A)模型在分数上具有提升。

表2

Model	COLA	SST2	MRPC	STSB	QQP	MNLI-m/mm	QNLI	RTE	AX	AVG.
BERT(A)	52.1	93.5	88.9/84.8	87.1/85.8	71.2/89.2	84.6/83.4	90.5	66.4	34.2	78.3
u-PMLM-A	56.5	94.3	88.8/84.4	87.0/85.9	71.4/89.2	84.5/83.5	91.8	66.1	37.0	79.0

表2的横向表头中的COLA、SST2、MRPC、STSB、QQP、MNL1-m/mm、QNLI、RTE、AX分别表示自然语言处理任务集合(GLUE)中的一个子任务的名称，AVG.表示这些子任务的平均分。

本文中描述的各个实施例可以为独立的方案，也可以根据内在逻辑进行组合，这些方案都落入本申请的保护范围中。

上文描述了本申请提供的方法实施例，下文将描述本申请提供的装置实施例。应理解，装置实施例的描述与方法实施例的描述相互对应，因此，未详细描述的内容可以参见上文方法实施例，为了简洁，这里不再赘述。

图11为本申请实施例提供的数据处理的装置1100的示意性框图。装置1100包括掩码生成模块1110与PLM模型训练模块1120。

掩码生成模块1110，用于通过本申请实施例提供的方法300，对原始文本样本进行掩码处理，获得掩码训练数据。

例如，在一些实施例中，掩码生成模块1110包括如图8所示的神经网络模型。

PLM模型训练模块1120用于，利用掩码生成模块1110获得的掩码训练数据进行PLM模型训练。

作为示例，如图12所示，将文本样本“今天是晴朗的周六”输入掩码生成模块1110，掩码生成模块1110输出训练样本“今[MASK]是晴[MASK]的周六”；将训练样本“今[MASK]是晴[MASK]的周六”输入PLM模型训练模块1120，PLM模型训练模块1120输出被掩码处理的字的预测结果“天”与“朗”。

如图13所示，本申请实施例还提供一种数据处理的装置1300，装置1300用于执行上文方法实施例。装置1300包括第一处理单元1310与第二处理单元1320。

可选地，作为第一种设计，装置1300用于执行上文方法实施例中的方法300。第一处理单元1310，用于确定原始文本样本，原始文本样本未进行掩码处理；第二处理单元1320，用于对原始文本样本进行掩码处理，获得掩码训练样本，掩码处理使得掩码训练样本的掩码比例不固定，掩码训练样本用于训练PLM。

可选地，第二处理单元1320用于：使用先验概率分布模型，生成原始文本样本中每个样本的文本级别掩码比例，先验概率分布模型使得原始文本样本中不同样本的文本级别掩码比例不完全相同；按照原始文本样本中每个样本的文本级别掩码比例，对相应样本进行掩码处理，获得掩码训练样本。

可选地，先验概率分布模型的概率值区间长度不小于40％。

可选地，第二处理单元1320用于，获取原始文本样本中的第一文本样本中每个字的字级别掩码比例，第一文本样本中不同字的字级别掩码比例不完全相同；根据第一文本样本中各个字的字级别掩码比例，对第一文本样本中的部分字进行掩码处理，获得掩码训练样本中的第一训练样本。

可选地，第二处理单元1320用于，使用先验概率分布模型，生成第一文本样本中每个字的字级别掩码比例，先验概率分布模型使得第一文本样本中不同字的字级别掩码比例不完全相同。

可选地，第二处理单元1320用于，将第一文本样本输入神经网络模型，从神经网络模型的输出获得第一文本样本中每个字的字级别掩码比例，神经网络模型的输出为输入的文本中各个字的字级别掩码比例。其中，神经网络模型通过如图7所示的步骤进行优化学习得到，其中，i的初始取值为1。详见前文描述，这里不再赘述。

可选地，第二处理单元1320用于，按照字级别掩码比例从高到低的顺序，对第一文本样本中前S个字或者位于前G％的字进行掩码处理，获得第一训练样本，S为取值小于第一文本样本中字的总数量的正整数，G为大于0且小于100的整数。

第一种设计下的装置1300可以被设置在装置1100中的掩码生成模块1110中。

在一些实施例中，装置1100中的掩码生成模块1110包括第一种设计下的装置1300。

可选地，作为第二种设计，装置1300用于执行上文方法实施例中的方法900。第一处理单元1310，用于通过上文方法实施例中的方法300获得掩码训练样本；第二处理单元1320，用于使用掩码训练样本训练预训练语言模型PLM，PLM用于预测被掩码处理的文字。

第二种设计下的装置1300可以被设置在装置1100中的PLM模型训练模块1120中。

在一些实施例中，装置1100中的PLM模型训练模块1120包括第二种设计下的装置1300。

可选地，作为第三种设计，装置1300用于执行上文方法实施例中的方法1000。第一处理单元1310，用于确定待预测的目标文本，目标文本包括缺少部分文字的语句；第二处理单元1320，用于将目标文本输入预训练语言模型PLM，从PLM的输出预测目标文本中缺少的文字，其中，PLM通过上文方法实施例中的方法900训练得到。

应理解，第一处理单元1310与第二处理单元1320可以通过处理器实现。

如图14所示，本申请实施例还提供一种数据处理的装置1400。该装置1400包括处理器1410，处理器1410与存储器1420耦合，存储器1420用于存储计算机程序或指令，处理器1410用于执行存储器1420存储的计算机程序或指令，使得上文方法实施例中的方法被执行。

可选地，如图14所示，该装置1400还可以包括存储器1420。

可选地，如图14所示，该装置1400还可以包括数据接口1430，数据接口1430用于与外界进行数据的传输。

可选地，作为一种方案，该装置1400用于实现上文实施例中的方法300。

可选地，作为另一种方案，该装置1400用于实现上文实施例中的方法900。

可选地，作为又一种方案，该装置1400用于实现上文实施例中的方法1000。

本申请实施例还提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行上述实施例的方法。

本申请实施例还提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述实施例的方法。

本申请实施例还提供一种芯片，该芯片包括处理器与数据接口，处理器通过数据接口读取存储器上存储的指令，执行上述实施例的方法。

可选地，作为一种实现方式，该芯片还可以包括存储器，存储器中存储有指令，处理器用于执行存储器上存储的指令，当指令被执行时，处理器用于执行上述实施例中的方法。

本申请实施例还提供一种电子设备，该电子设备包括上述实施例中的装置1100。

本申请实施例还提供一种电子设备，该电子设备包括第一种设计下的装置1300，或第二种设计下的装置1300，或第三种设计下的装置1300。

本申请实施例还提供一种电子设备，该电子设备包括第一种设计下的装置1300与第二种设计下的装置1300。

图15为本申请实施例提供的一种芯片硬件结构，该芯片上包括神经网络处理器1500。该芯片可以被设置在如下任一种或多种装置中：

如图13所示的装置1100、如图13所示的装置1300、如图14中所示的装置1400。

上文方法实施例中的方法300、900或1000均可在如图15所示的芯片中得以实现。

神经网络处理器1500作为协处理器挂载到主处理器(Host CPU)上，由主CPU分配任务。神经网络处理器1500的核心部分为运算电路1503，控制器1504控制运算电路1503 获取存储器(权重存储器1502或输入存储器1501)中的数据并进行运算。

在一些实现中，运算电路1503内部包括多个处理单元(process engine，PE)。在一些实现中，运算电路1503是二维脉动阵列。运算电路1503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路1503是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路1503从权重存储器1502中取矩阵B相应的数据，并缓存在运算电路1503中每一个PE上。运算电路1503从输入存储器1501中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)1508中。

向量计算单元1507可以对运算电路1503的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元1507可以用于神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现种，向量计算单元能1507将经处理的输出的向量存储到统一存储器(也可称为统一缓存器)1506。例如，向量计算单元1507可以将非线性函数应用到运算电路1503的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元1507生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路1503的激活输入，例如用于在神经网络中的后续层中的使用。

上文方法实施例中的方法300、500或600可以由1503或1507执行。

统一存储器1506用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器1505(direct memory access controller，DMAC)将外部存储器中的输入数据搬运到输入存储器1501和/或统一存储器1506、将外部存储器中的权重数据存入权重存储器1502，以及将统一存储器1506中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)1510，用于通过总线实现主CPU、DMAC和取指存储器1509之间进行交互。

与控制器1504连接的取指存储器(instruction fetch buffer)1509，用于存储控制器1504使用的指令；

控制器1504，用于调用指存储器1509中缓存的指令，实现控制该运算加速器的工作过程。

在图15所示的芯片用于执行上文方法实施例中的方法300的情况下，这里的数据可以是原始文本样本。

在图15所示的芯片用于执行上文方法实施例中的方法900的情况下，这里的数据可以是掩码训练样本。

在图15所示的芯片用于执行上文方法实施例中的方法1000的情况下，这里的数据可以是待预测的目标文本。

一般地，统一存储器1506，输入存储器1501，权重存储器1502以及取指存储器1509均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random access memory，DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

需要说明的是，本文中涉及的第一、第二、第三或第四等各种数字编号仅为描述方便进行的区分，并不用来限制本申请实施例的范围。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(USB flash disk，UFD)(UFD也可以简称为U盘或者优盘)、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种数据处理的方法，其特征在于，包括：

确定原始文本样本，所述原始文本样本未进行掩码处理；

对所述原始文本样本进行掩码处理，获得掩码训练样本，所述掩码处理使得所述掩码训练样本的掩码比例不固定，所述掩码训练样本用于训练预训练语言模型PLM。
根据权利要求1所述的方法，其特征在于，所述掩码训练样本的文本级别掩码比例包括：

文本级别掩码比例，用于表示一个样本中被掩码处理的字占所述样本中所有字的比例；和/或

字级别掩码比例，用于表示一个字被掩码处理的概率；

其中，所述掩码训练样本的掩码比例不固定包括：

所述掩码训练样本中不同样本的文本级别掩码比例不完全相同；和/或

所述掩码训练样本中任一个样本中每个字的字级别掩码比例不完全相同。
根据权利要求1或2所述的方法，其特征在于，所述对所述原始文本样本进行掩码处理，获得掩码训练样本，包括：

使用先验概率分布模型，生成所述原始文本样本中每个样本的文本级别掩码比例，所述先验概率分布模型使得所述原始文本样本中不同样本的文本级别掩码比例不完全相同；

按照所述原始文本样本中每个样本的文本级别掩码比例，对相应样本进行掩码处理，获得所述掩码训练样本。
根据权利要求3所述的方法，其特征在于，所述先验概率分布模型的概率值区间长度不小于40％。
根据权利要求1或2所述的方法，其特征在于，所述对所述原始文本样本进行掩码处理，获得掩码训练样本，包括：

获取所述原始文本样本中的第一文本样本中每个字的字级别掩码比例，所述第一文本样本中不同字的字级别掩码比例不完全相同；

根据所述第一文本样本中各个字的字级别掩码比例，对所述第一文本样本中的部分字进行掩码处理，获得所述掩码训练样本中的第一训练样本。
根据权利要求5所述的方法，其特征在于，所述获取所述原始文本样本中的第一文本样本中每个字的字级别掩码比例，包括：

使用先验概率分布模型，生成所述第一文本样本中每个字的字级别掩码比例，所述先验概率分布模型使得所述第一文本样本中不同字的字级别掩码比例不完全相同。
根据权利要求5所述的方法，其特征在于，所述获取所述原始文本样本中的第一文本样本中每个字的字级别掩码比例，包括：

将所述第一文本样本输入神经网络模型，从所述神经网络模型的输出获得所述第一文本样本中每个字的字级别掩码比例，其中，所述神经网络模型通过如下步骤进行优化学习得到，其中，i的初始取值为1：

1)，将所述原始文本样本中第i个样本输入所述神经网络模型，从所述神经网络模型的输出获得所述第i个样本中每个字的字级别掩码比例；

2)，根据所述第i个样本中各个字的字级别掩码比例，对所述第i个样本中的部分字进行掩码处理，获得所述第i个样本对应的训练样本；

3)，将所述第i个样本对应的训练样本输入所述PLM，获得所述PLM针对被掩码处理的字的损失值；

4)，根据所述PLM针对被掩码处理的字输出的损失值，以及所述神经网络模型针对所述被掩码处理的字的输出信号，更新优化所述神经网络网络；

5)，判断所述神经网络网络是否满足收敛条件，若是，转到步骤6)，若否，将i的取值加1，转到步骤1)；

6)，将所述步骤4)得到的神经网络模型作为优化学习到的所述神经网络模型。
根据权利要求7所述的方法，其特征在于，所述步骤3)包括：

利用所述第i个样本对应的训练样本对所述PLM进行一次训练更新；

将所述第i个样本对应的训练样本输入经过所述训练更新的所述PLM，获得经过所述训练更新的所述PLM针对所述被掩码处理的字输出的损失值；

其中，所述步骤4)包括：根据经过所述训练更新的所述PLM针对所述被掩码处理的字输出的损失值，以及所述神经网络模型针对所述被掩码处理的字的输出信号，更新优化所述神经网络网络。
根据权利要求5-8中任一项所述的方法，其特征在于，所述根据所述第一文本样本中各个字的字级别掩码比例，对所述第一文本样本中的部分字进行掩码处理，获得所述掩码训练样本中的第一训练样本，包括：

按照字级别掩码比例从高到低的顺序，对所述第一文本样本中前S个字或者位于前G％的字进行掩码处理，获得所述第一训练样本，S为取值小于所述第一文本样本中字的总数量的正整数，G为大于0且小于100的整数。
一种数据处理的方法，其特征在于，包括：

通过如权利要求1-9中任一项所述的方法获得掩码训练样本；

使用所述掩码训练样本训练预训练语言模型PLM，所述PLM用于预测被掩码处理的文字。
一种数据处理的方法，其特征在于，包括：

确定待预测的目标文本，所述目标文本包括缺少部分文字的语句；

将所述目标文本输入预训练语言模型PLM，从所述PLM的输出预测所述目标文本中缺少的文字，

其中，所述PLM通过权利要求10所述的方法训练得到。
一种数据处理的装置，其特征在于，包括：

第一处理单元，用于确定原始文本样本，所述原始文本样本未进行掩码处理；

第二处理单元，用于对所述原始文本样本进行掩码处理，获得掩码训练样本，所述掩码处理使得所述掩码训练样本的掩码比例不固定，所述掩码训练样本用于训练预训练语言模型PLM。
根据权利要求11所述的装置，其特征在于，所述掩码训练样本的掩码比例包括：

文本级别掩码比例，用于表示一个样本中被掩码处理的字占所述样本中所有字的比例；和/或

字级别掩码比例，用于表示一个字被掩码处理的概率；

其中，所述掩码训练样本的掩码比例不固定包括：

所述掩码训练样本中不同样本的文本级别掩码比例不完全相同；和/或

所述掩码训练样本中任一个样本中每个字的字级别掩码比例不完全相同。
根据权利要求12或13所述的装置，其特征在于，所述第二处理单元用于：

使用先验概率分布模型，生成所述原始文本样本中每个样本的文本级别掩码比例，所述先验概率分布模型使得所述原始文本样本中不同样本的文本级别掩码比例不完全相同；

按照所述原始文本样本中每个样本的文本级别掩码比例，对相应样本进行掩码处理，获得所述掩码训练样本。
根据权利要求14所述的装置，其特征在于，所述先验概率分布模型的概率值区间长度不小于40％。
根据权利要求12或13所述的装置，其特征在于，所述第二处理单元用于：

获取所述原始文本样本中的第一文本样本中每个字的字级别掩码比例，所述第一文本样本中不同字的字级别掩码比例不完全相同；

根据所述第一文本样本中各个字的字级别掩码比例，对所述第一文本样本中的部分字进行掩码处理，获得所述掩码训练样本中的第一训练样本。
根据权利要求16所述的装置，其特征在于，所述第二处理单元用于，使用先验概率分布模型，生成所述第一文本样本中每个字的字级别掩码比例，所述先验概率分布模型使得所述第一文本样本中不同字的字级别掩码比例不完全相同。
根据权利要求16所述的装置，其特征在于，所述第二处理单元用于，将所述第一文本样本输入神经网络模型，从所述神经网络模型的输出获得所述第一文本样本中每个字的字级别掩码比例，

其中，所述神经网络模型通过如下步骤进行优化学习得到，其中，i的初始取值为1：

1)，将所述原始文本样本中第i个样本输入所述神经网络模型，从所述神经网络模型的输出获得所述第i个样本中每个字的字级别掩码比例；

2)，根据所述第i个样本中各个字的字级别掩码比例，对所述第i个样本中的部分字进行掩码处理，获得所述第i个样本对应的训练样本；

3)，将所述第i个样本对应的训练样本输入所述PLM，获得所述PLM针对被掩码处理的字输出的损失值；

4)，根据所述PLM针对被掩码处理的字输出的损失值，以及所述神经网络模型针对所述被掩码处理的字的输出信号，更新优化所述神经网络网络；

5)，判断所述神经网络网络是否满足收敛条件，若是，转到步骤6)，若否，将i的取值加1，转到步骤1)；

6)，将所述步骤4)得到的神经网络模型作为优化学习到的所述神经网络模型。
根据权利要求18所述的装置，其特征在于，所述步骤3)包括：

利用所述第i个样本对应的训练样本对所述PLM进行一次训练更新；

将所述第i个样本对应的训练样本输入经过所述训练更新的所述PLM，获得经过所述训练更新的所述PLM针对所述被掩码处理的字的损失值；

其中，所述步骤4)包括：根据经过所述训练更新的所述PLM针对所述被掩码处理的字的损失值，以及所述神经网络模型针对所述被掩码处理的字的输出信号，更新优化所述神经网络网络。
根据权利要求16-19中任一项所述的装置，其特征在于，所述第二处理单元用于，按照字级别掩码比例从高到低的顺序，对所述第一文本样本中前S个字或者位于前G％的字进行掩码处理，获得所述第一训练样本，S为取值小于所述第一文本样本中字的总数量的正整数，G为大于0且小于100的整数。
一种数据处理的装置，其特征在于，包括：

第一处理单元，用于通过如权利要求1-9中任一项所述的方法获得掩码训练样本；

第二处理单元，用于使用所述掩码训练样本训练预训练语言模型PLM，所述PLM用于预测被掩码处理的文字。
一种数据处理的装置，其特征在于，包括：

第一处理单元，用于确定待预测的目标文本，所述目标文本包括缺少部分文字的语句；

第二处理单元，用于将所述目标文本输入预训练语言模型PLM，从所述PLM的输出预测所述目标文本中缺少的文字，其中，所述PLM通过权利要求10所述的方法训练得到。
一种数据处理的装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器中存储的程序，当所述存储器中存储的程序被执行时，所述处理器用于执行权利要求1至11中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于设备执行的程序代码，所述程序代码被执行时，所述所示设备执行权利要求1至11中任一项所述的方法。
一种芯片，其特征在于，包括至少一个处理器和数据接口；

所述至少一个所述处理器用于，通过所述数据接口调用并运行存储在存储器上的计算机程序，以使所述芯片执行权利要求1至11中任一项所述的方法。