CN111027331A

CN111027331A - 用于评估翻译质量的方法和装置

Info

Publication number: CN111027331A
Application number: CN201911256622.XA
Authority: CN
Inventors: 熊皓; 张睿卿; 李俊杰; 何中军; 李芝; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-17
Anticipated expiration: 2039-12-05
Also published as: EP3832519A1; KR102401942B1; CN111027331B; US11481562B2; KR20210070891A; JP7122341B2; JP2021089705A; US20210174033A1

Abstract

本公开的实施例公开了用于评估翻译质量的方法和装置。该方法的一具体实施方式包括：获取待评估译文和参考译文；将待评估译文和参考译文输入预先训练的复述编码模型，得到待评估译文和参考译文的语义相似度，其中，复述编码模型是用于计算一对句子是复述句的概率的神经网络；通过句法分析器将待评估译文和参考译文分别分析成两棵句法树；计算两棵句法树的相似度作为待评估译文和参考译文的文本相似度；将语义相似度和文本相似度的加权和作为翻译质量得分。该实施方式通过组合几个指标的得分，能够反映当前译文在语义、句法、词法和整体信息可懂度方面进行综合评估，避免自动评价得分高，但是可懂度较低的情况。

Description

用于评估翻译质量的方法和装置

技术领域

本公开的实施例涉及计算机技术领域，具体涉及用于评估翻译质量的方法和装置。

背景技术

传统的翻译质量自动评估方法一般采用BLEU(bilingual evaluationunderstudy，双语互译质量辅助工具)、METEOR(An Automatic Metric for MT Evaluationwith Improved Correlation with Human Judgments，一种改进了与人工裁决的相关度的机器翻译自动评价方法)等指标对译文进行评估，重点考察原文本和目标参考译文之间的匹配程度，例如BLEU更多的考察是连续串，即n-gram的匹配程度。而METEOR等一些指标在BLEU基础上进行补充，不仅能匹配文本相同的串，还通过引入一些额外的资源，能够识别文本不同但是语义表达相同的串。

然而在口译场景中，翻译的目的并不是依照说话者的内容一字不差的进行转译。有时为了降低延时和适应本地的文化，译者通常会删减说话者的部分内容，减少一些信息量不大的译文，尽量及时给听众核心关键的信息。在这种情况下，采用传统的自动评价方法，容易造成口译译文由于漏译信息过多，得分较低，评估结果不准确的情况。例如，利用传统的方法来评估，一个多年经验的口译员译出率仅为70％左右，翻译的译文可接受度低于85％。

传统的翻译质量评估方法的人力成本较高，同时人工评价受限于不同人工评价者的翻译水平，评估结果波动较大。需要针对口译场景单独构建参考译文，同时传统的方法也无法区分译文中的重要信息，完全按照忠实度来衡量译文质量。

发明内容

本公开的实施例提出了用于评估翻译质量的方法和装置。

第一方面，本公开的实施例提供了一种用于评估翻译质量的方法，包括：获取待评估译文和参考译文；将待评估译文和参考译文输入预先训练的复述编码模型，得到待评估译文和参考译文的语义相似度，其中，复述编码模型是用于计算一对句子是复述句的概率的神经网络；将待评估译文和参考译文分别分析成两棵句法树；计算两棵句法树的相似度作为待评估译文和参考译文的文本相似度；将语义相似度和文本相似度的加权和作为翻译质量得分。

在一些实施例中，该方法还包括：将待评估译文输入预先训练的自动问答模型，得到至少一组问题和答案，其中，自动问答模型是用于提取文本中问答和答案的神经网络；确定出至少一组问题和答案中答题正确的比例作为问答得分；获取自动问答模型对标准译文进行答题结果分析得到的标准得分；通过标准得分对问答得分进行修正，得到待评估译文的可懂性得分；将语义相似度、文本相似度和可懂性得分的加权和作为翻译质量得分。

在一些实施例中，该方法还包括：从待评估译文中识别出关键信息；将识别出的关键信息与人工标注的关键信息进行比对，计算出关键信息的准确率和召回率的综合得分；通过综合得分修正翻译质量得分。

在一些实施例中，通过标准得分对问答得分进行修正，包括：设置预定常数平滑标准得分和问答得分之间的差距。

在一些实施例中，复述编码模型通过如下方法训练：获取与待评估译文相同语言的第一语言的原句集合；对于第一语言的原句集合中的每个第一语言的原句，通过第一翻译模型将该第一语言的原句翻译成第二语言的译文，再通过第二翻译模型将第二语言的译文翻译成第一语言的复述句，将该第一语言的原句和复述句组成复述句对，随机选取一个句子和该第一语言的原句组成非复述句对；将复述句对集合作为正例样本，非复述句对作为负例样本，利用机器学习方法训练分类器得到复述编码模型。

在一些实施例中，该方法还包括：控制第一翻译模型和第二翻译模型的词表大小，产生多样化的复述句对。

在一些实施例中，复述编码模型的训练样本集不同于第一翻译模型的训练样本集、也不同于第二翻译模型的训练样本集。

在一些实施例中，若待评估译文为预定的主流语言，则采用BERT模型作为复述编码模型。

第二方面，本公开的实施例提供了一种用于评估翻译质量的装置，包括：获取单元，被配置成获取待评估译文和参考译文；语义评估单元，被配置成将待评估译文和参考译文输入预先训练的复述编码模型，得到待评估译文和参考译文的语义相似度，其中，复述编码模型是用于计算一对句子是复述句的概率的神经网络；句法分析单元，被配置成将待评估译文和参考译文分别分析成两棵句法树；句法评估单元，被配置成计算两棵句法树的相似度作为待评估译文和参考译文的文本相似度；计算单元，被配置成将语义相似度和文本相似度的加权和作为翻译质量得分。

在一些实施例中，该装置还包括可懂性评估单元，被配置成：将待评估译文输入预先训练的自动问答模型，得到至少一组问题和答案，其中，自动问答模型是用于提取文本中问答和答案的神经网络；确定出至少一组问题和答案中答题正确的比例作为问答得分；获取自动问答模型对标准译文进行答题结果分析得到的标准得分；通过标准得分对问答得分进行修正，得到待评估译文的可懂性得分；将语义相似度、文本相似度和可懂性得分的加权和作为翻译质量得分。

在一些实施例中，该装置还包括关键信息评估单元，被配置成：从待评估译文中识别出关键信息；将识别出的关键信息与人工标注的关键信息进行比对，计算出关键信息的准确率和召回率的综合得分；通过综合得分修正翻译质量得分。

在一些实施例中，可懂性评估单元进一步被配置成：设置预定常数平滑标准得分和问答得分之间的差距。

在一些实施例中，该装置还包括训练单元，被配置成：获取与待评估译文相同语言的第一语言的原句集合；对于第一语言的原句集合中的每个第一语言的原句，通过第一翻译模型将该第一语言的原句翻译成第二语言的译文，再通过第二翻译模型将第二语言的译文翻译成第一语言的复述句，将该第一语言的原句和复述句组成复述句对，随机选取一个句子和该第一语言的原句组成非复述句对；将复述句对集合作为正例样本，非复述句对作为负例样本，利用机器学习装置训练分类器得到复述编码模型。

在一些实施例中，训练单元进一步被配置成：控制第一翻译模型和第二翻译模型的词表大小，产生多样化的复述句对。

第三方面，本公开的实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一的方法。

第四方面，本公开的实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现如第一方面中任一的方法。

本公开的实施例提供的用于评估翻译质量的方法和装置，提出多个新的评估指标。

(1)采用复述对译文进行语义相似度评估

(2)采用语法树对译文进行语法结构相似度评估

(3)采用自动问答对译文进行信息可懂度进行评估

(4)采用关键点，例如命名实体、重点实词的翻译准确率进行评估

通过组合上述几个指标的得分，能够反映当前译文在语义、句法、词法和整体信息可懂度方面进行综合评估，避免自动评价得分高，但是可懂度较低的情况。例如大量的a anthe等虚词翻译正确，但是实词翻译错误，上下文不连贯等等。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的用于评估翻译质量的方法的第一个实施例的流程图；

图3是根据本公开的用于评估翻译质量的方法的第二个实施例的流程图；

图4是根据本公开的用于评估翻译质量的方法的第三个实施例的流程图；

图5是根据本公开的用于评估翻译质量的方法的第四个实施例的流程图；

图6是根据本公开的用于评估翻译质量的装置的一个实施例的结构示意图；

图7是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的用于评估翻译质量的方法或用于评估翻译质量的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如翻译类应用、语音识别类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上传的译文进行翻译质量评估的后台评估服务器。后台评估服务器可以对接收到的评估请求等数据进行分析等处理，并将处理结果(例如翻译质量分数)反馈给终端设备。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开的实施例所提供的用于评估翻译质量的方法可以由终端设备101、102、103执行，也可以由服务器105执行。相应地，用于评估翻译质量的装置可以设置于终端设备101、102、103中，也可以设置于服务器105中。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本公开的用于评估翻译质量的方法的一个实施例的流程200。该用于评估翻译质量的方法，包括以下步骤：

步骤201，获取待评估译文和参考译文。

在本实施例中，用于评估翻译质量的方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行翻译质量评估的终端接收待评估译文和参考译文。待评估译文可以是语音形式的，即口译结果，也可以是文本形式的。如果是口译的译文则需要通过语音识别技术转换成文本形式的译文。参考译文是经专业人员翻译、校对过的标准译文，为文本形式。如果待评估译文是整段，则可切分成句子进行评估。然后将各句子评估得分的平均值作为整段的评估得分。语音识别时可根据停顿时长来将整段译文切分成句子。

步骤202，将待评估译文和参考译文输入预先训练的复述编码模型，得到待评估译文和参考译文的语义相似度。

在本实施例中，复述编码模型是用于计算一对句子是复述句的概率(即，两句话的语义相似度)的神经网络。复述编码模型可以是简单的二分类模型，用于判断输入的两个句子是否是同一类的概率，相当于判断是否具有相同语义。如果待评估译文是整段，则可逐句输入复述编码模型得到每句的语义相似度。然后再计算各句的语义相似度的平均值作为整段的语义相似度。

我们首先需要构造一个复述编码模型，以构建英文的复述编码模型为例。目前主流的方法为利用训练好的机器翻译模型对训练句对进行重新解码。例如利用训练好的中英翻译模型，可以对于训练句对中的中文进行自动翻译，得到的译文和原始英文可以构建一个复述句对。但是此种方法有个缺陷是生成的译文可能和原始英文较为相似。我们采用两种方法进行改进：a:我们首先对于训练句对中的英文利用英中模型翻译生成中文，然后再利用中英翻译模型翻译成英文。同时在上述过程中，我们通过控制翻译模型使用的词表大小，可以限定生成的译文只使用词表内容的词来表达，一定程度上产生多样化的译文。b：在构建翻译模型时，我们通过不同的语料来进行训练。例如在构建口语复述句对时，我们的翻译模型则使用另外一个训练集合的双语句对，避免在同一个训练集合上达到过度拟合。上述两个方法可以同时使用，尽量使得产生的译文语义和参考译文相似，但是表达不同。得到上述复述句对后，例如复述的一个句子为A，另外一个句子为B。如果复述的句对属于中文、英文等一些主流语种，我们可以使用BERT(Bidirectional Encoder Representation fromTransformers，即双向Transformer的编码器)在此训练集合上进行微调，最终使用BERT的输出层作为语义表达。而对于一些稀缺的小语种，构建BERT的预训练模型成本较高，我们可以设计一个简单的分类模型来完成任务。

由于复述句对中包含的都是正例样本，我们可以对于一个句子，随机选取其他一个句子作为其负例样本进行训练。利用训练好的模型我们可以对口译的输出结果和参考译文分别作为A和B进行输入，输出softmax分类为1的概率作为最后的语义相似度得分。

步骤203，将待评估译文和参考译文分别分析成两棵句法树。

在本实施例中，可将整段译文切分成句子后进行句法分析。然后将每句分析计算后得到的相似度进行平均作为整段译文的文本相似度。可使用句法分析器将输入的译文分析成一棵句法树。句法树也称为语法树。句法树的评估方法较为简单，对于模型的输出译文和参考译文我们分别利用句法分析模型进行自动句法树生成。得到两颗句法树后，我们可以按照文本的方式计算其相似度。此外也可以去除包含词汇的节点，利用tree kernel(树核，树到串翻译模型)计算更为精细的得分。

例如两颗句法树：

NP(NN(小明))(VP VB(吃)NN苹果)

NP(NN(苹果))(VP PP(被)NN(小明)VB(吃了))

上述两个句子实际上表达的语义相似，但是句法树结构略微不同，反映的是两种不同的语法表达，前者是主动，后者是被动。在利用一般的文本方式匹配时，两者的句法相似度较低。而利用tree kernel后，去除词汇节点，我们会枚举出每个句子子树，然后进行相似度评分。例如最顶层的语法树，两个句子都是相同的结构：NP(NN VP)

所不同的是第一个VP的结构是VP(VB NN)，第二个是VP(PP NN VB)。

因此按照tree kernel来计算，两颗句法树的相似度不为0，计算时则更为精细一点。

将一条规则表示成一个特征向量,通过卷积树核来计算不同规则之间的相似度。由于规则表中规则数量巨大,完全计算所有规则之间的相似度是不可行的,因此我们首先通过一些限制生成一个候选规则集合,然后在集合内部通过卷积树核计算相似度。

步骤204，计算两棵句法树的相似度作为待评估译文和参考译文的文本相似度。

在本实施例中，可通过余弦相似度等相似度计算方法计算句子子树之间的相似度。相似度计算方法为现有技术，因此不再赘述。

步骤205，将语义相似度和文本相似度的加权和作为翻译质量得分。

在本实施例中，将两种方法计算出的相似度的加权和作为翻译质量得分。该翻译质量评估结果既考虑了语义相似度又考虑了句法结构相似度。能够更准确的评估翻译质量。具体的权重设置可根据需求设置，例如，如果偏重语义正确性，则可将语义相似度的权重设置的比文本相似度的权重高。

进一步参考图3，其示出了用于评估翻译质量的方法的第二个实施例的流程300。该用于评估翻译质量的方法的流程300，包括以下步骤：

步骤301，获取待评估译文和参考译文。

步骤302，将待评估译文和参考译文输入预先训练的复述编码模型，得到待评估译文和参考译文的语义相似度。

步骤303，将待评估译文和参考译文分别分析成两棵句法树。

步骤304，计算两棵句法树的相似度作为待评估译文和参考译文的文本相似度。

步骤301-304与步骤201-204基本相同，因此不再赘述。

步骤305，将待评估译文输入预先训练的自动问答模型，得到至少一组问题和答案。

在本实施例中，自动问答模型是用于提取文本中问答和答案的神经网络。采用自动问答方式进行评估是本发明的一个重要创新。一般来说，自动问答适用于评估一个模型是否正确的理解了一段话的内容。我们借鉴其在阅读理解领域的应用，将其用于评估翻译的译文是否完全包含了有效的信息。

例如：

左侧是一篇文章，右侧是人工标注的一些问答。自动问答模型通过阅读左侧的文本，来回答右侧的若干提问。现有的质量较高的自动问答模型通常都是利用BERT进行预训练，然后特定问答语料上进行finetune来达到更好的性能。目前性能最好的自动问答模型其性能在特定集合上达到了人类的水平，因此可以利用其作为一个评估方式进行译文评估。

具体方案如下：

A、对于需要测试的口译文章，分别构建一批自动问答语料。

B、将自动问答语料为作训练样本，训练出高性能的自动问答模型，使其在阅读标准译文文章的基础上，在自动问答语料上达到较高的得分A。

C、利用自动问答模型阅读待评估译文，得到至少一组问题和答案。

步骤306，确定出至少一组问题和答案中答题正确的比例作为问答得分。

在本实施例中，通过自动问答模型提取出的问题和答案未必准确，因此需要统计答题正确比例作为问答得分B。例如，如果有10个问题，答对8道，则问答得分为0.8。

步骤307，获取自动问答模型对标准译文进行答题结果分析得到的标准得分。

在本实施例中，自动问题模型训练完成后，可用标准译文验证其性能，得到标准得分A。

步骤308，通过标准得分对问答得分进行修正，得到待评估译文的可懂性得分。

在本实施例中，通过计算得分(A-B+C)/A得到自动问答的得分用于评估可懂性，其中C一般为一个常数，例如50，用于平滑A和B之间的得分差距。

步骤309，将语义相似度、文本相似度和可懂性得分的加权和作为翻译质量得分。

在本实施例中，将三种方式得到的得分的加权和作为翻译质量得分。具体的权重设置可根据需求设置，例如，如果偏重可懂性，则可将可懂性得分的权重设置的比其它项的权重高。

进一步参考图4，其示出了用于评估翻译质量的方法的第三个实施例的流程400。该用于评估翻译质量的方法的流程400，包括以下步骤：

步骤401，获取待评估译文和参考译文。

步骤402，将待评估译文和参考译文输入预先训练的复述编码模型，得到待评估译文和参考译文的语义相似度。

步骤403，将待评估译文和参考译文分别分析成两棵句法树。

步骤404，计算两棵句法树的相似度作为待评估译文和参考译文的文本相似度。

步骤401-404与步骤201-204基本相同，因此不再赘述。

步骤405，从待评估译文中识别出关键信息。

在本实施例中，关键信息可包括实体、摘要等。可预先人工标注待评估译文中的关键信息。例如需要标注出译文中的命名实体，包含时间、日期、地点、人名等。其次需要标注出译文中的重要内容片段，类似于摘要信息。然后可通过NER(Named Entity Recognition，命名实体识别)技术识别出译文中的实体，与人工标准的实体对比。通过摘要生成工具提取出译文的摘要。

步骤406，将识别出的关键信息与人工标注的关键信息进行比对，计算出关键信息的准确率和召回率的综合得分。

在本实施例中，将通过NER(Named Entity Recognition，命名实体识别)技术识别出译文中的实体，与人工标准的实体对比。将通过摘要生成工具提取出译文的摘要，与人工标注的摘要对比。计算机器识别出的关键信息的准确率和召回率。在计算得分时，我们采用标准的F值，即衡量译文和标准译文之间关键信息的准确率和召回率。最终得分作为综合得分。

步骤407，将语义相似度、文本相似度和综合得分的加权和作为翻译质量得分。

在本实施例中，将上述三项得分的加权和作为翻译质量得分。

进一步参考图5，其示出了用于评估翻译质量的方法的第四个实施例的流程500。该用于评估翻译质量的方法的流程500，包括以下步骤：

步骤501，获取待评估译文和参考译文。

步骤502，将待评估译文和参考译文输入预先训练的复述编码模型，得到待评估译文和参考译文的语义相似度。

步骤503，将待评估译文和参考译文分别分析成两棵句法树。

步骤504，计算两棵句法树的相似度作为待评估译文和参考译文的文本相似度。

步骤505，将待评估译文输入预先训练的自动问答模型，得到至少一组问题和答案。

步骤506，确定出至少一组问题和答案中答题正确的比例作为问答得分。

步骤507，获取自动问答模型对标准译文进行答题结果分析得到的标准得分。

步骤508，通过标准得分对问答得分进行修正，得到待评估译文的可懂性得分。

步骤501-508与步骤301-308基本相同，因此不再赘述。

步骤509，从所述待评估译文中识别出关键信息。

步骤510，将识别出的关键信息与人工标注的关键信息进行比对，计算出关键信息的准确率和召回率的综合得分。

步骤509-510与步骤405-406基本相同，因此不再赘述。

步骤511，将语义相似度、文本相似度、可懂性得分和综合得分的加权和作为翻译质量得分。

在本实施例中，将四种得分加权和作为翻译质量得分。利用上述4种指标的得分，我们可以从多个维度对译文进行评估，在实际应用中可以根据需要选择不同的维度对不同的系统进行选择。

进一步参考图6，作为对上述各图所示方法的实现，本公开提供了一种用于评估翻译质量的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的用于评估翻译质量的装置600包括：获取单元601、语义评估单元602、句法分析单元603、句法评估单元604和计算单元605。其中，获取单元601，被配置成获取待评估译文和参考译文；语义评估单元602，被配置成将待评估译文和参考译文输入预先训练的复述编码模型，得到待评估译文和参考译文的语义相似度，其中，复述编码模型是用于计算一对句子是复述句的概率的神经网络；句法分析单元603，被配置成将待评估译文和参考译文分别分析成两棵句法树；句法评估单元604，被配置成计算两棵句法树的相似度作为待评估译文和参考译文的文本相似度；计算单元605，被配置成将语义相似度和文本相似度的加权和作为翻译质量得分。

在本实施例中，用于评估翻译质量的装置600的获取单元601、语义评估单元602、句法分析单元603、句法评估单元604和计算单元605的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204和步骤205。

在本实施例的一些可选的实现方式中，装置600还包括可懂性评估单元(附图中未示出)，被配置成：将待评估译文输入预先训练的自动问答模型，得到至少一组问题和答案，其中，自动问答模型是用于提取文本中问答和答案的神经网络；确定出至少一组问题和答案中答题正确的比例作为问答得分；获取自动问答模型对标准译文进行答题结果分析得到的标准得分；通过标准得分对问答得分进行修正，得到待评估译文的可懂性得分；将语义相似度、文本相似度和可懂性得分的加权和作为翻译质量得分。

在本实施例的一些可选的实现方式中，装置600还包括关键信息评估单元(附图中未示出)，被配置成：从待评估译文中识别出关键信息；将识别出的关键信息与人工标注的关键信息进行比对，计算出关键信息的准确率和召回率的综合得分；通过综合得分修正翻译质量得分。

在本实施例的一些可选的实现方式中，可懂性评估单元进一步被配置成：设置预定常数平滑标准得分和问答得分之间的差距。

在本实施例的一些可选的实现方式中，装置600还包括训练单元(附图未示出)，被配置成：获取与待评估译文相同语言的第一语言的原句集合；对于第一语言的原句集合中的每个第一语言的原句，通过第一翻译模型将该第一语言的原句翻译成第二语言的译文，再通过第二翻译模型将第二语言的译文翻译成第一语言的复述句，将该第一语言的原句和复述句组成复述句对，随机选取一个句子和该第一语言的原句组成非复述句对；将复述句对集合作为正例样本，非复述句对作为负例样本，利用机器学习装置训练分类器得到复述编码模型。

在本实施例的一些可选的实现方式中，训练单元进一步被配置成：控制第一翻译模型和第二翻译模型的词表大小，产生多样化的复述句对。

在本实施例的一些可选的实现方式中，复述编码模型的训练样本集不同于第一翻译模型的训练样本集、也不同于第二翻译模型的训练样本集。

在本实施例的一些可选的实现方式中，若待评估译文为预定的主流语言，则采用BERT模型作为复述编码模型。

下面参考图7，其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或终端设备)700的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的终端设备/服务器仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理装置701执行时，执行本公开的实施例的方法中限定的上述功能。需要说明的是，本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待评估译文和参考译文；将待评估译文和参考译文输入预先训练的复述编码模型，得到待评估译文和参考译文的语义相似度，其中，复述编码模型是用于计算一对句子是复述句的概率的神经网络；通过句法分析器将待评估译文和参考译文分别分析成两棵句法树；计算两棵句法树的相似度作为待评估译文和参考译文的文本相似度；将语义相似度和文本相似度的加权和作为翻译质量得分。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、语义评估单元、句法分析单元、句法评估单元和计算单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取待评估译文和参考译文的单元”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于评估翻译质量的方法，包括：

获取待评估译文和参考译文；

将所述待评估译文和所述参考译文输入预先训练的复述编码模型，得到所述待评估译文和所述参考译文的语义相似度，其中，所述复述编码模型是用于计算一对句子是复述句的概率的神经网络；

将所述待评估译文和所述参考译文分别分析成两棵句法树；

计算所述两棵句法树的相似度作为所述待评估译文和所述参考译文的文本相似度；

将所述语义相似度和所述文本相似度的加权和作为翻译质量得分。

2.根据权利要求1所述的方法，其中，所述方法还包括：

将所述待评估译文输入预先训练的自动问答模型，得到至少一组问题和答案，其中，所述自动问答模型是用于提取文本中问答和答案的神经网络；

确定出所述至少一组问题和答案中答题正确的比例作为问答得分；

获取所述自动问答模型对标准译文进行答题结果分析得到的标准得分；

通过所述标准得分对所述问答得分进行修正，得到所述待评估译文的可懂性得分；

将所述语义相似度、所述文本相似度和所述可懂性得分的加权和作为翻译质量得分。

3.根据权利要求1或2所述的方法，其中，所述方法还包括：

从所述待评估译文中识别出关键信息；

将识别出的关键信息与人工标注的关键信息进行比对，计算出关键信息的准确率和召回率的综合得分；

通过所述综合得分修正所述翻译质量得分。

4.根据权利要求2所述的方法，其中，所述通过所述标准得分对所述问答得分进行修正，包括：

设置预定常数平滑所述标准得分和所述问答得分之间的差距。

5.根据权利要求1所述的方法，其中，所述复述编码模型通过如下方法训练：

获取与所述待评估译文相同语言的第一语言的原句集合；

对于所述第一语言的原句集合中的每个第一语言的原句，通过第一翻译模型将该第一语言的原句翻译成第二语言的译文，再通过第二翻译模型将所述第二语言的译文翻译成第一语言的复述句，将该第一语言的原句和复述句组成复述句对，随机选取一个句子和该第一语言的原句组成非复述句对；

将复述句对集合作为正例样本，非复述句对作为负例样本，利用机器学习方法训练分类器得到复述编码模型。

6.根据权利要求5所述的方法，其中，所述方法还包括：

控制所述第一翻译模型和所述第二翻译模型的词表大小，产生多样化的复述句对。

7.根据权利要求5或6所述的方法，其中，所述复述编码模型的训练样本集不同于第一翻译模型的训练样本集、也不同于第二翻译模型的训练样本集。

8.根据权利要求5或6所述的方法，其中，若所述待评估译文为预定的主流语言，则采用BERT模型作为复述编码模型。

9.一种用于评估翻译质量的装置，包括：

获取单元，被配置成获取待评估译文和参考译文；

语义评估单元，被配置成将所述待评估译文和所述参考译文输入预先训练的复述编码模型，得到所述待评估译文和所述参考译文的语义相似度，其中，所述复述编码模型是用于计算一对句子是复述句的概率的神经网络；

句法分析单元，被配置成将所述待评估译文和所述参考译文分别分析成两棵句法树；

句法评估单元，被配置成计算所述两棵句法树的相似度作为所述待评估译文和所述参考译文的文本相似度；

计算单元，被配置成将所述语义相似度和所述文本相似度的加权和作为翻译质量得分。

10.根据权利要求9所述的装置，其中，所述装置还包括可懂性评估单元，被配置成：

11.根据权利要求9或10所述的装置，其中，所述装置还包括关键信息评估单元，被配置成：

从所述待评估译文中识别出关键信息；

通过所述综合得分修正所述翻译质量得分。

12.根据权利要求10所述的装置，其中，所述可懂性评估单元进一步被配置成：

13.根据权利要求9所述的装置，其中，所述装置还包括训练单元，被配置成：

获取与所述待评估译文相同语言的第一语言的原句集合；

将复述句对集合作为正例样本，非复述句对作为负例样本，利用机器学习装置训练分类器得到复述编码模型。

14.根据权利要求13所述的装置，其中，所述训练单元进一步被配置成：

15.根据权利要求13或14所述的装置，其中，所述复述编码模型的训练样本集不同于第一翻译模型的训练样本集、也不同于第二翻译模型的训练样本集。

16.根据权利要求13或14所述的装置，其中，若所述待评估译文为预定的主流语言，则采用BERT模型作为复述编码模型。

17.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

18.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。