WO2018040899A1

WO2018040899A1 - 搜索词纠错方法及装置

Info

Publication number: WO2018040899A1
Application number: PCT/CN2017/097357
Authority: WO
Inventors: 胡军; 陈英傑; 王天畅; 叶澄灿
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-08-31
Filing date: 2017-08-14
Publication date: 2018-03-08
Anticipated expiration: 2019-02-28
Also published as: KR102204971B1; CN106326484A; US20190179855A1; SG11201900084PA; EP3508992A1; CA3029588A1; JP6997781B2; TWI664540B; CA3029588C; KR20190020119A; AU2017317878A1; EP3508992A4; JP2019526142A; TW201812619A; AU2017317878B2; US11574012B2; MY193919A

Abstract

一种搜索词纠错方法及装置，其中的方法包括：识别出错误的搜索词（S101）；利用加权编辑距离算法，计算所述搜索词与预先获取的热词之间的加权编辑距离，其中，在所述加权编辑距离计算过程中，针对从搜索词转换到热词的操作，分别为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作，设置不同数值的权重（S102）；根据所述加权编辑距离和热词热度，选取预定数目的热词进行纠错提示（S103）。可提高对错误搜索词的纠错准确率。

Description

搜索词纠错方法及装置

本申请要求于2016年8月31日提交中国专利局、申请号为201610799830.4发明名称为“搜索词纠错方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种搜索词纠错方法及装置。

背景技术

用户输入搜索词中往往包含大量的错别字，导致搜索结果不能满足用户的需求。错误搜索词产生的原因比较复杂，主要包括：同音字选字错误、拼音拼写错误、字形输入错误等。为了解决上述问题，可以采用纠错提示的方式，在搜索页面提示用户输入的搜索词可能不准确，并根据其输入的搜索词，推荐相关可能的搜索词。传统纠错技术，大多采用编辑距离技术将原词与词典中的词条比较，然后，选择与原词编辑距离最小的K个词条。编辑操作包括：1)将一个字符替换成另一个字符，2)插入一个字符，3)删除一个字符。这种编辑操作并未考虑替换字符之间的关系，很多情况下，这种传统的编辑距离效果并不是很好。

发明内容

为了提高搜索词纠错准确率，本申请实施例提供一种搜索词纠错方法及装置。

根据本申请一个方面，提供一种搜索词纠错方法，包括：识别出错误的搜索词；利用加权编辑距离算法，计算所述搜索词与预先获取的热词之间的加权编辑距离，其中，在所述加权编辑距离计算过程中，针对从搜索词转换到热词的操作，分别为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作，设置不同数值的权重；根据所述加权编辑距离和热词热度，选取预定数目的热词进行纠错提示。

可选的，所述利用加权编辑距离算法，计算所述搜索词与预先获取的热词之间的加权编辑距离，包括：定义状态转移方程，用于表示所述搜索词与热词之间的加权编辑距离，其中，在状态转移方程中定义两个状态量，用于分别表示搜索词和热词之间对应位置的字符；根据为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作所设置的不同数值的权重，求解所述状态转移方程在相应操作的解；根据所述状态转移方程的解，得到所述加权编辑距离。

可选的，所述状态转移方程为：edit(i,j)＝min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}；其中，i、j为所述两个状态量，f(i,j)为操作代价值，f(i,j)根据为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作所设置的不同数值的权重，得到各权重对应的代价值。

可选的，所述方法还包括：通过查找预先设置的形近字映射表或音近字映射表，确定所述搜索词与所述热词是否互为形近字或音近字。

可选的，所述方法还包括：设置各操作权重满足如下关系：形近字或音近字的替换操作权重<交换字符操作权重<插入字符操作权重＝删除字符操作权重＝非形近字或音近字的替换操作权重。

可选的，所述识别出错误的搜索词，包括：基于搜索日志，解析或计算出待识别搜索词的搜索点击率、词特征、出现概率、全匹配结果数和全匹配占比；根据待识别搜索词的所述搜索点击率、所述词特征、所述出现概率、所述全匹配结果数和所述全匹配占比，确定所述待识别搜索词为错误搜索词或正常搜索词。

可选的，所述根据所述加权编辑距离和热词热度，选取预定数目的热词进行纠错提示，包括：将热词搜索次数进行归一化处理；根据所述加权编辑距离与热词搜索次数归一化处理结果，计算推荐综合得分；选择推荐综合得分最高且所述加权编辑距离小于预定值的预定数目的热词，作为纠错的推荐词，进行纠错提示。

根据本申请的另一个方面，提供一种加权编辑距离计算方法，包括：获取源字符串和目标字符串；计算所述源字符串和所述目标字符串之间的加权编辑距离，其中，在所述加权编辑距离计算过程中，针对从所述源字符串转换到所述目标字符串的不同操作分别设置不同数值的权重。

可选的，所述计算所述源字符串和所述目标字符串之间的加权编辑距离，包括：定义状态转移方程，用于表示所述源字符串和所述目标字符串之间的加权编辑距离，其中，在状态转移方程中定义两个状态量，用于分别表示源字符串和所述目标字符串之间对应位置的字符；根据为不同操作所设置的不同数值的权重，求解所述状态转移方程在相应操作的解；根据所述状态转移方程的解，得到所述加权编辑距离。

根据本申请的又一个方面，提供一种搜索词纠错装置，包括：错误搜索词识别单元，用于识别出错误的搜索词；加权编辑距离计算单元，用于利用加权编辑距离算法，计算所述搜索词与预先获取的热词之间的加权编辑距离，其中，在所述加权编辑距离计算过程中，针对从搜索词转换到热词的操作，分别为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作，设置不同数值的权重；纠错提示单元，用于根据所述加权编辑距离和热词热度，选取预定数目的热词进行纠错提示。

可选的，所述加权编辑距离计算单元包括：状态转移方程定义子单元，用于定义状态转移方程，用于表示所述搜索词与热词之间的加权编辑距离，其中，在状态转移方程中定义两个状态量，用于分别表示搜索词和热词之间对应位置的字符；方程求解子单元，用于根据为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作所设置的不同数值的权重，求解所述状态转移方程在相应操作的解，作为所述加权编辑距离。

可选的，所述装置还包括：形近字或音近字确定单元，用于查找预先设置的形近字映射表或音近字映射表，确定所述搜索词与所述热词是否互为形近字或音近字。

可选的，所述装置还包括：操作权重设置单元，用于设置各操作权重满足如下关系：形近字或音近字的替换操作权重<交换字符操作权重<插入字符操作权重＝删除字符操作权重＝非形近字或音近字的替换操作权重。

可选的，所述错误搜索词识别单元包括：日志查找及计算子单元，用于基于搜索日志，解析或计算出待识别搜索词的搜索点击率、词特征、出现概率、全匹配结果数和全匹配占比；识别结果确定子单元，用于根据待识别搜索词的所述搜索点击率、所述词特征、所述出现概率、所述全匹配结果数和所述全匹配占比，确定所述待识别搜索词为错误搜索词或正常搜索词。

可选的，所述纠错提示单元包括：归一化处理子单元，用于将热词搜索次数进行归一化处理；推荐综合得分计算子单元，用于根据所述加权编辑距离与热词搜索次数归一化处理结果，计算推荐综合得分；推荐词确定子单元，用于选择推荐综合得分最高且所述加权编辑距离小于预定值的预定数目的热词，作为纠错的推荐词，进行纠错提示。

根据本申请的再一个方面，提供一种加权编辑距离计算装置，包括：获取单元，用于获取源字符串和目标字符串；计算单元，用于计算所述源字符串和所述目标字符串之间的加权编辑距离，其中，在所述加权编辑距离计算过程中，针对从所述源字符串转换到所述目标字符串的不同操作分别设置不同数值的权重。

可选的，所述计算单元包括：状态转移方程定义子单元，用于定义状态转移方程，用于表示所述源字符串和所述目标字符串之间的加权编辑距离，其中，在状态转移方程中定义两个状态量，用于分别表示源字符串和所述目标字符串之间对应位置的字符；状态转移方程求解子单元，用于根据为不同操作所设置的不同数值的权重，求解所述状态转移方程在相应操作的解，作为所述加权编辑距离。

根据本申请的又一个方面，本申请实施例提供一种搜索词纠错方法，包括：

识别出错误的搜索词；

根据预先为从搜索词转换到热词的各操作所设置的不同数值的权重，计算所识别出的搜索词与预先获取的热词之间的加权编辑距离，其中，所述各操作包括插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作；

根据所述加权编辑距离和所述预先获取的热词的热词热度，从所述预先获取的热词中选取预定数目的热词进行纠错提示。

可选的，所述根据预先为从搜索词转换到热词的各操作所设置的不同数值的权重，计算所识别出的搜索词与预先获取的热词之间的加权编辑距离，包括：

定义状态转移方程，用于表示所识别出的搜索词与预先获取的热词之间的加权编辑距离，其中，在状态转移方程中定义两个状态量，用于分别表示所识别出的搜索词和预先获取的热词之间对应位置的字符；

根据预先为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作所设置的不同数值的权重，求解所述状态转移方程在相应操作的解；

根据所述状态转移方程的解，得到所述加权编辑距离。

可选的，所述状态转移方程为：

edit(i,j)＝min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}；

其中，i、j为所述两个状态量，f(i,j)为操作代价值，f(i,j)根据为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作所设置的不同数值的权重，得到各权重对应的代价值。

可选的，所述形近字或音近字的替换操作，包括：

通过查找预先设置的形近字映射表或音近字映射表，确定所述搜索词与所述热词是否互为形近字或音近字。

可选的，所述预先为从搜索词转换到热词的各操作所设置的不同数值的权重满足如下关系：

形近字或音近字的替换操作权重<交换字符操作权重<插入字符操作权重＝删除字符操作权重＝非形近字或音近字的替换操作权重。

可选的，所述识别出错误的搜索词，包括：

基于搜索日志，解析或计算出待识别搜索词的搜索点击率、词特征、出现概率、全匹配结果数和全匹配占比；

根据待识别搜索词的所述搜索点击率、所述词特征、所述出现概率、所述全匹配结果数和所述全匹配占比，确定所述待识别搜索词为错误搜索词。

可选的，所述根据所述加权编辑距离和所述预先获取的热词的热词热度，从所述预先获取的热词中选取预定数目的热词进行纠错提示，包括：

将所述预先获取的热词的热词搜索次数进行归一化处理；

根据所述加权编辑距离与所述热词搜索次数归一化处理结果，计算推荐综合得分；

从所述预先获取的热词中，选择所述推荐综合得分最高且所述加权编辑距离小于预定值的预定数目的热词，作为纠错的推荐词，进行纠错提示。

根据本申请的另一个方面，本申请实施例提供一种加权编辑距离计算方法，包括：

获取源字符串和目标字符串；

为从所述源字符串转换到所述目标字符串的不同操作分别设置不同数值的权重，根据为不同操作所设置的不同数值的权重，计算所述源字符串和所述目标字符串之间的加权编辑距离。

可选的，所述根据为不同操作所设置的不同数值的权重，计算所述源字符串和所述目标字符串之间的加权编辑距离，包括：

定义状态转移方程，用于表示所述源字符串和所述目标字符串之间的加权编辑距离，其中，在状态转移方程中定义两个状态量，用于分别表示源字符串和所述目标字符串之间对应位置的字符；

根据为不同操作所设置的不同数值的权重，求解所述状态转移方程在相应操作的解；

根据所述状态转移方程的解，得到所述加权编辑距离。

根据本申请的又一个方面，本申请实施例提供一种搜索词纠错装置，包括：

错误搜索词识别单元，用于识别出错误的搜索词；

加权编辑距离计算单元，用于根据预先为从搜索词转换到热词的各操作所设置的不同数值的权重，计算所识别出的搜索词与预先获取的热词之间的加权编辑距离，其中，所述各操作包括插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作；

纠错提示单元，用于根据所述加权编辑距离和所述预先获取的热词的热词热度，从所述预先获取的热词中选取预定数目的热词进行纠错提示。

可选的，所述加权编辑距离计算单元包括：

状态转移方程定义子单元，用于定义状态转移方程，用于表示所识别出的搜索词与预先获取的热词之间的加权编辑距离，其中，在状态转移方程中定义两个状态量，用于分别表示所识别出的搜索词和预先获取的热词之间对应位置的字符；

方程求解子单元，用于根据预先为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作所设置的不同数值的权重，求解所述状态转移方程在相应操作的解，根据所述状态转移方程的解，得到所述加权编辑距离。

可选的，所述状态转移方程为：

edit(i,j)＝min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}；

其中，i、j为所述两个状态量，f(0,j)为操作代价值，f(i,j)根据为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作所设置的不同数值的权重，得到各权重对应的代价值。

可选的，所述形近字或音近字的替换操作，包括：

查找预先设置的形近字映射表或音近字映射表，确定所述搜索词与所述热词是否互为形近字或音近字。

可选的，所述错误搜索词识别单元包括：

日志查找及计算子单元，用于基于搜索日志，解析或计算出待识别搜索词的搜索点击率、词特征、出现概率、全匹配结果数和全匹配占比；

识别结果确定子单元，用于根据待识别搜索词的所述搜索点击率、所述词特征、所述出现概率、所述全匹配结果数和所述全匹配占比，确定所述待识别搜索词为错误搜索词。

可选的，所述纠错提示单元包括：

归一化处理子单元，用于将所述预先获取的热词的热词搜索次数进行归一化处理；

推荐综合得分计算子单元，用于根据所述加权编辑距离与所述热词搜索次数归一化处理结果，计算推荐综合得分；

推荐词确定子单元，用于从所述预先获取的热词中，选择所述推荐综合得分最高且所述加权编辑距离小于预定值的预定数目的热词，作为纠错的推荐词，进行纠错提示。

根据本申请的另一个方面，本申请实施例提供一种加权编辑距离计算装置，所述装置包括：

获取单元，用于获取源字符串和目标字符串；

计算单元，用于为从所述源字符串转换到所述目标字符串的不同操作分别设置不同数值的权重，根据为不同操作所设置的不同数值的权重，计算所述源字符串和所述目标字符串之间的加权编辑距离。

可选的，所述计算单元可以包括：

状态转移方程定义子单元，用于定义状态转移方程，用于表示所述源字符串和所述目标字符串之间的加权编辑距离，其中，在状态转移方程中定义两个状态量，用于分别表示源字符串和所述目标字符串之间对应位置的字符；

状态转移方程求解子单元，用于根据为不同操作所设置的不同数值的权重，求解所述状态转移方程在相应操作的解，据所述状态转移方程的解，得到所述加权编辑距离。

根据本申请的又一个方面，本申请实施例还公开了一种电子设备，包括：第一处理器、第一通信接口、第一存储器和第一通信总线，其中，第一处理器，第一通信接口，第一存储器通过第一通信总线完成相互间的通信；第一存储器，用于存放计算机程序；第一处理器，用于执行第一存储器上所存放的程序，实现上述搜索词纠错方法步骤。

根据本申请的又一个方面，本申请实施例还公开了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述搜索词纠错方法步骤。

根据本申请的又一个方面，本申请实施例还公开了一种电子设备，包括：第二处理器、第二通信接口、第二存储器和第二通信总线，其中，第二处理器，第二通信接口，第二存储器通过第二通信总线完成相互间的通信；第二存储器，用于存放计算机程序；第二处理器，用于执行第二存储器上所存放的程序，实现上述加权编辑距离计算方法步骤。

根据本申请的又一个方面，本申请实施例还公开了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述加权编辑距离计算方法步骤。

可见，本申请实施例提供一种基于加权编辑距离的搜索词纠错方法及装置，通过为删除字符操作、插入字符操作、形近字或音近字替换操作、非形近字或音近字替换操作以及交换字符操作，分别设置不同的权重，从而在加权编辑距离计算过程中，充分涵盖了从搜索词到热词转换过程中可能涉及的各种操作，从而可更加快速、准确的计算出从搜索词到热词之间的编辑距离，提高搜索词纠错准确性。

附图说明

为了更清楚地说明本申请实施例和现有技术的技术方案，下面对实施例和现有技术中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例提供的一种搜索词纠错方法流程图；

图2为本申请一个实施例提供的一种加权编辑距离计算方法流程图；

图3为本申请一个实施例提供的一种搜索词纠错装置结构示意图；

图4为本申请实施例提供的电子设备的第一种结构示意图；

图5为本申请实施例提供的电子设备的第二种结构示意图。

具体实施方式

为使本申请的目的、技术方案、及优点更加清楚明白，以下参照附图并举实施例，对本申请进一步详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如前分析的，现有技术中基于编辑距离的纠错方案并未考虑替换字符之间的关系，比如形近字、音近字等，也未考虑字符串内邻近字符之间的交换操作，因此这种传统的编辑距离效果并不理想。

本申请实施例提供一种基于加权编辑距离的搜索词纠错方法及装置，通过为删除字符操作、插入字符操作、形近字或音近字替换操作、非形近字或音近字替换操作以及交换字符操作，分别设置不同的权重，从而在加权编辑距离计算过程中，充分涵盖了从搜索词到热词转换过程中可能涉及的各种操作，从而可更加快速、准确的计算出从搜索词到热词之间的编辑距离，提高搜索词纠错准确性。

参见图1，为本申请实施例提供的一种搜索词纠错方法流程图，该方法包括：

S101：识别出错误的搜索词。

对搜索词进行纠错，是针对错误的搜索词进行纠错，因此首先需要识别出错误的搜索词。搜索词之所以错误，包括很多种情况，例如，因同音字选字错误产生的搜索词、因拼音拼写错误产生的搜索词、因字形输入错误产生的搜索词，这就导致搜索结果不能满足用户的需求。在具体实现中，可以基于搜索日志，识别出错误的搜索词：通过搜索词点击率、搜索结果完全匹配的结果个数、以及基于语言模型的搜索词概率，可有效识别出错误的搜索词。

本申请实施例中，提供以下包括步骤1-2识别错误的搜索词的方法：

步骤1、基于搜索日志，解析或计算出待识别搜索词的搜索点击率、词特征、出现概率、全匹配结果数和全匹配占比。

具体的，

首先，计算待识别搜索词的搜索点击率。例如，从搜索日志中获取用户针对待识别搜索词的搜索次数和点击搜索结果次数；将点击搜索结果次数除以搜索次数，得到搜索点击率。

其次，对待识别搜索词进行分词处理，得到多个词特征。

继而，利用统计语言模型和各个词特征，计算待识别搜索词出现的概率。

然后，计算待识别搜索词的全匹配结果数和相关结果数，其中，全匹配结果数为针对待识别搜索词的所有搜索结果中包含待识别搜索词的全部内容的结果的个数，相关结果数为针对待识别搜索词的所有搜索结果中包含待识别搜索词的部分内容的结果的个数。

示例性的：假设待识别搜索词为“可遥控的相机”，待识别搜索词的部分内容为“相机”，搜索结果中包含“可遥控的相机”的结果的个数为10个，包含“相机”的结果的个数为15个；

则全匹配结果数为10，相关结果数为15。

最后，计算全匹配结果数和相关结果数的比值，得到全匹配占比。

步骤2、根据待识别搜索词的搜索点击率、词特征、出现概率、全匹配结果数和全匹配占比，确定待识别搜索词为错误搜索词或正常搜索词。

可以通过融合待识别搜索词的多维度特征；例如，待识别搜索词的多维度特征可以包括下述的几种：搜索点击率、各个所述词特征、待识别搜索词出现的概率、全匹配结果数和全匹配占比。并基于多维度特征对待识别搜索词进行识别，可以降低对待识别搜索词进行识别的难度，从而提高了对待识别搜索词的识别能力，有利于识别出待识别搜索词是否为错误搜索词。

S102：利用加权编辑距离算法，计算搜索词与预先获取的热词之间的加权编辑距离，其中，在加权编辑距离计算过程中，针对从搜索词转换到热词的操作，分别为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作，设置不同数值的权重。

热词，是指网络或当下常用或流行的词，在实际操作中，可通过点击率确定众多热词组成热词表。在热词表的产生过程中，需要过滤掉点击率低、搜索结果少的词语，以保证热词的准确性。本申请实施例中，通过将错误的搜索词纠正为编辑距离相近的热词，从而为用户提供更好的体验。

本领域技术人员理解，编辑距离(Edit Distance)，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。传统的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个字符串的相似度越大。

传统的编辑距离操作包括：将一个字符替换成另一个字符，插入一个字符，删除一个字符，每一种操作对应的距离都是1。这些操作中并不包括字符串内临近字符之间的交换操作，也没有考虑音近字或形近字替换操作的特殊性。交换操作可以通过两次替换操作实现，比如CD->DD->DC，按照传统编辑距离算法，对应的距离是2。考虑到实际搜索过程中，用户将两个字符输入错位的概率非常高，交换操作的距离为2是不合理的。另外，用户出现音近字或形近字导致的搜索词输入错误的概率也较高，如果对此特殊的替换操作没有特别处理，也设置距离为1，显然也是不合理的。

因此，本申请实施例中提出了一种加权编辑距离计算方法，包括以下5种操作，并分别设置不同的权重。

1)插入字符操作，权重为1；

2)删除字符操作，权重为1；

3)非形近字或者音近字的替换操作，权重为1；

4)形近字或音近字的替换操作，权重为w1；

5)交换字符操作，权重为w2。

为了得到更好的效果，w1和w2的取值需特别注意，一般而言，需要满足w1<w2<1。经过实验得到，可选的，设置各操作权重满足如下关系：形近字或音近字的替换操作权重<交换字符操作权重<插入字符操作权重＝删除字符操作权重＝非形近字或音近字的替换操作权重。

由于上述考虑了各种可能的操作，并且分别赋予不同的权重，因此采取这种加权编辑距离应用于纠错，计算字符串之间的相似度，精度更高。

相应的，从另一个角度来说，本申请实施例中提供的一种加权编辑距离计算方法，可以包括：

获取源字符串和目标字符串；

计算源字符串和目标字符串之间的加权编辑距离，其中，在加权编辑距离计算过程中，针对从源字符串转换到目标字符串的不同操作分别设置不同数值的权重。

加权编辑距离(也称“动态规划”)可为不同操作设置不同的权重，解决上述问题。其思路是：通过描述出操作的状态，并且以一个状态转移方程进行求解。

对于编辑距离问题，牵涉到源字符串str1(本实施例中的搜索词)和目标字符串str2(本实施例中的热词)，显然一个状态量是不能描述这种从源字符串通过计算加权编辑距离转换到目标字符串的两元关系，因此，就使用了i,j两个状态量来描述从源字符串转换到目标字符串的编辑距离中的一个状态。对于从源字符串str1的1->i到目标字符串str2的1->j的最优编辑距离用edit(i，j)来表示，其中，1->i表示源字符串长度为i的子串，1->j表示目标字符串长度为j的子串，那么，从源字符串转移到目标字符串需要通过一个状态转移方程，即怎样从ti<i、tj<j的这些子状态转移到状态i、j，其中，子状态为计算编辑距离之前的源字符串和目标字符串的状态，具体的，ti<i表示源字符串未转换成目标字符串时的源字符串的状态，tj<j表示源字符串未转换成目标字符串时的目标字符串的状态，状态i、j表示计算编辑距离之后的源字符串和目标字符串的状态。在本申请实施例的加权编辑距离的操作中，包括插入字符操作、删除字符操作、音近字或形近字字符替换操作、非音近字或形近字字符替换操作、交换字符操作，那么子状态就由这五种操作方式转移得到现在状态，现在状态即为状态i、j。需要说明的是，本申请实施例中的i和j均为整数。

参见图2，是本申请一个实施例提供的一种加权编辑距离计算方法流程图，包括：

S201：定义状态转移方程，用于表示搜索词与热词之间的加权编辑距离，其中，在状态转移方程中定义两个状态量，用于分别表示搜索词和热词之间对应位置的字符。

S202：根据为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作所设置的不同数值的权重，求解状态转移方程在相应操作的解，根据状态转移方程的解，得到加权编辑距离。

本申请实施例中，热词与错误搜索词之间的相似度采用一种加权编辑算法实现。首先，定义状态转移方程，用edit(i,j)表示第一个字符串长度为i的子串到第二个字符串长度为j的子串的加权编辑距离，str1(i)表示第一个字符串的第i+1个字符，str2(j)表示第二个字符串的第j+1个字符。下面，提供一种基于动态规划的加权编辑距离计算方法逻辑实现实例：

A.ifi＝＝0and j＝＝0,edit(i,j)＝0；

B.ifi＝＝0and j>0,edit(i,j)＝j；

C.ifi>0and j＝＝0,edit(i,j)＝i；

D.ifi≥1and j≥1,edit(i,j)＝min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},其中：

D1.if str1(i-1)＝＝str2(j-1),f(i,j)＝0

D2.if str1(i-1),str2(j-1)互为形近字或音近字，f(i,j)＝w1

D3.if i≥2and j≥2and str1(i-2)＝＝str2(j-1)and str1(i-1)＝＝str2(j-2),f(i,j)＝1-w2

D4.其他情况下，f(i,j)＝1

其中，步骤A，B，C初始化函数edit(i,j)，步骤D1表示字符str1(i-1)和字符str2(j-1)相同，步骤D2表示字符str1(i-1)和字符str2(j-1)互为形近字或者音近字的替换操作，步骤D3表示交换操作，步骤D4表示插入、删除以及非形近字或音近字的替换操作；f(i,j)为操作代价值，f(i,j)根据为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作所设置的不同数值的权重，得到各权重对应的代价值。由此可以计算错误搜索词和热词之间的编辑距离。

在步骤D2中，形近字或音近字的替换操作，可以包括：通过预先设置的音近字映射表或形近字映射表，来判断搜索词与热词之间是否互为音近字或形近字。例如，对于汉字而言，音近字映射表可以首先提取汉字的拼音，然后找到该拼音所包含的所有汉字，从而建立音近字映射表。同理，对于非汉语的其他语种，也可以采取类似的方式建立映射表。

S103：根据加权编辑距离和预先获取的热词的热词热度，从预先获取的热词中选取预定数目的热词进行纠错提示。

具体的，所选取的进行纠错提示的预定数目的热词即为推荐词，选择推荐词可由以下步骤完成：1、将预先获取的热词的热词搜索次数进行归一化处理；2、根据加权编辑距离与预先获取的热词的热词搜索次数归一化处理结果，计算推荐综合得分；3、从预先获取的热词中选择推荐综合得分最高且加权编辑距离小于预定值的预定数目的热词，作为纠错的推荐词。

在选择推荐词时，需要综合考虑编辑距离和热词热度的影响。假设加权编辑距离为edit_score，热词搜索次数为impression_count，采用对数公式将热词搜索次数归一化到0-1之间，例如，归一化公式为：

hot_index＝min(log(impression_count+1)/20,1)

那么，推荐综合得分为：

final_score＝hot_index*edit_score

其中，final_score表示综合得分，hot_index表示将热词搜索次数归一化到0-1之间后的结果。

最后，选择推荐综合得分最高且加权编辑距离小于预定值的k个热词作为纠错提示的推荐词，进行纠错提示。

为了更清楚的理解上述搜索词纠错方法，下面从另一个角度对本申请实施例提供的搜索词纠错方法进行详细描述：

本申请实施例所提供的一种搜索词纠错方法的流程，可以包括如下步骤：

识别出错误的搜索词；

在本申请实施例的一种实现方式中，所述根据预先为从搜索词转换到热词的各操作所设置的不同数值的权重，计算所识别出的搜索词与预先获取的热词之间的加权编辑距离，包括：

根据所述状态转移方程的解，得到所述加权编辑距离。

在本申请实施例的一种实现方式中，所述状态转移方程可以为：

edit(i,j)＝min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}；

在本申请实施例的一种实现方式中，所述形近字或音近字的替换操作，可以包括：

在本申请实施例的一种实现方式中，所述预先为从搜索词转换到热词的各操作所设置的不同数值的权重满足如下关系：

在本申请实施例的一种实现方式中，所述识别出错误的搜索词，可以包括：

在本申请实施例的一种实现方式中，所述根据所述加权编辑距离和所述预先获取的热词的热词热度，从所述预先获取的热词中选取预定数目的热词进行纠错提示，包括：

将所述预先获取的热词的热词搜索次数进行归一化处理；

本申请实施例中，通过为删除字符操作、插入字符操作、形近字或音近字替换操作、非形近字或音近字替换操作以及交换字符操作，分别设置不同的权重，从而在加权编辑距离计算过程中，充分涵盖了从搜索词到热词转换过程中可能涉及的各种操作，从而可更加快速、准确的计算出从搜索词到热词之间的编辑距离，提高搜索词纠错准确性。

为了更清楚的理解上述加权编辑距离计算方法，下面从另一个角度对本申请实施例提供的加权编辑距离计算方法进行详细描述：

本申请实施例所提供的一种加权编辑距离计算的流程，可以包括如下步骤：

获取源字符串和目标字符串；

需要说明的是，在上述加权编辑距离计算方法应用于计算搜索词与热词之间的加权编辑距离时，源字符串可以为所识别出的错误的搜索词，目标字符串可以为预先获取的热词。

在本申请实施例的一种实现方式中，所述根据为不同操作所设置的不同数值的权重，计算所述源字符串和所述目标字符串之间的加权编辑距离，可以包括：

根据所述状态转移方程的解，得到所述加权编辑距离。

本申请实施例中，由于考虑了各种可能的操作，并且分别赋予不同的权重，因此采取这种加权编辑距离应用于纠错，计算字符串之间的相似度，精度更高。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图3，是本申请实施例提供的一种搜索词纠错装置结构示意图。该装置包括：

错误搜索词识别单元301，用于识别出错误的搜索词；

对搜索词进行纠错，是针对错误的搜索词进行纠错，因此首先需要识别出错误的搜索词。在具体实现中，可以基于搜索日志，识别出错误的搜索词：通过搜索词点击率、搜索结果完全匹配的结果个数、以及基于语言模型的搜索词概率，可有效识别出错误的搜索词。

加权编辑距离计算单元302，用于利用加权编辑距离算法，计算所述搜索词与预先获取的热词之间的加权编辑距离，其中，在所述加权编辑距离计算过程中，针对从搜索词转换到热词的操作，分别为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作，设置不同数值的权重；

因此，本申请实施例中提出了一种加权编辑距离计算装置，包括：

获取单元，用于获取源字符串和目标字符串；

计算单元，用于计算所述源字符串和所述目标字符串之间的加权编辑距离，其中，在所述加权编辑距离计算过程中，针对从所述源字符串转换到所述目标字符串的不同操作分别设置不同数值的权重。

其中，计算单元可以包括：

状态转移方程求解子单元，用于根据为不同操作所设置的不同数值的权重，求解所述状态转移方程在相应操作的解，根据所述状态转移方程的解，得到所述加权编辑距离。

上述不同操作包括以下5种操作，并分别设置不同的权重。

1)插入字符操作，权重为1；

2)删除字符操作，权重为1；

3)非形近字或者音近字的替换操作，权重为1；

4)形近字或音近字的替换操作，权重为w1；

5)交换字符操作，权重为w2。

纠错提示单元303，用于根据所述加权编辑距离和所述预先获取的热词的热词热度，从所述预先获取的热词中选取预定数目的热词进行纠错提示。

可选的，所述加权编辑距离计算单元302包括：

状态转移方程定义子单元3021，用于定义状态转移方程，用于表示所述搜索词与热词之间的加权编辑距离，其中，在状态转移方程中定义两个状态量，用于分别表示搜索词和热词之间对应位置的字符；

方程求解子单元3022，用于根据为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作所设置的不同数值的权重，求解所述状态转移方程在相应操作的解，根据所述状态转移方程的解，得到所述加权编辑距离。

可选的，所述状态转移方程为：

edit(i,j)＝min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}；

可选的，所述形近字或音近字的替换操作，包括：

可选的，该装置还包括：

操作权重设置单元305，用于设置各操作权重满足如下关系：

形近字或音近字的替换操作权重<交换字符操作权重<插入字符操作权重＝删除字符操作权重＝非形近字或音近字的替换操作权重。为了得到更好的效果，w1和w2的取值需特别注意，一般而言，需要满足w1<w2<1。经过实验得到，可选的，设置各操作权重满足如下关系：形近字或音近字的替换操作权重<交换字符操作权重<插入字符操作权重＝删除字符操作权重＝非形近字或音近字的替换操作权重。由于上述考虑了各种可能的操作，并且分别赋予不同的权重，因此采取这种加权编辑距离应用于纠错，计算字符串之间的相似度，精度更高。

可选的，所述错误搜索词识别单元301包括：

日志查找及计算子单元3011，用于基于搜索日志，解析或计算出待识别搜索词的搜索点击率、词特征、出现概率、全匹配结果数和全匹配占比；

具体的，首先，计算待识别搜索词的搜索点击率，例如，从搜索日志中获取用户针对待识别搜索词的搜索次数和点击搜索结果次数；将点击搜索结果次数除以搜索次数，得到搜索点击率；其次，对待识别搜索词进行分词处理，得到多个词特征；继而，利用统计语言模型和各个词特征，计算待识别搜索词出现的概率；然后，计算待识别搜索词的全匹配结果数和相关结果数，其中，全匹配结果数为针对待识别搜索词的所有搜索结果中包含待识别搜索词的全部内容的结果的个数，相关结果数为针对待识别搜索词的所有搜索结果中包含待识别搜索词的部分内容的结果的个数；最后，计算全匹配结果数和相关结果数的比值，得到全匹配占比。

识别结果确定子单元3012，用于根据待识别搜索词的所述搜索点击率、所述词特征、所述出现概率、所述全匹配结果数和所述全匹配占比，确定所述待识别搜索词为错误搜索词或正常搜索词。

通过融合待识别搜索词的多维度特征(即搜索点击率、各个所述词特征、待识别搜索词出现的概率、全匹配结果数和全匹配占比)，并基于多维度特征对待识别搜索词进行识别，降低了对待识别搜索词进行识别的难度，从而提高了对待识别搜索词的识别能力，有利于识别出待识别搜索词是否为错误搜索词。

可选的，所述纠错提示单元303包括：

归一化处理子单元3031，用于将所述预先获取的热词的热词搜索次数进行归一化处理；

推荐综合得分计算子单元3032，用于根据所述加权编辑距离与所述热词搜索次数归一化处理结果，计算推荐综合得分；

推荐词确定子单元3033，用于从所述预先获取的热词中，选择所述推荐综合得分最高且所述加权编辑距离小于预定值的预定数目的热词，作为纠错的推荐词，进行纠错提示。

为了更清楚的理解上述搜索词纠错装置，下面从另一个角度对本申请实施例提供的搜索词纠错装置进行详细描述：

本申请实施例所提供的一种搜索词纠错装置，所述装置可以包括：

错误搜索词识别单元，用于识别出错误的搜索词；

在本申请实施例的一种实现方式中，所述加权编辑距离计算单元包括：

edit(i,j)＝min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}；

在本申请实施例的一种实现方式中，所述形近字或音近字的替换操作，包括：

在本申请实施例的一种实现方式中，所述错误搜索词识别单元包括：

在本申请实施例的一种实现方式中，所述纠错提示单元包括：

为了更清楚的理解上述加权编辑距离计算装置，下面从另一个角度对本申请实施例提供的加权编辑距离计算装置进行详细描述：

本申请实施例所提供的一种加权编辑距离计算装置，所述装置可以包括：

获取单元，用于获取源字符串和目标字符串；

在本申请实施例的一种实现方式中，所述计算单元可以包括：

本申请实施例还提供了一种电子设备，如图4所示，包括：第一处理器401、第一通信接口402、第一存储器403和第一通信总线404，其中，第一处理器401，第一通信接口402，第一存储器403通过第一通信总线404完成相互间的通信；第一存储器403，用于存放计算机程序；第一处理器401，用于执行第一存储器403上所存放的程序，实现上述搜索词纠错方法步骤，方法包括：

识别出错误的搜索词；

在本申请的一种实现方式中，所述根据预先为从搜索词转换到热词的各操作所设置的不同数值的权重，计算所识别出的搜索词与预先获取的热词之间的加权编辑距离，包括：

根据所述状态转移方程的解，得到所述加权编辑距离。

在本申请的一种实现方式中，所述状态转移方程为：

edit(i,j)＝min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}；

在本申请的一种实现方式中，所述形近字或音近字的替换操作，包括：

在本申请的一种实现方式中，所述预先为从搜索词转换到热词的各操作所设置的不同数值的权重满足如下关系：

在本申请的一种实现方式中，所述识别出错误的搜索词，包括：

在本申请的一种实现方式中，所述根据所述加权编辑距离和所述预先获取的热词的热词热度，从所述预先获取的热词中选取预定数目的热词进行纠错提示，包括：

将所述预先获取的热词的热词搜索次数进行归一化处理；

本申请实施例还提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述搜索词纠错方法步骤，方法包括：

识别出错误的搜索词；

根据所述状态转移方程的解，得到所述加权编辑距离。

在本申请的一种实现方式中，所述状态转移方程为：

edit(i,j)＝min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}；

将所述预先获取的热词的热词搜索次数进行归一化处理；

本申请实施例还提供了一种电子设备，如图5所示，包括：第二处理器501、第二通信接口502、第二存储器503和第二通信总线504，其中，第二处理器501，第二通信接口502，第二存储器503通过第二通信总线504完成相互间的通信；第二存储器503，用于存放计算机程序；第二处理器501，用于执行第二存储器503上所存放的程序，实现上述加权编辑距离计算方法步骤，方法包括：

获取源字符串和目标字符串；

在本申请的一种实现方式中，所述根据为不同操作所设置的不同数值的权重，计算所述源字符串和所述目标字符串之间的加权编辑距离，包括：

根据所述状态转移方程的解，得到所述加权编辑距离。

本申请实施例还提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述加权编辑距离计算方法步骤，方法包括：

获取源字符串和目标字符串；

根据所述状态转移方程的解，得到所述加权编辑距离。

对于装置、电子设备和存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的可选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括可选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……” 限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种关系型数据库的调度方法及系统，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种搜索词纠错方法，其特征在于，包括：

识别出错误的搜索词；

利用加权编辑距离算法，计算所述搜索词与预先获取的热词之间的加权编辑距离，其中，在所述加权编辑距离计算过程中，针对从搜索词转换到热词的操作，分别为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作，设置不同数值的权重；

根据所述加权编辑距离和热词热度，选取预定数目的热词进行纠错提示。
根据权利要求1所述的方法，其特征在于，所述利用加权编辑距离算法，计算所述搜索词与预先获取的热词之间的加权编辑距离，包括：

定义状态转移方程，用于表示所述搜索词与热词之间的加权编辑距离，其中，在状态转移方程中定义两个状态量，用于分别表示搜索词和热词之间对应位置的字符；

根据为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作所设置的不同数值的权重，求解所述状态转移方程在相应操作的解；

根据所述状态转移方程的解，得到所述加权编辑距离。
根据权利要求2所述的方法，其特征在于，所述状态转移方程为：

edit(i,j)＝min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}；

其中，i、j为所述两个状态量，f(i,j)为操作代价值，f(i,j)根据为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作所设置的不同数值的权重，得到各权重对应的代价值。
根据权利要求1-3任一项所述的方法，其特征在于，还包括：

通过查找预先设置的形近字映射表或音近字映射表，确定所述搜索词与所述热词是否互为形近字或音近字。
根据权利要求1-3任一项所述的方法，其特征在于，还包括：

设置各操作权重满足如下关系：

形近字或音近字的替换操作权重<交换字符操作权重<插入字符操作权重＝删除字符操作权重＝非形近字或音近字的替换操作权重。
根据权利要求1-3任一项所述的方法，其特征在于，所述识别出错误的搜索词，包括：

基于搜索日志，解析或计算出待识别搜索词的搜索点击率、词特征、出现概率、全匹配结果数和全匹配占比；

根据待识别搜索词的所述搜索点击率、所述词特征、所述出现概率、所述全匹配结果数和所述全匹配占比，确定所述待识别搜索词为错误搜索词或正常搜索词。
根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述加权编辑距离和热词热度，选取预定数目的热词进行纠错提示，包括：

将热词搜索次数进行归一化处理；

根据所述加权编辑距离与热词搜索次数归一化处理结果，计算推荐综合得分；

选择推荐综合得分最高且所述加权编辑距离小于预定值的预定数目的热词，作为纠错的推荐词，进行纠错提示。
一种加权编辑距离计算方法，其特征在于，包括：

获取源字符串和目标字符串；

计算所述源字符串和所述目标字符串之间的加权编辑距离，其中，在所述加权编辑距离计算过程中，针对从所述源字符串转换到所述目标字符串的不同操作分别设置不同数值的权重。
根据权利要求8所述的方法，其特征在于，所述计算所述源字符串和所述目标字符串之间的加权编辑距离，包括：

定义状态转移方程，用于表示所述源字符串和所述目标字符串之间的加权编辑距离，其中，在状态转移方程中定义两个状态量，用于分别表示源字符串和所述目标字符串之间对应位置的字符；

根据为不同操作所设置的不同数值的权重，求解所述状态转移方程在相应操作的解；

根据所述状态转移方程的解，得到所述加权编辑距离。
一种搜索词纠错装置，其特征在于，包括：

错误搜索词识别单元，用于识别出错误的搜索词；

加权编辑距离计算单元，用于利用加权编辑距离算法，计算所述搜索词与预先获取的热词之间的加权编辑距离，其中，在所述加权编辑距离计算过程中，针对从搜索词转换到热词的操作，分别为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作，设置不同数值的权重；

纠错提示单元，用于根据所述加权编辑距离和热词热度，选取预定数目的热词进行纠错提示。
根据权利要求10所述的装置，其特征在于，所述加权编辑距离计算单元包括：

状态转移方程定义子单元，用于定义状态转移方程，用于表示所述搜索词与热词之间的加权编辑距离，其中，在状态转移方程中定义两个状态量，用于分别表示搜索词和热词之间对应位置的字符；

方程求解子单元，用于根据为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作所设置的不同数值的权重，求解所述状态转移方程在相应操作的解，作为所述加权编辑距离。
根据权利要求11所述的装置，其特征在于，所述状态转移方程为：

edit(i,j)＝min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j),}；

其中，i、j为所述两个状态量，f(i,j)为操作代价值，f(i,j)根据为插入字符操作、删除字符操作、形近字或音近字的替换操作、非形近字或音近字的替换操作、交换字符操作所设置的不同数值的权重，得到各权重对应的代价值。
根据权利要求10-12任一项所述的装置，其特征在于，还包括：

形近字或音近字确定单元，用于查找预先设置的形近字映射表或音近字映射表，确定所述搜索词与所述热词是否互为形近字或音近字。
根据权利要求10-12任一项所述的装置，其特征在于，还包括：

操作权重设置单元，用于设置各操作权重满足如下关系：

形近字或音近字的替换操作权重<交换字符操作权重<插入字符操作权重＝删除字符操作权重＝非形近字或音近字的替换操作权重。
根据权利要求10-12任一项所述的装置，其特征在于，所述错误搜索词识别单元包括：

日志查找及计算子单元，用于基于搜索日志，解析或计算出待识别搜索词的搜索点击率、词特征、出现概率、全匹配结果数和全匹配占比；

识别结果确定子单元，用于根据待识别搜索词的所述搜索点击率、所述词特征、所述出现概率、所述全匹配结果数和所述全匹配占比，确定所述待识别搜索词为错误搜索词或正常搜索词。
根据权利要求10-12任一项所述的装置，其特征在于，所述纠错提示单元包括：

归一化处理子单元，用于将热词搜索次数进行归一化处理；

推荐综合得分计算子单元，用于根据所述加权编辑距离与热词搜索次数归一化处理结果，计算推荐综合得分；

推荐词确定子单元，用于选择推荐综合得分最高且所述加权编辑距离小于预定值的预定数目的热词，作为纠错的推荐词，进行纠错提示。
一种加权编辑距离计算装置，其特征在于，包括：

获取单元，用于获取源字符串和目标字符串；

计算单元，用于计算所述源字符串和所述目标字符串之间的加权编辑距离，其中，在所述加权编辑距离计算过程中，针对从所述源字符串转换到所述目标字符串的不同操作分别设置不同数值的权重。
根据权利要求17所述的装置，其特征在于，所述计算单元包括：

状态转移方程定义子单元，用于定义状态转移方程，用于表示所述源字符串和所述目标字符串之间的加权编辑距离，其中，在状态转移方程中定义两个状态量，用于分别表示源字符串和所述目标字符串之间对应位置的字符；

状态转移方程求解子单元，用于根据为不同操作所设置的不同数值的权重，求解所述状态转移方程在相应操作的解，作为所述加权编辑距离。
一种电子设备，其特征在于，包括第一处理器、第一通信接口、第一存储器和第一通信总线，其中，第一处理器，第一通信接口，第一存储器通过第一通信总线完成相互间的通信；

第一存储器，用于存放计算机程序；

第一处理器，用于执行第一存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。
一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
一种电子设备，其特征在于，包括第二处理器、第二通信接口、第二存储器和第二通信总线，其中，第二处理器，第二通信接口，第二存储器通过第二通信总线完成相互间的通信；

第二存储器，用于存放计算机程序；

第二处理器，用于执行第二存储器上所存放的程序时，实现权利要求8-9任一所述的方法步骤。
一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求8-9任一所述的方法步骤。