WO2016066043A1

WO2016066043A1 - 网页去重方法及装置

Info

Publication number: WO2016066043A1
Application number: PCT/CN2015/092510
Authority: WO
Inventors: 唐小棚
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2014-10-30
Filing date: 2015-10-22
Publication date: 2016-05-06
Anticipated expiration: 2017-04-30
Also published as: KR102179855B1; US20170235746A1; JP6672292B2; US10691769B2; CN105630802A; EP3214557A4; SG11201703563SA; JP2017532690A; EP3214557A1; KR20170078777A; EP3214557B1

Abstract

本申请提出一种网页去重方法及装置。其中，该方法包括：获取预定类型的网页；以及针对每个网页，提取出当前网页的特征码和当前网页正文包含的字数，并查询预设的数据表中是否包含特征码，若包含特征码，则读取数据表中与特征码对应的网页正文的字数，并当读取到的和提取出的字数差在预设范围内时，丢弃当前网页。本申请实施例的网页去重方法及装置，基于网页的特征码和网页正文包含的字数对网页进行去重，可大大提高网页去重的准确度，减少网页去重的误判率。

Description

网页去重方法及装置

技术领域

本申请涉及互联网技术领域，尤其涉及一种网页去重方法及装置。

背景技术

随着互联网技术的发展，互联网成为人们获取各种信息的重要来源，但是在互联网上，有很多信息是重复信息。目前几十亿上百亿网页中有大量信息重复的网页，这些重复网页的存在，对于信息处理非常麻烦，因此，对网页进行去重处理是十分必要的。

目前，可通过在网页中选取特征码，对比特征码的方式对网页进行去重处理。现有的通过网页的特征码对网页去重的过程为：首先，在网页1中选取某个句号作为定位点，并在定位点两边选取一定数量的汉字作为特征码。然后，在网页2中采用相同的方式获取特征码，并对上述两个网页的特征码进行比较，若上述两个网页中的特征码相同，则判断出网页2为重复网页，并删除重复的网页2；若特征码不相同，则判断两个网页不相同，即网页2不是网页1的重复网页。

现有的仅基于特征码进行网页去重的方式存在的问题是，容易造成对特征码相同而网页实际内容不同的网页的误判，例如，网页1为几十个字的诗句，用户转载网页1后，根据自己的理解对该诗句进行几百字以上的解释，并且解释文字中没有句号，若仅基于特征码进行网页去重，这两个网页会被判断为相同的网页，而这两个网页应为不同的网页。因此，上述网页去重的方式的网页去重准确率不高。另外，上述方式所提取的特征码不准确。例如，若用户在转载网页的题注或编辑中添加句号，当以现有的方式提取网页的特征码，并进行网页去重时，原网页和转载网页的特征码不同，原网页和转载网页被判断为不同的网页。但实际上，原网页和转载网页所包含的网页正文内容可能相同。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种网页去重方法，该方法可大大提高网页去重的准确度，减少网页去重的误判率。

本申请的第二个目的在于提出一种网页去重装置。

为达上述目的，本申请第一方面实施例提出了一种网页去重方法，包括：获取预定类型的网页；以及针对每个网页，提取出当前网页的特征码和当前网页正文包含的字数，并查询预设的数据表中是否包含所述特征码，若包含所述特征码，则读取所述数据表中与所述特征码对应的网页正文的字数，并当读取到的字数和提取出的字数间的字数差在预设范围内时，丢弃所述当前网页。

本申请实施例的网页去重方法，通过获取预定类型的网页，并针对每个网页，提取出当前网页的特征码和当前网页正文包含的字数，并查询预设的数据表中是否包含特征码，若包含特征码，则读取数据表中与特征码对应的网页正文的字数，并当读取到的和提取出的字数差在预设范围内时，丢弃当前网页，该实施例基于网页的特征码和网页正文包含的字数对网页进行去重，相对于现有的仅基于特征码对网页去重的方式，可大大提高网页去重的准确度，减少网页去重的误判率。

为达上述目的，本申请第二方面实施例提出了一种网页去重装置，包括：获取模块，用于获取预定类型的网页；以及第一处理模块，用于针对每个网页，提取出当前网页的特征码和当前网页正文包含的字数，并查询预设的数据表中是否包含所述特征码，若包含所述特征码，则读取所述数据表中与所述特征码对应的网页正文的字数，并当读取到的字数和提取出的字数间的字数差在预设范围内时，丢弃所述当前网页。

本申请实施例的网页去重装置，通过获取模块获取预定类型的网页，第一处理模块针对每个网页，提取出当前网页的特征码和当前网页正文包含的字数，并查询预设的数据表中是否包含特征码，若包含特征码，则读取数据表中与特征码对应的网页正文的字数，并当读取到的和提取出的字数差在预设范围内时，丢弃当前网页，该实施例基于网页的特征码和网页正文包含的字数对网页进行去重，相对于现有的仅基于特征码对网页去重的方式，可大大提高网页去重的准确度，减少网页去重的误判率。

附图说明

图1是本申请一个实施例的网页去重方法的流程图。

图2是本申请一个实施例的网页的示意图一。

图3是本申请一个实施例的网页的示意图二。

图4是本申请一个实施例的网页去重装置的结构示意图。

图5是本申请另一个实施例的网页去重装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的网页去重方法及装置。

图1是本申请一个实施例的网页去重方法的流程图，如图1所示，该网页去重方法包括：

S101，获取预定类型的网页。

具体地，用户在搜索引擎中以某个关键词进行搜索后，可获得多个与该关键词相关的网页，并从中选择出预定类型的网页，例如包含正文的网页。

S102，针对每个网页，提取出当前网页的特征码和当前网页正文包含的字数，并查询预设的数据表中是否包含特征码，若包含特征码，则读取数据表中与特征码对应的网页正文的字数，并当读取到的字数和提取出的字数间的字数差在预设范围内时，丢弃当前网页。

具体地，在获得预定类型例如包含正文的网页后，对于每个网页，可以获取当前网页正文包含的段落，并针对当前网页正文中的每个段落，在当前段落的预设位置选取第一预设数量的字符，以及将选取的所有段落的字符拼接成字符串，并对字符串进行运算，以生成特征码。

优选地，针对每个段落，可以以当前段落的中间位置为中心，并从中心的左侧和右侧选取第二预设数量的字符，其中，第二预设数量为第一预设数量的二分之一，且第二预设数量可以为3-8个，为了提高网页去重的能力，减少特征码所占的存储空间，优选地，第二预设数量可以为5个，相应地，第一预设数量可以为10个。

例如，某个网页中仅有一个段落，并且该段落中包含1000个汉字字符，则在该段落的中间位置处，向左和向右各取5个汉字字符，共取10个汉字字符。如果按照信息论中多元文法(N-Gram)的定义，这10汉字字符相当于一个10阶的文字(10-Gram)，按照6753个汉字计算，这10个汉字字符重复的概率大约为1/(6763)¹⁰，也就是说，该网页的特征码重复的概率大约为1/(6763)¹⁰。由此可以看出，从每个段落中的中间位置各取10个字符的方式，可以有效地保证网页特征码各不相同，可提高网页特征码的计算准确率。

需要说明的是，若网页中的某个段落中的字符数量小于第一预设数量，可通过特定的字符进行补充。

另外，在获得当前网页的每个段落中的第一预定数量例如10个字符后，可按照段落顺序将所获得的字符拼接为一个字符串，为了可以高效地通过该字符串进行快速的查找，以确定出内容重复的网页，可对每个网页对应的字符串进行运算，生成对应的特征码。具体而言，可通过哈希(hash)函数，即散列函数，将每个网页对应的字符串转换为对应的散列值，并将散列值作为该网页的特征码。

例如，在JAVA编程中，将字符串转换为对应的散列值的哈希函数的代码如下：

public int hashCode(){

int h＝hash；

if(h＝＝0){

int off＝offset；

char val[]＝value；

int len＝count；for(int i＝0；i<len；i++){

h＝31*h+val[off++]；

}

hash＝h；

}

renturn h；

}

通过上述代码可以看出，该例子中使用的哈希函数为字符串的高位乘以31加上低位，由于JAVA中int类型的数值范围是-2147483648～2147483647，覆盖范围达到了40多亿，因此基本不会有不同的字符串得到同一个散列值的情况，也就是说，不同网页出现相同特征码的可能性很小，所提取的网页的特征码的准确性高。

该实施例获取网页的特征码时，充分考虑网页的文本结构，针对网页正文中的每个段落，在每个段落的中间位置处选取第一预设数量的字符，并将选取的所有段落的字符拼接成字符串，以及基于字符串获得特征码。相对于现有的以句号为定位点提取特征码的方式，该实施例提取特征码的方式所获得的特征码准确高。由于不同的网站在转载信息时，通常会在信息中添加不同的题注、编辑等信息，同时还可能对文章进行不同的删节、改动、分页显示或者添加等。因此，为了进一步地提高相同的网页分类的准确率，在提取每个网页的特征码的同时，还需要提取每个网页正文包含的字数。

在提取当前网页的特征码和正文包含的字数后，可查询预设的数据表例如散列表中是否包含特征码，即从散列表中查询是否包含该散列值，若散列表中包含该散列值，则读取散列表中该散列值对应的网页正文的字数，并与当前网页正文的字数进行比较，当两者之间的字数差在预设范围例如0-50内，则认为当前网页为重复的网页，丢弃当前网页。

其中，散列表是一种很好的组织特征码的数据结构，它通过把关键码值即网页的特征码映射到表中一个位置来访问记录，以加快查找的速度，散列表具有高效的检索能力，并且可以支持动态数据的存储和提取。

例如，预设范围为0-50，假定散列表中已经保存了如图3所示的网页对应的散列值和网页正文包含的字数，在提取出如图4所示的网页的特征码和网页正文包含的字数后，查询散列表可以确定图4所示的网页的特征码与图3所示网页的特征码相同。此时，可从散列表中读取该散列值对应的网页正文包含的字数，即图3所示网页的网页正文包含的字数，通过计算可以得到图4所示的网页正文包含的字数与图3所示的网页正文包含的字数间的字数差为18，两个网页的网页正文包含的字数差在预设范围内，因此，可以认为图4与图3所示的网页为相同的网页，丢弃如图4所示的网页。

在该实施例中，若数据表中未包含特征码，则将提取出的当前网页的特征码和字数对应写入数据表中。

另外，在该实施例中，当读取到的和提取的字数差未在预设范围内时，将提取出的当前网页的特征码和字数对应写入数据表中。

相对于现有的仅基于特征码进行网页去重的方式，本申请实施例的网页去重方式，除了比较两个网页的特征码，还需要比较两个网页的字数差，由此，可有效减少对特征码相同而网页字数相差较大的网页的误判，同时，由于本申请实施例所采用的特征码的提取方式与现有技术中所采用的特征码的提取方式不同，可以有效减少对特征码相同而网页字数相差较小的网页的误判，进而可提高网页去重的准确率。

例如，假定预设范围为0-50，当前网页的网页正文的字数为4900,若当前网页对应的特征码在散列表中，并且从散列表中获得该特征码对应的网页的字数为5000，当前网页与散列表中网页对应的字数的差值的绝对值为100，该值没有在预设范围内，因此，可认为当前网页不是重复的网页，此时，可将当前网页的网页正文的字数加入散列表中。

再例如，假定搜索引擎获取到10个与关键词相关的网页，其中，有三个网页为内容相同的网页，可分别提取这10个网页对应的特征码和对应的网页正文的字数，并通过散列表对这10个网页进行去重处理。其中，对网页进行去重的过程，也是建立散列表的过程，当散列表建立完成，对应的网页去重结束。此时，10个网页中相同的网页将被去除。由此，相对于由特征码建成的检索系统，并基于检索系统对网页进行查询并去重的方式，通过该方式对网页进行去重，可提高网页去重的效率。

假定当前获得了5万篇网页，通过上述实施例对5万篇网页进行去重处理，为了评价该实施例的网页去重的准确率，可通过人工随机抽样的方式进行评价，假定6个人随机选择50个重复的网页进行评测，获得的对应的网页去重的结果如表1所示。

表1网页去重的结果

用户	1	2	3	4	5	6
网页数	50	50	50	50	50	50
错误数	2	1	4	1	1	1

其中，表1中的错误数表示通过该实施例未将相同的网页去除的个数，通过计算可以得到表1中的网页去重的准确率为96.7％。

相对应地，若以现有的基于特征码的方式进行网页去重，所获得的对应的网页去重的结果如表2所示。

表2网页去重的结果

用户	1	2	3	4	5	6
网页数	50	50	50	50	50	50
错误数	4	2	6	2	3	2

其中，通过计算可以获得表2中的网页去重的准确率为90.37％。通过比较表1和表2的网页去重的准确率，由此可以看出，该实施例的网页去重的准确率高于仅基于特征码的方式。

为了实现上述实施例，本申请还提出一种网页去重装置。

图4是本申请一个实施例的网页去重装置的结构示意图，如图4所示，该装置包括：获取模块100和第一处理模块200，其中：

获取模块100用于获取预定类型的网页；以及第一处理模块200用于针对每个网页，提取出当前网页的特征码和当前网页正文包含的字数，并查询预设的数据表中是否包含特征码，若包含特征码，则读取数据表中与特征码对应的网页正文的字数，并当读取到的字数和提取出的字数间的字数差在预设范围内时，丢弃当前网页。

具体地，假定当前包含多种类型的网页，获取模块100可从多种类型的网页中选择出预定类型的网页，例如，包含网页正文的网页。

上述第一处理模块200具体用于：获取当前网页正文包含的段落；针对每个段落，在当前段落的预设位置选取第一预设数量的字符；以及将选取的所有段落的字符拼接成字符串，并对字符串进行运算，以生成特征码。

具体地，第一处理模块200可通过哈希(hash)函数，即散列函数，将每个网页对应的字符串转换为对应的散列值，并将散列值作为该网页的特征码。

具体而言，第一处理模块200可以以当前段落的中间位置为中心，从中心的左侧和右侧选取第二预设数量的字符，其中，第二预设数量为第一预设数量的二分之一，且第二预设数量可以为3-8个。为了提高网页去重的能力，减少特征码所占的存储空间，优选地，第二预设数量可以为5个，相应地，第一预设数量可以为10个。

需要说明的是，若网页中的某个段落中的字符数量小于第一预设数量可通过特定的字符补充。

其中，上述预设的数据表例如可以是散列表，散列表是一种很好的组织特征码的数据结构，它通过把关键码值即网页的特征码映射到表中一个位置来访问记录，以加快查找的速度，散列表具有高效的检索能力，并且可以支持动态数据的存储和提取。

另外，如图5所示，上述装置还可以包括第二处理模块300，该第二处理模块300用于在第一处理模块200查询预设的数据表中是否包含特征码之后，若数据表中未包含特征码，则将提取出的当前网页的特征码和字数对应写入数据表中。

另外，上述装置还可以包括第三处理模块400，该第三处理模块400用于当读取到的和提取的字数差未在预设范围内时，将提取出的当前网页的特征码和字数对应写入数据表中。

具体地，若从预设的数据表例如散列表中读取到的网页正文包含的字数和从当前网页提取到的字数间的字数差小于预设范围，例如，预设范围为0-50个，两个网页之间的字数差为120个，第三处理模块400将提取出的当前网页的特征码和字数对应写入数据表中。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种网页去重方法，其特征在于，包括：

获取预定类型的网页；以及

针对每个网页，提取出当前网页的特征码和当前网页正文包含的字数，并查询预设的数据表中是否包含所述特征码，若包含所述特征码，则读取所述数据表中与所述特征码对应的网页正文的字数，并当读取到的字数和提取出的字数间的字数差在预设范围内时，丢弃所述当前网页。
根据权利要求1所述的方法，其特征在于，在所述查询预设的数据表中是否包含所述特征码之后，还包括：

若所述数据表中未包含所述特征码，则将提取出的所述当前网页的特征码和字数对应写入所述数据表中。
根据权利要求1所述的方法，其特征在于，还包括：

当读取到的字数和提取的字数间的字数差未在预设范围内时，将提取出的所述当前网页的特征码和所述字数对应写入所述数据表中。
根据权利要求1-3任一项所述的方法，其特征在于，所述提取当前网页的特征码，包括：

获取当前网页正文包含的段落；

针对每个段落，在当前段落的预设位置选取第一预设数量的字符；以及

将选取的所有段落的字符拼接成字符串，并对所述字符串进行运算，以生成所述特征码。
根据权利要求4所述的方法，其特征在于，所述在当前段落的预设位置选取第一预设数量的字符，包括：

以所述当前段落的中间位置为中心，从所述中心的左侧和右侧选取第二预设数量的字符，其中，所述第二预设数量为所述第一预设数量的二分之一，且所述第二预设数量为3-8个。
根据权利要求5所述的方法，其特征在于，所述第二预设数量优选为5个。
一种网页去重装置，其特征在于，包括：

获取模块，用于获取预定类型的网页；以及

第一处理模块，用于针对每个网页，提取出当前网页的特征码和当前网页正文包含的字数，并查询预设的数据表中是否包含所述特征码，若包含所述特征码，则读取所述数据表中与所述特征码对应的网页正文的字数，并当读取到的字数和提取出的字数间的字数差在预设范围内时，丢弃所述当前网页。
根据权利要求7所述的装置，其特征在于，还包括：

第二处理模块，用于在所述第一处理模块查询预设的数据表中是否包含所述特征码之后，若所述数据表中未包含所述特征码，则将提取出的所述当前网页的特征码和字数对应写入所述数据表中。
根据权利要求7所述的装置，其特征在于，还包括：

第三处理模块，用于当读取到的字数和提取的字数间的字数差未在预设范围内时，将提取出的所述当前网页的特征码和所述字数对应写入所述数据表中。
根据权利要求7-9任一项所述的装置，其特征在于，所述第一处理模块，具体用于：

获取当前网页正文包含的段落；针对每个段落，在当前段落的预设位置选取第一预设数量的字符；以及将选取的所有段落的字符拼接成字符串，并对所述字符串进行运算，以生成所述特征码。
根据权利要求10所述的装置，其特征在于，所述第一处理模块，具体用于：

以所述当前段落的中间位置为中心，从所述中心的左侧和右侧选取第二预设数量的字符，其中，所述第二预设数量为所述第一预设数量的二分之一，且所述第二预设数量为3-8个。
根据权利要求11所述的装置，其特征在于，所述第二预设数量优选为5个。