WO2013087012A1

WO2013087012A1 - 一种网络数据的采集方法和系统

Info

Publication number: WO2013087012A1
Application number: PCT/CN2012/086584
Authority: WO
Inventors: 吴新丽; 杨建武
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Priority date: 2011-12-13
Filing date: 2012-12-13
Publication date: 2013-06-20
Anticipated expiration: 2014-06-13
Also published as: US9525605B2; JP2014528136A; US20140289394A1; JP5823620B2; EP2793143A1; CN103164435A; EP2793143A4; CN103164435B

Abstract

本发明公开了一种网络数据的釆集方法和系统。该方法用于釆集发布于网站上的与M个主题分别相关的网络文档的数据，其中M为正整数，所述方法包括：根据待釆集的网络数据的网页链接地址所对应的类型，将所述待釆集的网络数据的网页链接地址配置到对应类型的队列中，所述待釆集的网络数据的网页链接地址为与所述M个主题分别相关的网络文档的数据所在网页的链接地址；获取所述对应类型的队列中的所述待釆集的网络数据的网页链接地址对应的网页源代码；根据所述网页源代码对应的URL信息及所述URL的釆集深度值抽取所述URL对应的网络文档的数据。

Description

一种网络数据的采集方法和系统本申请要求在 2011年 12月 13日提交中国专利局、申请号为 201110415356.8、发明名称为"一种网络数据的釆集方法和系统"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明属于信息检索和数据集成技术领域，尤其涉及一种网络数据的釆集方法和系统。背景技术

随着互联网的出现及普及，互联网络为上亿网民提供了各类文学资料信息，与此同时，一种以这种新兴媒体为载体、以网民为接受对象，具有不同于传统文学特点的网络文学正悄然勃兴。

网络文学，指新近产生的，以互联网为展示平台和传播媒介的，借助超文本连接和多媒体演绎等手段来表现的文学作品、类文学文本及含有一部分文学成分的网络艺术品。其中，以网络原创作品为主。网络文学可以分为三类：一类是将已发表的文学作品经过电子扫描技术或人工录入等方式形成数字资源；一类是直接在互联网络上"发表"的文学作品；还有一类是通过计算机创作或通过有关计算机软件生成的文学作品进入互联网络，以及具有互联网络开放性特点、几位作家几十位作家甚至数百位网民共同创作的 "接力小说 "等。其中第二类的形式居多。

伴随网络文学的发展，由此产生的版权问题、文学创作内容问题等各种问题也朴面而来。如何便捷集中的浏览网络文学的最新内容，如何实现对网络文学的检索或监管。由于没有网络文学相关数据的支撑，这些问题目前还得不到有效的解决。发明内容

本发明提供一种网络数据釆集方法和系统，能够实时釆集最新的网络数据。

本发明方法一方面提供了一种网络数据釆集的方法，用于釆集发布于网站上的与 M个主题分别相关的网络文档的数据，其中 M为正整数，所述方法包括：根据待釆集的网络数据的网页链接地址所对应的类型，将所述待釆集的网络数据的网页链接地址配置到对应类型的队列中，所述待釆集的网络数据的网页链接地址为与所述 M个主题分别相关的网络文档的数据所在网页的链接地址；获取所述对应类型的队列中的所述待釆集的网络数据的网页链接地址对应的网页源代码；根据所述网页源代码对应的统一资源定位符 URL信息及

URL的釆集深度值抽取所述 URL对应的网络文档的数据。

优选地，根据所述网站发布与所述 M个主题分别相关的网络文档的更新频率设置刷新时间间隔；以及基于所述刷新时间间隔刷新所述待釆集的网络数据的网页链接地址。

优选地，所述 M个主题中每个主题为一部网络文学，所述方法还包括：根据所述网络文学的结构配置所述 URL的釆集深度值，具体为：

【第值表示作品結构为 "名称^→卷 ··素 Ψ―内容"

- 1第二與植，表示伟 ¾結翁为 ^<£.S 拿 ;

I第三闻值表 .^作品結抅为 "素节― 容

优选地，所述待釆集的网络数据的网页链接地址对应的类型包括主题名称页、列表页和内容页，配置所述主题名称页用于提取主题名称；配置所述列表页用于提取主题章节目录或主题章节；配置所述内容页用于提取主题正文内容。

优选地，所述将所述待釆集的网络数据的网页链接地址配置到对应类型的队列中，具体包括：将类型为所述主题名称页的链接地址加入到主题名称页队列中；将类型为所述列表页的链接地址加入到列表页队列中；将类型为所述内容页的链接地址加入到内容页队列中。

优选地，所述获取所述对应类型的队列中的所述待釆集的网络数据的网页链接地址对应的网页源代码具体为：在所述主题名称页队列中获取所述主题名称页的链接地址对应的网页源代码。

优选地，所述根据所述网页源代码对应的 URL信息及所述 URL的釆集深度值抽取所述 URL对应的网络文档的数据，具体为：若釆集深度值为第一阈值，则抽取主题的名称及所述名称对应的 URL, 并将所述名称对应的 URL的釆集深度值标记为第二阈值后加入到所述列表页队列中；若釆集深度值为第二阈值，则抽取主题的名称及所述名称对应的 URL, 并将所述名称对应的 URL的釆集深度值标记为第三阈值后加入到所述列表页队列中。

优选地，所述获取所述对应类型的队列中的所述待釆集的网络数据的网页链接地址对应的网页源代码具体为：在所述列表页队列中获取所述列表页的链接地址对应的网页源代码。

优选地，所述根据所述网页源代码对应的 URL信息及所述 URL的釆集深度值抽取所述 URL对应的网络文档的数据具体为：若釆集深度值为第二阈值，则抽取主题的章节目录及所述章节目录对应的 URL, 并将所述章节目录对应的 URL的釆集深度值标记为第三阈值后加入到所述列表页队列中；若釆集深度值为第三阈值，则判断所述网页源代码对应的 URL是否存在上级 URL: 若是，则抽取主题的章节标题及所述章节标题对应章节的 URL, 并将所述章节的 URL加入到所述内容页队列中；若否，则抽取主题的名称、主题的章节标题及所述章节标题对应章节的 URL, 并将所述章节的 URL加入到所述内容页队列中。

优选地，所述获取所述对应类型的队列中的所述待釆集的网络数据的网页链接地址对应的网页源代码具体为：在所述内容页队列中获取所述内容页的链接地址对应的网页源代码。

优选地，所述根据所述网页源代码对应的 URL信息及所述 URL的釆集深度值抽取所述 URL对应的网络文档的数据具体为：从所述网页源代码中抽取主题的章节标题、章节正文内容，并从所述网页源代码对应的 URL中抽取所述章节标题对应章节的章节 ID。

优选地，判断所述章节正文内容是否存在分页：若是，则提取下一页的链接地址，并同时标记当前页的页码以及下一页的页码并将下一页的链接地址加入到所述内容页队列中等待釆集。

优选地，以所述章节正文内容的第一页链接为唯一键值，存放所述分页的内容，当釆集到最后一页时给予结束标识。

优选地，将抽取出的所有分页的正文内容合并到一起，结合所述章节标题进行输出。本发明另一方面提供一种网络数据釆集的系统，用于釆集发布于网站上的与 M个主题分别相关的网络文档的数据，其中 M为正整数，所述系统包括配置模块，用于根据待釆集的网络数据的网页链接地址所对应的类型，将待釆集的网络数据的网页链接地址配置到对应类型的队列中，所述待釆集的网络数据的网页链接地址为与所述 M个主题分别相关的网络文档的数据所在网页的链接地址；网页获取模块，用于获取所述对应类型的队列中的所述待釆集的网络数据的网页链接地址对应的网页源代码；数据抽取模块，用于根据所述网页源代码对应的统一资源定位符 URL信息及 URL的釆集深度值抽取所述 URL对应的网络文档的数据。

优选地，所述系统还包括刷新模块，用于根据所述网站发布与所述 M个主题分别相关的网络文档的更新频率，设置刷新时间间隔并基于所述刷新时间间隔刷新所述待釆集的网络数据的网页链接地址。

优选地，所述待釆集的网络数据的网页链接地址对应的类型包括主题名称页、列表页和内容页，所述配置模块包括网页配置模块，用于配置所述主题名称页用于提取主题名称、配置所述列表页用于提取主题章节目录或主题章节及配置所述内容页用于提取主题内容。优选地，所述配置模块还包括队列配置模块，用于将所述待釆集的网络数据的网页链接地址配置到对应类型的队列中，所述队列分配模块包括：第一分配单元，用于将类型为所述主题名称页的链接地址分配到主题名称页队列中；第二分配单元，用于将类型为所述列表页的链接地址分配到列表页队列中；第三分配单元，用于将类型为所述内容页的链接地址分配到内容页队列中。

本发明有益效果如下：

本发明一实施例釆用一网络数据釆集系统釆集网络数据，系统获取网络数据的链接地址然后配置链接地址的类型，并根据链接地址的类型将链接地址放入对应的队列中。从队列中获取链接地址对应的源代码，根据源代码中对应的 URL信息及 URL的釆集深度值提取网络数据的信息，从而达到实时釆集网络数据的技术效果。

进一步，还釆用了内容合并模块，可以对属于同一主题的网络文档进行合并，所以可以在实时釆集网络数据的基础上达到便捷集中浏览的效果。附图说明

图 1为本发明一实施例中的釆集方法的流程图；

图 2为本发明图 1中釆集方法的详细流程图；

图 3为本发明第一实施例的釆集系统架构图；

图 4为本发明一实施例中的配置模块的架构图；

图 5为本发明一实施例中的网页获取模块的架构图；

图 6为本发明一实施例中的数据抽取模块的架构图；

图 7为本发明第二实施例的釆集系统架构图；

图 8为本发明第三实施例的釆集系统架构图；

图 9为本发明第四实施例的釆集系统架构图。具体实施方式

为让本领域所属技术人员更清楚，更完整理解本发明，下面结合附图作详细介绍：本发明一实施例提供了一种网络数据釆集的方法，用于釆集发布于一网站上的与 M个主题分别相关的网络文档的数据，其中 M为正整数，请参考图 1 , 图 1为本实施例中的釆集方法的流程图。如图 1所示，釆集数据的方法包括：

步骤 11：根据待釆集的网络数据的网页链接地址所对应的类型，将待釆集的网络数据的网页链接地址配置到对应类型的队列中，所述待釆集的网络数据的网页链接地址为与所述 M个主题分别相关的网络文档的数据所在网页的链接地址；

步骤 12:获取所述对应类型的队列中的所述待釆集的网络数据的网页链接地址对应的网页源代码；

步骤 13: 根据所述网页源代码对应的统一资源定位符（Uniform Resource Locator, URL )信息及所述 URL的釆集深度值抽取所述 URL对应的网络文档的数据。

在步骤 11中，网站上所发布的 M个主题可以为 M部网络文学作品，为方便理解本发明，以下实施例以网络文学为例，但并不限于网络文学。网络文学具有不同于例如网络新闻等主题的发布结构。一般的网络新闻都是单篇的，而网络文学作品发表在网站上一般有 2种形式呈现。一种是类似于小说阅读网站的 "文学名称- >章节目录页- >具体的某一章节的网络文学内容页"，有的网络文学还会在 "章节目录页" 前存在 "卷" 的概念；另外一种则是类似普通新闻网站的内容目录网页，不同文学作品的章节会穿插在一起呈现，但会在标题中以类似 "文学作品名称（5 )，，的形式来标明是同一个作品中的不同章节。

对不同结构的网络文学作品的网络文档的数据进行釆集，应先获取网络文档的数据所在网页的链接地址。在本实施例中，根据网络文学作品在网站上发布的结构，网络文档的数据一般包括网络文档所属的网络文学作品的名称、网络文档所属的网络文学作品中卷及 /或章节的名称、网络文档的正文内容。相应地，网络文档的数据所在的网页的链接地址对应的类型包括：主题名称页，用于提取网络文档所属的网络文学作品的名称；列表页，用于提取网络文学作品的章节目录链接和章节链接，其中，章节目录包括网络文学的卷目录和章目录；内容页，用于提取主题正文内容。

在本实施例中，将 M个网络文学的数据所在的网页的链接地址根据其类型分别放入不同队列中。具体地，将类型为主题名称页的链接地址分配到主题名称页队列中；将类型为列表页的链接地址分配到列表页队列中；将类型为内容页的链接地址分配到内容页队列中。例如 A网站上发布有三部网络文学作品，分别为 Al、 A2、 A3。其中， A1在网站 A 上的发表结构为：文学名称- >卷目录 ->章目录 ->具体的某一章节的网络文学内容页； A2在网站 A上的发表结构为：文学名称- >章目录 ->具体的某一章节的网络文学内容页； A3在网站 A上的发表结构为：章名称 ->具体的某一章节的网络文学内容页， A3 的章名称即为 A3的作品名称与章数的结合，例如 A3的第一章的章名称是： A3 (—）； A3的第五章的章名称是 A3 (五）。在针对网站 A进行的一次釆集过程起始时，将具有 A1作品的名称的网页的链接地址 B 1放入主题名称页队列中；将具有 A2作品的名称的网页的链接地址 B2放入主题名称页队列中；将具有 A3作品的章节链接的地址 B3放入列表页队列中等待被釆集。而内容页队列在釆集起始时，并不会有待釆集的链接地址放入。在实际的釆集过程中，由于网络文档会定时更新但更新频率不会像网络新闻和论坛信息那样快速，故可以釆用定时刷新的策略，当然也可以釆用自适应刷新的策略，即根据网站自身发布不同网络文学作品的频率自动调整刷新间隔。当检测到有网络文学作品到了其刷新间隔时间，则将刷新的待釆集的网络数据的网页链接地址放入到其对应类型的队列中。

在步骤 12 中，获取各个队列中的待釆集的网络数据的网页链接地址对应的网页源代码具体为根据系统设定的 URL获取策略，例如根据系统运行情况或者各队列的情况，本领域技术人员在实际操作时可根据时间需要设定 URL 的获取策略，从各个队列中获取一个待釆集的链接地址，然后系统通过 Http请求的方式获取网页源代码。在本实施例中，例如针对网站 A上的三部网络文学作品的釆集起始时，从主题名称页队列中提取的待釆集的网络数据的网页链接地址 B 1、 B2, 根据系统设定的 URL获取策略分别获取 B 1对应的网页源代码和 B2对应的网页源代码；从列表页队列中提取待釆集的网络数据的网页链接地址 B3并根据系统设定的 URL获取策略获取其网页源代码。

在步骤 13中，网页源代码对应的 URL信息包括网络文学作品名称、章节目录及章节链接、正文内容的链接。 URL的釆集深度值根据网络文学作品的结构配置，具体为：

'第一阈值，表示作品结构为 "名称→卷→章节→内容"]

N_ft^ = 第二阈值，表示作品结构为 "名称→章节→内容"

第三阈值，表示作品结构为 "章节→内容"

在本实施例中，第一阈值为 3 , 第二阈值为 2, 第三阈值为 1 , 当然本领域技术人员也可以釆用其他数值或标记来标示不同的阈值，为方便说明本发明，以下以第一阈值为 3、第二阈值为 2、第三阈值为 1进行举例说明，按照网络文学作品的结构配置的釆集深度值可以结合网站 A上发布的 Al、 A2、 A3进行理解。当从主题名称页队列中获取链接地址 B1后，根据 B1对应的源代码获取对应的 URL (即 URL-A1 ), 而 A1的结构为 "文学名称 ->卷目录 ->章目录 ->具体的某一章节的网络文学内容页"，则 URL-A1的釆集深度值应为 3。同理， A2的结构为 "文学名称- >章目录 ->具体的某一章节的网络文学内容页，，，则根据 B2 得到的源代码所对应的 URL (即 URL-A2 )的釆集深度值为 2; A3的结构为 "章名称- >具体的某一章节的网络文学内容页"，则根据 B3得到的源代码所对应的 URL (即 URL-A3 ) 的釆集深度值为 3。

步骤 13具体包括：（请参考图 2 )

步骤 131 : 根据从主题名称页队列中获取的主题名称页的链接地址对应的网页源代码所对应的 URL信息及 URL釆集深度值，抽取 URL对应的网络文档的数据。步骤 132: 根据从列表页队列中获取的列表页的链接地址对应的网页源代码所对应的

URL信息及 URL釆集深度值，抽取 URL对应的网络文档的数据。

步骤 133：根据从内容页队列中获取的内容页的链接地址对应的网页源代码所对应的 URL, 从网页源代码中抽取主题的章节标题、章节正文内容，并从网页源代码对应的 URL 中抽取所述章节标题对应章节的章节 ID。

上述步骤 131、 132、 133在实现时没有先后顺序的限制，只要当各个队列中有需要待釆集的链接地址时，就可以对待釆集的链接地址进行釆集，获取待釆集的网络数据的网页链接地址对应的网页源代码并根据网页源代码对应的 URL信息及 URL 釆集深度值抽取 URL对应的网络文档的数据，下面将详细说明各步骤中对网络文档数据进行抽取的过程。

在步骤 131中，抽取 URL对应的网络文档的数据具体为：

若 URL的釆集深度值为 3 , 则抽取主题的名称及该名称对应的 URL, 并将该名称对应的 URL的釆集深度值标记为第二阈值后加入到列表页队列中；

若 URL的釆集深度值为 2, 则抽取主题的名称及该名称对应的 URL, 并将该名称对应的 URL的釆集深度标记为 1后加入到列表页队列中。

在本实施例中，从主题名称页队列中提取的链接地址为 A1的链接地址 B 1及 A2的链接地址 B2。因 B1对应源代码所对应的 URL-A1的釆集深度值为 3 , 则应抽取 A1的主题名称，用 "名称 A1" 表示。还应抽取 "名称 A1" 对应的 URL, 用 "URL-A11" 表示，并将 "URL-A11" 的釆集深度值标记为 2后加入到列表页队列中，以便抽取 URL-A11 中属于作品 A1的其他信息。而对于链接地址 B2, 因 URL-A2的釆集深度值为 2, 故应抽取 A2 的主题名称，用 "名称 A2" 表示。还应抽取 "名称 A2" 对应的 URL, 用 "URL-A21" 表示，并将 "URL-A21" 的釆集深度值标记为 1后加入到列表页队列中，以便抽取 URL-A21 中属于作品 A2的其他信息。

在步骤 132中，抽取 URL对应的网络文档数据具体为：

若 URL的釆集深度值为 2, 则抽取主题的章节目录及章节目录对应的 URL, 并将章节目录对应的 URL的釆集深度值标记为 1后加入到列表页队列中；

若 URL的釆集深度值为 1 , 则判断网页源代码对应的 URL是否存在上级 URL:

若是，则抽取主题的章节标题及章节标题对应章节的 URL, 并将章节的 URL加入到内容页队列中；

若否，则抽取主题的名称、主题的章节标题及章节标题对应章节的 URL, 并将章节的 URL加入到内容页队列中。

在本实施例中，列表页队列中在经过步骤 131 后已存放了待釆集的 URL-A11 和 URL-A2L 另外，在针对网站 Al 的网络文学作品釆集的起始时，已经将作品 A3对应的链接地址 B3放入列表页队列中。

对于 URL-A11,其釆集深度值为 2 , 则抽取 A1的章节目录及章节目录对应的 URL, 用 "URL-A12" 表示。将 URL-A12的釆集深度值标记为 1后加入到列表页队列中。

对于 URL-A21 , 其釆集深度值为 1且其存有上级 URL (及 URL-A21 )，故抽取 A2的章节标题及章节标题对应章节的 URL, 用 "URL-A22" 表示，并将 URL-A22加入到内容页队列中。

对于列表页队列中的 B3 , 因为 B3对应源代码所对应的 URL-A3的釆集深度值为 1且不具有上级 URL, 故抽取 A3的名称，用 "名称 A3"表示、章节标题，还应抽取章节标题对应章节的 URL, 用 "URL-A31" 表示并将 URL-A31加入到内容页队列中。

在步骤 133中，若章节正文存在分页，则需要提取下一页的链接地址，并同时标记当前页的页码以及下一页的页码并将下一页的链接地址加入到内容页队列中等待釆集。

进而，以章节正文内容的第一页链接为唯一键值，存放分页的内容，当釆集到最后一页时给予结束标识。

进一步地，还可以将抽取出的所有分页的正文内容合并到一起，结合章节标题进行输出。

再进一步地，将网站、主题的名称、主题的章节标题、章节 ID、章节正文内容上载到数据库中。其中，也可以将章节正文内容以附件的形式存储到文件服务器并将存放文件的路径记录到数据库中。

在本实施例中，对网络数据的釆集和合并的方法可以使得网络文学以一本书的形式展现，进一步地，釆用自动刷新釆集数据可以实现数据的实时釆集，所以本实施例可以获得实时、便捷、集中浏览网络文学作品的有益效果。

本发明第一实施例提供了一种网络数据釆集的系统，用于釆集发布于一网站上的与 M 个主题分别相关的网络文档的数据，其中 M为正整数，请参考图 3 , 图 3为本实施例中的釆集系统的架构图。如图 3所示，釆集数据的系统包括配置模块 31、网页获取模块 32、数据抽取模块 33。配置模块 31用于根据待釆集的网络数据的网页链接地址所对应的类型，将待釆集的网络数据的网页链接地址配置到对应类型的队列中，待釆集的网络数据的网页链接地址为与 M个主题分别相关的网络文档的数据所在网页的链接地址。

网页获取模块 32 用于获取对应类型的队列中的待釆集的网络数据的网页链接地址对应的网页源代码。数据抽取模块 33用于根据网页源代码对应的 URL信息及 URL的釆集深度值抽取 URL对应的网络文档的数据。本实施例中，待釆集的网络数据的网页链接地址对应的类型包括主题名称页、列表页和内容页。请参考图 4, 配置模块 31包括网页配置模块 311 , 用于配置主题名称页用于提取主题名称、配置列表页用于提取主题章节目录或主题章节及配置内容页用于提取主题内容。

请继续参考图 4, 配置模块 31还包括队列配置模块 312, 用于将所述待釆集的网络数据的网页链接地址配置到对应类型的队列中。队列分配模块 312还包括包括：第一分配单元 3121 , 用于将类型为主题名称页的链接地址分配到主题名称页队列中；第二分配单元 3122, 用于将类型为列表页的链接地址分配到列表页队列中；第三分配单元 3123 , 用于将类型为内容页的链接地址分配到内容页队列中。

本实施例中，网页获取模块 32包括：第一获取单元 321 , 用于在主题名称页队列中获取主题名称页的链接地址对应的网页源代码。第二获取单元 322, 用于在列表页队列中获取列表页的链接地址对应的网页源代码。第三获取单元 323 , 用于在内容页队列中获取内容页的链接地址对应的网页源代码。请参考图 5。

本实施例中，数据抽取模块 33还包括：第一抽取单元 331 , 用于当网页源代码对应 URL的釆集深度值为第一阈值时，抽取主题的名称及名称对应的 URL,并将名称对应 URL 的釆集深度值标记为第二阈值后发送到第二分配单元 3122中。第二抽取单元 332, 用于当网页源代码对应 URL的釆集深度值为第二阈值，抽取主题的名称及名称对应的 URL, 并将名称对应 URL的釆集深度值标记为第三阈值后发送到第二分配单元 3122中。第三抽取单元 333 , 用于当网页源代码对应 URL的釆集深度值为第二阈值，则抽取主题的章节目录及章节目录的 URL, 并将章节目录的 URL的釆集深度值标记为第三阈值后发送到第二分配单元 3122中。第四抽取单元 334,用于判断网页源代码对应的 URL是否存在上级 URL, 并当判断结果为是时，抽取主题的章节标题及章节标题对应章节的 URL,并将章节的 URL 发送到第三分配单元 3123中，当判断结果为否时，抽取主题的名称、章节标题及章节标题对应章节的 URL, 并将章节的 URL发送到第三分配单元 3123中。第五抽取单元 335 , 用于从网页源代码中抽取主题的章节标题、章节正文内容，并从网页源代码对应的 URL 中抽取章节标题对应章节的章节 ID。分页判断单元 336, 用于判断章节正文内容是否存在分页；当章节正文内容存在分页时，第五抽取单元 335还用于提取下一页的链接地址并同时标记当前页的页码以及下一页的页码并将下一页的链接地址发送到第三分配单元 3123 中。分页存放单元 337, 用于以章节正文内容的第一页链接为唯一键值，存放分页的内容，并当釆集到最后一页时给予结束标识。请参考图 6。

在第二实施例中，与第一实施例不同的是系统还包括刷新模块 34, 用于根据所述网站发布与所述 M个主题分别相关的网络文档的更新频率，设置刷新时间间隔并基于所述刷新时间间隔刷新所述待釆集的网络数据的网页链接地址。本实施例请参考图 7。

在第三实施例中，与第一、第二实施例不同的是系统还包括内容合并模块 35 , 用于将抽取出的所有分页的正文内容合并到一起，并结合章节标题进行输出。本实施例请参考图 8。

在实施例中也可以结合第二实施例中的刷新模块进行釆集工作，为了说明书的筒洁，本处不再对结合使用的系统进行详细的介绍。

在第四实施例中，与第一、第二、第三实施例都不同的是系统还包括第一数据存储模块 36, 用于将网站、主题的名称、主题的章节标题、章节 ID、章节正文内容上载到数据库中。第二数据存储模块 37, 用于当章节正文内容可能占用较多数据库空间时，选择该数据库将网站、主题的名称、主题的章节标题、章节 ID、章节正文内容的存放路径上载到数据库中，其中，章节正文内容存放路径是指将章节正文内容以附件的形式存储到文件服务器的路径。本实施例请参考图 9。

在本实施例中也可以结合第二实施例中的刷新模块进行釆集工作，为了说明书的筒洁，本处不再对结合使用的系统进行详细的介绍。

上述第一、第二、第三及第四实施例中的系统可以根据本发明提供的一种网络数据釆集方法的实施例中对方法及其各种变化形式的描述进行实施。本处为了说明书的筒洁，所以不再详述。

本发明一实施例釆用一网络数据釆集系统釆集网络数据，系统获取网络数据的链接地址然后配置链接地址的类型，并根据链接地址的类型将链接地址放入对应的队列中。从队列中获取链接地址对应的源代码，根据源代码中对应的 URL信息及 URL的釆集深度值提取网络数据的信息，从而达到实时釆集网络数据的技术效果。进一步，还釆用了内容合并模块，可以对属于同一主题的网络文档进行合并，所以可以在实时釆集网络数据的基础上达到便捷集中浏览的效果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可釆用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可釆用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介盾（包括但不限于磁盘存储器、 CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和 /或方框、以及流程图和 /或方框图中的流程和 /或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1、一种网络数据釆集的方法，用于釆集发布于网站上的与 M个主题分别相关的网络文档的数据，其中 M为正整数，其特征在于，所述方法包括：

根据待釆集的网络数据的网页链接地址所对应的类型，将所述待釆集的网络数据的网页链接地址配置到对应类型的队列中，所述待釆集的网络数据的网页链接地址为与所述 M 个主题分别相关的网络文档的数据所在网页的链接地址；

获取所述对应类型的队列中的所述待釆集的网络数据的网页链接地址对应的网页源代码；

根据所述网页源代码对应的统一资源定位符 URL信息及 URL的釆集深度值抽取所述 URL对应的网络文档的数据。

2、如权利要求 1所述的方法，其特征在于，所述方法还包括：

根据所述网站发布与所述 M个主题分别相关的网络文档的更新频率，设置刷新时间间隔；以及

基于所述刷新时间间隔刷新所述待釆集的网络数据的网页链接地址。

3、如权利要求 1所述的方法，其特征在于，所述 M个主题中每个主题为一部网络文学，所述方法还包括：根据所述网络文学的结构配置所述 URL的釆集深度值，具体为：

第一阈值，表示作品结构为 "名称→卷→章节→内容"]

N_Deep = 第二阈值，表示作品结构为 "名称→章节→内容"

第三阈值，表示作品结构为 "章节→内容"

4、如权利要求 1所述的方法，其特征在于，所述待釆集的网络数据的网页链接地址对应的类型包括主题名称页、列表页和内容页，配置所述主题名称页用于提取主题名称；配置所述列表页用于提取主题章节目录或主题章节；配置所述内容页用于提取主题正文内容。

5、如权利要求 4所述的方法，其特征在于，所述将所述待釆集的网络数据的网页链接地址配置到对应类型的队列中，具体包括：

将类型为所述主题名称页的链接地址分配到主题名称页队列中；

将类型为所述列表页的链接地址分配到列表页队列中；

将类型为所述内容页的链接地址分配到内容页队列中。

6、如权利要求 5所述的方法，其特征在于，所述获取所述对应类型的队列中的所述待釆集的网络数据的网页链接地址对应的网页源代码具体为：在所述主题名称页队列中获取所述主题名称页的链接地址对应的网页源代码。

7、如权利要求 6所述的方法，其特征在于，所述根据所述网页源代码对应的 URL信息及所述 URL的釆集深度值抽取所述 URL对应的网络文档的数据，具体为：

若釆集深度值为第一阈值，则抽取主题的名称及所述名称对应的 URL, 并将所述名称对应的 URL的釆集深度值标记为第二阈值后加入到所述列表页队列中；

若釆集深度值为第二阈值，则抽取主题的名称及所述名称对应的 URL, 并将所述名称对应的 URL的釆集深度值标记为第三阈值后加入到所述列表页队列中。

8、如权利要求 5所述的方法，其特征在于，所述获取所述对应类型的队列中的所述待釆集的网络数据的网页链接地址对应的网页源代码具体为：

在所述列表页队列中获取所述列表页的链接地址对应的网页源代码。

9、如权利要求 8所述的方法，其特征在于，所述根据所述网页源代码对应的 URL信息及所述 URL的釆集深度值抽取所述 URL对应的网络文档的数据具体为：

若釆集深度值为第二阈值，则抽取主题的章节目录及所述章节目录对应的 URL, 并将所述章节目录对应的 URL的釆集深度值标记为第三阈值后加入到所述列表页队列中；若釆集深度值为第三阈值，则判断所述网页源代码对应的 URL是否存在上级 URL: 若是，则抽取主题的章节标题及所述章节标题对应章节的 URL,并将所述章节的 URL 加入到所述内容页队列中；

若否，则抽取主题的名称、主题的章节标题及所述章节标题对应章节的 URL, 并将所述章节的 URL加入到所述内容页队列中。

10、如权利要求 5所述的方法，其特征在于，所述获取所述对应类型的队列中的所述待釆集的网络数据的网页链接地址对应的网页源代码具体为：

在所述内容页队列中获取所述内容页的链接地址对应的网页源代码。

11、如权利要求 10所述的方法，其特征在于，所述根据所述网页源代码对应的 URL 信息及所述 URL的釆集深度值抽取所述 URL对应的网络文档的数据具体为：

从所述网页源代码中抽取主题的章节标题、章节正文内容，并从所述网页源代码对应的 URL中抽取所述章节标题对应章节的章节 ID。

12、如权利要求 11所述的方法，其特征在于，所述方法还包括：

当所述章节正文内容存在分页时，提取下一页的链接地址，并同时标记当前页的页码以及下一页的页码并将下一页的链接地址加入到所述内容页队列中等待釆集。

13、如权利要求 12所述的方法，其特征在于，所述方法还包括：

以所述章节正文内容的第一页链接为唯一键值，存放所述分页的内容，当釆集到最后一页时给予结束标识。

14、如权利要求 13所述的方法，其特征在于，所述方法还包括：

将抽取出的所有分页的正文内容合并到一起，结合所述章节标题进行输出。

15、一种网络数据釆集的系统，用于釆集发布于网站上的与 M个主题分别相关的网络文档的数据，其中 M为正整数，其特征在于，所述系统包括：

配置模块，用于根据待釆集的网络数据的网页链接地址所对应的类型，将待釆集的网络数据的网页链接地址配置到对应类型的队列中，所述待釆集的网络数据的网页链接地址为与所述 M个主题分别相关的网络文档的数据所在网页的链接地址；

网页获取模块，用于获取所述对应类型的队列中的所述待釆集的网络数据的网页链接地址对应的网页源代码；

数据抽取模块，用于根据所述网页源代码对应的统一资源定位符 URL信息及 URL的釆集深度值抽取所述 URL对应的网络文档的数据。

16、如权利要求 15 所述的系统，其特征在于，所述系统还包括：刷新模块，用于根据所述网站发布与所述 M个主题分别相关的网络文档的更新频率，设置刷新时间间隔并基于所述刷新时间间隔刷新所述待釆集的网络数据的网页链接地址。

17、如权利要求 15所述的系统，其特征在于，所述待釆集的网络数据的网页链接地址对应的类型包括主题名称页、列表页和内容页，所述配置模块包括：网页配置模块，用于配置所述主题名称页用于提取主题名称、配置所述列表页用于提取主题章节目录或主题章节及配置所述内容页用于提取主题内容。

18、如权利要求 17所述的系统，其特征在于，所述配置模块还包括：队列配置模块，用于将所述待釆集的网络数据的网页链接地址配置到对应类型的队列中，所述队列分配模块包括：

第一分配单元，用于将类型为所述主题名称页的链接地址分配到主题名称页队列中；第二分配单元，用于将类型为所述列表页的链接地址分配到列表页队列中；第三分配单元，用于将类型为所述内容页的链接地址分配到内容页队列中。