WO2021098242A1

WO2021098242A1 - 页面处理方法、装置、电子设备和计算机可读介质

Info

Publication number: WO2021098242A1
Application number: PCT/CN2020/101910
Authority: WO
Inventors: 雷小强; 王云飞
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2020-02-27
Filing date: 2020-07-14
Publication date: 2021-05-27
Anticipated expiration: 2022-08-27
Also published as: JP2022512056A; US12353574B2; US20220114269A1; EP3851981A4; CN111353112A; EP3851981A1; JP7212771B2

Abstract

在深度学习和智能搜索技术领域，具体提供了一种页面处理方法、装置、电子设备和计算机可读介质，该方法包括：根据获取的超文本标记语言HTML文件，确定页面的多个布局对象节点（S110）；对页面的多个布局对象节点进行布局后，利用预设的召回规则，对所述多个布局对象节点进行筛选，得到符合召回规则的布局对象节点（S120）；预测符合召回规则的布局对象节点是否为指定目标节点（S130）；对指定目标节点进行屏蔽处理，利用屏蔽处理后剩余的布局对象节点，生成经屏蔽处理后的页面（S140）。

Description

页面处理方法、装置、电子设备和计算机可读介质

技术领域

本公开实施例涉及深度学习、智能搜索技术领域，特别涉及一种页面处理方法、装置、电子设备和计算机可读介质。

背景技术

随着移动互联网的全面普及，越来越多的站点在移动场景下进行广告营销和应用推广。一方面，受限于移动设备屏幕的限制，广告等元素对用户的浏览体验的影响越来越明显；另一方面，一些站点为了最大限度地获取短的利益，在网站上挂载大量虚假、色情以及诱骗用户形式的广告元素，严重影响用户的浏览体验，破坏了移动生态安全。

因此，应当对网站显示的页面内容进行过滤，为移动搜索生态安全提供保障，从而提升用户浏览体验。

发明内容

本公开实施例提供一种页面处理方法、装置、电子设备和计算机可读介质。

第一方面，本公开实施例提供一种页面处理方法，包括：根据获取的超文本标记语言HTML文件，确定页面的多个布局对象节点；对页面的多个布局对象节点进行布局后，利用预设的召回规则，对所述多个布局对象节点进行筛选，得到符合召回规则的布局对象节点；预测符合召回规则的布局对象节点是否为指定目标节点；对指定目标节点进行屏蔽处理，利用屏蔽处理后剩余的布局对象节点，生成经屏蔽处理后的页面。

第二方面，本公开实施例提供一种页面处理装置，包括：节点确定模块，用于根据获取的超文本标记语言HTML文件，确定页面的多个布局对象节点；节点筛选模块，用于对页面的多个布局对象节点进行布局后，利用预设的召回规则，对所述多个布局对象节点进行筛选，得到符合召回规则的布局对象节点；预测模块，用于预测符合召回规则的布局对象节点是否为指定目标节点；屏蔽处理模块，用于对指定目标节点进行屏蔽处理，利用屏蔽处理后剩余的布局对象节点，生成经屏蔽处理后的页面。

第三方面，本公开实施例提供一种电子设备，其包括：一个或多个处理器；存储器，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器上述任意一种页面处理方法；一个或多个I/O接口，连接在处理器与存储器之间，配置为实现处理器与存储器的信息交互。

第四方面，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现上述任意一种页面处理方法。

本公开实施例提供的页面处理方法、装置、电子设备和计算机可读介质，采用召回规则与节点预测模型结合的方式对页面进行处理，针对经过召回规则筛选后的布局对象节点，再利用节点预测模型进行判定是否影响浏览体验，从而对预测得到的影响浏览体验的布局对象节点进行屏蔽处理，整体上优化页面浏览体验，为移动搜索生态安全提供保障。

附图说明

附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其它特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开实施例提供的一种页面处理的架构示意图；

图2为本公开一实施例的页面处理方法的流程图；

图3为本公开示例性实施例中召回规则的示意图；

图4为本公开另一实施例的页面处理方法的流程图；

图5为本公开页面处理方法的效果示意图；

图6为本公开实施例提供的一种页面处理装置的组成框图；

图7为本公开实施例提供的一种电子设备的组成框图；

图8为本公开实施例提供的一种计算机可读介质的组成框图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供的页面处理方法、装置、电子设备和计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。

图1是本公开一实施例的页面处理的架构示意图。如图1所示，该架构可以包括：移动设备20和网站30，其中，移动设备20可以包括浏览器内核21、内存22和显示屏23；网站30中可以包括多个页面31。

其中，移动设备20可以包括但不限于：个人电脑、智能手机、平板电脑、个人数字助理、服务器等。它们均可以安装有各种应用(App)，例如邮箱App等。

本公开实施例中的页面31，包括但不限于是落地页。落地页可以用于表示独立的网页，并可以用于营销或广告活动，例如用户或访问者通过点击搜索出来的广告或通过付费搜索渠道点击进入的页面。

在一个实施例中，当用户10通过移动设备20访问网站30，并点击网站30中的一个页面31的统一资源定位器(Uniform Resource Locator，URL)后，浏览内核21根据URL发起超文本标记语言(Hypertext Markup Language，HTML)文件下载，并对下载得到的HTML文件进行解析得到DOM(Document Object Model)树，同时在解析得到HTML文件上的层叠样式表(Cascading Style Sheets，CSS)以及脚本语言(JavaScript，JS)文件等资源链接时，发起CSS文件下载和JS文件下载，下载得到的CSS文件和JS文件保存在内存22中。

由于网页站点的行为变化非常快，通过配置规则集合无法穷举所有的类型和页面；且不是所有的广告都是影响用户浏览体验，当广告元素处于不影响页面主体内容浏览的位置且不存在诱导等行为时，是正常的商业行为，如果大面积误伤，也会破坏正常的互联网生态。但是目前很多方案无法区分处理上述正常商业行为的广告和影响用户浏览体验的广告；如果基于规则集对网页站点中的页面元素进行过滤，当规则集合过大时，网页加载的速度会受到明显的影响。

本公开实施例可以提供一种页面处理方法，在移动设备20的显示屏23显示页面31之前，通过在浏览器内核21渲染阶段智能识别页面31中页面元素的类型，并自动屏蔽影响用户浏览体验的页面元素，当页面31完成渲染后，用户10所看到的是经过优化后的页面，大幅度提升了用户浏览体验并为移动搜索生态安全提供了保障。

下面各实施例均可以应用于本实施例的系统架构。为了描述简洁，下面各个实施例可以相互参考和引用。

图2为本公开一实施例的页面处理方法的流程图。如图2所示，该页面处理方法可以包括如下步骤。

S110，根据获取的超文本标记语言HTML文件，确定页面的多个布局对象节点。

S120，对页面的多个布局对象节点进行布局后，利用预设的召回规则，对多个布局对象节点进行筛选，得到符合召回规则的布局对象节点。

S130，预测符合召回规则的布局对象节点是否为指定目标节点。

S140，对指定目标节点进行屏蔽处理，利用屏蔽处理后剩余的布局对象节点，生成经屏蔽处理后的页面。

根据本公开实施例的页面处理方法，采用召回规则与节点预测模型结合的方式对页面进行处理，经过召回规则筛选后的布局对象节点，利用节点预测模型进行判定是否影响浏览体验，从而对预测得到的影响浏览体验的布局对象节点进行屏蔽处理，生成经所述屏蔽处理后的页面，从整体上优化页面浏览体验，为移动搜索生态安全提供保障。

在本公开实施例中，由于渲染内核处理网页的过程非常复杂，从处理性能和用户体验的角度出发，选择一个合适的时机隐藏目标节点显得异常重要。对布局对象节点的布局(layout)，表示安排和计算布局对象节点的宽、高、位置等几何信息的过程。如果简单地在页面每次整体布局完成的时候进行广告识别，并重新对整个页面进行布局，这样虽然能完成识别，但是由于网页在展现的时候需要进行几十甚至上百次的布局，同时需要遍历整个页面进行目标节点识别，遍历和重新布局都会耗费时间，对整个页面的加载时间会产生非常大的影响，直接导致整个网页加载感知上变慢。

因此，为了能达到最好的性能和用户体验，本公开实施例的页面处理方法可以不用遍历整个页面，并且不用整个页面重新布局，而主动触发局部布局。具体地，在上述步骤S120，对页面的多个布局对象节点进行布局后，即可利用预设的召回规则，对布局对象节点进行筛选。

也就是说，本公开实施例中，页面上每个节点在布局时都会调用自己的布局方法，从而避免遍历DOM树，在该节点布局完成后，若该节点被识别为影响浏览体验的目标节点，则对该目标节点进行屏蔽处理，例如设置目标节点的状态为隐藏，并重新设置内核布局状态，主动发起内核重布局，从而可以直接在局部对该节点进行布局，避免在整个页面级别的重新布局。

在一个实施例中，步骤S110具体可以包括：S21，解析HTML文件，得到文档对象模型DOM和层叠样式表CSS；S22，解析CSS，得到DOM中HTML元素节点的样式数据；S23，根据DOM中需要进行渲染的HTML元素节点和样式数据，确定页面的多个布局对象节点。

其中，每个布局对象节点与需要进行渲染的一个HTML元素节点相对应，且每个布局对象节点的样式数据为对应的HTML元素节点的样式数据。

在该实施例中，文档对象模型DOM可以是树结构的DOM，即DOM树；多个布局对象节点可以是布局对象Layout Object树中的节点；建立Layout Object树并进行布局后，Layout Object树的节点可以具有坐标、宽、高等一系列的属性信息。

也就是说，在该实施例中，Layout Object树中的每个节点与DOM中需要进行渲染的HTML元素节点相对应，将用来描述DOM树中HTML元素节点的CSS属性对象设置给新创建的Layout Object树中的布局对象节点，以便Layout Object树中的布局对象节点可以根据CSS中的样式数据进行绘制。

在一个实施例中，若解析HTML文件得到脚本文件链接，则在步骤S23之前，还可以包括：S31，下载并执行脚本文件链接对应的脚本文件，得到脚本文件对应的HTML元素节点；S32，将脚本文件对应的HTML元素节点，作为符合召回规则的布局对象节点。

也就是说，在一些实施例中，在确定页面的多个布局对象节点之后，该页面处理方法还可以包括：若所述多个布局对象节点中包括通过脚本文件加载的布局对象节点，则将所述通过脚本文件加载的布局对象节点，作为符合所述召回规则的布局对象节点。

在该实施例中，由于很多影响浏览体验的目标节点多为JS动态加载的，因此可以根据节点是否由JS加载的特点，将脚本文件对应的HTML元素节点，作为符合召回规则的布局对象节点，以对待识别的节点进行初过滤，从而通过异步加载的JS资源触发节点重布局，有效减少了后续使用节点预测模型通过预测对影响浏览体验的节点进行识别的时间。

图3示出本公开示例性实施例中召回规则的示意图。在本公开实施例中，可以将利用预设的召回规则，对布局对象节点进行筛选，称为基于规则的粗召回。

如图3所示，在基于规则的粗召回中，可以从节点宽高占比、节点内嵌形式、节点位置特征、节点内容、节点产生机制和节点结构等方面设置节点召回条件。

也就是说，召回规则可以包括：预先根据节点宽高占比、节点内嵌形式、节点位置特征、节点内容、节点产生机制和节点结构中的至少一项进行设置的规则。

在一个实施例中，步骤S120，具体可以包括：S41，对页面的多个布局对象节点进行布局，得到经布局的布局对象节点的属性信息；S42，判断属性信息是否符合召回规则中限定的节点召回条件；S43，将满足节点召回条件的布局对象节点，作为符合召回规则的布局对象节点。

作为一个示例，根据节点宽高占比设置的规则，包括将节点高度占比小于高度占比阈值，和/或宽度占比小于宽度占比阈值的节点作为符合召回规则的节点。在该示例中，影响浏览体验的节点极少会霸占整屏，大多以穿插或者悬浮的形式存在页面中，高度占据屏幕例如75％的节点不是目标节点的概率非常大，宽度占比小于宽度占比阈值的其他节点的子节点均可过滤掉。

作为一个示例，根据节点内嵌形式设置的规则，包括将指定内嵌形式的节点，作为符合召回规则的节点。例如，根据数据分析发现，内嵌框架iframe节点中是目标节点常用的寄生场所，节点中包含多数广告厂商的内嵌数据，因此有iframe的节点也被纳入到疑似目标节点的集合中。

作为一个示例，根据节点位置特征设置的规则包括：将节点位置特征包括悬浮型的节点，作为符合召回规则的节点。在该示例中，目标节点相对于页面有固定、内嵌、悬浮等形式，其中悬浮型的目标节点对浏览体验的影响最为恶劣，会遮挡有效信息并强制用户关闭，因此悬浮型的节点也都被列入到疑似目标节点集合。

作为一个示例，根据节点内容特征设置的规则包括：将具有指定类型内容的节点，作为符合召回规则的节点。在该示例中，如果节点内的文本、图片、交互型等内容比较丰富，很大概率是非目标节点。

作为一个示例，根据节点产生机制设置的规则包括：将具有指定产生机制的节点，作为符合召回规则的节点。在该示例中，若页面中的节点包括HTML源码和JS动态生成的节点，其中JS生成节点灵活多变，大多页面的主体内容是在HTML中的，其他需要动态变化的广告、相关推荐等内容则用JS生成。因此，由JS生成的节点是目标节点的可能性很大。

作为一个示例，根据节点结构特征设置的规则包括：将具有指定结构的节点，作为符合召回规则的节点。在该示例中，节点在DOM树上的结构特征也能作为过滤依据，例如，在DOM树结构中，只有纯文本的节点大多是非目标节点(不符合召回规则的节点)；以及具有div/a/img形式的块级节点，很可能是通过图片进行推广的节点。

根据本公开实施例的页面处理方法，在基于规则的粗召回中，只要命中召回规则中的任意一种规则所限定的节点召回条件，可以表示该节点有疑似目标节点的特性，既可进行后续的目标节点判断逻辑；如果所有规则都没命中，则被视为非目标节点，从而这样通过一个召回规则的筛选策略即可过滤掉大量不影响浏览体验的正常节点。

在一个实施例中，在上述步骤S130之前，还可以包括如下步骤。

S51，将符合召回规则的布局对象节点，作为初次筛选得到的布局对象节点，确定初次筛选得到的布局对象节点的节点状态。

S52，在页面的所有布局对象节点完成布局后，获取节点状态发生变化的布局对象节点。

S53，再次利用预设的召回规则，对节点状态发生变化的布局对象节点进行筛选。

S54，将初次筛选的布局对象节点和再次筛选得到的布局对象节点，作为符合召回规则的布局对象节点。

在该实施例中，在节点布局过程中，由于一些节点存在互相依赖的关系，因此在首次布局时，还没有计算准确的节点视觉信息，很难通过粗召回策略，因此需要在整体布局完成后，核查节点状态例如节点视觉信息发生变化的节点，并对节点状态重新进行粗召回策略，从而通过复查Recheck机制回捞一批在布局过程中状态发生变化后符合召回规则的节点，从而召回更多符合召回规则的节点，防止目标节点被遗漏。

在一个实施例中，步骤S130具体可以包括如下步骤。

S61，根据符合召回规则的布局对象节点的属性信息，计算符合召回规则的布局对象节点的节点特征。

S62，利用预设的节点预测模型处理节点特征，得到符合召回规则的布局对象节点为指定目标节点的概率值。

S63，根据概率值，确定符合召回规则的布局对象节点是否为指定目标节点。

在该实施例中，可以利用机器学习模型判定符合召回规则的节点是否为影响浏览体验的指定目标节点。

在一个实施例中，符合召回规则的布局对象节点，为页面的布局对象树中的节点。具体地，S61，具体可以包括如下步骤。

S71，获取符合召回规则的布局对象节点的属性信息，属性信息是在布局过程中获取的信息；S72，采用深度优先遍历的方式，利用属性信息，对布局对象树中符合召回规则的布局对象节点，进行自顶向下的特征计算，得到符合召回规则的布局对象节点的节点特征。

在一个实施例中，该节点特征可以是从节点视觉信息、节点内容和节点结构等方面抽取并计算的指定维数特征。该指定维数可以根据实际计算需求进行设置，例如指定维数大于等于10，本公开实施例对指定维数不做具体限定。

在该实施例中，采用从下到上的特征计算可在建立布局对象树的时候计算节点特征并传递至父节点，但是该模式下几乎所有的页面节点都要参与特征计算；由于节点布局时先通过召回规则进行了正常节点的过滤，因此，自顶向下的特征计算，可以对符合召回规则的布局对象节点(即疑似目标节点)采用深度优先遍历的方式有选择性的计算节点特征，从而减少计算特征的节点数目，提高节点特征计算速度。

在一个实施例中，节点预测模型，是预先利用已标注的离线渲染完成的静态页面数据训练得到的模型，且节点预测模型为具有指定的深度和指定数目颗决策树的梯度增强决策树模型。

示例性地，由于浏览器内核处理的节点特征会动态变化，在训练数据选取时可利用离线渲染完成的静态数据进行标注，设定高准确率的自动化标注工具辅助人工标注，最终组成训练数据。

示例性地，机器学习得到的节点预测模型包括梯度增强决策树模型(Gradient Boosted Decision Tree，GBDT)，预先利用标注数据训练得到该 GBDT模型，得到指定的深度和指定数目颗决策树，例如得到深度为4的100棵树的模型文件，后续直接利用该模型文件对符合召回规则的布局对象节点是否为指定目标节点进行预测。

应理解，上述训练得到的节点预测模型的深度和决策树的颗数为示例性的数值，实际应用场景中，可以根据用户的实际需求完成模型训练，本公开实施例不做具体限定。

在一个实施例中，步骤S140中，对指定目标节点进行屏蔽处理的步骤，具体可以包括如下步骤。

S81，根据指定目标节点的属性信息，计算对应的节点特性信息。

其中，节点特性信息包括在页面中的位置、宽度、高度、是否在主题内容中、以及在页面中的面积占比中的至少一种。

S82，若节点特性信息达到对应的预设的屏蔽阈值，通过设置指定目标节点的状态为隐藏，对影响浏览体验的布局对象节点进行屏蔽处理。

本公开实施例的页面处理方法提供一种目标节点的屏蔽策略，该屏蔽策略可以针对指定目标节点的特征采取有针对性的处理机制。在识别出目标节点后，可以对整体页面的目标节点的特性和面积占比进行计算，然后根据可配置的屏蔽阈值，例如针对节点在页面中的位置、宽高、是否在主题内容中等进行屏蔽，从而达到灵活屏蔽指定目标节点，维护和保证移动搜索的生态安全，并从整体上优化页面浏览体验。

在该实施例中，屏蔽影响用户浏览体验的元素，当页面完成渲染和绘制后，用户所看到的是经过优化后的页面，大幅度提升了用户浏览体验并为移动搜索生态安全提供了保障。

本公开实施例中的页面处理方法，对指定目标节点进行屏蔽处理，例如设置节点状态为隐藏，并重新设置内核布局状态，主动发起内核重布局，整个页面处理过程发生在节点绘制之前，从而保证用户在浏览页面时没有任何页面节点隐藏的抖动感知，从而整体上优化页面浏览体验。

为了更好的理解本公开中的页面处理方法，下面通过图4描述本公开另一实施例的页面处理流程。图4示出本公开另一实施例的页面处理方法的流程图。如图4所示，页面处理方法可以包括如下步骤。

S201，根据页面URL下载超文本标记语言HTML文件。

S202，经过解析器解析HTML文件得到DOM树，并在解析得到HTML文件上的CSS和JS文件资源链接时，下载并解析CSS，以及下载并执行JS文件。

在该步骤中，下载并解析CSS，得到DOM树中节点的样式数据；下载并执行JS文件后，可以得到通过JS动态加载的节点，并在DOM树中插入/添加该动态加载的节点。

S203，根据DOM树中需要进行渲染的HTML元素节点和DOM树中节点的样式数据，构建布局对象Layout Object树。

S204，在Layout Object树构建完成之后，创建布局图层Layout Layer树。

在该步骤中，可以基于Layout Layer树实现图层定位和布局。

S205，将布局对象节点树中通过JS动态加载产生的节点进行过滤，并执行S209，以触发该动态加载产生的节点的重布局。

在图4中，由于JS动态加载为异步资源加载，因此动态加载产生的节点的重布局的过程也可以称为是异步资源加载触发的节点重布局。

S206，在对Layout Object树中的节点进行布局的过程中，收集布局对象节点的属性信息。

S207，基于预设的节点预测模型，对布局对象节点是否为影响浏览体验的指定目标节点打分，根据打分结果预测该布局对象节点是否影响浏览体验。

在该步骤中，布局对象节点的分值，为布局对象节点是否为影响浏览体验的指定目标节点的概率值。

在一些实施例中，在对Layout Object树中的任一节点进行布局后，可以利用预设的召回规则，对该任一布局对象节点进行筛选，得到Layout Object树中符合所述召回规则的布局对象节点，从而在上述步骤S207中，基于预设的节点预测模型，对符合所述召回规则的布局对象节点是否为影响浏览体验的指定目标节点打分。

S208，若预测为影响浏览体验的指定目标节点，浏览器内核进行布局状态设置，并执行S209，以主动触发该布局对象节点的重布局。

在步骤S208，可以通过对指定目标节点的重布局，屏蔽处理(例如设置节点状态为隐藏)该指定目标节点。

S209，执行布局对象节点的重布局，得到重布局的屏蔽处理后的布局对象节点。

S210，基于屏蔽处理后的布局对象节点绘制页面，以将绘制的页面显示到指定的显示屏幕。

根据本公开实施例的页面布局方法，采用召回规则策略预处理与机器学习模型结合的方式完成对要渲染的节点的过滤，从而屏蔽页面中影响浏览体验的元素。

图5示出本公开实施例中页面处理的效果示意图。如图5所示，页面1中包括多个HTML对象元素对应的多个布局对象节点，例如节点1、节点2、节点3或节点4。

在图5中，页面1中的每个布局对象节点在布局时都会调用自己的布局方法，从而避免遍历DOM树。针对每个布局对象节点，可以执行如下步骤。

如图5中的S301“基于规则的粗召回”所示，对页面的多个布局对象节点进行布局后，利用预设的召回规则，对布局对象节点进行筛选，得到页面中符合召回规则的布局对象节点。

步骤S301与上述实施例中步骤S120具有相同的处理过程，本公开实施例不再赘述。

如图5中的S302“Recheck机制”所示，在页面的所有布局对象节点完成布局后，再次利用预设的召回规则，对节点状态发生变化的布局对象节点进行筛选。

步骤S302与上述实施例中的S53具有相同的处理过程，本公开实施例不再赘述。

如图5中的S303“模型召回”所示，基于预设的节点预测模型，预测符合召回规则的布局对象节点是否为指定目标节点。

步骤S303与上述实施例中步骤S130具有相同的处理过程，本公开实施例不再赘述。

如图5中的S304“屏蔽处理”所示，对指定目标节点进行屏蔽处理，利用屏蔽处理后的布局对象节点，生成经屏蔽处理后的页面。

步骤S304与上述实施例中步骤S140具有相同的处理过程，本公开实施例不再赘述。

如图5所示，当页面1完成渲染后，用户所看到的是经过优化后的页面2，大幅度提升了用户浏览体验，并为移动搜索生态安全提供了保障。

图6示出本公开实施例提供的页面处理装置的组成框图。如图6所示，该页面处理装置包括如下模块。

节点确定模块610，用于根据获取的超文本标记语言HTML文件，确定页面的多个布局对象节点。

节点筛选模块620，用于对页面的多个布局对象节点进行布局后，利用预设的召回规则，对布局对象节点进行筛选，得到符合召回规则的布局对象节点。

预测模块630，用于预测符合召回规则的布局对象节点是否为指定目标节点。

在一些实施例中，预测模块630用于基于预设的节点预测模型，预测符合召回规则的布局对象节点是否为指定目标节点。

屏蔽处理模块640，用于对指定目标节点进行屏蔽处理，利用屏蔽处理后剩余的布局对象节点，生成经屏蔽处理后的页面。

根据本公开实施例的页面处理装置，可以对网站显示的页面内容进行过滤，为移动搜索生态安全提供保障，从而提升用户浏览体验。

在一个实施例中，节点确定模块610，可以包括如下单元。

第一解析单元，用于解析HTML文件，得到文档对象模型DOM和层叠样式表CSS；第二解析单元，用于解析CSS，得到DOM中HTML元素节点的样式数据；节点确定模块610，具体用于根据DOM中需要进行渲染的HTML元素节点和样式数据，确定页面的多个布局对象节点。

在一个实施例中，若解析HTML文件得到脚本文件链接，则节点确定模块610，还可以包括：下载执行单元，用于下载并执行脚本文件链接对应的脚本文件，得到脚本文件对应的HTML元素节点；节点确定模块610，具体用于将脚本文件对应的HTML元素节点，作为符合召回规则的布局对象节点。

在一个实施例中，该节点筛选模块620还可以包括：在所述确定页面的多个布局对象节点之后，若所述多个布局对象节点中包括通过脚本文件加载的布局对象节点，则将所述通过脚本文件加载的布局对象节点，作为符合所述召回规则的布局对象节点。

在一个实施例中，节点筛选模块620具体可以包括：属性信息获取单元，用于对所述页面的任一布局对象节点进行布局，得到经所述布局的布局对象节点的属性信息；符合条件判断单元，用于判断属性信息是否符合召回规则中限定的节点召回条件；召回节点确定单元，用于将满足节点召回条件的布局对象节点，作为符合召回规则的布局对象节点。

在一个实施例中，召回规则可以包括：预先根据节点宽高占比、节点内嵌形式、节点位置特征、节点内容、节点产生机制和节点结构中的至少一项进行设置的规则。

在一个实施例中，页面处理装置还可以包括：节点状态确定模块，用于将符合召回规则的布局对象节点，作为初次筛选得到的布局对象节点，确定初次筛选得到的布局对象节点的节点状态；状态变化节点获取模块，用于在页面的所有布局对象节点完成布局后，获取节点状态发生变化的布局对象节点；节点再次筛选模块，用于再次利用预设的召回规则，对节点状态发生变化的布局对象节点进行筛选；筛选节点确定模块，用于将初次筛选的布局对象节点和再次筛选得到的布局对象节点，作为符合召回规则的布局对象节点。

在一个实施例中，模型预测模块330可以包括：特征计算单元，用于根据符合召回规则的布局对象节点的属性信息，计算符合召回规则的布局对象节点的节点特征；概率计算单元，用于利用预设的节点预测模型处理节点特征，得到符合召回规则的布局对象节点为指定目标节点的概率值；目标节点确定单元，用于根据概率值，确定符合召回规则的布局对象节点是否为指定目标节点。

在一个实施例中，符合召回规则的布局对象节点，为页面的布局对象树中的节点。

在该实施例中，特征计算单元，可以包括：属性信息收集子单元，用于获取符合召回规则的布局对象节点的属性信息，属性信息是在布局过程中获取的信息；特征计算单元，具体用于采用深度优先遍历的方式，利用属性信息，对布局对象树中符合召回规则的布局对象节点，进行自顶向下的特征计算，得到符合召回规则的布局对象节点的节点特征。

在一个实施例中，屏蔽处理模块340具体可以包括：特性计算单元，用于根据指定目标节点的属性信息，计算对应的节点特性信息，节点特性信息包括在页面中的位置、宽度、高度、是否在主题内容中、以及在页面中的面积占比中的至少一种；节点屏蔽单元，用于若节点特性信息达到对应的预设的屏蔽阈值，通过设置所述指定目标节点的状态为隐藏，对指定目标节点进行屏蔽处理。

在一个实施例中，屏蔽处理模块340具体还可以包括：绘制单元，用于利用屏蔽处理后剩余的布局对象节点进行重新布局，并利用重新布局后的布局对象节点进行绘制，得到绘制的经蔽处理后的页面。

根据本公开实施例的页面处理装置，利用规则召回和模型预测相结合的方案，对指定目标节点进行屏蔽处理，整个页面处理过程发生在节点绘制之前，从而保证用户在浏览页面时没有任何页面节点隐藏的抖动感知，从而整体上优化页面浏览体验。

图7示出本公开实施例提供的一种电子设备的组成框图；如图7所示，本公开实施例提供一种电子设备700，包括：一个或多个处理器701；

存储器702，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述任意一项的页面处理方法；一个或多个I/O接口703，连接在处理器与存储器之间，配置为实现处理器与存储器的信息交互。

其中，处理器701为具有数据处理能力的器件，其包括但不限于中央处理器(CPU)等；存储器702为具有数据存储能力的器件，其包括但不限于随机存取存储器(RAM，更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)；I/O接口(读写接口)703连接在处理器701与存储器702间，能实现处理器701与存储器702的信息交互，其包括但不限于数据总线(Bus)等。

在一些实施例中，处理器701、存储器702和I/O接口703通过总线704相互连接，进而与电子设备700的其他组件连接。

图8示出本公开实施例提供的一种计算机可读介质的组成框图。如图8所示，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现上述任意一种页面处理方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其它实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

一种页面处理方法，包括：

根据获取的超文本标记语言HTML文件，确定页面的多个布局对象节点；

对所述页面的多个布局对象节点进行布局后，利用预设的召回规则，对所述多个布局对象节点进行筛选，得到符合所述召回规则的布局对象节点；

预测符合所述召回规则的布局对象节点是否为指定目标节点；

对所述指定目标节点进行屏蔽处理，利用屏蔽处理后剩余的布局对象节点，生成经所述屏蔽处理后的页面。
根据权利要求1所述的方法，其中，在所述确定页面的多个布局对象节点之后，还包括：

若所述多个布局对象节点中包括通过脚本文件加载的布局对象节点，则将所述通过脚本文件加载的布局对象节点，作为符合所述召回规则的布局对象节点。
根据权利要求1所述的方法，其中，所述对所述页面的多个布局对象节点进行布局后，利用预设的召回规则，对所述布局对象节点进行筛选，得到所述多个布局对象节点中的符合所述召回规则的布局对象节点，包括：

对所述页面的布局对象节点进行布局，得到经所述布局的布局对象节点的属性信息；

判断所述属性信息是否符合所述召回规则中限定的节点召回条件；

将满足所述节点召回条件的布局对象节点，作为符合所述召回规则的布局对象节点。
根据权利要求3所述的方法，其中，

所述召回规则包括：预先根据节点宽高占比、节点内嵌形式、节点位置特征、节点内容、节点产生机制和节点结构中的至少一项进行设置的规则。
根据权利要求1所述的方法，其中，所述预测符合所述召回规则的布局对象节点是否为指定目标节点之前，所述方法还包括：

将符合所述召回规则的布局对象节点，作为初次筛选得到的布局对象节点，确定所述初次筛选得到的布局对象节点的节点状态；

在所述页面的所有布局对象节点完成布局后，获取节点状态发生变化的布局对象节点；

再次利用预设的召回规则，对节点状态发生变化的布局对象节点进行筛选；

将所述初次筛选的布局对象节点和所述再次筛选得到的布局对象节点，作为符合所述召回规则的布局对象节点。
根据权利要求1所述的方法，其中，所述预测符合所述召回规则的布局对象节点是否为指定目标节点，包括：

根据所述符合所述召回规则的布局对象节点的属性信息，计算所述符合所述召回规则的布局对象节点的节点特征；

利用预设的节点预测模型处理所述节点特征，得到所述符合所述召回规则的布局对象节点为所述指定目标节点的概率值；

根据所述概率值，确定所述符合所述召回规则的布局对象节点是否为所述指定目标节点。
根据权利要求6所述的方法，其中，所述符合所述召回规则的布局对象节点，为所述页面的布局对象树中的节点；所述根据所述符合所述召回规则的布局对象节点的属性信息，计算所述符合所述召回规则的布局对象节点的节点特征，包括：

获取所述符合所述召回规则的布局对象节点的属性信息，所述属性信息是在所述布局过程中获取的信息；

采用深度优先遍历的方式，利用所述属性信息，对所述布局对象树中符合所述召回规则的布局对象节点，进行自顶向下的特征计算，得到符合所述召回规则的布局对象节点的节点特征。
根据权利要求6所述的方法，其中，

所述节点预测模型，是预先利用已标注的离线渲染完成的静态页面数据训练得到的模型，且所述节点预测模型为具有指定的深度和指定数目颗决策树的梯度增强决策树模型。
根据权利要求1所述的方法，其中，所述对所述指定目标节点进行屏蔽处理，包括：

根据所述指定目标节点的属性信息，计算对应的节点特性信息，所述节点特性信息包括在所述页面中的位置、宽度、高度、是否在主题内容中、以及在所述页面中的面积占比中的至少一种；

若所述节点特性信息达到对应的预设的屏蔽阈值，通过设置所述指定目标节点的状态为隐藏，对所述指定目标节点进行屏蔽处理。
一种页面处理装置，包括：

节点确定模块，用于根据获取的超文本标记语言HTML文件，确定页面的多个布局对象节点；

节点筛选模块，用于对所述页面的多个布局对象节点进行布局后，利用预设的召回规则，对所述多个布局对象节点进行筛选，得到符合所述召回规则的布局对象节点；

预测模块，预测符合所述召回规则的布局对象节点是否为指定目标节点；

屏蔽处理模块，用于对所述指定目标节点进行屏蔽处理，利用屏蔽处理后剩余的布局对象节点，生成经所述屏蔽处理后的页面。
一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1-9任意一项所述的页面处理方法；

一个或多个I/O接口，连接在所述处理器与存储器之间，配置为实现所述处理器与存储器的信息交互。
一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-9任意一项所述的页面处理方法。