WO2017118427A1

WO2017118427A1 - 网页训练的方法和装置、搜索意图识别的方法和装置

Info

Publication number: WO2017118427A1
Application number: PCT/CN2017/070504
Authority: WO
Inventors: 王忠存
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-01-07
Filing date: 2017-01-06
Publication date: 2017-07-13
Anticipated expiration: 2018-07-07
Also published as: KR20180011254A; CN106951422A; EP3401802A4; KR102092691B1; EP3401802A1; CN106951422B; JP6526329B2; MY188760A; JP2018518788A; US20180107933A1

Abstract

一种网页训练的方法和装置，及一种搜索意图识别的方法和装置。所述网页训练的方法包括：获取人工标注类别的训练网页集合，生成训练网页集合中的网页的网页向量（S210），具体包括：获取训练网页集合中的第一训练网页的有效历史查询字符串，对有效历史查询字符串进行分词（S211）；获取各个分词的有效次数，有效次数为有效历史查询字符串中分词出现的总次数（S212）；根据各个分词的有效次数计算各个分词的分词权重（S213）；根据各个分词和对应的分词权重生成所述第一训练网页的网页向量（S214）；根据训练网页集合中的网页的人工标注类别和对应的网页向量，生成网页分类模型（S220）。所述方法和装置训练成本低，效率高，且生成网页分类模型后可自动对网页进行标注类别，使识别出的意图正确率更高。

Description

网页训练的方法和装置、搜索意图识别的方法和装置

本专利申请要求2016年01月07日提交的中国专利申请号为201610008131.3，申请人为腾讯科技(深圳)有限公司，发明名称为“网页训练的方法和装置、搜索意图识别的方法和装置”的优先权，该申请的全文以引用的方式并入本申请中。

技术领域

本发明涉及互联网技术领域，特别是涉及一种网页训练的方法和装置、搜索意图识别的方法和装置。

背景技术

随着互联网技术的发展，人们可以通过网络使用搜索引擎检索自己所需要的信息。如当用户在搜索引擎里输入“仙剑奇侠传”时，用户的意图较大可能是搜索电视剧或搜索游戏，搜索引擎需要先判断出用户搜索的意图，才能使返回的搜索结果更接近用户需要的内容。意图识别就是对于任意给定的查询字符串，判断该查询字符串属于的类别。

现有的搜索意图识别方法，往往使用人工标注的方法对网页标注类别，在进行意图识别时，需要使用人工标注的网页类别进行识别，需要人工标注每个类别的网页集合，成本太高，而且人工标注的结果往往数量有限，对于点击率少的网页很有可能网页的类别未知，导致意图识别的准确率不高。

发明内容

基于此，有必要针对上述技术问题，提供一种网页训练的方法和装置、搜索意图识别的方法和装置，提高搜索意图识别的准确率。

一种网页训练的方法，所述方法包括：

获取人工标注类别的训练网页集合，生成所述训练网页集合中的网页的网页向量，具体包括：

获取所述训练网页集合中的第一训练网页的有效历史查询字符串，对所述有效历史查询字符串进行分词；

获取各个分词的有效次数，所述有效次数为所述有效历史查询字符串中所述分词出现的总次数；

根据所述各个分词的有效次数计算各个分词的分词权重；

根据所述各个分词和对应的分词权重生成所述第一训练网页的网页向量；

根据所述训练网页集合中的网页的人工标注类别和对应的网页向量，生成网页分类模型。

一种网页训练的装置，所述装置包括：

网页向量生成模块，配置为获取人工标注类别的训练网页集合，生成所述训练网页集合中的网页的网页向量，所述网页向量生成模块包括：

分词单元，配置为获取所述训练网页集合中的第一训练网页的有效历史查询字符串，对所述有效历史查询字符串进行分词；

分词权重计算单元，配置为获取各个分词的有效次数，所述有效次数为所述有效历史查询字符串中所述分词出现的总次数，根据所述各个分词的有效次数计算各个分词的分词权重；

网页向量生成单元，配置为根据所述各个分词和对应的分词权重生成所述第一训练网页的网页向量；

网页分类模型生成模块，配置为根据所述训练网页集合中的网页的人工标注类别和对应的网页向量，生成网页分类模型。

上述网页训练的方法和装置，通过获取人工标注类别的训练网页集合，生成训练网页集合中的网页的网页向量，具体包括：获取训练网页集合中的第一训练网页的有效历史查询字符串，对有效历史查询字符串进行分词，获取各个分词的有效次数，有效次数为有效历史查询字符串中分词出现的总次数，根据各个分词的有效次数计算各个分词的分词权重，根据各个分词和对应的分词权重生成第一训练网页的网页向量，根据训练网页集合中的网页的人工标注类别和对应的网页向量，生成网页分类模型，通过有效历史查询字符串分词后生成的网页向量进行训练，训练成本低，效率高，且生成网页分类模型后可自动对网页进行标注类别，使得中长尾网页也能自动得到类别，从而使得意图识别中网页类别的覆盖率高，识别出的意图正确率更高。

一种搜索意图识别的方法，所述方法包括：

获取待识别的查询字符串，获取所述查询字符串对应的历史网页集合，所述历史网页集合中包括历史通过所述查询字符串点击的各个网页；

获取通过上述的网页训练的方法生成的网页分类模型，根据所述网页分类模型得到所述历史网页集合中的网页的类别；

统计所述历史网页集合中的各个类别中的网页数量，根据所述各个类别中的网页数量和历史网页集合中网页的总数量计算得到所述查询字符串的意图分布；

根据所述意图分布得到所述查询字符串的意图识别结果。

一种搜索意图识别的装置，所述装置包括：

获取模块，配置为获取待识别的查询字符串，获取所述查询字符串对应的历史网页集合，所述历史网页集合中包括历史通过所述查询字符串点击的各个网页；

网页类别获取模块，配置为获取通过上述的网页训练的装置生成的网页分类模型，根据所述网页分类模型得到所述历史网页集合中的网页的类别；

意图识别模块，配置为统计所述历史网页集合中的各个类别中的网页数量，根据所述各个类别中的网页数量和历史网页集合中网页的总数量计算得到所述查询字符串的意图分布，根据所述意图分布得到所述查询字符串的意图识别结果。

上述搜索意图识别的方法和装置，通过获取待识别的查询字符串，获取查询字符串对应的历史网页集合，历史网页集合中包括历史通过查询字符串点击的各个网页，获取通过上述实施例的网页训练的方法生成的网页分类模型，根据网页分类模型得到历史网页集合中的网页的类别，统计所述历史网页集合中的各个类别中的网页数量，根据各个类别中的网页数量和历史网页集合中网页的总数量计算得到查询字符串的意图分布，根据意图分布得到查询字符串的意图识别结果，在意图识别时根据网页分类模型自动对历史网页集合中的网页的类别进行识别，比人工标注的类别的网页覆盖率大，使得中长尾网页也能自动得到类别，识别出的意图正确率更高。

附图说明

图1为一个实施例中网页训练的方法、搜索意图识别的方法的应用环境图；

图2为一个实施例中图1中服务器的内部结构图；

图3为一个实施例中网页训练的方法的流程图；

图4为一个实施例中搜索意图识别的方法的流程图；

图5为一个实施例中生成字符串分类模型的流程图；

图6为一个实施例中网页训练的装置的结构框图；

图7为另一个实施例中网页训练的装置的结构框图；

图8为一个实施例中搜索意图识别的装置的结构框图；

图9为另一个实施例中搜索意图识别的装置的结构框图；

图10为再一个实施例中搜索意图识别的装置的结构框图。

具体实施方式

图1为一个实施例中网页训练的方法、搜索意图识别的方法运行的应用环境图。如图1所示，该应用环境包括终端110、服务器120，其中终端110和服务器120通过网络进行通信。

终端110可为智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端110通过网络向服务器120发送查询字符串进行搜索，服务器120可以响应终端110发送的请求。

在一个实施例中，图1中的服务器120的内部结构如图2所示，该服务器120包括通过系统总线连接的处理器、存储介质、内存和网络接口。其中，该服务器120的存储介质存储有操作系统、数据库和搜索意图识别的装置，其中搜索意图识别的装置中包括有网页训练的装置，数据库用于存储数据，搜索意图识别的装置用于实现一种适用于服务器120的搜索意图识别的方法，网页训练的装置用于实现一种适用于服务器120的网页训练的方法。该服务器120的处理器用于提供计算和控制能力，支撑整个服务器120的运行。该服务器120的内存为存储介质中的搜索意图识别的装置的运行提供环境。该服务器120的网络接口用于与外部的终端110通过网络连接通信，比如接收终端110发送的搜索请求以及向终端110返回数据等。

如图3所示，在一个实施例中，提供了一种网页训练的方法，以应用于上述应用环境中的服务器来举例说明，包括如下步骤：

步骤S210，获取人工标注类别的训练网页集合，生成训练网页集合中的网页的网页向量。

具体的，训练网页集合中网页的数量可以根据需要自定义，为了使训练出的网页分类模型更准确，训练网页集合中网页的数量要足够多并且属于不同的种类，种类的数量也要足够多。训练网页集合中的网页都通过人工标注了类别，如mp3.baidu.com被人工标记为音乐类，youku.com被人工标记为视频类。生成训练网页集合中的网页的网页向量，可以将训练网页集合中的所有网页都生成网页向量，也可以根据预设条件选择部分网页生成对应的网页向量，如选择人工标注的不同的类别，从每个类别中选择预设数量的网页生成对应的网页向量。

生成训练网页集合中的网页的网页向量的步骤具体包括：

步骤S211，获取训练网页集合中的第一训练网页的有效历史查询字符串，对有效历史查询字符串进行分词。

具体的，如果第一训练网页作为第一查询字符串的搜索结果，被用户点击进入，则此第一查询字符串为第一训练网页的有效历史查询字符串，如果第一训练网页作为第二查询字符串的搜索结果，但是没有被用户点击进入，则第二查询字符串不是第一训练网页的有效历史查询字符串。第一训练网页的有效历史查询字符串的数量可根据需要自定义，但是为了使训练结果有效，需要足够多，如获取预设时间段内的第一训练网页的所有有效历史查询字符串，预设时间段可为距离当前时间较接近的时间段。对有效历史查询字符串进行分词，用各个分词表示此查询字符串，如将“周杰伦的歌”分词后得到“周杰伦”、“歌”，分词的目的是更好的表示网页，如果直接用查询字符串query表示网页，数据太稀疏，如查询字符串“周杰伦的歌”和“周杰伦的歌曲”为2个不同的查询字符串，但是将它进行分词后得到“周杰伦”、“歌”和“周杰伦”、“歌曲”，其中都包括分词“周杰伦”，增加了查询字符串的相似度。

步骤S212，获取各个分词的有效次数，有效次数为有效历史查询字符串中所述分词出现的总次数。

具体的，如有效历史查询字符串进行分词后，有30个分词为“周杰伦”，则“周杰伦”这个分词的有效次数为30。分词的有效次数越大，表明通过包括此分词的查询字符串进入当前训练网页的次数越多。

步骤S213，根据各个分词的有效次数计算各个分词的分词权重。

具体的，分词权重的大小与有效次数的大小成正比，具体的分词权重计算方法可根据需要自定义。

在一个实施例中，根据公式W(q_i)＝log(c_i+1)计算分词q_i的分词权重W(q_i)，其中i为分词的序号，c_i为分词q_i的有效次数。

具体的，log函数比较平滑，且满足分词权重W(q_i)的大小与有效次数c_i的大小成正比的比例关系，能简单方便的得到各个分词的分词权重。

步骤S214，根据各个分词和对应的分词权重生成第一训练网页的网页向量。

具体的，对于第一训练网页，如果其有效历史查询字符串生成的分词数量为m个，用q_i表示各个分词，其中1≤i≤m，W(q_i)为分词q_i对应的分词权重，则第一训练网页的网页向量可表示为{q₁:W(q₁)，q₂:W(q₂)，……q_m:W(q_m)}，生成的网页向量表示第一训练网页的词袋特征。如对于训练网页mp3.baidu.com，它的网页向量为{周杰伦:5.4，歌曲:3.6，蔡依林:3.0，tfboys:10}。可根据网页向量计算不同的网页之间的相似度，如果第一网页与第二网页的相似度满足预设条件，且第一网页的网页类别为第一类，则可以推出第二网页的网页类别也为第一类，如mp3.baidu.com的网页向量与y.qq.com的网页向量的余弦函数cosine相似度大于预设阈值，则根据mp3.baidu.com为音乐类推出y.qq.com也为音乐类。

步骤S215，获取训练网页集合中的其它训练网页，重复以上步骤S211至步骤S214直到目标训练网页的网页向量生成完毕。

具体的，目标训练网页的数量可根据需要自定义，目标训练网页可以是训练网页集合中通过预设规则筛选出来的训练网页。也可以直接将网页集合中的全部训练网页作为目标训练网页。

步骤S220，根据训练网页集合中的网页的人工标注类别和对应的网页向量，生成网页分类模型。

具体地，将所述训练网页集合中的网页的人工标注类别和对应的网页向量代入逻辑回归模型中进行训练，得到所述网页分类模型。本发明实施例中，网页分类模型的训练采用逻辑回归法。逻辑回归(Logistic Regression,LR)模型在线性回归的基础上，套用了一个逻辑函数，训练出来的网页分类模型正确率高。

具体的，网页分类模型是一种数学模型，用于对网页进行分类，可以采用不同的方法训练分类模型得到不同的网页分类模型。根据需要选择训练方法。

通过监督学习的办法离线训练得到网页分类模型后，对网页进行在线类别预测时使用训练好的网页分类模型进行类别预测。本实施例中通过有限数量的人工标注类别的网页和生成的网页向量生成网页分类模型，可通过网页分类模型实现网页类别自动标注。同时，采用网页向量作为训练数据，不需要爬取网页上所有的内容并词袋化，进行训练的数据成本低，训练效率高。

本实施例中，通过获取人工标注类别的训练网页集合，生成训练网页集合中的网页的网页向量，具体包括：获取训练网页集合中的第一训练网页的有效历史查询字符串，对有效历史查询字符串进行分词，获取各个分词的有效次数，有效次数为有效历史查询字符串中分词出现的总次数，根据各个分词的有效次数计算各个分词的分词权重，根据各个分词和对应的分词权重生成第一训练网页的网页向量，根据训练网页集合中的网页的人工标注类别和对应的网页向量，生成网页分类模型，通过有效历史查询字符串分词后生成的网页向量进行训练，训练成本低，效率高，且生成网页分类模型后可自动对网页进行标注类别，使得中长尾网页也能自动得到类别，从而使得意图识别中网页类别的覆盖率高，识别出的意图正确率更高。

在一个实施例中，步骤S220之前，还包括：获取训练网页集合中的网页的LDA特征。

具体的，LDA(Latent Dirichlet Allocation，文档主题生成模型)用于对文本进行主题聚类，网页的LDA特征可通过对网页文本输入LDA模型得到。

步骤S220为：根据网页的LDA特征、人工标注类别和对应的网页向量，生成网页分类模型。

具体地，将网页的LDA特征、人工标注类别和对应的网页向量代入逻辑回归模型中进行训练，得到所述网页分类模型。本发明实施例中，网页分类模型的训练采用逻辑回归法。逻辑回归(Logistic Regression,LR)模型在线性回归的基础上，套用了一个逻辑函数，训练出来的网页分类模型正确率高。

具体的，训练网页分类模型的训练数据中增加了网页的LDA特征，LDA特征反映了网页的主题，使得训练出的网页分类模型更能准确的对网页进行类别标注。

表1展示了采用不同的模型和方法进行训练得到的网页分类模型对网页进行分类的准确率和召回率，其只展示了对于小说类别和各个类别综合进行分类时的准确率和召回率以及对于准确率和召回率综合得到的F1，其中F1＝2×准确率/(准确率+召回率)。表格中LDA表示文档主题生成模型，LR+LDA表示同时采用LR(logistic regression)逻辑回归模型和LDA特征，LR+BOW+LDA表示同时采用LR模型、LDA特征和网页向量BOW(Bag of Words)词袋特征进行训练。这里，准确率就是检索出来的条目(比如：文档、网页等)有多少是准确的；召回率就是所有准确的条目有多少被检索出来了。准确率＝提取出的正确信息条数/提取出的信息条数；召回率＝提取出的正确信息条数/样本中的信息条数；F1即为准确率和召回率的调和平均值。

表1

从表格中可以看出基于网页向量采用逻辑回归法训练生成的网页分类模型对网页进行分类时，准确率和召回率大部分得到提高，并且对于准确率和召回率综合得到的F1比其它方法要高很多，效果很好。

在一个实施例中，如图4所示，提供了一种搜索意图识别的方法，包括：

步骤S310，获取待识别的查询字符串，获取查询字符串对应的历史网页集合，历史网页集合中包括历史通过所述查询字符串点击的各个网页。

具体的，待识别的查询字符串为终端在搜索引擎输入的查询字符串，获取历史搜索中通过此查询字符串点击的各个网页组成的历史网页集合。

步骤S320，获取通过上述任一项实施例的网页训练的方法生成的网页分类模型，根据网页分类模型得到历史网页集合中的网页的类别。

具体的，通过上述实施例中的网页训练的方法生成的网页分类模型自动对历史网页集合中的网页进行分类。如历史网页集合为{url₁，url₂，……url_n}，其中url_i(1≤i≤n)代表各个网页，得到各个网页的类别url₁∈d₁， url₂∈d₂，……url _n∈d_s，其中d₁,d₂,......,d_s表示类别，s为类别的总个数，类别集合为{d₁，d₂，……d_s}。

步骤S330，统计所述历史网页集合中的各个类别中的网页数量，根据各个类别中的网页数量和历史网页集合中网页的总数量计算得到查询字符串的意图分布。

具体的，统计所述历史网页集合中的各个类别中的网页数量，如类别d₁中包括t个网页，则

统计历史网页集合中网页的总个数得到历史网页集合中网页的总数量，如对于历史网页集合{url₁，url₂，……url_n}其总数量total_url＝n，则待识别的查询字符串p-query属于类别d₁的概率

采用相同的方法计算得到p-query属于各个类别的概率p(d_i/p-query)得到查询字符串的意图分布，其中1≤i≤s，其中概率p(d_i/p-query)的大小表示查询字符串属于类别d_i的可能性。

步骤S340，根据意图分布得到查询字符串的意图识别结果。

具体的，可将意图分布中概率最大的类别作为查询字符串的意图识别结果，或按概率从大到小的顺序取预设数目个类别作为查询字符串的意图识别结果，或将概率大于预设阈值的类别作为查询字符串的意图识别结果。还可获取发送查询字符串的当前应用所对应的业务，根据业务信息和意图分布得到查询字符串的意图识别结果，如发送查询字符串的当前应用的业务信息为音乐业务，则即使意图分布中概率最大的类别不为音乐，也可将音乐类别作为意图识别的一个结果。

本实施例中，通过获取待识别的查询字符串，获取查询字符串对应的历史网页集合，历史网页集合中包括历史通过查询字符串点击的各个网页，获取通过上述实施例的网页训练的方法生成的网页分类模型，根据网页分类模型得到历史网页集合中的网页的类别，统计所述历史网页集合中的各个类别中的网页数量，根据各个类别中的网页数量和历史网页集合中网页的总数量计算得到查询字符串的意图分布，根据意图分布得到查询字符串的意图识别结果，在意图识别时根据网页分类模型自动对历史网页集合中的网页的类别进行识别，比人工标注的类别的网页覆盖率大，使得中长尾网页也能自动得到类别，识别出的意图正确率更高。

在一个实施例中，步骤S340之前，还包括：获取字符串分类模型，根据字符串分类模型得到查询字符串的预测类别。

具体的，字符串分类模型是一种数学模型，用于对查询字符串进行分类，可以采用不同的方法训练分类模型得到不同的字符串分类模型，根据需要选择训练方法。通过监督学习的办法离线训练得到字符串分类模型后，对查询字符串进行意图识别时可使用训练好的字符串分类模型进行查询字符串的类别预测。查询字符串的预测类别可以在查询字符串的意图分布不明显时修正查询字符串的意图识别结果，如查询字符串的意图分布中类别多，且各个类别的概率都接近，且比较小，此时只根据查询字符串的意图分布进行识别往往结果不准确。

步骤S340为：根据意图分布和预测类别得到查询字符串的意图识别结果。

具体的，可根据意图分布中类别的多少和各个类别对应的概率，决定查询字符串的意图识别结果。如意图分布中类别多且各个类别对应的概率都比较小，可直接将预测类别作为查询字符串的意图识别结果，或将意图分布中概率最大的类别和预测类别组合形成查询字符串的意图识别结果，具体的得到意图识别结果的算法可根据需要自定义。在意图分布得不到的情况下，如查询字符串为一个罕见的字符串，其对应的历史网页集合中的网页数量为0或非常小，导致意图分布无法计算或得到的意图分布只有一个类别的概率，且为100％很可能是错误的，此时也可直接将查询字符串的预测类别作为查询字符串的意图识别结果。

在一个实施例中，如图所示，获取字符串分类模型的步骤之前，还包括：

步骤S410，获取历史查询字符串对应的意图分布中意图概率最大的类别对应的查询字符串作为类别训练查询字符串，其中意图概率最大的类别包括多个不同类别。

具体的，对大量的历史查询字符串计算得到了意图分布，不同的查询字符串对应的意图分布中意图概率最大的类别可能不同。将意图分布中意图概率最大的类别对应的查询字符串作为类别训练查询字符串且意图概率最大的类别包括多个不同类别以保证训练数据的有效性。

步骤S420，对不同类别对应的类别训练查询字符串提取基于词语和/或基于字符的n元语法特征，n为大于1且小于M的整数，M为当前提取的类别训练查询字符串的词语长度或字符长度。

具体的，如果直接用类别训练查询字符串训练模型，对于比较短的查询字符串，如长度在4个词语左右，这种情况下特征过于稀疏，训练模型不能得到很好的训练结果。提取基于词语和/或基于字符的n元语法特征，使得特征长度被扩充。对于同一查询字符串，可进行多次提取，每次提取的元数不同，这里，元数代表词语的数目，将每次提取的结果形成一个特征组合。如对于“周杰伦的歌曲”这个类别训练查询字符串，提取基于词语的1-3元语法特征分别得到如下：

1元语法特征:周杰伦的歌曲

2元语法特征：周杰伦的的歌曲

3元语法特征：周杰伦的歌曲

提取基于字符的1-3元语法特征分别得到如下：

1元语法特征::周杰伦的歌曲

2元语法特征::周杰杰伦伦的的歌歌曲

3元语法特征:：周杰伦杰伦的伦的歌的歌曲

对于一个长度为3个词语的查询字符串，提取基于字符的1-3元语法特征后其特征长度被扩充为15维以上，有效的解决了特征稀疏的问题。同时因为训练数据足够大，具有很好的扩展性。

步骤S430，将n元语法特征和对应的类别作为训练数据采用分类模型进行训练生成字符串分类模型。

具体地，将n元语法特征和对应的类别作为训练数据，代入分类模型中进行训练，得到字符串分类模型。

具体的，使用n元语法特征和对应的类别作为训练数据，训练数据从类别训练查询字符串进行了扩展，得到的字符串分类模型分类的准确性和覆盖率都能提高。在一个实施例中，可将训练特征映射到固定维度(例如100万维)的向量以提高训练的效率和减少无效的训练数据提高训练结果的准确性，或增加查询字符串点击的网页的类别比例特征等增加训练数据的覆盖率，这里，类别比例特征是指点击的各个网页类别占全部网页的比例，如点击的视频类网页占全部网页的比例。

表2展示了采用不同的模型和方法进行训练得到的字符串分类模型对查询字符串进行分类的准确率和召回率，以及对于准确率和召回率综合得到的F1，其中F1＝2×准确率/(准确率+召回率)。表格中NB(

Bayesian)表示朴素贝叶斯模型，分词表示提取基于词语的n元语法特征，字符特征表示提取基于字符的n元语法特征，SVM(support vector machine)表示支持向量机模型。

表2

从表格中可以看出采用提取基于字符的n元语法特征训练生成的字符串分类模型对查询字符串进行分类时正确率和召回率都很高，且同时采用提取基于字符的n元语法特征和基于词语的n元语法特征的正确率和召回率更高。使用了本方法的意图识别的整体准确率相比于未使用前可从54.6％提升至85％，提升幅度达60％。

在一个实施例中，如图6所示，提供了一种网页训练的装置，包括：

网页向量生成模块510，配置为获取人工标注类别的训练网页集合，生成训练网页集合中的网页的网页向量，网页向量生成模块510包括：

分词单元511，配置为获取训练网页集合中的第一训练网页的有效历史查询字符串，对有效历史查询字符串进行分词。

分词权重计算单元512，配置为获取各个分词的有效次数，有效次数为有效历史查询字符串中分词出现的总次数，根据各个分词的有效次数计算各个分词的分词权重。

网页向量生成单元513，配置为根据各个分词和对应的分词权重生成第一训练网页的网页向量。

网页分类模型生成模块520，配置为根据训练网页集合中的网页的人工标注类别和对应的网页向量，生成网页分类模型。

在一个实施例中，如图7所示，装置还包括：

LDA特征获取模块530，配置为获取训练网页集合中的网页的LDA特征。

网页分类模型生成模块520还配置为根据网页的LDA特征、人工标注类别和对应的网页向量，生成网页分类模型。

在一个实施例中，网页分类模型生成模块520还配置为将所述训练网页集合中的网页的人工标注类别和对应的网页向量代入逻辑回归模型中进行训练，得到所述网页分类模型。

在一个实施例中，分词权重计算单元511还配置为根据公式W(q_i)＝log(c_i+1)计算分词q_i的分词权重W(q_i)，其中i为分词的序号，c_i为分词q_i的有效次数。

在一个实施例中，如图8所示，提供了一种搜索意图识别的装置，包括：

获取模块610，配置为获取待识别的查询字符串，获取查询字符串对应的历史网页集合，历史网页集合中包括历史通过查询字符串点击的各个网页。

网页类别获取模块620，配置为获取通过上述任实施例的网页训练的装置生成的网页分类模型，根据网页分类模型得到历史网页集合中的网页的类别。

意图识别模块630，配置为统计所述历史网页集合中的各个类别中的网页数量，根据各个类别中的网页数量和历史网页集合中网页的总数量计算得到查询字符串的意图分布，根据意图分布得到查询字符串的意图识别结果。

在一个实施例中，如图9所示，装置还包括：

预测类别模块640，配置为获取字符串分类模型，根据字符串分类模型得到查询字符串的预测类别。

意图识别模块630还配置为根据意图分布和预测类别得到查询字符串的意图识别结果。

在一个实施例中，如图10所示，装置还包括：

字符串分类模型生成模块650，配置为获取历史查询字符串对应的意图分布中意图概率最大的类别对应的查询字符串作为类别训练查询字符串，其中意图概率最大的类别包括多个不同类别，对不同类别对应的类别训练查询字符串提取基于词语和/或基于字符的n元语法特征，n为大于1且小于当前提取的查询字符串词语长度或字符长度的整数，将n元语法特征和对应的类别作为训练数据采用分类模型进行训练生成字符串分类模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述程序可存储于一计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

相应地，本发明实施例还提供一种计算机存储介质，其中存储有计算机程序，该计算机程序用于执行本发明实施例的网页训练的方法或者搜索意图识别的方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种网页训练的方法，所述方法包括：

获取人工标注类别的训练网页集合，生成所述训练网页集合中的网页的网页向量，具体包括：

获取所述训练网页集合中的第一训练网页的有效历史查询字符串，对所述有效历史查询字符串进行分词；

获取各个分词的有效次数，所述有效次数为所述有效历史查询字符串中所述分词出现的总次数；

根据所述各个分词的有效次数计算各个分词的分词权重；

根据所述各个分词和对应的分词权重生成所述第一训练网页的网页向量；

根据所述训练网页集合中的网页的人工标注类别和对应的网页向量，生成网页分类模型。
根据权利要求1所述的方法，其中，所述根据所述训练网页集合中的网页的人工标注类别和对应的网页向量，生成网页分类模型的步骤之前，还包括：

获取所述训练网页集合中的网页的LDA特征；

所述根据所述训练网页集合中的网页的人工标注类别和对应的网页向量，生成网页分类模型的步骤为：

根据所述网页的LDA特征、人工标注类别和对应的网页向量，生成网页分类模型。
根据权利要求1所述的方法，其中，所述根据所述训练网页集合中的网页的人工标注类别和对应的网页向量，生成网页分类模型，包括：

将所述训练网页集合中的网页的人工标注类别和对应的网页向量代入逻辑回归模型中进行训练，得到所述网页分类模型。
根据权利要求1所述的方法，其中，所述根据所述各个分词的有效次数计算各个分词的分词权重的步骤包括：

根据公式W(q_i)＝log(c_i+1)计算分词q_i的分词权重W(q_i)，其中i为分词的序号，c_i为分词q_i的有效次数。
一种搜索意图识别的方法，所述方法包括：

获取待识别的查询字符串，获取所述查询字符串对应的历史网页集合，所述历史网页集合中包括历史通过所述查询字符串点击的各个网页；

获取通过所述权利要求1至4中任一项所述的网页训练的方法生成的网页分类模型，根据所述网页分类模型得到所述历史网页集合中的网页的类别；

统计所述历史网页集合中的各个类别中的网页数量，根据所述各个类别中的网页数量和历史网页集合中网页的总数量计算得到所述查询字符串的意图分布；

根据所述意图分布得到所述查询字符串的意图识别结果。
根据权利要求5所述的方法，其中，在所述根据所述意图分布得到所述查询字符串的意图识别结果的步骤之前，还包括：

获取字符串分类模型，根据所述字符串分类模型得到所述查询字符串的预测类别；

所述根据所述意图分布得到所述查询字符串的意图识别结果的步骤为：

根据所述意图分布和预测类别得到所述查询字符串的意图识别结果。
根据权利要求6所述的方法，其中，所述获取字符串分类模型的步骤之前，还包括：

获取历史查询字符串对应的意图分布中意图概率最大的类别对应的查询字符串作为类别训练查询字符串，其中所述意图概率最大的类别包括多个不同类别；

对所述不同类别对应的类别训练查询字符串提取基于词语和/或基于字符的n元语法特征，所述n为大于1且小于当前提取的查询字符串词语长度或字符长度的整数；

将所述n元语法特征和对应的类别作为训练数据采用分类模型进行训练生成所述字符串分类模型。
一种网页训练的装置，所述装置包括：

网页向量生成模块，配置为获取人工标注类别的训练网页集合，生成所述训练网页集合中的网页的网页向量，所述网页向量生成模块包括：

分词单元，配置为获取所述训练网页集合中的第一训练网页的有效历史查询字符串，对所述有效历史查询字符串进行分词；

分词权重计算单元，配置为获取各个分词的有效次数，所述有效次数为所述有效历史查询字符串中所述分词出现的总次数，根据所述各个分词的有效次数计算各个分词的分词权重；

网页向量生成单元，配置为根据所述各个分词和对应的分词权重生成所述第一训练网页的网页向量；

网页分类模型生成模块，配置为根据所述训练网页集合中的网页的人工标注类别和对应的网页向量，生成网页分类模型。
根据权利要求8所述的装置，其中，所述装置还包括：

LDA特征获取模块，配置为获取所述训练网页集合中的网页的LDA特征；

所述网页分类模型生成模块还配置为根据所述网页的LDA特征、人工标注类别和对应的网页向量，生成网页分类模型。
根据权利要求8所述的装置，其中，网页分类模型生成模块，还配置为将所述训练网页集合中的网页的人工标注类别和对应的网页向量代入逻辑回归模型中进行训练，得到所述网页分类模型。
根据权利要求8所述的装置，其中，所述分词权重计算单元还配置为根据公式W(q_i)＝log(c_i+1)计算分词q_i的分词权重W(q_i)，其中i为分词的序号，c_i为分词q_i的有效次数。
一种搜索意图识别的装置，所述装置包括：

获取模块，配置为获取待识别的查询字符串，获取所述查询字符串对应的历史网页集合，所述历史网页集合中包括历史通过所述查询字符串点击的各个网页；

网页类别获取模块，配置为获取通过所述权利要求8至11中任一项所述的网页训练的装置生成的网页分类模型，根据所述网页分类模型得到所述历史网页集合中的网页的类别；

意图识别模块，配置为统计所述历史网页集合中的各个类别中的网页数量，根据所述各个类别中的网页数量和历史网页集合中网页的总数量计算得到所述查询字符串的意图分布，根据所述意图分布得到所述查询字符串的意图识别结果。
根据权利要求12所述的装置，其中，所述装置还包括：

预测类别模块，配置为获取字符串分类模型，根据所述字符串分类模型得到所述查询字符串的预测类别；

所述意图识别模块还配置为根据所述意图分布和预测类别得到所述查询字符串的意图识别结果。
根据权利要求13所述的装置，其中，所述装置还包括：

字符串分类模型生成模块，配置为获取历史查询字符串对应的意图分布中意图概率最大的类别对应的查询字符串作为类别训练查询字符串，其中所述意图概率最大的类别包括多个不同类别，对所述不同类别对应的类别训练查询字符串提取基于词语和/或基于字符的n元语法特征，所述n为大于1且小于当前提取的查询字符串词语长度或字符长度的整数，将所述n元语法特征和对应的类别作为训练数据采用分类模型进行训练生成所述字符串分类模型。