WO2020258303A1

WO2020258303A1 - 语义模型实例化方法、系统和装置

Info

Publication number: WO2020258303A1
Application number: PCT/CN2019/093873
Authority: WO
Inventors: 李婧; 张瑞国; 司伟平
Original assignee: Siemens Ltd China; Siemens AG; Siemens Corp
Current assignee: Siemens Ltd China; Siemens AG; Siemens Corp
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2020-12-30
Anticipated expiration: 2021-12-28
Also published as: CN112449700B; EP3783522A4; EP3783522A1; US20220129635A1; CN112449700A

Abstract

本发明提供了语义模型实例化方法、系统和装置，其中，包括如下步骤：S1，接收一个基于本体的语义模型，解析该语义模型并将所述语义模型转化为特征向量集合，其中，所述特征向量表征本体的类型、属性以及所述属性之间的关系；S3，导入一个半结构化文件，基于所述语义模型的语义向量将所述半结构化文件转化为关键词向量；S4，比较所述语义向量和所述关键词向量的相关性，并识别对应于所述语义向量的关键词向量。本发明能够极大地减少构建知识图谱的工作量和花费，并加速了基于知识的便捷服务。

Description

语义模型实例化方法、系统和装置

技术领域

本发明涉及工业软件领域，尤其涉及语义模型实例化方法、系统和装置。

背景技术

社交网络(social network)、电子商务(e-commerce)和制造等许多工业开始为客户提供基于知识的智能功能和服务，其需要一个可延展的知识数据库作为基础。领域语义模型或者模式能够被领域专家建立，然而，根据语义模型将数据填充到知识数据库中并不简单。

例如，用数据实例或者数据个体填充语义模型来执行语义模型的实例化仍然主要依赖于人工。典型地，实例化一个语义模型时，数据实例是由本领域工程师手动识别和提取。或者数据需要在一些预先定义的数据格式和中间表格处理，以利用定制程序填充到知识数据库中。这些方法的人力参与程度都很高，因此花费的成本高、时间长。在许多工业领域，原始数据具有不同的形式，其使得定制数据提取过程难以应用到其他情况。因此，客户缺少基于定义的领域语义模型从领域文件自动提取数据实例的工具。

现有技术提供了两种解决方案。其中一种方案是表格分析和检索，其目的在于用户问题和表格内容之间的相关性。其中，当用户询问一个问题时表格分析和检索算法会在表格的数据中检索以确定一个或更多能够潜在回答上述问题的表格。检索方法包括字符串类似算法BM25和单元数据类似计算等。系统可能包括语义解析、表格格式分析、表格问题类似比较和表格检索过程等装置。但是这种解决方案仅关注怎样匹配用户查询和表格内容。

另一种方案是本体匹配，其目的在于在寻找包括类型、参数和实例的两个本体的实体之间相关性。本体匹配包括两个基本步骤：相似点计算和队列提取。这些步骤从两个语言和结构角度比较两个本体，目的在于从一个本体模型到另一个本体模型传递数。然而，这种方案并不将表格视为输入，其中一些类似方法也尝试基于本体信息提取网络表格信息，但是这些方案主要基于启发式规则，其很难用多样布局来延展到任意表格。

此外，工业领域现有的软件工具不能自动识别任意半结构化文件(表格)和一个领域语义模型关系，以提取相关数据实例。

发明内容

本发明第一方面提供了语义模型实例化方法，其中，包括如下步骤：S1，接收一个基于本体的语义模型，解析该语义模型并将所述语义模型转化为特征向量集合，其中，所述特征向量表征本体的类型、属性以及所述属性之间的关系；S3，导入一个半结构化文件，基于所述语义模型的语义向量将所述半结构化文件转化为关键词向量；S4，比较所述语义向量和所述关键词向量的相关性，并识别对应于所述语义向量的关键词向量。

进一步地，所述步骤S1和S3之间还包括如下步骤：S2，基于所述语义模型的语义向量匹配所述语义向量单词的近义词，其中，所述步骤S3还包括如下步骤：基于所述基于所述语义模型的语义向量及其近义词将所述半结构化文件转化为关键词向量。

进一步地，所述步骤S4之后还包括如下步骤：将对应于所述语义向量的关键词向量的半结构化文件实例数据提取到数据库。

进一步地，所述本体包括类型、属性以及所述属性之间的关系。

进一步地，所述半结构化文件为表格文件时，所述步骤S3还包括如下步骤：确定所述表格文件的表头位置，并识别该表格文件的数据部分。

进一步地，所述步骤S4还包括如下步骤：基于语义向量、同义词词库和关键词向量执行多个相关性计算方法获得多个相关值以比较所述语义向量和所述关键词向量的相关性，对所述相关值加权来构建相关性矩阵并筛选出参数映射以识别对应于所述语义向量的关键词向量，其中，所述参数映射表示匹配的关键词向量和语义向量。

进一步地，所述相关性矩阵由以下算法来构建：

M _ij＝∑w _qSim _q(O _i，K _j)

其中，M _ij为相关性，o为语义向量，k为关键词向量，w _q为权重，Sim _q为相关性算法，i，j，q为自然数。

本发明第二方面提供了语义模型实例化系统，包括：处理器；以及与所述处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被处理器执行时使所述电子设备执行动作，所述动作包括：S1，接收一个基于本体的语义模型，解析该语义模型并将所述语义模型转化为特征向量集合，其中，所述特征向量表征本体的类型、属性以及所述属性之间的关系；S3，导入一个半结构化文件，基于所述语义模型的语义向量将所述半结构化文件转化为关键词向量；S4，比较所述语义向量和所述关键词向量的相关性，并识别对应于所述语义向量的关键词向量。进一步地，所述动作S1和S3之间还包括：S2，基于所述语义模型的语义向量匹配所述语义向量单词的近义词，其中，所述动作S3还包括：基于所述基于所述语义模型的语义向量及其近义词将所述半结构化文件转化为关键词向量。

进一步地，所述动作S4之后还包括：将对应于所述语义向量的关键词向量的半结构化文件实例数据提取到数据库。

进一步地，所述半结构化文件为表格文件时，所述动作S3还包括：确定所述表格文件的表头位置，并识别该表格文件的数据部分。

进一步地，所述动作S4还包括：基于语义向量、同义词词库和关键词向量执行多个相关性计算方法获得多个相关值以比较所述语义向量和所述关键词向量的相关性，对所述相关值加权来构建相关性矩阵并筛选出参数映射以识别对应于所述语义向量的关键词向量，其中，所述参数映射表示匹配的关键词向量和语义向量。

进一步地，所述相关性矩阵由以下算法来构建：

M _ij＝∑w _qSim _q(O _i，K _j)

本发明第三方面提供了语义模型实例化装置，其中，包括：第一转化装置，其接收一个基于本体的语义模型，解析该语义模型并将所述语义模型转化为特征向量集合，其中，所述特征向量表征本体的类型、属性以及所述属性之间的关系；第二转化装置，其导入一个半结构化文件，基于所述语义模型的语义向量将所述半结构化文件转化为关键词向量；比较识别装置，其比较所述语义向量和所述关键词向量的相关性，并识别对应于所述语义向量的关键词向量。

本发明第四方面提供了计算机程序产品，所述计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可执行指令，所述计算机可执行指令在被执行时使至少一个处理器执行根据本发明第一方面所述的方法。

本发明第五方面提供了计算机可读介质，其上存储有计算机可执行指令，所述计算机可执行指令在被执行时使至少一个处理器执行根据本发明第一方面所述的方法。

本发明的创新点在于将语义模型转化为语义向量，其中包括类型向量和相关向量，以及计算同义词并为每个语义向量构建一个同义词词库。分离的语义向量充当一个信息提取的指导。这使得任意语义模型能够被剖析为多个数据检索的检索式，其有助于自动化匹配与语义模型描述的数据检索过程。

本发明的创新点还在于组织有用的来自任意半结构化文件的表头数据并将其转化为关键词向量，其包括识别表格文件的关键词参数部分和数据部分并提取这些关键词参数到一个树结构。这使得表格能够被转化为向量，向量能够为数据提取用于进一步比较和计算。

本发明的创新点也在于提取任意语义向量和关键词向量的相关性映射，以从半结构化文件中提取相关信息。这是为了计算语义向量和关键词向量的区别，并匹配参数映射。这实现了基于一个模型的评估和匹配数据的快速和自动方式。

本发明能够极大地减少构建知识图谱的工作量和花费，并加速了基于知识的便捷服务。

附图说明

图1是根据本发明一个具体实施例的语义模型实例化装置的结构示意图；

图2是根据本发明一个具体实施例的语义模型实例化装置的语义模型的本体的结构示意图；

图3是根据本发明一个具体实施例的语义模型实例化装置的第二转化装置120的装置图；

图4是根据本发明一个具体实施例的语义模型实例化装置的表格文件处理示意图；

图5是根据本发明一个具体实施例的语义模型实例化装置的定义表格文件4个关键部分ULC、RH、CH、data的步骤流程图；

图6是根据本发明一个具体实施例的语义模型实例化装置的关键词矩阵的示意图；

图7是根据本发明一个具体实施例的语义模型实例化装置的相关性计算示意图；

图8是根据本发明一个具体实施例的语义模型实例化装置的相关性矩阵的示意图。

具体实施方式

以下结合附图，对本发明的具体实施方式进行说明。

本发明提供了语义模型实例化机制，其能够基于摘要模型提取数据实例，其利用了相对应的半结构化数据和语义模型。本发明通过自动筛选和执行领域半结构化文件，并基于具有合理准确度的语义定义快速确定和提取有用的数据实例到一个知识数据库中，以基于任意语义模型从半结构化文件自动提取数据，

如图1所示，本发明提供的语义模型实例化方法由语义模型实例化装置100执行，其中，所述语义模型实例化装置100包括第一转化装置110、第二转化装置120、比较识别装置130、匹配装置140、提取装置150以及数据库160。其中，第一转化装置110解析语义模型A，并将所述语义模型A转化为特征向量集合。匹配装置140用于匹配语义模型A的语义向量单词的近义词。然后，第二转化装置120输入语义向量及其单词近义词，并且导入一个半结构化文件B，以基于所述语义模型A的语义向量将所述半结构化文件B转化为关键词向量。接着，比较识别装置130比较所述语义向量和所述关键词向量的相关性，并识别对应于所述语义向量的关键词向量。最后，提取装置150将对应于所述语义向量的关键词向量的半结构化文件实例数据提取到数据库160。

本发明第一方面提供了一种语义模型实例化方法，其中包括如下步骤：

首先执行步骤S1，第一转化装置110接收一个基于本体的语义模型A，解析该语义模型A并将所述语义模型A转化为特征向量集合，其中，所述特征向量表征本体的类型、属性以及所述属性之间的关系。也就是，第一转化装置110将语义模型A分解成一个个类和子类的概念，并用特征向量来描述类和子类。

其中，所述本体包括类型、属性以及所述属性之间的关系。所述类型还包括类型的子类。本发明可以预先建立一个本体库，并且在执行本发明的过程中不断更新本体库。例如，本体库的类型包括：设备、产品、人工、材料、工艺和维护等。上述类型之间具有相互联系的关系。

例如，如图2所示，本体包括大类产品模型，产品模型包括多个小类：维护、设备、车间、工艺、产品和人工。每个小类对应了多个属性。具体地，人工的属性包括名字、电话、级别、性别和编号；维护的属性包括编号、人工、月份、周、计划时间、实际时间、工作小时和等级；设备的属性包括参数、名字、开始服务时间、类型和功率；车间的属性包括名字；工艺的属性包括实际开始时间、实际结束时间、封锁、缓冲区大小、计划结束时间、编号、计划开始时间和名称；产品的属性包括订单编号、图片确认、实际运输时间、合同、运输方式、客户、计划运输时间、支付、价格、结构和生产能力等。

因此，第一转化装置110的输出为特征向量以及多个向量之间关系的集合，其中，所述特征向量包括语义向量和特征向量，其中所述特征向量特别地为本体类型的向量。具体地，每个向量包括类型名称、向量名字和它们之间的关系。因此，示例性地，其中一个语义向量的格式为：

(类型名称，向量1，向量2……向量N，关系1，关系2……关系M)

其中，例如语义向量为“工人操作机器C”，“工人生产产品”和“机器有故障”，其中“操作”、“生产”和“有”就为其中的关系。

然后执行步骤S3，第二转化装置120导入一个半结构化文件B，基于所述语义模型A的语义向量将所述半结构化文件B转化为关键词向量。具体地，第二转化装置120从任意一个半结构化文件B提取出表头数据并且为后续处理按照一定逻辑重新组织这些表头数据，其中，所述半结构化文件B为表格文件。其中，如图3所示，第二转化装置120包括三个子装置：预处理装置1201、识别装置1202和关键词装置1203。所述步骤S3包括三个子步骤S31、步骤S32和步骤S33。在许多工业领域中有一种主要的文件类型，例如生产现场是半结构化的文件，例如数据库中的表格、人力构造的Excel表格、网络HTML表格等。

所述半结构化文件为表格文件时，所述步骤S3还包括如下步骤：确定所述表格文件的表头位置，并识别该表格文件的数据部分。

其中，在子步骤S31中，预处理装置1201执行对输入表格文件的基本转换和清理。例如，预处理装置1201能够将一个表格文件excel转化为HTML表格，这是由于HTML表格包括更丰富和清楚的表头数据。

然后，在子步骤S32中，识别装置1202读取预处理装置1201预处理过后的表格来识别表格文件中数据内容的属性。具体地，本发明首先对任意表格文件定义4个关键部分ULC、RH、CH、Data，然后再确定这些关键部分。

具体地，参见图4，首先对表格B ₁定义4个关键部分ULC、RH、CH和data，以此识别表格B ₁的表头和内容。首先参见表格结构B’，B’是一个二维表格。其中，表头部分是RH部分，RH表示表格行标题深度，RH的高度为h ₁。CH表示表格列标题深度，其宽度为h ₂。其中，RH和CH之间具有ULC，ULC表示整个表格的左上空间，ULC的高度为h1，ULC的宽度为h ₂。其中，RH下面和CH的右边部分就是数据部分data，其中数据部分的左上格子为C3，右下格子为C ₄。ULC的左上格子为C ₁，ULC的右下格子为C2。问题在于如何找到并定义4个关键部分ULC、RH、CH、Data。

具体地，如图5所示，首先找到ULC部分，并识别ULC部分的C ₁、C ₂、h ₁和h ₂。当h ₁>0并且h ₂>0，继续判断RH＝h ₁并且CH＝h ₂，当满足以上条件则判定表格B ₁为二维表格，其应当按照二维表格的提取规则来识别C ₃。否则，则判断没有ULC部分，因此判定该表格应当按照一维表格的提取规则来识别C ₃。

接着，当不满足RH＝h ₁并且CH＝h ₂时，接着判断RH<h ₁或者CH<h ₂，当满足RH<h ₁或者CH<h ₂时接着计算语义向量和关键词向量的相关性，并识别C ₃并提取潜在内嵌的一维表格。

当不满足RH<h ₁或者CH<h ₂，接着判断RH>h ₁，当满足RH>h ₁时，仅提取RH和数据部分的C3。当不满足RH>h ₁时，接着判断CH>h ₂，当满足CH>h ₂时，仅仅提取CH和数据部分的C ₃。

因此，执行上述步骤，就可以找到并定义4个关键部分ULC、RH、CH、data，以确定表格B ₁的表头部分和数据部分。

在子步骤S33中，关键词装置1203的输入是具有关键位置的表格，其应用了规范规则来提取表格标题和属性，并且保存在树状结构中。其中，所述树状结构会为了后续分析步骤被重新组织为加权向量。

例如，一个一维表格的属性提取为树状结构并转化为如下的表格关键词向量：

运营设备台账	序号	分类	重要度	设备归属	安装地点	设备名称	设备编号	……	备注
0	1	1	1	1	1	1	1	……	1

进一步地，根据本发明一个优选实施例，所述步骤S1和S3之间还包括步骤S2：基于所述语义模型的语义向量匹配所述语义向量单词的近义词。其中，所述步骤S3还包括如下步骤：第二转化装置120基于所述基于所述语义模型的语义向量及其近义词将所述半结构化文件转化为关键词向量。

其中，第二转化装置120用于为语义向量的每个词产生一组近义词。现有软件虽然也能够自动帮助提供近义词，但是这些软件工具很难提供复杂或者复合词的合理结果，特别是那些由超过一个二级词汇组成的词语。因此，本发明提供了第二转化装置120能够适用于复杂词汇或者复合词汇。

例如，一个复合词汇首先被分为多个二级词汇(sub-word#1,sub-word#2……sub-word#n)，然后计算每个耳机词汇的相关性，最后这个复合词汇利用关联原则构建。因此，第二转化装置120包括一个同义词结果列表来建立同义词矩阵，因此关键词库也由关键词矩阵组成。

图6示出了一个关键词矩阵，类型名称class name具有第一属性attribute ₁、第二属性attribute ₂……第N属性attribute _N。上述类型名称class name、第一属性attribute ₁、第二属性attribut _e2……第N属性attribute _N都具有一个初始词语，以及初始词汇word及其同义词s ₁、s ₁……s _M。例如，原始词汇和其同义词如下：

最后执行步骤S4，比较识别装置130比较所述语义向量和所述关键词向量的相关性，并识别对应于所述语义向量的关键词向量。具体地，其中，根据本发明一个具体实施例，所述关键词向量为表格关键词向量。因此，比较识别装置130计算出表格关键词向量和语义向量的相关性。比较识别装置130的输入包括关键词向量、语义向量和同义词词库。本发明利用算法来计算关键词向量和语义向量之间的区别。

具体地，所述步骤S4还包括如下步骤：基于语义向量、同义词词库和关键词向量执行多个相关性计算方法获得多个相关值以比较所述语义向量和所述关键词向量的相关性，对所述相关值加权来构建相关性矩阵并筛选出参数映射以识别对应于所述语义向量的关键词向量，其中，所述参数映射表示匹配的关键词向量和语义向量。

如图7所示，基于语义向量、同义词词库和关键词向量执行多个相关性计算方法。示例性地，相关性算法包括第一相关性算法、第二相关性算法和第三相关性算法。例如，第一相关性算法为cilin相关性算法，第二相关性算法为word2vector相关性算法，第三相关性算法为modified jaccard相关性算法。对语义向量、同义词词库和关键词向量执行了第一相关性算法、第二相关性算法和第三相关性算法以后会得到各自的相关值，分别为第一相关值、第二相关值和第三相关值。这三个相关值会综合起来利用如下算法一起来构建相关性矩阵：

M _ij＝∑w _qSim _q(O _i，K _j)

其中，M _ij为相关性，O为语义向量，k为关键词向量，w _q为权重，Sim _q为相关性算法，i，j，q为自然数。表格标题和语义类型名字之间的相关性能够被给予更高的加权值，这是由于名字通常表达了比每个参数更多的信息。

图8示出了相关性矩阵，其横坐标为关键词向量k，其纵坐标为语义向量O。在得到相关性矩阵以后，然后筛选参数映射，阈值规则应用于确定匹配好的关键词配对，其输出为参数映射，也就是标记的二元向量，其代表着表格参数的匹配结果。其中，参数映射表示匹配的关键词向量和语义向量，筛选参数映射执行的是Similarity Couple Determination算法。“1”表示匹配好的参数，“0”表示没匹配好的参数。

最后，所述步骤S4之后还包括如下步骤：提取装置150将对应于所述语义向量的关键词向量的半结构化文件实例数据提取到数据库160。提取装置150基于比较识别装置130输出来提取表格数据。在一个实施方式中，只有匹配好的数据才会从语义模型中提取。在另一个实施方式中，匹配和没匹配好表格参数的数据被提取和存储，但这些数据用不同的相关性级别标注出来。提取没匹配好的表格参数的目的是为了潜在的未来分析和利用。数据相关性也同样被识别并提取。

进一步地，所述相关性矩阵由以下算法来构建：

M _ij＝∑w _qSim _q(O _i，K _j)

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。此外，不应将权利要求中的任何附图标记视为限制所涉及的权利要求；“包括”一词不排除其它权利要求或说明书中未列出的装置或步骤；“第一”、“第二”等词语仅用来表示名称，而并不表示任何特定的顺序。

Claims

语义模型实例化方法，其中，包括如下步骤：

S1，接收一个基于本体的语义模型，解析该语义模型并将所述语义模型转化为特征向量集合，其中，所述特征向量表征本体的类型、属性以及所述属性之间的关系；

S3，导入一个半结构化文件，基于所述语义模型的语义向量将所述半结构化文件转化为关键词向量；

S4，比较所述语义向量和所述关键词向量的相关性，并识别对应于所述语义向量的关键词向量。
根据权利要求1所述的语义模型实例化方法，其特征在于，所述步骤S1和S3之间还包括如下步骤：

S2，基于所述语义模型的语义向量匹配所述语义向量单词的近义词，

其中，所述步骤S3还包括如下步骤：

基于所述基于所述语义模型的语义向量及其近义词将所述半结构化文件转化为关键词向量。
根据权利要求1所述的语义模型实例化方法，其特征在于，所述步骤S4之后还包括如下步骤：将对应于所述语义向量的关键词向量的半结构化文件实例数据提取到数据库。
根据权利要求1所述的语义模型实例化方法，其特征在于，所述本体包括类型、属性以及所述属性之间的关系。
根据权利要求1所述的语义模型实例化方法，其特征在于，所述半结构化文件为表格文件时，所述步骤S3还包括如下步骤：

确定所述表格文件的表头位置，并识别该表格文件的数据部分。
根据权利要求1所述的语义模型实例化方法，其特征在于，所述步骤S4还包括如下步骤：

基于语义向量、同义词词库和关键词向量执行多个相关性计算方法获得多个相关值以比较所述语义向量和所述关键词向量的相关性，对所述相关值加权来构建相关性矩阵并筛选出参数映射以识别对应于所述语义向量的关键词向量，

其中，所述参数映射表示匹配的关键词向量和语义向量。
根据权利要求6所述的语义模型实例化方法，其特征在于，所述相关性矩阵由以下算法来构建：

M _ij＝∑w _qSim _q(O _i，K _j)

其中，M _ij为相关性，O为语义向量，k为关键词向量，w _q为权重，Sim _q为相关性算法，i，j，q为自然数。
语义模型实例化系统，包括：

处理器；以及

与所述处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被处理器执行时使所述电子设备执行动作，所述动作包括：

S1，接收一个基于本体的语义模型，解析该语义模型并将所述语义模型转化为特征向量集合，其中，所述特征向量表征本体的类型、属性以及所述属性之间的关系；

S3，导入一个半结构化文件，基于所述语义模型的语义向量将所述半结构化文件转化为关键词向量；

S4，比较所述语义向量和所述关键词向量的相关性，并识别对应于所述语义向量的关键词向量。
根据权利要求8所述的语义模型实例化系统，其特征在于，所述动作S1和S3之间还包括：

S2，基于所述语义模型的语义向量匹配所述语义向量单词的近义词，

其中，所述动作S3还包括：

基于所述基于所述语义模型的语义向量及其近义词将所述半结构化文件转化为关键词向量。
根据权利要求8所述的语义模型实例化系统，其特征在于，所述动作S4之后还包括：将对应于所述语义向量的关键词向量的半结构化文件实例数据提取到数据库。
根据权利要求8所述的语义模型实例化系统，其特征在于，所述本体包括类型、属性以及所述属性之间的关系。
根据权利要求8所述的语义模型实例化系统，其特征在于，所述半结构化文件为表格文件时，所述动作S3还包括：

确定所述表格文件的表头位置，并识别该表格文件的数据部分。
根据权利要求8所述的语义模型实例化系统，其特征在于，所述动作S4还包括：

基于语义向量、同义词词库和关键词向量执行多个相关性计算方法获得多个相关值以比较所述语义向量和所述关键词向量的相关性，对所述相关值加权来构建相关性矩阵并筛选出参数映射以识别对应于所述语义向量的关键词向量，

其中，所述参数映射表示匹配的关键词向量和语义向量。
根据权利要求13所述的语义模型实例化系统，其特征在于，所述相关性矩阵由以下算法来构建：

M _ij＝∑w _qSim _q(O _i，K _j)

其中，M _ij为相关性，O为语义向量，k为关键词向量，w _q为权重，Sim _q为相关性算法，i，j，q为自然数。
语义模型实例化装置，其中，包括：

第一转化装置，其接收一个基于本体的语义模型，解析该语义模型并将所述语义模型转化为特征向量集合，其中，所述特征向量表征本体的类型、属性以及所述属性之间的关系；

第二转化装置，其导入一个半结构化文件，基于所述语义模型的语义向量将所述半结构化文件转化为关键词向量；

比较识别装置，其比较所述语义向量和所述关键词向量的相关性，并识别对应于所述语义向量的关键词向量。
计算机程序产品，所述计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可执行指令，所述计算机可执行指令在被执行时使至少一个处理器执行根据权利要求1至7中任一项所述的方法。
计算机可读介质，其上存储有计算机可执行指令，所述计算机可执行指令在被执行时使至少一个处理器执行根据权利要求1至7中任一项所述的方法。