CN121661663A

CN121661663A - 多模态结构化数据智能识别方法、装置、系统及存储介质

Info

Publication number: CN121661663A
Application number: CN202511844237.2A
Authority: CN
Inventors: 郑穗; 方英
Original assignee: Shenzhen Roadshow Moment Network Data Co ltd
Current assignee: Shenzhen Roadshow Moment Network Data Co ltd
Priority date: 2025-12-08
Filing date: 2025-12-08
Publication date: 2026-03-13

Abstract

发明提供了一种多模态结构化数据智能识别方法、装置、系统及存储介质，多模态结构化数据智能识别方法至少包括如下步骤：获取到包括表格图像和表格文本的多模态图片，分别提取得到视觉特征和文本特征；根据文本特征中的位置信息和/或格式信息，以及视觉特征中的线框信息，将视觉特征和文本特征融合，得到多模态融合特征；基于多模态融合特征，解码输出包含多模态图片对应的结构化数据。本发明提供的多模态结构化数据智能识别方法通过对多模态图片的解析，获取到表格图像和表格文本，以及与之对应的视觉特征和文本特征，对两种特征进行各自的分析，借助文本特征本身具有的特性，重新利用计算机将文本特征与视觉特征相互融合，最后解码出计算机可处理的结构化数据。

Description

多模态结构化数据智能识别方法、装置、系统及存储介质

技术领域

本发明涉及人工智能技术领域，特别是涉及一种多模态结构化数据智能识别方法、装置、设备及存储介质。

背景技术

OCR，Optical Character Recognition，光学字符识别传统技术，是指多模态结构化数据智能识别系统（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别的方法将照片上的形状翻译成计算机文字的过程。尽管计算机识别技术已经有长足发展，OCR技术的识别精度不断提高，但是对实际工作情况仍然存在应对不足的问题。

在工作表格领域，比如对合并单元格、嵌套表格等复杂表格结构，单模态的方法无法有效关联视觉特征与语义信息。另外，现有表格识别系统的泛化能力差，难以适应不同模板、清晰度、倾斜度和/或显现区域的表格，文本检测与表格结构识别往往进行分离处理，从而导致识别误差累积，结果失真严重的问题。

发明内容

基于此，为解决上述提到的至少一个问题，本发明提供了一种多模态结构化数据智能识别方法、装置、系统及存储介质。

第一个方面，本发明提供了一种多模态结构化数据智能识别方法，至少包括如下步骤：

获取到包括表格图像和表格文本的多模态图片，分别提取得到视觉特征和文本特征；

根据所述文本特征中的位置信息和/或格式信息，以及所述视觉特征中的线框信息，将所述视觉特征和所述文本特征融合，得到多模态融合特征；

基于所述多模态融合特征，解码输出包含所述多模态图片对应的结构化数据。

在第一个方面的某些实现方式中，所述位置信息包括所述表格文本在所述多模态图片上的第一坐标信息，所述线框信息包括所述表格图像中显性线条的第二坐标信息；所述将所述视觉特征和所述文本特征融合的步骤，包括：

根据所述第一坐标信息和所述第二坐标信息，将与所述文本特征对应的数据序列与所述视觉特征对应的数据序列重采样为长度一致的关联数据序列。

结合第一个方面和上述实现方式，在第一个方面的某些实现方式中，所述格式信息包括表格文本的长度、宽度和行数，所述线框信息包括所述表格图像中显性线条的第二坐标信息；所述将所述视觉特征和所述文本特征融合的步骤，包括：

根据所述格式信息和所述第二坐标信息，将所述文本特征对应的数据序列进行标准化转换，得到融合文本特征；

根据所述位置信息和所述线框信息，将与所述融合文本特征对应的数据序列与所述视觉特征对应的数据序列重采样为长度一致的关联数据序列。

结合第一个方面和上述实现方式，在第一个方面的某些实现方式中，所述位置信息还包括所述表格文本的倾斜角度；所述将所述文本特征对应的数据序列进行标准化转换的步骤，还包括：根据所述倾斜角度，在所述文本特征对应的数据序列和所述视觉特征对应的数据序列中均增加偏转角度数据。

结合第一个方面和上述实现方式，在第一个方面的某些实现方式中，所述分别提取得到视觉特征和文本特征的步骤，包括：

调用OCR识别引擎识别所述表格文本，得到所述文本特征，所述文本特征包括若干个相互独立的文本块及各所述文本块的第三坐标信息。

结合第一个方面和上述实现方式，在第一个方面的某些实现方式中，所述线框信息包括所述表格图像中显性线条的第二坐标信息；所述将所述视觉特征和所述文本特征融合的步骤，还包括：

根据所述第三坐标信息，以预设数据差值，校正所述第二坐标信息，得到校正后第二坐标信息；

根据所述第三坐标信息和所述校正后第二坐标信息，将与所述文本块对应的数据序列与所述视觉特征对应的数据序列重采样为长度一致的关联数据序列。

结合第一个方面和上述实现方式，在第一个方面的某些实现方式中，所述获取到包括表格图像和表格文本的多模态图片的步骤包括对记载有表格内容的文档进行扫描或拍照。

第二个方面，本发明提供了一种多模态结构化数据智能识别装置，包括：

获取模块，用于获取到包括表格图像和表格文本的多模态图片，分别提取得到视觉特征和文本特征；

融合模块，用于根据所述文本特征中的位置信息和/或格式信息，以及所述视觉特征中的线框信息，将所述视觉特征和所述文本特征融合，得到多模态融合特征；

解码模块，用于基于所述多模态融合特征，解码输出包含所述多模态图片对应的结构化数据。

第三个方面，本发明提供了一种多模态结构化数据智能识别系统，包括：存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现本发明第一个方面中任一项所述的多模态结构化数据智能识别方法。

第四个方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明第一个方面中任一项所述的多模态结构化数据智能识别方法。

本发明的实施例中提供的技术方案带来如下有益技术效果：

本发明提供的多模态结构化数据智能识别方法通过对多模态图片的解析，获取到表格图像和表格文本，以及与之对应的视觉特征和文本特征，对两种特征进行各自的分析，借助文本特征本身具有的特性，重新利用计算机将文本特征与视觉特征相互融合，最后解码出计算机可处理的结构化数据，即使表格的模板不同、表格清晰度不用，甚至出现位置的偏斜，都能有效生成与表格图像对应的结构化数据。

本申请附加的方面和优点将在后续部分中给出，并将从后续的描述中详细得到理解，或通过对本发明的具体实施了解到。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中多模态结构化数据智能识别方法的流程示意图；

图2为本发明一实施例中将视觉特征和文本特征融合的流程示意图；

图3为本发明一实施例中通过多模态结构化数据智能识别方法实现结构化数据输出的流程示意图；

图4为本发明一实施例中多模态结构化数据智能识别方法进行融合处理的逻辑流程示意图；

图5为本发明一实施例中多模态结构化数据智能识别方法进行表格图像重建的流程示意图；

图6为本发明一实施例中多模态识别表格的装置的结构框架示意图；

图7为本发明一实施例中多模态结构化数据智能识别系统的结构框架示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明第一个方面的实施例提供了一种多模态结构化数据智能识别方法，如图1所示，至少包括如下步骤：

S100：获取到包括表格图像和表格文本的多模态图片，分别提取得到视觉特征和文本特征。在S100中，主要是分别从表格线框以及文字集合两个方面解读解析多模态图片，将其分别转化为与表格图像对应的视觉特征，以及与表格文本对应的文本特征。作为现有技术中已经能够实现的，计算机已经能够通过OCR技术读取文字，以及读取线条，将其转化为计算机内部数据，分别记作文本特征和视觉特征。具体的，获取到包括表格图像和表格文本的多模态图片的步骤包括对记载有表格内容的文档进行扫描或拍照。本发明的应用场景就是针对现实生活工作中，如何识别记载在纸张上的表格，并将之直接精确转化成计算机中可编辑的表格，因此获取多模态图片的方式通常就是将纸张上的表格通过拍照或者扫描的方式记录到计算机设备或者多模态结构化数据智能识别系统当中，再通过常规的OCR技术进行后续处理。

S200：根据文本特征中的位置信息和/或格式信息，以及视觉特征中的线框信息，将视觉特征和文本特征融合，得到多模态融合特征。文本特征当中包括位置信息和格式信息，位置信息也即文字在多模态图片上的具体位置，格式信息则包含文字所占区域的长度、宽度和行数等。将视觉特征和文本特征融合，也就是将文本特征与视觉特征对齐，这种对齐在模型内部是一个软对齐的概念，而非严格的一一对应，其判断标准是：在经过融合编码器处理后，对于文本序列中的每一个token，模型都能在其对应的重采样视觉特征中找到支撑其语义和位置的充分视觉证据。在训练过程中，通过损失函数来驱动这种对齐，例如，在预测某个单元格的坐标时，模型同时利用该单元格内的文本token和其对应的视觉特征，也即线条框出的区域。如果对齐成功，模型就能准确地将某一文本与其在图像中的具体位置关联起来。在模型训练完成后，可以通过可视化注意力权重图来直观地看到，一个文本token（例如“金额”）是否落入图像中表格对应的视觉区域。通过S200，原本被分离读取得到的视觉特征和文本特征得到融合或者“对齐”，形成多模态融合特征。

S300：基于多模态融合特征，解码输出包含多模态图片对应的结构化数据。计算机能够根据多模态融合特征，解码输出结构化数据，比如HTML、JSON、CSV等形式的数据。计算机读取这些结构化数据，可在计算机中描绘出可编辑的表格内容。

具体的，在本发明第一个方面实施例的一些实现方式中，位置信息包括表格文本在多模态图片上的第一坐标信息，线框信息包括表格图像中显性线条的第二坐标信息；将视觉特征和文本特征融合的步骤，包括：根据第一坐标信息和第二坐标信息，将与文本特征对应的数据序列与视觉特征对应的数据序列重采样为长度一致的关联数据序列。充分利用位置信息和尺寸信息，能够将读取到的图片信息，通过计算机按照特定的设定处理，得到更为符合多模态图片的结构化数据。表格文本，也即表格中的文本，通常包括若干个字符，如果是中文字，则往往具有至少一个汉字，这个文本在图片上会有一定的位置，这个位置在文本特征被读出之后，就能同时被计算机确定。而表格由纵向、横向或斜向的线条组成，尤其是其中的显性的线条，在计算机将表格图像对应的视觉特征读出之后，也必然会形成这些线条的线条编号，每根线条的长度值、起始坐标、终点坐标等等。

将视觉特征和文本特征融合，要构建视觉特征（包括线条、单元格布局和单元格位置等信息）与文本特征（包括文字、数字、符号及其尺寸位置等信息）之间的深层语义关联，首先进行二者的空间对齐。利用OCR提供的文本边界框坐标，将每个文本令牌（Token）与其在图像中的具体空间位置（即对应的视觉区域）进行绑定，关注某一个文本周围的视觉上下文，例如该单元格的边框粗细、阴影、颜色等，以及一个视觉区域内的文本，将文本的周围一定范围的单元格对应，将二者合并，在计算机中，进行各自数据序列的重采样融合。具体通过一种感知重采样器来实现，例如将视觉特征对应的数据序列 V = [v₁, v₂, ..., v_k] 重采样为与文本特征对应的数据序列 T = [t₁, t₂, ..., t_m] 长度一致的数据序列 V' =[v'₁, v'₂, ..., v'_m]。

其次，进行语义对齐，通过跨模态注意力机制，让视觉特征和文本特征相互映射，实现相互查询的效果。例如，文本特征可以作为“查询”（Query），去“检索”（Attention）与之最相关的视觉特征；反之，视觉特征（如一个合并单元格的图案）也可以作为“查询”，去“寻找”描述它的关键文本。将文本特征对应的数据序列 T 作为 Query，视觉特征对应的序列V 作为 Key 和 Value，进行一次注意力计算：Attention(Q=T, K=V, V=V)，简称权重矩阵A，再生成对齐权重。上述注意力输出的权重矩阵 A（尺寸为 m x k）就代表了每个文本token对每个图像区域的关注程度。利用权重矩阵 A 对视觉特征 V 进行加权求和，得到一个初步的融合特征。然后通过一个可学习的前馈神经网络，将该初步的融合特征映射到与文本特征同维度的空间，最终输出重采样后的视觉特征V'。经过此步骤，V'中的每一个视觉特征 v'_i 都是与文本特征 t_i 最相关的视觉上下文信息的浓缩。更进一步的，将重采样后的视觉特征V'再与文本特征 T 深度融合：采用多模态 Transformer 层，将V'和 T 拼接成一个长的多模态序列 X = [v'₁, v'₂, ..., v'_m, t₁, t₂, ..., t_m]。将这个多模态序列X 输入到一个标准的 Transformer 编码器层中。在这个层内部的自注意力机制中，每一个token（无论是视觉还是文本）都会与序列中的所有其他token进行交互。例如，一个文本token t_j 会同时关注其周围的文本token，以及与其对齐的视觉token v'_j，还可能关注到其他行列的视觉token。每个token经过自注意力后，再通过一个前馈网络进行非线性变换，这样的多模态 Transformer 层会堆叠 N 层（例如6层），从而实现深层次的跨模态理解。

具体的，结合第一个方面的实施例和上述实现方式，在第一个方面的另一些实施例中，格式信息包括表格文本的长度、宽度和行数，线框信息包括表格图像中显性线条的第二坐标信息；将视觉特征和文本特征融合的步骤，包括：根据格式信息和第二坐标信息，将文本特征对应的数据序列进行标准化转换，得到融合文本特征。再根据位置信息和线框信息，将与融合文本特征对应的数据序列与视觉特征对应的数据序列重采样为长度一致的关联数据序列。

如前面描述的，表格文本，也即表格中的文本，通常包括若干个字符，这些字符会呈现为一定规律的格式，字符之间的间隔、各个字符以及字符串的长度、宽度等，即是格式信息，经过OCR技术，这些与文本特征相关的格式信息就会转化为可以为计算机处理的数据。在本实施例中，根据某一单元格内的文本与其它区域，比如上、下、左或右区域的文本的对齐关系，也即格式信息，“推理”出单元格的这一区域应该存在一个单元格边界，在形式上理解：格式信息对应的文本边界，将向外延展一特定尺寸，这一特定尺寸可视为能够人为设定调整的编辑参数，统一按照这一编辑参数处理，进行标准化转换形成一具有新的文本边界的新文本，即上述的融合文本特征，再将这一新文本与视觉特征融合，形成关联数据序列。经过本实施例的上述处理，哪怕视觉特征中并不存在这一“单元格边界”，即表格中存在隐性线框，也能将文本正确“填充”到表格中去，最后形成结构化数据。

结合第一个方面的实施例和上述实现方式，在第一个方面实施例的另一些实现方式中，位置信息还包括表格文本的倾斜角度；将文本特征对应的数据序列进行标准化转换的步骤，还包括：根据倾斜角度，在文本特征对应的数据序列和视觉特征对应的数据序列中均增加偏转角度数据。在现有技术中，通常使用霍夫变换或轮廓检测找直线，然后计算倾斜角进行旋转。在本发明中，首先记录表格中文本的倾斜角度，这一倾斜角度的确定，可以根据表格中多组文本的倾斜角度的统计数据确定，文本倾斜，即使周围的表格或者单元格并非显性表格，也能对能够显示处理的表格进行处理。具体为：使用OCR引擎获取文本行的最小外接矩形，统计所有文本行的倾斜角，取中位数作为文本方向的倾斜角。这样能够有效纠正因拍摄视角或者纸张摆放姿态导致的文本形变。同时，还可以通过线条检测找到表格最外侧的边框线，进行边框倾斜角度的评估。如果边框线置信度高且连续，则用其方向进行二次验证。最终校正角度 = α * 文本倾斜角 + β * 边框倾斜角。通过这种方式，即使表格框线不完整，我们也能通过大量文本信息实现精准校正。

此外，在某些具体的实施方式中，采用基于任务反馈的自适应增强，会先对原始多模态图片进行一次快速的“预识别”，诊断其主要问题，比如：低对比度、背景噪音、光照不均、摩尔纹等。针对低对比度/光照不均：采用CLAHE算法，其参数（格子大小、对比度限制）会根据图像分辨率实现自适应调整。针对背景噪音，则采用非局部均值去噪，而非高斯滤波，以更好地保留线条和字符边缘。针对摩尔纹，使用特定的频域滤波方法将其消除。这些校正处理的目标是为后续的其它线条检测和OCR识别创造更好的输入基础。再者，使用在大量表格图像上微调过的检测模型，其Backbone神经网络对线条和文本特征更为敏感，通过该检测模型过滤掉页眉、页脚、盖章、手写注释等非表格线条的干扰。现实中大量表格存在扫描歪斜、虚线、断线、污点、过粗/过细线条等问题，纯视觉的方法容易失效，本发明提供的方案在线条清晰时信赖线条，在线条模糊时又能依靠文本布局和语义进行兜底，保证了识别率。

可选的，结合前述的实施例和实现方式等，在第一个方面的又一些实施例中，分别提取得到视觉特征和文本特征的步骤，包括：调用OCR识别引擎识别表格文本，得到文本特征，文本特征包括若干个相互独立的文本块及各文本块的第三坐标信息。在许多表格中，每个单元格内可能不止一行，但是根据语义识别的技术，计算机能够将不止一行的文本解读为表达一个含义的语句，也即将多行文本视作一个文本块，一个语义的文本对应一个文本块，每个文本块对应一个坐标信息，即第三坐标信息。更进一步的，在本发明的一个具体实现方式中，如图2所示，线框信息包括表格图像中显性线条的第二坐标信息；S200中将视觉特征和文本特征融合的步骤，还包括：

S210：根据第三坐标信息，以预设数据差值，校正第二坐标信息，得到校正后第二坐标信息。

S220：根据第三坐标信息和校正后第二坐标信息，将与文本块对应的数据序列与视觉特征对应的数据序列重采样为长度一致的关联数据序列。

通过本实现方式，首先判断该表格是“全有线表”、“半有线表”还是“无线表”，为后续流程提供处理基础条件。其次，当表格是半有线表或无线表，比如常见的三线表，根据表格中的文本块，能够确定文本块周围实际是存在单元格的，只不过没有显现出来。可以如前面的实施例中描述的方法，“推理”出文本块所在的这一区域应该存在一个单元格边界，在形式上理解：将文本块对应的第三坐标信息相应向外延展一特定尺寸，这一特定尺寸可视为能够人为设定或调整的编辑参数，统一按照这一编辑参数处理，进行标准化转换形成新的第二坐标信息，也即在原本的半有线表或无线表中将隐性线条用数据的方式呈现出来，得到校正后的第二坐标信息，再将这一重新绘制的表格与文本融合，形成关联数据序列。“显式线条检测”提供了“眼睛看到的物理结构”，而对于文本块的分析处理，则是“隐式结构感知”，提供了“大脑能理解但还未具有物理结构的逻辑结构”。本发明提供的方法同时具备这两种能力，并能将其智能融合，才能更像人类一样灵活、准确地理解千变万化的表格。

对结构多样性的泛化能力，本发明提供的方案用一个统一的模型，同时具备了处理“完全有线表”、“完全无线表”以及介于两者之间的“半有线表”的能力。上述“隐式结构感知”的步骤可以通过分析跨行列的文本块、对齐方式的破坏等，精准地推断出合并单元格的范围，无需针对不同风格的表格去训练或切换不同的模型，显著提升了实用价值。

在一些实际的案例中，可以综合运用上述的方法步骤和现有技术，实现结构化数据的输出，为方便理解，以下列举出详细过程：

如图3所示，输入表格图像，对输入的表格图像进行预处理，主要包括三个方面：图像校正、图像增强和目标检测，其中图像校正包括去图像扭曲以及将图像旋转，图像增强则主要是调整对比度和二值化，目标检测主要包括检测表格区域。获取到表格图像之后，经多模态大模型核心的文本编码器和视觉编码器处理，得到视觉特征和文本特征，再通过融合编码器，经感知重采样器和注意力融合，经大语言模型核心处理，比如现有的LLaMA、GPT、ChatGLM等，经后处理和输出，得到JSON、CSV或Excel形式的结构化数据。

上述过程，参考图4，能够了解更细节的内容，在输入层内已经有原始高分辨率图像，也可包括用户查询文本。经过切分为图像块和/或Token化处理，通过视觉编码器和文本编码器输出得到原始视觉特征序列和文本特征序列。两个特征序列的Token数量不一定相同，但经感知重采样器的处理，输出对齐后的视觉Token序列。输入融合与理解核心，结合以文本特征序列承载的信息作为指令前缀，经大语言模型处理成理解后的融合表示，生成给予图文融合信息的回答。

参考图5，在技术方法上，开始获取投影数据经傅里叶变换，将每条投影线变换到频域，经频域网格化，将扇形束投影数据插值到Cartesian直角坐标网格。经逆傅里叶变换将网格化后的频域数据变换回图像空间，得到在计算机中重建后的图像。再对图像进行质量评估，判断图像质量是否满足要求，如果是则将重建后的图像输出，如果不符合要求，则经过调整参数，采用滤波函数、插值方法等，回到傅里叶变换的步骤，再处理，直至输出最终重建图像。

为便于更好地理解本发明提供的多模态结构化数据智能识别方法，以下以表格的形式介绍一个实际的应用案例，将一张稍有倾斜、带合并单元格的发票图像处理成计算机可处理的结构化数据，并可以在计算机显示设备中呈现，参考下表1：

本发明第二个方面的实施例提供了一种多模态结构化数据智能识别装置10，如图6所示，包括获取模块11、融合模块12和解码模块13。其中：

获取模块11用于获取到包括表格图像和表格文本的多模态图片，分别提取得到视觉特征和文本特征。

融合模块12用于根据文本特征中的位置信息和/或格式信息，以及视觉特征中的线框信息，将视觉特征和文本特征融合，得到多模态融合特征。

解码模块13用于基于多模态融合特征，解码输出包含多模态图片对应的结构化数据。

具体的，位置信息包括表格文本在多模态图片上的第一坐标信息，线框信息包括表格图像中显性线条的第二坐标信息；融合模块12将视觉特征和文本特征融合的步骤，包括：根据第一坐标信息和第二坐标信息，将与文本特征对应的数据序列与视觉特征对应的数据序列重采样为长度一致的关联数据序列。

具体的，格式信息包括表格文本的长度、宽度和行数，线框信息包括表格图像中显性线条的第二坐标信息；融合模块12将视觉特征和文本特征融合的步骤，包括：

根据格式信息和第二坐标信息，将文本特征对应的数据序列进行标准化转换，得到融合文本特征；

根据位置信息和线框信息，将与融合文本特征对应的数据序列与视觉特征对应的数据序列重采样为长度一致的关联数据序列。

进一步的，位置信息还包括表格文本的倾斜角度；将文本特征对应的数据序列进行标准化转换的步骤，还包括：根据倾斜角度，在文本特征对应的数据序列和视觉特征对应的数据序列中均增加偏转角度数据。

具体的，获取模块11分别提取得到视觉特征和文本特征的步骤，包括：调用OCR识别引擎识别表格文本，得到文本特征，文本特征包括若干个相互独立的文本块及各文本块的第三坐标信息。

进一步的，线框信息包括表格图像中显性线条的第二坐标信息；获取模块11将视觉特征和文本特征融合的步骤，还包括：根据第三坐标信息，以预设数据差值，校正第二坐标信息，得到校正后第二坐标信息；根据第三坐标信息和校正后第二坐标信息，将与文本块对应的数据序列与视觉特征对应的数据序列重采样为长度一致的关联数据序列。

可选的，获取模块11获取到包括表格图像和表格文本的多模态图片的步骤包括对记载有表格内容的文档进行扫描或拍照。

基于相同的发明构思，参考图7，本发明第三个方面的实施例提供了一种多模态结构化数据智能识别系统1000，包括：处理器1001、存储器1003及存储在存储器1003上的计算机程序，其中，处理器1001和存储器1003相电连接，如通过总线1002相连，处理器1001执行计算机程序以实现本发明第一个方面中任一项的多模态结构化数据智能识别方法。

处理器1001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field－Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1002可包括一通路，在上述组件之间传送信息。总线1002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线1002可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1003可以是ROM（Read-Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（random access memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead-Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

本技术领域技术人员可以理解，本发明实施例提供的多模态结构化数据智能识别系统1000可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备（例如，计算机）可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中。

本发明提供的多模态结构化数据智能识别系统1000通过运行记载有多模态结构化数据智能识别方法的计算机程序，通过对多模态图片的解析，获取到表格图像和表格文本，以及与之对应的视觉特征和文本特征，对两种特征进行各自的分析，借助文本特征本身具有的特性，重新利用计算机将文本特征与视觉特征相互融合，最后解码出计算机可处理的结构化数据，即使表格的模板不同、表格清晰度不用，甚至出现位置的偏斜，都能有效生成与表格图像对应的结构化数据。

具体地，多模态结构化数据智能识别系统1000包括收发器1004。收发器1004可用于信号的接收和发送。收发器1004可以允许多模态结构化数据智能识别系统1000与其他设备进行无线或有线通信以交换数据。需要说明的是，实际应用中收发器1004不限于一个。

具体地，多模态结构化数据智能识别系统1000包括输入单元1005，输入单元1005可用于接收输入的数字、字符和/或图像，或者产生与多模态结构化数据智能识别系统1000的用户设置以及功能控制有关的键信号输入。输入单元1005可以包括但不限于触摸屏、物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆、拍摄装置、扫描仪等中的一种或多种。

具体地，多模态结构化数据智能识别系统1000还包括输出单元1006。输出单元1006可用于输出或展示经过处理器1001处理的信息。输出单元1006可以包括但不限于显示装置、扬声器、振动装置等中的一种或多种。

虽然图7示出了具有各种装置的多模态结构化数据智能识别系统1000，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

可选的，存储器1003用于存储执行本发明方案的应用程序代码，并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的应用程序代码，以实现本发明实施例提供的任一种多模态结构化数据智能识别方法。

基于相同的技术构思，本发明第四个方面的实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明第一个方面中任一项的多模态结构化数据智能识别方法。

由于装载有以本发明提供的多模态结构化数据智能识别方法为逻辑内核的计算机程序，本发明提供的计算机可读存储介质应用在多种计算机设备中，可以通过对多模态图片的解析，获取到表格图像和表格文本，以及与之对应的视觉特征和文本特征，对两种特征进行各自的分析，借助文本特征本身具有的特性，重新利用计算机将文本特征与视觉特征相互融合，最后解码出计算机可处理的结构化数据，即使表格的模板不同、表格清晰度不用，甚至出现位置的偏斜，都能有效生成与表格图像对应的结构化数据。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种多模态结构化数据智能识别方法，其特征在于，至少包括如下步骤：

2.根据权利要求1所述的多模态结构化数据智能识别方法，其特征在于，所述位置信息包括所述表格文本在所述多模态图片上的第一坐标信息，所述线框信息包括所述表格图像中显性线条的第二坐标信息；所述将所述视觉特征和所述文本特征融合的步骤，包括：

3.根据权利要求1所述的多模态结构化数据智能识别方法，其特征在于，所述格式信息包括表格文本的长度、宽度和行数，所述线框信息包括所述表格图像中显性线条的第二坐标信息；所述将所述视觉特征和所述文本特征融合的步骤，包括：

4.根据权利要求3所述的多模态结构化数据智能识别方法，其特征在于，所述位置信息还包括所述表格文本的倾斜角度；所述将所述文本特征对应的数据序列进行标准化转换的步骤，还包括：根据所述倾斜角度，在所述文本特征对应的数据序列和所述视觉特征对应的数据序列中均增加偏转角度数据。

5.根据权利要求1所述的多模态结构化数据智能识别方法，其特征在于，所述分别提取得到视觉特征和文本特征的步骤，包括：

6.根据权利要求5所述的多模态结构化数据智能识别方法，其特征在于，所述线框信息包括所述表格图像中显性线条的第二坐标信息；所述将所述视觉特征和所述文本特征融合的步骤，还包括：

7.根据权利要求1所述的多模态结构化数据智能识别方法，其特征在于，所述获取到包括表格图像和表格文本的多模态图片的步骤包括对记载有表格内容的文档进行扫描或拍照。

8.一种多模态结构化数据智能识别装置，其特征在于，包括：

9.一种多模态结构化数据智能识别系统，包括：存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1至7中任一项所述的多模态结构化数据智能识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的多模态结构化数据智能识别方法。