WO2012083882A1

WO2012083882A1 - 用于西文水印处理的水印图像分块方法和装置

Info

Publication number: WO2012083882A1
Application number: PCT/CN2011/084577
Authority: WO
Inventors: 王高阳; 亓文法; 王立东; 杨斌
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd; Peking University Founder Research and Development Center
Current assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd; Peking University Founder Research and Development Center
Priority date: 2010-12-23
Filing date: 2011-12-23
Publication date: 2012-06-28
Anticipated expiration: 2013-06-23
Also published as: JP5669957B2; US20140003649A1; CN102567938A; EP2657902B1; EP2657902A4; US9111341B2; CN102567938B; EP2657902A1; JP2014500688A

Description

用于西文水印处理的水印图像分块方法和装置技术领域

本发明涉及数字排版领域，具体而言，涉及用于西文水印处理的水印图像分块方法和装置。背景技术

随着电子商务及电子政务的发展，企事业单位、党政机关以及国家安全等有关部门将处理大量的文字材料，这其中包括合约、涉密等等的重要文件。这些文本文件的版权保护和内容安全是一个重要的问题，数字水印技术为上述问题的解决提供了一种途径。

数字水印是指将特定的信息嵌入数字信号中，数字信号可能是音频、图片或是影片等。若要拷贝有数字水印的信号，所嵌入的信息也会一并被拷贝。数字水印可分为浮现式和隐藏式两种，前者是可被看见的水印（ visible watermarking )，其所包含的信息可在观看图片或影片时同时被看见。一般来说，浮现式的水印通常包含版权拥有者的名称或标志。电视台在画面角落所放置的标志，也是浮现式水印的一种。

隐藏式的水印是以数字数据的方式加入音频、图片或影片中，但在一般的状况下无法被看见。隐藏式水印的重要应用之一是保护版权，期望能借此避免或阻止数字媒体未经授权的复制和拷贝。隐写术 ( Steganography )也是数字水印的一种应用，双方可利用隐藏在数字信号中的信息进行沟通。数字照片中的注释数据能记录照片拍摄的时间、使用的光圈和快门，甚至是相机的厂牌等信息，这也是数字水印的应用之一。某些文件格式可以包含这些称为 "metadata" 的额外信息。

另外，很多文本文件不仅以数字形式存在，它还会通过打印、复印等途径以纸张的形式传播，这其中不乏大量的西文文档。随着国际化程度越来越高，西文文档的交流也变得日趋频繁，因此对于此类文档的安全保护的需求也变得更加强烈。而随着数字化技术的迅猛发展，这种方式已经变得相当普遍 ,这也使得很多重要或者机密信息以纸质文件为传播途径而泄漏出去。因此，研究基于纸质文件的能够抵抗打印和复印的二值文本水印技术显得尤为重要。

1、申请号为 200710121642.7 的专利文献公开了一种二值图像中数字水印的嵌入方法，该方法为：将二值图像的部分或全部划分为至少两个水印图像块，根据每个水印图像块中的黑色像素点个数得到分组，对所述每个分组中的数据进行哈达玛（Hadamard ) 变换。使用量化方法，将待嵌入水印信号嵌入，进行逆哈达玛变换得到每个水印图像块中需要改变的像素点个数从而达到嵌入、提取水印的目的。

2、申请号为 200810055770.0的专利文献公开了一种二值文本图像中数字水印的嵌入方法和装置，该方法包括：将二值文本图像的部分或全部划分为嵌入部分和调整部分，计算所述嵌入部分和调整部分每个集合所包含的黑色像素点个数的平均值，根据所述平均值和嵌入部分每个集合所包含的黑色像素点的个数计算颜色改变参数，根据所述颜色改变参数改变嵌入部分和调整部分每个集合所包含的黑色像素点的个数，实现水印的嵌入。

3、申请号为 200610114048.0的专利文献公开了一种黑白二值文本图像中数字水印嵌入与提取的方法及装置，其中嵌入方法包括定位文本图像中的有效字符区域；将有效字符区域进行分组，并统计各字符区域中的黑点个数；根据分组内的各字符区域内黑点个数之间的相对关系、水印信息位串、以及第一步长计算出每个字符区域内需要翻转的像素第一个数；按第一个数翻转每个字符区域内的像素。提取方法包括定位文本图像中有效字符区域；将有效字符区域进行分组，并统计各字符区域中的黑点个数；根据每个分组中字符区域黑点个数之间的相对关系及第一步长提取嵌入的水印信息位串。

在上述的二值文本水印技术中，水印图像块作为水印的嵌入区域显得尤为重要。可以看出，在上述专利申请 1中，水印图像块直接作为水印嵌入区域。在专利申请 2中，二值文本图像部分划分为嵌入部分，即为水印图像块。在专利申请 3中，文本图像中分组后的有效字符区域作为水印图像块。以上专利申请均通过改变水印图像块内的黑色像素点个数来嵌入水印，通过量化水印图像块内的黑色像素点个数来提取水印。

因此，上述方法都是基于两个前提： 1、正确的字符切分结果。目前的字符切分算法大多依赖于光学字符识 OCR ( Optical Character Regnition ) 系统的字符识别结果，但是考虑到 OCR识别的速度和效率问题，一般不会在数字水印系统中引入 OCR机制，并且对于粘连的西文字符而言， OCR识别也存在一定的错误率； 2、水印图像块的黑色像素点个数波动范围不大。比如在中文文档中，釆用的是基于一个汉字为一个水印图像块。中文是方块字，各个字符的面积大小差别不大，因此水印图像块中的黑色像素点个数差别不大，从而保证了水印嵌入和提取的正确率。

但是，上述方法不太适合于西文文档。面临的困难有：

a ) 西文字母在打印前后的粘连现象普遍，无法保证打印扫描前后的字符切分的一致性。例如： "mn"、 "tt" 等。如果将单个西文字母作为水印图像块，字母的粘连必然影响水印嵌入和提取前后的字符图像块切分序列的再同步性，从而影响水印嵌入和提取的成功率。

b ) 西文单词的长度差别较大，单词所含字符图像块的黑点个数波动比较大。例如： "My extraordinary power" , 其中各单词长度差别数倍。如果将单个西文单词作为水印图像块，那么水印图像块中的黑色像素点个数差别很不稳定，无法完成水印操作。

c) 西文文档中的字号变化造成的字符大小变化。例如： "Here" 和 "Here" , 所包含的黑色象素点个数相差甚远。针对不同字号的文档，需要釆取不同的量化方法。

因此，针对西文文本文档，获得的水印图像块需要满足以下条件： 1、能够避免因字符粘连带来的水印图像块不同步的影响。

2、水印图像块中的黑色像素点个数差别不大。

3、针对不同字号的文档，可按大小自适应地划分水印图像块。发明内容

本发明旨在提供一种用于西文水印处理的水印图像分块方法和装置，以解决现有技术对于西文图像难以正确划分水印图像块的问题。

在本发明的实施例中，提供了一种用于西文水印处理的水印图像分块方法，包括：将西文图像通过行列切分得到多个字符图像块；从字符图像块中识别有效字符图像块；对有效字符图像块的尺寸进行统计，以确定西文图像是大字号文档或是小字号文档；针对大字号字符文档和小以这些份对应水印图像块。

在本发明的实施例中，提供了一种用于西文水印处理的水印图像分块装置，包括：切分模块，用于将西文图像通过行列切分得到多个字符图像块；识别模块，用于从字符图像块中识别有效字符图像块；统计模块，用于对有效字符图像块的尺寸进行统计，以确定西文图像是大字号文档或是小字号文档；分组模块，用于针对大字号字符文档和小字号字符文档分别釆用不同数目的单词进行分组；均分模块，用于均分单词组为多份，以这些份对应水印图像块。

本发明上述实施例的用于西文水印处理的水印图像分块方法和装置，因为根据字符大小合理地设置水印图像块，所以解决了现有技术对于西文图像难以正确划分水印图像块的问题，保证了水印嵌入处理的可操作性。附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图 1为本发明实施例提供的一种用于西文水印处理的水印图像分块方法的流程图；

图 2为本发明实施例提供的一种大小字号字符文档判别方法的流程图；

图 3为本发明实施例提供的一种有效字符区域分组方法的流程图；图 4A为本发明实施例中的西文二值图像行高和中心线示意图；图 4B为本发明实施例中的西文二值图像有效字符图像块示意图；图 5为本发明实施例中的西文二值图像字符切分结果示意图；图 6为本发明实施例中的西文二值图像单词分组结果示意图；图 7A为本发明实施例中的计算单词分组中字符有效长度的示意图；图 7B为本发明实施例中的获得水印图像块示意图；图 8A为本发明实施例中的西文小字号字符文档的水印图像块示意图；

图 8B 为本发明实施例中的西文小字号字符文档打印扫描后的水印图像块示意图；

图 8C 为本发明实施例中的西文小字号字符文档在不正常间距和部分字符粘连下的水印图像块示意图；图；；、，、、 — ' 、；图像块示意图；

图 9为本发明实施例中的计算单词切分中切分阈值的示意图；图 10 为本发明实施例提供的一种用于西文水印处理的水印图像分块装置的示意图。具体实施方式

下面将参考附图并结合实施例来详细说明本发明。

图 1 为本发明实施例提供的一种用于西文水印处理的水印图像分块方法的流程图，包括：

步骤 S 10, 将西文图像通过行列切分得到多个字符图像块；步骤 S20, 从字符图像块中识别有效字符图像块；

步骤 S30, 对有效字符图像块的尺寸进行统计，以确定西文图像是大字号文档或是小字号文档；

步骤 S40,针对大字号字符文档和小字号字符文档分别釆用不同数目的单词进行分组；

步骤 S50, 均分单词组为多份，以这些份对应水印图像块。

该实施例对有效字符图像块的尺寸进行统计，这充分考虑了西文单词在不同字体下行列切分的特性，区分大字号字符文档和小字号字符文档。自适应地釆用不同数目的单词分组，获得的水印图像块中的黑色像素点个数差距较小，保证了水印嵌入处理的可操作性。另外，本实施例均分单词组为多份，这充分考虑了西文字符间隙打印前后不稳定的特性，在嵌入端，确定扩间距字符和缩间距字符进行适当修正。从而保证打印扫描前后的西文单词切分结果的一致性，使得该水印图像块的再同步性较强，并使得水印嵌入和提取处理的健壮性更好。

优选地，本方法在步骤 S10之前还包括：获取西文图像；对西文图像进行降噪处理，得到二值化的西文图像。该步骤是实现了对西文图像的预处理，很容易在计算机上实现。本优选实施例通过降噪处理，可以得到较好的西文二值文本图像。

优选地，步骤 S20 包括：将字符图像块区分为标点图像块和有效字符图像块。西文文本主要包括标点和字母，标点通常较小，不适合嵌入水印。本优选实施例对字符图像块进行区分，可以排除标点。

优选地，将字符图像块区分为标点图像块和有效字符图像块包括：

判断以下条件：

条件 1、 w > N_tl xH;

条件 2、 U的底边与顶边均落在 m的同侧；

条件 3、 U的底边与顶边分别落在 m的两侧，且\¥ < ^ 11；其中， U为字符图像块的集合 Ω中的字符图像块的外接矩形框 , H为 U所处行的行高， m为 U所处行的中线位置， h、 w分别为 U 的高度、宽度，

N_t2为预设的系数；

如果条件 1-3 中任一条成立，则确定 U对应的字符图像块为标点图像块，如果条件 1-3均不成立，则确定 U对应的字符图像块为有效字符图像块。

本优选实施例给出了具体的数值化判断流程，有利于在计算机中编程实现。

优选地，设置 N_tl = 4, N_t2 = 0.35。本优选实施例是发明人经过大量艰苦的试验后得到的最佳系数。当然，将系数设置在以上数值附近范围也是可行的，这仍然属于本发明的精神范围。优选地，步骤 S30 包括：计算 m ；其中， ^h、、、…、分别是 U所处行的有效字符图像块 I、²、 …、 m的高度；如果 Hs > Th_slze , 则确定 U所处行是大字号字符行，否则是小字号字符行，其中 Th_slze是预设阈值；统计西文图像中大字号字符行的行数 N_large和小字号字符行的行数 N_small; 如果 N_large > N_small , 则确定西文图像是大字号字符文档，否则是小字号字符文档。本优选实施例给出了具体的数值化判断流程，有利于在计算机中编程实现。

优选地，设置 Th_slze = 88。本优选实施例是发明人经过大量艰苦的试验后得到的最佳阈值。当然，将阈值设置在以上数值的附近范围也是可行的，这仍然属于本发明的精神范围，应当受到权利要求的保护。

图 2 为本发明实施例提供的一种大小字号字符文档判别方法的流程图。本实施例通过初步的行列切分获得若干字符图像块的外接矩形框。通过字符图像块的统计特征判断大字号字符行和小字号字符行，然后确定大字号字符文档和小字号字符文档的类型。具体包括以下步骤：

5201、获取字符图像块。

通过初步的行列切分获得若干字符图像块的外接矩形框。如图 4A所示，对当前字符图像块集合 Ω , H为当前行的行高， m为当前行的中线位置。如图 4B所示，字符图像块 U即为 Ω中任意一个外接矩形框。 h、 w分别为 U的高度、宽度。

5202、区分标点字符图像块。

字符图像块 U如果满足以下 3个条件中的任意一项，标记 U为标点字符图像块，否则，标记为有效字符图像块。

条件 1、 w > N_tl xH ；

条件 2、该字符图像块 U的底边与顶边均落在中心线同侧；条件 3、该字符图像块 U的底边与顶边分别落在中心线异侧，且 w < N_t2xH。

一般地， N_tl = 4, N_t2 = 0.35。

其中，条件 1是筛选形如下划线 " " 的标点符号；条件

2是筛选形如逗号、句号、引号的标点符号；条件 3是筛选形如连词符号 "-" 的标点符号。

显然，经过该步骤，所有的字符图像块 U都被区分成标点图像块和有效字符图像块两类。

S203、计算有效字符图像块的统计特征。

不妨设当前行中，有效字符图像块 U的个数为 m。那么当前行的有效字符图像块的有效高度 Hs为：

其中， h、 ¾、···、分别是当前行的有效字符图像块 I、²、 …、 m的高度。

5204、判断大字号字符行或小字号字符行。

如果 Hs > Th_slze, 那么当前行属于大字号字符行，否则，属于小字号字符行。一般地， Th_slze = 88。

5205、判断文档类型。

分别统计文档中大字号字符行的行数 N_{la e}和小字号字符行的行数 N_small,如果 N_large > N_small,那么该文档属于大字号字符文档，否则，属于小字号字符文档。

优选地，步骤 S50 包括：将单词组按照其中单词列投影下的有效长度均分成固定份数；以份所占的宽度和所在字符的最大高度组合成外接矩形框，外接矩形框对应水印图像块。

图 3 为本发明实施例提供的一种有效字符区域分组方法的流程图。针对大字号字符文档和小字号字符文档，分别釆用不同数目的单词为一组，每组按照其中单词列投影下的有效长度均分成固定份数，每份所占的宽度和所在字符的最大高度组合成一个新的外接矩形框，每个新外接矩形框对应一个水印图像块，以完成有效区域分组。具体包括以下步骤： 5301、获取文档类型和单词切分结果。

通过步骤 S30 已获得文档类型，即为大字号字符文档或小字号字符文档。关于单词切分，将一行内所有相邻有效字符图像块的外接矩形框之间的距离由小到大排序，可以认为这个新序列包含了两类数据，一类是单词内字符间距，另一类是单词间距。显然单词间距要大于单词内字符间距。如图 9 所示，将在这个由小到大排列的序列中选取一个切分阈值来区分上述两种类型的数据。所以，获得准确稳定的切分阈值是单词切分的关键。

可通过大津法或双峰法等图像二值化方法来区分上述序列中的两类数据。另外，也可以考虑切分阈值的左右子序列的方差均较小的这一统计特征，通过计算序列中左右方差之和最小的点的方法来确定最佳的切分阈值。获得切分阈值后，将小于切分阈值的字符间距对应的字符图像块合并为一个单词。最终得到如图 5 所示的单词切分结果。

5302、部分字符局部调整。

将处在单词切分阈值大小附近的有效字符图像块归为扩间距字符，将有效字符图像块间距非常小，在打印后非常容易造成字符粘连的有效字符图像块归为缩间距字符。根据所得的有效字符图像块属性，在原始文档序列中，移动相对应的字符。扩间距字符向右移动，在扩间距字符右侧的所有文档内容均向右移动。缩间距字符向左移动，在缩间距字符右侧的所有文档内容均向左移动。

5303、单词分组。

如图 6 所示，针对大字号字符文档和小字号字符文档，分别釆用不同数目的单词为一个单词分组 G。大字体字符文档釆用 N_t3个单词分为一组，小字号字符文档釆用 N_t4个单词分为一组。一般地， N_t3 = 3 , N_t4 = 4。

5304、计算字符有效长度。

如图 7A所示，对某单词分组 G, 组中共 m个有效字符图像块 U

m

=^Wi

的有效长度 L为：。将该组均分成固定份数 S。那么，每一份的有效长度 Ls = L/S。这里 S的取值根据水印处理而定。例如，在申请号为 200710121642.7 的专利中， S 的取值与使用的哈达玛矩阵的阶数相同。一般地， S=4。 S305、获得水印图像块。

如图 7B所示，按每一份的有效长度 Ls对应到有效字符图像块序列上进行划分，同时将每份所含字符的最大高度组合成一个新的外接矩形框，每个新的外接矩形框对应一个水印图像块。

将每 S 个水印图像块分为一组，基于分组的水印图像块进行数字水印嵌入和提取处理。

图 8A、图 8B分别为小字号字符文档打印扫描前后获得的水印图像块。图 8C为文档中存在不正常间距和部分字符粘连下获得的水印图像块。图 8D、图 8E分别为大字号字符文档打印扫描前后获得的水印图像块。可以看出，本发明所获得的水印图像块可以抵抗打印扫描操作，以及避免字符粘连和大小字号字符文档的干扰。

图 10为本发明实施例提供的一种用于西文水印处理的水印图像分块装置的示意图，包括：

切分模块 10 , 用于将西文图像通过行列切分得到多个字符图像块；

识别模块 20 , 用于从字符图像块中识别有效字符图像块；统计模块 30 , 用于对有效字符图像块的尺寸进行统计，以确定西文图像是大字号文档或是小字号文档；

分组模块 40 , 用于针对大字号字符文档和小字号字符文档分别釆用不同数目的单词进行分组；

均分模块 50 , 用于均分单词组为多份，以这些份对应水印图像块。

该实施例保证了水印嵌入处理的可操作性，使得该水印图像块的再同步性较强，并使得水印嵌入和提取处理的健壮性更好。

优选地，识别模块 20包括：判断模块，用于判断以下条件：条件 1、 w > N_tlxH; 条件 2、 U的底边与顶边均落在 m的同侧；条件 3、 U的底边与顶边分别落在 m的两侧，且\¥ < ^ 11；其中， U为字符图像块的集合 Ω中的字符图像块的外接矩形框， H为 U所处行的行高， m为 U所处行的中线位置， h、 w分别为 U的高度、宽度， N_tl 和 N_t2为预设的系数；确定模块，用于如果条件 1 -3中任一条成立，则确定 U对应的字符图像块为标点图像块，如果条件 1 -3均不成立，则确定 U对应的字符图像块为有效字符图像块。

优选地，统计模块 30 包括：计算模块，用于计算

m ；其中，、、…、分别是 U所处行的有效字符图像块 I、²、 …、 ^m的高度；行确定模块，用于如果 Hs > Th_slze, 则确定 U所处行是大字号字符行，否则是小字号字符行，其中 Th_slze是预设阈值；行数统计模块，用于统计西文图像中大字号字符行的行数

N_{la e}和小字号字符行的行数 N_small; 文档确定模块，用于如果 N_{la e}

> N_small , 则确定西文图像是大字号字符文档，否则是小字号字符文档。

从以上的描述中可以看出，本发明上述的实施例最终提高了西文图像水印处理的提取正确率。在本发明中充分考虑西文单词在不同字体下行列切分的特性，得到区分大字号字符文档和小字号字符文档的阈值，通过阈值判断大字号字符文档和小字号字符文档的类型。根据文档类型不同釆用不同数目的单词分组，分组后的水印图像块中的黑色像素点个数差值较小，从而使得水印处理的鲁棒性得到很大提高。在本发明中充分考虑西文字符间距在打印前后距离不稳定的情况，在水印嵌入时，考虑西文单词切分阈值的局部特性，对阈值附近的西文单词的内部字符之间的距离进行微调，从而保证打印扫描前后的西文单词切分结果的一致性，使得该水印图像块的再同步性较强，并进一步提高水印嵌入和提取处理的健壮性。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求:

1.一种用于西文水印处理的水印图像分块方法，其特征在于，包括：将西文图像通过行列切分得到多个字符图像块；

从所述字符图像块中识别有效字符图像块；

对所述有效字符图像块的尺寸进行统计，以确定所述西文图像是大字号文档或是小字号文档；

针对所述大字号字符文档和所述小字号字符文档分别釆用不同数目的单词进行分组；

均分所述单词组为多份，以所述份对应水印图像块。

2.根据权利要求 1所述的方法，其特征在于，从所述字符图像块中识别有效字符图像块包括：

将所述字符图像块区分为标点图像块和所述有效字符图像块。

3.根据权利要求 2所述的方法，其特征在于，将所述字符图像块区分为标点图像块和所述有效字符图像块包括：

判断以下条件：

条件 1、 w > N_tl X H;

条件 2、 U的底边与顶边均落在 m的同侧；

条件 3、 U的底边与顶边分别落在 m的两侧，且\¥ < ^

其中， U为所述字符图像块的集合 Ω中的所述字符图像块的外接矩形框， H为 U所处行的行高， m为 U所处行的中线位置， h、 w分别为 U的高度、宽度， N_t p N_t2为预设的系数；

如果条件 1-3中任一条成立，则确定 U对应的所述字符图像块为所述标点图像块，如果条件 1-3均不成立，则确定 U对应的所述字符图像块为所述有效字符图像块。

4.根据权利要求 3所述的方法，其特征在于，设置 N_tl = 4, N_t2= 0.35。

5.根据权利要求 3所述的方法，其特征在于，对所述有效字符图像块的

u 所处行的所述有效字符图像块 1、2、 …、 m的高度；

如果 Hs > Th_slze, 则确定 U所处行是大字号字符行，否则是小字号字符行，其中 Th_slze是预设阈值；

统计所述西文图像中所述大字号字符行的行数 N_large和所述小字号字符行的行数 N_small;

如果 N_{la e} > N_small, 则确定所述西文图像是所述大字号字符文档，否则是所述小字号字符文档。

6.根据权利要求 5所述的方法，其特征在于，设置 Th_slze = 88。

7.根据权利要求 1所述的方法，其特征在于，均分所述单词组为多份，以所述份对应水印图像块包括：

将所述单词组按照其中单词列投影下的有效长度均分成固定份数；以所述份所占的宽度和所在字符的最大高度组合成外接矩形框，所述外接矩形框对应所述水印图像块。

8.根据权利要求 1所述的方法，其特征在于，在将西文图像通过行列切分得到多个字符图像块之前，还包括：

获取所述西文图像；

对所述西文图像进行降噪处理 , 得到二值化的所述西文图像。

9.一种用于西文水印处理的水印图像分块装置，其特征在于，包括：切分模块，用于将西文图像通过行列切分得到多个字符图像块；识别模块，用于从所述字符图像块中识别有效字符图像块；统计模块，用于对所述有效字符图像块的尺寸进行统计，以确定所述西文图像是大字号文档或是小字号文档；

分组模块，用于针对所述大字号字符文档和所述小字号字符文档分别釆用不同数目的单词进行分组；

均分模块，用于均分所述单词组为多份，以所述份对应水印图像块。

10. 根据权利要求 9所述的装置，其特征在于，所述识别模块包括：

判断模块，用于判断以下条件：

条件 1、 w > N_tl X H;

条件 2、 U的底边与顶边均落在 m的同侧；

条件 3、 U的底边与顶边分别落在 m的两侧，且\¥ < ^

确定模块，用于如果条件 1-3中任一条成立，则确定 U对应的所述字符图像块为标点图像块，如果条件 1-3均不成立，则确定 U对应的所述字符图像块为所述有效字符图像块。

11. 根据权利要求 10所述的装置，其特征在于，所述统计模块包括：计算模块，用于计算 m ；

其中，、 /¾、···、分别是 u 所处行的所述有效字符图像块 1、2、 …、 m的高度；

行确定模块，用于如果 Hs > Th_slze, 则确定 U所处行是大字号字符行，否则是小字号字符行，其中 Th_slze是预设阈值；

行数统计模块，用于统计所述西文图像中所述大字号字符行的行数 N_large和所述小字号字符行的行数 N small，

文档确定模块，用于如果 N_{la e} > N_small, 则确定所述西文图像是所述大字号字符文档，否则是所述小字号字符文档。