CN111199224A - 弯曲文字识别方法和装置 - Google Patents

弯曲文字识别方法和装置 Download PDF

Info

Publication number
CN111199224A
CN111199224A CN201811379524.0A CN201811379524A CN111199224A CN 111199224 A CN111199224 A CN 111199224A CN 201811379524 A CN201811379524 A CN 201811379524A CN 111199224 A CN111199224 A CN 111199224A
Authority
CN
China
Prior art keywords
word
character
curved
text
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811379524.0A
Other languages
English (en)
Other versions
CN111199224B (zh
Inventor
龚靖
沈雷
王铮
杨迪
汪少敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201811379524.0A priority Critical patent/CN111199224B/zh
Publication of CN111199224A publication Critical patent/CN111199224A/zh
Application granted granted Critical
Publication of CN111199224B publication Critical patent/CN111199224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本公开提出一种弯曲文字识别方法和装置,涉及文字识别领域。获取待检测图像中的文字框以及各个文字框对应的单词,根据单词中的相邻的文字框之间的角度差,检测该单词是否为弯曲文字,将弯曲文字的文字框之间插入空格,将处理后的弯曲文字输入文字识别模型进行文字识别。从而,实现弯曲文字的检测和识别。

Description

弯曲文字识别方法和装置
技术领域
本公开涉及文字识别领域,特别涉及一种弯曲文字识别方法和装置。
背景技术
目前人工智能领域,单发多框检测(single shot multibox detection,简称SSD)方法仅能够对水平文字进行检测,其延伸出的Seglink方法也仅能对同一直线上的倾斜文字进行检测。相关技术均无法对弯曲文字进行检测。
发明内容
本公开提出一种能够检测和识别弯曲文字的方案。
本公开的一些实施例提出一种弯曲文字识别方法,包括:
获取待检测图像中的文字框以及各个文字框对应的单词;
根据单词中的相邻的文字框之间的角度差,检测该单词是否为弯曲文字;
将弯曲文字的文字框之间插入空格;
将处理后的弯曲文字输入文字识别模型进行文字识别。
在一些实施例中,待检测图像中的文字框通过将待检测图像输入卷积神经网络CNN算法来获得,
其中,卷积神经网络算法预先利用文字样本进行训练。
在一些实施例中,各个文字框对应的单词通过将各个文字框输入深度优先搜索DFS算法来获得。
在一些实施例中,如果单词中的相邻的文字框之间的角度差处于最小阈值和最大阈值之间,该单词被判定为弯曲文字。
在一些实施例中,如果单词中的相邻的文字框之间的角度差小于或等于最小阈值,该单词被判定为非弯曲文字;
如果单词中的相邻的文字框之间的角度差大于或等于最大阈值,拆分该单词。
在一些实施例中,还包括:
将非弯曲文字以及非弯曲文字中的各个文字框的角度均值信息输入文字识别模型进行文字识别。
在一些实施例中,所述文字识别模型为联结主义时间分类CTC文字识别模型。
在一些实施例中,把每个文字框作为节点来建立图模型,用DFS算法从图模型中找连通分量,每个连通分量为一个单词。
本公开的一些实施例提出一种弯曲文字识别装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行前述任一个实施例的弯曲文字识别方法。
本公开的一些实施例提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一个实施例的弯曲文字识别方法。
附图说明
下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开,
显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开一些实施例的弯曲文字识别方法的流程示意图。
图2为本公开一些实施例的弯曲文字识别装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
图1为本公开一些实施例的弯曲文字识别方法的流程示意图。
如图1所示,该实施例的方法包括:
S110,获取待检测图像中的文字框(设为segment,可简写为seg)。
其中,文字框也称“段”,是覆盖单词的一部分的边界框。
在一些实施例中,将待检测图像输入卷积神经网络(CNN,Convolutional NeuralNetworks)算法,输出待检测图像中的文字框。其中,卷积神经网络算法预先利用文字样本进行训练。文字框的描述参数例如包括(x,y,w,h,θ),其中,(x,y)为位置坐标,(w,h)为宽和高,以及角度为θ。
S120,获取各个文字框对应的单词(设为word)。
在一些实施例中,将各个文字框的信息输入深度优先搜索(Depth-First Search,DFS)算法来获得各个文字框对应的单词。
具体地,把每个文字框作为节点来建立图模型,用DFS算法从图模型中找连通分量,每个连通分量为一个单词。
S130,根据单词中的相邻的文字框之间的角度差,检测该单词是否为弯曲文字。
检测规则例如为:
将相邻的文字框之间的角度差与预设的最小阈值和最大阈值进行比较,根据比较结果进行判定。
如果单词中的相邻的文字框之间的角度差处于最小阈值和最大阈值之间,说明该相邻的文字框处于曲线上,该单词被判定为弯曲文字。
如果单词中的相邻的文字框之间的角度差小于或等于最小阈值,说明该相邻的文字框处于直线上,该单词被判定为非弯曲文字,例如可以是水平文字或同一直线上的倾斜文字。
如果单词中的相邻的文字框之间的角度差大于或等于最大阈值,说明这两个文字框属于不同的单词,拆分该单词。
S140,将弯曲文字的文字框之间插入空格。
S150,将处理后的弯曲文字输入文字识别模型进行文字识别。
在一些实施例中,所述文字识别模型为联结主义时间分类(CTC,ConnectionistTemporal Classification)文字识别模型。
S160,将非弯曲文字以及非弯曲文字中的各个文字框的角度均值信息输入文字识别模型进行文字识别。
在一些实施例中,所述文字识别模型为CTC文字识别模型。
上述实施例实现了弯曲文字的检测和识别,可以应用于商标标识、广告、艺术字及其他弯曲文字的检测。
下面用算法的方式描述上述方案。
首先,通过CNN算法获取待检测图像中的文字框(x,y,w,h,θ)。
接着,利用DFS算法获得各个文字框对应的单词,一个由n个文字框组成的单词word例如可以表示为:
word=(seg1,seg2,seg3,……,segi,……,segn)
令循环中各计数变量i=0,j=1,k=0。
令k=k+1,i=i+1,若i<n成立,则循环执行以下操作1-3):
1)wordi[k]=segi,curvej=false,sum_θj=θi
其中,curve表示弯曲文字标识,如果是false,说明不是弯曲文字,如果是true,说明是弯曲文字,θi表示文字框segi的角度。
2)计算同一连通分量中相邻文字框的角度差
diff_θi=|θi+1i|
3)将角度差diff_θi与最小阈值diff_min和最大阈值diff_max进行比较:
3-1)如果diff_θi≤diff_min,说明该相邻的文字框处于直线上,计算这些文字框的角度均值averj:sum_θj=sum_θji+1,averj=sum_θj/k;
3-2)如果diff_min<diff_θi<diff_max,,说明该相邻的文字框处于曲线上,curvej=true,文字框segi和segi+1之间插入空格;
3-3)如果diff_θi≥diff_max,说明这两个文字框属于不同的单词,拆分该单词,令j=j+1,k=0。
通过循环执行操作1-3),可以得到各个单词wordj
最后,将wordj输入CTC模型进行文字识别。
图2为本公开一些实施例的弯曲文字识别装置的结构示意图。
如图2所示,该实施例的装置200包括:
存储器210以及耦接至该存储器210的处理器220,处理器220被配置为基于存储在存储器210中的指令,执行前述任意一些实施例中的网络性能监控方法。
其中,存储器210例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
本公开的一些实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一个实施例的弯曲文字识别方法。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种弯曲文字识别方法,包括:
获取待检测图像中的文字框以及各个文字框对应的单词;
根据单词中的相邻的文字框之间的角度差,检测该单词是否为弯曲文字;
将弯曲文字的文字框之间插入空格;
将处理后的弯曲文字输入文字识别模型进行文字识别。
2.如权利要求1所述的方法,其中,
待检测图像中的文字框通过将待检测图像输入卷积神经网络CNN算法来获得,
其中,卷积神经网络算法预先利用文字样本进行训练。
3.如权利要求1所述的方法,其中,
各个文字框对应的单词通过将各个文字框输入深度优先搜索DFS算法来获得。
4.如权利要求1所述的方法,其中,
如果单词中的相邻的文字框之间的角度差处于最小阈值和最大阈值之间,该单词被判定为弯曲文字。
5.如权利要求4所述的方法,
如果单词中的相邻的文字框之间的角度差小于或等于最小阈值,该单词被判定为非弯曲文字;
如果单词中的相邻的文字框之间的角度差大于或等于最大阈值,拆分该单词。
6.如权利要求5所述的方法,还包括:
将非弯曲文字以及非弯曲文字中的各个文字框的角度均值信息输入文字识别模型进行文字识别。
7.如权利要求1或6所述的方法,其中,
所述文字识别模型为联结主义时间分类CTC文字识别模型。
8.如权利要求3所述的方法,其中,
把每个文字框作为节点来建立图模型,用DFS算法从图模型中找连通分量,每个连通分量为一个单词。
9.一种弯曲文字识别装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-7中任一项所述的弯曲文字识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-7中任一项所述的弯曲文字识别方法。
CN201811379524.0A 2018-11-20 2018-11-20 弯曲文字识别方法和装置 Active CN111199224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811379524.0A CN111199224B (zh) 2018-11-20 2018-11-20 弯曲文字识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811379524.0A CN111199224B (zh) 2018-11-20 2018-11-20 弯曲文字识别方法和装置

Publications (2)

Publication Number Publication Date
CN111199224A true CN111199224A (zh) 2020-05-26
CN111199224B CN111199224B (zh) 2023-06-23

Family

ID=70745695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811379524.0A Active CN111199224B (zh) 2018-11-20 2018-11-20 弯曲文字识别方法和装置

Country Status (1)

Country Link
CN (1) CN111199224B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1131301A (zh) * 1995-03-13 1996-09-18 财团法人工业技术研究院 一种文字切割的方法
EP0905643A2 (en) * 1997-09-29 1999-03-31 Xerox Corporation Method and system for recognizing handwritten words
JPH11353415A (ja) * 1999-05-31 1999-12-24 Fujitsu Ltd 画像抽出装置
US6188790B1 (en) * 1996-02-29 2001-02-13 Tottori Sanyo Electric Ltd. Method and apparatus for pre-recognition character processing
JP2007316754A (ja) * 2006-05-23 2007-12-06 Canon Inc 手書文字処理装置及び手書文字処理方法
US20090016606A1 (en) * 2005-06-02 2009-01-15 Lumex As Method, system, digital camera and asic for geometric image transformation based on text line searching
CN101408937A (zh) * 2008-11-07 2009-04-15 东莞市微模式软件有限公司 一种字符行定位的方法及装置
US20090097750A1 (en) * 2007-10-16 2009-04-16 Canon Kabushiki Kaisha Image processing apparatus
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
JP2017161969A (ja) * 2016-03-07 2017-09-14 日本電気株式会社 文字認識装置、方法およびプログラム
US20170351931A1 (en) * 2016-06-03 2017-12-07 Adobe Systems Incorporated System and method for straightening curved page content
US20180018305A1 (en) * 2015-02-05 2018-01-18 Hewlett-Packard Development Company, L.P. Character spacing adjustment of text columns
US20180018774A1 (en) * 2016-07-15 2018-01-18 Abbyy Development Llc Method and system for preparing text images for optical-character recognition

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1131301A (zh) * 1995-03-13 1996-09-18 财团法人工业技术研究院 一种文字切割的方法
US6188790B1 (en) * 1996-02-29 2001-02-13 Tottori Sanyo Electric Ltd. Method and apparatus for pre-recognition character processing
EP0905643A2 (en) * 1997-09-29 1999-03-31 Xerox Corporation Method and system for recognizing handwritten words
JPH11353415A (ja) * 1999-05-31 1999-12-24 Fujitsu Ltd 画像抽出装置
US20090016606A1 (en) * 2005-06-02 2009-01-15 Lumex As Method, system, digital camera and asic for geometric image transformation based on text line searching
JP2007316754A (ja) * 2006-05-23 2007-12-06 Canon Inc 手書文字処理装置及び手書文字処理方法
US20090097750A1 (en) * 2007-10-16 2009-04-16 Canon Kabushiki Kaisha Image processing apparatus
CN101408937A (zh) * 2008-11-07 2009-04-15 东莞市微模式软件有限公司 一种字符行定位的方法及装置
US20180018305A1 (en) * 2015-02-05 2018-01-18 Hewlett-Packard Development Company, L.P. Character spacing adjustment of text columns
JP2017161969A (ja) * 2016-03-07 2017-09-14 日本電気株式会社 文字認識装置、方法およびプログラム
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
US20170351931A1 (en) * 2016-06-03 2017-12-07 Adobe Systems Incorporated System and method for straightening curved page content
US20180018774A1 (en) * 2016-07-15 2018-01-18 Abbyy Development Llc Method and system for preparing text images for optical-character recognition

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU YANG: "synthetically supervised feature learning for scene text recognition" *
LIU,YULIANG: "deep matching prior network:toward tighter multi-oriented text detection" *

Also Published As

Publication number Publication date
CN111199224B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN110996169B (zh) 剪辑视频的方法、装置、电子设备及计算机可读存储介质
CN111327945B (zh) 用于分割视频的方法和装置
CN114078108B (zh) 图像中异常区域的处理方法、装置和图像分割方法、装置
US9959466B2 (en) Object tracking apparatus and method and camera
US20150248592A1 (en) Method and device for identifying target object in image
CN107169489B (zh) 倾斜图像校正的方法和装置
CN114254146B (zh) 图像数据的分类方法、装置和系统
CN113850238B (zh) 文档检测方法、装置、电子设备及存储介质
CN110610117A (zh) 一种人脸识别方法、装置及存储介质
US20240062545A1 (en) Information processing device, information processing method, and recording medium
CN111667419A (zh) 一种基于Vibe算法的移动目标鬼影消除方法及系统
CN107948721B (zh) 推送信息的方法和装置
CN115830559B (zh) 一种轮胎吊的车道线识别的方法、存储介质和电子设备
CN113052019B (zh) 目标跟踪方法及装置、智能设备和计算机存储介质
CN113989762B (zh) 用于识别车道线的方法、装置、设备、介质和产品
US20160203612A1 (en) Method and apparatus for generating superpixels for multi-view images
CN114022501A (zh) 箭头角点自动化检测方法、系统、电子设备及存储介质
US20240185590A1 (en) Method for training object detection model, object detection method and apparatus
CN111199224A (zh) 弯曲文字识别方法和装置
JP7028099B2 (ja) 候補領域推定装置、候補領域推定方法、及びプログラム
CN117253241B (zh) 手写轨迹的获取方法、装置、设备及介质
CN109034149A (zh) 一种字符识别方法及装置
CN108154521B (zh) 一种基于目标块融合的运动目标检测方法
CN112396552B (zh) 一种计算机数字图像快速处理系统
CN112434621B (zh) 车道线内侧边缘特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant