JP7659155B2 - 画像解析システム - Google Patents

画像解析システム Download PDF

Info

Publication number
JP7659155B2
JP7659155B2 JP2020130845A JP2020130845A JP7659155B2 JP 7659155 B2 JP7659155 B2 JP 7659155B2 JP 2020130845 A JP2020130845 A JP 2020130845A JP 2020130845 A JP2020130845 A JP 2020130845A JP 7659155 B2 JP7659155 B2 JP 7659155B2
Authority
JP
Japan
Prior art keywords
frame
image
frames
image analysis
tables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020130845A
Other languages
English (en)
Other versions
JP2022027060A (ja
Inventor
雄基 田澤
渉太 古川
隼也 中井川
靖恵 満倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Life Investors
Original Assignee
Life Investors
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Life Investors filed Critical Life Investors
Priority to JP2020130845A priority Critical patent/JP7659155B2/ja
Publication of JP2022027060A publication Critical patent/JP2022027060A/ja
Application granted granted Critical
Publication of JP7659155B2 publication Critical patent/JP7659155B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

特許法第30条第2項適用 令和1年10月14日 IECON 2019 - 45th Annual Conference of the IEEE Industrial Electronics Societyにて発表
本発明は、画像解析システムに関する。
従来、文字や表が記載された紙媒体等を対象として、文字認識等の画像解析を行う技術が存在する。
このような画像解析に関する技術の一例が、特許文献1に開示されている。特許文献1に開示に技術では、読み取り対象となる原稿のフォーマット(すなわち、体裁)に対応して、何れの位置に何れの情報が記載されているのかを予め設定しておく。そして、この設定に基づくことにより、画像における、フォーマットに適合した位置から文字列を検出する等の画像解析を行うことができる。
特開2019-57311号公報
しかしながら、読み取り対象となる原稿のフォーマットは、必ずしも同一ではなく、原稿毎に様々なフォーマットが混在している場合がある。この場合、特許文献1に開示の技術のように、予めフォーマットを設定したり、読み取りの都度フォーマットを修正したりすることは現実的には困難である。
また、特許文献1等に開示の一般的な技術では、複合機等の原稿台やADF(Auto Document Feeder)といった機構に原稿を載置し、スキャナと原稿が所定の距離を保った適切な状態で読み取られて、画像が生成されることを想定してる。しかしながら、必ずしも適切な状態で読み取られて、画像が生成されるわけではない。例えば、ユーザが携帯型のカメラで原稿を撮影して画像を生成する場合、撮影時に原稿が湾曲していたり、撮影時のカメラと原稿位置関係が適切でなかったりして、画像において歪み等が発生する場合もあり得る。
このように、様々なフォーマットが混在する場合や、画像に歪み等が発生する場合であっても、精度高く画像解析を行うことが望まれる。
本発明は、このような状況に鑑みてなされたものである。そして、本発明の課題は、より精度高く画像解析を行うことである。
上記課題を解決するため、本発明の一実施形態に係る画像解析システムは、
表を被写体として含む画像から、前記表に対応する領域を検出する表検出手段と、
前記表に対応する領域から前記表を構成する複数の枠を検出すると共に、該検出した複数の枠それぞれに前記画像における位置情報を付与する枠検出手段と、
前記複数の枠それぞれについての文字認識結果と、前記複数の枠それぞれに付与された位置情報とに基づいて、取得対象情報を取得する情報取得手段と、
を備えることを特徴とする。
本発明によれば、より精度高く画像解析を行うことが可能となる。
本発明の一実施形態に係る画像解析システムの全体構成の一例を示すブロック図である。 本発明の一実施形態に係る端末の構成の一例を示すブロック図である。 本発明の一実施形態に係る画像解析装置の構成の一例を示すブロック図である。 撮影処理の流れを説明するフローチャートである。 画像解析処理の流れを説明するフローチャートである。 第1の方向の枠線と第2の方向の枠線を分離して検出することを示す模式図である。 対象画像に含まれる表構造と、取得対象情報の取得方法について示す模式図である。 文字検出処理の流れを説明するフローチャートである。 二値化した画像から、枠外領域の削除を行い、その後に射影変換を行うことを示す模式図である。
以下、添付の図面を参照して本発明の実施形態の一例について説明する。
[システム構成]
図1は、本実施形態に係る画像解析システムSの全体構成を示すブロック図である。図1に示すように、画像解析システムSは、端末1と、画像解析装置2とを含む。また、図1には、本実施形態において画像解析処理を行う対象とする原稿3も図示する。ここで、原稿3は、何らかの表を含む原稿であるとする。
これら、端末1と、画像解析装置2とは、直接又は図示を省略したネットワークを介して、相互に通信可能に接続される。この場合、ネットワークは、例えば、インターネットや、LAN(Local Area Network)や、携帯電話網といったネットワーク、あるいはこれらを組み合わせたネットワークにより実現される。また、この通信は、任意の通信方式に準拠して行われてよく、その通信方式は特に限定されない。また、通信の接続形式は、有線接続であっても、無線接続であってもよい。
端末1は、撮影機能を備えた端末である。端末1は、例えば、スマートフォンやタブレット型の端末、あるいはデジタルカメラ等により実現される。端末1は、撮影処理を行う。ここで、撮影処理とは、原稿3を撮影することにより、原稿3が被写体として含まれる画像(以下、「対象画像」と称する。)を生成する一連の処理である。撮影処理において、端末1は、ユーザの操作に基づいて撮影を行うことにより、原稿3が被写体として含まれる対象画像を生成する。そして、端末1は、生成した対象画像を、画像解析装置2に対して送信する。
画像解析装置2は、画像解析処理を行う装置である。画像解析装置2は、例えば、パーソナルコンピュータやサーバ装置等により実現される。画像解析装置2は、端末1から送信された対象画像を、受信することにより取得する。そして、画像解析装置2は、この対象画像に対して、画像解析処理を行う。ここで、画像解析処理とは、対象画像に記載されている文字を検出する文字認識等の画像解析を行う一連の処理である。
この画像解析処理において、画像解析装置2は、表(例えば、テーブル)を被写体として含む画像から、表に対応する領域を検出する。また、画像解析装置2は、表に対応する領域から表を構成する複数の枠(例えば、セル)を検出すると共に、該検出した複数の枠それぞれに画像における位置情報を付与する。さらに、画像解析装置2は、複数の枠それぞれについての文字認識結果と、複数の枠それぞれに付与された位置情報とに基づいて、取得対象情報(例えば、健康診断表における検査項目と検査値の組)を取得する。
このように、端末1及び画像解析装置2を含む画像解析システムSは、表と枠をそれぞれ段階的に検出した上で、位置情報を利用して、所望の取得対象情報を取得する。したがって、表と枠を検出せず、位置情報を用いずに、単純に画像解析処理を行うような画像解析方法に比べて、より精度高く画像解析を行うことが可能となる。そのため、例えば、様々なフォーマットが混在しており、表や枠の配置等が原稿によってそれぞれ異なるような場合や、画像に歪み等が発生しており通常であれば画像解析を行うことが困難な場合であったとしても、適切に画像解析を行うことができる。
次に、このような画像解析処理を実現するための、画像解析システムSに含まれる各装置について、より詳細に説明をする。
以下では、説明のための一例として、原稿3が画像解析システムSを利用するユーザについての「健康診断表」である場合を想定する。その理由について説明する。
まず前提として、健康診断は、病気の早期発見及び早期治療のために非常に有益である。また、定期的に健康診断を受診することにより、ユーザは、自身の健康状態の変化等を把握することができる。
しかしながら、健康診断表は、それを作成する事業者や検査実施機関によってフォーマット(すなわち、体裁)が異なる。例えば、表や枠の配置等が健康診断表によってそれぞれ異なる。また、検査項目の記載位置と、これに対応する検査値の記載位置や、基準値や前回検査値の記載位置が健康診断表によってそれぞれ異なる。したがって、一般的な技術では、健康診断表の画像解析を行うことは困難である。
また、健康診断表は、各検査実施機関の間で電子データの共有もされていない。また、受診者であるユーザは、各検査実施機関から、紙媒体に印刷された健康診断表を受け取るのみであり、そもそも電子データを受け取っていない。このような状況であることから、ユーザは、自身の健康状態の変化等を把握することが困難である。また、各検査実施機関や病院等においても、ユーザの健康状態の変化等を把握することが困難である。
そこで、本実施形態では、このような健康診断表を被写体として撮影した対象画像に対して、上述した画像解析処理を行う。これにより、本実施形態では、健康診断表から、より精度高く画像解析を行うことができる。また、これにより、ユーザは、自身の保有する健康診断表を、端末1で撮影する等の簡便な操作で、電子データ化することができる。さらに、このような電子データを利用することにより、例えば、ユーザが、自身の時系列に沿った健康状態の変化等を把握することを容易とすることができる。加えて、このような電子データを、各検査実施機関や病院等で活用することもできる。
このように、健康診断表は、本実施形態における画像解析処理の対象として好適である。そのため、以下では原稿3が健康診断表である場合を想定して説明する。
ただし、これは説明のための一例に過ぎず、本実施形態の用途を限定するものではない。すなわち、本実施形態は、対象画像の被写体となる原稿3が健康診断表である場合以外にも、原稿3に何らかの表が含まれるような、様々な場合に適用することが可能である。
[端末の構成]
端末1の構成について、図2を参照して説明をする。図2は、端末1の構成の一例を示すブロック図である。端末1は、上述したように、例えば、スマートフォンやタブレット型の端末、あるいはデジタルカメラ等により実現される。
図2に示すように、端末1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、通信部14と、ドライブ15と、記憶部16と、入力部17と、出力部18と、撮像部19と、を備えている。これら各部は、信号線により接続されており、相互に信号を送受する。
CPU11は、ROM12に記録されているプログラム、又は、記憶部16からRAM13にロードされたプログラムに従って各種の処理(例えば、原稿3を被写体として撮影することにより対象画像を取得する処理)を実行する。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
通信部14は、CPU11が、他の装置(例えば、画像解析装置2)との間で通信を行うための通信制御を行う。
ドライブ15には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア(図示を省略する。)が適宜装着される。ドライブ15よってリムーバブルメディアから読み出されたプログラムは、必要に応じて記憶部16にインストールされる。また、ドライブ15よってリムーバブルメディアから読み出された各種データは、必要に応じてCPU11での演算処理に利用される。
記憶部16は、HDD(hard disk drive)やSSD(Solid State Drive)等の記憶装置で構成され、各種データを記憶する。
入力部17は、各種ボタン及びタッチパネル、又はマウス及びキーボード等の外部入力装置で構成され、ユーザの指示操作に応じて各種情報を入力する。
出力部18は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
撮像部19は、レンズ及び撮像素子等によって構成され、被写体(例えば、原稿3)を撮影する。この撮影により、撮像部19は、画像(例えば、対象画像)を生成する。
端末1では、これら各部が協働することにより、本実施形態における各種の処理が実行される。この本実施形態における各種の処理が実行される場合、図3に示すように、CPU11において、撮影制御部111と、端末側通知部112と、が機能する。
また、記憶部16の一領域には、画像記憶部161と、解析結果記憶部162と、が設定される。
以下で特に言及しない場合も含め、これら機能ブロック間では、処理を実現するために必要なデータを、適切なタイミングで適宜送受信する。
撮影制御部111は、端末1における撮影を制御する。そのために、撮影制御部111は、ユーザが原稿3を被写体とした撮影を行うためのユーザインタフェースや、撮像部19が取得するライブビュー画像等を、出力部18に含まれるディスプレイに表示する。また、撮影制御部111は、ユーザからの撮影指示操作に基づいて、撮像部19を制御することにより画像を生成して取得する。この取得される画像としては、上述したように、原稿3(ここでは、健康診断表)が被写体として含まれる対象画像を想定する。
撮影制御部111は、この取得した対象画像を、画像記憶部161に記憶させる。すなわち、画像記憶部161は、対象画像を記憶する記憶部として機能する。
また、撮影制御部111は、この取得した対象画像を、画像解析装置2に対して送信する。
端末側通知部112は、画像解析装置2から送信された、対象画像に対する画像解析処理における、画像解析結果を受信することにより取得する。また、端末側通知部112は、この取得した画像解析結果を、解析結果記憶部162に記憶させる。すなわち、解析結果記憶部162は、画像解析結果を記憶する記憶部として機能する。
また、端末側通知部112は、この取得した画像解析結果を、ユーザに対して通知する。ユーザは、この通知された画像解析結果を参照することにより、画像解析結果の内容(例えば、自身の健康診断表における検査値)を把握することができる。このユーザに対する通知は、例えば、出力部18に含まれるディスプレイへの表示や、図示を省略したプリンタからの紙媒体への印刷等により実現することができる。
なお、画像解析結果として、具体的にどのような内容が通知されるかについては、図5のフローチャートを参照した動作の説明と共に後述する。
[画像解析装置の構成]
次に、画像解析装置2の構成について、図3を参照して説明をする。図3は、画像解析装置2の構成の一例を示すブロック図である。画像解析装置2は、上述したように、例えば、パーソナルコンピュータやサーバ装置等により実現される。
図3に示すように、画像解析装置2は、CPU21と、ROM22と、RAM23と、通信部24と、ドライブ25と、記憶部26と、入力部27と、出力部28と、を備えている。これら各部は、信号線により接続されており、相互に信号を送受する。なお、これら各部のハードウェアとしての機能は、図2を参照して上述した端末1が備える同名の各部と同様である。そのため、ハードウェアとしての機能については、重複する再度の説明を省略する。
画像解析装置2では、これら各部が協働することにより、本実施形態における各種の処理が実行される。この本実施形態における各種の処理が実行される場合、図3に示すように、CPU21において、画像取得部211と、表検出部212と、枠検出部213と、文字認識部214と、情報取得部215と、装置側通知部216と、が機能する。
また、記憶部26の一領域には、画像記憶部261と、解析結果記憶部263と、が設定される。
以下で特に言及しない場合も含め、これら機能ブロック間では、処理を実現するために必要なデータを、適切なタイミングで適宜送受信する。
画像取得部211は、端末1が備える撮影制御部111から送信された、対象画像を、受信することにより取得する。また、画像取得部211は、この取得した対象画像を、画像記憶部261に記憶させる。すなわち、画像記憶部261は、対象画像を記憶する記憶部として機能する。
なお、端末1が備える撮影制御部111が、対象画像を、ドライブ15を介してリムーバブルメディアに記憶するようにしてもよい。そして、画像取得部211が、この対象画像が記憶されたリムーバブルメディアを、ドライブ25を介して読み取ることにより、対象画像を取得するようにしてもよい。
表検出部212は、画像記憶部261に記憶されている対象画像から、対象画像中に含まれる複数(単数の場合もある)の表それぞれに対応する領域(以下、「表領域」と称する。)を検出する。例えば、枠検出部213は、対象画像において被写体となっている健康診断表を構成する複数の表それぞれに対応する表領域を検出する。
枠検出部213は、表検出部212が検出した表領域それぞれから、表を構成する複数の枠を検出する。例えば、枠検出部213は、対象画像において被写体となっている健康診断表を構成する複数の枠を検出する。この場合、例えば、枠検出部213は、表領域それぞれから、表を構成する複数の枠の枠線である第1の方向の枠線と第2の方向の枠線を分離して検出すると共に、該検出した第1の方向の枠線及び第2の方向の枠線の交点に基づいて複数の枠を検出する。このように、枠検出部213は、第1の方向の枠線と第2の方向の枠線を分離して検出することによって、これらを分離することなく検出を行う場合よりも、枠線及び枠を正確に検出することができる。
また、枠検出部213は、これら検出した複数の枠それぞれを分割して切り出すと共に、この切り出された複数の枠それぞれに対象画像における位置情報を付与する。例えば、枠検出部213は、検出された表領域それぞれに割り当てた表の識別情報(例えば、表に割り当てた識別子)と、枠の識別情報(例えば、枠に割り当てた識別子)の組み合わせを位置情報とし、この位置情報を複数の枠それぞれに対して付与する。あるいは、例えば、枠検出部213は、対象画像で用いられている画像座標系での座標値(例えば、枠の中心等に対応する各座標軸での値)を位置情報とし、この位置情報を複数の枠それぞれに対して付与する。
これにより、枠検出部213は、対象画像内に含まれる複数の枠それぞれを単位とした画像であって、それぞれに位置情報が付与された画像(以下、「枠画像」と称する。)を生成する。枠画像は、例えば、健康診断表であれば特定の文字列(例えば、検査項目、検査値、基準値、前回検査値、患者の名前等の属性情報等)が記載されている1つの単位であり、位置情報を有する構造化データとして取り扱うことができる。
文字認識部214は、枠検出部213が生成した複数の枠画像それぞれを単位として、文字認識処理を行う。この文字認識処理は、例えば、既存の光学文字認識(OCR:Optical character recognition)技術を用いて実現することができる。このように、文字認識部214は、枠検出部213が生成した枠画像に基づいて、特定の文字列が含まれる枠を単位として画像解析処理を行うことができるので、画像全体を対象として画像解析処理を行う場合に比べて、より精度高く文字認識を行うことができる。
なお、文字認識部214は、既存の光学文字認識技術を用いるのみならず、例えば、予め対象画像に含まれ得る文字列(ここでは、健康診断表で用いられる単語等の文字列)を用いて機械学習を行うようにしてもよい。そして、この機械学習により生成された学習モデルを用いて文字認識処理を行うようにしてもよい。
情報取得部215は、文字認識部214による複数の枠画像それぞれについての文字認識結果と、この複数の枠画像それぞれに付与された位置情報とに基づいて、取得対象情報を取得する。ここで、取得対象情報とは、ユーザが取得することを所望する情報であり、例えば、健康診断表における「検査項目」と「検査値」との組である。
この情報取得部215による取得対象情報の取得のために、本実施形態では取得対象情報の一部である第1の情報についての辞書データを用意しておく。例えば、この第1の情報が「検索項目」である場合、検査項目名として用いられることが想定される単語(例えば、身長、体重、血圧等)のテキストについて辞書データを用意しておく。ここで、健康診断における検査項目名には表記の揺らぎがあり、意味上は同一の検査項目を指しているが、健康診断表のフォーマットにより検査項目名が異なっている場合がある。例えば、高比重リポタンパク(HDL:High Density Lipoprotein cholesterol)という同一の検査項目であっても、健康診断表における検査項目名は、「HDLコレステロール」であったり、「HDL-C」であったり、「HDL」であったりする。そこで、辞書データには、これらの表記の揺らぎを考慮し、同じ検査項目についても、複数の検査項目名のテキストを対応付けておくようにする。
このような辞書データは、例えば、画像解析システムSの管理者により予め作成され、辞書データ記憶部262に記憶されている。すなわち、辞書データ記憶部262は、辞書データを記憶する記憶部として機能する。
そして、情報取得部215は、文字認識部214による複数の枠画像それぞれについての文字認識結果(すなわち、枠画像それぞれに含まれる文字列のテキスト)と、辞書データ記憶部262に記憶されている辞書データに含まれる検査項目名として用いられる単語のテキストそれぞれとの類似度をスコア化する。また、情報取得部215は、そのスコア化の結果、或る検査項目名について、最も類似度が高い文字列が含まれている枠画像を、その或る検査項目(すなわち、第1の情報)が記載された枠画像であるとしてマーキングする。例えば、或る枠画像に「HDL-C」という文字列が含まれていた場合、その或る枠画像を検査項目「高比重リポタンパク」が記載された枠画像であるとしてマーキングする。
次に、情報取得部215は、このマーキングした枠画像(すなわち、第1の情報の取得元となった枠画像)に付与されている位置情報に基づいて、取得対象情報の一部である第2の情報を取得する。例えば、この第2の情報が或る検査項目についての「検索値」である場合を想定する。この場合、情報取得部215は、このある検査項目に対応してマーキングした枠画像の位置情報を取得する。また、情報取得部215は、この位置情報から任意の所定方向(例えば、右方向)に存在する各枠画像に対して、検査値が含まれているか走査的に検索する。
ここで、各検査項目についての検査値の現実的な上限値や下限値は医学的見地から予測可能である。そこで、例えば、辞書データにおいて各検査項について、現実的な上限値や下限値を対応付けておく。そして、情報取得部215は、或る検査項目について走査的な検索を行っている過程において、この或る検査項目に対応付けられている上限値以下であり、且つ、下限値以上の値が含まれる枠画像が検出された場合には、その枠画像がこの或る検査項目についての検査値が記載された枠画像であると特定する。そして、この検査値を第2情報として取得する。これにより、健康診断表のような、第1の情報が記載されている枠と、第2の情報が記載されている枠の相対的な位置関係がフォーマットによって異なるような表であっても、走査的な検索を行うことから、精度高く画像解析を行うことが可能となる。また、現実的な上限値や下限値に基づいて第2の情報を取得することから、誤った第2の情報を取得してしまうようなことを防止でき、この観点からも精度高く画像解析を行うことが可能となる。
このようにして、情報取得部215は、取得対象情報である、第1の情報(例えば、或る検査項目)と、これに対応する第2の情報(この或る検査項目の検査値)の組を取得することができる。なお、このようなマーキングと、マーキングした枠画像の位置情報に基づいた走査的な検索は、1つの第1の情報(例えば、或る検査項目)についてマーキングをする都度行ってもよい。あるいは、第1の情報が複数ある場合には、全ての第1の情報についてマーキングを行ってから、走査的な検索を行うようにしてもよい。
情報取得部215は、このようにして取得した取得対象情報(例えば、検査項目に対応する検査項目名と、その検査値の組)を画像解析結果として、解析結果記憶部263に記憶させる。すなわち、解析結果記憶部263は、画像解析結果を記憶する記憶部として機能する。また、情報取得部215は、端末1においてもユーザに対する画像解析結果の通知を実現できるように、この画像解析結果を、端末1に対して送信する。
装置側通知部216は、情報取得部215が解析結果記憶部263に記憶させた画像解析結果を、ユーザに対して通知する。ユーザは、この通知された画像解析結果を参照することにより、画像解析結果の内容を把握することができる。このユーザに対する通知は、端末1の端末側通知部112と同様にして行われる。例えば、出力部28に含まれるディスプレイへの表示や、図示を省略したプリンタからの紙媒体への印刷等により実現することができる。
なお、画像解析結果として、具体的にどのような内容が通知されるかについては、図5のフローチャートを参照した動作の説明と共に後述する。
以上、画像解析システムSに含まれる各装置の構成について詳細に説明した。次に、これら画像解析システムSに含まれる各装置により行われる各処理の処理内容について、より詳細に説明をする。
[画像解析処理]
図4は、端末1により行われる撮影処理の流れを説明するフローチャートである。撮影処理は、ユーザからの、端末1への電源投入等に伴い実行される。
ステップS11において、撮影制御部111は、端末1における撮影の制御を開始する。例えば、撮影制御部111は、ユーザが原稿3を被写体とした撮影を行うためのユーザインタフェースや、撮像部19が取得するライブビュー画像等を、出力部18に含まれるディスプレイに表示する。
ステップS12において、撮影制御部111は、ユーザからの撮影指示操作を受け付けたか否かを判定する。撮影指示操作を受け付けた場合は、ステップS11においてYesと判定され、処理はステップS12に進む。一方で、撮影指示操作を受け付けていない場合は、ステップS11においてNoと判定され、処理はステップS12の判定を繰り返す。
ステップS13において、撮影制御部111は、撮像部19を制御することにより対象画像を生成して取得する。
ステップS14において、撮影制御部111は、ステップS13において取得した対象画像を、画像解析装置2に対して送信する。これにより本処理は終了する。
以上説明した撮影処理により、画像解析装置2は、対象画像を取得することができる。
[画像解析処理]
図5は、画像解析装置2により行われる画像解析処理の流れを説明するフローチャートである。画像解析処理は、端末1から対象画像が送信されたことや、ユーザからの、画像解析画像解析装置2への画像解析処理開始の指示操作を受け付けたことに伴い実行される。
ステップS21において、画像取得部211は、対象画像を取得する。
ステップS22において、表検出部212は、ステップS21にて取得された対象画像中に含まれる複数(単数の場合もある)の表それぞれに対応する表領域を検出する。
具体的に、表検出部212は、まず前処理を行う。例えば、表検出部212は、対象画像をグレースケールに変換すると共に、そのサイズを1280×960に調整(すなわち、リサイズ)する。次に、表検出部212は、対象画像中の背景領域と枠線及び文字領域を分離し、0又は1で表現するための、二値化を行う。例えば、表検出部212は、retinexフィルタリングを用いて二値化を行う。二値化では、例えば、画像における、白が0で表現され、黒が1で表現される。また、表検出部212は、文字領域を削除するためのフィルタリングを行う。前提として、表の枠線は対象画像中の広範囲に広がっており、枠線内には文字が含まれる。そのため、画素は疎連結していると考えられる。このことから枠線におけるx方向及びy方向の分散はどちらも大きいと考えられる。
続いて、ノイズによって表の枠線が分断されてしまった線分は、x方向又はy方向のどちらかに極端に長く、もう一方向に極端に短いと考えられる。このことから線分における分散は、x方向及びy方向の一方で大きく、他方では小さいと考えられる。この性質に基づいて、例えば、表検出部212は、画像のx方向とy方向の共分散行列の固有値を用いた閾値処理によって線分及び枠線を特定し、これら線分及び枠線の何れにもあてはまらなかった領域については文字領域とみなして除去をする。また、表検出部212は、線分及び枠線の中心1画素分のみが残るように細くする細線化を行う。
そして、表検出部212は、対象画像から、画像中に含まれる複数(単数の場合もある)の表それぞれに対応する表領域を検出する。例えば、表検出部212は、対象画像中に複数の表が存在する場合、1つの画像中に表が1つしか存在しないように画像の分割を行う。そのために、表検出部212は、シームカービングで用いられるx方向及びy方向の累積エネルギーマップを作成する。また、表検出部212は、エネルギーマップにおいて、隣接画素とのエネルギー差が閾値以上となる画素からなる谷部においてバックトラッキングを行う。そして、このバックトラッキングでたどった画素を表や文書領域の境目として各表領域を検出し、各表領域それぞれを1つの表領域に対応する画像として分割する。
ステップS23において、枠検出部213は、ステップS22にて検出された表領域それぞれから、表を構成する複数の枠を検出する。
具体的に、枠検出部213は、まず枠線分離を行う。この場合に、上述したように、枠検出部213は、表を構成する複数の枠の枠線である第1の方向の枠線と第2の方向の枠線を分離して検出する。この点について、図6を参照して説明する。図6は、第1の方向の枠線と第2の方向の枠線を分離して検出することを示す模式図である。図6(a)に、画像内における分離前の枠線を示す。このように表を構成する複数の枠の枠線は、第1の方向(ここでは、縦方向)と、第2の方向(ここでは、横方向)の枠線を含む。枠検出部213は、これらの枠線を、図6(b-1)に示すように第1の方向(ここでは、縦方向)と、図6(b-2)に示すように第2の方向(ここでは、横方向)の枠線とに分離して検出する。
その方法であるが、前提としてステップS22にて行った細線化により、枠線の幅が1に調整されている。そのため、画像に対して第1の方向(ここでは、縦方向)に幅が1の画素を削除することにより、第2の方向(ここでは、横方向)の枠線が削除される。これにより、図6(b-1)に示すように第1の方向(ここでは、縦方向)の枠線のみの画像が得られる。同様にして、第2の方向(ここでは、横方向)に幅が1の画素を削除することにより第1の方向(ここでは、縦方向)の枠線が削除される。これにより、図6(b-2)に示すように第2の方向(ここでは、横方向)の枠線のみの画像が得られる。これにより、第1の方向(ここでは、縦方向)と、第2の方向(ここでは、横方向)の枠線を分離することができ、正確に枠線を検出することができる。
仮にこのような分離を行わない場合について説明する。前提として、健康診断表等の紙媒体を撮影した場合、紙のめくれ等により縦横両方向の枠線のそれぞれに歪みが発生する。このため、仮に分離を行わない場合、枠線の検出精度が低下してしまう。これに対して、本実施形態では、枠線を縦方向と横方向に分離してから検出を行うことにより、複数の方向の枠線を分離する。そして、分離した複数の方向の枠線それぞれを、線の曲率に制限を設けた曲線として検出を行う、これにより、複数の方向の枠線を検出することを単純化し、縦横両方向の枠線の歪みそれぞれに対応して、正確に枠線を検出することができる。
次に、枠検出部213は、枠線検出を行う。上述したように複数の方向の枠線の分離を行ったため、分離後の画像は、それぞれ、第1の方向(ここでは、縦方向)の枠線、あるいは、第2の方向(ここでは、横方向)のみを含んでいる。そのため、これらの画像に対して8近傍の連結関係を見ることで得られた画素の集合は、それぞれ縦方向あるいは横方向の枠線となる。本実施形態では、この画素の集合に対して最小二乗法を用いることにより曲線近似を行う。
具体的には、分離後の画像に対し、8近傍の接続関係を見ることで、画素の集合を検出する。これにより得られた画素の集合は表の枠線の他に、フィルタリングの際に枠線と隣接していたために削除が行われなかった文字も含まれる。そのため、フィルタリングの際に用いた画素集合の画素数と共分散行列の固有値を用いた閾値処理により、文字の削除を行う。
また、曲線近似は画素数の多い画素集合から行い、多項式を利用して次数を1から4まで徐々に上げていき、次式(1)に示す閾値判定を行い、閾値以下となった場合のみ近似曲線を作成する。
Figure 0007659155000001
ただし、式(1)において、x及びyは座標である。
ここで、閾値(例えば、式(1)において上記した1.1)は適宜設定することができる。そして、近似曲線が作成された場合、分離された枠線の合成を行う。枠線の合成には作成した近似曲線の周囲3画素に対して画素集合の探索を行い。画素集合が発見された場合、その画素集合と曲線近似に利用した画素集合の両方を用いて再度、最小二乗法による曲線近似を行う反復的な手法を用いる。
全ての画素集合に対して曲線の近似が終了次第、枠検出部213は、交差線の削除を行う。表の枠線は平行線で構成され、縦線同士及び横線同士が交わることはない。そのため、縦横で分離した枠線画像内で線が交わっている場合、表の枠外の線が混入している可能性が高いと想定される。本実施形態では、縦及び横の枠線が交差している場合、交差している線のうち近似に使用した画素集合の画素数が少ないものを削除することにより枠外線の削除を行う。
そして、枠検出部213は、枠検出を行う。枠検出では線による枠構造の検出を行う。上述の枠線検出が終了すると、縦方向及び横方向の近似曲線の群が生成される。本ステップにおける枠検出では、最初に縦方向と横方向の近似曲線同士の交点の位置を特定する。これにより得られた交点の座標は、枠の角の候補位置となり、縦方向の枠線1つに対し横方向の枠線数分の交点が得られると共に、横方向の枠線1つに対し縦方向の枠線数分の交点を得られる。
その後、縦又は横の1つの枠線を選択し、その近似曲線上に存在する隣接した交点のペアを1つ選択する。そして、枠線画像においてその交点間を探索し、一定数の画素が存在する場合に枠線と判定する、この処理をすべての近似曲線上の隣接した交点のペアに適用することで、画像中の枠線を検出することができる。その後、検出した枠線で囲まれた領域を枠とみなして検出する。
また、枠検出部213は、これら検出した複数の枠それぞれを分割して切り出す。上述したように、枠検出部213は、枠を囲む枠線に基づいて、枠を検出している、そこで、枠を囲む枠線に含まれる座標中でx及びy座標それぞれにおいて、一番外側の座標を探索し、この探索により取得した座標を用いて複数の枠それぞれを分割して切り出す。さらに、枠検出部213は、この切り出された複数の枠それぞれに対象画像における位置情報を付与する。例えば、枠検出部213は、検出された表領域それぞれに割り当てた表の識別情報(例えば、表に割り当てた識別子)と、枠の識別情報(例えば、枠に割り当てた識別子)の組み合わせを位置情報とし、この位置情報を複数の枠それぞれに対して付与する。あるいは、例えば、枠検出部213は、対象画像で用いられている画像座標系での座標値(例えば、枠の中心等に対応する各座標軸での値)を位置情報とし、この位置情報を複数の枠それぞれに対して付与する。これにより、枠検出部213は、対象画像内に含まれる複数の枠それぞれを単位とした画像であって、それぞれに位置情報が付与された枠画像を生成する。
図5に戻り、ステップS24において、文字認識部214は、ステップS23にて生成された複数の枠画像それぞれに対して、枠画像を単位とした文字認識処理を行う。
ステップS25において、情報取得部215は、ステップS24にて文字認識された複数の枠画像それぞれについての文字認識結果と、この複数の枠画像それぞれに付与された位置情報とに基づいて、取得対象情報を取得する。この点について、図7を参照して説明する。図7は、対象画像に含まれる表構造と、情報取得部215による取得対象情報の取得方法について示す模式図である。
図7(a)に、対象画像に含まれる表構造を示す。図7(a)において、対象画像5は、表51と、複数の枠52(図中では、図示の都合上1つの枠のみに対して符号を付す)を含む。なお、図中では説明を簡略化するために、表51を1つのみ示しているが、対象画像5には、複数の表51が含まれていてよい。このような対象画像5に対して上述した画像解析処理を行うことにより、表検出部212により表51に対応する表領域が検出される。また、枠検出部213により、表51に含まれる複数の枠52それぞれについて枠画像が生成される。
図7(b)に、情報取得部215による取得対象情報の取得方法について示す。上述したように、情報取得部215は、文字認識部214による複数の枠画像それぞれについての文字認識結果(すなわち、枠画像それぞれに含まれる文字列のテキスト)と、辞書データ記憶部262に記憶されている辞書データに含まれる検査項目名として用いられる単語のテキストそれぞれとの類似度をスコア化する。また、情報取得部215は、そのスコア化の結果、或る検査項目名について、最も類似度が高い文字列が含まれている枠画像を、その検査項目名が記載された枠画像であるとしてマーキングする。例えば、今回枠52aがマーキングされたとする。すると、情報取得部215は、このある検査項目に対応してマーキングした枠画像52aの位置情報を取得する。また、情報取得部215は、図中にて矢印で示すように、この枠画像52aの位置情報から任意の所定方向(例えば、右方向)に存在する各枠画像に対して、検査値が含まれているか走査的に検索する。
このようにして、情報取得部215は、取得対象情報である、第1の情報(例えば、或る検査項目)と、これに対応する第2の情報(この或る検査項目の検査値)の組を取得することができる。このようにして取得した取得対象情報(例えば、検査項目に対応する検査項目名と、その検査値の組)を画像解析結果とする。
ステップS26において、端末側通知部112又は装置側通知部216は、ステップS25における画像解析結果を、ユーザに対して通知する。ユーザは、この通知された画像解析結果を参照することにより、画像解析結果の内容を把握することができる。なお、通知は、端末側通知部112又は装置側通知部216の何れかのみで行われてもよいし、双方で行われてもよい。これにより、本処理は終了する。
ここで、ステップS26における通知は、画像解析結果を単に表示等することにより、通知するのみであってもよいが、これに限らない。例えば、1人のユーザに対応する複数の健康診断表(例えば、1年毎に健康診断が実施される場合の、各年の健康診断表のそれぞれ)に対して画像解析処理を行った場合に、画像解析結果に基づいて、所定の検査項目に対応する検査値の時系列に沿った変化を検出し、該検出した変化を通知するようにしてもよい。
この場合、例えば、各健康診断表に記載の実施日を文字認識により検出したり、ユーザの操作等に基づいたりして、各健康診断が行われた順番を特定する。そして、各健康診断表から文字認識した健康診断の結果(例えば、検査値)を、この健康診断が行われた順番と対応して通知する。例えば、同じ検査項目の検査値を、健康診断が行われた順番と対応付けて、表の形式で表示等することにより、通知をする。あるいは、例えば、横軸を時間(例えば、健康診断を実施した日付)、縦軸を同じ検査項目の検査値としたグラフの形式等で表示等することにより、通知をする。
この場合、さらに、例えば、検査値の適正範囲を示す閾値(例えば、上限値や下限値)を設定しておき、検査値がこの適性範囲外となった場合に(例えば、上限値以上であったり、下限値以下であったりした場合)、その検査値の色等を異ならせて表示等したり警告文と共に表示等したりして、通知するようにしてもよい。他にも、例えば、前回の健康診断からの検査値の変化量に対する閾値を設定しておき、検査値の変化量が閾値を超えた場合に(例えば、検査値が大きく変化した場合に)、その検査値の色等を異ならせて表示等したり警告文と共に表示等したりして、通知するようにしてもよい。これによりユーザは、同じ検査項目の検査値の時系列に沿った変化を把握できるのみでなく、その検査値が適正範囲外である、あるいは大きく変化している、等の変化を把握することができる。
従って、ユーザは、より適切に健康診断の結果を把握することが可能となる。
以上説明した、撮影処理、及び画像解析処理によれば、表と枠をそれぞれ段階的に検出した上で、位置情報を利用して、所望の取得対象情報を取得する。したがって、表と枠を検出せず、位置情報を用いずに、単純に画像解析処理を行うような画像解析方法に比べて、より精度高く画像解析を行うことが可能となる。そのため、例えば、様々なフォーマットが混在しており、表や枠の配置等が原稿によってそれぞれ異なるような場合や、画像に歪み等が発生しており通常であれば画像解析を行うことが困難な場合であったとしても、適切に画像解析を行うことができる。
[変形例]
以上、本発明の実施形態について説明したが、この実施形態は例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明は、本発明の要旨を逸脱しない範囲で、その他の様々な実施形態を取ることが可能である共に、省略及び置換等種々の変形を行うことができる。この場合に、これら実施形態及びその変形は、本明細書等に記載された発明の範囲及び要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
一例として、以上説明した本発明の実施形態を、以下のようにして変形してもよい。
上述した実施形態では、画像解析システムSを、端末1と画像解析装置2の組み合わせのような、クライアント-サーバ型のシステムとして実現していた。これに限らず、上述の実施形態に示した例とは異なる構成により、画像解析システムSを構成するようにしてもよい。
例えば、画像解析装置2を1つのコンピュータで実現するのではなく、複数のコンピュータで実現するようにしてもよい。この場合、例えば、画像解析装置2の機能ブロックの一部(例えば、文字認識部214や、情報取得部215を或るコンピュータで実現し、他の機能ブロックを他のコンピュータで実現するようにしてもよい。また、例えば、画像解析装置2の機能ブロックの一部又は全部を複数のコンピュータ(例えば、クラウドシステム)により分散処理することにより実現するようにしてもよい。
また他にも、例えば、画像解析装置2に撮像部を設けることによって、端末1と画像解析装置2の機能を1つのコンピュータで実現してもよい。この場合、このコンピュータから通信機能を省略してスタンドアローンの装置としてもよい。
さらに他にも、端末1を利用するのは、健康診断を受けたユーザ自身であってもよいが、健康診断を受けたユーザを雇用している事業者等の他の主体であってもよい。
さらに他にも、例えば、ステップS24における文字認識処理の精度をより高めるため、ステップS23において生成された複数の枠画像それぞれに対して、文字検出処理を行うようにしてもよい。この処理は、例えば、複数の枠画像を生成した枠検出部213により、枠画像の生成に続いて行われる。この場合、枠検出部213は、自身が検出した複数の枠画像を単位として、該領域毎に対象画像から文字を検出する。これにより、枠検出部213は、自身による正確な枠の検出結果に基づいて、所定の領域(例えば、文字が記載されている枠内)から、ひとかたまりの文字列(例えば、1つの単語)を正確に検出できる。
図8は、文字検出処理の流れを説明するフローチャートである。
ステップS31において、枠検出部213は、自身が生成した複数の枠画像から、今回処理対象とする枠画像を取得する。
ステップS32において、枠検出部213は、二値化を行う。本変形例では、後述のステップS35において投影法を用いて文字の検出を行う。投影法を用いる場合、文字領域における黒の画素をカウントして文字領域と背景領域を分離するため、2値化を行う必要がある。二値化は、任意の手法で行うことができるが、例えば、大津の2値化を用いる。大津の2値化は判別分析法とも呼ばれ、画像に対し輝度値のヒストグラムを作成し、そのヒストグラムを二分した際にクラス間分散が最大となる閾値を使用して2値化を行うものである。健康診断表は様々な色が使われているものが多いが、枠内に注目してみると文字と背景の2値画像であるため大津の2値化を用いることにより、最適な閾値を自動的に算出し、文字を抽出することが可能となる。
ステップS33において、枠検出部213は、枠外領域の削除を行う。この点について、図9を参照して説明する。図9は、二値化した画像から、枠外領域の削除を行い、その後に射影変換を行うことを示す模式図である。ステップS32では、枠画像は枠を検出するのに使用した4つの枠線の座標から一番外側のものを用いて切り出した。そのため、枠線に傾きや歪みが存在する場合、図9(a)に二値化した画像として示すように、枠外の文字及び枠線が含まれて検出される。これらの文字や枠線は後の文字検出の際に障害となる。そこで、枠検出の際に使用した枠線外の画素を削除することにより、図9(b)に示すように、これらを削除することができる。
ステップS34において、枠検出部213は、射影変換を行う。カメラ撮影によって取得した対象画像の画像には、紙の湾曲やカメラと撮影対象の位置関係に基づいた歪みが生じる。この歪みに対応するために、射影変換を用いる。射影変換の変換式は次式(2)で表され、Hが正則の時実行できる。
Figure 0007659155000002
ただし、式(2)において、x’及びy’は変換後の座標であり、x及びyは変換前の座標であり、H11~H33は変換係数である。また、式(2)において、fはスケールを表す定数であり、x/f及びy/fが0になるように調整される。
この射影変換の変換行列は8つの変換係数を含んでおり、1つの変換前及び変換後の座標から2つの方程式が得られることから、4つの変換前後の座標のペアを用意することで変換係数を求めることができる。本変形例では、この4つの座標に枠線の交点を用いる。変換後の座標は枠の左上の座標を固定し、左上と右上、及び、左下と右下の交点間x軸方向の距離を算出し、距離の長いものを変換後の横方向の枠の長さとする。同様に、左上と左下、及び、右上と右下の交点間のy軸方向の距離を算出し、距離の長いものを変換後の縦方向の枠の長さとして変換後の枠が長方形となるように座標を定義する。変換前の座標には交点の座標をそのまま使用し、これら4つの座標を用いて変換係数を定め、図9(c)に示すように射影変換を行う。
ステップS35において、枠検出部213は、文字検出を行う。文字検出には、投影法を用いる。投影法では画像のy及びxそれぞれの方向に対して、各座標で二値化後に黒に対応する画素の画素数をカウントし、画素数が0でない範囲を行及び文字として検出する。しかし、この手法では“リ”や“ル”等のカタカナの構成要素や、“検”や“接”やといった漢字の偏(へん)と旁(つくり)が左右に分離して検出されるといった問題が生じる。そこで、本変形例では、分離して検出したのちに文字の合成を行う。
この場合、まず投影法で検出した文字に対し、次式(3)で表すように、それぞれの文字の横方向の長さを縦方向の長さで除算し、検出したそれぞれの文字に対して縦横比を算出する。
Figure 0007659155000003
ただし、式(3)において、rは各文字の縦横比であり、wは各文字の幅であり、hは行の高さである。
この縦横比rは全角文字の場合は相対的に大きくなり、半角文字の場合は相対的に小さくなる。画像解析処理の対象としている健康診断表には検査項目等の文字領域と検査結果の数値領域が存在し、数値領域は半角文字で記載されている。そのため、枠内に存在する文字が半角文字のみの場合、文字の合成は必要ないと考えられる。そこで、この縦横比rを用いて表の文字領域と数値領域の判別を行う。そのために、判別用の閾値を設定し、閾値を以上のものが存在した場合、文字領域とみなして、その文字領域の枠内文字を文字の合成を行う候補とする。
これらの文字の合成を行う候補に対して、実際に文字の合成を行うか否かは、以下の次式(4)で表す条件を満たす隣接した文字を対象として検討する。
Figure 0007659155000004
ただし、式(4)において、xi+1,1及びxi,2は文字の横方向の始点及び終点であり、sは検出文字間の距離である。
そして、この距離が小さい順に文字の合成を行うか否かを検討し、仮に文字合成後したとした場合の縦横比を上記の式(3)を用いて算出する。そして、算出した縦横比が閾値以上のものに対しては、文字領域において分離して検出された単一文字であるとして実際に合成を行う。しかしながら、算出した縦横比が閾値未満のものに対しては、文字領域において分離することなく検出された単一文字であるとして実際には合成は行わない。これにより、例えば、半角等で記載されている数値を誤って合成するようなことなく、一方で、漢字の偏(へん)と旁(つくり)が分離して検出されたような場合に、これらを単一文字として合成することができる。これにより本処理は終了する。そして、文字認識部214は、本処理により正確に検出された、ひとかたまりの文字列(例えば、1つの単語)を対象として、ステップS24における文字認識処理を精度高く行うことができる。
[構成例]
以上のように、本実施形態に係る画像解析システムSは、表検出部212と、枠検出部213と、情報取得部215と、を備える。
表検出部212は、表を被写体として含む画像から、表に対応する領域を検出する。
枠検出部213は、表に対応する領域から表を構成する複数の枠を検出すると共に、該検出した複数の枠それぞれに画像における位置情報を付与する。
情報取得部215は、複数の枠それぞれについての文字認識結果と、複数の枠それぞれに付与された位置情報とに基づいて、取得対象情報を取得する。
このように、画像解析システムSは、表と枠をそれぞれ段階的に検出した上で、位置情報を利用して、所望の取得対象情報を取得する。したがって、表と枠を検出せず、位置情報を用いずに、単純に画像解析処理を行うような画像解析方法に比べて、より精度高く画像解析を行うことが可能となる。そのため、例えば、様々なフォーマットが混在しており、表や枠の配置等が原稿によってそれぞれ異なるような場合や、画像に歪み等が発生しており通常であれば画像解析を行うことが困難な場合であったとしても、適切に画像解析を行うことができる。
情報取得部215は、取得対象情報の一部である第1の情報についての辞書データと、複数の枠それぞれの文字認識結果とに基づいて、第1の情報を取得する。
情報取得部215は、第1の情報の取得元となった枠に対応する位置情報に基づいて、取得対象情報の一部である第2の情報を取得する。
これにより、取得対象情報に対応した辞書データを用いて、より精度高く画像解析を行うことができる。
情報取得部215は、第1の情報の取得元となった枠に対応する位置情報を基準とすると共に、他の枠の位置情報に基づいて前記基準から所定方向に他の枠を走査的に検索することにより、第2の情報を取得する。
これにより、例えば、縦方向又は横方向に関連する情報が配置されている表において、より精度高く画像解析を行うことができる。
枠検出部213は、表に対応する領域から複数の枠の枠線である第1の方向の枠線と第2の方向の枠線を分離して検出すると共に、該検出した第1の方向の枠線及び第2の方向の枠線の交点に基づいて複数の枠を検出する。
このように、第1の方向の枠線と第2の方向の枠線を分離して検出することによって、これらを分離することなく検出を行う場合よりも、枠線及び枠を正確に検出することができる。
枠検出部213は、検出した複数の枠それぞれを切り出し、
文字認識結果は、切り出された複数の枠それぞれを単位とした画像解析処理により生成される。
これにより、文字列が含まれる枠を単位として画像解析処理を行うことができるので、より精度高く文字認識を行うことができる。
画像は、健康診断結果が記載された異なる体裁の複数の表の内の、何れかの表を撮影することにより生成された画像であり、
取得対象情報は、少なくとも健康診断結果を含む。
これにより、様々なフォーマットで記載される健康診断結果を、精度高く取得することができる。
[ハードウェアやソフトウェアによる機能の実現]
上述した実施形態による一連の処理を実行させる機能は、ハードウェアにより実現することもできるし、ソフトウェアにより実現することもできるし、これらの組み合わせにより実現することもできる。換言すると、上述した一連の処理を実行する機能が、画像解析システムSの何れかにおいて実現されていれば足り、この機能をどのような態様で実現するのかについては、特に限定されない。
例えば、上述した一連の処理を実行する機能を、演算処理を実行するプロセッサによって実現する場合、この演算処理を実行するプロセッサは、シングルプロセッサ、マルチプロセッサ及びマルチコアプロセッサ等の各種処理装置単体によって構成されるものの他、これら各種処理装置と、ASIC(Application Specific Integrated Circuit)又はFPGA(Field-Programmable Gate Array)等の処理回路とが組み合わせられたものを含む。
また、例えば、上述した一連の処理を実行する機能を、ソフトウェアにより実現する場合、そのソフトウェアを構成するプログラムは、ネットワーク又は記録媒体を介してコンピュータにインストールされる。この場合、コンピュータは、専用のハードウェアが組み込まれているコンピュータであってもよいし、プログラムをインストールすることで所定の機能を実行することが可能な汎用のコンピュータ(例えば、汎用のパーソナルコンピュータ等の電子機器一般)であってもよい。また、プログラムを記述するステップは、その順序に沿って時系列的に行われる処理のみを含んでいてもよいが、並列的あるいは個別に実行される処理を含んでいてもよい。また、プログラムを記述するステップは、本発明の要旨を逸脱しない範囲内において、任意の順番に実行されてよい。
このようなプログラムを記録した記録媒体は、コンピュータ本体とは別に配布されることによりユーザに提供されてもよく、コンピュータ本体に予め組み込まれた状態でユーザに提供されてもよい。この場合、コンピュータ本体とは別に配布される記憶媒体は、例えば、磁気ディスク(フロッピディスクを含む)、光ディスク、又は光磁気ディスク等により構成される。光ディスクは、例えば、CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)、あるいはBlu-ray(登録商標) Disc(ブルーレイディスク)等により構成される。光磁気ディスクは、例えば、MD(Mini Disc)等により構成される。これら記憶媒体は、例えば、図2のドライブ15及び図3のドライブ25に装着されて、コンピュータ本体に組み込まれる。また、コンピュータ本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図2のROM12及び図3のROM22、並びに、図2の記憶部16及び図3の記憶部26に含まれるHDDやSSD等により構成される。
1 端末、2 画像解析装置、3 原稿(健康診断表)、11,21 CPU、12,22 ROM、13,23 RAM、14,24 通信部、15,25 ドライブ、16,26 記憶部、17,27 入力部、18,28 出力部、111 撮影制御部、112 端末側通知部、161、261 画像記憶部、162、263 解析結果記憶部、211 画像取得部、212 表検出部、213 枠検出部、214 文字認識部、215 情報取得部、216 装置側通知部、262 辞書データ記憶部、S 画像解析システム

Claims (5)

  1. 複数の表を被写体として含む一つの対象画像から、前記複数の表それぞれに対応する複数の表領域を検出する表検出手段と、
    前記複数の表領域それぞれについて前記表を構成する複数の枠を検出すると共に、該検出した複数の枠それぞれについて前記対象画像における位置情報を付与する枠検出手段と、
    前記複数の枠それぞれについての文字認識結果と、前記複数の枠それぞれに付与された位置情報とに基づいて、取得対象情報を取得することで、前記複数の表それぞれについての取得対象情報を取得する情報取得手段と、
    を備え、
    前記表検出手段が複数の表領域を検出する前記対象画像は、被写体である前記複数の表について歪みが生じている画像であり、
    前記枠検出手段は、枠線の交点を検出し、該交点の座標を用いて枠ごとに射影変換を行うことにより、前記歪みを修正する、
    ことを特徴とする画像解析システム。
  2. 複数の表を被写体として含む一つの対象画像から、前記複数の表それぞれに対応する複数の表領域を検出する表検出手段と、
    前記複数の表領域それぞれについて前記表を構成する複数の枠を検出すると共に、該検出した複数の枠それぞれについて前記対象画像における位置情報を付与する枠検出手段と、
    前記複数の枠それぞれについての文字認識結果と、前記複数の枠それぞれに付与された位置情報とに基づいて、取得対象情報を取得することで、前記複数の表それぞれについての取得対象情報を取得する情報取得手段と、
    を備え、
    前記対象画像には、枠内に半角数字のみが含まれる枠と、枠内に全角文字が含まれる枠とが存在し、
    前記枠検出手段は、前記対象画像に含まれる枠から文字を検出し、一つの文字の幅を該一つの文字の高さで除算した値である縦横比の値が、閾値以上の文字が含まれる枠を前記全角文字が含まれる枠とみなして、該枠内の文字を文字の合成を行う処理の候補とする、
    ことを特徴とする画像解析システム。
  3. 複数の表を被写体として含む一つの対象画像から、前記複数の表それぞれに対応する複数の表領域を検出する表検出手段と、
    前記複数の表領域それぞれについて前記表を構成する複数の枠を検出すると共に、該検出した複数の枠それぞれについて前記対象画像における位置情報を付与する枠検出手段と、
    前記複数の枠それぞれについての文字認識結果と、前記複数の枠それぞれに付与された位置情報とに基づいて、取得対象情報を取得することで、前記複数の表それぞれについての取得対象情報を取得する情報取得手段と、
    を備え、
    前記枠検出手段は、
    前記表領域から第1の方向の幅が所定値未満の画素を削除した画像を生成して、前記第1の方向の枠線を検出し、
    前記表領域から前記第1の方向と交差する第2の方向の幅が所定値未満の画素を削除した画像を生成して前記第の方向の枠線を検出し、
    前記検出した第1の方向の枠線及び前記第2の方向の枠線の交点に基づいて前記複数の枠を検出する、
    ことを特徴とする画像解析システム。
  4. 前記表検出手段は、一つの画像に一つの表が含まれるように前記対象画像を分割し、
    前記枠検出手段は、一つの画像に一つの枠が含まれるように前記表検出手段が分割した対象画像をさらに分割し、
    前記情報取得手段は、前記枠検出手段がさらに分割した枠単位の対象画像それぞれについて、前記取得対象情報を取得する、
    ことを特徴とする請求項1乃至3の何れか1項に記載の画像解析システム。
  5. 前記対象画像は、健康診断結果が記載された異なる体裁の複数の表を撮影することにより生成された前記複数の表について歪みが生じている画像であり、
    前記取得対象情報は、少なくとも健康診断結果を含む、
    ことを特徴とする請求項1乃至の何れか1項に記載の画像解析システム。
JP2020130845A 2020-07-31 2020-07-31 画像解析システム Active JP7659155B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020130845A JP7659155B2 (ja) 2020-07-31 2020-07-31 画像解析システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020130845A JP7659155B2 (ja) 2020-07-31 2020-07-31 画像解析システム

Publications (2)

Publication Number Publication Date
JP2022027060A JP2022027060A (ja) 2022-02-10
JP7659155B2 true JP7659155B2 (ja) 2025-04-09

Family

ID=80264448

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020130845A Active JP7659155B2 (ja) 2020-07-31 2020-07-31 画像解析システム

Country Status (1)

Country Link
JP (1) JP7659155B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029983A (ja) 1998-07-10 2000-01-28 Oki Electric Ind Co Ltd 文書読取装置
JP2002185763A (ja) 2000-12-11 2002-06-28 Minolta Co Ltd デジタル複写機
JP2007213255A (ja) 2006-02-08 2007-08-23 Fujitsu Ltd 表認識装置、及びコンピュータプログラム
JP2016206823A (ja) 2015-04-20 2016-12-08 アドバンスト・アプリケーション株式会社 帳票データ抽出システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329187A (ja) * 1995-06-06 1996-12-13 Oki Electric Ind Co Ltd 文書読取装置
JPH09288714A (ja) * 1996-04-19 1997-11-04 Hitachi Ltd 表認識方法および装置
JPH10134120A (ja) * 1996-10-28 1998-05-22 Oki Electric Ind Co Ltd 表処理方法および表処理装置
JPH11282957A (ja) * 1998-03-26 1999-10-15 Oki Electric Ind Co Ltd 認識対象領域の決定方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029983A (ja) 1998-07-10 2000-01-28 Oki Electric Ind Co Ltd 文書読取装置
JP2002185763A (ja) 2000-12-11 2002-06-28 Minolta Co Ltd デジタル複写機
JP2007213255A (ja) 2006-02-08 2007-08-23 Fujitsu Ltd 表認識装置、及びコンピュータプログラム
JP2016206823A (ja) 2015-04-20 2016-12-08 アドバンスト・アプリケーション株式会社 帳票データ抽出システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
田中宏 外3名,交点追跡と全体最適化に基づく罫線抽出誤りに頑強な表項目セル抽出,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,2011年07月01日,第J94-D巻 第7号,pp.1113~1124
石谷康人,モデルマッチングによる表形式文書の理解,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1994年09月22日,第94巻 第242号,pp.57~64

Also Published As

Publication number Publication date
JP2022027060A (ja) 2022-02-10

Similar Documents

Publication Publication Date Title
CN101615251B (zh) 字符识别设备中用于识别字符的方法和设备
EP3940589B1 (en) Layout analysis method, electronic device and computer program product
JP2018128996A (ja) 情報処理装置、制御方法、およびプログラム
CN114821620B (zh) 基于行文本框纵向合并的文本内容提取识别方法
CN112560849A (zh) 基于神经网络算法的文理分割方法及系统
JP2020046819A (ja) 情報処理装置及びプログラム
CN111612045B (zh) 一种获取目标检测数据集的通用方法
JP4232679B2 (ja) 画像形成装置およびプログラム
CN109508712A (zh) 一种基于图像的汉语文字识别方法
CN108875570B (zh) 信息处理装置、存储介质和信息处理方法
US20060285748A1 (en) Document processing device
JP2013093777A (ja) 文書ファイル出力装置、文書ファイル出力方法、及びコンピュータプログラム
KR102328034B1 (ko) 표가 삽입된 이미지로부터 지식 데이터베이스의 구축이 가능한 데이터베이스 구축 장치 및 그 동작 방법
CN115063818B (zh) 一种机关公文字体类别判别方法及系统
CN108062548B (zh) 一种盲文方自适应定位方法及系统
JP7659155B2 (ja) 画像解析システム
CN107958261B (zh) 一种盲文点检测方法及系统
KR102300475B1 (ko) 표가 삽입된 이미지를 전자 문서로 변환할 수 있는 전자 장치 및 그 동작 방법
JP4474231B2 (ja) 文書リンク情報取得システム
JP3898645B2 (ja) 帳票書式編集装置および帳票書式編集プログラム
JP7570843B2 (ja) 画像処理装置、画像形成システム、画像処理方法、およびプログラム
CN114882209B (zh) 文本处理方法、装置和系统
JP7516170B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP5298830B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム
JP2008054147A (ja) 画像処理装置および画像処理プログラム

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20200828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220914

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20220914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220915

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20221027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20221029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230718

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240423

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240520

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240624

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20241112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250310

R150 Certificate of patent or registration of utility model

Ref document number: 7659155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150