JPH0481225B2 - - Google Patents
Info
- Publication number
- JPH0481225B2 JPH0481225B2 JP61012382A JP1238286A JPH0481225B2 JP H0481225 B2 JPH0481225 B2 JP H0481225B2 JP 61012382 A JP61012382 A JP 61012382A JP 1238286 A JP1238286 A JP 1238286A JP H0481225 B2 JPH0481225 B2 JP H0481225B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- character
- character string
- area
- connection lines
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000010586 diagram Methods 0.000 claims description 41
- 239000000126 substance Substances 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 26
- 238000012795 verification Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Landscapes
- Image Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は紙面を走査して入力された画像を認識
する文字図形認識方式に係わり、特に化学構造式
の描かれた図面を認識する方式に係わる。
する文字図形認識方式に係わり、特に化学構造式
の描かれた図面を認識する方式に係わる。
(従来の技術)
計算機の普及に伴い、より効果的に計算機を利
用する技術の一つとして、我々の身の回りに氾濫
する多くの図面を計算機へ自動的に入力する図面
認識技術の重要性が高まつている。従来の図面認
識方式、例えば論理回路図面や市街地図の認識方
式では、論理回路図や市街地図に現れる文字を単
に線図形の説明であると解釈するため、始めに使
定の規準に従つて文字領域と線図形領域に分離し
た後、文字領域については文字認識を、線図形領
域については線の構造の認識を行つている(例え
ば情報処理学会第27回全国大会予稿集2L−3,
同第29回全国大会予集3M−9)。また、文字また
は微小なシンボルが周囲の線図形と相互作用を持
たない地図の認識においても同様な手法が用いら
れている。
用する技術の一つとして、我々の身の回りに氾濫
する多くの図面を計算機へ自動的に入力する図面
認識技術の重要性が高まつている。従来の図面認
識方式、例えば論理回路図面や市街地図の認識方
式では、論理回路図や市街地図に現れる文字を単
に線図形の説明であると解釈するため、始めに使
定の規準に従つて文字領域と線図形領域に分離し
た後、文字領域については文字認識を、線図形領
域については線の構造の認識を行つている(例え
ば情報処理学会第27回全国大会予稿集2L−3,
同第29回全国大会予集3M−9)。また、文字また
は微小なシンボルが周囲の線図形と相互作用を持
たない地図の認識においても同様な手法が用いら
れている。
(発明が解決しようとする問題点)
上記のように文字が図形の説明を行う付属的シ
ンボルとして扱われる図面の認識方式では、線構
造の認識方式の改良によつて認識精度を確保して
いた。しかし化学の分野で用いられる化学構造図
式においては、文字は単なる付属的説明ではなく
図式を構成する一要素となつている。従つて化学
構造図式に現れる単純な線構造、即ち結合を表す
接続線を描出するのみでは化学構造図式を認識す
ることができない。また化学構造図式に現れる文
字の誤認識がそのまま図式の誤認識となるため、
文字認識の精度が要求されるが、特別な制限条件
を課さない状況で完全に近い文字認識結果を得る
ことは非常に困難である。このように線構造の認
識と文字認識を個別に行う従来の図面認識方式の
延長技術では化学構造図式を精度良く認識するの
は困難である。
ンボルとして扱われる図面の認識方式では、線構
造の認識方式の改良によつて認識精度を確保して
いた。しかし化学の分野で用いられる化学構造図
式においては、文字は単なる付属的説明ではなく
図式を構成する一要素となつている。従つて化学
構造図式に現れる単純な線構造、即ち結合を表す
接続線を描出するのみでは化学構造図式を認識す
ることができない。また化学構造図式に現れる文
字の誤認識がそのまま図式の誤認識となるため、
文字認識の精度が要求されるが、特別な制限条件
を課さない状況で完全に近い文字認識結果を得る
ことは非常に困難である。このように線構造の認
識と文字認識を個別に行う従来の図面認識方式の
延長技術では化学構造図式を精度良く認識するの
は困難である。
(問題点を解決するための手段)
本発明の化学構造図式認識方式は、紙面上に記
録された図面を走査して得られる画像を文字領域
と直線領域に分類すると共に分類された該領域群
の属性を記憶する手段と、該領域群のうち文字領
域のうち文字領域と判定された領域の文字の認識
を行いその候補を求める文字認識手段と、該文字
認識手段によつて抽出された文字候補群から化学
構造図式に許容される文字列を生成する文字列生
成手段と、該文字列生成手段によつて生成された
文字列に接続する接続線を検出し文字列と接続線
から成る真性ノードを生成する真性ノード生成手
段と、接続線の交差で表現された疑似ノードを生
成手段と、真性ノードおよび疑似ノードの情報を
記憶するノード記憶手段と、ノードの文字列の種
類に応じて許容される接続線の数をノード構成規
則として記憶するノード構成規則記憶手段と、該
ノード構成規則記憶手段中のノード構成規則に従
つて前記ノード記憶手段中のノードの検証を行う
ノード検証手段とを備えることを特徴とするもの
である。
録された図面を走査して得られる画像を文字領域
と直線領域に分類すると共に分類された該領域群
の属性を記憶する手段と、該領域群のうち文字領
域のうち文字領域と判定された領域の文字の認識
を行いその候補を求める文字認識手段と、該文字
認識手段によつて抽出された文字候補群から化学
構造図式に許容される文字列を生成する文字列生
成手段と、該文字列生成手段によつて生成された
文字列に接続する接続線を検出し文字列と接続線
から成る真性ノードを生成する真性ノード生成手
段と、接続線の交差で表現された疑似ノードを生
成手段と、真性ノードおよび疑似ノードの情報を
記憶するノード記憶手段と、ノードの文字列の種
類に応じて許容される接続線の数をノード構成規
則として記憶するノード構成規則記憶手段と、該
ノード構成規則記憶手段中のノード構成規則に従
つて前記ノード記憶手段中のノードの検証を行う
ノード検証手段とを備えることを特徴とするもの
である。
(作用)
本発明において、文字認識手段の出力する複数
候補を許した文字群から化学構造図式中に出現が
許容される文字列を文字列生成手段が生成するこ
とによつて、文字認識手段において正解が唯一に
定まらない場合においても正しい解釈が選択され
る。文字列生成手段が複数の許容される文字列を
生成した場合には、ノード構成規則記憶手段に記
憶されている文字列ごとの接続線の許容数に従
い、ノード検証手段がノードを検査することによ
つて、解釈可能な文字列のみを抽出するため、文
字認識手段の求めた候補から正しい解釈が得られ
る結果のみを選択的に用いた化学構造図式の認識
が行われる。
候補を許した文字群から化学構造図式中に出現が
許容される文字列を文字列生成手段が生成するこ
とによつて、文字認識手段において正解が唯一に
定まらない場合においても正しい解釈が選択され
る。文字列生成手段が複数の許容される文字列を
生成した場合には、ノード構成規則記憶手段に記
憶されている文字列ごとの接続線の許容数に従
い、ノード検証手段がノードを検査することによ
つて、解釈可能な文字列のみを抽出するため、文
字認識手段の求めた候補から正しい解釈が得られ
る結果のみを選択的に用いた化学構造図式の認識
が行われる。
(実施例)
以下本発明における実施例について図面を参照
しつつ説明する。第1図は本発明を用いた化学構
造図式認識方式の機能を示す論理ブロツク図であ
り、1は化学構造図式の描かれた紙面を走査して
画像を入力し記憶する画像入力手段、2は画像入
力手段1に記憶された画像を文字領域と直線領域
に分類する領域分類手段、3は領域分類手段2に
よつて分類された領域の属性を記憶する連結領域
記憶手段、4は連続領域記憶手段3内の文字領域
に対応した画像を画像入力手段1より切出して文
字の認識を行い、その候補を求めて連結領域記憶
手段3に格納する文字認識手段、5は連結領域記
憶手段3内の文字候補群から化学構造図式に許容
される文字列を生成して後記するノード記憶手段
8に格納する文字列生成手段、6はノード記憶手
段8内の文字列に接続する接続線を検出して文字
列と接続線から成る真性ノードをノード記憶手段
8内に生成する真性ノード生成手段、7は接続線
の交差で表現された疑似ノードを生成する疑似ノ
ード生成手段、8は真性ノードおよび疑似ノード
の情報を記憶するノード記憶手段、9はノードの
文字列の種類に応じて許容される接続線の数をノ
ード構成規則として記憶するノード構成規則記憶
手段、10はノード構成規則記憶手段9中のノー
ド構成規則に従つて前記ノード記憶手段8中のノ
ードの検証を行うノード検証手段、11は画像入
力手段1ないしノード検証手段10を制御し一連
の処理を司どる制御部である。
しつつ説明する。第1図は本発明を用いた化学構
造図式認識方式の機能を示す論理ブロツク図であ
り、1は化学構造図式の描かれた紙面を走査して
画像を入力し記憶する画像入力手段、2は画像入
力手段1に記憶された画像を文字領域と直線領域
に分類する領域分類手段、3は領域分類手段2に
よつて分類された領域の属性を記憶する連結領域
記憶手段、4は連続領域記憶手段3内の文字領域
に対応した画像を画像入力手段1より切出して文
字の認識を行い、その候補を求めて連結領域記憶
手段3に格納する文字認識手段、5は連結領域記
憶手段3内の文字候補群から化学構造図式に許容
される文字列を生成して後記するノード記憶手段
8に格納する文字列生成手段、6はノード記憶手
段8内の文字列に接続する接続線を検出して文字
列と接続線から成る真性ノードをノード記憶手段
8内に生成する真性ノード生成手段、7は接続線
の交差で表現された疑似ノードを生成する疑似ノ
ード生成手段、8は真性ノードおよび疑似ノード
の情報を記憶するノード記憶手段、9はノードの
文字列の種類に応じて許容される接続線の数をノ
ード構成規則として記憶するノード構成規則記憶
手段、10はノード構成規則記憶手段9中のノー
ド構成規則に従つて前記ノード記憶手段8中のノ
ードの検証を行うノード検証手段、11は画像入
力手段1ないしノード検証手段10を制御し一連
の処理を司どる制御部である。
画像入力手段1が画像を入力し記憶した後、制
御部11は領域分類手段2を起動する。領域分類
手段2は画像入力手段1中の画像を文字領域と直
線の存在する接続線領域に分類し各領域の位置,
領域が文字か接続線かの種別を出力する。また、
接続線領域については直線の方向を表す値と直線
の2つの端点の位置を出力する。領域分類手段2
はこれらの領域の分類結果を連結領域記憶手段3
に格納する。尚、領域分類手段2において文字領
域を抽出する機能は、画素をラベリングし、連結
した画素から成る微小な孤立領域として抽出する
従来技術により実現できる。また、接続線領域を
抽出する機能は、公知の直線抽出方式やベクトル
化手法、例えば方向の変化する画素まで細線化し
た画素を追跡する方式や局所マツチング法によつ
て得られる微小線素を追跡する方式等を、文字領
域以外の画素に対して適用することで実現され
る。
御部11は領域分類手段2を起動する。領域分類
手段2は画像入力手段1中の画像を文字領域と直
線の存在する接続線領域に分類し各領域の位置,
領域が文字か接続線かの種別を出力する。また、
接続線領域については直線の方向を表す値と直線
の2つの端点の位置を出力する。領域分類手段2
はこれらの領域の分類結果を連結領域記憶手段3
に格納する。尚、領域分類手段2において文字領
域を抽出する機能は、画素をラベリングし、連結
した画素から成る微小な孤立領域として抽出する
従来技術により実現できる。また、接続線領域を
抽出する機能は、公知の直線抽出方式やベクトル
化手法、例えば方向の変化する画素まで細線化し
た画素を追跡する方式や局所マツチング法によつ
て得られる微小線素を追跡する方式等を、文字領
域以外の画素に対して適用することで実現され
る。
連結領域記憶手段3は領域分類手段2の結果を
第2図に示した項目から成る領域情報12として
記憶する機能を有する。領域情報12のうち、領
域位置は文字領域または接続線領域の存在した画
像上の位置座標、領域種別は文字領域か接続線領
域かを示す番号または記号、文字識別子は領域が
文字領域である場合の文字のカテゴリを表す番号
または記号、方向値及び端点位置は領域が接続線
領域である場合の直線の方向を表す値および直線
の2つの端点の位置座標である。領域分類手段2
が出力した領域の位置および文字か接続線かの種
別はそれぞれ領域情報12の領域位置および領域
種別の項目に格納される。また接続線領域に対し
て領域分類手段2が出力する直線の方向を表す値
と2つの端点の位置はそれぞれ領域情報12の方
向値および端点位置の項目に格納される。尚、文
字識別子の項目は後記する文字認識手段の結果を
格納する項目であり、複数の文字識別子を格納す
ることができる。また、各領域情報12は連結領
域記憶手段3内で固有に割り当てられた番号であ
る領域情報番号を有し、領域情報番号によつて
個々の領域情報を選択的に参照することができ
る。
第2図に示した項目から成る領域情報12として
記憶する機能を有する。領域情報12のうち、領
域位置は文字領域または接続線領域の存在した画
像上の位置座標、領域種別は文字領域か接続線領
域かを示す番号または記号、文字識別子は領域が
文字領域である場合の文字のカテゴリを表す番号
または記号、方向値及び端点位置は領域が接続線
領域である場合の直線の方向を表す値および直線
の2つの端点の位置座標である。領域分類手段2
が出力した領域の位置および文字か接続線かの種
別はそれぞれ領域情報12の領域位置および領域
種別の項目に格納される。また接続線領域に対し
て領域分類手段2が出力する直線の方向を表す値
と2つの端点の位置はそれぞれ領域情報12の方
向値および端点位置の項目に格納される。尚、文
字識別子の項目は後記する文字認識手段の結果を
格納する項目であり、複数の文字識別子を格納す
ることができる。また、各領域情報12は連結領
域記憶手段3内で固有に割り当てられた番号であ
る領域情報番号を有し、領域情報番号によつて
個々の領域情報を選択的に参照することができ
る。
次に制御部11は文字認識手段4を起動し文字
認識を行う。文字認識手段4は、画像入力手段1
に記憶された画像の文字領域に対して文字認識を
行い、結果を連結領域記憶手段3に格納する機能
を有する。まず文字認識手段4は、連結領域記憶
手段3に格納された領域情報12のうち領域種別
が文字領域である領域情報12の領域位置を参照
し、画像入力手段1中の該当する領域の画像を切
出し、文字認識を行う。文字認識の結果得られる
文字のカテゴリに対応した識別子を対応した領域
情報12の文字識別子の項目に格納する。このと
き文字のカテゴリが唯一に定まらず複数の候補が
あるときは複数の識別子を文字識別子の項目に格
納する。尚、文字認識手段4において切出された
1文字を認識する機能は、パターン認識技術で用
いられるマツチング手法、例えば2次元相関法や
パターンの固有値展界による類似度法等の公知の
技術で実現できる。
認識を行う。文字認識手段4は、画像入力手段1
に記憶された画像の文字領域に対して文字認識を
行い、結果を連結領域記憶手段3に格納する機能
を有する。まず文字認識手段4は、連結領域記憶
手段3に格納された領域情報12のうち領域種別
が文字領域である領域情報12の領域位置を参照
し、画像入力手段1中の該当する領域の画像を切
出し、文字認識を行う。文字認識の結果得られる
文字のカテゴリに対応した識別子を対応した領域
情報12の文字識別子の項目に格納する。このと
き文字のカテゴリが唯一に定まらず複数の候補が
あるときは複数の識別子を文字識別子の項目に格
納する。尚、文字認識手段4において切出された
1文字を認識する機能は、パターン認識技術で用
いられるマツチング手法、例えば2次元相関法や
パターンの固有値展界による類似度法等の公知の
技術で実現できる。
次に制御部11は文字列生成手段5を起動し、
文字認識手段4の抽出した文字候補群から化学構
造図式に許容された文字列の抽出を行う。文字列
生成手段5は、まず連結領域記憶手段3中の領域
情報のうち領域種別が文字である領域情報群か
ら、互いに隣接する文字領域を求めることによつ
て文字列領域を抽出する。次にこの文字列領域に
おいて、許容された文字識別子を持つ文字領域が
定められた位置関係に配置された文字列領域のみ
を抽出することによつて文字列を生成する。本機
能を実現する方式として同一出願人による特許
「文字列抽出方式」(本願と同日出願)が提案され
ている。この方式によれば、図面に出現する文字
列を構成する文字のカテゴリと文字の位置関係を
文字列規則として予め登録することによつて図面
固有の文字列の抽出が実現されている。従つて化
学構造図式に出現する文字列の文字列規則を登録
したうえで、文字列領域に対して本方式を適用す
ることによつて化学構造図式に許容された文字列
を生成できる。文字列生成手段5の結果として得
られた文字列の文字列領域の位置とその文字列に
対応した番号または記号である文字列識別子を出
力し、ノード記憶手段8に格納する。ここで個々
の文字領域が複数の文字候補を持つときは許容さ
れる文字列が複数求まる場合がある。この場合は
文字列領域に対応した複数の文字列識別子をノー
ド記憶手段8に格納する。
文字認識手段4の抽出した文字候補群から化学構
造図式に許容された文字列の抽出を行う。文字列
生成手段5は、まず連結領域記憶手段3中の領域
情報のうち領域種別が文字である領域情報群か
ら、互いに隣接する文字領域を求めることによつ
て文字列領域を抽出する。次にこの文字列領域に
おいて、許容された文字識別子を持つ文字領域が
定められた位置関係に配置された文字列領域のみ
を抽出することによつて文字列を生成する。本機
能を実現する方式として同一出願人による特許
「文字列抽出方式」(本願と同日出願)が提案され
ている。この方式によれば、図面に出現する文字
列を構成する文字のカテゴリと文字の位置関係を
文字列規則として予め登録することによつて図面
固有の文字列の抽出が実現されている。従つて化
学構造図式に出現する文字列の文字列規則を登録
したうえで、文字列領域に対して本方式を適用す
ることによつて化学構造図式に許容された文字列
を生成できる。文字列生成手段5の結果として得
られた文字列の文字列領域の位置とその文字列に
対応した番号または記号である文字列識別子を出
力し、ノード記憶手段8に格納する。ここで個々
の文字領域が複数の文字候補を持つときは許容さ
れる文字列が複数求まる場合がある。この場合は
文字列領域に対応した複数の文字列識別子をノー
ド記憶手段8に格納する。
次に、制御部11は真性ノード生成手段6を起
動し、文字列と接続線から構成された真性ノード
を抽出する。真性ノード生成手段6はまずノード
記憶手段8より文字列の位置座標を参照する。次
に各文字列について、連結領域記憶手段3中の接
続線領域のうち、2つの端点の一方の位置座標と
文字列の位置座標との距離が予め定められた値
T1以下であるような接続線領域の領域情報番号
(複数ある場合は領域情報番号群)を求める。真
性ノード生成手段6は接続線の数と得られた領域
情報番号を、対応する文字列に帰属する接続線と
してノード記憶手段8に格納する。
動し、文字列と接続線から構成された真性ノード
を抽出する。真性ノード生成手段6はまずノード
記憶手段8より文字列の位置座標を参照する。次
に各文字列について、連結領域記憶手段3中の接
続線領域のうち、2つの端点の一方の位置座標と
文字列の位置座標との距離が予め定められた値
T1以下であるような接続線領域の領域情報番号
(複数ある場合は領域情報番号群)を求める。真
性ノード生成手段6は接続線の数と得られた領域
情報番号を、対応する文字列に帰属する接続線と
してノード記憶手段8に格納する。
次に、制御部11は疑似ノード生成手段7を起
動し、接続線の交差によつて表された疑似ノード
を抽出する。疑似ノードは接続線の交差部分の領
域に文字列の記述が省略されているノードであ
り、交差する接続線の数に基づいて省略された文
字列が決定される。まず疑似ノード生成手段7は
連結領域記憶手段3中の接続線領域についてその
端点座標を参照し、互いの端点間の距離が予め定
められた値T2以下であるような端点の集合を求
める。同時にその端点を持つ接続線の集合を求
め、各接続線の方向値を連結領域記憶手段3より
参照する。接続線の方向値が全て類似するとき、
即ちどの2つの接続線の方向値の差も予め定めら
れた許容値T3以下であるとき、この接続線の集
合は疑似ノードを構成しないと判定し、そうでな
い場合は接続線の集合が疑似ノードを構成すると
判定する。次に疑似ノード生成手段7は疑似ノー
ドを構成する接続線の数に応じて、以下の規準に
従い疑似ノードの文字列の識別子を決定する。
動し、接続線の交差によつて表された疑似ノード
を抽出する。疑似ノードは接続線の交差部分の領
域に文字列の記述が省略されているノードであ
り、交差する接続線の数に基づいて省略された文
字列が決定される。まず疑似ノード生成手段7は
連結領域記憶手段3中の接続線領域についてその
端点座標を参照し、互いの端点間の距離が予め定
められた値T2以下であるような端点の集合を求
める。同時にその端点を持つ接続線の集合を求
め、各接続線の方向値を連結領域記憶手段3より
参照する。接続線の方向値が全て類似するとき、
即ちどの2つの接続線の方向値の差も予め定めら
れた許容値T3以下であるとき、この接続線の集
合は疑似ノードを構成しないと判定し、そうでな
い場合は接続線の集合が疑似ノードを構成すると
判定する。次に疑似ノード生成手段7は疑似ノー
ドを構成する接続線の数に応じて、以下の規準に
従い疑似ノードの文字列の識別子を決定する。
1 接続線の数が4のとき、文字列“C”に対応
する識別子。
する識別子。
2 接続線の数が3のとき、文字列“CH”に対
応する識別子。
応する識別子。
3 接続線の数が2のとき、文字列“CH2”に
対応する識別子。
対応する識別子。
4 接続線の数が1のとき、文字列“CH3”に
対応する識別子。
対応する識別子。
疑似ノード生成手段7は疑似ノードの抽出結果
として、端点の集合を包含する領域の位置座標、
疑似ノードの文字列の識別子および疑似ノードを
構成する接続線の数とそれらの接続線に対応する
領域情報番号を出力し、ノード記憶手段8に格納
する。
として、端点の集合を包含する領域の位置座標、
疑似ノードの文字列の識別子および疑似ノードを
構成する接続線の数とそれらの接続線に対応する
領域情報番号を出力し、ノード記憶手段8に格納
する。
ノード記憶手段8は、文字列と接続線から成る
真性ノードまたは接続線の交差で表された疑似ノ
ード(以下、両者を合わせてノードと呼ぶ)の情
報を記憶する機能を有する。即ち、ノード記憶手
段8は文字列生成手段5ないし疑似ノード生成手
段7によつて求まるノードの各々を第3図に示す
項目から成るノード情報13として記憶する。ノ
ード情報13のうち、ノード位置は真性ノードの
文字列の位置座標または疑似ノードにおける交差
した接続線の端点群が作る領域の位置座標、第1
文字列識別子ないし第n文字列識別子はノードに
存在する文字列の識別子、第1正誤フラグないし
第n正誤フラグはノードに存在する文字列が最終
的に解釈可能か否かを示す値、帰属接続線数はノ
ードに帰属する接続線の数、接続線番号群はノー
ドに帰属する接続線の領域情報番号である。文字
列生成手段5の出力する文字列領域の位置および
文字列の識別子はそれぞれノード位置および第1
文字列識別子の項目に格納される。文字列生成手
段5の出力した文字列の識別子が複数ある場合は
それらを第2文字列識別子ないし第n文字列識別
子の項目へ格納する。また真性ノード生成手段6
の出力する接続線の数と接続線の領域情報番号は
それぞれ帰属接続線数と接続線番号群の項目に格
納される。更に、疑似ノード生成手段7が出力す
る領域の位置座標、文字列の識別子、接続線の
数、領域情報番号はそれぞれノード位置、第1文
字列識別子、帰属接続線数、接続線番号群の項目
に格納される。ただし真性ノード生成手段6およ
び疑似ノード生成手段7が出力する接続線の数が
複数あるときは複数の領域情報番号が接続線番号
群の項目に格納される。
真性ノードまたは接続線の交差で表された疑似ノ
ード(以下、両者を合わせてノードと呼ぶ)の情
報を記憶する機能を有する。即ち、ノード記憶手
段8は文字列生成手段5ないし疑似ノード生成手
段7によつて求まるノードの各々を第3図に示す
項目から成るノード情報13として記憶する。ノ
ード情報13のうち、ノード位置は真性ノードの
文字列の位置座標または疑似ノードにおける交差
した接続線の端点群が作る領域の位置座標、第1
文字列識別子ないし第n文字列識別子はノードに
存在する文字列の識別子、第1正誤フラグないし
第n正誤フラグはノードに存在する文字列が最終
的に解釈可能か否かを示す値、帰属接続線数はノ
ードに帰属する接続線の数、接続線番号群はノー
ドに帰属する接続線の領域情報番号である。文字
列生成手段5の出力する文字列領域の位置および
文字列の識別子はそれぞれノード位置および第1
文字列識別子の項目に格納される。文字列生成手
段5の出力した文字列の識別子が複数ある場合は
それらを第2文字列識別子ないし第n文字列識別
子の項目へ格納する。また真性ノード生成手段6
の出力する接続線の数と接続線の領域情報番号は
それぞれ帰属接続線数と接続線番号群の項目に格
納される。更に、疑似ノード生成手段7が出力す
る領域の位置座標、文字列の識別子、接続線の
数、領域情報番号はそれぞれノード位置、第1文
字列識別子、帰属接続線数、接続線番号群の項目
に格納される。ただし真性ノード生成手段6およ
び疑似ノード生成手段7が出力する接続線の数が
複数あるときは複数の領域情報番号が接続線番号
群の項目に格納される。
次に、制御部11はノード検証手段10を起動
し、文字列生成手段5ないし疑似ノード生成手段
7によつて抽出されたノードの検証を行う。化学
構造図式に出現する文字列は物質の原子の集団の
表記であり、各原子群が他の原子群と結合する結
合子の数は化学的に定まつているため、各文字列
に接続する接続線の数も定まつている。ノード構
成規則記憶手段9は化学構造図式に出現する文字
列に接続する接続線の許容数を第4図に示すノー
ド構成規則14として記憶する機能である。ノー
ド構成規則14のうち、許容文字列識別子は化学
構造図式に出現するノードの文字列の識別子、許
容接続線数は該許容文字列識別子を持つ文字列に
接続が許される接続線の数である。尚、本機能は
ROM等の固定記憶機能または通信回線を介して
書き換え可能な記憶機能によつて実現できる。
し、文字列生成手段5ないし疑似ノード生成手段
7によつて抽出されたノードの検証を行う。化学
構造図式に出現する文字列は物質の原子の集団の
表記であり、各原子群が他の原子群と結合する結
合子の数は化学的に定まつているため、各文字列
に接続する接続線の数も定まつている。ノード構
成規則記憶手段9は化学構造図式に出現する文字
列に接続する接続線の許容数を第4図に示すノー
ド構成規則14として記憶する機能である。ノー
ド構成規則14のうち、許容文字列識別子は化学
構造図式に出現するノードの文字列の識別子、許
容接続線数は該許容文字列識別子を持つ文字列に
接続が許される接続線の数である。尚、本機能は
ROM等の固定記憶機能または通信回線を介して
書き換え可能な記憶機能によつて実現できる。
ノード検証手段10はノード構成規則記憶手段
9に登録されたノード構成規則14に従つてノー
ド記憶手段8中のノードの検証を行う機能を有す
る。即ち、ノード検証手段10はまずノード記憶
手段8中の各ノード情報についてその第1文字列
識別子Dと帰属接続線数Nを参照する。次にノー
ド構成規則記憶手段9より第1文字列識別子Dと
一致する許容文字列識別子を持つノード構成規則
を探し、許容接続線数Mを求める。この許容接続
線数Mと帰属接続線数Nが一致するときは、第1
文字列識別子Dを有する文字列が解釈可能である
ことを示す値TRUEを、また一致しないときは
解釈不可能であることを示す値FALSEをノード
情報13の第1正誤フラグの項目に格納する。第
2文字列識別子ないし第n文字列識別子が存在す
る場合は、その各々の第k文字列識別子(k=
2,3,……,n)を有する文字列が解釈可能か
否かを同様にして判定し、結果を第k正誤フラグ
に格納する。
9に登録されたノード構成規則14に従つてノー
ド記憶手段8中のノードの検証を行う機能を有す
る。即ち、ノード検証手段10はまずノード記憶
手段8中の各ノード情報についてその第1文字列
識別子Dと帰属接続線数Nを参照する。次にノー
ド構成規則記憶手段9より第1文字列識別子Dと
一致する許容文字列識別子を持つノード構成規則
を探し、許容接続線数Mを求める。この許容接続
線数Mと帰属接続線数Nが一致するときは、第1
文字列識別子Dを有する文字列が解釈可能である
ことを示す値TRUEを、また一致しないときは
解釈不可能であることを示す値FALSEをノード
情報13の第1正誤フラグの項目に格納する。第
2文字列識別子ないし第n文字列識別子が存在す
る場合は、その各々の第k文字列識別子(k=
2,3,……,n)を有する文字列が解釈可能か
否かを同様にして判定し、結果を第k正誤フラグ
に格納する。
以上の処理によつて化学構造図式の認識が終了
し、ノード記憶手段8に認識結果が求まる。即
ち、ノード記憶手段8のノード情報について、第
k正誤フラグがTRUEであような第k文字列識
別子に対応した文字列がノード位置の示す画像上
の位置に存在し、その文字列には帰属接続線数が
示す数の接続線がつながつており、それらの接続
線は接続線番号群が示す領域情報番号によつて特
定される接続線であることが認識される。また
TRUEを有する正誤フラグが複数ある場合は幾
つかの解釈が可能であることを示し、TRUEを
有する正誤フラグがない場合は文字認識手段4が
誤つた認識を行つたことを示している。
し、ノード記憶手段8に認識結果が求まる。即
ち、ノード記憶手段8のノード情報について、第
k正誤フラグがTRUEであような第k文字列識
別子に対応した文字列がノード位置の示す画像上
の位置に存在し、その文字列には帰属接続線数が
示す数の接続線がつながつており、それらの接続
線は接続線番号群が示す領域情報番号によつて特
定される接続線であることが認識される。また
TRUEを有する正誤フラグが複数ある場合は幾
つかの解釈が可能であることを示し、TRUEを
有する正誤フラグがない場合は文字認識手段4が
誤つた認識を行つたことを示している。
以下に具体的な認識例について図面を用いて詳
述する。第5図aは化学構造図式の一部の例であ
る。同図においては説明のため15ないし22の
番号を付加しており、また同図に示したように右
方向をX軸、下方向をY軸とした座標系を設定し
ている。画像入力手段1が第5図aの画像を入力
し記憶した後、領域分類手段2は領域の分類を行
い、第5図aの15ないし22で示した8つの領
域を抽出する。この結果、第5図bに示す8つの
領域情報r15ないしr22を連結領域記憶手段
3に格納する。領域情報r15は第5図aの15
に対応した領域の領域情報であり、r16ないし
r22も同様である。領域情報r15ないしr2
2は第2図の領域情報12の具体例であり、領域
位置として領域の外接矩形の左上と右下の点の座
標を用いている。また領域種別の項目として、文
字領域には1、接続線領域には0を格納してい
る。例えば領域情報r15は、座標(75,32)を
左上,座標(82,43)を右下とする矩形内の領域
であり、その領域は文字領域であることを示して
いる。ただし第5図bにおいてr15ないしr1
7の文字識別子の項目が空でないが、この時点で
はなにも格納されていない。また、領域情報r1
8ないしr22に格納された方向値には、接続線
がX軸となす角度を用いている。例えば領域情報
r20は、座標(40,40)を左上、座標(70,
50)を右下とする矩形内の領域であり、その領域
は接続線領域で、接続線の方向はX軸に対して
160度、2つの端点の座標は(40,50)と(70,
40)であることを示している。
述する。第5図aは化学構造図式の一部の例であ
る。同図においては説明のため15ないし22の
番号を付加しており、また同図に示したように右
方向をX軸、下方向をY軸とした座標系を設定し
ている。画像入力手段1が第5図aの画像を入力
し記憶した後、領域分類手段2は領域の分類を行
い、第5図aの15ないし22で示した8つの領
域を抽出する。この結果、第5図bに示す8つの
領域情報r15ないしr22を連結領域記憶手段
3に格納する。領域情報r15は第5図aの15
に対応した領域の領域情報であり、r16ないし
r22も同様である。領域情報r15ないしr2
2は第2図の領域情報12の具体例であり、領域
位置として領域の外接矩形の左上と右下の点の座
標を用いている。また領域種別の項目として、文
字領域には1、接続線領域には0を格納してい
る。例えば領域情報r15は、座標(75,32)を
左上,座標(82,43)を右下とする矩形内の領域
であり、その領域は文字領域であることを示して
いる。ただし第5図bにおいてr15ないしr1
7の文字識別子の項目が空でないが、この時点で
はなにも格納されていない。また、領域情報r1
8ないしr22に格納された方向値には、接続線
がX軸となす角度を用いている。例えば領域情報
r20は、座標(40,40)を左上、座標(70,
50)を右下とする矩形内の領域であり、その領域
は接続線領域で、接続線の方向はX軸に対して
160度、2つの端点の座標は(40,50)と(70,
40)であることを示している。
第2に文字認識手段4が文字認識を行う。即
ち、連結領域記憶手段3中の領域情報のうち領域
種別1である領域情報r15ないしr17の各々
について、領域位置に示れた位置の画像を画像入
力手段1から切出し、認識を行い、その結果を第
5図bのように領域情報r15ないしr17の文
字識別子の項目に格納する。文字識別子には説明
の簡単のため、認識した文字カテゴリそのものを
用いている。即ち、領域15の認識結果は第1位
候補がCで第2位候補が0、領域16は第1位候
補がNで第2位候補がH、領域17は第1位候補
が2で第2位候補が3であることを示している。
ち、連結領域記憶手段3中の領域情報のうち領域
種別1である領域情報r15ないしr17の各々
について、領域位置に示れた位置の画像を画像入
力手段1から切出し、認識を行い、その結果を第
5図bのように領域情報r15ないしr17の文
字識別子の項目に格納する。文字識別子には説明
の簡単のため、認識した文字カテゴリそのものを
用いている。即ち、領域15の認識結果は第1位
候補がCで第2位候補が0、領域16は第1位候
補がNで第2位候補がH、領域17は第1位候補
が2で第2位候補が3であることを示している。
第3に、文字認識手段4によつて抽出された文
字候補群より、文字列生成手段5がが化学構造図
式に許容された文字列の抽出を行う。ここで説明
を簡単にするため化学構造図式に許容された文字
列を、CH3,CH2,CH,C,CNの5つとし、
対応する文字列識別子をそれぞれα,β,γ,
δ,εとする。まず文字列生成手段5は領域情報
r15ないしr22の領域種別と領域位置を参照
して互いに隣接する文字領域を抽出し、文字領域
15,16,17から成る文字列領域Mを求め
る。次に、文字領域15ないし17が有する文字
識別子より生成可能な3文字から成る文字列、即
ちCN2,CN3,CH2,CH3,ON2,ON3,
OH2,OH3の8つを仮定し、この中から化学構
造図式に許容された文字列であるCH3とCH2を選
択する。これにより得られた文字列を第6図aに
示すようにノード記憶手段8へノード情報23と
して格納する。即ち、文字列領域Mの外接矩形を
3つの文字領域15,16,17を包含する外接
矩形として求め、文字列領域Mの外接矩形の左上
と右下の点の座標をノード情報23のノード位置
の項目へ格納すると共に、得られた文字列CH3
とCH2に対応した文字列識別子αとβをそれぞ
れノード情報23の第1文字列識別子と第2文字
列識別子の項目へ格納する。これにより書かれた
文字列がCH3又はCH2であることが抽出される。
字候補群より、文字列生成手段5がが化学構造図
式に許容された文字列の抽出を行う。ここで説明
を簡単にするため化学構造図式に許容された文字
列を、CH3,CH2,CH,C,CNの5つとし、
対応する文字列識別子をそれぞれα,β,γ,
δ,εとする。まず文字列生成手段5は領域情報
r15ないしr22の領域種別と領域位置を参照
して互いに隣接する文字領域を抽出し、文字領域
15,16,17から成る文字列領域Mを求め
る。次に、文字領域15ないし17が有する文字
識別子より生成可能な3文字から成る文字列、即
ちCN2,CN3,CH2,CH3,ON2,ON3,
OH2,OH3の8つを仮定し、この中から化学構
造図式に許容された文字列であるCH3とCH2を選
択する。これにより得られた文字列を第6図aに
示すようにノード記憶手段8へノード情報23と
して格納する。即ち、文字列領域Mの外接矩形を
3つの文字領域15,16,17を包含する外接
矩形として求め、文字列領域Mの外接矩形の左上
と右下の点の座標をノード情報23のノード位置
の項目へ格納すると共に、得られた文字列CH3
とCH2に対応した文字列識別子αとβをそれぞ
れノード情報23の第1文字列識別子と第2文字
列識別子の項目へ格納する。これにより書かれた
文字列がCH3又はCH2であることが抽出される。
第4に真性ノード生成手段6が文字列に接続す
る接続線を抽出し、文字列と接続線から成る真性
ノードを生成する。ここで前記の文字列と接続線
の端点との距離の許容値T1を例えば10とする。
まずノード記憶手段8中のノード情報23に対し
て、そのノード位置(75,32,101,48)を参照
し、この外接矩形から距離10以内にある端点を有
する接続線を連結領域記憶手段3の領域情報から
探索する。この結果2つの接続線領域18と20
が求まり、真性ノード生成手段6はその領域情報
番号r18とr20をノード情報23の接続線番
号群の項目へ、また接続線の数2を帰属接続線数
の項目へ書込む。この結果を第6図bに示す。こ
れによりノード情報23の示すノードに2つの接
続線領域18と20がつながつていることが抽出
される。
る接続線を抽出し、文字列と接続線から成る真性
ノードを生成する。ここで前記の文字列と接続線
の端点との距離の許容値T1を例えば10とする。
まずノード記憶手段8中のノード情報23に対し
て、そのノード位置(75,32,101,48)を参照
し、この外接矩形から距離10以内にある端点を有
する接続線を連結領域記憶手段3の領域情報から
探索する。この結果2つの接続線領域18と20
が求まり、真性ノード生成手段6はその領域情報
番号r18とr20をノード情報23の接続線番
号群の項目へ、また接続線の数2を帰属接続線数
の項目へ書込む。この結果を第6図bに示す。こ
れによりノード情報23の示すノードに2つの接
続線領域18と20がつながつていることが抽出
される。
第5に疑似ノード生成手段7が接続線の交差に
より作られた疑似ノードを抽出する。ここで前記
の交差点における端点間の距離の許容値T2を例
えば15とする。疑似ノード生成手段7は連結領域
記憶手段3中の接続線を示す領域情報r18ない
しr22の端点座標を参照し、端点間相互の距離
が15以下であるような端点の集合を求める。これ
により座標(40,50)の接続線領域19の端点、
座標(40,50)の接続線領域20の端点、座標
(30,47)の接続線領域21の端点、座標(40,
50)の接続線領域22の端点の4つの端点から成
る集合S1と、座標(31,79)の接続線領域21
の端点、座標(41,80)の接続線領域22の端点
の2つの端点から成る集合S2が抽出される。ま
た集合S1とS2の各々に対応して、それぞれ、
接続線領域19ないし22から成る接続線の集合
L1と接続線領域21と22から成る接続線の集
合L2が求まる。次に疑似ノード生成手段7は、
接続線の集合L1とL2の各々が疑似ノードを構
成するか否かを判定する。まずL1に含まれるる
接続線領域19ないし22の方向値を連結領域記
憶手段3から求め、値20,160,90,90を得る。
前記の方向値の類似性の許容値T3を例えば10と
すとこれらの値全てが類似してはいないので、接
続線の集合L1は疑似ノードを構成すると判定す
る。一方、L2の接続線領域21と22の方向値
はいずれも90であることより、集合L2は疑似ノ
ードを構成しないと判定される。次に、疑似ノー
ドを構成すると判定した接続線の集合L2に対し
て疑似ノード生成手段7はその接続線の数より疑
似ノードに存在する文字列を前記のようにして決
定する。。即ち、いまL1の接続線の数は4であ
るから文字列はCであるとし、文字列Cに対応し
た文字列識別子δを求める。結果として疑似ノー
ド生成手段7は、第6図cに示すようにノード記
憶手段8内でノード情報24を生成し、そのノー
ド位置の項目に集合S1の端点を包含する外接矩
形の座標(左上が(30,47)、右下が(40,50))
を、帰属接続線数の項目に接続線の数4を、接続
線番号群の項目に集合L1の接続線の領域情報番
号であるr19ないしr22を、第1文字列識別
子にδを書込む。
より作られた疑似ノードを抽出する。ここで前記
の交差点における端点間の距離の許容値T2を例
えば15とする。疑似ノード生成手段7は連結領域
記憶手段3中の接続線を示す領域情報r18ない
しr22の端点座標を参照し、端点間相互の距離
が15以下であるような端点の集合を求める。これ
により座標(40,50)の接続線領域19の端点、
座標(40,50)の接続線領域20の端点、座標
(30,47)の接続線領域21の端点、座標(40,
50)の接続線領域22の端点の4つの端点から成
る集合S1と、座標(31,79)の接続線領域21
の端点、座標(41,80)の接続線領域22の端点
の2つの端点から成る集合S2が抽出される。ま
た集合S1とS2の各々に対応して、それぞれ、
接続線領域19ないし22から成る接続線の集合
L1と接続線領域21と22から成る接続線の集
合L2が求まる。次に疑似ノード生成手段7は、
接続線の集合L1とL2の各々が疑似ノードを構
成するか否かを判定する。まずL1に含まれるる
接続線領域19ないし22の方向値を連結領域記
憶手段3から求め、値20,160,90,90を得る。
前記の方向値の類似性の許容値T3を例えば10と
すとこれらの値全てが類似してはいないので、接
続線の集合L1は疑似ノードを構成すると判定す
る。一方、L2の接続線領域21と22の方向値
はいずれも90であることより、集合L2は疑似ノ
ードを構成しないと判定される。次に、疑似ノー
ドを構成すると判定した接続線の集合L2に対し
て疑似ノード生成手段7はその接続線の数より疑
似ノードに存在する文字列を前記のようにして決
定する。。即ち、いまL1の接続線の数は4であ
るから文字列はCであるとし、文字列Cに対応し
た文字列識別子δを求める。結果として疑似ノー
ド生成手段7は、第6図cに示すようにノード記
憶手段8内でノード情報24を生成し、そのノー
ド位置の項目に集合S1の端点を包含する外接矩
形の座標(左上が(30,47)、右下が(40,50))
を、帰属接続線数の項目に接続線の数4を、接続
線番号群の項目に集合L1の接続線の領域情報番
号であるr19ないしr22を、第1文字列識別
子にδを書込む。
最後に、制御部11はノード検証手段10を起
動し、ノード記憶手段8内に抽出されているノー
ド情報23と24を検証する。ノード構成規則記
憶手段9には第7図に示したノード構成規則25
ないし29を記憶しておく。第7図のノード構成
規則25ないし29は第4図のノード構成規即1
4の具体例であり、文字列識別子にαを持つ文字
列には接続線が4本、文字列識別子にβを持つ文
字列には接続線が3本、文字列識別子にγを持つ
文字列には接続線が2本、文字列識別子δを持つ
文字列には接続線が1本、文字列識別子にεを持
つ文字列には接続線が3本許容されることを示し
ている。ノード検証手段10は第7図のノード構
成規則25ないし29に従つてノード情報23と
24を検証する。まずノード情報23の第1文字
列識別子はα、接続線の数は2であるが、ノード
構成規則25に従うと接続線の数は1でなくては
ならない。従つて文字列識別子αを持つ文字列
CH3には解釈不可能であるので、値FALSEをノ
ード情報23の第1正誤フラグに書込む。一方ノ
ード情報23の第2文字列識別子はβであり、こ
れはノード構成規則26に一致する。従つて文字
列識別子βを持つ文字列CH2に解釈可能である
のでノード検証手段10は値TRUEをノード情
報23の第2正誤フラグに書込む。同様にしてノ
ード情報24を検証し、その結果として値
TRUEをノード情報24の第1正誤フラグに書
込む。この様子を第6図dに示す。
動し、ノード記憶手段8内に抽出されているノー
ド情報23と24を検証する。ノード構成規則記
憶手段9には第7図に示したノード構成規則25
ないし29を記憶しておく。第7図のノード構成
規則25ないし29は第4図のノード構成規即1
4の具体例であり、文字列識別子にαを持つ文字
列には接続線が4本、文字列識別子にβを持つ文
字列には接続線が3本、文字列識別子にγを持つ
文字列には接続線が2本、文字列識別子δを持つ
文字列には接続線が1本、文字列識別子にεを持
つ文字列には接続線が3本許容されることを示し
ている。ノード検証手段10は第7図のノード構
成規則25ないし29に従つてノード情報23と
24を検証する。まずノード情報23の第1文字
列識別子はα、接続線の数は2であるが、ノード
構成規則25に従うと接続線の数は1でなくては
ならない。従つて文字列識別子αを持つ文字列
CH3には解釈不可能であるので、値FALSEをノ
ード情報23の第1正誤フラグに書込む。一方ノ
ード情報23の第2文字列識別子はβであり、こ
れはノード構成規則26に一致する。従つて文字
列識別子βを持つ文字列CH2に解釈可能である
のでノード検証手段10は値TRUEをノード情
報23の第2正誤フラグに書込む。同様にしてノ
ード情報24を検証し、その結果として値
TRUEをノード情報24の第1正誤フラグに書
込む。この様子を第6図dに示す。
以上の処理により第5図aの化学構造図式が認
識され、ノード記憶手段8内に結果が得られる。
即ち、座標(75,32)を左上、座標(101,48)
を右下とするる外接矩形内に文字列識別子βに対
応する文字列CH2があり、領域情報r18とr
20で示される2つの接続線を持つことが抽出さ
れている。また同時に座標(30,47)を左上、座
標(40,50)を右下とする外接矩形内に文字列識
別子δに対応する文字列Cがあり、領域情報r1
9ないしr22で示される4つの接続線を有する
ことが抽出されている。
識され、ノード記憶手段8内に結果が得られる。
即ち、座標(75,32)を左上、座標(101,48)
を右下とするる外接矩形内に文字列識別子βに対
応する文字列CH2があり、領域情報r18とr
20で示される2つの接続線を持つことが抽出さ
れている。また同時に座標(30,47)を左上、座
標(40,50)を右下とする外接矩形内に文字列識
別子δに対応する文字列Cがあり、領域情報r1
9ないしr22で示される4つの接続線を有する
ことが抽出されている。
以上の説明では化学構造図式に許容される文字
列としてCH3,CH2,CH,C,CNのみを考え
たが、文字列生成手段5に登録する文字列規則の
種類とノード構成規則記憶手段9に登録するノー
ド構成規則を追加することによつて、他の文字列
についても同様に認識できることは明らかであ
る。
列としてCH3,CH2,CH,C,CNのみを考え
たが、文字列生成手段5に登録する文字列規則の
種類とノード構成規則記憶手段9に登録するノー
ド構成規則を追加することによつて、他の文字列
についても同様に認識できることは明らかであ
る。
(発明の効果)
以上説明したように、本化学構造図式認識方式
によれば文字列生成手段5が、文字認識手段4の
抽出した文字候補より化学構造図式に許容された
文字列のみを抽出するため、文字認識手段4が正
解を第1位に挙げなかつた場合にも解釈可能な文
字列を選択することができる。また文字列生成手
段5ないし疑似ノード生成手段7によつて抽出さ
れたノードを、ノード検証手段10がその文字列
の種類と文字列に接続する接続線の数に基づいて
検証するため、文字列生成手段5において唯一の
文字列に定められない場合にも解釈可能な文字列
を選択することができ、ひいては文字認識手段4
の文字認識能力を補うことができる。従つて文字
を認識することが重要な化学構造図式の認識にお
いて、文字認識方式で完全な解が求まらなかつた
場合でも周囲の接続線の状況より文字認識の結果
を補つて化学構造図式を認識することが実現され
る。
によれば文字列生成手段5が、文字認識手段4の
抽出した文字候補より化学構造図式に許容された
文字列のみを抽出するため、文字認識手段4が正
解を第1位に挙げなかつた場合にも解釈可能な文
字列を選択することができる。また文字列生成手
段5ないし疑似ノード生成手段7によつて抽出さ
れたノードを、ノード検証手段10がその文字列
の種類と文字列に接続する接続線の数に基づいて
検証するため、文字列生成手段5において唯一の
文字列に定められない場合にも解釈可能な文字列
を選択することができ、ひいては文字認識手段4
の文字認識能力を補うことができる。従つて文字
を認識することが重要な化学構造図式の認識にお
いて、文字認識方式で完全な解が求まらなかつた
場合でも周囲の接続線の状況より文字認識の結果
を補つて化学構造図式を認識することが実現され
る。
第1図は本発明を用いた化学構造図式認識方式
の機能を示す論理ブロツク図であり、第2図は連
結領域記憶手段3に格納される領域情報の形式、
第3図はノード記憶手段8に格納されるノード情
報の形式、第4図はノード構成規則記憶手段9に
格納するノード構成規則の形式、第5図は入力さ
れる化学構造図式の一部の例と抽出された領域情
報の例、第6図は第5図から抽出されるノード情
報、第7図はノード構成規則の一具体例である。 1は化学構造図式の描かれた紙面を走査して画
像を入力し記憶する画像入力手段、2は画像入力
手段1に記憶された画像を文字領域と直線領域に
分類する領域分類手段、3は領域分類手段2によ
つて分類された領域の属性を記憶する連結領域記
憶手段、4は文字領域に対応した画像を画像入力
手段1から切出して文字認識を行いその候補を求
める文字認識手段、5は文字候補群から化学構造
図式に許容される文字列をノード記憶手段8内に
生成する文字列生成手段、6はノード記憶手段8
内の文字列に接続する接続線を検出し文字列と接
続線から成る真性ノードを生成する真性ノード生
成手段、7は接続線の交差で表現された疑似ノー
ドを生成する疑似ノード生成手段、8は真性ノー
ドおよび疑似ノードの情報を記憶するノード記憶
手段、9はノードの文字列の種類に応じて許容さ
れる接続線の数をノード構成規則として記憶する
ノード構成規則記憶手段、10はノード構成規則
記憶手段9のノード構成規則に従つて前記ノード
記憶手段中のノードの検証を行のノード検証手
段、11は画像入力手段1ないしノード検証手段
10を制御し一連の処理を司どる制御部である。
の機能を示す論理ブロツク図であり、第2図は連
結領域記憶手段3に格納される領域情報の形式、
第3図はノード記憶手段8に格納されるノード情
報の形式、第4図はノード構成規則記憶手段9に
格納するノード構成規則の形式、第5図は入力さ
れる化学構造図式の一部の例と抽出された領域情
報の例、第6図は第5図から抽出されるノード情
報、第7図はノード構成規則の一具体例である。 1は化学構造図式の描かれた紙面を走査して画
像を入力し記憶する画像入力手段、2は画像入力
手段1に記憶された画像を文字領域と直線領域に
分類する領域分類手段、3は領域分類手段2によ
つて分類された領域の属性を記憶する連結領域記
憶手段、4は文字領域に対応した画像を画像入力
手段1から切出して文字認識を行いその候補を求
める文字認識手段、5は文字候補群から化学構造
図式に許容される文字列をノード記憶手段8内に
生成する文字列生成手段、6はノード記憶手段8
内の文字列に接続する接続線を検出し文字列と接
続線から成る真性ノードを生成する真性ノード生
成手段、7は接続線の交差で表現された疑似ノー
ドを生成する疑似ノード生成手段、8は真性ノー
ドおよび疑似ノードの情報を記憶するノード記憶
手段、9はノードの文字列の種類に応じて許容さ
れる接続線の数をノード構成規則として記憶する
ノード構成規則記憶手段、10はノード構成規則
記憶手段9のノード構成規則に従つて前記ノード
記憶手段中のノードの検証を行のノード検証手
段、11は画像入力手段1ないしノード検証手段
10を制御し一連の処理を司どる制御部である。
Claims (1)
- 1 紙面上に記録された図面を走査して得られた
画像を文字領域と直線領域に分類すると共に分類
された該領域群の属性を記憶する手段と、該領域
群のうち文字領域と判定された領域の文字の認識
を行いその候補を求める文字認識手段と、該文字
認識手段によつて抽出された文字候補群から化学
構造図式に許容される文字列を生成する文字列生
成手段と、該文字列生成手段によつて生成された
文字列に接続する接続線を検出し文字列と接続線
から成る真性ノードを生成する真性ノード生成手
段と、接続線の交差で表現された疑似ノードを生
成する疑似ノード生成手段と、真性ノードおよび
疑似ノードの情報を記憶するノード記憶手段と、
ノードの文字列の種類に応じて許容される接続線
の数をノード構成規則として記憶するノード構成
規則記憶手段と、該ノード構成規則記憶手段中の
ノード構成規則に従つて前記ノード記憶手段中の
ノードの検証を行うノード検証手段とを備え、化
学構造式の描かれた図面を認識する化学構造図式
認識方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61012382A JPS62169290A (ja) | 1986-01-22 | 1986-01-22 | 化学構造図式認識方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61012382A JPS62169290A (ja) | 1986-01-22 | 1986-01-22 | 化学構造図式認識方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS62169290A JPS62169290A (ja) | 1987-07-25 |
| JPH0481225B2 true JPH0481225B2 (ja) | 1992-12-22 |
Family
ID=11803717
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61012382A Granted JPS62169290A (ja) | 1986-01-22 | 1986-01-22 | 化学構造図式認識方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS62169290A (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5734586B2 (ja) * | 2010-07-12 | 2015-06-17 | 公益財団法人野口研究所 | 糖鎖構造認識用解析方法、糖鎖構造認識用解析装置およびプログラム |
| CN108062529B (zh) * | 2017-12-22 | 2024-01-12 | 上海鹰谷信息科技有限公司 | 一种化学结构式的智能识别方法 |
-
1986
- 1986-01-22 JP JP61012382A patent/JPS62169290A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS62169290A (ja) | 1987-07-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5907631A (en) | Document image processing method and system having function of determining body text region reading order | |
| Cordella et al. | Symbol recognition in documents: a collection of techniques? | |
| US7574428B2 (en) | Geometry-based search engine for navigation systems | |
| Cheng et al. | Recognition of handwritten Chinese characters by modified Hough transform techniques | |
| JP2009193603A (ja) | 走査された及びリアルタイムの手書き文字の識別を行う文字認識システム | |
| JPH0562391B2 (ja) | ||
| US20020188615A1 (en) | Apparatus and method for parametric group processing | |
| JPH0481225B2 (ja) | ||
| Ettinger | Hierachical Object Recognition Using Libraries of Parameterized Model Sub-Parts. | |
| Ablameyko et al. | A complete system for interpretation of color maps | |
| Ramesh | A generalized character recognition algorithm: a graphical approach | |
| JPH0689316A (ja) | シンボル認識システム | |
| JP2825072B2 (ja) | 文字列認識装置 | |
| JP3145071B2 (ja) | 文字認識方法および装置 | |
| JP2842263B2 (ja) | 住所読み取り装置 | |
| JPH01130293A (ja) | 文書画像解析方式 | |
| JPH03225579A (ja) | 文字パターン切り出し装置 | |
| JP3083609B2 (ja) | 情報処理装置及びそれを用いた文字認識装置 | |
| JPS61193276A (ja) | 文字列抽出方式 | |
| JPS6395587A (ja) | 文字図形認識方式 | |
| Wallack et al. | Efficient indexing techniques for model based sensing | |
| JP2685862B2 (ja) | 住所認識方法 | |
| JP2680311B2 (ja) | 文字認識方式 | |
| JPH067394B2 (ja) | パターン認識装置 | |
| JPH0527912B2 (ja) |