JPH02136956A

JPH02136956A - レイアウト情報の抽出方法

Info

Publication number: JPH02136956A
Application number: JP63289963A
Authority: JP
Inventors: Tetsuo Kiuchi; 木内　哲夫; Takeshi Enshi; 圓子　雄; Ichiro Ogura; 一郎小倉
Original assignee: Fuji Electric Co Ltd; Fuji Facom Corp
Current assignee: Fuji Electric Co Ltd; Fuji Facom Corp
Priority date: 1988-11-18
Filing date: 1988-11-18
Publication date: 1990-05-25

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、文字読取装置によるレイアウト情報の抽出方
法に関する。

〔従来の技術〕

通常の印刷文書は読む人がその意味内容を理解し易いよ
うに段落骨けしたり、箇条書きにしたりしてレイアウト
上の工夫がしてあり、このようなレイアウト情報は利用
者にとって重宝である。そこで、印刷文書を文字読取装
置にて入力する場合、例えば文頭の空白領域は文字読取
装置によって連続した空白としてテキストに変換し、そ
の文字数は空白領域の幅Ｗを文字幅りで割り算をして換
算するようにしている。

〔発明が解決しようとする課題］上述の方法には、以下のような難点がある。

■文頭の空白領域の幅は写植のときに必ずしも文字数で
指定されるとは限らず、ｍｍ単位で指定されることもあ
るが、この割り算の結果は一般的には割り切れない。

■例えば、数字「１」の幅は漢字「読」に比べて小さい
。したがって、横書き文書の場合、文頭に「１」がきた
場合は文頭に「読」がきた場合よりも空白領域の幅が大
きくなる。

■文字幅りの推定値は行毎に求めるため、互いに若干の
差異が生じる。

■例えば名簿などのように、途中の文字列位置が揃って
欲しい場合がある。

これらの理由により、文頭の空白の文字数は段落の中で
も一定にならず、文頭や行中１行末の揃った文書を入力
したにもか〜わらず、文字読取装置の利用者に対して文
頭１行中１行末の揃っていない文書が出力される結果と
なる。このため、文書の読み取りそのものには誤りがな
くても利用者は読み取った文書の編集作業をしなければ
ならず、文字読取装置の省力効果を充分に発揮している
とは云い難い、また、ワードプロセッサ、文官処理プロ
グラムは一般的に印刷文書を作成する写植機の有する全
ての機能を網羅しているわけではない。

特にレイアウト情報、フォント情報については限られた
機能しかサポートされていないのが現状である。

以上、要するに文字読取装置は文書の初期入力や既存文
書の再利用の際の省力化を目的としており、その理想は
読み取りの対象となる原稿からそのテキスト情報、レイ
アウト情報、フォント情報等もそっくりそのま一１再利
用可能な計算機情報に変換されることにあると云える。

しかるに、従来の文字読取装置にて行頭や行中の空白を
処理した場合、文頭や行中の文字が揃った文書を入力し
ても、行頭または行中文字の揃っていない文書が出力さ
れることがあるため、利用者は文字の読み取りそのもの
には誤りがなくても、読み取った文書の編集作業をしな
ければならず、省力効果が充分に生かされていないと云
う問題がある。

したがって、本発明は文字読取装置からレイアウト情報
を抽出できるようにすることを目的とする。

〔課題を解決するための手段〕

同一段落内で行頭または行中文字１行末を揃える必要の
ある場合としては、例えば箇条書きの場合がある。この
ような場合は、例えば（１）、（２）、　　（３）・・
・・・・、■、■、■・・・・・・のような記号または
記号列が多く用いられる。そこで、このような特徴的な
記号または記号列を辞書として記憶しておき、原稿の行
頭または行中にこれらの記号または記号列を検出したと
きは、その行頭まだは行中にそのことを示す情報、例え
ばタブ記号を挿入する。そして、文書が出力されるとき
に行頭または行中の位置が揃うように、このタブ記号を
一定の数の空白に起き換える。なお、名簿などでは「」
（空白）、「・・・・」などが特徴的な記号または記号
列となる。

〔作用〕

例えば、（１）、　　（２）、　　（３）・・・・・・
　（ａ）（ｂ）、（Ｃ）・・・・・・のような文頭に特
徴的な記号または記号列を検出することにより、文書の
読み取り結果を行単位でブロック化して行頭位置を制御
できるので、読取結果の出力文字列がそれを利用する装
置側で行頭の揃った文書として扱え、利用者はレイアウ
ト上の修正作業を省くことができ、省力効果が増大する
。

また、名簿などの場合は「」（空白）を特徴的な記号ま
たは記号列とすることで行中の文字位置を合わせること
ができ、原稿そのま＼のレイアウトで入力することが可
能となる。これにより、氏名、出身地、生年月日、住所
などのアイテムも同時に抽出することができ、データベ
ース化も容易になる。

〔実施例〕

図は本発明の詳細な説明するための説明図である。これ
は箇条書き文書の行頭に来る特徴的な記号または記号列
（以下、頭文字列とも云う、）の例を示し、文字読取装
置または計算機内のテーブルに辞書として記憶されるも
のである。なお、同図において、グループＧｌは括弧付
き数字（１）（２）、　　（３）・・・・・・の例、グ
ループＧ２は丸付き数字の■、■、■、■・・・・・・
の例、グループＧ３は実子文字ａ、ｂ、ｃ、ｄ・・・・
・・の例、グループＧ４は英大文字Ａ、Ｂ、Ｃ，Ｄ・・
・・・・の例、グループＧ５およびＧ６はそれぞれ記号
「■」、「・」の例である。

こ＼で、箇条書きの場合、「■」もｒ　（１）Ｊも使用
されるが、これらが混在して使用されることはない。し
かし、ｒ（１）１とｒ（２）１　は混在して使用される
。即ち、ｒ（１）　、　（２）　、　（３）　、　（４
）・・・」、「■、■。

■、■・・・」はそれぞれグループを形成する。一方、
「・」、「■」は単独でグループを形成する。そこで、
グループ同志の区別がつくようにグループには番号をつ
け、グループ内で序列の付くものであれば番号をつける
。ｍ）　、　（２）　、　（３）　、　（４）・・・」
では（１）の序列は１、（２）の序列は２である。［（
ａ）　、　（ｂ）　、　（ｃ）　、　（ｄ）　−Ｊでは
（ａ）の序列は１、（ｂ）の序列は２である。■の序列
は「■、■、■。

■・・・」では２、「■、◎、０．０・・・」では１で
ある。

また、グループＧ１に示すように、記号（列）ｒ（１）
」などはｒ（１）」１文字とも、または「（」　「ｌ）
」の２文字の組合わせとも、さらには’　（Ｊ　　’Ｉ
Ｊ　　’）　Ｊの３文字の組合わせとも認識しうる。こ
のように複数の文字列の組合わせがある場合、すべてを
記憶しておくこと＼する。但し、代表的な組合わせ方式
を１つ選んで分かるようにしておき、これを例えば組合
わせの先頭に置（。そして、文書から行を切り出す時に
行頭の空白領域の幅をそれぞれ物理量に変換可能な単位
（例えば、ｍｍ、ｐｏｉｎむ、ｄａｔ）で記憶し、これ
を行頭空白テーブルと呼ばれるテーブルに格納しておく
。

このようなテーブルを作成した後、認識結果の行頭の（
候補）文字列と頭文字列辞書とを比較し、一致するもの
があれば、行番号２頭文字列のグループ番号、グループ
内での序列を記憶する。文書もしくはページの中で同一
グループ番号の頭文字列が序列に従って出現する範囲を
調べ、ブロックと呼ぶ。どのグループにも属さない行を
集めてルートブロックと呼ぶ。ブロックは連続した複数
行で構成される。ｒＡ、Ｂ、Ｃ・・・」等は頭文字列と
して使用されていない場合でも行頭に来ることがあるの
で、序列に従わない場合や単独行の場合はブロックとは
しない。したがって、このような行は頭文字列が検出さ
れてもルートブロックに属する。なお、ルートブロック
は飛び飛びの行で構成されても良い。そして、同一ブロ
ック内の空白領域の幅を行頭空白テーブルから呼び出し
て平均をとり、行頭空白テーブルを書き換える。ルート
ブロックについても同様にする。また、認識結果のテキ
ストの行頭にはタブ記号を挿入しておく。

しかる後、文書が出力されるときには、テキストを利用
する装置において行頭の位置が揃うように各行の行頭の
タブ記号を置き換える。即ち、行頭の位置をｍｍ単位で
指定できる文書処理プログラムであればそのフォーマッ
トに従ってタブ変換し、空白の数でしか行頭の位置を指
定できないワードプロセッサであれば、行頭空白テーブ
ルを参照して文書もしくはページで一定の文字幅によっ
て一定の数の空白に、変換する。ブロック内の頭文字列
のない行は、頭文字列を有する行よりも段を下げる。こ
のために挿入する空白の数は、頭文字列辞書における代
表組合せの文字数に一致させる。

以上が行頭の場合であり、例えば名簿などでは［」（空
白）を着目記号とし、タブを付けて整列することになる
。なお、行中２行末についても必要に応じて上記と同様
の処理が可能であることは云う迄もない。

〔発明の効果〕

文書の行頭または行中３行末に特徴的な記号または記号
列、例えば（１）、（２）、（３）・・・・・・（ａ）
、（ｂ）、（ｃ）・・・・・・　「」（空白）のような
記号または記号列を辞書テーブルに記憶しておき、読取
結果の行頭または行中の（候補）文字または文字列を辞
書と比較することにより、文書中の例えば箇条書きの部
分を検出することができる。これにより、文書の読取結
果を行単位でブロック化することができ、ブロック単位
で行頭位置１行中位置１行末位置を制御できるので、読
取結果の出力文字列をそれを利用する装置側で行頭。

行中３行末の揃った文書として扱うことが可能となる。

その結果、利用者はレイアウト上の修正作業を省くこと
ができ、省力効果が増大すると云う利点がもたらされる
。

【図面の簡単な説明】

図は本発明による方法を説明するための説明図である。符号説明０１〜Ｇ５・・・・・・記号または記号列グループ。代理人　弁理士　並　木　昭　夫代理人　弁理士　松　崎　　　清手続補正書（方式）１、事件の表示士田文毅殿昭和６３年特許願第２８９９６３号２、発明の名称レイアウト情報の抽出方法３、補正をする者事件との関係　　特許出願人住　所　川崎市川崎区田辺新田ｌ＠１号名　称　（５２
３）富士電機株式会社４、代　理　人　８１０５　　電話０３　（５８０）　
９５１３５、補正命令の日付６、補正の対象（ほか１名）昭和６３年１２月２０日明細書および図面７、補正の内容（１）明細書第６頁第２行（発明の詳細な説明の欄）に
おいて「図は」とあるのを「第１図は」に訂正し、同じ
く明細書第１０頁第１５行（図面の簡単な説明の欄）に
おいて「回は」とあるのを「第１図は」に訂正する。（２）図面を別紙のとおり補正する（すなわち、従来の
図面を、図面の全体にかけて第１図と図番号を付した図
面に補正する。１図

Claims

【特許請求の範囲】

予め定義された特徴的な記号または記号列を記憶してお
き、読み取りの対象となる文書中に該記憶された記号ま
たは記号列を検出したときは、それと対応する位置にそ
のことを示す所定の情報を発生し、これを文書レイアウ
トのための情報として利用可能にしてなることを特徴と
するレイアウト情報の抽出方法。