JPH02136956A - レイアウト情報の抽出方法 - Google Patents
レイアウト情報の抽出方法Info
- Publication number
- JPH02136956A JPH02136956A JP63289963A JP28996388A JPH02136956A JP H02136956 A JPH02136956 A JP H02136956A JP 63289963 A JP63289963 A JP 63289963A JP 28996388 A JP28996388 A JP 28996388A JP H02136956 A JPH02136956 A JP H02136956A
- Authority
- JP
- Japan
- Prior art keywords
- line
- document
- beginning
- head
- lines
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、文字読取装置によるレイアウト情報の抽出方
法に関する。
法に関する。
通常の印刷文書は読む人がその意味内容を理解し易いよ
うに段落骨けしたり、箇条書きにしたりしてレイアウト
上の工夫がしてあり、このようなレイアウト情報は利用
者にとって重宝である。そこで、印刷文書を文字読取装
置にて入力する場合、例えば文頭の空白領域は文字読取
装置によって連続した空白としてテキストに変換し、そ
の文字数は空白領域の幅Wを文字幅りで割り算をして換
算するようにしている。
うに段落骨けしたり、箇条書きにしたりしてレイアウト
上の工夫がしてあり、このようなレイアウト情報は利用
者にとって重宝である。そこで、印刷文書を文字読取装
置にて入力する場合、例えば文頭の空白領域は文字読取
装置によって連続した空白としてテキストに変換し、そ
の文字数は空白領域の幅Wを文字幅りで割り算をして換
算するようにしている。
〔発明が解決しようとする課題]
上述の方法には、以下のような難点がある。
■文頭の空白領域の幅は写植のときに必ずしも文字数で
指定されるとは限らず、mm単位で指定されることもあ
るが、この割り算の結果は一般的には割り切れない。
指定されるとは限らず、mm単位で指定されることもあ
るが、この割り算の結果は一般的には割り切れない。
■例えば、数字「1」の幅は漢字「読」に比べて小さい
。したがって、横書き文書の場合、文頭に「1」がきた
場合は文頭に「読」がきた場合よりも空白領域の幅が大
きくなる。
。したがって、横書き文書の場合、文頭に「1」がきた
場合は文頭に「読」がきた場合よりも空白領域の幅が大
きくなる。
■文字幅りの推定値は行毎に求めるため、互いに若干の
差異が生じる。
差異が生じる。
■例えば名簿などのように、途中の文字列位置が揃って
欲しい場合がある。
欲しい場合がある。
これらの理由により、文頭の空白の文字数は段落の中で
も一定にならず、文頭や行中1行末の揃った文書を入力
したにもか〜わらず、文字読取装置の利用者に対して文
頭1行中1行末の揃っていない文書が出力される結果と
なる。このため、文書の読み取りそのものには誤りがな
くても利用者は読み取った文書の編集作業をしなければ
ならず、文字読取装置の省力効果を充分に発揮している
とは云い難い、また、ワードプロセッサ、文官処理プロ
グラムは一般的に印刷文書を作成する写植機の有する全
ての機能を網羅しているわけではない。
も一定にならず、文頭や行中1行末の揃った文書を入力
したにもか〜わらず、文字読取装置の利用者に対して文
頭1行中1行末の揃っていない文書が出力される結果と
なる。このため、文書の読み取りそのものには誤りがな
くても利用者は読み取った文書の編集作業をしなければ
ならず、文字読取装置の省力効果を充分に発揮している
とは云い難い、また、ワードプロセッサ、文官処理プロ
グラムは一般的に印刷文書を作成する写植機の有する全
ての機能を網羅しているわけではない。
特にレイアウト情報、フォント情報については限られた
機能しかサポートされていないのが現状である。
機能しかサポートされていないのが現状である。
以上、要するに文字読取装置は文書の初期入力や既存文
書の再利用の際の省力化を目的としており、その理想は
読み取りの対象となる原稿からそのテキスト情報、レイ
アウト情報、フォント情報等もそっくりそのま一1再利
用可能な計算機情報に変換されることにあると云える。
書の再利用の際の省力化を目的としており、その理想は
読み取りの対象となる原稿からそのテキスト情報、レイ
アウト情報、フォント情報等もそっくりそのま一1再利
用可能な計算機情報に変換されることにあると云える。
しかるに、従来の文字読取装置にて行頭や行中の空白を
処理した場合、文頭や行中の文字が揃った文書を入力し
ても、行頭または行中文字の揃っていない文書が出力さ
れることがあるため、利用者は文字の読み取りそのもの
には誤りがなくても、読み取った文書の編集作業をしな
ければならず、省力効果が充分に生かされていないと云
う問題がある。
処理した場合、文頭や行中の文字が揃った文書を入力し
ても、行頭または行中文字の揃っていない文書が出力さ
れることがあるため、利用者は文字の読み取りそのもの
には誤りがなくても、読み取った文書の編集作業をしな
ければならず、省力効果が充分に生かされていないと云
う問題がある。
したがって、本発明は文字読取装置からレイアウト情報
を抽出できるようにすることを目的とする。
を抽出できるようにすることを目的とする。
同一段落内で行頭または行中文字1行末を揃える必要の
ある場合としては、例えば箇条書きの場合がある。この
ような場合は、例えば(1)、(2)、 (3)・・
・・・・、■、■、■・・・・・・のような記号または
記号列が多く用いられる。そこで、このような特徴的な
記号または記号列を辞書として記憶しておき、原稿の行
頭または行中にこれらの記号または記号列を検出したと
きは、その行頭まだは行中にそのことを示す情報、例え
ばタブ記号を挿入する。そして、文書が出力されるとき
に行頭または行中の位置が揃うように、このタブ記号を
一定の数の空白に起き換える。なお、名簿などでは「」
(空白)、「・・・・」などが特徴的な記号または記号
列となる。
ある場合としては、例えば箇条書きの場合がある。この
ような場合は、例えば(1)、(2)、 (3)・・
・・・・、■、■、■・・・・・・のような記号または
記号列が多く用いられる。そこで、このような特徴的な
記号または記号列を辞書として記憶しておき、原稿の行
頭または行中にこれらの記号または記号列を検出したと
きは、その行頭まだは行中にそのことを示す情報、例え
ばタブ記号を挿入する。そして、文書が出力されるとき
に行頭または行中の位置が揃うように、このタブ記号を
一定の数の空白に起き換える。なお、名簿などでは「」
(空白)、「・・・・」などが特徴的な記号または記号
列となる。
例えば、(1)、 (2)、 (3)・・・・・・
(a)(b)、(C)・・・・・・のような文頭に特
徴的な記号または記号列を検出することにより、文書の
読み取り結果を行単位でブロック化して行頭位置を制御
できるので、読取結果の出力文字列がそれを利用する装
置側で行頭の揃った文書として扱え、利用者はレイアウ
ト上の修正作業を省くことができ、省力効果が増大する
。
(a)(b)、(C)・・・・・・のような文頭に特
徴的な記号または記号列を検出することにより、文書の
読み取り結果を行単位でブロック化して行頭位置を制御
できるので、読取結果の出力文字列がそれを利用する装
置側で行頭の揃った文書として扱え、利用者はレイアウ
ト上の修正作業を省くことができ、省力効果が増大する
。
また、名簿などの場合は「」(空白)を特徴的な記号ま
たは記号列とすることで行中の文字位置を合わせること
ができ、原稿そのま\のレイアウトで入力することが可
能となる。これにより、氏名、出身地、生年月日、住所
などのアイテムも同時に抽出することができ、データベ
ース化も容易になる。
たは記号列とすることで行中の文字位置を合わせること
ができ、原稿そのま\のレイアウトで入力することが可
能となる。これにより、氏名、出身地、生年月日、住所
などのアイテムも同時に抽出することができ、データベ
ース化も容易になる。
図は本発明の詳細な説明するための説明図である。これ
は箇条書き文書の行頭に来る特徴的な記号または記号列
(以下、頭文字列とも云う、)の例を示し、文字読取装
置または計算機内のテーブルに辞書として記憶されるも
のである。なお、同図において、グループGlは括弧付
き数字(1)(2)、 (3)・・・・・・の例、グ
ループG2は丸付き数字の■、■、■、■・・・・・・
の例、グループG3は実子文字a、b、c、d・・・・
・・の例、グループG4は英大文字A、B、C,D・・
・・・・の例、グループG5およびG6はそれぞれ記号
「■」、「・」の例である。
は箇条書き文書の行頭に来る特徴的な記号または記号列
(以下、頭文字列とも云う、)の例を示し、文字読取装
置または計算機内のテーブルに辞書として記憶されるも
のである。なお、同図において、グループGlは括弧付
き数字(1)(2)、 (3)・・・・・・の例、グ
ループG2は丸付き数字の■、■、■、■・・・・・・
の例、グループG3は実子文字a、b、c、d・・・・
・・の例、グループG4は英大文字A、B、C,D・・
・・・・の例、グループG5およびG6はそれぞれ記号
「■」、「・」の例である。
こ\で、箇条書きの場合、「■」もr (1)Jも使用
されるが、これらが混在して使用されることはない。し
かし、r(1)1とr(2)1 は混在して使用される
。即ち、r(1) 、 (2) 、 (3) 、 (4
)・・・」、「■、■。
されるが、これらが混在して使用されることはない。し
かし、r(1)1とr(2)1 は混在して使用される
。即ち、r(1) 、 (2) 、 (3) 、 (4
)・・・」、「■、■。
■、■・・・」はそれぞれグループを形成する。一方、
「・」、「■」は単独でグループを形成する。そこで、
グループ同志の区別がつくようにグループには番号をつ
け、グループ内で序列の付くものであれば番号をつける
。m) 、 (2) 、 (3) 、 (4)・・・」
では(1)の序列は1、(2)の序列は2である。[(
a) 、 (b) 、 (c) 、 (d) −Jでは
(a)の序列は1、(b)の序列は2である。■の序列
は「■、■、■。
「・」、「■」は単独でグループを形成する。そこで、
グループ同志の区別がつくようにグループには番号をつ
け、グループ内で序列の付くものであれば番号をつける
。m) 、 (2) 、 (3) 、 (4)・・・」
では(1)の序列は1、(2)の序列は2である。[(
a) 、 (b) 、 (c) 、 (d) −Jでは
(a)の序列は1、(b)の序列は2である。■の序列
は「■、■、■。
■・・・」では2、「■、◎、0.0・・・」では1で
ある。
ある。
また、グループG1に示すように、記号(列)r(1)
」などはr(1)」1文字とも、または「(」 「l)
」の2文字の組合わせとも、さらには’ (J ’I
J ’) Jの3文字の組合わせとも認識しうる。こ
のように複数の文字列の組合わせがある場合、すべてを
記憶しておくこと\する。但し、代表的な組合わせ方式
を1つ選んで分かるようにしておき、これを例えば組合
わせの先頭に置(。そして、文書から行を切り出す時に
行頭の空白領域の幅をそれぞれ物理量に変換可能な単位
(例えば、mm、poinむ、dat)で記憶し、これ
を行頭空白テーブルと呼ばれるテーブルに格納しておく
。
」などはr(1)」1文字とも、または「(」 「l)
」の2文字の組合わせとも、さらには’ (J ’I
J ’) Jの3文字の組合わせとも認識しうる。こ
のように複数の文字列の組合わせがある場合、すべてを
記憶しておくこと\する。但し、代表的な組合わせ方式
を1つ選んで分かるようにしておき、これを例えば組合
わせの先頭に置(。そして、文書から行を切り出す時に
行頭の空白領域の幅をそれぞれ物理量に変換可能な単位
(例えば、mm、poinむ、dat)で記憶し、これ
を行頭空白テーブルと呼ばれるテーブルに格納しておく
。
このようなテーブルを作成した後、認識結果の行頭の(
候補)文字列と頭文字列辞書とを比較し、一致するもの
があれば、行番号2頭文字列のグループ番号、グループ
内での序列を記憶する。文書もしくはページの中で同一
グループ番号の頭文字列が序列に従って出現する範囲を
調べ、ブロックと呼ぶ。どのグループにも属さない行を
集めてルートブロックと呼ぶ。ブロックは連続した複数
行で構成される。rA、B、C・・・」等は頭文字列と
して使用されていない場合でも行頭に来ることがあるの
で、序列に従わない場合や単独行の場合はブロックとは
しない。したがって、このような行は頭文字列が検出さ
れてもルートブロックに属する。なお、ルートブロック
は飛び飛びの行で構成されても良い。そして、同一ブロ
ック内の空白領域の幅を行頭空白テーブルから呼び出し
て平均をとり、行頭空白テーブルを書き換える。ルート
ブロックについても同様にする。また、認識結果のテキ
ストの行頭にはタブ記号を挿入しておく。
候補)文字列と頭文字列辞書とを比較し、一致するもの
があれば、行番号2頭文字列のグループ番号、グループ
内での序列を記憶する。文書もしくはページの中で同一
グループ番号の頭文字列が序列に従って出現する範囲を
調べ、ブロックと呼ぶ。どのグループにも属さない行を
集めてルートブロックと呼ぶ。ブロックは連続した複数
行で構成される。rA、B、C・・・」等は頭文字列と
して使用されていない場合でも行頭に来ることがあるの
で、序列に従わない場合や単独行の場合はブロックとは
しない。したがって、このような行は頭文字列が検出さ
れてもルートブロックに属する。なお、ルートブロック
は飛び飛びの行で構成されても良い。そして、同一ブロ
ック内の空白領域の幅を行頭空白テーブルから呼び出し
て平均をとり、行頭空白テーブルを書き換える。ルート
ブロックについても同様にする。また、認識結果のテキ
ストの行頭にはタブ記号を挿入しておく。
しかる後、文書が出力されるときには、テキストを利用
する装置において行頭の位置が揃うように各行の行頭の
タブ記号を置き換える。即ち、行頭の位置をmm単位で
指定できる文書処理プログラムであればそのフォーマッ
トに従ってタブ変換し、空白の数でしか行頭の位置を指
定できないワードプロセッサであれば、行頭空白テーブ
ルを参照して文書もしくはページで一定の文字幅によっ
て一定の数の空白に、変換する。ブロック内の頭文字列
のない行は、頭文字列を有する行よりも段を下げる。こ
のために挿入する空白の数は、頭文字列辞書における代
表組合せの文字数に一致させる。
する装置において行頭の位置が揃うように各行の行頭の
タブ記号を置き換える。即ち、行頭の位置をmm単位で
指定できる文書処理プログラムであればそのフォーマッ
トに従ってタブ変換し、空白の数でしか行頭の位置を指
定できないワードプロセッサであれば、行頭空白テーブ
ルを参照して文書もしくはページで一定の文字幅によっ
て一定の数の空白に、変換する。ブロック内の頭文字列
のない行は、頭文字列を有する行よりも段を下げる。こ
のために挿入する空白の数は、頭文字列辞書における代
表組合せの文字数に一致させる。
以上が行頭の場合であり、例えば名簿などでは[」(空
白)を着目記号とし、タブを付けて整列することになる
。なお、行中2行末についても必要に応じて上記と同様
の処理が可能であることは云う迄もない。
白)を着目記号とし、タブを付けて整列することになる
。なお、行中2行末についても必要に応じて上記と同様
の処理が可能であることは云う迄もない。
文書の行頭または行中3行末に特徴的な記号または記号
列、例えば(1)、(2)、(3)・・・・・・(a)
、(b)、(c)・・・・・・ 「」(空白)のような
記号または記号列を辞書テーブルに記憶しておき、読取
結果の行頭または行中の(候補)文字または文字列を辞
書と比較することにより、文書中の例えば箇条書きの部
分を検出することができる。これにより、文書の読取結
果を行単位でブロック化することができ、ブロック単位
で行頭位置1行中位置1行末位置を制御できるので、読
取結果の出力文字列をそれを利用する装置側で行頭。
列、例えば(1)、(2)、(3)・・・・・・(a)
、(b)、(c)・・・・・・ 「」(空白)のような
記号または記号列を辞書テーブルに記憶しておき、読取
結果の行頭または行中の(候補)文字または文字列を辞
書と比較することにより、文書中の例えば箇条書きの部
分を検出することができる。これにより、文書の読取結
果を行単位でブロック化することができ、ブロック単位
で行頭位置1行中位置1行末位置を制御できるので、読
取結果の出力文字列をそれを利用する装置側で行頭。
行中3行末の揃った文書として扱うことが可能となる。
その結果、利用者はレイアウト上の修正作業を省くこと
ができ、省力効果が増大すると云う利点がもたらされる
。
ができ、省力効果が増大すると云う利点がもたらされる
。
図は本発明による方法を説明するための説明図である。
符号説明
01〜G5・・・・・・記号または記号列グループ。
代理人 弁理士 並 木 昭 夫
代理人 弁理士 松 崎 清
手
続
補
正
書
(方式)
1、事件の表示
士
田
文
毅
殿
昭和63年特許願第289963号
2、発明の名称
レイアウト情報の抽出方法
3、補正をする者
事件との関係 特許出願人
住 所 川崎市川崎区田辺新田l@1号名 称 (52
3)富士電機株式会社 4、代 理 人 8105 電話03 (580)
95135、補正命令の日付 6、補正の対象 (ほか1名) 昭和63年12月20日 明細書および図面 7、補正の内容 (1)明細書第6頁第2行(発明の詳細な説明の欄)に
おいて「図は」とあるのを「第1図は」に訂正し、同じ
く明細書第10頁第15行(図面の簡単な説明の欄)に
おいて「回は」とあるのを「第1図は」に訂正する。 (2)図面を別紙のとおり補正する(すなわち、従来の
図面を、図面の全体にかけて第1図と図番号を付した図
面に補正する。 1図
3)富士電機株式会社 4、代 理 人 8105 電話03 (580)
95135、補正命令の日付 6、補正の対象 (ほか1名) 昭和63年12月20日 明細書および図面 7、補正の内容 (1)明細書第6頁第2行(発明の詳細な説明の欄)に
おいて「図は」とあるのを「第1図は」に訂正し、同じ
く明細書第10頁第15行(図面の簡単な説明の欄)に
おいて「回は」とあるのを「第1図は」に訂正する。 (2)図面を別紙のとおり補正する(すなわち、従来の
図面を、図面の全体にかけて第1図と図番号を付した図
面に補正する。 1図
Claims (1)
- 予め定義された特徴的な記号または記号列を記憶してお
き、読み取りの対象となる文書中に該記憶された記号ま
たは記号列を検出したときは、それと対応する位置にそ
のことを示す所定の情報を発生し、これを文書レイアウ
トのための情報として利用可能にしてなることを特徴と
するレイアウト情報の抽出方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63289963A JPH02136956A (ja) | 1988-11-18 | 1988-11-18 | レイアウト情報の抽出方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63289963A JPH02136956A (ja) | 1988-11-18 | 1988-11-18 | レイアウト情報の抽出方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH02136956A true JPH02136956A (ja) | 1990-05-25 |
Family
ID=17749999
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63289963A Pending JPH02136956A (ja) | 1988-11-18 | 1988-11-18 | レイアウト情報の抽出方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH02136956A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014099182A (ja) * | 2013-12-10 | 2014-05-29 | Toshiba Corp | 電子機器および手書き文書処理方法 |
| US9025879B2 (en) | 2012-10-26 | 2015-05-05 | Kabushiki Kaisha Toshiba | Electronic apparatus and handwritten document processing method |
-
1988
- 1988-11-18 JP JP63289963A patent/JPH02136956A/ja active Pending
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9025879B2 (en) | 2012-10-26 | 2015-05-05 | Kabushiki Kaisha Toshiba | Electronic apparatus and handwritten document processing method |
| JP2014099182A (ja) * | 2013-12-10 | 2014-05-29 | Toshiba Corp | 電子機器および手書き文書処理方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0089468B1 (en) | Abbreviated typing with special form display | |
| JPH1153384A (ja) | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 | |
| JPH07114568A (ja) | データ検索装置 | |
| JPH02136956A (ja) | レイアウト情報の抽出方法 | |
| JPH0375912B2 (ja) | ||
| JPH077409B2 (ja) | 文書処理装置 | |
| JPS62245366A (ja) | 文書処理装置 | |
| JPH07334526A (ja) | 辞書検索表示装置 | |
| JP3466761B2 (ja) | 文書処理装置及びその制御方法 | |
| JPH03129568A (ja) | 文書処理装置 | |
| JP2786260B2 (ja) | かな漢字変換装置 | |
| JPH11232268A (ja) | 文書処理装置、ルビ割り付け方法、及び記録媒体 | |
| JPS62143178A (ja) | 自然言語翻訳方式 | |
| JP3022080B2 (ja) | 全文データベースシステム | |
| JPH07182344A (ja) | 機械翻訳装置 | |
| JPS63245760A (ja) | 文書整形装置 | |
| JPH07160720A (ja) | 機械で読み取り可能な情報の翻訳を支援し、効率化する装置及びその方法 | |
| JPH07141345A (ja) | 日本語文章処理方法 | |
| JPH10177573A (ja) | 文書処理方法および装置 | |
| JPH01261775A (ja) | 文書編集装置における文書の登録方法 | |
| JPH07105219A (ja) | 機械翻訳装置 | |
| JPS63253465A (ja) | 日本語処理方式 | |
| JPS6364162A (ja) | 文書処理装置 | |
| JPS61169961A (ja) | ユ−ザ辞書を備えた文字処理装置 | |
| JPS62202258A (ja) | 文書処理装置 |