JPH06203020A - テキストフォーマット認識生成方法および装置 - Google Patents

テキストフォーマット認識生成方法および装置

Info

Publication number
JPH06203020A
JPH06203020A JP4361390A JP36139092A JPH06203020A JP H06203020 A JPH06203020 A JP H06203020A JP 4361390 A JP4361390 A JP 4361390A JP 36139092 A JP36139092 A JP 36139092A JP H06203020 A JPH06203020 A JP H06203020A
Authority
JP
Japan
Prior art keywords
text
area
line
page
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4361390A
Other languages
English (en)
Inventor
Minoru Ashizawa
実 芦沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP4361390A priority Critical patent/JPH06203020A/ja
Publication of JPH06203020A publication Critical patent/JPH06203020A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Character Input (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】面倒な手作業なしに、テキストフォーマット済
みの文書に対し、テキストフォーマット情報を取り除い
て機械翻訳などの種々の変換処理を行ない、入力と同等
なテキストフォーマットを持つ変換結果文書を生成でき
るようにすることを目的とする。 【構成】入力ファイルの各行の組み合わせについて一致
度を計算してページ長を推定する。ページ数と同じ行間
隔で一致度が一定値以上でありページ境界から連続する
範囲をページヘッダーあるいはページフッターであると
認識する。空白文字率が一定値以上のカラムが連続する
範囲を段組領域の境界であるとして、各ページの段組、
図表を認識して、テキストを抽出する。特定の文字の数
の比率によって、図表領域の認識と、処理不要行の認識
を行なう。変換処理した後に入力と同等のテキストフォ
ーマットを持つ変換結果文書を生成する。 【効果】テキストフォーマット情報の除去作業、翻訳後
のテキストフォーマット作業の工数を低減できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、テキストとしてフォー
マット済みの文書データから、フォーマット情報とテキ
スト情報を分離して、再合成するテキストフォーマット
認識生成方法および装置に関し、例えば、電子メールや
機械可読な媒体によって配布される文書の文字コードデ
ータ列および紙などに印刷された文書から光学的文字認
識装置によって生成した文字コードデータ列を対象とす
る自動翻訳に用いて好適であり、また、データベース構
築、キーワード抽出、その他のテキストプロセッシング
を行うための前処理として用いて好適なテキストフォー
マット認識生成方法および装置に関する。
【0002】
【従来の技術】いわゆるワープロなどで作成された文書
における、ダブルスペース、左端設定、拡大文字などの
フォーマット(文書書式)情報は、その文書をテキスト
ファイル(フォーマット情報を含まない文字コード情報
のみのファイル)に変換した場合には、空行あるいは空
白として表現される。この変換後のテキストファイルを
解析してフォーマット情報による空白、空行を除去する
ことの必要性が、“機械翻訳電子メールシステム”(西
野文人、中村直人、情報処理学会自然言語処理研究会7
5―5(1990.1))において指摘されている。し
かし、その方法の実現方法については報告が無く、結局
は人間の手作業によって除去する。
【0003】また、テキスト内に、図表や数式などがあ
る場合、その図表や数式は翻訳不要であることが多く、
これらに機械翻訳処理を行うと却って意味不明な結果と
なることが多い。このような翻訳不要部分に対しては、
前編集と呼ぶ人間の手作業によって、翻訳不要であるこ
とを示す記号をテキスト内に挿入する。
【0004】光学的文字認識装置を用いて文書のテキス
トを認識する場合は、ページ単位に画像を読み込んだ直
後か、あるいは文字を認識した後の時点で、専用のエデ
ィタによって、段組、図表などの領域の指定と各領域の
接続の順序の指定を、人間の手作業によって行う必要が
ある。
【0005】また、機械翻訳を行なった後に、原文の文
書構造に応じてタイトル行や段落を指定する清書用コマ
ンドを自動的に翻訳結果中に埋め込むことについては、
上記の文献“機械翻訳電子メールシステム”において、
その実現が報告されている。しかし、ページ長、ページ
ヘッダー、ページフッター、および段組などについて
は、人間の手作業によって指定し、文書のフォーマット
を再構成するしかなかった。
【0006】
【発明が解決しようとする課題】上記従来の技術におい
て、ページヘッダー、ページフッター、段組、および図
表割り付けなどのテキストフォーマット済みのテキスト
データに対して機械翻訳を行なうためには、これらのペ
ージヘッダー、ページフッター、段組、および図表の領
域の切り出しとこれら領域の順序の指定を人間の手作業
で行う必要がある。したがって、大量のデータを処理す
るためには、多くの工数が必要であるという問題点があ
る。
【0007】また、翻訳不要部分であることを示す記号
を挿入する前編集も人間の手作業で行う必要があるた
め、やはり大量のデータを処理するためには、多くの工
数が必要であるという問題点がある。
【0008】さらに、翻訳結果に原文と同様の清書用コ
マンドを埋め込むためのテキストフォーマットプログラ
ムは、原文のテキストフォーマット済み文書と同等のフ
ォーマットを、翻訳結果に付与できるとは限らない。同
等のフォーマットを付与できない場合は、テキストフォ
ーマットプログラムの処理結果の文書に対して、人間の
手作業で修正を行なう必要がある。したがって、大量の
データを処理するためには多くの工数が必要であるとい
う問題点がある。
【0009】本発明の目的は、上記従来例における問題
点に鑑み、人間の手作業で行っていた面倒な上述の各作
業を自動化することができるテキストフォーマット認識
生成方法および装置を提供することにある。
【0010】
【課題を解決するための手段】上記目的を達成するた
め、本発明に係るテキストフォーマット認識生成方法
は、ページヘッダー付け、ページフッター付け、段組、
図表割り付けなどのテキストフォーマット済みのテキス
トファイルを入力するステップと、入力したテキストフ
ァイルのページ長を推定するステップと、ページフッタ
ーおよび/またはページヘッダーを認識するステップ
と、段組や図表などの領域を認識するステップと、認識
した領域がテキスト領域か図表領域かを表す種別を認識
するステップと、認識した領域の接続順序を決定するス
テップと、上記接続順序にしたがって、複数個の領域に
またがるテキストと図表を抽出するステップと、抽出し
たテキストと図表に対し、所定の変換を施すステップ
と、その変換結果のテキストと図表に対し、入力のテキ
ストファイルと同等のフォーマットを付与するステップ
とを備えたことを特徴とする。
【0011】また、本発明に係るテキストフォーマット
認識生成装置は、ページヘッダー付け、ページフッター
付け、段組、図表割り付けなどのテキストフォーマット
済みのテキストファイルを入力する手段と、入力したテ
キストファイルのページ長を推定する手段と、ページフ
ッターおよび/またはページヘッダーを認識する手段
と、段組や図表などの領域を認識する手段と、認識した
領域がテキスト領域か図表領域かを表す種別を認識する
手段と、認識した領域の接続順序を決定する手段と、上
記接続順序にしたがって、複数個の領域にまたがるテキ
ストと図表を抽出する手段と、抽出したテキストと図表
に対し、所定の変換を施す手段と、その変換結果のテキ
ストと図表に対し、入力のテキストファイルと同等のフ
ォーマットを付与する手段とを備えたことを特徴とす
る。
【0012】
【作用】本発明に係るテキストフォーマット認識生成方
法は、例えば、入力装置、表示装置、ファイル記憶装
置、翻訳装置、およびシステム装置から構成される機械
翻訳システムなどに適用する。まず、入力装置を介して
処理対象(ここでは翻訳対象)のテキストフォーマット
済み文書を入力して、ファイル記憶装置に入力ファイル
として格納する。
【0013】システム装置は、ページ長推定方法、ペー
ジヘッダー認識方法、ページフッター認識方法、領域認
識方法、領域種別認識方法、領域接続順序決定方法、テ
キスト抽出方法、翻訳方法、テキストフォーマット生成
方法に従って処理を行なうとともに、入力装置、表示装
置、ファイル記憶装置、翻訳装置を制御する。
【0014】ページ長推定方法は、入力ファイルの先頭
から、一部または全部の行を読み込んで、読み込んだ各
行に先頭から行番号を付けて、ある行とその行よりもフ
ァイルの末尾側にある行との一致度を計算する。その一
致度を計算した2行の行番号の差を行オフセットとし
て、一致度が一定値以上の2行の組について一致度と行
オフセットの組を蓄積する操作を各行について行ない、
その蓄積結果を行一致度計算結果とする。また、その行
一致度計算結果における行オフセットの頻度を数えて、
行オフセットをページ長と仮定した場合に読み込み行数
から計算されるページ数に対する行オフセットの頻度の
比が最も大きいような行オフセットをページ長と推定す
る。
【0015】ページヘッダー認識方法は、行一致度計算
結果における行オフセットの中にページ長と等しい行オ
フセットがある行で、ページの開始行からファイルの末
尾に向けて連続する行を、ページヘッダーとする。ま
た、ページヘッダーとして認識した行について各ページ
ごとに一致しないカラムに数字があるとき、そのカラム
をページ番号のフィールドであると認識する。
【0016】ページフッター認識方法は、行一致度計算
結果における行オフセットの中にページ長と等しい行オ
フセットがある行で、ページの終了行からファイルの先
頭に向けて連続する行を、ページフッターとする。ま
た、ページフッターとして認識した行について各ページ
ごとに一致しないカラムに数字があるとき、そのカラム
をページ番号のフィールドであると認識する。
【0017】領域認識方法の作用は、次の通りである。
【0018】入力ファイルの先頭から一部または全部を
読み込み、行長があるカラムに達しないときは、その行
のそのカラムには空白文字があるとして、また、行の終
わりを示す改行文字は空白文字であるとして、各カラム
について空白文字を数えて、読み込んだ行数に対する空
白文字数の比率が一定値以上のカラムが連続する範囲を
段組の境界と仮定する。
【0019】次に、領域認識方法では、推定したページ
長に従って1ページを構成するデータを読み込み、各ペ
ージについて次の通りの処理を行う。
【0020】あるカラムから別のあるカラムまでの間を
1つの段組であると仮定した場合に、ある行のその範囲
の文字がすべて空白文字であるか、または、その範囲ま
で行の長さが達しないときに、その行の直前と直後でそ
の段組の領域を分割する。
【0021】あるカラムから別のあるカラムまでの間を
1つの段組であると仮定した場合に、ある行で、段組の
境界であると仮定したカラムに空白文字以外の文字があ
るとき、その境界を介して隣接する段組の領域があれば
それら領域はその行の直前で終了し、その行からその隣
接する段組を併せた幅の段組の領域が存在すると仮定し
て領域の認識を続ける。
【0022】領域認識方法は、以上の様に作用する。
【0023】領域種別認識方法は、各領域について、
‘+’、‘−’、‘|’、‘‖’などの図表を描くため
に多用される文字の数と、その領域の空白文字と改行文
字を除いた全文字数の比が一定値以上である領域を図表
領域であるとし、それ以外の領域をテキスト領域である
と認識する。
【0024】領域接続順序決定方法の作用は次の通りで
ある。
【0025】入力ファイル内のあるページ内のある領域
に対して上下に隣接する領域がある場合はそれらの領域
は上から下へ接続するものとし、左右に隣接する領域が
ある場合はそれらの領域の左側の最も下に接続する領域
から右の最も上の領域へ接続するものとし、ただしこれ
らの接続を決定する際に既に接続が確定済みの領域に対
しては再び接続はせずその接続決定済みの領域を飛ばし
て接続するとして、結果としてページ内の各領域に一列
の接続順序関係を決定する。
【0026】次に、領域接続順序決定方法は、入力ファ
イル内のあるページ内の領域の接続順序が末尾の領域か
ら次のページの最も左側で上側の領域へ接続するものと
する。
【0027】次に、テキスト領域の直後に図表領域が接
続する箇所のすべてについてそのテキスト領域はその図
表領域を飛ばして次の領域に接続するものとし、飛ばさ
れた図表領域については元の順序を保ってそれら図表領
域の接続順序を決定し、結果として2列の接続順序を決
定する。
【0028】次に、あるテキスト領域の直後に別のテキ
スト領域が接続するとき、その2つのテキスト領域の間
で使用単語頻度分布の違いが大きく、領域の境界の単語
の接続が適切でなく、かつ、その別のテキスト領域より
も後方で隣接する段組にそのあるテキスト領域と使用単
語頻度分布が類似し、領域の境界の単語の接続が適切な
テキスト領域がある場合に、そのテキスト領域がそのあ
るテキスト領域の直後に接続するように、領域の接続順
序を変更する。
【0029】領域接続順序決定方法の作用は以上の通り
である。
【0030】テキスト抽出方法は、一連の領域からテキ
ストを抽出する際に、テキスト領域であると認識された
領域だけからテキストを抽出して、領域の接続順序にし
たがってそのテキストを連結し、テキストファイルを生
成する。図表領域からは、各領域ごとにテキストを抽出
して、それぞれテキストファイルを生成する。
【0031】翻訳不要行認識方法は、各行について、
‘+’、‘−’、‘×’、‘÷’、‘^’、‘±’、等
号、不等号、‘Σ’などの数式を記述するために多用さ
れる文字や、‘|’、‘‖’などの図表を描くために多
用される文字の数と、その行の空白文字と改行文字を除
いた全文字数との比が一定値以上である行を翻訳不要行
であると判定し、その行に翻訳不要指定を付加する。ま
た、この判定の閾値は、その行が属する領域の種別によ
って変更する。
【0032】翻訳装置および翻訳方法は、上記の抽出し
たテキストによって生成されたテキストファイルを公知
の方法によって翻訳する。なお、本発明のテキストフォ
ーマット認識生成方法は、機械翻訳だけでなく、抽出し
たテキストや図表に対して種々の変換を施して、元の文
書と同じフォーマットで出力する場合に適用可能であ
る。
【0033】テキストフォーマット生成方法は、以下の
通りに作用する。
【0034】まず、接続順序が隣接するテキスト領域が
同じ段組であるときは、その領域を統合する。
【0035】図表領域のテキストを翻訳した結果が、元
の領域が占める行数、カラム数を上回る場合には、翻訳
した結果を埋め込む領域の行数、カラム数を増加させて
翻訳結果が納まるようにして、また、その増加に伴い、
その領域に隣接する別の領域を移動あるいは縮小してペ
ージに納まるようにする。
【0036】テキストフォーマット生成方法は、また、
テキストを翻訳した結果が、元のフォーマット済みテキ
ストの領域に納まらない場合には、認識したページヘッ
ダー、ページフッター、段組に準じたフォーマットのペ
ージを新たに生成して、その生成したページの領域に、
翻訳結果が元のフォーマット済みテキストの領域からは
み出す部分を置く。
【0037】また、テキストを翻訳した結果を、そのテ
キストの元の領域に相当する領域に入れた後にその領域
に余白が生じたときは、その余白に空白文字あるいは改
行文字を入れる。また、あるページのすべての領域に空
白文字あるいは改行文字だけがあるとき、そのページを
削除する。
【0038】その後、システム装置は、処理結果をファ
イル記憶装置に格納したり、表示装置を介して表示した
りする。
【0039】
【実施例】以下、図面を用いて、本発明の実施例を説明
する。
【0040】図15は、本発明の一実施例に係るテキス
トフォーマット認識生成方法を適用した装置の構成を示
す。本装置は、入力装置15001、ファイル記憶装置
15002、システム装置15003、翻訳装置150
04、および表示装置15005を備えている。
【0041】翻訳を行なわせるときには、原文を入力装
置15001により入力し、システム装置15003を
介してファイル記憶装置15002に入力ファイルとし
て記憶する。原文は、フォーマット済みの文書をテキス
トファイルに変換したものである。システム装置150
03は、この入力ファイルを読み出し、そのテキストフ
ォーマットを認識する。その後、翻訳装置15004に
より翻訳処理を行なう。さらに、システム装置1500
3は、先に認識してある原文のテキストフォーマットと
同等のフォーマットを持つ翻訳結果文書を生成する。
【0042】以下、本実施例における動作手順を詳しく
説明する。まず、原文のテキストフォーマットの認識お
よび翻訳処理に先立って、入力装置15001およびシ
ステム装置15003を介してファイル記憶装置150
02に入力ファイル(原文)が格納される。
【0043】図1に、テキストフォーマット認識方法お
よび翻訳方法を表わすフローチャートを示す。このテキ
ストフォーマット認識方法および翻訳方法は、図15の
システム装置15003において動作する。
【0044】図16は、ファイル記憶装置15002に
格納されている入力ファイルのテキストデータの一例で
ある。説明を理解しやすくするために、この図に示すデ
ータに対して、テキストフォーマットの認識処理および
翻訳処理を行なうことを仮定する。
【0045】図16のテキストは、行16001〜行1
6046に示すように、46行のデータである。付番1
6047の‘▽’に示すように、改行文字を‘▽’で示
すものとする。この‘▽’が各行の右端である。各行の
左端は、行16002の左端の‘1’の位置である。
【0046】行16001、行16003、行1601
5、行16021、行16023、行16024、行1
6026、行16044、および行16046は、行の
左端に改行文字があり、これらの行には通常の文字デー
タは無い。行16004〜行16014、行16016
〜行16020、行16022、行16027〜行16
043、および行16045は、行の左端からこの図に
おいて見える文字の直前まで空白文字が満たされいる。
【0047】図16において、テキストを表わす文字は
適当な数字および記号‘:’で図示しているが、これは
説明を簡単にするためであり、実際は各種の文字が用い
られているものとする。
【0048】次に、図1を参照して、テキストフォーマ
ット認識方法および翻訳方法の手順を具体的に説明す
る。
【0049】まず、ページ長推定ステップ1001にお
いて、入力ファイルの一部あるいは全部を読み込んで、
入力ファイルのテキストフォーマットのページ長を推定
する。このステップの詳細は、図2、図3、図4を参照
して後述する。次に、ステップ1002でページヘッダ
ーを認識し、ステップ1003でページフッターを認識
する。ページヘッダー認識ステップ1002の詳細は図
5を参照して後述する。ページフッター認識ステップ1
003の詳細は図6を参照して後述する。
【0050】次に、ステップ1004で段組などの領域
を認識し、ステップ1005で領域の種別を認識し、ス
テップ1006で領域の接続順序を決定する。領域認識
ステップ1004の詳細は、図7、図8を参照して後述
する。領域種別認識ステップ1005の詳細は、図9を
参照して後述する。領域接続順序決定ステップ1006
の詳細は、図10、図11を参照して後述する。
【0051】次に、ステップ1007でテキストおよび
図表を抽出する。テキスト、図表抽出ステップ1007
の詳細は、図12を参照して後述する。次に、ステップ
1008で翻訳不要部分を認識し、ステップ1009で
機械翻訳処理を行なう。そして、ステップ1010でテ
キストフォーマットを生成し、機械翻訳の結果にフォー
マットを付与して、処理を終了する。翻訳不要部分認識
処理ステップ1008の詳細は、図13を参照して後述
する。テキストフォーマット生成処理の詳細は、図14
を参照して後述する。
【0052】次に、図2、図3および図4を参照して、
図1のステップ1001のページ長推定ステップについ
て説明する。
【0053】まず、図2のステップ2001において、
既入力行群バッファを空にする。この既入力行群バッフ
ァとは、入力ファイルをファイル記憶装置15002か
らシステム装置15003に読み込んで蓄積するバッフ
ァである。なお、簡単のため、図では「バッファ」とい
う語を省略し、単に「既入力行群」と記載してある。他
のバッファやカウンタなどについても同様とする。
【0054】次に、ステップ2002において、現入力
行番号カウンタの値を0に設定する。現入力行番号カウ
ンタとは、既入力行群に蓄積するデータの行に番号を付
けるためのカウンタである。次に、ステップ2003に
おいて、行一致度計算結果バッファを空にする。行一致
度計算結果バッファとは、ページ長を推定するために様
々な行の組について一致度を計算した結果を蓄積するバ
ッファである。
【0055】続いて、図3のステップ3001〜ステッ
プ3006において、入力ファイルの行を読み込みなが
ら、行の組について一致度を計算する。
【0056】まず、判定ステップ3001において、処
理中の入力ファイルの始めの300行を既に処理した
か、ファイルの終わりに達したかを調べる。300行と
したのは、300行程度読み込めばほとんどの場合ペー
ジの推定が可能であるからである。現時点では、まだ1
行も読み込んでいないのでこの条件は成立せず、ステッ
プ3002に進む。
【0057】ステップ3002において、入力ファイル
から1行を読み込んで、そのデータを現入力行バッファ
に格納する。現時点では、図16の行16001のデー
タが現入力行となる。続くステップ3003において、
現入力行番号カウンタの値に1を加える。現時点では、
現入力行番号カウンタの値は0であるから、このステッ
プ3003において、その値は1となる。
【0058】次のステップ3004において、既入力行
群バッファに格納されている各行と現入力行バッファに
格納されている現入力行との一致度を計算する。現時点
では既入力行群バッファは空であるから、このステップ
における一致度の計算は行われない。一致度は計算して
いないので、一致度を行一致度計算結果バッファに追加
することも無い。
【0059】次のステップ3005において、現入力行
番号カウンタの現入力行番号と現入力行バッファの現入
力行データである(現入力行番号,現入力行)の組デー
タを既入力行群バッファに追加する。そして、ステップ
3001に進む。
【0060】現時点ではステップ3001を経て、ステ
ップ3002に進む。
【0061】ステップ3002において、入力ファイル
から次の1行を現入力行バッファに読み込んで、そのデ
ータを現入力行とする。現時点では、図16の行160
02のデータが現入力行となる。続くステップ3003
において、現入力行番号カウンタの値に1を加える。現
時点では、現入力行番号の値は1であるから、このステ
ップ3003において、その値は2となる。
【0062】次のステップ3004において、既入力行
群バッファに格納されている行と現入力行との一致度を
計算する。現時点では既入力行群バッファには行160
01が格納されているから、このステップでは、現入力
行すなわち行16002と行16001の一致度を計算
して、その値を行一致度バッファに設定する。
【0063】行の一致度とは、2つの行について、同一
カラムが同じ文字であるカラム数をこの2つの行の長さ
の平均で割った結果と定義する。行16001と行16
002では、同一カラムが同じ文字であるカラムは無い
ので一致度は0であり、この値を行一致度バッファに設
定する。一致度の値が0なので、行一致度計算結果バッ
ファにデータを追加することは無い。本実施例では、一
致度の値が0.75以上の場合に、このステップで行一
致度計算結果バッファにデータを追加するものとする。
【0064】次のステップ3005において、(現入力
行番号,現入力行)の組データを既入力行群バッファに
追加する。この結果、既入力行群バッファには、行16
001と行16002と、これらの行の行番号が格納さ
れる。そして、ステップ3001に進む。
【0065】ここで再びステップ3001を経て、ステ
ップ3002に進む。
【0066】ステップ3002において、入力ファイル
から次の1行を現入力行バッファに読み込んで、そのデ
ータを現入力行とする。現時点では、図16の行160
03のデータが現入力行となる。続くステップ3003
において、現入力行番号カウンタの値に1を加える。現
時点では、現入力行番号の値は2であるから、このステ
ップ3003において、その値は3となる。
【0067】次のステップ3004において、既入力行
群バッファに格納されている行と現入力行との一致度を
計算する。現時点では既入力行群バッファには行160
01、行16002が格納されているから、このステッ
プでは、これらの行と現入力行すなわち行16003と
の一致度をそれぞれ計算して、その値を行一致度バッフ
ァに設定する。
【0068】行16001と行16003との比較で
は、左端のカラムが同じ改行文字であるから、一致度は
1であり、この値を一致度バッファに設定する。なお、
改行文字は1文字とカウントするものとする。行160
01と行16003との2行は一致度が一定値0.75
以上であるから、行オフセットは、行16001の行番
号1と行16003の行番号3の差の2である。そこ
で、(既入力行番号,行オフセット,一致度)の3つの
データの組、すなわち(1,2,1)を行一致度計算結
果バッファに追加する。
【0069】図17に、行一致度計算結果バッファの格
納データの例を示す。17007に、いま追加された組
データ(1,2,1)を示す。この図17では、計算過
程および結果がわかり易いように、既入力行番号170
02、行オフセット17003、および一致度1700
6の他に、通し番号17001、一致カラム数1700
4、および行長(2行の行長の平均)17005を同時
に示してある。
【0070】同じステップ3004では、現入力行であ
る行16003と既入力行群バッファにあるすべての行
との一致度を計算するので、行16002と行1600
3の一致度を次に計算する。この2行には同一カラムで
同じ文字があるカラムは無いので、一致度は0である。
したがって、この2行については図17の行一致度計算
結果には何も追加しない。
【0071】次のステップ3005において、(現入力
行番号,現入力行)の組データを既入力行群バッファに
追加する。この結果、既入力行群バッファには、行16
001、行16002、および行16003と、これら
行の行番号が格納される。そして、ステップ3001に
進む。
【0072】以下、同様にして行を読み込みながら既入
力行群バッファの各行と現入力行との一致度を計算し、
一致度が0.75以上であるものについて、図17の行
一致度計算結果にデータを追加する。図17は、図16
の入力ファイルから上述したように行一致度を計算した
結果を示す。
【0073】図16の行160046を読み込んで、ス
テップ3004、およびステップ3005を経た後に再
び判定ステップ3001に到達すると、ファイルの終わ
りに達したので、ステップ3006に進む。ステップ3
006において、実際に読み込んだ行数を読み込み行数
カウンタに設定する。現時点では、その値は46であ
る。
【0074】次に、図4のステップ4001に進む。ス
テップ4001において、ページ長推定計算結果バッフ
ァを空にする。ページ長推定計算結果バッファとは、行
一致度計算結果を統計的に処理した結果を格納するバッ
ファである。
【0075】ステップ4002において、行一致度計算
結果(図17)について以下の処理を行う。まず、行オ
フセットが等しい組データの数を行オフセット頻度とす
る。読み込み行数を行オフセット頻度で割った結果を期
待ページ数とし、行オフセット頻度を期待ページ数で割
った結果を信頼度とする。各行オフセットの値ごとに、
(行オフセット,行オフセット頻度,期待ページ数,信
頼度)を組とするデータを作成し、ページ長計算結果バ
ッファに追加する。現時点での、このステップの結果を
信頼度の降順に整列した結果を図18に示す。
【0076】次のステップ4003において、ページ長
の推定結果を決定する。つまり、図18のページ長推定
計算結果について、信頼度が1以上であり最大である組
データの行オフセットの値を、ページ長バッファに設定
する。信頼度の最大値が1未満であるときは読み込み行
数の値をページ長バッファに設定する。現時点では、1
8001に示すように信頼度の最大値は3であるから、
その組データの行オフセットの値23をページ長とす
る。
【0077】次のステップ4004において、既入力行
群バッファの各行のうち最長の行長を有するものを検出
しその行長を最大行長バッファに設定する。このとき、
行の長さには行末の改行文字を含める。現時点では、図
16を見れば分かるように、最大行長は53である。
【0078】以上で図1のページ長推定ステップ100
1の動作を終わる。
【0079】次に、ページヘッダー認識ステップ100
2に進む。図5を参照して、このステップの詳細を説明
する。まずステップ5001において、既入力行群バッ
ファの先頭から順に下向きに各行を見て、行一致度計算
結果(図17)内に、それらの行の行番号が既入力行番
号と等しくてその行オフセットの値がページ長と等しい
組データがあって、また、既入力行群バッファの先頭か
らそのような行が連続する範囲を検出する。検出された
行をページヘッダーであると認識して、ページヘッダー
格納領域にコピーする。以下、このコピーして格納され
たデータを単にページヘッダーと呼ぶ。
【0080】さらに、ページヘッダーとして認識した各
行と、ページ長に等しい行数分だけ下の行とを比較し、
文字が一致しないカラムに数字があるときはそのカラム
をページ数であると認識して、ページヘッダーのそのカ
ラムの文字を‘$’にする。
【0081】現時点では、既入力行群バッファの先頭か
ら下向きに見て行が連続する範囲で、行一致度計算結果
の中の行オフセットの値がページ長の値23と等しいも
のには、図17の17008、17009、17010
がある。17008の行番号は1であるからこれは図1
6の行16001を示す。17009の行番号は2であ
るからこれは行16002を示す。17010の行番号
は3であるからこれは行16003を示す。したがっ
て、この3行をページヘッダーであると認識してページ
ヘッダー格納領域にコピーする。
【0082】次に、この同じステップ5001でこれら
ページヘッダーの各行と、ページ長の値23に等しい行
数だけ下の行と比較する。すなわち行16001と行1
6024を比較し、行16002と行16025を比較
し、行16003と行1606を比較する。この結果、
行16002と行16025の間で、41カラム目が異
なっておりそのカラムの文字は数字であるから、これを
ページ数であると認識して、ページヘッダーのこのカラ
ムの文字を‘$’に変更する。
【0083】続くステップ5002において、既入力行
群でページヘッダーとして認識された行の次の行の行番
号をテキスト上限番号として設定する。現時点では、ペ
ージヘッダーとして認識された行は、行16001、行
16002、行16003であるから、その次の行16
004の行番号4をテキスト上限番号として設定する。
【0084】以上で図1のページヘッダー認識ステップ
1002の動作を終わる。
【0085】次に、ページフッター認識ステップ100
3に進む。図6を参照して、このステップの詳細を説明
する。このページフッター認識ステップにおける動作
は、図5のページヘッダー認識ステップ1002の動作
手順とほぼ同等である。
【0086】まずステップ6001において、既入力行
群の中のページ長と等しい行番号の行をページ末尾行と
する。現時点では、行16023がページ末尾行とな
る。次に、ページ末尾行から順に上向きに各行を見て、
行一致度計算結果(図17)内に、それらの行の行番号
が既入力行番号と等しくてその行オフセットの値がペー
ジ長と等しい組データがあって、また、ページ末尾行か
らそのような行が連続する範囲を検出する。検出された
行をページフッターであると認識して、ページフッター
格納領域にコピーする。以下、このコピーして格納され
たデータを単にページフッターと呼ぶ。
【0087】現時点では、ページ末尾行から上向きに見
て行が連続する範囲で、行一致度計算結果の中の行オフ
セットの値がページ長の値23と等しいものには、図1
7の17011、17012、17013がある。17
011の行番号は21であるからこれは行16021を
示す。17012の行番号は22であるからこれは行1
6022を示す。17013の行番号は23であるから
これは行16023を示す。したがって、この3行をペ
ージフッターであると認識してページフッター格納領域
にコピーする。
【0088】次に、この同じステップ6001でページ
フッターとして認識した各行と、ページ長に等しい行数
分だけ下の行とを比較し、文字が一致しないカラムに数
字があるときはそのカラムをページ数であると認識し
て、ページフッターのそのカラムの文字を‘$’にす
る。
【0089】現時点では、ページフッターの各行と、ペ
ージ長の値23に等しい行数だけ下の行と比較する。す
なわち行16021と行16044を比較し、行160
22と行16045を比較し、行16023と行160
46を比較する。この結果、行16022と行1604
5の間で、22カラム目が異なっておりそのカラムの文
字は数字であるから、これをページ数であると認識し
て、ページフッターのこのカラムの文字を‘$’に変更
する。
【0090】続くステップ6002において、既入力行
群でページフッターとして認識された行の直前の行の行
番号をテキスト下限番号に設定する。現時点では、ペー
ジフッターとして認識された行は、行16021、行1
6022、行16023であるからその直前の行160
20の行番号20をテキスト下限番号に設定する。
【0091】以上でページフッター認識ステップ100
3の動作を終わる。
【0092】図19は、上述したページ長、ページヘッ
ダー、およびページフッターの推定および認識の結果を
示す。
【0093】次に、領域認識ステップ1004に進む。
図7および図8を参照して、このステップの詳細を説明
する。
【0094】まず、ステップ7001において、既入力
行群バッファの各行について、ある行の行長があるカラ
ムに達しない場合にはそのカラムには空白文字があると
見なして、カラムごとに(すなわち図16でいえば縦方
向に)空白文字を数える。改行文字は空白文字と見な
す。タブ文字は、そのタブを必要な数の空白文字に展開
してあるものとする。次に、ステップ7002におい
て、既入力行群の各行について、カラムごとの空白文字
の数を読み込み行数で割った結果を空白文字率とする。
【0095】図20は、現時点のステップ7001およ
びステップ7002の処理結果であるカラム別空白文字
率計算結果を空白文字率の降順に整列した結果を示す。
【0096】次に、ステップ7003において、空白文
字率が一定値以上のカラムが連続する範囲を段組の境界
であると認識して、各段組の開始カラムおよび終了カラ
ムを決定する。その結果を基本段組認識結果として格納
する。
【0097】現在の実施例では、空白文字率の一定値を
0.75以上とする。現時点では、この範囲にありカラ
ムが連続する範囲は、図20の20001に示す53カ
ラム目と、20002〜20003に示す1カラム目〜
2カラム目と、20004〜20005に示す25カラ
ム目〜26カラム目が、段組の領域の境界であると認識
できる。したがって、段組は3カラム目〜24カラム目
と27カラム目〜52カラム目の2つである。図21
は、このようにして認識した結果である基本段組領域認
識結果を示す。
【0098】次に、図8のステップ8001において、
入力ファイルをオープンし直して、再び入力ファイルの
先頭から読み込めるようにする。そして、ステップ80
02において、ページ番号カウンタの値を0にする。
【0099】判定ステップ8003を経て、ステップ8
004において、ページ番号カウンタの値に1を加え
る。現時点では、ページ番号カウンタの値は1となる。
【0100】次に、ステップ8005において、入力フ
ァイルからページ長で示される行数を読み込む。この例
では、行16001〜行16023を読み込むこととな
る。続くステップ8006において、この読み込んだ1
ページ分のデータを解析してページ内の領域を認識す
る。
【0101】ステップ8006においては、ページヘッ
ダー、ページフッター、テキスト上限行番号、テキスト
下限行番号、および基本段組領域認識結果の内容を元に
して、テキストおよび図表の存在する範囲を仮定し、ま
た段組の境界のカラムの範囲を仮定して、ページ内の領
域の認識結果を個別ページ領域認識結果に格納する。こ
こで領域の切れ目の認識は、以下(i)、(ii)の通
りに行なう。改行文字は空白文字として扱う。
【0102】(i) ある行である段組が存在すると仮
定した1つのカラムの範囲内の文字(すなわち、その行
に直前行と同じ段組が存在するなら文字があると思われ
る範囲)がすべて空白文字である場合にその行は領域の
切れ目であるとする。つまり、その行の直前に領域があ
ればその領域はその行の直前で終了し、その行の直後か
ら別の領域が始まるものとする。
【0103】(ii) ある行で段組の境界であると仮
定したカラムが空白文字でない場合には、その行は基本
段組領域認識結果とは異なる領域を構成するものとす
る。つまり、その境界を介して隣接する領域があれば、
その行の直前でそれらの領域は終了して、その行からは
その隣接する領域を合わせた幅の領域が始まると仮定す
る。
【0104】現時点、すなわち1ページ目の領域認識結
果は、図22の個別ページ領域認識結果の22009、
22010、22011である。これを図形的に記述し
たものを図23の23001に示す。図22の個別ペー
ジ領域認識結果の、開始行22001、終了行2200
2、開始カラム22004、終了カラム22005は、
図16に示す入力ファイルにおける領域の存在範囲を示
すものである。各行のページ22003は、現時点での
ページ番号の値である。領域種別22006、次領域2
2007、次接続種別22008は、後の処理において
データを入れるので、現時点では空または終端を示す
‘―’である。
【0105】ステップ8006を終了して、再び判定ス
テップ8003を経て、ステップ8004に進む。
【0106】ステップ8004において、ページ番号カ
ウンタの値に1を加える。現時点では、その値は2とな
る。
【0107】次に、ステップ8005において、入力フ
ァイルからページ長で示される行数、すなわち23行の
データを読み込む。この例では、行16024〜行16
046を読み込むこととなる。次のステップ8006に
おいて、この2ページ目のデータを解析して領域を認識
する。このステップの結果は、図22の22012、2
2013、22014、22015に示す。これを図形
的に記述したものを図23の23002に示す。
【0108】ステップ8006を終了して、再び判定ス
テップ8003に進む。今回は、既に入力ファイルの終
わりに到達しているので、図8のフローチャート、すな
わち領域認識ステップ1004の動作を終了する。
【0109】次に、領域種別認識ステップ1005に進
む。図9を参照して、このステップの詳細を説明する。
【0110】まず、ステップ9001において、図7,
8のように認識した各領域について、‘+’、‘―’、
‘|’、‘‖’など図表を構成する文字の数と、空白文
字と改行文字以外の文字の数との比率を調べて、その結
果が一定値以上である場合は、その領域の種別を図表領
域とする。それ以外をテキスト領域であるとする。
【0111】現在の実施例では、このステップにおける
領域種別のための閾値を0.6とする。現在の入力ファ
イルにおいては、図22の22011で示される領域、
すなわち図16の行16016〜行16020の3カラ
ム目〜52カラム目の領域において、上記の図表を構成
する文字の数が134文字であり、空白文字と改行文字
を除く文字の数は、155文字であるから、その比率は
0.86となり、この領域の種別は図表領域とされる。
他の領域には上記の上記の図表を構成する文字は含まれ
ないので、それらの領域の種別はテキスト領域であると
される。
【0112】図24に、領域の種別を認識した結果を示
す。領域種別24001の欄には、24002が示す領
域についてだけ「図表」とあり、これは図表領域である
ことを示す。この領域は、図22において22011で
示したものである。他の領域の領域種別24001の欄
には「テキスト」とあり、これはテキスト領域であるこ
とを示す。
【0113】以上で、領域種別認識ステップ1005の
動作を終了する。
【0114】次に、領域接続順序決定ステップ1006
に進む。図10および図11を参照して、このステップ
の詳細を説明する。
【0115】まず、ステップ10001において、入力
ファイル内の各ページについて、ページ内のある領域に
対して上下に隣接する領域がある場合はそれらの領域は
上から下へ接続するものとする。左右に隣接する領域が
ある場合は、それらの領域の左側の最も下に接続する領
域から右の最も上の領域へ接続するものとする。この領
域の接続の決定は、上から下へ、左から右へ決定してい
き、既に接続済みの領域に対しては再び接続せずその接
続決定済みの領域を飛ばして接続するとして、ページ内
の各領域に一列の接続順序を決定する。
【0116】次のステップ10002において、入力フ
ァイル内の各ページ間の領域の接続は、あるページ内の
領域の接続順序が末尾の領域から次のページの最も左側
で上側の領域に接続するものとする。
【0117】図25は、現在の入力ファイル(図16)
に対するこのステップ10001とステップ10002
の認識結果を示す。次領域25002の欄の番号は、欄
25001の領域番号の値で表わすものとする。これに
よって、この入力ファイル内の各領域の接続順序が一列
に決定される。25003の‘―’は、この時点では、
接続順序の終端を表わす。
【0118】図26は、図25の接続順序を図形的に記
述したものを示す。
【0119】次に、図11のステップ11001に進
む。このステップ11001において、領域の一列の接
続順序をたどって、領域の種別ごとに異なる列の接続順
序を作成する。つまり、2列(テキスト領域の列と図表
領域の列)の接続順序を作成する。テキスト領域に関す
る一連の列に含まれる各領域をテキスト主領域と呼び、
その接続順序の先頭をテキスト主領域の先頭領域として
設定する。図表領域に関する一連の列に含まれる各領域
を図表副領域と呼び、その接続順序の先頭を図表副領域
の先頭領域として設定する。各々の列の順序は、元の一
列の接続順序における順序を保存して、順序付けするも
のとする。
【0120】図27および図28の次領域28001の
欄に、現在の入力ファイルに対するステップ11001
の結果を示す。図29に、この結果を図形的に記述した
ものを示す。
【0121】次のステップ11002において、あるテ
キスト領域の直後に別のテキスト領域が接続するとき、
その2つの領域の間で使用単語頻度分布の違いが大き
く、領域の境界の単語の接続が適切でなく、かつ、その
後接するテキスト領域よりも後方で隣接する段組の領域
でそのあるテキスト領域と使用単語頻度分布が類似して
領域境界単語接続が適切であるテキスト領域があるかど
うかを調べる。そして、そのような領域が存在すれば、
その領域をそのある領域の直後に接続するように接続順
序を変更する。
【0122】現在の入力ファイルでは、各領域の単語に
ついては考慮していないので、このステップの作用に対
する具体例は省略する。もし、このステップの効果が現
在の入力ファイルに対してあるとすれば、それは、例え
ば図29の第4の領域29004から第6の領域290
06に接続しているところを、第4の領域29004か
ら第5の領域29005に接続するように変更するもの
である。
【0123】次のステップ11003において、同一ペ
ージ内で領域が基本段組領域認識結果に従い上下で接続
する場合は上側の領域の次接続種別を同一段組とする。
それ以外は、次接続種別を別段組とする。
【0124】図28の次接続種別28002の欄に、現
在の入力ファイルに対するステップ11003の結果を
示す。第4の領域から第6の領域への接続28003、
第5の領域から第7への領域への接続28004が同一
段組である。
【0125】以上で領域接続順序決定ステップ1006
の動作を終了する。
【0126】次に、テキスト・図表抽出ステップ100
7に進む。図12を参照して、このステップの詳細を説
明する。まず、ステップ12001において、テキスト
主領域が示す領域のリストをたどり、各領域からデータ
を抽出して連結してテキストファイルを作成する。ただ
し、次接続種別が同一段組であるときは連結せず、別の
テキストファイルとする。
【0127】現在の入力ファイルでは、図27、図2
8、および図29に示すように、まず、第1の領域29
001、第2の領域29002、および第4の領域29
004が次接続種別が別段組で接続しているので、これ
らの領域からデータを抽出して連結してテキストファイ
ルを作成する。その結果を図30に示す。第1の領域2
9001は30001に対応し、第2の領域29002
は30002に対応し、第4の領域29004は300
03に対応する。
【0128】第4の領域29004から第6の領域29
006への接続は、図28の28003に示すように同
一段組なので、第6の領域からは別のファイルに格納す
る。また、第6の領域29006と第5の領域2900
5とは、次接続種別が別段組で接続しているので、この
2つの領域からデータを抽出して連結し、テキストファ
イルを作成する。その結果を図31に示す。第6の領域
29006は31001に対応し、第5の領域2900
5は31002に対応する。
【0129】第5の領域から第7の領域への接続は、同
一段組なので、第7の領域29007からは別のファイ
ルに格納する。第7の領域の次は終端なので、第7の領
域だけからデータを抽出してファイルに格納する。その
結果を図32に示す。
【0130】次のステップ12002において、図表副
領域のリストをたどり、各領域からデータを抽出して図
表ファイルを作成する。図表副領域のリストの各領域か
ら抽出したデータは、それぞれ、別々の図表ファイルに
する。現在の入力ファイルでは、図表副領域は第3の領
域29003を示し、その次は終端であるから、この領
域からデータを抽出して図表ファイルに格納する。その
結果を図33に示す。
【0131】以上でテキスト・図表抽出ステップ100
7の動作を終了する。
【0132】次に、翻訳不要部分認識ステップ1008
に進む。図13を参照して、このステップの詳細を説明
する。
【0133】まず、ステップ13001において、領域
種別がテキスト領域である領域から抽出した各テキスト
ファイルの各行について、‘+’、‘−’、‘|’、
‘‖’など図表を構成する文字や、等号、不等号、
‘/’、‘*’、‘Σ’、‘±’、‘÷’、‘×’、数
字など、数式を構成する文字の数と、その行の空白文字
と改行文字を除いた文字の数の比率が一定値以上である
行を翻訳不要行であると認識して、その行の翻訳不要指
定を挿入する。
【0134】現在の入力ファイルでは、テキスト領域か
ら抽出したテキストファイルは図30、図31、図32
の3個であるが、このステップの処理の結果、変化があ
るものは図30のテキストファイルだけであるとする。
ステップ13001の処理結果を図34に示す。340
01、34002、34003、34004に示す行が
翻訳不要行であると認識された行であり、翻訳不要指定
である‘<<’と‘>>’が挿入されている。
【0135】次のステップ13002において、領域種
別が図表領域である領域から抽出した各テキストファイ
ルの各行について、‘+’、‘−’、‘|’、‘‖’な
ど図表を構成する文字や、等号、不等号、‘/’、
‘*’、‘Σ’、‘±’、‘÷’、‘×’、数字など、
数式を構成する文字がある行を翻訳不要行であると認識
して、その行に翻訳不要指定を挿入する。現在の入力フ
ァイルでは、図表領域から抽出した図表ファイルは図3
3の図表ファイルだけであり、その結果を図35に示
す。
【0136】以上で翻訳不要部分認識ステップ1008
の動作を終了する。
【0137】次に翻訳ステップ1009に進む。このス
テップにおいて、図34、図31、図32に示すテキス
トファイルと図35に示す図表ファイルをそれぞれ機械
翻訳処理してその結果を別々のファイルに格納する。こ
のステップにおける翻訳処理は公知の翻訳方法によって
動作するので、その詳細の説明は省略する。
【0138】次に、テキストフォーマット生成ステップ
1010に進む。図14を参照して、このステップの詳
細を説明する。
【0139】まず、ステップ14001において、個別
ページ領域認識結果(図28)について、テキスト主領
域が示すテキスト領域のリストをたどり、次接続種別が
同一段組である領域を1つの領域に統合する。その結果
をターゲット文書領域生成結果とする。このステップに
より、図28が図36に示すように変更される。第4の
領域36001と第5の領域36002の終了カラム3
6003の欄の値が変更され、また、統合された第6の
領域28005と第7の領域28006が削除される。
図37は、図36の内容を図形的に記述したものであ
る。
【0140】次に、ステップ14002において、各図
表ファイルの翻訳結果を、図表副領域で示される各図表
領域の、データの抽出元の領域に埋め込む。このとき、
翻訳結果が埋め込み先の領域に納まらない場合には、埋
め込み先の領域を拡張し、それに応じて同一ページ内の
他の領域を縮小する。現在の入力ファイルに関しては、
第3の領域の抽出結果である図35の図表ファイルを埋
め込む。現時点の入力ファイルに対する処理では、この
埋め込みに際しては、領域の拡張は必要がないものとす
る。
【0141】次に、ステップ14003において、各テ
キストファイルの翻訳結果を、ファイルの境界に空行を
入れて連結して、テキスト主領域で示される領域に、順
に埋め込む。すべてのテキストファイルの翻訳結果を埋
め込んで領域が余るときは、改行文字または空白文字を
満たす。テキスト領域が不足する場合は、ページ長推
定、ページヘッダー認識、ページフッター認識の各結果
および基本段組領域認識結果に沿って新しいページと段
組領域を生成する。ページヘッダー、ページフッターに
ページ番号指定‘$’があれば、生成したページのペー
ジ番号指定を、適切なページ番号に置き換える。
【0142】図38および図39は、現在の入力ファイ
ル(図16)に対するこれらのステップの結果を示す。
これは、第3のページ39001に示すように、新たな
ページを生成した場合の例である。
【0143】次に、ステップ14004において、すべ
ての領域が改行文字あるいは空白文字だけで満たされて
いるページを削除する。現在の例では、図38および図
39に示すように、該当するページは無いので、このス
テップによる変化は無い。
【0144】以上でテキストフォーマット生成ステップ
1010の動作を終了し、したがって、図1のテキスト
フォーマット認識生成方法(および機械翻訳処理)の動
作を終了する。
【0145】以上で本発明の一実施例の説明を終わる。
【0146】次に、上記実施例に対する変形例を説明す
る。上記実施例では、領域を認識する際の領域の切れ目
の条件に、領域があると仮定した範囲がすべて空白文字
である場合を挙げた。しかし、これに加えて、領域があ
ると仮定した範囲である行の左側が一定以上の個数の空
白文字である場合に、その行の直前で領域の切れ目とす
る条件を加えることができる。これにより、つまり段落
の始めに字下げがある場合に、その直前の行で領域を分
割することができる。
【0147】次に、上記実施例では、段組を認識すると
きに、入力ファイルの一部または全部を読み込んで、各
カラムの空白文字を数えて空白文字率を計算し、その率
が高いカラムが連続する範囲を段組領域の境界であると
認識するとした。これを、特定の範囲の連続する行につ
いて、各カラムの各文字の頻度を計算し、その連続する
行で空白文字でなくても同じ文字がある率が高いカラム
を段組領域の境界であると認識するようにしてもよい。
【0148】これにより、例えば、電子メールにおいて
行の左端に‘>’を付けることで引用部分であることを
表示することがあるが、この引用部分を領域として認識
することができる。また、特に図表の線を構成する文字
を段組領域の境界と成り得る文字として領域を認識すれ
ば、上記実施例の入力ファイル(図16)の行1601
6〜行16020のような表のセルの内部を領域として
認識することができ、したがって、表の構成を保存して
その内容を翻訳することができる。
【0149】次に、上記実施例では、ある行において段
組領域の境界であると仮定したカラムに空白文字あるい
は改行文字以外の文字があるときは、その境界を介して
隣接する2つの領域の幅の領域が始まるものと仮定する
とした。これを、その行から特定の範囲の行についてカ
ラムごとの空白文字率を計算することで、段組領域の境
界を認識するようにしてもよい。これにより、より複雑
な領域構成のテキストを認識できる。
【0150】また、上記実施例では、入力ファイルのテ
キストフォーマットを認識して、翻訳した後に同じテキ
ストフォーマットの翻訳結果テキストを生成するとし
た。これを、テキストフォーマットを認識した後に、抽
出したテキストファイルを連結した結果の中に、タグ
(清書用コマンド)付のデータとしてテキストフォーマ
ットの認識結果を挿入するようにしてもよい。これによ
り、テキストフォーマットの変形および加工が容易にな
る。
【0151】
【発明の効果】以上説明したように、本発明によれば、
ページフォーマットされた文書データを機械翻訳する場
合などにおいて、その入力文書からテキストフォーマッ
トを認識するとともに、翻訳結果の文書に対して元のペ
ージフォーマットを付与して、入力文書と同等なテキス
トフォーマットを持つ翻訳文書を生成することができ
る。したがって、従来は手作業で行なっていた面倒な作
業を自動化できるという効果がある。また、入力ファイ
ルがワードプロセッサとテキストフォーマッターなどに
よって作成されたデータである場合に限らず、印刷物を
光学的文字認識装置などで認識した結果を入力ファイル
とする場合にも有効である。
【図面の簡単な説明】
【図1】本発明のテキストフォーマット認識生成方法の
処理フローチャートである。
【図2】本発明のテキストフォーマット認識生成方法の
一部分であるページ長推定方法の処理フローチャートの
一部である。
【図3】本発明のテキストフォーマット認識生成方法の
一部分であるページ長推定方法の処理フローチャートの
一部である。
【図4】本発明のテキストフォーマット認識生成方法の
一部分であるページ長推定方法の処理フローチャートの
一部である。
【図5】本発明のテキストフォーマット認識生成方法の
一部分であるページヘッダー認識方法の処理フローチャ
ートである。
【図6】本発明のテキストフォーマット認識生成方法の
一部分であるページフッター認識方法の処理フローチャ
ートである。
【図7】本発明のテキストフォーマット認識生成方法の
一部分である領域認識方法の処理フローチャートの一部
である。
【図8】本発明のテキストフォーマット認識生成方法の
一部分である領域認識方法の処理フローチャートの一部
である。
【図9】本発明のテキストフォーマット認識生成方法の
一部分である領域種別認識方法の処理フローチャートで
ある。
【図10】本発明のテキストフォーマット認識生成方法
の一部分である領域接続順序認識方法の処理フローチャ
ートの一部である。
【図11】本発明のテキストフォーマット認識生成方法
の一部分である領域接続順序認識方法の処理フローチャ
ートの一部である。
【図12】本発明のテキストフォーマット認識生成方法
の一部分であるテキスト・図表抽出方法の処理フローチ
ャートである。
【図13】本発明のテキストフォーマット認識生成方法
の一部分である翻訳不要部分認識方法の処理フローチャ
ートである。
【図14】本発明のテキストフォーマット認識生成方法
の一部分であるテキストフォーマット生成方法の処理フ
ローチャートである。
【図15】本発明のテキストフォーマット認識生成方法
が動作する装置の一例を表わす図である。
【図16】本発明のテキストフォーマット認識生成方法
の動作を説明するための入力ファイルの内容を表わす図
である。
【図17】本発明のテキストフォーマット認識生成方法
の一部分であるページ長推定方法の動作を説明するため
の図である。
【図18】本発明のテキストフォーマット認識生成方法
の一部分であるページ長推定方法の動作を説明するため
の図である。
【図19】本発明のテキストフォーマット認識生成方法
の一部分であるページ長推定方法とページヘッダー認識
方法とページフッター認識方法の動作結果を表わす図で
ある。
【図20】本発明のテキストフォーマット認識生成方法
の一部分である領域認識方法の動作を説明するための図
である。
【図21】本発明のテキストフォーマット認識生成方法
の一部分である領域認識方法の動作を説明するための図
である。
【図22】本発明のテキストフォーマット認識生成方法
の一部分である領域認識方法の動作結果を表わす図であ
る。
【図23】図22の内容を図形的に記述した図である。
【図24】本発明のテキストフォーマット認識生成方法
の一部分である領域種別認識方法の動作の結果を表わす
図である。
【図25】本発明のテキストフォーマット認識生成方法
の一部分である領域接続順序認識方法の動作を説明する
ための図である。
【図26】図25の内容を図形的に記述した図である。
【図27】本発明のテキストフォーマット認識生成方法
の一部分である領域接続順序認識方法の動作結果を表わ
す図の一部である。
【図28】本発明のテキストフォーマット認識生成方法
の一部分である領域接続順序認識方法の動作結果を表わ
す図の一部である。
【図29】図28の内容を図形的に記述した図である。
【図30】本発明のテキストフォーマット認識生成方法
の一部分であるテキスト・図表抽出方法の処理結果を表
わす図である。
【図31】本発明のテキストフォーマット認識生成方法
の一部分であるテキスト・図表抽出方法の処理結果を表
わす図である。
【図32】本発明のテキストフォーマット認識生成方法
の一部分であるテキスト・図表抽出方法の処理結果を表
わす図である。
【図33】本発明のテキストフォーマット認識生成方法
の一部分であるテキスト・図表抽出方法の処理結果を表
わす図である。
【図34】本発明のテキストフォーマット認識生成方法
の一部分である翻訳不要部分認識方法の処理結果を表わ
す図である。
【図35】本発明のテキストフォーマット認識生成方法
の一部分である翻訳不要部分認識方法の処理結果を表わ
す図である。
【図36】本発明のテキストフォーマット認識生成方法
の一部分であるテキストフォーマット生成方法の処理結
果を表わす図である。
【図37】図36の内容を図形的に記述した図である。
【図38】本発明のテキストフォーマット認識生成方法
の処理結果を表わす図である。
【図39】本発明のテキストフォーマット認識生成方法
の処理結果を表わす図である。
【符号の説明】
15001…入力装置、15002…ファイル記憶装
置、15003…システム装置、15004…翻訳装
置、15005…表示装置。

Claims (30)

    【特許請求の範囲】
  1. 【請求項1】ページヘッダー付け、ページフッター付
    け、段組、図表割り付けなどのテキストフォーマット済
    みのテキストファイルを入力するステップと、 入力したテキストファイルのページ長を推定するステッ
    プと、 ページフッターおよび/またはページヘッダーを認識す
    るステップと、 段組や図表などの領域を認識するステップと、 認識した領域がテキスト領域か図表領域かを表す種別を
    認識するステップと、 認識した領域の接続順序を決定するステップと、 上記接続順序にしたがって、複数個の領域にまたがるテ
    キストと図表を抽出するステップと、 抽出したテキストと図表に対し、所定の変換を施すステ
    ップと、 その変換結果のテキストと図表に対し、入力のテキスト
    ファイルと同等のフォーマットを付与するステップとを
    備えたことを特徴とするテキストフォーマット認識生成
    方法。
  2. 【請求項2】請求項1に記載のテキストフォーマット認
    識生成方法において、前記所定の変換が翻訳処理である
    ことを特徴とするテキストフォーマット認識生成方法。
  3. 【請求項3】請求項2に記載のテキストフォーマット認
    識生成方法において、さらに、抽出したテキストと図表
    の翻訳不要部分を認識し、その部分に翻訳不要指定を付
    加して翻訳することを特徴とするテキストフォーマット
    認識生成方法。
  4. 【請求項4】請求項1ないし3に記載のテキストフォー
    マット認識生成方法において、入力したテキストファイ
    ルの先頭から一部または全部の行を読み込み、読み込ん
    だ各行に先頭から行番号を付与し、ある行とその行より
    もファイルの末尾側にある行との一致度を計算し、その
    一致度を計算した2行の行番号の差を行オフセットとし
    て、一致度が一定値以上の2行の組について一致度と行
    オフセットとの組を蓄積する操作を各行について行な
    い、その蓄積結果を行一致度計算結果とし、行一致度計
    算結果における行オフセットの頻度を数えて、行オフセ
    ットをページ長と仮定した場合に読み込み行数から計算
    されるページ数に対する行オフセットの頻度の比を算出
    し、その頻度の比が最も大きくなる行オフセットをペー
    ジ長であると推定する、ことを特徴とするテキストフォ
    ーマット認識生成方法。
  5. 【請求項5】請求項4に記載のテキストフォーマット認
    識生成方法において、前記行一致度計算結果から、ペー
    ジ長と等しい行オフセットを有する行で、ページの開始
    行からファイルの末尾に向けて連続しているような行が
    あるかどうかを検出し、そのような行をページヘッダー
    であると認識する、ことを特徴とするテキストフォーマ
    ット認識生成方法。
  6. 【請求項6】請求項5に記載のテキストフォーマット認
    識生成方法において、ページヘッダーとして認識した各
    行について、各ページの対応する行を比較し、文字が一
    致しないカラムに数字があるとき、そのカラムをページ
    番号のフィールドであると認識する、ことを特徴とする
    テキストフォーマット認識生成方法。
  7. 【請求項7】請求項4に記載のテキストフォーマット認
    識生成方法において、前記行一致度計算結果から、ペー
    ジ長と等しい行オフセットを有する行で、ページの終了
    行からファイルの先頭に向けて連続しているような行が
    あるかどうかを検出し、そのような行をページフッター
    であると認識する、ことを特徴とするテキストフォーマ
    ット認識生成方法。
  8. 【請求項8】請求項7に記載のテキストフォーマット認
    識生成方法において、ページフッターとして認識した各
    行について、各ページの対応する行を比較し、文字が一
    致しないカラムに数字があるとき、そのカラムをページ
    番号のフィールドであると認識する、ことを特徴とする
    テキストフォーマット認識生成方法。
  9. 【請求項9】請求項1ないし3に記載のテキストフォー
    マット認識生成方法において、入力したテキストファイ
    ルの先頭から一部または全部の行を読み込み、行長があ
    るカラムに達しないときはその行のそのカラムには空白
    文字があるとして、また、行の終わりを示す改行文字は
    空白文字であるとして、各カラムごとに各行の空白文字
    を数え、読み込んだ行数に対する空白文字数の比率が一
    定値以上のカラムが連続する範囲を段組の境界と仮定す
    る、ことを特徴とするテキストフォーマット認識生成方
    法。
  10. 【請求項10】請求項9に記載のテキストフォーマット
    認識生成方法において、あるカラムから別のあるカラム
    までの間を1つの段組であると仮定した場合に、ある行
    のその範囲の文字がすべて空白文字であるか、または、
    その範囲まで行の長さが達しないときに、その行の直前
    と直後でその段組の領域を分割する、ことを特徴とする
    テキストフォーマット認識生成方法。
  11. 【請求項11】請求項9に記載のテキストフォーマット
    認識生成方法において、あるカラムから別のあるカラム
    までの間を1つの段組であると仮定した場合に、ある行
    のその範囲の文字が、ある一定数以上の空白文字で始ま
    る場合に、その行と直前の行でその段組の領域を分割す
    る、ことを特徴とするテキストフォーマット認識生成方
    法。
  12. 【請求項12】請求項9に記載のテキストフォーマット
    認識生成方法において、あるカラムから別のあるカラム
    までの間を1つの段組であると仮定した場合に、ある行
    で、段組の境界であると仮定したカラムに空白文字以外
    の文字があるとき、その境界を介して隣接する段組の領
    域があればそれら領域はその行の直前で終了し、その行
    からその隣接する段組を併せた幅の段組の領域が存在す
    ると仮定して領域の認識を続ける、ことを特徴とするテ
    キストフォーマット認識生成方法。
  13. 【請求項13】請求項1ないし3に記載のテキストフォ
    ーマット認識生成方法において、‘+’、‘−’、
    ‘|’、‘‖’などの図表を描くために多用される文字
    の数と、その領域の空白文字と改行文字を除いた全文字
    数の数との比が一定値以上である領域を図表領域である
    とし、それ以外の領域をテキスト領域であると認識す
    る、ことを特徴とするテキストフォーマット認識生成方
    法。
  14. 【請求項14】請求項1ないし3に記載のテキストフォ
    ーマット認識生成方法において、入力したテキストファ
    イル内のあるページ内のある領域に対して、上下に隣接
    する領域がある場合はそれらの領域は上から下へ接続す
    るものとし、左右に隣接する領域がある場合はそれらの
    領域の左側の最も下に接続する領域から右の最も上の領
    域へ接続するものとし、ただしこれらの接続を決定する
    際に既に接続が確定済みの領域に対しては再び接続はせ
    ずその接続決定済みの領域を飛ばして接続するとし、結
    果としてページ内の各領域に一列の接続順序関係を決定
    する、ことを特徴とするテキストフォーマット認識生成
    方法。
  15. 【請求項15】請求項14に記載のテキストフォーマッ
    ト認識生成方法において、入力したテキストファイル内
    のあるページ内の領域の接続順序が末尾の領域から次の
    ページの最も左側で上側の領域へ接続するとする、こと
    を特徴とするテキストフォーマット認識生成方法。
  16. 【請求項16】請求項14または15に記載のテキスト
    フォーマット認識生成方法において、前記領域の接続順
    序を決定した後に、テキスト領域の直後に図表領域が接
    続する箇所のすべてについてそのテキスト領域はその図
    表領域を飛ばして次の領域に接続するものとし、飛ばさ
    れた図表領域については元の順序を保ってそれら図表領
    域の接続順序を決定し、結果としてテキスト領域の列と
    図表領域の列との2列の接続順序を決定する、ことを特
    徴とするテキストフォーマット認識生成方法。
  17. 【請求項17】請求項14ないし16に記載のテキスト
    フォーマット認識生成方法において、前記領域の接続順
    序を決定した後に、あるテキスト領域の直後に別のテキ
    スト領域が接続するとき、その2つのテキスト領域の間
    で使用単語頻度分布の違いが大きく、領域の境界の単語
    の接続が適切でなく、かつ、その別のテキスト領域より
    も後方で隣接する段組にそのあるテキスト領域と使用単
    語頻度分布が類似し、領域の境界の単語の接続が適切な
    テキスト領域がある場合に、そのテキスト領域がそのあ
    るテキスト領域の直後に接続するように、領域の接続順
    序を変更する、ことを特徴とするテキストフォーマット
    認識生成方法。
  18. 【請求項18】請求項1ないし3に記載のテキストフォ
    ーマット認識生成方法において、一連の領域からテキス
    トを抽出する際に、テキスト領域であると認識された領
    域だけからテキストを抽出して、領域の接続順序にした
    がってそのテキストを連結する、ことを特徴とするテキ
    ストフォーマット認識生成方法。
  19. 【請求項19】請求項3に記載のテキストフォーマット
    認識生成方法において、‘+’、‘−’、‘×’、
    ‘÷’、‘^’、‘±’、等号、不等号、‘Σ’などの
    数式を記述するために多用される文字や‘|’、‘‖’
    などの図表を描くために多用される文字の数と、その行
    の空白文字および改行文字を除いた全文字数との比が一
    定値以上である行を翻訳不要行であると判定する、こと
    を特徴とするテキストフォーマット認識生成方法。
  20. 【請求項20】請求項19に記載のテキストフォーマッ
    ト認識生成方法において、前記一定値である閾値をその
    行が属する領域の種別によって変更する、ことを特徴と
    するテキストフォーマット認識生成方法。
  21. 【請求項21】請求項1ないし3に記載のテキストフォ
    ーマット認識生成方法において、図表領域のテキストを
    変換した結果が、元の領域が占める行数、カラム数を上
    回る場合に、変換結果を埋め込む領域の行数、カラム数
    を増加させて、変換結果が納まるようにし、また、その
    増加に伴い、その領域に隣接する別の領域を移動あるい
    は縮小してページに納まるようにする、ことを特徴とす
    るテキストフォーマット認識生成方法。
  22. 【請求項22】請求項1ないし3に記載のテキストフォ
    ーマット認識生成方法において、テキストを変換した結
    果が、元のフォーマット済みテキストの領域に納まらな
    い場合には、認識したページヘッダー、ページフッタ
    ー、および段組に準じたフォーマットのページを新たに
    生成して、その生成したページの領域に変換結果を設定
    する、ことを特徴とするテキストフォーマット認識生成
    方法。
  23. 【請求項23】請求項1ないし3に記載のテキストフォ
    ーマット認識生成方法において、テキストを変換した結
    果を、そのテキストの元の領域に相当する領域に入れた
    後にその領域に余白が生じたときは、その余白に空白文
    字あるいは改行文字を入れる、ことを特徴とするテキス
    トフォーマット認識生成方法。
  24. 【請求項24】請求項1ないし3に記載のテキストフォ
    ーマット認識生成方法において、変換結果に入力テキス
    トファイルと同等のフォーマットを付与したとき、ある
    ページのすべての領域が空白文字あるいは改行文字だけ
    であるときは、そのページを削除する、ことを特徴とす
    るテキストフォーマット認識生成方法。
  25. 【請求項25】請求項1ないし3に記載のテキストフォ
    ーマット認識生成方法において、入力したテキストファ
    イルから抽出したテキストおよび図表データの中に、ペ
    ージ長、ページフッター、ページヘッダー、段組数、お
    よび段組幅などのテキストフォーマットの認識結果およ
    び翻訳不要行認識結果を、タグ付のデータとして埋め込
    む、ことを特徴とするテキストフォーマット認識生成方
    法。
  26. 【請求項26】請求項8に記載のテキストフォーマット
    認識生成方法において、各カラムの空白文字数の比率を
    計算する代わりに、各カラムごとに出現する文字種ごと
    の出現率を計算し、出現率が一定値以上である文字が存
    在するカラムの連続する範囲を領域の境界と仮定する、
    ことを特徴とするテキストフォーマット認識生成方法。
  27. 【請求項27】請求項8、9、または11に記載のテキ
    ストフォーマット認識生成方法において、空白文字およ
    び改行文字に加えて、図表を描くために多用される文字
    を領域の境界に成り得るとして領域を認識する、ことを
    特徴とするテキストフォーマット認識生成方法。
  28. 【請求項28】ページヘッダー付け、ページフッター付
    け、段組、図表割り付けなどのテキストフォーマット済
    みのテキストファイルを入力する手段と、 入力したテキストファイルのページ長を推定する手段
    と、 ページフッターおよび/またはページヘッダーを認識す
    る手段と、 段組や図表などの領域を認識する手段と、 認識した領域がテキスト領域か図表領域かを表す種別を
    認識する手段と、 認識した領域の接続順序を決定する手段と、 上記接続順序にしたがって、複数個の領域にまたがるテ
    キストと図表を抽出する手段と、 抽出したテキストと図表に対し、所定の変換を施す手段
    と、 その変換結果のテキストと図表に対し、入力のテキスト
    ファイルと同等のフォーマットを付与する手段とを備え
    たことを特徴とするテキストフォーマット認識生成装
    置。
  29. 【請求項29】請求項28に記載のテキストフォーマッ
    ト認識生成装置において、前記所定の変換が翻訳処理で
    あることを特徴とするテキストフォーマット認識生成装
    置。
  30. 【請求項30】請求項29に記載のテキストフォーマッ
    ト認識生成装置において、さらに、抽出したテキストと
    図表の翻訳不要部分を認識し、その部分に翻訳不要指定
    を付加して翻訳することを特徴とするテキストフォーマ
    ット認識生成装置。
JP4361390A 1992-12-29 1992-12-29 テキストフォーマット認識生成方法および装置 Pending JPH06203020A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4361390A JPH06203020A (ja) 1992-12-29 1992-12-29 テキストフォーマット認識生成方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4361390A JPH06203020A (ja) 1992-12-29 1992-12-29 テキストフォーマット認識生成方法および装置

Publications (1)

Publication Number Publication Date
JPH06203020A true JPH06203020A (ja) 1994-07-22

Family

ID=18473387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4361390A Pending JPH06203020A (ja) 1992-12-29 1992-12-29 テキストフォーマット認識生成方法および装置

Country Status (1)

Country Link
JP (1) JPH06203020A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08340519A (ja) * 1995-06-13 1996-12-24 Matsushita Electric Ind Co Ltd 情報抽出装置及び情報抽出機能付き文字放送受信装置
JPH09146947A (ja) * 1995-11-16 1997-06-06 Canon Inc 文字領域の順序付け方法及び装置
JPH09269944A (ja) * 1996-04-01 1997-10-14 Canon Inc 画像処理装置及びその方法
JPH1166063A (ja) * 1997-08-27 1999-03-09 Nippon Telegr & Teleph Corp <Ntt> テキスト文書データ高次元化表示システム及び方法及びその方法を記録した記録媒体
JP2002032770A (ja) * 2000-06-23 2002-01-31 Internatl Business Mach Corp <Ibm> 文書処理方法、文書処理システムおよび媒体
JP2012123845A (ja) * 2006-11-03 2012-06-28 Google Inc 連続する記事部分の媒体資料解析
US8977635B2 (en) 2012-03-14 2015-03-10 Fujitsu Limited Device, method of processing data, and computer-readable recording medium
JP2015225555A (ja) * 2014-05-28 2015-12-14 富士通株式会社 出力プログラム、出力装置、および出力方法
JP2020191056A (ja) * 2019-05-17 2020-11-26 ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co.,Ltd. レイアウト解析方法、読書補助装置、回路及び媒体
JP2021033804A (ja) * 2019-08-28 2021-03-01 西日本電信電話株式会社 構造化文書作成装置とその方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08340519A (ja) * 1995-06-13 1996-12-24 Matsushita Electric Ind Co Ltd 情報抽出装置及び情報抽出機能付き文字放送受信装置
JPH09146947A (ja) * 1995-11-16 1997-06-06 Canon Inc 文字領域の順序付け方法及び装置
JPH09269944A (ja) * 1996-04-01 1997-10-14 Canon Inc 画像処理装置及びその方法
JPH1166063A (ja) * 1997-08-27 1999-03-09 Nippon Telegr & Teleph Corp <Ntt> テキスト文書データ高次元化表示システム及び方法及びその方法を記録した記録媒体
JP2002032770A (ja) * 2000-06-23 2002-01-31 Internatl Business Mach Corp <Ibm> 文書処理方法、文書処理システムおよび媒体
JP2012123845A (ja) * 2006-11-03 2012-06-28 Google Inc 連続する記事部分の媒体資料解析
US8977635B2 (en) 2012-03-14 2015-03-10 Fujitsu Limited Device, method of processing data, and computer-readable recording medium
JP2015225555A (ja) * 2014-05-28 2015-12-14 富士通株式会社 出力プログラム、出力装置、および出力方法
JP2020191056A (ja) * 2019-05-17 2020-11-26 ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co.,Ltd. レイアウト解析方法、読書補助装置、回路及び媒体
WO2020233378A1 (zh) * 2019-05-17 2020-11-26 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
JP2021033804A (ja) * 2019-08-28 2021-03-01 西日本電信電話株式会社 構造化文書作成装置とその方法

Similar Documents

Publication Publication Date Title
US6336124B1 (en) Conversion data representing a document to other formats for manipulation and display
EP0544434B1 (en) Method and apparatus for processing a document image
US20020010719A1 (en) Method and system for generating document summaries with location information
EP0544430A2 (en) Method and apparatus for determining the frequency of words in a document without document image decoding
EP0544432A2 (en) Method and apparatus for document processing
US20030208502A1 (en) Method for determining a logical structure of a document
KR101394723B1 (ko) 문서 내의 목록들의 재구성
US7310773B2 (en) Removal of extraneous text from electronic documents
EP1729225A2 (en) Method and Apparatus for Determining Logical Document Structure
US8478046B2 (en) Signature mark detection
WO2003098370A2 (en) Document structure identifier
JPH086945A (ja) 文書の論理構造の解析方法及びシステム
US12175183B2 (en) Device dependent rendering of PDF content including multiple articles and a table of contents
JPH077410B2 (ja) 文書レイアウト方法
US12248747B2 (en) Device dependent rendering of PDF content
CN106294304B (zh) 版式文档注脚的自动识别及转换为流式文档注释的方法
JPH06203020A (ja) テキストフォーマット認識生成方法および装置
JP4808705B2 (ja) 文書情報マイニングツール
CN117313676A (zh) 一种文本数据清洗方法、系统、装置及存储介质
JPH11232439A (ja) 文書画像構造解析方法
JPH0883280A (ja) 文書処理装置
JP3744136B2 (ja) 訳語選択装置と記憶媒体
JP2829264B2 (ja) 文書レイアウト方法
JP2002297574A (ja) ルビ付与システムおよびプログラム
JPH0883285A (ja) 文字コ−ド生成方法及び文書デ−タベ−ス登録システムの前処理装置