JPH06203020A

JPH06203020A - テキストフォーマット認識生成方法および装置

Info

Publication number: JPH06203020A
Application number: JP4361390A
Authority: JP
Inventors: Minoru Ashizawa; 実芦沢
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1992-12-29
Filing date: 1992-12-29
Publication date: 1994-07-22

Abstract

(57)【要約】【目的】面倒な手作業なしに、テキストフォーマット済
みの文書に対し、テキストフォーマット情報を取り除い
て機械翻訳などの種々の変換処理を行ない、入力と同等
なテキストフォーマットを持つ変換結果文書を生成でき
るようにすることを目的とする。【構成】入力ファイルの各行の組み合わせについて一致
度を計算してページ長を推定する。ページ数と同じ行間
隔で一致度が一定値以上でありページ境界から連続する
範囲をページヘッダーあるいはページフッターであると
認識する。空白文字率が一定値以上のカラムが連続する
範囲を段組領域の境界であるとして、各ページの段組、
図表を認識して、テキストを抽出する。特定の文字の数
の比率によって、図表領域の認識と、処理不要行の認識
を行なう。変換処理した後に入力と同等のテキストフォ
ーマットを持つ変換結果文書を生成する。【効果】テキストフォーマット情報の除去作業、翻訳後
のテキストフォーマット作業の工数を低減できる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、テキストとしてフォー
マット済みの文書データから、フォーマット情報とテキ
スト情報を分離して、再合成するテキストフォーマット
認識生成方法および装置に関し、例えば、電子メールや
機械可読な媒体によって配布される文書の文字コードデ
ータ列および紙などに印刷された文書から光学的文字認
識装置によって生成した文字コードデータ列を対象とす
る自動翻訳に用いて好適であり、また、データベース構
築、キーワード抽出、その他のテキストプロセッシング
を行うための前処理として用いて好適なテキストフォー
マット認識生成方法および装置に関する。

【０００２】

【従来の技術】いわゆるワープロなどで作成された文書
における、ダブルスペース、左端設定、拡大文字などの
フォーマット（文書書式）情報は、その文書をテキスト
ファイル（フォーマット情報を含まない文字コード情報
のみのファイル）に変換した場合には、空行あるいは空
白として表現される。この変換後のテキストファイルを
解析してフォーマット情報による空白、空行を除去する
ことの必要性が、“機械翻訳電子メールシステム”（西
野文人、中村直人、情報処理学会自然言語処理研究会７
５―５（１９９０．１））において指摘されている。し
かし、その方法の実現方法については報告が無く、結局
は人間の手作業によって除去する。

【０００３】また、テキスト内に、図表や数式などがあ
る場合、その図表や数式は翻訳不要であることが多く、
これらに機械翻訳処理を行うと却って意味不明な結果と
なることが多い。このような翻訳不要部分に対しては、
前編集と呼ぶ人間の手作業によって、翻訳不要であるこ
とを示す記号をテキスト内に挿入する。

【０００４】光学的文字認識装置を用いて文書のテキス
トを認識する場合は、ページ単位に画像を読み込んだ直
後か、あるいは文字を認識した後の時点で、専用のエデ
ィタによって、段組、図表などの領域の指定と各領域の
接続の順序の指定を、人間の手作業によって行う必要が
ある。

【０００５】また、機械翻訳を行なった後に、原文の文
書構造に応じてタイトル行や段落を指定する清書用コマ
ンドを自動的に翻訳結果中に埋め込むことについては、
上記の文献“機械翻訳電子メールシステム”において、
その実現が報告されている。しかし、ページ長、ページ
ヘッダー、ページフッター、および段組などについて
は、人間の手作業によって指定し、文書のフォーマット
を再構成するしかなかった。

【０００６】

【発明が解決しようとする課題】上記従来の技術におい
て、ページヘッダー、ページフッター、段組、および図
表割り付けなどのテキストフォーマット済みのテキスト
データに対して機械翻訳を行なうためには、これらのペ
ージヘッダー、ページフッター、段組、および図表の領
域の切り出しとこれら領域の順序の指定を人間の手作業
で行う必要がある。したがって、大量のデータを処理す
るためには、多くの工数が必要であるという問題点があ
る。

【０００７】また、翻訳不要部分であることを示す記号
を挿入する前編集も人間の手作業で行う必要があるた
め、やはり大量のデータを処理するためには、多くの工
数が必要であるという問題点がある。

【０００８】さらに、翻訳結果に原文と同様の清書用コ
マンドを埋め込むためのテキストフォーマットプログラ
ムは、原文のテキストフォーマット済み文書と同等のフ
ォーマットを、翻訳結果に付与できるとは限らない。同
等のフォーマットを付与できない場合は、テキストフォ
ーマットプログラムの処理結果の文書に対して、人間の
手作業で修正を行なう必要がある。したがって、大量の
データを処理するためには多くの工数が必要であるとい
う問題点がある。

【０００９】本発明の目的は、上記従来例における問題
点に鑑み、人間の手作業で行っていた面倒な上述の各作
業を自動化することができるテキストフォーマット認識
生成方法および装置を提供することにある。

【００１０】

【課題を解決するための手段】上記目的を達成するた
め、本発明に係るテキストフォーマット認識生成方法
は、ページヘッダー付け、ページフッター付け、段組、
図表割り付けなどのテキストフォーマット済みのテキス
トファイルを入力するステップと、入力したテキストフ
ァイルのページ長を推定するステップと、ページフッタ
ーおよび／またはページヘッダーを認識するステップ
と、段組や図表などの領域を認識するステップと、認識
した領域がテキスト領域か図表領域かを表す種別を認識
するステップと、認識した領域の接続順序を決定するス
テップと、上記接続順序にしたがって、複数個の領域に
またがるテキストと図表を抽出するステップと、抽出し
たテキストと図表に対し、所定の変換を施すステップ
と、その変換結果のテキストと図表に対し、入力のテキ
ストファイルと同等のフォーマットを付与するステップ
とを備えたことを特徴とする。

【００１１】また、本発明に係るテキストフォーマット
認識生成装置は、ページヘッダー付け、ページフッター
付け、段組、図表割り付けなどのテキストフォーマット
済みのテキストファイルを入力する手段と、入力したテ
キストファイルのページ長を推定する手段と、ページフ
ッターおよび／またはページヘッダーを認識する手段
と、段組や図表などの領域を認識する手段と、認識した
領域がテキスト領域か図表領域かを表す種別を認識する
手段と、認識した領域の接続順序を決定する手段と、上
記接続順序にしたがって、複数個の領域にまたがるテキ
ストと図表を抽出する手段と、抽出したテキストと図表
に対し、所定の変換を施す手段と、その変換結果のテキ
ストと図表に対し、入力のテキストファイルと同等のフ
ォーマットを付与する手段とを備えたことを特徴とす
る。

【００１２】

【作用】本発明に係るテキストフォーマット認識生成方
法は、例えば、入力装置、表示装置、ファイル記憶装
置、翻訳装置、およびシステム装置から構成される機械
翻訳システムなどに適用する。まず、入力装置を介して
処理対象（ここでは翻訳対象）のテキストフォーマット
済み文書を入力して、ファイル記憶装置に入力ファイル
として格納する。

【００１３】システム装置は、ページ長推定方法、ペー
ジヘッダー認識方法、ページフッター認識方法、領域認
識方法、領域種別認識方法、領域接続順序決定方法、テ
キスト抽出方法、翻訳方法、テキストフォーマット生成
方法に従って処理を行なうとともに、入力装置、表示装
置、ファイル記憶装置、翻訳装置を制御する。

【００１４】ページ長推定方法は、入力ファイルの先頭
から、一部または全部の行を読み込んで、読み込んだ各
行に先頭から行番号を付けて、ある行とその行よりもフ
ァイルの末尾側にある行との一致度を計算する。その一
致度を計算した２行の行番号の差を行オフセットとし
て、一致度が一定値以上の２行の組について一致度と行
オフセットの組を蓄積する操作を各行について行ない、
その蓄積結果を行一致度計算結果とする。また、その行
一致度計算結果における行オフセットの頻度を数えて、
行オフセットをページ長と仮定した場合に読み込み行数
から計算されるページ数に対する行オフセットの頻度の
比が最も大きいような行オフセットをページ長と推定す
る。

【００１５】ページヘッダー認識方法は、行一致度計算
結果における行オフセットの中にページ長と等しい行オ
フセットがある行で、ページの開始行からファイルの末
尾に向けて連続する行を、ページヘッダーとする。ま
た、ページヘッダーとして認識した行について各ページ
ごとに一致しないカラムに数字があるとき、そのカラム
をページ番号のフィールドであると認識する。

【００１６】ページフッター認識方法は、行一致度計算
結果における行オフセットの中にページ長と等しい行オ
フセットがある行で、ページの終了行からファイルの先
頭に向けて連続する行を、ページフッターとする。ま
た、ページフッターとして認識した行について各ページ
ごとに一致しないカラムに数字があるとき、そのカラム
をページ番号のフィールドであると認識する。

【００１７】領域認識方法の作用は、次の通りである。

【００１８】入力ファイルの先頭から一部または全部を
読み込み、行長があるカラムに達しないときは、その行
のそのカラムには空白文字があるとして、また、行の終
わりを示す改行文字は空白文字であるとして、各カラム
について空白文字を数えて、読み込んだ行数に対する空
白文字数の比率が一定値以上のカラムが連続する範囲を
段組の境界と仮定する。

【００１９】次に、領域認識方法では、推定したページ
長に従って１ページを構成するデータを読み込み、各ペ
ージについて次の通りの処理を行う。

【００２０】あるカラムから別のあるカラムまでの間を
１つの段組であると仮定した場合に、ある行のその範囲
の文字がすべて空白文字であるか、または、その範囲ま
で行の長さが達しないときに、その行の直前と直後でそ
の段組の領域を分割する。

【００２１】あるカラムから別のあるカラムまでの間を
１つの段組であると仮定した場合に、ある行で、段組の
境界であると仮定したカラムに空白文字以外の文字があ
るとき、その境界を介して隣接する段組の領域があれば
それら領域はその行の直前で終了し、その行からその隣
接する段組を併せた幅の段組の領域が存在すると仮定し
て領域の認識を続ける。

【００２２】領域認識方法は、以上の様に作用する。

【００２３】領域種別認識方法は、各領域について、
‘＋’、‘−’、‘｜’、‘‖’などの図表を描くため
に多用される文字の数と、その領域の空白文字と改行文
字を除いた全文字数の比が一定値以上である領域を図表
領域であるとし、それ以外の領域をテキスト領域である
と認識する。

【００２４】領域接続順序決定方法の作用は次の通りで
ある。

【００２５】入力ファイル内のあるページ内のある領域
に対して上下に隣接する領域がある場合はそれらの領域
は上から下へ接続するものとし、左右に隣接する領域が
ある場合はそれらの領域の左側の最も下に接続する領域
から右の最も上の領域へ接続するものとし、ただしこれ
らの接続を決定する際に既に接続が確定済みの領域に対
しては再び接続はせずその接続決定済みの領域を飛ばし
て接続するとして、結果としてページ内の各領域に一列
の接続順序関係を決定する。

【００２６】次に、領域接続順序決定方法は、入力ファ
イル内のあるページ内の領域の接続順序が末尾の領域か
ら次のページの最も左側で上側の領域へ接続するものと
する。

【００２７】次に、テキスト領域の直後に図表領域が接
続する箇所のすべてについてそのテキスト領域はその図
表領域を飛ばして次の領域に接続するものとし、飛ばさ
れた図表領域については元の順序を保ってそれら図表領
域の接続順序を決定し、結果として２列の接続順序を決
定する。

【００２８】次に、あるテキスト領域の直後に別のテキ
スト領域が接続するとき、その２つのテキスト領域の間
で使用単語頻度分布の違いが大きく、領域の境界の単語
の接続が適切でなく、かつ、その別のテキスト領域より
も後方で隣接する段組にそのあるテキスト領域と使用単
語頻度分布が類似し、領域の境界の単語の接続が適切な
テキスト領域がある場合に、そのテキスト領域がそのあ
るテキスト領域の直後に接続するように、領域の接続順
序を変更する。

【００２９】領域接続順序決定方法の作用は以上の通り
である。

【００３０】テキスト抽出方法は、一連の領域からテキ
ストを抽出する際に、テキスト領域であると認識された
領域だけからテキストを抽出して、領域の接続順序にし
たがってそのテキストを連結し、テキストファイルを生
成する。図表領域からは、各領域ごとにテキストを抽出
して、それぞれテキストファイルを生成する。

【００３１】翻訳不要行認識方法は、各行について、
‘＋’、‘−’、‘×’、‘÷’、‘＾’、‘±’、等
号、不等号、‘Σ’などの数式を記述するために多用さ
れる文字や、‘｜’、‘‖’などの図表を描くために多
用される文字の数と、その行の空白文字と改行文字を除
いた全文字数との比が一定値以上である行を翻訳不要行
であると判定し、その行に翻訳不要指定を付加する。ま
た、この判定の閾値は、その行が属する領域の種別によ
って変更する。

【００３２】翻訳装置および翻訳方法は、上記の抽出し
たテキストによって生成されたテキストファイルを公知
の方法によって翻訳する。なお、本発明のテキストフォ
ーマット認識生成方法は、機械翻訳だけでなく、抽出し
たテキストや図表に対して種々の変換を施して、元の文
書と同じフォーマットで出力する場合に適用可能であ
る。

【００３３】テキストフォーマット生成方法は、以下の
通りに作用する。

【００３４】まず、接続順序が隣接するテキスト領域が
同じ段組であるときは、その領域を統合する。

【００３５】図表領域のテキストを翻訳した結果が、元
の領域が占める行数、カラム数を上回る場合には、翻訳
した結果を埋め込む領域の行数、カラム数を増加させて
翻訳結果が納まるようにして、また、その増加に伴い、
その領域に隣接する別の領域を移動あるいは縮小してペ
ージに納まるようにする。

【００３６】テキストフォーマット生成方法は、また、
テキストを翻訳した結果が、元のフォーマット済みテキ
ストの領域に納まらない場合には、認識したページヘッ
ダー、ページフッター、段組に準じたフォーマットのペ
ージを新たに生成して、その生成したページの領域に、
翻訳結果が元のフォーマット済みテキストの領域からは
み出す部分を置く。

【００３７】また、テキストを翻訳した結果を、そのテ
キストの元の領域に相当する領域に入れた後にその領域
に余白が生じたときは、その余白に空白文字あるいは改
行文字を入れる。また、あるページのすべての領域に空
白文字あるいは改行文字だけがあるとき、そのページを
削除する。

【００３８】その後、システム装置は、処理結果をファ
イル記憶装置に格納したり、表示装置を介して表示した
りする。

【００３９】

【実施例】以下、図面を用いて、本発明の実施例を説明
する。

【００４０】図１５は、本発明の一実施例に係るテキス
トフォーマット認識生成方法を適用した装置の構成を示
す。本装置は、入力装置１５００１、ファイル記憶装置
１５００２、システム装置１５００３、翻訳装置１５０
０４、および表示装置１５００５を備えている。

【００４１】翻訳を行なわせるときには、原文を入力装
置１５００１により入力し、システム装置１５００３を
介してファイル記憶装置１５００２に入力ファイルとし
て記憶する。原文は、フォーマット済みの文書をテキス
トファイルに変換したものである。システム装置１５０
０３は、この入力ファイルを読み出し、そのテキストフ
ォーマットを認識する。その後、翻訳装置１５００４に
より翻訳処理を行なう。さらに、システム装置１５００
３は、先に認識してある原文のテキストフォーマットと
同等のフォーマットを持つ翻訳結果文書を生成する。

【００４２】以下、本実施例における動作手順を詳しく
説明する。まず、原文のテキストフォーマットの認識お
よび翻訳処理に先立って、入力装置１５００１およびシ
ステム装置１５００３を介してファイル記憶装置１５０
０２に入力ファイル（原文）が格納される。

【００４３】図１に、テキストフォーマット認識方法お
よび翻訳方法を表わすフローチャートを示す。このテキ
ストフォーマット認識方法および翻訳方法は、図１５の
システム装置１５００３において動作する。

【００４４】図１６は、ファイル記憶装置１５００２に
格納されている入力ファイルのテキストデータの一例で
ある。説明を理解しやすくするために、この図に示すデ
ータに対して、テキストフォーマットの認識処理および
翻訳処理を行なうことを仮定する。

【００４５】図１６のテキストは、行１６００１〜行１
６０４６に示すように、４６行のデータである。付番１
６０４７の‘▽’に示すように、改行文字を‘▽’で示
すものとする。この‘▽’が各行の右端である。各行の
左端は、行１６００２の左端の‘１’の位置である。

【００４６】行１６００１、行１６００３、行１６０１
５、行１６０２１、行１６０２３、行１６０２４、行１
６０２６、行１６０４４、および行１６０４６は、行の
左端に改行文字があり、これらの行には通常の文字デー
タは無い。行１６００４〜行１６０１４、行１６０１６
〜行１６０２０、行１６０２２、行１６０２７〜行１６
０４３、および行１６０４５は、行の左端からこの図に
おいて見える文字の直前まで空白文字が満たされいる。

【００４７】図１６において、テキストを表わす文字は
適当な数字および記号‘：’で図示しているが、これは
説明を簡単にするためであり、実際は各種の文字が用い
られているものとする。

【００４８】次に、図１を参照して、テキストフォーマ
ット認識方法および翻訳方法の手順を具体的に説明す
る。

【００４９】まず、ページ長推定ステップ１００１にお
いて、入力ファイルの一部あるいは全部を読み込んで、
入力ファイルのテキストフォーマットのページ長を推定
する。このステップの詳細は、図２、図３、図４を参照
して後述する。次に、ステップ１００２でページヘッダ
ーを認識し、ステップ１００３でページフッターを認識
する。ページヘッダー認識ステップ１００２の詳細は図
５を参照して後述する。ページフッター認識ステップ１
００３の詳細は図６を参照して後述する。

【００５０】次に、ステップ１００４で段組などの領域
を認識し、ステップ１００５で領域の種別を認識し、ス
テップ１００６で領域の接続順序を決定する。領域認識
ステップ１００４の詳細は、図７、図８を参照して後述
する。領域種別認識ステップ１００５の詳細は、図９を
参照して後述する。領域接続順序決定ステップ１００６
の詳細は、図１０、図１１を参照して後述する。

【００５１】次に、ステップ１００７でテキストおよび
図表を抽出する。テキスト、図表抽出ステップ１００７
の詳細は、図１２を参照して後述する。次に、ステップ
１００８で翻訳不要部分を認識し、ステップ１００９で
機械翻訳処理を行なう。そして、ステップ１０１０でテ
キストフォーマットを生成し、機械翻訳の結果にフォー
マットを付与して、処理を終了する。翻訳不要部分認識
処理ステップ１００８の詳細は、図１３を参照して後述
する。テキストフォーマット生成処理の詳細は、図１４
を参照して後述する。

【００５２】次に、図２、図３および図４を参照して、
図１のステップ１００１のページ長推定ステップについ
て説明する。

【００５３】まず、図２のステップ２００１において、
既入力行群バッファを空にする。この既入力行群バッフ
ァとは、入力ファイルをファイル記憶装置１５００２か
らシステム装置１５００３に読み込んで蓄積するバッフ
ァである。なお、簡単のため、図では「バッファ」とい
う語を省略し、単に「既入力行群」と記載してある。他
のバッファやカウンタなどについても同様とする。

【００５４】次に、ステップ２００２において、現入力
行番号カウンタの値を０に設定する。現入力行番号カウ
ンタとは、既入力行群に蓄積するデータの行に番号を付
けるためのカウンタである。次に、ステップ２００３に
おいて、行一致度計算結果バッファを空にする。行一致
度計算結果バッファとは、ページ長を推定するために様
々な行の組について一致度を計算した結果を蓄積するバ
ッファである。

【００５５】続いて、図３のステップ３００１〜ステッ
プ３００６において、入力ファイルの行を読み込みなが
ら、行の組について一致度を計算する。

【００５６】まず、判定ステップ３００１において、処
理中の入力ファイルの始めの３００行を既に処理した
か、ファイルの終わりに達したかを調べる。３００行と
したのは、３００行程度読み込めばほとんどの場合ペー
ジの推定が可能であるからである。現時点では、まだ１
行も読み込んでいないのでこの条件は成立せず、ステッ
プ３００２に進む。

【００５７】ステップ３００２において、入力ファイル
から１行を読み込んで、そのデータを現入力行バッファ
に格納する。現時点では、図１６の行１６００１のデー
タが現入力行となる。続くステップ３００３において、
現入力行番号カウンタの値に１を加える。現時点では、
現入力行番号カウンタの値は０であるから、このステッ
プ３００３において、その値は１となる。

【００５８】次のステップ３００４において、既入力行
群バッファに格納されている各行と現入力行バッファに
格納されている現入力行との一致度を計算する。現時点
では既入力行群バッファは空であるから、このステップ
における一致度の計算は行われない。一致度は計算して
いないので、一致度を行一致度計算結果バッファに追加
することも無い。

【００５９】次のステップ３００５において、現入力行
番号カウンタの現入力行番号と現入力行バッファの現入
力行データである（現入力行番号，現入力行）の組デー
タを既入力行群バッファに追加する。そして、ステップ
３００１に進む。

【００６０】現時点ではステップ３００１を経て、ステ
ップ３００２に進む。

【００６１】ステップ３００２において、入力ファイル
から次の１行を現入力行バッファに読み込んで、そのデ
ータを現入力行とする。現時点では、図１６の行１６０
０２のデータが現入力行となる。続くステップ３００３
において、現入力行番号カウンタの値に１を加える。現
時点では、現入力行番号の値は１であるから、このステ
ップ３００３において、その値は２となる。

【００６２】次のステップ３００４において、既入力行
群バッファに格納されている行と現入力行との一致度を
計算する。現時点では既入力行群バッファには行１６０
０１が格納されているから、このステップでは、現入力
行すなわち行１６００２と行１６００１の一致度を計算
して、その値を行一致度バッファに設定する。

【００６３】行の一致度とは、２つの行について、同一
カラムが同じ文字であるカラム数をこの２つの行の長さ
の平均で割った結果と定義する。行１６００１と行１６
００２では、同一カラムが同じ文字であるカラムは無い
ので一致度は０であり、この値を行一致度バッファに設
定する。一致度の値が０なので、行一致度計算結果バッ
ファにデータを追加することは無い。本実施例では、一
致度の値が０．７５以上の場合に、このステップで行一
致度計算結果バッファにデータを追加するものとする。

【００６４】次のステップ３００５において、（現入力
行番号，現入力行）の組データを既入力行群バッファに
追加する。この結果、既入力行群バッファには、行１６
００１と行１６００２と、これらの行の行番号が格納さ
れる。そして、ステップ３００１に進む。

【００６５】ここで再びステップ３００１を経て、ステ
ップ３００２に進む。

【００６６】ステップ３００２において、入力ファイル
から次の１行を現入力行バッファに読み込んで、そのデ
ータを現入力行とする。現時点では、図１６の行１６０
０３のデータが現入力行となる。続くステップ３００３
において、現入力行番号カウンタの値に１を加える。現
時点では、現入力行番号の値は２であるから、このステ
ップ３００３において、その値は３となる。

【００６７】次のステップ３００４において、既入力行
群バッファに格納されている行と現入力行との一致度を
計算する。現時点では既入力行群バッファには行１６０
０１、行１６００２が格納されているから、このステッ
プでは、これらの行と現入力行すなわち行１６００３と
の一致度をそれぞれ計算して、その値を行一致度バッフ
ァに設定する。

【００６８】行１６００１と行１６００３との比較で
は、左端のカラムが同じ改行文字であるから、一致度は
１であり、この値を一致度バッファに設定する。なお、
改行文字は１文字とカウントするものとする。行１６０
０１と行１６００３との２行は一致度が一定値０．７５
以上であるから、行オフセットは、行１６００１の行番
号１と行１６００３の行番号３の差の２である。そこ
で、（既入力行番号，行オフセット，一致度）の３つの
データの組、すなわち（１，２，１）を行一致度計算結
果バッファに追加する。

【００６９】図１７に、行一致度計算結果バッファの格
納データの例を示す。１７００７に、いま追加された組
データ（１，２，１）を示す。この図１７では、計算過
程および結果がわかり易いように、既入力行番号１７０
０２、行オフセット１７００３、および一致度１７００
６の他に、通し番号１７００１、一致カラム数１７００
４、および行長（２行の行長の平均）１７００５を同時
に示してある。

【００７０】同じステップ３００４では、現入力行であ
る行１６００３と既入力行群バッファにあるすべての行
との一致度を計算するので、行１６００２と行１６００
３の一致度を次に計算する。この２行には同一カラムで
同じ文字があるカラムは無いので、一致度は０である。
したがって、この２行については図１７の行一致度計算
結果には何も追加しない。

【００７１】次のステップ３００５において、（現入力
行番号，現入力行）の組データを既入力行群バッファに
追加する。この結果、既入力行群バッファには、行１６
００１、行１６００２、および行１６００３と、これら
行の行番号が格納される。そして、ステップ３００１に
進む。

【００７２】以下、同様にして行を読み込みながら既入
力行群バッファの各行と現入力行との一致度を計算し、
一致度が０．７５以上であるものについて、図１７の行
一致度計算結果にデータを追加する。図１７は、図１６
の入力ファイルから上述したように行一致度を計算した
結果を示す。

【００７３】図１６の行１６００４６を読み込んで、ス
テップ３００４、およびステップ３００５を経た後に再
び判定ステップ３００１に到達すると、ファイルの終わ
りに達したので、ステップ３００６に進む。ステップ３
００６において、実際に読み込んだ行数を読み込み行数
カウンタに設定する。現時点では、その値は４６であ
る。

【００７４】次に、図４のステップ４００１に進む。ス
テップ４００１において、ページ長推定計算結果バッフ
ァを空にする。ページ長推定計算結果バッファとは、行
一致度計算結果を統計的に処理した結果を格納するバッ
ファである。

【００７５】ステップ４００２において、行一致度計算
結果（図１７）について以下の処理を行う。まず、行オ
フセットが等しい組データの数を行オフセット頻度とす
る。読み込み行数を行オフセット頻度で割った結果を期
待ページ数とし、行オフセット頻度を期待ページ数で割
った結果を信頼度とする。各行オフセットの値ごとに、
（行オフセット，行オフセット頻度，期待ページ数，信
頼度）を組とするデータを作成し、ページ長計算結果バ
ッファに追加する。現時点での、このステップの結果を
信頼度の降順に整列した結果を図１８に示す。

【００７６】次のステップ４００３において、ページ長
の推定結果を決定する。つまり、図１８のページ長推定
計算結果について、信頼度が１以上であり最大である組
データの行オフセットの値を、ページ長バッファに設定
する。信頼度の最大値が１未満であるときは読み込み行
数の値をページ長バッファに設定する。現時点では、１
８００１に示すように信頼度の最大値は３であるから、
その組データの行オフセットの値２３をページ長とす
る。

【００７７】次のステップ４００４において、既入力行
群バッファの各行のうち最長の行長を有するものを検出
しその行長を最大行長バッファに設定する。このとき、
行の長さには行末の改行文字を含める。現時点では、図
１６を見れば分かるように、最大行長は５３である。

【００７８】以上で図１のページ長推定ステップ１００
１の動作を終わる。

【００７９】次に、ページヘッダー認識ステップ１００
２に進む。図５を参照して、このステップの詳細を説明
する。まずステップ５００１において、既入力行群バッ
ファの先頭から順に下向きに各行を見て、行一致度計算
結果（図１７）内に、それらの行の行番号が既入力行番
号と等しくてその行オフセットの値がページ長と等しい
組データがあって、また、既入力行群バッファの先頭か
らそのような行が連続する範囲を検出する。検出された
行をページヘッダーであると認識して、ページヘッダー
格納領域にコピーする。以下、このコピーして格納され
たデータを単にページヘッダーと呼ぶ。

【００８０】さらに、ページヘッダーとして認識した各
行と、ページ長に等しい行数分だけ下の行とを比較し、
文字が一致しないカラムに数字があるときはそのカラム
をページ数であると認識して、ページヘッダーのそのカ
ラムの文字を‘＄’にする。

【００８１】現時点では、既入力行群バッファの先頭か
ら下向きに見て行が連続する範囲で、行一致度計算結果
の中の行オフセットの値がページ長の値２３と等しいも
のには、図１７の１７００８、１７００９、１７０１０
がある。１７００８の行番号は１であるからこれは図１
６の行１６００１を示す。１７００９の行番号は２であ
るからこれは行１６００２を示す。１７０１０の行番号
は３であるからこれは行１６００３を示す。したがっ
て、この３行をページヘッダーであると認識してページ
ヘッダー格納領域にコピーする。

【００８２】次に、この同じステップ５００１でこれら
ページヘッダーの各行と、ページ長の値２３に等しい行
数だけ下の行と比較する。すなわち行１６００１と行１
６０２４を比較し、行１６００２と行１６０２５を比較
し、行１６００３と行１６０６を比較する。この結果、
行１６００２と行１６０２５の間で、４１カラム目が異
なっておりそのカラムの文字は数字であるから、これを
ページ数であると認識して、ページヘッダーのこのカラ
ムの文字を‘＄’に変更する。

【００８３】続くステップ５００２において、既入力行
群でページヘッダーとして認識された行の次の行の行番
号をテキスト上限番号として設定する。現時点では、ペ
ージヘッダーとして認識された行は、行１６００１、行
１６００２、行１６００３であるから、その次の行１６
００４の行番号４をテキスト上限番号として設定する。

【００８４】以上で図１のページヘッダー認識ステップ
１００２の動作を終わる。

【００８５】次に、ページフッター認識ステップ１００
３に進む。図６を参照して、このステップの詳細を説明
する。このページフッター認識ステップにおける動作
は、図５のページヘッダー認識ステップ１００２の動作
手順とほぼ同等である。

【００８６】まずステップ６００１において、既入力行
群の中のページ長と等しい行番号の行をページ末尾行と
する。現時点では、行１６０２３がページ末尾行とな
る。次に、ページ末尾行から順に上向きに各行を見て、
行一致度計算結果（図１７）内に、それらの行の行番号
が既入力行番号と等しくてその行オフセットの値がペー
ジ長と等しい組データがあって、また、ページ末尾行か
らそのような行が連続する範囲を検出する。検出された
行をページフッターであると認識して、ページフッター
格納領域にコピーする。以下、このコピーして格納され
たデータを単にページフッターと呼ぶ。

【００８７】現時点では、ページ末尾行から上向きに見
て行が連続する範囲で、行一致度計算結果の中の行オフ
セットの値がページ長の値２３と等しいものには、図１
７の１７０１１、１７０１２、１７０１３がある。１７
０１１の行番号は２１であるからこれは行１６０２１を
示す。１７０１２の行番号は２２であるからこれは行１
６０２２を示す。１７０１３の行番号は２３であるから
これは行１６０２３を示す。したがって、この３行をペ
ージフッターであると認識してページフッター格納領域
にコピーする。

【００８８】次に、この同じステップ６００１でページ
フッターとして認識した各行と、ページ長に等しい行数
分だけ下の行とを比較し、文字が一致しないカラムに数
字があるときはそのカラムをページ数であると認識し
て、ページフッターのそのカラムの文字を‘＄’にす
る。

【００８９】現時点では、ページフッターの各行と、ペ
ージ長の値２３に等しい行数だけ下の行と比較する。す
なわち行１６０２１と行１６０４４を比較し、行１６０
２２と行１６０４５を比較し、行１６０２３と行１６０
４６を比較する。この結果、行１６０２２と行１６０４
５の間で、２２カラム目が異なっておりそのカラムの文
字は数字であるから、これをページ数であると認識し
て、ページフッターのこのカラムの文字を‘＄’に変更
する。

【００９０】続くステップ６００２において、既入力行
群でページフッターとして認識された行の直前の行の行
番号をテキスト下限番号に設定する。現時点では、ペー
ジフッターとして認識された行は、行１６０２１、行１
６０２２、行１６０２３であるからその直前の行１６０
２０の行番号２０をテキスト下限番号に設定する。

【００９１】以上でページフッター認識ステップ１００
３の動作を終わる。

【００９２】図１９は、上述したページ長、ページヘッ
ダー、およびページフッターの推定および認識の結果を
示す。

【００９３】次に、領域認識ステップ１００４に進む。
図７および図８を参照して、このステップの詳細を説明
する。

【００９４】まず、ステップ７００１において、既入力
行群バッファの各行について、ある行の行長があるカラ
ムに達しない場合にはそのカラムには空白文字があると
見なして、カラムごとに（すなわち図１６でいえば縦方
向に）空白文字を数える。改行文字は空白文字と見な
す。タブ文字は、そのタブを必要な数の空白文字に展開
してあるものとする。次に、ステップ７００２におい
て、既入力行群の各行について、カラムごとの空白文字
の数を読み込み行数で割った結果を空白文字率とする。

【００９５】図２０は、現時点のステップ７００１およ
びステップ７００２の処理結果であるカラム別空白文字
率計算結果を空白文字率の降順に整列した結果を示す。

【００９６】次に、ステップ７００３において、空白文
字率が一定値以上のカラムが連続する範囲を段組の境界
であると認識して、各段組の開始カラムおよび終了カラ
ムを決定する。その結果を基本段組認識結果として格納
する。

【００９７】現在の実施例では、空白文字率の一定値を
０．７５以上とする。現時点では、この範囲にありカラ
ムが連続する範囲は、図２０の２０００１に示す５３カ
ラム目と、２０００２〜２０００３に示す１カラム目〜
２カラム目と、２０００４〜２０００５に示す２５カラ
ム目〜２６カラム目が、段組の領域の境界であると認識
できる。したがって、段組は３カラム目〜２４カラム目
と２７カラム目〜５２カラム目の２つである。図２１
は、このようにして認識した結果である基本段組領域認
識結果を示す。

【００９８】次に、図８のステップ８００１において、
入力ファイルをオープンし直して、再び入力ファイルの
先頭から読み込めるようにする。そして、ステップ８０
０２において、ページ番号カウンタの値を０にする。

【００９９】判定ステップ８００３を経て、ステップ８
００４において、ページ番号カウンタの値に１を加え
る。現時点では、ページ番号カウンタの値は１となる。

【０１００】次に、ステップ８００５において、入力フ
ァイルからページ長で示される行数を読み込む。この例
では、行１６００１〜行１６０２３を読み込むこととな
る。続くステップ８００６において、この読み込んだ１
ページ分のデータを解析してページ内の領域を認識す
る。

【０１０１】ステップ８００６においては、ページヘッ
ダー、ページフッター、テキスト上限行番号、テキスト
下限行番号、および基本段組領域認識結果の内容を元に
して、テキストおよび図表の存在する範囲を仮定し、ま
た段組の境界のカラムの範囲を仮定して、ページ内の領
域の認識結果を個別ページ領域認識結果に格納する。こ
こで領域の切れ目の認識は、以下（ｉ）、（ｉｉ）の通
りに行なう。改行文字は空白文字として扱う。

【０１０２】（ｉ）ある行である段組が存在すると仮
定した１つのカラムの範囲内の文字（すなわち、その行
に直前行と同じ段組が存在するなら文字があると思われ
る範囲）がすべて空白文字である場合にその行は領域の
切れ目であるとする。つまり、その行の直前に領域があ
ればその領域はその行の直前で終了し、その行の直後か
ら別の領域が始まるものとする。

【０１０３】（ｉｉ）ある行で段組の境界であると仮
定したカラムが空白文字でない場合には、その行は基本
段組領域認識結果とは異なる領域を構成するものとす
る。つまり、その境界を介して隣接する領域があれば、
その行の直前でそれらの領域は終了して、その行からは
その隣接する領域を合わせた幅の領域が始まると仮定す
る。

【０１０４】現時点、すなわち１ページ目の領域認識結
果は、図２２の個別ページ領域認識結果の２２００９、
２２０１０、２２０１１である。これを図形的に記述し
たものを図２３の２３００１に示す。図２２の個別ペー
ジ領域認識結果の、開始行２２００１、終了行２２００
２、開始カラム２２００４、終了カラム２２００５は、
図１６に示す入力ファイルにおける領域の存在範囲を示
すものである。各行のページ２２００３は、現時点での
ページ番号の値である。領域種別２２００６、次領域２
２００７、次接続種別２２００８は、後の処理において
データを入れるので、現時点では空または終端を示す
‘―’である。

【０１０５】ステップ８００６を終了して、再び判定ス
テップ８００３を経て、ステップ８００４に進む。

【０１０６】ステップ８００４において、ページ番号カ
ウンタの値に１を加える。現時点では、その値は２とな
る。

【０１０７】次に、ステップ８００５において、入力フ
ァイルからページ長で示される行数、すなわち２３行の
データを読み込む。この例では、行１６０２４〜行１６
０４６を読み込むこととなる。次のステップ８００６に
おいて、この２ページ目のデータを解析して領域を認識
する。このステップの結果は、図２２の２２０１２、２
２０１３、２２０１４、２２０１５に示す。これを図形
的に記述したものを図２３の２３００２に示す。

【０１０８】ステップ８００６を終了して、再び判定ス
テップ８００３に進む。今回は、既に入力ファイルの終
わりに到達しているので、図８のフローチャート、すな
わち領域認識ステップ１００４の動作を終了する。

【０１０９】次に、領域種別認識ステップ１００５に進
む。図９を参照して、このステップの詳細を説明する。

【０１１０】まず、ステップ９００１において、図７，
８のように認識した各領域について、‘＋’、‘―’、
‘｜’、‘‖’など図表を構成する文字の数と、空白文
字と改行文字以外の文字の数との比率を調べて、その結
果が一定値以上である場合は、その領域の種別を図表領
域とする。それ以外をテキスト領域であるとする。

【０１１１】現在の実施例では、このステップにおける
領域種別のための閾値を０．６とする。現在の入力ファ
イルにおいては、図２２の２２０１１で示される領域、
すなわち図１６の行１６０１６〜行１６０２０の３カラ
ム目〜５２カラム目の領域において、上記の図表を構成
する文字の数が１３４文字であり、空白文字と改行文字
を除く文字の数は、１５５文字であるから、その比率は
０．８６となり、この領域の種別は図表領域とされる。
他の領域には上記の上記の図表を構成する文字は含まれ
ないので、それらの領域の種別はテキスト領域であると
される。

【０１１２】図２４に、領域の種別を認識した結果を示
す。領域種別２４００１の欄には、２４００２が示す領
域についてだけ「図表」とあり、これは図表領域である
ことを示す。この領域は、図２２において２２０１１で
示したものである。他の領域の領域種別２４００１の欄
には「テキスト」とあり、これはテキスト領域であるこ
とを示す。

【０１１３】以上で、領域種別認識ステップ１００５の
動作を終了する。

【０１１４】次に、領域接続順序決定ステップ１００６
に進む。図１０および図１１を参照して、このステップ
の詳細を説明する。

【０１１５】まず、ステップ１０００１において、入力
ファイル内の各ページについて、ページ内のある領域に
対して上下に隣接する領域がある場合はそれらの領域は
上から下へ接続するものとする。左右に隣接する領域が
ある場合は、それらの領域の左側の最も下に接続する領
域から右の最も上の領域へ接続するものとする。この領
域の接続の決定は、上から下へ、左から右へ決定してい
き、既に接続済みの領域に対しては再び接続せずその接
続決定済みの領域を飛ばして接続するとして、ページ内
の各領域に一列の接続順序を決定する。

【０１１６】次のステップ１０００２において、入力フ
ァイル内の各ページ間の領域の接続は、あるページ内の
領域の接続順序が末尾の領域から次のページの最も左側
で上側の領域に接続するものとする。

【０１１７】図２５は、現在の入力ファイル（図１６）
に対するこのステップ１０００１とステップ１０００２
の認識結果を示す。次領域２５００２の欄の番号は、欄
２５００１の領域番号の値で表わすものとする。これに
よって、この入力ファイル内の各領域の接続順序が一列
に決定される。２５００３の‘―’は、この時点では、
接続順序の終端を表わす。

【０１１８】図２６は、図２５の接続順序を図形的に記
述したものを示す。

【０１１９】次に、図１１のステップ１１００１に進
む。このステップ１１００１において、領域の一列の接
続順序をたどって、領域の種別ごとに異なる列の接続順
序を作成する。つまり、２列（テキスト領域の列と図表
領域の列）の接続順序を作成する。テキスト領域に関す
る一連の列に含まれる各領域をテキスト主領域と呼び、
その接続順序の先頭をテキスト主領域の先頭領域として
設定する。図表領域に関する一連の列に含まれる各領域
を図表副領域と呼び、その接続順序の先頭を図表副領域
の先頭領域として設定する。各々の列の順序は、元の一
列の接続順序における順序を保存して、順序付けするも
のとする。

【０１２０】図２７および図２８の次領域２８００１の
欄に、現在の入力ファイルに対するステップ１１００１
の結果を示す。図２９に、この結果を図形的に記述した
ものを示す。

【０１２１】次のステップ１１００２において、あるテ
キスト領域の直後に別のテキスト領域が接続するとき、
その２つの領域の間で使用単語頻度分布の違いが大き
く、領域の境界の単語の接続が適切でなく、かつ、その
後接するテキスト領域よりも後方で隣接する段組の領域
でそのあるテキスト領域と使用単語頻度分布が類似して
領域境界単語接続が適切であるテキスト領域があるかど
うかを調べる。そして、そのような領域が存在すれば、
その領域をそのある領域の直後に接続するように接続順
序を変更する。

【０１２２】現在の入力ファイルでは、各領域の単語に
ついては考慮していないので、このステップの作用に対
する具体例は省略する。もし、このステップの効果が現
在の入力ファイルに対してあるとすれば、それは、例え
ば図２９の第４の領域２９００４から第６の領域２９０
０６に接続しているところを、第４の領域２９００４か
ら第５の領域２９００５に接続するように変更するもの
である。

【０１２３】次のステップ１１００３において、同一ペ
ージ内で領域が基本段組領域認識結果に従い上下で接続
する場合は上側の領域の次接続種別を同一段組とする。
それ以外は、次接続種別を別段組とする。

【０１２４】図２８の次接続種別２８００２の欄に、現
在の入力ファイルに対するステップ１１００３の結果を
示す。第４の領域から第６の領域への接続２８００３、
第５の領域から第７への領域への接続２８００４が同一
段組である。

【０１２５】以上で領域接続順序決定ステップ１００６
の動作を終了する。

【０１２６】次に、テキスト・図表抽出ステップ１００
７に進む。図１２を参照して、このステップの詳細を説
明する。まず、ステップ１２００１において、テキスト
主領域が示す領域のリストをたどり、各領域からデータ
を抽出して連結してテキストファイルを作成する。ただ
し、次接続種別が同一段組であるときは連結せず、別の
テキストファイルとする。

【０１２７】現在の入力ファイルでは、図２７、図２
８、および図２９に示すように、まず、第１の領域２９
００１、第２の領域２９００２、および第４の領域２９
００４が次接続種別が別段組で接続しているので、これ
らの領域からデータを抽出して連結してテキストファイ
ルを作成する。その結果を図３０に示す。第１の領域２
９００１は３０００１に対応し、第２の領域２９００２
は３０００２に対応し、第４の領域２９００４は３００
０３に対応する。

【０１２８】第４の領域２９００４から第６の領域２９
００６への接続は、図２８の２８００３に示すように同
一段組なので、第６の領域からは別のファイルに格納す
る。また、第６の領域２９００６と第５の領域２９００
５とは、次接続種別が別段組で接続しているので、この
２つの領域からデータを抽出して連結し、テキストファ
イルを作成する。その結果を図３１に示す。第６の領域
２９００６は３１００１に対応し、第５の領域２９００
５は３１００２に対応する。

【０１２９】第５の領域から第７の領域への接続は、同
一段組なので、第７の領域２９００７からは別のファイ
ルに格納する。第７の領域の次は終端なので、第７の領
域だけからデータを抽出してファイルに格納する。その
結果を図３２に示す。

【０１３０】次のステップ１２００２において、図表副
領域のリストをたどり、各領域からデータを抽出して図
表ファイルを作成する。図表副領域のリストの各領域か
ら抽出したデータは、それぞれ、別々の図表ファイルに
する。現在の入力ファイルでは、図表副領域は第３の領
域２９００３を示し、その次は終端であるから、この領
域からデータを抽出して図表ファイルに格納する。その
結果を図３３に示す。

【０１３１】以上でテキスト・図表抽出ステップ１００
７の動作を終了する。

【０１３２】次に、翻訳不要部分認識ステップ１００８
に進む。図１３を参照して、このステップの詳細を説明
する。

【０１３３】まず、ステップ１３００１において、領域
種別がテキスト領域である領域から抽出した各テキスト
ファイルの各行について、‘＋’、‘−’、‘｜’、
‘‖’など図表を構成する文字や、等号、不等号、
‘／’、‘＊’、‘Σ’、‘±’、‘÷’、‘×’、数
字など、数式を構成する文字の数と、その行の空白文字
と改行文字を除いた文字の数の比率が一定値以上である
行を翻訳不要行であると認識して、その行の翻訳不要指
定を挿入する。

【０１３４】現在の入力ファイルでは、テキスト領域か
ら抽出したテキストファイルは図３０、図３１、図３２
の３個であるが、このステップの処理の結果、変化があ
るものは図３０のテキストファイルだけであるとする。
ステップ１３００１の処理結果を図３４に示す。３４０
０１、３４００２、３４００３、３４００４に示す行が
翻訳不要行であると認識された行であり、翻訳不要指定
である‘<<’と‘>>’が挿入されている。

【０１３５】次のステップ１３００２において、領域種
別が図表領域である領域から抽出した各テキストファイ
ルの各行について、‘＋’、‘−’、‘｜’、‘‖’な
ど図表を構成する文字や、等号、不等号、‘／’、
‘＊’、‘Σ’、‘±’、‘÷’、‘×’、数字など、
数式を構成する文字がある行を翻訳不要行であると認識
して、その行に翻訳不要指定を挿入する。現在の入力フ
ァイルでは、図表領域から抽出した図表ファイルは図３
３の図表ファイルだけであり、その結果を図３５に示
す。

【０１３６】以上で翻訳不要部分認識ステップ１００８
の動作を終了する。

【０１３７】次に翻訳ステップ１００９に進む。このス
テップにおいて、図３４、図３１、図３２に示すテキス
トファイルと図３５に示す図表ファイルをそれぞれ機械
翻訳処理してその結果を別々のファイルに格納する。こ
のステップにおける翻訳処理は公知の翻訳方法によって
動作するので、その詳細の説明は省略する。

【０１３８】次に、テキストフォーマット生成ステップ
１０１０に進む。図１４を参照して、このステップの詳
細を説明する。

【０１３９】まず、ステップ１４００１において、個別
ページ領域認識結果（図２８）について、テキスト主領
域が示すテキスト領域のリストをたどり、次接続種別が
同一段組である領域を１つの領域に統合する。その結果
をターゲット文書領域生成結果とする。このステップに
より、図２８が図３６に示すように変更される。第４の
領域３６００１と第５の領域３６００２の終了カラム３
６００３の欄の値が変更され、また、統合された第６の
領域２８００５と第７の領域２８００６が削除される。
図３７は、図３６の内容を図形的に記述したものであ
る。

【０１４０】次に、ステップ１４００２において、各図
表ファイルの翻訳結果を、図表副領域で示される各図表
領域の、データの抽出元の領域に埋め込む。このとき、
翻訳結果が埋め込み先の領域に納まらない場合には、埋
め込み先の領域を拡張し、それに応じて同一ページ内の
他の領域を縮小する。現在の入力ファイルに関しては、
第３の領域の抽出結果である図３５の図表ファイルを埋
め込む。現時点の入力ファイルに対する処理では、この
埋め込みに際しては、領域の拡張は必要がないものとす
る。

【０１４１】次に、ステップ１４００３において、各テ
キストファイルの翻訳結果を、ファイルの境界に空行を
入れて連結して、テキスト主領域で示される領域に、順
に埋め込む。すべてのテキストファイルの翻訳結果を埋
め込んで領域が余るときは、改行文字または空白文字を
満たす。テキスト領域が不足する場合は、ページ長推
定、ページヘッダー認識、ページフッター認識の各結果
および基本段組領域認識結果に沿って新しいページと段
組領域を生成する。ページヘッダー、ページフッターに
ページ番号指定‘＄’があれば、生成したページのペー
ジ番号指定を、適切なページ番号に置き換える。

【０１４２】図３８および図３９は、現在の入力ファイ
ル（図１６）に対するこれらのステップの結果を示す。
これは、第３のページ３９００１に示すように、新たな
ページを生成した場合の例である。

【０１４３】次に、ステップ１４００４において、すべ
ての領域が改行文字あるいは空白文字だけで満たされて
いるページを削除する。現在の例では、図３８および図
３９に示すように、該当するページは無いので、このス
テップによる変化は無い。

【０１４４】以上でテキストフォーマット生成ステップ
１０１０の動作を終了し、したがって、図１のテキスト
フォーマット認識生成方法（および機械翻訳処理）の動
作を終了する。

【０１４５】以上で本発明の一実施例の説明を終わる。

【０１４６】次に、上記実施例に対する変形例を説明す
る。上記実施例では、領域を認識する際の領域の切れ目
の条件に、領域があると仮定した範囲がすべて空白文字
である場合を挙げた。しかし、これに加えて、領域があ
ると仮定した範囲である行の左側が一定以上の個数の空
白文字である場合に、その行の直前で領域の切れ目とす
る条件を加えることができる。これにより、つまり段落
の始めに字下げがある場合に、その直前の行で領域を分
割することができる。

【０１４７】次に、上記実施例では、段組を認識すると
きに、入力ファイルの一部または全部を読み込んで、各
カラムの空白文字を数えて空白文字率を計算し、その率
が高いカラムが連続する範囲を段組領域の境界であると
認識するとした。これを、特定の範囲の連続する行につ
いて、各カラムの各文字の頻度を計算し、その連続する
行で空白文字でなくても同じ文字がある率が高いカラム
を段組領域の境界であると認識するようにしてもよい。

【０１４８】これにより、例えば、電子メールにおいて
行の左端に‘＞’を付けることで引用部分であることを
表示することがあるが、この引用部分を領域として認識
することができる。また、特に図表の線を構成する文字
を段組領域の境界と成り得る文字として領域を認識すれ
ば、上記実施例の入力ファイル（図１６）の行１６０１
６〜行１６０２０のような表のセルの内部を領域として
認識することができ、したがって、表の構成を保存して
その内容を翻訳することができる。

【０１４９】次に、上記実施例では、ある行において段
組領域の境界であると仮定したカラムに空白文字あるい
は改行文字以外の文字があるときは、その境界を介して
隣接する２つの領域の幅の領域が始まるものと仮定する
とした。これを、その行から特定の範囲の行についてカ
ラムごとの空白文字率を計算することで、段組領域の境
界を認識するようにしてもよい。これにより、より複雑
な領域構成のテキストを認識できる。

【０１５０】また、上記実施例では、入力ファイルのテ
キストフォーマットを認識して、翻訳した後に同じテキ
ストフォーマットの翻訳結果テキストを生成するとし
た。これを、テキストフォーマットを認識した後に、抽
出したテキストファイルを連結した結果の中に、タグ
（清書用コマンド）付のデータとしてテキストフォーマ
ットの認識結果を挿入するようにしてもよい。これによ
り、テキストフォーマットの変形および加工が容易にな
る。

【０１５１】

【発明の効果】以上説明したように、本発明によれば、
ページフォーマットされた文書データを機械翻訳する場
合などにおいて、その入力文書からテキストフォーマッ
トを認識するとともに、翻訳結果の文書に対して元のペ
ージフォーマットを付与して、入力文書と同等なテキス
トフォーマットを持つ翻訳文書を生成することができ
る。したがって、従来は手作業で行なっていた面倒な作
業を自動化できるという効果がある。また、入力ファイ
ルがワードプロセッサとテキストフォーマッターなどに
よって作成されたデータである場合に限らず、印刷物を
光学的文字認識装置などで認識した結果を入力ファイル
とする場合にも有効である。

【図面の簡単な説明】

【図１】本発明のテキストフォーマット認識生成方法の
処理フローチャートである。

【図２】本発明のテキストフォーマット認識生成方法の
一部分であるページ長推定方法の処理フローチャートの
一部である。

【図３】本発明のテキストフォーマット認識生成方法の
一部分であるページ長推定方法の処理フローチャートの
一部である。

【図４】本発明のテキストフォーマット認識生成方法の
一部分であるページ長推定方法の処理フローチャートの
一部である。

【図５】本発明のテキストフォーマット認識生成方法の
一部分であるページヘッダー認識方法の処理フローチャ
ートである。

【図６】本発明のテキストフォーマット認識生成方法の
一部分であるページフッター認識方法の処理フローチャ
ートである。

【図７】本発明のテキストフォーマット認識生成方法の
一部分である領域認識方法の処理フローチャートの一部
である。

【図８】本発明のテキストフォーマット認識生成方法の
一部分である領域認識方法の処理フローチャートの一部
である。

【図９】本発明のテキストフォーマット認識生成方法の
一部分である領域種別認識方法の処理フローチャートで
ある。

【図１０】本発明のテキストフォーマット認識生成方法
の一部分である領域接続順序認識方法の処理フローチャ
ートの一部である。

【図１１】本発明のテキストフォーマット認識生成方法
の一部分である領域接続順序認識方法の処理フローチャ
ートの一部である。

【図１２】本発明のテキストフォーマット認識生成方法
の一部分であるテキスト・図表抽出方法の処理フローチ
ャートである。

【図１３】本発明のテキストフォーマット認識生成方法
の一部分である翻訳不要部分認識方法の処理フローチャ
ートである。

【図１４】本発明のテキストフォーマット認識生成方法
の一部分であるテキストフォーマット生成方法の処理フ
ローチャートである。

【図１５】本発明のテキストフォーマット認識生成方法
が動作する装置の一例を表わす図である。

【図１６】本発明のテキストフォーマット認識生成方法
の動作を説明するための入力ファイルの内容を表わす図
である。

【図１７】本発明のテキストフォーマット認識生成方法
の一部分であるページ長推定方法の動作を説明するため
の図である。

【図１８】本発明のテキストフォーマット認識生成方法
の一部分であるページ長推定方法の動作を説明するため
の図である。

【図１９】本発明のテキストフォーマット認識生成方法
の一部分であるページ長推定方法とページヘッダー認識
方法とページフッター認識方法の動作結果を表わす図で
ある。

【図２０】本発明のテキストフォーマット認識生成方法
の一部分である領域認識方法の動作を説明するための図
である。

【図２１】本発明のテキストフォーマット認識生成方法
の一部分である領域認識方法の動作を説明するための図
である。

【図２２】本発明のテキストフォーマット認識生成方法
の一部分である領域認識方法の動作結果を表わす図であ
る。

【図２３】図２２の内容を図形的に記述した図である。

【図２４】本発明のテキストフォーマット認識生成方法
の一部分である領域種別認識方法の動作の結果を表わす
図である。

【図２５】本発明のテキストフォーマット認識生成方法
の一部分である領域接続順序認識方法の動作を説明する
ための図である。

【図２６】図２５の内容を図形的に記述した図である。

【図２７】本発明のテキストフォーマット認識生成方法
の一部分である領域接続順序認識方法の動作結果を表わ
す図の一部である。

【図２８】本発明のテキストフォーマット認識生成方法
の一部分である領域接続順序認識方法の動作結果を表わ
す図の一部である。

【図２９】図２８の内容を図形的に記述した図である。

【図３０】本発明のテキストフォーマット認識生成方法
の一部分であるテキスト・図表抽出方法の処理結果を表
わす図である。

【図３１】本発明のテキストフォーマット認識生成方法
の一部分であるテキスト・図表抽出方法の処理結果を表
わす図である。

【図３２】本発明のテキストフォーマット認識生成方法
の一部分であるテキスト・図表抽出方法の処理結果を表
わす図である。

【図３３】本発明のテキストフォーマット認識生成方法
の一部分であるテキスト・図表抽出方法の処理結果を表
わす図である。

【図３４】本発明のテキストフォーマット認識生成方法
の一部分である翻訳不要部分認識方法の処理結果を表わ
す図である。

【図３５】本発明のテキストフォーマット認識生成方法
の一部分である翻訳不要部分認識方法の処理結果を表わ
す図である。

【図３６】本発明のテキストフォーマット認識生成方法
の一部分であるテキストフォーマット生成方法の処理結
果を表わす図である。

【図３７】図３６の内容を図形的に記述した図である。

【図３８】本発明のテキストフォーマット認識生成方法
の処理結果を表わす図である。

【図３９】本発明のテキストフォーマット認識生成方法
の処理結果を表わす図である。

【符号の説明】

１５００１…入力装置、１５００２…ファイル記憶装
置、１５００３…システム装置、１５００４…翻訳装
置、１５００５…表示装置。

Claims

【特許請求の範囲】

【請求項１】ページヘッダー付け、ページフッター付
け、段組、図表割り付けなどのテキストフォーマット済
みのテキストファイルを入力するステップと、入力したテキストファイルのページ長を推定するステッ
プと、ページフッターおよび／またはページヘッダーを認識す
るステップと、段組や図表などの領域を認識するステップと、認識した領域がテキスト領域か図表領域かを表す種別を
認識するステップと、認識した領域の接続順序を決定するステップと、上記接続順序にしたがって、複数個の領域にまたがるテ
キストと図表を抽出するステップと、抽出したテキストと図表に対し、所定の変換を施すステ
ップと、その変換結果のテキストと図表に対し、入力のテキスト
ファイルと同等のフォーマットを付与するステップとを
備えたことを特徴とするテキストフォーマット認識生成
方法。
【請求項２】請求項１に記載のテキストフォーマット認
識生成方法において、前記所定の変換が翻訳処理である
ことを特徴とするテキストフォーマット認識生成方法。
【請求項３】請求項２に記載のテキストフォーマット認
識生成方法において、さらに、抽出したテキストと図表
の翻訳不要部分を認識し、その部分に翻訳不要指定を付
加して翻訳することを特徴とするテキストフォーマット
認識生成方法。
【請求項４】請求項１ないし３に記載のテキストフォー
マット認識生成方法において、入力したテキストファイ
ルの先頭から一部または全部の行を読み込み、読み込ん
だ各行に先頭から行番号を付与し、ある行とその行より
もファイルの末尾側にある行との一致度を計算し、その
一致度を計算した２行の行番号の差を行オフセットとし
て、一致度が一定値以上の２行の組について一致度と行
オフセットとの組を蓄積する操作を各行について行な
い、その蓄積結果を行一致度計算結果とし、行一致度計
算結果における行オフセットの頻度を数えて、行オフセ
ットをページ長と仮定した場合に読み込み行数から計算
されるページ数に対する行オフセットの頻度の比を算出
し、その頻度の比が最も大きくなる行オフセットをペー
ジ長であると推定する、ことを特徴とするテキストフォ
ーマット認識生成方法。
【請求項５】請求項４に記載のテキストフォーマット認
識生成方法において、前記行一致度計算結果から、ペー
ジ長と等しい行オフセットを有する行で、ページの開始
行からファイルの末尾に向けて連続しているような行が
あるかどうかを検出し、そのような行をページヘッダー
であると認識する、ことを特徴とするテキストフォーマ
ット認識生成方法。
【請求項６】請求項５に記載のテキストフォーマット認
識生成方法において、ページヘッダーとして認識した各
行について、各ページの対応する行を比較し、文字が一
致しないカラムに数字があるとき、そのカラムをページ
番号のフィールドであると認識する、ことを特徴とする
テキストフォーマット認識生成方法。
【請求項７】請求項４に記載のテキストフォーマット認
識生成方法において、前記行一致度計算結果から、ペー
ジ長と等しい行オフセットを有する行で、ページの終了
行からファイルの先頭に向けて連続しているような行が
あるかどうかを検出し、そのような行をページフッター
であると認識する、ことを特徴とするテキストフォーマ
ット認識生成方法。
【請求項８】請求項７に記載のテキストフォーマット認
識生成方法において、ページフッターとして認識した各
行について、各ページの対応する行を比較し、文字が一
致しないカラムに数字があるとき、そのカラムをページ
番号のフィールドであると認識する、ことを特徴とする
テキストフォーマット認識生成方法。
【請求項９】請求項１ないし３に記載のテキストフォー
マット認識生成方法において、入力したテキストファイ
ルの先頭から一部または全部の行を読み込み、行長があ
るカラムに達しないときはその行のそのカラムには空白
文字があるとして、また、行の終わりを示す改行文字は
空白文字であるとして、各カラムごとに各行の空白文字
を数え、読み込んだ行数に対する空白文字数の比率が一
定値以上のカラムが連続する範囲を段組の境界と仮定す
る、ことを特徴とするテキストフォーマット認識生成方
法。
【請求項１０】請求項９に記載のテキストフォーマット
認識生成方法において、あるカラムから別のあるカラム
までの間を１つの段組であると仮定した場合に、ある行
のその範囲の文字がすべて空白文字であるか、または、
その範囲まで行の長さが達しないときに、その行の直前
と直後でその段組の領域を分割する、ことを特徴とする
テキストフォーマット認識生成方法。
【請求項１１】請求項９に記載のテキストフォーマット
認識生成方法において、あるカラムから別のあるカラム
までの間を１つの段組であると仮定した場合に、ある行
のその範囲の文字が、ある一定数以上の空白文字で始ま
る場合に、その行と直前の行でその段組の領域を分割す
る、ことを特徴とするテキストフォーマット認識生成方
法。
【請求項１２】請求項９に記載のテキストフォーマット
認識生成方法において、あるカラムから別のあるカラム
までの間を１つの段組であると仮定した場合に、ある行
で、段組の境界であると仮定したカラムに空白文字以外
の文字があるとき、その境界を介して隣接する段組の領
域があればそれら領域はその行の直前で終了し、その行
からその隣接する段組を併せた幅の段組の領域が存在す
ると仮定して領域の認識を続ける、ことを特徴とするテ
キストフォーマット認識生成方法。
【請求項１３】請求項１ないし３に記載のテキストフォ
ーマット認識生成方法において、‘＋’、‘−’、
‘｜’、‘‖’などの図表を描くために多用される文字
の数と、その領域の空白文字と改行文字を除いた全文字
数の数との比が一定値以上である領域を図表領域である
とし、それ以外の領域をテキスト領域であると認識す
る、ことを特徴とするテキストフォーマット認識生成方
法。
【請求項１４】請求項１ないし３に記載のテキストフォ
ーマット認識生成方法において、入力したテキストファ
イル内のあるページ内のある領域に対して、上下に隣接
する領域がある場合はそれらの領域は上から下へ接続す
るものとし、左右に隣接する領域がある場合はそれらの
領域の左側の最も下に接続する領域から右の最も上の領
域へ接続するものとし、ただしこれらの接続を決定する
際に既に接続が確定済みの領域に対しては再び接続はせ
ずその接続決定済みの領域を飛ばして接続するとし、結
果としてページ内の各領域に一列の接続順序関係を決定
する、ことを特徴とするテキストフォーマット認識生成
方法。
【請求項１５】請求項１４に記載のテキストフォーマッ
ト認識生成方法において、入力したテキストファイル内
のあるページ内の領域の接続順序が末尾の領域から次の
ページの最も左側で上側の領域へ接続するとする、こと
を特徴とするテキストフォーマット認識生成方法。
【請求項１６】請求項１４または１５に記載のテキスト
フォーマット認識生成方法において、前記領域の接続順
序を決定した後に、テキスト領域の直後に図表領域が接
続する箇所のすべてについてそのテキスト領域はその図
表領域を飛ばして次の領域に接続するものとし、飛ばさ
れた図表領域については元の順序を保ってそれら図表領
域の接続順序を決定し、結果としてテキスト領域の列と
図表領域の列との２列の接続順序を決定する、ことを特
徴とするテキストフォーマット認識生成方法。
【請求項１７】請求項１４ないし１６に記載のテキスト
フォーマット認識生成方法において、前記領域の接続順
序を決定した後に、あるテキスト領域の直後に別のテキ
スト領域が接続するとき、その２つのテキスト領域の間
で使用単語頻度分布の違いが大きく、領域の境界の単語
の接続が適切でなく、かつ、その別のテキスト領域より
も後方で隣接する段組にそのあるテキスト領域と使用単
語頻度分布が類似し、領域の境界の単語の接続が適切な
テキスト領域がある場合に、そのテキスト領域がそのあ
るテキスト領域の直後に接続するように、領域の接続順
序を変更する、ことを特徴とするテキストフォーマット
認識生成方法。
【請求項１８】請求項１ないし３に記載のテキストフォ
ーマット認識生成方法において、一連の領域からテキス
トを抽出する際に、テキスト領域であると認識された領
域だけからテキストを抽出して、領域の接続順序にした
がってそのテキストを連結する、ことを特徴とするテキ
ストフォーマット認識生成方法。
【請求項１９】請求項３に記載のテキストフォーマット
認識生成方法において、‘＋’、‘−’、‘×’、
‘÷’、‘＾’、‘±’、等号、不等号、‘Σ’などの
数式を記述するために多用される文字や‘｜’、‘‖’
などの図表を描くために多用される文字の数と、その行
の空白文字および改行文字を除いた全文字数との比が一
定値以上である行を翻訳不要行であると判定する、こと
を特徴とするテキストフォーマット認識生成方法。
【請求項２０】請求項１９に記載のテキストフォーマッ
ト認識生成方法において、前記一定値である閾値をその
行が属する領域の種別によって変更する、ことを特徴と
するテキストフォーマット認識生成方法。
【請求項２１】請求項１ないし３に記載のテキストフォ
ーマット認識生成方法において、図表領域のテキストを
変換した結果が、元の領域が占める行数、カラム数を上
回る場合に、変換結果を埋め込む領域の行数、カラム数
を増加させて、変換結果が納まるようにし、また、その
増加に伴い、その領域に隣接する別の領域を移動あるい
は縮小してページに納まるようにする、ことを特徴とす
るテキストフォーマット認識生成方法。
【請求項２２】請求項１ないし３に記載のテキストフォ
ーマット認識生成方法において、テキストを変換した結
果が、元のフォーマット済みテキストの領域に納まらな
い場合には、認識したページヘッダー、ページフッタ
ー、および段組に準じたフォーマットのページを新たに
生成して、その生成したページの領域に変換結果を設定
する、ことを特徴とするテキストフォーマット認識生成
方法。
【請求項２３】請求項１ないし３に記載のテキストフォ
ーマット認識生成方法において、テキストを変換した結
果を、そのテキストの元の領域に相当する領域に入れた
後にその領域に余白が生じたときは、その余白に空白文
字あるいは改行文字を入れる、ことを特徴とするテキス
トフォーマット認識生成方法。
【請求項２４】請求項１ないし３に記載のテキストフォ
ーマット認識生成方法において、変換結果に入力テキス
トファイルと同等のフォーマットを付与したとき、ある
ページのすべての領域が空白文字あるいは改行文字だけ
であるときは、そのページを削除する、ことを特徴とす
るテキストフォーマット認識生成方法。
【請求項２５】請求項１ないし３に記載のテキストフォ
ーマット認識生成方法において、入力したテキストファ
イルから抽出したテキストおよび図表データの中に、ペ
ージ長、ページフッター、ページヘッダー、段組数、お
よび段組幅などのテキストフォーマットの認識結果およ
び翻訳不要行認識結果を、タグ付のデータとして埋め込
む、ことを特徴とするテキストフォーマット認識生成方
法。
【請求項２６】請求項８に記載のテキストフォーマット
認識生成方法において、各カラムの空白文字数の比率を
計算する代わりに、各カラムごとに出現する文字種ごと
の出現率を計算し、出現率が一定値以上である文字が存
在するカラムの連続する範囲を領域の境界と仮定する、
ことを特徴とするテキストフォーマット認識生成方法。
【請求項２７】請求項８、９、または１１に記載のテキ
ストフォーマット認識生成方法において、空白文字およ
び改行文字に加えて、図表を描くために多用される文字
を領域の境界に成り得るとして領域を認識する、ことを
特徴とするテキストフォーマット認識生成方法。
【請求項２８】ページヘッダー付け、ページフッター付
け、段組、図表割り付けなどのテキストフォーマット済
みのテキストファイルを入力する手段と、入力したテキストファイルのページ長を推定する手段
と、ページフッターおよび／またはページヘッダーを認識す
る手段と、段組や図表などの領域を認識する手段と、認識した領域がテキスト領域か図表領域かを表す種別を
認識する手段と、認識した領域の接続順序を決定する手段と、上記接続順序にしたがって、複数個の領域にまたがるテ
キストと図表を抽出する手段と、抽出したテキストと図表に対し、所定の変換を施す手段
と、その変換結果のテキストと図表に対し、入力のテキスト
ファイルと同等のフォーマットを付与する手段とを備え
たことを特徴とするテキストフォーマット認識生成装
置。
【請求項２９】請求項２８に記載のテキストフォーマッ
ト認識生成装置において、前記所定の変換が翻訳処理で
あることを特徴とするテキストフォーマット認識生成装
置。
【請求項３０】請求項２９に記載のテキストフォーマッ
ト認識生成装置において、さらに、抽出したテキストと
図表の翻訳不要部分を認識し、その部分に翻訳不要指定
を付加して翻訳することを特徴とするテキストフォーマ
ット認識生成装置。