JPH0883280A

JPH0883280A - 文書処理装置

Info

Publication number: JPH0883280A
Application number: JP6220007A
Authority: JP
Inventors: Hidezo Kugimiya; 秀造釘宮
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1994-09-14
Filing date: 1994-09-14
Publication date: 1996-03-26

Abstract

(57)【要約】【目的】テキストデータと非テキストデータが混在す
る原文書データからテキストデータのみを正確に抽出し
て翻訳処理をする文書処理装置を提供する。【構成】テキストデータ抽出手段により、入力された
原文書データからテキストデータを抽出しその抽出した
テキストデータにテキストＩＤ番号を対応させてテキス
トデータ記憶部に記憶させるとともにテキストデータ抽
出後の対応箇所にテキストＩＤ番号を付加し非テキスト
データを原文書と同一のレイアウトで非テキストデータ
記憶部に記憶させ、編集手段が抽出されたテキストデー
タに対して編集処理を行うと、翻訳手段は編集したテキ
ストデータに対して第１言語から第２言語に翻訳処理を
実行する。テキストデータ置換手段が、非テキストデー
タ記憶部に記憶されたテキストＩＤ番号と非テキストデ
ータを読み出しそのテキストＩＤ番号を翻訳処理の結果
得られた第２言語からなるテキストデータに置き換える
構成である。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文章を形成するテキス
トデータと形式情報からなる非テキストデータの混在す
る文書の編集や翻訳などの文書データ処理を行う文書処
理装置に関する。

【０００２】

【従来の技術】最近は、ＤＴＰ（Desk Top Publishing
）機能を持った文書処理装置により、テキストデータ
（言語データ）からなる文書データ以外に図や表を含む
文書データが多く作成されるようになっている。また、
ＴｅＸのように文書中に、書体やフォントのサイズ等の
組版の指定情報を表すマークアップ記号が埋め込まれた
文書データも増大している。そして、これらの文書デー
タを他の言語データに翻訳するという技術に対する需要
も増えてきている。

【０００３】しかし、従来の機械翻訳機能を備えた文書
処理装置では、入力される文書データのうちテキストデ
ータ（言語データ）しか処理することができない。その
ため、例えば、図や表を含んだＤＴＰ文書を翻訳しよう
とする場合、利用者が、一旦、図、表、レイアウト情報
などの非テキストデータ（非言語データ）を原文書から
取り除き、テキストデータのみを翻訳した後で、非テキ
ストデータを結合するという操作が必要となる。これは
利用者には大きな負担であり、また、翻訳作業も非常に
効率が悪い。

【０００４】そこで、原文書から言語データだけを抽出
して翻訳処理を行い、原文書の言語データと翻訳処理さ
れた言語データとを置き換えることにより、非言語デー
タが含まれた文書の文書処理を行うことができるように
した文書処理システムが提案されている（特開平４−２
５９０５７号公報、参照）。

【０００５】

【発明が解決しようとする課題】しかしながら、特開平
４−２５９０５７号公報の文書処理システムでは、処理
された言語データが元の文書内のどこの箇所にあったか
という情報がないために、元の文書内の言語データと処
理された言語データとを置き換えるための対応箇所決定
手段が必要である。また、この対応箇所決定手段の方法
として、例えば、文同士が一致する文、同一のキーワー
ドが含まれる文、パラグラフの先頭の文同士は対応する
文、対応がとれた文から同一距離にある文、などは元の
文と対応することからその状態を検索して対応箇所を決
定しているため、文書処理システムが複雑になるという
問題がある。また、対応箇所決定手段が、常に正しい対
応箇所を決定するとは限らないために、非効率であると
ともに信頼性に欠けるという問題点がある。

【０００６】本発明は以上の事情を考慮してなされたも
ので、テキストデータと非テキストデータが混在する文
書データで構成される文書データのレイアウトからテキ
ストデータのみを正確に抽出して信頼性の高い翻訳処理
をすることができる文書処理装置を提供するものであ
る。

【０００７】

【課題を解決するための手段】本発明は、第１言語から
なるテキストデータと非テキストデータとが混在する原
文書データを入力するとともに編集、レイアウト、翻訳
等の処理指示を入力する入力手段と、テキストデータを
記憶するテキストデータ記憶部と非テキストデータを記
憶する非テキストデータ記憶部を有する記憶手段と、入
力された原文書データからテキストデータを抽出しその
抽出したテキストデータにテキストＩＤ番号を対応させ
て前記テキストデータ記憶部に記憶させるとともにテキ
ストデータ抽出後の対応箇所に前記テキストＩＤ番号を
付加し非テキストデータを原文書と同一のレイアウトで
前記非テキストデータ記憶部に記憶させるテキストデー
タ抽出手段と、抽出されたテキストデータに対して編集
処理を実行する編集手段と、編集されたテキストデータ
に対して第１言語から第２言語に翻訳処理を実行する翻
訳手段と、非テキストデータ記憶部に記憶されたテキス
トＩＤ番号と非テキストデータを読み出しそのテキスト
ＩＤ番号を翻訳処理の結果得られた第２言語からなるテ
キストデータに置き換えるテキストデータ置換手段と、
置き換えられた第２言語からなるテキストデータと非テ
キストデータとが混在する文書データを出力する出力手
段とをそれぞれ備えたことを特徴とする文書処理装置で
ある。

【０００８】さらに、他の発明としては、第１言語から
なるテキストデータと非テキストデータとが混在する原
文書データを入力するとともに編集、レイアウト、翻訳
等の処理指示を入力する入力手段と、テキストデータを
記憶するテキストデータ記憶部とテキストデータ対応関
係情報を記憶するテキストデータ対応関係記憶部を有す
る記憶手段と、入力された原文書データからテキストデ
ータを抽出するとともに抽出したテキストデータを記憶
手段のテキストデータ記憶部に記憶させるテキストデー
タ抽出手段と、抽出されたテキストデータに対して編集
処理を実行するとともに編集後のテキストデータと原文
書データとのテキストデータ対応関係情報を記憶手段の
テキストデータ対応関係記憶部に記憶させる編集手段
と、編集されたテキストデータに対して翻訳処理を実行
する翻訳手段と、テキストデータ対応関係記憶部に記憶
されたテキストデータ対応関係情報に基づき第１言語か
らなるテキストデータを翻訳処理の結果得られた第２言
語からなるテキストデータに置き換える置換手段と、置
き換えられた第２言語からなるテキストデータと非テキ
ストデータとが混在する文書データを出力する出力手段
とをそれぞれ備えたことを特徴とする文書処理装置であ
る。

【０００９】前記テキストデータ抽出手段はテキストデ
ータ抽出部およびテキストデータ判別部を備え、前記テ
キストデータ抽出部が入力された原文書データからテキ
ストデータを抽出する際、テキストデータ判別部はテキ
ストデータであるか非テキストデータであるかを判別す
るよう構成されることが好ましい。

【００１０】なお、本発明において、入力手段として
は、キーボード、ＯＣＲ等の入力装置が用いられる。記
憶手段（テキストデータ記憶部、非テキストデータ記憶
部、キストデータ対応関係記憶部）、テキストデータ抽
出手段（テキストデータ抽出部、テキストデータ判別
部）、編集手段、翻訳手段、テキストデータ置換手段と
しては、ＣＰＵ、ＲＡＭ、ＲＯＭ、Ｉ／Ｏポートからな
るマイクロコンピュータが用いられる。また、記憶手段
としては、特に、ＲＡＭが用いられる。また、翻訳手段
としては、翻訳用の辞書、文法規則等を格納しているＲ
ＯＭが用いられる。出力手段としては、ＣＲＴ、ＬＣＤ
等の表示装置、あるいは熱転写プリンタ、レーザプリン
タ等の印刷装置が用いられる。

【００１１】

【作用】本発明の構成によれば、入力手段からは、第１
言語からなるテキストデータと非テキストデータとが混
在する原文書データを入力するとともに編集、レイアウ
ト、翻訳等の処理指示を入力する。テキストデータを記
憶するテキストデータ記憶部と非テキストデータを記憶
する非テキストデータ記憶部から構成されている記憶手
段が備えられている。テキストデータ抽出手段は、入力
された原文書データからテキストデータを抽出しその抽
出したテキストデータにテキストＩＤ番号を対応させて
前記テキストデータ記憶部に記憶させるとともにテキス
トデータ抽出後の対応箇所に前記テキストＩＤ番号を付
加し非テキストデータを原文書と同一のレイアウトで前
記非テキストデータ記憶部に記憶させる。編集手段が抽
出されたテキストデータに対して編集処理を実行する
と、翻訳手段は編集されたテキストデータに対して第１
言語から第２言語に翻訳処理を実行する。テキストデー
タ置換手段は、非テキストデータ記憶部に記憶されたテ
キストＩＤ番号と非テキストデータを読み出しそのテキ
ストＩＤ番号を翻訳処理の結果得られた第２言語からな
るテキストデータに置き換える。従って、出力手段は置
き換えられた第２言語からなるテキストデータと非テキ
ストデータとが混在する文書データを出力することがで
きる。従って、原文書と同じレイアウトの翻訳文書が得
られることになり、翻訳処理の効率を大幅に向上するこ
とができるので翻訳利用者の負担も大幅に軽減される。

【００１２】さらに、他の発明の構成によれば、入力手
段からは、第１言語からなるテキストデータと非テキス
トデータとが混在する原文書データを入力するとともに
編集、レイアウト、翻訳等の処理指示を入力する。テキ
ストデータを記憶するテキストデータ記憶部とテキスト
データ対応関係情報を記憶するテキストデータ対応関係
記憶部から構成されている記憶手段が備えられている。
テキストデータ抽出手段は、入力された原文書データか
らテキストデータを抽出するとともに抽出したテキスト
データを記憶手段のテキストデータ記憶部に記憶させる
と、編集手段は、抽出されたテキストデータに対して編
集処理を実行するとともに編集後のテキストデータと原
文書データとのテキストデータ対応関係情報を記憶手段
のテキストデータ対応関係記憶部に記憶させる。翻訳手
段が編集されたテキストデータに対して翻訳処理を実行
すると、置換手段はテキストデータ対応関係記憶部に記
憶されたテキストデータ対応関係情報に基づき第１言語
からなるテキストデータを翻訳処理の結果得られた第２
言語からなるテキストデータに置き換える。従って、出
力手段は置き換えられた第２言語からなるテキストデー
タと非テキストデータとが混在する文書データを出力す
ることができる。従って、原文書と同じレイアウトの翻
訳文書が得られることになり、翻訳処理の効率を大幅に
向上することができるので翻訳利用者の負担も大幅に軽
減される。

【００１３】前記テキストデータ抽出手段はテキストデ
ータ抽出部およびテキストデータ判別部を備えた構成で
あれば、前記テキストデータ抽出部が入力された原文書
データからテキストデータを抽出する際、テキストデー
タ判別部はテキストデータであるか非テキストデータで
あるかを判別することができる。

【００１４】

【実施例】以下、図面に示す実施例に基づいて本発明を
詳述する。なお、これによって本発明は限定されるもの
でない。本発明は、主として、コンピュータ、ＤＴＰ
（Desk Top Publishing ）などに搭載された機械翻訳装
置に適用されて好適であり、各構成要素は本発明の翻訳
処理機能を達成する以外に、文書データの編集処理機能
を有する。

【００１５】図１は本発明の文書処理装置の一実施例を
示すブロック図である。図１において、１は制御部であ
り、判別手段、データ格納手段、データ処理手段として
装置全体の制御を行うＣＰＵ（Central Processing Uni
t ）２と、このＣＰＵ２の動作時のデータを記憶するＲ
ＡＭ（Random Access Memory）からなるメインメモリ３
から構成されてる。また、メインメモリ３はテキストデ
ータ、編集されたテキストデータ及び翻訳されたテキス
トデータを記憶するテキストデータ記憶部、非テキスト
データ及びテキストＩＤ番号（テキストデータ識別番
号）等を記憶する非テキストデータ記憶部で構成されて
いる。

【００１６】また、４は翻訳手段として機能するＣＰ
Ｕ、翻訳プログラムを格納したＲＯＭ、翻訳バッファ
（ＲＡＭ）等からなる翻訳モジュールであり、５は翻訳
モジュール４が入力された原文を翻訳する際に使用する
翻訳用の辞書、文法規則等を格納しているＲＯＭ（Read
Only Memory）からなる辞書メモリでる。また、制御部
１には、翻訳モジュール４、辞書メモリ５が接続されて
いる。

【００１７】６はテキストデータ抽出部であり、このテ
キストデータ抽出部６により、外部記憶装置１０に記憶
されているテキストデータと非テキストデータとが混在
する原文ファイルからテキストデータを抽出してメイン
メモリ３のテキストデータ記憶部に記憶させると同時に
テキストデータが抽出された場所にはテキストＩＤ番号
を生成して非テキストデータとともにメインメモリ３の
非テキストデータ記憶部に記憶させる。７は編集部であ
り、この編集部７により、テキストデータ抽出部６によ
って抽出されたテキストデータを編集する。

【００１８】８はテキストデータ置換部であり、このテ
キストデータ置換部８により、テキストデータ抽出部６
によってメインメモリ３の非テキストデータ部に記憶さ
れたテキストＩＤと、同じくテキストデータ抽出部６に
よって抽出されたテキストデータが翻訳モジュール４に
よる翻訳処理を行った結果得られた第２言語からなるテ
キストデータとを置き換える。９は入力原文の文字入
力、文書編集、翻訳に対する指示等の入力のためのキー
ボード、ＯＣＲ等で構成される入力装置である。１０は
入力装置９から入力された原文のファイル（原文ファイ
ル）や翻訳文のファイルを格納するためのＦＤ（フロピ
ィーディスク）装置、ＨＤ（ハードディスク）装置で構
成される外部記憶装置である。１１はＣＲＴ（Cathode
Ray Tube）、ＬＣＤ（Liquid Crystal Disply ）等の表
示装置である。

【００１９】上記翻訳モジュール４は、翻訳される原文
に使用されている第１言語であるソース言語が入力され
ると、それを翻訳して翻訳文に使用されている第２言語
であるターゲット言語を出力するものである。すなわ
ち、ＣＰＵ２の制御により、外部記憶装置１０に格納さ
れた複数の原文ファイルのうち、あらかじめ指定された
１つの原文ファイルが外部記憶装置１０からメインメモ
リ３に転送され、その原文ファイルの中の１文のソース
言語が翻訳モジュール４に送られる。翻訳モジュール４
は、辞書メモリ５に記憶されている辞書、文法規則を用
いて、入力されたソース言語をターゲット言語に翻訳す
る。翻訳された文は、メインメモリ３に一旦記憶される
と共に、表示装置１１の画面に表示されるようになって
いる。

【００２０】図２は本発明を機械翻訳装置１に適用した
機能構成を示すブロック図である。図２において、２０
１はキーボード、ＯＣＲからなる入力手段（入力装置）
であり、入力原文の文字入力、文書編集、翻訳に対する
指示等の入力をする。２０２はテキストデータ記憶部、
非テキストデータ記憶部からなる記憶手段（メインメモ
リ）であり、テキストデータ記憶部には、テキストデー
タ、編集されたテキストデータ及び翻訳されたテキスト
データが記憶され、非テキストデータ部には、非テキス
トデータ及びテキストＩＤ番号が記憶される。

【００２１】２０３はテキストデータ判別部、テキスト
データ抽出部、テキストＩＤ生成部、データ格納部から
なるテキストデータ抽出手段（テキストデータ抽出部）
であり、第１言語からなるテキストデータと非テキスト
データとが混在する文書からテキストデータか非テキス
トデータかを判別し、テキストデータを抽出する。テキ
ストデータ抽出後の対応箇所にテキストＩＤ番号を付加
し元の文書レイアウトに対応して非テキストデータを非
テキストデータ記憶部に記憶させるとともに抽出したテ
キストデータをテキストＩＤ番号と対応させてテキスト
データ記憶部に記憶させる。

【００２２】２０４は削除処理部、連結処理部、分割処
理部、挿入処理部からなる編集手段（編集部）であり、
抽出されたテキストに対して前記の各処理部で削除、連
結、分割、挿入等の編集処理を実行する。２０５は一文
切り出し部、翻訳実行部からなる翻訳手段（翻訳部）で
あり、編集されたテキストに対して翻訳処理を実行す
る。２０６はテキストデータ判別部、テキストデータ検
索部、データ格納部からなるテキストデータ置換手段
（テキストデータ置換部）であり、非テキストデータ記
憶部に記憶されたテキストＩＤ番号による文書レイアウ
トに基づいて第１言語からなるテキストデータを翻訳処
理の結果得られた第２言語からなるテキストデータに置
き換える。２０７は表示装置、あるいはプリンタからな
る出力手段であり、テキストデータ、非テキストデータ
等を表示出力あるいはプリント出力する。

【００２３】図３は本発明の機械翻訳装置１におけるデ
ータ処理の概略を示すフローチャートである。次に、図
３を参照して、テキストデータと非テキストデータとが
混在する文書を翻訳するための処理手順を説明する。ステップ３０１：まず、翻訳対象となる、テキストデー
タと非テキストデータとが混在している原文書を読み込
み、メインメモリ３に格納する。ステップ３０２：入力された原文書からテキストデータ
を抽出する処理が行われる。この結果、翻訳処理の対象
となるテキストデータ３０８と非テキストデータ３０７
が得られる。

【００２４】このとき、テキストデータ抽出後の対応箇
所にテキストＩＤ番号を付加し元の文書レイアウトに対
応して非テキストデータを非テキストデータ記憶部に記
憶させるとともに抽出したテキストデータをテキストＩ
Ｄ番号と対応させてテキストデータ記憶部に記憶させ
る。ステップ３０３：必要に応じて、ステップ３０２で抽出
されたテキストデータに対して編集部７により編集処理
が行われる。ステップ３０４：編集が行われたテキストデータ３０９
を受け取り、翻訳モジュール４（図１、参照）によって
翻訳処理が行われる。翻訳処理の結果、翻訳文すなわち
第２言語のテキストデータ３１０が得られる。

【００２５】ステップ３０５：ステップ３０２で得られ
た非テキストデータ３０７とともにテキストＩＤ番号を
記憶していた箇所に、ステップ３０４で得られた第２言
語のテキストデータ３１０を置換する処理が行われる。ステップ３０６：以上のようにして得られた、原文書の
第１言語からなるテキストデータを第２言語からなるテ
キストデータに置き換えた結果文書を出力する処理が行
われる。

【００２６】図４は図３のステップ３０２に対応するテ
キストデータ抽出処理の詳細を示すフローチャートであ
る。また、図５は本発明の機械翻訳装置１で翻訳される
入力文書の１ページのレイアウトを示す説明図である。
図５に示すように、この文書のレイアウトでは、例え
ば、ブロック１〜２とブロック４〜５にはテキストデー
タである文書データから構成され、ブロック３には非テ
キストデータである図形データが存在している。また、
図６は図５の入力文書を文書データとして記憶する場合
の記憶例を示す説明図である。表示装置１１には図５に
示すような文書が表示されるが、メインメモリ３には図
６に示すような形式のデータとして記憶される。また、
図７は図６の文書データに対してテキストデータ抽出処
理を行った後の非テキストデータを示す説明図である。
また、図８は図６の文書データに対してテキストデータ
抽出処理を行った後のテキストデータを示す説明図であ
る。

【００２７】ステップ４０１：まず、翻訳対象となる、
テキストデータと非テキストデータとが混在している原
文書を読み込む。ステップ４０２：次に、データポインタを原文書の先頭
にセットする。図６に示す例では、ブロック１を指す。ステップ４０３：テキストＩＤ番号の初期値を「＃１
＃」にセットする。ここでは、テキストＩＤ番号の値を
示していることを他のデータと区別するため「＃」の記
号の間に数字を入れるようにしてある。この数字は連番
でデータ毎にカウントアップしていく。

【００２８】ステップ４０４：ＣＰＵ２において、デー
タポインタが指しているデータがテキストデータである
か非テキストデータあるかを判別する。図６に示す例で
は、テキスト／非テキストを示すフラグによりテキスト
データか非テキストデータかを判別することができる。
ここで、テキストデータか非テキストデータかの判別は
原文書の形式によって異なる。例えば、ＴｅＸ文書で
は、「／」で始まるものは非テキストデータであり、Ｒ
ＴＦ（Rich Text Format：文書データ交換のためのフォ
ーマット）形式の文書も同様である。また、ｆｒａｍｅ
−ｍａｋｅｒで作成された文書では「＜string」で始ま
るものがテキストデータである。

【００２９】ステップ４０５：ステップ４０４におい
て、テキストデータと判別された場合は、テキストＩＤ
番号をテキストデータファイル３０８に書き込む。ステップ４０６：入力文書の「内容」の部分に入ってい
るデータをテキストデータファイル３０８にコピーす
る。図６の文書の例では、ブロック１のテキストデータ
ファイルは、図８のＩＤ「＃１＃」に示すようになる。

【００３０】ステップ４０７：そして、入力文書のブロ
ックＩＤとフラグを非テキストデータファイル３０７に
コピーする。ステップ４０８：テキストＩＤ番号を非テキストデータ
ファイル３０７の内容部に書き込む。図６の例では、ブ
ロック１の「内容」の部分がテキストＩＤ番号に置き換
えられて、図７のブロック１に示すような非テキストデ
ータファイルになる。

【００３１】ステップ４０９：さらに、テキストＩＤ番
号を＋１する。ステップ４１２：一方、ステップ４０４において、テキ
ストデータでないと判別された場合、例えば、図６にお
いて、ブロック３のデータの場合、ブロック３のデータ
は非テキストデータであるので、データポインタが指し
ているデータを非テキストデータファイル３０７に書き
込む。図６の例では、ブロック３のデータが図７のブロ
ック３にそのまま書き込まれる。ステップ４１０：以上のようにテキストデータと非テキ
ストデータの各々に応じた処理が行われた後、データポ
インタを＋１する。ステップ４１１：入力文書データがまだあるかどうか判
断する。データがある場合は、ステップ４０４に戻る。

【００３２】このようにして、テキストデータのブロッ
ク２、ブロック３、…と上記の処理を繰り返し、データ
が無くなれば処理を終了する。これにより、翻訳処理の
対象となるテキストデータ３０８と非テキストデータ３
０７が得られる。このようにして、図６の入力文書デー
タから得られた非テキストデータファイルを図７に、テ
キストデータファイルを図８に示す。

【００３３】図９は図８のテキストデータに対して編集
処理を行った後のテキストデータを示す説明図である。
すなわち、ステップ３０２で抽出されたテキストデータ
をステップ３０３の編集処理で削除、連結、分割等の編
集作業が行われた後のテキストデータを示している。図
１０は図９のテキストデータに対して翻訳処理の中の一
文切り出し処理を行った後のテキストデータを示す説明
図である。すなわち、ステップ３０４の翻訳処理の中の
一文切り出し処理が終了した時点でのテキストデータを
示している。図１１は図１０のテキストデータに対して
翻訳処理を行った結果得られた第２言語のテキストデー
タを示す説明図である。すなわち、ステップ３０４の翻
訳処理によって得られた第２言語のテキストデータを示
している。

【００３４】図１２は図３のステップ３０５に対応する
テキストデータ置換処理の詳細を示すフローチャートで
ある。ステップ１２０１：まず、ステップ３０２のテキストデ
ータ抽出処理で得られた非テキストデータファイル３０
７を読み込む。ステップ１２０２：続いて、ステップ３０４の翻訳処理
で得られた訳文すなわち第２言語のテキストデータファ
イル３１０を読み込む。

【００３５】ステップ１２０３：次に、非テキストデー
タポインタを非テキストデータの先頭にセットする。図
６に示す例では、ブロック１を指す。ステップ１２０４：そして、非テキストデータポインタ
が指しているデータがテキストデータか非テキストデー
タかを判別する。図７に示す例では、テキスト／非テキ
ストを示すフラグによりテキストデータか非テキストデ
ータかを判別することができる。

【００３６】ステップ１２０５：ステップ１２０４にお
いて、テキストデータと判別された場合は、非テキスト
データポインタが指すデータのうちブロックＩＤトフラ
グを非テキストデータファイルから出力ファイルにコピ
ーする。ステップ１２０６：次に、非テキストデータポインタが
指すデータの内容部にあるテキストＩＤ番号をキーとし
てテキストデータファイル３１０を検索し、テキストＩ
Ｄ番号が一致するテキストデータを取り出す。図７のブ
ロック１を処理する場合、内容部にあるテキストＩＤ番
号は「＃１＃」なので、図１１のテキストデータＩＤ番
号が「＃１＃」であるテキストが取り出される。

【００３７】ステップ１２０７：そして、取り出したテ
キストデータを出力ファイルの内容部に格納する。図７
のブロック１の例では、図１３のブロック１のようにな
る。ステップ１２１０：一方ステップ１２０４において、テ
キストデータでないと判別された場合、例えば、図７に
おいてブロック３のデータが処理される場合、ブロック
３のデータは非テキストデータであるので、ブロックＩ
Ｄ／フラグ／内容のデータを非テキストデータファイル
から出力ファイルにコピーする。この結果は、図１３の
ブロック３に示すようになる。

【００３８】図１３は本発明の機械翻訳装置１により得
られた出力文書を示す説明図である。ステップ１２０８：次に、非テキストデータポインタを
＋１する。ステップ１２０９：非テキストデータポインタが指す場
所にデータがあるかどうか判断する。データがある場合
は、ステップ１２０４に戻る。このようにして、非テキ
ストデータファイルのブロック２、ブロック３、…と上
記の処理を繰り返し、データが無くなれば処理を終了す
る。

【００３９】これにより、記憶しておいた非テキストデ
ータファイル３０７のテキストＩＤ番号が翻訳処理ステ
ップ３０４の結果出力された第２言語からなるテキスト
データ３１０と置き換えられる。このようにして、図７
の非テキストデータと図１１のテキストデータから、図
６に示す文書データの「内容」が第２言語のテキストデ
ータに変換されたものが得られる（図１３参照）。

【００４０】従って、本発明によれば、原文書データの
テキストデータと翻訳処理されたテキストデータとの置
き換えを、テキストＩＤ番号を非テキストデータファイ
ルに記憶しておき、後でテキストＩＤ番号を第２言語の
テキストデータに置き換えるという方法で実現する。ま
た、翻訳されたテキストデータが原文書データ内のどこ
にあったかという対応を求めるための特別な手段を用意
する必要がないので、単純な構成で実現できる。また、
対応を求める処理を行う必要がないので翻訳処理時間も
短くなる。さらに、テキストデータとテキストＩＤ番号
が１対１に対応しているので対応を間違うことがなく、
原文書データのテキストデータを翻訳処理されたテキス
トデータに正確に置き換えることができる。従って、翻
訳処理における作業の効率を図ることができる。

【００４１】次に、本発明の他の実施例について図面を
参照しながら説明する。図１４は本発明の文書処理装置
の他の実施例を示すブロック図である。図１４に示すよ
うに、１４０１は制御部であり、判別手段、データ格納
手段、データ処理手段として装置全体の制御を行うＣＰ
Ｕ（Central Processing Unit ）１４０２と、このＣＰ
Ｕ１４０２の動作時のデータを記憶するＲＡＭ（Random
AccessMemory）からなるメインメモリ１４０３から構
成されてる。また、メインメモリ１４０３はテキストデ
ータ、編集されたテキストデータ及び翻訳されたテキス
トデータを記憶するテキストデータ記憶部、テキストデ
ータ対応関係情報等を記憶するテキストデータ対応関係
記憶部で構成されている。

【００４２】また、１４０４は翻訳手段として機能する
ＣＰＵ、翻訳プログラムを格納したＲＯＭ、翻訳バッフ
ァ（ＲＡＭ）等からなる翻訳モジュールであり、１４０
５は翻訳モジュール１４０４が入力された原文を翻訳す
る際に使用する翻訳用の辞書、文法規則等を格納してい
るＲＯＭ（Read Only Memory）からなる辞書メモリで
る。また、制御部１４０１には、翻訳モジュール１４０
４、辞書メモリ１４０５が接続されている。

【００４３】１４０６はテキストデータ抽出部であり、
このテキストデータ抽出部１４０６により、外部記憶装
置１４１０に記憶されているテキストデータと非テキス
トデータとが混在する原文ファイルからテキストデータ
を抽出して、一文切り出しを行った後、テキストデータ
をメインメモリ１４０３のテキストデータ記憶部に記憶
する。１４０７は編集部であり、この編集部１４０７に
より、テキストデータ抽出部１４１０によって抽出され
たテキストデータを編集すると同時に編集後のテキスト
データと原文書のテキストデータの対応関係をメインメ
モリ１４０３のテキストデータ対応関係記憶部に記憶さ
せる。

【００４４】また、１４０４は翻訳手段として機能する
ＣＰＵ、翻訳プログラムを格納したＲＯＭ、翻訳バッフ
ァ（ＲＡＭ）等からなる翻訳モジュールであり、１４０
５は翻訳モジュール１４０４が入力された原文を翻訳す
る際に使用する翻訳用の辞書、文法規則等を格納してい
るＲＯＭ（Read Only Memory）からなる辞書メモリで
る。また、制御部１４０１には、翻訳モジュール１４０
４、辞書メモリ１４０５が接続されている。

【００４５】１４０８はテキストデータ置換部であり、
このテキストデータ置換部１４０８により、テキストデ
ータ対応関係記憶部に記憶されたテキストデータ対応関
係を参照して、入力文書のテキストデータを、抽出され
たテキストデータから翻訳モジュール１４０４による翻
訳処理を行った結果得られた第２言語からなるテキスト
データに置き換える。

【００４６】１４０９は入力原文の文字入力、文書編
集、翻訳に対する指示等の入力のためのキーボード、Ｏ
ＣＲ等で構成される入力装置である。１４１０は入力装
置１４０９から入力された原文のファイル（原文ファイ
ル）や翻訳文のファイルを格納するためのＦＤ（フロピ
ィーディスク）装置、ＨＤ（ハードディスク）装置で構
成される外部記憶装置である。１４１１はＣＲＴ（Cath
ode Ray Tube）、ＬＣＤ（液晶ディスプレイ）等の表示
装置である。

【００４７】上記翻訳モジュール１４０４は、翻訳され
る原文に使用されている第１言語であるソース言語が入
力されると、それを翻訳して翻訳文に使用されている第
２言語であるターゲット言語を出力するものである。す
なわち、ＣＰＵ１４０２の制御により、外部記憶装置１
４１０に格納された複数の原文ファイルのうち、あらか
じめ指定された１つの原文ファイルが外部記憶装置１４
１０からメインメモリ３に転送され、その原文ファイル
の中の１文のソース言語が翻訳モジュール１４０４に送
られる。翻訳モジュール１４０４は、辞書メモリ１４０
５に記憶されている辞書、文法規則を用いて、入力され
たソース言語をターゲット言語に翻訳する。翻訳された
文は、メインメモリ１４０３に一旦記憶されると共に、
表示装置１４１１の画面に表示されるようになってい
る。

【００４８】図１５は本発明を機械翻訳装置２に適用し
た機能構成を示すブロック図である。図１５において、
１５０１はキーボード、ＯＣＲからなる入力手段（入力
装置）であり、入力原文の文字入力、文書編集、翻訳に
対する指示等の入力をする。１５０２はテキストデータ
記憶部、テキストデータ対応関係記憶部からなる記憶手
段（メインメモリ）であり、テキストデータ記憶部に
は、テキストデータ、編集されたテキストデータ及び翻
訳されたテキストデータが記憶され、テキストデータ対
応関係記憶部には、テキストデータ対応関係情報が記憶
される。

【００４９】１５０３はテキストデータ判別部、テキス
トデータ抽出部、一文切り出し部、データ格納部からな
るテキストデータ抽出手段（テキストデータ抽出部）で
あり、第１言語からなるテキストデータと非テキストデ
ータとが混在する文書からテキストデータか非テキスト
データかを判別し、テキストデータを抽出する。１５０
４は削除処理部、連結処理部、分割処理部、挿入処理部
からなる編集手段（編集部）であり、抽出されたテキス
トに対して前記の各処理部で削除、連結、分割、挿入等
の編集処理を実行すると同時に編集後のテキストデータ
と原文書のテキストデータの対応関係情報をメインメモ
リ１５０３のテキストデータ対応関係記憶部に記憶させ
る。

【００５０】１５０５は翻訳実行部からなる翻訳手段
（翻訳部）であり、編集されたテキストに対して翻訳処
理を実行する。１５０６はテキストデータ判別部、テキ
ストデータ検索部、データ格納部からなるテキストデー
タ置換手段（テキストデータ置換部）であり、テキスト
データ対応関係記憶部に記憶されたテキストデータ対応
関係による文書レイアウトに基づいて第１言語からなる
テキストデータを翻訳処理の結果得られた第２言語から
なるテキストデータに置き換える。１５０７は表示装
置、あるいはプリンタからなる出力手段であり、テキス
トデータ、非テキストデータ等を表示出力あるいはプリ
ント出力する。

【００５１】図１６は本発明の機械翻訳装置２における
データ処理の概略を示すフローチャートである。次に、
図１６を参照して、テキストデータと非テキストデータ
とが混在する文書を翻訳するための処理手順を説明す
る。ステップ１６０１：まず、翻訳対象となる、テキストデ
ータと非テキストデータとが混在している原文書を読み
込み、メインメモリ１４０３に格納する。ステップ１６０２：入力された原文書からテキストデー
タを抽出する処理が行われる。この結果、翻訳処理の対
象となるテキストデータ１６０８が得られる。

【００５２】ステップ１６０３：必要に応じて、ステッ
プ１６０２で抽出されたテキストデータに対して編集処
理が行われる。この結果、翻訳処理の対象となるテキス
トデータ１６０９と、原文書から抽出されたテキストデ
ータ１６８と編集後のテキストデータ１６０９との対応
関係を示すテキストデータ対応関係ファイル１６０７が
得られる。なお、ここでの対応関係は、文単位の関係を
表している。ステップ１６０４：編集が行われたテキストデータ１６
０９を受け取り、翻訳モジュール１４０４（図１４、参
照）によって翻訳する処理が行われる。翻訳処理の結
果、翻訳文すなわち第２言語のテキストデータ１６１０
が得られる。

【００５３】ステップ１６０５：ステップ１６０３で得
られたテキストデータ対応関係ファイル１６０７に記憶
していた情報に基づいて、原文書のテキストを記憶して
いた箇所に、ステップ１６０４で得られた第２言語のテ
キストデータ１６１０を置換する処理が行われる。ステップ１６０６：以上のようにして得られた、原文書
の第１言語からなるテキストデータを第２言語からなる
テキストデータに置き換えた結果文書を出力する処理が
行われる。

【００５４】図１７は図１６のステップ１６０２に対応
するテキストデータ抽出処理の詳細を示すフローチャー
トである。また、図１８は本発明の機械翻訳装置２で翻
訳される文書の１ページのレイアウトを示す説明図であ
る。図１８に示すように、この文書のレイアウトでは、
例えば、ブロック１〜２とブロック４〜５にはテキスト
データである文書データから構成され、ブロック３には
非テキストデータである図形データが存在している。ま
た、図１９は図１８の入力文書を文書データとして記憶
する場合の記憶例を示す説明図である。表示装置１４１
１には図１８に示すような文書が表示されるが、メイン
メモリ１４０３には図１９に示すような形式のデータと
して記憶される。また、図２０は図１９の文書データに
対してテキストデータ抽出処理を行った後のテキストデ
ータの説明図である。

【００５５】ステップ１７０１：まず、翻訳対象とな
る、テキストデータと非テキストデータとが混在してい
る原文書を読み込む。ステップ１７０２：次に、データポインタを原文書の先
頭にセットする。図１９に示す例では、ブロック１を指
す。ステップ１７０３：テキストＮｏを１にセットする。ステップ１７０４：ＣＰＵ１４０２において、データポ
インタが指しているデータがテキストデータか非テキス
トデータかを判別する。図１９に示す例では、テキスト
／非テキストを示すフラグによりテキストデータか非テ
キストデータかを判別することができる。

【００５６】ステップ１７０５：ステップ１７０４にお
いてテキストデータと判別された場合は、入力文書の
「内容」の部分に入っているデータを取り出す。ステップ１７０６：このデータに対して一文切り出しを
行う。一文切り出しでは、連続する文をピリオドやクエ
スチョンマークにより一文ごとに分割する。ステップ１７０７：一文切り出しの結果得られた一文ご
とにテキストＮｏを付加しながらテキストデータファイ
ルに書き込む。一方、ステップ１７０４において、テキ
ストデータでないと判別された場合、例えば、図１９に
示すブロック３のデータが指定された場合、ブロック３
のデータは非テキストデータであるので、何も処理は行
われずステップ１７０８へと進む。

【００５７】ステップ１７０８：以上のように、テキス
トデータと非テキストデータの各々に応じた処理が行わ
れた後、データポインタを＋１する。ステップ１７０９：データポインタが指す場所にデータ
があるかどうか判断する。データがある場合は、ステッ
プ１７０４に戻る。このようにして、文書データのブロ
ック２、ブロック３、…と上記の処理を繰り返し、デー
タが無くなれば処理を終了する。これにより、翻訳処理
の対象となるテキストデータ１６０８が得られる。この
ようにして図１９の文書データから得られたテキストデ
ータファイルが図２０に示すものである。

【００５８】また、図２１は図２０のテキストデータに
対して編集処理を行った後のテキストデータを示す説明
図である。すなわち、ステップ１６０２で抽出されたテ
キストデータに対して、ステップ１６０３の編集処理で
削除、連結、分割の編集作業が行われた後のテキストデ
ータを示している。図２２は図２０の原文書テキストと
図２１の編集後のテキストとのテキストデータ対応関係
を示す説明図である。これは、ステップ１６０３の編集
処理の前後のテキストを比較することにより得られる。

【００５９】図２３は図２１のテキストデータに対して
翻訳処理を行った結果得られた第２言語のテキストデー
タを示す説明図である。すなわち、ステップ１６０４の
翻訳処理によって得られた第２言語のテキストデータを
示している。ここで、翻訳処理は一文単位で行われる。
従って、図２３のテキストデータは図２１のテキストデ
ータと一対一に対応している。このことは、図２２は原
文書テキストと編集後のテキストデータとの対応関係を
示しているが、また同時に、原文書テキストと第２言語
のテキストデータとの対応関係も示していることにな
る。

【００６０】図２４は図１６のステップ１６０５に対応
するテキストデータ置換処理の詳細を示すフローチャー
トである。ステップ２４０１：まず、原文書を読み込む。ステップ２４０２：続いて、ステップ１６０４の翻訳処
理で得られた翻訳文すなわち第２言語のテキストデータ
ファイル１６１０を読み込む。ステップ２４０３：更に、ステップ１６０３の編集処理
で得られたテキストデータ対応関係ファイル１６０７を
読み込む。ステップ２４０４：次に、原文書データポインタを原文
書の先頭にセットする。図１９に示す例では、ブロック
１を指す。原文書データポインタはブロック１、ブロッ
ク２、…と指していく。

【００６１】ステップ２４０５：原文書テキストポイン
タを原文書の先頭の文にセットする。図１９の例では、
ブロック１の「内容」部にあるテキストの先頭の文を指
す。原文書テキストポインタは、一文ごとに指してい
く。ステップ２４０６：原文書データポインタが指している
データがテキストデータか非テキストデータかを判別す
る。図１９に示す例では、テキスト／非テキストを示す
フラグによりテキストデータか非テキストデータかを判
別することができる。ステップ２４０７：ステップ２４０６において、テキス
トデータと判別された場合は、原文書テキストポインタ
が指すブロックＩＤとフラグのデータを出力ファイルに
コピーする。

【００６２】ステップ２４０８：続いて、原文書テキス
トポインタに対応するテキストデータＮｏをテキストデ
ータ対応関係ファイルから得る。図２２の例では、Ｎ
ｏ．１の原文書テキストにはＮｏ．１のテキストが対応
している。つまり、Ｎｏ．１の原文書テキストは図２１
と図２３に示すテキストデータの両方のＮｏ．１のテキ
ストに対応している。ステップ２４０９：テキストデータファイル１６１０を
検索し、テキストデータＮｏのテキストを取り出す。図
２３の例では、Ｎｏ．１のテキストが取り出される。

【００６３】ステップ２４１０：そして、ステップ２４
０９で取り出したテキストデータを出力ファイルに書き
込む。図２３では、Ｎｏ．１のテキストが出力ファイル
に書き込まれる。つまり、図１９のブロック１の「内
容」の部分の１番目の文が図２３の１番目のテキストデ
ータに置き換えられて出力ファイルに書き込まれたとい
うことになる。ステップ２４１１：原文書テキストポインタを＋１す
る。ステップ２４１２：原文書テキストポインタが指す場所
にデータがあるかどうか判断する。つまり、現在処理中
のブロック内に文が残っているかどうか判断する。デー
タがある場合は、ステップ２４０８に戻る。図１９のブ
ロック１の例では、２番目の文があるのでステップ２４
０８に戻り上記の処理を繰り返すことになる。

【００６４】図２２の例の中からいくつかを説明する
と、Ｎｏ．５の原文書テキストには対応するテキストが
ない。従って、原文書のＮｏ．５のテキスト部分は出力
では空白となる。Ｎｏ．７とＮｏ．８の原文書テキスト
はどちらも同じＮｏ．６のテキストに対応している。従
って、原文書のＮｏ．７とＮｏ．８の２つのテキスト部
分がＮｏ．６のテキストひとつに置き換えられる。Ｎ
ｏ．１１の原文書テキストはＮｏ．９とＮｏ．１０のテ
キストと対応している。従って、原文書のＮｏ．１１の
テキスト部分ひとつがＮｏ．９とＮｏ．１０の２つのテ
キストに置き換えられる。このようにして、原文書デー
タポインタが指すブロック内でテキストデータがなくな
るまで上記処理を繰り返す。

【００６５】ステップ２４１５：一方、ステップ２４０
６において、テキストデータでないと判別された場合、
例えば、図１９においてブロックのデータが指定された
場合、ブロック３のデータは非テキストデータであるの
で、原文書データポインタが指すブロックＩＤ、フラ
グ、内容を出力ファイルにコピーする。ステップ２４１３：次に、原文書データポインタを＋１
する。ステップ２４１４：原文書データポインタが指す場所に
データがあるかどうか判断する。つまり、原文書にブロ
ックが残っているかどうかを判断する。データがある場
合は、ステップ２４０６に戻る。このようにして、原文
書データファイルのブロック２、ブロック３、…と上記
の処理を繰り返し、データが無くなれば処理を終了す
る。

【００６６】これにより、原文書のテキストが翻訳処理
ステップ１６０４の結果出力された第２言語からなるテ
キストデータ１６１０と置き換えられる。このようにし
て、図２３のテキストデータと図２２のテキストデータ
対応関係ファイルから、図１９に示す文書データの「内
容」が第２言語のテキストデータに変換されたものが得
られる（図２５、参照）。図２５は機械翻訳装置２によ
り得られた出力文書を示す説明図である。

【００６７】従って、本発明によれば、原文書データの
テキストデータと翻訳処理されたテキストデータとの置
き換えを、テキストデータ対応関係情報をテキストデー
タ対応関係情報記憶部に記憶しておき、後でテキストデ
ータ対応関係情報に基づいて第２言語のテキストデータ
を置き換えるという方法で実現できる。従って、テキス
トデータと非テキストデータが混在する文書データで構
成される文書データのレイアウトからテキストデータの
みを正確に抽出して信頼性の高い翻訳処理をすることが
できる。従って、翻訳処理の効率を大幅に向上すること
ができる。

【００６８】

【発明の効果】本発明によれば、テキストデータと非テ
キストデータが混在する文書データで構成される文書デ
ータのレイアウトからテキストデータのみを正確に抽出
して信頼性の高い翻訳処理をすることができる。従っ
て、原文書と同じレイアウトの翻訳文書が得られること
になり、翻訳処理の効率を大幅に向上することができる
ので翻訳利用者の負担も大幅に軽減される。

【図面の簡単な説明】

【図１】本発明の文書処理装置の一実施例を示すブロッ
ク図である。

【図２】本発明を機械翻訳装置１に適用した機能構成を
示すブロック図である。

【図３】本発明の機械翻訳装置１におけるデータ処理の
概略を示すフローチャートである。

【図４】図３のステップ３０２に対応するテキストデー
タ抽出処理の詳細を示すフローチャートである。

【図５】本発明の機械翻訳装置１で翻訳される入力文書
１頁のレイアウトを示す説明図である。

【図６】図５の入力文書を文書データとして記憶する場
合の記憶例を示す説明図である。

【図７】図６の文書データに対してテキストデータ抽出
処理を行なった後の非テキストデータを示す説明図であ
る。

【図８】図６の文書データに対してテキストデータ抽出
処理を行なった後のテキストデータを示す説明図であ
る。

【図９】図８のテキストデータに対して編集処理を行な
った後のテキストデータを示す説明図である。

【図１０】図９のテキストデータに対して翻訳処理の中
の一文切り出し処理を行なった後のテキストデータを示
す説明図である。

【図１１】図１０のテキストデータに対して翻訳処理を
行なった結果得られた第２言語のテキストデータを示す
説明図である。

【図１２】図３のステップ３０５に対応するテキストデ
ータ置換処理の詳細を示すフローチャートである。

【図１３】本発明の機械翻訳装置１により得られた出力
文書を示す説明図である。

【図１４】本発明の文書処理装置の他の実施例を示すブ
ロック図である。

【図１５】本発明を機械翻訳装置２に適用した機能構成
を示すブロック図である。

【図１６】本発明の機械翻訳装置２におけるデータ処理
の概略を示すフローチャートである。

【図１７】図１６のステップ１６０２に対応するテキス
トデータ抽出処理の詳細を示すフローチャートである。

【図１８】本発明の機械翻訳装置２で翻訳される入力文
書の１頁のレイアウトを示す説明図である。

【図１９】図１８の入力文書を文書データとして記憶す
る場合の記憶例を示す説明図である。

【図２０】図１９の文書データに対してテキストデータ
抽出処理を行なった後のテキストデータを示す説明図で
ある。

【図２１】図２０のテキストデータに対して編集処理を
行なった後のテキストデータを示す説明図である。

【図２２】図２０の原文書テキストと図２１の編集後の
テキストとのテキストデータ対応関係を示す説明図であ
る。

【図２３】図２１のテキストデータに対して翻訳処理を
行なった結果得られた第２言語のテキストデータであ
る。

【図２４】図１６のステップ１６０５に対応するテキス
トデータ置換処理の詳細を示すフローチャートである。

【図２５】本発明の機械翻訳装置２により得られた出力
文書を示す説明図である。

【符号の説明】

１、１４０１制御部２、１４０２ＣＰＵ３、１４０３メインメモリ４、１４０４翻訳モジュール（翻訳手段）５、１４０５辞書メモリ６、１４０６テキストデータ抽出部（テキストデータ
抽出手段）７、１４０７編集部（編集手段）８、１４０８テキストデータ置換部（テキストデータ
置換手段）９、１４０９入力装置１０、１４１０外部記憶装置１１、１４１１表示装置

Claims

【特許請求の範囲】

【請求項１】第１言語からなるテキストデータと非テ
キストデータとが混在する原文書データを入力するとと
もに編集、レイアウト、翻訳等の処理指示を入力する入
力手段と、テキストデータを記憶するテキストデータ記憶部と非テ
キストデータを記憶する非テキストデータ記憶部を有す
る記憶手段と、入力された原文書データからテキストデータを抽出しそ
の抽出したテキストデータにテキストＩＤ番号を対応さ
せて前記テキストデータ記憶部に記憶させるとともにテ
キストデータ抽出後の対応箇所に前記テキストＩＤ番号
を付加し非テキストデータを原文書と同一のレイアウト
で前記非テキストデータ記憶部に記憶させるテキストデ
ータ抽出手段と、抽出されたテキストデータに対して編集処理を実行する
編集手段と、編集されたテキストデータに対して第１言語から第２言
語に翻訳処理を実行する翻訳手段と、非テキストデータ記憶部に記憶されたテキストＩＤ番号
と非テキストデータを読み出しそのテキストＩＤ番号を
翻訳処理の結果得られた第２言語からなるテキストデー
タに置き換えるテキストデータ置換手段と、置き換えられた第２言語からなるテキストデータと非テ
キストデータとが混在する文書データを出力する出力手
段とをそれぞれ備えたことを特徴とする文書処理装置。
【請求項２】第１言語からなるテキストデータと非テ
キストデータとが混在する原文書データを入力するとと
もに編集、レイアウト、翻訳等の処理指示を入力する入
力手段と、テキストデータを記憶するテキストデータ記憶部とテキ
ストデータ対応関係情報を記憶するテキストデータ対応
関係記憶部を有する記憶手段と、入力された原文書データからテキストデータを抽出する
とともに抽出したテキストデータを記憶手段のテキスト
データ記憶部に記憶させるテキストデータ抽出手段と、抽出されたテキストデータに対して編集処理を実行する
とともに編集後のテキストデータと原文書データとのテ
キストデータ対応関係情報を記憶手段のテキストデータ
対応関係記憶部に記憶させる編集手段と、編集されたテキストデータに対して翻訳処理を実行する
翻訳手段と、テキストデータ対応関係記憶部に記憶されたテキストデ
ータ対応関係情報に基づき第１言語からなるテキストデ
ータを翻訳処理の結果得られた第２言語からなるテキス
トデータに置き換える置換手段と、置き換えられた第２言語からなるテキストデータと非テ
キストデータとが混在する文書データを出力する出力手
段とをそれぞれ備えたことを特徴とする文書処理装置。
【請求項３】前記テキストデータ抽出手段はテキスト
データ抽出部およびテキストデータ判別部を備え、前記
テキストデータ抽出部が入力された原文書データからテ
キストデータを抽出する際、テキストデータ判別部はテ
キストデータであるか非テキストデータであるかを判別
することを特徴とする請求項１又は２記載の文書処理装
置。