JPH06332958A

JPH06332958A - Ｃｄ−ｒｏｍ情報編集装置

Info

Publication number: JPH06332958A
Application number: JP5117152A
Authority: JP
Inventors: Akira Sagaraki; 昌佐良木
Original assignee: ROEHM PROPERTIES BV
Current assignee: ROEHM PROPERTIES BV
Priority date: 1993-05-19
Filing date: 1993-05-19
Publication date: 1994-12-02

Abstract

(57)【要約】【目的】複数のテキストファイルを自動編集するＣＤ
−ＲＯＭ情報編集装置を提供する。【構成】公開公報編集システムは、情報処理装置１
０、ＦＤ装置５０、金属ディスク装置６０、ＣＤ−ＲＯ
Ｍ読み出し装置８０などを備えている。本システムは、
多数のテキストファイルを単一ファイルに結合し、テキ
スト情報以外の不要データを消去すると共に文書書式を
整え、複文や重文を複数の単文に分割し、表記上のゆら
ぎを正規表現規則に基づいて補正する。また、翻訳が困
難な日本語をあらかじめ正確な翻訳対象言語に変換する

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、外部のＣＤ−ＲＯＭ情
報読み出し装置から入力されたテキストファイルを編集
するＣＤ−ＲＯＭ情報編装置に関する。

【０００２】

【従来の技術】近年、特許情報や技術情報を収録したＣ
Ｄ−ＲＯＭが、各国においてそれぞれの言語で発行され
ている。例えば、平成５年から日本国特許庁がＣＤ−Ｒ
ＯＭ版公開公報の発行を開始した。これらＣＤ−ＲＯＭ
の発行にともない、ＣＤ−ＲＯＭ公開公報検索システム
が急速に普及し始めている。この種の検索システムは、
ＣＤ−ＲＯＭに収録された特許公開公報から所望の公報
を検索し、検索結果を表示や印刷の形で出力したり、テ
キスト・ファイルとして出力することができる。出力さ
れたテキストファイルは、例えば、自動翻訳装置による
翻訳処理用の原文テキストといった形態で利用可能であ
る。

【０００３】

【発明が解決しようとする課題】ところで、例えば、日
本国特許庁が発行のＣＤ−ＲＯＭ公開公報には、テキス
ト情報、イメージ情報のほかに、各種制御情報も含まれ
ている。テキスト情報に変換できないコード（「＝」に
強制変換される）や、論理構造を示すタグであっても不
要なもの、例えば、イメージデータや外字などの挿入箇
所を示すタグ、レイアウト構造を示すタグなど、テキス
ト情報のみを所望時にはガベージ・データ（Gabbage Da
ta、いわゆるゴミ）となるものも含まれている。

【０００４】このため、上記検索システムの出力ファイ
ル、例えば、抄録ファイル（公開公報フロントページ）
では、イメージ情報が消去されたあとは空白ページとし
て残

【０００５】されると共に、

【枠１】といった識別記号が付加されたり、「＝＝＝」
のような続きを示す記号が挿入される。さらに、空白ペ
ージには、改行コードが多数含まれていたり、テキスト
各行の行末には１以上のスペースが挿入されていること
もあり、整った書式では出力されない。

【０００６】このような書式の不揃いのために、上記検
索システムでは出力テキストファイルの文書整形を人手
により逐一行わなければならなかったので、利用者の労
力・不便感を増大させる原因となる。さらに、上記検索
システムでは、１公報１ファイルで出力されるので、多
数のフロントページについてテキストファイルが多数出
力されることになる。したがって、上記検索システムに
おいて、ファイル毎に結合処理を人手を介して繰り返さ
なければならなかった。

【０００７】加えて、特許明細書の文書には、表記上の
ゆれ、正規文法からの乖離、長文がきわめて多く、誤訳
や翻訳不能といった深刻な問題の原因となっており、前
編集の段階で、逐一、人手により、翻訳に適合した語・
文に書き換えてから、翻訳処理を行わなければならなか
った。もちろん、原文に（）などの記号を挿入したり、
問題点を指摘するといったことは考えられるが、いずれ
にしても人手によるほかはない。翻訳処理の前段でこの
ような労力と時間が必要となり、大量の特許公報の翻訳
処理の円滑で迅速な処理の大きな障害となっていた。

【０００８】本発明は、こうした問題に鑑みなされたも
ので、複数のテキストファイルを自動編集するＣＤ−Ｒ
ＯＭ情報編集装置装置を提供することを目的としてい
る。

【０００９】

【課題を解決するための手段】かかる目的を達成するた
めになされた本発明は、図１に例示するように、ＣＤ−
ＲＯＭ記憶媒体から情報を読み出す外部の情報読み出し
装置から入力される情報を編集するＣＤ−ＲＯＭ情報編
集装置であって、外部のＣＤ−ＲＯＭ情報読み出し装置
から入力される複数のテキストファイルを格納する第１
の格納手段と、テキストを表現する言語の区切り言葉に
関する語データを格納する第２の格納手段と、テキスト
中の文データを整形するための文整形規則を格納する第
３の格納手段と、テキストを表現する言語の語データの
正規表現規則を格納する第４の格納手段と、上記第１の
格納手段に格納された複数のテキストファイルを単一の
テキストファイルに結合するファイル結合手段と、上記
第２の格納手段の語データに基づいて、上記単一テキス
トファイル中の所定の区切り言葉を抽出する抽出手段と
上記第３の格納手段の文整形規則に基づいて、上記単一
テキストファイル中のテキスト情報以外の不要情報を除
去すると共に上記抽出手段により抽出された区切り言葉
が存在する文データ夫々を分割することで、上記単一フ
ァイルを編集する第１の編集手段と、上記第４の格納手
段の正規表現規則に基づいて、上記単一テキストファイ
ル中の語データの該正規表現規則からの乖離を検出する
検出手段と、該検出手段によって検出された語データの
表記上の乖離を上記第４の格納手段の正規表現規則に基
づいて補正することで、上記単一テキストファイルを編
集する第２の編集手段と、上記第１の編集手段及び第２
の編集手段により編集された上記単一テキストファイル
を外部へ出力する出力手段とを備えることを特徴とする
ＣＤ−ＲＯＭ情報編集装置にある。

【００１０】

【作用】上記のように構成された本発明の装置によれ
ば、第１の格納手段が、複数のテキストファイルを格納
すると、ファイル結合手段が、これらテキストファイル
を単一のテキストファイルに結合する。次に抽出手段
が、第２の格納手段の言語データに基づいて上記単一テ
キストファイル中の所定の区切り言葉を抽出すると、第
１の編集手段が、第３の格納手段の文整形規則に基づい
て、上記単一テキストファイル中のテキスト情報以外の
不要情報を除去すると共に区切り言葉の存在する文デー
タ夫々を分割する。そして検出手段が、第４の格納手段
の正規表現規則に基づいて単一テキストファイル中の語
データの表記上の該正規表現規則からの乖離を検出する
と、第２の編集手段が、検出された語データの表記上の
乖離を上記正規表現規則に基づいて補正する。

【００１１】このように、複数のテキストファイルが単
一のファイルに結合され、当該単一テキストファイル中
の不情報が除去されると共に区切り言葉が存在する文デ
ータは分割され、語データの表記上の乖離が正規表現に
補正される。

【００１２】

【実施例】以下に本発明の実施例を図面と共に説明す
る。まず、図２は本発明が適用された実施例の公開公報
編集システムを表すブロック図である。

【００１３】公開公報編集システムは、ＣＤ−ＲＯＭ公
開公報から所望の公開公報を検索し、検索公報をテキス
トファイルとして出力する。公開公報編集システムは、
情報処理装置１０、キーボード２０、マウス３０、ＣＲ
Ｔ表示装置４０、フレキシブルディスク装置（以下、Ｆ
Ｄ装置という）５０、金属ディスク装置（以下、ＨＤ装
置という）６０、プリンタ７０、ＣＤ−ＲＯＭ読み出し
装置（以下、ＣＤ装置という）８０及び光ディスク装置
９０などを備えている。

【００１４】なお、出力ファイルは外部の自動翻訳装置
（不図示）での翻訳処理に用いられる。また本システム
には、キーワード検索方式の検索機能も備えられている
が、本発明の要旨ではないので、説明は省略する。情報
処理装置１０は、論理演算回路として構成された中央演
算部１１と、メモリ部１２と、内部インタフェース部１
３、外部インタフェース部１４、外部の自動翻訳装置と
の間でデータ送受信を行う通信インタフェース部１５と
を主要部として構成されている。メモリ部１２は、プロ
グラム・エリア１２ａと、ワーク・エリア１２ｂとが備
えられ、内部インタフェース部１３には、キーボード２
０、マウス３０、ＣＲＴ表示装置４０、ＦＤ装置５０
が、外部インタフェース部１４には、ＨＤ装置６０、プ
リンタ７０、ＣＤ装置８０及び光ディスク装置９０が、
着脱可能に接続されている。

【００１５】情報処理装置１０は、その起動時に、メモ
リ部１２のワーク・エリア１２ｂ内部に検索条件エリア
Ｅａ、インデックス・エリアＥｂ、オプション・エリア
Ｅｃなどを割り付け、ＣＲＴ表示装置４０に検索条件式
設定のための画面を出力する。この設定画面には、「出
願番号」・「公開番号」・「公開日」・「ＩＰＣ分類」
・「優先権主張番号」などの書誌的事項、「Ｆ１」など
の項目、テキスト情報から除去したいコードを選択する
ための項目（除去データ項目）、及び翻訳が困難な日本
語をあらかじめ翻訳対象言語（英語、ドイツ語、フラン
ス語、スペイン語など）に変換するオプション設定など
が網羅されている。キーボード２０あるいはマウス３０
から検索項目・検索条件式及びオプションが入力・設定
されると、情報処理装置１０は、各設定条件を検索条件
エリアＥａ及びオプション・エリアＥｃに格納する。続
いて、当該検索条件に一致した出願をサーチし、サーチ
結果をインデックス・エリアＥｂに格納する。ここに
は、サーチ出願番号の順に格納される。

【００１６】ＨＤ装置６０には、構文解析や文節・語分
析のための辞書ＤＢ１及び文法ルールＤＢ２、正規表現
辞書ＤＢ３、和英辞書ＤＢ４などのデータベースが格納
されている。また、ＣＤ装置６０から読みだした特許公
報のテキスト情報を格納するテキスト・エリアＴＸ及び
イメージデータを格納するイメージ・エリアＩＭも十分
に確保されている。辞書ＤＢ１は、一般辞書ｄｉｃ１の
ほかに、文部省制定の学術用語各分野編、いわゆる業界
用語やジャーゴン（Jargon）が収録された専門語辞書ｄ
ｉｃ２、区切り言葉（後述する）などが格納された特殊
辞書ｄｉｃ３などを備える。正規表現辞書ＤＢ３には、
表記上のゆらぎを補正するための表記規則がテーブルＴ
Ｂ１として格納されている。例えば、内閣告示・通知、
文部省通知、国語審議会報告、日本工業規格（ＪＩＳ）
に制定されている用語規格（「Ａ０００２建築モジュ
ール用語」から「Ｚ８１２１オペレーションズリサー
チ用語」までの規格）などに基づいて定められた各種の
表記規則が格納されている。さらに、サ行変格活用の動
詞として認知されている熟語動詞を網羅した熟語動詞テ
ーブルＴＢ２も含まれている。

【００１７】ＣＤ装置８０には、特許公開公報を収録し
たＣＤ−ＲＯＭ（日本国特許庁発行）がセットされてい
る。ＣＤ−ＲＯＭには、検索用のキーワードを格納する
キーインデクッス・ファイル、特許明細書などの技術情
報を収録するテキスト・ファイルなどが格納されてい
る。

【００１８】光磁気ディスク装置９０には、カートリッ
ジ・タイプで着脱自在な光磁気ディスクが備えられ、検
索された公開公報ファイルなどが格納される。次に、情
報処理装置１０において実行される各処理について説明
する。まず最初に図３のフローチャートに沿って、複数
の公報全文ファイル（又は抄録ファイル）を単一のファ
イルに統合するためのファイル結合処理について説明す
る。情報処理装置１０は、検索条件に一致する出願のサ
ーチを終えると、本処理を実行する。

【００１９】処理を開始すると、ステップ１００で、イ
ンデックス・エリアＥｂに格納されている出願番号につ
いて、その最初のテキスト・ファイルｆ１を、ＣＤ−Ｒ
Ｏ装置８０から読み込み、ＨＤ装置６０のテキスト・エ
リアＴＸの先頭アドレスＢＥＧＩＮから一時的に格納す
る。１ファイルの終わりを示す制御文字は、テキスト・
データではＥＯＦ（１６進コードでは１Ａ）に変換され
ているが、このＥＯＦが格納されたアドレスが末尾とな
る。なお、公報全文ファイルのときにはは、イメージ・
ファイル及びポジション・ファイルは除かれ、抄録ファ
イルのときには、イメージ・データ部分が除かれる。

【００２０】続くステップ１１０では、番号順に次の出
願番号のテキスト・ファイルを読み込み、続いてステッ
プ１２０では、上記アドレス末尾から、そのテキスト・
ファイルを格納する。したがって、最初のテキススト・
ファイルのＥＯＦは、次のテキスト・ファイルの先頭デ
ータが重ね書きされて消失するので、二つのテキスト・
ファイルがリンクされる。続いてステップ１３０では、
すべての出願番号のファイルを読み込んだか否かを判断
し、未だすべてのファイルを読み込んでいなければステ
ップ１１０に戻る。一方、読み込みが完了していれば、
ステップ１４０でテキスト・エリアＴＸの先頭アドレス
ＢＥＧＩＮから最終アドレス（ここのだけデータＥＯＦ
が存在する）までを単一ファイルとして生成し（ファイ
ル名を編集ファイルとする）、処理を終了する。

【００２１】続いて、図４、図５、図６のフローチャー
トに沿って、情報処理装置１０において実行される不要
データ除去処理、文分割処理、ワード・コンバート処理
について順次説明する。これら処理は、上記ファイル結
合処理で生成された編集ファイルについて、連続して実
行される。

【００２２】まず、不要データ除去処理を実行する。処
理を開始すると、ステップ２００で、検索条件エリアＥ
ａから除去データ項目の設定条件を読み出して、上記フ
ァイル結合処理によって生成された編集ファイル中のテ
キスト情報から、記載項目を示す識別記号（

【発明の名
称】など）以外の段落番号を示す識別記号（

【０００ｎ】など）を除去する設定がなされているか否
かを判断する。除去設定がなされていると肯定判断をし
たときには、続くステップ２１０で当該識別記号を、改
行コードを含めてすべて消去し、ステップ２２０へ進
む。一方、除去設定がされていない否定判断をしたとき
には、ステップ２２０へスキップする。ステップ２２０
では、空白ページ、改ページ制御コード（0C0A）、タブ
・コード、「＝」、

【枠１】、

【枠１０】などを消去し、続くステップ２３０では編集
ファイル中の各行末に挿入されたスペース、各行の文頭
から文末の句点（「。」）までに存在する改行コード
（0D0A）を消去して各文を整形し、処理を終了する。続
けて、文分割処理を実行する。まず、ステップ３００で
編集ファイル中の文について構文分析及び文節・語区の
分析処理を実行する。本処理は構文分析及び文節・語の
分析処理（あるいは単語分割の処理）として周知である
ので、詳細は省略する。続いてステップ３１０で、各文
について文を構成する語を計数し、その総数ｎが所定数
Ｌ以上か否かを判断する。ステップ３１０にて、語の総
数ｎが所定数Ｌ以上と肯定判断をすると、続くステップ
３２０へ進む。ステップ３２０では、区切り言葉が文章
中に存在するか否かを判断し、区切り言葉が存在すると
肯定判断をしたときには、ステップ３３０へ進んで区切
り言葉の直前で改行して二つの文に分割し、ステップ３
４０へ進む。

【００２３】一方ステップ３１０で、語の総数ｎが所定
数Ｌを下回ると否定判断をすると、ステップ３４０へ分
岐する。またステップ３２０で、区切り言葉が文章中に
存在しないと否定判断をすると、ステップ３４０へ分岐
する。ステップ３４０では、文の主語（主部）に修飾節
があるか否かを判断し、修飾節があると肯定判断をした
ときにはステップ３５０に分岐し、修飾節がないと否定
判断をしたときには、ステップ３６０へ進む。なお、こ
こで、区切り言葉とは、独立節同士や、独立節と従属節
とを結合して一文となす役割をもつ言葉である。例え
ば、「同時に」「すなわち」「一方」「他方」などの接
続詞、「さらに」「つまり」「要するに」などの副詞、
「続いて」「くわえて」などの動詞、「と共に」などの
連語を指す。

【００２４】ステップ３５０では、文の主語（主部）に
修飾節があるときには、当該の修飾節を抽出して、「＜
主語＞は、＜修飾節＞である」という単独の短文を生成
して元の文の直前に挿入すると共に、元の文については
当該修飾節を削除した文に整形する。例えば、「ａであ
りｂでありｃである＜主語＞は、・・・である。」とい
う文は、「＜主語＞はａでありｂでありｃである。」と
いう別の文を生成すると共に、元の文を「その＜主語＞
は・・・である。」という文に整形する。ステップ３４
０にて、否定判断をして直接に、また肯定判断をしてス
テップ３５０を経てステップ３６０に進むと、文の述部
に、シリーズ形態の修飾節（句）がある、単一の修飾節
がある、いずれも無い、これらのいずれかであるを判断
する。(α)シリーズ形態の修飾句があると判断したとき
には、ステップ３７０に進み、(β)修飾節があると判断
したときにはステップ３８０に進み、(γ)いずれも無い
と判断したときにはそのまま処理を終了する。

【００２５】ステップ３７０では、述部を断章（Fragme
nt）の配列の形に整形して、処理を終了する。この処理
は、シリーズ形態の修飾節（句）をもつ文、例えば、
「＜主語＞は、Ａ，Ｂ，Ｃ，・・・Ｚである」という長
文のときには、「＜主語＞は次の態様をなしている。」
という単独の短文を生成すると共に、＜述部＞ついて
は、「Ａ（改行）。Ｂ（改行）。Ｃ（改行）…
…。Ｚ（改行）。」という断章配列に整形する。な
お、シリーズの各要素Ａ〜Ｚは、句でも節でもよく、断
章の形に配列されれば、節は翻訳時に単文として扱われ
る。

【００２６】ステップ３８０では、＜修飾節＞を抽出し
て、「＜主語＞は、＜修飾節＞である」という単独の短
文を生成して元の文の直前に挿入すると共に、元の文に
ついては当該修飾節を削除した文に整形して、処理を終
了する。引き続いて、ワード・コンバート処理を実行す
る。処理を開始すると、まずステップ４００で、外来語
カタカナ表記の単語を抽出し、続くステップ４１０で、
これら抽出単語を正規表現ルール｛単語末尾の長音符号
（ー）の表記は、２語以下のときは表記し（例えば、バ
ー、リレー）、３語以上のときには表記しない（例え
ば、メモリ、アナライザ）｝に対照して正規表記への補
正変換を行う。続いてステップ４２０で、＜「名詞」＋
「する」＞という形態の単語を抽出して、続くステップ
４３０で、正規表現辞書ＤＢ３内の熟語動詞テーブルＴ
Ｂ２を参照して、抽出単語が、「サ行変格活用の動詞で
ある熟語動詞」であるか否かを判断する。ステップ４３
０で当該「熟語動詞」であると判断したときにはステッ
プ４５０へスキップする。一方、「熟語動詞」ではない
と判断すると、ステップ４４０に進む。ステップ４４０
では、当該単語を、熟語動詞テーブルＴＢ２を参照して
＜「名詞」＋「を」＋「動詞」＞などの正規表現に補正
変換し、ステップ４５０へ進む。ステップ４４０の処理
の結果、例えば「特許する」は「特許権を与える」（あ
るいは「特許を受けるべきものと査定する」）に、「機
能する」は「働きをする（作用する）」に、「科学す
る」は「科学的にものをみる」に、それぞれ変換され
る。

【００２７】ステップ４５０では、ひらがな表記の接続
詞（副詞）｛「かつ」「また」「または」「なお」「た
だし」「すなわち」など｝を抽出し、続くステップ４６
０で抽出単語を漢字仮名混じり表記｛「且つ」「又」
「又は」「尚」「但し」「即ち」など｝に補正変換す
る。これら抽出単語はひらがな表記が正規表現である
が、翻訳を容易にするために漢字仮名混じり表記にす
る。ひらがな言葉が連続する句については文節分析が複
雑であり分析しやすくするためである。続いて、ステッ
プ４７０では、翻訳が困難な日本語をあらかじめ翻訳対
象言語に変換するオプション設定がなされているか否か
を判断する。ステップ４７０でオプション設定がなされ
ていると肯定判断すると、ステップ４８０に進む。ステ
ップ４８０では、正確な翻訳がきわめて困難な名称や名
詞、定型文（句）を抽出し、あらかじめ正しい訳語に変
換する。この処理では、例えば対象となる難解語を抽出
し英和辞書ＤＢ４を参照して翻訳対象言語の言葉（英
語）に変換する。その事例を以下に示す。なお、矢印
（→）は訳出方向を示す。

【００２８】日本語 → 英語 (19) 発行国日本国特許庁（ＪＰ） → ［19］Japan Patent Office(JP) (12) 公報種別公開特許公報（Ａ） → ［12］Patent Laying Open Gazzet (11) 公開番号 → ［11］Japanese Patent Laying Open Nu mber (43) 公開日 → ［43］Date of Laying Open (54) 発明の名称 → ［54］Title of the Invention (51) 国際特許分類第５版 → ［51］Int.CL.5. (21) 出願番号 → ［21］Application Number (22) 出願日 → ［22］Filed: (31) 優先権主張番号 → ［31］Priority Number (32) 優先日 → ［32］Priority Date (33) 優先権主張国 → ［33］Priority Contry (71) 出願人 → ［71］Applicant 識別番号 → ［Indentification Number］ (57) 要約 → ［57］Abstract 効果 → ［Advantages］目的 → ［Object］構成 → ［Construction］審査請求未請求 → ［Request for Examination］haven't been requeste d yet 請求項の数 → ［Number of Claims］全頁数 → ［Total Page Number of This Gazzet］続いてステップ４８０からステップ４９０へ進み、編集
ファイルを前編集済みファイルとして外部の自動翻訳装
置（不図示）へデータ通信で伝送して、処理を終了す
る。

【００２９】一方、ステップ４７０でオプション設定が
なされていないと否定判断すると、ステップ５００進
む。ステップ５００では、編集ファイルをＦＤ装置５０
及び光磁気ディスク装置９０（あるいはプリンタ７０）
に出力し、処理を終了する。上記処理の結果、表記上の
揺らぎが正規表現へと補正変換され、表記上のゆらぎが
吸収し緩衝される。

【００３０】以上説明したように本実施例では、多数の
テキストファイルを単一のファイルに結合し、当該単一
ファイルについて、テキスト情報以外の不要データを消
去すると共に文書書式を整え、複文や重文を複数の単文
に分割し、表記上のゆらぎを吸収・緩衝するので、ＣＤ
装置８０から入力されるテキストファイルの編集作業が
自動化される。従来、テキストファイルの結合や文書整
形は人手により逐一行っていたが、本実施例ではこのよ
うな労力を省き不便感を払拭することができる。

【００３１】さらに、表記上のゆれや正規文法からの乖
離を正規表現に補正し、長文を短い単文に分割する自動
翻訳のための前編集作業が自動化されので、誤訳や翻訳
不能の発生率の低減に功を奏する。さらに、翻訳が困難
な日本語をあらかじめ正確な翻訳対象言語に変換するの
で、自動翻訳における翻訳効率・速度の向上に寄与する
ことができ、大量の特許公報の翻訳処理の円滑で迅速な
処理にも大きく貢献することができる。

【００３２】あるいは、複雑難解な特許明細書が、短い
単文の構成に整理されると共に、シリーズ要素が断章の
形態で表されるので、技術的情報のサーチ効率化にも寄
与する。なお、本実施例では辞書ＤＢ１内の特殊辞書ｄ
ｉｃ３に区切り言葉が網羅されていたが、このほかに、
文書の一部をサスペンション構造（suspended construc
tion、未決構造）として独立させる言葉が含まれてもよ
い。この場合、サスペンション構造を誘導する区切り言
葉と共に、文の分割形態や文書区切り位置を指定する属
性データを併せて辞書登録するように構成する。

【００３３】一例を挙げると、「例えば」という区切り
言葉と、サスペンション構造を単独の文として独立させ
るという分割指示なる属性とを辞書登録する。そして情
報処理装置１０において、この属性があるときには、上
記文分割処理の中に、次の文書整形処理を追加して実行
するように構成する。即ち、最初のステップで、「例え
ば」とそれに連続するシリーズ要素を抽出し、続くステ
ップでは、抽出部分を除いて原文を整形し、最後のステ
ップでは、当該抽出部分を＜「主語」＋「の例として
は、シリーズ要素１，シリーズ要素２，シリーズ要素
３，・・・がある。」＞という単独の文として独立させ
るという処理を実行する。具体的には、「温度を検出す
る手段、例えば、熱電対、白金測温抵抗体、ＩＣ化温度
は、Ａ／Ｄ変換用のインタフェース回路を必要とす
る。」という原文を、・「温度を検出する手段は、Ａ／Ｄ変換用のインタフェ
ース回路を必要とする。」・「温度を検出する手段の例としては、熱電対、白金測
温抵抗体、ＩＣ化温度がある。」という二文に分割する。

【００３４】

【発明の効果】以上詳述したように本発明によれば、複
数のテキストファイルを単一のテキストファイルに結合
し、当該単一ファイル中の区切り言葉のある文データ夫
々を分割整形し、且つ語データの正規表現からの乖離を
補正する。それ故、テキストファイルの結合作業が自動
化されるとと共に、表記上のゆれや正規文法からの乖離
を正し、長文を短文に分割することで、情報整理・検索
や自動翻訳のための前編集作業が自動化される。それ
故、大量の特許公報の情報整理・検索や翻訳の効率化や
速度向上に寄与することができる。

【図面の簡単な説明】

【図１】本発明のＣＤ−ＲＯＭ情報編集装置の構成を例
示する基本的構成図である。

【図２】実施例の公開公報編集システムのブロック図で
ある。

【図３】情報処理装置で実行されるファイル結合処理の
フローチャートである。

【図４】情報処理装置で実行される不要データ除去処理
のフローチャートである。

【図５】情報処理装置で実行される文分割処理のフロー
チャートである。

【図６】情報処理装置で実行されるワード・コンバート
処理のフローチャートである。

【符号の説明】

１０・・・情報処理装置５０・・・フレキシブルディスク装置６０・・・金属ディスク装置ＴＸ・・・
テキスト・エリア８０・・・ＣＤ−ＲＯＭ読み出し装置ＤＢ１・・・辞書ｄｉｃ１・
・・一般辞書ｄｉｃ２・・・専門語辞書ｄｉｃ３・・・特殊辞書ＤＢ２・・・文法ルールＤＢ３・・・正規表現辞書ＴＢ１・・
・表記規則テーブルＴＢ２・・・熟語動詞テーブルＤＢ４・・・和英辞書

Claims

【特許請求の範囲】

【請求項１】ＣＤ−ＲＯＭ記憶媒体から情報を読み出
す外部の情報読み出し装置から入力される情報を編集す
るＣＤ−ＲＯＭ情報編集装置であって、外部のＣＤ−ＲＯＭ情報読み出し装置から入力される複
数のテキストファイルを格納する第１の格納手段と、テキストを表現する言語の区切り言葉に関する語データ
を格納する第２の格納手段と、テキスト中の文データを整形するための文整形規則を格
納する第３の格納手段と、テキストを表現する言語の語データの正規表現規則を格
納する第４の格納手段と、上記第１の格納手段に格納された複数のテキストファイ
ルを単一のテキストファイルに結合するファイル結合手
段と、上記第２の格納手段の語データに基づいて、上記単一テ
キストファイル中の所定の区切り言葉を抽出する抽出手
段と上記第３の格納手段の文整形規則に基づいて、上記単一
テキストファイル中のテキスト情報以外の不要情報を除
去すると共に上記抽出手段により抽出された区切り言葉
が存在する文データ夫々を分割することで、上記単一フ
ァイルを編集する第１の編集手段と、上記第４の格納手段の正規表現規則に基づいて、上記単
一テキストファイル中の語データの該正規表現規則から
の乖離を検出する検出手段と、該検出手段によって検出された語データの表記上の乖離
を上記第４の格納手段の正規表現規則に基づいて補正す
ることで、上記単一テキストファイルを編集する第２の
編集手段と、上記第１の編集手段及び第２の編集手段により編集され
た上記単一テキストファイルを外部へ出力する出力手段
と、を備えることを特徴とするＣＤ−ＲＯＭ情報編集装置。