JPH06332958A - Cd−rom情報編集装置 - Google Patents

Cd−rom情報編集装置

Info

Publication number
JPH06332958A
JPH06332958A JP5117152A JP11715293A JPH06332958A JP H06332958 A JPH06332958 A JP H06332958A JP 5117152 A JP5117152 A JP 5117152A JP 11715293 A JP11715293 A JP 11715293A JP H06332958 A JPH06332958 A JP H06332958A
Authority
JP
Japan
Prior art keywords
editing
text
information
file
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5117152A
Other languages
English (en)
Inventor
Akira Sagaraki
昌 佐良木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ROEHM PROPERTIES BV
Original Assignee
ROEHM PROPERTIES BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ROEHM PROPERTIES BV filed Critical ROEHM PROPERTIES BV
Priority to JP5117152A priority Critical patent/JPH06332958A/ja
Publication of JPH06332958A publication Critical patent/JPH06332958A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 複数のテキストファイルを自動編集するCD
−ROM情報編集装置を提供する。 【構成】 公開公報編集システムは、情報処理装置1
0、FD装置50、金属ディスク装置60、CD−RO
M読み出し装置80などを備えている。本システムは、
多数のテキストファイルを単一ファイルに結合し、テキ
スト情報以外の不要データを消去すると共に文書書式を
整え、複文や重文を複数の単文に分割し、表記上のゆら
ぎを正規表現規則に基づいて補正する。また、翻訳が困
難な日本語をあらかじめ正確な翻訳対象言語に変換する

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、外部のCD−ROM情
報読み出し装置から入力されたテキストファイルを編集
するCD−ROM情報編装置に関する。
【0002】
【従来の技術】近年、特許情報や技術情報を収録したC
D−ROMが、各国においてそれぞれの言語で発行され
ている。例えば、平成5年から日本国特許庁がCD−R
OM版公開公報の発行を開始した。これらCD−ROM
の発行にともない、CD−ROM公開公報検索システム
が急速に普及し始めている。この種の検索システムは、
CD−ROMに収録された特許公開公報から所望の公報
を検索し、検索結果を表示や印刷の形で出力したり、テ
キスト・ファイルとして出力することができる。出力さ
れたテキストファイルは、例えば、自動翻訳装置による
翻訳処理用の原文テキストといった形態で利用可能であ
る。
【0003】
【発明が解決しようとする課題】ところで、例えば、日
本国特許庁が発行のCD−ROM公開公報には、テキス
ト情報、イメージ情報のほかに、各種制御情報も含まれ
ている。テキスト情報に変換できないコード(「=」に
強制変換される)や、論理構造を示すタグであっても不
要なもの、例えば、イメージデータや外字などの挿入箇
所を示すタグ、レイアウト構造を示すタグなど、テキス
ト情報のみを所望時にはガベージ・データ(Gabbage Da
ta、いわゆるゴミ)となるものも含まれている。
【0004】このため、上記検索システムの出力ファイ
ル、例えば、抄録ファイル(公開公報フロントページ)
では、イメージ情報が消去されたあとは空白ページとし
て残
【0005】されると共に、
【枠1】といった識別記号が付加されたり、「===」
のような続きを示す記号が挿入される。さらに、空白ペ
ージには、改行コードが多数含まれていたり、テキスト
各行の行末には1以上のスペースが挿入されていること
もあり、整った書式では出力されない。
【0006】このような書式の不揃いのために、上記検
索システムでは出力テキストファイルの文書整形を人手
により逐一行わなければならなかったので、利用者の労
力・不便感を増大させる原因となる。さらに、上記検索
システムでは、1公報1ファイルで出力されるので、多
数のフロントページについてテキストファイルが多数出
力されることになる。したがって、上記検索システムに
おいて、ファイル毎に結合処理を人手を介して繰り返さ
なければならなかった。
【0007】加えて、特許明細書の文書には、表記上の
ゆれ、正規文法からの乖離、長文がきわめて多く、誤訳
や翻訳不能といった深刻な問題の原因となっており、前
編集の段階で、逐一、人手により、翻訳に適合した語・
文に書き換えてから、翻訳処理を行わなければならなか
った。もちろん、原文に()などの記号を挿入したり、
問題点を指摘するといったことは考えられるが、いずれ
にしても人手によるほかはない。翻訳処理の前段でこの
ような労力と時間が必要となり、大量の特許公報の翻訳
処理の円滑で迅速な処理の大きな障害となっていた。
【0008】本発明は、こうした問題に鑑みなされたも
ので、複数のテキストファイルを自動編集するCD−R
OM情報編集装置装置を提供することを目的としてい
る。
【0009】
【課題を解決するための手段】かかる目的を達成するた
めになされた本発明は、図1に例示するように、CD−
ROM記憶媒体から情報を読み出す外部の情報読み出し
装置から入力される情報を編集するCD−ROM情報編
集装置であって、外部のCD−ROM情報読み出し装置
から入力される複数のテキストファイルを格納する第1
の格納手段と、テキストを表現する言語の区切り言葉に
関する語データを格納する第2の格納手段と、テキスト
中の文データを整形するための文整形規則を格納する第
3の格納手段と、テキストを表現する言語の語データの
正規表現規則を格納する第4の格納手段と、上記第1の
格納手段に格納された複数のテキストファイルを単一の
テキストファイルに結合するファイル結合手段と、上記
第2の格納手段の語データに基づいて、上記単一テキス
トファイル中の所定の区切り言葉を抽出する抽出手段と
上記第3の格納手段の文整形規則に基づいて、上記単一
テキストファイル中のテキスト情報以外の不要情報を除
去すると共に上記抽出手段により抽出された区切り言葉
が存在する文データ夫々を分割することで、上記単一フ
ァイルを編集する第1の編集手段と、上記第4の格納手
段の正規表現規則に基づいて、上記単一テキストファイ
ル中の語データの該正規表現規則からの乖離を検出する
検出手段と、該検出手段によって検出された語データの
表記上の乖離を上記第4の格納手段の正規表現規則に基
づいて補正することで、上記単一テキストファイルを編
集する第2の編集手段と、上記第1の編集手段及び第2
の編集手段により編集された上記単一テキストファイル
を外部へ出力する出力手段とを備えることを特徴とする
CD−ROM情報編集装置にある。
【0010】
【作用】上記のように構成された本発明の装置によれ
ば、第1の格納手段が、複数のテキストファイルを格納
すると、ファイル結合手段が、これらテキストファイル
を単一のテキストファイルに結合する。次に抽出手段
が、第2の格納手段の言語データに基づいて上記単一テ
キストファイル中の所定の区切り言葉を抽出すると、第
1の編集手段が、第3の格納手段の文整形規則に基づい
て、上記単一テキストファイル中のテキスト情報以外の
不要情報を除去すると共に区切り言葉の存在する文デー
タ夫々を分割する。そして検出手段が、第4の格納手段
の正規表現規則に基づいて単一テキストファイル中の語
データの表記上の該正規表現規則からの乖離を検出する
と、第2の編集手段が、検出された語データの表記上の
乖離を上記正規表現規則に基づいて補正する。
【0011】このように、複数のテキストファイルが単
一のファイルに結合され、当該単一テキストファイル中
の不情報が除去されると共に区切り言葉が存在する文デ
ータは分割され、語データの表記上の乖離が正規表現に
補正される。
【0012】
【実施例】以下に本発明の実施例を図面と共に説明す
る。まず、図2は本発明が適用された実施例の公開公報
編集システムを表すブロック図である。
【0013】公開公報編集システムは、CD−ROM公
開公報から所望の公開公報を検索し、検索公報をテキス
トファイルとして出力する。公開公報編集システムは、
情報処理装置10、キーボード20、マウス30、CR
T表示装置40、フレキシブルディスク装置(以下、F
D装置という)50、金属ディスク装置(以下、HD装
置という)60、プリンタ70、CD−ROM読み出し
装置(以下、CD装置という)80及び光ディスク装置
90などを備えている。
【0014】なお、出力ファイルは外部の自動翻訳装置
(不図示)での翻訳処理に用いられる。また本システム
には、キーワード検索方式の検索機能も備えられている
が、本発明の要旨ではないので、説明は省略する。情報
処理装置10は、論理演算回路として構成された中央演
算部11と、メモリ部12と、内部インタフェース部1
3、外部インタフェース部14、外部の自動翻訳装置と
の間でデータ送受信を行う通信インタフェース部15と
を主要部として構成されている。メモリ部12は、プロ
グラム・エリア12aと、ワーク・エリア12bとが備
えられ、内部インタフェース部13には、キーボード2
0、マウス30、CRT表示装置40、FD装置50
が、外部インタフェース部14には、HD装置60、プ
リンタ70、CD装置80及び光ディスク装置90が、
着脱可能に接続されている。
【0015】情報処理装置10は、その起動時に、メモ
リ部12のワーク・エリア12b内部に検索条件エリア
Ea、インデックス・エリアEb、オプション・エリア
Ecなどを割り付け、CRT表示装置40に検索条件式
設定のための画面を出力する。この設定画面には、「出
願番号」・「公開番号」・「公開日」・「IPC分類」
・「優先権主張番号」などの書誌的事項、「F1」など
の項目、テキスト情報から除去したいコードを選択する
ための項目(除去データ項目)、及び翻訳が困難な日本
語をあらかじめ翻訳対象言語(英語、ドイツ語、フラン
ス語、スペイン語など)に変換するオプション設定など
が網羅されている。キーボード20あるいはマウス30
から検索項目・検索条件式及びオプションが入力・設定
されると、情報処理装置10は、各設定条件を検索条件
エリアEa及びオプション・エリアEcに格納する。続
いて、当該検索条件に一致した出願をサーチし、サーチ
結果をインデックス・エリアEbに格納する。ここに
は、サーチ出願番号の順に格納される。
【0016】HD装置60には、構文解析や文節・語分
析のための辞書DB1及び文法ルールDB2、正規表現
辞書DB3、和英辞書DB4などのデータベースが格納
されている。また、CD装置60から読みだした特許公
報のテキスト情報を格納するテキスト・エリアTX及び
イメージデータを格納するイメージ・エリアIMも十分
に確保されている。辞書DB1は、一般辞書dic1の
ほかに、文部省制定の学術用語各分野編、いわゆる業界
用語やジャーゴン(Jargon)が収録された専門語辞書d
ic2、区切り言葉(後述する)などが格納された特殊
辞書dic3などを備える。正規表現辞書DB3には、
表記上のゆらぎを補正するための表記規則がテーブルT
B1として格納されている。例えば、内閣告示・通知、
文部省通知、国語審議会報告、日本工業規格(JIS)
に制定されている用語規格(「A0002 建築モジュ
ール用語」から「Z8121 オペレーションズリサー
チ用語」までの規格)などに基づいて定められた各種の
表記規則が格納されている。さらに、サ行変格活用の動
詞として認知されている熟語動詞を網羅した熟語動詞テ
ーブルTB2も含まれている。
【0017】CD装置80には、特許公開公報を収録し
たCD−ROM(日本国特許庁発行)がセットされてい
る。CD−ROMには、検索用のキーワードを格納する
キーインデクッス・ファイル、特許明細書などの技術情
報を収録するテキスト・ファイルなどが格納されてい
る。
【0018】光磁気ディスク装置90には、カートリッ
ジ・タイプで着脱自在な光磁気ディスクが備えられ、検
索された公開公報ファイルなどが格納される。次に、情
報処理装置10において実行される各処理について説明
する。まず最初に図3のフローチャートに沿って、複数
の公報全文ファイル(又は抄録ファイル)を単一のファ
イルに統合するためのファイル結合処理について説明す
る。情報処理装置10は、検索条件に一致する出願のサ
ーチを終えると、本処理を実行する。
【0019】処理を開始すると、ステップ100で、イ
ンデックス・エリアEbに格納されている出願番号につ
いて、その最初のテキスト・ファイルf1を、CD−R
O装置80から読み込み、HD装置60のテキスト・エ
リアTXの先頭アドレスBEGINから一時的に格納す
る。1ファイルの終わりを示す制御文字は、テキスト・
データではEOF(16進コードでは1A)に変換され
ているが、このEOFが格納されたアドレスが末尾とな
る。なお、公報全文ファイルのときにはは、イメージ・
ファイル及びポジション・ファイルは除かれ、抄録ファ
イルのときには、イメージ・データ部分が除かれる。
【0020】続くステップ110では、番号順に次の出
願番号のテキスト・ファイルを読み込み、続いてステッ
プ120では、上記アドレス末尾から、そのテキスト・
ファイルを格納する。したがって、最初のテキススト・
ファイルのEOFは、次のテキスト・ファイルの先頭デ
ータが重ね書きされて消失するので、二つのテキスト・
ファイルがリンクされる。続いてステップ130では、
すべての出願番号のファイルを読み込んだか否かを判断
し、未だすべてのファイルを読み込んでいなければステ
ップ110に戻る。一方、読み込みが完了していれば、
ステップ140でテキスト・エリアTXの先頭アドレス
BEGINから最終アドレス(ここのだけデータEOF
が存在する)までを単一ファイルとして生成し(ファイ
ル名を編集ファイルとする)、処理を終了する。
【0021】続いて、図4、図5、図6のフローチャー
トに沿って、情報処理装置10において実行される不要
データ除去処理、文分割処理、ワード・コンバート処理
について順次説明する。これら処理は、上記ファイル結
合処理で生成された編集ファイルについて、連続して実
行される。
【0022】まず、不要データ除去処理を実行する。処
理を開始すると、ステップ200で、検索条件エリアE
aから除去データ項目の設定条件を読み出して、上記フ
ァイル結合処理によって生成された編集ファイル中のテ
キスト情報から、記載項目を示す識別記号(
【発明の名
称】など)以外の段落番号を示す識別記号(
【000n】など)を除去する設定がなされているか否
かを判断する。除去設定がなされていると肯定判断をし
たときには、続くステップ210で当該識別記号を、改
行コードを含めてすべて消去し、ステップ220へ進
む。一方、除去設定がされていない否定判断をしたとき
には、ステップ220へスキップする。ステップ220
では、空白ページ、改ページ制御コード(0C0A)、タブ
・コード、「=」、
【枠1】、
【枠10】などを消去し、続くステップ230では編集
ファイル中の各行末に挿入されたスペース、各行の文頭
から文末の句点(「。」)までに存在する改行コード
(0D0A)を消去して各文を整形し、処理を終了する。続
けて、文分割処理を実行する。まず、ステップ300で
編集ファイル中の文について構文分析及び文節・語区の
分析処理を実行する。本処理は構文分析及び文節・語の
分析処理(あるいは単語分割の処理)として周知である
ので、詳細は省略する。続いてステップ310で、各文
について文を構成する語を計数し、その総数nが所定数
L以上か否かを判断する。ステップ310にて、語の総
数nが所定数L以上と肯定判断をすると、続くステップ
320へ進む。ステップ320では、区切り言葉が文章
中に存在するか否かを判断し、区切り言葉が存在すると
肯定判断をしたときには、ステップ330へ進んで区切
り言葉の直前で改行して二つの文に分割し、ステップ3
40へ進む。
【0023】一方ステップ310で、語の総数nが所定
数Lを下回ると否定判断をすると、ステップ340へ分
岐する。またステップ320で、区切り言葉が文章中に
存在しないと否定判断をすると、ステップ340へ分岐
する。ステップ340では、文の主語(主部)に修飾節
があるか否かを判断し、修飾節があると肯定判断をした
ときにはステップ350に分岐し、修飾節がないと否定
判断をしたときには、ステップ360へ進む。なお、こ
こで、区切り言葉とは、独立節同士や、独立節と従属節
とを結合して一文となす役割をもつ言葉である。例え
ば、「同時に」「すなわち」「一方」「他方」などの接
続詞、「さらに」「つまり」「要するに」などの副詞、
「続いて」「くわえて」などの動詞、「と共に」などの
連語を指す。
【0024】ステップ350では、文の主語(主部)に
修飾節があるときには、当該の修飾節を抽出して、「<
主語>は、<修飾節>である」という単独の短文を生成
して元の文の直前に挿入すると共に、元の文については
当該修飾節を削除した文に整形する。例えば、「aであ
りbでありcである<主語>は、・・・である。」とい
う文は、「<主語>はaでありbでありcである。」と
いう別の文を生成すると共に、元の文を「その<主語>
は・・・である。」という文に整形する。ステップ34
0にて、否定判断をして直接に、また肯定判断をしてス
テップ350を経てステップ360に進むと、文の述部
に、シリーズ形態の修飾節(句)がある、単一の修飾節
がある、いずれも無い、これらのいずれかであるを判断
する。(α)シリーズ形態の修飾句があると判断したとき
には、ステップ370に進み、(β)修飾節があると判断
したときにはステップ380に進み、(γ)いずれも無い
と判断したときにはそのまま処理を終了する。
【0025】ステップ370では、述部を断章(Fragme
nt)の配列の形に整形して、処理を終了する。この処理
は、シリーズ形態の修飾節(句)をもつ文、例えば、
「<主語>は、A,B,C,・・・Zである」という長
文のときには、「<主語>は次の態様をなしている。」
という単独の短文を生成すると共に、<述部>ついて
は、「 A(改行)。 B(改行)。 C(改行)…
…。 Z(改行)。」という断章配列に整形する。な
お、シリーズの各要素A〜Zは、句でも節でもよく、断
章の形に配列されれば、節は翻訳時に単文として扱われ
る。
【0026】ステップ380では、<修飾節>を抽出し
て、「<主語>は、<修飾節>である」という単独の短
文を生成して元の文の直前に挿入すると共に、元の文に
ついては当該修飾節を削除した文に整形して、処理を終
了する。引き続いて、ワード・コンバート処理を実行す
る。処理を開始すると、まずステップ400で、外来語
カタカナ表記の単語を抽出し、続くステップ410で、
これら抽出単語を正規表現ルール{単語末尾の長音符号
(ー)の表記は、2語以下のときは表記し(例えば、バ
ー、リレー)、3語以上のときには表記しない(例え
ば、メモリ、アナライザ)}に対照して正規表記への補
正変換を行う。続いてステップ420で、<「名詞」+
「する」>という形態の単語を抽出して、続くステップ
430で、正規表現辞書DB3内の熟語動詞テーブルT
B2を参照して、抽出単語が、「サ行変格活用の動詞で
ある熟語動詞」であるか否かを判断する。ステップ43
0で当該「熟語動詞」であると判断したときにはステッ
プ450へスキップする。一方、「熟語動詞」ではない
と判断すると、ステップ440に進む。ステップ440
では、当該単語を、熟語動詞テーブルTB2を参照して
<「名詞」+「を」+「動詞」>などの正規表現に補正
変換し、ステップ450へ進む。ステップ440の処理
の結果、例えば「特許する」は「特許権を与える」(あ
るいは「特許を受けるべきものと査定する」)に、「機
能する」は「働きをする(作用する)」に、「科学す
る」は「科学的にものをみる」に、それぞれ変換され
る。
【0027】ステップ450では、ひらがな表記の接続
詞(副詞){「かつ」「また」「または」「なお」「た
だし」「すなわち」など}を抽出し、続くステップ46
0で抽出単語を漢字仮名混じり表記{「且つ」「又」
「又は」「尚」「但し」「即ち」など}に補正変換す
る。これら抽出単語はひらがな表記が正規表現である
が、翻訳を容易にするために漢字仮名混じり表記にす
る。ひらがな言葉が連続する句については文節分析が複
雑であり分析しやすくするためである。続いて、ステッ
プ470では、翻訳が困難な日本語をあらかじめ翻訳対
象言語に変換するオプション設定がなされているか否か
を判断する。ステップ470でオプション設定がなされ
ていると肯定判断すると、ステップ480に進む。ステ
ップ480では、正確な翻訳がきわめて困難な名称や名
詞、定型文(句)を抽出し、あらかじめ正しい訳語に変
換する。この処理では、例えば対象となる難解語を抽出
し英和辞書DB4を参照して翻訳対象言語の言葉(英
語)に変換する。その事例を以下に示す。なお、矢印
(→)は訳出方向を示す。
【0028】 日 本 語 → 英 語 (19) 発行国 日本国特許庁(JP) → [19]Japan Patent Office(JP) (12) 公報種別 公開特許公報(A) → [12]Patent Laying Open Gazzet (11) 公開番号 → [11]Japanese Patent Laying Open Nu mber (43) 公開日 → [43]Date of Laying Open (54) 発明の名称 → [54]Title of the Invention (51) 国際特許分類第5版 → [51]Int.CL.5. (21) 出願番号 → [21]Application Number (22) 出願日 → [22]Filed: (31) 優先権主張番号 → [31]Priority Number (32) 優先日 → [32]Priority Date (33) 優先権主張国 → [33]Priority Contry (71) 出願人 → [71]Applicant 識別番号 → [Indentification Number] (57) 要約 → [57]Abstract 効果 → [Advantages] 目的 → [Object] 構成 → [Construction] 審査請求 未請求 → [Request for Examination]haven't been requeste d yet 請求項の数 → [Number of Claims] 全頁数 → [Total Page Number of This Gazzet] 続いてステップ480からステップ490へ進み、編集
ファイルを前編集済みファイルとして外部の自動翻訳装
置(不図示)へデータ通信で伝送して、処理を終了す
る。
【0029】一方、ステップ470でオプション設定が
なされていないと否定判断すると、ステップ500進
む。ステップ500では、編集ファイルをFD装置50
及び光磁気ディスク装置90(あるいはプリンタ70)
に出力し、処理を終了する。上記処理の結果、表記上の
揺らぎが正規表現へと補正変換され、表記上のゆらぎが
吸収し緩衝される。
【0030】以上説明したように本実施例では、多数の
テキストファイルを単一のファイルに結合し、当該単一
ファイルについて、テキスト情報以外の不要データを消
去すると共に文書書式を整え、複文や重文を複数の単文
に分割し、表記上のゆらぎを吸収・緩衝するので、CD
装置80から入力されるテキストファイルの編集作業が
自動化される。従来、テキストファイルの結合や文書整
形は人手により逐一行っていたが、本実施例ではこのよ
うな労力を省き不便感を払拭することができる。
【0031】さらに、表記上のゆれや正規文法からの乖
離を正規表現に補正し、長文を短い単文に分割する自動
翻訳のための前編集作業が自動化されので、誤訳や翻訳
不能の発生率の低減に功を奏する。さらに、翻訳が困難
な日本語をあらかじめ正確な翻訳対象言語に変換するの
で、自動翻訳における翻訳効率・速度の向上に寄与する
ことができ、大量の特許公報の翻訳処理の円滑で迅速な
処理にも大きく貢献することができる。
【0032】あるいは、複雑難解な特許明細書が、短い
単文の構成に整理されると共に、シリーズ要素が断章の
形態で表されるので、技術的情報のサーチ効率化にも寄
与する。なお、本実施例では辞書DB1内の特殊辞書d
ic3に区切り言葉が網羅されていたが、このほかに、
文書の一部をサスペンション構造(suspended construc
tion、未決構造)として独立させる言葉が含まれてもよ
い。この場合、サスペンション構造を誘導する区切り言
葉と共に、文の分割形態や文書区切り位置を指定する属
性データを併せて辞書登録するように構成する。
【0033】一例を挙げると、「例えば」という区切り
言葉と、サスペンション構造を単独の文として独立させ
るという分割指示なる属性とを辞書登録する。そして情
報処理装置10において、この属性があるときには、上
記文分割処理の中に、次の文書整形処理を追加して実行
するように構成する。即ち、最初のステップで、「例え
ば」とそれに連続するシリーズ要素を抽出し、続くステ
ップでは、抽出部分を除いて原文を整形し、最後のステ
ップでは、当該抽出部分を<「主語」+「の例として
は、シリーズ要素1,シリーズ要素2,シリーズ要素
3,・・・がある。」>という単独の文として独立させ
るという処理を実行する。具体的には、「温度を検出す
る手段、例えば、熱電対、白金測温抵抗体、IC化温度
は、A/D変換用のインタフェース回路を必要とす
る。」という原文を、 ・「温度を検出する手段は、A/D変換用のインタフェ
ース回路を必要とする。」 ・「温度を検出する手段の例としては、熱電対、白金測
温抵抗体、IC化温度がある。」 という二文に分割する。
【0034】
【発明の効果】以上詳述したように本発明によれば、複
数のテキストファイルを単一のテキストファイルに結合
し、当該単一ファイル中の区切り言葉のある文データ夫
々を分割整形し、且つ語データの正規表現からの乖離を
補正する。それ故、テキストファイルの結合作業が自動
化されるとと共に、表記上のゆれや正規文法からの乖離
を正し、長文を短文に分割することで、情報整理・検索
や自動翻訳のための前編集作業が自動化される。それ
故、大量の特許公報の情報整理・検索や翻訳の効率化や
速度向上に寄与することができる。
【図面の簡単な説明】
【図1】本発明のCD−ROM情報編集装置の構成を例
示する基本的構成図である。
【図2】実施例の公開公報編集システムのブロック図で
ある。
【図3】情報処理装置で実行されるファイル結合処理の
フローチャートである。
【図4】情報処理装置で実行される不要データ除去処理
のフローチャートである。
【図5】情報処理装置で実行される文分割処理のフロー
チャートである。
【図6】情報処理装置で実行されるワード・コンバート
処理のフローチャートである。
【符号の説明】
10・・・情報処理装置 50・・・フレキシブルディスク装置 60・・・金属ディスク装置 TX・・・
テキスト・エリア 80・・・CD−ROM読み出し装置 DB1・・・辞書 dic1・
・・一般辞書 dic2・・・専門語辞書 dic3・・・特殊辞書 DB2・・・文法ルール DB3・・・正規表現辞書 TB1・・
・表記規則テーブル TB2・・・熟語動詞テーブル DB4・・・和英辞書

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 CD−ROM記憶媒体から情報を読み出
    す外部の情報読み出し装置から入力される情報を編集す
    るCD−ROM情報編集装置であって、 外部のCD−ROM情報読み出し装置から入力される複
    数のテキストファイルを格納する第1の格納手段と、 テキストを表現する言語の区切り言葉に関する語データ
    を格納する第2の格納手段と、 テキスト中の文データを整形するための文整形規則を格
    納する第3の格納手段と、 テキストを表現する言語の語データの正規表現規則を格
    納する第4の格納手段と、 上記第1の格納手段に格納された複数のテキストファイ
    ルを単一のテキストファイルに結合するファイル結合手
    段と、 上記第2の格納手段の語データに基づいて、上記単一テ
    キストファイル中の所定の区切り言葉を抽出する抽出手
    段と 上記第3の格納手段の文整形規則に基づいて、上記単一
    テキストファイル中のテキスト情報以外の不要情報を除
    去すると共に上記抽出手段により抽出された区切り言葉
    が存在する文データ夫々を分割することで、上記単一フ
    ァイルを編集する第1の編集手段と、 上記第4の格納手段の正規表現規則に基づいて、上記単
    一テキストファイル中の語データの該正規表現規則から
    の乖離を検出する検出手段と、 該検出手段によって検出された語データの表記上の乖離
    を上記第4の格納手段の正規表現規則に基づいて補正す
    ることで、上記単一テキストファイルを編集する第2の
    編集手段と、 上記第1の編集手段及び第2の編集手段により編集され
    た上記単一テキストファイルを外部へ出力する出力手段
    と、 を備えることを特徴とするCD−ROM情報編集装置。
JP5117152A 1993-05-19 1993-05-19 Cd−rom情報編集装置 Pending JPH06332958A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5117152A JPH06332958A (ja) 1993-05-19 1993-05-19 Cd−rom情報編集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5117152A JPH06332958A (ja) 1993-05-19 1993-05-19 Cd−rom情報編集装置

Publications (1)

Publication Number Publication Date
JPH06332958A true JPH06332958A (ja) 1994-12-02

Family

ID=14704750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5117152A Pending JPH06332958A (ja) 1993-05-19 1993-05-19 Cd−rom情報編集装置

Country Status (1)

Country Link
JP (1) JPH06332958A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11167398A (ja) * 1997-12-04 1999-06-22 Mitsubishi Electric Corp 音声合成装置
JP2001155023A (ja) * 1999-11-25 2001-06-08 Shuichi Otsu 電子出版システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5760472A (en) * 1980-09-30 1982-04-12 Fujitsu Ltd Document preparation device
JPS6244873A (ja) * 1985-08-22 1987-02-26 Toshiba Corp 機械翻訳装置
JPH01273171A (ja) * 1988-04-25 1989-11-01 Nippon Telegr & Teleph Corp <Ntt> 文書書き換え方式および自動翻訳方式
JPH04369078A (ja) * 1991-06-18 1992-12-21 Hitachi Ltd 企業内特許抄録作成システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5760472A (en) * 1980-09-30 1982-04-12 Fujitsu Ltd Document preparation device
JPS6244873A (ja) * 1985-08-22 1987-02-26 Toshiba Corp 機械翻訳装置
JPH01273171A (ja) * 1988-04-25 1989-11-01 Nippon Telegr & Teleph Corp <Ntt> 文書書き換え方式および自動翻訳方式
JPH04369078A (ja) * 1991-06-18 1992-12-21 Hitachi Ltd 企業内特許抄録作成システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11167398A (ja) * 1997-12-04 1999-06-22 Mitsubishi Electric Corp 音声合成装置
JP2001155023A (ja) * 1999-11-25 2001-06-08 Shuichi Otsu 電子出版システム

Similar Documents

Publication Publication Date Title
EP0361464B1 (en) Method and apparatus for producing an abstract of a document
US5010486A (en) System and method for language translation including replacement of a selected word for future translation
JP3220560B2 (ja) 機械翻訳装置
US5612872A (en) Machine translation system
US5680628A (en) Method and apparatus for automated search and retrieval process
JP2008152760A (ja) マシンアシスト翻訳ツール
JPS63231674A (ja) コンピュータによる形態論的テキスト解析方法
JP2002215617A (ja) 品詞タグ付けをする方法
JPH04127370A (ja) 情報収集システム
JPH083815B2 (ja) 自然言語の共起関係辞書保守方法
US5384702A (en) Method for self-correction of grammar in machine translation
EP1145141A2 (en) Spelling and grammar checking system
US5289376A (en) Apparatus for displaying dictionary information in dictionary and apparatus for editing the dictionary by using the above apparatus
JP2007535771A (ja) 文書情報マイニングツール
JPH06332958A (ja) Cd−rom情報編集装置
US5640581A (en) CD-ROM information editing apparatus
JP2003006191A (ja) 外国語文書作成支援装置及び外国語文書作成支援方法並びにプログラム記録媒体
JPS61248160A (ja) 文書情報登録方式
JPH052605A (ja) 機械翻訳方式
JPH06259423A (ja) 要約自動作成方式
JP3680489B2 (ja) 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000029882A (ja) 要約文作成装置
JPH01136270A (ja) ワードプロセッサ装置
JP4361143B2 (ja) テキスト翻訳方法と装置
JP4361146B2 (ja) テキスト翻訳装置と記録媒体