JPH0377169A - 文書調査方法及び装置並びに文書処理装置 - Google Patents

文書調査方法及び装置並びに文書処理装置

Info

Publication number
JPH0377169A
JPH0377169A JP1213072A JP21307289A JPH0377169A JP H0377169 A JPH0377169 A JP H0377169A JP 1213072 A JP1213072 A JP 1213072A JP 21307289 A JP21307289 A JP 21307289A JP H0377169 A JPH0377169 A JP H0377169A
Authority
JP
Japan
Prior art keywords
document
words
field
storage device
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1213072A
Other languages
English (en)
Inventor
Emiko Nakajima
中嶋 恵美子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP1213072A priority Critical patent/JPH0377169A/ja
Publication of JPH0377169A publication Critical patent/JPH0377169A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、作成中の文書や登録済みの文書がどの分野(
例えば、言語分野が英語であるか日本語であるか、技術
分野が建築関係かコンピュータ関係であるか、あるいは
技術関係ではなく社会科学関連分野であるか等)に関連
する文書であるかを調査する文書調査方法及びその装置
並びにこの装置に関連する装置に関する。
〔従来の技術〕
OA(オフィスオートメーション)化が進み、情報を文
書としてやり取りするのでも、紙に印刷したものを配布
するのではなく、通信回線を使用して相手方のパーソナ
ルコンピュータに直接文書データとして送信するように
なってきている。また、書籍や辞書(辞書)等も、本と
してではなく、フロッピィディスクやCDROMに格納
し、必要に応じて該当箇所を読み出しデイスプレィ上に
表示させるようになってきている。
このようにOA化が進むと、パーソナルコンビエータな
どの機器の使い方が従来の人間の習慣と異なるため、逆
に使い勝手の悪いものになってしまう。例えば、人は、
各種の辞典を机の上に並べておき、読もうとする文書が
複数種類ある場合には、文書に応じて辞典類の中から該
当する事典を適宜選択する。しかし、この動作をコンピ
ュータの記憶装置に格納した各種の辞典データを使用し
て行なう場合、先ず対象文書を読んでその文書が如何な
る分野に属し最適な辞典はどれであるかを判定し、該当
辞典データを読み出し、間違っている場合は別の辞典デ
ータを読み出しという操作が必要なため、キー操作の回
数が多くなり、かえって煩わしくなる。
尚、従来技術に関連するものとして、例えば、特開昭6
2−245369号がある。
〔発明が解決しようとする課題〕
上述したように、文書毎にその文書が如何なる分野に属
する文書であるかを読み手側が判断するのは、煩わしい
という問題がある。また、読み手側が判断したあとに該
当の辞典データを記憶装置から検索し読み出させる操作
も煩わしいという問題もある。
本発明の第1の目的は、文書の属する分野を自動的に調
査することのできる文書調査方法及び装置を提供するこ
とにある。
本発明の第2の目的は、文書の作成者側が分野を指定で
きるようにし、読み手側がその文書の属する分野につい
て判断することなく容易にその分野を知ることのできる
文書分野装置を提供することにある。
本発明の第3の目的は、文書の読み手がその文書の辞典
データをすぐに利用することのできる文書処理装置を提
供することにある。
〔課題を解決するための手段〕
上記第1の目的は、記憶装置に格納されている文書を構
成する語句を中央処理装置にて順次調査しどの分野に属
する語句であるかを決定し、所定分野に該当する語句の
割合が一定割合以上にある場合は、当該文書は前記所定
分野に関する文書であると決定し、あるいは、当該文書
の付属情報として前記所定分野を示す情報を付加するこ
とで、達成される。
上記第2の目的は、入力装置と、該入力装置から入力さ
れる文書を格納する記憶装置と、該記憶装置の格納デー
タを表示する表示装置と、前記人力装置から人力される
分野指定情報を当該文書の付属情報として該文書に付加
する手段とを設けることで、達成される。
上記第3の目的は、各種分野の辞書データを格納した大
容量記憶装置と表示装置とを備え、ユーザの指定した分
野の辞書データを前記大容量記憶装置から主メモリに読
み出して該辞書データの必要箇所のデータを前記表示装
置に表示する文書処理装置において、上記第1の目的を
達成する装置または上記第2の目的を達成する装置で付
属情報が付加された文書を前記主メモリに読み出したと
きは該付属情報が指定する分野の辞書データを前記大容
量記憶装置から主メモリに読み出す手段を設けることで
、達成される。
〔作用〕
第1の目的を達成する文書調査方法及び装置によれば、
文書に自動的に当該文書の属する分野が調査されてその
分野を示す付属情報が付加され、第2の目的を達成する
文書分野指定装置によれば、文書の作成者側が当該文書
の属する分野を示す付属情報を付加するので、文書の読
み手側は文書を指定したときにその付属情報からその文
書の属する分野を容易に知ることができる。
第3の目的を達成する文書処理装置によれば、文書が指
定されたとき装置がその付属情報からその文書を解読す
るに必要な辞書データを自動的にロードするので、利用
者は面倒な操作をすることなく、直にその辞書データを
利用することができる。
〔実施例〕
以下、本発明の一実施例を図面を参照して説明する。
第1図は1、本発明の一実施例に係る文書調査装置のブ
ロック構成国である。本実施例の文書処理(調査)装置
は、調査対照文書や各種の辞典データ等の既存のデータ
を格納したハードディスクやCDROM等の大容量記憶
装置1eと、本文書処理(調査)装置の本体を威し中央
処理装置を備える関連情報作成装置1aと、大容量記憶
装置1eから読み出したデータを書き込むRAM等の主
メモリとしての文書記憶装置1bと、該記憶装置1bの
格納データを前記中央処理装置の指示で表示する表示装
置1cと、入力装置1dからなる。
第2図は、上記文書処理(調査)装置の外観図である。
本装置は例えばパーソナルコンピュータで成り、装置本
体2と、表示装置としてのCRTデイスプレィ装置3と
、入力装置としてのキーボード4.マウス5.ライトペ
ン6等を備える。第1図に示す既存データ記憶装置1e
、関連情報作成装置1a、文書記憶装置1bは装置本体
2に内蔵されている。
上述した文書処理(調査)装置で調査対照文書が属する
分野を装置が自動的に調査するのであるが、ここでは、
調査対象文書が外国語の文書であるか日本語の文書であ
るかを判定する手順について説明する。
第3図は、この判定手順を示すフローチャートである。
先ず、ステップ11で、調査しようとする文書ファイル
を指定する。これにより、既存データ記憶装置leに格
納されている該当文書が該記憶装置1eから文書記憶装
置1bに転送され記憶される(ステップ12)。例えば
、第4図に示す文書が文書記憶装置1bに転送記憶され
たとする。
次に、ステップ13で、この文書に付属情報として、分
野を示す情報が既に作成されているか否かを判定する。
もし、この情報があれば、さらに以下の処理を行なうの
は無駄なため、本プログラム処理を終了する。分野情報
が付属情報として付加されていない場合は、次のステッ
プ14に進み、日本語用変数領域(以下、日本語カウン
タという。)と外国語用変数領域(以下、外国語用カウ
ンタという。)を0クリアする。
次のステップ14では、文書を構成する語句(単語)を
選択する。そして、ステップ15で単語があったか否か
を判定し、単語が選択されない場合には、後述するステ
ップ21に進む。単語が選択された場合には、ステ・ノ
ブ17にてその単語が日本語であるかいなかを判定する
。日本語の場合には、ステップ18で日本語カウンタを
プラス1市、日本語でなく外国語の場合には、外国語カ
ウンタをステップ19でプラス1する。今の場合、選択
した単語が「herO」であるため、外国語カウンタを
プラス1することになる。
次のステップ20では、日本語カウンタの内容と外国語
カウンタの内容の和が例えば100に達したか否かを判
定する。今の場合、100の単語を取り出して、日本語
の割合によりその文書が日本語文書なのか外国語文書な
のかを判定する。そこで、この判定処理ステップ20で
100に達していないと判定された場合には、ステップ
15に戻る。つまり、ステップ15からステップ20を
1.00回繰り返す。ステップ20で100回繰り返し
たと判定された場合には、ステップ2Iに進む。
ステップ21では、日本語カウンタの内容Jと外国語カ
ウンタの内容Eとの比較判定を行なう。この判定結果が
、J>Eであれは、つまり日本語の数の方が外国語の数
より多ければ、その文書は日本語文書であると判定され
る。またJ<Eつまり外国語の数の方が多ければその文
書は外国語文書であると分かる。しかし、J=Eつまり
日本語の数と外国語の数が同数の場合にはどちらの言語
の文書であるか判定できない。そこで、斯かる場合には
、ステップ14に戻り、別の単語の選択を行なって、上
記処理ステップ14〜20を繰り返して、再びこのステ
ップ21の判定を行なう。
上述した手順により、日本語文書であるか外国語文書で
あるかが判定される。第3図のステップ22以下では、
日本語文書の中を更に解析する処理手順を示している。
尚、外国語文書に付いても更に日本語文書と同様に解析
するのであるが、説明が重複するので、日本語文書に付
いてのみ以下説明する。
文書が日本語文書であると判定された場合には、次のス
テップ22で文書の先頭に戻り、再び単語を読み込む(
ステップ23)。ここで、ステップ24にて、読み込ん
だ単語があるか否かを判定し、無い場合には処理終了と
判定してステップ29に進み、調査対象文書を表示装置
に表示して本プログラムを終了する。読み込む単語があ
る場合にはステップ25に進み、読み込んだ単語が標準
語(−船釣用語のことで、特殊分野の用語でないことを
いう。)であるか否かを判定する。標準語の場合にはス
テップ23に戻って別の単語を読み込む。標準語の場合
は何ら特別の事典が無くてもその文書を容易に読むこと
ができる。
しかし、標準語で無い場合には、その単語の意味が分か
らないと、読み手は解読するのに時間がかかることにな
る。そこで、本実施例では、ステップ26で、その単語
に関するデータを、既存のデータ例えば既存データ記憶
装置1eに格納しである各種の事典データ中を検索する
ことで、探す。
この場合、既存データは、第5図に示す様に、言語毎に
区分されており、また、キーワードが付加されている。
単語に関するデータが見つかった場合には、その単語と
該データの入っているファイル名及びその記録位置(何
バイト目か等、第6図参照)を関連情報作成装置に書き
込んで記憶する(ステップ27.28)。
以上の処理ステップ23〜28を、その文書の単語全て
、あるいは主要な単語全てについて繰り返し、調べる単
語が無くなったらステップ29に進み当該文書を表示し
て本プログラムを終了する。
以上の処理で作成したデータを持つことで、例えば第4
図の文書を表示画面に読みだしそれを読もうとする読み
手が、rheroJの意味に付いて知りたいと欲した場
合は、例えばこの単語を範囲指定し、検索指示を入力す
る。すると、装置側はこの指示命令を取り込み、この単
語対応に設けたデータ(上記例では、ファイルの記憶位
置)を読みだし、該記憶位置の関連データを読みだし、
これを例えば表示画面にウィンドウ表示する。
本実施例では、文書を構成する単語のうち標準語でない
単語についての関連データを求めこれの格納位置を単語
対応に記憶させるという処理を行ない、その文書独自の
事典を作成した。しかし、関連データを求める処理は、
例えば調査対象文書を表示装置に表示させ、入力装置で
指定された単語に対してのみ関連データを検索すること
でもよい。更に、この様に文書毎に文書独自の事典を作
成するのは時間がかかるというのであれば、単に、その
文書の属する分野を示す情報のみ、つまり、上記実施例
でいえば、日本語文書であることを示す情報のみこの文
書に付加しておき、この情報から必要な日本語辞書デー
タを読みだし、後は読み手が必要とする単語を読みだし
た日本語辞書データから検索する構成とすることでもよ
い。また、調査対象文書の属する分野が複雑である場合
は、例えばある文書がコンピュータに関連すると共に、
コンピュータ以外の電機関連分野にも関連する場合には
、単語数順に優先順位を付けておくことも有効である。
文書読み込み時に行なう単語調査において、次のような
データ作成も可能である。第7図は、このデータ作成手
順を示すフローチャートである。
このデータ作威力法では、予めキーワードと必要な情報
の分類を指定しておく。例えばパーソナルコンピュータ
の新製品の情報を知りたい場合、キーワードとしてパー
ソナルコンピュータのシリーズ名、例えば“B16”と
入力しておく。また、知りたい情報として出荷の日付、
内容を指定しておく。そして、これらの指定情報を、関
連情報作成装置に記憶させておく。そこで第7図フロー
チャートに従い、先ず、ステップ31で、調査対象文書
のファイル名をチエツクして上記キーワードに関連する
文書であるか否かを調べる。上記キーワードに関連する
ファイルに名で無い場合でも、次のステップ32で、そ
の文書がコンピュータ関連文書であるか否かを第3図の
処理手順と同様に求める。
そして、コンピュータ関連文書の場合には、上記キーワ
ードに該当する語句あるいはそれに近い語句例えば“パ
ソコン”、“B16xx”等の語句が該文書中にあるか
否かを調べ(ステップ33.34)、キーワードが存在
しない場合には処理を終了し、存在する場合には、その
キーワード前後の単語を調べる(ステップ35)。調べ
た単語中に、上記の知りたい情報である出荷日や出荷内
容に付いての情報があるか否かを調べ(ステップ36)
、該情報が無い場合には処理を終了し、ある場合にはそ
の情報を整理して保存する(ステップ37)。
以上の処理手順によって作成したデータは、キーワード
毎に保存し、またデータ中に重複するデータ日ないよう
にして記憶装置の有効利用を図る。
このデータを見る場合には、入力装置から特別の指示入
力をすることで、例えば、上記キーワードを指定して該
キーワードを有する文書から検出したデータを表示させ
、読み手がそのデータを見て、関心のある文書を指定す
ることで、該文書を表示装置に表示させる。
上述した実施例は、作成された後の文書を調査してその
分野やキーワード関連情報があるか否かを調べているが
、文書作成中に、必要な事典を選択し登録することも可
能である。以下、この方法を説明する。
文書作成時に、事典データあるいは事典情報を登録する
方法として、2通りの方法が考えられる一つは、文書作
成者が事典を登録する方法である。
2つめは、文書作成終了時に文書調査装置で自動的に事
典を第3図の実施例と同様に登録する方法である。後者
については、前述した説明と重複するので、省略し、こ
こでは前者についてのみ説明する。
文書を登録する場合には、文書名等を人力し、登録を開
始することになるが、このとき、ステップ41で、事典
も登録するか否かを文書作成者に選択させる。事典の登
録をしない場合にはステップ46に飛び、文書の登録の
みを実行する。事典の登録をする場合には、既存データ
として保有する各種事典名(ファイル名)を−覧表とし
て表示装置に表示させ(ステップ42)、次のステップ
43で、文書作成者に事典名を選択させる。このとき、
予め文書作成者が複数の事典名を指定している場合には
、その優先順序を例えば事典名の前に番号を付すことで
付ける。文書作成者は、表示された事典名を参照し、作
成した文書の内容により優先順位を決める。これは例え
ば、優先順位を付ける事典名にカーソルを合わせ、番号
を入力したり、優先順位番号を指定してから、カーソル
を該当事典名に合わせることで行なう。このようにして
事典の情報が作成された(ステップ44)後、ステップ
45でこの事典情報を登録する。そして、ステップ46
で文書の登録を行なう。
第9図は、登録情報の格納フォーマット構成図である。
優先順位と事典ファイル名あるいは事典を番号にて管理
する場合には、その番号を格納する。図示する例では、
記憶エリアは、優先順位に4バイト、事典ファイル名等
に16バイト確保しである。しかし、バイト数はこれに
限るものではない。また、単語の説明等に使用するハイ
ド数も記憶装置によっては120バイトも領域を確保す
る必要はない。ステップ45で事典を登録した後ステッ
プ46で文書の登録を行なうが、この文書登録時に、文
書データの一番最後に付属情報として先はど登録した事
典ファイル名を付加しておく。これにより、文書と事典
とが1対1に対応する。
〔発明の効果〕
本発明によれば、ある文書を読むのに必要な事典が何で
あるかをすぐに知ることが出きるので、コンピュータの
使い勝手が格段に良くなる。
【図面の簡単な説明】
第1図は本発明の一実施例に係る文書処理(調査)装置
のブロック構成図、第2図は文書処理(調査)装置の外
観図、第3図(al、 (blは本発明の一実施例に係
る文書調査手順を示すフローチャート、第4図は調査対
象文書の一例の説明図、第5図は事典データ等の構成図
、第6図は情報の記憶フォーマット図、第7図は本発明
の別実施例に係る文書調査処理手順を示すフローチャー
ト、第8図は本発明の更に別の実施例に係る文書分野指
定手順を示すフローチャート、第9図は事典データ格納
フォーマット図である。 1a;関連情報作成装置、■b;文書記憶装置、IC;
文書表示装置、ld:入力装置、1e;既存データ記憶
装置。 第3図(a)

Claims (1)

  1. 【特許請求の範囲】 1、記憶装置に格納されている文書を構成する語句を中
    央処理装置にて順次調査しどの分野に属する語句である
    かを決定し、所定分野に該当する語句の割合が一定割合
    以上ある場合は、当該文書は前記所定分野に関する文書
    であると決定することを特徴とする文書調査方法。 2、記憶装置に格納されている文書を構成する語句を中
    央処理装置にて順次調査しどの分野に属する語句である
    かを決定し、所定分野に該当する語句の割合が一定割合
    以上である場合は、当該文書の付属情報として前記所定
    分野を示す情報を付加することを特徴とする文書調査方
    法。 3、記憶装置に格納されている文書を構成する語句を中
    央処理装置にて順次調査しどの分野に属する語句である
    かを決定し、或る分野に該当する語句の割合が一定割合
    以上有るという分野が複数存在する場合、これらの分野
    を示す情報を優先順位を付けて前記文書に付属情報とし
    て付加することを特徴とする文書調査方法。 4、調査対象の文書を格納する記憶装置と、前記文書を
    構成する語句を識別する手段と、前記語句がどの分野に
    属する語句であるかを判定する手段と、所定分野に属す
    る語句が一定割合以上存在するか否かを判定し一定割合
    以上ある場合は当該文書は前記所定分野に関する文書で
    あると決定する手段とを備えることを特徴とする文書調
    査装置。 5、調査対象の文書を格納する記憶装置と、前記文書を
    構成する語句を識別する手段と、前記語句がどの分野に
    属する語句であるかを判定する手段と、所定分野に該当
    する語句が一定割合以上存在するか否かを判定する手段
    と、一定割合以上ある場合は前記所定分野を示す情報を
    前記文書の付属情報として付加する手段とを備えること
    を特徴とする文書調査装置。 6、調査対象の文書を格納する記憶装置と、前記文書を
    構成する語句を識別する手段と、前記語句がどの分野に
    属する語句であるかを判定する手段と、或る分野に属す
    る語句が一定割合以上存在するか否かを判定する手段と
    、一定割合以上の語句が存在する分野が複数有る場合は
    これらの分野を示す情報を優先順位を付けて前記文書に
    付属情報として付加する手段とを備えることを特徴とす
    る文書調査装置。 7、入力装置と、該入力装置から入力される文書を格納
    する記憶装置と、該記憶装置の格納データを表示する表
    示装置と、前記入力装置から入力される分野指定情報を
    当該文書の付属情報として該文書に付加する手段とを備
    えることを特徴とする文書分野指定装置。 8、各種分野の辞書データを格納した大容量記憶装置と
    表示装置とを備え、ユーザの指定した分野の辞書データ
    を前記大容量記憶装置から主メモリに読み出して該辞書
    データの必要箇所のデータを前記表示装置に表示する文
    書処理装置において、請求項5または請求項6に記憶の
    文書調査装置あるいは請求項7に記載の文書分野指定装
    置で付属情報が付加された文書を前記主メモリに読み出
    したときは該付属情報の指定する分野の辞書データを前
    記大容量記憶装置から主メモリに読みだす手段を備える
    ことを特徴とする文書処理装置。9、各種分野の辞書デ
    ータを格納した大容量記憶装置と、調査対象文書を構成
    する語句に関連するデータを前記各種分野の辞書データ
    を検索して求め語句対応に求めた関連データの格納位置
    あるいは当該関連データを記憶し調査対象文書独自の辞
    書データを作成する手段とを備えることを特徴とする文
    書処理装置。 10、所望の語句を指定する語句指定手段と、文書を格
    納する記憶手段と、該記憶手段に格納されている文書を
    構成する語句を解析し前記語句指定手段にて指定された
    語句及び該語句に類似する語句を検索する手段と、該検
    索手段にて検索された語句を該文書の付属情報として格
    納する手段とを備えることを特徴とする文書調査装置。
JP1213072A 1989-08-21 1989-08-21 文書調査方法及び装置並びに文書処理装置 Pending JPH0377169A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1213072A JPH0377169A (ja) 1989-08-21 1989-08-21 文書調査方法及び装置並びに文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1213072A JPH0377169A (ja) 1989-08-21 1989-08-21 文書調査方法及び装置並びに文書処理装置

Publications (1)

Publication Number Publication Date
JPH0377169A true JPH0377169A (ja) 1991-04-02

Family

ID=16633080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1213072A Pending JPH0377169A (ja) 1989-08-21 1989-08-21 文書調査方法及び装置並びに文書処理装置

Country Status (1)

Country Link
JP (1) JPH0377169A (ja)

Similar Documents

Publication Publication Date Title
US7734634B2 (en) System, apparatus and method for using and managing digital information
US5598557A (en) Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files
JPH08305616A (ja) データ管理システム
JP2011513810A (ja) 用語識別方法および装置
CA1319762C (en) Method for displaying online information
JPH0484271A (ja) 文書内情報検索装置
JPS62287336A (ja) 電子辞書
JP3356519B2 (ja) 文書情報検索装置
JP2001084256A (ja) データベース処理装置、データベース処理方法、及びデータベース処理プログラムを記録したコンピュータ読み取り可能な記憶媒体
JPH0576067B2 (ja)
JPH0377169A (ja) 文書調査方法及び装置並びに文書処理装置
JP2004213309A (ja) 情報表示制御装置及びプログラム
JP2519121B2 (ja) 情報検索装置
Griem et al. Maximizing the discovery of data sets in the Yale University Library catalog
JP3710463B2 (ja) 翻訳支援辞書装置
JP5400688B2 (ja) 提案仕様書作成支援方法、プログラムおよび提案仕様書作成支援装置
JP2785692B2 (ja) 辞書検索表示装置
JPH06195386A (ja) データ検索装置
Adar et al. On-the-fly Hyperlink Creation for Page Images.
JPS61182131A (ja) 情報検索システム
JP4382343B2 (ja) 電子辞書及び電子辞書として機能させるためのプログラムを記録したコンピュータ読み取り可能な記憶媒体
JPH01185724A (ja) 検索装置
JPH0821039B2 (ja) 電子辞書検索装置
JP2000056880A (ja) アドレス一覧表表示装置及びその方法並びにアドレス一覧表表示プログラムを記録した記録媒体
JP2003050538A (ja) データ処理装置、データ処理方法およびそのプログラム