JPS6175952A - 文書入力処理方式 - Google Patents

文書入力処理方式

Info

Publication number
JPS6175952A
JPS6175952A JP59198045A JP19804584A JPS6175952A JP S6175952 A JPS6175952 A JP S6175952A JP 59198045 A JP59198045 A JP 59198045A JP 19804584 A JP19804584 A JP 19804584A JP S6175952 A JPS6175952 A JP S6175952A
Authority
JP
Japan
Prior art keywords
word
input
sentence
document
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59198045A
Other languages
English (en)
Inventor
Masamichi Shiyudo
首藤 正道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP59198045A priority Critical patent/JPS6175952A/ja
Publication of JPS6175952A publication Critical patent/JPS6175952A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は文書入力処理方式に関し、特にワードプロセッ
サ等における文書入力処理方式に関する。
(従来技術とその問題点) 近年ワードプロセッサ等の文書入力処理装置の普及が進
展し1文書を清報処理装置によって処理することが一般
的になって来た。このようにワードプロセッサ等が普及
し情報処理装置で扱う文書データが増大してゆくにつれ
て、大量の文書データの中から必要とするものをいかに
能率良く抽出するかが問題となる。従来、ワードプロセ
ッサ等では文章の入力1編集等文書の作成機能に重点が
おかれており、作成した文書のファイルから検索機能は
貧弱であり、作成した文書の標題や著者名を登録してお
きそれらのリストを出力してそのリストの中から探索し
て必要とする文書の検索を行っている。
このような従来の方法では、検索の対称となるファイル
中の文書の数が多くなるとリストの中から所望の文書を
探索する手間がかかり使用者への負担が増大する欠点が
あった。
(発明の目的) 本発明の目的は、従来の欠点を除去しワードプロセッサ
等で入力した文書の検索を容易にする文書入力処理方式
を提供することにある。
(光明の構成) 本発明によれば、文章の入力手段と、その入力手段で入
力された文章中から使用されている単語を抽出する抽出
手段と、該抽出された単語の前記文意中での使用回数を
計数する計数手段と、使用回数があらかじめ設定した値
より犬である単語について類似語を与える類似語付与手
段と、前記入力された文章とその文章中で使用回数があ
らかじめ設定した値より大である単語およびその類似語
を組にして格納する記憶手段とを備えることを特徴とす
る文書入力処理方式が得られる。
(発明の作用原理) 大量の文書の中から必要とする文書を選び出して検索す
る場合、その文書の内容から引き当てるのが望ましい。
大量の文書リストを1つ1つチェックして所望のものを
探し当てる手間は大変であり、その文書の内容を表わす
いくつかのキーワードを指定すれば対応する文書が選択
さnるならばユーザの負担は大幅に軽減される。また1
文書の内容については良く分かっていてもその文書の名
称を正確に覚えていないことがしばしばあり、そのよう
なときにも文書の内容から検索できれば他めて有効でみ
る。本発明は文書の内容から文書を検索できるようにす
るために、文書を入力しファイルに格納する際に、その
文書の内容を表わすキーワードを抽出して文薔不体と共
に格納するようにするものである。
文章の内容を表わすキーワードはその文章の甲lこ含1
れでおり、しかも度々その文章中に魂われる単語と考え
られる。本発明においては、又輩甲に使用されているS
=を抽出し、その文章の中で使用頻度の尚いいくつかの
単語を選び出してキーワードとする。また、沃素の際に
使用するキーワードが文書の中で使用されている単語と
同一の単語でなければその文書を抽出できないという制
限は利用者にとって不便であり、意味的に同一であれば
異なる単語をキーワードとして用いても検索が可能であ
るよう融通性を持たせることが必要である。本発明では
キーワードとして文否中から抽出された単語に、さらi
こそれら単語と同義の類似語を加えたものをキーワード
として用いる。
(実施例) 次に図面を参照して本発明について詳細に述べる。
爪1図は本発明の文書入力処理方式の第1の実施例を示
すブロック図である。
同図1こおいて、日本文の仮名文字列および制御情報を
入力するだめのキーボード1から入力された仮名文字列
中の卑語は仮名漢字変換部2で辞書記憶部3に格納され
ている単語辞苔9文法辞書を参照して認定さ扛、仮名文
字列が漢字仮名混じり文に変換される。仮名漢字変換部
2で変換された漢字仮名混じり文字列は文書処理部9に
、また変換時に抽出された年6aは単語頻度管理部4に
それぞれ送出式れる。単語類[管理部4は仮名漢字変換
部2で抽出された単語を受けてその単語出現回数をカウ
ントし、単語とカラントイ1αとを組にして単語記憶部
5に記憶する。また単語頻度管理部4は仮名漢字変換部
2から単語2から単語を受けると、単語記憶部5をサー
チして同一の単語があるかどうかをチェックする。同一
の単語が存在した場合には、単語記憶部5から読み出し
たその単語の出現回数のカウント値を1だけ増加させ、
再び単語記憶部5に書き込んでその単語の出現回数のカ
ウント値を更新する。単語記憶部5に登録されていない
新たな単語の場合にはその単語と出現回数のカウント値
1とを組lこして新規登録する。文書の入力がすべて終
了すると、単語頻度管理部4は単語記憶部5かも単語と
その出現回数のカウント値とを読み出し、該カウント値
があらかじめ設定した値nより大なる単語を選択して類
似語検索部6に送る。類似語検索部6は単語頻度管理部
4から受けた単語をキーにして類似語記憶部7がらその
単語の類似語を検架し、その単語と類似語を一時蓄積す
る。なお類似語記憶部7は見出し単語とその類似語を組
にしたレコードを単位にした仮数のレコードを有してい
る。文書処理部9はキーボード1から仮名漢字変換部2
を介して入力された文章を一時的に蓄積すると共に、キ
ーボード1からの制御情報により入力された文意の編集
処理を行う。表示制御部1】は文書処理部9を介して入
力された文章、粕集処理過程をモニター12でモニタリ
ング下るためにモニター12を制御部する。
格納制御部8は文書処理部9に蓄積されている入力文章
と、類似語検索部6に蓄積されている入力文章のキーワ
ードとなる単語お工ひそれらの類似語を関連付けて文j
I)ファイル10に格納する。また格納制@部8−キー
ボード1から入力された検索用キーワードを仮名■^字
変俟部2および文書処理部9を経て受は取り、文書ファ
イル10に格納されている文書の中から対応するキーワ
ードを有する文書を検索して文・B処理部9に送り込む
第1の実施例の全体の動作は次のようになる。
すなわち、そ−ボード1から仮名文字入力によって日本
文を入力すると仮名実字変換部2により漢字仮名混じり
日本文として文書処理部9に入力文章が蓄積される。入
力中の文章はモニター12に−よってモニタリン グすることができ、必要に応じてキーボード1からの制
御情報によって文書処理部9で編集処理が実行される。
入力文章が文書処理部9に蓄積されると同時に入力文章
中に使用された単語は仮名漢字変換部2で抽出され、単
語頻度管理部4において単語とその単語の使用回数とを
組にして蓄積される。作成中の文書の文章がすべて入力
し終わると、単語頻度管理部4に蓄積されている単語の
うち使用回数が前記設定値nを超える使用頻度の高い単
語を類似語検索部6に送り、それらの単語の類似語を抽
出する。キーボード1から入力した文章のファイルへの
格納の指示を出すと、文書処理部9に蓄積されていた文
章は類似語検索部6にあるその文章中に使用されていた
使用頻度の高い単語およびそれらの類似語を含むキーワ
ードと関連付けて文書ファイル10に格納される。この
ようにして文書Wファイル10に格納された文章は、キ
ーボード1から検索指示と共に入力されたキーワードに
対応して選択され、文書処理部9に取り込み、さらにモ
ニター12上にその文章を表示することができる。
なお第1図には示していないが、文書処理部9にプリン
タを接続すれば横木した文書のノー−トコビーを得るこ
とができ、また通°信回線接続部を付加することによっ
て検索した文書を遠隔の端末に送ることも可能となる。
上記実施例の説明では、使用回数が前記設定値nを超え
るものをキーワードとして選定したが、使用頻度の高い
順に一定個数m個の単語をキーワードとして選ぶように
しても良く、また使用頻度がno以上で且つ単語個数が
m個以内になるように選択するようにしても良い。さら
にキーワードとして選択する単語の品詞を限定するよう
にしても良い。助詞、助動詞、接続詞等は文章の内容を
直接表現するキーワードとしては不適当であり、例えば
名詞のみに限定してキーワードを抽出するようにするこ
とができる。列えば仮名漢字変換部2が単語を抽出した
際にその品詞をチェックして名詞のみを1#語頻反管理
部4に送るようにすれば実現できる。単語の品詞は辞書
記憶部3は各単語の属性情報として記憶されている。
次に第2図は本発明の文書入力処理方式の第2の実施例
を示すブロック図で、第1の実施例と同一機能を有する
構成要素には第1図と同じ符号を付しである。第2の実
施例が第1の実施例と相違する主要な点は、文章の入力
手段としてOCR部2部上0いている点である。OCR
部2部上0刷又は手書きの文章を自動的に読み取り、文
字認識を行って、コード化された文章を文書処理部29
に送り込む。文書処理部29はOCR部2部上0の文章
データを一時蓄積する。キーボード21は制御情報の入
力とOCR部2部上0力された文章の認識エラーの修正
2編集操作を行う。単語抽出解析部22は辞書記憶部3
に格納されている単語辞書2文法辞書を用いて文書処理
部29に蓄積されている入力文章を解析して単語を抽出
する。抽出された単語に対して、第1の実施例と同様に
単語頻度管理部4.類似語検索部6で入力文章のキーワ
ードを抽出する。抽出されたキーワードは文杏処理部2
9に蓄積されている入力文章と関連付けて文−!Fファ
イル10に格納することができる。
また、文書ファイル10に格納された文書はキーボード
21からキーワードと共に検索指示を与えることにより
文書処理部29に取り出すことができる。
第2の実施例では対象、とする文章は日本語文でも英語
などの外国語文でも良い。
なお本発明の実施形態には本発明の基本思想に基づいて
種々の変形が存在し、上記第1.第2の実施例は本発明
を限定するものではない。
(発明の効果) 以上の説明により明らかなように本発明の文書入力処理
方式によれば、入力した文章のキーワードをその文章を
入力中に自動的に抽出し、それらキーワードを入力した
文章本体と同時に関連付けてファイルに格納することが
できるので、一度入力した文章を検索する際にキーワー
ド検索が可能となり、文章の表題リストを1つ1つチェ
ックして選択するような手間が省かれると同時に、この
二うに検索を容易にするための情報の付加に入力オペレ
ータの負担を全く必要としないという効果が生じ、ま7
h=?−ワードとして入力した文章中に使用された単語
に限定されずそれらの単語と同義の類似語をも使用する
ことができるので、融通性に富んだ検索を可能にする効
果も生じる。
【図面の簡単な説明】
第1図およびl@IJはそれぞれ本発明の文書人力処理
方式の第1および第2の実施例を示すブロック図である
。 図において、1,21・・・・・キーボード、2・・・
・−・仮名漢字7R換部、3・・・・・・辞書記憶部、
4・・・・・・単語頻度管理部、5・・・・・・単語記
憶部、6・・・・・・類似語検索部、7・・・・・・類
似語記憶部、8・・・・・・格納制御部、9.29・・
・・・・文書処理部、10・・・・・・文書ファイル、
11・・・・・・表示制御部、12・・・・・・モニタ
ー、20・・・・・・OCR部、22・・・・・・単語
抽出解析部。

Claims (1)

    【特許請求の範囲】
  1. 文章の入力手段と、該入力手段で入力された文章中から
    使用されている単語を抽出する抽出手段と、該抽出され
    た単語の前記文章中での使用回数を計数する計数手段と
    、使用回数があらかじめ設定した値より大である単語に
    ついて類似語を与える類似語付与手段と、前記入力され
    た文章と該文章中で使用回数があらかじめ設定した値よ
    り大である単語およびその類似語を組にして格納する記
    憶手段とを備えることを特徴とする文書入力処理方式。
JP59198045A 1984-09-21 1984-09-21 文書入力処理方式 Pending JPS6175952A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59198045A JPS6175952A (ja) 1984-09-21 1984-09-21 文書入力処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59198045A JPS6175952A (ja) 1984-09-21 1984-09-21 文書入力処理方式

Publications (1)

Publication Number Publication Date
JPS6175952A true JPS6175952A (ja) 1986-04-18

Family

ID=16384614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59198045A Pending JPS6175952A (ja) 1984-09-21 1984-09-21 文書入力処理方式

Country Status (1)

Country Link
JP (1) JPS6175952A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01193968A (ja) * 1988-01-28 1989-08-03 Ricoh Co Ltd 文字処理装置
US5297039A (en) * 1991-01-30 1994-03-22 Mitsubishi Denki Kabushiki Kaisha Text search system for locating on the basis of keyword matching and keyword relationship matching
EP0784280A2 (en) 1996-01-11 1997-07-16 Hitachi, Ltd. Auto-index method
JP2001060199A (ja) * 1999-08-20 2001-03-06 Toshiba Corp 文書分類装置、文書分類方法および文書分類プログラムを格納したコンピュータ読取り可能な記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01193968A (ja) * 1988-01-28 1989-08-03 Ricoh Co Ltd 文字処理装置
US5297039A (en) * 1991-01-30 1994-03-22 Mitsubishi Denki Kabushiki Kaisha Text search system for locating on the basis of keyword matching and keyword relationship matching
EP0784280A2 (en) 1996-01-11 1997-07-16 Hitachi, Ltd. Auto-index method
US5983171A (en) * 1996-01-11 1999-11-09 Hitachi, Ltd. Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program
JP2001060199A (ja) * 1999-08-20 2001-03-06 Toshiba Corp 文書分類装置、文書分類方法および文書分類プログラムを格納したコンピュータ読取り可能な記録媒体

Similar Documents

Publication Publication Date Title
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
JP2783558B2 (ja) 要約生成方法および要約生成装置
US5541838A (en) Translation machine having capability of registering idioms
JP2002197104A (ja) 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
JPH09198395A (ja) 文書検索装置
JPS6175952A (ja) 文書入力処理方式
JPS61248160A (ja) 文書情報登録方式
JPH05250416A (ja) データベースの登録・検索装置
JPH0793345A (ja) 文書検索装置
JPH0561902A (ja) 機械翻訳システム
JPH0652151A (ja) 共起学習装置及びこれを用いたかな漢字変換装置
JPH01106263A (ja) 文書の格納検索装置
JPH0635971A (ja) 文書検索装置
JPH05181853A (ja) 文書処理方式
JP5454871B2 (ja) 辞書評価支援装置およびプログラム
JPH06266753A (ja) 文書作成装置
JPS61206069A (ja) 文書入力処理方式
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPH04290158A (ja) 文書作成装置
JPH0954781A (ja) 文書検索システム
JPS58123125A (ja) 文書作成装置
JPH06266765A (ja) 文章検索装置
JPH0981581A (ja) データベースの作成方法
JPH11272661A (ja) 日本語辞書自動登録システム及び方法
JPH0567146A (ja) データ編集装置