JPH0229864A - キーワード抽出方式 - Google Patents
キーワード抽出方式Info
- Publication number
- JPH0229864A JPH0229864A JP63179203A JP17920388A JPH0229864A JP H0229864 A JPH0229864 A JP H0229864A JP 63179203 A JP63179203 A JP 63179203A JP 17920388 A JP17920388 A JP 17920388A JP H0229864 A JPH0229864 A JP H0229864A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document
- section
- data
- keyword extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の目的〕
(産業上の利用分野)
本発明は文書より適切なキーワードを抽出するキーワー
ド抽出方式に関する。
ド抽出方式に関する。
(従来の技術)
従来ある計算機によるキーワード抽出方式は、文書デー
タの一部である文字データを形態素解析して単語切りを
行い、キーワードに不適な単語(辞書としてもつ)をふ
り落し、さらに必要ならばユーザによる選択を経て、キ
ーワードとするものであった。
タの一部である文字データを形態素解析して単語切りを
行い、キーワードに不適な単語(辞書としてもつ)をふ
り落し、さらに必要ならばユーザによる選択を経て、キ
ーワードとするものであった。
ところでブロック図や表などを図形や罫線データととも
に構成している文字データは、多くの場合、地の文を構
成する文字データと別形式になったり、あるいは、図形
あるいは表に合わせるために意味的に変な箇所で単語が
分割されているため、上述の方式では地の文以外の文字
データから、キ−ワードを抽出できなかった。
に構成している文字データは、多くの場合、地の文を構
成する文字データと別形式になったり、あるいは、図形
あるいは表に合わせるために意味的に変な箇所で単語が
分割されているため、上述の方式では地の文以外の文字
データから、キ−ワードを抽出できなかった。
論文などでもタイトルとアブストラクト、図表の部分だ
けは英語にすることにより、海外向けの抄訳誌ができて
いることかられがるように図表は、文書全体に対して意
味的に非常に重要である。
けは英語にすることにより、海外向けの抄訳誌ができて
いることかられがるように図表は、文書全体に対して意
味的に非常に重要である。
このような図表の部分から抽出されるキーワードが地の
文から抽出されるキーワードとは必ずしも一致していな
い。図表に対する説明が少ないほど、この傾向は強まる
。
文から抽出されるキーワードとは必ずしも一致していな
い。図表に対する説明が少ないほど、この傾向は強まる
。
従って、図表の部分から、キーワードを抽出できなけれ
ば、文書全体からキーワードを抽出できたことにはなら
ない。
ば、文書全体からキーワードを抽出できたことにはなら
ない。
(発明が解決しようとする課題)
上述した様に、図表を構成する文字データを解析して、
キーワードを抽出することが従来はなされていなかった
。
キーワードを抽出することが従来はなされていなかった
。
本発明はこのような問題点を解決するために、図表を構
成する文字データを解析し、キーワード抽出を行うキー
ワード抽出方式を提供するものである。
成する文字データを解析し、キーワード抽出を行うキー
ワード抽出方式を提供するものである。
(発明の構成〕
(課題を解決するための手段)
本発明は文書データを入力したり、編集やキーワード選
択を指示したりするための入力部と、入力部より入力さ
れた文字データを記憶するための文書記憶部と、文書デ
ータを解析して、図表を図形データあるいは表(罫線)
データとともに構成する文字データを選択し、これから
キーワードを抽出するキーワード抽出部と、抽出された
キーワードを表示したり、文字データを表示したりする
ための出力部とを具備したことを特徴としている。
択を指示したりするための入力部と、入力部より入力さ
れた文字データを記憶するための文書記憶部と、文書デ
ータを解析して、図表を図形データあるいは表(罫線)
データとともに構成する文字データを選択し、これから
キーワードを抽出するキーワード抽出部と、抽出された
キーワードを表示したり、文字データを表示したりする
ための出力部とを具備したことを特徴としている。
(作用)
本発明によれば、地の文とは異なる形式あるいは異なる
単語切りになっている文字データからもキーワードを抽
出できるので、文書全体から正しくキーワード抽出が行
えるので、抽出されたキーワードの適切さが高まる。
単語切りになっている文字データからもキーワードを抽
出できるので、文書全体から正しくキーワード抽出が行
えるので、抽出されたキーワードの適切さが高まる。
(実施例)
以下、図面を参照しながら本発明の一実施例について説
明する。
明する。
第1図は本発明の一実施例の概略構成図である。
入力部1は、例えばマウスやフロピツーディスク・ドラ
イバなどからなる入力部であり、文書データやキーワー
ド選択指示の入力をするためのものである。入力部1よ
り入力された文書データは、装置全体の制御を司る文書
管理部2に与えられ、出力部4に、例えば第2図のよう
に表示される。
イバなどからなる入力部であり、文書データやキーワー
ド選択指示の入力をするためのものである。入力部1よ
り入力された文書データは、装置全体の制御を司る文書
管理部2に与えられ、出力部4に、例えば第2図のよう
に表示される。
このデータは、文書記憶部3に記憶される。
キーワード抽出部5は文書記憶部3より文書データを読
み出し、まず、図表対応部6により、図表を構成してい
る文字データを探す。
み出し、まず、図表対応部6により、図表を構成してい
る文字データを探す。
図形データ・罫線データ・文字データの、文書記憶部3
における記憶形式には種々のものがある。
における記憶形式には種々のものがある。
例えば第3図のような形式を例に、図表対応部6の動作
を説明する。
を説明する。
第3図の形式では、文字データは、−次元に並んでいる
。一方、図形データは、これとは無関係に個々の種別と
座標位置とをもっている。
。一方、図形データは、これとは無関係に個々の種別と
座標位置とをもっている。
図表対応部6は、第3図のデータを第2図のように表示
するために、文書管理部2が行う表示展開を行い、文字
データの座標位置を求め、それとオーバラップする図形
データを求め、第4図のような形式に変換する。「デイ
スプレィ」の文字データは、第3図の文字データでは「
ディス」と「プレイ」に分かれていたが、第4図では、
長方形に囲まれた文字データとして、一つに統合されて
いる。第3図のような形式で文字図形データが記憶され
ているのは、古いタイプの文書処理装置に多い、最近の
文書処理装置では第4図のような形式で記憶されている
。この場合、上述のような図表対応部6は、不要となる
。
するために、文書管理部2が行う表示展開を行い、文字
データの座標位置を求め、それとオーバラップする図形
データを求め、第4図のような形式に変換する。「デイ
スプレィ」の文字データは、第3図の文字データでは「
ディス」と「プレイ」に分かれていたが、第4図では、
長方形に囲まれた文字データとして、一つに統合されて
いる。第3図のような形式で文字図形データが記憶され
ているのは、古いタイプの文書処理装置に多い、最近の
文書処理装置では第4図のような形式で記憶されている
。この場合、上述のような図表対応部6は、不要となる
。
キーワード抽出部5は、第4図の記憶形式より、それぞ
れのグループ群の文字データをキーワードとして抜き出
し、キーワード記憶部7に記憶するとともに、その結果
は、出方部4に第5図(a)のように1例えばソートさ
れて表示される。
れのグループ群の文字データをキーワードとして抜き出
し、キーワード記憶部7に記憶するとともに、その結果
は、出方部4に第5図(a)のように1例えばソートさ
れて表示される。
このとき、ユーザが入力部1より、「図1」と「システ
ム構成」を選択し、削除で指示すれば、これらはキーワ
ードから除かれる。
ム構成」を選択し、削除で指示すれば、これらはキーワ
ードから除かれる。
1図1」などのような図表番号に関する用語や「システ
ム構成」などのような−船釣な用語は、キーワードには
不適である。このような用語を不適語辞書として、キー
ワード抽出部5に付加すれば、これらの用語は、キーワ
ード抽出から自動的に除かれる。
ム構成」などのような−船釣な用語は、キーワードには
不適である。このような用語を不適語辞書として、キー
ワード抽出部5に付加すれば、これらの用語は、キーワ
ード抽出から自動的に除かれる。
又、上述のようにユーザの指示により不適とされた用語
を、ユーザ毎の不適語辞書に自動的に付加していけば、
次回以降、同じ用語がキーワードとして抽出されること
がなくなる。
を、ユーザ毎の不適語辞書に自動的に付加していけば、
次回以降、同じ用語がキーワードとして抽出されること
がなくなる。
又、キーワード抽出部5が、ひらがな、カタカナ、数字
、英字などの字種の異なりによる単語切りを行うように
すればキーワードは第5図(b)のようになる。
、英字などの字種の異なりによる単語切りを行うように
すればキーワードは第5図(b)のようになる。
1文字、及び2文字の語はキーワードとして抽出しない
ルールをキーワード抽出部5に付加すれば「1」 「図
」 「構成」は、自動的に除かれる。
ルールをキーワード抽出部5に付加すれば「1」 「図
」 「構成」は、自動的に除かれる。
以上の実施例では、図形データや文字データの形式を第
3図や第4図の例について述べたが、必ずしもこれらに
限定されるものではない。
3図や第4図の例について述べたが、必ずしもこれらに
限定されるものではない。
キーワード抽出部におけるキーワード抽出の精度をあげ
るための規則や辞書の付加なども可能である。
るための規則や辞書の付加なども可能である。
以上述べたように、本発明によれば、重要な意味のある
図表から従来、抽出されなかったキーワードで簡単に抽
出できるので、その効果は大きい。
図表から従来、抽出されなかったキーワードで簡単に抽
出できるので、その効果は大きい。
第1図〜第5図は本発明の一実施例に関するキーワード
抽出方式を説明する図であり、第1図は本発明の一実施
例の全体構成を示すブロック図、第2図、第5図は表示
画面の一例を示す図、第3図、第4図はデータの記憶形
式の一例で示す図である。 1・・・入力部、 2・・・文書管理部、3
・・・文書記憶部、 4・・・出力部、5・・・
キーワード抽出部、 6・・・図表対応部、7・・・キ
ーワード記憶部。 代理人 弁理士 則 近 憲 佑 同 松山光速 (ヘージ1 第2図 第1図 コ形: (七外形、−叉f、ソ5 Z2. >)r\
、)) 第3図 (通謀) (ベージ′1 晴司二1方−7tら) (4シ@%、: χイ、yイ ) (fiM’l : −& 方二)Plづ:、)(清制:
連謀〕 Sン (女−育: ティスフ・レイ) (り)し−7・乙 (立置: 図1 ジ又テム卑六万k〕
抽出方式を説明する図であり、第1図は本発明の一実施
例の全体構成を示すブロック図、第2図、第5図は表示
画面の一例を示す図、第3図、第4図はデータの記憶形
式の一例で示す図である。 1・・・入力部、 2・・・文書管理部、3
・・・文書記憶部、 4・・・出力部、5・・・
キーワード抽出部、 6・・・図表対応部、7・・・キ
ーワード記憶部。 代理人 弁理士 則 近 憲 佑 同 松山光速 (ヘージ1 第2図 第1図 コ形: (七外形、−叉f、ソ5 Z2. >)r\
、)) 第3図 (通謀) (ベージ′1 晴司二1方−7tら) (4シ@%、: χイ、yイ ) (fiM’l : −& 方二)Plづ:、)(清制:
連謀〕 Sン (女−育: ティスフ・レイ) (り)し−7・乙 (立置: 図1 ジ又テム卑六万k〕
Claims (3)
- (1)文字・図形・表データなどからなる文書を入力し
たりキーワードの選択を指示したりするための入力部と
、この入力部より入力された文書を記憶するための文書
記憶部と、前記文書を解析し図形・表データとともにブ
ロック図や表などを構成している文字データをキーワー
ドとして抽出するためのキーワード抽出部と、このキー
ワード抽出部により抽出されたキーワードあるいは前記
入力部より入力された文書を表示出力するための出力部
とを具備したことを特徴とするキーワード抽出方式。 - (2)キーワード抽出部は、キーワードとして抽出しな
い語句を辞書として備えているものである請求項1記載
のキーワード抽出方式。 - (3)キーワード抽出部は、カタカナと平仮名名、漢字
、アルファベット等の字種の異なりにより単語切りを行
うものである請求項1記載のキーワード抽出方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63179203A JPH0229864A (ja) | 1988-07-20 | 1988-07-20 | キーワード抽出方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63179203A JPH0229864A (ja) | 1988-07-20 | 1988-07-20 | キーワード抽出方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0229864A true JPH0229864A (ja) | 1990-01-31 |
Family
ID=16061730
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63179203A Pending JPH0229864A (ja) | 1988-07-20 | 1988-07-20 | キーワード抽出方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0229864A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07219957A (ja) * | 1994-01-28 | 1995-08-18 | Matsushita Electric Ind Co Ltd | 情報分類装置、情報検索装置及び情報収集装置 |
| JP2002183165A (ja) * | 2000-12-08 | 2002-06-28 | Ricoh Co Ltd | デジタル複合機および文書格納システム |
| JP2012216120A (ja) * | 2011-04-01 | 2012-11-08 | Nec System Technologies Ltd | 組織内ソーシャルマップ作成システム及び組織内ソーシャルマップ作成方法 |
-
1988
- 1988-07-20 JP JP63179203A patent/JPH0229864A/ja active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07219957A (ja) * | 1994-01-28 | 1995-08-18 | Matsushita Electric Ind Co Ltd | 情報分類装置、情報検索装置及び情報収集装置 |
| JP2002183165A (ja) * | 2000-12-08 | 2002-06-28 | Ricoh Co Ltd | デジタル複合機および文書格納システム |
| JP2012216120A (ja) * | 2011-04-01 | 2012-11-08 | Nec System Technologies Ltd | 組織内ソーシャルマップ作成システム及び組織内ソーシャルマップ作成方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5826219A (en) | Machine translation apparatus | |
| US5251292A (en) | Method and apparatus for an equation editor | |
| US20020013693A1 (en) | Apparatus and method for controlling the display of a translation or dictionary searching process | |
| JPS6162170A (ja) | 複合文書編集方法 | |
| US4677585A (en) | Method for obtaining common mode information and common field attribute information for a plurality of card images | |
| JPH05158401A (ja) | 文書速読支援表示方式並びに文書処理装置及び文書検索装置 | |
| JPH03260768A (ja) | キーワード強調表示装置 | |
| JPH0229864A (ja) | キーワード抽出方式 | |
| JP3029822B2 (ja) | 文書処理装置、文書処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JP2550068B2 (ja) | 情報の検索・表示方法 | |
| JPS60108959A (ja) | 文章変換装置 | |
| JPH0252303B2 (ja) | ||
| JP3209531B2 (ja) | 対訳エディタ | |
| JP2968902B2 (ja) | 画面スクロール指示支援装置 | |
| JPH07200605A (ja) | 翻訳装置 | |
| JPS63293674A (ja) | 文章を検索・表示する方法 | |
| JPH09146934A (ja) | 仮名漢字変換装置 | |
| JP2000259302A (ja) | 画面生成方法 | |
| JPS61279973A (ja) | 日本語処理装置 | |
| JP2938663B2 (ja) | 情報処理装置および情報処理方法 | |
| JP2864691B2 (ja) | 学習支援装置 | |
| JPH06149876A (ja) | 文書図式化装置 | |
| JPH07182344A (ja) | 機械翻訳装置 | |
| JPH06266487A (ja) | 情報処理装置およびヘルプ情報提供方法 | |
| JPS6364162A (ja) | 文書処理装置 |