JPH0452765A - キーワード抽出装置 - Google Patents
キーワード抽出装置Info
- Publication number
- JPH0452765A JPH0452765A JP2155733A JP15573390A JPH0452765A JP H0452765 A JPH0452765 A JP H0452765A JP 2155733 A JP2155733 A JP 2155733A JP 15573390 A JP15573390 A JP 15573390A JP H0452765 A JPH0452765 A JP H0452765A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- word
- words
- compound
- candidates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
産業上の利用分野
本発明は、データベースシステム、ワードプロセッサ等
の電子機器において、文書情報の検索時に用いられる可
能性のある語句をキーワードとして抽出するキーワード
抽出装置に関する。
の電子機器において、文書情報の検索時に用いられる可
能性のある語句をキーワードとして抽出するキーワード
抽出装置に関する。
従来の技術
従来、データベースシステム、ワードプロセッサ等の電
子機器において、既に作成された大量の情報から希望す
る情報の検索を行う場合、予め個々の情報に対してキー
ワードを付与して蓄積しておき、その検索時にキーワー
ドを含む条件式を入力し、この検索条件に基づき、それ
にマツチするキーワードを有する情報、z 47索し、
て出力゛4るというのが一般的である4゜ このような電子機器の場合、一般に、情報の登録時に使
用者がキーワードの登録を行わなければならない。この
作業は非常に面倒であり、一つの情報に対して十分な数
のキーワードを付与するにとは運用−L不可能なことで
ある。
子機器において、既に作成された大量の情報から希望す
る情報の検索を行う場合、予め個々の情報に対してキー
ワードを付与して蓄積しておき、その検索時にキーワー
ドを含む条件式を入力し、この検索条件に基づき、それ
にマツチするキーワードを有する情報、z 47索し、
て出力゛4るというのが一般的である4゜ このような電子機器の場合、一般に、情報の登録時に使
用者がキーワードの登録を行わなければならない。この
作業は非常に面倒であり、一つの情報に対して十分な数
のキーワードを付与するにとは運用−L不可能なことで
ある。
また、情報を一つの観点から見た場合のキーワードしか
付与しないため、情報の登忌後にお(する検索時に他の
観点から見たキーワ・−ドを検索条件どして入力した場
合には、目的とする情報を得る、でとが出来ないことに
なる。
付与しないため、情報の登忌後にお(する検索時に他の
観点から見たキーワ・−ドを検索条件どして入力した場
合には、目的とする情報を得る、でとが出来ないことに
なる。
さらに、一つの情報に最低 つのキーワードを登録しな
ければならないため、人足(多種類)の情報を短時間に
登録するこ二とが出来ない。
ければならないため、人足(多種類)の情報を短時間に
登録するこ二とが出来ない。
このような問題を解決するため、ギ〜ワー ドを自動的
に抽出する研究か以前から行われている。
に抽出する研究か以前から行われている。
ここで、従来のキーワードの自動抽出方法の例とし7て
、「日本語文章からのキーワード自動抽出」 (金子朝
男他、情報処理学会第35回全国大会、pp1277−
1278.1987)に開示された技術を説明する。
、「日本語文章からのキーワード自動抽出」 (金子朝
男他、情報処理学会第35回全国大会、pp1277−
1278.1987)に開示された技術を説明する。
このキーワード抽出方法は、検索対象を文書情報とし7
たものであり、ます、字種の違いに注目したり、早語テ
ーブル等を参照したりして、文章からキーワードとなる
可能性がある語句を抽出する。
たものであり、ます、字種の違いに注目したり、早語テ
ーブル等を参照したりして、文章からキーワードとなる
可能性がある語句を抽出する。
次に、キーワードとならない語句を集めた不用語辞書に
上述の抽出結果としての語句で一致するものがあるか否
かを調べ、不用語辞書に一致するものがある場合にはキ
ーワードとせず、不用語辞書に一致するものがない場合
にはその語句をキーワードとして抽出する。
上述の抽出結果としての語句で一致するものがあるか否
かを調べ、不用語辞書に一致するものがある場合にはキ
ーワードとせず、不用語辞書に一致するものがない場合
にはその語句をキーワードとして抽出する。
発明が解決しようとする課題
二のようなキーワ・−ド抽出方法において、不用語辞書
はキーワードとならない語句を予め登B(2ておくもの
である。
はキーワードとならない語句を予め登B(2ておくもの
である。
しかし、無数にある語句の中からキーワードとならない
語句をすべて選択し、不用語辞書に登録しておくことは
、実際には不可能なことである。
語句をすべて選択し、不用語辞書に登録しておくことは
、実際には不可能なことである。
また、検索の対象となる文書が扱う分野や、その文書が
利用される目的等により、ある同一の語句が不用語にな
る場合とならない場合がある。
利用される目的等により、ある同一の語句が不用語にな
る場合とならない場合がある。
(5,たがって、多くの語句を無条件に予め不用語辞書
に登録し7た場合、本来ギ・−ワードとなるべき語句を
棄却してしまうという事態が多発する恐れがある、 このような理由(・Jより、不用語辞書は、その初期状
態においては、少数の語句を登録した状態に留めざ5タ
ー得ない。
に登録し7た場合、本来ギ・−ワードとなるべき語句を
棄却してしまうという事態が多発する恐れがある、 このような理由(・Jより、不用語辞書は、その初期状
態においては、少数の語句を登録した状態に留めざ5タ
ー得ない。
このため、予め提供されている不用語辞書に対し、利用
行が自分で不用語の追加を行っていかなければ、自分に
とっては不用でよ)る語句がいつもキーワードとして抽
出さ;it、TLまうことになる1、したがっ丁 キー
ワード抽出結果を調べ、不用なものが抽出されていれば
、子の語句を不用語辞書に登録するという作業を行わな
(′jればならない。
行が自分で不用語の追加を行っていかなければ、自分に
とっては不用でよ)る語句がいつもキーワードとして抽
出さ;it、TLまうことになる1、したがっ丁 キー
ワード抽出結果を調べ、不用なものが抽出されていれば
、子の語句を不用語辞書に登録するという作業を行わな
(′jればならない。
このような作業を交書登録の度に繰り返すことは、利用
者にとってかなりの負担になる。
者にとってかなりの負担になる。
課題を解決するだめの手段
請求項1記載の発明は、文書情報からキーワードとなる
可能性のある語句を抽出するキーワード候補抽出手段と
、このキーワード抽出手段により抽出されたキーワード
候補のうち複合語であるものを単純語に分割する複合語
分割手段と、この複合語分割手段による分割結果に基づ
き前記キーワード候補抽出手段により抽出された単純語
のキーワード候補のうち他の複合語のキーワード候補を
形成する単純語と一致するものを棄却するキーワード候
補棄却手段とより構成した。
可能性のある語句を抽出するキーワード候補抽出手段と
、このキーワード抽出手段により抽出されたキーワード
候補のうち複合語であるものを単純語に分割する複合語
分割手段と、この複合語分割手段による分割結果に基づ
き前記キーワード候補抽出手段により抽出された単純語
のキーワード候補のうち他の複合語のキーワード候補を
形成する単純語と一致するものを棄却するキーワード候
補棄却手段とより構成した。
また、請求項2記載の発明は、キーワードにならない語
句を予め登録した不用語辞書を設け、キーワード候補抽
出手段により抽出されたキーワード候補で前記不用語辞
書に登録されているものを棄却する不用語棄却手段を設
け、キーワード候補棄却手段により棄却されたキーワー
ド候補を前記不用語辞書に登録する不用語登録手段を設
けた。
句を予め登録した不用語辞書を設け、キーワード候補抽
出手段により抽出されたキーワード候補で前記不用語辞
書に登録されているものを棄却する不用語棄却手段を設
け、キーワード候補棄却手段により棄却されたキーワー
ド候補を前記不用語辞書に登録する不用語登録手段を設
けた。
作用
請求項1記載の発明は、文書情報からキーワードとなる
可能性のある語句をキーワード候補抽出手段により抽出
し、この抽出結果としてのキーワード候補のうち複合語
であるものを複合語分割手段により単純語に分割し、こ
の分割結果に基づき、キーワード候補抽出手段により抽
出された単純語のキーワード候補で他の複合語のキーワ
ード候補を形成する単純語と一致するものをキーワード
候補棄却手段により棄却するので、不用語辞書を用いる
ことなく、不用語がキーワードとして抽出されるのを防
ぐことが出来る。
可能性のある語句をキーワード候補抽出手段により抽出
し、この抽出結果としてのキーワード候補のうち複合語
であるものを複合語分割手段により単純語に分割し、こ
の分割結果に基づき、キーワード候補抽出手段により抽
出された単純語のキーワード候補で他の複合語のキーワ
ード候補を形成する単純語と一致するものをキーワード
候補棄却手段により棄却するので、不用語辞書を用いる
ことなく、不用語がキーワードとして抽出されるのを防
ぐことが出来る。
また、請求項2記載の発明は、キーワード候補抽出手段
により抽出されたキーワード候補で不用語辞書に登録さ
れているものを不用語棄却手段により棄却し7、キーワ
ード候補棄却手段により棄却されたキーワード候補を不
用語登録手段により不用語辞書へ登録するので、利用者
による不用語の登録を不要とし、さらに、キーワード候
補棄却手段により棄却されたキーワード候補が他の文書
で現れた場合であっても、その語句を不用語棄却手段に
より直ちに棄却することが出来る。
により抽出されたキーワード候補で不用語辞書に登録さ
れているものを不用語棄却手段により棄却し7、キーワ
ード候補棄却手段により棄却されたキーワード候補を不
用語登録手段により不用語辞書へ登録するので、利用者
による不用語の登録を不要とし、さらに、キーワード候
補棄却手段により棄却されたキーワード候補が他の文書
で現れた場合であっても、その語句を不用語棄却手段に
より直ちに棄却することが出来る。
実施例
本発明の第一の実施例を第1図ないし第3図に基づいて
説明する。このキーワード抽出装置は、第1図に示すよ
うに、文書情報からキーワード候補を抽出するキーワー
ド候補抽出手段と、この抽出結果としてのキーワード候
補のうち複合語であるものを単純語に分割する複合語分
割手段と、この複合語分割手段による分割結果に基づき
単純語のキーワード候補で他の複合語のキーワード候補
を形成する単純語と一致するものを棄却するキーワード
候補棄却手段とよりなるものである。
説明する。このキーワード抽出装置は、第1図に示すよ
うに、文書情報からキーワード候補を抽出するキーワー
ド候補抽出手段と、この抽出結果としてのキーワード候
補のうち複合語であるものを単純語に分割する複合語分
割手段と、この複合語分割手段による分割結果に基づき
単純語のキーワード候補で他の複合語のキーワード候補
を形成する単純語と一致するものを棄却するキーワード
候補棄却手段とよりなるものである。
但し、前記キーワード候補抽出手段は、ひらがな以外の
文字の連続列を全てキーワード候補として文書から抽出
するものである。また、前記単純語とはそれ以上分割す
ることが出来ない語句のことであり、前記複合語とは、
この単純語を複数個組合せて形成された語句のことであ
る。
文字の連続列を全てキーワード候補として文書から抽出
するものである。また、前記単純語とはそれ以上分割す
ることが出来ない語句のことであり、前記複合語とは、
この単純語を複数個組合せて形成された語句のことであ
る。
一方、前記複合語分割手段は、第2図に示すように、表
記と品詞とからなる単語テーブルを有するものであり、
この単語テーブルを用い、・複合語の先頭は名詞か接頭
辞である。
記と品詞とからなる単語テーブルを有するものであり、
この単語テーブルを用い、・複合語の先頭は名詞か接頭
辞である。
・複合語の末尾は名詞か接尾辞である。
・接頭辞の直後には接尾辞は続かない。
という一定の規則に基づいて複合語のキーワード候補を
単純語に分割する。なお、分割パターンが複数ある場合
には、構成単語数が最小の分割パターンを採用する。
単純語に分割する。なお、分割パターンが複数ある場合
には、構成単語数が最小の分割パターンを採用する。
さらに、キーワード候補棄却手段は、前記複合語分割手
段による分割結果に基づき、前記キーワード候補抽出手
段により抽出された単純語のキーワード候補のうち、他
の複合語のキーワード候補を形成する単純語のうちの末
尾の単純語と一致するものを棄却する。
段による分割結果に基づき、前記キーワード候補抽出手
段により抽出された単純語のキーワード候補のうち、他
の複合語のキーワード候補を形成する単純語のうちの末
尾の単純語と一致するものを棄却する。
一般に、複合語は、その末尾の単純語か表す概念の下位
概念を表すものである。
概念を表すものである。
そして、ある複合語と、その末尾の単純語と同一の単純
語とが同一文書に存在するということは、ある特定概念
を表す語句とその上位概念を表す語句とが同一文書に存
在しているということになる。
語とが同一文書に存在するということは、ある特定概念
を表す語句とその上位概念を表す語句とが同一文書に存
在しているということになる。
このような関係を有する語句を有する文書は、特定概念
に関係する事柄が述べらたものであるということになり
、同時に、上位概念を表す語句は、その文書内容よりも
漠然とした事柄を指すものであり、キーワードとしては
ふされしくないものである。
に関係する事柄が述べらたものであるということになり
、同時に、上位概念を表す語句は、その文書内容よりも
漠然とした事柄を指すものであり、キーワードとしては
ふされしくないものである。
本発明は、このような思想に基つくものである。
このような構成において、キーワードを抽出する場合、
第3図に示すように、文書情報としての文章からキーワ
ードとなる可能性のある語句全てがキーワード候補抽出
手段によりキーワード候補として抽出され、これらのキ
ーワード候補のうち複合語であるもの全てが複合語分割
手段により単純語に分割される。
第3図に示すように、文書情報としての文章からキーワ
ードとなる可能性のある語句全てがキーワード候補抽出
手段によりキーワード候補として抽出され、これらのキ
ーワード候補のうち複合語であるもの全てが複合語分割
手段により単純語に分割される。
そして、キーワード候補抽出手段により抽出されたキー
ワード候補が単純語であるか否かを判定する。
ワード候補が単純語であるか否かを判定する。
キーワード候補が単純語である場合には、他のキーワー
ド候補で複合語のものがあるか否かを判定する。
ド候補で複合語のものがあるか否かを判定する。
他のキーワード候補で複合語のものがある場合には、そ
の末尾の単純語と上述の単純語のキーワード候補とが一
致するか否かを判定する。
の末尾の単純語と上述の単純語のキーワード候補とが一
致するか否かを判定する。
単純語のキーワード候補と複合語のキーワード候補の末
尾の単純語とが一致しない場合には、上述の他のキーワ
ード候補で複合語のものがあるか否かの判定以降の上述
の処理を繰返し、単純語のキーワード候補と複合語のキ
ーワード候補の末尾の単純語とが一致する場合には、単
純語のキーワード候補を棄却し、一つのキーワード候補
についての抽出処理を終了する。
尾の単純語とが一致しない場合には、上述の他のキーワ
ード候補で複合語のものがあるか否かの判定以降の上述
の処理を繰返し、単純語のキーワード候補と複合語のキ
ーワード候補の末尾の単純語とが一致する場合には、単
純語のキーワード候補を棄却し、一つのキーワード候補
についての抽出処理を終了する。
但し、キーワード候補抽出手段により抽出されたキーワ
ード候補が単純語であるか否かの判定以降のと述の処理
はキーワード候補棄却手段により行なわれるものである
。
ード候補が単純語であるか否かの判定以降のと述の処理
はキーワード候補棄却手段により行なわれるものである
。
また、キーワード候補抽出手段により抽出されたキーワ
ード候補が単純語であるか否かの−に述の判定処理にお
いてキーワード候補が単純語でない、すなわち、キーワ
ード候補が複合語であると判定された場合、または、他
のキーワード候補で複合語のものがあるか否かの上述の
判定処理において他のキーワード候補で複合語のものが
ないと判定された場合には、キーワード候補をキーワー
ドとして抽出した後、一つのキーワード候補についての
抽出処理を終了する。
ード候補が単純語であるか否かの−に述の判定処理にお
いてキーワード候補が単純語でない、すなわち、キーワ
ード候補が複合語であると判定された場合、または、他
のキーワード候補で複合語のものがあるか否かの上述の
判定処理において他のキーワード候補で複合語のものが
ないと判定された場合には、キーワード候補をキーワー
ドとして抽出した後、一つのキーワード候補についての
抽出処理を終了する。
このような処理を全てのキーワード候補に対して行ない
、キーワードの抽出処理を終了する。
、キーワードの抽出処理を終了する。
このようにしてキーワードを抽出するので、不用語辞書
を用いることなく、不用語がキーワードとして抽出され
るのを防ぐことが出来る。
を用いることなく、不用語がキーワードとして抽出され
るのを防ぐことが出来る。
なお、本実施例において、キーワード候補抽出手段は文
字種の変化点を基準にキーワード候補を抽出するもので
あるが、これに限られたものではなく、例えば、公知技
術である形態素解析を行ない、名詞や接辞が連続してい
る部分をキーワード候補とすることも出来る。
字種の変化点を基準にキーワード候補を抽出するもので
あるが、これに限られたものではなく、例えば、公知技
術である形態素解析を行ない、名詞や接辞が連続してい
る部分をキーワード候補とすることも出来る。
さらに、このようにしてキーワード候補の抽出を行なう
場合には、既にそれぞれの単語の境界と品詞が定まって
いるため、複合語分割手段は、複合語の分割時に単語テ
ーブルを使用する必要がなくなり、単語の境界に従って
複合語を分割すれば良い。
場合には、既にそれぞれの単語の境界と品詞が定まって
いるため、複合語分割手段は、複合語の分割時に単語テ
ーブルを使用する必要がなくなり、単語の境界に従って
複合語を分割すれば良い。
次に、本発明の第二の実施例を第4図ないし第6図に基
づいて説明する。このキーワード抽出装置は、第4図に
示すように、第1図に示したキーワード抽出装置に、キ
ーワードにならない語句を予め登録した不用語辞書と、
キーワード候補抽出手段により抽出されたキーワード候
補で前記不用語辞書に登録されているものを棄却する不
用語棄却手段と、キーワード候補棄却手段により棄却さ
れたキーワード候補の前記不用語辞書への登録を行なう
不用語登録手段とを設けたものであり、第一・の実施例
において説明した部分と同一部分についての説明は省略
する。
づいて説明する。このキーワード抽出装置は、第4図に
示すように、第1図に示したキーワード抽出装置に、キ
ーワードにならない語句を予め登録した不用語辞書と、
キーワード候補抽出手段により抽出されたキーワード候
補で前記不用語辞書に登録されているものを棄却する不
用語棄却手段と、キーワード候補棄却手段により棄却さ
れたキーワード候補の前記不用語辞書への登録を行なう
不用語登録手段とを設けたものであり、第一・の実施例
において説明した部分と同一部分についての説明は省略
する。
但し、前記不用語辞書は、第5図に示すようなものであ
る。
る。
このような構成において、キーワードを抽出する場合、
第6図に示すように、キーワード候補抽出手段によりキ
ーワー ド候補か抽出され、これらのキーワード候補が
複合語分割手段により単純語に分割された後、キーワー
ド候補が不用語辞書に登録されているか否かを判定する
。
第6図に示すように、キーワード候補抽出手段によりキ
ーワー ド候補か抽出され、これらのキーワード候補が
複合語分割手段により単純語に分割された後、キーワー
ド候補が不用語辞書に登録されているか否かを判定する
。
キーワード候補が不用語辞書に登録されている場合には
、そのキーワード候補を不用語棄却手段により棄却した
後、一つのキーワード候補についての抽出処理を終了す
る。
、そのキーワード候補を不用語棄却手段により棄却した
後、一つのキーワード候補についての抽出処理を終了す
る。
また、キーワード候補が不用語辞書に登録されていない
場合には、そのキーワード候補が単純語であり、且つ、
他のキーワード候補で複合語のものが有り、且つ、その
末尾の単純語と上述の単純語のキーワード候補とが一致
するとき、そのキーワード候補を不用語登録手段により
不用語辞書に登録した後にこのキーワード候補を棄却し
、一つのキーワード候補についての抽出処理を終了する
。
場合には、そのキーワード候補が単純語であり、且つ、
他のキーワード候補で複合語のものが有り、且つ、その
末尾の単純語と上述の単純語のキーワード候補とが一致
するとき、そのキーワード候補を不用語登録手段により
不用語辞書に登録した後にこのキーワード候補を棄却し
、一つのキーワード候補についての抽出処理を終了する
。
このような処理を全てのキーワード候補に対して行ない
、キーワードの抽出処理を終了する。
、キーワードの抽出処理を終了する。
ここで、このようなキーワード抽出処理を具体例に基づ
いて説明する。
いて説明する。
キーワード候補抽出手段により抽出されたキーワード候
補が[実装技術jと「技術」とである場合、「実装技術
」は、単語テーブル(第2図参照)に基づき、複合語分
割手段により「実装」と「技術」とに分割される。
補が[実装技術jと「技術」とである場合、「実装技術
」は、単語テーブル(第2図参照)に基づき、複合語分
割手段により「実装」と「技術」とに分割される。
「実装」も「技術」も不用語辞書(第5図参照)には登
録されていない。
録されていない。
また、「技術」は「実装技術」の末尾の単純語である「
技術」と一致する。
技術」と一致する。
このため、「技術」は不用語登録手段により不用語辞書
に登録される。
に登録される。
さらに、「技術」は棄却され、「実装技術」のみがキー
ワードとして抽出される。
ワードとして抽出される。
このようにしてキーワードを抽出するので、利用者によ
る不用語の登録を不要とし、さらに、キーワード候補棄
却手段により棄却されたキーワード候補(上述の「技術
」)が他の文書で現れた場合であっても、その語句を不
用語棄却手段によす直ちに棄却することが出来る。
る不用語の登録を不要とし、さらに、キーワード候補棄
却手段により棄却されたキーワード候補(上述の「技術
」)が他の文書で現れた場合であっても、その語句を不
用語棄却手段によす直ちに棄却することが出来る。
発明の効果
請求項1記載の発明は上述のように、文書情報からキー
ワードとなる可能性のある語句をキーワード候補抽出手
段により抽出し、この抽出結果としてのキーワード候補
のうち複合語であるものを複合語分割手段により単純語
に分割し、この分割結果に基づき、キーワード候補抽出
手段により抽出された単純語のキーワード候補で他の複
合語のキーワード候補を形成する単純語と一致するもの
をキーワード候補棄却手段により棄却するので、不用語
辞書を用いることなく、不用語がキーワードとして抽出
されるのを防ぐことが出来る。
ワードとなる可能性のある語句をキーワード候補抽出手
段により抽出し、この抽出結果としてのキーワード候補
のうち複合語であるものを複合語分割手段により単純語
に分割し、この分割結果に基づき、キーワード候補抽出
手段により抽出された単純語のキーワード候補で他の複
合語のキーワード候補を形成する単純語と一致するもの
をキーワード候補棄却手段により棄却するので、不用語
辞書を用いることなく、不用語がキーワードとして抽出
されるのを防ぐことが出来る。
また、請求項2記載の発明は上述のように、キーワード
候補抽出手段により抽出されたキーワード候補で不用語
辞書に登録されているものを不用語棄却手段により棄却
し、キーワード候補棄却手段により棄却されたキーワー
ド候補を不用語登録手段により不用語辞書へ登録するの
で、利用者による不用語の登録を不要とし、さらに、キ
ーワード候補棄却手段により棄却されたキーワード候補
が他の文書で現れた場合であっても、その語句を不用語
棄却手段により直ちに棄却することが出来る。
候補抽出手段により抽出されたキーワード候補で不用語
辞書に登録されているものを不用語棄却手段により棄却
し、キーワード候補棄却手段により棄却されたキーワー
ド候補を不用語登録手段により不用語辞書へ登録するの
で、利用者による不用語の登録を不要とし、さらに、キ
ーワード候補棄却手段により棄却されたキーワード候補
が他の文書で現れた場合であっても、その語句を不用語
棄却手段により直ちに棄却することが出来る。
第1図は本発明の第一の実施例を示すブロック図、第2
図は単語テーブルの内容を示す説明図、第3図は一つの
キーワード候補に対する抽出処理を示すフローチャート
、第4図は本発明の第二の実施例を示すブロック図、第
5図は不用語辞書の内容を示す説明図、第6図は一つの
キーワード候補に対する抽出処理を示すフローチャート
である。 出 願 人 株式会社 リコー 二二ロー −S+1−IH
図は単語テーブルの内容を示す説明図、第3図は一つの
キーワード候補に対する抽出処理を示すフローチャート
、第4図は本発明の第二の実施例を示すブロック図、第
5図は不用語辞書の内容を示す説明図、第6図は一つの
キーワード候補に対する抽出処理を示すフローチャート
である。 出 願 人 株式会社 リコー 二二ロー −S+1−IH
Claims (1)
- 【特許請求の範囲】 1、文書情報からキーワードとなる可能性のある語句を
抽出するキーワード候補抽出手段と、このキーワード抽
出手段により抽出されたキーワード候補のうち複合語で
あるものを単純語に分割する複合語分割手段と、この複
合語分割手段による分割結果に基づき前記キーワード候
補抽出手段により抽出された単純語のキーワード候補の
うち他の複合語のキーワード候補を形成する単純語と一
致するものを棄却するキーワード候補棄却手段とよりな
ることを特徴とするキーワード抽出装置。 2、キーワードにならない語句を予め登録した不用語辞
書を設け、キーワード候補抽出手段により抽出されたキ
ーワード候補で前記不用語辞書に登録されているものを
棄却する不用語棄却手段を設け、キーワード候補棄却手
段により棄却されたキーワード候補を前記不用語辞書に
登録する不用語登録手段を設けたことを特徴とする請求
項1記載のキーワード抽出装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2155733A JPH0452765A (ja) | 1990-06-14 | 1990-06-14 | キーワード抽出装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2155733A JPH0452765A (ja) | 1990-06-14 | 1990-06-14 | キーワード抽出装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH0452765A true JPH0452765A (ja) | 1992-02-20 |
Family
ID=15612266
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2155733A Pending JPH0452765A (ja) | 1990-06-14 | 1990-06-14 | キーワード抽出装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0452765A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10320421A (ja) * | 1997-03-19 | 1998-12-04 | Ricoh Co Ltd | 文書検索方法 |
-
1990
- 1990-06-14 JP JP2155733A patent/JPH0452765A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10320421A (ja) * | 1997-03-19 | 1998-12-04 | Ricoh Co Ltd | 文書検索方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Wacholder et al. | Disambiguation of proper names in text | |
| JP3254642B2 (ja) | 索引の表示方法 | |
| US20030059112A1 (en) | Method and system for segmenting and identifying events in images using spoken annotations | |
| Ravin et al. | Extracting names from natural-language text | |
| Alruily | Issues of dialectal saudi twitter corpus. | |
| Chen et al. | Named entity extraction for information retrieval | |
| CN1471024A (zh) | 中文分词方法 | |
| JPH0944523A (ja) | 関連語提示装置 | |
| JPH0452765A (ja) | キーワード抽出装置 | |
| Larner | Formulaic sequences as a potential marker of deception: A preliminary investigation | |
| JP2828692B2 (ja) | 情報検索装置 | |
| JPH06208588A (ja) | 文書検索方式 | |
| BOZKURT | Proper names in general (purpose) dictionaries: necessity | |
| JPS63175965A (ja) | 文書処理装置 | |
| JP2002189734A (ja) | 検索語抽出装置および検索語抽出方法 | |
| JP2004280323A (ja) | 質問文書要約装置、質問応答検索装置、質問文書要約プログラム | |
| JP2002108888A (ja) | ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体 | |
| JPS61248160A (ja) | 文書情報登録方式 | |
| KR910017312A (ko) | 입력문자열과 키워드와의 근사적 합치(Match)를 이용한 정보 검색 시스템 및 그 합치방법 | |
| JP3082889B2 (ja) | モノローグ・データに対する話題構造認識方法および装置 | |
| JPH05233689A (ja) | 文書自動要約方法 | |
| JPH03125265A (ja) | キーワード抽出装置 | |
| JPH0773200A (ja) | キーワード抽出方法 | |
| Matsuo et al. | Mining messages in an electronic message board by repetition of words | |
| JP2900628B2 (ja) | 辞書検索装置 |