JPH05128159A - キーワード抽出方法及び装置 - Google Patents
キーワード抽出方法及び装置Info
- Publication number
- JPH05128159A JPH05128159A JP3291223A JP29122391A JPH05128159A JP H05128159 A JPH05128159 A JP H05128159A JP 3291223 A JP3291223 A JP 3291223A JP 29122391 A JP29122391 A JP 29122391A JP H05128159 A JPH05128159 A JP H05128159A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document information
- type
- character string
- logical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 文書検索装置等に利用されるキーワード抽出
方法及び装置において、キーワードの抽出対象となる文
書情報の種別を限定することなくキーワードの抽出精度
を向上させる。 【構成】 予め内容文字列が複数の論理要素として区分
された文書情報に対し、種別識別手段が種別を識別し、
この種別毎に予め要素記憶手段に記憶された論理要素と
一致する論理要素を要素検出手段が文書情報から検出
し、この検出された論理要素内の内容文字列からキーワ
ード抽出手段がキーワードを抽出する。
方法及び装置において、キーワードの抽出対象となる文
書情報の種別を限定することなくキーワードの抽出精度
を向上させる。 【構成】 予め内容文字列が複数の論理要素として区分
された文書情報に対し、種別識別手段が種別を識別し、
この種別毎に予め要素記憶手段に記憶された論理要素と
一致する論理要素を要素検出手段が文書情報から検出
し、この検出された論理要素内の内容文字列からキーワ
ード抽出手段がキーワードを抽出する。
Description
【0001】
【産業上の利用分野】本発明は、文書ファイリングシス
テム等に利用されるキーワード抽出方法及び装置に関す
るものである。
テム等に利用されるキーワード抽出方法及び装置に関す
るものである。
【0002】
【従来の技術】従来の文書検索装置は、文書情報の登録
時にオペレータが適切と思われるキーワードを選択して
シソーラスにより分類しているが、このようなキーワー
ドの追加や削除に伴うシソーラスを更新する作業が煩雑
であるためにオペレータの負担が増大している。
時にオペレータが適切と思われるキーワードを選択して
シソーラスにより分類しているが、このようなキーワー
ドの追加や削除に伴うシソーラスを更新する作業が煩雑
であるためにオペレータの負担が増大している。
【0003】そこで、このような問題を解決するため、
形態素解析等の機械的な情報処理で文書情報の内容文字
列からキーワードを抽出するキーワード抽出装置が開発
されている。そして、このようなキーワード抽出装置
は、例えば、入力された文書情報の内容文字列からキー
ワードを抽出するキーワード抽出手段を設けた構造など
となっており、テキストファイルとして形成された文書
情報からキーワードを抽出するようになっている。この
ようにすることで、例えば、抽出されたキーワードと文
書情報との対応関係を文書検索装置の転置ファイルに登
録しておくことで、この転置ファイル内のキーワードか
ら所定の文書情報を後に検索することができる。
形態素解析等の機械的な情報処理で文書情報の内容文字
列からキーワードを抽出するキーワード抽出装置が開発
されている。そして、このようなキーワード抽出装置
は、例えば、入力された文書情報の内容文字列からキー
ワードを抽出するキーワード抽出手段を設けた構造など
となっており、テキストファイルとして形成された文書
情報からキーワードを抽出するようになっている。この
ようにすることで、例えば、抽出されたキーワードと文
書情報との対応関係を文書検索装置の転置ファイルに登
録しておくことで、この転置ファイル内のキーワードか
ら所定の文書情報を後に検索することができる。
【0004】ここで、このようなキーワード抽出方法と
しては、キーワードの抽出対象である文書情報として予
め種別を想定しないものとするものとが提案されてお
り、例えば、予め文書情報の種別を想定しないキーワー
ド抽出方法では、文書情報がテキストファイル形式で形
成されていればキーワードを抽出することができる。一
方、予め文書情報の種別を想定するものとして、例え
ば、木本晴夫「言語処理を用いたキーワード自動抽出」
第一回人工知能学会全国大会(1987年)に提案されたキー
ワード抽出方法では、文書情報を新聞記事などと仮定し
て文書構造の特性に依存してキーワードを抽出するよう
になっている。
しては、キーワードの抽出対象である文書情報として予
め種別を想定しないものとするものとが提案されてお
り、例えば、予め文書情報の種別を想定しないキーワー
ド抽出方法では、文書情報がテキストファイル形式で形
成されていればキーワードを抽出することができる。一
方、予め文書情報の種別を想定するものとして、例え
ば、木本晴夫「言語処理を用いたキーワード自動抽出」
第一回人工知能学会全国大会(1987年)に提案されたキー
ワード抽出方法では、文書情報を新聞記事などと仮定し
て文書構造の特性に依存してキーワードを抽出するよう
になっている。
【0005】
【発明が解決しようとする課題】上述のように、予め文
書情報の種別を想定しないキーワード抽出方法では、テ
キストファイル形式の文書情報からキーワードを抽出す
ることができるが、これではキーワードの抽出精度を向
上させることが困難である。また、予め文書情報の種別
を想定するキーワード抽出方法では、キーワードの抽出
精度は良好となるが、これはキーワードを抽出する文書
情報が特定の種別に限定されるために汎用性が低下して
いる。
書情報の種別を想定しないキーワード抽出方法では、テ
キストファイル形式の文書情報からキーワードを抽出す
ることができるが、これではキーワードの抽出精度を向
上させることが困難である。また、予め文書情報の種別
を想定するキーワード抽出方法では、キーワードの抽出
精度は良好となるが、これはキーワードを抽出する文書
情報が特定の種別に限定されるために汎用性が低下して
いる。
【0006】
【課題を解決するための手段】請求項1記載の発明は、
入力された文書情報からキーワード抽出手段がキーワー
ドを抽出するようにしたキーワード抽出方法において、
予め内容文字列が複数の論理要素として区分された文書
情報の種別を種別識別手段が識別し、この識別された文
書情報の種別毎に予め要素記憶手段に記憶された論理要
素と一致する論理要素を要素検出手段が文書情報から検
出し、この検出された論理要素内の内容文字列から前記
キーワード抽出手段がキーワードを抽出するようにし
た。
入力された文書情報からキーワード抽出手段がキーワー
ドを抽出するようにしたキーワード抽出方法において、
予め内容文字列が複数の論理要素として区分された文書
情報の種別を種別識別手段が識別し、この識別された文
書情報の種別毎に予め要素記憶手段に記憶された論理要
素と一致する論理要素を要素検出手段が文書情報から検
出し、この検出された論理要素内の内容文字列から前記
キーワード抽出手段がキーワードを抽出するようにし
た。
【0007】請求項2記載の発明は、入力された文書情
報からキーワード抽出手段がキーワードを抽出するよう
にしたキーワード抽出方法において、予め内容文字列が
複数の論理要素として区分された文書情報の種別を種別
識別手段が識別し、この識別された文書情報の種別毎に
予め要素記憶手段に記憶された論理要素と一致しない論
理要素を要素検出手段が文書情報から検出し、この検出
された論理要素内の内容文字列から前記キーワード抽出
手段がキーワードを抽出するようにした。
報からキーワード抽出手段がキーワードを抽出するよう
にしたキーワード抽出方法において、予め内容文字列が
複数の論理要素として区分された文書情報の種別を種別
識別手段が識別し、この識別された文書情報の種別毎に
予め要素記憶手段に記憶された論理要素と一致しない論
理要素を要素検出手段が文書情報から検出し、この検出
された論理要素内の内容文字列から前記キーワード抽出
手段がキーワードを抽出するようにした。
【0008】請求項3記載の発明は、キーワード抽出手
段が文書情報の内容文字列から抽出したキーワードの重
要度を重要度算定手段が算定し、要素検出手段が検出し
た論理要素内の文書情報から抽出されたキーワードの重
要度を重要度更新手段が更新するようにした。
段が文書情報の内容文字列から抽出したキーワードの重
要度を重要度算定手段が算定し、要素検出手段が検出し
た論理要素内の文書情報から抽出されたキーワードの重
要度を重要度更新手段が更新するようにした。
【0009】請求項4記載の発明は、入力された文書情
報の内容文字列からキーワードを抽出するキーワード抽
出手段を設けたキーワード抽出装置において、予め内容
文字列が複数の論理要素として区分された文書情報の種
別を識別する種別識別手段を設け、この種別識別手段が
識別する文書情報の種別毎に予め特定の論理要素を記憶
した要素記憶手段を設け、この要素記憶手段に記憶され
た論理要素と一致する論理要素を前記種別識別手段が識
別した文書情報から検出する要素検出手段を設け、この
要素検出手段が検出した論理要素内の内容文字列からキ
ーワードを抽出するキーワード抽出手段を設けた。
報の内容文字列からキーワードを抽出するキーワード抽
出手段を設けたキーワード抽出装置において、予め内容
文字列が複数の論理要素として区分された文書情報の種
別を識別する種別識別手段を設け、この種別識別手段が
識別する文書情報の種別毎に予め特定の論理要素を記憶
した要素記憶手段を設け、この要素記憶手段に記憶され
た論理要素と一致する論理要素を前記種別識別手段が識
別した文書情報から検出する要素検出手段を設け、この
要素検出手段が検出した論理要素内の内容文字列からキ
ーワードを抽出するキーワード抽出手段を設けた。
【0010】請求項5記載の発明は、入力された文書情
報の内容文字列からキーワードを抽出するキーワード抽
出手段を設けたキーワード抽出装置において、予め内容
文字列が複数の論理要素として区分された文書情報の種
別を識別する種別識別手段を設け、この種別識別手段が
識別する文書情報の種別毎に予め特定の論理要素を記憶
した要素記憶手段を設け、この要素記憶手段に記憶され
た論理要素と一致しない論理要素を前記種別識別手段が
識別した文書情報から検出する要素検出手段を設け、こ
の要素検出手段が検出した論理要素内の内容文字列から
キーワードを抽出するキーワード抽出手段を設けた。
報の内容文字列からキーワードを抽出するキーワード抽
出手段を設けたキーワード抽出装置において、予め内容
文字列が複数の論理要素として区分された文書情報の種
別を識別する種別識別手段を設け、この種別識別手段が
識別する文書情報の種別毎に予め特定の論理要素を記憶
した要素記憶手段を設け、この要素記憶手段に記憶され
た論理要素と一致しない論理要素を前記種別識別手段が
識別した文書情報から検出する要素検出手段を設け、こ
の要素検出手段が検出した論理要素内の内容文字列から
キーワードを抽出するキーワード抽出手段を設けた。
【0011】請求項6記載の発明は、キーワード抽出手
段が文書情報の内容文字列から抽出したキーワードの重
要度を算定する重要度算定手段を設け、要素検出手段が
検出した論理要素内の文書情報から抽出されたキーワー
ドの重要度を更新する重要度更新手段を設けた。
段が文書情報の内容文字列から抽出したキーワードの重
要度を算定する重要度算定手段を設け、要素検出手段が
検出した論理要素内の文書情報から抽出されたキーワー
ドの重要度を更新する重要度更新手段を設けた。
【0012】
【作用】請求項1及び4記載の発明は、文書情報の種別
に対応して論理構造的に重要な内容文字列からキーワー
ドを抽出するようなことができるので、キーワードの抽
出精度を向上させることができ、このようなキーワード
を抽出する文書情報として複数の種別を設定しておくこ
とができるので、キーワードの抽出対象となる文書情報
の汎用性を向上させることができる。
に対応して論理構造的に重要な内容文字列からキーワー
ドを抽出するようなことができるので、キーワードの抽
出精度を向上させることができ、このようなキーワード
を抽出する文書情報として複数の種別を設定しておくこ
とができるので、キーワードの抽出対象となる文書情報
の汎用性を向上させることができる。
【0013】請求項2及び5記載の発明は、文書情報の
種別に対応して論理構造的に重要でない部分以外の内容
文字列からキーワードを抽出するようなことができるの
で、キーワードの抽出精度を向上させることができ、こ
のようなキーワードを抽出する文書情報として複数の種
別を設定しておくことができるので、キーワードの抽出
対象となる文書情報の汎用性を向上させることができ
る。
種別に対応して論理構造的に重要でない部分以外の内容
文字列からキーワードを抽出するようなことができるの
で、キーワードの抽出精度を向上させることができ、こ
のようなキーワードを抽出する文書情報として複数の種
別を設定しておくことができるので、キーワードの抽出
対象となる文書情報の汎用性を向上させることができ
る。
【0014】請求項3及び6記載の発明は、文書情報の
論理構造的な重要度に対応してキーワードの重要度を修
正するようなことができるので、キーワードの重要度に
基づいて文書情報を検索する際の検索精度を向上させる
ことができる。
論理構造的な重要度に対応してキーワードの重要度を修
正するようなことができるので、キーワードの重要度に
基づいて文書情報を検索する際の検索精度を向上させる
ことができる。
【0015】
【実施例】請求項1及び4記載の発明の実施例を図面に
基づいて説明する。まず、図2のブロック図に例示する
ように、ここで例示するキーワード抽出装置1は文書検
索装置2の一部として形成されており、この文書検索装
置2は多数の文書情報を格納したデータベース(図示せ
ず)などに接続されている。そして、このキーワード抽
出装置1がキーワードを抽出する文書情報は、図3に例
示するように、予め内容文字列が複数の論理要素として
区分された構造となっており、ここでは文書情報の区分
の開始と終了とを示す論理要素が〈title〉や〈/titl
e〉等で表現されて内容文字列を挾んでいる。さらに、
このように形成された文書情報は論理要素が階層的に設
定されており、ここでは最上位に位置する論理要素であ
る〈report〉内の名称で文書情報の種別である文書タイ
プが表現されている。なお、上述のように論理要素を文
書情報の内容文字列に付与する具体的手段は、例えば、 ISO 8879 Information processing−Text and office syst
ems−Standard Generalized Markup Language
(SGML) などに開示されている。
基づいて説明する。まず、図2のブロック図に例示する
ように、ここで例示するキーワード抽出装置1は文書検
索装置2の一部として形成されており、この文書検索装
置2は多数の文書情報を格納したデータベース(図示せ
ず)などに接続されている。そして、このキーワード抽
出装置1がキーワードを抽出する文書情報は、図3に例
示するように、予め内容文字列が複数の論理要素として
区分された構造となっており、ここでは文書情報の区分
の開始と終了とを示す論理要素が〈title〉や〈/titl
e〉等で表現されて内容文字列を挾んでいる。さらに、
このように形成された文書情報は論理要素が階層的に設
定されており、ここでは最上位に位置する論理要素であ
る〈report〉内の名称で文書情報の種別である文書タイ
プが表現されている。なお、上述のように論理要素を文
書情報の内容文字列に付与する具体的手段は、例えば、 ISO 8879 Information processing−Text and office syst
ems−Standard Generalized Markup Language
(SGML) などに開示されている。
【0016】そこで、本実施例で例示する文書検索装置
2は、キーワード抽出手段3に特定論理要素名テーブル
4や文書内容識別手段5及び種別識別手段(図示せず)等
を接続した構造のキーワード抽出装置1に、転置ファイ
ル更新手段6等を接続した構造などとなっている。
2は、キーワード抽出手段3に特定論理要素名テーブル
4や文書内容識別手段5及び種別識別手段(図示せず)等
を接続した構造のキーワード抽出装置1に、転置ファイ
ル更新手段6等を接続した構造などとなっている。
【0017】より詳細には、前記文書内容識別手段5
は、図4に例示する論理要素の形態を利用した文脈自由
文法による解析などで文書情報を論理要素と内容文字列
とに分離して対応関係を検出するようになっており、前
記種別識別手段は、最上位の論理要素の名称などから文
書情報の識別である文書タイプを識別するようになって
いる。また、要素記憶手段である特定論理要素名テーブ
ル4は、図5に例示するように、文書情報の種別である
文書タイプ毎に予め特定の論理要素を名称で記憶してい
る。なお、このような特定論理要素名テーブル4は、予
め作成しておけば良く、文書情報の登録時毎に作成する
ようなことは要しない。
は、図4に例示する論理要素の形態を利用した文脈自由
文法による解析などで文書情報を論理要素と内容文字列
とに分離して対応関係を検出するようになっており、前
記種別識別手段は、最上位の論理要素の名称などから文
書情報の識別である文書タイプを識別するようになって
いる。また、要素記憶手段である特定論理要素名テーブ
ル4は、図5に例示するように、文書情報の種別である
文書タイプ毎に予め特定の論理要素を名称で記憶してい
る。なお、このような特定論理要素名テーブル4は、予
め作成しておけば良く、文書情報の登録時毎に作成する
ようなことは要しない。
【0018】そして、要素検出手段でもある前記キーワ
ード抽出手段3は、前記特定論理要素名テーブル4に記
憶された特定の論理要素を順次読出して前記文書内容識
別手段5が分離した文書情報の論理内容との一致を検出
し、このようにして検出された論理要素内の文書情報の
内容文字列からキーワードを抽出するようになってい
る。なお、このようなキーワード抽出手段3によるキー
ワードの抽出作業は、例えば、形態素解析による名詞の
検出などのような公知技術で簡易に実行される。
ード抽出手段3は、前記特定論理要素名テーブル4に記
憶された特定の論理要素を順次読出して前記文書内容識
別手段5が分離した文書情報の論理内容との一致を検出
し、このようにして検出された論理要素内の文書情報の
内容文字列からキーワードを抽出するようになってい
る。なお、このようなキーワード抽出手段3によるキー
ワードの抽出作業は、例えば、形態素解析による名詞の
検出などのような公知技術で簡易に実行される。
【0019】さらに、上述のような構造のキーワード抽
出装置1に接続された前記転置ファイル更新手段6は、
これに接続された転置ファイル(図示せず)の記憶情報を
抽出されたキーワードで更新するようになっており、こ
の転置ファイルの記憶情報とはキーワードに対応して文
書情報を一意に検出できるインデクス等で形成されてい
る。
出装置1に接続された前記転置ファイル更新手段6は、
これに接続された転置ファイル(図示せず)の記憶情報を
抽出されたキーワードで更新するようになっており、こ
の転置ファイルの記憶情報とはキーワードに対応して文
書情報を一意に検出できるインデクス等で形成されてい
る。
【0020】このような構成において、このキーワード
抽出装置1の処理作業を文書検索装置2の処理作業と共
に、図1に例示するフローチャートに基づいて以下に詳
述する。まず、この文書検索装置2のキーワード抽出装
置1に前述のような論理構造の文書情報が入力される
と、その最上位の論理要素を種別識別手段が検出して名
称を読取ることで文書タイプが識別されるので、この識
別された文書タイプに従ってキーワード抽出手段3が特
定論理要素名テーブル4から対応する論理要素を名称で
順次読出すことになる。一方、文書内容識別手段5が文
書情報から論理要素を抽出するので、キーワード抽出手
段3は、特定論理要素名テーブル4から読出した論理要
素と文書内容識別手段5が抽出した論理要素との一致を
検出し、これが検出された論理要素内の内容文字列から
キーワードを抽出することになる。
抽出装置1の処理作業を文書検索装置2の処理作業と共
に、図1に例示するフローチャートに基づいて以下に詳
述する。まず、この文書検索装置2のキーワード抽出装
置1に前述のような論理構造の文書情報が入力される
と、その最上位の論理要素を種別識別手段が検出して名
称を読取ることで文書タイプが識別されるので、この識
別された文書タイプに従ってキーワード抽出手段3が特
定論理要素名テーブル4から対応する論理要素を名称で
順次読出すことになる。一方、文書内容識別手段5が文
書情報から論理要素を抽出するので、キーワード抽出手
段3は、特定論理要素名テーブル4から読出した論理要
素と文書内容識別手段5が抽出した論理要素との一致を
検出し、これが検出された論理要素内の内容文字列から
キーワードを抽出することになる。
【0021】この時、実際には文書内容識別手段5が文
書情報から分離した全ての内容文字列から予めキーワー
ド抽出手段3が形態素解析による名詞の抽出でキーワー
ド候補を選出しておき、特定論理要素名テーブル4から
読出した論理要素の名称と名称が一致する論理要素内の
キーワード候補のみをキーワードとして選定するように
なっている。
書情報から分離した全ての内容文字列から予めキーワー
ド抽出手段3が形態素解析による名詞の抽出でキーワー
ド候補を選出しておき、特定論理要素名テーブル4から
読出した論理要素の名称と名称が一致する論理要素内の
キーワード候補のみをキーワードとして選定するように
なっている。
【0022】なお、この文書検索装置2では、上述のよ
うにしてキーワード抽出装置1が抽出したキーワードで
転置ファイル更新手段6が転置ファイルの記憶情報を更
新するようになっている。
うにしてキーワード抽出装置1が抽出したキーワードで
転置ファイル更新手段6が転置ファイルの記憶情報を更
新するようになっている。
【0023】このようにすることで、この文書検索装置
2のキーワード抽出装置1では、文書情報の種別に対応
してキーワードを抽出する部分を論理構造的に規定する
ことができるのでキーワードの抽出精度が極めて良好で
あり、このようなキーワードを抽出する文書情報として
複数の種別を設定しておくことができるので汎用性を向
上させることができる。そして、このようにして抽出し
たキーワードで転置ファイルが更新されるので、この文
書検索装置2は文書情報の検索精度が極めて良好であ
る。
2のキーワード抽出装置1では、文書情報の種別に対応
してキーワードを抽出する部分を論理構造的に規定する
ことができるのでキーワードの抽出精度が極めて良好で
あり、このようなキーワードを抽出する文書情報として
複数の種別を設定しておくことができるので汎用性を向
上させることができる。そして、このようにして抽出し
たキーワードで転置ファイルが更新されるので、この文
書検索装置2は文書情報の検索精度が極めて良好であ
る。
【0024】なお、本実施例では請求項1及び4記載の
発明の実施例として特定論理要素名テーブル4に記憶さ
れた論理要素からキーワードを抽出することで、キーワ
ードの抽出に最適な部分を規定して良好なキーワードを
抽出することを例示したが、請求項2及び5記載の発明
のように、特定論理要素名テーブル4に記憶されていな
い論理要素からキーワードを抽出することで、キーワー
ドの抽出に不適な部分を排除して不用なキーワードの抽
出を防止することも実施可能である。
発明の実施例として特定論理要素名テーブル4に記憶さ
れた論理要素からキーワードを抽出することで、キーワ
ードの抽出に最適な部分を規定して良好なキーワードを
抽出することを例示したが、請求項2及び5記載の発明
のように、特定論理要素名テーブル4に記憶されていな
い論理要素からキーワードを抽出することで、キーワー
ドの抽出に不適な部分を排除して不用なキーワードの抽
出を防止することも実施可能である。
【0025】さらに、請求項3及び6記載の発明のよう
に、キーワード抽出手段が文書情報の内容文字列から抽
出したキーワードの重要度を算定する重要度算定手段
(図示せず)を設け、要素検出手段が検出した論理要素内
の文書情報から抽出されたキーワードの重要度を更新す
る重要度更新手段(図示せず)を設けることも実施可能で
ある。この場合、重要度算定手段によるキーワードの重
要度の算定は、例えば、(そのキーワードの個数)/(抽
出された全てのキーワードの個数)などの数式で実行さ
れ、重要度更新手段による重要度の更新は予め設定され
た定数を乗算することなどで実現される。なお、このよ
うな重要度の更新は、例えば、特定論理要素名テーブル
4に記憶された論理要素から抽出されたキーワードの重
要度を増加させることで、文書情報の検索に適正なキー
ワードの重要度を向上させることや、特定論理要素名テ
ーブル4に記憶されていない論理要素から抽出されたキ
ーワードの重要度を低下させることで、文書情報の検索
に不適なキーワードの重要度を低減することが実施可能
であり、このようにすることでキーワードの重要度に基
づいて文書情報を検索する際の検索精度を向上させるこ
とができる。
に、キーワード抽出手段が文書情報の内容文字列から抽
出したキーワードの重要度を算定する重要度算定手段
(図示せず)を設け、要素検出手段が検出した論理要素内
の文書情報から抽出されたキーワードの重要度を更新す
る重要度更新手段(図示せず)を設けることも実施可能で
ある。この場合、重要度算定手段によるキーワードの重
要度の算定は、例えば、(そのキーワードの個数)/(抽
出された全てのキーワードの個数)などの数式で実行さ
れ、重要度更新手段による重要度の更新は予め設定され
た定数を乗算することなどで実現される。なお、このよ
うな重要度の更新は、例えば、特定論理要素名テーブル
4に記憶された論理要素から抽出されたキーワードの重
要度を増加させることで、文書情報の検索に適正なキー
ワードの重要度を向上させることや、特定論理要素名テ
ーブル4に記憶されていない論理要素から抽出されたキ
ーワードの重要度を低下させることで、文書情報の検索
に不適なキーワードの重要度を低減することが実施可能
であり、このようにすることでキーワードの重要度に基
づいて文書情報を検索する際の検索精度を向上させるこ
とができる。
【0026】
【発明の効果】請求項1記載の発明は、入力された文書
情報からキーワード抽出手段がキーワードを抽出するよ
うにしたキーワード抽出方法において、予め内容文字列
が複数の論理要素として区分された文書情報の種別を種
別識別手段が識別し、この識別された文書情報の種別毎
に予め要素記憶手段に記憶された論理要素と一致する論
理要素を要素検出手段が文書情報から検出し、この検出
された論理要素内の内容文字列から前記キーワード抽出
手段がキーワードを抽出するようにしたことにより、文
書情報の種別に対応して論理構造的に重要な内容文字列
からキーワードを抽出するようなことができるので、キ
ーワードの抽出精度を向上させることができ、このよう
なキーワードを抽出する文書情報として複数の種別を設
定しておくことができるので、キーワードの抽出対象と
なる文書情報の汎用性を向上させることができる等の効
果を有するものである。
情報からキーワード抽出手段がキーワードを抽出するよ
うにしたキーワード抽出方法において、予め内容文字列
が複数の論理要素として区分された文書情報の種別を種
別識別手段が識別し、この識別された文書情報の種別毎
に予め要素記憶手段に記憶された論理要素と一致する論
理要素を要素検出手段が文書情報から検出し、この検出
された論理要素内の内容文字列から前記キーワード抽出
手段がキーワードを抽出するようにしたことにより、文
書情報の種別に対応して論理構造的に重要な内容文字列
からキーワードを抽出するようなことができるので、キ
ーワードの抽出精度を向上させることができ、このよう
なキーワードを抽出する文書情報として複数の種別を設
定しておくことができるので、キーワードの抽出対象と
なる文書情報の汎用性を向上させることができる等の効
果を有するものである。
【0027】請求項2記載の発明は、入力された文書情
報からキーワード抽出手段がキーワードを抽出するよう
にしたキーワード抽出方法において、予め内容文字列が
複数の論理要素として区分された文書情報の種別を種別
識別手段が識別し、この識別された文書情報の種別毎に
予め要素記憶手段に記憶された論理要素と一致しない論
理要素を要素検出手段が文書情報から検出し、この検出
された論理要素内の内容文字列から前記キーワード抽出
手段がキーワードを抽出するようにしたことにより、文
書情報の種別に対応して論理構造的に重要でない部分以
外の内容文字列からキーワードを抽出するようなことが
できるので、キーワードの抽出精度を向上させることが
でき、このようなキーワードを抽出する文書情報として
複数の種別を設定しておくことができるので、キーワー
ドの抽出対象となる文書情報の汎用性を向上させること
ができる等の効果を有するものである。
報からキーワード抽出手段がキーワードを抽出するよう
にしたキーワード抽出方法において、予め内容文字列が
複数の論理要素として区分された文書情報の種別を種別
識別手段が識別し、この識別された文書情報の種別毎に
予め要素記憶手段に記憶された論理要素と一致しない論
理要素を要素検出手段が文書情報から検出し、この検出
された論理要素内の内容文字列から前記キーワード抽出
手段がキーワードを抽出するようにしたことにより、文
書情報の種別に対応して論理構造的に重要でない部分以
外の内容文字列からキーワードを抽出するようなことが
できるので、キーワードの抽出精度を向上させることが
でき、このようなキーワードを抽出する文書情報として
複数の種別を設定しておくことができるので、キーワー
ドの抽出対象となる文書情報の汎用性を向上させること
ができる等の効果を有するものである。
【0028】請求項3記載の発明は、キーワード抽出手
段が文書情報の内容文字列から抽出したキーワードの重
要度を重要度算定手段が算定し、要素検出手段が検出し
た論理要素内の文書情報から抽出されたキーワードの重
要度を重要度更新手段が更新するようにしたことによ
り、文書情報の論理構造的な重要度に対応してキーワー
ドの重要度を修正するようなことができるので、キーワ
ードの重要度に基づいて文書情報を検索する際の検索精
度を向上させることができる等の効果を有するものであ
る。
段が文書情報の内容文字列から抽出したキーワードの重
要度を重要度算定手段が算定し、要素検出手段が検出し
た論理要素内の文書情報から抽出されたキーワードの重
要度を重要度更新手段が更新するようにしたことによ
り、文書情報の論理構造的な重要度に対応してキーワー
ドの重要度を修正するようなことができるので、キーワ
ードの重要度に基づいて文書情報を検索する際の検索精
度を向上させることができる等の効果を有するものであ
る。
【0029】請求項4記載の発明は、入力された文書情
報の内容文字列からキーワードを抽出するキーワード抽
出手段を設けたキーワード抽出装置において、予め内容
文字列が複数の論理要素として区分された文書情報の種
別を識別する種別識別手段を設け、この種別識別手段が
識別する文書情報の種別毎に予め特定の論理要素を記憶
した要素記憶手段を設け、この要素記憶手段に記憶され
た論理要素と一致する論理要素を前記種別識別手段が識
別した文書情報から検出する要素検出手段を設け、この
要素検出手段が検出した論理要素内の内容文字列からキ
ーワードを抽出するキーワード抽出手段を設けたことに
より、文書情報の種別に対応して論理構造的に重要な内
容文字列からキーワードを抽出するようなことができる
ので、キーワードの抽出精度を向上させることができ、
このようなキーワードを抽出する文書情報として複数の
種別を設定しておくことができるので、キーワードの抽
出対象となる文書情報の汎用性を向上させることができ
る等の効果を有するものである。
報の内容文字列からキーワードを抽出するキーワード抽
出手段を設けたキーワード抽出装置において、予め内容
文字列が複数の論理要素として区分された文書情報の種
別を識別する種別識別手段を設け、この種別識別手段が
識別する文書情報の種別毎に予め特定の論理要素を記憶
した要素記憶手段を設け、この要素記憶手段に記憶され
た論理要素と一致する論理要素を前記種別識別手段が識
別した文書情報から検出する要素検出手段を設け、この
要素検出手段が検出した論理要素内の内容文字列からキ
ーワードを抽出するキーワード抽出手段を設けたことに
より、文書情報の種別に対応して論理構造的に重要な内
容文字列からキーワードを抽出するようなことができる
ので、キーワードの抽出精度を向上させることができ、
このようなキーワードを抽出する文書情報として複数の
種別を設定しておくことができるので、キーワードの抽
出対象となる文書情報の汎用性を向上させることができ
る等の効果を有するものである。
【0030】請求項5記載の発明は、入力された文書情
報の内容文字列からキーワードを抽出するキーワード抽
出手段を設けたキーワード抽出装置において、予め内容
文字列が複数の論理要素として区分された文書情報の種
別を識別する種別識別手段を設け、この種別識別手段が
識別する文書情報の種別毎に予め特定の論理要素を記憶
した要素記憶手段を設け、この要素記憶手段に記憶され
た論理要素と一致しない論理要素を前記種別識別手段が
識別した文書情報から検出する要素検出手段を設け、こ
の要素検出手段が検出した論理要素内の内容文字列から
キーワードを抽出するキーワード抽出手段を設けたこと
により、文書情報の種別に対応して論理構造的に重要で
ない部分以外の内容文字列からキーワードを抽出するよ
うなことができるので、キーワードの抽出精度を向上さ
せることができ、このようなキーワードを抽出する文書
情報として複数の種別を設定しておくことができるの
で、キーワードの抽出対象となる文書情報の汎用性を向
上させることができる等の効果を有するものである。
報の内容文字列からキーワードを抽出するキーワード抽
出手段を設けたキーワード抽出装置において、予め内容
文字列が複数の論理要素として区分された文書情報の種
別を識別する種別識別手段を設け、この種別識別手段が
識別する文書情報の種別毎に予め特定の論理要素を記憶
した要素記憶手段を設け、この要素記憶手段に記憶され
た論理要素と一致しない論理要素を前記種別識別手段が
識別した文書情報から検出する要素検出手段を設け、こ
の要素検出手段が検出した論理要素内の内容文字列から
キーワードを抽出するキーワード抽出手段を設けたこと
により、文書情報の種別に対応して論理構造的に重要で
ない部分以外の内容文字列からキーワードを抽出するよ
うなことができるので、キーワードの抽出精度を向上さ
せることができ、このようなキーワードを抽出する文書
情報として複数の種別を設定しておくことができるの
で、キーワードの抽出対象となる文書情報の汎用性を向
上させることができる等の効果を有するものである。
【0031】請求項6記載の発明は、キーワード抽出手
段が文書情報の内容文字列から抽出したキーワードの重
要度を算定する重要度算定手段を設け、要素検出手段が
検出した論理要素内の文書情報から抽出されたキーワー
ドの重要度を更新する重要度更新手段を設けたことによ
り、文書情報の論理構造的な重要度に対応してキーワー
ドの重要度を修正するようなことができるので、キーワ
ードの重要度に基づいて文書情報を検索する際の検索精
度を向上させることができる等の効果を有するものであ
る。
段が文書情報の内容文字列から抽出したキーワードの重
要度を算定する重要度算定手段を設け、要素検出手段が
検出した論理要素内の文書情報から抽出されたキーワー
ドの重要度を更新する重要度更新手段を設けたことによ
り、文書情報の論理構造的な重要度に対応してキーワー
ドの重要度を修正するようなことができるので、キーワ
ードの重要度に基づいて文書情報を検索する際の検索精
度を向上させることができる等の効果を有するものであ
る。
【図1】本発明の実施例を示すフローチャートである。
【図2】キーワード抽出装置を一部とする文書検索装置
を示すブロック図である。
を示すブロック図である。
【図3】文書情報の論理構造を示す概念説明図である。
【図4】文脈自由文法の論理構造を示す概念説明図であ
る。
る。
【図5】特定論理要素名テーブルの構造を示す概念説明
図である。
図である。
1 キーワード抽出装置 3 キーワード抽出手段かつ要素検出手段 4 要素記憶手段
Claims (6)
- 【請求項1】 入力された文書情報からキーワード抽出
手段がキーワードを抽出するようにしたキーワード抽出
方法において、予め内容文字列が複数の論理要素として
区分された文書情報の種別を種別識別手段が識別し、こ
の識別された文書情報の種別毎に予め要素記憶手段に記
憶された論理要素と一致する論理要素を要素検出手段が
文書情報から検出し、この検出された論理要素内の内容
文字列から前記キーワード抽出手段がキーワードを抽出
するようにしたことを特徴とするキーワード抽出方法。 - 【請求項2】 入力された文書情報からキーワード抽出
手段がキーワードを抽出するようにしたキーワード抽出
方法において、予め内容文字列が複数の論理要素として
区分された文書情報の種別を種別識別手段が識別し、こ
の識別された文書情報の種別毎に予め要素記憶手段に記
憶された論理要素と一致しない論理要素を要素検出手段
が文書情報から検出し、この検出された論理要素内の内
容文字列から前記キーワード抽出手段がキーワードを抽
出するようにしたことを特徴とするキーワード抽出方
法。 - 【請求項3】 キーワード抽出手段が文書情報の内容文
字列から抽出したキーワードの重要度を重要度算定手段
が算定し、要素検出手段が検出した論理要素内の文書情
報から抽出されたキーワードの重要度を重要度更新手段
が更新するようにしたことを特徴とする請求項1又は2
記載のキーワード抽出方法。 - 【請求項4】 入力された文書情報の内容文字列からキ
ーワードを抽出するキーワード抽出手段を設けたキーワ
ード抽出装置において、予め内容文字列が複数の論理要
素として区分された文書情報の種別を識別する種別識別
手段を設け、この種別識別手段が識別する文書情報の種
別毎に予め特定の論理要素を記憶した要素記憶手段を設
け、この要素記憶手段に記憶された論理要素と一致する
論理要素を前記種別識別手段が識別した文書情報から検
出する要素検出手段を設け、この要素検出手段が検出し
た論理要素内の内容文字列からキーワードを抽出するキ
ーワード抽出手段を設けたことを特徴とするキーワード
抽出装置。 - 【請求項5】 入力された文書情報の内容文字列からキ
ーワードを抽出するキーワード抽出手段を設けたキーワ
ード抽出装置において、予め内容文字列が複数の論理要
素として区分された文書情報の種別を識別する種別識別
手段を設け、この種別識別手段が識別する文書情報の種
別毎に予め特定の論理要素を記憶した要素記憶手段を設
け、この要素記憶手段に記憶された論理要素と一致しな
い論理要素を前記種別識別手段が識別した文書情報から
検出する要素検出手段を設け、この要素検出手段が検出
した論理要素内の内容文字列からキーワードを抽出する
キーワード抽出手段を設けたことを特徴とするキーワー
ド抽出装置。 - 【請求項6】 キーワード抽出手段が文書情報の内容文
字列から抽出したキーワードの重要度を算定する重要度
算定手段を設け、要素検出手段が検出した論理要素内の
文書情報から抽出されたキーワードの重要度を更新する
重要度更新手段を設けたことを特徴とする請求項4又は
5記載のキーワード抽出装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3291223A JPH05128159A (ja) | 1991-11-07 | 1991-11-07 | キーワード抽出方法及び装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3291223A JPH05128159A (ja) | 1991-11-07 | 1991-11-07 | キーワード抽出方法及び装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH05128159A true JPH05128159A (ja) | 1993-05-25 |
Family
ID=17766070
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3291223A Pending JPH05128159A (ja) | 1991-11-07 | 1991-11-07 | キーワード抽出方法及び装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH05128159A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08161341A (ja) * | 1994-12-02 | 1996-06-21 | Fujitsu Ltd | インスタンス更新方法及び装置 |
| JPH08161342A (ja) * | 1994-12-02 | 1996-06-21 | Fujitsu Ltd | データベース表示装置 |
| JPH11306198A (ja) * | 1998-04-24 | 1999-11-05 | Nec Commun Syst Ltd | 検索データベース構築方法及び検索データ構築システム並びに記録媒体 |
| JP2008192170A (ja) * | 2008-03-28 | 2008-08-21 | Nec Corp | 用語関係辞書作成システム及び用語関係辞書作成方法並びにプログラムを記録した機械読み取り可能な記録媒体 |
-
1991
- 1991-11-07 JP JP3291223A patent/JPH05128159A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08161341A (ja) * | 1994-12-02 | 1996-06-21 | Fujitsu Ltd | インスタンス更新方法及び装置 |
| JPH08161342A (ja) * | 1994-12-02 | 1996-06-21 | Fujitsu Ltd | データベース表示装置 |
| JPH11306198A (ja) * | 1998-04-24 | 1999-11-05 | Nec Commun Syst Ltd | 検索データベース構築方法及び検索データ構築システム並びに記録媒体 |
| JP2008192170A (ja) * | 2008-03-28 | 2008-08-21 | Nec Corp | 用語関係辞書作成システム及び用語関係辞書作成方法並びにプログラムを記録した機械読み取り可能な記録媒体 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2003150624A (ja) | 情報抽出装置および情報抽出方法 | |
| JP4185399B2 (ja) | 顧客データ管理装置、顧客データ管理方法および顧客データ管理用プログラムならびに顧客データ管理用プログラムを格納した記録媒体 | |
| JPH05128159A (ja) | キーワード抽出方法及び装置 | |
| JP2005107931A (ja) | 画像検索装置 | |
| JPH05324719A (ja) | 文書検索システム | |
| JP2002251402A (ja) | 文書検索方法及び文書検索装置 | |
| JPH06325091A (ja) | 類似度評価型データベース検索装置 | |
| JP3249743B2 (ja) | 文書検索システム | |
| CN112269852B (zh) | 生成舆情专题方法、系统及存储介质 | |
| JP3825829B2 (ja) | 登録情報検索装置及びその方法 | |
| JPH05250416A (ja) | データベースの登録・検索装置 | |
| JPH09245051A (ja) | 自然言語事例検索装置及び自然言語事例検索方法 | |
| JPH05158984A (ja) | 文字列抽出装置 | |
| JP3591109B2 (ja) | キーワード設定装置 | |
| JP2752864B2 (ja) | テキストベース情報検索装置 | |
| JPH05135094A (ja) | 言語解析装置 | |
| JP2996823B2 (ja) | 文字認識装置 | |
| JPH07296005A (ja) | 日本語テキスト登録・検索装置 | |
| JPH10320403A (ja) | 検索式作成方法、検索式作成装置、及び記録媒体 | |
| JPH0954781A (ja) | 文書検索システム | |
| JP2000163433A (ja) | 同意語登録管理システム | |
| JP2000029877A (ja) | 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体 | |
| JPH05189485A (ja) | キーワード検索方式 | |
| JPS60247756A (ja) | デ−タベ−ス装置 | |
| JP3657680B2 (ja) | 名標検索装置 |