JPH01112331A - キーワード重要度自動評価装置 - Google Patents
キーワード重要度自動評価装置Info
- Publication number
- JPH01112331A JPH01112331A JP62270014A JP27001487A JPH01112331A JP H01112331 A JPH01112331 A JP H01112331A JP 62270014 A JP62270014 A JP 62270014A JP 27001487 A JP27001487 A JP 27001487A JP H01112331 A JPH01112331 A JP H01112331A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- dictionary
- keywords
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、キーワード重要度自動評価装置に係り、詳し
くは、新聞記事データベース等の検索のために、個々の
記事からキーワードを自動的に抽出し、かつ、それらの
キーワードのもとの記事中における統計的、構文的、意
味的な重要度を評価し、キーワードを統合的な重要度の
順に順位付けする装置に関する。
くは、新聞記事データベース等の検索のために、個々の
記事からキーワードを自動的に抽出し、かつ、それらの
キーワードのもとの記事中における統計的、構文的、意
味的な重要度を評価し、キーワードを統合的な重要度の
順に順位付けする装置に関する。
従来、新聞記事等からキーワ等を自動的に抽出する方式
としてはフリーターム方式と統制キーワード方式が知ら
れている。
としてはフリーターム方式と統制キーワード方式が知ら
れている。
フリーターム方式では、まず対象新聞記事等の分かち書
きを、漢字、ひらがな等の字種の変わり目、あるいは、
「、」、「。」等の区切り記号に着目してキーワード抽
出を行い、さらに分かち書き用の辞書を用いて語を品詞
単位に分割する。次に、接頭語、接尾語を登録した辞書
との照合により、分かち書きされた語から接頭語、接尾
語を取り去り、さらに、複合語の分割を、最小単位の単
語を登録した語い辞書を利用して、例えば「情報検索」
を「情報」と「検索」のように分割する。
きを、漢字、ひらがな等の字種の変わり目、あるいは、
「、」、「。」等の区切り記号に着目してキーワード抽
出を行い、さらに分かち書き用の辞書を用いて語を品詞
単位に分割する。次に、接頭語、接尾語を登録した辞書
との照合により、分かち書きされた語から接頭語、接尾
語を取り去り、さらに、複合語の分割を、最小単位の単
語を登録した語い辞書を利用して、例えば「情報検索」
を「情報」と「検索」のように分割する。
次に、数字の単位語を登録した単位語辞書、並びに「昨
日」、「傾向」、「いま」のような不要語あるいはスト
ップワードなどと称するひらがな列・漢字列から成る語
であって一般的でキーワードとはならない語を登録した
不要語辞書を作成しておき、これらの辞書と分かち書き
された語との照合を行い、数字の単位語、並びにストッ
プワードを取り除き、あわせて数字も取り除いて、残っ
た語の中で名詞をキーワードとする。
日」、「傾向」、「いま」のような不要語あるいはスト
ップワードなどと称するひらがな列・漢字列から成る語
であって一般的でキーワードとはならない語を登録した
不要語辞書を作成しておき、これらの辞書と分かち書き
された語との照合を行い、数字の単位語、並びにストッ
プワードを取り除き、あわせて数字も取り除いて、残っ
た語の中で名詞をキーワードとする。
統制キーワード方式は、上記フリーターム方式の処理に
おいてキーワードとされた語について、キーワードとす
る語を登録した辞書と照合を行いキーワードを選択する
方式である。
おいてキーワードとされた語について、キーワードとす
る語を登録した辞書と照合を行いキーワードを選択する
方式である。
上記従来技術のフリーターム方式と統制キーワード方式
は、いずれもキーワード抽出だけのためのものであり、
キーワードの記事中における統計的、構文的、意味的な
重要度までも評価して出力するものではなかった。その
結果、新聞記事等に対してインデクサと呼ばれるキーワ
ード付けの専門家が付けるキーワードの数は通常5〜6
個であるのに対して、従来技術によると、20個以上も
のキーワードが付けられることになり、このため、新聞
記事データベース等をキーワード検索する際に多数の不
必要な記事がキーワード検索に適合して、精度が低く能
率が悪いとか、データベース中に不必要なキーワードの
ための記憶スペースを大量に確保しなければならないと
いう欠点を有していた。
は、いずれもキーワード抽出だけのためのものであり、
キーワードの記事中における統計的、構文的、意味的な
重要度までも評価して出力するものではなかった。その
結果、新聞記事等に対してインデクサと呼ばれるキーワ
ード付けの専門家が付けるキーワードの数は通常5〜6
個であるのに対して、従来技術によると、20個以上も
のキーワードが付けられることになり、このため、新聞
記事データベース等をキーワード検索する際に多数の不
必要な記事がキーワード検索に適合して、精度が低く能
率が悪いとか、データベース中に不必要なキーワードの
ための記憶スペースを大量に確保しなければならないと
いう欠点を有していた。
本発明の目的は、キーワード検索を高精度、高能率なも
のにするために、個々の新聞記事等からのキーワード抽
出において、該抽出されたキーワードの重要度を評価し
て重要なキーワードによる検索を可能ならしめるキーワ
ード重要度自動評価装置を提供することに有る。
のにするために、個々の新聞記事等からのキーワード抽
出において、該抽出されたキーワードの重要度を評価し
て重要なキーワードによる検索を可能ならしめるキーワ
ード重要度自動評価装置を提供することに有る。
〔問題点を解決するための手段及び作用〕本発明のキー
ワード重要度自動評価装置は、入力処理部1名詞抽出部
、接辞・数詞削除部、不要語削除部、シソーラス・重要
語辞書照合部、並立語認定部、上中位語認定部、出現位
置認定部、出現頻度認定部1語重要度評価部及び接頭語
辞書、接尾語辞書、「昨日」、「傾向」などの−船釣な
語でキーワードにはならない語を登録した不要語辞書、
キーワードになり得る語を9.録し、さらにそれらの語
の相互関係として、同義語、上位語。
ワード重要度自動評価装置は、入力処理部1名詞抽出部
、接辞・数詞削除部、不要語削除部、シソーラス・重要
語辞書照合部、並立語認定部、上中位語認定部、出現位
置認定部、出現頻度認定部1語重要度評価部及び接頭語
辞書、接尾語辞書、「昨日」、「傾向」などの−船釣な
語でキーワードにはならない語を登録した不要語辞書、
キーワードになり得る語を9.録し、さらにそれらの語
の相互関係として、同義語、上位語。
下位語、関連語といった語関係を示したシソーラス辞書
、特に重要な語であるとしてキーワードとしたい固有名
、地名等を9.録した重要語辞書などから構成される。
、特に重要な語であるとしてキーワードとしたい固有名
、地名等を9.録した重要語辞書などから構成される。
入力処理部では、磁気記憶装置等に記録されている新聞
記事データベース等から記事を読み込み、名詞抽出部で
は、読み込まれた記事中から、「は」、「が」、「を」
等の助詞の直前の漢字カタカナ列を名詞として抽出し、
それらを抽出名詞テーブルに登録する。接辞・数詞削除
部では、抽出名詞テーブルの中の個々の語に対して接頭
語辞書、接尾語辞書と照合を行って個々の語の中の接頭
語、接尾語、助数詞を削除し、かつ個々の語の中の数詞
も削除し、抽出名詞テーブルを更新する。不要語削除部
では、抽出名詞テーブルの語に対して、不要語辞書と照
合を行って照合した不要語を削除し、抽出名詞テーブル
を更新する。
記事データベース等から記事を読み込み、名詞抽出部で
は、読み込まれた記事中から、「は」、「が」、「を」
等の助詞の直前の漢字カタカナ列を名詞として抽出し、
それらを抽出名詞テーブルに登録する。接辞・数詞削除
部では、抽出名詞テーブルの中の個々の語に対して接頭
語辞書、接尾語辞書と照合を行って個々の語の中の接頭
語、接尾語、助数詞を削除し、かつ個々の語の中の数詞
も削除し、抽出名詞テーブルを更新する。不要語削除部
では、抽出名詞テーブルの語に対して、不要語辞書と照
合を行って照合した不要語を削除し、抽出名詞テーブル
を更新する。
シソーラス・重要語辞書照合部では、更新された抽出名
詞テーブル中の語に対して、シソーラス及び重要語辞書
と照合を行って照合した語をキーワード候補としてキー
ワード候補テーブルに登録する。
詞テーブル中の語に対して、シソーラス及び重要語辞書
と照合を行って照合した語をキーワード候補としてキー
ワード候補テーブルに登録する。
並立語認定部では、キーワード候補テーブルの語で、も
との記事中において「AやBJ、rAとB」、rA、B
Jのように並立に表現されている語を並立語として認定
し、上中位語認定部では、キーワード候補テーブルの語
について、シソーラスにおいて下位語が有る語を上中位
語として認定し、出現位置認定部では、キーワード候補
テーブルの語について、もとの記事中での出現位置が文
の最初から所定文字目まで\あるかを認定し、出現頻度
認定部では、キーワード候補テーブルの語について、も
との記事中で全部で何回出現しているかをカウントする
。
との記事中において「AやBJ、rAとB」、rA、B
Jのように並立に表現されている語を並立語として認定
し、上中位語認定部では、キーワード候補テーブルの語
について、シソーラスにおいて下位語が有る語を上中位
語として認定し、出現位置認定部では、キーワード候補
テーブルの語について、もとの記事中での出現位置が文
の最初から所定文字目まで\あるかを認定し、出現頻度
認定部では、キーワード候補テーブルの語について、も
との記事中で全部で何回出現しているかをカウントする
。
これらの各認定部の認定結果を語特徴認定テーブルに登
録し、語重要度評価部では、語特徴認定テーブルの結果
に基づいて、上記の各認定部において認定された語に各
認定項目ごとに固有の評価点を与えて、その後、個々の
語について評価点を合計し総合計の順に語の重要度を決
める。
録し、語重要度評価部では、語特徴認定テーブルの結果
に基づいて、上記の各認定部において認定された語に各
認定項目ごとに固有の評価点を与えて、その後、個々の
語について評価点を合計し総合計の順に語の重要度を決
める。
以下、本発明の一実施例について図面により説明する。
第1図は本発明のキーワード重要度自動評価装置の一実
施例の基本構成図である。1はキーボード、電算写植等
の入力装置である。2は入力装置1によって読み込まれ
、磁気記憶装置等に文字コードの形式で記録されている
データベースで、こ\では新聞記事データベースとする
。3は新聞記事データベース2からの読み込みを行う入
力処理部である。
施例の基本構成図である。1はキーボード、電算写植等
の入力装置である。2は入力装置1によって読み込まれ
、磁気記憶装置等に文字コードの形式で記録されている
データベースで、こ\では新聞記事データベースとする
。3は新聞記事データベース2からの読み込みを行う入
力処理部である。
4は読み込まれた新聞記事中から、「は」、「が」、「
を」等の助詞の直前に位置する漢字カタカナ列を名詞と
して抽出する名詞抽出部である。
を」等の助詞の直前に位置する漢字カタカナ列を名詞と
して抽出する名詞抽出部である。
5は名詞抽出部4で抽出された名詞が9.録される抽出
名詞テーブルである。
名詞テーブルである。
6は抽出名詞テーブル5の中の個々の語に対して接頭語
辞書7、接尾語辞書8との照合を行って個々の中の接頭
語、接尾語、助数詞を削除し、かつ個々の語の中の数詞
も削除し、抽出名詞テーブル5を更新する接辞・数詞削
除部である。7,8はそれぞれ接頭語辞書(助数詞を含
む)、接尾語辞書(助数詞も含む)である。
辞書7、接尾語辞書8との照合を行って個々の中の接頭
語、接尾語、助数詞を削除し、かつ個々の語の中の数詞
も削除し、抽出名詞テーブル5を更新する接辞・数詞削
除部である。7,8はそれぞれ接頭語辞書(助数詞を含
む)、接尾語辞書(助数詞も含む)である。
9は更新された抽出名詞テーブル5の中の個々の語に対
して、不要語辞書10と照合を行って、照合した不要語
を削除し、抽出名詞テーブル5を更新する不要語削除部
である。10は「昨日」、「傾向」などの−船釣な語で
キーワードにはならないものを登録した不要語辞書であ
る。
して、不要語辞書10と照合を行って、照合した不要語
を削除し、抽出名詞テーブル5を更新する不要語削除部
である。10は「昨日」、「傾向」などの−船釣な語で
キーワードにはならないものを登録した不要語辞書であ
る。
11は更新された抽出名詞テーブル5の中の個々の語に
対して、シソーラス辞書12並びに重要語辞書13と照
合を行うシソーラス・重要語照合部である。12はシソ
ーラス辞書で、これはキーワードになる得る語を登録し
、さらにそれらの語の相互関係として、同義語、上位語
、下位語、関連語といった語関係を示したものである。
対して、シソーラス辞書12並びに重要語辞書13と照
合を行うシソーラス・重要語照合部である。12はシソ
ーラス辞書で、これはキーワードになる得る語を登録し
、さらにそれらの語の相互関係として、同義語、上位語
、下位語、関連語といった語関係を示したものである。
13は特に重要な語であるとして、キーワードとしたい
固有名、地名等を登録した重要語辞書である。14はシ
ソーラス・重要語辞書照合部11で照合のとれた語がキ
ーワード候補語として登録されるキーワード候補テーブ
ルである。
固有名、地名等を登録した重要語辞書である。14はシ
ソーラス・重要語辞書照合部11で照合のとれた語がキ
ーワード候補語として登録されるキーワード候補テーブ
ルである。
15はキーワード候補テーブル14中の語について、も
との新聞記事中に並立に表現されているか否かを認定す
る並立語認定部である。16はキーワード候補テーブル
14中の語について、シソーラス辞書12で下位語が有
る語を上中位語として認定する上中位語認定部である。
との新聞記事中に並立に表現されているか否かを認定す
る並立語認定部である。16はキーワード候補テーブル
14中の語について、シソーラス辞書12で下位語が有
る語を上中位語として認定する上中位語認定部である。
17はキーワード候補テーブル14中の語について、も
との新聞記事中での出現位置が文の最初から所定文字目
まで\あるかを認定する出現位置認定部である。
との新聞記事中での出現位置が文の最初から所定文字目
まで\あるかを認定する出現位置認定部である。
18はキーワード候補テーブル14中の語について、も
との新聞記事中で全部で何回出現しているかをカウント
する出現頻度認定部である。19は各認定部15〜18
で認定した結果が登録される諸特徴認定テーブルである
。
との新聞記事中で全部で何回出現しているかをカウント
する出現頻度認定部である。19は各認定部15〜18
で認定した結果が登録される諸特徴認定テーブルである
。
20は諸特徴認定テーブル19に基づいて、上記の各認
定部15〜18において認定された個々の語に対して各
認定項目ごとに固有の評価点を与え、その後、個々の語
について評価点を合計して、総合計の順に語の重要度を
決める語重要度評価部である。21は語重要度評価部2
0の結果を出力する印字装置、22は同じく語重要度評
価部20の結果を登録する結果ファイルである。
定部15〜18において認定された個々の語に対して各
認定項目ごとに固有の評価点を与え、その後、個々の語
について評価点を合計して、総合計の順に語の重要度を
決める語重要度評価部である。21は語重要度評価部2
0の結果を出力する印字装置、22は同じく語重要度評
価部20の結果を登録する結果ファイルである。
まず、キーワード抽出の対象となる新聞記事がキーボー
ド、電算写植等の入力装置1から読み込まれ、磁気記憶
装置等に記録されて新聞記事データベース2となる。こ
の新聞記事データベース2からキーワード抽出対象新聞
記事が入力処理部3によって入力される。名詞抽出部4
は、この処理対象新聞記事中から、「は」、「が」、「
を」等の助詞の直前に位置する漢字カタカナ列を名詞と
して抽出し、それらが抽出名詞テーブル5に登録される
。第2図(イ)に抽出名詞テーブル5に登録された抽出
名詞の内容の一部を示す。
ド、電算写植等の入力装置1から読み込まれ、磁気記憶
装置等に記録されて新聞記事データベース2となる。こ
の新聞記事データベース2からキーワード抽出対象新聞
記事が入力処理部3によって入力される。名詞抽出部4
は、この処理対象新聞記事中から、「は」、「が」、「
を」等の助詞の直前に位置する漢字カタカナ列を名詞と
して抽出し、それらが抽出名詞テーブル5に登録される
。第2図(イ)に抽出名詞テーブル5に登録された抽出
名詞の内容の一部を示す。
次に、接辞・数詞削除部6は、抽出名詞テーブル5に登
録されている語に対して接頭語辞#(助数詞も含む)7
、接尾語辞書(助数詞も含む)8と照合を行って個々の
語の中の接頭語、接尾語。
録されている語に対して接頭語辞#(助数詞も含む)7
、接尾語辞書(助数詞も含む)8と照合を行って個々の
語の中の接頭語、接尾語。
助数詞を削除し、かつ個々の語の中の数詞も削除し、抽
出名詞テーブル5を更新する。第2図(ロ)に、この接
辞・数詞が削除された抽出名詞テーブル5の一部を示す
。次に、不要語削除部9は、更新された抽出名詞テーブ
ル5の中の個々の語に対して、不要語辞書10と照合を
行って、照合のとれた「ts査」、「昨日」、[傾向J
なとの一般的な語でキーワードにはならい不要語を削除
し、抽出名詞テーブル5を更新する。第2図(ハ)に、
この不要語が削除された抽出名詞テーブル5の一部を示
す。
出名詞テーブル5を更新する。第2図(ロ)に、この接
辞・数詞が削除された抽出名詞テーブル5の一部を示す
。次に、不要語削除部9は、更新された抽出名詞テーブ
ル5の中の個々の語に対して、不要語辞書10と照合を
行って、照合のとれた「ts査」、「昨日」、[傾向J
なとの一般的な語でキーワードにはならい不要語を削除
し、抽出名詞テーブル5を更新する。第2図(ハ)に、
この不要語が削除された抽出名詞テーブル5の一部を示
す。
次に、シソーラス・重要語辞書照合部11は、更新され
た抽出名詞テーブル5の中の個々の語に対して、シソー
ラス辞書12及び重要語辞書13と照合を行って、照合
のとれた語をキーワード候補としてキーワード候補テー
ブル14に登録する。
た抽出名詞テーブル5の中の個々の語に対して、シソー
ラス辞書12及び重要語辞書13と照合を行って、照合
のとれた語をキーワード候補としてキーワード候補テー
ブル14に登録する。
第2図(ニ)に、このようにしてキーワード候補テーブ
ル14に9.録された語の一部を示す。
ル14に9.録された語の一部を示す。
次に、並立語認定部15はキーワード候補テーブル14
中の語について、それが新聞記事データベース2のもと
の新聞記事中で、「AやB」、「AとB」、rA、BJ
のA、Bのように並立に表現されているか否かを認定し
、その結果を諸特徴認定テーブル19に登録する1次に
上中位語認定部16はキーワード候補テーブル14中の
語について、シソーラスで下位語が有る語を上中位語と
して認定してその結果を諸特徴認定テーブル19に登録
する。次に、出現位置認定部17はキーワード候補テー
ブル14中の語について、もとの新聞記事中での出現位
置が文の最初から予め定めた文字位置までNであるかを
認定して、その結果を諸特徴認定テーブル19に登録す
る。なお、実験では文の最初から80〜90文字目程度
が最適で、それより小さくても、あるいは大きくてもあ
まり意味がないことが確められた。
中の語について、それが新聞記事データベース2のもと
の新聞記事中で、「AやB」、「AとB」、rA、BJ
のA、Bのように並立に表現されているか否かを認定し
、その結果を諸特徴認定テーブル19に登録する1次に
上中位語認定部16はキーワード候補テーブル14中の
語について、シソーラスで下位語が有る語を上中位語と
して認定してその結果を諸特徴認定テーブル19に登録
する。次に、出現位置認定部17はキーワード候補テー
ブル14中の語について、もとの新聞記事中での出現位
置が文の最初から予め定めた文字位置までNであるかを
認定して、その結果を諸特徴認定テーブル19に登録す
る。なお、実験では文の最初から80〜90文字目程度
が最適で、それより小さくても、あるいは大きくてもあ
まり意味がないことが確められた。
次に、出現頻度認定部18はキーワード候補テーブル1
4中の語について、もとの新聞記事中で全部で何回出現
しているかをカウントしてその結果を諸特徴認定テーブ
ル19に登録する。
4中の語について、もとの新聞記事中で全部で何回出現
しているかをカウントしてその結果を諸特徴認定テーブ
ル19に登録する。
第3図は諸特徴認定テーブル19の内容例で。
キーワード候補テーブル14中の各語に対する上記各認
定部15〜18での認定の有無を、有の場合は[0」、
無の場合は無印で示したものである。
定部15〜18での認定の有無を、有の場合は[0」、
無の場合は無印で示したものである。
次に、語重要度評価部20は諸特徴認定テーブル19に
基づいて、上記各認定部15〜18において認定された
個々の語に対して各認定項目ごとに固有の評価点を与え
、その後、個々の語について評価点を合計して、総合計
の順し二語の重要度を決め、印字装置21へ結果を出力
し、また磁気記憶装置などの結果ファイル22に登録す
る。第4図は語の重要度評価結果の一例を示したもので
、語が評価された重要度の順に並べられている。
基づいて、上記各認定部15〜18において認定された
個々の語に対して各認定項目ごとに固有の評価点を与え
、その後、個々の語について評価点を合計して、総合計
の順し二語の重要度を決め、印字装置21へ結果を出力
し、また磁気記憶装置などの結果ファイル22に登録す
る。第4図は語の重要度評価結果の一例を示したもので
、語が評価された重要度の順に並べられている。
キーワードの重要度の総合的順位付けの精度は実験によ
って確認されていて、一般新聞紙から無作為に選んだ2
00記事を実験サンプルとして。
って確認されていて、一般新聞紙から無作為に選んだ2
00記事を実験サンプルとして。
この200記事中の必要なキーワードの95%までが、
各記事での重要度の上位10位の語群に中に含まれてい
る。従って、例えば本装置の出力結果の上位10個をキ
ーワードとすることにより、従来の技術では個々の新聞
記事に対して20個以上のキーワードが付けられていた
のに対して、入力新聞記事につけるキーワードの数を1
/2以下にでき、その結果、新聞記事データベースのキ
ーワードによる検索を高精度かつ高能率にし、またデー
タベース中のキーワードのための記憶容量も1/2以下
にできること\なる。
各記事での重要度の上位10位の語群に中に含まれてい
る。従って、例えば本装置の出力結果の上位10個をキ
ーワードとすることにより、従来の技術では個々の新聞
記事に対して20個以上のキーワードが付けられていた
のに対して、入力新聞記事につけるキーワードの数を1
/2以下にでき、その結果、新聞記事データベースのキ
ーワードによる検索を高精度かつ高能率にし、またデー
タベース中のキーワードのための記憶容量も1/2以下
にできること\なる。
以上説明したように1本発明のキーワード重要度自動評
価装置は、従来の技術に加えて、並立語認定部、上中位
認定部、出現位置認定部、出現頻度認定部、語重要度評
価部などを備え、並立語認定部ではキーワード候補語に
ついて、並立に表現されているかどうかを認定し、上中
位語認定部ではキーワード候補語について、その語がシ
ソーラスにおいて上中位語であるかどうかを認定し、出
現位置認定部では、キーワード候補語について、もとの
新聞記事中での出現位置が文の最初から所定文字位置ま
で\あるかを認定し、出現頻度認定部では、キーワード
候補語について、もとの新聞記事中で全部で何回出現し
ているかをカウントし、語重要度評価部では、上記の各
認定部において認定された個々の語に対して各認定部ご
とに固有の評価点を与え、その後、個々の語について評
価点を合計して、総合計の順に語の重要度を精度良く決
めるものである。
価装置は、従来の技術に加えて、並立語認定部、上中位
認定部、出現位置認定部、出現頻度認定部、語重要度評
価部などを備え、並立語認定部ではキーワード候補語に
ついて、並立に表現されているかどうかを認定し、上中
位語認定部ではキーワード候補語について、その語がシ
ソーラスにおいて上中位語であるかどうかを認定し、出
現位置認定部では、キーワード候補語について、もとの
新聞記事中での出現位置が文の最初から所定文字位置ま
で\あるかを認定し、出現頻度認定部では、キーワード
候補語について、もとの新聞記事中で全部で何回出現し
ているかをカウントし、語重要度評価部では、上記の各
認定部において認定された個々の語に対して各認定部ご
とに固有の評価点を与え、その後、個々の語について評
価点を合計して、総合計の順に語の重要度を精度良く決
めるものである。
このため、従来の技術では、個々の新聞記事等に対して
キーワードを抽出するだけで、しかも20個以上ものキ
ーワードが付けられていて、その中に不適切なキーワー
ドも多数含まれていて、これらのキーワードをキーワー
ド検索で使用すると多数の不適切な記事が抽出されるな
ど、検索の精度が低く、かつ非能率的であったのに対し
て1本装置はキーワードを抽出するだけでなく、抽出さ
れたキーワードを、もとの記事中での統計的、構文的、
意味的な総合的な重要度の順に出力することができるこ
とにより、例えば本装置の出力結果の上位10個をキー
ワードとすることにより、入力新聞記事等につけるキー
ワードの数を1/2以下にでき、その結果記事データベ
ースのキーワードによる検索を高精度かつ高能率にし、
またデータベース中のキーワードのための記憶容量も1
/2以下にできる利点が有る。
キーワードを抽出するだけで、しかも20個以上ものキ
ーワードが付けられていて、その中に不適切なキーワー
ドも多数含まれていて、これらのキーワードをキーワー
ド検索で使用すると多数の不適切な記事が抽出されるな
ど、検索の精度が低く、かつ非能率的であったのに対し
て1本装置はキーワードを抽出するだけでなく、抽出さ
れたキーワードを、もとの記事中での統計的、構文的、
意味的な総合的な重要度の順に出力することができるこ
とにより、例えば本装置の出力結果の上位10個をキー
ワードとすることにより、入力新聞記事等につけるキー
ワードの数を1/2以下にでき、その結果記事データベ
ースのキーワードによる検索を高精度かつ高能率にし、
またデータベース中のキーワードのための記憶容量も1
/2以下にできる利点が有る。
第1図は本発明のキーワード重要度自動評価装置の一実
施例の基本構成図、第2図は第1図の抽出名詞テーブル
の内容の遷移及びキーワード候補テーブルの内容の一例
を示す図、第3図は第1図の諸特徴認定テーブルの内容
の一例を示す図、第4図はキーワード候補テーブル中の
語の重要度評価結果の一例を示す図である。 1・・・入力装置、 2・・・新聞記事データベース、
3・・・入力処理部、 4・・・名詞抽出部、5・・・
抽出名詞テーブル、 6・・・接辞・数詞削除部、 7・・・接頭語辞書。 8・・・接尾語辞書、 9・・・不要語削除部、10・
・・不要語辞書、 11・・・シソーラス・重要語辞書照合部。 12・・・シソーラス辞書、 13・・・重要語辞書
、14・・・キーワード候補テーブル、 15・・・並立語認定部、 16・・・上中位語認定
部、17・・・出現位置認定部。 18・・・出現頻度認定部、 19・・・諸特徴認定テーブル、 20・・・語重要度評価部、 21・・・印字装置。 22・・・結果ファイル。 第2 の/滲p −7°fしつ一改
P(ハ) (ニ)−’7
”lしの、舎p
施例の基本構成図、第2図は第1図の抽出名詞テーブル
の内容の遷移及びキーワード候補テーブルの内容の一例
を示す図、第3図は第1図の諸特徴認定テーブルの内容
の一例を示す図、第4図はキーワード候補テーブル中の
語の重要度評価結果の一例を示す図である。 1・・・入力装置、 2・・・新聞記事データベース、
3・・・入力処理部、 4・・・名詞抽出部、5・・・
抽出名詞テーブル、 6・・・接辞・数詞削除部、 7・・・接頭語辞書。 8・・・接尾語辞書、 9・・・不要語削除部、10・
・・不要語辞書、 11・・・シソーラス・重要語辞書照合部。 12・・・シソーラス辞書、 13・・・重要語辞書
、14・・・キーワード候補テーブル、 15・・・並立語認定部、 16・・・上中位語認定
部、17・・・出現位置認定部。 18・・・出現頻度認定部、 19・・・諸特徴認定テーブル、 20・・・語重要度評価部、 21・・・印字装置。 22・・・結果ファイル。 第2 の/滲p −7°fしつ一改
P(ハ) (ニ)−’7
”lしの、舎p
Claims (1)
- (1)個々の新聞記事等からキーワードを自動的に抽出
し、それらのキーワードの記事中における統計的、構文
的、意味的な重要度を自動的に評価するキーワード重要
度自動評価装置において、記事データベース、抽出名詞
テーブル、キーワード候補テーブル、語特徴認定テーブ
ルと、接頭接尾語辞書、キーワードにならない一般的語
を登録した不要語辞書、同義語、上位語、下位語、関連
語等の語の相互関係を示すシソーラス辞書、特にキーワ
ードとしたい重要な語を登録した重要語辞書と、 前記記事データベースから記事を読み込む入力処理部と
、 前記読み込まれた記事中から名詞を抽出して前記抽出名
詞テーブルに登録する名詞抽出部と、前記抽出名詞テー
ブル中の個々の語に対して前記接頭接尾語辞書と照合を
行って、接頭語、接尾語、助数詞、数詞等を削除し、該
抽出名詞テーブルを更新する接辞・数詞削除部と、 前記抽出名詞テーブル中の語に対して、前記不要語辞書
と照合を行って照合した不要語を削除し、該抽出名詞テ
ーブルを更新する不要語削除部と、 前記更新された抽出名詞テーブル中の語に対して、前記
シソーラス辞書及び重要語辞書と照合を行って照合した
語をキーワード候補として前記キーワード候補テーブル
に登録するシソーラス・重要語辞書照合部と、 前記キーワード候補テーブルの各語について、前記記事
データベースのもとの記事を参照して並立語、上中位語
、出現位置、出現頻度等を認定して前記語特徴認定テー
ブルに登録する認定部と、 前記諸特徴認定テーブルの結果に基づいて、前記認定部
において認定された語に認定項目ごとの固有の評価点を
与え、その総合計の順に語の重要度を決める語重要度評
価部と、 を有することを特徴とするキーワード重要度自動評価装
置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62270014A JPH0740275B2 (ja) | 1987-10-26 | 1987-10-26 | キーワード重要度自動評価装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP62270014A JPH0740275B2 (ja) | 1987-10-26 | 1987-10-26 | キーワード重要度自動評価装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH01112331A true JPH01112331A (ja) | 1989-05-01 |
| JPH0740275B2 JPH0740275B2 (ja) | 1995-05-01 |
Family
ID=17480345
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP62270014A Expired - Fee Related JPH0740275B2 (ja) | 1987-10-26 | 1987-10-26 | キーワード重要度自動評価装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0740275B2 (ja) |
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH03135669A (ja) * | 1989-06-29 | 1991-06-10 | Tokyo Electric Power Co Inc:The | キーワード自動抽出システム |
| JPH03244080A (ja) * | 1990-02-22 | 1991-10-30 | Teremateiiku Kokusai Kenkyusho:Kk | 記事統合化処理装置 |
| JPH04133173A (ja) * | 1990-09-25 | 1992-05-07 | Teremateiiku Kokusai Kenkyusho:Kk | 情報検索装置 |
| JPH04262460A (ja) * | 1991-02-15 | 1992-09-17 | Ricoh Co Ltd | 情報検索装置 |
| JPH05120345A (ja) * | 1991-05-31 | 1993-05-18 | Teremateiiku Kokusai Kenkyusho:Kk | キーワード抽出装置 |
| JPH06251072A (ja) * | 1993-02-27 | 1994-09-09 | Omron Corp | 文書処理装置および方法 |
| JPH06314297A (ja) * | 1993-04-30 | 1994-11-08 | Omron Corp | 文書処理装置および方法,ならびにデータ・ベース検索装置および方法 |
| JPH0778182A (ja) * | 1993-06-18 | 1995-03-20 | Hitachi Ltd | キーワード付与システム |
| JPH0785101A (ja) * | 1993-09-20 | 1995-03-31 | Fujitsu F I P Kk | キーワード抽出処理装置 |
| JPH07114573A (ja) * | 1993-10-18 | 1995-05-02 | Atr Tsushin Syst Kenkyusho:Kk | 画像検索装置 |
| JPH08340519A (ja) * | 1995-06-13 | 1996-12-24 | Matsushita Electric Ind Co Ltd | 情報抽出装置及び情報抽出機能付き文字放送受信装置 |
| JPH09269951A (ja) * | 1996-04-03 | 1997-10-14 | Matsushita Electric Ind Co Ltd | 英文要約装置 |
| JP2003308324A (ja) * | 2002-04-12 | 2003-10-31 | Yomiuri Shimbun | 検索語処理装置及び文書検索装置 |
| JP2014191550A (ja) * | 2013-03-27 | 2014-10-06 | Intelligent Wave Inc | コンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法 |
| JP2016122398A (ja) * | 2014-12-25 | 2016-07-07 | 日本放送協会 | 主題語抽出装置、及びプログラム |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101254362B1 (ko) * | 2007-05-18 | 2013-04-12 | 엔에이치엔(주) | 공통 접사를 이용한 키워드 순위를 제공하는 방법 및시스템 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS57137965A (en) * | 1981-02-20 | 1982-08-25 | Nippon Kagaku Gijutsu Joho Center | Automatic key word extraction system of sentence consisting of chinese character and "kana"(japanese syllabary) |
| JPS57182279A (en) * | 1981-05-02 | 1982-11-10 | Canon Inc | Character processor |
| JPS5850071A (ja) * | 1979-12-28 | 1983-03-24 | インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション | 文書抜粋記憶 |
| JPS608981A (ja) * | 1983-06-28 | 1985-01-17 | Fujitsu Ltd | 自然言語の意味抽出装置 |
| JPS61262924A (ja) * | 1985-05-17 | 1986-11-20 | Canon Inc | 電子フアイル装置 |
-
1987
- 1987-10-26 JP JP62270014A patent/JPH0740275B2/ja not_active Expired - Fee Related
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS5850071A (ja) * | 1979-12-28 | 1983-03-24 | インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション | 文書抜粋記憶 |
| JPS57137965A (en) * | 1981-02-20 | 1982-08-25 | Nippon Kagaku Gijutsu Joho Center | Automatic key word extraction system of sentence consisting of chinese character and "kana"(japanese syllabary) |
| JPS57182279A (en) * | 1981-05-02 | 1982-11-10 | Canon Inc | Character processor |
| JPS608981A (ja) * | 1983-06-28 | 1985-01-17 | Fujitsu Ltd | 自然言語の意味抽出装置 |
| JPS61262924A (ja) * | 1985-05-17 | 1986-11-20 | Canon Inc | 電子フアイル装置 |
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH03135669A (ja) * | 1989-06-29 | 1991-06-10 | Tokyo Electric Power Co Inc:The | キーワード自動抽出システム |
| JPH03244080A (ja) * | 1990-02-22 | 1991-10-30 | Teremateiiku Kokusai Kenkyusho:Kk | 記事統合化処理装置 |
| JPH04133173A (ja) * | 1990-09-25 | 1992-05-07 | Teremateiiku Kokusai Kenkyusho:Kk | 情報検索装置 |
| JPH04262460A (ja) * | 1991-02-15 | 1992-09-17 | Ricoh Co Ltd | 情報検索装置 |
| JPH05120345A (ja) * | 1991-05-31 | 1993-05-18 | Teremateiiku Kokusai Kenkyusho:Kk | キーワード抽出装置 |
| JPH06251072A (ja) * | 1993-02-27 | 1994-09-09 | Omron Corp | 文書処理装置および方法 |
| JPH06314297A (ja) * | 1993-04-30 | 1994-11-08 | Omron Corp | 文書処理装置および方法,ならびにデータ・ベース検索装置および方法 |
| JPH0778182A (ja) * | 1993-06-18 | 1995-03-20 | Hitachi Ltd | キーワード付与システム |
| JPH0785101A (ja) * | 1993-09-20 | 1995-03-31 | Fujitsu F I P Kk | キーワード抽出処理装置 |
| JPH07114573A (ja) * | 1993-10-18 | 1995-05-02 | Atr Tsushin Syst Kenkyusho:Kk | 画像検索装置 |
| JPH08340519A (ja) * | 1995-06-13 | 1996-12-24 | Matsushita Electric Ind Co Ltd | 情報抽出装置及び情報抽出機能付き文字放送受信装置 |
| JPH09269951A (ja) * | 1996-04-03 | 1997-10-14 | Matsushita Electric Ind Co Ltd | 英文要約装置 |
| JP2003308324A (ja) * | 2002-04-12 | 2003-10-31 | Yomiuri Shimbun | 検索語処理装置及び文書検索装置 |
| JP2014191550A (ja) * | 2013-03-27 | 2014-10-06 | Intelligent Wave Inc | コンテンツ検索サーバ、コンテンツ検索装置及びコンテンツの検索方法 |
| JP2016122398A (ja) * | 2014-12-25 | 2016-07-07 | 日本放送協会 | 主題語抽出装置、及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0740275B2 (ja) | 1995-05-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH01112331A (ja) | キーワード重要度自動評価装置 | |
| Robertson et al. | Applications of n‐grams in textual information systems | |
| US5937422A (en) | Automatically generating a topic description for text and searching and sorting text by topic using the same | |
| JP2742115B2 (ja) | 類似文書検索装置 | |
| JPH09259140A (ja) | 情報検索方法、情報検索装置及び情報検索プログラムを格納する媒体 | |
| JPS6330648B2 (ja) | ||
| JP2001034623A (ja) | 情報検索方法と情報検索装置 | |
| Chen et al. | Named entity extraction for information retrieval | |
| JP2572314B2 (ja) | キーワード抽出装置 | |
| JPH01217623A (ja) | キーワード自動生成装置 | |
| JPH04205560A (ja) | 情報検索処理方式および検索ファイル作成装置 | |
| JP3544749B2 (ja) | キーワード自動抽出装置 | |
| Zahoranský et al. | Text search of surnames in some slavic and other morphologically rich languages using rule based phonetic algorithms | |
| JPS63244259A (ja) | キ−ワ−ド抽出装置 | |
| Masuyama et al. | Automatic construction of Japanese KATAKANA variant list from large corpus | |
| JPH06208588A (ja) | 文書検索方式 | |
| KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
| JPH10149370A (ja) | 文脈情報を用いた文書検索方法および装置 | |
| JPH04340164A (ja) | マルチキーワード情報検索処理方式および検索ファイル作成装置 | |
| JPS63136224A (ja) | キ−ワ−ド自動抽出装置 | |
| JPH06325091A (ja) | 類似度評価型データベース検索装置 | |
| JP2004280323A (ja) | 質問文書要約装置、質問応答検索装置、質問文書要約プログラム | |
| JPH04340165A (ja) | マルチキーワード情報検索処理方式および検索ファイル作成装置 | |
| JPH0228769A (ja) | キーワード自動生成装置 | |
| JPS63192130A (ja) | キ−ワ−ド自動抽出装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| LAPS | Cancellation because of no payment of annual fees |