JPH01112331A

JPH01112331A - キーワード重要度自動評価装置

Info

Publication number: JPH01112331A
Application number: JP62270014A
Authority: JP
Inventors: Haruo Kimoto; 木本　晴夫
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1987-10-26
Filing date: 1987-10-26
Publication date: 1989-05-01
Anticipated expiration: 2010-05-01
Also published as: JPH0740275B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、キーワード重要度自動評価装置に係り、詳し
くは、新聞記事データベース等の検索のために、個々の
記事からキーワードを自動的に抽出し、かつ、それらの
キーワードのもとの記事中における統計的、構文的、意
味的な重要度を評価し、キーワードを統合的な重要度の
順に順位付けする装置に関する。

〔従来の技術〕

従来、新聞記事等からキーワ等を自動的に抽出する方式
としてはフリーターム方式と統制キーワード方式が知ら
れている。

フリーターム方式では、まず対象新聞記事等の分かち書
きを、漢字、ひらがな等の字種の変わり目、あるいは、
「、」、「。」等の区切り記号に着目してキーワード抽
出を行い、さらに分かち書き用の辞書を用いて語を品詞
単位に分割する。次に、接頭語、接尾語を登録した辞書
との照合により、分かち書きされた語から接頭語、接尾
語を取り去り、さらに、複合語の分割を、最小単位の単
語を登録した語い辞書を利用して、例えば「情報検索」
を「情報」と「検索」のように分割する。

次に、数字の単位語を登録した単位語辞書、並びに「昨
日」、「傾向」、「いま」のような不要語あるいはスト
ップワードなどと称するひらがな列・漢字列から成る語
であって一般的でキーワードとはならない語を登録した
不要語辞書を作成しておき、これらの辞書と分かち書き
された語との照合を行い、数字の単位語、並びにストッ
プワードを取り除き、あわせて数字も取り除いて、残っ
た語の中で名詞をキーワードとする。

統制キーワード方式は、上記フリーターム方式の処理に
おいてキーワードとされた語について、キーワードとす
る語を登録した辞書と照合を行いキーワードを選択する
方式である。

〔発明が解決しようとする問題点〕

上記従来技術のフリーターム方式と統制キーワード方式
は、いずれもキーワード抽出だけのためのものであり、
キーワードの記事中における統計的、構文的、意味的な
重要度までも評価して出力するものではなかった。その
結果、新聞記事等に対してインデクサと呼ばれるキーワ
ード付けの専門家が付けるキーワードの数は通常５〜６
個であるのに対して、従来技術によると、２０個以上も
のキーワードが付けられることになり、このため、新聞
記事データベース等をキーワード検索する際に多数の不
必要な記事がキーワード検索に適合して、精度が低く能
率が悪いとか、データベース中に不必要なキーワードの
ための記憶スペースを大量に確保しなければならないと
いう欠点を有していた。

本発明の目的は、キーワード検索を高精度、高能率なも
のにするために、個々の新聞記事等からのキーワード抽
出において、該抽出されたキーワードの重要度を評価し
て重要なキーワードによる検索を可能ならしめるキーワ
ード重要度自動評価装置を提供することに有る。

〔問題点を解決するための手段及び作用〕本発明のキー
ワード重要度自動評価装置は、入力処理部１名詞抽出部
、接辞・数詞削除部、不要語削除部、シソーラス・重要
語辞書照合部、並立語認定部、上中位語認定部、出現位
置認定部、出現頻度認定部１語重要度評価部及び接頭語
辞書、接尾語辞書、「昨日」、「傾向」などの−船釣な
語でキーワードにはならない語を登録した不要語辞書、
キーワードになり得る語を９．録し、さらにそれらの語
の相互関係として、同義語、上位語。

下位語、関連語といった語関係を示したシソーラス辞書
、特に重要な語であるとしてキーワードとしたい固有名
、地名等を９．録した重要語辞書などから構成される。

入力処理部では、磁気記憶装置等に記録されている新聞
記事データベース等から記事を読み込み、名詞抽出部で
は、読み込まれた記事中から、「は」、「が」、「を」
等の助詞の直前の漢字カタカナ列を名詞として抽出し、
それらを抽出名詞テーブルに登録する。接辞・数詞削除
部では、抽出名詞テーブルの中の個々の語に対して接頭
語辞書、接尾語辞書と照合を行って個々の語の中の接頭
語、接尾語、助数詞を削除し、かつ個々の語の中の数詞
も削除し、抽出名詞テーブルを更新する。不要語削除部
では、抽出名詞テーブルの語に対して、不要語辞書と照
合を行って照合した不要語を削除し、抽出名詞テーブル
を更新する。

シソーラス・重要語辞書照合部では、更新された抽出名
詞テーブル中の語に対して、シソーラス及び重要語辞書
と照合を行って照合した語をキーワード候補としてキー
ワード候補テーブルに登録する。

並立語認定部では、キーワード候補テーブルの語で、も
との記事中において「ＡやＢＪ、ｒＡとＢ」、ｒＡ、Ｂ
Ｊのように並立に表現されている語を並立語として認定
し、上中位語認定部では、キーワード候補テーブルの語
について、シソーラスにおいて下位語が有る語を上中位
語として認定し、出現位置認定部では、キーワード候補
テーブルの語について、もとの記事中での出現位置が文
の最初から所定文字目まで＼あるかを認定し、出現頻度
認定部では、キーワード候補テーブルの語について、も
との記事中で全部で何回出現しているかをカウントする
。

これらの各認定部の認定結果を語特徴認定テーブルに登
録し、語重要度評価部では、語特徴認定テーブルの結果
に基づいて、上記の各認定部において認定された語に各
認定項目ごとに固有の評価点を与えて、その後、個々の
語について評価点を合計し総合計の順に語の重要度を決
める。

〔実施例〕

以下、本発明の一実施例について図面により説明する。

第１図は本発明のキーワード重要度自動評価装置の一実
施例の基本構成図である。１はキーボード、電算写植等
の入力装置である。２は入力装置１によって読み込まれ
、磁気記憶装置等に文字コードの形式で記録されている
データベースで、こ＼では新聞記事データベースとする
。３は新聞記事データベース２からの読み込みを行う入
力処理部である。

４は読み込まれた新聞記事中から、「は」、「が」、「
を」等の助詞の直前に位置する漢字カタカナ列を名詞と
して抽出する名詞抽出部である。

５は名詞抽出部４で抽出された名詞が９．録される抽出
名詞テーブルである。

６は抽出名詞テーブル５の中の個々の語に対して接頭語
辞書７、接尾語辞書８との照合を行って個々の中の接頭
語、接尾語、助数詞を削除し、かつ個々の語の中の数詞
も削除し、抽出名詞テーブル５を更新する接辞・数詞削
除部である。７，８はそれぞれ接頭語辞書（助数詞を含
む）、接尾語辞書（助数詞も含む）である。

９は更新された抽出名詞テーブル５の中の個々の語に対
して、不要語辞書１０と照合を行って、照合した不要語
を削除し、抽出名詞テーブル５を更新する不要語削除部
である。１０は「昨日」、「傾向」などの−船釣な語で
キーワードにはならないものを登録した不要語辞書であ
る。

１１は更新された抽出名詞テーブル５の中の個々の語に
対して、シソーラス辞書１２並びに重要語辞書１３と照
合を行うシソーラス・重要語照合部である。１２はシソ
ーラス辞書で、これはキーワードになる得る語を登録し
、さらにそれらの語の相互関係として、同義語、上位語
、下位語、関連語といった語関係を示したものである。

１３は特に重要な語であるとして、キーワードとしたい
固有名、地名等を登録した重要語辞書である。１４はシ
ソーラス・重要語辞書照合部１１で照合のとれた語がキ
ーワード候補語として登録されるキーワード候補テーブ
ルである。

１５はキーワード候補テーブル１４中の語について、も
との新聞記事中に並立に表現されているか否かを認定す
る並立語認定部である。１６はキーワード候補テーブル
１４中の語について、シソーラス辞書１２で下位語が有
る語を上中位語として認定する上中位語認定部である。

１７はキーワード候補テーブル１４中の語について、も
との新聞記事中での出現位置が文の最初から所定文字目
まで＼あるかを認定する出現位置認定部である。

１８はキーワード候補テーブル１４中の語について、も
との新聞記事中で全部で何回出現しているかをカウント
する出現頻度認定部である。１９は各認定部１５〜１８
で認定した結果が登録される諸特徴認定テーブルである
。

２０は諸特徴認定テーブル１９に基づいて、上記の各認
定部１５〜１８において認定された個々の語に対して各
認定項目ごとに固有の評価点を与え、その後、個々の語
について評価点を合計して、総合計の順に語の重要度を
決める語重要度評価部である。２１は語重要度評価部２
０の結果を出力する印字装置、２２は同じく語重要度評
価部２０の結果を登録する結果ファイルである。

まず、キーワード抽出の対象となる新聞記事がキーボー
ド、電算写植等の入力装置１から読み込まれ、磁気記憶
装置等に記録されて新聞記事データベース２となる。こ
の新聞記事データベース２からキーワード抽出対象新聞
記事が入力処理部３によって入力される。名詞抽出部４
は、この処理対象新聞記事中から、「は」、「が」、「
を」等の助詞の直前に位置する漢字カタカナ列を名詞と
して抽出し、それらが抽出名詞テーブル５に登録される
。第２図（イ）に抽出名詞テーブル５に登録された抽出
名詞の内容の一部を示す。

次に、接辞・数詞削除部６は、抽出名詞テーブル５に登
録されている語に対して接頭語辞＃（助数詞も含む）７
、接尾語辞書（助数詞も含む）８と照合を行って個々の
語の中の接頭語、接尾語。

助数詞を削除し、かつ個々の語の中の数詞も削除し、抽
出名詞テーブル５を更新する。第２図（ロ）に、この接
辞・数詞が削除された抽出名詞テーブル５の一部を示す
。次に、不要語削除部９は、更新された抽出名詞テーブ
ル５の中の個々の語に対して、不要語辞書１０と照合を
行って、照合のとれた「ｔｓ査」、「昨日」、［傾向Ｊ
なとの一般的な語でキーワードにはならい不要語を削除
し、抽出名詞テーブル５を更新する。第２図（ハ）に、
この不要語が削除された抽出名詞テーブル５の一部を示
す。

次に、シソーラス・重要語辞書照合部１１は、更新され
た抽出名詞テーブル５の中の個々の語に対して、シソー
ラス辞書１２及び重要語辞書１３と照合を行って、照合
のとれた語をキーワード候補としてキーワード候補テー
ブル１４に登録する。

第２図（ニ）に、このようにしてキーワード候補テーブ
ル１４に９．録された語の一部を示す。

次に、並立語認定部１５はキーワード候補テーブル１４
中の語について、それが新聞記事データベース２のもと
の新聞記事中で、「ＡやＢ」、「ＡとＢ」、ｒＡ、ＢＪ
のＡ、Ｂのように並立に表現されているか否かを認定し
、その結果を諸特徴認定テーブル１９に登録する１次に
上中位語認定部１６はキーワード候補テーブル１４中の
語について、シソーラスで下位語が有る語を上中位語と
して認定してその結果を諸特徴認定テーブル１９に登録
する。次に、出現位置認定部１７はキーワード候補テー
ブル１４中の語について、もとの新聞記事中での出現位
置が文の最初から予め定めた文字位置までＮであるかを
認定して、その結果を諸特徴認定テーブル１９に登録す
る。なお、実験では文の最初から８０〜９０文字目程度
が最適で、それより小さくても、あるいは大きくてもあ
まり意味がないことが確められた。

次に、出現頻度認定部１８はキーワード候補テーブル１
４中の語について、もとの新聞記事中で全部で何回出現
しているかをカウントしてその結果を諸特徴認定テーブ
ル１９に登録する。

第３図は諸特徴認定テーブル１９の内容例で。

キーワード候補テーブル１４中の各語に対する上記各認
定部１５〜１８での認定の有無を、有の場合は［０」、
無の場合は無印で示したものである。

次に、語重要度評価部２０は諸特徴認定テーブル１９に
基づいて、上記各認定部１５〜１８において認定された
個々の語に対して各認定項目ごとに固有の評価点を与え
、その後、個々の語について評価点を合計して、総合計
の順し二語の重要度を決め、印字装置２１へ結果を出力
し、また磁気記憶装置などの結果ファイル２２に登録す
る。第４図は語の重要度評価結果の一例を示したもので
、語が評価された重要度の順に並べられている。

キーワードの重要度の総合的順位付けの精度は実験によ
って確認されていて、一般新聞紙から無作為に選んだ２
００記事を実験サンプルとして。

この２００記事中の必要なキーワードの９５％までが、
各記事での重要度の上位１０位の語群に中に含まれてい
る。従って、例えば本装置の出力結果の上位１０個をキ
ーワードとすることにより、従来の技術では個々の新聞
記事に対して２０個以上のキーワードが付けられていた
のに対して、入力新聞記事につけるキーワードの数を１
／２以下にでき、その結果、新聞記事データベースのキ
ーワードによる検索を高精度かつ高能率にし、またデー
タベース中のキーワードのための記憶容量も１／２以下
にできること＼なる。

〔発明の効果〕

以上説明したように１本発明のキーワード重要度自動評
価装置は、従来の技術に加えて、並立語認定部、上中位
認定部、出現位置認定部、出現頻度認定部、語重要度評
価部などを備え、並立語認定部ではキーワード候補語に
ついて、並立に表現されているかどうかを認定し、上中
位語認定部ではキーワード候補語について、その語がシ
ソーラスにおいて上中位語であるかどうかを認定し、出
現位置認定部では、キーワード候補語について、もとの
新聞記事中での出現位置が文の最初から所定文字位置ま
で＼あるかを認定し、出現頻度認定部では、キーワード
候補語について、もとの新聞記事中で全部で何回出現し
ているかをカウントし、語重要度評価部では、上記の各
認定部において認定された個々の語に対して各認定部ご
とに固有の評価点を与え、その後、個々の語について評
価点を合計して、総合計の順に語の重要度を精度良く決
めるものである。

このため、従来の技術では、個々の新聞記事等に対して
キーワードを抽出するだけで、しかも２０個以上ものキ
ーワードが付けられていて、その中に不適切なキーワー
ドも多数含まれていて、これらのキーワードをキーワー
ド検索で使用すると多数の不適切な記事が抽出されるな
ど、検索の精度が低く、かつ非能率的であったのに対し
て１本装置はキーワードを抽出するだけでなく、抽出さ
れたキーワードを、もとの記事中での統計的、構文的、
意味的な総合的な重要度の順に出力することができるこ
とにより、例えば本装置の出力結果の上位１０個をキー
ワードとすることにより、入力新聞記事等につけるキー
ワードの数を１／２以下にでき、その結果記事データベ
ースのキーワードによる検索を高精度かつ高能率にし、
またデータベース中のキーワードのための記憶容量も１
／２以下にできる利点が有る。

【図面の簡単な説明】

第１図は本発明のキーワード重要度自動評価装置の一実
施例の基本構成図、第２図は第１図の抽出名詞テーブル
の内容の遷移及びキーワード候補テーブルの内容の一例
を示す図、第３図は第１図の諸特徴認定テーブルの内容
の一例を示す図、第４図はキーワード候補テーブル中の
語の重要度評価結果の一例を示す図である。１・・・入力装置、　２・・・新聞記事データベース、
３・・・入力処理部、　４・・・名詞抽出部、５・・・
抽出名詞テーブル、６・・・接辞・数詞削除部、　７・・・接頭語辞書。８・・・接尾語辞書、　９・・・不要語削除部、１０・
・・不要語辞書、１１・・・シソーラス・重要語辞書照合部。１２・・・シソーラス辞書、　　１３・・・重要語辞書
、１４・・・キーワード候補テーブル、１５・・・並立語認定部、　　１６・・・上中位語認定
部、１７・・・出現位置認定部。１８・・・出現頻度認定部、１９・・・諸特徴認定テーブル、２０・・・語重要度評価部、　２１・・・印字装置。２２・・・結果ファイル。第２の／滲ｐ　　　　　　　　　　　　　−７°ｆしつ一改
Ｐ（ハ）　　　　　　　　　　　　　　　（ニ）−’７
”ｌしの、舎ｐ

Claims

【特許請求の範囲】

（１）個々の新聞記事等からキーワードを自動的に抽出
し、それらのキーワードの記事中における統計的、構文
的、意味的な重要度を自動的に評価するキーワード重要
度自動評価装置において、記事データベース、抽出名詞
テーブル、キーワード候補テーブル、語特徴認定テーブ
ルと、接頭接尾語辞書、キーワードにならない一般的語
を登録した不要語辞書、同義語、上位語、下位語、関連
語等の語の相互関係を示すシソーラス辞書、特にキーワ
ードとしたい重要な語を登録した重要語辞書と、前記記事データベースから記事を読み込む入力処理部と
、前記読み込まれた記事中から名詞を抽出して前記抽出名
詞テーブルに登録する名詞抽出部と、前記抽出名詞テー
ブル中の個々の語に対して前記接頭接尾語辞書と照合を
行って、接頭語、接尾語、助数詞、数詞等を削除し、該
抽出名詞テーブルを更新する接辞・数詞削除部と、前記抽出名詞テーブル中の語に対して、前記不要語辞書
と照合を行って照合した不要語を削除し、該抽出名詞テ
ーブルを更新する不要語削除部と、前記更新された抽出名詞テーブル中の語に対して、前記
シソーラス辞書及び重要語辞書と照合を行って照合した
語をキーワード候補として前記キーワード候補テーブル
に登録するシソーラス・重要語辞書照合部と、前記キーワード候補テーブルの各語について、前記記事
データベースのもとの記事を参照して並立語、上中位語
、出現位置、出現頻度等を認定して前記語特徴認定テー
ブルに登録する認定部と、前記諸特徴認定テーブルの結果に基づいて、前記認定部
において認定された語に認定項目ごとの固有の評価点を
与え、その総合計の順に語の重要度を決める語重要度評
価部と、を有することを特徴とするキーワード重要度自動評価装
置。