JPH01217623A - キーワード自動生成装置 - Google Patents

キーワード自動生成装置

Info

Publication number
JPH01217623A
JPH01217623A JP63045162A JP4516288A JPH01217623A JP H01217623 A JPH01217623 A JP H01217623A JP 63045162 A JP63045162 A JP 63045162A JP 4516288 A JP4516288 A JP 4516288A JP H01217623 A JPH01217623 A JP H01217623A
Authority
JP
Japan
Prior art keywords
word
keyword
words
dictionary
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63045162A
Other languages
English (en)
Inventor
Masaaki Nagata
昌明 永田
Haruo Kimoto
木本 晴夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63045162A priority Critical patent/JPH01217623A/ja
Publication of JPH01217623A publication Critical patent/JPH01217623A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は文書データベース作成のため、データベース
に蓄積される文書に対して、文章の内容を適切に表現す
るキーワードを文章中から自動的に生成する装置に関す
るものである。
「従来の技術」 新聞記事、特許出願明細書、技術論文などの大量の文書
を含むデータベースを作成する場合、文書の入力の際に
検索用のキーワードを付与しなければならない、従来、
この目的のために、次のような方法が用いられていた。
(a)対象文章から抽出した語と、キーワードになり得
ない語を収集した不要語辞書とを照合し、一致しなかっ
た語をキーワードとして抽出する方法。
(b)対象文章中から抽出した語と、キーワードになり
得る語を収集したキーワード辞書とを照合し、一致した
語をキーワードとして抽出する方法。
(c)対象文章中の語の出現頻度を計算し、出現頻度が
中程度の語が文章の特徴を最もよ(表していると考え、
これをキーワードとして抽出する方法。
「発明が解決しようとする課題」 しかし、これら従来の方法にはそれぞれ次のような欠点
がある。
(a)の方法では、キーワードとするのに適切な紐取外
に、文章の内容を代表するのに適切ではない語や、余り
重要ではない内容を表現する語が、非常に大量にキーワ
ードとして抽出される。また、同じ内容を表現するのに
複数の語が用いられ、用語の統制がなされていない。
(b)の方法では、キーワードとなり得る語が文章中に
出現している場合に、この語が自動抽出される。従って
、キーワード辞書中の語ならば、文章の内容を代表する
のに適切ではない語や、余り重要でない内容を表現する
語であっても文章中に出現すればキーワードとして抽出
される。また、キーワード辞書中に文章の内容を表現す
るのに適切なキーワードが存在しても、対象文章中にこ
の語と完全に一致する語が出現しなければ、キーワード
として抽出されてない。
〔c〕の方法では、高頻度語は一般的な用語として除去
し、低頻度語は特殊な用語として除去し、中程度の出現
頻度の語を文章の特徴を表す語として抽出する。このた
め、抽出された語にはある程度の適切性と重要性が保証
されるが、キーワードとなり得ない語を抽出したり、キ
ーワードとなり得る語を除去することがある。また、用
語の統制もなされない。
この発明の目的は、従来の方法では、文章中に出現し、
かつ、不要語辞書と一致しないか、または、重要語辞書
と一致したという理由で、文章の内容を代表するのに適
切でない語や、重要ではない内容を表現する語がキーワ
ードとして抽出されるという問題点や、キーワード辞書
と完全一致する語が文章中に出現しなければ、キーワー
ド辞書中に内容を適切に表現する語があってもキーワー
ドとされることはないという問題点を解決したキーワー
ド自動生成装置を提供することにある。
「課題を解決するための手段」 この発明によればキーワードとなり得る語(これを見出
し語と呼ぶ)及びその関連語がキーワード辞書に記憶さ
れ、キーワード生成の対象となる文章中から名詞及び名
詞である可能性のある語が名詞抽出部で抽出され、その
名詞抽出部により抽出された対象文章中の語とキーワー
ド辞書に記憶された見出し語及びその関連語とが辞書照
合部で照合され、対象文章中の語がキーワード辞書中の
語と文字列として部分的または完全に一致する(これを
部分一致と呼ぶ)場合にその対象文章中の語(これを部
分一致語と呼ぶ)が検出される。
辞書照合部により検出された部分一致語に基づいて、こ
れがキーワード辞書の見出し語と部分一致している場合
にはその見出し語がキーワード候補抽出部でキーワード
候補として出力されると共に見出し語の関連語と部分一
致している場合には対応する見出し語がキーワード候補
として出力される。辞書照合部により検出された部分一
致語とこれに部分一致したキーワード辞書中の語との一
致度が2つの語の一致の種類及び−敗文字数などから一
致度計算部で計算され、辞書照合部により検出された部
分一致語の重要度が対象文章中における出現位置から重
要度計算部で計算され、辞書照合部により検出された部
分一致語とキーワード候補抽出部により抽出されたキー
ワード候補との関連度が、部分一致したキーワード辞書
中の語とキーワード候補との関係より関連度計算部で計
算される。キーワード候補抽出部により抽出された各キ
ーワード候補毎に、一致度計算部で計算された一致度、
重要度計算部で計算された重要度、及び関連度計算部で
計算された関連度を全ての部分一致語に関して集計して
、対象文章に対するキーワード候補の重要性と適切性と
がキーワード生成部で判定され、最適なものから順番に
キーワードとして生成される。
つまりこの発明は、 重要な内容を表現する語は、題名、見出し、抄録、第1
段落などの文章構成上の先頭部に使用されることが多い
という性質を利用して、文章中で語が出現した位置に応
じた重みを与えることにより、重要な内容を表す語に重
みを置いた処理ができること、 重要な内容を表現する語は、文章中で繰り返し使用され
るが、必ずしも単一の語が使用されるわけではなく、複
合語、派生語、省略語を形成することが多いという性質
を利用して、文章中の語とキーワード辞書中の見出し語
とを部分一致照合することにより、見出し語の複合語、
派生語、省略語が出現した場合にも対応できること、重
要な内容を表現する語は、同義語や関連語が使用される
ことが多いという性質を利用して、キーワード辞書中の
見出し語の関連語に関しても、部分−敗照合を行い、見
出し語との関係に応じた重みを与えることにより、見出
し語の関連語、及び、その複合語、派生語、省略語が出
現した場合にも対応できることを最も主要な特徴とする
従来の技術とは、 対象文章中の語とキーワード辞書中の語との部分一致照
合を行うので、従来の方法ではキーワード辞書中の語と
完全一致する語が文章中に出現しなければキーワードと
して抽出されなかったのに対して、この装置ではキーワ
ード辞書中の語の複合語、派生語、省略語、同義語、関
連語などが出現していればキーワードを生成できること
、キーワードを生成する手がかりとなった文章中の部分
一致語に関して、キーワード辞書中の語との一致度、出
現位置による重要度、キーワードとの関連度、部分一致
語の出現回数などを考慮するので、従来の技術では文章
の内容を代表するには不適切で重要でないキーワードが
大量に抽出されたのに対して、この装置では文章の重要
な内容を表現するキーワードを必要な数だけ生成できる
ことが異なる。
「実施例」 第1図はこの発明の基本構成例を示す。
lはキーボード、OCR(光学読取装置)等の入力装置
、2は入力装置1によって読み込まれ磁気記憶装置に文
字コードの形式で記録されている文書データベース、3
は文書データベース2から読み込みを行う入力処理部、
4は読み込まれた文章中から名詞及び名詞である可能性
のある語を抽出する名詞抽出部、5はキーワードとなり
得る語及びその同義語、上位語、下位語などの関連語を
記憶したキーワード辞書、6は名詞抽出部4で抽出され
た語とキーワード辞書5に記憶された語とを部分一致照
合する辞書照合部、7は辞書照合部6で検出された部分
一致語からキーワード候補を抽出するキーワード候補抽
出部、8は辞書照合部6で検出された部分一致語とこれ
に部分一致したキーワード辞書5中の語との一致度を計
算する一致度計算部、9は辞書照合部6で検出された部
分一致語の文章中における重要度を計算する重要度計算
部、10は辞書照合部6で検出された部分一致語とキー
ワード辞書5中の語との関連性の強さを計算する関連度
計算部、1)はキーワード候補抽出部7で抽出されたキ
ーワード候補の対象文章に対する重要性及び適切性を、
−成度計算部8で計算された一致度、重要度計算部9で
計算された重要度、関連度計算部10で計算された関連
度から計算し、最適なキーワードを必要な数だけ生成す
るキーワード生成部、12は生成されたキーワードを出
力するキーワード出力部である。
第2図はこの発明の動作例で、 13は入力処理部3により読み込まれたキーワード生成
対象文章の一部、14は名詞抽出部4により対象文章か
ら抽出された語、15は辞書照合部6により対象文章よ
り抽出された語とキーワード辞書5を部分一致照合して
検出された対象文章中の部分−数倍、16は部分−数倍
からキーワード候補抽出部7により抽出されたキーワー
ド候補、17はキーワード候補に関して、その部分−数
倍の一致度、重要度、関連度を集計してキーワード生成
部1)により生成されたキーワードである。
この実施例の動作を説明する。
まず、キーワード生成の対象となる文書がキーボード、
OCRなどの入力装置1から入力され、磁気記憶装置に
記録されて文書データベース2となる。
この文書データベース2からキーワード生成対象文章が
入力処理部3によって名詞抽出部4に入力され、ここで
対象文章から名詞及び名詞である可能性のある語が抽出
される。13はキーワード生成対象文章の一部を示し、
14は名詞抽出部4により対象文章13から抽出された
語を示す。
名詞抽出部4により抽出された語が辞書照合部6により
キーワード辞書5と照合され、部分一致する語が検出さ
れる。15は辞書照合部6により検出された部分−数倍
である。
辞書照合部6により検出された部分−数倍からキーワー
ド候補抽出部7によりキーワード候補が抽出される。こ
こでは、部分−数倍がキーワード辞書中の見出し語と部
分−敗している場合にはその見出し語がキーワード候補
とされ、部分−数倍がキーワード辞書の見出し語の関連
語と部分一致している場合には対応する見出し語がキー
ワード候補となる。16はキーワード候補抽出部7によ
り抽出されたキーワード候補である。
辞書照合部6により検出された部分−数倍とこれに部分
一致したキーワード辞書中の語との一致度が一致度計算
部8により計算される。−成度は、2つの語の文字列長
及び2つの語の共通文字列の長さ、及び、2つの語の一
致の種類(前方一致、中間一致、後方一致など)より計
算される。
記事中の語とこれに部分一致した辞書中の語の一致度は
、次式により計算される。
(語U、の文字数)(語−4の文字数)ただし、 ここで、 W、:記事中の部分一致語 圓、:キーワード辞書中の語 M(L、 Ha)  ’一致の種類による重みS(W、
、圓、):語−1と語−6の一致度辞書照合部6により
検出された部分−数倍の対象文章中における重要度が重
要度計算部8により計算される0重要度は、見出し、段
落、文番号などの文章構成単位上での部分一致語の出現
位置から計算される。
部分−数倍の重要度は、次式により計算される。
W(W、) = 2 ’−” ここで、 6 :部分−数倍 n:語−1が出現する記事中の文番号 ただし、見出しを第0文とする。
また、前文がある場合には、前文を本文の第一段落と見
なし、以降の文番号を順に付与する。
獣−1):語W、の重要度 辞書照合部6により検出された部分−数倍とキーワード
候補との関連度が関連度計算部10により計算される。
関連度は、部分−数倍が部分一致したキーワード辞書中
の語とキーワード候補との関係(見出し語、同義語、上
位語、下位語など)から計算される。
関係度は次のような定義される。
ここで、 −6:キーワード辞書中の語 −k :キーワード候補 R(讐aJb):語−4とキーワード候補−の関係度次
の動作として、キーワード生成部1)において、キーワ
ード候補抽出部7により抽出された各キーワード候補毎
に、−成度計算部8で計算した一致度、重要度計算部9
で計算した重要度、関連度計算部10で計算した関連度
が全ての部分一致語について集計され、各キーワード候
補の対象文章に対する重要性及び適切性が判定され、最
適なものから順にキーワード12が生成される。17は
キーワード生成部1)により生成されたキーワードを示
す。
キーワード候補の得点は、次式により計算される。
1(1−Σ−(W、)S(Ws、 L)i(L、 Wb
)W、、 IAa ここで −m =部分一致語 賀、:語讐、と部分一致したキーワード辞書中の語 W、  j語賀、から得られたキーワード候補t+(W
、)  :語−1の重要度 S(L、Wa)  ’語−1と語6の一致度R(Wa、
Wk)’語−4とキーワード候補−5の関係度 !(讐、I):キーワード候補−5の得点このような構
成及び動作となっているので、対象文章中に存在するキ
ーワード辞書中の語との部分一致語を手がかりとしてキ
ーワード候補を抽出し、部分一致語の文章中における重
要度、キーワード辞書中の語との一致度、キーワード候
補との関連度などから文章全体の内容を解析した上で、
キーワードを生成することができる。従って、従来の技
術に比べて、対象文章中にキーワード辞書と完全に一致
する語が出現しない場合でも、その複合語、派生語、省
略語などからキーワードを生成する能力を備え、文章の
内容を代表するのに不適切な語や余り重要でない内容を
表現する語がキーワードとして抽出されることを削減し
、対象文章に対して最も適切で重要なキーワードから順
に生成することができるという改善がある。
「発明の効果」 以上説明したように、この発明のキーワード自動抽出装
置は、対象とする文章中から抽出した語とキーワード辞
書中の語との部分−敗照合を行うことによりキーワード
候補を生成し、対象文章中の語とキーワード辞書中の語
との一致度、キーワード候補抽出の手がかりとなった対
象文章中の語の重要度、対象文章中の語とキーワード候
補との関連度から文章全体の内容を解析した上でキーワ
ードを生成するのであるから、 対象文章中にキーワード辞書と完全に一致する語が使用
されていない場合でも、その複合語、派生語、省略語な
ど部分的に一致する文字列を持つ語を手がかりとしてキ
ーワードを生成することができ、文章全体の内容を適切
に表現する語や文章中の重要な内容を表現する語をキー
ワードとして生成することができるという利点がある。
【図面の簡単な説明】
第1図はこの発明装置の基本構成例を示すブロック図、
第2図はこの発明装置の動作例を示す図である。 特許出願人:日本電信電話株式会社

Claims (1)

    【特許請求の範囲】
  1. (1)キーワードとなり得る語(これを見出し語と呼ぶ
    )及びその関連語を記憶したキーワード辞書と、 キーワード生成の対象となる文章中から名詞及び名詞で
    ある可能性のある語を抽出する名詞抽出部と、 前記名詞抽出部により抽出された対象文章中の語と前記
    キーワード辞書に記憶された見出し語及びその関連語と
    を照合し、対象文章中の語がキーワード辞書中の語と文
    字列として部分的または完全に一致する(これを部分一
    致と呼ぶ)場合に、この対象文章中の語(これを部分一
    致語と呼ぶ)を検出する辞書照合部と、 前記辞書照合部により検出された部分一致語に基づいて
    、これがキーワード辞書の見出し語と部分一致している
    場合にはその見出し語をキーワード候補とし、見出し語
    の関連語と部分一致している場合には対応する見出し語
    をキーワード候補として出力するキーワード候補抽出部
    と、 前記辞書照合部により検出された部分一致語とこれに部
    分一致したキーワード辞書中の語との一致度を2つの語
    の一致の種類及び一致文字数などから計算する一致度計
    算部と、 前記辞書照合部により検出された部分一致語の重要度を
    対象文章中における出現位置からを計算する重要度計算
    部と、 前記辞書照合部により検出された部分一致語と前記キー
    ワード候補抽出部により抽出されたキーワード候補との
    関連度を、部分一致したキーワード辞書中の語とキーワ
    ード候補との関係より計算する関連度計算部と、 前記キーワード候補抽出部により抽出された各キーワー
    ド候補毎に、前記一致度計算部で計算された一致度、前
    記重要度計算部で計算された重要度、及び、前記関連度
    計算部で計算された関連度を全ての部分一致語に関して
    集計して、対象文章に対するキーワード候補の重要性と
    適切性を判定し、最適なものから順番にキーワードとし
    て生成するキーワード生成部とを有するキーワード自動
    生成装置。
JP63045162A 1988-02-26 1988-02-26 キーワード自動生成装置 Pending JPH01217623A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63045162A JPH01217623A (ja) 1988-02-26 1988-02-26 キーワード自動生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63045162A JPH01217623A (ja) 1988-02-26 1988-02-26 キーワード自動生成装置

Publications (1)

Publication Number Publication Date
JPH01217623A true JPH01217623A (ja) 1989-08-31

Family

ID=12711568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63045162A Pending JPH01217623A (ja) 1988-02-26 1988-02-26 キーワード自動生成装置

Country Status (1)

Country Link
JP (1) JPH01217623A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03122768A (ja) * 1989-10-05 1991-05-24 Ricoh Co Ltd 索引付け支援装置
JPH0468469A (ja) * 1990-07-09 1992-03-04 Nippon Telegr & Teleph Corp <Ntt> 文書照合装置
JPH0496176A (ja) * 1990-08-08 1992-03-27 Ricoh Co Ltd 文書検索装置
JPH04133173A (ja) * 1990-09-25 1992-05-07 Teremateiiku Kokusai Kenkyusho:Kk 情報検索装置
JPH06187373A (ja) * 1992-12-16 1994-07-08 Sanyo Electric Co Ltd キーワード抽出装置
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH0895982A (ja) * 1994-09-29 1996-04-12 Ricoh Co Ltd キーワード抽出装置
JPH09269951A (ja) * 1996-04-03 1997-10-14 Matsushita Electric Ind Co Ltd 英文要約装置
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JPH11353316A (ja) * 1998-06-04 1999-12-24 Oki Electric Ind Co Ltd 省略語補完装置
JP2001052001A (ja) * 1999-08-04 2001-02-23 Fujitsu Ltd 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003308324A (ja) * 2002-04-12 2003-10-31 Yomiuri Shimbun 検索語処理装置及び文書検索装置
JP2011003024A (ja) * 2009-06-18 2011-01-06 Denso Corp 施設検索表示装置
WO2021107006A1 (ja) * 2019-11-27 2021-06-03 株式会社東芝 情報処理装置、情報処理方法及びプログラム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03122768A (ja) * 1989-10-05 1991-05-24 Ricoh Co Ltd 索引付け支援装置
JPH0468469A (ja) * 1990-07-09 1992-03-04 Nippon Telegr & Teleph Corp <Ntt> 文書照合装置
JPH0496176A (ja) * 1990-08-08 1992-03-27 Ricoh Co Ltd 文書検索装置
JPH04133173A (ja) * 1990-09-25 1992-05-07 Teremateiiku Kokusai Kenkyusho:Kk 情報検索装置
JPH06187373A (ja) * 1992-12-16 1994-07-08 Sanyo Electric Co Ltd キーワード抽出装置
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH0895982A (ja) * 1994-09-29 1996-04-12 Ricoh Co Ltd キーワード抽出装置
JPH09269951A (ja) * 1996-04-03 1997-10-14 Matsushita Electric Ind Co Ltd 英文要約装置
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JPH11353316A (ja) * 1998-06-04 1999-12-24 Oki Electric Ind Co Ltd 省略語補完装置
JP2001052001A (ja) * 1999-08-04 2001-02-23 Fujitsu Ltd 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003308324A (ja) * 2002-04-12 2003-10-31 Yomiuri Shimbun 検索語処理装置及び文書検索装置
JP2011003024A (ja) * 2009-06-18 2011-01-06 Denso Corp 施設検索表示装置
WO2021107006A1 (ja) * 2019-11-27 2021-06-03 株式会社東芝 情報処理装置、情報処理方法及びプログラム
JP2021086362A (ja) * 2019-11-27 2021-06-03 株式会社東芝 情報処理装置、情報処理方法及びプログラム
CN114746862A (zh) * 2019-11-27 2022-07-12 株式会社东芝 信息处理装置、信息处理方法以及程序
US20220270589A1 (en) * 2019-11-27 2022-08-25 Kabushiki Kaisha Toshiba Information processing device, information processing method, and computer program product

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US6115683A (en) Automatic essay scoring system using content-based techniques
Gaizauskas et al. University of Sheffield: Description of the LaSIE system as used for MUC-6
JP4576397B2 (ja) 評価情報抽出装置、評価情報抽出方法およびそのプログラム
Abdi et al. A question answering system in hadith using linguistic knowledge
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH09128396A (ja) 対訳辞書作成方法
Ulčar et al. High quality ELMo embeddings for seven less-resourced languages
JPH01217623A (ja) キーワード自動生成装置
Gogoi et al. A lemmatizer for low-resource languages: Wsd and its role in the assamese language
JP2572314B2 (ja) キーワード抽出装置
JP3594701B2 (ja) キーセンテンス抽出装置
Mohamed et al. Lexicon and rule-based word lemmatization approach for the Somali language
JP3198932B2 (ja) 文書検索装置
Smadja et al. Translating collocations for use in bilingual lexicons
Nguyen et al. An ontology-based approach for key phrase extraction
Cosijn et al. Information access in indigenous languages: a case study in Zulu
JPS5892063A (ja) イデイオム処理方式
Urata et al. An entity disambiguation approach based on wikipedia for entity linking in microblogs
Demiros et al. Named Entity Recognition in Greek Texts.
JPH0228769A (ja) キーワード自動生成装置
KR20000036487A (ko) 정보검색기술을 이용한 한영번역 데이터베이스 시스템
Murugan et al. Integration of Self-Attention Model with Intralingual Word Embedding for Contextual Semantic Analysis of Thirukkural Text
Lindén et al. Corpus-based paradigm selection for morphological entries
Seid Amharic Stemmer with Transliteration English