JPH08314947A - キーワード自動抽出装置 - Google Patents
キーワード自動抽出装置Info
- Publication number
- JPH08314947A JPH08314947A JP7145212A JP14521295A JPH08314947A JP H08314947 A JPH08314947 A JP H08314947A JP 7145212 A JP7145212 A JP 7145212A JP 14521295 A JP14521295 A JP 14521295A JP H08314947 A JPH08314947 A JP H08314947A
- Authority
- JP
- Japan
- Prior art keywords
- word
- keyword
- dictionary
- document
- keyword candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 文書の内容を的確に表すキーワードを自動抽
出できるキーワード自動抽出装置を提供する。 【構成】 文書の文字列を辞書中の単語と照合し、照合
結果に基づいて文書のキーワードを抽出するキーワード
自動抽出装置において、複数の辞書1〜nと、これらの
辞書の接続情報を表した結合式を保持する結合式格納手
段12と、この結合式に対応づけてキーワード選定の規則
を定めた抽出式を保持する抽出式格納手段16と、結合式
に基づいて複数の辞書を選択する辞書選択手段13と、文
書を辞書選択手段によって選択された辞書と照合するキ
ーワード候補語照合手段15と、照合結果を基に抽出式に
従ってキーワード候補語を抽出するキーワード候補語抽
出手段17とを設ける。辞書選択手段が結合式の規定する
順序で照合に使用する複数の辞書を選択し、キーワード
候補語照合手段が選択された辞書を用いて文書との照合
を行なう。文書の文字列がある辞書の単語に一致したと
きは、文書の続く文字列が選択された次の辞書の単語と
一致するかどうかを見る。
出できるキーワード自動抽出装置を提供する。 【構成】 文書の文字列を辞書中の単語と照合し、照合
結果に基づいて文書のキーワードを抽出するキーワード
自動抽出装置において、複数の辞書1〜nと、これらの
辞書の接続情報を表した結合式を保持する結合式格納手
段12と、この結合式に対応づけてキーワード選定の規則
を定めた抽出式を保持する抽出式格納手段16と、結合式
に基づいて複数の辞書を選択する辞書選択手段13と、文
書を辞書選択手段によって選択された辞書と照合するキ
ーワード候補語照合手段15と、照合結果を基に抽出式に
従ってキーワード候補語を抽出するキーワード候補語抽
出手段17とを設ける。辞書選択手段が結合式の規定する
順序で照合に使用する複数の辞書を選択し、キーワード
候補語照合手段が選択された辞書を用いて文書との照合
を行なう。文書の文字列がある辞書の単語に一致したと
きは、文書の続く文字列が選択された次の辞書の単語と
一致するかどうかを見る。
Description
【0001】
【産業上の利用分野】本発明は、電子化された文書デー
タから情報検索用の言葉(キーワード)を自動的に抽出
するキーワード自動抽出装置に関し、特に、的確なキー
ワードの抽出を可能にしたものである。
タから情報検索用の言葉(キーワード)を自動的に抽出
するキーワード自動抽出装置に関し、特に、的確なキー
ワードの抽出を可能にしたものである。
【0002】
【従来の技術】近年、電子メールや電子出版物など、電
子化された文書情報が大量に流通し始めたことに伴っ
て、それらの文書情報から所望の文書だけを検索する情
報検索に大きな関心が集まっている。
子化された文書情報が大量に流通し始めたことに伴っ
て、それらの文書情報から所望の文書だけを検索する情
報検索に大きな関心が集まっている。
【0003】情報検索では、従来から、文書毎に付与さ
れたキーワードを利用して目的の文書を検索するキーワ
ード検索という手法が広く用いられている。この手法で
は、蓄積文書に対して、その文書の内容を表すキーワー
ドを予め人手によって付与し、各文書とキーワードとの
対応関係を転置ファイルに収める。検索時には利用者が
所望のキーワードを入力し、このキーワードを含む文書
を転置ファイルを利用して検索する。
れたキーワードを利用して目的の文書を検索するキーワ
ード検索という手法が広く用いられている。この手法で
は、蓄積文書に対して、その文書の内容を表すキーワー
ドを予め人手によって付与し、各文書とキーワードとの
対応関係を転置ファイルに収める。検索時には利用者が
所望のキーワードを入力し、このキーワードを含む文書
を転置ファイルを利用して検索する。
【0004】このキーワード検索では、人手によって各
文書の内容を表すキーワードを付与しているため、利用
者の望む内容の文書を高い精度で検索することができる
が、しかし、キーワード付けの作業を人手に頼っていた
のでは蓄積文書の増加に間に合わない。そこで、文書か
らキーワードを自動的に抽出するキーワード自動抽出装
置が種々開発されている(例えば、木本晴夫、“キーワ
ード自動抽出装置”、特開昭63−136224な
ど)。
文書の内容を表すキーワードを付与しているため、利用
者の望む内容の文書を高い精度で検索することができる
が、しかし、キーワード付けの作業を人手に頼っていた
のでは蓄積文書の増加に間に合わない。そこで、文書か
らキーワードを自動的に抽出するキーワード自動抽出装
置が種々開発されている(例えば、木本晴夫、“キーワ
ード自動抽出装置”、特開昭63−136224な
ど)。
【0005】日本語文の文書を対象としてキーワードを
自動抽出する場合は、日本語文の単語が分かち書きされ
ていないために、まず、日本語文を単語列に分割するこ
とが行なわれ、その後、その単語列から、キーワードが
抽出される。単語列に分割する方法としては、漢字や平
仮名や片仮名のように文字の種類が変わるところで日本
語文を切り分ける方法が知られている。この方法で切り
出された文字列の中から漢字または片仮名語のみを抽出
することにより、キーワード候補語を得ることができ
る。しかし、この候補語には、キーワードとしては不必
要な語(以下「不要語」と略す)や、複数の単語が接続
した語(以下「複合語」と略す)が含まれている。そこ
で、不要語を除き、複合語をさらに分けるために次のよ
うな処理が施される。
自動抽出する場合は、日本語文の単語が分かち書きされ
ていないために、まず、日本語文を単語列に分割するこ
とが行なわれ、その後、その単語列から、キーワードが
抽出される。単語列に分割する方法としては、漢字や平
仮名や片仮名のように文字の種類が変わるところで日本
語文を切り分ける方法が知られている。この方法で切り
出された文字列の中から漢字または片仮名語のみを抽出
することにより、キーワード候補語を得ることができ
る。しかし、この候補語には、キーワードとしては不必
要な語(以下「不要語」と略す)や、複数の単語が接続
した語(以下「複合語」と略す)が含まれている。そこ
で、不要語を除き、複合語をさらに分けるために次のよ
うな処理が施される。
【0006】1つは「御〜」のような接頭語や「〜的」
のような接尾語を削除する。2つ目は「自動抽出装置」
のような複合語の場合に、名詞辞書を用いて「自動」
「抽出」「装置」に分割する。3つ目は「以下」「場
合」というような一般的な単語を不要語として辞書に登
録しておき、この辞書を用いてキーワード候補語の中か
ら不要語を削除する。
のような接尾語を削除する。2つ目は「自動抽出装置」
のような複合語の場合に、名詞辞書を用いて「自動」
「抽出」「装置」に分割する。3つ目は「以下」「場
合」というような一般的な単語を不要語として辞書に登
録しておき、この辞書を用いてキーワード候補語の中か
ら不要語を削除する。
【0007】以上の処理を行なうことにより、文書デー
タからキーワードを自動的に抽出することができる。
タからキーワードを自動的に抽出することができる。
【0008】こうした処理を行なう従来のキーワード自
動抽出装置は、図18に示すように、キーワード抽出の
対象文書を格納する文書格納部181と、文書から漢字ま
たは片仮名語の単語をキーワード候補語として抽出する
名詞抽出部182と、接頭語及び接尾語を収録した接頭語
・接尾語辞書183と、キーワード候補語から接頭語及び
接尾語を削除する接頭語・接尾語削除部184と、名詞を
収録した名詞辞書185と、複合語から成るキーワード候
補語を複数の単語に分割する複合語分割部186と、不要
語を収録した不要語辞書187と、キーワード候補語の中
から不要語辞書187に載った不要語を削除する不要語削
除部188と、各部で処理されたキーワード候補語を格納
するキーワード候補語抽出結果格納部189とを備えてい
る。
動抽出装置は、図18に示すように、キーワード抽出の
対象文書を格納する文書格納部181と、文書から漢字ま
たは片仮名語の単語をキーワード候補語として抽出する
名詞抽出部182と、接頭語及び接尾語を収録した接頭語
・接尾語辞書183と、キーワード候補語から接頭語及び
接尾語を削除する接頭語・接尾語削除部184と、名詞を
収録した名詞辞書185と、複合語から成るキーワード候
補語を複数の単語に分割する複合語分割部186と、不要
語を収録した不要語辞書187と、キーワード候補語の中
から不要語辞書187に載った不要語を削除する不要語削
除部188と、各部で処理されたキーワード候補語を格納
するキーワード候補語抽出結果格納部189とを備えてい
る。
【0009】この装置では、まず、名詞抽出部182が、
文書格納部181に格納された文書を読出し、この文書の
文字の種類が変わるところで文字列を切り出し、漢字ま
たは片仮名語のみから成る文字列をキーワード候補語と
して抽出してキーワード候補語抽出結果格納部189に格
納する。
文書格納部181に格納された文書を読出し、この文書の
文字の種類が変わるところで文字列を切り出し、漢字ま
たは片仮名語のみから成る文字列をキーワード候補語と
して抽出してキーワード候補語抽出結果格納部189に格
納する。
【0010】接頭語・接尾語削除部184は、キーワード
候補語抽出結果格納部189からキーワード候補語を読出
し、このキーワード候補語と接頭語・接尾語辞書183に
載る接頭語や接尾語とを照合する。キーワード候補語に
接頭語や接尾語が付いているときは、それらの接頭語や
接尾語をキーワード候補語から削除する処理を行ない、
処理後のキーワード候補語をキーワード候補語抽出結果
格納部189に格納する。
候補語抽出結果格納部189からキーワード候補語を読出
し、このキーワード候補語と接頭語・接尾語辞書183に
載る接頭語や接尾語とを照合する。キーワード候補語に
接頭語や接尾語が付いているときは、それらの接頭語や
接尾語をキーワード候補語から削除する処理を行ない、
処理後のキーワード候補語をキーワード候補語抽出結果
格納部189に格納する。
【0011】複合語分割部186は、キーワード候補語抽
出結果格納部189から読出したキーワード候補語を名詞
辞書185に載る名詞と照合し、キーワード候補語にそれ
らの名詞が含まれいる場合に、その名詞を切出すことに
よってキーワード候補語を複数の単語に分割し、分割し
た単語をキーワード候補語としてキーワード候補語抽出
結果格納部189に格納する。
出結果格納部189から読出したキーワード候補語を名詞
辞書185に載る名詞と照合し、キーワード候補語にそれ
らの名詞が含まれいる場合に、その名詞を切出すことに
よってキーワード候補語を複数の単語に分割し、分割し
た単語をキーワード候補語としてキーワード候補語抽出
結果格納部189に格納する。
【0012】不要部削除部188は、キーワード候補語抽
出結果格納部189から読出したキーワード候補語を不要
語辞書187に載る不要語と照合し、不要語と一致したキ
ーワード候補語を削除する。
出結果格納部189から読出したキーワード候補語を不要
語辞書187に載る不要語と照合し、不要語と一致したキ
ーワード候補語を削除する。
【0013】こうして各部の処理が行なわれたキーワー
ド候補語が、最終的にキーワードとしてキーワード候補
語抽出結果格納部189に格納される。
ド候補語が、最終的にキーワードとしてキーワード候補
語抽出結果格納部189に格納される。
【0014】
【発明が解決しようとする課題】しかし、従来のキーワ
ード自動抽出装置によるキーワード抽出では、次のよう
な問題を有している。
ード自動抽出装置によるキーワード抽出では、次のよう
な問題を有している。
【0015】(1)名詞辞書を用いて複合語を分割する
場合に、誤った分割が行なわれる虞れがある。例えば
「登山口」というキーワード候補語に対して、名詞辞書
に「登山」と「山口」とが載っていると、どちらの名詞
を優先させて分割すべきか判断できない。
場合に、誤った分割が行なわれる虞れがある。例えば
「登山口」というキーワード候補語に対して、名詞辞書
に「登山」と「山口」とが載っていると、どちらの名詞
を優先させて分割すべきか判断できない。
【0016】(2)文書では、地名等の複合語につい
て、例えば「山口県下関市中之町」という正式な地名を
「山口県中之町」というように一部を省略して記載する
ことがある。その場合、「山口県」や「中之町」はキー
ワードとして登録されるが、省略されている言葉「下関
市」はキーワードとして抽出されないため、「下関市」
によってこの文書を検索することができない。
て、例えば「山口県下関市中之町」という正式な地名を
「山口県中之町」というように一部を省略して記載する
ことがある。その場合、「山口県」や「中之町」はキー
ワードとして登録されるが、省略されている言葉「下関
市」はキーワードとして抽出されないため、「下関市」
によってこの文書を検索することができない。
【0017】(3)抽出されたキーワードの同義語や、
そのキーワードの内容を包含する上位語が存在する場合
に、それらの同義語や上位語はキーワードとして登録さ
れないため、同義語や上位語を用いた検索で検索漏れが
発生する。
そのキーワードの内容を包含する上位語が存在する場合
に、それらの同義語や上位語はキーワードとして登録さ
れないため、同義語や上位語を用いた検索で検索漏れが
発生する。
【0018】(4)従来の方法では、意味的に複数の語
に分割する必要がない単語に対しても、分割してしまう
可能性があり、本来の意味とは異なる単語が抽出される
虞れがある。例えば「朝鮮民主主義人民共和国」という
キーワード候補語に対して、名詞辞書に「民主」「主
義」「共和国」の単語があると、「朝鮮」「民主」「主
義」「人民」「共和国」に分割され、本来の意味とは異
なったものとなる。
に分割する必要がない単語に対しても、分割してしまう
可能性があり、本来の意味とは異なる単語が抽出される
虞れがある。例えば「朝鮮民主主義人民共和国」という
キーワード候補語に対して、名詞辞書に「民主」「主
義」「共和国」の単語があると、「朝鮮」「民主」「主
義」「人民」「共和国」に分割され、本来の意味とは異
なったものとなる。
【0019】(5)抽出されたキーワード候補語が省略
された語である場合には、正式名称で検索したときに検
索できない。
された語である場合には、正式名称で検索したときに検
索できない。
【0020】本発明は、こうした従来の問題点を解決す
るものであり、文書の内容を的確に表すキーワードを自
動的に抽出することができるキーワード自動抽出装置で
あって、不要なキーワード候補語の抽出や、キーワード
候補語の不要な分割を行なうことがなく、また、省略さ
れた語や同義語、上位語などをキーワード候補語として
自動的に補充することができるキーワード自動抽出装置
を提供することを目的としている。
るものであり、文書の内容を的確に表すキーワードを自
動的に抽出することができるキーワード自動抽出装置で
あって、不要なキーワード候補語の抽出や、キーワード
候補語の不要な分割を行なうことがなく、また、省略さ
れた語や同義語、上位語などをキーワード候補語として
自動的に補充することができるキーワード自動抽出装置
を提供することを目的としている。
【0021】
【課題を解決するための手段】そこで、本発明では、文
書の文字列を辞書中の単語と照合し、照合結果に基づい
て文書のキーワードを抽出するキーワード自動抽出装置
において、複数の辞書と、これらの辞書の接続情報を表
した結合式を保持する結合式格納手段と、この結合式に
対応づけてキーワード選定の規則を定めた抽出式を保持
する抽出式格納手段と、結合式に基づいて複数の辞書を
選択する辞書選択手段と、文書を辞書選択手段によって
選択された辞書と照合するキーワード候補語照合手段
と、照合結果を基に抽出式に従ってキーワード候補語を
抽出するキーワード候補語抽出手段とを設けている。
書の文字列を辞書中の単語と照合し、照合結果に基づい
て文書のキーワードを抽出するキーワード自動抽出装置
において、複数の辞書と、これらの辞書の接続情報を表
した結合式を保持する結合式格納手段と、この結合式に
対応づけてキーワード選定の規則を定めた抽出式を保持
する抽出式格納手段と、結合式に基づいて複数の辞書を
選択する辞書選択手段と、文書を辞書選択手段によって
選択された辞書と照合するキーワード候補語照合手段
と、照合結果を基に抽出式に従ってキーワード候補語を
抽出するキーワード候補語抽出手段とを設けている。
【0022】また、単語間の上下関係を規定したシソー
ラスを保持するシソーラス格納手段と、抽出されたキー
ワード候補語と一致する単語をシソーラスから検索し、
その単語の上位語、中間語または下位語をキーワード候
補語として追加するキーワード候補語追加手段とを設け
ている。
ラスを保持するシソーラス格納手段と、抽出されたキー
ワード候補語と一致する単語をシソーラスから検索し、
その単語の上位語、中間語または下位語をキーワード候
補語として追加するキーワード候補語追加手段とを設け
ている。
【0023】また、シソーラスを保持するシソーラス格
納手段と、抽出されたキーワード候補語と一致する単語
をシソーラスから検索し、その単語の上位階層に含まれ
る全ての語をキーワード候補語として追加する上位階層
語抽出手段とを設けている。また、文書との照合を優先
すべき単語を収めた優先語辞書と、文書を優先語辞書と
照合し、一致する単語をキーワード候補語として抽出す
る優先キーワード候補語抽出手段と、文書中のこの単語
を以後のキーワード抽出処理で抽出されないように変換
処理するマーク付加手段と、マーク付加手段によって処
理された文書を辞書と照合してキーワード候補語を抽出
するキーワード候補語抽出手段とを設けている。
納手段と、抽出されたキーワード候補語と一致する単語
をシソーラスから検索し、その単語の上位階層に含まれ
る全ての語をキーワード候補語として追加する上位階層
語抽出手段とを設けている。また、文書との照合を優先
すべき単語を収めた優先語辞書と、文書を優先語辞書と
照合し、一致する単語をキーワード候補語として抽出す
る優先キーワード候補語抽出手段と、文書中のこの単語
を以後のキーワード抽出処理で抽出されないように変換
処理するマーク付加手段と、マーク付加手段によって処
理された文書を辞書と照合してキーワード候補語を抽出
するキーワード候補語抽出手段とを設けている。
【0024】さらに、同義語を収めた同義語辞書と、文
書を同義語辞書と照合し、一致する単語の同義語を同義
語辞書から求めて文書に追加する同義語追加手段と、同
義語が追加された文書を辞書と照合してキーワード候補
語を抽出するキーワード候補語抽出手段と、キーワード
候補語を抽出した後の文書から先に追加した同義語を削
除する同義語削除手段とを設けている。
書を同義語辞書と照合し、一致する単語の同義語を同義
語辞書から求めて文書に追加する同義語追加手段と、同
義語が追加された文書を辞書と照合してキーワード候補
語を抽出するキーワード候補語抽出手段と、キーワード
候補語を抽出した後の文書から先に追加した同義語を削
除する同義語削除手段とを設けている。
【0025】
【作用】そのため、複数の辞書を備える装置では、辞書
選択手段が、結合式によって規定された順序で、照合に
使用する複数の辞書を選択し、キーワード候補語照合手
段が選択された辞書を用いて文書との照合を行なう。文
書の文字列がある辞書の単語に一致したときは、文書の
続く文字列が選択された次の辞書の単語と一致するかど
うかを見る。こうして文書の文字列が結合式によって規
定された一連の辞書の単語と一致したときは、抽出式に
従って、各辞書において一致した単語をそれぞれ独立に
キーワード候補語として抽出したり、各辞書において一
致した単語を結合して得られる文字列をキーワード候補
語として抽出する。
選択手段が、結合式によって規定された順序で、照合に
使用する複数の辞書を選択し、キーワード候補語照合手
段が選択された辞書を用いて文書との照合を行なう。文
書の文字列がある辞書の単語に一致したときは、文書の
続く文字列が選択された次の辞書の単語と一致するかど
うかを見る。こうして文書の文字列が結合式によって規
定された一連の辞書の単語と一致したときは、抽出式に
従って、各辞書において一致した単語をそれぞれ独立に
キーワード候補語として抽出したり、各辞書において一
致した単語を結合して得られる文字列をキーワード候補
語として抽出する。
【0026】この場合、結合式によって規定された一連
の辞書との照合に成功したときにだけキーワード候補語
が抽出されるので、単一辞書の照合でキーワードを抽出
する場合に比べて、キーワード抽出の精度が高い。ま
た、抽出式での規定により、各辞書の一致する単語を結
合させてキーワード候補語とすることができるために、
各辞書への登録語数を抑えることが可能になる。これ
は、各辞書に登録する単語数が少なくとも、これらの辞
書の組合せによって、非常に多くの照合用の文字列を作
ることができるからである。
の辞書との照合に成功したときにだけキーワード候補語
が抽出されるので、単一辞書の照合でキーワードを抽出
する場合に比べて、キーワード抽出の精度が高い。ま
た、抽出式での規定により、各辞書の一致する単語を結
合させてキーワード候補語とすることができるために、
各辞書への登録語数を抑えることが可能になる。これ
は、各辞書に登録する単語数が少なくとも、これらの辞
書の組合せによって、非常に多くの照合用の文字列を作
ることができるからである。
【0027】また、シソーラスを備えた装置では、抽出
されたキーワード候補語の上位語、下位語、中間語(抽
出されたキーワード候補語が複数ある場合にその中間の
階層にある単語)、または、その候補語より上位階層に
ある全ての単語をシソーラスから求め、キーワード候補
語に追加する。そのため、文書中で省略されている単語
であってもキーワードに加えることができ、また、多観
点からの文書の検索に応えられるキーワードを補充する
ことができる。
されたキーワード候補語の上位語、下位語、中間語(抽
出されたキーワード候補語が複数ある場合にその中間の
階層にある単語)、または、その候補語より上位階層に
ある全ての単語をシソーラスから求め、キーワード候補
語に追加する。そのため、文書中で省略されている単語
であってもキーワードに加えることができ、また、多観
点からの文書の検索に応えられるキーワードを補充する
ことができる。
【0028】また、優先語辞書を備える装置では、早い
段階で優先語として抽出された文字列はマークに変換さ
れ、その後のキーワード抽出から除外されるので、優先
語を更に分割して不要な文字列を抽出してしまう虞れが
ない。
段階で優先語として抽出された文字列はマークに変換さ
れ、その後のキーワード抽出から除外されるので、優先
語を更に分割して不要な文字列を抽出してしまう虞れが
ない。
【0029】また、同義語辞書を備える装置では、同義
語辞書に記述された同義語がキーワード抽出の対象文書
に事前に追加され、その後、辞書との照合が行なわれ
る。そのためキーワード抽出の精度は大幅に向上する。
キーワード候補語の抽出後は、文書に追加した同義語が
削除され、元の状態の文書に復元される。なお、略称に
対する正式名称を同義語として同義語辞書に記述してお
くことにより、文書中に略称しか記載されていない場合
でも、正式名称が略称と併せてキーワードに抽出され
る。
語辞書に記述された同義語がキーワード抽出の対象文書
に事前に追加され、その後、辞書との照合が行なわれ
る。そのためキーワード抽出の精度は大幅に向上する。
キーワード候補語の抽出後は、文書に追加した同義語が
削除され、元の状態の文書に復元される。なお、略称に
対する正式名称を同義語として同義語辞書に記述してお
くことにより、文書中に略称しか記載されていない場合
でも、正式名称が略称と併せてキーワードに抽出され
る。
【0030】
(第1実施例)第1実施例のキーワード自動抽出装置
は、基本的には、文書データの文字列と辞書の単語とを
照合し、辞書の単語が文書データ中に存在する場合に、
その単語をこの文書におけるキーワード候補語として抽
出する。但し、この辞書は、単一の辞書では無く、異な
る内容の単語を収めた複数の辞書から成り、文書データ
の文字列がこれらの辞書の単語を組み合わせた文字列と
一致する場合に、この文字列の中から一定のルールに従
ってキーワード候補語を抽出している。
は、基本的には、文書データの文字列と辞書の単語とを
照合し、辞書の単語が文書データ中に存在する場合に、
その単語をこの文書におけるキーワード候補語として抽
出する。但し、この辞書は、単一の辞書では無く、異な
る内容の単語を収めた複数の辞書から成り、文書データ
の文字列がこれらの辞書の単語を組み合わせた文字列と
一致する場合に、この文字列の中から一定のルールに従
ってキーワード候補語を抽出している。
【0031】この装置は、図1に示すように、キーワー
ド抽出の対象となる文書データを保存する文書格納部14
と、複数の辞書1〜nを始としてそれらの辞書の接続情
報やキーワード候補語の抽出における規則を収めた辞書
格納部11と、照合に使用する辞書を選択する辞書選択部
13と、文書データと選択された辞書とを照合するキーワ
ード候補語照合部15と、照合して一致した文字列の中か
ら規則に従ってキーワードを抽出するキーワード候補語
抽出部17と、抽出されたキーワード候補語を格納するキ
ーワード候補語抽出結果格納部18とを備えている。
ド抽出の対象となる文書データを保存する文書格納部14
と、複数の辞書1〜nを始としてそれらの辞書の接続情
報やキーワード候補語の抽出における規則を収めた辞書
格納部11と、照合に使用する辞書を選択する辞書選択部
13と、文書データと選択された辞書とを照合するキーワ
ード候補語照合部15と、照合して一致した文字列の中か
ら規則に従ってキーワードを抽出するキーワード候補語
抽出部17と、抽出されたキーワード候補語を格納するキ
ーワード候補語抽出結果格納部18とを備えている。
【0032】辞書格納部11は、例えば県名あるいは市名
というように区分された内容の単語だけをそれぞれ収録
する複数の辞書1〜nと、これらの辞書の接続情報(結
合式)が複数個記録されている結合式格納部12と、照合
で一致した文字列の中からキーワード候補語を抽出する
際のルール(抽出式)が記録された抽出式格納部16とを
具備している。
というように区分された内容の単語だけをそれぞれ収録
する複数の辞書1〜nと、これらの辞書の接続情報(結
合式)が複数個記録されている結合式格納部12と、照合
で一致した文字列の中からキーワード候補語を抽出する
際のルール(抽出式)が記録された抽出式格納部16とを
具備している。
【0033】図3は第1実施例の装置における辞書格納
部の具体例を示している。この辞書格納部31に在る複数
の辞書A〜Fの内、辞書Aと辞書Bとは人名に関する辞
書であり、辞書Aには「山口」「福島」等の姓が登録さ
れ、辞書Bには「泰夫」「敏夫」等の名が登録されてい
る。また、辞書C〜Fは地名に関する辞書であり、辞書
Cには「山口県」「福島県」等の県名が登録され、辞書
Dには「下関市」「岩国市」等の市名が登録され、辞書
Eには「双葉郡」「大沼郡」等の郡名が登録され、ま
た、辞書Fには「中之町」「美東町」等の町名が登録さ
れている。
部の具体例を示している。この辞書格納部31に在る複数
の辞書A〜Fの内、辞書Aと辞書Bとは人名に関する辞
書であり、辞書Aには「山口」「福島」等の姓が登録さ
れ、辞書Bには「泰夫」「敏夫」等の名が登録されてい
る。また、辞書C〜Fは地名に関する辞書であり、辞書
Cには「山口県」「福島県」等の県名が登録され、辞書
Dには「下関市」「岩国市」等の市名が登録され、辞書
Eには「双葉郡」「大沼郡」等の郡名が登録され、ま
た、辞書Fには「中之町」「美東町」等の町名が登録さ
れている。
【0034】結合式格納部に記録される結合式32は、辞
書の結合関係を示すもので、例えば「A→B」は辞書A
を最初に照合して成功したときは次に辞書Bを照合する
ことを表している。辞書格納部31の各辞書間の矢印もこ
の結合式に従って書かれている。また、抽出式格納部に
格納される抽出式33は、結合式32で表された照合が最後
まで成功した場合にキーワード候補語をどのように作成
するかを示すもので、例えば「A+B」はAとBとのキ
ーワードを結合してキーワード候補語とすることを示
し、また、「C,D」はCとDとを別々にキーワードと
して登録することを示している。結合式とキーワード抽
出式とは1対1の対応を取る。
書の結合関係を示すもので、例えば「A→B」は辞書A
を最初に照合して成功したときは次に辞書Bを照合する
ことを表している。辞書格納部31の各辞書間の矢印もこ
の結合式に従って書かれている。また、抽出式格納部に
格納される抽出式33は、結合式32で表された照合が最後
まで成功した場合にキーワード候補語をどのように作成
するかを示すもので、例えば「A+B」はAとBとのキ
ーワードを結合してキーワード候補語とすることを示
し、また、「C,D」はCとDとを別々にキーワードと
して登録することを示している。結合式とキーワード抽
出式とは1対1の対応を取る。
【0035】実際の照合文字列34が「山口敏夫さんが」
の場合では、「辞書A」の「山口」と「辞書B」の「敏
夫」との照合に連続して成功し、結合式「A→B」を満
足するので、キーワード候補語としては、抽出式「A+
B」に従って、「山口敏夫」が抽出される。また「山口
県下関市中之町で行なわれた」という文字列に対して
は、「辞書C」の「山口県」と「辞書D」の「下関市」
と「辞書F」の「中之町」との照合に連続して成功し、
結合式「C→D→F」を満足するので、キーワード候補
語としては、抽出式「C,D」に従って、「山口県」と
「下関市」の2つが抽出される。また「富士山の登山口
からは」という文字列に対しては「山口」という単語が
「辞書A」と一致するが、次の文字列が「辞書B」とは
一致しないので、「山口」という単語はキーワード候補
語としては抽出されない。
の場合では、「辞書A」の「山口」と「辞書B」の「敏
夫」との照合に連続して成功し、結合式「A→B」を満
足するので、キーワード候補語としては、抽出式「A+
B」に従って、「山口敏夫」が抽出される。また「山口
県下関市中之町で行なわれた」という文字列に対して
は、「辞書C」の「山口県」と「辞書D」の「下関市」
と「辞書F」の「中之町」との照合に連続して成功し、
結合式「C→D→F」を満足するので、キーワード候補
語としては、抽出式「C,D」に従って、「山口県」と
「下関市」の2つが抽出される。また「富士山の登山口
からは」という文字列に対しては「山口」という単語が
「辞書A」と一致するが、次の文字列が「辞書B」とは
一致しないので、「山口」という単語はキーワード候補
語としては抽出されない。
【0036】こうした動作を行なうキーワード自動抽出
装置の動作手順を、図2のフローチャートを用いて説明
する。
装置の動作手順を、図2のフローチャートを用いて説明
する。
【0037】ステップ21:まず、辞書選択部13は、複数
の辞書の結合順序を記述した結合式を結合式格納部12か
ら読み出し、 ステップ22:この結合式が示している、最初に照合を行
なう辞書を辞書格納部11から選択する。
の辞書の結合順序を記述した結合式を結合式格納部12か
ら読み出し、 ステップ22:この結合式が示している、最初に照合を行
なう辞書を辞書格納部11から選択する。
【0038】ステップ23:キーワード候補語照合部15
は、文書格納部14に格納された文書の一部を読み出し、 ステップ24:この文書の読み出した部分と辞書選択部13
の選択した辞書とを照合する。照合に成功しなかったと
きは、ステップ23に戻り、文書の次の部分を読み出し
て、この辞書との照合を繰り返す。
は、文書格納部14に格納された文書の一部を読み出し、 ステップ24:この文書の読み出した部分と辞書選択部13
の選択した辞書とを照合する。照合に成功しなかったと
きは、ステップ23に戻り、文書の次の部分を読み出し
て、この辞書との照合を繰り返す。
【0039】ステップ26:ステップ25において照合に成
功したとき、つまり、この文書の読み出した文字列が辞
書の単語と一致したときは、結合式の示す次の辞書との
照合を行なうため、 ステップ27:辞書選択部13は、結合式に指定された次の
辞書を辞書格納部11から選択し、 ステップ23:キーワード候補語照合部15は、文書の次の
文字列を文書格納部14から読み出し、 ステップ24:この文字列と選択した辞書との照合を行な
う。
功したとき、つまり、この文書の読み出した文字列が辞
書の単語と一致したときは、結合式の示す次の辞書との
照合を行なうため、 ステップ27:辞書選択部13は、結合式に指定された次の
辞書を辞書格納部11から選択し、 ステップ23:キーワード候補語照合部15は、文書の次の
文字列を文書格納部14から読み出し、 ステップ24:この文字列と選択した辞書との照合を行な
う。
【0040】この手順を繰り返して、 ステップ26:結合式の指定する最後の辞書まで照合に成
功したときは、 ステップ28:キーワード候補語抽出部17が、抽出式格納
部16から、照合に成功した結合式に対応する抽出式を読
み出し、この抽出式の指定する規則に従って、照合に成
功した文字列を基にキーワード候補語を抽出し、 ステップ29:抽出したキーワード候補語をキーワード候
補語抽出結果格納部18に格納する。
功したときは、 ステップ28:キーワード候補語抽出部17が、抽出式格納
部16から、照合に成功した結合式に対応する抽出式を読
み出し、この抽出式の指定する規則に従って、照合に成
功した文字列を基にキーワード候補語を抽出し、 ステップ29:抽出したキーワード候補語をキーワード候
補語抽出結果格納部18に格納する。
【0041】なお、辞書格納部11に置く複数の辞書は、
上位下位の概念辞書であるシソーラスであってもよい。
また、結合式によって関係を規定する辞書の数は、2つ
以上であれば何個でもよく、上限についての制限は特に
ない。更に、抽出式としては「A+B,A,B」という
ように、重複してキーワード候補語を抽出することも可
能である。
上位下位の概念辞書であるシソーラスであってもよい。
また、結合式によって関係を規定する辞書の数は、2つ
以上であれば何個でもよく、上限についての制限は特に
ない。更に、抽出式としては「A+B,A,B」という
ように、重複してキーワード候補語を抽出することも可
能である。
【0042】このように、第1実施例のキーワード自動
抽出装置では、基本的に、文書データの中から辞書と同
じ単語を見出し、その単語をキーワードとして抽出する
方式であるため、不要なキーワードを抽出する虞れがな
い。
抽出装置では、基本的に、文書データの中から辞書と同
じ単語を見出し、その単語をキーワードとして抽出する
方式であるため、不要なキーワードを抽出する虞れがな
い。
【0043】また、複数の辞書の結合関係を結合式によ
って規定する構成であるため、辞書に収録する単語の数
が少なくても、照合に使用する文字列は多数作り出すこ
とができる。例えば、人の姓名を照合するための辞書を
持つ場合に、「姓」と「名」とを結合した複合語を辞書
に登録するとなると、登録数が膨大になり、実際上、照
合に供しえる辞書を作成することが不可能であり、その
ため、「姓」と「名」との結合した複合語をキーワード
として抽出することができない。しかし、第1実施例の
装置のように「姓」の辞書と、「名」の辞書とを設け、
それらを組合せる構成の場合には、各辞書の登録数をそ
れ程多くする必要がないので、実現が容易であり、その
結果、「姓」と「名」との結合した複合語をキーワード
として抽出することが可能になる。
って規定する構成であるため、辞書に収録する単語の数
が少なくても、照合に使用する文字列は多数作り出すこ
とができる。例えば、人の姓名を照合するための辞書を
持つ場合に、「姓」と「名」とを結合した複合語を辞書
に登録するとなると、登録数が膨大になり、実際上、照
合に供しえる辞書を作成することが不可能であり、その
ため、「姓」と「名」との結合した複合語をキーワード
として抽出することができない。しかし、第1実施例の
装置のように「姓」の辞書と、「名」の辞書とを設け、
それらを組合せる構成の場合には、各辞書の登録数をそ
れ程多くする必要がないので、実現が容易であり、その
結果、「姓」と「名」との結合した複合語をキーワード
として抽出することが可能になる。
【0044】また、この装置では、辞書との照合が成功
したとき、照合で一致した文字列の中から、辞書の組合
せに応じて定めた抽出式に従ってキーワード候補語を抽
出している。この抽出式は、辞書の内容に応じて、相応
しい形態のキーワードを取り出し得るように設定するこ
とができるため、文書に適したキーワードの抽出が可能
となる。
したとき、照合で一致した文字列の中から、辞書の組合
せに応じて定めた抽出式に従ってキーワード候補語を抽
出している。この抽出式は、辞書の内容に応じて、相応
しい形態のキーワードを取り出し得るように設定するこ
とができるため、文書に適したキーワードの抽出が可能
となる。
【0045】(第2実施例)第2実施例のキーワード自
動抽出装置は、文書中に現れていない単語を補ってキー
ワードとして登録することができる。
動抽出装置は、文書中に現れていない単語を補ってキー
ワードとして登録することができる。
【0046】この装置は、図4に示すように、キーワー
ド候補語間の上位下位の関係が規定されたシソーラスを
保持するシソーラス格納部48と、抽出されたキーワード
候補語の上位語、下位語または中間語(抽出されたキー
ワード候補語が複数ある場合にその中間の単語)をシソ
ーラスから求めてキーワード候補語に追加するキーワー
ド候補語追加部49とを備えている。その他の構成は、第
1実施例の装置(図1)と変わりがない。
ド候補語間の上位下位の関係が規定されたシソーラスを
保持するシソーラス格納部48と、抽出されたキーワード
候補語の上位語、下位語または中間語(抽出されたキー
ワード候補語が複数ある場合にその中間の単語)をシソ
ーラスから求めてキーワード候補語に追加するキーワー
ド候補語追加部49とを備えている。その他の構成は、第
1実施例の装置(図1)と変わりがない。
【0047】シソーラス格納部には、図6の61に例示す
るように、「山口県」の下位語が「下関市」と「岩国
市」であり、「下関市」の下位語が「中之町」と「竹崎
町」であり、「岩国市」の下位語が「装束町」と「尾津
町」であるというように、各単語間の上下関係を規定す
るシソーラスが格納されている。
るように、「山口県」の下位語が「下関市」と「岩国
市」であり、「下関市」の下位語が「中之町」と「竹崎
町」であり、「岩国市」の下位語が「装束町」と「尾津
町」であるというように、各単語間の上下関係を規定す
るシソーラスが格納されている。
【0048】対象文字列62が「山口県中之町で行なわれ
た」であり、この文字列に対するキーワード抽出の結
果、キーワード候補語として「山口県」と「中之町」と
が抽出されたとする。キーワード候補語追加部49は、こ
の「山口県」と「中之町」とをシソーラス61と照合し、
一致する「山口県」と「中之町」との間に、中間語「下
関市」があることを見出し、この中間語の「下関市」を
キーワード候補語として追加登録する。
た」であり、この文字列に対するキーワード抽出の結
果、キーワード候補語として「山口県」と「中之町」と
が抽出されたとする。キーワード候補語追加部49は、こ
の「山口県」と「中之町」とをシソーラス61と照合し、
一致する「山口県」と「中之町」との間に、中間語「下
関市」があることを見出し、この中間語の「下関市」を
キーワード候補語として追加登録する。
【0049】この装置の動作手順を図5のフローチャー
トを用いて説明する。
トを用いて説明する。
【0050】ステップ51:まず、キーワード候補語照合
部45が、結合式格納部42の結合式に従って、辞書格納部
41の辞書と文書格納部44に格納された文書とのキーワー
ド照合を行ない、キーワード候補語抽出部47が、抽出式
格納部46の抽出式に従ってキーワード候補語を抽出し、 ステップ52:キーワード候補語抽出結果格納部50に格納
する。ここまでの動作は第1実施例の場合と同じであ
る。
部45が、結合式格納部42の結合式に従って、辞書格納部
41の辞書と文書格納部44に格納された文書とのキーワー
ド照合を行ない、キーワード候補語抽出部47が、抽出式
格納部46の抽出式に従ってキーワード候補語を抽出し、 ステップ52:キーワード候補語抽出結果格納部50に格納
する。ここまでの動作は第1実施例の場合と同じであ
る。
【0051】ステップ53:キーワード候補語追加部49
は、キーワード候補語をキーワード候補語抽出結果格納
部50から読出し、そのキーワード候補語とシソーラス格
納部48に格納されたシソーラスとを照合して、キーワー
ド候補語がシソーラスに含まれているかどうかを調べ
る。
は、キーワード候補語をキーワード候補語抽出結果格納
部50から読出し、そのキーワード候補語とシソーラス格
納部48に格納されたシソーラスとを照合して、キーワー
ド候補語がシソーラスに含まれているかどうかを調べ
る。
【0052】ステップ54:キーワード候補語がシソーラ
スに含まれているときは、 ステップ55:そのシソーラスに、キーワード候補語の上
位語または下位語、さらに複数のキーワード候補語が抽
出されたときは、その中間語が規定されているかどうか
を判定し、 ステップ56:規定されている場合には、上位語、中間語
または下位語をキーワード候補語としてキーワード候補
語抽出結果格納部50に格納する。
スに含まれているときは、 ステップ55:そのシソーラスに、キーワード候補語の上
位語または下位語、さらに複数のキーワード候補語が抽
出されたときは、その中間語が規定されているかどうか
を判定し、 ステップ56:規定されている場合には、上位語、中間語
または下位語をキーワード候補語としてキーワード候補
語抽出結果格納部50に格納する。
【0053】抽出されたキーワード候補語がシソーラス
に含まれていないとき(ステップ54でNoのとき)、ま
たは抽出されたキーワード候補語の上位語、中間語また
は下位語がシソーラスに規定されていないとき(ステッ
プ55でNoのとき)は、そのまま終了する。
に含まれていないとき(ステップ54でNoのとき)、ま
たは抽出されたキーワード候補語の上位語、中間語また
は下位語がシソーラスに規定されていないとき(ステッ
プ55でNoのとき)は、そのまま終了する。
【0054】このように第2実施例のキーワード自動抽
出装置では、文書中で省略された単語をキーワードとし
て登録することができる。
出装置では、文書中で省略された単語をキーワードとし
て登録することができる。
【0055】なお、この実施例では、辞書格納部41とシ
ソーラス格納部48とを別々の辞書を格納する部として示
しているが、これらは同じものであってもよい。また、
この場合、キーワード候補語照合部45が、キーワード候
補語追加部49に代わって、省略されている語の追加を行
なうようにしてもよい。
ソーラス格納部48とを別々の辞書を格納する部として示
しているが、これらは同じものであってもよい。また、
この場合、キーワード候補語照合部45が、キーワード候
補語追加部49に代わって、省略されている語の追加を行
なうようにしてもよい。
【0056】(第3実施例)第3実施例のキーワード自
動抽出装置は、例えば「朝鮮民主主義共和国」という文
字列から、「民主主義」や「共和国」という単語がキー
ワード候補語として抽出されることを防ぐ機能を有す
る。
動抽出装置は、例えば「朝鮮民主主義共和国」という文
字列から、「民主主義」や「共和国」という単語がキー
ワード候補語として抽出されることを防ぐ機能を有す
る。
【0057】この装置は、図7に示すように、文書デー
タを保存する文書格納部71と、抽出されたキーワード候
補語を格納するキーワード候補語抽出結果格納部76と、
1次からn次にわたり、各次の辞書を用いてキーワード
候補語を抽出する機構とを備えており、各次のキーワー
ド候補語の抽出機構は、次数が低いほど優先的に照合を
行なう必要がある単語が収められているi次通過辞書72
と、文書データからi次通過辞書72に載った単語を抽出
するi次キーワード候補抽出部73と、i+1次のキーワ
ード候補語の抽出機構に供給する文書データを作成する
ために、文書データ中の抽出されたキーワード候補語の
箇所を*マークに変えるi次マーク付加部74と、i次マ
ーク付加部74によって*マークが付加された文書データ
を格納するi次通過文書格納部75とを備えている。但
し、n次の場合は、次のキーワード抽出機構が無いた
め、マーク付加部及び通過文書格納部を持たない。
タを保存する文書格納部71と、抽出されたキーワード候
補語を格納するキーワード候補語抽出結果格納部76と、
1次からn次にわたり、各次の辞書を用いてキーワード
候補語を抽出する機構とを備えており、各次のキーワー
ド候補語の抽出機構は、次数が低いほど優先的に照合を
行なう必要がある単語が収められているi次通過辞書72
と、文書データからi次通過辞書72に載った単語を抽出
するi次キーワード候補抽出部73と、i+1次のキーワ
ード候補語の抽出機構に供給する文書データを作成する
ために、文書データ中の抽出されたキーワード候補語の
箇所を*マークに変えるi次マーク付加部74と、i次マ
ーク付加部74によって*マークが付加された文書データ
を格納するi次通過文書格納部75とを備えている。但
し、n次の場合は、次のキーワード抽出機構が無いた
め、マーク付加部及び通過文書格納部を持たない。
【0058】図9には、1次通過辞書91と、1次マーク
付加部74によるマーク付け93の例を示している。1次通
過辞書91に「アジア」「東アジア」「朝鮮半島」「韓
国」「朝鮮民主主義人民共和国」等の単語が含まれ、一
方、対象文字列92が「〜のため、韓国と朝鮮民主主義人
民共和国との間で〜」という文字列であるとき、1次通
過辞書91の単語と一致する「韓国」と「朝鮮民主主義人
民共和国」とが1次のキーワード候補語として抽出さ
れ、文字列92のこれらの単語にマーク付けが行なわれ、
その結果、「〜のため、**と***********
との間で〜」という文字列93に変形される。
付加部74によるマーク付け93の例を示している。1次通
過辞書91に「アジア」「東アジア」「朝鮮半島」「韓
国」「朝鮮民主主義人民共和国」等の単語が含まれ、一
方、対象文字列92が「〜のため、韓国と朝鮮民主主義人
民共和国との間で〜」という文字列であるとき、1次通
過辞書91の単語と一致する「韓国」と「朝鮮民主主義人
民共和国」とが1次のキーワード候補語として抽出さ
れ、文字列92のこれらの単語にマーク付けが行なわれ、
その結果、「〜のため、**と***********
との間で〜」という文字列93に変形される。
【0059】次の次数のキーワード抽出機構では、この
文字列93からキーワード候補語を抽出することになるの
で、「民主主義」や「共和国」といった単語が辞書に登
録されている場合でも、それらの語がキーワード候補語
として抽出されることがなくなる。
文字列93からキーワード候補語を抽出することになるの
で、「民主主義」や「共和国」といった単語が辞書に登
録されている場合でも、それらの語がキーワード候補語
として抽出されることがなくなる。
【0060】このキーワード自動抽出装置の動作手順に
ついて、図8のフローチャートを用いて説明する。
ついて、図8のフローチャートを用いて説明する。
【0061】ステップ81:まず、1次キーワード候補語
抽出部73は、文書格納部71から文書データを読出し、 ステップ82:読出した文書データと1次通過辞書72の各
単語との照合を行なう。 ステップ83:照合が成功し、
一致する単語を見出したときは、 ステップ84:その単語をキーワード候補語としてキーワ
ード候補語抽出結果格納部76に格納する。
抽出部73は、文書格納部71から文書データを読出し、 ステップ82:読出した文書データと1次通過辞書72の各
単語との照合を行なう。 ステップ83:照合が成功し、
一致する単語を見出したときは、 ステップ84:その単語をキーワード候補語としてキーワ
ード候補語抽出結果格納部76に格納する。
【0062】ステップ85:1次マーク付加部74は、文書
データのこのキーワード候補語に対応する文字列を*に
変えることによって、キーワード候補語として抽出され
た文字列を、それ以降、抽出対象から除外する処理を行
ない、このマーク付けした文書データを1次通過文書格
納部75に格納する。
データのこのキーワード候補語に対応する文字列を*に
変えることによって、キーワード候補語として抽出され
た文字列を、それ以降、抽出対象から除外する処理を行
ない、このマーク付けした文書データを1次通過文書格
納部75に格納する。
【0063】ステップ86:次のキーワード抽出段階で
は、その前の段階で通過文書格納部75に格納された文書
データを読出して(ステップ81)、ステップ85までの手
順を実行し、これをn−1回繰り返す。
は、その前の段階で通過文書格納部75に格納された文書
データを読出して(ステップ81)、ステップ85までの手
順を実行し、これをn−1回繰り返す。
【0064】このように、第3実施例の装置では、優先
的にキーワードとして抽出したい単語を番号の小さい辞
書に登録しておくことにより、そのキーワードがさらに
分割され、不要な文字列が切り出される事態を防止する
ことができる。
的にキーワードとして抽出したい単語を番号の小さい辞
書に登録しておくことにより、そのキーワードがさらに
分割され、不要な文字列が切り出される事態を防止する
ことができる。
【0065】なお、マーク付けでは、キーワード候補語
の一文字ずつを「*」に変換する代わりに、キーワード
候補語の文字列を「*」で表してもよく、その場合、図
9のマーク付け結果93は「〜のため、*と*との間で
〜」となる。また、マーク記号として「*」以外の記号
を用いてもよい。また、マーク付けの一環として、キー
ワード候補語を対象文字列から削除してもよい。この場
合、マーク付加部74に代わって、文書データ中のキーワ
ード候補語を削除する削除処理部を設ける。
の一文字ずつを「*」に変換する代わりに、キーワード
候補語の文字列を「*」で表してもよく、その場合、図
9のマーク付け結果93は「〜のため、*と*との間で
〜」となる。また、マーク記号として「*」以外の記号
を用いてもよい。また、マーク付けの一環として、キー
ワード候補語を対象文字列から削除してもよい。この場
合、マーク付加部74に代わって、文書データ中のキーワ
ード候補語を削除する削除処理部を設ける。
【0066】(第4実施例)第4実施例のキーワード自
動抽出装置は、第1実施例の装置と、優先的にキーワー
ド候補語を抽出する機構とを組合せている。
動抽出装置は、第1実施例の装置と、優先的にキーワー
ド候補語を抽出する機構とを組合せている。
【0067】この装置は、図10に示すように、優先的
にキーワードとして抽出する必要のある単語を収めた優
先語辞書101と、文書格納部100より読出した文書データ
の中から優先語辞書に載る単語をキーワード候補語とし
て抽出する優先キーワード候補語抽出部102と、文書デ
ータ中のキーワード候補語をマークに変換し、マーク付
けした文書データをキーワード候補語照合部107に出力
するマーク付加部103とを備えている。その他の構成は
第1実施例の装置と変わりがない。
にキーワードとして抽出する必要のある単語を収めた優
先語辞書101と、文書格納部100より読出した文書データ
の中から優先語辞書に載る単語をキーワード候補語とし
て抽出する優先キーワード候補語抽出部102と、文書デ
ータ中のキーワード候補語をマークに変換し、マーク付
けした文書データをキーワード候補語照合部107に出力
するマーク付加部103とを備えている。その他の構成は
第1実施例の装置と変わりがない。
【0068】この装置では、優先キーワード候補語抽出
部102が、文書格納部100に格納された文書データを読出
し、優先語辞書101に格納されている優先語と照合す
る。この照合で文書データの中に優先語を検出したとき
は、その優先語をキーワード候補語として抽出し、キー
ワード候補語抽出結果格納部110に格納する。
部102が、文書格納部100に格納された文書データを読出
し、優先語辞書101に格納されている優先語と照合す
る。この照合で文書データの中に優先語を検出したとき
は、その優先語をキーワード候補語として抽出し、キー
ワード候補語抽出結果格納部110に格納する。
【0069】マーク付加部103は、文書データ中のキー
ワード候補語として抽出された優先語にマーク付けを行
ない、マーク付け後の文書データをキーワード候補語照
合部107に送る。
ワード候補語として抽出された優先語にマーク付けを行
ない、マーク付け後の文書データをキーワード候補語照
合部107に送る。
【0070】それ以降の処理は第1実施例の場合と同じ
である。ただ、この装置では、文書データ中の優先語が
マーク付加部103の処理で事前にマークに変換されてい
るため、優先語をさらに分割して不必要な文字列をキー
ワード候補語として切出す事態は発生しない。
である。ただ、この装置では、文書データ中の優先語が
マーク付加部103の処理で事前にマークに変換されてい
るため、優先語をさらに分割して不必要な文字列をキー
ワード候補語として切出す事態は発生しない。
【0071】(第5実施例)第5実施例のキーワード自
動抽出装置は、抽出されたキーワード候補語の上位階層
に位置する全ての単語をキーワード候補語として設定す
る。この装置は、図11に示すように、文書データを保
存する文書格納部111と、シソーラスを格納するシソー
ラス格納部112と、文書格納部111から読出した文書デー
タとシソーラス格納部112のシソーラスとを照合し、一
致する単語をキーワード候補語として抽出するキーワー
ド候補語照合部113と、抽出されたキーワード候補語の
上位階層にある全ての単語をシソーラスから抽出する上
位階層語抽出部114と、キーワード候補語照合部113及び
上位階層語抽出部114によって抽出された単語を格納す
るキーワード候補語抽出結果格納部115とを備えてい
る。
動抽出装置は、抽出されたキーワード候補語の上位階層
に位置する全ての単語をキーワード候補語として設定す
る。この装置は、図11に示すように、文書データを保
存する文書格納部111と、シソーラスを格納するシソー
ラス格納部112と、文書格納部111から読出した文書デー
タとシソーラス格納部112のシソーラスとを照合し、一
致する単語をキーワード候補語として抽出するキーワー
ド候補語照合部113と、抽出されたキーワード候補語の
上位階層にある全ての単語をシソーラスから抽出する上
位階層語抽出部114と、キーワード候補語照合部113及び
上位階層語抽出部114によって抽出された単語を格納す
るキーワード候補語抽出結果格納部115とを備えてい
る。
【0072】シソーラスは、図13に例示するように、
単語の表す意味の上下関係を規定しており、この例で
は、分類番号「0015」の下に、最上位語としての
「軍縮」があり、その下の階層に位置する語として「核
軍縮」と「平和の配当」とがあり、「核軍縮」の下位の
階層の語として「共通の安全保証」と「START」と
がある。
単語の表す意味の上下関係を規定しており、この例で
は、分類番号「0015」の下に、最上位語としての
「軍縮」があり、その下の階層に位置する語として「核
軍縮」と「平和の配当」とがあり、「核軍縮」の下位の
階層の語として「共通の安全保証」と「START」と
がある。
【0073】この装置では、対象文字列132とシソーラ
ス131との照合で、例えば「START」がキーワード
候補語として抽出されると、その上位階層に位置する
「核軍縮」「軍縮」「0015」といった全ての上位階
層語がキーワード候補語として抽出される。
ス131との照合で、例えば「START」がキーワード
候補語として抽出されると、その上位階層に位置する
「核軍縮」「軍縮」「0015」といった全ての上位階
層語がキーワード候補語として抽出される。
【0074】このキーワード自動抽出装置の動作手順に
ついて、図12のフローチャートを用いて説明する。
ついて、図12のフローチャートを用いて説明する。
【0075】ステップ121:まず、キーワード候補語照
合部113は、文書格納部111から文書の文字列を読出し、 ステップ122:この文字列と、シソーラス格納部112から
読出したシソーラスの各キーワードとを照合する。
合部113は、文書格納部111から文書の文字列を読出し、 ステップ122:この文字列と、シソーラス格納部112から
読出したシソーラスの各キーワードとを照合する。
【0076】ステップ123:照合が成功したときは、 ステップ124:一致したキーワード候補語に上位語があ
るかどうかをシソーラスで調べ、上位語が存在する場合
は、 ステップ125:シソーラスから、上位階層の単語を全て
抽出し、 ステップ126:キーワード候補語としてキーワード候補
語抽出結果格納部115に格納する。
るかどうかをシソーラスで調べ、上位語が存在する場合
は、 ステップ125:シソーラスから、上位階層の単語を全て
抽出し、 ステップ126:キーワード候補語としてキーワード候補
語抽出結果格納部115に格納する。
【0077】このように、上位階層の語を全てキーワー
ドとして付け加えることによって、大きな概念での文書
検索が可能になる。
ドとして付け加えることによって、大きな概念での文書
検索が可能になる。
【0078】なお、上位階層語抽出部114が抽出した上
位階層語は、キーワード候補語照合部113が抽出したキ
ーワード候補語と区別してキーワード候補語抽出結果格
納部115に格納するように構成してもよい。また、この
実施例の装置における上位階層語抽出部114は、第2実
施例の装置(図4)のキーワード候補語追加部49に代え
て用いることも可能である。
位階層語は、キーワード候補語照合部113が抽出したキ
ーワード候補語と区別してキーワード候補語抽出結果格
納部115に格納するように構成してもよい。また、この
実施例の装置における上位階層語抽出部114は、第2実
施例の装置(図4)のキーワード候補語追加部49に代え
て用いることも可能である。
【0079】(第6実施例)第6実施例のキーワード自
動抽出装置は、同義語をキーワード候補語とすることが
できる。この装置は、図14に示すように、キーワード
の抽出が行なわれる文書データを保持する文書格納部14
1と、同義語を収めた同義語辞書142と、文書データに同
義語を追加する同義語追加部143と、同義語の追加され
た文書データを格納する同義語追加文書格納部144と、
シソーラスを格納するシソーラス格納部145と、同義語
の追加された文書データからキーワード候補語を抽出す
るキーワード候補語抽出部146と、抽出されたキーワー
ド候補語を格納するキーワード候補語抽出結果格納部14
7と、文書データに追加された同義語を削除する同義語
削除部148と、同義語が削除され、元の状態に戻された
文書データを格納する文書格納部149とを備えている。
動抽出装置は、同義語をキーワード候補語とすることが
できる。この装置は、図14に示すように、キーワード
の抽出が行なわれる文書データを保持する文書格納部14
1と、同義語を収めた同義語辞書142と、文書データに同
義語を追加する同義語追加部143と、同義語の追加され
た文書データを格納する同義語追加文書格納部144と、
シソーラスを格納するシソーラス格納部145と、同義語
の追加された文書データからキーワード候補語を抽出す
るキーワード候補語抽出部146と、抽出されたキーワー
ド候補語を格納するキーワード候補語抽出結果格納部14
7と、文書データに追加された同義語を削除する同義語
削除部148と、同義語が削除され、元の状態に戻された
文書データを格納する文書格納部149とを備えている。
【0080】同義語辞書には、図16に例示するよう
に、同一意味を持つ単語の対応関係が記述され、この例
(161)では、「コンピューター」の同義語として「電
子計算機」「電算機」「コンピュータ」が示され、「S
TART」の同義語として正式名称の「戦略兵器削減交
渉」が、また、「SALT」の同義語として正式名称の
「戦略兵器制限条約」が示されている。
に、同一意味を持つ単語の対応関係が記述され、この例
(161)では、「コンピューター」の同義語として「電
子計算機」「電算機」「コンピュータ」が示され、「S
TART」の同義語として正式名称の「戦略兵器削減交
渉」が、また、「SALT」の同義語として正式名称の
「戦略兵器制限条約」が示されている。
【0081】対象文字列162に例えば「START」と
いう単語があると、同義語辞書161に「START」の
同義語として挙げられている「戦略兵器削減交渉」が対
象文字列に追加される(163)。同様に、対象文字列162
に「コンピューター」という単語があると、同義語辞書
161に「コンピューター」の同義語として挙げられてい
る「電子計算機」「電算機」「コンピュータ」が対象文
字列に追加される。次いで、この同義語が追加された対
象文字列163とシソーラスとの照合が行なわれ、一致す
る単語がキーワード候補語として抽出される。
いう単語があると、同義語辞書161に「START」の
同義語として挙げられている「戦略兵器削減交渉」が対
象文字列に追加される(163)。同様に、対象文字列162
に「コンピューター」という単語があると、同義語辞書
161に「コンピューター」の同義語として挙げられてい
る「電子計算機」「電算機」「コンピュータ」が対象文
字列に追加される。次いで、この同義語が追加された対
象文字列163とシソーラスとの照合が行なわれ、一致す
る単語がキーワード候補語として抽出される。
【0082】このキーワード自動抽出装置の動作手順を
図15のフローチャートを用いて説明する。
図15のフローチャートを用いて説明する。
【0083】ステップ151:まず、同義語追加部143は、
文書格納部141から文書を読出し、 ステップ152:読出した文書と同義語辞書142の各単語と
を照合する。
文書格納部141から文書を読出し、 ステップ152:読出した文書と同義語辞書142の各単語と
を照合する。
【0084】ステップ153:照合が成功し、一致した単
語を検出したときは、 ステップ154:一致した単語の同義語を同義語辞書142か
ら求めて、 ステップ155:その同義語を、読出した文書に追加し、
その文書を同義語追加文書格納部144に格納する。
語を検出したときは、 ステップ154:一致した単語の同義語を同義語辞書142か
ら求めて、 ステップ155:その同義語を、読出した文書に追加し、
その文書を同義語追加文書格納部144に格納する。
【0085】なお、ステップ153において照合が失敗し
た場合は、文書格納部141から次の文書を読出して同義
語辞書との照合を繰り返す。
た場合は、文書格納部141から次の文書を読出して同義
語辞書との照合を繰り返す。
【0086】ステップ156:キーワード候補語抽出部146
は、同義語追加文書格納部144に格納された文書を読出
し、シソーラス格納部145に格納されたシソーラスの各
単語との照合を行ない、照合に成功した単語を抽出し
て、キーワード候補語抽出結果格納部147に格納する。
このとき、照合に成功した単語の同義語が文書に追加さ
れている場合は、その同義語も同様にキーワード候補語
としてキーワード候補語抽出結果格納部147に格納す
る。また、追加された同義語に対して照合が成功した場
合は、追加された同義語の他に元の文書中にある同義語
の単語をキーワード候補語抽出結果格納部147に格納す
る。
は、同義語追加文書格納部144に格納された文書を読出
し、シソーラス格納部145に格納されたシソーラスの各
単語との照合を行ない、照合に成功した単語を抽出し
て、キーワード候補語抽出結果格納部147に格納する。
このとき、照合に成功した単語の同義語が文書に追加さ
れている場合は、その同義語も同様にキーワード候補語
としてキーワード候補語抽出結果格納部147に格納す
る。また、追加された同義語に対して照合が成功した場
合は、追加された同義語の他に元の文書中にある同義語
の単語をキーワード候補語抽出結果格納部147に格納す
る。
【0087】ステップ157:同義語削除部148は、ステッ
プ155において追加された同義語を文書から削除し、こ
の文書を文書格納部149に格納する。
プ155において追加された同義語を文書から削除し、こ
の文書を文書格納部149に格納する。
【0088】このように第6実施例のキーワード自動抽
出装置では、文書の内容を変えることなく、同義語をキ
ーワード候補語として付加することができる。
出装置では、文書の内容を変えることなく、同義語をキ
ーワード候補語として付加することができる。
【0089】なお、図16の例(163)では、複数の同
義語を文書の最後に追加する場合に「/」で区切って追
加しているが、区切りのために別の文字を用いてもよ
い。また、同義語を文書の最後に追加する代わりに、
「〜によって、START(戦略兵器削減交渉)が基本
的合意に達した。」というように、対象文字列の直後に
括弧または後で判断可能な表現方式で追加してもよい。
義語を文書の最後に追加する場合に「/」で区切って追
加しているが、区切りのために別の文字を用いてもよ
い。また、同義語を文書の最後に追加する代わりに、
「〜によって、START(戦略兵器削減交渉)が基本
的合意に達した。」というように、対象文字列の直後に
括弧または後で判断可能な表現方式で追加してもよい。
【0090】また、この装置の同義語辞書142、同義語
追加部143及び同義語追加文書格納部144を第1実施例の
装置(図1)の文書格納部14とキーワード候補語照合部
15との間に配置し、また、同義語削除部148及び文書格
納部149をキーワード候補語抽出部17に繋げてもよい。
追加部143及び同義語追加文書格納部144を第1実施例の
装置(図1)の文書格納部14とキーワード候補語照合部
15との間に配置し、また、同義語削除部148及び文書格
納部149をキーワード候補語抽出部17に繋げてもよい。
【0091】(第7実施例)第7実施例のキーワード自
動抽出装置は、多種類の辞書を順に用いて、キーワード
候補語を抽出する。
動抽出装置は、多種類の辞書を順に用いて、キーワード
候補語を抽出する。
【0092】この装置は、図17に示すように、キーワ
ード抽出の対象文書を保持する文書格納部171と、同義
語を収めた同義語辞書172と、対象文書と同義語辞書172
とを照合し一致する単語とその同義語とをキーワード候
補語として抽出する同義キーワード候補語抽出部173
と、優先語を収めた優先語辞書174と、対象文書と優先
語辞書174とを照合し一致する優先語をキーワード候補
語として抽出し、対象文書中の優先語にマーク付けをす
る優先キーワード候補語抽出部175と、複数の辞書を結
合式に従って組合せる第1実施例で示した結合語辞書17
6と、対象文書とこの結合語辞書176とを照合してキーワ
ード候補語を抽出する結合キーワード候補語抽出部177
と、キーワード候補語を収めた一般語辞書178と、対象
文書と一般語辞書178とを照合して一致するキーワード
候補語を抽出する一般キーワード候補語抽出部179と、
各抽出部の抽出したキーワード候補語を格納するキーワ
ード候補語抽出結果格納部180とを備えている。
ード抽出の対象文書を保持する文書格納部171と、同義
語を収めた同義語辞書172と、対象文書と同義語辞書172
とを照合し一致する単語とその同義語とをキーワード候
補語として抽出する同義キーワード候補語抽出部173
と、優先語を収めた優先語辞書174と、対象文書と優先
語辞書174とを照合し一致する優先語をキーワード候補
語として抽出し、対象文書中の優先語にマーク付けをす
る優先キーワード候補語抽出部175と、複数の辞書を結
合式に従って組合せる第1実施例で示した結合語辞書17
6と、対象文書とこの結合語辞書176とを照合してキーワ
ード候補語を抽出する結合キーワード候補語抽出部177
と、キーワード候補語を収めた一般語辞書178と、対象
文書と一般語辞書178とを照合して一致するキーワード
候補語を抽出する一般キーワード候補語抽出部179と、
各抽出部の抽出したキーワード候補語を格納するキーワ
ード候補語抽出結果格納部180とを備えている。
【0093】この装置では、まず、同義キーワード候補
語抽出部173が文書格納部171から対象文書を読出し、こ
の文書を同義語辞書172に格納されている単語と照合
し、照合が成功した場合は、一致した単語とその同義語
とをキーワード候補語抽出結果格納部180に格納する。
次に、優先キーワード候補語抽出部175は、同義キーワ
ード候補語が抽出された文書を優先語辞書174に格納さ
れている優先語と照合し、照合が成功した場合は、その
優先語をキーワード候補語としてキーワード候補語抽出
結果格納部180に格納するとともに、第3実施例と同じ
ように、それ以降の処理で優先語が照合の対象とならな
いように、文書中の優先語にマーク付けを行なう。
語抽出部173が文書格納部171から対象文書を読出し、こ
の文書を同義語辞書172に格納されている単語と照合
し、照合が成功した場合は、一致した単語とその同義語
とをキーワード候補語抽出結果格納部180に格納する。
次に、優先キーワード候補語抽出部175は、同義キーワ
ード候補語が抽出された文書を優先語辞書174に格納さ
れている優先語と照合し、照合が成功した場合は、その
優先語をキーワード候補語としてキーワード候補語抽出
結果格納部180に格納するとともに、第3実施例と同じ
ように、それ以降の処理で優先語が照合の対象とならな
いように、文書中の優先語にマーク付けを行なう。
【0094】結合キーワード候補語抽出部177は、マー
ク付けされた文書を、結合語辞書176に格納されている
単語と照合し、照合が成功した場合は第1実施例と同じ
ように結合式と抽出式との関係から抽出するキーワード
候補語を決定してキーワード候補語抽出結果格納部180
に格納する。最後に、一般キーワード候補語抽出部179
は、結合語辞書176によりキーワード候補語が抽出され
た文書を、一般語辞書178に格納されている単語と照合
し、照合が成功した場合はその単語をキーワード候補語
としてキーワード候補語抽出結果格納部180に格納す
る。
ク付けされた文書を、結合語辞書176に格納されている
単語と照合し、照合が成功した場合は第1実施例と同じ
ように結合式と抽出式との関係から抽出するキーワード
候補語を決定してキーワード候補語抽出結果格納部180
に格納する。最後に、一般キーワード候補語抽出部179
は、結合語辞書176によりキーワード候補語が抽出され
た文書を、一般語辞書178に格納されている単語と照合
し、照合が成功した場合はその単語をキーワード候補語
としてキーワード候補語抽出結果格納部180に格納す
る。
【0095】このように、辞書の内容に応じてキーワー
ド候補語を抽出する順番を最適化することにより、正確
にキーワード候補語を抽出することができ、かつ不要な
キーワード候補語の抽出を防止することができる。
ド候補語を抽出する順番を最適化することにより、正確
にキーワード候補語を抽出することができ、かつ不要な
キーワード候補語の抽出を防止することができる。
【0096】なお、同義語辞書と優先語辞書とによるキ
ーワード抽出の順番は、優先語辞書を先にしてもよい。
ーワード抽出の順番は、優先語辞書を先にしてもよい。
【0097】
【発明の効果】以上の実施例の説明から明らかなよう
に、本発明のキーワード自動抽出装置は、基本的に、辞
書に収められている単語と一致する単語を対象文書中に
見つけて、それをキーワードとしているため、不要なキ
ーワードの抽出が抑えられる。
に、本発明のキーワード自動抽出装置は、基本的に、辞
書に収められている単語と一致する単語を対象文書中に
見つけて、それをキーワードとしているため、不要なキ
ーワードの抽出が抑えられる。
【0098】また、複数の辞書を結合式に基づいて組合
せる装置では、辞書に収める単語の数に比べて遥かに多
い照合用の文字列を作成することができるため、姓と名
とを繋げたキーワードなど、各種の精緻なキーワードの
抽出が可能になる。また、辞書との照合が成功した後、
抽出式に基づいてキーワードを選定しているため、文書
の検索に適した形態でのキーワードの抽出が可能であ
る。
せる装置では、辞書に収める単語の数に比べて遥かに多
い照合用の文字列を作成することができるため、姓と名
とを繋げたキーワードなど、各種の精緻なキーワードの
抽出が可能になる。また、辞書との照合が成功した後、
抽出式に基づいてキーワードを選定しているため、文書
の検索に適した形態でのキーワードの抽出が可能であ
る。
【0099】また、シソーラスを用いた装置では、対象
文書中で省略された単語や、抽出した単語の上位概念を
表す全ての単語をキーワードとして追加することができ
るので、キーワードを用いる文書検索の検索精度が向上
し、広い範囲からの文書検索が可能になる。
文書中で省略された単語や、抽出した単語の上位概念を
表す全ての単語をキーワードとして追加することができ
るので、キーワードを用いる文書検索の検索精度が向上
し、広い範囲からの文書検索が可能になる。
【0100】また、優先語辞書を用いる装置では、キー
ワードを不必要に分割して無意味な単語を抽出してしま
う事態を防ぐことができる。
ワードを不必要に分割して無意味な単語を抽出してしま
う事態を防ぐことができる。
【0101】また、同義語辞書を用いる装置では、抽出
したキーワードの同義語をキーワードとして追加するこ
とができるので、高精度の文書検索が可能になる。ま
た、略称に対する正式名称を同義語として同義語辞書に
記述することにより、略称と正式名称とを併せてキーワ
ードとして登録することができる。
したキーワードの同義語をキーワードとして追加するこ
とができるので、高精度の文書検索が可能になる。ま
た、略称に対する正式名称を同義語として同義語辞書に
記述することにより、略称と正式名称とを併せてキーワ
ードとして登録することができる。
【図1】本発明の第1実施例におけるキーワード自動抽
出装置の構成図、
出装置の構成図、
【図2】第1実施例におけるキーワード自動抽出装置の
動作を示すフローチャート、
動作を示すフローチャート、
【図3】第1実施例のキーワード自動抽出装置における
キーワード候補語抽出を例示する図、
キーワード候補語抽出を例示する図、
【図4】本発明の第2実施例におけるキーワード自動抽
出装置の構成図、
出装置の構成図、
【図5】第2実施例におけるキーワード自動抽出装置の
動作を示すフローチャート、
動作を示すフローチャート、
【図6】第2実施例のキーワード自動抽出装置における
キーワード候補語の追加を例示する図、
キーワード候補語の追加を例示する図、
【図7】本発明の第3実施例におけるキーワード自動抽
出装置の構成図、
出装置の構成図、
【図8】第3実施例におけるキーワード自動抽出装置の
動作を示すフローチャート、
動作を示すフローチャート、
【図9】第3実施例のキーワード自動抽出装置における
優先語のマーク付けを例示する図、
優先語のマーク付けを例示する図、
【図10】本発明の第4実施例におけるキーワード自動
抽出装置の構成図、
抽出装置の構成図、
【図11】本発明の第5実施例におけるキーワード自動
抽出装置の構成図、
抽出装置の構成図、
【図12】第5実施例におけるキーワード自動抽出装置
の動作を示すフローチャート、
の動作を示すフローチャート、
【図13】第5実施例のキーワード自動抽出装置におけ
る上位階層語の登録例を示す図、
る上位階層語の登録例を示す図、
【図14】本発明の第6実施例におけるキーワード自動
抽出装置の構成図、
抽出装置の構成図、
【図15】第6実施例におけるキーワード自動抽出装置
の動作を示すフローチャート、
の動作を示すフローチャート、
【図16】第6実施例のキーワード自動抽出装置におけ
る同義語の追加例を示す図、
る同義語の追加例を示す図、
【図17】本発明の第7実施例におけるキーワード自動
抽出装置の構成図、
抽出装置の構成図、
【図18】従来のキーワード自動抽出装置の構成図であ
る。
る。
11、41、104 辞書格納部 12、42、105 結合式格納部 13、43、106 辞書選択部 14、44、71、100、111、141、149、171 文書格納部 15、45、107、113 キーワード候補語照合部 16、46、108 抽出式格納部 17、47、109、146 キーワード候補語抽出部 18、50、76、110、115、147、180、189 キーワード候
補語抽出結果格納部 48、112、145 シソーラス格納部 49 キーワード候補語追加部 72 1次通過辞書 73 1次キーワード候補語抽出部 74 1次マーク付加部 75 1次通過文書格納部 101、174 優先語辞書 102、175 優先キーワード候補語抽出部 103 マーク付加部 114 上位階層語抽出部 142、172 同義語辞書 143 同義語追加部 144 同義語追加文書格納部 148 同義語削除部 173 同義キーワード候補語抽出部 175 優先キーワード候補語抽出部 176 結合語辞書 177 結合キーワード候補語抽出部 178 一般語辞書 179 一般キーワード候補語抽出部
補語抽出結果格納部 48、112、145 シソーラス格納部 49 キーワード候補語追加部 72 1次通過辞書 73 1次キーワード候補語抽出部 74 1次マーク付加部 75 1次通過文書格納部 101、174 優先語辞書 102、175 優先キーワード候補語抽出部 103 マーク付加部 114 上位階層語抽出部 142、172 同義語辞書 143 同義語追加部 144 同義語追加文書格納部 148 同義語削除部 173 同義キーワード候補語抽出部 175 優先キーワード候補語抽出部 176 結合語辞書 177 結合キーワード候補語抽出部 178 一般語辞書 179 一般キーワード候補語抽出部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 桐生 輝一 東京都千代田区一ツ橋一丁目1番1号 株 式会社毎日新聞社内 (72)発明者 大塚 哲也 東京都千代田区一ツ橋一丁目1番1号 株 式会社毎日新聞社内
Claims (5)
- 【請求項1】 文書の文字列を辞書中の単語と照合し、
照合結果に基づいて前記文書のキーワードを抽出するキ
ーワード自動抽出装置において、 複数の辞書と、 前記辞書の接続情報を表した結合式を保持する結合式格
納手段と、 前記結合式に対応づけてキーワード選定の規則を定めた
抽出式を保持する抽出式格納手段と、 前記結合式に基づいて複数の辞書を選択する辞書選択手
段と、 文書を前記辞書選択手段によって選択された辞書と照合
するキーワード候補語照合手段と、 照合結果を基に前記抽出式に従ってキーワード候補語を
抽出するキーワード候補語抽出手段とを設けたことを特
徴とするキーワード自動抽出装置。 - 【請求項2】 単語間の上下関係を規定したシソーラス
を保持するシソーラス格納手段と、抽出された前記キー
ワード候補語と一致する単語を前記シソーラスから検索
し、その単語の上位語、中間語または下位語をキーワー
ド候補語として追加するキーワード候補語追加手段とを
設けたことを特徴とする請求項1に記載のキーワード自
動抽出装置。 - 【請求項3】 単語間の上下関係を規定したシソーラス
を保持するシソーラス格納手段と、抽出された前記キー
ワード候補語と一致する単語を前記シソーラスから検索
し、その単語の上位階層に含まれる全ての語をキーワー
ド候補語として追加する上位階層語抽出手段とを設けた
ことを特徴とする請求項1に記載のキーワード自動抽出
装置。 - 【請求項4】 文書の文字列を辞書中の単語と照合し、
照合結果に基づいて前記文書のキーワードを抽出するキ
ーワード自動抽出装置において、 文書との照合を優先すべき単語を収めた優先語辞書と、 文書を前記優先語辞書と照合し、一致する単語をキーワ
ード候補語として抽出する優先キーワード候補語抽出手
段と、 文書中の前記単語を以後のキーワード抽出処理で抽出さ
れないように変換処理するマーク付加手段と、 前記マーク付加手段によって処理された前記文書を辞書
と照合してキーワード候補語を抽出するキーワード候補
語抽出手段とを設けたことを特徴とするキーワード自動
抽出装置。 - 【請求項5】 文書の文字列を辞書中の単語と照合し、
照合結果に基づいて前記文書のキーワードを抽出するキ
ーワード自動抽出装置において、 同義語を収めた同義語辞書と、 文書を前記同義語辞書と照合し、一致する単語の同義語
を前記同義語辞書から求めて前記文書に追加する同義語
追加手段と、 同義語が追加された前記文書を辞書と照合してキーワー
ド候補語を抽出するキーワード候補語抽出手段と、 キーワード候補語を抽出した後の前記文書から先に追加
した同義語を削除する同義語削除手段とを設けたことを
特徴とするキーワード自動抽出装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP14521295A JP3544749B2 (ja) | 1995-05-22 | 1995-05-22 | キーワード自動抽出装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP14521295A JP3544749B2 (ja) | 1995-05-22 | 1995-05-22 | キーワード自動抽出装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH08314947A true JPH08314947A (ja) | 1996-11-29 |
| JP3544749B2 JP3544749B2 (ja) | 2004-07-21 |
Family
ID=15379975
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP14521295A Expired - Fee Related JP3544749B2 (ja) | 1995-05-22 | 1995-05-22 | キーワード自動抽出装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3544749B2 (ja) |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11272701A (ja) * | 1998-03-23 | 1999-10-08 | Oki Electric Ind Co Ltd | 情報抽出装置 |
| JPH11353316A (ja) * | 1998-06-04 | 1999-12-24 | Oki Electric Ind Co Ltd | 省略語補完装置 |
| JP2001036568A (ja) * | 1999-07-22 | 2001-02-09 | Toshio Imao | 電子メールシステム |
| KR20020003701A (ko) * | 2000-06-27 | 2002-01-15 | 쳉 유엔시엔 | 디지털 문서의 키워드를 자동으로 추출하는 방법 |
| WO2006065108A1 (en) * | 2004-12-17 | 2006-06-22 | Nhn Corporation | System and method for filtering message |
| WO2007057945A1 (ja) * | 2005-11-15 | 2007-05-24 | Saga University | 文書管理装置、そのプログラム及びそのシステム |
| JP2012190313A (ja) * | 2011-03-11 | 2012-10-04 | Fuji Xerox Co Ltd | 画像処理装置およびプログラム |
| CN103853755A (zh) * | 2012-11-30 | 2014-06-11 | 英业达科技有限公司 | 提供查找多个辞典的系统及其方法 |
| WO2018221119A1 (ja) * | 2017-06-01 | 2018-12-06 | 株式会社インタラクティブソリューションズ | 検索用資料情報記憶装置 |
| CN110502644A (zh) * | 2019-08-28 | 2019-11-26 | 同方知网(北京)技术有限公司 | 一种领域层级词典挖掘构建的主动学习方法 |
-
1995
- 1995-05-22 JP JP14521295A patent/JP3544749B2/ja not_active Expired - Fee Related
Cited By (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11272701A (ja) * | 1998-03-23 | 1999-10-08 | Oki Electric Ind Co Ltd | 情報抽出装置 |
| JPH11353316A (ja) * | 1998-06-04 | 1999-12-24 | Oki Electric Ind Co Ltd | 省略語補完装置 |
| JP2001036568A (ja) * | 1999-07-22 | 2001-02-09 | Toshio Imao | 電子メールシステム |
| KR20020003701A (ko) * | 2000-06-27 | 2002-01-15 | 쳉 유엔시엔 | 디지털 문서의 키워드를 자동으로 추출하는 방법 |
| US7725550B2 (en) | 2004-12-17 | 2010-05-25 | Nhn Corporation | System and method for filtering message |
| WO2006065108A1 (en) * | 2004-12-17 | 2006-06-22 | Nhn Corporation | System and method for filtering message |
| JP4734662B2 (ja) * | 2005-11-15 | 2011-07-27 | 国立大学法人佐賀大学 | 文書管理装置、そのプログラム及びそのシステム |
| JPWO2007057945A1 (ja) * | 2005-11-15 | 2009-04-30 | 国立大学法人佐賀大学 | 文書管理装置、そのプログラム及びそのシステム |
| WO2007057945A1 (ja) * | 2005-11-15 | 2007-05-24 | Saga University | 文書管理装置、そのプログラム及びそのシステム |
| JP2012190313A (ja) * | 2011-03-11 | 2012-10-04 | Fuji Xerox Co Ltd | 画像処理装置およびプログラム |
| CN103853755A (zh) * | 2012-11-30 | 2014-06-11 | 英业达科技有限公司 | 提供查找多个辞典的系统及其方法 |
| WO2018221119A1 (ja) * | 2017-06-01 | 2018-12-06 | 株式会社インタラクティブソリューションズ | 検索用資料情報記憶装置 |
| JPWO2018221119A1 (ja) * | 2017-06-01 | 2020-01-09 | 株式会社インタラクティブソリューションズ | 検索用資料情報記憶装置 |
| JP2020074144A (ja) * | 2017-06-01 | 2020-05-14 | 株式会社インタラクティブソリューションズ | 検索用資料情報記憶装置 |
| JP2020119590A (ja) * | 2017-06-01 | 2020-08-06 | 株式会社インタラクティブソリューションズ | 検索用資料情報記憶装置 |
| US10824657B2 (en) | 2017-06-01 | 2020-11-03 | Interactive Solutions Inc. | Search document information storage device |
| CN110502644A (zh) * | 2019-08-28 | 2019-11-26 | 同方知网(北京)技术有限公司 | 一种领域层级词典挖掘构建的主动学习方法 |
| CN110502644B (zh) * | 2019-08-28 | 2023-08-04 | 同方知网数字出版技术股份有限公司 | 一种领域层级词典挖掘构建的主动学习方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3544749B2 (ja) | 2004-07-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8055498B2 (en) | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary | |
| US6065003A (en) | System and method for finding the closest match of a data entry | |
| Theeramunkong et al. | Character cluster based thai information retrieval | |
| JPH0877173A (ja) | 文字列修正システムとその方法 | |
| JPH09198409A (ja) | 酷似文書抽出方法 | |
| JPH08314947A (ja) | キーワード自動抽出装置 | |
| Robertson et al. | Searching for historical word-forms in a database of 17th-century English text using spelling-correction methods | |
| JP4866603B2 (ja) | 住所文字列取得方法および住所文字列取得システム | |
| JP2535629B2 (ja) | 検索システムの入力文字列正規化方式 | |
| JP4584507B2 (ja) | 住所認識装置、記録媒体及びプログラム | |
| Kanada | A method of geographical name extraction from Japanese text for thematic geographical search | |
| KR20020054254A (ko) | 사전구조를 이용한 한국어 형태소 분석방법 | |
| JP3343941B2 (ja) | 例文検索システム | |
| JP3043596B2 (ja) | キーワード抽出装置 | |
| JPS61248160A (ja) | 文書情報登録方式 | |
| JP2009020567A (ja) | 文書検索装置 | |
| JP3693734B2 (ja) | 情報検索装置およびその情報検索方法 | |
| JP3187671B2 (ja) | 電子辞書表示装置 | |
| JP2000339342A (ja) | 文書検索方法および文書検索装置 | |
| JPH08314950A (ja) | テキストの検索方法及び装置 | |
| JPH09212523A (ja) | 全文検索方法 | |
| JP2000311170A (ja) | テキスト情報抽出方法 | |
| JP4915499B2 (ja) | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム | |
| JPS63136224A (ja) | キ−ワ−ド自動抽出装置 | |
| JPH0736926A (ja) | 不完全文字列と文字列の照合方法および装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040106 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040303 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040406 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040406 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |