JPH06208588A - 文書検索方式 - Google Patents
文書検索方式Info
- Publication number
- JPH06208588A JPH06208588A JP5134072A JP13407293A JPH06208588A JP H06208588 A JPH06208588 A JP H06208588A JP 5134072 A JP5134072 A JP 5134072A JP 13407293 A JP13407293 A JP 13407293A JP H06208588 A JPH06208588 A JP H06208588A
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- degree
- keyword
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】 (修正有)
【目的】 検索語が文書内の語と全く同じでなくても該
当文書と見なすことができる。 【構成】 検索語入力手段1によりユーザによって検索
語が入力される。文書得点付与手段2において、入力さ
れた検索語を形態素解析し、その結果、品詞分解された
単語と文書中の単語単位で保存されたキーワードとを比
較し、検索語と文書中の語が完全に一致していなくとも
検索することができる。また、文書得点付与手段2によ
り、入力検索語に応じた得点が各文書に付与される。文
書ランキング手段3により、得点が付与された文書を得
点の高い順にソートされる。文書出力手段4により、ユ
ーザに対し検索結果が出力される。
当文書と見なすことができる。 【構成】 検索語入力手段1によりユーザによって検索
語が入力される。文書得点付与手段2において、入力さ
れた検索語を形態素解析し、その結果、品詞分解された
単語と文書中の単語単位で保存されたキーワードとを比
較し、検索語と文書中の語が完全に一致していなくとも
検索することができる。また、文書得点付与手段2によ
り、入力検索語に応じた得点が各文書に付与される。文
書ランキング手段3により、得点が付与された文書を得
点の高い順にソートされる。文書出力手段4により、ユ
ーザに対し検索結果が出力される。
Description
【0001】
【技術分野】本発明は、文書検索方式に関し、より詳細
には、検索語が文書内の語と全く同じでなくとも、該当
文書と見なすことができるようにした文書検索方式に関
する。例えば、文書管理装置や画像管理装置などに適用
されるものである。
には、検索語が文書内の語と全く同じでなくとも、該当
文書と見なすことができるようにした文書検索方式に関
する。例えば、文書管理装置や画像管理装置などに適用
されるものである。
【0002】
【従来技術】本発明に係る従来技術を記載した公知文献
としては以下のものがある。特開平2−2458号公報
に提案されている「類似文書検索装置」は、キーワード
を持っていない文書についても、その文書を形態素解析
などをすることで、自動的にキーワードを抽出して所望
の文書を検索できるようにしたもので、検索語を入力す
ると、それに対し類似度の高い文書を出力し、あらかじ
め文書にキーワードが付与されていなくても、文書から
自立語を抽出し、頻度の高いものから順にキーワードと
し、検索語と比較して類似度を判定するものである。し
かしながら、文書内に検索語と全く同じ語が含まれてな
ければ、該当文書と見なされないことになり、文書から
自立語を抽出し、頻度の高いものから順にキーワードと
し、検索語と比較する方法では、単に出現頻度の高い単
語ほど重要ということになり、正確な検索は行なえない
という欠点がある。
としては以下のものがある。特開平2−2458号公報
に提案されている「類似文書検索装置」は、キーワード
を持っていない文書についても、その文書を形態素解析
などをすることで、自動的にキーワードを抽出して所望
の文書を検索できるようにしたもので、検索語を入力す
ると、それに対し類似度の高い文書を出力し、あらかじ
め文書にキーワードが付与されていなくても、文書から
自立語を抽出し、頻度の高いものから順にキーワードと
し、検索語と比較して類似度を判定するものである。し
かしながら、文書内に検索語と全く同じ語が含まれてな
ければ、該当文書と見なされないことになり、文書から
自立語を抽出し、頻度の高いものから順にキーワードと
し、検索語と比較する方法では、単に出現頻度の高い単
語ほど重要ということになり、正確な検索は行なえない
という欠点がある。
【0003】また、「意味属性に基づくテキストベース
検索方式」(松尾比呂志 外1名情報処理学会編文誌
Vol32,No9,Sep.1991 p1172〜1179)は、多様な表現の類
似関係を扱うために、単語の意味属性に基づいて、検索
指示文を各テキストの見出し文との意味的類似性により
検索するものである。すなわち、見出し語のついた大量
のカードを格納したDB(データベース)から、見出し
文をもとに目的のカードを取り出すもので、文書全体で
なく、見出し文をインデックスとして扱い、検索語と見
出し文の部分的な一致も認めるものである。しかしなが
ら、見出し文を検索の対象としているので、文書全体を
検索の対象とすることはできないという欠点がある。
検索方式」(松尾比呂志 外1名情報処理学会編文誌
Vol32,No9,Sep.1991 p1172〜1179)は、多様な表現の類
似関係を扱うために、単語の意味属性に基づいて、検索
指示文を各テキストの見出し文との意味的類似性により
検索するものである。すなわち、見出し語のついた大量
のカードを格納したDB(データベース)から、見出し
文をもとに目的のカードを取り出すもので、文書全体で
なく、見出し文をインデックスとして扱い、検索語と見
出し文の部分的な一致も認めるものである。しかしなが
ら、見出し文を検索の対象としているので、文書全体を
検索の対象とすることはできないという欠点がある。
【0004】
【目的】本発明は、上述のごとき実情に鑑みなされたも
ので、検索語が、文書内の語と全く同じでなくても該当
文書と見なすことができること、また、検索語に応じて
文書中のキーワードに得点を付与するので、正確な検索
を行なうことができること、さらに、文書全体(つまり
見出し文だけでなく)検索の対象とする文書検索方式を
提供することを目的としてなされたものである。
ので、検索語が、文書内の語と全く同じでなくても該当
文書と見なすことができること、また、検索語に応じて
文書中のキーワードに得点を付与するので、正確な検索
を行なうことができること、さらに、文書全体(つまり
見出し文だけでなく)検索の対象とする文書検索方式を
提供することを目的としてなされたものである。
【0005】
【構成】本発明は、上記目的を達成するために、(1)
入力した検索語を形態素解析する形態素解析手段と、該
形態素解析手段により得られた品詞分解された単語と、
文書中の単語単位で保存されたキーワードとを比較する
比較手段とから成り、検索語と文書中の語が完全に一致
していなくても検索することのできること、更には、
(2)前記検索語と各文書中のキーワードとの一致度を
計算することにより、各文書に検索語に即した得点を付
与すること、更には、(3)前記(2)において、前記
検索語に応じて文書に得点を付与することにより、検索
語に即した文書から順に出力することのできるようにし
たこと、更には、(4)前記(2)において、前記各文
書における検索語に即した得点とは、検索語の単語列の
最語尾の単語に基本点を与え、単語列の前に遡るに従っ
て基本点から重要度を上げていき、該重要度の合計を文
書の得点とすること、更には、(5)前記(2)におい
て、前記検索語と文書の一致度の計算についてはキーワ
ード素性の1つである複合語語基を用いることにより、
文書に得点を付与する際にキーワードとはなりにくい語
には高得点を与えないようにしたこと、更には、(6)
前記(2)において、前記検索語と文書の一致度の計算
についてはキーワード素性の1つである固有名詞構成語
を用いることにより、文書に得点を付与する際にキーワ
ードとはなりにくい語には高得点を与えないようにした
こと、更には、(7)前記(2)において、前記検索語
と文書の一致度の計算についてはキーワード素性の1つ
である接頭修飾を用いることにより、特殊な接頭語には
得点を与えるようにしたこと、更には、(8)前記
(2)において、前記検索語と文書の一致度の計算につ
いてはキーワード素性の1つである地名識別語を用いる
ことにより、文書に得点を付与する際にキーワードとは
なりにくい高得点を与えないようにしたこと、更には、
(9)前記(2)において、前記検索語と文書の一致度
の計算についてはキーワード素性の1つである元号識別
語を用いることにより、文書に得点を付与する際にキー
ワードとはなりにくい語には高得点を与えないようにし
たこと、或いは、(10)入力した検索語を形態素解析
する形態素解析手段と、該形態素解析手段により得られ
る単語群のそれぞれに重要度を設定する重要度設定手段
と、該重要度から登録文書に付与されている単語群から
構成されるキーワードの一致度を計算する一致度計算手
段と、該一致度からその文書の文書得点を計算する文書
得点計算手段と、該文書得点計算手段により文書を文書
得点順に出力する文書出力手段とから成り、前記一致度
計算手段でキーワードに含まれる単語と一致する検索語
の単語の重要度の積を一致度とすること、更には、(1
1)前記(10)において、前記一致度計算手段でキー
ワードに含まれる単語並びと検索語に含まれる単語並び
とが一致する場合に一致度が大きくなるようにするこ
と、更には、(12)前記(10)において、前記一致
度計算手段でキーワード検索語が完全に一致する際の一
致度が検索語に含まれる単語数に応じて変わらないこ
と、更には、(13)前記(10)において、前記文書
得点計算手段で登録文書のキーワードと検索語の一致度
の平均値を文書得点とすること、更には、(14)前記
(10)において、前記文書得点計算手段で登録文書の
キーワードと検索語の一致度の和を一致度が1以上とな
ったキーワード数で割った値を文書得点とすること、更
には、(15)前記(10)において、前記文書得点計
算手段で登録文書のキーワードと検索語の一致度の最大
値を文書得点とすること、更には、(16)前記(1
0)において、前記文書得点計算手段で文書中のキーワ
ードの出現位置に応じて文書得点の計算法を変更するこ
と、更には、(17)前記(16)において、キーワー
ドの出現位置が文書のタイトルの場合、一致度計算手段
で得られる一致度にある係数をかけた値を用いて文書得
点を計算すること、更には、(18)前記(16)にお
いて、キーワードの出現位置が文書の第1段落第1文の
場合、一致度計算手段で得られる一致度にある係数をか
けた値を用いて文書得点を計算すること、更には、(1
9)前記(16)において、キーワードの出現位置が文
書の第1段落第2文以降の場合、一致度計算手段で得ら
れる一致度にある係数をかけた値を用いて文書得点を計
算すること、更には、(20)前記(16)において、
キーワードの出現位置が文書の第2段落以降第1文の場
合、一致度計算手段で得られる一致度にある係数をかけ
た値を用いて文書得点を計算すること、更には、(2
1)前記(16)において、キーワードの出現位置が文
書の第2段落以降第2文以降の場合、一致度計算手段で
得られる一致度にある係数をかけた値を用いて文書得点
を計算すること、更には、(22)前記(10)におい
て、前記文書得点計算手段でキーワードの後続語に応じ
て文書得点の計算法を変更すること、更には、(23)
前記(22)において、キーワードの後続語が格助詞
「が」の場合、一致度計算手段で得られる一致度にある
係数をかけた値を用いて文書得点を計算すること、更に
は、(24)前記(22)において、キーワードの後続
語が副助詞「は」の場合、一致度計算手段で得られる一
致度にある係数をかけた値を用いて文書得点を計算する
こと、更には、(25)前記(22)において、キーワ
ードの後続語が格助詞「を」の場合、一致度計算手段で
得られる一致度にある係数をかけた値を用いて文書得点
を計算すること、更には、(26)前記(22)におい
て、キーワードの後続語が格助詞「が」/副助詞「は」
/格助詞「を」以外の場合、一致度計算手段で得られる
一致度にある係数をかけた値を用いて文書得点を計算す
ること、更には、(27)前記(10)において、文書
得点計算手段で文書中のキーワードの出現位置および後
続語に応じて文書得点の計算法を変更すること、或い
は、(28)入力した検索語を形態素解析する形態素解
析手段と、該形態素解析手段によって得られた単語群の
それぞれに重要度を設定する重要度設定手段と、該重要
度設定手段により設定された重要度を用いて登録文書に
付与されているキーワードとの一致度を計算する一致度
計算手段と、該一致度計算手段により計算された一致度
からその文書の文書得点を計算する文書得点計算手段
と、該文書得点計算手段により文書を文書得点順に出力
する文書出力手段とから成り、検索語と各文書中のキー
ワードとの一致度を計算することにより各文書に検索語
に即した得点を付与し、その得点順に文書を出力するこ
と、更には、(29)前記(28)において、前記重要
度設定手段で単語の出現位置に応じてその単語の重要度
を設定すること、更には、(30)前記(29)におい
て、前記重要度設定手段で単語の重要度設定の際に、検
索語の構成単語数に応じて単語の重要度を設定するこ
と、更には、(31)前記(29)において、前記重要
度設定手段で単語の重要度設定の際に、単語の品詞に応
じて重要度を設定すること、更には、(32)前記(3
1)において、前記重要度設定手段で単語の重要度設定
の際に、単語の品詞で記述されない文法的/意味的な特
徴を記述するキーワード素性に応じて重要度を設定する
こと、更には、(33)前記(28)において、前記一
致度計算手段で文書キーワードと検索語の一致度の計算
の際に、キーワードと検索語に共通する単語の重要度の
合計を一致度とすること、更には、(34)前記(3
3)において、前記一致度計算手段で文書キーワードと
検索語の一致度の計算の際に、キーワードに含まれる単
語並びと検索語に含まれる単語並びが一致する場合に一
致度を大きくすること、更には、(35)前記(33)
において、前記一致度計算手段で文書キーワードと検索
語の一致度の計算の際に、キーワードと検索語の未尾の
単語が一致する場合に一致度を大きくすること、更に
は、(36)前記(33)において、前記一致度計算手
段で文書キーワードと検索語の一致度の計算の際に、キ
ーワードと検索語の先頭の単語が一致する場合に一致度
を大きくすることを特徴としたものである。以下、本発
明の実施例に基づいて説明する。
入力した検索語を形態素解析する形態素解析手段と、該
形態素解析手段により得られた品詞分解された単語と、
文書中の単語単位で保存されたキーワードとを比較する
比較手段とから成り、検索語と文書中の語が完全に一致
していなくても検索することのできること、更には、
(2)前記検索語と各文書中のキーワードとの一致度を
計算することにより、各文書に検索語に即した得点を付
与すること、更には、(3)前記(2)において、前記
検索語に応じて文書に得点を付与することにより、検索
語に即した文書から順に出力することのできるようにし
たこと、更には、(4)前記(2)において、前記各文
書における検索語に即した得点とは、検索語の単語列の
最語尾の単語に基本点を与え、単語列の前に遡るに従っ
て基本点から重要度を上げていき、該重要度の合計を文
書の得点とすること、更には、(5)前記(2)におい
て、前記検索語と文書の一致度の計算についてはキーワ
ード素性の1つである複合語語基を用いることにより、
文書に得点を付与する際にキーワードとはなりにくい語
には高得点を与えないようにしたこと、更には、(6)
前記(2)において、前記検索語と文書の一致度の計算
についてはキーワード素性の1つである固有名詞構成語
を用いることにより、文書に得点を付与する際にキーワ
ードとはなりにくい語には高得点を与えないようにした
こと、更には、(7)前記(2)において、前記検索語
と文書の一致度の計算についてはキーワード素性の1つ
である接頭修飾を用いることにより、特殊な接頭語には
得点を与えるようにしたこと、更には、(8)前記
(2)において、前記検索語と文書の一致度の計算につ
いてはキーワード素性の1つである地名識別語を用いる
ことにより、文書に得点を付与する際にキーワードとは
なりにくい高得点を与えないようにしたこと、更には、
(9)前記(2)において、前記検索語と文書の一致度
の計算についてはキーワード素性の1つである元号識別
語を用いることにより、文書に得点を付与する際にキー
ワードとはなりにくい語には高得点を与えないようにし
たこと、或いは、(10)入力した検索語を形態素解析
する形態素解析手段と、該形態素解析手段により得られ
る単語群のそれぞれに重要度を設定する重要度設定手段
と、該重要度から登録文書に付与されている単語群から
構成されるキーワードの一致度を計算する一致度計算手
段と、該一致度からその文書の文書得点を計算する文書
得点計算手段と、該文書得点計算手段により文書を文書
得点順に出力する文書出力手段とから成り、前記一致度
計算手段でキーワードに含まれる単語と一致する検索語
の単語の重要度の積を一致度とすること、更には、(1
1)前記(10)において、前記一致度計算手段でキー
ワードに含まれる単語並びと検索語に含まれる単語並び
とが一致する場合に一致度が大きくなるようにするこ
と、更には、(12)前記(10)において、前記一致
度計算手段でキーワード検索語が完全に一致する際の一
致度が検索語に含まれる単語数に応じて変わらないこ
と、更には、(13)前記(10)において、前記文書
得点計算手段で登録文書のキーワードと検索語の一致度
の平均値を文書得点とすること、更には、(14)前記
(10)において、前記文書得点計算手段で登録文書の
キーワードと検索語の一致度の和を一致度が1以上とな
ったキーワード数で割った値を文書得点とすること、更
には、(15)前記(10)において、前記文書得点計
算手段で登録文書のキーワードと検索語の一致度の最大
値を文書得点とすること、更には、(16)前記(1
0)において、前記文書得点計算手段で文書中のキーワ
ードの出現位置に応じて文書得点の計算法を変更するこ
と、更には、(17)前記(16)において、キーワー
ドの出現位置が文書のタイトルの場合、一致度計算手段
で得られる一致度にある係数をかけた値を用いて文書得
点を計算すること、更には、(18)前記(16)にお
いて、キーワードの出現位置が文書の第1段落第1文の
場合、一致度計算手段で得られる一致度にある係数をか
けた値を用いて文書得点を計算すること、更には、(1
9)前記(16)において、キーワードの出現位置が文
書の第1段落第2文以降の場合、一致度計算手段で得ら
れる一致度にある係数をかけた値を用いて文書得点を計
算すること、更には、(20)前記(16)において、
キーワードの出現位置が文書の第2段落以降第1文の場
合、一致度計算手段で得られる一致度にある係数をかけ
た値を用いて文書得点を計算すること、更には、(2
1)前記(16)において、キーワードの出現位置が文
書の第2段落以降第2文以降の場合、一致度計算手段で
得られる一致度にある係数をかけた値を用いて文書得点
を計算すること、更には、(22)前記(10)におい
て、前記文書得点計算手段でキーワードの後続語に応じ
て文書得点の計算法を変更すること、更には、(23)
前記(22)において、キーワードの後続語が格助詞
「が」の場合、一致度計算手段で得られる一致度にある
係数をかけた値を用いて文書得点を計算すること、更に
は、(24)前記(22)において、キーワードの後続
語が副助詞「は」の場合、一致度計算手段で得られる一
致度にある係数をかけた値を用いて文書得点を計算する
こと、更には、(25)前記(22)において、キーワ
ードの後続語が格助詞「を」の場合、一致度計算手段で
得られる一致度にある係数をかけた値を用いて文書得点
を計算すること、更には、(26)前記(22)におい
て、キーワードの後続語が格助詞「が」/副助詞「は」
/格助詞「を」以外の場合、一致度計算手段で得られる
一致度にある係数をかけた値を用いて文書得点を計算す
ること、更には、(27)前記(10)において、文書
得点計算手段で文書中のキーワードの出現位置および後
続語に応じて文書得点の計算法を変更すること、或い
は、(28)入力した検索語を形態素解析する形態素解
析手段と、該形態素解析手段によって得られた単語群の
それぞれに重要度を設定する重要度設定手段と、該重要
度設定手段により設定された重要度を用いて登録文書に
付与されているキーワードとの一致度を計算する一致度
計算手段と、該一致度計算手段により計算された一致度
からその文書の文書得点を計算する文書得点計算手段
と、該文書得点計算手段により文書を文書得点順に出力
する文書出力手段とから成り、検索語と各文書中のキー
ワードとの一致度を計算することにより各文書に検索語
に即した得点を付与し、その得点順に文書を出力するこ
と、更には、(29)前記(28)において、前記重要
度設定手段で単語の出現位置に応じてその単語の重要度
を設定すること、更には、(30)前記(29)におい
て、前記重要度設定手段で単語の重要度設定の際に、検
索語の構成単語数に応じて単語の重要度を設定するこ
と、更には、(31)前記(29)において、前記重要
度設定手段で単語の重要度設定の際に、単語の品詞に応
じて重要度を設定すること、更には、(32)前記(3
1)において、前記重要度設定手段で単語の重要度設定
の際に、単語の品詞で記述されない文法的/意味的な特
徴を記述するキーワード素性に応じて重要度を設定する
こと、更には、(33)前記(28)において、前記一
致度計算手段で文書キーワードと検索語の一致度の計算
の際に、キーワードと検索語に共通する単語の重要度の
合計を一致度とすること、更には、(34)前記(3
3)において、前記一致度計算手段で文書キーワードと
検索語の一致度の計算の際に、キーワードに含まれる単
語並びと検索語に含まれる単語並びが一致する場合に一
致度を大きくすること、更には、(35)前記(33)
において、前記一致度計算手段で文書キーワードと検索
語の一致度の計算の際に、キーワードと検索語の未尾の
単語が一致する場合に一致度を大きくすること、更に
は、(36)前記(33)において、前記一致度計算手
段で文書キーワードと検索語の一致度の計算の際に、キ
ーワードと検索語の先頭の単語が一致する場合に一致度
を大きくすることを特徴としたものである。以下、本発
明の実施例に基づいて説明する。
【0006】図1は、本発明による文書検索方式の一実
施例を説明するための構成図で、図中、1は検索語入力
手段、2は文書得点付与手段、3は文書ランキング手
段、4は文書出力手段、5はキーワードが付与された文
書である。まず、ユーザによって検索語が入力される。
次に、文書得点付与手段2によって、その入力された検
索語に応じた得点が各文書に付与される。なお、ここで
はあらかじめ単語単位に区切られ、キーワードが付与さ
れた文書5が用意されているものとする。次に、文書ラ
ンキング手段3によって、得点が付与された文書を得点
の高い順にソートし、文書出力手段4によって出力され
る。
施例を説明するための構成図で、図中、1は検索語入力
手段、2は文書得点付与手段、3は文書ランキング手
段、4は文書出力手段、5はキーワードが付与された文
書である。まず、ユーザによって検索語が入力される。
次に、文書得点付与手段2によって、その入力された検
索語に応じた得点が各文書に付与される。なお、ここで
はあらかじめ単語単位に区切られ、キーワードが付与さ
れた文書5が用意されているものとする。次に、文書ラ
ンキング手段3によって、得点が付与された文書を得点
の高い順にソートし、文書出力手段4によって出力され
る。
【0007】図2は、図1における文書得点付与手段の
動作を説明するためのフローチャートである。step1 ;検索語を形態素解析にかけ、各単語に品詞を付
与する。step2 ;それらの各単語に対して、ルールに従って重要
度を与える。step3 ;各文書のもつキーワードの単語と、検索語の単
語が一部分でも一致したら、さきに検索語の単語に付与
した重要度を与え、そのキーワードごとに重要度を合計
し、キーワードの一致度を計算する。step4 ;各文書ごとに一致度を合計し、その文書の得点
とする。
動作を説明するためのフローチャートである。step1 ;検索語を形態素解析にかけ、各単語に品詞を付
与する。step2 ;それらの各単語に対して、ルールに従って重要
度を与える。step3 ;各文書のもつキーワードの単語と、検索語の単
語が一部分でも一致したら、さきに検索語の単語に付与
した重要度を与え、そのキーワードごとに重要度を合計
し、キーワードの一致度を計算する。step4 ;各文書ごとに一致度を合計し、その文書の得点
とする。
【0008】図2において、「重要度」とは、検索語を
形態素解析してその一語一語に対して付与する値であ
る。「一致度」とは、文書中のキーワードと検索語(部
分)が一致するとそれに相当する検索語の重要度が付与
され、単語ごとに合計された値である。「得点」とは最
終的に一致度が文書ごとに合計されたときの値である。
形態素解析してその一語一語に対して付与する値であ
る。「一致度」とは、文書中のキーワードと検索語(部
分)が一致するとそれに相当する検索語の重要度が付与
され、単語ごとに合計された値である。「得点」とは最
終的に一致度が文書ごとに合計されたときの値である。
【0009】図3は、検索語に対する重要度付与ルール
を説明するためのフローチャートである。なお、前述の
ように検索語は形態素解析され、品詞分解されているも
のとする。まず、最初に重要なことは、ポインタを最後
尾におくことである(step1)。つまり、単語列の最後
尾から順に前に戻りながら処理していくことになる。最
初にnの値に基本点、sum の値に0をセットする(step
2)。次に、その単語にキーワード素性が付与されてい
るかどうかを判断する(step3)。ここで、付与されて
いるものと付与されていないものに分けられるが、付与
されているものは図3の破線の上の部分の処理(ここで
は phase1 と呼ぶ)、付与されていないものは破線の
下の部分の処理(ここでは phase2 と呼ぶ)が行なわ
れることになる。キーワード素性については後述する。
を説明するためのフローチャートである。なお、前述の
ように検索語は形態素解析され、品詞分解されているも
のとする。まず、最初に重要なことは、ポインタを最後
尾におくことである(step1)。つまり、単語列の最後
尾から順に前に戻りながら処理していくことになる。最
初にnの値に基本点、sum の値に0をセットする(step
2)。次に、その単語にキーワード素性が付与されてい
るかどうかを判断する(step3)。ここで、付与されて
いるものと付与されていないものに分けられるが、付与
されているものは図3の破線の上の部分の処理(ここで
は phase1 と呼ぶ)、付与されていないものは破線の
下の部分の処理(ここでは phase2 と呼ぶ)が行なわ
れることになる。キーワード素性については後述する。
【0010】最初に phase1、つまりキーワード素性が
付与されているものについての処理を説明する。まず、
そのキーワード素性が「接頭修飾」かどうかを判断する
(step4)。「接頭修飾」とは、後述するが、後続する
語を修飾するはたらきをもつ接頭辞である。「接頭修
飾」がないならば、その単語にnをセットする(step
5)。そしてsum の値にnを加算し、nの値に1を加算
する(step6)。そしてその単語が単語列の先頭かどう
かを判断し(step7)、先頭でなければ1単語前に戻り
(step8)、step3に戻って同じ処理を繰り返す。つま
り、単語刊の前に進むほどnおよび sum の値が大きく
なる。先頭であれば、ここでキーワード素性の付与され
たものについての処理は終了し、最後尾にもどって(st
ep11)phase2の処理に入る。なお、step4でキーワ
ード素性が「接頭修飾」であったものについては、その
語の基本点をセットし(step9)、sum に基本点を加算
する(step10)。
付与されているものについての処理を説明する。まず、
そのキーワード素性が「接頭修飾」かどうかを判断する
(step4)。「接頭修飾」とは、後述するが、後続する
語を修飾するはたらきをもつ接頭辞である。「接頭修
飾」がないならば、その単語にnをセットする(step
5)。そしてsum の値にnを加算し、nの値に1を加算
する(step6)。そしてその単語が単語列の先頭かどう
かを判断し(step7)、先頭でなければ1単語前に戻り
(step8)、step3に戻って同じ処理を繰り返す。つま
り、単語刊の前に進むほどnおよび sum の値が大きく
なる。先頭であれば、ここでキーワード素性の付与され
たものについての処理は終了し、最後尾にもどって(st
ep11)phase2の処理に入る。なお、step4でキーワ
ード素性が「接頭修飾」であったものについては、その
語の基本点をセットし(step9)、sum に基本点を加算
する(step10)。
【0011】次に、phase2の処理にうつる。step11
で最後尾に戻ったら、phase1で合計してきた sum に1
を加算する(step12)。次に、phase1と同様にキー
ワード素性の有無を調べる(step13)。実際には素性
のあるものはすでに phase1で処理されているので、こ
こでは素性の無いものが対象となる。素性のあるものは
単語列の先頭かどうかを確かめ(step16)、処理を終
了する。さて、step13で素性の無いものはその単語に
sum をセットする(step14)。そして次にいままで
の合計 sum にもう一度 sum を加え、さらに1を加算す
る(step15)。そしてその単語が単語列の先頭かどう
かを判断し(step16)、先頭でなければ1単語前に戻
り(step17)、step12に戻って同じ処理を繰り返
す。つまり、phase2では単語列の前に進むほど sum が
加算されていく。つまり、キーワード素性の付与された
ものは単語列の前に位置するものほど重要度は高くな
り、また、キーワード素性の付与されたものがどれだけ
加算されても(連なっても)キーワード素性の付与され
ない単語の、たとえ1語の方が重要度は高くなる。
で最後尾に戻ったら、phase1で合計してきた sum に1
を加算する(step12)。次に、phase1と同様にキー
ワード素性の有無を調べる(step13)。実際には素性
のあるものはすでに phase1で処理されているので、こ
こでは素性の無いものが対象となる。素性のあるものは
単語列の先頭かどうかを確かめ(step16)、処理を終
了する。さて、step13で素性の無いものはその単語に
sum をセットする(step14)。そして次にいままで
の合計 sum にもう一度 sum を加え、さらに1を加算す
る(step15)。そしてその単語が単語列の先頭かどう
かを判断し(step16)、先頭でなければ1単語前に戻
り(step17)、step12に戻って同じ処理を繰り返
す。つまり、phase2では単語列の前に進むほど sum が
加算されていく。つまり、キーワード素性の付与された
ものは単語列の前に位置するものほど重要度は高くな
り、また、キーワード素性の付与されたものがどれだけ
加算されても(連なっても)キーワード素性の付与され
ない単語の、たとえ1語の方が重要度は高くなる。
【0012】ここで、上記の説明でも用いたキーワード
素性について説明する。キーワード素性には、複合語語
基、固有名詞構成語、接頭修飾、地名識別、元号識別の
5種類がある。それぞれの素性が付与され得る品詞と特
徴、役割を次の表1にまとめる。
素性について説明する。キーワード素性には、複合語語
基、固有名詞構成語、接頭修飾、地名識別、元号識別の
5種類がある。それぞれの素性が付与され得る品詞と特
徴、役割を次の表1にまとめる。
【0013】
【表1】
【0014】「接頭修飾」以外は、単独で出現した場合
キーワードとなりにくい、または識別性が薄いという特
徴をもつ。「装置」だけをみてもこれだけでは特徴のあ
る語とはいえない。また、「地名識別語」「元号識別
語」も同様である。「東京」といっても「東京大学」
「東京〇〇会社」「東京〇〇学校」「〇〇会社東京支
店」というように、一致する語は多く、「東京」単独で
は文書中にマッチする語は多数ある。そうした意図か
ら、これらキーワード素性の付与された語は単語列の前
に位置するにしても1点ずつしか重要度は上げなかっ
た。逆にキーワード素性のない一般名詞や固有名詞は s
um により重要度が高くなる。なお、「接頭修飾」は他
の素性とは少し異なる。通常、接頭辞はキーワードとは
見なされないほどだが、例えば「新」や「大」など後続
の語を修飾する働きが大きいと思われる接頭辞が「接頭
修飾」である。これらについては基本点だけを与えるこ
とにした。
キーワードとなりにくい、または識別性が薄いという特
徴をもつ。「装置」だけをみてもこれだけでは特徴のあ
る語とはいえない。また、「地名識別語」「元号識別
語」も同様である。「東京」といっても「東京大学」
「東京〇〇会社」「東京〇〇学校」「〇〇会社東京支
店」というように、一致する語は多く、「東京」単独で
は文書中にマッチする語は多数ある。そうした意図か
ら、これらキーワード素性の付与された語は単語列の前
に位置するにしても1点ずつしか重要度は上げなかっ
た。逆にキーワード素性のない一般名詞や固有名詞は s
um により重要度が高くなる。なお、「接頭修飾」は他
の素性とは少し異なる。通常、接頭辞はキーワードとは
見なされないほどだが、例えば「新」や「大」など後続
の語を修飾する働きが大きいと思われる接頭辞が「接頭
修飾」である。これらについては基本点だけを与えるこ
とにした。
【0015】次に、以下の語が検索語となった場合を例
にとって、上のルールを説明する。 例1 慶応大学医科学研究所 .形態素解析して品詞単位に分解する。 (形態素解析結果) 慶応大学医科学研究所 → 慶応/大学/医/科学/研
究/所 .ルールに従って単語ごとに重要度をつける。
にとって、上のルールを説明する。 例1 慶応大学医科学研究所 .形態素解析して品詞単位に分解する。 (形態素解析結果) 慶応大学医科学研究所 → 慶応/大学/医/科学/研
究/所 .ルールに従って単語ごとに重要度をつける。
【0016】
【表2】
【0017】重要度(得点)はこのように、まず単語列
の末尾の単語に基本点(ここでは2点)を与える。キー
ワード素性の付与された単語については、その直前の単
語に順次1点を加えていくという処理を繰り返す。キー
ワード素性のつかないもの(ここでは「慶応」)は、そ
れまでの重要度の全ての合計にさらに1を加える。これ
は、たとえ「大学医科学研究所」というキーワードを含
む文書が存在したとしても、「慶応」というキーワード
を含む文書の方が重要と見なすためである。 例2 新素材研究開発 .形態素解析して品詞単位に分解する。 (形態素解析結果) 新素材研究開発 → 新/素材/研究/開発 .ルールに従って単語ごとに重要度をつける。
の末尾の単語に基本点(ここでは2点)を与える。キー
ワード素性の付与された単語については、その直前の単
語に順次1点を加えていくという処理を繰り返す。キー
ワード素性のつかないもの(ここでは「慶応」)は、そ
れまでの重要度の全ての合計にさらに1を加える。これ
は、たとえ「大学医科学研究所」というキーワードを含
む文書が存在したとしても、「慶応」というキーワード
を含む文書の方が重要と見なすためである。 例2 新素材研究開発 .形態素解析して品詞単位に分解する。 (形態素解析結果) 新素材研究開発 → 新/素材/研究/開発 .ルールに従って単語ごとに重要度をつける。
【0018】
【表3】
【0019】接頭辞の扱いと、キーワード素性の付与さ
れていない語が単語列の先頭以外にある場合の扱いの例
である。 キーワード素性「接頭修飾」の付与された接頭辞は、
付与されない接頭辞とは点数上で差をつけるため、基本
点(2点)を与える。 例1ではキーワード素性のないものは単語列の先頭に
あったので、最後尾の単語列の重要度から順に計算して
いた。この例2はキーワード素性のない語(この場合
「素材」)が単語列の中ほどにあるが、流れは同じであ
る。その単語に対しての重要度を最も重くしたいので、
それ以外の語の重要度の合計にさらに1を加えて「素
材」の重要度とした。
れていない語が単語列の先頭以外にある場合の扱いの例
である。 キーワード素性「接頭修飾」の付与された接頭辞は、
付与されない接頭辞とは点数上で差をつけるため、基本
点(2点)を与える。 例1ではキーワード素性のないものは単語列の先頭に
あったので、最後尾の単語列の重要度から順に計算して
いた。この例2はキーワード素性のない語(この場合
「素材」)が単語列の中ほどにあるが、流れは同じであ
る。その単語に対しての重要度を最も重くしたいので、
それ以外の語の重要度の合計にさらに1を加えて「素
材」の重要度とした。
【0020】ここまでで、図2のstepの2の処理が終了
したことになる。こうして検索語に重要度が付与され
た。次に、この重要度を用いて文書ごとに得点を与え
る。得点は、図2のstep3,step4で述べたように、各
文書のキーワードの単語と検索語の単語が一致したら
(たとえ部分一致でも)検索語の単語に付与した重要度
を与え、各単語の一致度を求め、最終的にそれら一致度
を合計することによって得られる。前述の例2「新素材
研究」を用いて得点付与の方法を説明する。つまり、
「新素材研究」を検索語とした場合である。もう一度こ
の検索語の単語ごとの重要度を示す。
したことになる。こうして検索語に重要度が付与され
た。次に、この重要度を用いて文書ごとに得点を与え
る。得点は、図2のstep3,step4で述べたように、各
文書のキーワードの単語と検索語の単語が一致したら
(たとえ部分一致でも)検索語の単語に付与した重要度
を与え、各単語の一致度を求め、最終的にそれら一致度
を合計することによって得られる。前述の例2「新素材
研究」を用いて得点付与の方法を説明する。つまり、
「新素材研究」を検索語とした場合である。もう一度こ
の検索語の単語ごとの重要度を示す。
【0021】
【表4】
【0022】次に、ある文書に次のようなキーワードが
記述されていたとする。このとき、文書中の各キーワー
ドは次のように一致度が算出される。
記述されていたとする。このとき、文書中の各キーワー
ドは次のように一致度が算出される。
【0023】
【表5】
【0024】一致度が算出されたら、文書ごとのその一
致度を合計する。この値がその文書の得点である。例え
ば、この文書でいうば13+11+10=34というこ
とになり、得点は34点ということになる。こうして全
ての文書に得点が付与されたら文書ランキング手段によ
って得点がソートされ、得点の高い文書から文書出力手
段によって出力される。
致度を合計する。この値がその文書の得点である。例え
ば、この文書でいうば13+11+10=34というこ
とになり、得点は34点ということになる。こうして全
ての文書に得点が付与されたら文書ランキング手段によ
って得点がソートされ、得点の高い文書から文書出力手
段によって出力される。
【0025】図4は、本発明による文書検索方式の他の
実施例を説明するための図で、図中、11は検索語入力
手段、12は文書得点付与手段、13は文書ランキング
手段、14は文書出力手段である。検索語入力手段11
は、ユーザの検索語を入力する。文書得点付与手段12
は、入力検索語に応じた得点が全登録文書に対して付与
される。なお、各登録文書にはあらかじめ単語単位に区
切られているキーワードが付与されている。文書ランキ
ング手段13は、登録文書を文書得点の高い順にソート
する。文書出力手段14は、ユーザに検索結果を出力す
る。
実施例を説明するための図で、図中、11は検索語入力
手段、12は文書得点付与手段、13は文書ランキング
手段、14は文書出力手段である。検索語入力手段11
は、ユーザの検索語を入力する。文書得点付与手段12
は、入力検索語に応じた得点が全登録文書に対して付与
される。なお、各登録文書にはあらかじめ単語単位に区
切られているキーワードが付与されている。文書ランキ
ング手段13は、登録文書を文書得点の高い順にソート
する。文書出力手段14は、ユーザに検索結果を出力す
る。
【0026】図5は、図4における文書得点付与手段の
構成図で、図中、21は形態素解析手段、22は重要度
付与手段、23は一致度計算手段、24は文書得点計算
手段、25は登録文書である。形態素解析手段21は検
索語を形態素解析におけ、各単語に品詞を付与する。重
要度付与手段22において、重要度とは、検索語の形態
素解析した結果得られる各単語に付与される各単語の重
要性を表す値である。後述するルールに従って各単語ご
とに重要度を計算する。一致度計算手段23において、
一致度とは、登録文書25に付与されている各キーワー
ドと検索語の一致の程度を表す値である。文書得点計算
手段24において、文書得点とは、登録文書と検索語の
一致の程度を表す値である。登録文書に付与されている
各キーワードと検索語の一致度から計算される。
構成図で、図中、21は形態素解析手段、22は重要度
付与手段、23は一致度計算手段、24は文書得点計算
手段、25は登録文書である。形態素解析手段21は検
索語を形態素解析におけ、各単語に品詞を付与する。重
要度付与手段22において、重要度とは、検索語の形態
素解析した結果得られる各単語に付与される各単語の重
要性を表す値である。後述するルールに従って各単語ご
とに重要度を計算する。一致度計算手段23において、
一致度とは、登録文書25に付与されている各キーワー
ドと検索語の一致の程度を表す値である。文書得点計算
手段24において、文書得点とは、登録文書と検索語の
一致の程度を表す値である。登録文書に付与されている
各キーワードと検索語の一致度から計算される。
【0027】以下、各手段について具体的に説明する。重要度付与手段 まず、検索語の形態素解析した結果得られる各単語に付
与される重要度の計算方法を説明する。重要度はつぎの
ルールにしたがって計算される。 検索語ないで最も語尾に近い品詞群1の単語の重要度
は基本点とする。 それ以外の品詞群1の重要度は、その位置より最も近
い後方にある品詞群1の重要度に増加分を加えた値とす
る。 キーワード素性「接頭修飾」付の接頭辞の重要度は基
本点とする。 キーワード素性「接頭修飾」なしの接頭辞の重要度は
0とする。 品詞群2の重要度は、(1)の品詞群1の重要度の合
計、(2)接頭修飾付の接頭語の重要度、(3)その位
置より後方にある品詞群2の重要度の合計の3つを合計
に増加分を加えた値とする。 上述以外の単語の重要度は0とする。
与される重要度の計算方法を説明する。重要度はつぎの
ルールにしたがって計算される。 検索語ないで最も語尾に近い品詞群1の単語の重要度
は基本点とする。 それ以外の品詞群1の重要度は、その位置より最も近
い後方にある品詞群1の重要度に増加分を加えた値とす
る。 キーワード素性「接頭修飾」付の接頭辞の重要度は基
本点とする。 キーワード素性「接頭修飾」なしの接頭辞の重要度は
0とする。 品詞群2の重要度は、(1)の品詞群1の重要度の合
計、(2)接頭修飾付の接頭語の重要度、(3)その位
置より後方にある品詞群2の重要度の合計の3つを合計
に増加分を加えた値とする。 上述以外の単語の重要度は0とする。
【0028】ただし、品詞群1とは、(1)キーワード
素性「複合語語基」付の一般名詞、(2)キーワード素
性「固有名詞構成語」付の固有名詞、(3)キーワード
素性「地名識別語」付の固有名詞、(4)キーワード素
性「元号識別語」付の固有名詞である。品詞群2とは、
(1)キーワード素性なしの一般名詞、(2)キーワー
ド素性なしの固有名詞、(3)数詞、(4)接尾辞、
(5)未登録語などである。キーワード素性はつぎの表
6のようにまとめられる。
素性「複合語語基」付の一般名詞、(2)キーワード素
性「固有名詞構成語」付の固有名詞、(3)キーワード
素性「地名識別語」付の固有名詞、(4)キーワード素
性「元号識別語」付の固有名詞である。品詞群2とは、
(1)キーワード素性なしの一般名詞、(2)キーワー
ド素性なしの固有名詞、(3)数詞、(4)接尾辞、
(5)未登録語などである。キーワード素性はつぎの表
6のようにまとめられる。
【0029】
【表6】
【0030】このルールによる重要度付与の処理フロー
は前述した図3に示してある。以下、重要度付の例を以
下の表7、表8に示す。なお、ここでは基本点を2点、
増加分を1点としている。
は前述した図3に示してある。以下、重要度付の例を以
下の表7、表8に示す。なお、ここでは基本点を2点、
増加分を1点としている。
【0031】
【表7】
【0032】
【表8】
【0033】一致度計手段 つぎに、検索語の各単語の重要度をもとにキーワードと
検索語の一致度の計算方法を説明する。前述した図1,
図2の実施例では、キーワードに含まれる単語と一致す
る検索語の単語の重要度の合計を一致度としていた。こ
れに対し、請求項10の方式では、キーワードに含まれ
る単語と一致する検索語の単語の重要度の積を一致度と
する。以下に、重要度付与の例2に示した「新素材研究
開発」を検索語として、キーワードを「新素材研究」
「素材研究」「研究素材」と変えた場合の一致度計算の
例を以下の表9に示す。
検索語の一致度の計算方法を説明する。前述した図1,
図2の実施例では、キーワードに含まれる単語と一致す
る検索語の単語の重要度の合計を一致度としていた。こ
れに対し、請求項10の方式では、キーワードに含まれ
る単語と一致する検索語の単語の重要度の積を一致度と
する。以下に、重要度付与の例2に示した「新素材研究
開発」を検索語として、キーワードを「新素材研究」
「素材研究」「研究素材」と変えた場合の一致度計算の
例を以下の表9に示す。
【0034】
【表9】
【0035】請求項11の方式では、一致度計算手段で
キーワードに含まれる単語並びと検索語に含まれる単語
並びとが一致する場合に一致度が大きくなるという特徴
がある。そのため、新たに「隣接点」を導入し、キーワ
ードに含まれる単語並びと検索語に含まれる単語並びと
が一致ごとに一致度に隣接点をかけることとする。再
び、検索語を「新素材研究開発」としてキーワードを変
えた場合の一致度の計算例を以下の表10に示す。な
お、ここでは隣接点を2点としている。
キーワードに含まれる単語並びと検索語に含まれる単語
並びとが一致する場合に一致度が大きくなるという特徴
がある。そのため、新たに「隣接点」を導入し、キーワ
ードに含まれる単語並びと検索語に含まれる単語並びと
が一致ごとに一致度に隣接点をかけることとする。再
び、検索語を「新素材研究開発」としてキーワードを変
えた場合の一致度の計算例を以下の表10に示す。な
お、ここでは隣接点を2点としている。
【0036】
【表10】
【0037】キーワードが「新素材研究」の場合、検索
語とキーワードが完全に一致しており、構成単語におい
て「新」と「素材」および「素材」と「研究」の並びが
ともに一致している。したがって、一致度の計算におい
て隣接点(2点)を2回かけている(表10では、アン
ダーラインで示している)。請求項10と請求項11を
比較する。請求項10では「素材研究」と「研究素材」
に対する一致は同じで24となっていた。しかし、請求
項11の方式ではキーワードと検索語の語順を考慮する
ため、請求項11では検索語「新素材研究開発」と部分
的に語順の一致する「素材研究」の一致度が2倍され、
48となっている。
語とキーワードが完全に一致しており、構成単語におい
て「新」と「素材」および「素材」と「研究」の並びが
ともに一致している。したがって、一致度の計算におい
て隣接点(2点)を2回かけている(表10では、アン
ダーラインで示している)。請求項10と請求項11を
比較する。請求項10では「素材研究」と「研究素材」
に対する一致は同じで24となっていた。しかし、請求
項11の方式ではキーワードと検索語の語順を考慮する
ため、請求項11では検索語「新素材研究開発」と部分
的に語順の一致する「素材研究」の一致度が2倍され、
48となっている。
【0038】請求項12の方式では、キーワードと検索
語が完全に一致する際に一致度が検索語に含まれる単語
数に応じて変わらないという特徴がある。そのため、新
たに「正規化係数」を導入し、キーワードと検索語が完
全一致する場合に一致度が正規化係数になるようにす
る。まず、検索語の構成単語の重要度から検索語の得点
を計算する。検索語得点はキーワードが検索語に等しい
場合の一致度である。例えば、一致度計算法が請求項1
1の方式であれば、検索語「新素材研究開発」の検索語
得点は2×3×2×2×2×2=768となる。正規化
はキーワードと検索語の一致度を検索語得点文書で割
り、正規化係数をかけることで行なう。例えば、正規化
係数を1000点とし、検索語とキーワードが一致する
場合の一致度はつぎの表11のようになる。
語が完全に一致する際に一致度が検索語に含まれる単語
数に応じて変わらないという特徴がある。そのため、新
たに「正規化係数」を導入し、キーワードと検索語が完
全一致する場合に一致度が正規化係数になるようにす
る。まず、検索語の構成単語の重要度から検索語の得点
を計算する。検索語得点はキーワードが検索語に等しい
場合の一致度である。例えば、一致度計算法が請求項1
1の方式であれば、検索語「新素材研究開発」の検索語
得点は2×3×2×2×2×2=768となる。正規化
はキーワードと検索語の一致度を検索語得点文書で割
り、正規化係数をかけることで行なう。例えば、正規化
係数を1000点とし、検索語とキーワードが一致する
場合の一致度はつぎの表11のようになる。
【0039】
【表11】
【0040】正規化しない場合、検索語によって一致度
が異なっているが、正規化処理により検索語によらず一
致度が等しくなる。また、検索語を「新素材研究開発」
として、キーワードを変えた場合の一致度計算例を以下
の表12に示す。
が異なっているが、正規化処理により検索語によらず一
致度が等しくなる。また、検索語を「新素材研究開発」
として、キーワードを変えた場合の一致度計算例を以下
の表12に示す。
【0041】
【表12】
【0042】文書得点計算手段 最後に、キーワードと検索語の一致度をもとに文書得点
の計算方法を説明する。図1,図2に示す実施例では、
登録文書に付与されている各キーワードと検索語の一致
度の登録文書の全キーワードに関する和を文書得点とし
ていた。そのため、登録文書に付与されているキーワー
ド数が多いと文書得点が大きくなってしまう欠点があっ
たが、請求項13あるいは請求項14の方式では、キー
ワード数に依存しにくい。請求項13の方式では、登録
文書の各キーワードと検索語の一致度の平均値を文書得
点とする。すなわち、登録文書の各キーワードと検索語
の一致度の和をその文書のキーワード数で割った値を文
書得点とする。例として、「新素材研究開発」を検索
語、文書に付与されたキーワードを「新素材研究」「素
材研究」「研究素材」「リコー」として場合を以下の表
13に示す。
の計算方法を説明する。図1,図2に示す実施例では、
登録文書に付与されている各キーワードと検索語の一致
度の登録文書の全キーワードに関する和を文書得点とし
ていた。そのため、登録文書に付与されているキーワー
ド数が多いと文書得点が大きくなってしまう欠点があっ
たが、請求項13あるいは請求項14の方式では、キー
ワード数に依存しにくい。請求項13の方式では、登録
文書の各キーワードと検索語の一致度の平均値を文書得
点とする。すなわち、登録文書の各キーワードと検索語
の一致度の和をその文書のキーワード数で割った値を文
書得点とする。例として、「新素材研究開発」を検索
語、文書に付与されたキーワードを「新素材研究」「素
材研究」「研究素材」「リコー」として場合を以下の表
13に示す。
【0043】
【表13】
【0044】この文書のキーワード数が4なので、一致
度の和を4で割っている。請求項14の方式では、登録
文書の各キーワードと検索語の一致度の和を一致度が1
以上となったキーワード数で割った値を文書得点とす
る。
度の和を4で割っている。請求項14の方式では、登録
文書の各キーワードと検索語の一致度の和を一致度が1
以上となったキーワード数で割った値を文書得点とす
る。
【0045】
【表14】
【0046】請求項13とは異なり、一致度が1以上と
なったキーワード数が3なので、一致度の和を3で割っ
ている。請求項15の方式では、登録文書の各キーワー
ドと検索語の一致度の最大値を文書得点とする。
なったキーワード数が3なので、一致度の和を3で割っ
ている。請求項15の方式では、登録文書の各キーワー
ドと検索語の一致度の最大値を文書得点とする。
【0047】
【表15】
【0048】次に、請求項16の実施例について説明す
る。重要度付与および一致度計算方式は前述の実施例と
同じなので、説明を省略する。以下では、文書得点計算
法を説明する。文書得点計算とは、登録文書に付与され
ている各キーワードと検索語の一致度から文書得点を計
算することである。前述の実施例では複数の計算方式を
提案したが、以下では平均値方式を説明に用いる。ただ
し、最大値方式などにも本発明で提案する方式を適用す
ることは可能である。平均値方式では、登録文書の各キ
ーワードと検索語の一致度の平均値を文書得点とする。
例として、「新素材研究開発」を検索語、文書に付与さ
れたキーワードを「新素材研究」「素材研究」「研究素
材」「リコー」とした場合を示す。
る。重要度付与および一致度計算方式は前述の実施例と
同じなので、説明を省略する。以下では、文書得点計算
法を説明する。文書得点計算とは、登録文書に付与され
ている各キーワードと検索語の一致度から文書得点を計
算することである。前述の実施例では複数の計算方式を
提案したが、以下では平均値方式を説明に用いる。ただ
し、最大値方式などにも本発明で提案する方式を適用す
ることは可能である。平均値方式では、登録文書の各キ
ーワードと検索語の一致度の平均値を文書得点とする。
例として、「新素材研究開発」を検索語、文書に付与さ
れたキーワードを「新素材研究」「素材研究」「研究素
材」「リコー」とした場合を示す。
【0049】
【表16】
【0050】本発明の請求項16の方式では、キーワー
ドの出現位置によって文書得点の計算結果が変わる。一
般に文書中の出現位置によってキーワードの重要性は異
なるため、出現位置によって文書得点の計算結果を変え
ることでユーザの要求にあった検索結果をもとめるのに
有効である。構成(17)では、キーワードの出現位置
がタイトルの場合、一致度計算手段で得られる一致度
(オリジナル一致度)にタイトル用係数をかけた値(重
みつき一致度)を文書得点計算に用いる。先ほどの例
で、各キーワードの出現位置はつぎの表に示す通りであ
ったとする。ここでタイトル用係数を2とした場合、タ
イトルに出現した「素材研究」の重みつき一致度は61
×2=122と計算される。その結果、文書得点も以前
の値と異なっている。
ドの出現位置によって文書得点の計算結果が変わる。一
般に文書中の出現位置によってキーワードの重要性は異
なるため、出現位置によって文書得点の計算結果を変え
ることでユーザの要求にあった検索結果をもとめるのに
有効である。構成(17)では、キーワードの出現位置
がタイトルの場合、一致度計算手段で得られる一致度
(オリジナル一致度)にタイトル用係数をかけた値(重
みつき一致度)を文書得点計算に用いる。先ほどの例
で、各キーワードの出現位置はつぎの表に示す通りであ
ったとする。ここでタイトル用係数を2とした場合、タ
イトルに出現した「素材研究」の重みつき一致度は61
×2=122と計算される。その結果、文書得点も以前
の値と異なっている。
【0051】
【表17】
【0052】構成(18)〜(21)では、キーワード
の出現位置がそれぞれ第1段落第1文、第1段落第2文
以降、第2段落以降第1文、第2段落以降第2文以降の
場合に係数をかけた重みつき一致度を文書得点の計算に
用いる。先ほどの例で、第1段落第1文用係数を1.
5、第1段落第2文以降用係数を1.2、第2段落以降
第1文用係数を1、第2段落以降第2文以降用係数を
0.8とした場合の文書得点の計算をつぎの表18に示
す。
の出現位置がそれぞれ第1段落第1文、第1段落第2文
以降、第2段落以降第1文、第2段落以降第2文以降の
場合に係数をかけた重みつき一致度を文書得点の計算に
用いる。先ほどの例で、第1段落第1文用係数を1.
5、第1段落第2文以降用係数を1.2、第2段落以降
第1文用係数を1、第2段落以降第2文以降用係数を
0.8とした場合の文書得点の計算をつぎの表18に示
す。
【0053】
【表18】
【0054】本発明の請求項17の方式では、キーワー
ドの後続語によって文書得点の計算結果が変わる。一般
にキーワードの後続語によってキーワードの重要性は異
なるため、後続語によって文書得点の計算結果を変える
ことでユーザの要求にあった検索結果をもとめるのに有
効である。構成(23)では、キーワードの後続語が格
助詞「が」の場合、一致度計算手段で得られる一致度
(オリジナル一致度)に「が」用係数をかけた値(重み
つき一致度)を文書得点計算に用いる。先ほどの例で、
各キーワードの後続語はつぎの表に示す通りであったと
する。ここで「が」用係数を2とした場合、後続語が
「が」である「新素材研究」の重みつき一致度は249
×2=498と計算される。その結果、文書得点も以前
の値と異なっている。
ドの後続語によって文書得点の計算結果が変わる。一般
にキーワードの後続語によってキーワードの重要性は異
なるため、後続語によって文書得点の計算結果を変える
ことでユーザの要求にあった検索結果をもとめるのに有
効である。構成(23)では、キーワードの後続語が格
助詞「が」の場合、一致度計算手段で得られる一致度
(オリジナル一致度)に「が」用係数をかけた値(重み
つき一致度)を文書得点計算に用いる。先ほどの例で、
各キーワードの後続語はつぎの表に示す通りであったと
する。ここで「が」用係数を2とした場合、後続語が
「が」である「新素材研究」の重みつき一致度は249
×2=498と計算される。その結果、文書得点も以前
の値と異なっている。
【0055】
【表19】
【0056】構成(24)〜(26)では、キーワード
の後続語がそれぞれ副助詞「は」、格助詞「を」、格格
助詞「が」副助詞「は」/格助詞「を」以外(その他)
の場合に係数をかけた重みつき一致度を文書得点の計算
に用いる。先ほどの例で、「は」用係数を1.5、
「を」用係数を1、その他用係数を0.5とした場合の
文書得点の計算をつぎの表20に示す。
の後続語がそれぞれ副助詞「は」、格助詞「を」、格格
助詞「が」副助詞「は」/格助詞「を」以外(その他)
の場合に係数をかけた重みつき一致度を文書得点の計算
に用いる。先ほどの例で、「は」用係数を1.5、
「を」用係数を1、その他用係数を0.5とした場合の
文書得点の計算をつぎの表20に示す。
【0057】
【表20】
【0058】本発明の構成(27)の方式では、キーワ
ードの出現位置および後続語によって文書得点の計算結
果が変わる。構成(16)〜構成(26)で導入された
ものをまとめて適用し、文書得点を計算する。先ほどの
例では、つぎのように文書得点が計算される。
ードの出現位置および後続語によって文書得点の計算結
果が変わる。構成(16)〜構成(26)で導入された
ものをまとめて適用し、文書得点を計算する。先ほどの
例では、つぎのように文書得点が計算される。
【0059】
【表21】
【0060】以上に説明した文書検索方式では次のこと
を特徴とするものであった。 ユーザが入力する検索語と文書に付与されているキー
ワードが部分的に一致する際にも検索できる。 検索の際、検索語とキーワードの一致の程度(一致
度)が計算される。そのため、次のステップにしたがっ
て検索処理が実施される。 S1;検索語を形態素解析することで単語分割する。 S2;その単語ごとの重要度を設定する。 S3;検索語とキーワードの共通する単語の重要度から
一致度を計算する。 しかし、この方式はいくつかの改善点がある。 (a)前記S2の重要度設定において、検索語を2回に
わたって後ろから前に走査する必要があった。そのた
め、重要度設定が複雑である。 (b)前記S3の一致度計算において、前記段落番号
(0022)〜(0024)では、キーワードと検索語
の単語の順序を無視していたため、単語順の異なるキー
ワードに対しても一致度が同じ値になる。例えば、この
方式では「素材研究」と「研究素材」のような同じ構成
単語から成る語順の異るキーワードを区別できなかっ
た。 (c)前記段落番号(0035)に示すように、隣接点
を導入することで語順の異なるキーワードの区別ができ
るが、一致度の計算に積演算を用いていた。一般に、コ
ンピュータにおいて積演算は和演算よりも演算速度が遅
いため、この方式は文書検索が遅くなる。
を特徴とするものであった。 ユーザが入力する検索語と文書に付与されているキー
ワードが部分的に一致する際にも検索できる。 検索の際、検索語とキーワードの一致の程度(一致
度)が計算される。そのため、次のステップにしたがっ
て検索処理が実施される。 S1;検索語を形態素解析することで単語分割する。 S2;その単語ごとの重要度を設定する。 S3;検索語とキーワードの共通する単語の重要度から
一致度を計算する。 しかし、この方式はいくつかの改善点がある。 (a)前記S2の重要度設定において、検索語を2回に
わたって後ろから前に走査する必要があった。そのた
め、重要度設定が複雑である。 (b)前記S3の一致度計算において、前記段落番号
(0022)〜(0024)では、キーワードと検索語
の単語の順序を無視していたため、単語順の異なるキー
ワードに対しても一致度が同じ値になる。例えば、この
方式では「素材研究」と「研究素材」のような同じ構成
単語から成る語順の異るキーワードを区別できなかっ
た。 (c)前記段落番号(0035)に示すように、隣接点
を導入することで語順の異なるキーワードの区別ができ
るが、一致度の計算に積演算を用いていた。一般に、コ
ンピュータにおいて積演算は和演算よりも演算速度が遅
いため、この方式は文書検索が遅くなる。
【0061】以下に説明する実施例では、前記改善点
(a)については、検索語の走査を1回ですむようにす
る。改善点(b)については、一致度計算において単語
順が一致する場合、単語順の一致に応じてボーナス得点
を与えるようにする。改善点(c)については、一致度
計算に積演算を用いないようにするものである。図6
は、本発明による文書検索方式の更に他の実施例を説明
するための構成図で、図中、31は文書検索手段、32
は検索語入力手段、33は文書得点付与手段、34は文
書ソート手段、35は文書出口手段、36は索引語ファ
イル、37は文書ファイル、38は文書登録手段であ
る。
(a)については、検索語の走査を1回ですむようにす
る。改善点(b)については、一致度計算において単語
順が一致する場合、単語順の一致に応じてボーナス得点
を与えるようにする。改善点(c)については、一致度
計算に積演算を用いないようにするものである。図6
は、本発明による文書検索方式の更に他の実施例を説明
するための構成図で、図中、31は文書検索手段、32
は検索語入力手段、33は文書得点付与手段、34は文
書ソート手段、35は文書出口手段、36は索引語ファ
イル、37は文書ファイル、38は文書登録手段であ
る。
【0062】文書登録手段38は、ユーザが入力した文
書とそれに付与されているキーワードを文書ファイルと
索引語ファイルに保存する。1つの登録文書には複数の
キーワードが設定可能であり、1つのキーワードは複数
の構成単語からなる複合語であってもよい(例えば、
「文書検索」は「文書」と「検索」の2単語から構成さ
れる複合語である)。索引語ファイル36では、登録文
書ごとの(複数の)キーワードを識別可能な構成をと
る。文書検索手段31は、ユーザが入力した検索語に一
致する文書を索引語ファイル36を用いて探しだし、結
果をユーザに提示する。文書検索は、検索語入力手段3
2と文書得点付与手段33と文書ソート手段34と文書
出力手段35との4つの手段から構成されている。検索
語入力手段32では、ユーザの検索語を入力する。文書
得点付与手段33では、入力検索語に応じた得点を全登
録文書に対して計算する。文書ソート手段34では、登
録文書を文書得点の高い順にソートする。文書出力手段
35では、ユーザに検索結果を出力する。
書とそれに付与されているキーワードを文書ファイルと
索引語ファイルに保存する。1つの登録文書には複数の
キーワードが設定可能であり、1つのキーワードは複数
の構成単語からなる複合語であってもよい(例えば、
「文書検索」は「文書」と「検索」の2単語から構成さ
れる複合語である)。索引語ファイル36では、登録文
書ごとの(複数の)キーワードを識別可能な構成をと
る。文書検索手段31は、ユーザが入力した検索語に一
致する文書を索引語ファイル36を用いて探しだし、結
果をユーザに提示する。文書検索は、検索語入力手段3
2と文書得点付与手段33と文書ソート手段34と文書
出力手段35との4つの手段から構成されている。検索
語入力手段32では、ユーザの検索語を入力する。文書
得点付与手段33では、入力検索語に応じた得点を全登
録文書に対して計算する。文書ソート手段34では、登
録文書を文書得点の高い順にソートする。文書出力手段
35では、ユーザに検索結果を出力する。
【0063】図7は、図6における文書得点付与手段の
構成図で、図中、41は形態素解析手段、42は重要度
設定手段、43は文書得点計算手段、44は一致度計算
手段である。形態素解析手段41は検索語を形態素解析
し、単語に分割するとともに単語ごとに品詞を判定す
る。なお、本発明の文書検索装置では、ユーザの入力す
る検索語として複数の単語から構成される複合語を使用
できる。重要度設定手段42において、重要度とは、検
索語の形態素解析した結果得られる各単語に付与される
各単語の重要性を表す値である。設定方法の詳細につい
ては後述する。文書得点計算手段43において、文書得
点とは、登録文書と検索語の一致の程度を表す値であ
る。登録文書に付与されている各キーワードとの検索語
の一致度から計算される。ここで、一致度とは、登録文
書に付与されている各キーワードと検索語の一致の程度
を表す値である。検索語の各単語の重要度から計算され
るが、計算方法の詳細については後述する。文書得点の
計算方法は前述した方法(前記段落番号(0042)〜
(0055))を用いる。
構成図で、図中、41は形態素解析手段、42は重要度
設定手段、43は文書得点計算手段、44は一致度計算
手段である。形態素解析手段41は検索語を形態素解析
し、単語に分割するとともに単語ごとに品詞を判定す
る。なお、本発明の文書検索装置では、ユーザの入力す
る検索語として複数の単語から構成される複合語を使用
できる。重要度設定手段42において、重要度とは、検
索語の形態素解析した結果得られる各単語に付与される
各単語の重要性を表す値である。設定方法の詳細につい
ては後述する。文書得点計算手段43において、文書得
点とは、登録文書と検索語の一致の程度を表す値であ
る。登録文書に付与されている各キーワードとの検索語
の一致度から計算される。ここで、一致度とは、登録文
書に付与されている各キーワードと検索語の一致の程度
を表す値である。検索語の各単語の重要度から計算され
るが、計算方法の詳細については後述する。文書得点の
計算方法は前述した方法(前記段落番号(0042)〜
(0055))を用いる。
【0064】以下に、重要度設定手段と一致度計算手段
について説明する。まず、重要度設定手段について説明
する。重要度設定時には、ユーザの入力した検索語は形
態素解析により単語に分割されている。n(n>0)個
の単語から構成されている検索語Qをq1…qnと書くこ
ととする。例えば、検索語「文書検索装置」は「文書」
「検索」「装置」の3語から構成されており、q1=文
書、q2=検索、q3=装置となる。検索語に含まれる単
語qの重要度をw(q)と書くこととする。本発明で
は、単語の重要度はつぎのように与えられる。 ・検索語の未尾の単語の重要度は、基本点αとする。 ・未尾以外の単語の重要度は、基本点に未尾からの距離
に位置係数βを乗じた値を加えた値とする。
について説明する。まず、重要度設定手段について説明
する。重要度設定時には、ユーザの入力した検索語は形
態素解析により単語に分割されている。n(n>0)個
の単語から構成されている検索語Qをq1…qnと書くこ
ととする。例えば、検索語「文書検索装置」は「文書」
「検索」「装置」の3語から構成されており、q1=文
書、q2=検索、q3=装置となる。検索語に含まれる単
語qの重要度をw(q)と書くこととする。本発明で
は、単語の重要度はつぎのように与えられる。 ・検索語の未尾の単語の重要度は、基本点αとする。 ・未尾以外の単語の重要度は、基本点に未尾からの距離
に位置係数βを乗じた値を加えた値とする。
【0065】これを式で書くとつぎのようになる。 w(qi)=α+β*(n−i) …(1) この方式では、従来技術で述べたように検索語を2回走
査する必要がなく、1回の走査で検索語の構成単語全て
に重要度を設定することができる。重要度設定を例で示
す。検索語を「新素材繊維開発」とする。この検索語は
「新」「素材」「繊維」「開発」の4単語に分割され
る。上式のパラメータを、α=10,β=2とした場
合、各単語の重要度は、以下の表22のようになる。
査する必要がなく、1回の走査で検索語の構成単語全て
に重要度を設定することができる。重要度設定を例で示
す。検索語を「新素材繊維開発」とする。この検索語は
「新」「素材」「繊維」「開発」の4単語に分割され
る。上式のパラメータを、α=10,β=2とした場
合、各単語の重要度は、以下の表22のようになる。
【0066】
【表22】
【0067】前述の方式では、検索語の構成単語数が多
くなると、先頭に近い単語の重要度が高くなる一方なの
で、異なる検索語において先頭単語が同一の場合でも検
索語の構成単語数が多いほどその単語の重要度が高くな
ってしまうという問題がある。請求項20の方式では、
検索語の構成単語数に応じたバイアスをかけることで、
このような問題点を回避する。すなわち、構成単語数係
数γを導入し、重要度を設定する。 w(qi)=α+β*(n−i)+γ*n …(2) とくに、γ=−βとすれば、先頭単語の重要度が構成単
語数とは独立に、いつも同じ値にできる。先ほどの例で
用いた検索語「新素材繊維開発」に対し、パラメータ
を、α=12,β=2,γ=−2とした場合、各単語の
重要度は、以下の表23のようになる。
くなると、先頭に近い単語の重要度が高くなる一方なの
で、異なる検索語において先頭単語が同一の場合でも検
索語の構成単語数が多いほどその単語の重要度が高くな
ってしまうという問題がある。請求項20の方式では、
検索語の構成単語数に応じたバイアスをかけることで、
このような問題点を回避する。すなわち、構成単語数係
数γを導入し、重要度を設定する。 w(qi)=α+β*(n−i)+γ*n …(2) とくに、γ=−βとすれば、先頭単語の重要度が構成単
語数とは独立に、いつも同じ値にできる。先ほどの例で
用いた検索語「新素材繊維開発」に対し、パラメータ
を、α=12,β=2,γ=−2とした場合、各単語の
重要度は、以下の表23のようになる。
【0068】
【表23】
【0069】前述の方法では、単語の性質に関わらず同
一の式で重要度を設定していた。しかし、単語の性質に
よって検索用語のとして重要なものとそうでないものが
あり、重要なものには高い重要度を与えることが望まれ
る。例えば、接頭辞などは補助的な役割を果たしている
ので名詞類と比較して一般的に重要度が低い。そこで、
請求項21の方式では、単語の品詞に応じて重要度の設
定パラメータ(α,β,γ)を変えることを可能とし
た。例えば、名詞類(一般名詞,サ変名詞など)に対する
パラメータを、α[名詞]=12,β[名詞]=2,γ[名
詞]=−2,接頭辞に対するパラメータを、α[接頭辞]
=4,β[接頭辞]=0,γ[接頭辞]=0とする。このと
き、検索語「新素材繊維開発」の各単語の重要度は、以
下の表24のようになる。
一の式で重要度を設定していた。しかし、単語の性質に
よって検索用語のとして重要なものとそうでないものが
あり、重要なものには高い重要度を与えることが望まれ
る。例えば、接頭辞などは補助的な役割を果たしている
ので名詞類と比較して一般的に重要度が低い。そこで、
請求項21の方式では、単語の品詞に応じて重要度の設
定パラメータ(α,β,γ)を変えることを可能とし
た。例えば、名詞類(一般名詞,サ変名詞など)に対する
パラメータを、α[名詞]=12,β[名詞]=2,γ[名
詞]=−2,接頭辞に対するパラメータを、α[接頭辞]
=4,β[接頭辞]=0,γ[接頭辞]=0とする。このと
き、検索語「新素材繊維開発」の各単語の重要度は、以
下の表24のようになる。
【0070】
【表24】
【0071】前述の方法では、単語の品詞が同じであれ
ば同一の式で重要度を設定していた。しかし、検索用語
として重要か否かは品詞だけで決められるものではな
く、検索システムが対象とする文書の性質などに依存す
る。前述した実施例ではこのような品詞よりも細かい単
語の文法的/意味的な特徴を記述するものとしてキーワ
ード素性を提案している。例えば、繊維関係の文書検索
システムでは繊維に関する名詞は文書に頻出するので、
検索語としては一般的な名詞よりも重要性が低い。そこ
で、「繊維」という名詞に「複合語語基」というキーワ
ード素性を付与して、この単語を他の一般的な名詞から
識別する。そこで、請求項22の方式では、単語の品詞
だけでなくキーワード素性に応じても重要度の設定パラ
メータ(α,β,γ)を変えることを可能とした。例え
ば、名詞類に対するパラメータをキーワード素性「複合
語語基」の有無によって、α[名詞・素性あり]=12,
β[名詞・素性あり]=2,γ[名詞・素性あり]=−2,
α[名詞・素性なし]=1,β[名詞・素性なし]=1,γ
[名詞・素性なし]=−1とする。接頭辞に対するパラメ
ータは先ほどと同じとすれば、検索語「新素材繊維開
発」の各単語の重要度は、以下の表25のようになる。
ば同一の式で重要度を設定していた。しかし、検索用語
として重要か否かは品詞だけで決められるものではな
く、検索システムが対象とする文書の性質などに依存す
る。前述した実施例ではこのような品詞よりも細かい単
語の文法的/意味的な特徴を記述するものとしてキーワ
ード素性を提案している。例えば、繊維関係の文書検索
システムでは繊維に関する名詞は文書に頻出するので、
検索語としては一般的な名詞よりも重要性が低い。そこ
で、「繊維」という名詞に「複合語語基」というキーワ
ード素性を付与して、この単語を他の一般的な名詞から
識別する。そこで、請求項22の方式では、単語の品詞
だけでなくキーワード素性に応じても重要度の設定パラ
メータ(α,β,γ)を変えることを可能とした。例え
ば、名詞類に対するパラメータをキーワード素性「複合
語語基」の有無によって、α[名詞・素性あり]=12,
β[名詞・素性あり]=2,γ[名詞・素性あり]=−2,
α[名詞・素性なし]=1,β[名詞・素性なし]=1,γ
[名詞・素性なし]=−1とする。接頭辞に対するパラメ
ータは先ほどと同じとすれば、検索語「新素材繊維開
発」の各単語の重要度は、以下の表25のようになる。
【0072】
【表25】
【0073】つぎに、一致度計算方式について説明す
る。一致度計算では文書に付与されているうちの1つの
キーワードと索引語の一致の程度を検索語の構成単語に
設定された重要度を用いて計算する。基本的には、キー
ワードと検索語の共通する構成単語に設定されている重
要度の合計をそのキーワードとその検索語の一致度と定
義する。例えば、「新素材繊維開発」を検索語とし、表
25のように重要度が設定されたとする。ここで、「新
素材」、「新開発」、「合成繊維」の3語をキーワード
として一致度がいくつになるか計算する。
る。一致度計算では文書に付与されているうちの1つの
キーワードと索引語の一致の程度を検索語の構成単語に
設定された重要度を用いて計算する。基本的には、キー
ワードと検索語の共通する構成単語に設定されている重
要度の合計をそのキーワードとその検索語の一致度と定
義する。例えば、「新素材繊維開発」を検索語とし、表
25のように重要度が設定されたとする。ここで、「新
素材」、「新開発」、「合成繊維」の3語をキーワード
として一致度がいくつになるか計算する。
【0074】1.キーワード:「新素材」(「新」「素
材」が構成単語) このとき、「新」「素材」の2単語が検索語と共通であ
る。 一致度=w(新)+w(素材)=4+8=12 2.キーワード:「繊維素材開発」(「繊維」「素材」
「開発」が構成単語) このとき、「繊維」「素材」「開発」の3単語が検索語
と共通である。 一致度=w(繊維)+w(素材)+w(開発)=3+8
+4=15 3.キーワード:「合成繊維販売」(「合成」「繊維」
「販売」が構成単語) このとき、「繊維」のみが検索語と共通である。 一致度=w(繊維)=3
材」が構成単語) このとき、「新」「素材」の2単語が検索語と共通であ
る。 一致度=w(新)+w(素材)=4+8=12 2.キーワード:「繊維素材開発」(「繊維」「素材」
「開発」が構成単語) このとき、「繊維」「素材」「開発」の3単語が検索語
と共通である。 一致度=w(繊維)+w(素材)+w(開発)=3+8
+4=15 3.キーワード:「合成繊維販売」(「合成」「繊維」
「販売」が構成単語) このとき、「繊維」のみが検索語と共通である。 一致度=w(繊維)=3
【0075】前述の方法では、複数の単語が検索語とキ
ーワードに共通な場合、それら共通な単語の出現順序に
より異なるか否かの区別ができない。すなわち、検索語
「新素材繊維開発」に対し、キーワードが「素材繊維」
でも「繊維素材」でも一致度は同じになる。しかし、
「素材」「繊維」の出現順序は「繊維素材」と一致して
いるので、「繊維素材」より「素材繊維」の方が一致度
が大きくなるべきである。このため、検索語とキーワー
ドに共通な単語が複数ある場合、それらの単語の順序
(単語並び)が検索語とキーワードで一致する場合にボ
ーナス点を加えるようにした。ボーナス点(以下、「隣
接点」と呼ぶ)は単語並びの一致個数に比例するものと
し、単語並びあたりの隣接詞をδとする。δ=3とする
と、先ほどと同じ検索語、キーワードに対する一致度は
つぎのようになる。
ーワードに共通な場合、それら共通な単語の出現順序に
より異なるか否かの区別ができない。すなわち、検索語
「新素材繊維開発」に対し、キーワードが「素材繊維」
でも「繊維素材」でも一致度は同じになる。しかし、
「素材」「繊維」の出現順序は「繊維素材」と一致して
いるので、「繊維素材」より「素材繊維」の方が一致度
が大きくなるべきである。このため、検索語とキーワー
ドに共通な単語が複数ある場合、それらの単語の順序
(単語並び)が検索語とキーワードで一致する場合にボ
ーナス点を加えるようにした。ボーナス点(以下、「隣
接点」と呼ぶ)は単語並びの一致個数に比例するものと
し、単語並びあたりの隣接詞をδとする。δ=3とする
と、先ほどと同じ検索語、キーワードに対する一致度は
つぎのようになる。
【0076】1.キーワード:「新素材」 「新」「素材」の並びが共通である。 一致度=w(新)+w(素材)+δ=4+8+3=15 2.キーワード:「繊維素材開発」 3単語が共通だが、単語並びが一致するものはない。 一致度=w(繊維)+w(素材)+w(開発)=3+8
+4=12 前述の方法では、検索語とキーワードが完全に一致した
場合と検索語がキーワードに含まれる場合を区別するこ
とができない。すなわち、検索語「新素材繊維開発」に
対し、キーワードが「新素材繊維開発」であっても「新
素材繊維開発センター」であっても一致度が同じになっ
てしまう。この問題点を解決するため、請求項では検索
語とキーワードの先頭の単語が一致した場合にδ先頭、
請求項では検索語とキーワードの未尾の単語が一致した
場合に、δ[未尾]をボーナス点として加えるようにし
た。δ[先頭]=δ[未尾]=2とすると、先ほどと同じ検
索語、キーワードに対する一致度はつぎのようになる。
+4=12 前述の方法では、検索語とキーワードが完全に一致した
場合と検索語がキーワードに含まれる場合を区別するこ
とができない。すなわち、検索語「新素材繊維開発」に
対し、キーワードが「新素材繊維開発」であっても「新
素材繊維開発センター」であっても一致度が同じになっ
てしまう。この問題点を解決するため、請求項では検索
語とキーワードの先頭の単語が一致した場合にδ先頭、
請求項では検索語とキーワードの未尾の単語が一致した
場合に、δ[未尾]をボーナス点として加えるようにし
た。δ[先頭]=δ[未尾]=2とすると、先ほどと同じ検
索語、キーワードに対する一致度はつぎのようになる。
【0077】1.キーワード:「新素材」 「新」「素材」の単語並びが共通で、「新」が検索語・
キーワードのどちらでも先頭にある。 一致度=w(新)+w(素材)+δ+δ[先頭]=4+8
+3+2=17 2.キーワード:「繊維素材開発」 「開発」が検索語・キーワードのどちらでも未尾にあ
る。 一致度=w(繊維)+w(素材)+w(開発)+δ[未
尾]=3+8+4+2=14
キーワードのどちらでも先頭にある。 一致度=w(新)+w(素材)+δ+δ[先頭]=4+8
+3+2=17 2.キーワード:「繊維素材開発」 「開発」が検索語・キーワードのどちらでも未尾にあ
る。 一致度=w(繊維)+w(素材)+w(開発)+δ[未
尾]=3+8+4+2=14
【0078】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)請求項1に対応する効果:検索語を形態素解析
し、その結果品詞分解された単語と、文書中の品詞単位
で保存されたキーワードを比較することにより検索語と
文書中の語が完全に一致していなくても検索することが
できる。 (2)請求項2に対応する効果:検索語と各文書中のキ
ーワードとの一致度を計算することにより、各文書に検
索語に即した得点を付与することができる。 (3)請求項3に対応する効果:検索語に応じて文書に
得点を付与することができるので、検索語に即した文書
から順に出力することができる。 (4)請求項4に対応する効果:各文書における検索語
に即した得点とは、単語列の最後尾の単語に基本点を付
与し、単語列の前に遡るに従って点数を上げていき、そ
の点数の合計を文書の得点とする方法なので、単語列の
前に位置する単語 ほど高い点数を与えることができる。 (5)請求項5に対応する効果:検索語と文書の一致度
の計算について、キーワード素性の1つである複合語語
基を用いることにより、文書に得点を付与する際にキー
ワードとなり得にくい語には高得点をあたえないように
することができる。 (6)請求項6に対応する効果:検索語と文書の一致度
の計算について、キーワード素性の1つである固有名詞
構成語を用いることにより、文書に得点を付与する際に
キーワードとなり得にくい語には高得点を与えないよう
にすることができる。 (7)請求項7に対応する効果:検索語と文書の一致度
の計算について、キーワード素性の1つである接頭修飾
を用いることにより、特殊な意味をもつ接頭辞には得点
を与えることができる。 (8)請求項8に対応する効果:検索語と文書の一致度
の計算について、キーワード素性の1つである地名識別
語を用いることにより、文書に得点を付与する際にキー
ワードとなり得にくい語には高得点を与えないようにす
ることができる。 (9)請求項9に対応する効果:検索語と文書の一致度
について、キーワード素性の1つである元号識別語を用
いることにより、文書に得点を付与する際にキーワード
となり得にくい語には高得点を与えないようにすること
ができる。 (10)請求項10に対応する効果:一致度計算手段で
キーワードに含まれる単語と一致する検索語の単語の重
要度の積を一致度とすることで、一致度を的確に計算で
きる。 (11)請求項11に対応する効果:一致度の計算に単
語の並び順を考慮に入れることで、一致度を正確に計算
できる。 (12)請求項12に対応する効果:一致度の計算に検
索語に与えられる重要度に応じた正規化処理を導入する
ことで、一致度を検索語の長さに依存することなく正確
に計算できる。 (13)請求項13に対応する効果:文書得点を登録文
書のキーワードと検索語の一致度の平均値をすること
で、文書得点を文書内のキーワード数に依存することな
く正確に計算できる。 (14)請求項14に対応する効果:文書得点を登録文
書のキーワードと検索語の一致度の和を一致度が1以上
となったキーワード数で割った値とすることで、文書得
点を文書内のキーワード数に依存することなく正確に計
算できる。 (15)請求項15に対応する効果:文書得点を登録文
書のキーワードと検索語の一致度の最大値をすること
で、文書得点を文書内のキーワード数に依存することな
く正確に計算できる。 (16)請求項16に対応する効果:キーワードの登録
文書中での出現位置によって重みつき一致度および文書
得点が計算されるので、文書得点が従来と比較して的確
なものになる。 (17)請求項17に対応する効果:キーワードの登録
文書中での後続語によって重みつき一致度および文書得
点が計算されるので、文書得点が従来と比較して的確な
ものになる。 (18)請求項18〜22に対応する効果:重要度設定
手段で、検索語の構成単語の位置によってその単語の重
要度が設定されるため、重要度設定が的確に行なえ、検
索精度が向上する。また、検索語の走査が1回で済むた
め、検索速度が向上する。 (19)請求項23〜26に対応する効果:一致度計算
手段で、検索語とキーワードの構成単語の順序(単語並
び)が一致度に反映されるため、一致度計算が的確に行
なえ、検索精度語が向上する。また、一致度計算が和演
算のみなので検索速度が向上する。
と、以下のような効果がある。 (1)請求項1に対応する効果:検索語を形態素解析
し、その結果品詞分解された単語と、文書中の品詞単位
で保存されたキーワードを比較することにより検索語と
文書中の語が完全に一致していなくても検索することが
できる。 (2)請求項2に対応する効果:検索語と各文書中のキ
ーワードとの一致度を計算することにより、各文書に検
索語に即した得点を付与することができる。 (3)請求項3に対応する効果:検索語に応じて文書に
得点を付与することができるので、検索語に即した文書
から順に出力することができる。 (4)請求項4に対応する効果:各文書における検索語
に即した得点とは、単語列の最後尾の単語に基本点を付
与し、単語列の前に遡るに従って点数を上げていき、そ
の点数の合計を文書の得点とする方法なので、単語列の
前に位置する単語 ほど高い点数を与えることができる。 (5)請求項5に対応する効果:検索語と文書の一致度
の計算について、キーワード素性の1つである複合語語
基を用いることにより、文書に得点を付与する際にキー
ワードとなり得にくい語には高得点をあたえないように
することができる。 (6)請求項6に対応する効果:検索語と文書の一致度
の計算について、キーワード素性の1つである固有名詞
構成語を用いることにより、文書に得点を付与する際に
キーワードとなり得にくい語には高得点を与えないよう
にすることができる。 (7)請求項7に対応する効果:検索語と文書の一致度
の計算について、キーワード素性の1つである接頭修飾
を用いることにより、特殊な意味をもつ接頭辞には得点
を与えることができる。 (8)請求項8に対応する効果:検索語と文書の一致度
の計算について、キーワード素性の1つである地名識別
語を用いることにより、文書に得点を付与する際にキー
ワードとなり得にくい語には高得点を与えないようにす
ることができる。 (9)請求項9に対応する効果:検索語と文書の一致度
について、キーワード素性の1つである元号識別語を用
いることにより、文書に得点を付与する際にキーワード
となり得にくい語には高得点を与えないようにすること
ができる。 (10)請求項10に対応する効果:一致度計算手段で
キーワードに含まれる単語と一致する検索語の単語の重
要度の積を一致度とすることで、一致度を的確に計算で
きる。 (11)請求項11に対応する効果:一致度の計算に単
語の並び順を考慮に入れることで、一致度を正確に計算
できる。 (12)請求項12に対応する効果:一致度の計算に検
索語に与えられる重要度に応じた正規化処理を導入する
ことで、一致度を検索語の長さに依存することなく正確
に計算できる。 (13)請求項13に対応する効果:文書得点を登録文
書のキーワードと検索語の一致度の平均値をすること
で、文書得点を文書内のキーワード数に依存することな
く正確に計算できる。 (14)請求項14に対応する効果:文書得点を登録文
書のキーワードと検索語の一致度の和を一致度が1以上
となったキーワード数で割った値とすることで、文書得
点を文書内のキーワード数に依存することなく正確に計
算できる。 (15)請求項15に対応する効果:文書得点を登録文
書のキーワードと検索語の一致度の最大値をすること
で、文書得点を文書内のキーワード数に依存することな
く正確に計算できる。 (16)請求項16に対応する効果:キーワードの登録
文書中での出現位置によって重みつき一致度および文書
得点が計算されるので、文書得点が従来と比較して的確
なものになる。 (17)請求項17に対応する効果:キーワードの登録
文書中での後続語によって重みつき一致度および文書得
点が計算されるので、文書得点が従来と比較して的確な
ものになる。 (18)請求項18〜22に対応する効果:重要度設定
手段で、検索語の構成単語の位置によってその単語の重
要度が設定されるため、重要度設定が的確に行なえ、検
索精度が向上する。また、検索語の走査が1回で済むた
め、検索速度が向上する。 (19)請求項23〜26に対応する効果:一致度計算
手段で、検索語とキーワードの構成単語の順序(単語並
び)が一致度に反映されるため、一致度計算が的確に行
なえ、検索精度語が向上する。また、一致度計算が和演
算のみなので検索速度が向上する。
【図1】 本発明による文書検索方式の一実施例を説明
するための構成図である。
するための構成図である。
【図2】 図1における文書得点付与手段の動作を説明
するためのフローチャートである。
するためのフローチャートである。
【図3】 本発明による検索語に対する重要付与ルール
を説明するためのフローチャートである。
を説明するためのフローチャートである。
【図4】 本発明による文書検索方式の他の実施例を説
明するための構成図である。
明するための構成図である。
【図5】 図4における文書得点付与手段を構成図であ
る。
る。
【図6】 本発明による文書検索方式の更に他の実施例
を説明するための構成図である。
を説明するための構成図である。
【図7】 図6における文書得点付与手段の構成図であ
る。
る。
1…検索語入力手段、2…文書得点付与手段、3…文書
ランキング手段、4…文書出力手段、5…キーワードか
ら付与された文書。
ランキング手段、4…文書出力手段、5…キーワードか
ら付与された文書。
Claims (26)
- 【請求項1】 入力した検索語を形態素解析する形態素
解析手段と、該形態素解析手段により得られた品詞分解
された単語と、文書中の単語単位で保存されたキーワー
ドとを比較する比較手段とから成り、検索語と文書中の
語が完全に一致していなくても検索することのできるこ
とを特徴とする文書検索方式。 - 【請求項2】 前記検索語と各文書中のキーワードとの
一致度を計算することにより、各文書に検索語に即した
得点を付与することを特徴とする請求項1記載の文書検
索方式。 - 【請求項3】 前記検索語に応じて文書に得点を付与す
ることにより、検索語に即した文書から順に出力するこ
とのできるようにしたことを特徴とする請求項2記載の
文書検索方式。 - 【請求項4】 前記各文書における検索語に即した得点
とは、検索語の単語列の最語尾の単語に基本点を与え、
単語列の前に遡るに従って基本点から重要度を上げてい
き、該重要度の合計を文書の得点とすることを特徴とす
る請求項2記載の文書検索方式。 - 【請求項5】 前記検索語と文書の一致度の計算につい
てはキーワード素性の1つである複合語語基を用いるこ
とにより、文書に得点を付与する際にキーワードとはな
りにくい語には高得点を与えないようにしたことを特徴
とする請求項2記載の文書検索方式。 - 【請求項6】 前記検索語と文書の一致度の計算につい
てはキーワード素性の1つである固有名詞構成語を用い
ることにより、文書に得点を付与する際にキーワードと
はなりにくい語には高得点を与えないようにしたことを
特徴とする請求項2記載の文書検索方式。 - 【請求項7】 前記検索語と文書の一致度の計算につい
てはキーワード素性の1つである接頭修飾を用いること
により、特殊な接頭語には得点を与えるようにしたこと
を特徴とする請求項2記載の文書検索方式。 - 【請求項8】 前記検索語と文書の一致度の計算につい
てはキーワード素性の1つである地名識別語を用いるこ
とにより、文書に得点を付与する際にキーワードとはな
りにくい高得点を与えないようにしたことを特徴とする
請求項2記載の文書検索方式。 - 【請求項9】 前記検索語と文書の一致度の計算につい
てはキーワード素性の1つである元号識別語を用いるこ
とにより、文書に得点を付与する際にキーワードとはな
りにくい語には高得点を与えないようにしたことを特徴
とする請求項2記載の文書検索方式。 - 【請求項10】 入力した検索語を形態素解析する形態
素解析手段と、該形態素解析手段により得られる単語群
のそれぞれに重要度を設定する重要度設定手段と、該重
要度から登録文書に付与されている単語群から構成され
るキーワードの一致度を計算する一致度計算手段と、該
一致度からその文書の文書得点を計算する文書得点計算
手段と、該文書得点計算手段により文書を文書得点順に
出力する文書出力手段とから成り、前記一致度計算手段
でキーワードに含まれる単語と一致する検索語の単語の
重要度の積を一致度とすることを特徴とする文書検索方
式。 - 【請求項11】 前記一致度計算手段でキーワードに含
まれる単語並びと検索語に含まれる単語並びとが一致す
る場合に一致度が大きくなるようにすることを特徴とす
る請求項10記載の文書検索方式。 - 【請求項12】 前記一致度計算手段でキーワード検索
語が完全に一致する際の一致度が検索語に含まれる単語
数に応じて変わらないことを特徴とする請求項10記載
の文書検索方式。 - 【請求項13】 前記文書得点計算手段で登録文書のキ
ーワードと検索語の一致度の平均値を文書得点とするこ
とを特徴とする請求項10記載の文書検索方式。 - 【請求項14】 前記文書得点計算手段で登録文書のキ
ーワードと検索語の一致度の和を一致度が1以上となっ
たキーワード数で割った値を文書得点とすることを特徴
とする請求項10記載の文書検索方式。 - 【請求項15】 前記文書得点計算手段で登録文書のキ
ーワードと検索語の一致度の最大値を文書得点とするこ
とを特徴とする請求項10記載の文書検索方式。 - 【請求項16】 前記文書得点計算手段で文書中のキー
ワードの出現位置に応じて文書得点の計算法を変更する
ことを特徴とする請求項10記載の文書検索方式。 - 【請求項17】 前記文書得点計算手段でキーワードの
後続語に応じて文書得点の計算法を変更することを特徴
とする請求項10記載の文書検索方式。 - 【請求項18】 入力した検索語を形態素解析する形態
素解析手段と、該形態素解析手段によって得られた単語
群のそれぞれに重要度を設定する重要度設定手段と、該
重要度設定手段により設定された重要度を用いて登録文
書に付与されているキーワードとの一致度を計算する一
致度計算手段と、該一致度計算手段により計算された一
致度からその文書の文書得点を計算する文書得点計算手
段と、該文書得点計算手段により文書を文書得点順に出
力する文書出力手段とから成り、検索語と各文書中のキ
ーワードとの一致度を計算することにより各文書に検索
語に即した得点を付与し、その得点順に文書を出力する
ことを特徴とする文書検索方式。 - 【請求項19】 前記重要度設定手段で単語の出現位置
に応じてその単語の重要度を設定することを特徴とする
請求項18記載の文書検索方式。 - 【請求項20】 前記重要度設定手段で単語の重要度設
定の際に、検索語の構成単語数に応じて単語の重要度を
設定することを特徴とする請求項19記載の文書検索方
式。 - 【請求項21】 前記重要度設定手段で単語の重要度設
定の際に、単語の品詞に応じて重要度を設定することを
特徴とする請求項19記載の文書検索方式。 - 【請求項22】 前記重要度設定手段で単語の重要度設
定の際に、単語の品詞で記述されない文法的/意味的な
特徴を記述するキーワード素性に応じて重要度を設定す
ることを特徴とする請求項21記載の文書検索方式。 - 【請求項23】 前記一致度計算手段で文書キーワード
と検索語の一致度の計算の際に、キーワードと検索語に
共通する単語の重要度の合計を一致度とすることを特徴
とする請求項18記載の文書検索方式。 - 【請求項24】 前記一致度計算手段で文書キーワード
と検索語の一致度の計算の際に、キーワードに含まれる
単語並びと検索語に含まれる単語並びが一致する場合に
一致度を大きくすることを特徴とする請求項23記載の
文書検索方式。 - 【請求項25】 前記一致度計算手段で文書キーワード
と検索語の一致度の計算の際に、キーワードと検索語の
未尾の単語が一致する場合に一致度を大きくすることを
特徴とする請求項23記載の文書検索方式。 - 【請求項26】 前記一致度計算手段で文書キーワード
と検索語の一致度の計算の際に、キーワードと検索語の
先頭の単語が一致する場合に一致度を大きくすることを
特徴とする請求項23記載の文書検索方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP13407293A JP3460728B2 (ja) | 1992-08-14 | 1993-05-12 | 文書検索方式 |
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4-238998 | 1992-08-14 | ||
| JP23899892 | 1992-08-14 | ||
| JP4-331001 | 1992-11-17 | ||
| JP33100192 | 1992-11-17 | ||
| JP13407293A JP3460728B2 (ja) | 1992-08-14 | 1993-05-12 | 文書検索方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH06208588A true JPH06208588A (ja) | 1994-07-26 |
| JP3460728B2 JP3460728B2 (ja) | 2003-10-27 |
Family
ID=27316821
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP13407293A Expired - Fee Related JP3460728B2 (ja) | 1992-08-14 | 1993-05-12 | 文書検索方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3460728B2 (ja) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1097545A (ja) * | 1996-09-20 | 1998-04-14 | Sharp Corp | 情報処理装置 |
| JP2000172698A (ja) * | 1998-12-04 | 2000-06-23 | Ricoh Co Ltd | 文書検索システム、文書検索方法およびその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
| US6175828B1 (en) | 1997-02-28 | 2001-01-16 | Sharp Kabushiki Kaisha | Retrieval apparatus |
| JP2002123545A (ja) * | 2000-10-17 | 2002-04-26 | Canon Inc | 文書検索装置、文書検索方法、及び、記録媒体 |
| JP2004234284A (ja) * | 2003-01-30 | 2004-08-19 | Ricoh Co Ltd | 文書検索装置、プログラム、及び記録媒体 |
| JP2005234688A (ja) * | 2004-02-17 | 2005-09-02 | Ricoh Co Ltd | 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 |
| JP2012059126A (ja) * | 2010-09-10 | 2012-03-22 | Mitsubishi Electric Corp | 検索装置 |
| JP2013088923A (ja) * | 2011-10-14 | 2013-05-13 | Yahoo Japan Corp | 重要クエリ抽出装置、重要クエリ抽出方法および重要クエリ抽出プログラム |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH03116377A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 情報検索装置 |
-
1993
- 1993-05-12 JP JP13407293A patent/JP3460728B2/ja not_active Expired - Fee Related
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH03116377A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 情報検索装置 |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1097545A (ja) * | 1996-09-20 | 1998-04-14 | Sharp Corp | 情報処理装置 |
| US6175828B1 (en) | 1997-02-28 | 2001-01-16 | Sharp Kabushiki Kaisha | Retrieval apparatus |
| JP2000172698A (ja) * | 1998-12-04 | 2000-06-23 | Ricoh Co Ltd | 文書検索システム、文書検索方法およびその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
| JP2002123545A (ja) * | 2000-10-17 | 2002-04-26 | Canon Inc | 文書検索装置、文書検索方法、及び、記録媒体 |
| JP2004234284A (ja) * | 2003-01-30 | 2004-08-19 | Ricoh Co Ltd | 文書検索装置、プログラム、及び記録媒体 |
| JP2005234688A (ja) * | 2004-02-17 | 2005-09-02 | Ricoh Co Ltd | 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 |
| JP2012059126A (ja) * | 2010-09-10 | 2012-03-22 | Mitsubishi Electric Corp | 検索装置 |
| JP2013088923A (ja) * | 2011-10-14 | 2013-05-13 | Yahoo Japan Corp | 重要クエリ抽出装置、重要クエリ抽出方法および重要クエリ抽出プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3460728B2 (ja) | 2003-10-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3759242B2 (ja) | 特徴確率自動生成方法及びシステム | |
| US6173251B1 (en) | Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program | |
| US8135717B2 (en) | Processor for fast contextual matching | |
| JP3607462B2 (ja) | 関連キーワード自動抽出装置及びこれを用いた文書検索システム | |
| US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
| KR100451978B1 (ko) | 정보 검색 방법과 정보 검색 장치 | |
| CN103678576B (zh) | 基于动态语义分析的全文检索系统 | |
| US6523030B1 (en) | Sort system for merging database entries | |
| US7516125B2 (en) | Processor for fast contextual searching | |
| JP2742115B2 (ja) | 類似文書検索装置 | |
| JPH1049549A (ja) | 文書検索装置 | |
| JPH0916630A (ja) | 自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及びその製造品 | |
| JPH0424869A (ja) | 文書処理システム | |
| US7676358B2 (en) | System and method for the recognition of organic chemical names in text documents | |
| JP2669601B2 (ja) | 情報検索方法及びシステム | |
| CN111104803A (zh) | 语义理解处理方法、装置、设备及可读存储介质 | |
| JPH0484271A (ja) | 文書内情報検索装置 | |
| JP3460728B2 (ja) | 文書検索方式 | |
| JPH0782504B2 (ja) | 情報検索処理方式および検索ファイル作成装置 | |
| JPH1049543A (ja) | 文書検索装置 | |
| JP3123836B2 (ja) | テキスト型データベース装置 | |
| JPH06282587A (ja) | 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 | |
| JP2000259653A (ja) | 音声認識装置及び音声認識方法 | |
| JP4281899B2 (ja) | 質問文書要約装置、質問応答検索装置、質問文書要約プログラム | |
| JP2002189734A (ja) | 検索語抽出装置および検索語抽出方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080815 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080815 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090815 Year of fee payment: 6 |
|
| LAPS | Cancellation because of no payment of annual fees |