JPH06208588A

JPH06208588A - 文書検索方式

Info

Publication number: JPH06208588A
Application number: JP5134072A
Authority: JP
Inventors: Yasutsugu Ogawa; 泰嗣小川; Reiko Bessho; 礼子別所
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1992-08-14
Filing date: 1993-05-12
Publication date: 1994-07-26
Anticipated expiration: 2018-10-27
Also published as: JP3460728B2

Abstract

(57)【要約】（修正有）【目的】検索語が文書内の語と全く同じでなくても該
当文書と見なすことができる。【構成】検索語入力手段１によりユーザによって検索
語が入力される。文書得点付与手段２において、入力さ
れた検索語を形態素解析し、その結果、品詞分解された
単語と文書中の単語単位で保存されたキーワードとを比
較し、検索語と文書中の語が完全に一致していなくとも
検索することができる。また、文書得点付与手段２によ
り、入力検索語に応じた得点が各文書に付与される。文
書ランキング手段３により、得点が付与された文書を得
点の高い順にソートされる。文書出力手段４により、ユ
ーザに対し検索結果が出力される。

Description

【発明の詳細な説明】

【０００１】

【技術分野】本発明は、文書検索方式に関し、より詳細
には、検索語が文書内の語と全く同じでなくとも、該当
文書と見なすことができるようにした文書検索方式に関
する。例えば、文書管理装置や画像管理装置などに適用
されるものである。

【０００２】

【従来技術】本発明に係る従来技術を記載した公知文献
としては以下のものがある。特開平２−２４５８号公報
に提案されている「類似文書検索装置」は、キーワード
を持っていない文書についても、その文書を形態素解析
などをすることで、自動的にキーワードを抽出して所望
の文書を検索できるようにしたもので、検索語を入力す
ると、それに対し類似度の高い文書を出力し、あらかじ
め文書にキーワードが付与されていなくても、文書から
自立語を抽出し、頻度の高いものから順にキーワードと
し、検索語と比較して類似度を判定するものである。し
かしながら、文書内に検索語と全く同じ語が含まれてな
ければ、該当文書と見なされないことになり、文書から
自立語を抽出し、頻度の高いものから順にキーワードと
し、検索語と比較する方法では、単に出現頻度の高い単
語ほど重要ということになり、正確な検索は行なえない
という欠点がある。

【０００３】また、「意味属性に基づくテキストベース
検索方式」（松尾比呂志外１名情報処理学会編文誌
Vol32,No9,Sep.1991 p1172〜1179）は、多様な表現の類
似関係を扱うために、単語の意味属性に基づいて、検索
指示文を各テキストの見出し文との意味的類似性により
検索するものである。すなわち、見出し語のついた大量
のカードを格納したＤＢ（データベース）から、見出し
文をもとに目的のカードを取り出すもので、文書全体で
なく、見出し文をインデックスとして扱い、検索語と見
出し文の部分的な一致も認めるものである。しかしなが
ら、見出し文を検索の対象としているので、文書全体を
検索の対象とすることはできないという欠点がある。

【０００４】

【目的】本発明は、上述のごとき実情に鑑みなされたも
ので、検索語が、文書内の語と全く同じでなくても該当
文書と見なすことができること、また、検索語に応じて
文書中のキーワードに得点を付与するので、正確な検索
を行なうことができること、さらに、文書全体（つまり
見出し文だけでなく）検索の対象とする文書検索方式を
提供することを目的としてなされたものである。

【０００５】

【構成】本発明は、上記目的を達成するために、（１）
入力した検索語を形態素解析する形態素解析手段と、該
形態素解析手段により得られた品詞分解された単語と、
文書中の単語単位で保存されたキーワードとを比較する
比較手段とから成り、検索語と文書中の語が完全に一致
していなくても検索することのできること、更には、
（２）前記検索語と各文書中のキーワードとの一致度を
計算することにより、各文書に検索語に即した得点を付
与すること、更には、（３）前記（２）において、前記
検索語に応じて文書に得点を付与することにより、検索
語に即した文書から順に出力することのできるようにし
たこと、更には、（４）前記（２）において、前記各文
書における検索語に即した得点とは、検索語の単語列の
最語尾の単語に基本点を与え、単語列の前に遡るに従っ
て基本点から重要度を上げていき、該重要度の合計を文
書の得点とすること、更には、（５）前記（２）におい
て、前記検索語と文書の一致度の計算についてはキーワ
ード素性の１つである複合語語基を用いることにより、
文書に得点を付与する際にキーワードとはなりにくい語
には高得点を与えないようにしたこと、更には、（６）
前記（２）において、前記検索語と文書の一致度の計算
についてはキーワード素性の１つである固有名詞構成語
を用いることにより、文書に得点を付与する際にキーワ
ードとはなりにくい語には高得点を与えないようにした
こと、更には、（７）前記（２）において、前記検索語
と文書の一致度の計算についてはキーワード素性の１つ
である接頭修飾を用いることにより、特殊な接頭語には
得点を与えるようにしたこと、更には、（８）前記
（２）において、前記検索語と文書の一致度の計算につ
いてはキーワード素性の１つである地名識別語を用いる
ことにより、文書に得点を付与する際にキーワードとは
なりにくい高得点を与えないようにしたこと、更には、
（９）前記（２）において、前記検索語と文書の一致度
の計算についてはキーワード素性の１つである元号識別
語を用いることにより、文書に得点を付与する際にキー
ワードとはなりにくい語には高得点を与えないようにし
たこと、或いは、（１０）入力した検索語を形態素解析
する形態素解析手段と、該形態素解析手段により得られ
る単語群のそれぞれに重要度を設定する重要度設定手段
と、該重要度から登録文書に付与されている単語群から
構成されるキーワードの一致度を計算する一致度計算手
段と、該一致度からその文書の文書得点を計算する文書
得点計算手段と、該文書得点計算手段により文書を文書
得点順に出力する文書出力手段とから成り、前記一致度
計算手段でキーワードに含まれる単語と一致する検索語
の単語の重要度の積を一致度とすること、更には、（１
１）前記（１０）において、前記一致度計算手段でキー
ワードに含まれる単語並びと検索語に含まれる単語並び
とが一致する場合に一致度が大きくなるようにするこ
と、更には、（１２）前記（１０）において、前記一致
度計算手段でキーワード検索語が完全に一致する際の一
致度が検索語に含まれる単語数に応じて変わらないこ
と、更には、（１３）前記（１０）において、前記文書
得点計算手段で登録文書のキーワードと検索語の一致度
の平均値を文書得点とすること、更には、（１４）前記
（１０）において、前記文書得点計算手段で登録文書の
キーワードと検索語の一致度の和を一致度が１以上とな
ったキーワード数で割った値を文書得点とすること、更
には、（１５）前記（１０）において、前記文書得点計
算手段で登録文書のキーワードと検索語の一致度の最大
値を文書得点とすること、更には、（１６）前記（１
０）において、前記文書得点計算手段で文書中のキーワ
ードの出現位置に応じて文書得点の計算法を変更するこ
と、更には、（１７）前記（１６）において、キーワー
ドの出現位置が文書のタイトルの場合、一致度計算手段
で得られる一致度にある係数をかけた値を用いて文書得
点を計算すること、更には、（１８）前記（１６）にお
いて、キーワードの出現位置が文書の第１段落第１文の
場合、一致度計算手段で得られる一致度にある係数をか
けた値を用いて文書得点を計算すること、更には、（１
９）前記（１６）において、キーワードの出現位置が文
書の第１段落第２文以降の場合、一致度計算手段で得ら
れる一致度にある係数をかけた値を用いて文書得点を計
算すること、更には、（２０）前記（１６）において、
キーワードの出現位置が文書の第２段落以降第１文の場
合、一致度計算手段で得られる一致度にある係数をかけ
た値を用いて文書得点を計算すること、更には、（２
１）前記（１６）において、キーワードの出現位置が文
書の第２段落以降第２文以降の場合、一致度計算手段で
得られる一致度にある係数をかけた値を用いて文書得点
を計算すること、更には、（２２）前記（１０）におい
て、前記文書得点計算手段でキーワードの後続語に応じ
て文書得点の計算法を変更すること、更には、（２３）
前記（２２）において、キーワードの後続語が格助詞
「が」の場合、一致度計算手段で得られる一致度にある
係数をかけた値を用いて文書得点を計算すること、更に
は、（２４）前記（２２）において、キーワードの後続
語が副助詞「は」の場合、一致度計算手段で得られる一
致度にある係数をかけた値を用いて文書得点を計算する
こと、更には、（２５）前記（２２）において、キーワ
ードの後続語が格助詞「を」の場合、一致度計算手段で
得られる一致度にある係数をかけた値を用いて文書得点
を計算すること、更には、（２６）前記（２２）におい
て、キーワードの後続語が格助詞「が」／副助詞「は」
／格助詞「を」以外の場合、一致度計算手段で得られる
一致度にある係数をかけた値を用いて文書得点を計算す
ること、更には、（２７）前記（１０）において、文書
得点計算手段で文書中のキーワードの出現位置および後
続語に応じて文書得点の計算法を変更すること、或い
は、（２８）入力した検索語を形態素解析する形態素解
析手段と、該形態素解析手段によって得られた単語群の
それぞれに重要度を設定する重要度設定手段と、該重要
度設定手段により設定された重要度を用いて登録文書に
付与されているキーワードとの一致度を計算する一致度
計算手段と、該一致度計算手段により計算された一致度
からその文書の文書得点を計算する文書得点計算手段
と、該文書得点計算手段により文書を文書得点順に出力
する文書出力手段とから成り、検索語と各文書中のキー
ワードとの一致度を計算することにより各文書に検索語
に即した得点を付与し、その得点順に文書を出力するこ
と、更には、（２９）前記（２８）において、前記重要
度設定手段で単語の出現位置に応じてその単語の重要度
を設定すること、更には、（３０）前記（２９）におい
て、前記重要度設定手段で単語の重要度設定の際に、検
索語の構成単語数に応じて単語の重要度を設定するこ
と、更には、（３１）前記（２９）において、前記重要
度設定手段で単語の重要度設定の際に、単語の品詞に応
じて重要度を設定すること、更には、（３２）前記（３
１）において、前記重要度設定手段で単語の重要度設定
の際に、単語の品詞で記述されない文法的／意味的な特
徴を記述するキーワード素性に応じて重要度を設定する
こと、更には、（３３）前記（２８）において、前記一
致度計算手段で文書キーワードと検索語の一致度の計算
の際に、キーワードと検索語に共通する単語の重要度の
合計を一致度とすること、更には、（３４）前記（３
３）において、前記一致度計算手段で文書キーワードと
検索語の一致度の計算の際に、キーワードに含まれる単
語並びと検索語に含まれる単語並びが一致する場合に一
致度を大きくすること、更には、（３５）前記（３３）
において、前記一致度計算手段で文書キーワードと検索
語の一致度の計算の際に、キーワードと検索語の未尾の
単語が一致する場合に一致度を大きくすること、更に
は、（３６）前記（３３）において、前記一致度計算手
段で文書キーワードと検索語の一致度の計算の際に、キ
ーワードと検索語の先頭の単語が一致する場合に一致度
を大きくすることを特徴としたものである。以下、本発
明の実施例に基づいて説明する。

【０００６】図１は、本発明による文書検索方式の一実
施例を説明するための構成図で、図中、１は検索語入力
手段、２は文書得点付与手段、３は文書ランキング手
段、４は文書出力手段、５はキーワードが付与された文
書である。まず、ユーザによって検索語が入力される。
次に、文書得点付与手段２によって、その入力された検
索語に応じた得点が各文書に付与される。なお、ここで
はあらかじめ単語単位に区切られ、キーワードが付与さ
れた文書５が用意されているものとする。次に、文書ラ
ンキング手段３によって、得点が付与された文書を得点
の高い順にソートし、文書出力手段４によって出力され
る。

【０００７】図２は、図１における文書得点付与手段の
動作を説明するためのフローチャートである。step１；検索語を形態素解析にかけ、各単語に品詞を付
与する。step２；それらの各単語に対して、ルールに従って重要
度を与える。step３；各文書のもつキーワードの単語と、検索語の単
語が一部分でも一致したら、さきに検索語の単語に付与
した重要度を与え、そのキーワードごとに重要度を合計
し、キーワードの一致度を計算する。step４；各文書ごとに一致度を合計し、その文書の得点
とする。

【０００８】図２において、「重要度」とは、検索語を
形態素解析してその一語一語に対して付与する値であ
る。「一致度」とは、文書中のキーワードと検索語（部
分）が一致するとそれに相当する検索語の重要度が付与
され、単語ごとに合計された値である。「得点」とは最
終的に一致度が文書ごとに合計されたときの値である。

【０００９】図３は、検索語に対する重要度付与ルール
を説明するためのフローチャートである。なお、前述の
ように検索語は形態素解析され、品詞分解されているも
のとする。まず、最初に重要なことは、ポインタを最後
尾におくことである（step１）。つまり、単語列の最後
尾から順に前に戻りながら処理していくことになる。最
初にｎの値に基本点、sum の値に０をセットする（step
２）。次に、その単語にキーワード素性が付与されてい
るかどうかを判断する（step３）。ここで、付与されて
いるものと付与されていないものに分けられるが、付与
されているものは図３の破線の上の部分の処理（ここで
は phase１と呼ぶ）、付与されていないものは破線の
下の部分の処理（ここでは phase２と呼ぶ）が行なわ
れることになる。キーワード素性については後述する。

【００１０】最初に phase１、つまりキーワード素性が
付与されているものについての処理を説明する。まず、
そのキーワード素性が「接頭修飾」かどうかを判断する
（step４）。「接頭修飾」とは、後述するが、後続する
語を修飾するはたらきをもつ接頭辞である。「接頭修
飾」がないならば、その単語にｎをセットする（step
５）。そしてsum の値にｎを加算し、ｎの値に１を加算
する（step６）。そしてその単語が単語列の先頭かどう
かを判断し（step７）、先頭でなければ１単語前に戻り
（step８）、step３に戻って同じ処理を繰り返す。つま
り、単語刊の前に進むほどｎおよび sum の値が大きく
なる。先頭であれば、ここでキーワード素性の付与され
たものについての処理は終了し、最後尾にもどって（st
ep１１）phase２の処理に入る。なお、step４でキーワ
ード素性が「接頭修飾」であったものについては、その
語の基本点をセットし（step９）、sum に基本点を加算
する（step１０）。

【００１１】次に、phase２の処理にうつる。step１１
で最後尾に戻ったら、phase１で合計してきた sum に１
を加算する（step１２）。次に、phase１と同様にキー
ワード素性の有無を調べる（step１３）。実際には素性
のあるものはすでに phase１で処理されているので、こ
こでは素性の無いものが対象となる。素性のあるものは
単語列の先頭かどうかを確かめ（step１６）、処理を終
了する。さて、step１３で素性の無いものはその単語に
sum をセットする（step１４）。そして次にいままで
の合計 sum にもう一度 sum を加え、さらに１を加算す
る（step１５）。そしてその単語が単語列の先頭かどう
かを判断し（step１６）、先頭でなければ１単語前に戻
り（step１７）、step１２に戻って同じ処理を繰り返
す。つまり、phase２では単語列の前に進むほど sum が
加算されていく。つまり、キーワード素性の付与された
ものは単語列の前に位置するものほど重要度は高くな
り、また、キーワード素性の付与されたものがどれだけ
加算されても（連なっても）キーワード素性の付与され
ない単語の、たとえ１語の方が重要度は高くなる。

【００１２】ここで、上記の説明でも用いたキーワード
素性について説明する。キーワード素性には、複合語語
基、固有名詞構成語、接頭修飾、地名識別、元号識別の
５種類がある。それぞれの素性が付与され得る品詞と特
徴、役割を次の表１にまとめる。

【００１３】

【表１】

【００１４】「接頭修飾」以外は、単独で出現した場合
キーワードとなりにくい、または識別性が薄いという特
徴をもつ。「装置」だけをみてもこれだけでは特徴のあ
る語とはいえない。また、「地名識別語」「元号識別
語」も同様である。「東京」といっても「東京大学」
「東京〇〇会社」「東京〇〇学校」「〇〇会社東京支
店」というように、一致する語は多く、「東京」単独で
は文書中にマッチする語は多数ある。そうした意図か
ら、これらキーワード素性の付与された語は単語列の前
に位置するにしても１点ずつしか重要度は上げなかっ
た。逆にキーワード素性のない一般名詞や固有名詞は s
um により重要度が高くなる。なお、「接頭修飾」は他
の素性とは少し異なる。通常、接頭辞はキーワードとは
見なされないほどだが、例えば「新」や「大」など後続
の語を修飾する働きが大きいと思われる接頭辞が「接頭
修飾」である。これらについては基本点だけを与えるこ
とにした。

【００１５】次に、以下の語が検索語となった場合を例
にとって、上のルールを説明する。例１慶応大学医科学研究所．形態素解析して品詞単位に分解する。（形態素解析結果）慶応大学医科学研究所 → 慶応／大学／医／科学／研
究／所．ルールに従って単語ごとに重要度をつける。

【００１６】

【表２】

【００１７】重要度（得点）はこのように、まず単語列
の末尾の単語に基本点（ここでは２点）を与える。キー
ワード素性の付与された単語については、その直前の単
語に順次１点を加えていくという処理を繰り返す。キー
ワード素性のつかないもの（ここでは「慶応」）は、そ
れまでの重要度の全ての合計にさらに１を加える。これ
は、たとえ「大学医科学研究所」というキーワードを含
む文書が存在したとしても、「慶応」というキーワード
を含む文書の方が重要と見なすためである。例２新素材研究開発．形態素解析して品詞単位に分解する。（形態素解析結果）新素材研究開発 → 新／素材／研究／開発．ルールに従って単語ごとに重要度をつける。

【００１８】

【表３】

【００１９】接頭辞の扱いと、キーワード素性の付与さ
れていない語が単語列の先頭以外にある場合の扱いの例
である。キーワード素性「接頭修飾」の付与された接頭辞は、
付与されない接頭辞とは点数上で差をつけるため、基本
点（２点）を与える。例１ではキーワード素性のないものは単語列の先頭に
あったので、最後尾の単語列の重要度から順に計算して
いた。この例２はキーワード素性のない語（この場合
「素材」）が単語列の中ほどにあるが、流れは同じであ
る。その単語に対しての重要度を最も重くしたいので、
それ以外の語の重要度の合計にさらに１を加えて「素
材」の重要度とした。

【００２０】ここまでで、図２のstepの２の処理が終了
したことになる。こうして検索語に重要度が付与され
た。次に、この重要度を用いて文書ごとに得点を与え
る。得点は、図２のstep３，step４で述べたように、各
文書のキーワードの単語と検索語の単語が一致したら
（たとえ部分一致でも）検索語の単語に付与した重要度
を与え、各単語の一致度を求め、最終的にそれら一致度
を合計することによって得られる。前述の例２「新素材
研究」を用いて得点付与の方法を説明する。つまり、
「新素材研究」を検索語とした場合である。もう一度こ
の検索語の単語ごとの重要度を示す。

【００２１】

【表４】

【００２２】次に、ある文書に次のようなキーワードが
記述されていたとする。このとき、文書中の各キーワー
ドは次のように一致度が算出される。

【００２３】

【表５】

【００２４】一致度が算出されたら、文書ごとのその一
致度を合計する。この値がその文書の得点である。例え
ば、この文書でいうば１３＋１１＋１０＝３４というこ
とになり、得点は３４点ということになる。こうして全
ての文書に得点が付与されたら文書ランキング手段によ
って得点がソートされ、得点の高い文書から文書出力手
段によって出力される。

【００２５】図４は、本発明による文書検索方式の他の
実施例を説明するための図で、図中、１１は検索語入力
手段、１２は文書得点付与手段、１３は文書ランキング
手段、１４は文書出力手段である。検索語入力手段１１
は、ユーザの検索語を入力する。文書得点付与手段１２
は、入力検索語に応じた得点が全登録文書に対して付与
される。なお、各登録文書にはあらかじめ単語単位に区
切られているキーワードが付与されている。文書ランキ
ング手段１３は、登録文書を文書得点の高い順にソート
する。文書出力手段１４は、ユーザに検索結果を出力す
る。

【００２６】図５は、図４における文書得点付与手段の
構成図で、図中、２１は形態素解析手段、２２は重要度
付与手段、２３は一致度計算手段、２４は文書得点計算
手段、２５は登録文書である。形態素解析手段２１は検
索語を形態素解析におけ、各単語に品詞を付与する。重
要度付与手段２２において、重要度とは、検索語の形態
素解析した結果得られる各単語に付与される各単語の重
要性を表す値である。後述するルールに従って各単語ご
とに重要度を計算する。一致度計算手段２３において、
一致度とは、登録文書２５に付与されている各キーワー
ドと検索語の一致の程度を表す値である。文書得点計算
手段２４において、文書得点とは、登録文書と検索語の
一致の程度を表す値である。登録文書に付与されている
各キーワードと検索語の一致度から計算される。

【００２７】以下、各手段について具体的に説明する。重要度付与手段まず、検索語の形態素解析した結果得られる各単語に付
与される重要度の計算方法を説明する。重要度はつぎの
ルールにしたがって計算される。検索語ないで最も語尾に近い品詞群１の単語の重要度
は基本点とする。それ以外の品詞群１の重要度は、その位置より最も近
い後方にある品詞群１の重要度に増加分を加えた値とす
る。キーワード素性「接頭修飾」付の接頭辞の重要度は基
本点とする。キーワード素性「接頭修飾」なしの接頭辞の重要度は
０とする。品詞群２の重要度は、（１）の品詞群１の重要度の合
計、（２）接頭修飾付の接頭語の重要度、（３）その位
置より後方にある品詞群２の重要度の合計の３つを合計
に増加分を加えた値とする。上述以外の単語の重要度は０とする。

【００２８】ただし、品詞群１とは、（１）キーワード
素性「複合語語基」付の一般名詞、（２）キーワード素
性「固有名詞構成語」付の固有名詞、（３）キーワード
素性「地名識別語」付の固有名詞、（４）キーワード素
性「元号識別語」付の固有名詞である。品詞群２とは、
（１）キーワード素性なしの一般名詞、（２）キーワー
ド素性なしの固有名詞、（３）数詞、（４）接尾辞、
（５）未登録語などである。キーワード素性はつぎの表
６のようにまとめられる。

【００２９】

【表６】

【００３０】このルールによる重要度付与の処理フロー
は前述した図３に示してある。以下、重要度付の例を以
下の表７、表８に示す。なお、ここでは基本点を２点、
増加分を１点としている。

【００３１】

【表７】

【００３２】

【表８】

【００３３】一致度計手段つぎに、検索語の各単語の重要度をもとにキーワードと
検索語の一致度の計算方法を説明する。前述した図１，
図２の実施例では、キーワードに含まれる単語と一致す
る検索語の単語の重要度の合計を一致度としていた。こ
れに対し、請求項１０の方式では、キーワードに含まれ
る単語と一致する検索語の単語の重要度の積を一致度と
する。以下に、重要度付与の例２に示した「新素材研究
開発」を検索語として、キーワードを「新素材研究」
「素材研究」「研究素材」と変えた場合の一致度計算の
例を以下の表９に示す。

【００３４】

【表９】

【００３５】請求項１１の方式では、一致度計算手段で
キーワードに含まれる単語並びと検索語に含まれる単語
並びとが一致する場合に一致度が大きくなるという特徴
がある。そのため、新たに「隣接点」を導入し、キーワ
ードに含まれる単語並びと検索語に含まれる単語並びと
が一致ごとに一致度に隣接点をかけることとする。再
び、検索語を「新素材研究開発」としてキーワードを変
えた場合の一致度の計算例を以下の表１０に示す。な
お、ここでは隣接点を２点としている。

【００３６】

【表１０】

【００３７】キーワードが「新素材研究」の場合、検索
語とキーワードが完全に一致しており、構成単語におい
て「新」と「素材」および「素材」と「研究」の並びが
ともに一致している。したがって、一致度の計算におい
て隣接点（２点）を２回かけている（表１０では、アン
ダーラインで示している）。請求項１０と請求項１１を
比較する。請求項１０では「素材研究」と「研究素材」
に対する一致は同じで２４となっていた。しかし、請求
項１１の方式ではキーワードと検索語の語順を考慮する
ため、請求項１１では検索語「新素材研究開発」と部分
的に語順の一致する「素材研究」の一致度が２倍され、
４８となっている。

【００３８】請求項１２の方式では、キーワードと検索
語が完全に一致する際に一致度が検索語に含まれる単語
数に応じて変わらないという特徴がある。そのため、新
たに「正規化係数」を導入し、キーワードと検索語が完
全一致する場合に一致度が正規化係数になるようにす
る。まず、検索語の構成単語の重要度から検索語の得点
を計算する。検索語得点はキーワードが検索語に等しい
場合の一致度である。例えば、一致度計算法が請求項１
１の方式であれば、検索語「新素材研究開発」の検索語
得点は２×３×２×２×２×２＝７６８となる。正規化
はキーワードと検索語の一致度を検索語得点文書で割
り、正規化係数をかけることで行なう。例えば、正規化
係数を１０００点とし、検索語とキーワードが一致する
場合の一致度はつぎの表１１のようになる。

【００３９】

【表１１】

【００４０】正規化しない場合、検索語によって一致度
が異なっているが、正規化処理により検索語によらず一
致度が等しくなる。また、検索語を「新素材研究開発」
として、キーワードを変えた場合の一致度計算例を以下
の表１２に示す。

【００４１】

【表１２】

【００４２】文書得点計算手段最後に、キーワードと検索語の一致度をもとに文書得点
の計算方法を説明する。図１，図２に示す実施例では、
登録文書に付与されている各キーワードと検索語の一致
度の登録文書の全キーワードに関する和を文書得点とし
ていた。そのため、登録文書に付与されているキーワー
ド数が多いと文書得点が大きくなってしまう欠点があっ
たが、請求項１３あるいは請求項１４の方式では、キー
ワード数に依存しにくい。請求項１３の方式では、登録
文書の各キーワードと検索語の一致度の平均値を文書得
点とする。すなわち、登録文書の各キーワードと検索語
の一致度の和をその文書のキーワード数で割った値を文
書得点とする。例として、「新素材研究開発」を検索
語、文書に付与されたキーワードを「新素材研究」「素
材研究」「研究素材」「リコー」として場合を以下の表
１３に示す。

【００４３】

【表１３】

【００４４】この文書のキーワード数が４なので、一致
度の和を４で割っている。請求項１４の方式では、登録
文書の各キーワードと検索語の一致度の和を一致度が１
以上となったキーワード数で割った値を文書得点とす
る。

【００４５】

【表１４】

【００４６】請求項１３とは異なり、一致度が１以上と
なったキーワード数が３なので、一致度の和を３で割っ
ている。請求項１５の方式では、登録文書の各キーワー
ドと検索語の一致度の最大値を文書得点とする。

【００４７】

【表１５】

【００４８】次に、請求項１６の実施例について説明す
る。重要度付与および一致度計算方式は前述の実施例と
同じなので、説明を省略する。以下では、文書得点計算
法を説明する。文書得点計算とは、登録文書に付与され
ている各キーワードと検索語の一致度から文書得点を計
算することである。前述の実施例では複数の計算方式を
提案したが、以下では平均値方式を説明に用いる。ただ
し、最大値方式などにも本発明で提案する方式を適用す
ることは可能である。平均値方式では、登録文書の各キ
ーワードと検索語の一致度の平均値を文書得点とする。
例として、「新素材研究開発」を検索語、文書に付与さ
れたキーワードを「新素材研究」「素材研究」「研究素
材」「リコー」とした場合を示す。

【００４９】

【表１６】

【００５０】本発明の請求項１６の方式では、キーワー
ドの出現位置によって文書得点の計算結果が変わる。一
般に文書中の出現位置によってキーワードの重要性は異
なるため、出現位置によって文書得点の計算結果を変え
ることでユーザの要求にあった検索結果をもとめるのに
有効である。構成（１７）では、キーワードの出現位置
がタイトルの場合、一致度計算手段で得られる一致度
（オリジナル一致度）にタイトル用係数をかけた値（重
みつき一致度）を文書得点計算に用いる。先ほどの例
で、各キーワードの出現位置はつぎの表に示す通りであ
ったとする。ここでタイトル用係数を２とした場合、タ
イトルに出現した「素材研究」の重みつき一致度は６１
×２＝１２２と計算される。その結果、文書得点も以前
の値と異なっている。

【００５１】

【表１７】

【００５２】構成（１８）〜（２１）では、キーワード
の出現位置がそれぞれ第１段落第１文、第１段落第２文
以降、第２段落以降第１文、第２段落以降第２文以降の
場合に係数をかけた重みつき一致度を文書得点の計算に
用いる。先ほどの例で、第１段落第１文用係数を１.
５、第１段落第２文以降用係数を１.２、第２段落以降
第１文用係数を１、第２段落以降第２文以降用係数を
０.８とした場合の文書得点の計算をつぎの表１８に示
す。

【００５３】

【表１８】

【００５４】本発明の請求項１７の方式では、キーワー
ドの後続語によって文書得点の計算結果が変わる。一般
にキーワードの後続語によってキーワードの重要性は異
なるため、後続語によって文書得点の計算結果を変える
ことでユーザの要求にあった検索結果をもとめるのに有
効である。構成（２３）では、キーワードの後続語が格
助詞「が」の場合、一致度計算手段で得られる一致度
（オリジナル一致度）に「が」用係数をかけた値（重み
つき一致度）を文書得点計算に用いる。先ほどの例で、
各キーワードの後続語はつぎの表に示す通りであったと
する。ここで「が」用係数を２とした場合、後続語が
「が」である「新素材研究」の重みつき一致度は２４９
×２＝４９８と計算される。その結果、文書得点も以前
の値と異なっている。

【００５５】

【表１９】

【００５６】構成（２４）〜（２６）では、キーワード
の後続語がそれぞれ副助詞「は」、格助詞「を」、格格
助詞「が」副助詞「は」／格助詞「を」以外（その他）
の場合に係数をかけた重みつき一致度を文書得点の計算
に用いる。先ほどの例で、「は」用係数を１.５、
「を」用係数を１、その他用係数を０.５とした場合の
文書得点の計算をつぎの表２０に示す。

【００５７】

【表２０】

【００５８】本発明の構成（２７）の方式では、キーワ
ードの出現位置および後続語によって文書得点の計算結
果が変わる。構成（１６）〜構成（２６）で導入された
ものをまとめて適用し、文書得点を計算する。先ほどの
例では、つぎのように文書得点が計算される。

【００５９】

【表２１】

【００６０】以上に説明した文書検索方式では次のこと
を特徴とするものであった。ユーザが入力する検索語と文書に付与されているキー
ワードが部分的に一致する際にも検索できる。検索の際、検索語とキーワードの一致の程度（一致
度）が計算される。そのため、次のステップにしたがっ
て検索処理が実施される。Ｓ１；検索語を形態素解析することで単語分割する。Ｓ２；その単語ごとの重要度を設定する。Ｓ３；検索語とキーワードの共通する単語の重要度から
一致度を計算する。しかし、この方式はいくつかの改善点がある。（ａ）前記Ｓ２の重要度設定において、検索語を２回に
わたって後ろから前に走査する必要があった。そのた
め、重要度設定が複雑である。（ｂ）前記Ｓ３の一致度計算において、前記段落番号
（００２２）〜（００２４）では、キーワードと検索語
の単語の順序を無視していたため、単語順の異なるキー
ワードに対しても一致度が同じ値になる。例えば、この
方式では「素材研究」と「研究素材」のような同じ構成
単語から成る語順の異るキーワードを区別できなかっ
た。（ｃ）前記段落番号（００３５）に示すように、隣接点
を導入することで語順の異なるキーワードの区別ができ
るが、一致度の計算に積演算を用いていた。一般に、コ
ンピュータにおいて積演算は和演算よりも演算速度が遅
いため、この方式は文書検索が遅くなる。

【００６１】以下に説明する実施例では、前記改善点
（ａ）については、検索語の走査を１回ですむようにす
る。改善点（ｂ）については、一致度計算において単語
順が一致する場合、単語順の一致に応じてボーナス得点
を与えるようにする。改善点（ｃ）については、一致度
計算に積演算を用いないようにするものである。図６
は、本発明による文書検索方式の更に他の実施例を説明
するための構成図で、図中、３１は文書検索手段、３２
は検索語入力手段、３３は文書得点付与手段、３４は文
書ソート手段、３５は文書出口手段、３６は索引語ファ
イル、３７は文書ファイル、３８は文書登録手段であ
る。

【００６２】文書登録手段３８は、ユーザが入力した文
書とそれに付与されているキーワードを文書ファイルと
索引語ファイルに保存する。１つの登録文書には複数の
キーワードが設定可能であり、１つのキーワードは複数
の構成単語からなる複合語であってもよい（例えば、
「文書検索」は「文書」と「検索」の２単語から構成さ
れる複合語である）。索引語ファイル３６では、登録文
書ごとの（複数の）キーワードを識別可能な構成をと
る。文書検索手段３１は、ユーザが入力した検索語に一
致する文書を索引語ファイル３６を用いて探しだし、結
果をユーザに提示する。文書検索は、検索語入力手段３
２と文書得点付与手段３３と文書ソート手段３４と文書
出力手段３５との４つの手段から構成されている。検索
語入力手段３２では、ユーザの検索語を入力する。文書
得点付与手段３３では、入力検索語に応じた得点を全登
録文書に対して計算する。文書ソート手段３４では、登
録文書を文書得点の高い順にソートする。文書出力手段
３５では、ユーザに検索結果を出力する。

【００６３】図７は、図６における文書得点付与手段の
構成図で、図中、４１は形態素解析手段、４２は重要度
設定手段、４３は文書得点計算手段、４４は一致度計算
手段である。形態素解析手段４１は検索語を形態素解析
し、単語に分割するとともに単語ごとに品詞を判定す
る。なお、本発明の文書検索装置では、ユーザの入力す
る検索語として複数の単語から構成される複合語を使用
できる。重要度設定手段４２において、重要度とは、検
索語の形態素解析した結果得られる各単語に付与される
各単語の重要性を表す値である。設定方法の詳細につい
ては後述する。文書得点計算手段４３において、文書得
点とは、登録文書と検索語の一致の程度を表す値であ
る。登録文書に付与されている各キーワードとの検索語
の一致度から計算される。ここで、一致度とは、登録文
書に付与されている各キーワードと検索語の一致の程度
を表す値である。検索語の各単語の重要度から計算され
るが、計算方法の詳細については後述する。文書得点の
計算方法は前述した方法（前記段落番号(００４２)〜
(００５５)）を用いる。

【００６４】以下に、重要度設定手段と一致度計算手段
について説明する。まず、重要度設定手段について説明
する。重要度設定時には、ユーザの入力した検索語は形
態素解析により単語に分割されている。ｎ（ｎ＞０）個
の単語から構成されている検索語Ｑをｑ₁…ｑ_nと書くこ
ととする。例えば、検索語「文書検索装置」は「文書」
「検索」「装置」の３語から構成されており、ｑ₁＝文
書、ｑ₂＝検索、ｑ₃＝装置となる。検索語に含まれる単
語ｑの重要度をｗ（ｑ）と書くこととする。本発明で
は、単語の重要度はつぎのように与えられる。・検索語の未尾の単語の重要度は、基本点αとする。・未尾以外の単語の重要度は、基本点に未尾からの距離
に位置係数βを乗じた値を加えた値とする。

【００６５】これを式で書くとつぎのようになる。ｗ（ｑｉ）＝α＋β＊（ｎ−ｉ） …（１）この方式では、従来技術で述べたように検索語を２回走
査する必要がなく、１回の走査で検索語の構成単語全て
に重要度を設定することができる。重要度設定を例で示
す。検索語を「新素材繊維開発」とする。この検索語は
「新」「素材」「繊維」「開発」の４単語に分割され
る。上式のパラメータを、α＝１０，β＝２とした場
合、各単語の重要度は、以下の表２２のようになる。

【００６６】

【表２２】

【００６７】前述の方式では、検索語の構成単語数が多
くなると、先頭に近い単語の重要度が高くなる一方なの
で、異なる検索語において先頭単語が同一の場合でも検
索語の構成単語数が多いほどその単語の重要度が高くな
ってしまうという問題がある。請求項２０の方式では、
検索語の構成単語数に応じたバイアスをかけることで、
このような問題点を回避する。すなわち、構成単語数係
数γを導入し、重要度を設定する。ｗ（ｑｉ）＝α＋β＊（ｎ−ｉ）＋γ＊ｎ …（２）とくに、γ＝−βとすれば、先頭単語の重要度が構成単
語数とは独立に、いつも同じ値にできる。先ほどの例で
用いた検索語「新素材繊維開発」に対し、パラメータ
を、α＝１２，β＝２，γ＝−２とした場合、各単語の
重要度は、以下の表２３のようになる。

【００６８】

【表２３】

【００６９】前述の方法では、単語の性質に関わらず同
一の式で重要度を設定していた。しかし、単語の性質に
よって検索用語のとして重要なものとそうでないものが
あり、重要なものには高い重要度を与えることが望まれ
る。例えば、接頭辞などは補助的な役割を果たしている
ので名詞類と比較して一般的に重要度が低い。そこで、
請求項２１の方式では、単語の品詞に応じて重要度の設
定パラメータ（α，β，γ）を変えることを可能とし
た。例えば、名詞類(一般名詞,サ変名詞など)に対する
パラメータを、α[名詞]＝１２，β[名詞]＝２，γ[名
詞]＝−２，接頭辞に対するパラメータを、α[接頭辞]
＝４，β[接頭辞]＝０，γ[接頭辞]＝０とする。このと
き、検索語「新素材繊維開発」の各単語の重要度は、以
下の表２４のようになる。

【００７０】

【表２４】

【００７１】前述の方法では、単語の品詞が同じであれ
ば同一の式で重要度を設定していた。しかし、検索用語
として重要か否かは品詞だけで決められるものではな
く、検索システムが対象とする文書の性質などに依存す
る。前述した実施例ではこのような品詞よりも細かい単
語の文法的／意味的な特徴を記述するものとしてキーワ
ード素性を提案している。例えば、繊維関係の文書検索
システムでは繊維に関する名詞は文書に頻出するので、
検索語としては一般的な名詞よりも重要性が低い。そこ
で、「繊維」という名詞に「複合語語基」というキーワ
ード素性を付与して、この単語を他の一般的な名詞から
識別する。そこで、請求項２２の方式では、単語の品詞
だけでなくキーワード素性に応じても重要度の設定パラ
メータ（α，β，γ）を変えることを可能とした。例え
ば、名詞類に対するパラメータをキーワード素性「複合
語語基」の有無によって、α[名詞・素性あり]＝１２，
β[名詞・素性あり]＝２，γ[名詞・素性あり]＝−２，
α[名詞・素性なし]＝１，β[名詞・素性なし]＝１，γ
[名詞・素性なし]＝−１とする。接頭辞に対するパラメ
ータは先ほどと同じとすれば、検索語「新素材繊維開
発」の各単語の重要度は、以下の表２５のようになる。

【００７２】

【表２５】

【００７３】つぎに、一致度計算方式について説明す
る。一致度計算では文書に付与されているうちの１つの
キーワードと索引語の一致の程度を検索語の構成単語に
設定された重要度を用いて計算する。基本的には、キー
ワードと検索語の共通する構成単語に設定されている重
要度の合計をそのキーワードとその検索語の一致度と定
義する。例えば、「新素材繊維開発」を検索語とし、表
２５のように重要度が設定されたとする。ここで、「新
素材」、「新開発」、「合成繊維」の３語をキーワード
として一致度がいくつになるか計算する。

【００７４】１．キーワード：「新素材」（「新」「素
材」が構成単語）このとき、「新」「素材」の２単語が検索語と共通であ
る。一致度＝ｗ（新）＋ｗ（素材）＝４＋８＝１２２．キーワード：「繊維素材開発」（「繊維」「素材」
「開発」が構成単語）このとき、「繊維」「素材」「開発」の３単語が検索語
と共通である。一致度＝ｗ（繊維）＋ｗ（素材）＋ｗ（開発）＝３＋８
＋４＝１５３．キーワード：「合成繊維販売」（「合成」「繊維」
「販売」が構成単語）このとき、「繊維」のみが検索語と共通である。一致度＝ｗ（繊維）＝３

【００７５】前述の方法では、複数の単語が検索語とキ
ーワードに共通な場合、それら共通な単語の出現順序に
より異なるか否かの区別ができない。すなわち、検索語
「新素材繊維開発」に対し、キーワードが「素材繊維」
でも「繊維素材」でも一致度は同じになる。しかし、
「素材」「繊維」の出現順序は「繊維素材」と一致して
いるので、「繊維素材」より「素材繊維」の方が一致度
が大きくなるべきである。このため、検索語とキーワー
ドに共通な単語が複数ある場合、それらの単語の順序
（単語並び）が検索語とキーワードで一致する場合にボ
ーナス点を加えるようにした。ボーナス点（以下、「隣
接点」と呼ぶ）は単語並びの一致個数に比例するものと
し、単語並びあたりの隣接詞をδとする。δ＝３とする
と、先ほどと同じ検索語、キーワードに対する一致度は
つぎのようになる。

【００７６】１．キーワード：「新素材」「新」「素材」の並びが共通である。一致度＝ｗ（新）＋ｗ（素材）＋δ＝４＋８＋３＝１５２．キーワード：「繊維素材開発」３単語が共通だが、単語並びが一致するものはない。一致度＝ｗ（繊維）＋ｗ（素材）＋ｗ（開発）＝３＋８
＋４＝１２前述の方法では、検索語とキーワードが完全に一致した
場合と検索語がキーワードに含まれる場合を区別するこ
とができない。すなわち、検索語「新素材繊維開発」に
対し、キーワードが「新素材繊維開発」であっても「新
素材繊維開発センター」であっても一致度が同じになっ
てしまう。この問題点を解決するため、請求項では検索
語とキーワードの先頭の単語が一致した場合にδ先頭、
請求項では検索語とキーワードの未尾の単語が一致した
場合に、δ[未尾]をボーナス点として加えるようにし
た。δ[先頭]＝δ[未尾]＝２とすると、先ほどと同じ検
索語、キーワードに対する一致度はつぎのようになる。

【００７７】１．キーワード：「新素材」「新」「素材」の単語並びが共通で、「新」が検索語・
キーワードのどちらでも先頭にある。一致度＝ｗ（新）＋ｗ（素材）＋δ＋δ[先頭]＝４＋８
＋３＋２＝１７２．キーワード：「繊維素材開発」「開発」が検索語・キーワードのどちらでも未尾にあ
る。一致度＝ｗ（繊維）＋ｗ（素材）＋ｗ（開発）＋δ[未
尾]＝３＋８＋４＋２＝１４

【００７８】

【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。（１）請求項１に対応する効果：検索語を形態素解析
し、その結果品詞分解された単語と、文書中の品詞単位
で保存されたキーワードを比較することにより検索語と
文書中の語が完全に一致していなくても検索することが
できる。（２）請求項２に対応する効果：検索語と各文書中のキ
ーワードとの一致度を計算することにより、各文書に検
索語に即した得点を付与することができる。（３）請求項３に対応する効果：検索語に応じて文書に
得点を付与することができるので、検索語に即した文書
から順に出力することができる。（４）請求項４に対応する効果：各文書における検索語
に即した得点とは、単語列の最後尾の単語に基本点を付
与し、単語列の前に遡るに従って点数を上げていき、そ
の点数の合計を文書の得点とする方法なので、単語列の
前に位置する単語ほど高い点数を与えることができる。（５）請求項５に対応する効果：検索語と文書の一致度
の計算について、キーワード素性の１つである複合語語
基を用いることにより、文書に得点を付与する際にキー
ワードとなり得にくい語には高得点をあたえないように
することができる。（６）請求項６に対応する効果：検索語と文書の一致度
の計算について、キーワード素性の１つである固有名詞
構成語を用いることにより、文書に得点を付与する際に
キーワードとなり得にくい語には高得点を与えないよう
にすることができる。（７）請求項７に対応する効果：検索語と文書の一致度
の計算について、キーワード素性の１つである接頭修飾
を用いることにより、特殊な意味をもつ接頭辞には得点
を与えることができる。（８）請求項８に対応する効果：検索語と文書の一致度
の計算について、キーワード素性の１つである地名識別
語を用いることにより、文書に得点を付与する際にキー
ワードとなり得にくい語には高得点を与えないようにす
ることができる。（９）請求項９に対応する効果：検索語と文書の一致度
について、キーワード素性の１つである元号識別語を用
いることにより、文書に得点を付与する際にキーワード
となり得にくい語には高得点を与えないようにすること
ができる。（１０）請求項１０に対応する効果：一致度計算手段で
キーワードに含まれる単語と一致する検索語の単語の重
要度の積を一致度とすることで、一致度を的確に計算で
きる。（１１）請求項１１に対応する効果：一致度の計算に単
語の並び順を考慮に入れることで、一致度を正確に計算
できる。（１２）請求項１２に対応する効果：一致度の計算に検
索語に与えられる重要度に応じた正規化処理を導入する
ことで、一致度を検索語の長さに依存することなく正確
に計算できる。（１３）請求項１３に対応する効果：文書得点を登録文
書のキーワードと検索語の一致度の平均値をすること
で、文書得点を文書内のキーワード数に依存することな
く正確に計算できる。（１４）請求項１４に対応する効果：文書得点を登録文
書のキーワードと検索語の一致度の和を一致度が１以上
となったキーワード数で割った値とすることで、文書得
点を文書内のキーワード数に依存することなく正確に計
算できる。（１５）請求項１５に対応する効果：文書得点を登録文
書のキーワードと検索語の一致度の最大値をすること
で、文書得点を文書内のキーワード数に依存することな
く正確に計算できる。（１６）請求項１６に対応する効果：キーワードの登録
文書中での出現位置によって重みつき一致度および文書
得点が計算されるので、文書得点が従来と比較して的確
なものになる。（１７）請求項１７に対応する効果：キーワードの登録
文書中での後続語によって重みつき一致度および文書得
点が計算されるので、文書得点が従来と比較して的確な
ものになる。（１８）請求項１８〜２２に対応する効果：重要度設定
手段で、検索語の構成単語の位置によってその単語の重
要度が設定されるため、重要度設定が的確に行なえ、検
索精度が向上する。また、検索語の走査が１回で済むた
め、検索速度が向上する。（１９）請求項２３〜２６に対応する効果：一致度計算
手段で、検索語とキーワードの構成単語の順序（単語並
び）が一致度に反映されるため、一致度計算が的確に行
なえ、検索精度語が向上する。また、一致度計算が和演
算のみなので検索速度が向上する。

【図面の簡単な説明】

【図１】本発明による文書検索方式の一実施例を説明
するための構成図である。

【図２】図１における文書得点付与手段の動作を説明
するためのフローチャートである。

【図３】本発明による検索語に対する重要付与ルール
を説明するためのフローチャートである。

【図４】本発明による文書検索方式の他の実施例を説
明するための構成図である。

【図５】図４における文書得点付与手段を構成図であ
る。

【図６】本発明による文書検索方式の更に他の実施例
を説明するための構成図である。

【図７】図６における文書得点付与手段の構成図であ
る。

【符号の説明】

１…検索語入力手段、２…文書得点付与手段、３…文書
ランキング手段、４…文書出力手段、５…キーワードか
ら付与された文書。

Claims

【特許請求の範囲】

【請求項１】入力した検索語を形態素解析する形態素
解析手段と、該形態素解析手段により得られた品詞分解
された単語と、文書中の単語単位で保存されたキーワー
ドとを比較する比較手段とから成り、検索語と文書中の
語が完全に一致していなくても検索することのできるこ
とを特徴とする文書検索方式。
【請求項２】前記検索語と各文書中のキーワードとの
一致度を計算することにより、各文書に検索語に即した
得点を付与することを特徴とする請求項１記載の文書検
索方式。
【請求項３】前記検索語に応じて文書に得点を付与す
ることにより、検索語に即した文書から順に出力するこ
とのできるようにしたことを特徴とする請求項２記載の
文書検索方式。
【請求項４】前記各文書における検索語に即した得点
とは、検索語の単語列の最語尾の単語に基本点を与え、
単語列の前に遡るに従って基本点から重要度を上げてい
き、該重要度の合計を文書の得点とすることを特徴とす
る請求項２記載の文書検索方式。
【請求項５】前記検索語と文書の一致度の計算につい
てはキーワード素性の１つである複合語語基を用いるこ
とにより、文書に得点を付与する際にキーワードとはな
りにくい語には高得点を与えないようにしたことを特徴
とする請求項２記載の文書検索方式。
【請求項６】前記検索語と文書の一致度の計算につい
てはキーワード素性の１つである固有名詞構成語を用い
ることにより、文書に得点を付与する際にキーワードと
はなりにくい語には高得点を与えないようにしたことを
特徴とする請求項２記載の文書検索方式。
【請求項７】前記検索語と文書の一致度の計算につい
てはキーワード素性の１つである接頭修飾を用いること
により、特殊な接頭語には得点を与えるようにしたこと
を特徴とする請求項２記載の文書検索方式。
【請求項８】前記検索語と文書の一致度の計算につい
てはキーワード素性の１つである地名識別語を用いるこ
とにより、文書に得点を付与する際にキーワードとはな
りにくい高得点を与えないようにしたことを特徴とする
請求項２記載の文書検索方式。
【請求項９】前記検索語と文書の一致度の計算につい
てはキーワード素性の１つである元号識別語を用いるこ
とにより、文書に得点を付与する際にキーワードとはな
りにくい語には高得点を与えないようにしたことを特徴
とする請求項２記載の文書検索方式。
【請求項１０】入力した検索語を形態素解析する形態
素解析手段と、該形態素解析手段により得られる単語群
のそれぞれに重要度を設定する重要度設定手段と、該重
要度から登録文書に付与されている単語群から構成され
るキーワードの一致度を計算する一致度計算手段と、該
一致度からその文書の文書得点を計算する文書得点計算
手段と、該文書得点計算手段により文書を文書得点順に
出力する文書出力手段とから成り、前記一致度計算手段
でキーワードに含まれる単語と一致する検索語の単語の
重要度の積を一致度とすることを特徴とする文書検索方
式。
【請求項１１】前記一致度計算手段でキーワードに含
まれる単語並びと検索語に含まれる単語並びとが一致す
る場合に一致度が大きくなるようにすることを特徴とす
る請求項１０記載の文書検索方式。
【請求項１２】前記一致度計算手段でキーワード検索
語が完全に一致する際の一致度が検索語に含まれる単語
数に応じて変わらないことを特徴とする請求項１０記載
の文書検索方式。
【請求項１３】前記文書得点計算手段で登録文書のキ
ーワードと検索語の一致度の平均値を文書得点とするこ
とを特徴とする請求項１０記載の文書検索方式。
【請求項１４】前記文書得点計算手段で登録文書のキ
ーワードと検索語の一致度の和を一致度が１以上となっ
たキーワード数で割った値を文書得点とすることを特徴
とする請求項１０記載の文書検索方式。
【請求項１５】前記文書得点計算手段で登録文書のキ
ーワードと検索語の一致度の最大値を文書得点とするこ
とを特徴とする請求項１０記載の文書検索方式。
【請求項１６】前記文書得点計算手段で文書中のキー
ワードの出現位置に応じて文書得点の計算法を変更する
ことを特徴とする請求項１０記載の文書検索方式。
【請求項１７】前記文書得点計算手段でキーワードの
後続語に応じて文書得点の計算法を変更することを特徴
とする請求項１０記載の文書検索方式。
【請求項１８】入力した検索語を形態素解析する形態
素解析手段と、該形態素解析手段によって得られた単語
群のそれぞれに重要度を設定する重要度設定手段と、該
重要度設定手段により設定された重要度を用いて登録文
書に付与されているキーワードとの一致度を計算する一
致度計算手段と、該一致度計算手段により計算された一
致度からその文書の文書得点を計算する文書得点計算手
段と、該文書得点計算手段により文書を文書得点順に出
力する文書出力手段とから成り、検索語と各文書中のキ
ーワードとの一致度を計算することにより各文書に検索
語に即した得点を付与し、その得点順に文書を出力する
ことを特徴とする文書検索方式。
【請求項１９】前記重要度設定手段で単語の出現位置
に応じてその単語の重要度を設定することを特徴とする
請求項１８記載の文書検索方式。
【請求項２０】前記重要度設定手段で単語の重要度設
定の際に、検索語の構成単語数に応じて単語の重要度を
設定することを特徴とする請求項１９記載の文書検索方
式。
【請求項２１】前記重要度設定手段で単語の重要度設
定の際に、単語の品詞に応じて重要度を設定することを
特徴とする請求項１９記載の文書検索方式。
【請求項２２】前記重要度設定手段で単語の重要度設
定の際に、単語の品詞で記述されない文法的／意味的な
特徴を記述するキーワード素性に応じて重要度を設定す
ることを特徴とする請求項２１記載の文書検索方式。
【請求項２３】前記一致度計算手段で文書キーワード
と検索語の一致度の計算の際に、キーワードと検索語に
共通する単語の重要度の合計を一致度とすることを特徴
とする請求項１８記載の文書検索方式。
【請求項２４】前記一致度計算手段で文書キーワード
と検索語の一致度の計算の際に、キーワードに含まれる
単語並びと検索語に含まれる単語並びが一致する場合に
一致度を大きくすることを特徴とする請求項２３記載の
文書検索方式。
【請求項２５】前記一致度計算手段で文書キーワード
と検索語の一致度の計算の際に、キーワードと検索語の
未尾の単語が一致する場合に一致度を大きくすることを
特徴とする請求項２３記載の文書検索方式。
【請求項２６】前記一致度計算手段で文書キーワード
と検索語の一致度の計算の際に、キーワードと検索語の
先頭の単語が一致する場合に一致度を大きくすることを
特徴とする請求項２３記載の文書検索方式。