JPH11143902A

JPH11143902A - ｎ−ｇｒａｍを用いた類似文書検索方法

Info

Publication number: JPH11143902A
Application number: JP9309078A
Authority: JP
Inventors: Tadataka Matsubayashi; 忠孝松林; Katsumi Tada; 勝己多田; Takuya Okamoto; 卓哉岡本; Natsuko Sugaya; 菅谷　　奈津子; Yasushi Kawashita; 靖司川下
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-11-11
Filing date: 1997-11-11
Publication date: 1999-05-28

Abstract

(57)【要約】【課題】本発明の課題は、日本語のように文字種の多い
言語に対しても、高速で高精度な類似文書検索システム
を提供することである。【解決手段】テキストデータベース中のテキスト１０３
に存在する特徴文字列のそのテキスト１０３における出
現頻度を出現頻度ファイル１０４として格納するステッ
プと、ユーザが指定したテキストから特徴文字列を抽出
するステップと、ユーザが指定したテキストにおける特
徴文字列の出現頻度を計数するステップとを有し、出現
頻度ファイル１０４とユーザが指定したテキストにおけ
る出現頻度を用いてユーザが指定したテキストに対する
類似度を算出し、算出された類似度を用いて文書を検索
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ユーザが指定した
文書と類似する文書を、文書データベースの中から検索
する方法に関する。

【０００２】

【従来の技術】近年、パーソナルコンピュータやインタ
ーネット等の普及に伴い、電子化文書が爆発的に増加し
ており、今後も加速度的に増大していくものと予想され
る。このような状況において、ユーザが所望する情報を
含んだ文書を高速かつ効率的に検索したいという要求が
高まってきている。

【０００３】このような要求に応える技術として全文検
索がある。全文検索では、検索対象文書をテキストとし
て計算機システムに登録してデータベース化し、この中
からユーザが指定した検索文字列（以下、検索タームと
呼ぶ）を含む文書を検索する。このように全文検索で
は、文書中の文字列そのものを対象として検索を行なう
ため、予めキーワードを付与し、このキーワードを手掛
りに検索する従来の検索システムとは異なり、検出漏れ
が原理的に生じないという特長がある。

【０００４】しかし、ユーザが所望する情報を含んだ文
書を的確に検索するためには、ユーザの検索意図を正確
に表す複雑な検索条件式を入力する必要がある。

【０００５】この繁雑さを解消するために、ユーザが自
分の所望する内容の文書（以下、種文書と呼ぶ）を指定
し、その文書と類似する文書を検索する類似文書検索技
術が注目されている。

【０００６】類似文書検索の方法としては、例えば、
「特開平８−３３５２２２号公報」に、形態素解析等に
より種文書中に含まれる単語を抽出し、これを用いて類
似文書を検索する技術（以下、従来技術１と呼ぶ）が開
示されている。

【０００７】また、「特開平６−１１０９４８号公報」
には、種文書中から連続するn文字の文字列（以下、n-g
ramと呼ぶ）を抽出し、これを用いて類似文書を検索す
る技術（以下、従来技術２と呼ぶ）が開示されている。

【０００８】上記２つの従来技術について、その概要を
説明する。

【０００９】従来技術１では、形態素解析により種分書
中に含まれる単語を抽出し、この単語を含む文書を類似
文書として検索する。例えば、「この装置は地下水脈の
観測にも使える。」という文書を種文書とする場合、形
態素解析により単語辞書を参照して、「装置」「地下」
「水脈」「観測」「使える」という単語が抽出される。
この結果、「地下水脈を観測することによる地震の発生
を予測する。」という文書を類似文書として検索するこ
とができる。しかし従来技術１では、単語の抽出に単
語辞書を用いるため、次のような２つの問題が生じる。

【００１０】まず、単語辞書に含まれていない単語は、
種文書から検索用の単語として抽出されないためこの単
語を含む文書を検索することができないという問題があ
る。このため、ユーザが所望する情報が新語で表され、
これが単語辞書に含まれていない場合、目的の情報を含
む文書を検索することができなくなる。

【００１１】次に、ユーザが所望する情報を表わす言葉
が単語辞書に含まれる場合でも、単語の抽出の仕方によ
っては検索漏れが生じてしまう。例えば、上記の「この
装置は地下水脈の観測にも使える。」という種文書から
は、「装置」「地下」「水脈」「観測」「使える」とい
う単語が抽出される。しかし、「地下水」という単語が
抽出されないため「地下水の大量汲み上げで地盤沈下地
域が拡大した。」という文書は、類似文書として検索す
ることができないという問題がある。

【００１２】以上が従来技術１の問題点である。

【００１３】この問題を解決するために、上記従来技術
２が提案されている。これは、n-gramを用いた類似文書
検索方法である。

【００１４】以下、文書１「新開発の心電計による発作
時の心電図」、文書２「新しいソフトウェアの開発作
業」、および文書３「ソフト開発を支援するソフトウェ
ア」が登録されているデータベースを対象に、n-gramの
nの値を２として、ユーザが文書２を種文書に指定した
場合を例に、従来技術２の具体的な処理方法を説明し、
その問題点を述べる。

【００１５】まず、データベース中の文書１〜文書３か
ら2-gramを抽出する。

【００１６】

【表１】

【００１７】表１に、文書１に出現する2-gramの中から
重複を排除して抽出した2-gram（以下、重複排除2-gram
と呼ぶ）を示す。次に、これらの2-gramの各々に対しウ
ェイトを計算する。このウェイトは各々の2-gramの出現
頻度をその文書中に出現する2-gramの重複を含めた総出
現頻度で割ることによって求める。ウェイトは各々の2-
gramのその文書内における出現割合を表し、この値が大
きい2-gramほどその文書に頻繁に出現することを意味す
る。文書２および文書３に対しても同様の処理を施し、
それぞれウェイトを求める。表２および表３にこの処理
結果を示す。

【００１８】

【表２】

【００１９】

【表３】

【００２０】その後、データベース中の文書間の共通性
を除去する。ここでは、まず、データベース中に存在す
る2-gramの中で重複を排除した2-gramについて、その共
通性ウェイトを算出する。この共通性ウェイトは、デー
タベース中の全文書に関する各2-gramのウェイトの総和
を、全文書数で割ることによって算出する。共通性ウェ
イトは、各2-gramのデータベース全体における出現割合
を表し、この値が大きい2-gramほどデータベース中のど
の文書にも共通して出現することを意味する。

【００２１】

【表４】

【００２２】表４に、文書１、文書２および文書３の間
の共通性ウェイトを示す。

【００２３】例えば、2-gram「新開」の共通性ウェイト
は、(0.063+0.0+0.0)/3=0.021である。ここで2-gram
「新開」は文書２および文書３に出現していないのでウ
ェイトはそれぞれ「0.0」となっている。2-gram「開
発」の共通性ウェイトは、(0.063+0.077+0.067)/3=0.06
9である。

【００２４】上述したように、共通性ウェイトは各n-gr
amのウェイトの平均値である。

【００２５】この共通性ウェイトを各n-gramのウェイト
から差し引くことにより、データベース中の文書間の共
通性を除去する（この値を従来技術２では、正規化ウェ
イトと呼んでいる）。正規化ウェイトは、データベース
における各n-gramの出現偏りを表し、この値が大きいn-
gramほどある特定の文書に偏って出現することを意味す
る。

【００２６】もし、あるn-gramが全ての文書に同じ割合
で出現していれば、ウェイトと共通性ウェイトは同じ値
となるため、正規化ウェイトは「０」となる。つまり、
どの文書においても同じような割合で出現するn-gramに
関しては、ウェイトが限りなく「０」に近づくことにな
る。

【００２７】表５、表６および表７に、文書１、文書２
および文書３の正規化ウェイトを示す。

【００２８】

【表５】

【００２９】

【表６】

【００３０】

【表７】

【００３１】以上のようにして得られた正規化ウェイト
を用いて、ユーザが種文書として指定した文書とデータ
ベース中の全文書との類似性を求め、これを類似度とし
て表わす。文書番号をiとすると、文書iの類似度S(i)
は、以下に示す式（１）によって求められる。

【００３２】

【数１】

【００３３】ここで、U(j)は種文書中のj番目のn-gram
の正規化ウェイトを示し、R(j)はデータベース中文書の
j番目のn-gramの正規化ウェイトを示す。また、nはデー
タベース中の全文書数を表わす。この式を用いてデータ
ベース中の全ての文書の類似度を算出すると以下のよう
になる。

【００３４】 S(1) = 0.018 S(2) = 1.0 S(3) = 0.119 最後に、得られた類似度の降順に文書を出力する。この
例では、文書２、文書３、文書１の順で出力されること
になる。

【００３５】以上が、従来技術２の具体的な処理内容で
ある。このように従来技術２では、単語辞書に基づく形
態素解析を用いることなく種文書に類似する文書を検索
することができるため、従来技術１における２つの問題
点を解決することができる。

【００３６】しかし、この従来技術２には次のような２
つの問題点がある。

【００３７】まず、第一の問題点は、種文書から抽出さ
れるn-gram数が膨大になるため、検索に長大な時間を要
してしまうという問題である。例えば、1,000文字から
なる種文書から全ての2-gramを抽出した場合、999個の2
-gramが抽出されることになる。そのため、抽出した全
ての2-gramを類似検索に用いる従来技術２の方法では、
1個の2-gramの検索が0.1秒で済んだとしても、999個の2
-gramでは99.9秒、すなわち約1分40秒も検索時間が掛か
ってしまうことになる。

【００３８】また、第二の問題点は、全てのn-gramを用
いて類似文書を検索するため、検索結果にノイズが含ま
れるという問題である。

【００３９】以下、この問題点を、文書１〜文書３が登
録されている前記データベースに、文書４「新しいソフ
トクリーム券の配布作業」を追加した場合を例に、具体
的に説明する。

【００４０】本例では、文書２が、種文書としてユーザ
に指定されたものとする。

【００４１】まず、文書４から2-gramを抽出し、ウェイ
トを求めた結果を表８に示す。

【００４２】

【表８】

【００４３】この文書４のウェイトと表１〜表３に示し
た文書１〜文書３のウェイトを用いて、共通性ウェイト
を算出する。

【００４４】

【表９】

【００４５】表９に、文書１〜文書４の間の共通性ウェ
イトを示す。例えば、2-gram「開発」の共通性ウェイト
は、(0.063+0.077+0.067+0.000)/4=0.052となる。次
に、この共通性ウェイトを各文書の重複排除2-gramのウ
ェイトから差し引くことにより、データベース中の文書
間の共通性を除去した正規化ウェイトを求める。

【００４６】

【表１０】

【００４７】

【表１１】

【００４８】

【表１２】

【００４９】

【表１３】

【００５０】表１０〜表１３に文書１〜文書４における
2-gramの正規化ウェイトを示す。これらを用いて、種文
書である文書２に対する各文書の類似度を式（１）を用
いて算出すると、 S(1) = 0.036 S(2) = 1.0 S(3) = 0.179 S(4) = 0.190 となる。

【００５１】ここで、文書３は文書２と同様にソフトウ
ェアに関する文書であるにも関わらず、関係のない文書
４の方が文書２に類似していると判断されてしまってい
る。これは、文書２の「ソフトウェア」から抽出される
「ソフ」「フト」が、文書４の「ソフトクリーム」から
も抽出されることによる。n-gramは単語のように意味的
にまとまった単位の文字列ではないため、同じn-gramで
あっても文書内で同じ意味を表現しているとは限らな
い。そのため、この例のように全く関係のない文書が高
い類似度を持つ文書として探し出されてしまうという問
題がある。

【００５２】

【発明が解決しようとする課題】こうした従来技術の問
題に対し、本発明では以下の課題を解決することを目的
とする。

【００５３】（１）検索精度の高い類似文書検索方法を
提供する。

【００５４】（２）日本語のように文字種の多い言語に
対しても、高速に類似文書検索が行える方法を提供す
る。

【００５５】

【課題を解決するための手段】上記課題を解決するため
に、本発明による文書検索方法では、以下に示すステッ
プで種文書と類似する文書を検索する。

【００５６】すなわち、本発明による文書検索方法で
は、文書の登録処理として、（ステップ１）登録対象文
書を読み込む文書読込みステップ、（ステップ２）上記
文書読込みステップで読み込んだ登録対象文書の文字列
を、漢字やカタカナ等の文字種境界で分割し、同一文字
種で構成される文字列（以下、同一文字種文字列と呼
ぶ）として抽出する同一文字種文字列抽出ステップ、
（ステップ３）上記同一文字種文字列抽出ステップで抽
出した同一文字種文字列に対して、その文字種を判定
し、漢字ならば予め定められた長さの文字列を自立語の
可能性があるもの（以下、特徴文字列と呼ぶ）として、
そこから抽出し、カタカナや英字ならば同一文字種文字
列そのものを特徴文字列として抽出し、それ以外の文字
種ならば特徴文字列としては抽出を行わない登録用特徴
文字列抽出ステップ、（ステップ４）上記登録用特徴文
字列抽出ステップで抽出した特徴文字列に関して、登録
対象文書内における出現頻度を計数する出現頻度計数ス
テップ、（ステップ５）上記出現頻度計数ステップで計
数した出現頻度を該当する出現頻度ファイルに格納する
出現頻度ファイル作成登録ステップ、を有し、種文書に
類似する文書の検索処理として、（ステップ６）種文書
を読み込む種文書読込みステップ、（ステップ７）上記
種文書読込みステップにおいて読み込んだ種文書の文字
列を文字種境界で分割し、同一文字種文字列として抽出
する同一文字種文字列抽出ステップ、（ステップ８）上
記同一文字種文字列抽出ステップで抽出した同一文字種
文字列に対して、その文字種を判定し、漢字ならば予め
定められた長さの文字列を特徴文字列としてそこから抽
出し、カタカナや英字ならば同一文字種文字列そのもの
を特徴文字列として抽出し、それ以外の文字種ならば特
徴文字列としては抽出を行わない検索用特徴文字列抽出
ステップ、（ステップ９）上記検索用特徴文字列抽出ス
テップで抽出した特徴文字列に関して、種文書内の出現
頻度を計数する出現頻度計数ステップ、（ステップ１
０）上記出現頻度計数ステップで抽出した全ての特徴文
字列に対して、前記出現頻度ファイルを読み込み、デー
タベース内の各文書における出現頻度を取得する出現頻
度取得ステップ、（ステップ１１）上記出現頻度取得ス
テップで抽出した特徴文字列に関し、上記出現頻度計数
ステップで計数した種文書内の出現頻度と、上記出現頻
度取得ステップで取得したデータベース内の各文書にお
ける出現頻度を用いて、予め定められた算出式に基づい
て種文書とデータベース内の各文書との類似度を算出す
る類似度算出ステップ、（ステップ１２）上記類似度算
出ステップで算出した類似度の降順に、文書の一覧を表
示する検索結果表示ステップを有する。

【００５７】上記文書検索方法を用いた本発明の原理
を、以下に説明する。

【００５８】文書を登録する際には、（ステップ１）〜
（ステップ５）を実行する。まず、（ステップ１）で登
録対象となる文書を読み込む。次に、（ステップ２）に
おいて、（ステップ１）で読み込んだ登録対象文書中の
文字列を、漢字やカタカナ等の文字種境界で分割し、同
一文字種からなる文字列を抽出する。例えば、前記の文
書４「新しいソフトクリーム券の配布作業」という文書
からは、「新」「しい」「ソフトクリーム」「券」
「の」「配布作業」という６個の同一文字種文字列が抽
出される。

【００５９】次に、（ステップ３）において、（ステッ
プ２）で抽出した同一文字種文字列について、その文字
種を判定し、漢字ならば予め定められた長さの文字列を
特徴文字列としてそこから抽出し、カタカナや英字なら
ば同一文字種文字列そのものを特徴文字列として抽出
し、それ以外の文字種ならば特徴文字列としては抽出を
行わない。例えば、予め漢字文字列から2-gramを抽出す
るものと定められている場合には、上記（ステップ２）
における同一文字種文字列からは、「ソフトクリーム」
「配布」「布作」「作業」が特徴文字列として抽出され
る。

【００６０】次に、（ステップ４）において、（ステッ
プ３）で抽出した特徴文字列の登録対象文書内における
出現頻度を計数する。例えば、上記の文書４「新しいソ
フトクリーム券の配布作業」という文書では、特徴文字
列「ソフトクリーム」が１回出現し、「作業」は１回出
現するという情報が得られる。

【００６１】次に、（ステップ５）において、先に（ス
テップ４）で計数した特徴文字列の出現頻度を該当する
出現頻度ファイルに格納する。図２に出現頻度ファイル
の例を示す。本図に示した出現頻度ファイルは、表１、
表２、表３および表８に示した文書１〜文書４を登録し
た場合の例である。

【００６２】検索時には、（ステップ６）〜（ステップ
１２）からなる類似文書検索ステップを実行する。

【００６３】まず、（ステップ６）において、種文書と
して文書２を読み込む。

【００６４】次に、（ステップ７）において、（ステッ
プ６）で読み込んだ種文書（文書２）の文字列を文字種
境界で分割し、同一文字種文字列を抽出する。

【００６５】次に、（ステップ８）において、上記（ス
テップ７）で抽出した同一文字種文字列から、登録時の
（ステップ３）と同様の方法で特徴文字列を抽出する。
図３に文書２が種文書として指定された場合の（ステッ
プ８）の特徴文字列抽出処理の概要を示す。本図では、
同一文字種文字列が漢字の場合には、2-gramを抽出する
ものとしている。文書２から全ての2-gramを抽出した場
合には、１３種類の2-gramが抽出されていたのに対し、
本方法では、「ソフトウェア」「開発」「発作」「作
業」の４種類の特徴文字列に削減することができてい
る。このように、全てのn-gramを抽出する前述した従来
技術２に比べ、本発明では抽出する特徴文字列の種類を
大幅に削除できることになる。

【００６６】次に、（ステップ９）において、（ステッ
プ８）で抽出した特徴文字列の種文書内における出現頻
度を計数する。そして、（ステップ１０）において、
（ステップ８）で抽出した特徴文字列に関して、前述し
た出現頻度ファイルを参照し、データベース内の各文書
における出現頻度を得る。そして、（ステップ１１）に
おいて、（ステップ８）で抽出した特徴文字列に対し
て、（ステップ９）と（ステップ１０）で計数した種文
書内における出現頻度と、データベース内の各文書にお
ける出現頻度を基に、類似度を算出する。類似度の算出
式には、従来技術２で示した式（１）を用いてもよい。
式（１）を用いて、文書２が種文書として指定された場
合の類似度を算出すると、次のようになる。

【００６７】 S(1)=0.077 S(2)=1.0 S(3)=0.263 S(4)=0.148 この結果、（ステップ１２）で、文書を類似度の降順に
表示すると、文書２、文書３、文書４および文書１の順
に表示される。この類似度算出結果（S(1)=0.077、S(2)
=1.0、S(3)=0.263、S(4)=0.148）は、従来技術２による
類似度算出結果（S(1) = 0.036、S(2) = 1.0、S(3) =
0.179、S(4) = 0.190）とは異なり、文書２に類似した
順に、類似度が正しく算出されることになる。

【００６８】以上のように、本発明の類似文書検索方法
によれば、分かち書きのない日本語のような文書に対し
て、類似文書検索を行なっても、従来技術１のような単
語辞書を用いることなく種文書から文字列を機械的に抽
出するため、従来技術２のようにどんな単語についても
漏れのない検索を行なうことが可能となる。また、従来
技術２のように文書中から単純にn-gramを抽出するので
はなく、文字種に応じて特徴文字列を抽出することによ
り、意味のまとまった文字列を用いて検索を行なうこと
ができるため、高精度な類似文書検索を実現することが
できるようになる。さらに、全n-gramを抽出する従来技
術２に比べ、抽出する文字列の種類が大幅に削減される
ため、高速に類似文書を検索することができるようにな
る。

【００６９】

【発明の実施の形態】以下、本発明の第一の実施例につ
いて図１を用いて説明する。

【００７０】本発明を適用した類似文書検索システムの
第一例は、ディスプレイ１００、キーボード１０１、中
央演算処理装置（ＣＰＵ）１０２、磁気ディスク装置１
０５、フロッピディスクドライブ（ＦＤＤ）１０６、主
メモリ１０９およびこれらを結ぶバス１０８から構成さ
れる。

【００７１】磁気ディスク装置１０５は二次記憶装置の
一つであり、テキスト１０３、出現頻度ファイル１０４
が格納される。ＦＤＤ１０６を介してフロッピディスク
１０７に格納されている情報が、主メモリ１０９あるい
は磁気ディスク装置１０５へ読み込まれる。

【００７２】主メモリ１０９には、システム制御プログ
ラム１１０、文書登録制御プログラム１１１、共有ライ
ブラリ１１２、テキスト登録プログラム１１３、出現頻
度ファイル作成登録プログラム１１４、検索制御プログ
ラム１１８、検索条件式解析プログラム１１９、類似文
書検索プログラム１２０および類似度ソートプログラム
１２６が格納されるとともにワークエリア１３０が確保
される。

【００７３】共有ライブラリ１１２は、同一文字種文字
列抽出プログラム１１５、特徴文字列抽出プログラム１
１６、漢字文字列対応特徴文字列抽出プログラム１２７
およびカタカナ文字列対応特徴文字列抽出プログラム１
２８で構成される。

【００７４】出現頻度ファイル作成登録プログラム１１
４は、出現頻度ファイル作成プログラム１１７で構成さ
れると共に、後述するように同一文字種文字列抽出プロ
グラム１１５と特徴文字列抽出プログラム１１６を呼び
出す構成をとる。

【００７５】類似文書検索プログラム１２０は、種文書
読込みプログラム１２１、同一文字種文字列抽出プログ
ラム１１５、出現頻度計数プログラム１２３、出現頻度
ファイル読込みプログラム１２４および類似度算出プロ
グラム１２５で構成されると共に、後述するように特徴
文字列抽出プログラム１１６を呼び出す構成をとる。

【００７６】文書登録制御プログラム１１１および検索
制御プログラム１１８は、ユーザによるキーボード１０
１からの指示に応じてシステム制御プログラム１１０に
よって起動され、それぞれテキスト登録プログラム１１
３および出現頻度ファイル作成登録プログラム１１４の
制御と、検索条件式解析プログラム１１９、類似文書検
索プログラム１２０および類似度ソートプログラム１２
６の制御を行なう。

【００７７】以下、本実施例における類似文書検索シス
テムの処理手順について説明する。

【００７８】まず、システム制御プログラム１１０の処
理手順について図４のＰＡＤ（ＰｒｏｂｌｅｍＡｎａ
ｌｙｓｉｓＤｉａｇｒａｍ）図を用いて説明する。

【００７９】システム制御プログラム１１０は、まずス
テップ４００で、キーボード１０１から入力されたコマ
ンドを解析する。

【００８０】そしてステップ４０１で、この結果が登録
実行のコマンドであると解析された場合には、ステップ
４０２で文書登録制御プログラム１１１を起動して、文
書の登録を行なう。

【００８１】またステップ４０３で、検索実行のコマン
ドであると解析された場合には、ステップ４０４で検索
制御プログラム１１８を起動して、類似文書の検索を行
なう。

【００８２】以上が、システム制御プログラム１１０の
処理手順である。

【００８３】次に、図４に示したステップ４０２でシス
テム制御プログラム１１０により起動される文書登録制
御プログラム１１１の処理手順について、図５のＰＡＤ
図を用いて説明する。

【００８４】文書登録制御プログラム１１１は、まずス
テップ５００でテキスト登録プログラム１１３を起動
し、ＦＤＤ１０６に挿入されたフロッピディスク１０７
から登録すべき文書のテキストデータをワークエリア１
３０に読み込み、これをテキスト１０３として磁気ディ
スク装置１０５に格納する。テキストデータは、フロッ
ピディスク１０７を用いて入力するだけに限らず、通信
回線やＣＤ−ＲＯＭ装置（図１には示していない）等を
用いて他の装置から入力するような構成を取ることも可
能である。

【００８５】次に、ステップ５０１で出現頻度ファイル
作成登録プログラム１１４を起動し、磁気ディスク装置
１０５に格納されているテキスト１０３を読み出し、そ
の中の各文書における出現頻度ファイル１０４を作成
し、磁気ディスク装置１０５に格納する。

【００８６】以上が、文書登録制御プログラム１１１の
処理手順である。

【００８７】次に、図５に示したステップ５０１で文書
登録制御プログラム１１１により起動される出現頻度フ
ァイル作成登録プログラム１１４の処理手順について、
図６のＰＡＤ図を用いて説明する。

【００８８】出現頻度ファイル作成登録プログラム１１
４は、まずステップ６００で同一文字種文字列抽出プロ
グラム１１５を起動し、テキスト１０３をワークエリア
１３０に読み込み、文字種境界でその文字列を分割する
ことにより同一文字種文字列を抽出し、ワークエリア１
３０に格納する。

【００８９】次に、ステップ６０１において、特徴文字
列抽出プログラム１１６を起動し、ワークエリア１３０
に格納されている同一文字種文字列から特徴文字列を抽
出し、同じくワークエリア１３０に格納する。

【００９０】そして、ステップ６０２において、出現頻
度ファイル作成プログラム１１７を起動し、ワークエリ
ア１３０に格納されている特徴文字列を参照して、その
出現頻度を計数し、出現頻度ファイル１０４として磁気
ディスク装置１０５に格納する。

【００９１】以上が、出現頻度ファイル作成登録プログ
ラム１１４の処理手順である。

【００９２】次に、図６に示したステップ６０１におい
て出現頻度ファイル作成登録プログラム１１４により起
動される特徴文字列抽出プログラム１１６の処理手順に
ついて、図７のＰＡＤ図を用いて説明する。

【００９３】特徴文字列抽出プログラム１１６は、同一
文字種文字列抽出プログラム１１５により抽出された同
一文字種文字列の数を調べ、全ての同一文字種文字列に
ついてステップ７０１以降を繰り返し実行する（ステッ
プ７００）。

【００９４】ステップ７０１では、ワークエリア１３０
に格納されている同一文字種文字列の文字種を判定し、
その文字種が漢字の場合にはステップ７０２を実行し、
カタカナの場合には、ステップ７０３を実行する。

【００９５】ステップ７０２では、後述する漢字文字列
対応特徴文字列抽出プログラム１２７を起動し、漢字文
字列から特徴文字列を抽出する。

【００９６】ステップ７０３では、同様に後述するカタ
カナ文字列対応特徴文字列抽出プログラム１２８を起動
し、カタカナ文字列から特徴文字列を抽出する。

【００９７】以上が、特徴文字列抽出プログラム１１６
の処理手順である。

【００９８】次に、図７に示したステップ７０２で特徴
文字列抽出プログラム１１６により起動される漢字文字
列対応特徴文字列抽出プログラム１２７の処理手順につ
いて、図８のＰＡＤ図を用いて説明する。

【００９９】漢字文字列対応特徴文字列抽出プログラム
１２７では、ステップ８００において、同一文字種文字
列抽出プログラム１１５により抽出されワークエリア１
３０に格納されている漢字文字列を取得する。そし
て、ステップ８０１において、上記ステップ８００で取
得した漢字文字列の先頭から一文字ずつずらしながら、
n-gram（nの値は、予め定めておく)を特徴文字列として
抽出する。

【０１００】以上が、漢字文字列対応特徴文字列抽出プ
ログラム１２７の処理手順である。

【０１０１】次に、図７に示したステップ７０３で特徴
文字列抽出プログラム１１６により起動されるカタカナ
文字列対応特徴文字列抽出プログラム１２８の処理手順
について、図９のＰＡＤ図を用いて説明する。

【０１０２】カタカナ文字列対応特徴文字列抽出プログ
ラム１２８では、ステップ９００において、同一文字種
文字列抽出プログラム１１５により抽出されワークエリ
ア１３０に格納されているカタカナ文字列を取得する。

【０１０３】そして、ステップ９０１において、上記ス
テップ９００で取得したカタカナ文字列そのものを特徴
文字列として抽出する。

【０１０４】以上が、カタカナ文字列対応特徴文字列抽
出プログラム１２８の処理手順である。

【０１０５】以下に、図７に示した特徴文字列抽出プロ
グラム１１６の処理手順について具体例を用いて説明す
る。

【０１０６】まず、図７の特徴文字列抽出プログラム１
１６のステップ７０２における漢字文字列対応特徴文字
列抽出プログラム１２７と、ステップ７０３におけるカ
タカナ文字列対応特徴文字列抽出プログラム１２８の処
理手順について、図１０〜図１２の例を用いて説明す
る。漢字文字列対応特徴文字列抽出プログラム１２７
とカタカナ文字列対応特徴文字列抽出プログラム１２８
は特徴文字列抽出プログラム１１６によって起動され
る。このとき、同一文字種文字列抽出プログラム１１５
によって抽出された同一文字種文字列が漢字文字列対応
特徴文字列抽出プログラム１２７とカタカナ文字列対応
特徴文字列抽出プログラム１２８へワークエリア１３０
を介して渡される。

【０１０７】図１０は文書１、文書２、文書３および文
書４からなるテキスト１０３から、同一文字種文字列抽
出プログラム１１５により同一文字種文字列が抽出され
た結果を示したものである。例えば、文書２「新しいソ
フトウェアの開発作業」からは「新」「しい」「ソフト
ウェア」「の」「開発作業」という５個の同一文字種文
字列が抽出される。

【０１０８】この抽出された同一文字種文字列の文字種
にしたがって、特徴文字列抽出プログラム１１６は、漢
字文字列対応特徴文字列抽出プログラム１２７あるいは
カタカナ文字列対応特徴文字列抽出プログラム１２８を
起動する。

【０１０９】漢字文字列対応特徴文字列抽出プログラム
１２７は、ワークエリア１３０に格納されている漢字文
字列の先頭から一文字ずつずらしながら、全ての2-gram
を特徴文字列として抽出する。図１１は、図１０の例で
抽出された漢字文字列から、漢字文字列対応特徴文字列
抽出プログラム１２７により特徴文字列を抽出した結果
を示している。例えば、同一文字種文字列１０００の中
で文書２から抽出された「新」「しい」「ソフトウェ
ア」「の」「開発作業」からは、「開発」「発作」「作
業」が抽出される。

【０１１０】カタカナ文字列対応特徴文字列抽出プログ
ラム１２８は、ワークエリア１３０に格納されているカ
タカナ文字列そのものを特徴文字列として抽出する。図
１２は、図１０の例で抽出されたカタカナ文字列から、
カタカナ文字列対応特徴文字列抽出プログラムにより特
徴文字列を抽出した結果である。例えば、同一文字種文
字列１０００の中で文書２から抽出された「新」「し
い」「ソフトウェア」「の」「開発作業」からは、「ソ
フトウェア」が抽出される。

【０１１１】以上が、第一の実施例における特徴文字列
抽出プログラム１１６のステップ７０２における漢字文
字列対応特徴文字列抽出プログラム１２７と、ステップ
７０３におけるカタカナ文字列対応特徴文字列抽出プロ
グラム１２８の処理手順である。

【０１１２】この例では、漢字文字列対応特徴文字列抽
出プログラム１２７の処理として、漢字文字列から2-gr
amを特徴文字列として抽出するものとして説明したが、
1-gram、あるいは3-gram以上であっても、さらには、そ
れらの組み合わせであっても、同様に特徴文字列抽出の
処理を行うことができることは明らかであろう。

【０１１３】次に、図４に示したステップ４０４でシス
テム制御プログラム１１０により起動される検索制御プ
ログラム１１８による類似文書検索の処理手順につい
て、図１３のＰＡＤ図を用いて説明する。

【０１１４】検索制御プログラム１１８は、まずステッ
プ１３００で検索条件式解析プログラム１１９を起動
し、キーボード１０１から入力された検索条件式を解析
し、検索条件式のパラメータとして指定された種文書番
号を抽出する。

【０１１５】次に、ステップ１３０１で類似文書検索プ
ログラム１２０を起動し、上記ステップ１３００で抽出
された種文書番号に対し、磁気ディスク装置１０５に格
納されているテキスト１０３中の各文書の類似度を算出
する。

【０１１６】そして、ステップ１３０２において、類似
度ソートプログラム１２６を起動し、上記ステップ１３
０１で算出された各文書の類似度を降順にソートする。

【０１１７】最後に、ステップ１３０３において上記ス
テップ１３０２でソートされた類似度を各文書番号と共
に出力する。

【０１１８】以上が、検索制御プログラム１１８による
文書検索の処理手順である。

【０１１９】次に、図１３に示したステップ１３０１で
検索制御プログラム１１８により起動される類似文書検
索プログラム１２０の処理手順について、図１４のＰＡ
Ｄ図を用いて説明する。類似文書検索プログラム１２
０は、まずステップ１４００で種文書読込みプログラム
１２１を起動し、検索条件式解析プログラム１１９によ
って検索条件式から抽出された文書番号の種文書をワー
クエリア１３０に読み込む。ここで、種文書は、テキス
ト１０３中に格納されている文書を読み込むだけでな
く、フロッピディスク１０７、ＣＤ−ＲＯＭ装置（図１
には示していない）や通信回線等を用いて、他の装置か
ら入力するような構成を取ることも可能であり、また、
全文検索システム等による検索結果から入力するような
構成を取ることも可能であり、類似度ソートプログラム
１２６の出力から種文書を選択する構成を取ることも可
能である。

【０１２０】次に、ステップ１４０１において、同一文
字種文字列抽出プログラム１１５を起動し、上記種文書
読込みステップ１４００で読み込んだ種文書のテキスト
を、文字種境界で分割して同一文字種文字列を取得し、
ワークエリア１３０に格納する。

【０１２１】そして、ステップ１４０２において特徴文
字列抽出プログラム１１６を起動し、上記同一文字種文
字列抽出ステップ１４０１で取得した同一文字種文字列
から、特徴文字列を抽出する。

【０１２２】図１５に、この処理の具体例を示す。特徴
文字列抽出プログラム１１６の処理手順に関しては、前
に説明した通りである。

【０１２３】本例では、種文書である文書２「新しいソ
フトウェアの開発作業」から、「新」「しい」「ソフト
ウェア」「の」「開発作業」という５個の同一文字種文
字列１５００が抽出されることになる。この抽出された
同一文字種文字列１５００の文字種にしたがって、特徴
文字列を抽出する。この結果、文書２からは「ソフトウ
ェア」「開発」「発作」「作業」の４個の特徴文字列１
５０１が抽出される。

【０１２４】次に図１４のステップ１４０３で、出現頻
度計数プログラム１２３を起動し、上記特徴文字列抽出
ステップ１４０２で抽出した特徴文字列の種文書内にお
ける出現頻度を計数する。

【０１２５】図１６に、この具体例を示す。本図は、図
１５に例示した種文書から抽出された特徴文字列１５０
１の出現頻度を計数した結果を示している。すなわち、
「（ソフトウェア，１）、（開発，１）、（発作，
１）、（作業，１）」という出現頻度１６００が得られ
ている。ここで、例えば（開発，１）は、特徴文字列
「開発」が「１」回出現するということを示している。

【０１２６】次に、図１４のステップ１４０４で、出現
頻度ファイル読込みプログラム１２４を起動し、上記特
徴文字列抽出ステップ１４０２で抽出した特徴文字列
の、テキスト１０３中の各文書における出現頻度を出現
頻度ファイル１０４から読み込む。

【０１２７】図１７に、この具体例を示す。ここでは、
図１５の例で抽出された特徴文字列１５０１のテキスト
１０３中の各文書における出現頻度を、読み込んだ出現
頻度ファイルから取得した結果を示している。

【０１２８】この例では、種文書から抽出された「ソフ
トウェア」「開発」「発作」「作業」という４個の特徴
文字列１５０１の出現頻度を、出現頻度ファイル１０４
から得る。この結果、出現頻度１７００として、例えば
文書３の場合「（ソフトウェア，１）、（開発，１）、
（発作，０）、（作業，０）」という値を得ることがで
きる。

【０１２９】最後に、図１４のステップ１４０５で、類
似度算出プログラム１２５を起動し、上記出現頻度計数
ステップ１４０３で計数した特徴文字列の種文書内にお
ける出現頻度と、上記出現頻度ファイル読込みステップ
１４０４で読み込んだ特徴文字列のテキスト１０３内の
各文書における出現頻度から、テキスト１０３中の各文
書との類似度を算出する。

【０１３０】図１８に、この具体例を示す。ここでは、
図１６の例で計数した種文書における出現頻度１６００
および図１７の例で取得したテキスト１０３中の各文書
における出現頻度１７００を用いて、各文書の類似度S
(1)〜S(4)を算出した結果を示している。すなわち、次
のような結果が得られる。

【０１３１】 S(1)=0.077 S(2)=1.0 S(3)=0.263 S(4)=0.148 本実施例では、この類似度の算出に、従来技術２に開示
されている式（１）を用いるが、他の方法を用いても構
わない。

【０１３２】以上が、類似文書検索プログラム１１８の
処理手順である。

【０１３３】以上が、本発明の第一の実施例である。

【０１３４】なお、本実施例においては、特徴文字列抽
出プログラム１１６は、漢字対応特徴文字列抽出プログ
ラム１２７およびカタカナ文字列対応特徴文字列抽出プ
ログラム１２８を含む構成としたが、英字や数字等に対
応した特徴文字列抽出プログラムを含む構成としてもよ
いし、漢字文字列対応特徴文字列抽出プログラム１２７
あるいはカタカナ文字列対応特徴文字列抽出プログラム
１２８を含まない構成であってもよい。

【０１３５】また、本実施例においては、同一文字種文
字列から特徴文字列を抽出する構成としたが、特定の文
字種間を境界として前後に跨る部分文字列を特徴文字列
として抽出することにより、例えば、「Ｆ１」や「ビタ
ミンＣ」等の文字列を検索に用いることもでき、さらに
高精度な類似文書検索を実現することが可能となる。

【０１３６】さらに、本実施例においては、出現頻度フ
ァイル１０４を図２に示した表形式で作成されるものと
したが、この方法では、データベースが大規模になるに
伴い特徴文字列の種類が増加するため、出現頻度ファイ
ル読込みステップ１４０４の処理に長大な時間を要する
ことになる。この問題は、特徴文字列に対して検索用の
インデクスを付加することにより解決できる。これによ
り、大規模なデータベースに対しても高速な類似文書検
索を実現することが可能となる。この特徴文字列に対す
る検索用インデクスとしては、「特開平８−３２９１１
２号公報」等に開示されているような単語インデクス方
式を用いることができる。

【０１３７】次に、本発明の第二の実施例について図１
９を用いて説明する。

【０１３８】本発明を適用した類似文書検索システムの
第二例は、種文書から抽出した特徴文字列のデータベー
ス内の各文書における出現頻度の取得に、検索漏れのな
い全文検索インデクスを利用するものである。これによ
り、本類似文書検索システムを全文検索システムと組み
合わせて実現した場合に、出現頻度ファイルをもつ必要
がなくなる。

【０１３９】すなわち、本方法によれば、第一の実施例
における出現頻度ファイル１０４の特徴文字列の検索に
全文検索インデクスを利用することができ、大規模なデ
ータベースに対しても高速な類似文書検索を実現するこ
とが可能となる。さらに、出現頻度ファイル１０４を全
文検索用インデクスで代用するため、第一の実施例に比
べ必要となる磁気ディスク容量を削減できることにな
る。

【０１４０】本実施例は、第一の実施例（図１）とほぼ
同様の構成を取るが、類似文書検索プログラム１２０を
構成する出現頻度ファイル読込みプログラム１２４が異
なる。このプログラムの代わりに、図１９に示すよう
に、特徴文字列検索プログラム１９００が用いられる。

【０１４１】以下、本実施例における処理手順のうち、
第一の実施例とは異なる類似文書検索プログラム１２０
ａの処理手順について図２０を用いて説明する。

【０１４２】ここで、第一の実施例における類似文書検
索プログラム１２０（図１４）と異なる点は、出現頻度
取得ステップ２００４だけである。他の処理ステップの
処理手順は、第一の実施例で説明した通りである。

【０１４３】出現頻度取得ステップ２００４では、特徴
文字列検索プログラム１９００を起動し、特徴文字列抽
出ステップ１４０２で抽出された特徴文字列を全文検索
システム１９０１で検索することにより、テキスト１０
３内の各文書における出現頻度を取得する。

【０１４４】本実施例の出現頻度取得ステップ２００４
で用いる特徴文字列検索プログラム１９００は、検索漏
れがなく、かつ、各文書における出現頻度を取得できる
全文検索方式であれば、どのような方式を適用しても構
わない。例えば、「特開昭６４−３５６２７号公報」
（以下、従来技術３と呼ぶ）で開示されているようなn-
gramインデクス方式を用いることも可能である。

【０１４５】この従来技術３によるn-gramインデクス方
式では、文書の登録時に、データベースへ登録する文書
のテキストデータからn-gramとそのn-gramのテキスト中
における出現位置を抽出し、全文検索用インデクス１９
０３として磁気ディスク装置１９０２に格納しておく。
検索時には指定された検索ターム中に出現するｎ−ｇｒ
ａｍを抽出し、これらに対応するインデクスを上記磁気
ディスク装置１９０２から読み込み、インデクス中のｎ
−ｇｒａｍの出現位置を比較し、検索タームから抽出し
たn-gramの位置関係とインデクス中のn-gramの位置関係
が等しいかどうかを判定することによって、指定された
検索タームが出現する文書を高速に検索する。

【０１４６】この方式を用いて、特徴文字列を検索ター
ムとして全文検索システム１９０１へ入力し、該検索タ
ームの出現文書とその位置情報を取得することにより、
該特徴文字列の各文書における出現頻度を求めることが
可能となる。

【０１４７】以下、この従来技術３を用いた出現頻度の
算出方法を図２１を用いて具体的に説明する。なお本図
では、n-gramのnの値を２としている。

【０１４８】まず、文書の登録時にデータベースに登録
するテキスト２１０１がインデクス作成部２１０２に読
み込まれ、n-gramインデクス２１００が作成される。こ
のn-gramインデクス２１００には、テキスト２１０１に
出現する全ての2-gramとテキスト２１０１におけるその
2-gramの出現位置が格納される。

【０１４９】本図に示すテキスト２１０１では、「心
電」という2-gramはテキスト２１０１（文書番号
「１」）の５文字目、１５文字目、・・・に現われるの
で、n-gramインデクス２１００には2-gram「心電」とこ
れに対応したかたちで出現位置｛（１，５）、（１，１
５）、・・・｝が格納される。

【０１５０】検索時には、まず、検索タームがn-gram抽
出部２１０３に入力され、検索ターム中に出現する全て
のn-gramとそのn-gramの検索タームにおける出現位置が
抽出される。次に、抽出されたn-gramとこれに対応する
n-gramの検索タームにおける出現位置がインデクス検索
部２１０４に入力される。

【０１５１】インデクス検索部２１０４では、検索ター
ムから抽出されたn-gramに対応するインデクスがn-gram
インデクス２１００から読み込まれ、これらのインデク
スの中から文書番号が一致し、かつ検索ターム中の位置
関係と同じ位置関係を持つものが抽出され、検索結果と
して出力される。

【０１５２】検索タームとして「心電図」が入力された
本図の場合、まず、n-gram抽出部２１０３において、
（n-gram「心電」、n-gram位置「１」）と（n-gram「電
図」、n-gram位置「２」）が抽出される。ここで、 n-g
ram位置「１」は検索タームの先頭、 n-gram位置「２」
はその次の文字位置を示す。

【０１５３】次に、インデクス検索部２１０４におい
て、n-gramインデクス２１００からn-gram「心電」と
「電図」に対応するインデクスが読み込まれる。これら
のインデクスにおける出現位置がn-gram位置「１」とn-
gram位置「２」のように連続するものが、すなわち隣接
するものが抽出され検索結果として出力される。

【０１５４】本図では、 n-gram「心電」の出現位置
「１５」とn-gram「電図」の出現位置「１６」が隣接す
るため、 n-gram「心電図」が文字列として存在するこ
とが分かり、文書１中に検索ターム「心電図」が出現す
ることが示される。しかし、 n-gram「心電」の出現位
置「５」とn-gram「電図」の出現位置「１６」は隣接し
ていないため、この位置には検索ターム「心電図」が出
現しないことが分かる。

【０１５５】本方法において、検索タームとして特徴文
字列入力した場合、上記インデクス検索部２１０４から
検索結果として出力される出現位置を計数することによ
り、該当特徴文字列の出現頻度を得ることが可能とな
る。

【０１５６】以上説明したように、本実施例によれば、
出現頻度ファイルの特徴文字列検索用インデクスと出現
頻度ファイルの代わりに、全文検索インデクスを利用で
きるため、大規模なデータベースに対しても余分なファ
イルを増やさずに、高速に類似文書検索を実現すること
が可能となる。

【０１５７】次に、本発明の第三の実施例について図２
２を用いて説明する。

【０１５８】本発明を適用した類似文書検索システムの
第三例は、種文書から抽出した特徴文字列の重要度を算
出し、この重要度が所定値を満たす特徴文字列に限定し
て、データベース内の各文書における出現頻度を取得
し、これに基づいて類似度を算出するものである。

【０１５９】すなわち、本方法は、第一の実施例におけ
る出現頻度ファイル読込みステップ１４０４で出現頻度
の取得対象とする特徴文字列数を削減することによっ
て、類似度算出に用いる特徴文字列数を削減し、文字数
の多い種文書に対しても高速な類似文書検索を実現でき
るようにするものである。

【０１６０】本実施例は、第一の実施例（図１）とほぼ
同様の構成を取るが、類似文書検索プログラム１２０が
異なり、図２２に示すように、特徴文字列選択プログラ
ム２２００を有する。

【０１６１】以下、本実施例における処理手順のうち、
第一の実施例とは異なる類似文書検索プログラム１２０
ｂの処理手順について図２３のＰＡＤ図を用いて説明す
る。

【０１６２】ここで、第一の実施例における類似文書検
索プログラム１２０（図１４）の処理手順と異なる点
は、特徴文字列選択ステップ２３００だけである。他の
処理ステップの処理手順は、第一の実施例で説明した通
りである。

【０１６３】特徴文字列選択ステップ２３００では、特
徴文字列選択プログラム２２００を起動し、特徴文字列
抽出ステップ１４０２（特徴文字列抽出プログラム１１
６）で抽出した特徴文字列の重要度を算出し、所定の値
を満たす文字列を類似検索用の特徴文字列として選択す
る。

【０１６４】以下、特徴文字列選択ステップ２３００で
起動される特徴文字列選択プログラム２２００の処理手
順を図２４のＰＡＤ図を用いて説明する。

【０１６５】特徴文字列選択プログラム２２００は、ま
ず、ステップ２４００において特徴文字列抽出ステップ
１４０２で抽出された特徴文字列を取得すし、ワークエ
リア１３０に格納する。

【０１６６】次に、ステップ２４０１で各特徴文字列が
出現する文書数を出現頻度ファイル１０４から取得す
る。

【０１６７】そして、ステップ２４０２において、所定
の重要度算出式を用いて該特徴文字列の重要度を算出す
る。

【０１６８】この結果、該重要度が所定値を満たす特徴
文字列に限定し、これを類似度算出用の特徴文字列とし
て抽出する（ステップ２４０３）。この重要度には、従
来技術２の共通性ウェイトを用いてもよい。本実施例で
は、重要度の算出に以下に示す式（２）を用いる。

【０１６９】

【数２】

【０１７０】ここで、nはデータベース中の文書数、Num
Docは特徴文字列のデータベースにおける出現文書数を
示す。この値は、特徴文字列がデータベース中の全ての
文書に出現する場合に最も小さく、特定の文書に偏って
出現する場合に大きくなる。

【０１７１】また、特徴文字列を抽出する際に基準とす
る閾値としては、上限とする重要度と下限とする重要度
を予め定めておいてもよいし、重要度の上位k個（kは1
以上の予め定められた整数）を採るものとしてもよい。

【０１７２】以下、図２５に示す具体例で特徴文字列選
択ステップ２２００の処理手順を説明する。なお本図で
は、図１５の例で抽出した特徴文字列１５０１を対象と
し、重要度が3.0以上である特徴文字列を選択するもの
とする。

【０１７３】まず、ステップ１４０４（図２３）でワー
クエリア１３０に読み込んだ出現頻度ファイル１０４か
ら各特徴文字列の出現文書数を取得する。この例では、
文書２の特徴文字列１５０１の各出現文書数２５００と
して、［ソフトウェア，２］、［開発，３］、［発作，
２］、［作業，２］が得られる。ここで、［ソフトウェ
ア，２］は、特徴文字列「ソフトウェア」がデータベー
ス中の「２」つの文書に出現することを表わす。

【０１７４】次に、各特徴文字列の出現文書数２５００
から重要度２５０１を算出し、重要度が3.0以上の特徴
文字列を抽出する。この結果、「ソフトウェア」という
１個の特徴文字列２５０２が類似度算出用の特徴文字列
として選択されることになる。

【０１７５】このように、特徴文字列の個数を４個から
１個に削減することができるため、類似度算出に要する
時間を大幅に削減することができる。

【０１７６】なお、本実施例では、出現頻度ファイル１
０４を参照して、各特徴文字列の出現文書数を取得する
構成としたが、文書登録時に各文書中の特徴文字列を計
数し、各特徴文字列の出現文書数を求め、これを出現文
書数ファイルとして記憶しておくことにより、さらに高
速に特徴文字列を選択することも可能である。

【０１７７】また、本実施例では、出現頻度ファイル１
０４を参照して、各特徴文字列の出現文書数を取得し重
要度を算出する構成としたが、文書登録時に各文書にお
ける特徴文字列の重要度を算出し、これを重要度ファイ
ルとして記憶しておくことにより、さらに高速に特徴文
字列を選択することが可能となる。

【０１７８】さらに、本実施例では、重要度の算出に特
徴文字列のデータベース中の出現文書数を用いたが、例
えば、特徴文字列の文字種類や文字列長、種文書内の出
現頻度あるいは出現位置等の情報のいずれか一つ、ある
いは、それらを組み合わせることにより算出することも
可能である。

【０１７９】以上説明したように、本発明によれば、分
かち書きのない日本語のような文書に対して、類似文書
検索を行なった場合においても、種文書から文字列を機
械的に抽出することにより、どんな単語についても漏れ
のない検索を行なうことが可能となる。また、文字種に
応じて特徴文字列を抽出することにより、意味のまとま
った文字列を用いて検索を行なうことができるため、高
精度な類似文書検索を実現することができるようにな
る。さらに、抽出する文字列の種類が大幅に削減される
ため、高速に類似文書を検索することができるようにな
る。

【０１８０】さらに、全文検索システムと組み合わせて
用いることにより、大規模な文書データベースに対して
も、高速な類似文書検索が実現可能となる。

【０１８１】

【発明の効果】本発明によれば、単語辞書を用いずに類
似文書検索を行なった場合でも、意味のまとまった文字
列を用いて検索を行なうことができるため、高精度な類
似文書検索を実現することができる。また、抽出する文
字列の文字種に応じて最適な長さの部分文字列（n-gra
m）を抽出するため、高速に類似文書を検索することが
できるようになる。

【図面の簡単な説明】

【図１】本発明による類似文書検索システムの第一の実
施例の全体構成を示す図である。

【図２】出現頻度ファイルの構成例を示す図である。

【図３】特徴文字列抽出処理の流れを示すＰＡＤ図であ
る。

【図４】本発明の第一の実施例におけるシステム制御プ
ログラムの処理手順を示すＰＡＤ図である。

【図５】本発明の第一の実施例における文書登録制御プ
ログラムの処理手順を示すＰＡＤ図である。

【図６】本発明の第一の実施例における出現頻度ファイ
ル作成プログラムの処理手順を示すＰＡＤ図である。

【図７】本発明の第一の実施例における特徴文字列抽出
プログラムの処理手順を示すＰＡＤ図である。

【図８】本発明の第一の実施例における漢字文字列対応
特徴文字列抽出プログラムの処理手順を示すＰＡＤ図で
ある。

【図９】本発明の第一の実施例におけるカタカナ文字列
対応特徴文字列抽出プログラムの処理手順を示すＰＡＤ
図である。

【図１０】本発明の第一の実施例における同一文字種文
字列抽出プログラムの処理例を示す図である。

【図１１】本発明の第一の実施例における漢字文字列対
応特徴文字列抽出プログラムの処理例を示す図である。

【図１２】本発明の第一の実施例におけるカタカナ文字
列対応特徴文字列抽出プログラムの処理例を示す図であ
る。

【図１３】本発明の第一の実施例における検索制御プロ
グラムの処理手順を示すＰＡＤ図である。

【図１４】本発明の第一の実施例における類似文書検索
プログラムの処理手順を示すＰＡＤ図である。

【図１５】本発明の第一の実施例における特徴文字列抽
出プログラムの処理例を示す図である。

【図１６】本発明の第一の実施例における出現頻度計数
プログラムの処理例を示す図である。

【図１７】本発明の第一の実施例における出現頻度取得
ファイル読込みプログラムの処理例を示す図である。

【図１８】本発明の第一の実施例における類似度算出プ
ログラムの処理例を示す図である。

【図１９】本発明の第二の実施例における検索処理系の
プログラム構成を示す図である。

【図２０】本発明の第二の実施例における類似文書検索
プログラムの処理手順を示すＰＡＤ図である。

【図２１】本発明の第二の実施例におけるn-gramインデ
クスの例を示す図である。

【図２２】本発明の第三の実施例における検索処理系の
プログラム構成を示す図である。

【図２３】本発明の第三の実施例における類似文書検索
プログラムの処理手順を示すＰＡＤ図である。

【図２４】本発明の第三の実施例における特徴文字列選
択プログラムの処理手順を示すＰＡＤ図である。

【図２５】本発明の第三の実施例における特徴文字列の
選択の例を示す図である。

【符号の説明】

１００…ディスプレイ、１０１…キーボード、１０２…中央演算処理装置（ＣＰＵ）、１０３…テキスト、１０４…出現頻度ファイル、１０５…磁気ディスク装置、１０６…フロッピディスクドライブ（ＦＤＤ）、１０７…フロッピディスク、１０８…バス、１０９…主メモリ、１１０…システム制御プログラム、１１１…文書登録制御プログラム、１１２…共有ライブラリ、１１３…テキスト登録プログラム、１１４…出現頻度ファイル作成登録プログラム、１１５…同一文字種文字列抽出プログラム、１１６…登録用特徴文字列抽出プログラム、１１７…出現頻度ファイル作成プログラム、１１８…検索制御プログラム、１１９…検索条件式解析プログラム、１２０…類似文書検索プログラム、１２１…種文書読込みプログラム、１２３…出現頻度計数プログラム、１２４…出現頻度読込みプログラム、１２５…類似度算出プログラム、１２６…類似度ソートプログラム、１２７…漢字文字列対応特徴文字列抽出プログラム、１２８…カタカナ文字列対応特徴文字列抽出プログラ
ム、１３０…ワークエリア

───────────────────────────────────────────────────── フロントページの続き (72)発明者菅谷奈津子神奈川県川崎市幸区鹿島田890番地株式会社日立製作所情報・通信開発本部内 (72)発明者川下靖司神奈川県横浜市戸塚区戸塚町3090番地株式会社日立製作所ソフトウェア開発本部内

Claims

【特許請求の範囲】

【請求項１】文字情報をコードデータとして蓄積したテ
キストデータベースを対象に、ユーザが指定した文書と
類似する文書を検索する類似文書検索方法において、ユーザが指定した文書のテキスト（指定テキストと呼
ぶ）から所定の文字種の変わり目を境界として文字列を
抽出する文字列抽出ステップと、予め定められた一つ以上の文字列の種類に応じて、その
中から一つ以上の部分文字列を抽出する検索用部分文字
列抽出ステップと、該指定テキストに対する該テキストデータベース中のテ
キストの類似度を所定の類似度算出式を用いて算出する
類似度算出ステップを有することを特徴とした類似文書
検索方法。
【請求項２】請求項１記載の類似文書検索方法における
前記文字列抽出ステップで、該指定テキストから抽出する文字列として、全ての文字
種の変わり目を境界として同一文字種からなる文字列を
抽出する同一文字種文字列抽出ステップを有することを
特徴とした類似文書検索方法。
【請求項３】請求項２記載の類似文書検索方法における
前記検索用部分文字列抽出ステップで、全ての文字種に応じて予め定められた文字列長の部分文
字列を検索用部分文字列として抽出する文字種別検索用
部分文字列抽出ステップを有することを特徴とした類似
文書検索方法。
【請求項４】請求項１、２および３に記載の類似文書検
索方法における前記検索用部分文字列抽出ステップで、予め定められた長さの文字列を検索用部分文字列として
抽出するステップ、前記文字列抽出ステップで抽出された文字列そのものを
検索用部分文字列として抽出するステップ、前記文字列抽出ステップで抽出された文字列とその部分
文字列の指定テキストにおける出現頻度比を算出し、所
定値を満たす部分文字列を検索用部分文字列として抽出
するステップ、前記文字列抽出ステップで抽出された文字列から、予め
作成しておいた、検索用部分文字列として抽出しない文
字列を不要語として記載した排除文字列辞書に含まれな
い文字列を、検索用部分文字列として抽出するステッ
プ、および、前記文字列抽出ステップで抽出された文字列か
ら検索用部分文字列としては部分文字列を抽出しないス
テップ、のいずれか一つ、あるいは、それらを組み合わせること
により検索用部分文字列を抽出する検索用部分文字列抽
出ステップを有することを特徴とした類似文書検索方
法。
【請求項５】請求項１、２および３に記載の類似文書検
索方法における前記検索用部分文字列抽出ステップで、予め定められた長さの文字列を検索用部分文字列として
抽出する所定長文字列抽出ステップ、前記文字列抽出ステップで抽出された文字列そのものを
検索用部分文字列として抽出する最長文字列抽出ステッ
プ、前記文字列抽出ステップで抽出された文字列とその部分
文字列の指定テキストにおける出現頻度比を算出し、所
定値を満たす部分文字列を検索用部分文字列として抽出
する高出現頻度比文字列抽出ステップ、上記所定長文字列抽出ステップ、最長文字列抽出ステッ
プおよび高出現頻度比文字列抽出ステップの中の少なく
とも一つの抽出ステップで抽出された部分文字列から、
予め作成しておいた、検索用部分文字列として抽出しな
い文字列を不要語として記載した排除文字列辞書に含ま
れる文字列を削除するステップ、および、前記文字列抽出ステップで抽出された文字列か
ら検索用部分文字列としては部分文字列を抽出しないス
テップ、のいずれか一つ、あるいは、それらを組み合わせること
により検索用部分文字列を抽出する検索用部分文字列抽
出ステップを有することを特徴とした類似文書検索方
法。
【請求項６】請求項１、２、３および４に記載の類似文
書検索方法において、前記検索用部分文字列抽出ステップで抽出された検索用
部分文字列の重要度を、予め定められた算出式を用いて
算出し、所定値を満たす検索用部分文字列を抽出する検
索用部分文字列選択ステップを有することを特徴とした
類似文書検索方法。
【請求項７】請求項５記載の類似文書検索方法における
前記検索用部分文字列選択ステップとして、前記検索用部分文字列抽出ステップにおいて抽出された
検索用部分文字列の文字種類、文字列長、テキストデー
タベース内の出現文書数、指定テキストにおける出現頻
度および該テキストにおける出現位置等の情報のいずれ
か一つ、あるいは、それらを組み合わせて、検索用部分
文字列の重要度を算出する重要度算出ステップを有する
ことを特徴とした類似文書検索方法。
【請求項８】請求項６記載の類似文書検索方法におい
て、登録時に検索用部分文字列のテキストデータベース内の
出現文書数を出現文書数ファイルとして保存する出現文
書数ファイル作成ステップを有し、検索時における前記重要度算出ステップにおいて、上記
出現文書数ファイルから該検索用部分文字列の出現文書
数を読み込む出現文書数ファイル読込みステップを有す
ることを特徴とした類似文書検索方法。
【請求項９】請求項６および７に記載の類似文書検索方
法において、登録時に検索用部分文字列の重要度を予め定められた算
出式を用いて算出し、これを重要度ファイルとして保存
する重要度ファイル作成ステップを有し、検索時における前記重要度算出ステップにおいて、上記
重要度ファイルから該検索用部分文字列の重要度を読み
込む重要度ファイル読込みステップを有することを特徴
とした類似文書検索方法。
【請求項１０】請求項１〜８に記載の類似文書検索方法
において、登録時に検索用部分文字列のテキストデータベース内の
各テキストにおける出現頻度を出現頻度ファイルとして
保存する出現頻度ファイル作成ステップを有し、検索時における前記類似度算出ステップにおいて、上記
出現頻度ファイルから出現頻度情報を読み込む出現頻度
ファイル読込みステップを有することを特徴とした類似
文書検索方法。