JPH10320421A

JPH10320421A - 文書検索方法

Info

Publication number: JPH10320421A
Application number: JP9311791A
Authority: JP
Inventors: Yasutsugu Ogawa; 泰嗣小川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1997-03-19
Filing date: 1997-11-13
Publication date: 1998-12-04

Abstract

(57)【要約】【課題】文書を高速で検索することである。【解決手段】テキストを単語単位に分割する単語分割
手段と、入力された登録文書を単語分割した結果を保管
検索する索引ファイル操作手段と、入力された検索要求
を解析する検索要求解析手段と、検索要求の解析結果に
従って前記索引ファイル操作手段を用いて検索要求に一
致する文書を特定する文書検索手段からなる文書検索方
法において、前記単語分割手段が２文字或いはそれ以上
の長さの文字の並びの単語境界になり易さに基づいてテ
キストを単語に分割するようにした。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書管理システ
ム、画像管理システム、データベース管理システム等に
おいて、文書を高速で検索することができる文書検索方
法に関するものである。

【０００２】

【従来の技術】一般に、この種の文書検索方法におい
て、テキストを単語に分割して検索のための索引ファイ
ルを生成しているものであるが、特開平６−２５９４８
０号公報や特開平７−８５０３３号公報においては、テ
キストを単語に分割して検索のための索引ファイルを生
成する手段としてテキストを形態素解析すること（以下
では、この方式を「形態素解析方式」と呼ぶ）が行われ
ている。

【０００３】

【発明が解決しようとする課題】従来の形態素解析方式
においては、次のような三つの問題点がある。

【０００４】（１）形態素解析を行うためには、大規模
な単語辞書を事前に用意しておく必要がある。そのた
め、単語辞書の作成には人手がかかる。さらに、辞書に
ない新語が発生した場合には、その新語を順次追加する
必要があるため維持コストも膨大なものになるという問
題がある。

【０００５】（２）形態素解析には誤りがつきものであ
る。形態素解析に誤りがあると、本来、検索されるべき
文書が検索されなかったり、検索される必要のない文書
が検索されるため、ユーザの望んだ検索結果が得られな
いことになる。例えば、「東京都町田市」を「東京／都
／町田／市」と形態解析できれば、これを含む文書を、
「東京」と云う検索語で検索することができるものであ
るが、これを「東／京都／町田／市」と誤って形態素解
析をした場合には、「東京」と云う検索語では検索でき
ない。

【０００６】（３）形態素解析結果の単語を全て索引に
記録すると、索引ファイルが大型となる。よって、検索
時に明らかに使用されないような単語は除外した方がよ
いといえる。

【０００７】

【課題を解決するための手段】請求項１記載の発明は、
テキストを単語単位に分割する単語分割手段と、入力さ
れた登録文書を単語分割した結果を保管検索する索引フ
ァイル操作手段と、入力された検索要求を解析する検索
要求解析手段と、検索要求の解析結果に従って前記索引
ファイル操作手段を用いて検索要求に一致する文書を特
定する文書検索手段からなる文書検索方法において、前
記単語分割手段が２文字或いはそれ以上の長さの文字の
並びの単語境界になり易さに基づいてテキストを単語に
分割するようにしたことを特徴とする。従って、２文字
或いはそれ以上の長さの文字の並びの単語境界になり易
さは、完全自動で作成することが可能であるため、膨大
な単語辞書を用意する必要がなく、また、単語の切り方
も複数のものが実現できるため、ユーザの望んだ検索結
果を得ることも容易になるものである。さらには、単語
分割手段による分割に際して単語の性質を考慮し、検索
に使用されないようなものは単語として切り出さないよ
うにすることで、索引ファイルが大型化するのを避けら
れる。

【０００８】請求項２記載の発明は、単語分割手段の２
文字或いはそれ以上の長さの文字の並びの単語境界にな
り易さを文字種の組合せの情報としたことを特徴とす
る。従って、きわめて少ないデータ量で検索することが
できる。

【０００９】請求項３記載の発明は、検索要求解析手段
による検索要求の解析中に、検索要求中の単語に対して
も単語分割手段を用いて分割処理を適用するようにした
ことを特徴とする。従って、検索洩れを有効に防止する
ことができる。

【００１０】請求項４記載の発明は、単語分割手段の２
文字或いはそれ以上の長さの文字の並びの単語境界にな
り易さを数値による単語境界評価値としたことを特徴と
する。従って、対象データやユーザの意向に合わせて分
割閾値を変化させることにより、検索洩れの具合を調整
することができる。

【００１１】請求項５記載の発明は、単語分割手段によ
るテキストを分割して得られた結果において、隣接する
単語間の単語境界評価値が或る閾値以下であれば、それ
らの隣接する単語を結合したものを分割結果として生成
するようにしたことを特徴とする。従って、誤検索や検
索洩れの発生を有効に防止することができる。

【００１２】請求項６記載の発明は、単語分割手段によ
るテキストを分割して得られた結果において、連続する
単語間の単語境界評価値が或る閾値以下であれば、それ
らの連続する単語を結合したものを分割結果として生成
するようにしたことを特徴とする。従って、結合閾値以
下の単語境界評価値を含む全ての索引語の組合せを結合
したものも索引語とすることができるため、誤検索の可
能性を大幅に減らすことができる。

【００１３】請求項７記載の発明は、単語分割手段が、
索引として用いない文字の不要文字テーブルを用いて不
要な要素を抽出しないことを特徴とする。従って、索引
として用いない文字に関しては不要文字テーブルを利用
することで分割処理の対象から除外するので、索引ファ
イルの大型化が避けられる。

【００１４】請求項８記載の発明は、単語分割手段が、
非接頭文字のテーブルを用いて不要な要素を抽出しない
ことを特徴とする。従って、接頭とならない文字に関し
ては非接頭文字のテーブルを利用することで、このよう
な文字が単語境界の先頭にくる場合に単語境界でないと
判断することができるので、索引ファイルの大型化が避
けられる。

【００１５】請求項９記載の発明は、単語分割手段が、
予め設定された上限値以上の長さの単語を抽出しないこ
とを特徴とする。従って、単語分割手段によって切り出
される単語について基本的には長さの制限がないため、
単語によっては非常に長い単語もあり、これらを全て登
録すると索引ファイルの大型化を生じ得るが、単語の長
さに関して上限値が設定されているので、索引ファイル
の大型化を回避することができる。

【００１６】請求項１０記載の発明は、単語分割手段
が、予め設定された上限値以上の長さの単語についてそ
の単語に含まれる上限値に等しい長さの複数個の文字列
に分割して抽出することを特徴とする。従って、上限値
を越える長さの単語については上限値に等しい長さの文
字列に分割して抽出するので、上限値以上の長さの単語
について検索できなくなってしまう事態を回避すること
ができる。

【００１７】請求項１１記載の発明は、単語分割手段
が、上限値を文字種毎に設定できることを特徴とする。
従って、日本語においては単語を構成する文字種によっ
て単語の長さの分布に大きな違いがあるが、文字種を考
慮して単語長さの上限値が設定されているので、検索漏
れを防げるとともに、索引ファイルの大型化を回避する
ことができる。

【００１８】請求項１２記載の発明は、単語分割手段
が、予め設定された複数の非分割文字列に関しては２文
字或いはそれ以上の長さの文字の並びの単語境界になり
易さに基づいて単語に分割する処理を行わず、そのまま
単語として抽出することを特徴とする。従って、一律に
単語分割を行うと正しく単語を分割できないことがある
が、非分割文字列に関しては予め用意しておき、分割対
象から除外することで分割されてはならないような文字
列を不要に分割してしまうことがなく、分割精度を向上
させることができる。

【００１９】請求項１３記載の発明は、単語分割手段
は、予め設定された複数の非分割文字列に関して、或る
非分割文字列が他の非分割文字列を包含する場合には、
包含される非分割文字列のみを単語として抽出し、包含
する非分割文字列は単語として抽出しないことを特徴と
する。従って、非分割文字列中に包含関係のあるものが
含まれている場合でも、正しく分割でき、分割精度が向
上する。

【００２０】請求項１４記載の発明は、単語分割手段
は、予め設定された複数の非分割文字列に関して、或る
非分割文字列が他の非分割文字列を包含する場合には、
包含される非分割文字列と包含する非分割文字列との両
方を単語として抽出することを特徴とする。従って、非
分割文字列中に包含関係のあるものが含まれている場合
でも、誤検索を生ずることなく正しく分割でき、分割精
度が向上する。

【００２１】請求項１５記載の発明は、単語分割手段
が、予め設定された複数の不要文字列に関しては２文字
或いはそれ以上の長さの文字の並びの単語境界になり易
さに基づいて単語に分割する処理を行わず、単語として
抽出しないことを特徴とする。従って、接続詞等の検索
語として使用されることが殆どない不要文字列に関して
は、分割対象外とされ、かつ、単語としても抽出しない
ので、最終的に抽出される単語が削減され、索引ファイ
ルを小型化することができる。

【００２２】

【発明の実施の形態】本発明の第一の実施の形態を図１
に基づいて説明する。まず、図１に示すものは、文書検
索方式の処理概要であり、単語分割手段は、テキストを
単語単位に分割する機能を有する。索引ファイル操作手
段は、入力された登録文書を単語分割した結果を二次記
憶装置上にファイルとして保管検索する機能を有する。
検索要求解析手段は、入力された検索要求を解析する機
能を有する。検索処理手段は、検索要求の解析結果に従
って索引ファイル操作手段を用いて検索要求に一致する
文書を特定する機能を有する。

【００２３】文書登録時には、登録文書（図示されてい
ない登録文書入力手段により受け付けられる）は、単語
分割手段により切り出し単語群とされ、索引ファイル操
作手段によって索引ファイルに記録される。索引ファイ
ルの形式としては、単語毎にその単語を含む文書を記録
した転置ファイルなどを用いれば良い。

【００２４】文書検索時には、検索要求（図示されてい
ない検索要求入力手段によって受け付けられている）
は、検索要求解析手段によつて解析され、その結果に基
づいて検索処理手段が索引ファイル操作手段を通じて検
索語を含む文書を特定し、検索結果を生成する。検索要
求は、検索語を論理演算子ａｎｄ，ｏｒで組み合わせた
形式とするが、それ以外の近接演算子などを受け付ける
ようにしても良い。但し、近接演算子を処理可能とする
ためには、単語毎にその単語を含む文書を単純に記録す
るだけではなく、文書毎の出現位置も索引ファイルに記
録しておく必要がある。

【００２５】単語分割手段は、２文字或いはそれ以上の
長さの文字の並びの単語境界になり易さに基づいてテキ
ストを単語に分割する。単語境界になり易さの情報は、
表１に示すような形式で記述される。

【００２６】

【表１】

【００２７】すなわち、これは２文字組に対する単語境
界になり易さを表現するもので、“○”はその２文字組
が単語境界になり易いこと、“×”はなりにくいことを
示している。単語分割手段は、表１において、“○”の
ついている２文字組を単語の切れ目としてテキストを分
割する。例えば、「東京都町田市」は、「東京／都／町
田／市」のように分割される。実際には、準備すべきデ
ータ量を減少させるために、“○”或いは“×”の何れ
か一方の２文字組のみを記録した表を用いるようにす
る。なお、前述の説明は、２文字組を対象としている
が、３文字組以上の文字組（並び）に対する場合でも同
様に適用できることは云うまでもない。

【００２８】本発明の第二の実施の形態を表２に基づい
て説明する。前述の第一の実施の形態においては、単語
境界へのなり易さを“○”／“×”の二値で表現して表
として保持しておく必要がある。日本語では、異なる文
字数が約7,000 と膨大であるため、この表のエントリ数
は、7,000×7,000＝49,000,000ときわめて膨大な数にな
ってしまう。“○”或いは“×”の何れか一方の２文字
組のみを記録したテーブルを用いるようにしたとして
も、その数が多いことには変わりがない。

【００２９】

【表２】

【００３０】本実施の形態においては、前述の表１のよ
うなテーブルを小型化するために、漢字・平仮名・片仮
名・英数字等の文字種を利用する。文字種の変り目（例
えば、漢字から平仮名に変化する点）は単語の切れ目で
あることが多いので、文字種の組み合わせ毎に単語の切
れ目か否かを記述した表２のようなテーブルを用意す
る。ここで、“○”と“×”との意味は、前述の表１の
場合と同様であるが、“▽”は、２文字組に対する単語
境界へのなり易さを記述したテーブルを参照することを
意味する。例えば、「２１世紀の東京」であれば、「２
１」は表２から単語境界でないこと、「の東」は表２か
ら単語境界であることがわかる。それ以外の部分につい
ては、表１に示したテーブル（この場合には、表２に示
した要件を削除したもの）を用いて単語境界を判断す
る。このようにすれば、２文字組に対する表に記録すべ
きデータ量を減らすことができる。

【００３１】次に、本発明の第三の実施の形態を図２に
基づいて説明する。図２と図１との相違点は、検索要求
解析手段が単語分割手段と連携して検索要求の解析を行
うことにある（図２においては、検索要求解析手段と単
語分割手段とが接続されている）。このように検索要求
解析手段と単語分割手段とを連携させたのは、図１に示
した方式では、検索要求中に複合語が含まれていた場
合、文書登録時には細かく分割されているため、検索要
求中の複合語では検索できず、検索洩れが発生するから
である。そのため、図２に示す方式では、検索要求中の
文字列をそのまま検索語とするのではなく、単語分割手
段に渡し、単語に分割する。分割結果が２個以上の単語
になれば、それらをａｎｄ演算子で結合した形式の解析
結果を生成し、検索処理手段に渡す。

【００３２】例えば、検索要求が「東京都知事」であれ
ば、図１に示す方式では「東京都知事」のまま検索処理
手段に渡されていたが、図２に示す本発明の実施の形態
によれば、「東京都知事」が単語分割手段により、分割
されて検索処理手段に渡される。すなわち、単語分割手
段によって「東京／都／知事」と分割されたとすれば、
「東京ａｎｄ都ａｎｄ知事」という検索要求と同じよう
に処理されることになる。その結果、検索洩れを防ぐこ
とができる。

【００３３】あるいは、索引ファイルが単語の出現位置
を含む形式であれば、単語分割手段による分割結果が２
個以上の単語になった場合に、それらを近接演算子で結
合した形式の解析結果を生成し、検索処理手段に渡す方
法も考えられる。例えば、「東京都知事」は「東京 dis
t(2) 都 dist(1) 知事」と云う検索要求と同じように処
理される。ここで、“dist(ｎ)”は、その前後の単語が
ｎ文字の距離で出現した文書を検索結果とするような近
接演算子を表している。

【００３４】すなわち、検索要求が「東京都知事」であ
る場合、ａｎｄを用いる方式では、「沖縄県知事が東京
都を訪問した」を含む文書を検索してしまうが、近接演
算子を用いる方式では、このような文書を検出すること
を回避することができる。

【００３５】つぎに、本発明の第四の実施の形態を表３
に基づいて説明する。前述の各実施の形態においては、
単語境界へのなり易さを“○”／“×”の二値で表現し
ていた。しかしながら、実際には単語境界へのなり易さ
は二値で判断できるものではないので、本実施の形態に
おいては、表３のテーブルに示すように数値（これを単
語境界評価値と呼ぶ）で表現する。

【００３６】

【表３】

【００３７】しかして、単語分割手段は、分割閾値を用
意し、その値よりも単語境界評価値が大きい点を分割点
とする。例えば、分割閾値を0.20とすれば、検索要求が
「東京都町田市」である場合、第一の実施の形態と同様
に「東京／都／町田／市」が得られる。一方、分割閾値
を小さく0.10とすれば、「東／京／都／町田／市」と分
割される。

【００３８】このような単語境界評価値を導入すること
の利点は、対象データやユーザの意向に合わせて分割閾
値を変化させ、検索洩れの具合を調整できることにあ
る。分割閾値を小さくすることで、本来、検索すべきで
ない文書が検索される誤検索は増加しても、検索しなけ
ればならない文書を検索し損なう検索洩れを減らすこと
ができる。逆に、分割閾値を大きくすることで、検索洩
れが増大しても、誤検索を減らすことができる。どの程
度の検索洩れ／誤検索が許容できるかはユーザ毎に異な
るので、分割閾値の設定でその調整ができる方が、ユー
ザにとって使い易い検索システムを構築できると云う利
点につながる。もちろん、単語境界へのなり易さを評価
値で表現することは、表１に示した文字種間のなり易さ
の表現に適用することができるものである。

【００３９】なお、表３のテーブルに示す単語境界評価
値は、形態素解析したコーパスから簡単に求めることが
できる。以下に示すものが、形態素解析済コーパスの例
であり、“｜”で単語境界が示されている。

【００４０】東京｜都｜知事｜が｜沖縄｜県｜知事｜と
｜京都｜で｜会談｜した｜。

【００４１】このコーパスを用いて、すべての２文字組
について、総出現回数と単語にまたがって出現した回数
を計数する。上の例では、「京都」と云う２文字組は２
回出現し、単語にまたがって出現した回数は１回であ
る。従って、「京都」に対する単語境界評価値は、1/2
＝0.5となる。一方、「東京」は１回出現し、単語をま
たがって出現してはいないので、単語境界評価値は、0/
1＝0.0となる。形態素解析済コーパスは、ＥＤＲ（電子
化辞書研究所）やＲＷＣＰ（新世代情報処理機構）など
から提供されており、入手も簡単である。

【００４２】次に、本発明の第五の実施の形態を説明す
る。前述の第四の実施の形態においては、単語分割を単
語境界評価値という簡単な指標に基づいて行っているた
め、分割結果が正しくないことがある。前述の単語境界
評価値テーブル（表３）を用いた場合、「京都府知事」
という文は、「京都」に対する単語境界評価値(0.30)よ
り「都府」に対する単語境界評価値(0.15)の方が小さい
ので、どんな分割閾値を用いても「京都／府／知事」の
ように分割することができない。実際、分割閾値を0.40
にすれば、「京都府／知事」となる。検索語が「京都」で
あれば、分割閾値が0.30以下であれば、「京ａｎｄ都」
として検索するために誤検索が発生し、分割閾値が0.30
以上であれば、「京都」として検索するが、その分割は
「京都府知事」又は、「京都府／知事」となり、登録文
書では「京都」が独立した索引語にならないために検索
洩れが発生する。

【００４３】このような問題を解決するために、本実施
の形態においては、文書登録時には、以下のように分語
分割処理を実行する。分割された索引語のうち、特定の
条件を満たす隣接する検索語を再結合して、結合された
ものも索引語として用いることとなる。ここで、特定の
条件とは、隣接する検索語にまたがる２文字組の単語境
界評価値が新たに導入する結合閾値以下であることとす
る。例えば、分割閾値を0.10、新たに導入した結合閾値
を0.40とすれば、「京都府知事」は分割閾値によって
「京／都／府／知事」と分割され、結合閾値によって
「京都」「都府」が再結合によって生成される。従っ
て、「京都府知事」からは、「京」「都」「府」「知
事」「京都」「都府」が最終的に索引語として抽出され
る。

【００４４】一方、検索時には以下のように処理する。
検索時には分割閾値に基づいて分割された索引語のうち
再結合の要素として用いられたものは抽出せず、結合さ
れたもののみを検索語として用いることとする。検索要
求が「京都」であれば、「京」「都」は「京都」として
結合されるので検索語として使用せず、「京都」のみが
用いられる。従って、前述の第四の実施の形態の場合に
発生するような誤検索や検索洩れを防ぐことができる。

【００４５】さらに、本発明の第六の実施の形態を説明
する。前述の第五の実施の形態においては、「京都府」
と云う言葉は、「京都ａｎｄ都府」として検索されるの
で、「京都」と「都府」とがばらばらの位置に出現して
おり、「京都府」そのものは含まない文書が誤って検索
されることがある。前述の第三の実施の形態に示したよ
うに、「東京ａｎｄ都ａｎｄ知事」で処理するよりは誤
検索の可能性は低いが、誤検索の可能性があることには
変りがない。

【００４６】そこで、本実施の形態においては、結合閾
値以下の単語境界評価値を含む全ての索引語の組み合わ
せを結合したものも索引語とする。この方式によれば、
「京都府知事」からは前述の第五の実施の形態で抽出さ
れる「京」「都」「府」「知事」「京都」「都府」に加
えて、「京都府」という複合語も索引語として抽出され
る。その結果、誤検索の可能性を大幅に減らすことがで
きる。

【００４７】本発明の第七の実施の形態を表４に基づい
て説明する。前述の第一の実施の形態においては、前述
した如く、単語境界へのなり易さを“○”／“×”の二
値で表現して表（テーブル）として保持しておく必要が
ある。日本語では、異なる文字数が約7,000 と膨大であ
るため、この表のエントリ数は、7,000×7,000＝49,00
0,000ときわめて膨大な数になってしまう。“○”或い
は“×”の何れか一方の２文字組のみを記録した表を用
いるようにしたとしても、その数が多いことには変わり
がない。本実施の形態においては、前述の表１のような
テーブルを小型化するために、表４に示すような索引と
して用いない文字に関する不要文字テーブルを利用す
る。

【００４８】

【表４】

【００４９】例えば、「、」（読点）「。」（句
点）「，」（カンマ）「（」「）」（括弧）などの文字
は、単語を構成することはなく、索引に記録する必要も
ない。従って、このような不要文字を表４に例示するよ
うな別の不要文字テーブルに記録しておき、単語分割手
段による分割処理の対象から除外する。不要文字テーブ
ルに含まれる文字については分割テーブルに記録する必
要はないので、分割テーブルを小型化することができ
る。

【００５０】例えば、「中央演算処理装置（ＣＰＵ）
を、装着する。」というテキストが単語分割手段に対し
て分割対象として与えられたとする。このとき、不要文
字で分割された「中央演算処理装置」「ＣＰＵ」「を」
「装着する」の４つの部分について、前述の第一の実施
の形態の方法を用いて分割処理を行う。すなわち、「置
（」「（Ｃ」「Ｕ）」のような不要文字を含む２文字組
については、分割テーブルを引いて単語境界であるか否
かを判定する必要がなくなる。このように分割処理が簡
単になるので、その分、処理を高速化し得ることにもな
る。また、テキスト中の不要文字は単語として抽出され
ることがなくなるので、索引ファイルを小型化し得るこ
とになる。

【００５１】なお、不要文字テーブル中に含ませる不要
文字に関しては、当然ながら、例示した５文字に限られ
るものではない。

【００５２】本発明の第八の実施の形態を表５に基づい
て説明する。前述の第七の実施の形態では、単語を構成
することのない文字を不要文字テーブルに記録すること
で、分割テーブルの小型化、処理の高速化及び索引ファ
イルの小型化を実現している。しかし、日本語には
「ッ」等の促音、「ン」等の撥音、「ャ」等の拗音のよ
うに、単語を構成するが単語の頭（接頭）にはならない
文字がある。そこで、本実施の形態においては、表５に
示すような接頭とならない文字に関する非接頭文字テー
ブルを利用する。

【００５３】

【表５】

【００５４】接頭とならない文字を別の非接頭文字テー
ブルに記録すれば、このような文字が単語境界の先頭に
くる場合は分割テーブルを参照するまでもなく、単語境
界でないと判断できる。従って、このような文字が単語
境界の先頭にくる２文字組を分割テーブルから除外で
き、分割テーブルを小型化することができる。表５に示
す非接頭文字テーブルでは、「っ」等の１０文字が非接
頭文字として用意されているが、例示した文字に限られ
ないのはもちろんである。

【００５５】この結果、例えば、「トラック」が単語分
割手段による分割対象である場合、第一の実施の形態の
方法では「トラ」「ラッ」「ック」の３つの２文字組に
ついて分割テーブルを参照して単語境界であるか否かを
判定する必要があるが、本実施の形態の方法によれば、
「ラッ」の部分が切れ目であることは「ッ」が非接頭文
字であることから判断できる。従って、分割テーブルを
参照する必要があるのは「トラ」「ック」の２つでよい
ことになる。このように分割処理が簡単になるので、処
理を高速化し得ることにもなる。

【００５６】本発明の第九の実施の形態を説明する。前
述の第一の実施の形態では、単語分割手段によって切り
出される単語について長さの制限がない。従って、前述
の第五の実施の形態のような方法を用いた場合には、化
合物名（例えば、「ジクロロベンゼンビフェニール」）
などのように長い単語が、その構成要素である単語
（「ジクロロ」「ベンゼン」「ビフェニール」）に分割
されることなく抽出されてしまう。しかし、このような
単語を全て登録することは索引ファイルに登録される単
語の異なり数の爆発的な増大を招き、索引ファイルの大
型化をもたらすので、好ましくない。

【００５７】そこで、本実施の形態では、単語分割手段
が分割する単語の長さに上限値を設定することで、この
ような事態の発生を防止する。すなわち、単語分割手段
は、予め設定された上限値以上の長さの単語は抽出しな
い。例えば、上限値を10（文字）として設定した場合に
は、上例の単語「ジクロロベンゼンビフェニール」（14
文字）は索引ファイルに登録されなくなる。この結果、
索引ファイルの大型化を防止できる。

【００５８】本発明の第十の実施の形態を説明する。前
述の第九の実施の形態によれば、抽出する単語の長さに
上限値を設定することで索引ファイルの大型化を回避で
きる。しかし、上限値を越える場合、単純に登録しない
ものとしたので、上限値以上の長さの単語については検
索できない場合を生じてしまう。そこで、本実施の形態
では、上限値を越える長さの単語については、上限値に
等しい長さの複数の文字列に分割して抽出するようにし
ている。

【００５９】ここに、長い単語を分割する方法として、
例えば、単語全体を被覆する最小個数の上限値に等しい
文字列に分解する方法がある。上限値を10（文字）とす
れば、20文字以下の単語は先頭から10文字の文字列と末
尾から10文字の文字列との二つに分割され、21文字以上
30文字以下の単語は先頭から10文字の文字列と、先頭か
ら11文字目から10文字の文字列と、末尾から10文字の文
字列との三つに分割される。さらに長い単語の場合も同
様に分割すればよい。

【００６０】この方法を用いると、例えば、上例の単語
「ジクロロベンゼンビフェニール」は「ジクロロベンゼ
ンビフ」と「ベンゼンビフェニール」との２つの文字列
に分割され、抽出結果とされる。よって、本実施の形態
によれば、上限値の設定により異なり数の増大を抑える
ことができ、かつ、上限値を越える長さの単語でも検索
することができる。

【００６１】本発明の第十一の実施の形態を説明する。
日本語においては、単語を構成する文字種によって単語
の長さの分布に大きな違いがある。例えば、漢字であれ
ば比較的短いが、カタカナ語にはかなり長い複合語が存
在している。従って、前述の第九又は十の実施の形態の
ように、抽出する単語の長さに上限を設定する場合、文
字種を考慮しないと問題が発生する。すなわち、漢字に
合わせて上限値を設定すると、カタカナ語については上
限値以上と判断されてしまうものが増大することとな
り、検索漏れ等の原因となる。一方、カタカナ語に合わ
せて上限値を設定すると、漢字の単語については上限値
以上と判断されるものは殆どなくなり、索引ファイルの
大型化を抑える上では不十分となる。

【００６２】そこで、本実施の形態では、文字種毎に上
限値を設定自在とする。例えば、漢字については上限値
を 6（文字）、カタカナ語については上限値を10（文
字）とする。この方法によれば、検索漏れを起こすこと
なく、索引ファイルの大型化も回避することができる。

【００６３】本発明の第十二の実施の形態を表６に基づ
いて説明する。前述の第一の実施の形態の方法では、基
本的には、単純な原理に基づいて分割を行うので、単語
を正しく分割できないこともある。例えば、「におけ
る」を「に」「おける」と分割するためには、分割テー
ブルにおいて「にお」は分割されるものとして記録して
おかなければならないが、これでは、「におい」（臭
い）も分割されることになる。

【００６４】そこで、本実施の形態では、分割対象から
除外すべき単語文字列を非分割文字列として表６に示す
ような別のテーブルに記録しておき、単語分割手段によ
る分割処理に際して、分割対象中にこの非分割文字列と
一致する部分があればその部分を分割対象から除外す
る。

【００６５】

【表６】

【００６６】この結果、「におい」のような分割されて
はならない文字列を不要に分割してしまう不都合を回避
することができ、単語分割手段による分割精度を向上さ
せることができる。表６に示す非分割文字列のテーブル
を用いると、例えば「くさやのにおいと味」が分割対象
である場合、「くさや」「におい」は非分割文字列のテ
ーブルに記録されているので、分割テーブルを参照する
ことなく、単語として抽出される。そして、残りの
「の」「と味」の部分だけが前述した場合と同様の分割
処理に供される。

【００６７】本発明の第十三の実施の形態を説明する。
前述の第十二の実施の形態の方法では、例えば「にお
い」が非分割文字列のテーブルに記録されている場合、
「彼においがいる」（彼に甥がいる）という文から「お
い」（甥）という単語が抽出できない。このような不都
合を避けるためには、「おい」を非分割文字列のテーブ
ル中に記録しておけばよい。但し、この場合「におい」
は「おい」を包含しているので、先の「彼においがい
る」なる文を正しく処理するためには、包含されるもの
（「おい」）のみを単語として抽出し、包含するもの
（「におい」）は単語として抽出しなければよい。本実
施の形態では、このような方法とすることにより、非分
割文字列のテーブル中に含まれる文字列に包含関係があ
るものが含まれていても正しく分割できる。すなわち、
分割精度が向上する。

【００６８】本発明の第十四の実施の形態を説明する。
前述の第十三の実施の形態の方法による場合でも不十分
なことがある。例えば、「くさやとにおいと味」が処理
対象である場合、包含される文字列である「おい」のみ
が抽出され、「におい」としては抽出されない。従っ
て、検索語が「におい」であった場合、「にａｎｄお
い」のように一つの単語をばらして検索しなければなら
ない。その結果、「に」と「おい」が連続して「にお
い」となる文だけでなく、「に」と「おい」がばらばら
に出現する文書も検索されてしまう。

【００６９】この問題を解決するため、本実施の形態で
は、非分割文字列のテーブル中で、包含されるものだけ
でなく、包含するものも抽出する。すなわち、「くさや
とにおいと味」からは、「おい」だけでなく「におい」
も抽出し、検索語が「におい」であった場合にも「にお
い」」として検索を行う。この結果、前述のような誤検
索を生ずることがなく、検索精度が向上する。

【００７０】本発明の第十五の実施の形態を表７に基づ
いて説明する。文書検索においては、接続詞等の単語は
検索語として使用されることは殆どない。ところが、前
述の第一の実施の形態の方法では、分割された全ての単
語を抽出するので無駄が多い。一方、文書登録の際にこ
のような不要単語を除外して索引ファイルに登録できれ
ば、索引ファイルを小型化できる。そこで、本実施の形
態では、“しかし”“したがって”“また”等の除外す
べき単語文字列を不要文字列として表７に示すようなテ
ーブルに記録しておき、分割処理の対象から除外する。

【００７１】

【表７】

【００７２】よって、例えば「しかし、ケーキはおいし
い」が分割対象である場合、「しかし」は不要文字列の
テーブルに記録されているので、分割処理対象から除外
する。そして、残りの「、ケーキはおいしい」の部分だ
けを分割処理にかける。この結果、最終的に抽出する単
語が削減され、索引ファイルを小型化できる。

【００７３】

【発明の効果】請求項１記載の発明によれば、テキスト
を単語単位に分割する単語分割手段と、入力された登録
文書を単語分割した結果を保管検索する索引ファイル操
作手段と、入力された検索要求を解析する検索要求解析
手段と、検索要求の解析結果に従って前記索引ファイル
操作手段を用いて検索要求に一致する文書を特定する文
書検索手段からなる文書検索方法において、前記単語分
割手段が２文字或いはそれ以上の長さの文字の並びの単
語境界になり易さに基づいてテキストを単語に分割する
ようにしたので、２文字或いはそれ以上の長さの文字の
並びの単語境界になり易さは、完全自動で作成すること
が可能であるため、膨大な単語辞書を用意する必要がな
く、また、単語の切り方も複数のものが実現できるた
め、ユーザの望んだ検索結果を得ることも容易になると
云う効果を有する。

【００７４】請求項２記載の発明によれば、単語分割手
段の２文字或いはそれ以上の長さの文字の並びの単語境
界になり易さを文字種の組合せの情報としたので、きわ
めて少ないデータ量で検索することができる。

【００７５】請求項３記載の発明によれば、検索要求解
析手段による検索要求の解析中に、検索要求中の単語に
対しても単語分割手段を用いて分割処理を適用するよう
にしたので、検索洩れを有効に防止することができる。

【００７６】請求項４記載の発明によれば、単語分割手
段の２文字或いはそれ以上の長さの文字の並びの単語境
界になり易さを数値による単語境界評価値としたので、
対象データやユーザの意向に合わせて分割閾値を変化さ
せることにより、検索洩れの具合を調整することができ
る。

【００７７】請求項５記載の発明によれば、単語分割手
段によるテキストを分割して得られた結果において、隣
接する単語間の単語境界評価値がある閾値以下であれ
ば、それらの隣接する単語を結合したものを分割結果と
して生成するようにしたので、誤検索や検索洩れの発生
を有効に防止することができる。

【００７８】請求項６記載の発明によれば、単語分割手
段によるテキストを分割して得られた結果において、連
続する単語間の単語境界評価値がある閾値以下であれ
ば、それらの連続する単語を結合したものを分割結果と
して生成するようにしたので、結合閾値以下の単語境界
評価値を含む全ての索引語の組合せを結合したものも索
引語とすることができるため、誤検索の可能性を大幅に
減らすことができる。

【００７９】請求項７記載の発明によれば、単語分割手
段が、索引として用いない文字の不要文字テーブルを用
いて不要な要素を抽出しないことで、索引として用いな
い文字に関しては不要文字テーブルを利用することで分
割処理の対象から除外するようにしたので、索引ファイ
ルの大型化を避け、分割処理の高速化を図ることができ
る。

【００８０】請求項８記載の発明によれば、単語分割手
段が、非接頭文字のテーブルを用いて不要な要素を抽出
しないようにしたので、非接頭文字が単語境界の先頭に
くる場合に単語境界でないと判断することができ、索引
ファイルの大型化を避け、分割処理の高速化を図ること
ができる。

【００８１】請求項９記載の発明によれば、単語分割手
段によって切り出される単語について基本的には長さの
制限がないため、単語によっては非常に長い単語もあ
り、これらを全て登録すると索引ファイルの大型化を生
じ得るが、単語分割手段が、予め設定された上限値以上
の長さの単語を抽出しないので、索引ファイルの大型化
を避け、処理の高速化、及び、単語分割に必要なテーブ
ルの小型化を図ることができる。

【００８２】請求項１０記載の発明によれば、単語分割
手段が、予め設定された上限値以上の長さの単語につい
てその単語に含まれる上限に等しい長さの複数個の文字
列に分割して抽出するようにしたので、請求項９記載の
発明に効果に加えて、上限値以上の長さの単語について
検索できなくなってしまう事態を回避することができ
る。

【００８３】請求項１１記載の発明によれば、日本語に
おいては単語を構成する文字種によって単語の長さの分
布に大きな違いがあるが、単語分割手段が、上限値を文
字種毎に設定でき、文字種を考慮して単語長さの上限値
を設定するようにしたので、検索漏れを防止でき、かつ
索引ファイルの大型化を回避することができる。

【００８４】請求項１２記載の発明によれば、一律に単
語分割を行うと正しく単語を分割できないことがある
が、単語分割手段が、予め設定された複数の非分割文字
列に関しては２文字或いはそれ以上の長さの文字の並び
の単語境界になり易さに基づいて単語に分割する処理を
行わず、そのまま単語として抽出するようにしたので、
分割対象から除外することで分割されてはならないよう
な文字列を不要に分割してしまうことがなく、分割精度
を向上させることができる。

【００８５】請求項１３記載の発明によれば、単語分割
手段が、予め設定された複数の非分割文字列に関して、
或る非分割文字列が他の非分割文字列を包含する場合に
は、包含される非分割文字列のみを単語として抽出し、
包含する非分割時列は単語として抽出しないようにした
ので、請求項１２記載の発明の効果に加えて、非分割文
字列中に包含関係のあるものが含まれている場合でも、
正しく分割でき、分割精度を向上させることができる。

【００８６】請求項１４記載の発明によれば、単語分割
手段が、予め設定された複数の非分割文字列に関して、
或る非分割文字列が他の非分割文字列を包含する場合に
は、包含される非分割文字列と包含する非分割文字列と
の両方を単語として抽出するようにしたので、請求項１
２記載の発明の効果に加えて、非分割文字列中に包含関
係のあるものが含まれている場合でも、誤検索を生ずる
ことなく正しく分割でき、分割精度を向上させることが
できる。

【００８７】請求項１５記載の発明によれば、接続詞等
の検索語として使用されることが殆どない不要文字列に
関しては、単語分割手段が、予め設定された複数の不要
文字列に関しては２文字或いはそれ以上の長さの文字の
並びの単語境界になり易さに基づいて単語に分割する処
理を行わず、単語として抽出しないようにしたので、不
要文字列を分割対象外とし、かつ、単語としても抽出し
ないので、最終的に抽出される単語を削減し、索引ファ
イルを小型化することができる。

【図面の簡単な説明】

【図１】本発明の第一の実施の形態による文書検索方法
の処理概要を示すフローチャートである。

【図２】本発明の第三の実施の形態による文書検索方法
の処理概要を示すフローチャートである。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ０６Ｆ 15/413 ３１０Ｂ

Claims

【特許請求の範囲】

【請求項１】テキストを単語単位に分割する単語分割
手段と、入力された登録文書を単語分割した結果を保管
検索する索引ファイル操作手段と、入力された検索要求
を解析する検索要求解析手段と、検索要求の解析結果に
従って前記索引ファイル操作手段を用いて検索要求に一
致する文書を特定する文書検索手段からなる文書検索方
法において、前記単語分割手段が２文字或いはそれ以上
の長さの文字の並びの単語境界になり易さに基づいてテ
キストを単語に分割するようにしたことを特徴とする文
書検索方法。
【請求項２】単語分割手段の２文字或いはそれ以上の
長さの文字の並びの単語境界になり易さを文字種の組合
せの情報としたことを特徴とする請求項１記載の文書検
索方法。
【請求項３】検索要求解析手段による検索要求の解析
中に、検索要求中の単語に対しても単語分割手段を用い
て分割処理を適用するようにしたことを特徴とする請求
項１記載の文書検索方法。
【請求項４】単語分割手段の２文字或いはそれ以上の
長さの文字の並びの単語境界になり易さを数値による単
語境界評価値としたことを特徴とする請求項１記載の文
書検索方法。
【請求項５】単語分割手段によるテキストを分割して
得られた結果において、隣接する単語間の単語境界評価
値が或る閾値以下であれば、それらの隣接する単語を結
合したものを分割結果として生成するようにしたことを
特徴とする請求項４記載の文書検索方法。
【請求項６】単語分割手段によるテキストを分割して
得られた結果において、連続する単語間の単語境界評価
値が或る閾値以下であれば、それらの連続する単語を結
合したものを分割結果として生成するようにしたことを
特徴とする請求項４記載の文書検索方法。
【請求項７】単語分割手段は、索引として用いない文
字の不要文字テーブルを用いて不要な要素を抽出しない
ことを特徴とする請求項１記載の文書検索方法。
【請求項８】単語分割手段は、非接頭文字のテーブル
を用いて不要な要素を抽出しないことを特徴とする請求
項１記載の文書検索方法。
【請求項９】単語分割手段は、予め設定された上限値
以上の長さの単語を抽出しないことを特徴とする請求項
１記載の文書検索方法。
【請求項１０】単語分割手段は、予め設定された上限
値以上の長さの単語についてその単語に含まれる上限値
に等しい長さの複数個の文字列に分割して抽出すること
を特徴とする請求項１記載の文書検索方法。
【請求項１１】単語分割手段は、上限値を文字種毎に
設定できることを特徴とする請求項９又は１０記載の文
書検索方法。
【請求項１２】単語分割手段は、予め設定された複数
の非分割文字列に関しては２文字或いはそれ以上の長さ
の文字の並びの単語境界になり易さに基づいて単語に分
割する処理を行わず、そのまま単語として抽出すること
を特徴とする請求項１記載の文書検索方法。
【請求項１３】単語分割手段は、予め設定された複数
の非分割文字列に関して、或る非分割文字列が他方の非
分割文字列を包含する場合には、包含される非分割文字
列のみを単語として抽出し、包含する非分割文字列は単
語として抽出しないことを特徴とする請求項１２記載の
文書検索方法。
【請求項１４】単語分割手段は、予め設定された複数
の非分割文字列に関して、或る非分割文字列が他の非分
割文字列を包含する場合には、包含される非分割文字列
と包含する非分割文字列との両方を単語として抽出する
ことを特徴とする請求項１２記載の文書検索方法。
【請求項１５】単語分割手段は、予め設定された複数
の不要文字列に関しては２文字或いはそれ以上の長さの
文字の並びの単語境界になり易さに基づいて単語に分割
する処理を行わず、単語として抽出しないことを特徴と
する請求項１記載の文書検索方法。