JPH10320421A - 文書検索方法 - Google Patents
文書検索方法Info
- Publication number
- JPH10320421A JPH10320421A JP9311791A JP31179197A JPH10320421A JP H10320421 A JPH10320421 A JP H10320421A JP 9311791 A JP9311791 A JP 9311791A JP 31179197 A JP31179197 A JP 31179197A JP H10320421 A JPH10320421 A JP H10320421A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- document
- characters
- division
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
手段と、入力された登録文書を単語分割した結果を保管
検索する索引ファイル操作手段と、入力された検索要求
を解析する検索要求解析手段と、検索要求の解析結果に
従って前記索引ファイル操作手段を用いて検索要求に一
致する文書を特定する文書検索手段からなる文書検索方
法において、前記単語分割手段が2文字或いはそれ以上
の長さの文字の並びの単語境界になり易さに基づいてテ
キストを単語に分割するようにした。
Description
ム、画像管理システム、データベース管理システム等に
おいて、文書を高速で検索することができる文書検索方
法に関するものである。
て、テキストを単語に分割して検索のための索引ファイ
ルを生成しているものであるが、特開平6−25948
0号公報や特開平7−85033号公報においては、テ
キストを単語に分割して検索のための索引ファイルを生
成する手段としてテキストを形態素解析すること(以下
では、この方式を「形態素解析方式」と呼ぶ)が行われ
ている。
においては、次のような三つの問題点がある。
な単語辞書を事前に用意しておく必要がある。そのた
め、単語辞書の作成には人手がかかる。さらに、辞書に
ない新語が発生した場合には、その新語を順次追加する
必要があるため維持コストも膨大なものになるという問
題がある。
る。形態素解析に誤りがあると、本来、検索されるべき
文書が検索されなかったり、検索される必要のない文書
が検索されるため、ユーザの望んだ検索結果が得られな
いことになる。例えば、「東京都町田市」を「東京/都
/町田/市」と形態解析できれば、これを含む文書を、
「東京」と云う検索語で検索することができるものであ
るが、これを「東/京都/町田/市」と誤って形態素解
析をした場合には、「東京」と云う検索語では検索でき
ない。
記録すると、索引ファイルが大型となる。よって、検索
時に明らかに使用されないような単語は除外した方がよ
いといえる。
テキストを単語単位に分割する単語分割手段と、入力さ
れた登録文書を単語分割した結果を保管検索する索引フ
ァイル操作手段と、入力された検索要求を解析する検索
要求解析手段と、検索要求の解析結果に従って前記索引
ファイル操作手段を用いて検索要求に一致する文書を特
定する文書検索手段からなる文書検索方法において、前
記単語分割手段が2文字或いはそれ以上の長さの文字の
並びの単語境界になり易さに基づいてテキストを単語に
分割するようにしたことを特徴とする。従って、2文字
或いはそれ以上の長さの文字の並びの単語境界になり易
さは、完全自動で作成することが可能であるため、膨大
な単語辞書を用意する必要がなく、また、単語の切り方
も複数のものが実現できるため、ユーザの望んだ検索結
果を得ることも容易になるものである。さらには、単語
分割手段による分割に際して単語の性質を考慮し、検索
に使用されないようなものは単語として切り出さないよ
うにすることで、索引ファイルが大型化するのを避けら
れる。
文字或いはそれ以上の長さの文字の並びの単語境界にな
り易さを文字種の組合せの情報としたことを特徴とす
る。従って、きわめて少ないデータ量で検索することが
できる。
による検索要求の解析中に、検索要求中の単語に対して
も単語分割手段を用いて分割処理を適用するようにした
ことを特徴とする。従って、検索洩れを有効に防止する
ことができる。
文字或いはそれ以上の長さの文字の並びの単語境界にな
り易さを数値による単語境界評価値としたことを特徴と
する。従って、対象データやユーザの意向に合わせて分
割閾値を変化させることにより、検索洩れの具合を調整
することができる。
るテキストを分割して得られた結果において、隣接する
単語間の単語境界評価値が或る閾値以下であれば、それ
らの隣接する単語を結合したものを分割結果として生成
するようにしたことを特徴とする。従って、誤検索や検
索洩れの発生を有効に防止することができる。
るテキストを分割して得られた結果において、連続する
単語間の単語境界評価値が或る閾値以下であれば、それ
らの連続する単語を結合したものを分割結果として生成
するようにしたことを特徴とする。従って、結合閾値以
下の単語境界評価値を含む全ての索引語の組合せを結合
したものも索引語とすることができるため、誤検索の可
能性を大幅に減らすことができる。
索引として用いない文字の不要文字テーブルを用いて不
要な要素を抽出しないことを特徴とする。従って、索引
として用いない文字に関しては不要文字テーブルを利用
することで分割処理の対象から除外するので、索引ファ
イルの大型化が避けられる。
非接頭文字のテーブルを用いて不要な要素を抽出しない
ことを特徴とする。従って、接頭とならない文字に関し
ては非接頭文字のテーブルを利用することで、このよう
な文字が単語境界の先頭にくる場合に単語境界でないと
判断することができるので、索引ファイルの大型化が避
けられる。
予め設定された上限値以上の長さの単語を抽出しないこ
とを特徴とする。従って、単語分割手段によって切り出
される単語について基本的には長さの制限がないため、
単語によっては非常に長い単語もあり、これらを全て登
録すると索引ファイルの大型化を生じ得るが、単語の長
さに関して上限値が設定されているので、索引ファイル
の大型化を回避することができる。
が、予め設定された上限値以上の長さの単語についてそ
の単語に含まれる上限値に等しい長さの複数個の文字列
に分割して抽出することを特徴とする。従って、上限値
を越える長さの単語については上限値に等しい長さの文
字列に分割して抽出するので、上限値以上の長さの単語
について検索できなくなってしまう事態を回避すること
ができる。
が、上限値を文字種毎に設定できることを特徴とする。
従って、日本語においては単語を構成する文字種によっ
て単語の長さの分布に大きな違いがあるが、文字種を考
慮して単語長さの上限値が設定されているので、検索漏
れを防げるとともに、索引ファイルの大型化を回避する
ことができる。
が、予め設定された複数の非分割文字列に関しては2文
字或いはそれ以上の長さの文字の並びの単語境界になり
易さに基づいて単語に分割する処理を行わず、そのまま
単語として抽出することを特徴とする。従って、一律に
単語分割を行うと正しく単語を分割できないことがある
が、非分割文字列に関しては予め用意しておき、分割対
象から除外することで分割されてはならないような文字
列を不要に分割してしまうことがなく、分割精度を向上
させることができる。
は、予め設定された複数の非分割文字列に関して、或る
非分割文字列が他の非分割文字列を包含する場合には、
包含される非分割文字列のみを単語として抽出し、包含
する非分割文字列は単語として抽出しないことを特徴と
する。従って、非分割文字列中に包含関係のあるものが
含まれている場合でも、正しく分割でき、分割精度が向
上する。
は、予め設定された複数の非分割文字列に関して、或る
非分割文字列が他の非分割文字列を包含する場合には、
包含される非分割文字列と包含する非分割文字列との両
方を単語として抽出することを特徴とする。従って、非
分割文字列中に包含関係のあるものが含まれている場合
でも、誤検索を生ずることなく正しく分割でき、分割精
度が向上する。
が、予め設定された複数の不要文字列に関しては2文字
或いはそれ以上の長さの文字の並びの単語境界になり易
さに基づいて単語に分割する処理を行わず、単語として
抽出しないことを特徴とする。従って、接続詞等の検索
語として使用されることが殆どない不要文字列に関して
は、分割対象外とされ、かつ、単語としても抽出しない
ので、最終的に抽出される単語が削減され、索引ファイ
ルを小型化することができる。
に基づいて説明する。まず、図1に示すものは、文書検
索方式の処理概要であり、単語分割手段は、テキストを
単語単位に分割する機能を有する。索引ファイル操作手
段は、入力された登録文書を単語分割した結果を二次記
憶装置上にファイルとして保管検索する機能を有する。
検索要求解析手段は、入力された検索要求を解析する機
能を有する。検索処理手段は、検索要求の解析結果に従
って索引ファイル操作手段を用いて検索要求に一致する
文書を特定する機能を有する。
ない登録文書入力手段により受け付けられる)は、単語
分割手段により切り出し単語群とされ、索引ファイル操
作手段によって索引ファイルに記録される。索引ファイ
ルの形式としては、単語毎にその単語を含む文書を記録
した転置ファイルなどを用いれば良い。
ない検索要求入力手段によって受け付けられている)
は、検索要求解析手段によつて解析され、その結果に基
づいて検索処理手段が索引ファイル操作手段を通じて検
索語を含む文書を特定し、検索結果を生成する。検索要
求は、検索語を論理演算子and,orで組み合わせた
形式とするが、それ以外の近接演算子などを受け付ける
ようにしても良い。但し、近接演算子を処理可能とする
ためには、単語毎にその単語を含む文書を単純に記録す
るだけではなく、文書毎の出現位置も索引ファイルに記
録しておく必要がある。
長さの文字の並びの単語境界になり易さに基づいてテキ
ストを単語に分割する。単語境界になり易さの情報は、
表1に示すような形式で記述される。
界になり易さを表現するもので、“○”はその2文字組
が単語境界になり易いこと、“×”はなりにくいことを
示している。単語分割手段は、表1において、“○”の
ついている2文字組を単語の切れ目としてテキストを分
割する。例えば、「東京都町田市」は、「東京/都/町
田/市」のように分割される。実際には、準備すべきデ
ータ量を減少させるために、“○”或いは“×”の何れ
か一方の2文字組のみを記録した表を用いるようにす
る。なお、前述の説明は、2文字組を対象としている
が、3文字組以上の文字組(並び)に対する場合でも同
様に適用できることは云うまでもない。
て説明する。前述の第一の実施の形態においては、単語
境界へのなり易さを“○”/“×”の二値で表現して表
として保持しておく必要がある。日本語では、異なる文
字数が約7,000 と膨大であるため、この表のエントリ数
は、7,000×7,000=49,000,000ときわめて膨大な数にな
ってしまう。“○”或いは“×”の何れか一方の2文字
組のみを記録したテーブルを用いるようにしたとして
も、その数が多いことには変わりがない。
うなテーブルを小型化するために、漢字・平仮名・片仮
名・英数字等の文字種を利用する。文字種の変り目(例
えば、漢字から平仮名に変化する点)は単語の切れ目で
あることが多いので、文字種の組み合わせ毎に単語の切
れ目か否かを記述した表2のようなテーブルを用意す
る。ここで、“○”と“×”との意味は、前述の表1の
場合と同様であるが、“▽”は、2文字組に対する単語
境界へのなり易さを記述したテーブルを参照することを
意味する。例えば、「21世紀の東京」であれば、「2
1」は表2から単語境界でないこと、「の東」は表2か
ら単語境界であることがわかる。それ以外の部分につい
ては、表1に示したテーブル(この場合には、表2に示
した要件を削除したもの)を用いて単語境界を判断す
る。このようにすれば、2文字組に対する表に記録すべ
きデータ量を減らすことができる。
基づいて説明する。図2と図1との相違点は、検索要求
解析手段が単語分割手段と連携して検索要求の解析を行
うことにある(図2においては、検索要求解析手段と単
語分割手段とが接続されている)。このように検索要求
解析手段と単語分割手段とを連携させたのは、図1に示
した方式では、検索要求中に複合語が含まれていた場
合、文書登録時には細かく分割されているため、検索要
求中の複合語では検索できず、検索洩れが発生するから
である。そのため、図2に示す方式では、検索要求中の
文字列をそのまま検索語とするのではなく、単語分割手
段に渡し、単語に分割する。分割結果が2個以上の単語
になれば、それらをand演算子で結合した形式の解析
結果を生成し、検索処理手段に渡す。
ば、図1に示す方式では「東京都知事」のまま検索処理
手段に渡されていたが、図2に示す本発明の実施の形態
によれば、「東京都知事」が単語分割手段により、分割
されて検索処理手段に渡される。すなわち、単語分割手
段によって「東京/都/知事」と分割されたとすれば、
「東京and都and知事」という検索要求と同じよう
に処理されることになる。その結果、検索洩れを防ぐこ
とができる。
を含む形式であれば、単語分割手段による分割結果が2
個以上の単語になった場合に、それらを近接演算子で結
合した形式の解析結果を生成し、検索処理手段に渡す方
法も考えられる。例えば、「東京都知事」は「東京 dis
t(2) 都 dist(1) 知事」と云う検索要求と同じように処
理される。ここで、“dist(n)”は、その前後の単語が
n文字の距離で出現した文書を検索結果とするような近
接演算子を表している。
る場合、andを用いる方式では、「沖縄県知事が東京
都を訪問した」を含む文書を検索してしまうが、近接演
算子を用いる方式では、このような文書を検出すること
を回避することができる。
に基づいて説明する。前述の各実施の形態においては、
単語境界へのなり易さを“○”/“×”の二値で表現し
ていた。しかしながら、実際には単語境界へのなり易さ
は二値で判断できるものではないので、本実施の形態に
おいては、表3のテーブルに示すように数値(これを単
語境界評価値と呼ぶ)で表現する。
意し、その値よりも単語境界評価値が大きい点を分割点
とする。例えば、分割閾値を0.20とすれば、検索要求が
「東京都町田市」である場合、第一の実施の形態と同様
に「東京/都/町田/市」が得られる。一方、分割閾値
を小さく0.10とすれば、「東/京/都/町田/市」と分
割される。
の利点は、対象データやユーザの意向に合わせて分割閾
値を変化させ、検索洩れの具合を調整できることにあ
る。分割閾値を小さくすることで、本来、検索すべきで
ない文書が検索される誤検索は増加しても、検索しなけ
ればならない文書を検索し損なう検索洩れを減らすこと
ができる。逆に、分割閾値を大きくすることで、検索洩
れが増大しても、誤検索を減らすことができる。どの程
度の検索洩れ/誤検索が許容できるかはユーザ毎に異な
るので、分割閾値の設定でその調整ができる方が、ユー
ザにとって使い易い検索システムを構築できると云う利
点につながる。もちろん、単語境界へのなり易さを評価
値で表現することは、表1に示した文字種間のなり易さ
の表現に適用することができるものである。
値は、形態素解析したコーパスから簡単に求めることが
できる。以下に示すものが、形態素解析済コーパスの例
であり、“|”で単語境界が示されている。
|京都|で|会談|した|。
について、総出現回数と単語にまたがって出現した回数
を計数する。上の例では、「京都」と云う2文字組は2
回出現し、単語にまたがって出現した回数は1回であ
る。従って、「京都」に対する単語境界評価値は、1/2
=0.5となる。一方、「東京」は1回出現し、単語をま
たがって出現してはいないので、単語境界評価値は、0/
1=0.0となる。形態素解析済コーパスは、EDR(電子
化辞書研究所)やRWCP(新世代情報処理機構)など
から提供されており、入手も簡単である。
る。前述の第四の実施の形態においては、単語分割を単
語境界評価値という簡単な指標に基づいて行っているた
め、分割結果が正しくないことがある。前述の単語境界
評価値テーブル(表3)を用いた場合、「京都府知事」
という文は、「京都」に対する単語境界評価値(0.30)よ
り「都府」に対する単語境界評価値(0.15)の方が小さい
ので、どんな分割閾値を用いても「京都/府/知事」の
ように分割することができない。実際、分割閾値を0.40
にすれば、「京都府/知事」となる。検索語が「京都」で
あれば、分割閾値が0.30以下であれば、「京and都」
として検索するために誤検索が発生し、分割閾値が0.30
以上であれば、「京都」として検索するが、その分割は
「京都府知事」又は、「京都府/知事」となり、登録文
書では「京都」が独立した索引語にならないために検索
洩れが発生する。
の形態においては、文書登録時には、以下のように分語
分割処理を実行する。分割された索引語のうち、特定の
条件を満たす隣接する検索語を再結合して、結合された
ものも索引語として用いることとなる。ここで、特定の
条件とは、隣接する検索語にまたがる2文字組の単語境
界評価値が新たに導入する結合閾値以下であることとす
る。例えば、分割閾値を0.10、新たに導入した結合閾値
を0.40とすれば、「京都府知事」は分割閾値によって
「京/都/府/知事」と分割され、結合閾値によって
「京都」「都府」が再結合によって生成される。従っ
て、「京都府知事」からは、「京」「都」「府」「知
事」「京都」「都府」が最終的に索引語として抽出され
る。
検索時には分割閾値に基づいて分割された索引語のうち
再結合の要素として用いられたものは抽出せず、結合さ
れたもののみを検索語として用いることとする。検索要
求が「京都」であれば、「京」「都」は「京都」として
結合されるので検索語として使用せず、「京都」のみが
用いられる。従って、前述の第四の実施の形態の場合に
発生するような誤検索や検索洩れを防ぐことができる。
する。前述の第五の実施の形態においては、「京都府」
と云う言葉は、「京都and都府」として検索されるの
で、「京都」と「都府」とがばらばらの位置に出現して
おり、「京都府」そのものは含まない文書が誤って検索
されることがある。前述の第三の実施の形態に示したよ
うに、「東京and都and知事」で処理するよりは誤
検索の可能性は低いが、誤検索の可能性があることには
変りがない。
値以下の単語境界評価値を含む全ての索引語の組み合わ
せを結合したものも索引語とする。この方式によれば、
「京都府知事」からは前述の第五の実施の形態で抽出さ
れる「京」「都」「府」「知事」「京都」「都府」に加
えて、「京都府」という複合語も索引語として抽出され
る。その結果、誤検索の可能性を大幅に減らすことがで
きる。
て説明する。前述の第一の実施の形態においては、前述
した如く、単語境界へのなり易さを“○”/“×”の二
値で表現して表(テーブル)として保持しておく必要が
ある。日本語では、異なる文字数が約7,000 と膨大であ
るため、この表のエントリ数は、7,000×7,000=49,00
0,000ときわめて膨大な数になってしまう。“○”或い
は“×”の何れか一方の2文字組のみを記録した表を用
いるようにしたとしても、その数が多いことには変わり
がない。本実施の形態においては、前述の表1のような
テーブルを小型化するために、表4に示すような索引と
して用いない文字に関する不要文字テーブルを利用す
る。
点)「,」(カンマ)「(」「)」(括弧)などの文字
は、単語を構成することはなく、索引に記録する必要も
ない。従って、このような不要文字を表4に例示するよ
うな別の不要文字テーブルに記録しておき、単語分割手
段による分割処理の対象から除外する。不要文字テーブ
ルに含まれる文字については分割テーブルに記録する必
要はないので、分割テーブルを小型化することができ
る。
を、装着する。」というテキストが単語分割手段に対し
て分割対象として与えられたとする。このとき、不要文
字で分割された「中央演算処理装置」「CPU」「を」
「装着する」の4つの部分について、前述の第一の実施
の形態の方法を用いて分割処理を行う。すなわち、「置
(」「(C」「U)」のような不要文字を含む2文字組
については、分割テーブルを引いて単語境界であるか否
かを判定する必要がなくなる。このように分割処理が簡
単になるので、その分、処理を高速化し得ることにもな
る。また、テキスト中の不要文字は単語として抽出され
ることがなくなるので、索引ファイルを小型化し得るこ
とになる。
文字に関しては、当然ながら、例示した5文字に限られ
るものではない。
て説明する。前述の第七の実施の形態では、単語を構成
することのない文字を不要文字テーブルに記録すること
で、分割テーブルの小型化、処理の高速化及び索引ファ
イルの小型化を実現している。しかし、日本語には
「ッ」等の促音、「ン」等の撥音、「ャ」等の拗音のよ
うに、単語を構成するが単語の頭(接頭)にはならない
文字がある。そこで、本実施の形態においては、表5に
示すような接頭とならない文字に関する非接頭文字テー
ブルを利用する。
ブルに記録すれば、このような文字が単語境界の先頭に
くる場合は分割テーブルを参照するまでもなく、単語境
界でないと判断できる。従って、このような文字が単語
境界の先頭にくる2文字組を分割テーブルから除外で
き、分割テーブルを小型化することができる。表5に示
す非接頭文字テーブルでは、「っ」等の10文字が非接
頭文字として用意されているが、例示した文字に限られ
ないのはもちろんである。
割手段による分割対象である場合、第一の実施の形態の
方法では「トラ」「ラッ」「ック」の3つの2文字組に
ついて分割テーブルを参照して単語境界であるか否かを
判定する必要があるが、本実施の形態の方法によれば、
「ラッ」の部分が切れ目であることは「ッ」が非接頭文
字であることから判断できる。従って、分割テーブルを
参照する必要があるのは「トラ」「ック」の2つでよい
ことになる。このように分割処理が簡単になるので、処
理を高速化し得ることにもなる。
述の第一の実施の形態では、単語分割手段によって切り
出される単語について長さの制限がない。従って、前述
の第五の実施の形態のような方法を用いた場合には、化
合物名(例えば、「ジクロロベンゼンビフェニール」)
などのように長い単語が、その構成要素である単語
(「ジクロロ」「ベンゼン」「ビフェニール」)に分割
されることなく抽出されてしまう。しかし、このような
単語を全て登録することは索引ファイルに登録される単
語の異なり数の爆発的な増大を招き、索引ファイルの大
型化をもたらすので、好ましくない。
が分割する単語の長さに上限値を設定することで、この
ような事態の発生を防止する。すなわち、単語分割手段
は、予め設定された上限値以上の長さの単語は抽出しな
い。例えば、上限値を10(文字)として設定した場合に
は、上例の単語「ジクロロベンゼンビフェニール」(14
文字)は索引ファイルに登録されなくなる。この結果、
索引ファイルの大型化を防止できる。
述の第九の実施の形態によれば、抽出する単語の長さに
上限値を設定することで索引ファイルの大型化を回避で
きる。しかし、上限値を越える場合、単純に登録しない
ものとしたので、上限値以上の長さの単語については検
索できない場合を生じてしまう。そこで、本実施の形態
では、上限値を越える長さの単語については、上限値に
等しい長さの複数の文字列に分割して抽出するようにし
ている。
例えば、単語全体を被覆する最小個数の上限値に等しい
文字列に分解する方法がある。上限値を10(文字)とす
れば、20文字以下の単語は先頭から10文字の文字列と末
尾から10文字の文字列との二つに分割され、21文字以上
30文字以下の単語は先頭から10文字の文字列と、先頭か
ら11文字目から10文字の文字列と、末尾から10文字の文
字列との三つに分割される。さらに長い単語の場合も同
様に分割すればよい。
「ジクロロベンゼンビフェニール」は「ジクロロベンゼ
ンビフ」と「ベンゼンビフェニール」との2つの文字列
に分割され、抽出結果とされる。よって、本実施の形態
によれば、上限値の設定により異なり数の増大を抑える
ことができ、かつ、上限値を越える長さの単語でも検索
することができる。
日本語においては、単語を構成する文字種によって単語
の長さの分布に大きな違いがある。例えば、漢字であれ
ば比較的短いが、カタカナ語にはかなり長い複合語が存
在している。従って、前述の第九又は十の実施の形態の
ように、抽出する単語の長さに上限を設定する場合、文
字種を考慮しないと問題が発生する。すなわち、漢字に
合わせて上限値を設定すると、カタカナ語については上
限値以上と判断されてしまうものが増大することとな
り、検索漏れ等の原因となる。一方、カタカナ語に合わ
せて上限値を設定すると、漢字の単語については上限値
以上と判断されるものは殆どなくなり、索引ファイルの
大型化を抑える上では不十分となる。
限値を設定自在とする。例えば、漢字については上限値
を 6(文字)、カタカナ語については上限値を10(文
字)とする。この方法によれば、検索漏れを起こすこと
なく、索引ファイルの大型化も回避することができる。
いて説明する。前述の第一の実施の形態の方法では、基
本的には、単純な原理に基づいて分割を行うので、単語
を正しく分割できないこともある。例えば、「におけ
る」を「に」「おける」と分割するためには、分割テー
ブルにおいて「にお」は分割されるものとして記録して
おかなければならないが、これでは、「におい」(臭
い)も分割されることになる。
除外すべき単語文字列を非分割文字列として表6に示す
ような別のテーブルに記録しておき、単語分割手段によ
る分割処理に際して、分割対象中にこの非分割文字列と
一致する部分があればその部分を分割対象から除外す
る。
はならない文字列を不要に分割してしまう不都合を回避
することができ、単語分割手段による分割精度を向上さ
せることができる。表6に示す非分割文字列のテーブル
を用いると、例えば「くさやのにおいと味」が分割対象
である場合、「くさや」「におい」は非分割文字列のテ
ーブルに記録されているので、分割テーブルを参照する
ことなく、単語として抽出される。そして、残りの
「の」「と味」の部分だけが前述した場合と同様の分割
処理に供される。
前述の第十二の実施の形態の方法では、例えば「にお
い」が非分割文字列のテーブルに記録されている場合、
「彼においがいる」(彼に甥がいる)という文から「お
い」(甥)という単語が抽出できない。このような不都
合を避けるためには、「おい」を非分割文字列のテーブ
ル中に記録しておけばよい。但し、この場合「におい」
は「おい」を包含しているので、先の「彼においがい
る」なる文を正しく処理するためには、包含されるもの
(「おい」)のみを単語として抽出し、包含するもの
(「におい」)は単語として抽出しなければよい。本実
施の形態では、このような方法とすることにより、非分
割文字列のテーブル中に含まれる文字列に包含関係があ
るものが含まれていても正しく分割できる。すなわち、
分割精度が向上する。
前述の第十三の実施の形態の方法による場合でも不十分
なことがある。例えば、「くさやとにおいと味」が処理
対象である場合、包含される文字列である「おい」のみ
が抽出され、「におい」としては抽出されない。従っ
て、検索語が「におい」であった場合、「にandお
い」のように一つの単語をばらして検索しなければなら
ない。その結果、「に」と「おい」が連続して「にお
い」となる文だけでなく、「に」と「おい」がばらばら
に出現する文書も検索されてしまう。
は、非分割文字列のテーブル中で、包含されるものだけ
でなく、包含するものも抽出する。すなわち、「くさや
とにおいと味」からは、「おい」だけでなく「におい」
も抽出し、検索語が「におい」であった場合にも「にお
い」」として検索を行う。この結果、前述のような誤検
索を生ずることがなく、検索精度が向上する。
いて説明する。文書検索においては、接続詞等の単語は
検索語として使用されることは殆どない。ところが、前
述の第一の実施の形態の方法では、分割された全ての単
語を抽出するので無駄が多い。一方、文書登録の際にこ
のような不要単語を除外して索引ファイルに登録できれ
ば、索引ファイルを小型化できる。そこで、本実施の形
態では、“しかし”“したがって”“また”等の除外す
べき単語文字列を不要文字列として表7に示すようなテ
ーブルに記録しておき、分割処理の対象から除外する。
い」が分割対象である場合、「しかし」は不要文字列の
テーブルに記録されているので、分割処理対象から除外
する。そして、残りの「、ケーキはおいしい」の部分だ
けを分割処理にかける。この結果、最終的に抽出する単
語が削減され、索引ファイルを小型化できる。
を単語単位に分割する単語分割手段と、入力された登録
文書を単語分割した結果を保管検索する索引ファイル操
作手段と、入力された検索要求を解析する検索要求解析
手段と、検索要求の解析結果に従って前記索引ファイル
操作手段を用いて検索要求に一致する文書を特定する文
書検索手段からなる文書検索方法において、前記単語分
割手段が2文字或いはそれ以上の長さの文字の並びの単
語境界になり易さに基づいてテキストを単語に分割する
ようにしたので、2文字或いはそれ以上の長さの文字の
並びの単語境界になり易さは、完全自動で作成すること
が可能であるため、膨大な単語辞書を用意する必要がな
く、また、単語の切り方も複数のものが実現できるた
め、ユーザの望んだ検索結果を得ることも容易になると
云う効果を有する。
段の2文字或いはそれ以上の長さの文字の並びの単語境
界になり易さを文字種の組合せの情報としたので、きわ
めて少ないデータ量で検索することができる。
析手段による検索要求の解析中に、検索要求中の単語に
対しても単語分割手段を用いて分割処理を適用するよう
にしたので、検索洩れを有効に防止することができる。
段の2文字或いはそれ以上の長さの文字の並びの単語境
界になり易さを数値による単語境界評価値としたので、
対象データやユーザの意向に合わせて分割閾値を変化さ
せることにより、検索洩れの具合を調整することができ
る。
段によるテキストを分割して得られた結果において、隣
接する単語間の単語境界評価値がある閾値以下であれ
ば、それらの隣接する単語を結合したものを分割結果と
して生成するようにしたので、誤検索や検索洩れの発生
を有効に防止することができる。
段によるテキストを分割して得られた結果において、連
続する単語間の単語境界評価値がある閾値以下であれ
ば、それらの連続する単語を結合したものを分割結果と
して生成するようにしたので、結合閾値以下の単語境界
評価値を含む全ての索引語の組合せを結合したものも索
引語とすることができるため、誤検索の可能性を大幅に
減らすことができる。
段が、索引として用いない文字の不要文字テーブルを用
いて不要な要素を抽出しないことで、索引として用いな
い文字に関しては不要文字テーブルを利用することで分
割処理の対象から除外するようにしたので、索引ファイ
ルの大型化を避け、分割処理の高速化を図ることができ
る。
段が、非接頭文字のテーブルを用いて不要な要素を抽出
しないようにしたので、非接頭文字が単語境界の先頭に
くる場合に単語境界でないと判断することができ、索引
ファイルの大型化を避け、分割処理の高速化を図ること
ができる。
段によって切り出される単語について基本的には長さの
制限がないため、単語によっては非常に長い単語もあ
り、これらを全て登録すると索引ファイルの大型化を生
じ得るが、単語分割手段が、予め設定された上限値以上
の長さの単語を抽出しないので、索引ファイルの大型化
を避け、処理の高速化、及び、単語分割に必要なテーブ
ルの小型化を図ることができる。
手段が、予め設定された上限値以上の長さの単語につい
てその単語に含まれる上限に等しい長さの複数個の文字
列に分割して抽出するようにしたので、請求項9記載の
発明に効果に加えて、上限値以上の長さの単語について
検索できなくなってしまう事態を回避することができ
る。
おいては単語を構成する文字種によって単語の長さの分
布に大きな違いがあるが、単語分割手段が、上限値を文
字種毎に設定でき、文字種を考慮して単語長さの上限値
を設定するようにしたので、検索漏れを防止でき、かつ
索引ファイルの大型化を回避することができる。
語分割を行うと正しく単語を分割できないことがある
が、単語分割手段が、予め設定された複数の非分割文字
列に関しては2文字或いはそれ以上の長さの文字の並び
の単語境界になり易さに基づいて単語に分割する処理を
行わず、そのまま単語として抽出するようにしたので、
分割対象から除外することで分割されてはならないよう
な文字列を不要に分割してしまうことがなく、分割精度
を向上させることができる。
手段が、予め設定された複数の非分割文字列に関して、
或る非分割文字列が他の非分割文字列を包含する場合に
は、包含される非分割文字列のみを単語として抽出し、
包含する非分割時列は単語として抽出しないようにした
ので、請求項12記載の発明の効果に加えて、非分割文
字列中に包含関係のあるものが含まれている場合でも、
正しく分割でき、分割精度を向上させることができる。
手段が、予め設定された複数の非分割文字列に関して、
或る非分割文字列が他の非分割文字列を包含する場合に
は、包含される非分割文字列と包含する非分割文字列と
の両方を単語として抽出するようにしたので、請求項1
2記載の発明の効果に加えて、非分割文字列中に包含関
係のあるものが含まれている場合でも、誤検索を生ずる
ことなく正しく分割でき、分割精度を向上させることが
できる。
の検索語として使用されることが殆どない不要文字列に
関しては、単語分割手段が、予め設定された複数の不要
文字列に関しては2文字或いはそれ以上の長さの文字の
並びの単語境界になり易さに基づいて単語に分割する処
理を行わず、単語として抽出しないようにしたので、不
要文字列を分割対象外とし、かつ、単語としても抽出し
ないので、最終的に抽出される単語を削減し、索引ファ
イルを小型化することができる。
の処理概要を示すフローチャートである。
の処理概要を示すフローチャートである。
Claims (15)
- 【請求項1】 テキストを単語単位に分割する単語分割
手段と、入力された登録文書を単語分割した結果を保管
検索する索引ファイル操作手段と、入力された検索要求
を解析する検索要求解析手段と、検索要求の解析結果に
従って前記索引ファイル操作手段を用いて検索要求に一
致する文書を特定する文書検索手段からなる文書検索方
法において、前記単語分割手段が2文字或いはそれ以上
の長さの文字の並びの単語境界になり易さに基づいてテ
キストを単語に分割するようにしたことを特徴とする文
書検索方法。 - 【請求項2】 単語分割手段の2文字或いはそれ以上の
長さの文字の並びの単語境界になり易さを文字種の組合
せの情報としたことを特徴とする請求項1記載の文書検
索方法。 - 【請求項3】 検索要求解析手段による検索要求の解析
中に、検索要求中の単語に対しても単語分割手段を用い
て分割処理を適用するようにしたことを特徴とする請求
項1記載の文書検索方法。 - 【請求項4】 単語分割手段の2文字或いはそれ以上の
長さの文字の並びの単語境界になり易さを数値による単
語境界評価値としたことを特徴とする請求項1記載の文
書検索方法。 - 【請求項5】 単語分割手段によるテキストを分割して
得られた結果において、隣接する単語間の単語境界評価
値が或る閾値以下であれば、それらの隣接する単語を結
合したものを分割結果として生成するようにしたことを
特徴とする請求項4記載の文書検索方法。 - 【請求項6】 単語分割手段によるテキストを分割して
得られた結果において、連続する単語間の単語境界評価
値が或る閾値以下であれば、それらの連続する単語を結
合したものを分割結果として生成するようにしたことを
特徴とする請求項4記載の文書検索方法。 - 【請求項7】 単語分割手段は、索引として用いない文
字の不要文字テーブルを用いて不要な要素を抽出しない
ことを特徴とする請求項1記載の文書検索方法。 - 【請求項8】 単語分割手段は、非接頭文字のテーブル
を用いて不要な要素を抽出しないことを特徴とする請求
項1記載の文書検索方法。 - 【請求項9】 単語分割手段は、予め設定された上限値
以上の長さの単語を抽出しないことを特徴とする請求項
1記載の文書検索方法。 - 【請求項10】 単語分割手段は、予め設定された上限
値以上の長さの単語についてその単語に含まれる上限値
に等しい長さの複数個の文字列に分割して抽出すること
を特徴とする請求項1記載の文書検索方法。 - 【請求項11】 単語分割手段は、上限値を文字種毎に
設定できることを特徴とする請求項9又は10記載の文
書検索方法。 - 【請求項12】 単語分割手段は、予め設定された複数
の非分割文字列に関しては2文字或いはそれ以上の長さ
の文字の並びの単語境界になり易さに基づいて単語に分
割する処理を行わず、そのまま単語として抽出すること
を特徴とする請求項1記載の文書検索方法。 - 【請求項13】 単語分割手段は、予め設定された複数
の非分割文字列に関して、或る非分割文字列が他方の非
分割文字列を包含する場合には、包含される非分割文字
列のみを単語として抽出し、包含する非分割文字列は単
語として抽出しないことを特徴とする請求項12記載の
文書検索方法。 - 【請求項14】 単語分割手段は、予め設定された複数
の非分割文字列に関して、或る非分割文字列が他の非分
割文字列を包含する場合には、包含される非分割文字列
と包含する非分割文字列との両方を単語として抽出する
ことを特徴とする請求項12記載の文書検索方法。 - 【請求項15】 単語分割手段は、予め設定された複数
の不要文字列に関しては2文字或いはそれ以上の長さの
文字の並びの単語境界になり易さに基づいて単語に分割
する処理を行わず、単語として抽出しないことを特徴と
する請求項1記載の文書検索方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9311791A JPH10320421A (ja) | 1997-03-19 | 1997-11-13 | 文書検索方法 |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9-66442 | 1997-03-19 | ||
| JP6644297 | 1997-03-19 | ||
| JP9311791A JPH10320421A (ja) | 1997-03-19 | 1997-11-13 | 文書検索方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH10320421A true JPH10320421A (ja) | 1998-12-04 |
| JPH10320421A5 JPH10320421A5 (ja) | 2004-07-22 |
Family
ID=26407640
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9311791A Pending JPH10320421A (ja) | 1997-03-19 | 1997-11-13 | 文書検索方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH10320421A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012216120A (ja) * | 2011-04-01 | 2012-11-08 | Nec System Technologies Ltd | 組織内ソーシャルマップ作成システム及び組織内ソーシャルマップ作成方法 |
| JP2018077806A (ja) * | 2016-11-11 | 2018-05-17 | ヤフー株式会社 | 生成装置、生成方法および生成プログラム |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH02297194A (ja) * | 1989-03-02 | 1990-12-07 | Nec Corp | 接続コストテーブル作成装置 |
| JPH0452765A (ja) * | 1990-06-14 | 1992-02-20 | Ricoh Co Ltd | キーワード抽出装置 |
| JPH07200598A (ja) * | 1993-12-29 | 1995-08-04 | Canon Inc | 文処理方法及び装置 |
| JPH07200595A (ja) * | 1993-12-30 | 1995-08-04 | Ricoh Co Ltd | 形態素解析装置 |
| JPH07262191A (ja) * | 1994-03-24 | 1995-10-13 | Sony Corp | 単語分割方法、および音声合成装置 |
| JPH08314966A (ja) * | 1995-05-19 | 1996-11-29 | Toshiba Corp | 文書検索装置のインデックス作成方法及び文書検索装置 |
-
1997
- 1997-11-13 JP JP9311791A patent/JPH10320421A/ja active Pending
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH02297194A (ja) * | 1989-03-02 | 1990-12-07 | Nec Corp | 接続コストテーブル作成装置 |
| JPH0452765A (ja) * | 1990-06-14 | 1992-02-20 | Ricoh Co Ltd | キーワード抽出装置 |
| JPH07200598A (ja) * | 1993-12-29 | 1995-08-04 | Canon Inc | 文処理方法及び装置 |
| JPH07200595A (ja) * | 1993-12-30 | 1995-08-04 | Ricoh Co Ltd | 形態素解析装置 |
| JPH07262191A (ja) * | 1994-03-24 | 1995-10-13 | Sony Corp | 単語分割方法、および音声合成装置 |
| JPH08314966A (ja) * | 1995-05-19 | 1996-11-29 | Toshiba Corp | 文書検索装置のインデックス作成方法及び文書検索装置 |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012216120A (ja) * | 2011-04-01 | 2012-11-08 | Nec System Technologies Ltd | 組織内ソーシャルマップ作成システム及び組織内ソーシャルマップ作成方法 |
| JP2018077806A (ja) * | 2016-11-11 | 2018-05-17 | ヤフー株式会社 | 生成装置、生成方法および生成プログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5983171A (en) | Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program | |
| US7752193B2 (en) | System and method for building and retrieving a full text index | |
| US5748953A (en) | Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols | |
| KR100451978B1 (ko) | 정보 검색 방법과 정보 검색 장치 | |
| JPH1153384A (ja) | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 | |
| CN106250362A (zh) | 文本分割装置以及文本分割方法 | |
| JPH0628403A (ja) | 文書検索装置 | |
| JPH0484271A (ja) | 文書内情報検索装置 | |
| JPH067385B2 (ja) | キ−ワ−ド自動抽出方式 | |
| JPH10320421A (ja) | 文書検索方法 | |
| JPH07319920A (ja) | 文書検索方法及び装置 | |
| JP3674119B2 (ja) | 類似文書検索方法 | |
| JPS63244259A (ja) | キ−ワ−ド抽出装置 | |
| JP3489237B2 (ja) | 文書検索方法 | |
| JPH11143902A (ja) | n−gramを用いた類似文書検索方法 | |
| JPH056398A (ja) | 文書登録装置及び文書検索装置 | |
| JP3398729B2 (ja) | キーワード自動抽出装置およびキーワード自動抽出方法 | |
| JPH06187373A (ja) | キーワード抽出装置 | |
| JP2001092831A (ja) | 文書検索装置及び文書検索方法 | |
| CN116578666B (zh) | 段句位的倒排索引结构设计及其限定运算全文检索的方法 | |
| JPH09212523A (ja) | 全文検索方法 | |
| JPH0668159A (ja) | 検索装置 | |
| JPS63201867A (ja) | 文書画像自動要約方式 | |
| JP4183767B2 (ja) | 文字列検索装置およびその検索方法 | |
| JPH08161344A (ja) | ファイル検索管理用のキーワードデータベースファイル作成方法および装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050609 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060721 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060808 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061010 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061219 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070320 |