JPH0836582A - 文字列正規化規則作成装置、文字列正規化規則作成方法、情報検索装置及び情報検索方法 - Google Patents
文字列正規化規則作成装置、文字列正規化規則作成方法、情報検索装置及び情報検索方法Info
- Publication number
- JPH0836582A JPH0836582A JP6170545A JP17054594A JPH0836582A JP H0836582 A JPH0836582 A JP H0836582A JP 6170545 A JP6170545 A JP 6170545A JP 17054594 A JP17054594 A JP 17054594A JP H0836582 A JPH0836582 A JP H0836582A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- conversion
- conversion rule
- rule
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
文字列との相違が所定の範囲内であれば検索することが
可能な文字列の正規化規則を、自動的に作成する文字列
正規化規則作成装置、文字列正規化規則作成方法、情報
検索装置及び情報検索方法を提供することを目的とす
る。 【構成】 本発明は、変換規則を生成する変換規則生成
手段110、変換規則に変換規則を適用して修正する変
換規則修正手段120、等式関係に変換規則を適用して
修正する等式関係修正手段130、制御手段140、等
式関係蓄積手段150、変換規則蓄積手段160とから
構成される。
Description
装置、文字列正規化規則作成方法、情報検索装置及び情
報検索方法に係り、蓄積している文字列情報と同一の文
字列を入力して検索することが困難である場合に、予め
設定する文字列の等式関係の範囲内で柔軟に検索して検
索結果を出力することを可能とする文字列正規化規則作
成装置、文字列正規化規則作成方法、情報検索装置及び
情報検索方法に関する。
人名簿などの情報を仮名文字列の入力により検索し、適
切な検索結果を得ることを可能とする文字列正規化規則
作成装置、文字列正規化規則作成方法、情報検索装置及
び情報検索方法に関する。
いては文字列を正確に入力する必要があるが、日本語情
報には“やまさき”と、“やまざき”或いは、“ほづ
み”と“ほずみ”のような表記のゆれが多数存在してい
るため、入力文字列が蓄積されている文字列情報と異な
ることがあり、正しく検索することができない場合があ
る。従来、このような場合において所望の検索結果を得
るための検索方法としては以下の方法がある。
る方法に基づいて文字列正規化のための変換規則を人手
で作成し、作成した変換規則に基づいて検索文字列及び
蓄積情報の正規化を行なって検索する。以下に、従来の
検索方法を図を用いて説明する。図12は、従来の検索
方法を説明する図である。図12(A)は、文字列の変
換規則の例である。従来、文字列の正規化を行なうため
に、“づ”を標準的な表記である“ず”に変換し、その
上で濁音を清音に変換するといった正規化法を用いてい
る。同図は、前述の正規化法に基づき人手で作成した変
換規則の例であり、“づ”は“ず”に、“ざ”は“さ”
に、“ず”は“す”に変換することを表している。図1
2(B)は、検索対象となるデータベースの例であり、
図12(C)は、図12(B)に示したデータベースの
例に上記変換規則の例を適用して変換したデータベース
の例を表している。また、図12(D)は、データベー
スを項目「名」で検索するために入力する検索文字列
“ほづみ”を上記変換規則の例に基づいて、“ほづみ”
を“ほずみ”に、更に“ほずみ”を“ほすみ”に変換す
る過程を表している。以上のように、従来の検索方法
は、人手により文字列正規化のための変換規則を作成
し、作成した変換規則を適用してデータベースの変換を
行い、検索時に検索文字列を変換規則に基づき変換して
予め変換規則を適用して変換を行なったデータベースを
検索し、検索結果を得ることを可能としている。
来の方法では、以下に示す2つの問題点がある。
み”、“ほずみ”、“ほつみ”のゆれを持つ場合、文字
列“ほづみ”を正規化すると、“ほずみ”に変換され更
に“ほすみ”に変換される。また、“ほずみ”を正規化
すると“ほすみ”になる。しかし、“ほつみ”を正規化
すると“ほつみ”となるため、正規化した結果の文字列
に“ほすみ”と“ほつみ”の2種類の文字列が存在して
しまい、“ほづみ”、“ほずみ”、“ほつみ”の正規化
の結果が一意に定まらず、“ほつみ”を入力して検索す
る場合などに検索漏れが生じるという問題点がある。
換規則を人手によって作成しなければならないため、新
規に規則を追加する際には新たに作成する変換規則で検
索漏れがないように、規則の新規追加による影響を検証
しながら変換規則を作成しなければならず、変換規則の
作成に多くの手間、時間、費用を要すると共に、変換規
則の作成にミスが発生する危険性がある点である。
で、入力文字列と蓄積情報に含まれる文字列との相違が
所定の範囲内であれば検索することが可能な文字列の正
規化規則を、自動的に作成する文字列正規化規則作成装
置、文字列正規化規則作成方法、情報検索装置及び情報
検索方法を提供することを目的とする。
とを表す等式関係に基づいて、文字列の正規化を行なう
変換規則を漏れなく作成することが可能な文字列正規化
規則作成装置、文字列正規化規則作成方法、情報検索装
置及び情報検索方法を提供することを目的とする。
て1回の変換処理で入力文字列を正規化することが可能
な文字列の変換規則を作成する文字列正規化規則作成装
置、文字列正規化規則作成方法、情報検索装置及び情報
検索方法を提供することを目的とする。
に変換できる変換規則を作成することが可能な文字列正
規化規則作成装置、文字列正規化規則作成方法、情報検
索装置及び情報検索方法を提供することを目的とする。
を用いて、入力される文字列と検索対象として予め蓄積
している情報に含まれる文字列とを正規化して照合する
ことで、予め設定する等式関係の範囲内において漏れな
く検索することが可能な文字列正規化規則作成装置、文
字列正規化規則作成方法、情報検索装置及び情報検索方
法を提供することを目的とする。
正規化規則作成装置の原理構成図である。
力される文字列と検索対象の情報に含まれる文字列との
相違が所定の範囲内であれば検索可能とする、文字列の
変換規則を作成する文字列変換規則作成手段100を有
する。
は、2つの文字列が等しいことを表す複数の等式関係1
0が与えられると、与えられた等式関係10に基づいて
文字列を正規化する変換規則を自動的に作成する機能を
有する。
は、複数の等式関係10を蓄積する等式関係蓄積手段1
50と、等式関係蓄積手段150より等式関係10を取
り出し、取り出した等式関係10の2つの文字列を比較
し、比較結果に基づいて変換前文字列と変換後文字列を
決定して変換規則を生成する変換規則生成手段110
と、変換規則を蓄積する変換規則蓄積手段160と、変
換規則蓄積手段160に蓄積している変換規則の変換後
文字列に、変換規則蓄積手段160に蓄積されている変
換規則を適用して変換規則を修正する変換規則修正手段
120と、等式関係蓄積手段150に蓄積している等式
関係10の文字列に、変換規則蓄積手段160に蓄積し
ている変換規則を適用して等式関係10を修正する等式
関係修正手段130と、等式関係蓄積手段150に等式
関係10が蓄積されている場合に、等式関係蓄積手段1
50に蓄積される等式関係10がなくなるまで変換規則
生成手段110、変換規則修正手段120、等式関係修
正手段130を順に起動し、繰り返す制御手段140と
を有する。
り出した等式関係10の2つの文字列の大小を辞書順に
より比較する機能を有する。
較の結果が等しい場合には取り出した等式関係10を等
式関係蓄積手段150から削除し、比較の結果が等しく
ない場合には比較の結果が大きい文字列を変換前文字列
とし、比較の結果が小さい文字列を変換後文字列とする
機能を有する。
法の原理説明図である。
つの文字列が等しいことを表す複数の等式関係の集合よ
り等式関係を取り出し、取り出した等式関係の2つの文
字列を比較し、比較の結果に基づいて等式関係を等式関
係の集合から削除するか、または、変換前文字列と変換
後文字列を決定して変換規則を生成し、変換規則の集合
に追加し(ステップ1)、上記ステップ1で追加された
変換規則の集合に含まれる全ての変換規則の変換後文字
列に、変換規則の集合に含まれる全ての変換規則を適用
して変換規則を修正し(ステップ2)、等式関係の集合
に含まれる等式関係の2つの文字列に、上記修正後の変
換規則の集合に含まれる変換規則を適用して等式関係を
修正し(ステップ3)、等式関係の集合に等式関係が存
在している場合には上記ステップ1へ移行し、等式関係
が存在していな場合には変換規則の作成を終了する(ス
テップ4)。
図である。
有する情報を蓄積する情報蓄積手段310を有し、検索
文字列20が入力されると検索文字列20に基づき情報
蓄積手段310を検索して検索結果30を出力する情報
検索装置300において以下の手段を有する。
蓄積している文字列とを所定の変換規則に基づき変換
し、変換の結果に基づいて検索をする情報検索手段20
0を有する。
を正規化する複数の変換規則を蓄積している変換規則蓄
積手段160と、検索文字列20及び情報蓄積手段31
0に蓄積している文字列に変換規則蓄積手段160に蓄
積されている変換規則を適用して正規化する正規化手段
210と、正規化手段210によって正規化された検索
文字列20と情報蓄積手段310に蓄積されている文字
列とを照合し、照合の結果が一致する場合には、一致し
た情報蓄積手段310に蓄積されている文字列を正規化
した文字列の、正規化前の文字列を検索結果として出力
する照合一致手段220とを有する。
図である。
力されると(ステップ10)、検索文字列に、文字列を
正規化する変換規則を適用して正規化し(ステップ1
1)、検索対象となる蓄積情報に含まれる文字列にも文
字列を正規化する変換規則を適用して正規化し(ステッ
プ12)、上記ステップ11で正規化した検索文字列
と、ステップ12で正規化した蓄積情報に含まれる文字
列とを照合し(ステップ13)、照合の結果が一致する
場合には一致した蓄積情報に含まれる文字列を正規化し
た文字列の、正規化前の文字列を検索結果として出力す
る(ステップ14)。
規化規則作成方法は、文字列のゆれの情報として2つの
文字列が等しいことを表す等式関係を予め用意すること
により、用意される等式関係の範囲内であれば検索可能
な文字列正規化のための変換規則を自動的に作成するこ
とが可能となる。
置、文字列正規化規則作成方法は、与えられる等式関係
を単に変換規則に変換するだけでなく、変換規則作成途
中で得られた変換規則を逐次当該変換規則にも適用して
変換規則の修正をし、また等式関係に対しても当該変換
規則を適用して等式関係を修正することで変換規則の冗
長性を排除し、1回の変換処理で文字列を正規化するこ
とが可能な変換規則の作成を可能とすると共に、変換規
則の作成漏れを防ぐことを可能としている。
置、文字列正規化規則作成方法は、上記に加え、与えら
れた等式関係の文字列の大小を辞書順により判断してい
るため、ゆれの存在する複数の文字列を一意に変換する
ことを可能にすると共に、入力文字列が与えられた等式
関係の範囲内の文字列であれば漏れなく検索することが
可能な変換規則を作成することが可能となる。
方法は、文字列変換規則作成装置、文字列変換規則作成
方法により作成される文字列正規化のための変換規則を
用いて検索文字列及び蓄積情報の正規化を行なうことに
より、検索文字列と蓄積情報に含まれる文字列との間に
相違があっても所定の範囲内であれば検索して結果を出
力することを可能としている。
明する。
規則作成装置の構成図を示す。同図に示す文字列正規化
規則作成装置100は、変換規則生成部110、変換規
則修正部120、等式関係修正部130、制御部14
0、等式関係蓄積部150、変換規則蓄積部160から
構成される。
等しいことを表す等式関係10を蓄積するデータベース
であり、変換規則作成前に予め蓄積しておく必要のある
情報である。図6は、本発明の一実施例の等式関係蓄積
部の蓄積例を示す図である。同図の例は、 「“ほづみ” と “ほずみ” は 等しい」 「“ほづみ” と “ほつみ” は 等しい」 「“ほずみ” と “ほすみ” は 等しい」 ことを表している。
するための変換規則を蓄積するデータベースである。変
換規則作成過程においては、不完全な変換規則が蓄積さ
れるが、全ての変換規則作成過程を終了した時点では、
完成した文字列を正規化するための変換規則が蓄積され
る。図7は、本発明の一実施例の変換規則蓄積部の蓄積
例を示す図である。同図の例は、 「“ほづみ” は “ほすみ” に変換する」 「“ほつみ” は “ほすみ” に変換する」 「“ほずみ” は “ほすみ” に変換する」 ことを表している。
150に蓄積されている等式関係10を1つ取り出し、
取り出した等式関係10の2つの文字列の大小関係を辞
書順で比較し、比較の結果が等しい場合には取り出した
等式関係10を等式関係蓄積部150から削除し、比較
の結果が等しくない場合には、比較の結果が大きい文字
列を変換前文字列、比較の結果が小さい文字列を変換後
文字列とする、 「“変換前文字列” は “変換後文字列” に変換す
る」 ことを表す変換規則を作成し、変換規則蓄積部160に
蓄積する。
160に蓄積されている全ての変換規則の変換後文字列
に、変換規則蓄積部160に蓄積されている全ての変換
規則を適用して文字列の変換を行い、変換規則蓄積部1
60の修正を行なう。
150に蓄積している全ての等式関係10の文字列に、
変換規則蓄積部160に蓄積している全ての変換規則を
適用して文字列の変換を行い、等式関係蓄積部150の
修正を行なう。
規則作成装置100の動作を制御するための手段で、予
め等式関係10が等式関係蓄積部150に蓄積されてい
る状態において、変換規則生成部110を起動し、変換
規則生成部110の動作終了後に変換規則修正部120
を起動し、変換規則修正部120の動作終了後に等式関
係蓄積部150に等式関係10が蓄積されているか否か
を確認し、等式関係10が登録されている場合には引続
き等式関係修正部130を起動するが、等式関係蓄積部
150に等式関係が登録されていない場合には変換規則
の作成が完了したものとして動作を終了する。また、等
式関係修正部130の動作終了後にも等式関係蓄積部1
50に等式関係10が蓄積されているか否かを確認し、
等式関係10が登録されている場合には上記変換規則生
成部110を起動し、等式関係蓄積部150に等式関係
が登録されていない場合には変換規則の作成が完了した
ものとして動作を終了する。
て説明する。図8は、本発明の一実施例の文字列正規化
規則作成装置の動作を示すフローチャートである。
より変換規則生成部110は、等式関係蓄積部150に
蓄積されている等式関係10を1つ取り出す。
は、上記ステップ50で取り出した等式関係10の2つ
の文字列が等しいか否かをチェックし、等しくない場合
にはステップ53へ移行する。
は、上記ステップ51で等式関係10の2つの文字列が
等しい場合に、ステップ50で取り出した等式関係を等
式関係蓄積部150から削除し、ステップ50へ移行す
る。
は、上記ステップ51で等式関係10の2つの文字列が
等しくない場合に、2つの文字列を辞書順で比較し、大
きい文字列、即ち辞書順で後になる文字例を変換前文字
列、小さい文字列を変換後文字列とする変換規則を生成
して変換規則蓄積部160へ蓄積する。
より変換規則修正部120は、変換規則蓄積部160に
蓄積されている変換規則を1つ取り出す。
は、上記ステップ54で取り出した変換規則の変換後文
字列に、変換規則蓄積部160に残っている他の全ての
変換規則を適用し、適用した結果の変換規則を変換規則
蓄積部160へ蓄積して変換規則を修正する。
は、変換規則蓄積部160に蓄積されている全ての変換
規則について上記ステップ55の処理を行なったか否か
をチェックし、全ての変換規則について上記ステップ5
5の処理を行なっていない場合にはステップ54移行す
る。
関係蓄積部150に等式関係10が残っているか否かを
チェックし、残っていない場合には変換規則作成処理を
全て終了する。
より等式関係修正部130は、等式関係蓄積部150に
蓄積されている等式関係10を1つ取り出す。
は、上記ステップ58で取り出した等式関係10の2つ
の文字列に、変換規則蓄積部160に蓄積されている全
ての変換規則を適用し、適用した結果の等式関係10を
等式関係蓄積部150へ蓄積して等式関係10を修正す
る。
は、上記ステップ59で適用した結果の等式関係10の
2つの文字列が等しいか否かをチェックし、等しい場合
にはステップ61へ移行し、等しくない場合にはステッ
プ62へ移行する。
は、上記ステップ60で等式関係10の2つの文字列が
等しい場合には、当該等式関係10を等式関係蓄積部1
50から削除する。
は、等式関係蓄積部150に蓄積されている全ての等式
関係10について上記ステップ59の処理を行なったか
否かをチェックし、全ての等式関係10について上記ス
テップ59の処理を行なっていない場合にはステップ5
8へ移行する。
関係蓄積部15に等式関係10が蓄積されているか否か
をチェックし、蓄積されている場合にはステップ50へ
移行し、蓄積されていない場合には変換規則の作成を全
て終了する。
規則作成装置を用いて文字列正規化規則を作成する具体
例を説明する。以下の説明における文字列正規化規則作
成装置は前述の文字列正規化規則作成装置と同様のもの
とする。また、処理過程における等式関係蓄積部150
及び変換規則蓄積部160の状態を図9に示す。
に図6に示す3つの等式関係10を蓄積しておく[図9
(状態1)]。この状態を基に以下の説明を行なう。
110は、等式関係蓄積部150に蓄積されている等式
関係10、 「“ほづみ” = “ほずみ”」 「“ほづみ” = “ほつみ”」 「“ほずみ” = “ほすみ”」 の中から、 「“ほづみ” = “ほずみ”」 を1つ取り出し(ステップ50)、2つの文字列が等し
いか否かをチェックするが等しくないので(ステップ5
1、NO)、2つの文字列を辞書順で比較すると、 「“ほづみ” > “ほずみ”」 の関係となるため、変換前文字列を“ほづみ”とし変換
後文字列を“ほずみ”とする、 「“ほづみ” => “ほずみ”」 の変換規則を作成して変換規則蓄積部160へ蓄積する
(ステップ53)[図9(状態2)]。
120は、変換規則蓄積部160に蓄積されている変換
規則、 「“ほづみ” => “ほずみ”」 の中から変換規則、 「“ほづみ” => “ほずみ”」 を取り出し(ステップ54)、取り出した変換規則の変
換後文字列、 「“ほずみ”」 に、変換規則蓄積部160に残っている他の全ての変換
規則を適用しようとするが、他に変換規則は残っていな
いので何も変換せずに取り出した変換規則を変換規則蓄
積部160へ戻す(ステップ55)[図9(状態
2)]。
160に蓄積されている全ての変換規則について上記ス
テップ55の処理を完了したので、変換規則修正処理を
終了する(ステップ56、YES)。
等式関係10が残っているか否かをチェックすると、 「“ほづみ” = “ほつみ”」 「“ほずみ” = “ほすみ”」 の2つの等式関係10が残っているので等式関係修正部
130に処理を開始するよう指示する(ステップ57、
YES)。
150に蓄積されている等式関係10、 「“ほづみ” = “ほつみ”」 「“ほずみ” = “ほすみ”」 の中から、 「“ほづみ” = “ほつみ”」 を取り出し(ステップ58)、取り出した等式関係10
の2つの文字列に変換規則蓄積部160に蓄積されてい
る全ての変換規則、 「“ほづみ” => “ほずみ”」 を適用して適用結果の文字列に置き換え、 「“ほずみ” = “ほつみ”」 の等式関係10に修正して等式関係蓄積部150に蓄積
する(ステップ59)[図9(状態3)]。
係10の2つの文字列は等しくないので(ステップ6
0、NO)、等式関係蓄積部150に蓄積されている全
ての等式関係10について上記ステップ59の処理を行
なったか否かをチェックすると、まだ処理を行なってい
ない等式関係10、 「“ほずみ” = “ほすみ”」 が存在するので(ステップ62、NO)、未処理の等式
関係10、 「“ほずみ” = “ほすみ”」 を取り出す(ステップ58)。
0の2つの文字列に変換規則蓄積部160に蓄積されて
いる全ての変換規則、 「“ほづみ” => “ほずみ”」 を適用しようとするが、適用可能な変換規則でないため
取り出した等式関係10を変換せずに等式関係蓄積部1
50へ戻す(ステップ59)[図9(状態3)]。
とした等式関係10の2つの文字列は等しくないので
(ステップ60、NO)、等式関係蓄積部150に蓄積
されている全ての等式関係10について上記ステップ5
9の処理を行なったか否かをチェックすると、全ての等
式関係10について上記ステップ59の処理を完了した
ので等式関係修正処理を終了する(ステップ62、YE
S)。
式関係10が蓄積されているか否かをチェックすると、 「“ほずみ” = “ほつみ”」 「“ほずみ” = “ほすみ”」 の2つの等式関係10が残っているので(ステップ6
3、YES)、 「“ほずみ” = “ほつみ”」 の等式関係10を取り出して(ステップ50)、2つの
文字列が等しいか否かをチェックすると2つの文字列は
等しくないので(ステップ51、NO)、2つの文字列
を辞書順で比較し、 「“ほつみ” > “ほずみ”」 の関係より変換前文字列を“ほつみ”、変換後文字列を
“ほずみ”とする、 「“ほつみ” => “ほずみ”」 の変換規則を作成して変換規則蓄積部160へ蓄積する
(ステップ53)[図9(状態4)]。
120は、変換規則蓄積部160に蓄積されている変換
規則、 「“ほづみ” => “ほずみ”」 「“ほつみ” => “ほずみ”」 の中から、 「“ほづみ” => “ほずみ”」 を取り出して(ステップ54)、取り出した変換規則の
変換後文字列、 “ほずみ” に、変換規則蓄積部160に残っている他の全ての変換
規則、 「“ほつみ” => “ほずみ”」 の変換規則を適用しようとするが、適用可能な変換規則
でないため取り出した変換規則に何も変換を行なわずに
変換規則蓄積部160に戻す(ステップ55)[図9
(状態4)]。
160に蓄積されている全ての変換規則に上記ステップ
55の処理を行なったか否かをチェックすると、まだ処
理していない変換規則、 「“ほつみ” => “ほずみ”」 が残っているため(ステップ56、NO)、残っている
変換規則、 「“ほつみ” => “ほずみ”」 を取り出して(ステップ54)、取り出した変換規則の
変換後文字列、“ほずみ”に、変換規則蓄積部160に
残っている他の全ての変換規則、 「“ほづみ” => “ほずみ”」 の変換規則を適用しようとするが、適用可能な変換規則
でないため取り出した変換規則に何も変換せずに変換規
則蓄積部160へ戻す(ステップ55)[図9(状態
4)]。
160に蓄積されている全ての変換規則について上記ス
テップ55の処理を行なったか否かをチェックすると、
全ての変換規則について上記ステップ55の処理を行な
っているので変換規則修正処理を終了する(ステップ5
6、YES)。
等式関係10が残っているか否かをチェックすると、 「“ほずみ” = “ほすみ”」 の等式関係10が残っているので等式関係修正部130
に処理を開始するよう指示する(ステップ57、YE
S)。
130は、等式関係蓄積部150に蓄積されている等式
関係10、 「“ほずみ” = “ほすみ”」 を取り出して(ステップ58)、取り出した等式関係1
0の2つの文字列に変換規則蓄積部160に蓄積されて
いる全ての変換規則、 「“ほづみ” => “ほずみ”」 「“ほつみ” => “ほずみ”」 を適用して適用結果の文字列に置き換えようとするが、
適用可能な変換規則がないので取り出した等式関係を何
も変換せずに等式関係蓄積部150へ戻す(ステップ5
9)[図9(状態4)]。
係10の2つの文字列は等しくないので(ステップ6
0、NO)、等式関係蓄積部150に蓄積されている全
ての等式関係10について上記ステップ59の処理を行
なったか否かをチェックすると、全ての等式関係10に
上記ステップ59の処理を行なったので等式関係修正処
理を終了する(ステップ62、YES)。
式関係10が蓄積されているか否かをチェックすると、 「“ほずみ” = “ほすみ”」 の等式関係10が残っているので(ステップ63、YE
S)、 「“ほずみ” = “ほすみ”」 の等式関係10を取り出して(ステップ50)、2つの
文字列が等しいか否かをチェックするが等しくないので
(ステップ51、NO)、2つの文字列を辞書順で比較
し、 「“ほずみ” > “ほすみ”」 の関係より変換前文字列を“ほずみ”、変換後文字列を
“ほすみ”とする、 「“ほずみ” => “ほすみ”」 の変換規則を作成して変換規則蓄積部160へ蓄積する
(ステップ53)[図9(状態5)]。
120は、変換規則蓄積部160に蓄積されている変換
規則、 「“ほづみ” => “ほずみ”」 「“ほつみ” => “ほずみ”」 「“ほずみ” => “ほすみ”」 の中から、 「“ほづみ” => “ほずみ”」 の変換規則を取り出し(ステップ54)、取り出した変
換規則の変換後文字列、 “ほずみ” に、変換規則蓄積部160に残っている他の全ての変換
規則、 「“ほつみ” => “ほずみ”」 「“ほずみ” => “ほすみ”」 の変換規則を適用して、 「“ほづみ” => “ほすみ”」 に変換した結果の変換規則を変換規則蓄積部160へ蓄
積する(ステップ55)[図9(状態6)]。
160に蓄積されている全ての変換規則について上記ス
テップ55の処理を行なったか否かをチェックすると、
まだ処理していない変換規則、 「“ほつみ” => “ほずみ”」 「“ほずみ” => “ほすみ”」 が残っているため(ステップ56、NO)、残っている
変換規則から、 「“ほつみ” => “ほずみ”」 の変換規則を取り出して(ステップ54)、取り出した
変換規則の変換後文字列、 “ほずみ” に、変換規則蓄積部160に残っている他の全ての変換
規則、 「“ほづみ” => “ほすみ”」 「“ほずみ” => “ほすみ”」 の変換規則を適用して、 「“ほつみ” => “ほすみ”」 に変換した結果の変換規則を変換規則蓄積部160へ蓄
積する(ステップ55)[図9(状態7)]。
160に蓄積されている全ての変換規則について上記ス
テップ55の処理を行なったか否かをチェックすると、
まだ処理していない変換規則、 「“ほずみ” => “ほすみ”」 が残っているため(ステップ56、NO)、残っている
変換規則、 「“ほずみ” => “ほすみ”」 を取り出して(ステップ54)、取り出した変換規則の
変換後文字列、 “ほすみ” に、変換規則蓄積部160に残っている他の全ての変換
規則、 「“ほづみ” => “ほすみ”」 「“ほつみ” => “ほすみ”」 の変換規則を適用しようとするが、変換可能な変換規則
がないため取り出した変換規則を何も変換せずに変換規
則蓄積部160へ戻す(ステップ55)[図9(状態
7)]。
160に蓄積されている全ての変換規則について上記ス
テップ55の処理を行なったか否かをチェックすると、
全ての変換規則について上記ステップ55の処理を行な
っているので変換規則修正処理を終了する(ステップ5
6、YES)。
等式関係10が残っているか否かをチェックすると、等
式関係蓄積部150には等式関係10が1つも残ってい
ないため変換規則の作成の全ての処理を終了する(ステ
ップ57、NO)。
係10、 「“ほづみ” = “ほずみ”」 「“ほづみ” = “ほつみ”」 「“ほずみ” = “ほすみ”」 から変換規則、 「“ほづみ” => “ほすみ”」 「“ほつみ” => “ほすみ”」 「“ほずみ” => “ほすみ”」 を自動的に作成することができる。
は、3つの等式関係に基づいて変換規則を作成する例で
説明したが、実際の使用においては等式関係の数が格段
に多くなるため、人手による変換には非常に多くの手
間、時間、費用を要すると同時に、変換規則作成過程で
の人為的なミスが混入する危険性が非常に高くなる。し
かしながら、本発明によれば予め文字列のゆれの範囲を
等式関係として蓄積しておくだけで、漏れのない文字列
正規化の変換規則を自動的に作成することができ非常に
効率良く、かつ正確に変換規則を作成することが可能と
なる。
施例では、辞書順による大小関係の判定を行うことで、
大きいと判定された文字列を変換前文字列、小さいと判
定された文字列を変換後文字列として変換規則を作成す
る例を示したが、小さいと判定された文字列を変換前文
字列、大きいと判定された文字列を変換後文字列とする
ことも可能であるし、また、辞書順による判定以外であ
っても文字列の大小関係、前後関係などの文字列の関係
を一貫性を以て判定可能な方法であれば他の方法による
ことも可能であり上記実施例に限定されるものではな
い。
よって作成される文字列正規化のための変換規則を用い
て情報検索を行なう情報検索装置の実施例を説明する。
図10は、本発明の一実施例の情報検索装置の構成図を
示す。同図に示す情報検索装置300は、文字列情報を
蓄積しているデータベース310と、情報検索部200
とから構成される。
0、正規化部210、照合一致部220とを有する。
するための変換規則を蓄積しているデータベースで、前
述の文字列正規化規則作成装置により自動的に作成され
るものである。
る検索文字列20を変換規則蓄積部160に蓄積されて
いる変換規則を用いて正規化する。
り正規化された検索文字列と正規化されたデータベース
310に蓄積されている文字列との照合を行い、照合の
結果が一致した際に、一致したデータベース160に蓄
積されていて正規化した文字列の、正規化する前の元々
データベース160に蓄積されていた文字列を検索結果
30として出力する。
する。図11は、本発明の一実施例の情報検索装置の動
作を示すフローチャートである。
する。
記ステップ70で入力された検索文字列20に、変換規
則蓄積部160に蓄積されている変換規則を適用して正
規化する。
ータベース310から蓄積情報を1つ取り出し、取り出
した蓄積情報に変換規則蓄積部160に蓄積されている
変換規則を適用して正規化する。
上記ステップ71で正規化した検索文字列20と、上記
ステップ72で正規化した蓄積情報とを照合し、一致し
ていなければステップ75へ移行する。
上記ステップ73で一致した正規化した蓄積情報の、正
規化する前の元々データベース310に蓄積されていた
蓄積情報のレコードを検索結果として出力する。
記ステップ74に次いで、または、上記ステップ73で
照合の結果が一致していなかった場合に、データベース
310の蓄積情報を全て取り出し、正規化して照合した
か否かをチェックし、まだ全ての取り出し正規化して照
合していない場合にはステップ72へ移行し、全ての取
り出し正規化及び総合が完了していれば全ての処理を終
了する。
装置を使用して情報検索を行なう具体例を説明する。以
下の情報検索装置の変換規則蓄積部160には、図7に
示す変換規則が蓄積されており、データベース310
は、図12(B)に示す構造と蓄積情報を有するものと
し、データーベース310の項目「名」を検索文字列2
0、 “ほづみ” で検索する例を説明する。
力された検索文字列20に、変換規則蓄積部160に蓄
積されている変換規則、 「“ほづみ” => “ほすみ”」 を適用して検索文字列20を正規化して、 “ほすみ” を得る(ステップ71)。
ら項目「名」の蓄積情報、 “ほずみ” を1つ取り出し、取り出した蓄積情報に変換規則蓄積部
160に蓄積されている変換規則、 「“ほずみ” => “ほすみ”」 を適用して正規化して、 “ほすみ” を得る(ステップ72)。
正規化した検索文字列20、 “ほすみ” と、上記ステップ72で正規化した蓄積情報、 “ほすみ” とを照合すると一致しているので(ステップ73、YE
S)、上記ステップ73で一致した正規化した蓄積情報
の、正規化する前の元々データベース310に蓄積され
ていた蓄積情報のレコード、 「姓:やまざき」 「名:ほずみ」 「血液型:A」 を検索結果30として出力する(ステップ74)。
蓄積情報を全て取り出して正規化し、照合をしていない
ので(ステップ75、NO)、データベース310から
項目「名」の蓄積情報、 “はなこ” を1つ取り出し、取り出した蓄積情報に変換規則蓄積部
160に蓄積されている変換規則を適用して正規化す
る。実際には適用可能な変換規則が存在しないので蓄積
情報、 “はなこ” がそのまま正規化した結果となる(ステップ72)。
で正規化した検索文字列20、 “ほすみ” と、上記ステップ72で正規化した蓄積情報、 “はなこ” とを照合するが一致していないので処理を正規化部21
0へ移し(ステップ73、NO)、正規化部210が、
データベース310の蓄積情報を全て取り出して正規化
し、照合をしたかをチェックすると、全て取り出して正
規化し、照合も完了しているので検索処理を終了する
(ステップ75、YES)。
つみ”、“ほづみ”、“ほずみ”などのゆれの存在する
文字列を検索する場合において、ゆれを考慮した検索が
可能となり、検索漏れを防ぐことが可能となる。
ータベース310の蓄積情報を検索時に1つずつ取り出
し正規化する例を示したが、データベース310のレコ
ード中に正規化文字列を蓄積する項目を設けておいて、
検索前に予め正規化しておくことや、検索文字列20の
正規化結果の文字列の長さと一致する蓄積情報のみを照
合の対象とすることも可能であり、データベース310
に蓄積されている全ての情報を逐次正規化して照合する
ことに限定するものではない。
のゆれの情報として2つの文字列が等しいことを表す等
式関係を与えることで、与えられた等式関係の範囲内で
検索可能な文字列正規化のための変換規則を自動的に作
成することが可能となる。
に変換するだけでなく、変換規則作成途中で得られた変
換規則を逐次当該変換規則にも適用して変換規則の修正
をし、また等式関係に対しても当該変換規則を適用して
等式関係を修正することで変換規則の冗長性を排除する
ことができ、1回の変換処理で文字列の正規化を行なう
ことが可能な変換規則の作成が可能となり、更に変換規
則の作成漏れをも防ぐことができる。
的に作成することにより、変換規則に人為的なミスを混
入することを防ぐことが可能となると共に、変換規則作
成に要する手間、時間、費用を抑えることも可能とな
る。
を辞書順により判断しているため、ゆれの存在する複数
の文字列を一意に変換することが可能になると共に、与
えられた等式関係の範囲内の入力文字列であれば漏れな
く検索できる文字列の変換規則を作成することができ
る。
換規則作成方法により作成される文字列正規化の変換規
則を用いて検索文字列及び蓄積情報の正規化を行なうた
め、情報検索装置及び情報検索方法では検索文字列と蓄
積情報に含まれる文字列との間に相違があったとしても
所定の範囲内であれば漏れなく検索して結果を出力する
ことが可能となる。
字列とを逐次変換規則を適用して変換し、変換結果を照
合して検索するため、蓄積情報を事前に正規化すること
なく情報検索をすることが可能となる。
図である。
図である。
の構成図である。
示す図である。
示す図である。
の動作を示すフローチャートである。
の実行過程の例を示す図である。
ある。
すフローチャートである。
作成装置 110 変換規則生成手段、変換規則生成部 120 変換規則修正手段、変換規則修正部 130 等式関係修正手段、等式関係修正部 140 制御手段、制御部 150 等式関係蓄積手段、等式関係蓄積部 160 変換規則蓄積手段、変換規則蓄積部 200 情報検索手段、情報検索部 210 正規化手段、正規化部 220 照合一致手段、照合一致部 300 情報検索装置 310 情報蓄積手段、データベース
Claims (13)
- 【請求項1】 入力される文字列と検索対象の情報に含
まれる文字列との相違が所定の範囲内であれば検索可能
とする、文字列の変換規則を作成する文字列変換規則作
成手段を有することを特徴とする文字列正規化規則作成
装置。 - 【請求項2】 前記文字列変換規則作成手段は、 2つの文字列が等しいことを表す複数の等式関係が与え
られると、与えられた該等式関係に基づいて文字列を正
規化する変換規則を自動的に作成する請求項1記載の文
字列正規化規則作成装置。 - 【請求項3】 前記文字列変換規則作成手段は、 前記複数の等式関係を蓄積する等式関係蓄積手段と、 該等式関係蓄積手段より前記等式関係を取り出し、取り
出した前記等式関係の2つの文字列を比較し、比較の結
果に基づいて変換前文字列と変換後文字列を決定して変
換規則を生成する変換規則生成手段と、 前記変換規則を蓄積する変換規則蓄積手段と、 該変換規則蓄積手段に蓄積している変換規則の該変換後
文字列に、該変換規則蓄積手段に蓄積されている変換規
則を適用して変換規則を修正する変換規則修正手段と、 該等式関係蓄積手段に蓄積している等式関係の文字列
に、該変換規則蓄積手段に蓄積している変換規則を適用
して等式関係を修正する等式関係修正手段と、 該等式関係蓄積手段に前記等式関係が蓄積されている場
合に、該等式関係蓄積手段に蓄積される前記等式関係が
なくなるまで該変換規則生成手段、該変換規則修正手
段、該等式関係修正手段を順に起動し、繰り返す制御手
段とを有する請求項2記載の文字列正規化規則作成装
置。 - 【請求項4】 前記変換規則生成手段は、 前記取り出した等式関係の2つの文字列の大小を辞書順
により比較する請求項3記載の文字列正規化規則作成装
置。 - 【請求項5】 前記変換規則生成手段は、 前記比較の結果が等しい場合には前記取り出した等式関
係を前記等式関係蓄積手段から削除し、前記比較の結果
が等しくない場合には前記比較の結果が大きい文字列を
前記変換前文字列とし、前記比較の結果が小さい文字列
を前記変換後文字列とする請求項3及び請求項4記載の
文字列正規化規則作成装置。 - 【請求項6】 入力される文字列と検索対象の情報に含
まれる文字列との相違が所定の範囲内であれば検索可能
とする、文字列の変換規則を作成する文字列変換規則作
成ステップを有することを特徴とする文字列正規化規則
作成方法。 - 【請求項7】 前記文字列変換規則作成ステップは、 2つの文字列が等しいことを表す複数の等式関係が与え
られると、与えられた該等式関係に基づいて文字列を正
規化する変換規則を自動的に作成する請求項6記載の文
字列正規化規則作成方法。 - 【請求項8】 前記文字列変換規則作成ステップは、 前記等式関係の集合より前記等式関係を取り出し、取り
出した前記等式関係の2つの文字列を比較し、比較の結
果に基づいて変換前文字列と変換後文字列を決定し変換
規則を生成し、変換規則の集合に追加する変換規則生成
ステップと、 該変換規則の集合に含まれる全ての変換規則の該変換後
文字列に、該変換規則の集合に含まれる全ての変換規則
を適用して変換規則を修正する変換規則修正ステップ
と、 該等式関係の集合に含まれる等式関係の文字列に、該変
換規則の集合に含まれる変換規則を適用して等式関係を
修正する等式関係修正ステップとからなり、 該等式関係の集合に前記等式関係が含まれている場合
に、該等式関係の集合に含まれる前記等式関係がなくな
るまで該変換規則生成ステップ、該変換規則修正ステッ
プ、該等式関係修正ステップを順に実行して繰り返す請
求項7記載の文字列正規化規則作成方法。 - 【請求項9】 前記変換規則生成ステップは、 前記取り出した等式関係の2つの文字列の大小を辞書順
により比較する請求項8記載の文字列正規化規則作成方
法。 - 【請求項10】 前記変換規則生成ステップは、 前記比較の結果が等しい場合には前記取り出した等式関
係を前記等式関係の集合から削除し、前記比較の結果が
等しくない場合には前記比較の結果が大きい文字列を前
記変換前文字列とし、前記比較の結果が小さい文字列を
前記変換後文字列とする請求項8及び請求項9記載の文
字列正規化規則作成方法。 - 【請求項11】 文字列を有する情報を蓄積する情報蓄
積手段を有し、検索文字列が入力されると、該検索文字
列に基づき該情報蓄積手段を検索して検索結果を出力す
る情報検索装置において、 該検索文字列及び該情報蓄積手段に蓄積している文字列
とを所定の変換規則に基づき変換し、変換の結果に基づ
いて検索をする情報検索手段を有することを特徴とする
情報検索装置。 - 【請求項12】 前記情報検索手段は、 文字列を正規化する複数の変換規則を蓄積している変換
規則蓄積手段と、 前記検索文字列及び前記情報蓄積手段に蓄積している文
字列に該変換規則蓄積手段に蓄積している該変換規則を
適用して正規化する正規化手段と、 該正規化手段によって正規化された前記検索文字列と前
記情報蓄積手段に蓄積している文字列とを照合し、照合
の結果が一致する場合には、一致した前記情報蓄積手段
に蓄積している文字列を正規化した文字列の、正規化前
の文字列を検索結果として出力する照合一致手段とを有
する請求項11記載の情報検索装置。 - 【請求項13】 検索文字列が入力されると、予め蓄積
されている情報を該検索文字列で検索して検索結果を出
力する情報検索方法において、 該検索文字列に、文字列を正規化する複数の変換規則を
適用して正規化し、 該正規化された検索文字列と、該蓄積されている情報に
含まれる文字列に該変換規則を適用して正規化した文字
列とを照合し、 照合の結果が一致する場合には、一致した該蓄積されて
いる情報に含まれる文字列を正規化した文字列の、正規
化前の文字列を検索結果として出力することを特徴とす
る情報検索方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP17054594A JP3463277B2 (ja) | 1994-07-22 | 1994-07-22 | 情報検索装置及び情報検索方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP17054594A JP3463277B2 (ja) | 1994-07-22 | 1994-07-22 | 情報検索装置及び情報検索方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0836582A true JPH0836582A (ja) | 1996-02-06 |
| JP3463277B2 JP3463277B2 (ja) | 2003-11-05 |
Family
ID=15906877
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP17054594A Expired - Lifetime JP3463277B2 (ja) | 1994-07-22 | 1994-07-22 | 情報検索装置及び情報検索方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3463277B2 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001125915A (ja) * | 1999-10-28 | 2001-05-11 | Fujitsu Ltd | 情報検索装置 |
| JP2001209562A (ja) * | 2000-01-27 | 2001-08-03 | Hitachi Ltd | 変換規則導出システム |
| JP2004094781A (ja) * | 2002-09-03 | 2004-03-25 | Konami Co Ltd | サーバ装置及びプログラム |
| JP2009277068A (ja) * | 2008-05-15 | 2009-11-26 | Aisin Aw Co Ltd | 検索装置及び検索プログラム |
-
1994
- 1994-07-22 JP JP17054594A patent/JP3463277B2/ja not_active Expired - Lifetime
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001125915A (ja) * | 1999-10-28 | 2001-05-11 | Fujitsu Ltd | 情報検索装置 |
| JP2001209562A (ja) * | 2000-01-27 | 2001-08-03 | Hitachi Ltd | 変換規則導出システム |
| JP2004094781A (ja) * | 2002-09-03 | 2004-03-25 | Konami Co Ltd | サーバ装置及びプログラム |
| JP2009277068A (ja) * | 2008-05-15 | 2009-11-26 | Aisin Aw Co Ltd | 検索装置及び検索プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3463277B2 (ja) | 2003-11-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3152868B2 (ja) | 検索装置および辞書/テキスト検索方法 | |
| JP3063555B2 (ja) | 文書データベース管理装置及び方法 | |
| JP3463277B2 (ja) | 情報検索装置及び情報検索方法 | |
| US6965856B1 (en) | Process for the automatic generation of a textual expression from a semantic representation using a computer system | |
| JP2002259186A (ja) | Tree構造型インデクスの整合性チェック処理方法およびプログラムおよび装置 | |
| JP3260428B2 (ja) | 情報検索処理装置 | |
| CN113962198B (zh) | 中文文本的转换方法、装置、设备及介质 | |
| CN112733528B (zh) | 医学数据的对码方法、装置、设备及存储介质 | |
| JPH0330066A (ja) | 情報検索方式 | |
| JPH06180717A (ja) | データベース検索方式 | |
| JP3014415B2 (ja) | 文書処理方法及び装置 | |
| JPH08297579A (ja) | テキストデータにおける区切り語処理方式 | |
| JPH04215182A (ja) | デ−タ名付与登録装置 | |
| EP0427240A2 (en) | Character string retrieving apparatus | |
| JPH05334360A (ja) | 名称認識方法 | |
| JPS60225273A (ja) | 単語検索方式 | |
| JPH06161995A (ja) | 氏名データ整形方法および装置 | |
| CN121523309A (zh) | 一种汽车故障诊断方法、装置、设备及介质 | |
| JPH06162096A (ja) | レコード検索方法 | |
| JP3065900B2 (ja) | 単語照合装置の単語辞書 | |
| JPH0535498A (ja) | データベース情報変換装置 | |
| JPH1097542A (ja) | 全文検索装置及び全文検索方法 | |
| JPS63263529A (ja) | キ−ワ−ド抽出方式 | |
| JPS6043696A (ja) | 辞書修正方法 | |
| JPH05265794A (ja) | テスト結果の自動判定処理方式 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080822 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080822 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090822 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090822 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100822 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100822 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110822 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120822 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130822 Year of fee payment: 10 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| EXPY | Cancellation because of completion of term |