JPH0836582A - Character string normalization rule creating device, character string normalizing rule creating method, information search device, and information search method - Google Patents

Character string normalization rule creating device, character string normalizing rule creating method, information search device, and information search method

Info

Publication number
JPH0836582A
JPH0836582A JP6170545A JP17054594A JPH0836582A JP H0836582 A JPH0836582 A JP H0836582A JP 6170545 A JP6170545 A JP 6170545A JP 17054594 A JP17054594 A JP 17054594A JP H0836582 A JPH0836582 A JP H0836582A
Authority
JP
Japan
Prior art keywords
character string
conversion
conversion rule
rule
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6170545A
Other languages
Japanese (ja)
Other versions
JP3463277B2 (en
Inventor
Katsumi Takahashi
克巳 高橋
Kyoji Umemura
恭司 梅村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP17054594A priority Critical patent/JP3463277B2/en
Publication of JPH0836582A publication Critical patent/JPH0836582A/en
Application granted granted Critical
Publication of JP3463277B2 publication Critical patent/JP3463277B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 本発明は、入力文字列と蓄積情報に含まれる
文字列との相違が所定の範囲内であれば検索することが
可能な文字列の正規化規則を、自動的に作成する文字列
正規化規則作成装置、文字列正規化規則作成方法、情報
検索装置及び情報検索方法を提供することを目的とす
る。 【構成】 本発明は、変換規則を生成する変換規則生成
手段110、変換規則に変換規則を適用して修正する変
換規則修正手段120、等式関係に変換規則を適用して
修正する等式関係修正手段130、制御手段140、等
式関係蓄積手段150、変換規則蓄積手段160とから
構成される。
(57) [Summary] [Object] The present invention provides a normalization rule for a character string that can be searched if the difference between the input character string and the character string included in the stored information is within a predetermined range. An object of the present invention is to provide a character string normalization rule creating device, a character string normalization rule creating method, an information search device, and an information search method that are created in a specific manner. According to the present invention, a conversion rule generating means 110 for generating a conversion rule, a conversion rule correcting means 120 for applying a conversion rule to a conversion rule to modify it, and an equality relation for applying a conversion rule to an equality relation to correct it. It is composed of correction means 130, control means 140, equation relation storage means 150, and conversion rule storage means 160.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文字列正規化規則作成
装置、文字列正規化規則作成方法、情報検索装置及び情
報検索方法に係り、蓄積している文字列情報と同一の文
字列を入力して検索することが困難である場合に、予め
設定する文字列の等式関係の範囲内で柔軟に検索して検
索結果を出力することを可能とする文字列正規化規則作
成装置、文字列正規化規則作成方法、情報検索装置及び
情報検索方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character string normalization rule creating device, a character string normalization rule creating method, an information search device and an information search method, and stores the same character string as stored character string information. When it is difficult to input and search, it is possible to flexibly search within the range of the equation relation of a preset character string and output the search result. The present invention relates to a column normalization rule creating method, an information search device, and an information search method.

【0002】詳しくは、本発明は、仮名文字列を有する
人名簿などの情報を仮名文字列の入力により検索し、適
切な検索結果を得ることを可能とする文字列正規化規則
作成装置、文字列正規化規則作成方法、情報検索装置及
び情報検索方法に関する。
[0002] More specifically, the present invention is a character string normalization rule creating device and a character string normalization rule creating device, which makes it possible to search for information such as a person list having a kana character string by inputting a kana character string and obtain an appropriate search result The present invention relates to a column normalization rule creating method, an information search device, and an information search method.

【0003】[0003]

【従来の技術】一般に、文字列を用いての情報検索にお
いては文字列を正確に入力する必要があるが、日本語情
報には“やまさき”と、“やまざき”或いは、“ほづ
み”と“ほずみ”のような表記のゆれが多数存在してい
るため、入力文字列が蓄積されている文字列情報と異な
ることがあり、正しく検索することができない場合があ
る。従来、このような場合において所望の検索結果を得
るための検索方法としては以下の方法がある。
2. Description of the Related Art Generally, it is necessary to accurately enter a character string in information retrieval using a character string, but Japanese information includes "Yamasaki", "Yamazaki" or "Hozumi". Since there are many notational fluctuations such as "Hozumi", the input character string may differ from the stored character string information, and a correct search may not be possible in some cases. Conventionally, as a search method for obtaining a desired search result in such a case, there is the following method.

【0004】従来の検索方法は、予め文字列を正規化す
る方法に基づいて文字列正規化のための変換規則を人手
で作成し、作成した変換規則に基づいて検索文字列及び
蓄積情報の正規化を行なって検索する。以下に、従来の
検索方法を図を用いて説明する。図12は、従来の検索
方法を説明する図である。図12(A)は、文字列の変
換規則の例である。従来、文字列の正規化を行なうため
に、“づ”を標準的な表記である“ず”に変換し、その
上で濁音を清音に変換するといった正規化法を用いてい
る。同図は、前述の正規化法に基づき人手で作成した変
換規則の例であり、“づ”は“ず”に、“ざ”は“さ”
に、“ず”は“す”に変換することを表している。図1
2(B)は、検索対象となるデータベースの例であり、
図12(C)は、図12(B)に示したデータベースの
例に上記変換規則の例を適用して変換したデータベース
の例を表している。また、図12(D)は、データベー
スを項目「名」で検索するために入力する検索文字列
“ほづみ”を上記変換規則の例に基づいて、“ほづみ”
を“ほずみ”に、更に“ほずみ”を“ほすみ”に変換す
る過程を表している。以上のように、従来の検索方法
は、人手により文字列正規化のための変換規則を作成
し、作成した変換規則を適用してデータベースの変換を
行い、検索時に検索文字列を変換規則に基づき変換して
予め変換規則を適用して変換を行なったデータベースを
検索し、検索結果を得ることを可能としている。
In the conventional search method, a conversion rule for normalizing a character string is manually created based on a method of normalizing a character string in advance, and the search character string and the stored information are normalized based on the created conversion rule. Search by converting. The conventional search method will be described below with reference to the drawings. FIG. 12 is a diagram illustrating a conventional search method. FIG. 12A is an example of a character string conversion rule. Conventionally, in order to normalize a character string, a normalization method is used in which "zu" is converted into a standard notation "zu", and then a dull sound is converted into a clean sound. This figure is an example of a conversion rule created manually based on the above-mentioned normalization method, where "zu" is "zu" and "za" is "sa".
In addition, "zu" represents converting to "su". FIG.
2 (B) is an example of a database to be searched,
FIG. 12C shows an example of a database converted by applying the above example of the conversion rule to the example of the database shown in FIG. 12B. In addition, in FIG. 12D, the search character string “Hozumi” that is input to search the database for the item “Name” is “Hozumi” based on the above conversion rule example.
Represents the process of converting “Hozumi” into “Hozumi” and further converting “Hozumi” into “Hosumi”. As described above, the conventional search method manually creates a conversion rule for character string normalization, applies the created conversion rule to convert the database, and converts the search character string based on the conversion rule when searching. It is possible to obtain a search result by performing a conversion and searching a database that has been converted by applying a conversion rule in advance.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、上記従
来の方法では、以下に示す2つの問題点がある。
However, the above-mentioned conventional method has the following two problems.

【0006】第1の問題点は、例えば文字列が“ほづ
み”、“ほずみ”、“ほつみ”のゆれを持つ場合、文字
列“ほづみ”を正規化すると、“ほずみ”に変換され更
に“ほすみ”に変換される。また、“ほずみ”を正規化
すると“ほすみ”になる。しかし、“ほつみ”を正規化
すると“ほつみ”となるため、正規化した結果の文字列
に“ほすみ”と“ほつみ”の2種類の文字列が存在して
しまい、“ほづみ”、“ほずみ”、“ほつみ”の正規化
の結果が一意に定まらず、“ほつみ”を入力して検索す
る場合などに検索漏れが生じるという問題点がある。
The first problem is that when a character string has fluctuations of "Hozumi", "Hozumi", and "Hotsumi", if the character string "Hozumi" is normalized, it becomes "Hozumi". It is converted and further converted to "Hosumi". Also, if "Hozumi" is normalized, it becomes "Hosumi". However, if "hotsumi" is normalized, it becomes "hotsumi", so there are two types of strings "Hosumi" and "Hotsumi" in the normalized string. There is a problem in that the results of normalization of “,” “Hozumi”, and “Hosumi” are not uniquely determined, so that a search omission occurs when searching by inputting “Hosomi”.

【0007】第2の問題点は、文字列正規化のための変
換規則を人手によって作成しなければならないため、新
規に規則を追加する際には新たに作成する変換規則で検
索漏れがないように、規則の新規追加による影響を検証
しながら変換規則を作成しなければならず、変換規則の
作成に多くの手間、時間、費用を要すると共に、変換規
則の作成にミスが発生する危険性がある点である。
The second problem is that the conversion rule for normalizing the character string has to be manually created, so that when adding a new rule, there should be no omission in the search for the newly created conversion rule. In addition, it is necessary to create a conversion rule while verifying the effect of adding a new rule, which requires a lot of labor, time, and cost to create a conversion rule, and there is a risk of making an error in creating a conversion rule. There is a point.

【0008】本発明は、上記の点に鑑みなされたもの
で、入力文字列と蓄積情報に含まれる文字列との相違が
所定の範囲内であれば検索することが可能な文字列の正
規化規則を、自動的に作成する文字列正規化規則作成装
置、文字列正規化規則作成方法、情報検索装置及び情報
検索方法を提供することを目的とする。
The present invention has been made in view of the above points, and normalizes a searchable character string if the difference between the input character string and the character string included in the stored information is within a predetermined range. An object of the present invention is to provide a character string normalization rule creating device, a character string normalization rule creating method, an information search device, and an information search method that automatically create rules.

【0009】また、本発明は、2つの文字列が等しいこ
とを表す等式関係に基づいて、文字列の正規化を行なう
変換規則を漏れなく作成することが可能な文字列正規化
規則作成装置、文字列正規化規則作成方法、情報検索装
置及び情報検索方法を提供することを目的とする。
Further, according to the present invention, a character string normalization rule creating apparatus capable of creating a conversion rule for normalizing a character string without omission based on an equality relation indicating that two character strings are equal. , A character string normalization rule creating method, an information search device, and an information search method.

【0010】また、本発明は、冗長な変換規則を排除し
て1回の変換処理で入力文字列を正規化することが可能
な文字列の変換規則を作成する文字列正規化規則作成装
置、文字列正規化規則作成方法、情報検索装置及び情報
検索方法を提供することを目的とする。
Further, the present invention is a character string normalization rule creating device for creating a character string conversion rule capable of normalizing an input character string in one conversion process by eliminating redundant conversion rules. An object is to provide a character string normalization rule creating method, an information search device, and an information search method.

【0011】また、ゆれの存在する複数の文字列を一意
に変換できる変換規則を作成することが可能な文字列正
規化規則作成装置、文字列正規化規則作成方法、情報検
索装置及び情報検索方法を提供することを目的とする。
Further, a character string normalization rule creating device, a character string normalization rule creating method, an information retrieving device, and an information retrieving method capable of creating a conversion rule capable of uniquely converting a plurality of character strings having fluctuations. The purpose is to provide.

【0012】更に、文字列を正規化するための変換規則
を用いて、入力される文字列と検索対象として予め蓄積
している情報に含まれる文字列とを正規化して照合する
ことで、予め設定する等式関係の範囲内において漏れな
く検索することが可能な文字列正規化規則作成装置、文
字列正規化規則作成方法、情報検索装置及び情報検索方
法を提供することを目的とする。
Further, the conversion rule for normalizing the character string is used to normalize and collate the input character string and the character string included in the information previously accumulated as a search target, whereby An object of the present invention is to provide a character string normalization rule creating device, a character string normalization rule creating method, an information searching device, and an information searching method that can be searched without omission within the range of the set equality relationship.

【0013】[0013]

【課題を解決するための手段】図1は、本発明の文字列
正規化規則作成装置の原理構成図である。
FIG. 1 is a principle block diagram of a character string normalization rule creating device of the present invention.

【0014】本発明の文字列正規化規則作成装置は、入
力される文字列と検索対象の情報に含まれる文字列との
相違が所定の範囲内であれば検索可能とする、文字列の
変換規則を作成する文字列変換規則作成手段100を有
する。
The character string normalization rule creating device according to the present invention enables the search if the difference between the input character string and the character string included in the information to be searched is within a predetermined range. It has a character string conversion rule creating means 100 for creating a rule.

【0015】また、上記文字列変換規則作成手段100
は、2つの文字列が等しいことを表す複数の等式関係1
0が与えられると、与えられた等式関係10に基づいて
文字列を正規化する変換規則を自動的に作成する機能を
有する。
The character string conversion rule creating means 100 is also provided.
Is a plurality of equality relations 1 representing that two character strings are equal.
When 0 is given, it has a function of automatically creating a conversion rule for normalizing a character string based on the given equality relation 10.

【0016】また、上記文字列変換規則作成手段100
は、複数の等式関係10を蓄積する等式関係蓄積手段1
50と、等式関係蓄積手段150より等式関係10を取
り出し、取り出した等式関係10の2つの文字列を比較
し、比較結果に基づいて変換前文字列と変換後文字列を
決定して変換規則を生成する変換規則生成手段110
と、変換規則を蓄積する変換規則蓄積手段160と、変
換規則蓄積手段160に蓄積している変換規則の変換後
文字列に、変換規則蓄積手段160に蓄積されている変
換規則を適用して変換規則を修正する変換規則修正手段
120と、等式関係蓄積手段150に蓄積している等式
関係10の文字列に、変換規則蓄積手段160に蓄積し
ている変換規則を適用して等式関係10を修正する等式
関係修正手段130と、等式関係蓄積手段150に等式
関係10が蓄積されている場合に、等式関係蓄積手段1
50に蓄積される等式関係10がなくなるまで変換規則
生成手段110、変換規則修正手段120、等式関係修
正手段130を順に起動し、繰り返す制御手段140と
を有する。
Further, the character string conversion rule creating means 100 described above.
Is an equation relation storage means 1 for storing a plurality of equation relations 10.
50 and the equation relation 10 from the equation relation accumulating means 150 are compared, two character strings of the extracted relation 10 are compared, and a pre-conversion character string and a post-conversion character string are determined based on the comparison result. Conversion rule generation means 110 for generating conversion rules
And conversion rule accumulating means 160 for accumulating conversion rules, and the conversion rules accumulated in the conversion rule accumulating means 160 are applied to the converted character strings of the conversion rules accumulated in the conversion rule accumulating means 160 for conversion. The conversion rule correction means 120 for correcting the rule and the character string of the equation relation 10 stored in the equation relation storage means 150 are applied to the conversion rule stored in the conversion rule storage means 160 to apply the equation relation. When the equality relation modifying means 130 for correcting 10 and the equality relation accumulating means 150 have accumulated the equality relation 10, the equality relation accumulating means 1
It has a control means 140 that sequentially activates and repeats the conversion rule generation means 110, the conversion rule correction means 120, and the equality relationship correction means 130 until the equation relation 10 stored in 50 disappears.

【0017】また、上記変換規則生成手段110は、取
り出した等式関係10の2つの文字列の大小を辞書順に
より比較する機能を有する。
Further, the conversion rule generation means 110 has a function of comparing the magnitudes of the two character strings of the extracted equality relation 10 in dictionary order.

【0018】また、上記変換規則生成手段110は、比
較の結果が等しい場合には取り出した等式関係10を等
式関係蓄積手段150から削除し、比較の結果が等しく
ない場合には比較の結果が大きい文字列を変換前文字列
とし、比較の結果が小さい文字列を変換後文字列とする
機能を有する。
Further, the conversion rule generating means 110 deletes the extracted equality relation 10 from the equality relation accumulating means 150 when the comparison results are equal, and the comparison results when the comparison results are not equal. Has a function of setting a character string having a large value as a pre-conversion character string and a character string having a small comparison result as a post-conversion character string.

【0019】図2は、本発明の文字列正規化規則作成方
法の原理説明図である。
FIG. 2 is an explanatory view of the principle of the character string normalization rule creating method of the present invention.

【0020】本発明の文字列正規化規則作成方法は、2
つの文字列が等しいことを表す複数の等式関係の集合よ
り等式関係を取り出し、取り出した等式関係の2つの文
字列を比較し、比較の結果に基づいて等式関係を等式関
係の集合から削除するか、または、変換前文字列と変換
後文字列を決定して変換規則を生成し、変換規則の集合
に追加し(ステップ1)、上記ステップ1で追加された
変換規則の集合に含まれる全ての変換規則の変換後文字
列に、変換規則の集合に含まれる全ての変換規則を適用
して変換規則を修正し(ステップ2)、等式関係の集合
に含まれる等式関係の2つの文字列に、上記修正後の変
換規則の集合に含まれる変換規則を適用して等式関係を
修正し(ステップ3)、等式関係の集合に等式関係が存
在している場合には上記ステップ1へ移行し、等式関係
が存在していな場合には変換規則の作成を終了する(ス
テップ4)。
The method for creating a character string normalization rule of the present invention is 2
Equivalence relations are extracted from a set of equality relations indicating that two character strings are equal, two strings of the extracted equality relations are compared, and the equality relations are compared based on the result of the comparison. The conversion rule is deleted from the set, or the conversion rule is generated by determining the pre-conversion character string and the post-conversion character string, and added to the conversion rule set (step 1), and the conversion rule set added in step 1 above. The conversion rules are corrected by applying all the conversion rules included in the set of conversion rules to the converted character strings of all the conversion rules included in (step 2), and the equality relations included in the set of equality relations When the conversion rule included in the modified conversion rule set is applied to the two character strings of (1) to correct the equality relation (step 3), and the equality relation exists in the set of equality relations. To step 1 above, if there is no equation relation It ends the creation of the conversion rule (Step 4).

【0021】図3は、本発明の情報検索装置の原理構成
図である。
FIG. 3 is a block diagram showing the principle of the information retrieval apparatus of the present invention.

【0022】本発明の情報検索装置300は、文字列を
有する情報を蓄積する情報蓄積手段310を有し、検索
文字列20が入力されると検索文字列20に基づき情報
蓄積手段310を検索して検索結果30を出力する情報
検索装置300において以下の手段を有する。
The information retrieving apparatus 300 of the present invention has an information accumulating means 310 for accumulating information having a character string. When the search character string 20 is input, the information accumulating means 310 is searched based on the search character string 20. The information retrieval apparatus 300 that outputs the retrieval result 30 as a result has the following means.

【0023】検索文字列20及び情報蓄積手段310に
蓄積している文字列とを所定の変換規則に基づき変換
し、変換の結果に基づいて検索をする情報検索手段20
0を有する。
The information retrieving means 20 for converting the retrieval character string 20 and the character string accumulated in the information accumulating means 310 based on a predetermined conversion rule and performing a search based on the result of the conversion.
Has zero.

【0024】また、上記情報検索手段200は、文字列
を正規化する複数の変換規則を蓄積している変換規則蓄
積手段160と、検索文字列20及び情報蓄積手段31
0に蓄積している文字列に変換規則蓄積手段160に蓄
積されている変換規則を適用して正規化する正規化手段
210と、正規化手段210によって正規化された検索
文字列20と情報蓄積手段310に蓄積されている文字
列とを照合し、照合の結果が一致する場合には、一致し
た情報蓄積手段310に蓄積されている文字列を正規化
した文字列の、正規化前の文字列を検索結果として出力
する照合一致手段220とを有する。
Further, the information retrieval means 200, the conversion rule accumulating means 160 accumulating a plurality of conversion rules for normalizing the character string, the retrieval character string 20 and the information accumulating means 31.
The normalization means 210 that applies the conversion rules stored in the conversion rule storage means 160 to the character string stored in 0 to normalize it, the search character string 20 normalized by the normalization means 210, and the information storage The character string stored in the means 310 is collated, and if the collation results match, the character string before normalization of the character string stored in the matched information storage means 310 is normalized. And a matching and matching unit 220 that outputs a column as a search result.

【0025】図4は、本発明の情報検索方法の原理説明
図である。
FIG. 4 is a diagram explaining the principle of the information retrieval method of the present invention.

【0026】本発明の情報検索方法は、検索文字列が入
力されると(ステップ10)、検索文字列に、文字列を
正規化する変換規則を適用して正規化し(ステップ1
1)、検索対象となる蓄積情報に含まれる文字列にも文
字列を正規化する変換規則を適用して正規化し(ステッ
プ12)、上記ステップ11で正規化した検索文字列
と、ステップ12で正規化した蓄積情報に含まれる文字
列とを照合し(ステップ13)、照合の結果が一致する
場合には一致した蓄積情報に含まれる文字列を正規化し
た文字列の、正規化前の文字列を検索結果として出力す
る(ステップ14)。
In the information search method of the present invention, when a search character string is input (step 10), a conversion rule for normalizing the character string is applied to the search character string for normalization (step 1).
1) Apply a conversion rule for normalizing the character string to the character string included in the stored information to be searched for normalization (step 12), and the search character string normalized in step 11 and the step 12 The character string included in the normalized accumulated information is collated (step 13), and if the result of the matching is the same, the character string before being normalized of the character string included in the accumulated information that is matched is normalized. The column is output as a search result (step 14).

【0027】[0027]

【作用】本発明の文字列正規化規則作成装置、文字列正
規化規則作成方法は、文字列のゆれの情報として2つの
文字列が等しいことを表す等式関係を予め用意すること
により、用意される等式関係の範囲内であれば検索可能
な文字列正規化のための変換規則を自動的に作成するこ
とが可能となる。
The character string normalization rule creating device and the character string normalization rule creating method of the present invention are prepared by preparing in advance an equation relation representing that two character strings are equal as information on the fluctuation of the character strings. It is possible to automatically create a conversion rule for searchable character string normalization within the range of the equality relation.

【0028】また、本発明の文字列正規化規則作成装
置、文字列正規化規則作成方法は、与えられる等式関係
を単に変換規則に変換するだけでなく、変換規則作成途
中で得られた変換規則を逐次当該変換規則にも適用して
変換規則の修正をし、また等式関係に対しても当該変換
規則を適用して等式関係を修正することで変換規則の冗
長性を排除し、1回の変換処理で文字列を正規化するこ
とが可能な変換規則の作成を可能とすると共に、変換規
則の作成漏れを防ぐことを可能としている。
Further, the character string normalization rule creating device and the character string normalization rule creating method of the present invention not only simply convert the given equality relations into conversion rules, but also a conversion obtained during the conversion rule creation. The rules are sequentially applied to the conversion rules to correct the conversion rules, and the conversion rules are applied to the equality relationships to correct the equality relationships to eliminate the redundancy of the conversion rules. This makes it possible to create a conversion rule that can normalize a character string in a single conversion process, and to prevent omission of creation of a conversion rule.

【0029】更に、本発明の文字列正規化規則作成装
置、文字列正規化規則作成方法は、上記に加え、与えら
れた等式関係の文字列の大小を辞書順により判断してい
るため、ゆれの存在する複数の文字列を一意に変換する
ことを可能にすると共に、入力文字列が与えられた等式
関係の範囲内の文字列であれば漏れなく検索することが
可能な変換規則を作成することが可能となる。
Further, in addition to the above, the character string normalization rule creating device and the character string normalization rule creating method of the present invention judge the size of a given equality-related character string in dictionary order. A conversion rule that allows unique conversion of multiple character strings with fluctuations and that can be searched without omission if the input character string is within the range of the given equality relation It is possible to create.

【0030】また、本発明の情報検索装置及び情報検索
方法は、文字列変換規則作成装置、文字列変換規則作成
方法により作成される文字列正規化のための変換規則を
用いて検索文字列及び蓄積情報の正規化を行なうことに
より、検索文字列と蓄積情報に含まれる文字列との間に
相違があっても所定の範囲内であれば検索して結果を出
力することを可能としている。
Further, the information search device and the information search method of the present invention use a character string conversion rule creating device and a conversion rule for character string normalization created by the character string conversion rule creating method to search for a search character string and By normalizing the stored information, even if there is a difference between the search character string and the character string included in the stored information, it is possible to search and output the result within a predetermined range.

【0031】[0031]

【実施例】以下、図面と共に本発明の実施例を詳細に説
明する。
Embodiments of the present invention will now be described in detail with reference to the drawings.

【0032】図5は、本発明の一実施例の文字列正規化
規則作成装置の構成図を示す。同図に示す文字列正規化
規則作成装置100は、変換規則生成部110、変換規
則修正部120、等式関係修正部130、制御部14
0、等式関係蓄積部150、変換規則蓄積部160から
構成される。
FIG. 5 is a block diagram of a character string normalization rule creating device according to an embodiment of the present invention. The character string normalization rule creation device 100 shown in the figure includes a conversion rule generation unit 110, a conversion rule correction unit 120, an equation relation correction unit 130, and a control unit 14.
0, an equation relation storage unit 150, and a conversion rule storage unit 160.

【0033】等式関係蓄積部150は、2つの文字列が
等しいことを表す等式関係10を蓄積するデータベース
であり、変換規則作成前に予め蓄積しておく必要のある
情報である。図6は、本発明の一実施例の等式関係蓄積
部の蓄積例を示す図である。同図の例は、 「“ほづみ” と “ほずみ” は 等しい」 「“ほづみ” と “ほつみ” は 等しい」 「“ほずみ” と “ほすみ” は 等しい」 ことを表している。
The equation relation accumulating unit 150 is a database for accumulating the equation relation 10 indicating that two character strings are equal, and is information that needs to be accumulated in advance before the conversion rule is created. FIG. 6 is a diagram showing a storage example of the equation relation storage unit according to the embodiment of the present invention. The example in the figure shows that “Hozumi” and “Hozumi” are equal ”,“ Hozumi ”and“ Hosumi ”are equal, and“ Hozumi ”and“ Hosumi ”are equal”. .

【0034】変換規則蓄積部160は、文字列を正規化
するための変換規則を蓄積するデータベースである。変
換規則作成過程においては、不完全な変換規則が蓄積さ
れるが、全ての変換規則作成過程を終了した時点では、
完成した文字列を正規化するための変換規則が蓄積され
る。図7は、本発明の一実施例の変換規則蓄積部の蓄積
例を示す図である。同図の例は、 「“ほづみ” は “ほすみ” に変換する」 「“ほつみ” は “ほすみ” に変換する」 「“ほずみ” は “ほすみ” に変換する」 ことを表している。
The conversion rule storage unit 160 is a database that stores conversion rules for normalizing character strings. Incomplete conversion rules are accumulated during the conversion rule creation process, but at the end of all conversion rule creation processes,
The conversion rules for normalizing the completed string are accumulated. FIG. 7 is a diagram showing a storage example of the conversion rule storage unit according to the embodiment of the present invention. In the example shown in the figure, "convert" Hozumi "to" Hosumi """convert" Hosumi "to" Hosumi """Convert" Hozumi "to" Hosumi "" It represents.

【0035】変換規則生成部110は、等式関係蓄積部
150に蓄積されている等式関係10を1つ取り出し、
取り出した等式関係10の2つの文字列の大小関係を辞
書順で比較し、比較の結果が等しい場合には取り出した
等式関係10を等式関係蓄積部150から削除し、比較
の結果が等しくない場合には、比較の結果が大きい文字
列を変換前文字列、比較の結果が小さい文字列を変換後
文字列とする、 「“変換前文字列” は “変換後文字列” に変換す
る」 ことを表す変換規則を作成し、変換規則蓄積部160に
蓄積する。
The conversion rule generation unit 110 extracts one equation relation 10 stored in the equation relation storage unit 150,
The magnitude relations of the two character strings of the extracted equality relation 10 are compared in lexicographical order, and if the comparison results are equal, the extracted equality relation 10 is deleted from the equality relation accumulating unit 150, and the comparison result is If they are not equal, the character string with a larger comparison result is the character string before conversion, and the character string with a smaller comparison result is the character string after conversion. "" Before character string "is converted to" after character string ". A conversion rule representing “Yes” is created and stored in the conversion rule storage unit 160.

【0036】変換規則修正部120は、変換規則蓄積部
160に蓄積されている全ての変換規則の変換後文字列
に、変換規則蓄積部160に蓄積されている全ての変換
規則を適用して文字列の変換を行い、変換規則蓄積部1
60の修正を行なう。
The conversion rule correction unit 120 applies all the conversion rules stored in the conversion rule storage unit 160 to the converted character strings of all the conversion rules stored in the conversion rule storage unit 160 to apply the characters. Column conversion is performed and conversion rule storage unit 1
Make 60 corrections.

【0037】等式関係修正部130は、等式関係蓄積部
150に蓄積している全ての等式関係10の文字列に、
変換規則蓄積部160に蓄積している全ての変換規則を
適用して文字列の変換を行い、等式関係蓄積部150の
修正を行なう。
The equation relation correcting unit 130 adds the character strings of all the equation relations 10 accumulated in the equation relation accumulating unit 150 to
All the conversion rules stored in the conversion rule storage unit 160 are applied to convert the character string, and the equation relation storage unit 150 is corrected.

【0038】制御手段140は、本発明の文字列正規化
規則作成装置100の動作を制御するための手段で、予
め等式関係10が等式関係蓄積部150に蓄積されてい
る状態において、変換規則生成部110を起動し、変換
規則生成部110の動作終了後に変換規則修正部120
を起動し、変換規則修正部120の動作終了後に等式関
係蓄積部150に等式関係10が蓄積されているか否か
を確認し、等式関係10が登録されている場合には引続
き等式関係修正部130を起動するが、等式関係蓄積部
150に等式関係が登録されていない場合には変換規則
の作成が完了したものとして動作を終了する。また、等
式関係修正部130の動作終了後にも等式関係蓄積部1
50に等式関係10が蓄積されているか否かを確認し、
等式関係10が登録されている場合には上記変換規則生
成部110を起動し、等式関係蓄積部150に等式関係
が登録されていない場合には変換規則の作成が完了した
ものとして動作を終了する。
The control means 140 is means for controlling the operation of the character string normalization rule creating device 100 of the present invention, and in the state where the equation relation 10 is stored in the equation relation storage section 150 in advance, the conversion is performed. The rule generation unit 110 is activated, and after the operation of the conversion rule generation unit 110 ends, the conversion rule correction unit 120
And confirms whether or not the equality relation 10 is stored in the equality relation storage unit 150 after the operation of the conversion rule correction unit 120 is finished. If the equality relation 10 is registered, the equation is continued. Although the relation correction unit 130 is activated, when the equation relation is not registered in the equation relation storage unit 150, the conversion rule creation is completed and the operation ends. Further, even after the operation of the equation relation correction unit 130 is completed, the equation relation storage unit 1
Check if the equation relation 10 is stored in 50,
If the equation relation 10 is registered, the conversion rule generation unit 110 is activated. If the equation relation is not registered in the equation relation storage unit 150, it is assumed that the conversion rule has been created. To finish.

【0039】以下に、上記各部の一連の動作を図を用い
て説明する。図8は、本発明の一実施例の文字列正規化
規則作成装置の動作を示すフローチャートである。
A series of operations of each of the above parts will be described below with reference to the drawings. FIG. 8 is a flowchart showing the operation of the character string normalization rule creating device according to the exemplary embodiment of the present invention.

【0040】(ステップ50) 制御部140の指示に
より変換規則生成部110は、等式関係蓄積部150に
蓄積されている等式関係10を1つ取り出す。
(Step 50) In response to the instruction from the control unit 140, the conversion rule generation unit 110 extracts one equation relation 10 stored in the equation relation storage unit 150.

【0041】(ステップ51) 変換規則生成部110
は、上記ステップ50で取り出した等式関係10の2つ
の文字列が等しいか否かをチェックし、等しくない場合
にはステップ53へ移行する。
(Step 51) Conversion Rule Generation Unit 110
Checks whether the two character strings of the equation relation 10 extracted in the above step 50 are equal, and if they are not equal, moves to step 53.

【0042】(ステップ52) 変換規則生成部110
は、上記ステップ51で等式関係10の2つの文字列が
等しい場合に、ステップ50で取り出した等式関係を等
式関係蓄積部150から削除し、ステップ50へ移行す
る。
(Step 52) Conversion rule generator 110
When the two character strings of the equation relation 10 are equal in step 51, the equation relation extracted in step 50 is deleted from the equation relation storage unit 150, and the process proceeds to step 50.

【0043】(ステップ53) 変換規則生成部110
は、上記ステップ51で等式関係10の2つの文字列が
等しくない場合に、2つの文字列を辞書順で比較し、大
きい文字列、即ち辞書順で後になる文字例を変換前文字
列、小さい文字列を変換後文字列とする変換規則を生成
して変換規則蓄積部160へ蓄積する。
(Step 53) Conversion rule generator 110
When the two character strings of the equality relation 10 in step 51 are not equal to each other, the two character strings are compared in the dictionary order, and a large character string, that is, a character example that follows in the dictionary order is the character string before conversion, A conversion rule for converting a small character string into a converted character string is generated and stored in the conversion rule storage unit 160.

【0044】(ステップ54) 制御部140の指示に
より変換規則修正部120は、変換規則蓄積部160に
蓄積されている変換規則を1つ取り出す。
(Step 54) The conversion rule correction unit 120 takes out one conversion rule stored in the conversion rule storage unit 160 according to an instruction from the control unit 140.

【0045】(ステップ55) 変換規則修正部120
は、上記ステップ54で取り出した変換規則の変換後文
字列に、変換規則蓄積部160に残っている他の全ての
変換規則を適用し、適用した結果の変換規則を変換規則
蓄積部160へ蓄積して変換規則を修正する。
(Step 55) Conversion Rule Modifying Unit 120
Applies all other conversion rules remaining in the conversion rule accumulating unit 160 to the converted character string of the conversion rule extracted in the above step 54, and accumulates the applied conversion rules in the conversion rule accumulating unit 160. And modify the conversion rules.

【0046】(ステップ56) 変換規則修正部120
は、変換規則蓄積部160に蓄積されている全ての変換
規則について上記ステップ55の処理を行なったか否か
をチェックし、全ての変換規則について上記ステップ5
5の処理を行なっていない場合にはステップ54移行す
る。
(Step 56) Conversion Rule Modifying Unit 120
Checks whether all the conversion rules stored in the conversion rule storage unit 160 have been subjected to the above step 55, and the above step 5 is executed for all the conversion rules.
When the process of 5 is not performed, the process proceeds to step 54.

【0047】(ステップ57) 制御部140は、等式
関係蓄積部150に等式関係10が残っているか否かを
チェックし、残っていない場合には変換規則作成処理を
全て終了する。
(Step 57) The control unit 140 checks whether or not the equality relation 10 remains in the equality relation storage unit 150, and if it does not remain, the conversion rule creating process is completed.

【0048】(ステップ58) 制御部140の指示に
より等式関係修正部130は、等式関係蓄積部150に
蓄積されている等式関係10を1つ取り出す。
(Step 58) In accordance with an instruction from the control unit 140, the equation relation correction unit 130 retrieves one equation relation 10 stored in the equation relation storage unit 150.

【0049】(ステップ59) 等式関係修正部130
は、上記ステップ58で取り出した等式関係10の2つ
の文字列に、変換規則蓄積部160に蓄積されている全
ての変換規則を適用し、適用した結果の等式関係10を
等式関係蓄積部150へ蓄積して等式関係10を修正す
る。
(Step 59) Equation relation correcting unit 130
Applies all the conversion rules stored in the conversion rule storage unit 160 to the two character strings of the equation relation 10 extracted in step 58, and stores the equation relation 10 resulting from the application of the equation relation 10. The equation relation 10 is corrected by accumulating in the unit 150.

【0050】(ステップ60) 等式関係修正部130
は、上記ステップ59で適用した結果の等式関係10の
2つの文字列が等しいか否かをチェックし、等しい場合
にはステップ61へ移行し、等しくない場合にはステッ
プ62へ移行する。
(Step 60) Equation relation correcting unit 130
Checks whether the two character strings of the equation relation 10 applied as a result of the above step 59 are equal, and when they are equal, moves to step 61, and when they are not equal, moves to step 62.

【0051】(ステップ61) 等式関係修正部130
は、上記ステップ60で等式関係10の2つの文字列が
等しい場合には、当該等式関係10を等式関係蓄積部1
50から削除する。
(Step 61) Equality relation correcting unit 130
When the two character strings of the equality relation 10 are equal in step 60, the equality relation 10 is stored in the equality relation storage unit 1.
Delete from 50.

【0052】(ステップ62) 等式関係修正部130
は、等式関係蓄積部150に蓄積されている全ての等式
関係10について上記ステップ59の処理を行なったか
否かをチェックし、全ての等式関係10について上記ス
テップ59の処理を行なっていない場合にはステップ5
8へ移行する。
(Step 62) Equation relation correcting section 130
Checks whether all the equation relations 10 stored in the equation relation storage unit 150 have been subjected to the processing in step 59 above, and has not performed the processing in step 59 above for all equation relations 10. If step 5
Move to 8.

【0053】(ステップ63) 制御部140は、等式
関係蓄積部15に等式関係10が蓄積されているか否か
をチェックし、蓄積されている場合にはステップ50へ
移行し、蓄積されていない場合には変換規則の作成を全
て終了する。
(Step 63) The control unit 140 checks whether or not the equality relation 10 is accumulated in the equality relation accumulating unit 15, and if so, shifts to Step 50 and is accumulated. If there is no conversion rule, all conversion rules are created.

【0054】以下に、本発明の一実施例の文字列正規化
規則作成装置を用いて文字列正規化規則を作成する具体
例を説明する。以下の説明における文字列正規化規則作
成装置は前述の文字列正規化規則作成装置と同様のもの
とする。また、処理過程における等式関係蓄積部150
及び変換規則蓄積部160の状態を図9に示す。
A specific example of creating a character string normalization rule using the character string normalization rule creation device of one embodiment of the present invention will be described below. The character string normalization rule creating device in the following description is the same as the character string normalizing rule creating device described above. Also, the equation relation accumulating unit 150 in the processing process
9 shows the state of the conversion rule storage unit 160.

【0055】処理開始に先立ち、等式関係蓄積部150
に図6に示す3つの等式関係10を蓄積しておく[図9
(状態1)]。この状態を基に以下の説明を行なう。
Prior to the start of processing, the equation relation storage unit 150
The three equality relations 10 shown in FIG. 6 are stored in FIG.
(State 1)]. The following description will be made based on this state.

【0056】制御部140の指示により変換規則生成部
110は、等式関係蓄積部150に蓄積されている等式
関係10、 「“ほづみ” = “ほずみ”」 「“ほづみ” = “ほつみ”」 「“ほずみ” = “ほすみ”」 の中から、 「“ほづみ” = “ほずみ”」 を1つ取り出し(ステップ50)、2つの文字列が等し
いか否かをチェックするが等しくないので(ステップ5
1、NO)、2つの文字列を辞書順で比較すると、 「“ほづみ” > “ほずみ”」 の関係となるため、変換前文字列を“ほづみ”とし変換
後文字列を“ほずみ”とする、 「“ほづみ” => “ほずみ”」 の変換規則を作成して変換規則蓄積部160へ蓄積する
(ステップ53)[図9(状態2)]。
According to the instruction from the control unit 140, the conversion rule generating unit 110 causes the equation relation accumulating unit 150 to store the equation relation 10, ““ Hozumi ”=“ Hozumi ”” ““ Hozumi ”=“ From "Hotsumi""" Hozumi "=" Hosumi "", take out one "" Hozumi "=" Hozumi "" (step 50) and check whether the two character strings are equal. But they are not equal (Step 5
(1, NO) When comparing two character strings in dictionary order, there is a relation of ““ Hozumi ”>“ Hozumi ””, so that the character string before conversion is “Hozumi” and the character string after conversion is “Hozumi”. A conversion rule of ““ Hozumi ”=>“ Hozumi ”” is created and stored in the conversion rule storage unit 160 (step 53) [FIG. 9 (state 2)].

【0057】制御部140の指示により変換規則修正部
120は、変換規則蓄積部160に蓄積されている変換
規則、 「“ほづみ” => “ほずみ”」 の中から変換規則、 「“ほづみ” => “ほずみ”」 を取り出し(ステップ54)、取り出した変換規則の変
換後文字列、 「“ほずみ”」 に、変換規則蓄積部160に残っている他の全ての変換
規則を適用しようとするが、他に変換規則は残っていな
いので何も変換せずに取り出した変換規則を変換規則蓄
積部160へ戻す(ステップ55)[図9(状態
2)]。
According to the instruction from the control unit 140, the conversion rule correction unit 120 causes the conversion rule stored in the conversion rule storage unit 160, “conversion rule”, to “conversion rule,” “Zumi” => “Hozumi” ”is extracted (step 54), and the converted character string of the extracted conversion rule,“ Hozumi ”, is replaced with all other conversion rules remaining in the conversion rule accumulating unit 160. Although there is no other conversion rule left to be applied, the conversion rule extracted without any conversion is returned to the conversion rule accumulating unit 160 (step 55) [FIG. 9 (state 2)].

【0058】変換規則修正部120は、変換規則蓄積部
160に蓄積されている全ての変換規則について上記ス
テップ55の処理を完了したので、変換規則修正処理を
終了する(ステップ56、YES)。
Since the conversion rule correction section 120 has completed the processing of step 55 for all conversion rules stored in the conversion rule storage section 160, the conversion rule correction processing ends (step 56, YES).

【0059】制御部140は、等式関係蓄積部150に
等式関係10が残っているか否かをチェックすると、 「“ほづみ” = “ほつみ”」 「“ほずみ” = “ほすみ”」 の2つの等式関係10が残っているので等式関係修正部
130に処理を開始するよう指示する(ステップ57、
YES)。
When the control unit 140 checks whether or not the equality relation 10 remains in the equality relation storage unit 150, ““ Hozumi ”=“ Hosumi ”” ““ Hozumi ”=“ Hosumi ” Since there are still two equality relations 10 of "," the equality relation correction unit 130 is instructed to start the processing (step 57,
Yes).

【0060】等式関係修正部130は、等式関係蓄積部
150に蓄積されている等式関係10、 「“ほづみ” = “ほつみ”」 「“ほずみ” = “ほすみ”」 の中から、 「“ほづみ” = “ほつみ”」 を取り出し(ステップ58)、取り出した等式関係10
の2つの文字列に変換規則蓄積部160に蓄積されてい
る全ての変換規則、 「“ほづみ” => “ほずみ”」 を適用して適用結果の文字列に置き換え、 「“ほずみ” = “ほつみ”」 の等式関係10に修正して等式関係蓄積部150に蓄積
する(ステップ59)[図9(状態3)]。
The equation relation correction unit 130 stores the equation relations 10 stored in the equation relation storage unit 150, ““ Hozumi ”=“ Hosumi ”” and ““ Hozumi ”=“ Hosumi ””. From the inside, take out ““ Hozumi ”=“ Hotsumi ”” (step 58) and take out the equation relation 10
Applying all the conversion rules stored in the conversion rule storage unit 160 to the two character strings, ““ Hozumi ”=>“ Hozumi ”” and replacing them with the character string of the application result, = “Hotsumi” ”, the equation relation 10 is corrected and accumulated in the equation relation accumulating unit 150 (step 59) [FIG. 9 (state 3)].

【0061】上記ステップ59で適用した結果の等式関
係10の2つの文字列は等しくないので(ステップ6
0、NO)、等式関係蓄積部150に蓄積されている全
ての等式関係10について上記ステップ59の処理を行
なったか否かをチェックすると、まだ処理を行なってい
ない等式関係10、 「“ほずみ” = “ほすみ”」 が存在するので(ステップ62、NO)、未処理の等式
関係10、 「“ほずみ” = “ほすみ”」 を取り出す(ステップ58)。
Since the two character strings of the equation relation 10 applied as a result of the above step 59 are not equal (step 6
0, NO), if it is checked whether or not the processing in step 59 has been performed for all the equation relations 10 stored in the equation relation storage unit 150, the equation relations 10 that have not been processed yet, ““ Since "Hozumi" = "Hosumi""exists (step 62, NO), the unprocessed equation relation 10,""Hozumi" = "Hosumi""is taken out (Step 58).

【0062】上記ステップ58で取り出した等式関係1
0の2つの文字列に変換規則蓄積部160に蓄積されて
いる全ての変換規則、 「“ほづみ” => “ほずみ”」 を適用しようとするが、適用可能な変換規則でないため
取り出した等式関係10を変換せずに等式関係蓄積部1
50へ戻す(ステップ59)[図9(状態3)]。
Equation relation 1 extracted in step 58 above
All the conversion rules stored in the conversion rule storage unit 160, ““ Hozumi ”=>“ Hozumi ””, are applied to the two character strings of 0, but they are not applicable conversion rules, and thus the extracted ones are extracted. Equation relation accumulator 1 without converting equation relation 10
It returns to 50 (step 59) [FIG. 9 (state 3)].

【0063】上記ステップ59で変換規則を適用しよう
とした等式関係10の2つの文字列は等しくないので
(ステップ60、NO)、等式関係蓄積部150に蓄積
されている全ての等式関係10について上記ステップ5
9の処理を行なったか否かをチェックすると、全ての等
式関係10について上記ステップ59の処理を完了した
ので等式関係修正処理を終了する(ステップ62、YE
S)。
Since the two character strings of the equation relation 10 to which the conversion rule is applied in step 59 are not equal (step 60, NO), all equation relations stored in the equation relation storage unit 150 are Step 5 for 10
When it is checked whether or not the processing of step 9 has been performed, the processing of step 59 has been completed for all of the equation relations 10, so the equation relation correction processing ends (step 62, YE).
S).

【0064】制御部140は、等式関係蓄積部15に等
式関係10が蓄積されているか否かをチェックすると、 「“ほずみ” = “ほつみ”」 「“ほずみ” = “ほすみ”」 の2つの等式関係10が残っているので(ステップ6
3、YES)、 「“ほずみ” = “ほつみ”」 の等式関係10を取り出して(ステップ50)、2つの
文字列が等しいか否かをチェックすると2つの文字列は
等しくないので(ステップ51、NO)、2つの文字列
を辞書順で比較し、 「“ほつみ” > “ほずみ”」 の関係より変換前文字列を“ほつみ”、変換後文字列を
“ほずみ”とする、 「“ほつみ” => “ほずみ”」 の変換規則を作成して変換規則蓄積部160へ蓄積する
(ステップ53)[図9(状態4)]。
When the control unit 140 checks whether or not the equation relation 10 is accumulated in the equation relation accumulating unit 15, "" Hozumi "=" Hotsumi """Hozumi" = "Hosumi" There are two equation relations 10 of "" remaining (step 6
(3, YES), the equality relation 10 of ““ Hozumi ”=“ Hotsumi ”” is taken out (step 50), and if it is checked whether the two character strings are equal, the two character strings are not equal ( (Step 51, NO) Compares the two character strings in dictionary order, and based on the relationship of "" hotsumi ">" hosumi "", the character string before conversion is "hotsumi" and the character string after conversion is "hosumi". Then, a conversion rule of ““ hotsumi ”=>“ hosomi ”” is created and stored in the conversion rule storage unit 160 (step 53) [FIG. 9 (state 4)].

【0065】制御部140の指示により変換規則修正部
120は、変換規則蓄積部160に蓄積されている変換
規則、 「“ほづみ” => “ほずみ”」 「“ほつみ” => “ほずみ”」 の中から、 「“ほづみ” => “ほずみ”」 を取り出して(ステップ54)、取り出した変換規則の
変換後文字列、 “ほずみ” に、変換規則蓄積部160に残っている他の全ての変換
規則、 「“ほつみ” => “ほずみ”」 の変換規則を適用しようとするが、適用可能な変換規則
でないため取り出した変換規則に何も変換を行なわずに
変換規則蓄積部160に戻す(ステップ55)[図9
(状態4)]。
In accordance with an instruction from the control unit 140, the conversion rule correction unit 120 causes the conversion rules stored in the conversion rule storage unit 160 to read "" Hozumi "=>" Hozumi """" Hotsumi "=>" Hosumi ""Hozumi"=>"Hozumi""is extracted from" Hozumi "(step 54), and the converted character string of the extracted conversion rule," Hozumi ", remains in the conversion rule accumulating unit 160. Tries to apply all other conversion rules that are "Hatsumi"=>"Hozumi", but do not convert any of the conversion rules that have been extracted because they are not applicable conversion rules. Return to the conversion rule storage unit 160 (step 55) [FIG.
(State 4)].

【0066】変換規則修正部120は、変換規則蓄積部
160に蓄積されている全ての変換規則に上記ステップ
55の処理を行なったか否かをチェックすると、まだ処
理していない変換規則、 「“ほつみ” => “ほずみ”」 が残っているため(ステップ56、NO)、残っている
変換規則、 「“ほつみ” => “ほずみ”」 を取り出して(ステップ54)、取り出した変換規則の
変換後文字列、“ほずみ”に、変換規則蓄積部160に
残っている他の全ての変換規則、 「“ほづみ” => “ほずみ”」 の変換規則を適用しようとするが、適用可能な変換規則
でないため取り出した変換規則に何も変換せずに変換規
則蓄積部160へ戻す(ステップ55)[図9(状態
4)]。
When the conversion rule correction unit 120 checks whether or not all the conversion rules stored in the conversion rule storage unit 160 have been subjected to the processing of step 55, the conversion rule that has not been processed, "" Since "tsumi"=>"hozumi""remains (step 56, NO), the remaining conversion rule""hotomi"=>"hozumi""is extracted (step 54), and the extracted conversion is performed. All other conversion rules remaining in the conversion rule accumulating unit 160, that is, "Hozomi", is applied to the converted character string "Hozomi" of the rule. Since it is not an applicable conversion rule, the extracted conversion rule is returned to the conversion rule accumulating unit 160 without any conversion (step 55) [FIG. 9 (state 4)].

【0067】変換規則修正部120は、変換規則蓄積部
160に蓄積されている全ての変換規則について上記ス
テップ55の処理を行なったか否かをチェックすると、
全ての変換規則について上記ステップ55の処理を行な
っているので変換規則修正処理を終了する(ステップ5
6、YES)。
When the conversion rule correction section 120 checks whether or not the processing in step 55 has been performed for all the conversion rules stored in the conversion rule storage section 160,
Since the processing of the above step 55 has been performed for all the conversion rules, the conversion rule correction processing ends (step 5).
6, YES).

【0068】制御部140は、等式関係蓄積部150に
等式関係10が残っているか否かをチェックすると、 「“ほずみ” = “ほすみ”」 の等式関係10が残っているので等式関係修正部130
に処理を開始するよう指示する(ステップ57、YE
S)。
When the control unit 140 checks whether or not the equality relation 10 remains in the equality relation storage unit 150, the equality relation 10 of ““ Hozumi ”=“ Hosumi ”” remains. Equation relation correction unit 130
To start processing (step 57, YE
S).

【0069】制御部140の指示により等式関係修正部
130は、等式関係蓄積部150に蓄積されている等式
関係10、 「“ほずみ” = “ほすみ”」 を取り出して(ステップ58)、取り出した等式関係1
0の2つの文字列に変換規則蓄積部160に蓄積されて
いる全ての変換規則、 「“ほづみ” => “ほずみ”」 「“ほつみ” => “ほずみ”」 を適用して適用結果の文字列に置き換えようとするが、
適用可能な変換規則がないので取り出した等式関係を何
も変換せずに等式関係蓄積部150へ戻す(ステップ5
9)[図9(状態4)]。
In accordance with an instruction from the control unit 140, the equation relation correcting unit 130 takes out the equation relation 10, ““ Hozumi ”=“ Hosumi ”” stored in the equation relation storing unit 150 (step 58). ), The extracted equation relation 1
Applying all the conversion rules stored in the conversion rule storage unit 160 to two character strings of 0, ““ Hozumi ”=>“ Hozumi ”” ““ Hotsumi ”=>“ Hozumi ”” I try to replace it with the string of the applied result,
Since there is no applicable conversion rule, the extracted equality relation is returned to the equality relation storage unit 150 without any conversion (step 5).
9) [FIG. 9 (state 4)].

【0070】上記ステップ59で適用した結果の等式関
係10の2つの文字列は等しくないので(ステップ6
0、NO)、等式関係蓄積部150に蓄積されている全
ての等式関係10について上記ステップ59の処理を行
なったか否かをチェックすると、全ての等式関係10に
上記ステップ59の処理を行なったので等式関係修正処
理を終了する(ステップ62、YES)。
Since the two character strings of the equation relation 10 applied as a result of the above step 59 are not equal (step 6
0, NO), if it is checked whether or not the process of step 59 has been performed for all equation relations 10 stored in the equation relation storage unit 150, the process of step 59 is performed for all equation relations 10. Since it has been performed, the equation relation correcting process is ended (step 62, YES).

【0071】制御部140は、等式関係蓄積部15に等
式関係10が蓄積されているか否かをチェックすると、 「“ほずみ” = “ほすみ”」 の等式関係10が残っているので(ステップ63、YE
S)、 「“ほずみ” = “ほすみ”」 の等式関係10を取り出して(ステップ50)、2つの
文字列が等しいか否かをチェックするが等しくないので
(ステップ51、NO)、2つの文字列を辞書順で比較
し、 「“ほずみ” > “ほすみ”」 の関係より変換前文字列を“ほずみ”、変換後文字列を
“ほすみ”とする、 「“ほずみ” => “ほすみ”」 の変換規則を作成して変換規則蓄積部160へ蓄積する
(ステップ53)[図9(状態5)]。
When the control unit 140 checks whether or not the equality relation 10 is stored in the equality relation storage unit 15, the equality relation 10 of ““ Hozumi ”=“ Hosumi ”” remains. So (step 63, YE
S), the equality relation 10 of ““ Hozumi ”=“ Hosumi ”” is taken out (step 50) and it is checked whether the two character strings are equal, but they are not equal (step 51, NO), Compare the two strings in lexicographical order, and use the relationship "" Hozumi ">" Hosumi "" to define the pre-conversion character string as "Hozumi" and the post-conversion character string as "Hosumi". A conversion rule of "sumi"=>"hosumi""is created and stored in the conversion rule storage unit 160 (step 53) [Fig. 9 (state 5)].

【0072】制御部140の指示により変換規則修正部
120は、変換規則蓄積部160に蓄積されている変換
規則、 「“ほづみ” => “ほずみ”」 「“ほつみ” => “ほずみ”」 「“ほずみ” => “ほすみ”」 の中から、 「“ほづみ” => “ほずみ”」 の変換規則を取り出し(ステップ54)、取り出した変
換規則の変換後文字列、 “ほずみ” に、変換規則蓄積部160に残っている他の全ての変換
規則、 「“ほつみ” => “ほずみ”」 「“ほずみ” => “ほすみ”」 の変換規則を適用して、 「“ほづみ” => “ほすみ”」 に変換した結果の変換規則を変換規則蓄積部160へ蓄
積する(ステップ55)[図9(状態6)]。
In accordance with an instruction from the control unit 140, the conversion rule correction unit 120 causes the conversion rules stored in the conversion rule storage unit 160 to read "" Hozumi "=>" Hozumi """" Hotsumi "=>" Hosumi ""Humi""" Hozumi "=>" Hozumi "", the conversion rule of "" Hozumi "=>" Hozumi "" is extracted (step 54), and the converted character string of the extracted conversion rule is extracted. , "Hozumi", all other conversion rules remaining in the conversion rule accumulating unit 160, conversion rules of "" Hozumi "=>" Hozumi """Hozumi"=>"Hosumi"" Is applied, and the conversion rule resulting from conversion into ““ Hozumi ”=>“ Hosumi ”” is accumulated in the conversion rule accumulating unit 160 (step 55) [FIG. 9 (state 6)].

【0073】変換規則修正部120は、変換規則蓄積部
160に蓄積されている全ての変換規則について上記ス
テップ55の処理を行なったか否かをチェックすると、
まだ処理していない変換規則、 「“ほつみ” => “ほずみ”」 「“ほずみ” => “ほすみ”」 が残っているため(ステップ56、NO)、残っている
変換規則から、 「“ほつみ” => “ほずみ”」 の変換規則を取り出して(ステップ54)、取り出した
変換規則の変換後文字列、 “ほずみ” に、変換規則蓄積部160に残っている他の全ての変換
規則、 「“ほづみ” => “ほすみ”」 「“ほずみ” => “ほすみ”」 の変換規則を適用して、 「“ほつみ” => “ほすみ”」 に変換した結果の変換規則を変換規則蓄積部160へ蓄
積する(ステップ55)[図9(状態7)]。
When the conversion rule correction section 120 checks whether or not the processing of step 55 has been performed for all conversion rules stored in the conversion rule storage section 160,
The conversion rules that have not yet been processed, ““ Hosumi ”=>“ Hozumi ”” and ““ Hozumi ”=>“ Hosumi ”” remain (step 56, NO). , The conversion rule of ““ Hotsumi ”=>“ Hosomi ”” is extracted (step 54), and the converted character string of the extracted conversion rule, “Hosomi”, remains in the conversion rule accumulating unit 160. Apply all the conversion rules of ““ Hozumi ”=>“ Hosumi ”” and “Hozumi” => “Hosumi” ”to convert“ Hosumi ”=>“ Hosumi ” The conversion rule obtained as a result of the conversion is stored in the conversion rule storage unit 160 (step 55) [FIG. 9 (state 7)].

【0074】変換規則修正部120は、変換規則蓄積部
160に蓄積されている全ての変換規則について上記ス
テップ55の処理を行なったか否かをチェックすると、
まだ処理していない変換規則、 「“ほずみ” => “ほすみ”」 が残っているため(ステップ56、NO)、残っている
変換規則、 「“ほずみ” => “ほすみ”」 を取り出して(ステップ54)、取り出した変換規則の
変換後文字列、 “ほすみ” に、変換規則蓄積部160に残っている他の全ての変換
規則、 「“ほづみ” => “ほすみ”」 「“ほつみ” => “ほすみ”」 の変換規則を適用しようとするが、変換可能な変換規則
がないため取り出した変換規則を何も変換せずに変換規
則蓄積部160へ戻す(ステップ55)[図9(状態
7)]。
When the conversion rule correction section 120 checks whether or not the processing of step 55 has been performed for all the conversion rules stored in the conversion rule storage section 160,
The conversion rule that has not yet been processed, "" Hozumi "=>" Hosumi "" remains (step 56, NO), so the remaining conversion rule, "" Hozumi "=>" Hosumi "" Is extracted (step 54), and the converted character string of the extracted conversion rule, “Hosumi”, is replaced with all the other conversion rules remaining in the conversion rule accumulating unit 160, ““ Hozumi ”=>“ Hosumi ”. ”” The conversion rule ““ hotsumi ”=>“ hosumi ”” is tried to be applied, but since there is no conversion rule that can be converted, the extracted conversion rule is returned to the conversion rule storage unit 160 without any conversion. (Step 55) [FIG. 9 (State 7)].

【0075】変換規則修正部120は、変換規則蓄積部
160に蓄積されている全ての変換規則について上記ス
テップ55の処理を行なったか否かをチェックすると、
全ての変換規則について上記ステップ55の処理を行な
っているので変換規則修正処理を終了する(ステップ5
6、YES)。
When the conversion rule correction section 120 checks whether or not the processing of step 55 has been performed for all the conversion rules stored in the conversion rule storage section 160,
Since the processing of the above step 55 has been performed for all the conversion rules, the conversion rule correction processing ends (step 5).
6, YES).

【0076】制御部140は、等式関係蓄積部150に
等式関係10が残っているか否かをチェックすると、等
式関係蓄積部150には等式関係10が1つも残ってい
ないため変換規則の作成の全ての処理を終了する(ステ
ップ57、NO)。
When the control unit 140 checks whether or not the equality relation 10 remains in the equality relation storage unit 150, there is no equality relation 10 in the equality relation storage unit 150. Then, all the processes for creating the are completed (step 57, NO).

【0077】上記によって、図6に示した3つの等式関
係10、 「“ほづみ” = “ほずみ”」 「“ほづみ” = “ほつみ”」 「“ほずみ” = “ほすみ”」 から変換規則、 「“ほづみ” => “ほすみ”」 「“ほつみ” => “ほすみ”」 「“ほずみ” => “ほすみ”」 を自動的に作成することができる。
From the above, the three equation relations 10 shown in FIG. 6, ““ Hozumi ”=“ Hozumi ””, “Hozumi” = “Hotsumi”, “Hozumi” = “Hosumi” From ", you can automatically create a conversion rule,""Hozumi"=>"Hosumi""""Hosumi"=>"Hosumi""" Hosumi "=>" Hosumi "" .

【0078】上記文字列正規化規則作成装置の実施例
は、3つの等式関係に基づいて変換規則を作成する例で
説明したが、実際の使用においては等式関係の数が格段
に多くなるため、人手による変換には非常に多くの手
間、時間、費用を要すると同時に、変換規則作成過程で
の人為的なミスが混入する危険性が非常に高くなる。し
かしながら、本発明によれば予め文字列のゆれの範囲を
等式関係として蓄積しておくだけで、漏れのない文字列
正規化の変換規則を自動的に作成することができ非常に
効率良く、かつ正確に変換規則を作成することが可能と
なる。
Although the embodiment of the character string normalization rule creating device has been described with reference to the example of creating the conversion rule based on three equality relationships, the number of equality relationships is significantly increased in actual use. Therefore, the manual conversion requires a great deal of labor, time, and cost, and at the same time, the risk of human error in the conversion rule creation process becomes extremely high. However, according to the present invention, it is possible to automatically create a conversion rule for string normalization without omission by only accumulating the range of fluctuation of the character string as an equality relation in advance, very efficiently, And it becomes possible to create a conversion rule accurately.

【0079】なお、上記文字列正規化規則作成装置の実
施例では、辞書順による大小関係の判定を行うことで、
大きいと判定された文字列を変換前文字列、小さいと判
定された文字列を変換後文字列として変換規則を作成す
る例を示したが、小さいと判定された文字列を変換前文
字列、大きいと判定された文字列を変換後文字列とする
ことも可能であるし、また、辞書順による判定以外であ
っても文字列の大小関係、前後関係などの文字列の関係
を一貫性を以て判定可能な方法であれば他の方法による
ことも可能であり上記実施例に限定されるものではな
い。
In the embodiment of the character string normalization rule creating apparatus, the size relation is determined in the dictionary order,
An example of creating a conversion rule is shown in which the character string determined to be large is the character string before conversion and the character string determined to be small is the character string after conversion, but the character string determined to be small is the character string before conversion, It is possible to use a character string that is determined to be large as the converted character string.Also, even if the determination is not based on the dictionary order, the relationship between the character strings, such as the size relationship of the character strings and the context, can be made consistent. Any other method can be used as long as it can be determined, and the method is not limited to the above-described embodiment.

【0080】次に、前述の文字列正規化規則作成装置に
よって作成される文字列正規化のための変換規則を用い
て情報検索を行なう情報検索装置の実施例を説明する。
図10は、本発明の一実施例の情報検索装置の構成図を
示す。同図に示す情報検索装置300は、文字列情報を
蓄積しているデータベース310と、情報検索部200
とから構成される。
Next, a description will be given of an embodiment of the information search device for performing information search using the conversion rule for character string normalization created by the above-mentioned character string normalization rule creating device.
FIG. 10 shows a block diagram of an information retrieval apparatus according to an embodiment of the present invention. The information search device 300 shown in the figure includes a database 310 that stores character string information and an information search unit 200.
Composed of and.

【0081】情報検索部200は、変換規則蓄積部16
0、正規化部210、照合一致部220とを有する。
The information retrieval unit 200 includes the conversion rule storage unit 16
0, a normalization unit 210, and a collation matching unit 220.

【0082】変換規則蓄積部160は、文字列を正規化
するための変換規則を蓄積しているデータベースで、前
述の文字列正規化規則作成装置により自動的に作成され
るものである。
The conversion rule storage unit 160 is a database that stores conversion rules for normalizing character strings, and is automatically created by the above-described character string normalization rule creating device.

【0083】正規化部210は、検索のために入力され
る検索文字列20を変換規則蓄積部160に蓄積されて
いる変換規則を用いて正規化する。
The normalization unit 210 normalizes the search character string 20 input for the search using the conversion rules stored in the conversion rule storage unit 160.

【0084】照合一致部220は、正規化部210によ
り正規化された検索文字列と正規化されたデータベース
310に蓄積されている文字列との照合を行い、照合の
結果が一致した際に、一致したデータベース160に蓄
積されていて正規化した文字列の、正規化する前の元々
データベース160に蓄積されていた文字列を検索結果
30として出力する。
The collation matching unit 220 collates the search character string normalized by the normalization unit 210 with the character string stored in the normalized database 310, and when the collation results match, The character string stored in the matched database 160 and normalized, which is originally stored in the database 160 before being normalized, is output as the search result 30.

【0085】以下に、情報検索装置300の動作を説明
する。図11は、本発明の一実施例の情報検索装置の動
作を示すフローチャートである。
The operation of the information retrieval device 300 will be described below. FIG. 11 is a flowchart showing the operation of the information search device according to the embodiment of the present invention.

【0086】(ステップ70) 検索文字列20を入力
する。
(Step 70) The search character string 20 is input.

【0087】(ステップ71) 正規化部210は、上
記ステップ70で入力された検索文字列20に、変換規
則蓄積部160に蓄積されている変換規則を適用して正
規化する。
(Step 71) The normalization unit 210 normalizes the search character string 20 input in Step 70 by applying the conversion rule stored in the conversion rule storage unit 160.

【0088】(ステップ72) 正規化部210は、デ
ータベース310から蓄積情報を1つ取り出し、取り出
した蓄積情報に変換規則蓄積部160に蓄積されている
変換規則を適用して正規化する。
(Step 72) The normalizing section 210 takes out one piece of stored information from the database 310 and normalizes it by applying the conversion rule stored in the conversion rule storage section 160 to the taken-out stored information.

【0089】(ステップ73) 照合一致部220は、
上記ステップ71で正規化した検索文字列20と、上記
ステップ72で正規化した蓄積情報とを照合し、一致し
ていなければステップ75へ移行する。
(Step 73) The collation matching unit 220
The search character string 20 normalized in step 71 is collated with the stored information normalized in step 72. If they do not match, the process proceeds to step 75.

【0090】(ステップ74) 照合一致部220は、
上記ステップ73で一致した正規化した蓄積情報の、正
規化する前の元々データベース310に蓄積されていた
蓄積情報のレコードを検索結果として出力する。
(Step 74) The collation matching unit 220
The record of the accumulated information that was originally accumulated in the database 310 before being normalized of the normalized accumulated information matched in step 73 is output as a search result.

【0091】(ステップ75) 正規化部210は、上
記ステップ74に次いで、または、上記ステップ73で
照合の結果が一致していなかった場合に、データベース
310の蓄積情報を全て取り出し、正規化して照合した
か否かをチェックし、まだ全ての取り出し正規化して照
合していない場合にはステップ72へ移行し、全ての取
り出し正規化及び総合が完了していれば全ての処理を終
了する。
(Step 75) The normalizing unit 210 takes out all the accumulated information in the database 310, normalizes and collates it after the step 74 or when the collation results do not match in the step 73. It is checked whether or not all of the extraction normalization has not been performed yet, and the process proceeds to step 72, and if all the extraction normalization and synthesis have been completed, all processing is terminated.

【0092】以下に、上記本発明の一実施例の情報検索
装置を使用して情報検索を行なう具体例を説明する。以
下の情報検索装置の変換規則蓄積部160には、図7に
示す変換規則が蓄積されており、データベース310
は、図12(B)に示す構造と蓄積情報を有するものと
し、データーベース310の項目「名」を検索文字列2
0、 “ほづみ” で検索する例を説明する。
A specific example of performing information retrieval using the information retrieval apparatus according to the embodiment of the present invention will be described below. The conversion rules shown in FIG. 7 are accumulated in the conversion rule accumulating unit 160 of the following information retrieval device, and the database 310
Has the structure and accumulated information shown in FIG. 12 (B), and searches the character string 2 for the item “name” in the database 310.
An example of searching with 0 or "Hozumi" will be described.

【0093】検索文字列20として、 “ほづみ” が入力されると(ステップ70)、正規化部210は入
力された検索文字列20に、変換規則蓄積部160に蓄
積されている変換規則、 「“ほづみ” => “ほすみ”」 を適用して検索文字列20を正規化して、 “ほすみ” を得る(ステップ71)。
When "Hozumi" is input as the search character string 20 (step 70), the normalization unit 210 adds the conversion rule stored in the conversion rule storage unit 160 to the input search character string 20, "" Hozumi "=>" Hosumi "" is applied to normalize the search character string 20 to obtain "Hosumi" (step 71).

【0094】正規化部210は、データベース310か
ら項目「名」の蓄積情報、 “ほずみ” を1つ取り出し、取り出した蓄積情報に変換規則蓄積部
160に蓄積されている変換規則、 「“ほずみ” => “ほすみ”」 を適用して正規化して、 “ほすみ” を得る(ステップ72)。
The normalization unit 210 retrieves one piece of stored information "Hozumi" of the item "name" from the database 310, and converts the retrieved stored information into the conversion rule """Hozumi" is applied and normalized to obtain "Hosumi" (step 72).

【0095】照合一致部220は、上記ステップ71で
正規化した検索文字列20、 “ほすみ” と、上記ステップ72で正規化した蓄積情報、 “ほすみ” とを照合すると一致しているので(ステップ73、YE
S)、上記ステップ73で一致した正規化した蓄積情報
の、正規化する前の元々データベース310に蓄積され
ていた蓄積情報のレコード、 「姓:やまざき」 「名:ほずみ」 「血液型:A」 を検索結果30として出力する(ステップ74)。
Since the matching unit 220 matches the search character string 20, “Hosumi”, which is normalized in the above step 71, with the accumulated information, “Hosumi”, which is normalized in the above step 72, there is a match. (Step 73, YE
S), a record of the accumulated information that was originally accumulated in the database 310 before being normalized of the normalized accumulated information that matched in step 73 above, "surname: Yamazaki""first name: hozumi""blood type: A Is output as the search result 30 (step 74).

【0096】正規化部210は、データベース310の
蓄積情報を全て取り出して正規化し、照合をしていない
ので(ステップ75、NO)、データベース310から
項目「名」の蓄積情報、 “はなこ” を1つ取り出し、取り出した蓄積情報に変換規則蓄積部
160に蓄積されている変換規則を適用して正規化す
る。実際には適用可能な変換規則が存在しないので蓄積
情報、 “はなこ” がそのまま正規化した結果となる(ステップ72)。
Since the normalizing section 210 takes out all the stored information in the database 310, normalizes it, and does not collate it (step 75, NO), the stored information of the item "name", "Hanako", is set to 1 from the database 310. Then, the conversion rule stored in the conversion rule storage unit 160 is applied to the extracted storage information and normalized. Actually, since there is no applicable conversion rule, the accumulated information, "Hanako", is the normalization result as it is (step 72).

【0097】照合一致部220は、初めにステップ71
で正規化した検索文字列20、 “ほすみ” と、上記ステップ72で正規化した蓄積情報、 “はなこ” とを照合するが一致していないので処理を正規化部21
0へ移し(ステップ73、NO)、正規化部210が、
データベース310の蓄積情報を全て取り出して正規化
し、照合をしたかをチェックすると、全て取り出して正
規化し、照合も完了しているので検索処理を終了する
(ステップ75、YES)。
The collating / matching unit 220 first executes step 71.
The search character string 20, “Hosumi”, which has been normalized by the above, is collated with the accumulated information, “Hanako”, which is normalized in the above step 72, but since they do not match, the process is normalized by the normalizing unit 21.
0 (step 73, NO), the normalization unit 210
When it is checked whether all the stored information in the database 310 has been taken out and normalized and the collation has been performed, all the retrieved information has been taken out and normalized, and the collation has also been completed, so the search processing ends (step 75, YES).

【0098】上記実施例の情報検索装置によれば、“ほ
つみ”、“ほづみ”、“ほずみ”などのゆれの存在する
文字列を検索する場合において、ゆれを考慮した検索が
可能となり、検索漏れを防ぐことが可能となる。
According to the information retrieving apparatus of the above-described embodiment, in the case of retrieving a character string having a fluctuation such as "hotsumi", "hozumi", "hozumi", it is possible to perform a search considering the fluctuation. It is possible to prevent omission of search.

【0099】なお、上記情報検索装置の実施例では、デ
ータベース310の蓄積情報を検索時に1つずつ取り出
し正規化する例を示したが、データベース310のレコ
ード中に正規化文字列を蓄積する項目を設けておいて、
検索前に予め正規化しておくことや、検索文字列20の
正規化結果の文字列の長さと一致する蓄積情報のみを照
合の対象とすることも可能であり、データベース310
に蓄積されている全ての情報を逐次正規化して照合する
ことに限定するものではない。
In the above embodiment of the information retrieval apparatus, an example has been shown in which the stored information in the database 310 is retrieved and normalized one by one at the time of retrieval. Set up,
It is possible to perform normalization in advance before the search, or only the accumulated information that matches the length of the character string of the normalization result of the search character string 20 can be the target of collation.
It is not limited to sequentially normalizing and collating all the information stored in the.

【0100】[0100]

【発明の効果】上記のように、本発明によれば、文字列
のゆれの情報として2つの文字列が等しいことを表す等
式関係を与えることで、与えられた等式関係の範囲内で
検索可能な文字列正規化のための変換規則を自動的に作
成することが可能となる。
As described above, according to the present invention, by giving an equality relation indicating that two character strings are equal to each other as information on the fluctuation of the character string, within the range of the given equality relationship. It is possible to automatically create conversion rules for searchable string normalization.

【0101】また、与えられる等式関係を単に変換規則
に変換するだけでなく、変換規則作成途中で得られた変
換規則を逐次当該変換規則にも適用して変換規則の修正
をし、また等式関係に対しても当該変換規則を適用して
等式関係を修正することで変換規則の冗長性を排除する
ことができ、1回の変換処理で文字列の正規化を行なう
ことが可能な変換規則の作成が可能となり、更に変換規
則の作成漏れをも防ぐことができる。
Further, not only the given equality relation is converted into the conversion rule, but also the conversion rule obtained in the process of creating the conversion rule is successively applied to the conversion rule to correct the conversion rule. Redundancy of conversion rules can be eliminated by applying the conversion rules to expression relationships and modifying the equality relationships, and it is possible to normalize character strings in one conversion process. It is possible to create conversion rules, and it is possible to prevent omission of creation of conversion rules.

【0102】また、文字列を正規化する変換規則を自動
的に作成することにより、変換規則に人為的なミスを混
入することを防ぐことが可能となると共に、変換規則作
成に要する手間、時間、費用を抑えることも可能とな
る。
Further, by automatically creating the conversion rule for normalizing the character string, it is possible to prevent human error from being mixed into the conversion rule, and at the same time, the time and effort required to create the conversion rule can be reduced. It is also possible to reduce the cost.

【0103】また、与えられた等式関係の文字列の大小
を辞書順により判断しているため、ゆれの存在する複数
の文字列を一意に変換することが可能になると共に、与
えられた等式関係の範囲内の入力文字列であれば漏れな
く検索できる文字列の変換規則を作成することができ
る。
Further, since the size of the character string of the given equality relation is judged according to the dictionary order, it becomes possible to uniquely convert a plurality of character strings having fluctuations, and the given It is possible to create a conversion rule for a character string that can be searched without exception for an input character string within the range of expression relation.

【0104】また、文字列変換規則作成装置、文字列変
換規則作成方法により作成される文字列正規化の変換規
則を用いて検索文字列及び蓄積情報の正規化を行なうた
め、情報検索装置及び情報検索方法では検索文字列と蓄
積情報に含まれる文字列との間に相違があったとしても
所定の範囲内であれば漏れなく検索して結果を出力する
ことが可能となる。
Further, since the search character string and the stored information are normalized by using the conversion rule of the character string normalization created by the character string conversion rule creating device and the character string conversion rule creating method, the information searching device and the information are stored. In the search method, even if there is a difference between the search character string and the character string included in the stored information, it is possible to search without exception within the predetermined range and output the result.

【0105】また、検索文字列と蓄積情報に含まれる文
字列とを逐次変換規則を適用して変換し、変換結果を照
合して検索するため、蓄積情報を事前に正規化すること
なく情報検索をすることが可能となる。
In addition, since the search character string and the character string included in the stored information are converted by applying the sequential conversion rule and the conversion result is collated and searched, the stored information is searched without normalizing in advance. It becomes possible to

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の文字列正規化規則作成装置の原理構成
図である。
FIG. 1 is a principle configuration diagram of a character string normalization rule creating device of the present invention.

【図2】本発明の文字列正規化規則作成方法の原理説明
図である。
FIG. 2 is a diagram for explaining the principle of the character string normalization rule creating method of the present invention.

【図3】本発明の情報検索装置の原理構成図である。FIG. 3 is a principle configuration diagram of an information retrieval device of the present invention.

【図4】本発明の情報検索方法の原理説明図である。FIG. 4 is a diagram explaining the principle of the information retrieval method of the present invention.

【図5】本発明の一実施例の文字列正規化規則作成装置
の構成図である。
FIG. 5 is a configuration diagram of a character string normalization rule creating device according to an embodiment of the present invention.

【図6】本発明の一実施例の等式関係蓄積部の蓄積例を
示す図である。
FIG. 6 is a diagram showing a storage example of an equation relation storage unit according to an embodiment of the present invention.

【図7】本発明の一実施例の変換規則蓄積部の蓄積例を
示す図である。
FIG. 7 is a diagram showing a storage example of a conversion rule storage unit according to an embodiment of the present invention.

【図8】本発明の一実施例の文字列正規化規則作成装置
の動作を示すフローチャートである。
FIG. 8 is a flowchart showing an operation of the character string normalization rule creating device according to the exemplary embodiment of the present invention.

【図9】本発明の一実施例の文字列正規化規則作成装置
の実行過程の例を示す図である。
FIG. 9 is a diagram showing an example of an execution process of a character string normalization rule creating device according to an exemplary embodiment of the present invention.

【図10】本発明の一実施例の情報検索装置の構成図で
ある。
FIG. 10 is a configuration diagram of an information search device according to an embodiment of the present invention.

【図11】本発明の一実施例の情報検索装置の動作を示
すフローチャートである。
FIG. 11 is a flowchart showing the operation of the information search device according to the embodiment of the present invention.

【図12】従来の検索方法を説明する図である。FIG. 12 is a diagram illustrating a conventional search method.

【符号の説明】[Explanation of symbols]

10 等式関係 20 検索文字列 30 検索結果 100 文字列正規化規則作成手段、文字列正規化規則
作成装置 110 変換規則生成手段、変換規則生成部 120 変換規則修正手段、変換規則修正部 130 等式関係修正手段、等式関係修正部 140 制御手段、制御部 150 等式関係蓄積手段、等式関係蓄積部 160 変換規則蓄積手段、変換規則蓄積部 200 情報検索手段、情報検索部 210 正規化手段、正規化部 220 照合一致手段、照合一致部 300 情報検索装置 310 情報蓄積手段、データベース
10 Equation Relation 20 Search Character String 30 Search Result 100 Character String Normalization Rule Creating Means, Character String Normalization Rule Creating Device 110 Conversion Rule Generating Means, Conversion Rule Generating Unit 120 Conversion Rule Modifying Means, Conversion Rule Modifying Unit 130 Equations Relationship correction means, equation relationship correction section 140 control means, control section 150 equation relationship storage means, equation relationship storage section 160 conversion rule storage section, conversion rule storage section 200 information search means, information search section 210 normalization means, Normalization unit 220 Collation matching unit, collation matching unit 300 Information retrieval device 310 Information storage unit, database

Claims (13)

【特許請求の範囲】[Claims] 【請求項1】 入力される文字列と検索対象の情報に含
まれる文字列との相違が所定の範囲内であれば検索可能
とする、文字列の変換規則を作成する文字列変換規則作
成手段を有することを特徴とする文字列正規化規則作成
装置。
1. A character string conversion rule creating means for creating a character string conversion rule that enables a search if a difference between an input character string and a character string included in information to be searched is within a predetermined range. An apparatus for creating a character string normalization rule, comprising:
【請求項2】 前記文字列変換規則作成手段は、 2つの文字列が等しいことを表す複数の等式関係が与え
られると、与えられた該等式関係に基づいて文字列を正
規化する変換規則を自動的に作成する請求項1記載の文
字列正規化規則作成装置。
2. The character string conversion rule creating means, when a plurality of equality relations indicating that two character strings are equal to each other are given, a transformation for normalizing a character string based on the given equality relations. The character string normalization rule creating device according to claim 1, wherein the rule is created automatically.
【請求項3】 前記文字列変換規則作成手段は、 前記複数の等式関係を蓄積する等式関係蓄積手段と、 該等式関係蓄積手段より前記等式関係を取り出し、取り
出した前記等式関係の2つの文字列を比較し、比較の結
果に基づいて変換前文字列と変換後文字列を決定して変
換規則を生成する変換規則生成手段と、 前記変換規則を蓄積する変換規則蓄積手段と、 該変換規則蓄積手段に蓄積している変換規則の該変換後
文字列に、該変換規則蓄積手段に蓄積されている変換規
則を適用して変換規則を修正する変換規則修正手段と、 該等式関係蓄積手段に蓄積している等式関係の文字列
に、該変換規則蓄積手段に蓄積している変換規則を適用
して等式関係を修正する等式関係修正手段と、 該等式関係蓄積手段に前記等式関係が蓄積されている場
合に、該等式関係蓄積手段に蓄積される前記等式関係が
なくなるまで該変換規則生成手段、該変換規則修正手
段、該等式関係修正手段を順に起動し、繰り返す制御手
段とを有する請求項2記載の文字列正規化規則作成装
置。
3. The character string conversion rule creating means includes an equality relation accumulating means for accumulating the plurality of equality relations, and the equality relation taken out from the equality relation accumulating means. A conversion rule generating means for comparing the two character strings, and determining a pre-conversion character string and a post-conversion character string based on the comparison result to generate a conversion rule; and a conversion rule accumulating means for accumulating the conversion rule. Conversion rule correction means for correcting the conversion rules by applying the conversion rules stored in the conversion rule storage means to the converted character strings of the conversion rules stored in the conversion rule storage means, An equation relation correction means for correcting the equation relation by applying the conversion rule stored in the conversion rule storage means to the equation relation character string stored in the equation relation storage means; If the above equations are stored in the storage means 3. The control means for activating and repeating the conversion rule generation means, the conversion rule correction means, and the equality relation correction means in order until the equality relation stored in the equation relation storage means disappears. The described character string normalization rule creating device.
【請求項4】 前記変換規則生成手段は、 前記取り出した等式関係の2つの文字列の大小を辞書順
により比較する請求項3記載の文字列正規化規則作成装
置。
4. The character string normalization rule creating device according to claim 3, wherein the conversion rule generating means compares the magnitudes of the two extracted character strings in the equation relation in dictionary order.
【請求項5】 前記変換規則生成手段は、 前記比較の結果が等しい場合には前記取り出した等式関
係を前記等式関係蓄積手段から削除し、前記比較の結果
が等しくない場合には前記比較の結果が大きい文字列を
前記変換前文字列とし、前記比較の結果が小さい文字列
を前記変換後文字列とする請求項3及び請求項4記載の
文字列正規化規則作成装置。
5. The conversion rule generation means deletes the extracted equality relations from the equality relation accumulating means when the comparison results are equal to each other, and the comparisons when the comparison results are not equal to each other. 5. The character string normalization rule creating device according to claim 3, wherein a character string having a large result of is the pre-conversion character string, and a character string having a small result of the comparison is the post-conversion character string.
【請求項6】 入力される文字列と検索対象の情報に含
まれる文字列との相違が所定の範囲内であれば検索可能
とする、文字列の変換規則を作成する文字列変換規則作
成ステップを有することを特徴とする文字列正規化規則
作成方法。
6. A character string conversion rule creating step for creating a character string conversion rule that enables a search if the difference between the input character string and the character string included in the search target information is within a predetermined range. A method for creating a character string normalization rule, comprising:
【請求項7】 前記文字列変換規則作成ステップは、 2つの文字列が等しいことを表す複数の等式関係が与え
られると、与えられた該等式関係に基づいて文字列を正
規化する変換規則を自動的に作成する請求項6記載の文
字列正規化規則作成方法。
7. The character string conversion rule creating step normalizes a character string based on the given equality relations when a plurality of equality relations indicating that two character strings are equal are given. The method for creating a character string normalization rule according to claim 6, wherein the rule is created automatically.
【請求項8】 前記文字列変換規則作成ステップは、 前記等式関係の集合より前記等式関係を取り出し、取り
出した前記等式関係の2つの文字列を比較し、比較の結
果に基づいて変換前文字列と変換後文字列を決定し変換
規則を生成し、変換規則の集合に追加する変換規則生成
ステップと、 該変換規則の集合に含まれる全ての変換規則の該変換後
文字列に、該変換規則の集合に含まれる全ての変換規則
を適用して変換規則を修正する変換規則修正ステップ
と、 該等式関係の集合に含まれる等式関係の文字列に、該変
換規則の集合に含まれる変換規則を適用して等式関係を
修正する等式関係修正ステップとからなり、 該等式関係の集合に前記等式関係が含まれている場合
に、該等式関係の集合に含まれる前記等式関係がなくな
るまで該変換規則生成ステップ、該変換規則修正ステッ
プ、該等式関係修正ステップを順に実行して繰り返す請
求項7記載の文字列正規化規則作成方法。
8. The character string conversion rule creating step extracts the equality relation from the set of equality relations, compares two character strings of the extracted equality relations, and converts based on a result of the comparison. A conversion rule generation step of determining a pre-character string and a post-conversion character string, generating a conversion rule, and adding the conversion rule to the set of conversion rules; and the converted character strings of all the conversion rules included in the set of conversion rules, A conversion rule correction step of correcting all the conversion rules included in the set of conversion rules to modify the conversion rules; An equality relation correcting step of correcting the equality relation by applying the included conversion rule, and if the equality relation set includes the equality relation, the equality relation correction step is included in the equality relation set. The conversion rule until the equation relationship Generating step, the conversion rule modification step, according to claim 7 string normalization rules creation method according repeating running the equal expression related correction steps in order.
【請求項9】 前記変換規則生成ステップは、 前記取り出した等式関係の2つの文字列の大小を辞書順
により比較する請求項8記載の文字列正規化規則作成方
法。
9. The character string normalization rule creating method according to claim 8, wherein the conversion rule generating step compares the magnitudes of the two extracted character strings in the equation relation in dictionary order.
【請求項10】 前記変換規則生成ステップは、 前記比較の結果が等しい場合には前記取り出した等式関
係を前記等式関係の集合から削除し、前記比較の結果が
等しくない場合には前記比較の結果が大きい文字列を前
記変換前文字列とし、前記比較の結果が小さい文字列を
前記変換後文字列とする請求項8及び請求項9記載の文
字列正規化規則作成方法。
10. The conversion rule generating step deletes the extracted equality relations from the set of equality relations when the results of the comparison are equal, and the comparison when the results of the comparison are not equal. The character string normalization rule creating method according to claim 8 or 9, wherein a character string having a large result of is a pre-conversion character string, and a character string having a small result of the comparison is a post-conversion character string.
【請求項11】 文字列を有する情報を蓄積する情報蓄
積手段を有し、検索文字列が入力されると、該検索文字
列に基づき該情報蓄積手段を検索して検索結果を出力す
る情報検索装置において、 該検索文字列及び該情報蓄積手段に蓄積している文字列
とを所定の変換規則に基づき変換し、変換の結果に基づ
いて検索をする情報検索手段を有することを特徴とする
情報検索装置。
11. An information search which has an information storage means for storing information having a character string, and when a search character string is input, searches the information storage means based on the search character string and outputs a search result. The information, characterized in that the device has an information retrieval means for converting the retrieval character string and the character string accumulated in the information accumulating means based on a predetermined conversion rule and performing a search based on the result of the conversion. Search device.
【請求項12】 前記情報検索手段は、 文字列を正規化する複数の変換規則を蓄積している変換
規則蓄積手段と、 前記検索文字列及び前記情報蓄積手段に蓄積している文
字列に該変換規則蓄積手段に蓄積している該変換規則を
適用して正規化する正規化手段と、 該正規化手段によって正規化された前記検索文字列と前
記情報蓄積手段に蓄積している文字列とを照合し、照合
の結果が一致する場合には、一致した前記情報蓄積手段
に蓄積している文字列を正規化した文字列の、正規化前
の文字列を検索結果として出力する照合一致手段とを有
する請求項11記載の情報検索装置。
12. The information retrieving means stores the conversion rule accumulating means for accumulating a plurality of conversion rules for normalizing a character string, and the character string accumulated in the retrieval character string and the information accumulating means. Normalization means for applying and normalizing the conversion rules stored in the conversion rule storage means, the search character string normalized by the normalization means, and the character string stored in the information storage means If the results of the collation match, the collating and matching means for outputting the character string before normalization of the character string obtained by normalizing the matched character string stored in the information storage means as the search result. The information search apparatus according to claim 11, further comprising:
【請求項13】 検索文字列が入力されると、予め蓄積
されている情報を該検索文字列で検索して検索結果を出
力する情報検索方法において、 該検索文字列に、文字列を正規化する複数の変換規則を
適用して正規化し、 該正規化された検索文字列と、該蓄積されている情報に
含まれる文字列に該変換規則を適用して正規化した文字
列とを照合し、 照合の結果が一致する場合には、一致した該蓄積されて
いる情報に含まれる文字列を正規化した文字列の、正規
化前の文字列を検索結果として出力することを特徴とす
る情報検索方法。
13. An information search method for, when a search character string is input, searching for information stored in advance with the search character string and outputting a search result, wherein the character string is normalized to the search character string. Applying a plurality of conversion rules for normalization, and collating the normalized search character string with the character string normalized by applying the conversion rules to the character string included in the accumulated information. , Information that is characterized in that when the result of collation matches, the character string before normalization of the character string that is obtained by normalizing the character string included in the stored information that matches is output as the search result. retrieval method.
JP17054594A 1994-07-22 1994-07-22 Information retrieval apparatus and information retrieval method Expired - Lifetime JP3463277B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17054594A JP3463277B2 (en) 1994-07-22 1994-07-22 Information retrieval apparatus and information retrieval method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17054594A JP3463277B2 (en) 1994-07-22 1994-07-22 Information retrieval apparatus and information retrieval method

Publications (2)

Publication Number Publication Date
JPH0836582A true JPH0836582A (en) 1996-02-06
JP3463277B2 JP3463277B2 (en) 2003-11-05

Family

ID=15906877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17054594A Expired - Lifetime JP3463277B2 (en) 1994-07-22 1994-07-22 Information retrieval apparatus and information retrieval method

Country Status (1)

Country Link
JP (1) JP3463277B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125915A (en) * 1999-10-28 2001-05-11 Fujitsu Ltd Information retrieval device
JP2001209562A (en) * 2000-01-27 2001-08-03 Hitachi Ltd Conversion rule derivation system
JP2004094781A (en) * 2002-09-03 2004-03-25 Konami Co Ltd Server device and program
JP2009277068A (en) * 2008-05-15 2009-11-26 Aisin Aw Co Ltd Retrieval device and retrieval program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125915A (en) * 1999-10-28 2001-05-11 Fujitsu Ltd Information retrieval device
JP2001209562A (en) * 2000-01-27 2001-08-03 Hitachi Ltd Conversion rule derivation system
JP2004094781A (en) * 2002-09-03 2004-03-25 Konami Co Ltd Server device and program
JP2009277068A (en) * 2008-05-15 2009-11-26 Aisin Aw Co Ltd Retrieval device and retrieval program

Also Published As

Publication number Publication date
JP3463277B2 (en) 2003-11-05

Similar Documents

Publication Publication Date Title
JP3152868B2 (en) Search device and dictionary / text search method
JP3063555B2 (en) Document database management apparatus and method
JP3463277B2 (en) Information retrieval apparatus and information retrieval method
US6965856B1 (en) Process for the automatic generation of a textual expression from a semantic representation using a computer system
JP2002259186A (en) TREE structured index consistency check processing method, program and apparatus
JP3260428B2 (en) Information retrieval processor
CN113962198B (en) Method, device, equipment and medium for converting Chinese text
CN112733528B (en) Code matching method, device and equipment for medical data and storage medium
JPH0330066A (en) Information retrieval system
JPH06180717A (en) Database search method
JP3014415B2 (en) Document processing method and apparatus
JPH04215182A (en) Data naming and registering device
EP0427240A2 (en) Character string retrieving apparatus
JPH05334360A (en) Name recognizing method
JPH05233312A (en) Transition rule chart generating system
JPS60225273A (en) Word retrieving system
JPH06161995A (en) Method and device for shaping name data
CN121523309A (en) A method, apparatus, equipment and medium for diagnosing automotive faults
JPH0546370A (en) Program generating device
JP3065900B2 (en) Word dictionary for word matching device
JPH02123472A (en) Device for retrieving image
JPH02255985A (en) Reserved word retrieving method
JPS613266A (en) Kanji conversion system for katakana described name
JPH1097542A (en) Full-text search device and full-text search method
JPS63263529A (en) Keyword extracting system

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080822

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080822

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090822

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090822

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100822

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100822

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120822

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130822

Year of fee payment: 10

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term