JP7007793B2 - 類似文字列検出装置及び類似文字列検出方法並びに類似文字列検出プログラム - Google Patents
類似文字列検出装置及び類似文字列検出方法並びに類似文字列検出プログラム Download PDFInfo
- Publication number
- JP7007793B2 JP7007793B2 JP2016167611A JP2016167611A JP7007793B2 JP 7007793 B2 JP7007793 B2 JP 7007793B2 JP 2016167611 A JP2016167611 A JP 2016167611A JP 2016167611 A JP2016167611 A JP 2016167611A JP 7007793 B2 JP7007793 B2 JP 7007793B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- character string
- character
- total
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
前記各文字列の前記総計値を昇順あるいは降順で並べ変えることにより、前記各文字列の前記総計値をソーティングするステップと、前記ソーティングされて並べ変えられた前記各文字列の総計値に対して、隣り合う文字列の総計値同士の差分を得る差分生成ステップと、前記ソーティングされて並べ変えられた前記演算により得られた各文字列の前記総計値の平均と各前記総計値との距離を算出し、算出した値で前記差分を除算した数値を重み付きの差分とする重み付きの差分生成ステップと、前記ソーティングされて並べ変えられた前記演算により得られた各文字列の前記総計値の最大値から前記総計値の最小値を減算して得られた数値を前記文字列の数で除算して得られた平均的な前記総計値の間隔を前記総計値の標準偏差で除算して得られた値を閾値として生成する閾値生成ステップと、
前記総計値に対して、前記重み付きの差分が前記閾値以上かあるいは前記閾値未満かを判断して前記複数の文字列をグループ化するステップとをとを有する。
年度のみ異なっていたり、文字列中の一部の数値のみが異なっていることにより、文字列に揺れが生じているような場合に、これらのデータの整理に有用である。すなわち、複数の文字列中の多くの文字が一致しているものの、番号のみが異なっていたり、橋梁の長さを表す数字部分のみが異なっていたり、不要なアンダーバーが入っていたりするような場合には、単純な前方一致検索や特定語(キーワード)の検索では、効率的な検索が困難であるが、本発明によれば、文字をコード化して演算を行うので、類似文字列の演算結果同士は近似する数値を示すこととなり、よって、近似する演算結果を示す文字列が類似の件名であったり、関連する件名や図面名称ということになる。
表5中、簡易グループ判定欄の、「<」は、差分値が閾値未満であることを示し、一方「≧」は、差分値が閾値以上であることを示している。なお、後述する、重み付きグループ
判定においてもこれらの記号は同様である。なお、第1行目の場合は、その上の行は存在しないので、当該行のみの差分値で判断し、第19行目の場合は、当該行の差分値は存在しないので、当該行の上の行の差分値のみで判断する。
12 インターフェイス
14 記憶部
16 CPU(中央演算処理装置)
18 操作部
20 表示部
Claims (5)
- 複数の文字列データに対して文字単位で、文字コードに変換する手段と、
前記複数の文字列データの各文字列について前記変換されて得られた文字コードを所定の演算式により演算し、総計値を求める手段と、
前記各文字列の前記総計値を昇順あるいは降順で並べ変えることにより、前記各文字列の前記総計値をソーティングする手段と、
前記ソーティングされて並べ変えられた前記各文字列の総計値に対して、隣り合う文字列の総計値同士の差分を得る差分生成手段と、
前記ソーティングされて並べ変えられた前記演算により得られた各文字列の前記総計値の平均と各前記総計値との距離を算出し、算出した値で前記差分を除算した数値を重み付きの差分とする重み付きの差分生成手段と、
前記ソーティングされて並べ変えられた前記演算により得られた各文字列の前記総計値の最大値から前記総計値の最小値を減算して得られた数値を前記文字列の数で除算して得られた平均的な前記総計値の間隔を前記総計値の標準偏差で除算して得られた値を閾値として生成する閾値生成手段と、
前記総計値に対して、前記重み付きの差分が前記閾値以上かあるいは前記閾値未満かを判断して前記複数の文字列をグループ化する手段とを、
有する類似文字列検出装置。 - 前記ソーティングされて並べ変えられた前記演算により得られた各文字列の総計値を画面に表示する手段をさらに有する請求項1に記載の類似文字列検出装置。
- 前記グループ化された前記複数の文字列と前記総計値を画面に表示する手段をさらに有する請求項1又は2に記載の類似文字列検出装置。
- 複数の文字列データに対して文字単位で、文字コードに変換するステップと、
前記複数の文字列データの各文字列について前記変換されて得られた文字コードを所定の演算式により演算し、総計値を求めるステップと、
前記各文字列の前記総計値を昇順あるいは降順で並べ変えることにより、前記各文字列の前記総計値をソーティングするステップと、
前記ソーティングされて並べ変えられた前記各文字列の総計値に対して、隣り合う文字列の総計値同士の差分を得る差分生成ステップと、
前記ソーティングされて並べ変えられた前記演算により得られた各文字列の前記総計値の平均と各前記総計値との距離を算出し、算出した値で前記差分を除算した数値を重み付きの差分とする重み付きの差分生成ステップと、
前記ソーティングされて並べ変えられた前記演算により得られた各文字列の前記総計値の最大値から前記総計値の最小値を減算して得られた数値を前記文字列の数で除算して得られた平均的な前記総計値の間隔を前記総計値の標準偏差で除算して得られた値を閾値として生成する閾値生成ステップと、
前記総計値に対して、前記重み付きの差分が前記閾値以上かあるいは前記閾値未満かを判断して前記複数の文字列をグループ化するステップとを、
有する類似文字列検出方法。 - 複数の文字列データに対して文字単位で、文字コードに変換するステップと、
前記複数の文字列データの各文字列について前記変換されて得られた文字コードを所定の演算式により演算し、総計値を求めるステップと、
前記各文字列の前記総計値を昇順あるいは降順で並べ変えることにより、前記各文字列の前記総計値をソーティングするステップと、
前記ソーティングされて並べ変えられた前記各文字列の総計値に対して、隣り合う文字列の総計値同士の差分を得る差分生成ステップと、
前記ソーティングされて並べ変えられた前記演算により得られた各文字列の前記総計値の平均と各前記総計値との距離を算出し、算出した値で前記差分を除算した数値を重み付きの差分とする重み付きの差分生成ステップと、
前記ソーティングされて並べ変えられた前記演算により得られた各文字列の前記総計値の最大値から前記総計値の最小値を減算して得られた数値を前記文字列の数で除算して得られた平均的な前記総計値の間隔を前記総計値の標準偏差で除算して得られた値を閾値として生成する閾値生成ステップと、
前記総計値に対して、前記重み付きの差分が前記閾値以上かあるいは前記閾値未満かを判断して前記複数の文字列をグループ化するステップとを、
有する類似文字列検出方法をコンピュータにより実行させるための類似文字列検出プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016167611A JP7007793B2 (ja) | 2016-08-30 | 2016-08-30 | 類似文字列検出装置及び類似文字列検出方法並びに類似文字列検出プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016167611A JP7007793B2 (ja) | 2016-08-30 | 2016-08-30 | 類似文字列検出装置及び類似文字列検出方法並びに類似文字列検出プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018036744A JP2018036744A (ja) | 2018-03-08 |
| JP7007793B2 true JP7007793B2 (ja) | 2022-01-25 |
Family
ID=61565809
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016167611A Active JP7007793B2 (ja) | 2016-08-30 | 2016-08-30 | 類似文字列検出装置及び類似文字列検出方法並びに類似文字列検出プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7007793B2 (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111832304B (zh) * | 2020-06-29 | 2024-02-27 | 上海巧房信息科技有限公司 | 楼盘名称的查重方法、装置、电子设备及存储介质 |
| JPWO2024116381A1 (ja) * | 2022-12-01 | 2024-06-06 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003248689A (ja) | 2002-02-26 | 2003-09-05 | Just Syst Corp | 選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム |
| WO2014171519A1 (ja) | 2013-04-17 | 2014-10-23 | アイビーリサーチ株式会社 | 誤記検出装置及び記録媒体 |
| JP2015069393A (ja) | 2013-09-27 | 2015-04-13 | 株式会社東芝 | 文書データ比較方法、文書データ比較装置、及び文書データ比較プログラム |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07225763A (ja) * | 1994-02-10 | 1995-08-22 | Fujitsu Ltd | 文書処理装置 |
-
2016
- 2016-08-30 JP JP2016167611A patent/JP7007793B2/ja active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003248689A (ja) | 2002-02-26 | 2003-09-05 | Just Syst Corp | 選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム |
| WO2014171519A1 (ja) | 2013-04-17 | 2014-10-23 | アイビーリサーチ株式会社 | 誤記検出装置及び記録媒体 |
| US20150339279A1 (en) | 2013-04-17 | 2015-11-26 | I.B.Research Inc. | Typing error detecting device and recording medium |
| JP2015069393A (ja) | 2013-09-27 | 2015-04-13 | 株式会社東芝 | 文書データ比較方法、文書データ比較装置、及び文書データ比較プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2018036744A (ja) | 2018-03-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8190613B2 (en) | System, method and program for creating index for database | |
| US9342585B2 (en) | Text searching method and device and text processor | |
| CN107861949B (zh) | 文本关键词的提取方法、装置及电子设备 | |
| WO2012169128A1 (ja) | 表記ゆれ検出装置及び表記ゆれ検出プログラム | |
| CN105653553B (zh) | 词权重生成方法和装置 | |
| CN111373386A (zh) | 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序 | |
| US9753928B1 (en) | System and method for identifying delimiters in a computer file | |
| JP7007793B2 (ja) | 類似文字列検出装置及び類似文字列検出方法並びに類似文字列検出プログラム | |
| CN114385688B (zh) | 一种应用程序接口api推荐方法及装置 | |
| JP2020021455A5 (ja) | ||
| US9842112B1 (en) | System and method for identifying fields in a file using examples in the file received from a user | |
| US8700997B1 (en) | Method and apparatus for spellchecking source code | |
| US9965546B2 (en) | Fast substring fulltext search | |
| CN103136166B (zh) | 字体确定方法和设备 | |
| JPH06290217A (ja) | 文書検索方式 | |
| CN112487159A (zh) | 检索方法、检索装置及计算机可读存储介质 | |
| JP5491446B2 (ja) | 話題語獲得装置、方法、及びプログラム | |
| JP4301496B2 (ja) | データベース検索装置、データベース検索方法およびプログラム | |
| US12443663B2 (en) | Chunking execution system, chunking execution method, and information storage medium | |
| JP5271526B2 (ja) | 商標検索システム及び商標検索サーバ | |
| JP2020181332A (ja) | 高精度類似画像検索方法、プログラム及び高精度類似画像検索装置 | |
| KR102215580B1 (ko) | 스타일 속성에 기반하여 문서에 대한 중요 키워드를 선정하는 전자 장치 및 그 동작 방법 | |
| JP2010211660A5 (ja) | ||
| JP2009181524A (ja) | 文書検索システム及び文書検索方法 | |
| KR101077982B1 (ko) | 동적 임계값이 적용된 문서 브라우징 장치 및 방법 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20160830 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160831 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190815 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200713 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200908 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201102 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210506 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210702 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211214 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220107 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7007793 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |




