JP7601220B2 - 名称データ対応付け装置、名称データ対応付け方法及び名称データ対応付けプログラム - Google Patents
名称データ対応付け装置、名称データ対応付け方法及び名称データ対応付けプログラム Download PDFInfo
- Publication number
- JP7601220B2 JP7601220B2 JP2023527147A JP2023527147A JP7601220B2 JP 7601220 B2 JP7601220 B2 JP 7601220B2 JP 2023527147 A JP2023527147 A JP 2023527147A JP 2023527147 A JP2023527147 A JP 2023527147A JP 7601220 B2 JP7601220 B2 JP 7601220B2
- Authority
- JP
- Japan
- Prior art keywords
- path
- name data
- database
- building
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、この発明の一実施形態に係る名称データ対応付け装置の構成の一例を示すブロック図である。名称データ対応付け装置は、基礎データベース(図では、データベースをDBと略記する。)1、派生データベース2、グラフ作成部3、共通データ抽出部4、パス情報抽出部5、パス作成部6、対応付け部7及びデータ出力部8を有する。
次に、名称データ対応付け装置の動作を説明する。
gd: Ed→P(Vd) Edの元に頂点集合Vdの部分集合を対応させる写像。ただし、P(Vd)は頂点集合Vdの冪集合である
Gd :=(gd,Vd,Ed)
gc: Ec→P(Vc) Ecの元に頂点集合Vcの部分集合を対応させる写像。ただし、P(Vc)は頂点集合Vcの冪集合である
Gc :=(gc,Vc,Ec)
Γk[l]: Γkを構成する頂点のうちl番目の頂点 (第l要素)
|Γk|: パスΓkの長さ (パスΓkを構成する頂点の個数)
Γk=(sk,…,tk),
(Γk[l],Γk[l+1])∈Ec,
l∈{1,2,…,|Γk|}
1.全てのskに対してsk=dj,tk=dlを満たすdj∈Vd,dlが存在する。
2.パスΓkを構成する全ての辺は、Ecに存在する。
3.∀ci∈Vcは、いずれかのパスΓkに所属している。
Ik :=(Γk[i]|Γk[i]∈S,Γk[i]≠sk,i=1,2,…,|Γk|)
すなわち、プロセッサ101は、まず、上記ステップS3で抽出されたパス情報に基づいて、一つのパスΓkに対して、閉路グラフGcから集合Sの各要素を端点とする部分パス
すなわち、プロセッサ101は、まず、上記ステップS5で数え上げられた、パスの集合Ak iの中で、長さが|Lk i|のものがある場合、そのパスをαとする。この下で、以下のように名称の組み合わせを選出する(ステップS6)。
(Lk i[j],α[j]),j=1,2,…,|Lk i|
ただし、Lk i[j],α[j]は、各パスのj番目の頂点である。
2.長さ|Lk i|+xのパスを数え上げる。
3.数え上げた1パスの頂点の中から、既に対応付けできている名称を除く。
4.得られたパスの長さが|Lk i|より大きい場合、派生データベース2のビルBLcの内、未だ対応付けできていないビル(γビル)から、基礎データベース1のビルBLdへ、編集距離が最短であるビルを求める。例えば、γビルから編集距離が最短のビルとして、実線矢印で示すように、Cビルが探索され、対応付けされることができる。
5.x=x+1として、予めユーザが指定したxの上限値になるまで、上記2~4を繰り返す。
なお、編集距離が最短のビルBLdを探索する際には、破線矢印で示すように、既に対応付けされたビルBLdの次のビルから探索が開始される。
本実施形態の動作例として、適用した名称データの概要と結果を説明する。
・(福岡花園ビル、立子山ビル)
・(立子山ビル、福山伊達ビル)
・(福山伊達ビル、桑原ビル)
・(桑原ビル、福井藤田ビル)
・(福井藤田ビル、福地梁川ビル)
・(福地梁川ビル、保科ビル)
・(保科ビル、恐山ビル)
・(保科ビル、福岡花園ビル)
・(恐山ビル、福岡花園ビル)
・(恐山ビル、月舘ビル)
・(月舘ビル、福島川俣ビル)
・(福島川俣ビル、福岡花園ビル)
・(花園ビル→伊達ビル)
・(伊達ビル→桑原ビル)
・(桑原ビル→藤田ビル)
・(藤田ビル→梁川ビル)
・(梁川ビル→保科ビル)
・(保科ビル→恐山ビル)
・(恐山ビル→月館ビル)
・(月館ビル→川俣ビル)
・(川俣ビル→花園ビル)
Vc={福岡花園ビル、立子山ビル、福山伊達ビル、桑原ビル、福井藤田ビル、福地梁川ビル、保科ビル、恐山ビル、月舘ビル、福島川俣ビル}
Vd={花園ビル、伊達ビル、桑原ビル、藤田ビル、梁川ビル、保科ビル、恐山ビル、月館ビル、川俣ビル}
{(月舘ビル、月館ビル),(福島川俣ビル、川俣ビル),(福岡花園ビル、花園ビル),(福山伊達ビル、伊達ビル),(福井藤田ビル、藤田ビル),(福地梁川ビル、梁川ビル)}
S :={桑原ビル、保科ビル、恐山ビル}
L1 1 :=(桑原ビル、藤田ビル、梁川ビル、保科ビル)
L1 2 :=(保科ビル、恐山ビル)
L1 3 :=(恐山ビル、月館ビル、川俣ビル、花園ビル、伊達ビル、桑原ビル)
長さ3: (桑原ビル、福井藤田ビル、福地梁川ビル、保科ビル)
長さ4: (桑原ビル、福山伊達ビル、立子山ビル、福岡花園ビル、保科ビル)
となる。
(福井藤田ビル、藤田ビル)、(福地梁川ビル、梁川ビル)
の候補を得る。
「藤田ビル」に対し、候補:「福山伊達ビル」、「立子山ビル」、「福井藤田ビル」
「梁川ビル」に対し、候補:「福岡花園ビル」、「立子山ビル」、「福地梁川ビル」
が考えられる。
長さ5:該当なし
長さ6:(恐山ビル、月舘ビル、福島川俣ビル、福岡花園ビル、立子山ビル、福山伊達ビル、桑原ビル)
を得る。
(月舘ビル、月館ビル)、(福島川俣ビル、川俣ビル)、(福岡花園ビル、花園ビル)、(福山伊達ビル、伊達ビル)
の候補を得る。
(月舘ビル、月館ビル)、(福島川俣ビル、川俣ビル)、(福岡花園ビル、花園ビル)、(福山伊達ビル、伊達ビル)
は回答となる。
「藤田ビル」に対し、候補:「立子山ビル」、「福井藤田ビル」
「梁川ビル」に対し、候補:「立子山ビル」、「福地梁川ビル」
になる。ここで、「福岡花園ビル」と「福山伊達ビル」の候補がなくなったことから、
パス:(桑原ビル、福山伊達ビル、立子山ビル、福岡花園ビル、保科ビル)
は、部分パスL1 1の閉路グラフGdにおける対応パスにはなりえない。よって、「藤田ビル」及び「梁川ビル」の候補から「立子山ビル」も除外されるので、
(福井藤田ビル、藤田ビル)、(福地梁川ビル、梁川ビル)
を回答として得る。
前記一実施形態では、対象とするデータベースも2つの場合を例に説明したが、3つ以上であっても良い。すなわち、3つ以上のデータベースのうち、少なくとも1つのデータベースがパス識別情報を保持していれば、残りの2つ以上のデータベースとの間で名称データの対応付けを行うことが可能となる。
2…派生データベース
3…グラフ作成部
4…共通データ抽出部
5…パス情報抽出部
6…パス作成部
7…対応付け部
8…データ出力部
101…プロセッサ
102…プログラムメモリ
103…データメモリ
104…通信インタフェース
105…入出力インタフェース
106…バス
107…入力部
108…表示部
1031…基礎データベース記憶部
1032…派生データベース記憶部
1033…一時記憶部
1034…出力情報記憶部
Claims (8)
- 複数の名称データ及びそれら名称データの論理的または物理的な隣接関係を示す隣接情報を保持する第1のデータベースと、複数の名称データ、それら名称データの隣接情報及びそれら名称データが属するパスを表すパス識別情報を保持する第2のデータベースとの間で異なる表記を有する同義の名称データを対応付ける名称データ対応付け装置であって、
前記第1のデータベースと前記第2のデータベースとの間で同じ表記である名称データを共通データとして抽出する共通データ抽出部と、
前記第2のデータベースが保持する前記パス識別情報で表される前記パスから、前記共通データ抽出部が抽出した前記共通データを端点とし且つ非共通データを前記端点間の頂点とする部分パスを抽出し、前記第1のデータベースが保持する情報に基づいて、前記部分パスそれぞれについて、前記部分パスの前記端点と同じ共通データの端点を持ち且つ前記部分パスの長さ以上の長さを持つパスを作成するパス作成部と、
前記パス作成部が抽出した前記部分パスそれぞれについて、前記部分パス上の各頂点と前記パス作成部が作成した前記パス上の頂点との組み合わせを探索することで、前記第1のデータベースが保持する前記名称データと前記第2のデータベースが保持する前記名称データとを対応付ける対応付け部と、
を具備する、名称データ対応付け装置。 - 前記第1のデータベース及び前記第2のデータベースが保持する情報に基づいて、前記名称データを頂点とする前記第1のデータベース及び前記第2のデータベースの無向グラフを作成するグラフ作成部と、
前記グラフ作成部が作成した前記第2のデータベースの前記無向グラフと前記第2のデータベースが保持する前記パス識別情報とに基づいて、前記共通データ抽出部が抽出した前記共通データを端点とし且つ前記第2のデータベースが保持する前記名称データを頂点とする全てのパスを生成し、それらのパスそれぞれについて、頂点数、含まれる頂点の名称データ及びそのパス上の位置を含むパス情報を抽出するパス情報抽出部と、
をさらに具備し、
前記パス作成部は、前記パス情報抽出部が生成したパスの1つに対し、前記パス情報に基づいて、前記グラフ作成部が作成した前記第2のデータベースの前記無向グラフから前記部分パスを抽出し、前記部分パスそれぞれについて、前記第1のデータベースの前記無向グラフから、前記部分パスの前記端点と同じ共通データの端点を持ち且つ前記部分パスが有する頂点の頂点数以上の頂点を含むパスを作成する、請求項1に記載の名称データ対応付け装置。 - 前記パス作成部は、前記パスとして、前記頂点数以上であり且つ前記頂点数に対してユーザが指定した個数以下の頂点数を含むパスを作成する、請求項2に記載の名称データ対応付け装置。
- 前記対応付け部は、前記パス作成部が作成した前記パス上の前記頂点それぞれについて、
前記パス上の位置が前記部分パス上の前記頂点に対応する場合には、前記第1のデータベースが保持する前記名称データのうちの前記パス上の前記頂点に対応する名称データを、前記第2のデータベースが保持する前記名称データのうちの前記部分パス上の前記頂点の前記名称データに対応付け、
前記パス上の位置が前記部分パス上の前記頂点に対応しない場合には、名称データ同士の文字列類似度に基づいて、前記第1のデータベースが保持する前記名称データのうちの前記パス上の前記頂点に対応する名称データと、前記第2のデータベースが保持する前記名称データのうちの前記部分パス上の前記頂点の前記名称データとを対応付ける、
請求項1乃至3のいずれかに記載の名称データ対応付け装置。 - 前記パス作成部及び前記対応付け部は、前記パス情報抽出部が生成したパスの全てに対する処理が終了するまで、処理を繰り返す、請求項2または3に記載の名称データ対応付け装置。
- 前記対応付け部による対応付けの結果に基づいて、名称データの対応表を含む出力情報を生成する出力部をさらに具備する、請求項1乃至5のいずれかに記載の名称データ対応付け装置。
- プロセッサと、複数の名称データ及びそれら名称データの論理的または物理的な隣接関係を示す隣接情報を保持する第1のデータベースと、複数の名称データ、それら名称データの隣接情報及びそれら名称データが属するパスを表すパス識別情報を保持する第2のデータベースとを記憶したメモリと、を備え、前記第1のデータベースと前記第2のデータベースとの間で異なる表記を有する同義の名称データを対応付ける名称データ対応付け装置における名称データ対応付け方法であって、
前記プロセッサにより、前記メモリに記憶されている前記第1のデータベースと前記第2のデータベースとの間で同じ表記である名称データを共通データとして抽出し、
前記プロセッサにより、前記メモリに記憶されている前記第2のデータベースが保持する前記パス識別情報で表される前記パスから、前記抽出した前記共通データを端点とし且つ非共通データを前記端点間の頂点とする部分パスを抽出し、
前記プロセッサにより、前記メモリに記憶されている前記第1のデータベースが保持する情報に基づいて、前記抽出した前記部分パスそれぞれについて、前記部分パスの前記端点と同じ共通データの端点を持ち且つ前記部分パスの長さ以上の長さを持つパスを作成し、
前記プロセッサにより、前記抽出した前記部分パスそれぞれについて、前記部分パス上の各頂点と前記作成した前記パス上の頂点との組み合わせを探索することで、前記メモリに記憶されている前記第1のデータベースが保持する前記名称データと前記メモリに記憶されている前記第2のデータベースが保持する前記名称データとを対応付ける、
名称データ対応付け方法。 - 請求項1乃至6のいずれかに記載の名称データ対応付け装置の前記各部としてプロセッサを機能させる名称データ対応付けプログラム。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2021/021548 WO2022259303A1 (ja) | 2021-06-07 | 2021-06-07 | 名称データ対応付け装置、名称データ対応付け方法及び名称データ対応付けプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2022259303A1 JPWO2022259303A1 (ja) | 2022-12-15 |
| JP7601220B2 true JP7601220B2 (ja) | 2024-12-17 |
Family
ID=84424985
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023527147A Active JP7601220B2 (ja) | 2021-06-07 | 2021-06-07 | 名称データ対応付け装置、名称データ対応付け方法及び名称データ対応付けプログラム |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7601220B2 (ja) |
| WO (1) | WO2022259303A1 (ja) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001187477A (ja) | 1999-12-28 | 2001-07-10 | Ibm Japan Ltd | 階層リンク・テーブルを備えたデータベース・システム |
| JP2005011049A (ja) | 2003-06-19 | 2005-01-13 | Nec Soft Ltd | データベース統合装置 |
| JP2010134828A (ja) | 2008-12-08 | 2010-06-17 | Toshiba Corp | データベース合成装置、文字認識支援システム、及びデータベースの合成方法 |
| JP2017123062A (ja) | 2016-01-07 | 2017-07-13 | 富士通株式会社 | 関係情報生成方法、装置、及びプログラム |
| JP2019502995A (ja) | 2015-12-18 | 2019-01-31 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 類似用語集約方法及び装置 |
| JP2020064417A (ja) | 2018-10-16 | 2020-04-23 | Nttテクノクロス株式会社 | 管理装置、管理方法及びプログラム |
-
2021
- 2021-06-07 JP JP2023527147A patent/JP7601220B2/ja active Active
- 2021-06-07 WO PCT/JP2021/021548 patent/WO2022259303A1/ja not_active Ceased
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001187477A (ja) | 1999-12-28 | 2001-07-10 | Ibm Japan Ltd | 階層リンク・テーブルを備えたデータベース・システム |
| JP2005011049A (ja) | 2003-06-19 | 2005-01-13 | Nec Soft Ltd | データベース統合装置 |
| JP2010134828A (ja) | 2008-12-08 | 2010-06-17 | Toshiba Corp | データベース合成装置、文字認識支援システム、及びデータベースの合成方法 |
| JP2019502995A (ja) | 2015-12-18 | 2019-01-31 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 類似用語集約方法及び装置 |
| JP2017123062A (ja) | 2016-01-07 | 2017-07-13 | 富士通株式会社 | 関係情報生成方法、装置、及びプログラム |
| JP2020064417A (ja) | 2018-10-16 | 2020-04-23 | Nttテクノクロス株式会社 | 管理装置、管理方法及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2022259303A1 (ja) | 2022-12-15 |
| JPWO2022259303A1 (ja) | 2022-12-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108304378B (zh) | 文本相似度计算方法、装置、计算机设备和存储介质 | |
| US11397855B2 (en) | Data standardization rules generation | |
| CN113590737B (zh) | 基于知识图谱的事件数据处理方法、装置、设备和介质 | |
| CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
| CN107169021A (zh) | 用于预测应用功能标签的方法和设备 | |
| CN116467499B (zh) | 查询语句生成方法及装置 | |
| JP2021501387A (ja) | 自然言語処理のための表現を抽出するための方法、コンピュータ・プログラム及びコンピュータ・システム | |
| WO2019085118A1 (zh) | 基于主题模型的关联词分析方法、电子装置及存储介质 | |
| CN115700527A (zh) | 字符串相似度确定 | |
| CN117993493A (zh) | 基于事理图谱的剧本生成方法、装置、设备及存储介质 | |
| JP4237813B2 (ja) | 構造化文書管理システム | |
| WO2016112782A1 (zh) | 一种用户的生活圈提取方法及系统 | |
| CN103246642A (zh) | 信息处理装置以及信息处理方法 | |
| CN114780577B (zh) | Sql语句生成方法、装置、设备及存储介质 | |
| Alatawi et al. | The expansion of source code abbreviations using a language model | |
| JP7601220B2 (ja) | 名称データ対応付け装置、名称データ対応付け方法及び名称データ対応付けプログラム | |
| CN115310450A (zh) | 一种命名实体识别模型的训练方法和装置 | |
| CN119917674A (zh) | 基于带属性多层图模型的第三方库的表示查询和推荐方法 | |
| US9104755B2 (en) | Ontology enhancement method and system | |
| CN118152541A (zh) | 基于模型的信息问答方法、系统及相关产品 | |
| US11960541B2 (en) | Name data matching apparatus, and name data matching method and program | |
| JP7392841B2 (ja) | 名称データ対応付け装置、名称データ対応付け方法及びプログラム | |
| JP7392840B2 (ja) | 名称データ対応付け装置、名称データ対応付け方法及びプログラム | |
| US11687599B2 (en) | Data retrieving apparatus, method, and program | |
| US11868726B2 (en) | Named-entity extraction apparatus, method, and non-transitory computer readable storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231011 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241105 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241118 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7601220 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
