JPH04215182A - デ−タ名付与登録装置 - Google Patents

デ−タ名付与登録装置

Info

Publication number
JPH04215182A
JPH04215182A JP2410088A JP41008890A JPH04215182A JP H04215182 A JPH04215182 A JP H04215182A JP 2410088 A JP2410088 A JP 2410088A JP 41008890 A JP41008890 A JP 41008890A JP H04215182 A JPH04215182 A JP H04215182A
Authority
JP
Japan
Prior art keywords
word
data item
words
module
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2410088A
Other languages
English (en)
Other versions
JP2500680B2 (ja
Inventor
Masaru Nakagawa
優 中川
Jun Sekine
関根 純
Hiroki Machihara
宏毅 町原
Mitsuru Kawashita
川下 満
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2410088A priority Critical patent/JP2500680B2/ja
Publication of JPH04215182A publication Critical patent/JPH04215182A/ja
Application granted granted Critical
Publication of JP2500680B2 publication Critical patent/JP2500680B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、利用者の判断によらず
に、一意性を保持してデ−タ名の標準化が可能な計算機
システムにおけるデ−タ名付与標準化装置に関するもの
である。
【0002】
【従来の技術】機械翻訳システム、キ−ワ−ド自動抽出
システム、文書デ−タベ−スの知的検索システム、報告
書自動生成システム、あるいは文書作成支援システム等
では、デ−タ名を標準化して登録しないと、同じ対象物
に対して種々の用語で翻訳されたり、異なる検索文書等
が抽出されて、利用者やこれを読む側に混乱が生じるた
め、デ−タ名の標準化は重要である。従来より、デ−タ
名を標準化する装置としてデ−タ名付与登録装置が開発
されていた。このデ−タ名付与登録装置は、辞書や文法
規則を用いて複合語解析を行った後、さらに部分一致検
索により関連する語句を検出することによって、デ−タ
名の標準化を行っていた。なお、データ名付与登録装置
に関する文献としては、例えば、William  R
.  Durell著、味村重臣監修IRM研完全訳『
データ資源管理』日経マグロウヒル社昭62.1.27
、第3章P.57〜に記載されている。
【0003】
【発明が解決しようとする課題】従来のデ−タ名付与登
録装置では、文法規則を用いた複合語解析により得られ
る複数の語句分解候補を基に、対象となる用語に対して
、利用者が適切に選択する必要がある。しかし、その選
定基準の設定が困難であるため、人により種々の選択が
なされてしまう。また、語句の構成を決定する場合に使
用される部分一致検索においても、検索条件となる語句
の分類、出現位置等にかまわずに関連する語句を抽出す
るため、不要な大量候補を出力することになる。このた
めに、従来のデ−タ名付与登録装置を用いてデ−タ名の
付与を行った場合には、利用者の判断により異なる候補
を選択する箇所が生じ、大規模システムでは、全体とし
ての一意性が保持できなくなるという問題があった。
【0004】本発明の目的は、このような従来の課題を
解決し、利用者の判断によって異なる候補が選択される
のを防止でき、かつ装置の能力を増加して操作性および
効率性を向上することができるデ−タ名付与登録装置を
提供することにある。
【0005】
【課題を解決するための手段】上記目的を達成するため
、本発明のデ−タ名付与登録装置は、使用する単語と該
単語の分類を定義する基本単語表(図1の7)、複合語
に関する構成単語を記述する複合語表(図1の8)、デ
−タ項目の標準化を行うための語句構成規則表(図1の
9)、既存のデ−タ項目を格納するデ−タ項目管理表(
図1の10)、および類似用語間の関係を整理した標準
語対応表(図1の11)を具備するとともに、基本単語
表と複合語表をもとに入力された語句を基本単語に分解
する語句分解モジュ−ル(図1の1)、語句分解モジュ
−ルによる分解が失敗したとき、入力語句を基本単語表
に登録する未知語登録モジュ−ル(図1の2)、入力語
句に関する分類の情報と、入力語句の配列に基づく語句
構成規則表に従って、入力語句がデ−タ項目として妥当
か否かを確認する語句構成確認モジュ−ル(図1の3)
、語句構成確認モジュ−ルにより規則に違反すると判断
されたとき、デ−タ項目管理表を検索して、優先付けし
た分類に基づき欠落している語句に関する情報を抽出す
る類似語句検索モジュ−ル(図1の4)、語句構成規則
を満足した入力語句内の基本単語を、標準語対応表内の
標準用語に対応付ける語句標準化モジュ−ル(図1の5
)、および入力語句と対応する標準デ−タ項目をデ−タ
項目管理表に蓄積するデ−タ項目生成モジュ−ル(図1
の6)を具備することに特徴がある。
【0006】
【作用】本発明においては、デ−タ項目を構成する語句
に関して、関連する分野の語句を蓄積した基本単語表、
および複合語分解表を活用することにより、入力語句の
分解候補を最小の数、つまり殆んど一意にすることがで
きる。また、基本単語内の分類情報の活用、および複合
語に関する語句の構成上の特徴を捉えた語句構元規則と
して、語句の分類とその語句の出現する位置に優先順を
与えることにより、デ−タ項目の生成に関する明快な付
与基準を設定することができる。また、語句構成規則に
より生成したデ−タ項目表を、提案する類似語句検索モ
ジュ−ルを用いて検索することにより、関連するデ−タ
項目(語句)の抽出を容易にして、入力語句の修正を確
実に行うことができる。さらに、デ−タ項目生成モジュ
−ルにより出力したデ−タ項目をデ−タ項目管理表に順
次蓄積することによって、知識量が増加し、より知的な
登録システムに変化することができる。
【0007】
【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図1は、本発明の一実施例を示すデ−タ名付
与登録装置の全体ブロック図である。本発明のデ−タ名
付与登録装置は、図1に示すように、語句分割モジュ−
ル1、未知語登録モジュ−ル2、語句構成確認モジュ−
ル3、類似語句検索モジュ−ル4、語句標準化モジュ−
ル5、およびデ−タ項目生成モジュ−ル6の6個のプロ
グラムモジュ−ルと、基本単語表7、複合語表8、語句
構成規則表9、デ−タ項目管理表10、および標準語対
応表11の5つの表テ−ブルから構成される。基本単語
表7は、入力の対象となる世界の基本単語とその分類を
示す情報からなり、複合語表8は、略称等の複合語とそ
の構成単語列からなり、標準語対応表11は、類似用語
間の関係を整理した表からなり、語句構成規則表9は、
デ−タ項目の標準化を実現するために設けられた規則で
あって、語句を構成する規則からなるが、使用してはな
らない禁止語を定義した禁止語表を含んでもよい。デ−
タ項目管理表10は、既存のデ−タ項目を格納するため
に設けられる。語句分解モジュ−ル1により、基本単語
表7を参照して、利用者が入力する入力語句から、構成
される単語およびその分類情報を抽出する。入力語句に
複合語があれば、複合語表8により基本単語に分解する
。禁止語や未知語を検出した場合には、未知語登録モジ
ュ−ル2により新規の単語の登録を実施し、その後に入
力語句の再入力を指示する。語句構成確認モジュ−ル2
は、語句構成規則表9を用いて入力語句における語句の
分類情報の並びが規則に適合することを確認する。  
類似語句検索モジュ−ル4は、語句構成確認モジュ−ル
3により構成誤りが検出されたとき、デ−タ項目管理表
10に格納されている既存のデ−タ項目を検索して、修
正あるいは追加すべき語句を類推し、入力語句の再入力
を指示する。入力語順が語句構成規則に適合したならば
、語句構成化モジュ−ル5により、類似用語間の関係を
整理した標準語対応表11を検索し、入力語句の標準化
を実行する。最後に、デ−タ項目生成モジュ−ル6によ
り、該当する入力語句をデ−タ項目管理表10に格納す
る。
【0008】図7は、図1における動作フロ−チャ−ト
である。利用者が本発明のデ−タ名付与登録装置に語句
を入力すると、先ず、語句分割モジュ−ル1が、基本単
語表7に保持されている語句と照合を行い、該当する語
句とその分類を抽出する(ステップ101)。基本単語
表7との照合に失敗した語句は、未知語と解釈し、未知
語登録モジュ−ル2に送られる(ステップ102)。未
知語登録モジュ−ル2では、その未知語と利用者が設定
する分類情報を基本単語表7に登録する(ステップ10
3)。ステップ101において、分類が複合語の場合(
ステップ104)、複合語表8により構成単語に分解し
、再度、語句分割モジュ−ル1に入力する。また、未知
語が複合語の場合には、複合語を構成する単語列を利用
者が付加して、複合語表8に登録する(ステップ105
)。語句分割モジュ−ル1では、その単語列を基本単語
表7の基本単語と照合し、不一致であれば、上記の処理
を繰り返す(ステップ101〜105)。基本単語表7
の基本単語と照合が成功した時点で、語句の新規登録が
完了する。  基本単語表7で正常処理された入力語句
とその分類情報は、語句構成確認モジュ−ル3に送られ
る。語句構成確認モジュ−ル3では、上記分類情報とそ
の並びにもとづく語句構成規則表9を用いて、入力語句
がデ−タ項目としての構成条件を満たしているかを検査
する(ステップ106)。その構成条件を満たしていな
い場合には、その旨のメッセ−ジを出力するとともに、
類似語句検索モジュ−ル4にその解析情報を送る。類似
語句検索モジュ−ル4では、語句の優先順に従って、既
に保持されたデ−タ項目管理表10中のデ−タ項目に対
して類似検索を実行し、関連する語句の候補を抽出して
出力する(ステップ107)。利用者は、この情報をも
とにして語句分割モジュ−ル1に再度入力を試みる。一
方、語句構成確認モジュ−ル3でデ−タ項目の条件を満
たしている入力語句は、語句標準化モジュ−ル5に送ら
れる。語句標準化モジュ−ル5では、類似用語間の関係
を整理した標準語対応表11をもとに、該当する入力語
句の標準語を抽出する(ステップ108)。このデ−タ
項目と対応する標準語の列は、デ−タ項目生成モジュ−
ル6に送られる。デ−タ項目生成モジュ−ル6では、該
当する用語を標準語に置き換えることにより、標準デ−
タ項目を生成し、該当するデ−タ項目とともにデ−タ項
目管理表10にこれを登録する(ステップ109)。
【0009】図2は、図1における基本単語表に保持さ
れる用語およびその分類例を示す図であり、図3は、同
じく複合語表に保持される構成語句の図であり、図4は
、同じく語句構成規則表に保持される規則の図であり、
図5は、同じく標準語対応表に保持される用語と標準用
語の図であり、図6は、同じくデ−タ項目管理表に保持
されている同一デ−タ項目の図である。基本単語表7に
は、図2に示すような用語と分類が保持されている。複
合語表8には、図3に示すような複合語と語構成が保持
されていると仮定する。図2の区分語、主要語、および
修飾語の分類は、語句構成規則表9で活用される。いま
、利用者が『加入者電番』という語句を入力した場合の
動作について説明する。語句分割モジュ−ル1では、図
2の基本単語表7の用語と照合して、(加入者,主要語
)、(電番,複合語)を得る。複合語が見つかったので
、図3の複合語表8の各複合語と照合し、(電番:電話
,番号)を得た後、再度、図2の基本単語表7の用語と
照合する。その結果、『加入者電番』に対して、(加入
者,主要語),(電話,主要語),(番号,区分語)を
得る。未知語が検出されなかったので、次に語句構成モ
ジュ−ル3に上記情報を入力する。語句構成モジュ−ル
3では、『加入者電話番号』を図4の語句構成規則表9
に適合するか否かを確認する。『番号』なる区分語が1
度だけ、かつ右端に出現しているので、規則1を満足す
る。『電話』と『加入者』なる主要語がその区分語の左
に2度出現しているので、規則2を満足する。また、修
飾語が出現しないので、規則3も満足する。全規則が満
足されるため、語句構成が正しいと認識されて、次の語
句標準化モジュ−ル5にその解析情報が入力される。語
句標準化モジュ−ル5では、図5の標準語対応表10の
用語と照合し、対応する標準用語を抽出する。『加入者
電話番号』の例では、標準用語として(お客様,電話,
番号)が抽出される。次のデ−タ項目生成モジュ−ル6
には、標準デ−タ項目名の『お客様電話番号』とその入
力となった入力語句(デ−タ項目名)の『加入者電番』
が送られる。デ−タ項目生成モジュ−ル6では、図6の
デ−タ項目管理表11を照合し、該当する標準デ−タ項
目『お客様電話番号』が既に存在するので、これは登録
しない。次に同一デ−タ項目に『加入者電番』が存在す
るか照合する。この場合には、図6に該当項目がないの
で、『加入者電番』を同一デ−タ項目欄に追加し、登録
処理を完了する。
【0010】このように、本発明においては、語句分割
モジュ−ル1と未知語登録モジュ−ル2を設定している
ので、対象分野に関する用語の登録とその分類基準の設
定が整備され、入力された複合語句の解析も効率よく実
行できる。また、語句確認モジュ−ル3と類似語句検索
モジュ−ル4を設けているので、不適合な入力語句に対
しても、規則的に作成された既存のデ−タ項目を類似検
索することにより、関連する語句およびその出現位置に
関する情報が得られ、標準デ−タ項目の生成を容易に実
現できる。また、語句標準化モジュ−ル5を設けている
ので、用語、およびデ−タ項目の保持が大量になるに伴
って、未登録デ−タが減少し、登録装置の能力が増加す
る。
【0011】
【発明の効果】以上説明したように、本発明によれば、
標準デ−タ項目を容易に生成でき、利用者の判断によっ
て異なる候補を選択することがなくなり、かつ登録装置
の能力を増加できるとともに、デ−タ名付与登録装置の
操作性および効率性を向上させることができる。
【0012】
【図面の簡単な説明】
【図1】本発明の一実施例を示すデ−タ名付与登録装置
の全体ブロック図である。
【図2】図1における基本単語表に保持される用語およ
びその分類例を示す図である。
【図3】図1における複合語表に保持される用語の例を
示す図である。
【図4】図1における語句構成規則表の例を示す図であ
る。
【図5】図1における標準語対応表の例を示す図である
【図6】図1におけるデ−タ項目管理表の例を示す図で
ある。
【図7】図1のデ−タ名付与登録装置の動作フロ−チャ
−トである。
【符号の説明】
1  語句分割モジュ−ル 2  未知語登録モジュ−ル 3  語句構成確認モジュ−ル 4  類似語句検索モジュ−ル 5  語句標準化モジュ−ル 6  デ−タ項目生成モジュ−ル 7  基本単語表 8  複合語表 9  語句構成規則表 10  デ−タ項目管理表 11  標準語対応表

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】語句を入力して、該語句を基本に標準デ−
    タ項目名を生成するデ−タ名付与登録装置において、使
    用する単語と該単語の分類を定義する基本単語表、複合
    語に関する構成単語を記述する複合語表、デ−タ項目の
    標準化を行うための語句構成規則表、既存のデ−タ項目
    を格納するデ−タ項目管理表、および類似用語間の関係
    を整理した標準語対応表を具備するとともに、上記基本
    単語表と複合語表をもとに入力された語句を基本単語に
    分解する語句分解モジュ−ル、該語句分解モジュ−ルに
    よる分解が失敗したとき、該入力語句を上記基本単語表
    に登録する未知語登録モジュ−ル、該入力語句に関する
    分類の情報と、該入力語句の配列に基づく上記語句構成
    規則表に従って、該入力語句がデ−タ項目として妥当か
    否かを確認する語句構成確認モジュ−ル、該語句構成確
    認モジュ−ルにより規則に違反すると判断されたとき、
    上記デ−タ項目管理表を検索して、優先付けした分類に
    基づき欠落している語句に関する情報を抽出する類似語
    句検索モジュ−ル、語句構成規則を満足した入力語句内
    の基本単語を、上記標準語対応表内の標準用語に対応付
    ける語句標準化モジュ−ル、および該入力語句と対応す
    る標準デ−タ項目を上記デ−タ項目管理表に蓄積するデ
    −タ項目生成モジュ−ルを具備することを特徴とするデ
    −タ名付与登録装置。
JP2410088A 1990-12-13 1990-12-13 デ−タ名付与登録装置 Expired - Lifetime JP2500680B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2410088A JP2500680B2 (ja) 1990-12-13 1990-12-13 デ−タ名付与登録装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2410088A JP2500680B2 (ja) 1990-12-13 1990-12-13 デ−タ名付与登録装置

Publications (2)

Publication Number Publication Date
JPH04215182A true JPH04215182A (ja) 1992-08-05
JP2500680B2 JP2500680B2 (ja) 1996-05-29

Family

ID=18519316

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2410088A Expired - Lifetime JP2500680B2 (ja) 1990-12-13 1990-12-13 デ−タ名付与登録装置

Country Status (1)

Country Link
JP (1) JP2500680B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003256462A (ja) * 2002-03-04 2003-09-12 Hitachi Ltd コード化システムおよびコード化プログラム
JP2016031572A (ja) * 2014-07-28 2016-03-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム
JP2019200578A (ja) * 2018-05-16 2019-11-21 三菱電機株式会社 データベース構成管理装置
JP2020060988A (ja) * 2018-10-11 2020-04-16 株式会社日立製作所 名称マッチング装置及び方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003256462A (ja) * 2002-03-04 2003-09-12 Hitachi Ltd コード化システムおよびコード化プログラム
JP2016031572A (ja) * 2014-07-28 2016-03-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム
US10198426B2 (en) 2014-07-28 2019-02-05 International Business Machines Corporation Method, system, and computer program product for dividing a term with appropriate granularity
JP2019200578A (ja) * 2018-05-16 2019-11-21 三菱電機株式会社 データベース構成管理装置
JP2020060988A (ja) * 2018-10-11 2020-04-16 株式会社日立製作所 名称マッチング装置及び方法

Also Published As

Publication number Publication date
JP2500680B2 (ja) 1996-05-29

Similar Documents

Publication Publication Date Title
US5404507A (en) Apparatus and method for finding records in a database by formulating a query using equivalent terms which correspond to terms in the input query
US6874002B1 (en) System and method for normalizing a resume
US6496820B1 (en) Method and search method for structured documents
US6738759B1 (en) System and method for performing similarity searching using pointer optimization
US4497039A (en) Join operation processing system in relational model
US7260570B2 (en) Retrieving matching documents by queries in any national language
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US20030217071A1 (en) Data processing method and system, program for realizing the method, and computer readable storage medium storing the program
US20040249796A1 (en) Query classification
CA2385570A1 (en) System and method for performing similarity searching
CN116431837B (zh) 基于大型语言模型和图网络模型的文档检索方法和装置
CN111460556A (zh) 图纸之间关联性的确定方法、装置、存储介质及终端
JP5994490B2 (ja) データ検索プログラム、データベース装置および情報処理システム
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
KR20060103165A (ko) 분류된 웹 사이트 검색 시스템 및 방법
JPH04215182A (ja) デ−タ名付与登録装置
CN115827715A (zh) 基于用户行为和设计层次树的搜索推荐列表生成系统
CN115879901B (zh) 一种智能人事自助服务平台
CN113536077A (zh) 一种移动app特定事件内容检测方法与装置
CN120353812A (zh) 冲突检测图谱构建方法、装置、计算机设备及存储介质
CN110321351A (zh) 一种基于模糊匹配的厂家名称规范方法
Buckley et al. Processing noisy structured textual data using a fuzzy matching approach: application to postal address errors
JPH1153383A (ja) 複数データベースの検索方法及びその検索プログラム等を記録した記録媒体
JPH10275159A (ja) 情報検索方法及び装置
JPH064571A (ja) 同義語定義装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090313

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090313

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100313

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110313

Year of fee payment: 15

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110313

Year of fee payment: 15