JP2500680B2 - デ−タ名付与登録装置 - Google Patents

デ−タ名付与登録装置

Info

Publication number
JP2500680B2
JP2500680B2 JP2410088A JP41008890A JP2500680B2 JP 2500680 B2 JP2500680 B2 JP 2500680B2 JP 2410088 A JP2410088 A JP 2410088A JP 41008890 A JP41008890 A JP 41008890A JP 2500680 B2 JP2500680 B2 JP 2500680B2
Authority
JP
Japan
Prior art keywords
word
phrase
module
input
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2410088A
Other languages
English (en)
Other versions
JPH04215182A (ja
Inventor
優 中川
純 関根
宏毅 町原
満 川下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2410088A priority Critical patent/JP2500680B2/ja
Publication of JPH04215182A publication Critical patent/JPH04215182A/ja
Application granted granted Critical
Publication of JP2500680B2 publication Critical patent/JP2500680B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、利用者の判断によらず
に、一意性を保持してデ−タ名の標準化が可能な計算機
システムにおけるデ−タ名付与標準化装置に関するもの
である。
【0002】
【従来の技術】機械翻訳システム、キ−ワ−ド自動抽出
システム、文書デ−タベ−スの知的検索システム、報告
書自動生成システム、あるいは文書作成支援システム等
では、デ−タ名を標準化して登録しないと、同じ対象物
に対して種々の用語で翻訳されたり、異なる検索文書等
が抽出されて、利用者やこれを読む側に混乱が生じるた
め、デ−タ名の標準化は重要である。従来より、デ−タ
名を標準化する装置としてデ−タ名付与登録装置が開発
されていた。このデ−タ名付与登録装置は、辞書や文法
規則を用いて複合語解析を行った後、さらに部分一致検
索により関連する語句を検出することによって、デ−タ
名の標準化を行っていた。なお、データ名付与登録装置
に関する文献としては、例えば、William R.
Durell著、味村重臣監修IRM研完全訳『デー
タ資源管理』日経マグロウヒル社昭62.1.27、第
3章P.57〜に記載されている。
【0003】
【発明が解決しようとする課題】従来のデ−タ名付与登
録装置では、文法規則を用いた複合語解析により得られ
る複数の語句分解候補を基に、対象となる用語に対し
て、利用者が適切に選択する必要がある。しかし、その
選定基準の設定が困難であるため、人により種々の選択
がなされてしまう。また、語句の構成を決定する場合に
使用される部分一致検索においても、検索条件となる語
句の分類、出現位置等にかまわずに関連する語句を抽出
するため、不要な大量候補を出力することになる。この
ために、従来のデ−タ名付与登録装置を用いてデ−タ名
の付与を行った場合には、利用者の判断により異なる候
補を選択する箇所が生じ、大規模システムでは、全体と
しての一意性が保持できなくなるという問題があった。
【0004】本発明の目的は、このような従来の課題を
解決し、利用者の判断によって異なる候補が選択される
のを防止でき、かつ装置の能力を増加して操作性および
効率性を向上することができるデ−タ名付与登録装置を
提供することにある。
【0005】
【課題を解決するための手段】上記目的を達成するた
め、本発明のデ−タ名付与登録装置は、使用する単語と
該単語の分類を定義する基本単語表(図1の7)、複合
語に関する構成単語を記述する複合語表(図1の8)、
デ−タ項目の標準化を行うための語句構成規則表(図1
の9)、既存のデ−タ項目を格納するデ−タ項目管理表
(図1の10)、および類似用語間の関係を整理した標
準語対応表(図1の11)を具備するとともに、基本単
語表と複合語表をもとに入力された語句を基本単語に分
解する語句分解モジュ−ル(図1の1)、語句分解モジ
ュ−ルによる分解が失敗したとき、入力語句を基本単語
表に登録する未知語登録モジュ−ル(図1の2)、入力
語句に関する分類の情報と、入力語句の配列に基づく語
句構成規則表に従って、入力語句がデ−タ項目として妥
当か否かを確認する語句構成確認モジュ−ル(図1の
3)、語句構成確認モジュ−ルにより規則に違反すると
判断されたとき、デ−タ項目管理表を検索して、優先付
けした分類に基づき欠落している語句に関する情報を抽
出する類似語句検索モジュ−ル(図1の4)、語句構成
規則を満足した入力語句内の基本単語を、標準語対応表
内の標準用語に対応付ける語句標準化モジュ−ル(図1
の5)、および入力語句と対応する標準デ−タ項目をデ
−タ項目管理表に蓄積するデ−タ項目生成モジュ−ル
(図1の6)を具備することに特徴がある。
【0006】
【作用】本発明においては、デ−タ項目を構成する語句
に関して、関連する分野の語句を蓄積した基本単語表、
および複合語分解表を活用することにより、入力語句の
分解候補を最小の数、つまり殆んど一意にすることがで
きる。また、基本単語内の分類情報の活用、および複合
語に関する語句の構成上の特徴を捉えた語句構元規則と
して、語句の分類とその語句の出現する位置に優先順を
与えることにより、デ−タ項目の生成に関する明快な付
与基準を設定することができる。また、語句構成規則に
より生成したデ−タ項目表を、提案する類似語句検索モ
ジュ−ルを用いて検索することにより、関連するデ−タ
項目(語句)の抽出を容易にして、入力語句の修正を確
実に行うことができる。さらに、デ−タ項目生成モジュ
−ルにより出力したデ−タ項目をデ−タ項目管理表に順
次蓄積することによって、知識量が増加し、より知的な
登録システムに変化することができる。
【0007】
【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図1は、本発明の一実施例を示すデ−タ名付
与登録装置の全体ブロック図である。本発明のデ−タ名
付与登録装置は、図1に示すように、語句分割モジュ−
ル1、未知語登録モジュ−ル2、語句構成確認モジュ−
ル3、類似語句検索モジュ−ル4、語句標準化モジュ−
ル5、およびデ−タ項目生成モジュ−ル6の6個のプロ
グラムモジュ−ルと、基本単語表7、複合語表8、語句
構成規則表9、デ−タ項目管理表10、および標準語対
応表11の5つの表テ−ブルから構成される。基本単語
表7は、入力の対象となる世界の基本単語とその分類を
示す情報からなり、複合語表8は、略称等の複合語とそ
の構成単語列からなり、標準語対応表11は、類似用語
間の関係を整理した表からなり、語句構成規則表9は、
デ−タ項目の標準化を実現するために設けられた規則で
あって、語句を構成する規則からなるが、使用してはな
らない禁止語を定義した禁止語表を含んでもよい。デ−
タ項目管理表10は、既存のデ−タ項目を格納するため
に設けられる。語句分解モジュ−ル1により、基本単語
表7を参照して、利用者が入力する入力語句から、構成
される単語およびその分類情報を抽出する。入力語句に
複合語があれば、複合語表8により基本単語に分解す
る。禁止語や未知語を検出した場合には、未知語登録モ
ジュ−ル2により新規の単語の登録を実施し、その後に
入力語句の再入力を指示する。語句構成確認モジュ−ル
2は、語句構成規則表9を用いて入力語句における語句
の分類情報の並びが規則に適合することを確認する。
類似語句検索モジュ−ル4は、語句構成確認モジュ−ル
3により構成誤りが検出されたとき、デ−タ項目管理表
10に格納されている既存のデ−タ項目を検索して、修
正あるいは追加すべき語句を類推し、入力語句の再入力
を指示する。入力語順が語句構成規則に適合したなら
ば、語句構成化モジュ−ル5により、類似用語間の関係
を整理した標準語対応表11を検索し、入力語句の標準
化を実行する。最後に、デ−タ項目生成モジュ−ル6に
より、該当する入力語句をデ−タ項目管理表10に格納
する。
【0008】図7は、図1における動作フロ−チャ−ト
である。利用者が本発明のデ−タ名付与登録装置に語句
を入力すると、先ず、語句分割モジュ−ル1が、基本単
語表7に保持されている語句と照合を行い、該当する語
句とその分類を抽出する(ステップ101)。基本単語表
7との照合に失敗した語句は、未知語と解釈し、未知語
登録モジュ−ル2に送られる(ステップ102)。未知語
登録モジュ−ル2では、その未知語と利用者が設定する
分類情報を基本単語表7に登録する(ステップ10
3)。ステップ101において、分類が複合語の場合
(ステップ104)、複合語表8により構成単語に分解
し、再度、語句分割モジュ−ル1に入力する。また、未
知語が複合語の場合には、複合語を構成する単語列を利
用者が付加して、複合語表8に登録する(ステップ10
5)。語句分割モジュ−ル1では、その単語列を基本単
語表7の基本単語と照合し、不一致であれば、上記の処
理を繰り返す(ステップ101〜105)。基本単語表
7の基本単語と照合が成功した時点で、語句の新規登録
が完了する。 基本単語表7で正常処理された入力語句
とその分類情報は、語句構成確認モジュ−ル3に送られ
る。語句構成確認モジュ−ル3では、上記分類情報とそ
の並びにもとづく語句構成規則表9を用いて、入力語句
がデ−タ項目としての構成条件を満たしているかを検査
する(ステップ106)。その構成条件を満たしていな
い場合には、その旨のメッセ−ジを出力するとともに、
類似語句検索モジュ−ル4にその解析情報を送る。類似
語句検索モジュ−ル4では、語句の優先順に従って、既
に保持されたデ−タ項目管理表10中のデ−タ項目に対
して類似検索を実行し、関連する語句の候補を抽出して
出力する(ステップ107)。利用者は、この情報をも
とにして語句分割モジュ−ル1に再度入力を試みる。一
方、語句構成確認モジュ−ル3でデ−タ項目の条件を満
たしている入力語句は、語句標準化モジュ−ル5に送ら
れる。語句標準化モジュ−ル5では、類似用語間の関係
を整理した標準語対応表11をもとに、該当する入力語
句の標準語を抽出する(ステップ108)。このデ−タ
項目と対応する標準語の列は、デ−タ項目生成モジュ−
ル6に送られる。デ−タ項目生成モジュ−ル6では、該
当する用語を標準語に置き換えることにより、標準デ−
タ項目を生成し、該当するデ−タ項目とともにデ−タ項
目管理表10にこれを登録する(ステップ109)。
【0009】図2は、図1における基本単語表に保持さ
れる用語およびその分類例を示す図であり、図3は、同
じく複合語表に保持される構成語句の図であり、図4
は、同じく語句構成規則表に保持される規則の図であ
り、図5は、同じく標準語対応表に保持される用語と標
準用語の図であり、図6は、同じくデ−タ項目管理表に
保持されている同一デ−タ項目の図である。基本単語表
7には、図2に示すような用語と分類が保持されてい
る。複合語表8には、図3に示すような複合語と語構成
が保持されていると仮定する。図2の区分語、主要語、
および修飾語の分類は、語句構成規則表9で活用され
る。いま、利用者が『加入者電番』という語句を入力し
た場合の動作について説明する。語句分割モジュ−ル1
では、図2の基本単語表7の用語と照合して、(加入
者,主要語)、(電番,複合語)を得る。複合語が見つ
かったので、図3の複合語表8の各複合語と照合し、
(電番:電話,番号)を得た後、再度、図2の基本単語
表7の用語と照合する。その結果、『加入者電番』に対
して、(加入者,主要語),(電話,主要語),(番
号,区分語)を得る。未知語が検出されなかったので、
次に語句構成モジュ−ル3に上記情報を入力する。語句
構成モジュ−ル3では、『加入者電話番号』を図4の語
句構成規則表9に適合するか否かを確認する。『番号』
なる区分語が1度だけ、かつ右端に出現しているので、
規則1を満足する。『電話』と『加入者』なる主要語が
その区分語の左に2度出現しているので、規則2を満足
する。また、修飾語が出現しないので、規則3も満足す
る。全規則が満足されるため、語句構成が正しいと認識
されて、次の語句標準化モジュ−ル5にその解析情報が
入力される。語句標準化モジュ−ル5では、図5の標準
語対応表10の用語と照合し、対応する標準用語を抽出
する。『加入者電話番号』の例では、標準用語として
(お客様,電話,番号)が抽出される。次のデ−タ項目
生成モジュ−ル6には、標準デ−タ項目名の『お客様電
話番号』とその入力となった入力語句(デ−タ項目名)
の『加入者電番』が送られる。デ−タ項目生成モジュ−
ル6では、図6のデ−タ項目管理表11を照合し、該当
する標準デ−タ項目『お客様電話番号』が既に存在する
ので、これは登録しない。次に同一デ−タ項目に『加入
者電番』が存在するか照合する。この場合には、図6に
該当項目がないので、『加入者電番』を同一デ−タ項目
欄に追加し、登録処理を完了する。
【0010】このように、本発明においては、語句分割
モジュ−ル1と未知語登録モジュ−ル2を設定している
ので、対象分野に関する用語の登録とその分類基準の設
定が整備され、入力された複合語句の解析も効率よく実
行できる。また、語句確認モジュ−ル3と類似語句検索
モジュ−ル4を設けているので、不適合な入力語句に対
しても、規則的に作成された既存のデ−タ項目を類似検
索することにより、関連する語句およびその出現位置に
関する情報が得られ、標準デ−タ項目の生成を容易に実
現できる。また、語句標準化モジュ−ル5を設けている
ので、用語、およびデ−タ項目の保持が大量になるに伴
って、未登録デ−タが減少し、登録装置の能力が増加す
る。
【0011】
【発明の効果】以上説明したように、本発明によれば、
標準デ−タ項目を容易に生成でき、利用者の判断によっ
て異なる候補を選択することがなくなり、かつ登録装置
の能力を増加できるとともに、デ−タ名付与登録装置の
操作性および効率性を向上させることができる。
【0012】
【図面の簡単な説明】
【図1】本発明の一実施例を示すデ−タ名付与登録装置
の全体ブロック図である。
【図2】図1における基本単語表に保持される用語およ
びその分類例を示す図である。
【図3】図1における複合語表に保持される用語の例を
示す図である。
【図4】図1における語句構成規則表の例を示す図であ
る。
【図5】図1における標準語対応表の例を示す図であ
る。
【図6】図1におけるデ−タ項目管理表の例を示す図で
ある。
【図7】図1のデ−タ名付与登録装置の動作フロ−チャ
−トである。
【符号の説明】
1 語句分割モジュ−ル 2 未知語登録モジュ−ル 3 語句構成確認モジュ−ル 4 類似語句検索モジュ−ル 5 語句標準化モジュ−ル 6 デ−タ項目生成モジュ−ル 7 基本単語表 8 複合語表 9 語句構成規則表 10 デ−タ項目管理表 11 標準語対応表
───────────────────────────────────────────────────── フロントページの続き (72)発明者 川下 満 東京都千代田区内幸町一丁目1番6号 日本電信電話株式会社内 (56)参考文献 特開 昭57−137965(JP,A) 特開 平2−176865(JP,A)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】語句を入力して、該語句を基本に標準デ−
    タ項目名を生成するデ−タ名付与登録装置において、使
    用する単語と該単語の分類を定義する基本単語表、複合
    語に関する構成単語を記述する複合語表、デ−タ項目の
    標準化を行うための語句構成規則表、既存のデ−タ項目
    を格納するデ−タ項目管理表、および類似用語間の関係
    を整理した標準語対応表を具備するとともに、上記基本
    単語表と複合語表をもとに入力された語句を基本単語に
    分解する語句分解モジュ−ル、該語句分解モジュ−ルに
    よる分解が失敗したとき、該入力語句を上記基本単語表
    に登録する未知語登録モジュ−ル、該入力語句に関する
    分類の情報と、該入力語句の配列に基づく上記語句構成
    規則表に従って、該入力語句がデ−タ項目として妥当か
    否かを確認する語句構成確認モジュ−ル、該語句構成確
    認モジュ−ルにより規則に違反すると判断されたとき、
    上記デ−タ項目管理表を検索して、優先付けした分類に
    基づき欠落している語句に関する情報を抽出する類似語
    句検索モジュ−ル、語句構成規則を満足した入力語句内
    の基本単語を、上記標準語対応表内の標準用語に対応付
    ける語句標準化モジュ−ル、および該入力語句と対応す
    る標準デ−タ項目を上記デ−タ項目管理表に蓄積するデ
    −タ項目生成モジュ−ルを具備することを特徴とするデ
    −タ名付与登録装置。
JP2410088A 1990-12-13 1990-12-13 デ−タ名付与登録装置 Expired - Lifetime JP2500680B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2410088A JP2500680B2 (ja) 1990-12-13 1990-12-13 デ−タ名付与登録装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2410088A JP2500680B2 (ja) 1990-12-13 1990-12-13 デ−タ名付与登録装置

Publications (2)

Publication Number Publication Date
JPH04215182A JPH04215182A (ja) 1992-08-05
JP2500680B2 true JP2500680B2 (ja) 1996-05-29

Family

ID=18519316

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2410088A Expired - Lifetime JP2500680B2 (ja) 1990-12-13 1990-12-13 デ−タ名付与登録装置

Country Status (1)

Country Link
JP (1) JP2500680B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4032775B2 (ja) * 2002-03-04 2008-01-16 株式会社日立製作所 コード化システムおよびプログラム
JP5979650B2 (ja) * 2014-07-28 2016-08-24 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム
JP6991100B2 (ja) * 2018-05-16 2022-01-12 三菱電機株式会社 データベース構成管理装置
JP7114433B2 (ja) * 2018-10-11 2022-08-08 株式会社日立製作所 名称マッチング装置及び方法

Also Published As

Publication number Publication date
JPH04215182A (ja) 1992-08-05

Similar Documents

Publication Publication Date Title
US5404507A (en) Apparatus and method for finding records in a database by formulating a query using equivalent terms which correspond to terms in the input query
JP3152871B2 (ja) ラティスをキーとした検索を行う辞書検索装置および方法
US5454105A (en) Document information search method and system
EP1396799B1 (en) Content management system
US6044375A (en) Automatic extraction of metadata using a neural network
KR100813806B1 (ko) 중심용어사전을 이용한 표제어의 중심용어 추출 방법 및그를 이용한 정보 검색 시스템 및 그 방법
JP2002312365A (ja) 文書画像検索装置
US20020174095A1 (en) Very-large-scale automatic categorizer for web content
US20030217071A1 (en) Data processing method and system, program for realizing the method, and computer readable storage medium storing the program
KR100627195B1 (ko) 광학문자인식으로 생성된 전자문서 검색방법 및 그 시스템
JPH07160389A (ja) データ入力ワークステーション
WO2006083939A2 (en) Prioritization of search responses system and method
JP2500680B2 (ja) デ−タ名付与登録装置
JP6470249B2 (ja) データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
US20040143574A1 (en) System and method for creating a data file for use in searching a database
JP2002251402A (ja) 文書検索方法及び文書検索装置
Buckley et al. Processing noisy structured textual data using a fuzzy matching approach: application to postal address errors
JP2821213B2 (ja) データベースのマッチング方法
CN110321351A (zh) 一种基于模糊匹配的厂家名称规范方法
JPH1153383A (ja) 複数データベースの検索方法及びその検索プログラム等を記録した記録媒体
JPH06195371A (ja) 未登録語獲得方式
EP0561364B1 (en) Document information search method and system
JP3477822B2 (ja) 文書登録検索システム
JP2001229177A (ja) 事例ベース構築方法、事例ベース構築装置及び事例ベース構築プログラムを記録した記録媒体

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090313

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090313

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100313

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110313

Year of fee payment: 15

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110313

Year of fee payment: 15