JPS6368972A - 未登録語処理方式 - Google Patents

未登録語処理方式

Info

Publication number
JPS6368972A
JPS6368972A JP61211586A JP21158686A JPS6368972A JP S6368972 A JPS6368972 A JP S6368972A JP 61211586 A JP61211586 A JP 61211586A JP 21158686 A JP21158686 A JP 21158686A JP S6368972 A JPS6368972 A JP S6368972A
Authority
JP
Japan
Prior art keywords
prefix
word
unregistered word
unregistered
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61211586A
Other languages
English (en)
Inventor
Hiroko Yoshinaka
吉中 裕子
Atsushi Okajima
岡島 惇
Tadao Furuya
古谷 忠雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61211586A priority Critical patent/JPS6368972A/ja
Publication of JPS6368972A publication Critical patent/JPS6368972A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、自然言語処理において、辞書に登録されてい
ない単語を、言語処理、例えば機械翻訳処理等の対象と
することのできる、未登録語処理方式に関する。
〔従来の技術〕
従来の言語処理方式では、与えられた文章中に辞書に登
録されていない単語があった場合に、その属性を決定す
ることが出来ないが為に、構文解析不能という事態が起
こった。その対策として上記未登録語に文法上推定され
る属性を逐次与え、その都度構文解析を行い、構文解析
が成功するまで上記属性を変えることを試行する方法(
特開昭58−175074 r構文分析方式」)や、上
記未登録語をCRTに表示し、同未登録語の情報をオペ
レータによって逐一人力する方法(特開昭58−175
0761自然言語処理装置J)などが考案された。
〔発明が解決しようとする問題点〕
上記の従来技術は、多量の文書を連続的に処理する場合
についての配慮がされておらず、その為、連続処理を行
う場合に以下の様な問題が起こった。
上記前者の方法では、推定された属性と構文解析上で成
功と見なされる為の属性とが一致するまで、属性を変え
る度ごとに構文解析を行わなければならず、その為に解
析時間が非常に増大した。また、上記後者の方法では、
オペレータが登録かべき属性をその全てに渡って点検す
ることが必要となり、このような情報入力は上記属性の
項目が増える程繁雑となるためオペレータの負担の増加
につながった。本発明は、文書処理を中断することなし
に上記問題点を解決し、構文解析処理部での誤りを少な
くすることを目的とする。
〔問題点を解決するための手段〕
本発明は上記の問題点を鑑み、言語処理対象の文章中に
おける未登録語に対し、上記未登録語の単語構造が持つ
情報をもとに、既に登録済みの情報を用いて同単語の属
性を推定して同単語と共に辞書に登録し、また推定され
る属性が唯一に決定されずに複数個得られた場合は、可
能性のある属性を全て上記単語と共に辞書に登録してそ
の後の構文解析中の多義解消部において属性を一つに決
定することにより、上記目的を達成する。
〔作用〕
本発明は、文章処理中における未登録語に、その単語構
造より推定した属性を付記することによって、文書処理
の続行を可能とするように動作する。それによって未登
録語による構文解析処理での失敗を少なくし、文書処理
の効率を向上させることができる。
〔実施例〕
以下、本発明の実施例を図面を参照して説明する。一実
施例として、英文の処理を行う際の未登録語処理方式に
ついて述べる。また、属性情報の一例として、本例では
品詞情報を例にとって説明する。
第2図は、本発明の一実施例の構成を示すブロック図で
ある。本図において、1はプロセッサ、2は接頭辞/接
尾辞テーブル、3は内部メモリ、4の辞書メモリ、5は
入力レジスタ、6は単語及びその属性の登録用辞書を表
している。未登録語処理は、第1図に示されるフローに
従って行われる。
文章中において発見された未登録語が、入力レジスタ4
から内部メモリ3内に入力されると、プロセッサ1は、
まず処理101として上記未登録語が接頭辞テーブル2
内の接眼辞を含むか否かを判断する。ここで、接頭辞テ
ーブル2の中には第3図のように属性情報として、接頭
辞、単語から接頭辞を除去した語基の品詞情報及び、語
基に接頭辞を付加した派生語の品詞情報が登録してある
判断の方法には、同単語の頭部文字と一致する接頭辞が
幾つかある場合、最も長いものを選択する最長一致法を
用いる。上記の方法によって同単語頭部の文字が予め定
められた接頭辞中の一つと同じであることが判明すると
、プロセッサ1は、処理102として、この接頭辞を除
去し、処理103として、先に述べた接頭辞テーブル2
の中の除去した接頭辞の属性情報を内部メモリ3の中の
上記未登録語に付与し、付与したことを示すフラグ工1
をセットする。そして、処理104として、として、接
頭辞を処理したことを示すために、フラグPをセットす
る。次にプロセッサ1は、処理105として、内部メモ
リ3内の接頭辞を除去した上記未登録語をキーワードと
して辞書メモリ4内に同キーワードが存在するか否かを
検索し、存在した場合、更に、処理1.06として、辞
書メモリ4内に付記している同キーワードと一致した単
語の品詞情報と、先に付与した内部メモリ3内の接頭辞
の語基の品詞情報とが一致するか否かを判断する。上記
の両方の情報が一致した場合、プロセッサ1は処理10
7として、登録用辞書6に上記未登録語と共に接頭辞と
キーワードより推定した属性として内部メモリ3に付与
した接頭辞の属性情報のうちの派生語の品詞情報を登録
し、フラグRをセットして、更に別の可能性の属性を探
す為に結合点2に移る。
上記未登録語と一致する接頭辞が接頭辞テーブル2内に
存在しなかった場合、或いは、上記未登録語から接頭辞
を除去した上記キーワードが辞書メモリ4内に存在しな
かった場合、或いは、辞書メモリ4内に存在した上記キ
ーワードの品詞情報が、内部メモリ3内の除去した接頭
辞の語基の品詞と一致しなかった場合にも結合点2に分
岐し、プロセッサ1は処理108として、内部メモリ3
内の上記未登録語が接尾辞を含んでいるか否かを判断す
る処理に移る。ここで用いる接尾辞テーブル2の中には
第4図のように属性情報として、接尾辞、単語から接尾
辞を除去した語基の品詞情報。
語基に接尾辞を付加した派生語の品詞情報及び、語尾処
理情報が登録されている。語尾処理情報とは、接尾辞を
除去した際の単語後部を再構成する為の情報で、(A)
は処理前、(B)は処理後の単語後部を示す。
処理108で最長一致法を用いて上記未登録語の単語後
部が予め接尾辞テーブル2内に定められた接尾辞の一つ
と同じであることが判明すると、プロセッサ1は処理1
09としてこの接尾辞を除去して、処理110として単
語後部を接尾辞テーブル2内の語尾処理情報によって再
構成する。次に、処理111として、接尾辞テーブル2
の中の除去した接尾辞の属性情報を内部メモリ3内の上
記未登録語に付与し、付与したことを示すフラグI2を
セットする。そして接尾辞を処理したことを示す為に処
理112として、フラグSをセットする。
内部メモリ3内の接尾辞を除去した上記未登録語を新に
キーワードとし、辞書メモリ4内に同キーワードが存在
するか否かをプロセッサ1は処理113として検索し、
存在した場合、更に処理114として、同キーワードと
一致した単語の辞書メモリ4内に付記Lノである品詞情
報と、先に除去した内部メモリ3内の接尾辞の語基の品
詞情報が一致するか否かを判断する。上記両方の情報が
一致した場合、プロセッサ1は処理115でフラグPを
セットしているか否かを判断する。セットしていれば、
処理116において登録用辞書6に上記未登録語と共に
接頭辞、接頭辞及びキーワードから推定した属性として
、内部メモリ3に付与した接尾辞の属性情報の内の派生
語の品詞情報とを登録してフラグRをセットし、更に別
の可能性の属性を探す為に結合点2に分岐する。フラグ
Pをセットしていなければ、処理117として、登録用
辞書6に上記未登録語と共に接尾辞とキーワードから推
定した属性として内部メモリ3に付与した接尾辞の属性
情報のうちの派生語の品詞情報を登録してフラグRをセ
ットし、更に別の可能性の属性を探す為に結合点2に分
岐する。
辞書メモリ4内に上記キーワードが存在しなかった場合
、或いは、上記キーワードと接尾辞の両肩性情報が一致
しなかった場合にも、結合点2に再分岐して、プロセッ
サ1は再度処理108によって同キーワードが更に接尾
辞を含んでいるか否かを判断し、含んでいれば同処理群
109〜117を繰り返し行う。
上記キーワードがもう接尾辞を含んでいない場合には結
合点4に分岐し、プロセッサ1は処理118として、そ
こまでの処理で接尾辞を除去していたか否かを判断する
。除去していた場合は処理119として、除去していた
接尾辞を元通りに付加して、続いて処理120でフラグ
Sをクリアした上、結合点2に分岐して、内部メモリ3
内の接尾辞を元通り付加した新キーワードと一致する付
加した接尾辞の次に長い接尾辞が接尾辞テーブル2内に
存在するか否かを再び処理108によって判断する。存
在すればプロセッサ1は同処理群109〜117を繰り
返し行う。
処理108で、前に除去した接尾辞の次に長い接尾辞が
存在しなければ、プロセッサ1は処理121として、フ
ラグPをセットしているか否かを判断する。セットして
いれば、処理122としてフラグPをクリアし、処理1
23とした接頭辞を除去していることを新たに示すフラ
グP2をセットした上、結合点1に分岐して、骨部メモ
リ3内の接尾辞だけを元通り付加した新キーワードの頭
部文字と一致する接頭辞が接頭辞テーブル2内に存在す
るか否かを処理101で判断し、存在した場合、同処理
群102〜125を繰り返し行う。
存在しなかった場合、プロセッサ1は処理124として
、前に接頭辞を除去していたか否かをフラグP2によっ
て判断する。除去していた場合、処理125において、
上記キーワードに除去した接頭辞を元通りに付加し、更
に処理126でフラグP2をクリアした」二で結合点1
に分岐して、接頭辞を元通りに付加した新キーワードと
一致する、付加した接頭辞の次に長い接頭辞が接頭辞テ
ーブル2内に存在するか否かを処理1. O]−で判断
する。
存在すればプロセッサ]−は処理群102〜126を繰
り返し行う。
存在しなかった場合、プロセッサ1は、キーワードの品
詞情報をも含めて推定した属性結果を登録しているか否
かを処理127としてフラグRをセットしているか否か
により判断する。フラグRをセットしていたら結合点9
に分岐して処理を終了する。
セットしていない場合、フラグ■1、フラグエ2をセッ
トしているか否かをプロセッサ1は処理128として判
断する。セットしていれば、処理129として、内部メ
モリ内に付与された接頭辞、接頭辞の属性情報の内、派
生語の品詞情報を上記未登録語の属性として、登録用辞
書6に上記未登録語と共に登録する。セットされていな
い場合、処理130として、固有名詞と推定し、固有名
詞としての属性情報を登録用辞書6に登録する。
ここで、rUNAccOUNTABLY  (アンアカ
ウンタブリイ)」なる単語が、未登録語として入力され
た場合の事例を以下に説明する。まず、入力レジスタ5
を通って内部メモリ3内に入力された同単語を、プロセ
ッサ1は処理101として、接頭辞テーブル2と比較し
、接頭辞rUN (アン)」が最長−教法によって接頭
辞テーブル2から選ばれる。
処理102において内部メモリ3内の未登録語rUNA
ccO[jNTABLY JからrUNJを除去する。
プロセッサ1は処理103で接頭辞rUNJを除去する
。プロセッサ1は処理103で接頭辞rU NJの属性
情報として第3図の(1)に示す情報群を内部メモリ3
に付与して、処理104でフラグエ1及びフラグPをセ
ットする。内部メモリ3内の上記未登録語から接頭辞r
UNJを除去したキーワードrAccOUNTABLY
  (アカウンタブリイ)」の辞書検索を処理105で
行う。同キーワードが辞書メモリ4内に存在しなければ
、結合点2に分岐し、処理108において接尾辞テーブ
ル2内から接尾辞FLY (リイ)」を選んだ処理10
9おいて同キーワードから除去して、処理110で語尾
を再構成する。処理111において接尾辞r L Y 
Jの属性情報として第4図の(1)に示す情報群を内部
メモリ3内に付与して、フラグ■2及びフラグSを処理
112でセットする。プロセッサ1は処理113として
、キーワードから接尾辞を除去し語尾を再構成した第二
のキーワードrAccOUNTABLY  (アカウン
タブリイ)」での辞書検索を行う。辞書メモリ4内に同
キーワードが存在しない場合、結合点2に分岐し、処理
108において再度、接尾辞テーブル2と比較する。同
処理群109〜112で、接尾辞rABLEJの属性情
報として第4図の(2)に示す属性情報群と第二のキー
ワードrAccOUNT  (アカウント)」を内部メ
モリ3に得る。同キーワードrAccO[jNT Jが
辞書メモリ4内に存在し、キーワードの品詞情報。
接頭辞、接尾辞の属性情報がうまく一致すれば、プロセ
ッサ1は処理116として、辞書メモリ4内の同単語の
属性情報と内部メモリ3内の除去した接頭辞又は接尾辞
の属性情報から上記未登録語の属性を登録用辞書6に登
録できる。第5図にキーワード、接頭辞、接尾辞の属性
情報と未登録語の属性推定例を示す。本図において、キ
ーワード。
接頭辞、接尾辞の下の文字列は各々の持つ品詞情報を示
し、→の左側は語基の品詞情報、右側は派生語の品詞情
報であって、その接頭辞又は、接尾辞を付加することに
よって扱う単語の品詞が左側から右側に変わることを示
す。また、もしもrAccOUNT Jが辞書メモリ4
内に存在しない場合は、処理129において、内部メモ
リ3内の除去した接頭辞又は接尾辞の属性情報のみから
上記未登録語を推定し、登録用辞書6に登録することと
なる。
本実施例では、接頭辞、接尾辞として文法的に意味を持
ったものを想定して記述したが、一般にある品詞が持っ
ている語尾の字面の特徴を属性推定の要因と見なすこと
もできる。例えば、〜ATEは、動詞、形容詞2名詞と
いったように複数個の品詞を推定すれば良い。ただし、
この場合は、語基の品詞情報は設定できないので、接尾
辞の意味等は付与できないことになるが、品詞のしぼり
込みの効果は実現できる。
〔発明の効果〕
以上、述べたように本発明によれば、未登録語に対して
単語及びその属性を記憶させた辞書メモリ、及び、接頭
辞、接尾辞とその各々の属性を記憶させて接頭辞テーブ
ル、接尾辞テーブルによって、同単語の属性を推定する
ことができ、これによって接頭辞、接尾辞付加の為に未
登録語となっていた単語による構文解析の失敗を無くす
ことができる。故に、未登録語出現による文書処理の中
断を少なくし、その作業性、処理効率の向上を図ること
ができる。また、未登録語解消処理を予め登録済みの属
性情報等を利用して行うので、簡易であり、オペレータ
に対する負担を減少することができる。
尚、本発明は、上述した実施例の属性の情報に限定され
るものではなく、属性の情報を細かく分類すれば、より
きめの細かい属性の付与を行うことができる。
【図面の簡単な説明】
第1図は本発明による未登録語処理方式の動作を示す流
れ線図である。第2図は本処理方式の幾つかの構成要素
を示すブロック図である。第3図接頭辞テーブルの一例
である。第4図は接尾辞テーブルの一例である。第5図
は同処理方式による未登録語の属性推定例を示す説明図
である。 1・・・プロセッサ、2・・・接頭辞/接尾辞テーブル
、3・・・内部メモリ、4・・・辞書メモリ、5・・・
入力レジ潟Z 口 第3 図 第40 第5固

Claims (1)

    【特許請求の範囲】
  1. 1、複数の単語とその属性等を登録してある辞書を用い
    て、与えられた自然言語の文章を処理する際に、辞書登
    録されていない単語、即ち未登録語の扱いにおいて、上
    記辞書内の未登録語の頭部及び後部を、予め登録済みの
    接頭辞テーブル及び接尾辞テーブルと比較する過程と、
    同未登録語と一致した接頭辞及び接尾辞を未登録語から
    削除して必要ならば語尾を再構成し改めて辞書検索する
    過程と、上記の過程によつて得られる接頭辞、接尾辞及
    び辞書検索に成功した単語の持つ各属性情報によつて上
    記未登録語の属性を推定する過程と、可能性のある複数
    の上記属性を上記未登録語と共に辞書に登録する過程と
    、複数の属性の多義解消を行いながら文章を解析する過
    程によつて、文書処理の続行を可能にすることを特徴と
    する未登録語処理方式。
JP61211586A 1986-09-10 1986-09-10 未登録語処理方式 Pending JPS6368972A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61211586A JPS6368972A (ja) 1986-09-10 1986-09-10 未登録語処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61211586A JPS6368972A (ja) 1986-09-10 1986-09-10 未登録語処理方式

Publications (1)

Publication Number Publication Date
JPS6368972A true JPS6368972A (ja) 1988-03-28

Family

ID=16608217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61211586A Pending JPS6368972A (ja) 1986-09-10 1986-09-10 未登録語処理方式

Country Status (1)

Country Link
JP (1) JPS6368972A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0371260A (ja) * 1989-08-10 1991-03-27 Nec Corp 複合語の辞書情報推定装置
JPH03105465A (ja) * 1989-09-19 1991-05-02 Nec Corp 複合語抽出装置
KR980004154A (ko) * 1996-06-29 1998-03-30 김광호 접두어를 이용한 전자 사전 및 그에 접합한 압축 및 검색 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0371260A (ja) * 1989-08-10 1991-03-27 Nec Corp 複合語の辞書情報推定装置
JPH03105465A (ja) * 1989-09-19 1991-05-02 Nec Corp 複合語抽出装置
KR980004154A (ko) * 1996-06-29 1998-03-30 김광호 접두어를 이용한 전자 사전 및 그에 접합한 압축 및 검색 방법

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPS6140672A (ja) 多品詞解消処理方式
JPH0567144A (ja) 前編集支援方法およびその装置
JPS6368972A (ja) 未登録語処理方式
KR19990042430A (ko) 문장의 구조정보를 이용한 명사구 추출장치 및 그 방법
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
KR100286649B1 (ko) 연어패턴에 기초한 어휘 변환방법
JP2002278963A (ja) 事例翻訳装置
JPH0773200A (ja) キーワード抽出方法
JP2897942B2 (ja) 日本語形態素解析システム及び形態素解析方式
JP2742059B2 (ja) 翻訳用辞書編集装置
JPS63136269A (ja) 自動翻訳装置
JPH03125264A (ja) キーワード抽出装置
JPH0540781A (ja) 日本語構文解析システム
JPH05233689A (ja) 文書自動要約方法
JPH05233686A (ja) 日本語処理装置
JPH04213164A (ja) 辞書引き方式
JPS63138465A (ja) 構文解析装置
JPH05135094A (ja) 言語解析装置
JPS62203276A (ja) 形態素解析装置
JPH02208775A (ja) 機械翻訳方式
JPH09160915A (ja) 自然言語の文脈的処理方式
JPS63136264A (ja) 機械翻訳装置
JPH05181900A (ja) 固有名詞処理装置