JPS6368972A

JPS6368972A - 未登録語処理方式

Info

Publication number: JPS6368972A
Application number: JP61211586A
Authority: JP
Inventors: Hiroko Yoshinaka; 吉中　裕子; Atsushi Okajima; 岡島　惇; Tadao Furuya; 古谷　忠雄
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1986-09-10
Filing date: 1986-09-10
Publication date: 1988-03-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、自然言語処理において、辞書に登録されてい
ない単語を、言語処理、例えば機械翻訳処理等の対象と
することのできる、未登録語処理方式に関する。

〔従来の技術〕

従来の言語処理方式では、与えられた文章中に辞書に登
録されていない単語があった場合に、その属性を決定す
ることが出来ないが為に、構文解析不能という事態が起
こった。その対策として上記未登録語に文法上推定され
る属性を逐次与え、その都度構文解析を行い、構文解析
が成功するまで上記属性を変えることを試行する方法（
特開昭５８−１７５０７４　ｒ構文分析方式」）や、上
記未登録語をＣＲＴに表示し、同未登録語の情報をオペ
レータによって逐一人力する方法（特開昭５８−１７５
０７６１自然言語処理装置Ｊ）などが考案された。

〔発明が解決しようとする問題点〕

上記の従来技術は、多量の文書を連続的に処理する場合
についての配慮がされておらず、その為、連続処理を行
う場合に以下の様な問題が起こった。

上記前者の方法では、推定された属性と構文解析上で成
功と見なされる為の属性とが一致するまで、属性を変え
る度ごとに構文解析を行わなければならず、その為に解
析時間が非常に増大した。また、上記後者の方法では、
オペレータが登録かべき属性をその全てに渡って点検す
ることが必要となり、このような情報入力は上記属性の
項目が増える程繁雑となるためオペレータの負担の増加
につながった。本発明は、文書処理を中断することなし
に上記問題点を解決し、構文解析処理部での誤りを少な
くすることを目的とする。

〔問題点を解決するための手段〕

本発明は上記の問題点を鑑み、言語処理対象の文章中に
おける未登録語に対し、上記未登録語の単語構造が持つ
情報をもとに、既に登録済みの情報を用いて同単語の属
性を推定して同単語と共に辞書に登録し、また推定され
る属性が唯一に決定されずに複数個得られた場合は、可
能性のある属性を全て上記単語と共に辞書に登録してそ
の後の構文解析中の多義解消部において属性を一つに決
定することにより、上記目的を達成する。

〔作用〕

本発明は、文章処理中における未登録語に、その単語構
造より推定した属性を付記することによって、文書処理
の続行を可能とするように動作する。それによって未登
録語による構文解析処理での失敗を少なくし、文書処理
の効率を向上させることができる。

〔実施例〕

以下、本発明の実施例を図面を参照して説明する。一実
施例として、英文の処理を行う際の未登録語処理方式に
ついて述べる。また、属性情報の一例として、本例では
品詞情報を例にとって説明する。

第２図は、本発明の一実施例の構成を示すブロック図で
ある。本図において、１はプロセッサ、２は接頭辞／接
尾辞テーブル、３は内部メモリ、４の辞書メモリ、５は
入力レジスタ、６は単語及びその属性の登録用辞書を表
している。未登録語処理は、第１図に示されるフローに
従って行われる。

文章中において発見された未登録語が、入力レジスタ４
から内部メモリ３内に入力されると、プロセッサ１は、
まず処理１０１として上記未登録語が接頭辞テーブル２
内の接眼辞を含むか否かを判断する。ここで、接頭辞テ
ーブル２の中には第３図のように属性情報として、接頭
辞、単語から接頭辞を除去した語基の品詞情報及び、語
基に接頭辞を付加した派生語の品詞情報が登録してある
。

判断の方法には、同単語の頭部文字と一致する接頭辞が
幾つかある場合、最も長いものを選択する最長一致法を
用いる。上記の方法によって同単語頭部の文字が予め定
められた接頭辞中の一つと同じであることが判明すると
、プロセッサ１は、処理１０２として、この接頭辞を除
去し、処理１０３として、先に述べた接頭辞テーブル２
の中の除去した接頭辞の属性情報を内部メモリ３の中の
上記未登録語に付与し、付与したことを示すフラグ工１
をセットする。そして、処理１０４として、として、接
頭辞を処理したことを示すために、フラグＰをセットす
る。次にプロセッサ１は、処理１０５として、内部メモ
リ３内の接頭辞を除去した上記未登録語をキーワードと
して辞書メモリ４内に同キーワードが存在するか否かを
検索し、存在した場合、更に、処理１．０６として、辞
書メモリ４内に付記している同キーワードと一致した単
語の品詞情報と、先に付与した内部メモリ３内の接頭辞
の語基の品詞情報とが一致するか否かを判断する。上記
の両方の情報が一致した場合、プロセッサ１は処理１０
７として、登録用辞書６に上記未登録語と共に接頭辞と
キーワードより推定した属性として内部メモリ３に付与
した接頭辞の属性情報のうちの派生語の品詞情報を登録
し、フラグＲをセットして、更に別の可能性の属性を探
す為に結合点２に移る。

上記未登録語と一致する接頭辞が接頭辞テーブル２内に
存在しなかった場合、或いは、上記未登録語から接頭辞
を除去した上記キーワードが辞書メモリ４内に存在しな
かった場合、或いは、辞書メモリ４内に存在した上記キ
ーワードの品詞情報が、内部メモリ３内の除去した接頭
辞の語基の品詞と一致しなかった場合にも結合点２に分
岐し、プロセッサ１は処理１０８として、内部メモリ３
内の上記未登録語が接尾辞を含んでいるか否かを判断す
る処理に移る。ここで用いる接尾辞テーブル２の中には
第４図のように属性情報として、接尾辞、単語から接尾
辞を除去した語基の品詞情報。

語基に接尾辞を付加した派生語の品詞情報及び、語尾処
理情報が登録されている。語尾処理情報とは、接尾辞を
除去した際の単語後部を再構成する為の情報で、（Ａ）
は処理前、（Ｂ）は処理後の単語後部を示す。

処理１０８で最長一致法を用いて上記未登録語の単語後
部が予め接尾辞テーブル２内に定められた接尾辞の一つ
と同じであることが判明すると、プロセッサ１は処理１
０９としてこの接尾辞を除去して、処理１１０として単
語後部を接尾辞テーブル２内の語尾処理情報によって再
構成する。次に、処理１１１として、接尾辞テーブル２
の中の除去した接尾辞の属性情報を内部メモリ３内の上
記未登録語に付与し、付与したことを示すフラグＩ２を
セットする。そして接尾辞を処理したことを示す為に処
理１１２として、フラグＳをセットする。

内部メモリ３内の接尾辞を除去した上記未登録語を新に
キーワードとし、辞書メモリ４内に同キーワードが存在
するか否かをプロセッサ１は処理１１３として検索し、
存在した場合、更に処理１１４として、同キーワードと
一致した単語の辞書メモリ４内に付記Ｌノである品詞情
報と、先に除去した内部メモリ３内の接尾辞の語基の品
詞情報が一致するか否かを判断する。上記両方の情報が
一致した場合、プロセッサ１は処理１１５でフラグＰを
セットしているか否かを判断する。セットしていれば、
処理１１６において登録用辞書６に上記未登録語と共に
接頭辞、接頭辞及びキーワードから推定した属性として
、内部メモリ３に付与した接尾辞の属性情報の内の派生
語の品詞情報とを登録してフラグＲをセットし、更に別
の可能性の属性を探す為に結合点２に分岐する。フラグ
Ｐをセットしていなければ、処理１１７として、登録用
辞書６に上記未登録語と共に接尾辞とキーワードから推
定した属性として内部メモリ３に付与した接尾辞の属性
情報のうちの派生語の品詞情報を登録してフラグＲをセ
ットし、更に別の可能性の属性を探す為に結合点２に分
岐する。

辞書メモリ４内に上記キーワードが存在しなかった場合
、或いは、上記キーワードと接尾辞の両肩性情報が一致
しなかった場合にも、結合点２に再分岐して、プロセッ
サ１は再度処理１０８によって同キーワードが更に接尾
辞を含んでいるか否かを判断し、含んでいれば同処理群
１０９〜１１７を繰り返し行う。

上記キーワードがもう接尾辞を含んでいない場合には結
合点４に分岐し、プロセッサ１は処理１１８として、そ
こまでの処理で接尾辞を除去していたか否かを判断する
。除去していた場合は処理１１９として、除去していた
接尾辞を元通りに付加して、続いて処理１２０でフラグ
Ｓをクリアした上、結合点２に分岐して、内部メモリ３
内の接尾辞を元通り付加した新キーワードと一致する付
加した接尾辞の次に長い接尾辞が接尾辞テーブル２内に
存在するか否かを再び処理１０８によって判断する。存
在すればプロセッサ１は同処理群１０９〜１１７を繰り
返し行う。

処理１０８で、前に除去した接尾辞の次に長い接尾辞が
存在しなければ、プロセッサ１は処理１２１として、フ
ラグＰをセットしているか否かを判断する。セットして
いれば、処理１２２としてフラグＰをクリアし、処理１
２３とした接頭辞を除去していることを新たに示すフラ
グＰ２をセットした上、結合点１に分岐して、骨部メモ
リ３内の接尾辞だけを元通り付加した新キーワードの頭
部文字と一致する接頭辞が接頭辞テーブル２内に存在す
るか否かを処理１０１で判断し、存在した場合、同処理
群１０２〜１２５を繰り返し行う。

存在しなかった場合、プロセッサ１は処理１２４として
、前に接頭辞を除去していたか否かをフラグＰ２によっ
て判断する。除去していた場合、処理１２５において、
上記キーワードに除去した接頭辞を元通りに付加し、更
に処理１２６でフラグＰ２をクリアした」二で結合点１
に分岐して、接頭辞を元通りに付加した新キーワードと
一致する、付加した接頭辞の次に長い接頭辞が接頭辞テ
ーブル２内に存在するか否かを処理１．　Ｏ］−で判断
する。

存在すればプロセッサ］−は処理群１０２〜１２６を繰
り返し行う。

存在しなかった場合、プロセッサ１は、キーワードの品
詞情報をも含めて推定した属性結果を登録しているか否
かを処理１２７としてフラグＲをセットしているか否か
により判断する。フラグＲをセットしていたら結合点９
に分岐して処理を終了する。

セットしていない場合、フラグ■１、フラグエ２をセッ
トしているか否かをプロセッサ１は処理１２８として判
断する。セットしていれば、処理１２９として、内部メ
モリ内に付与された接頭辞、接頭辞の属性情報の内、派
生語の品詞情報を上記未登録語の属性として、登録用辞
書６に上記未登録語と共に登録する。セットされていな
い場合、処理１３０として、固有名詞と推定し、固有名
詞としての属性情報を登録用辞書６に登録する。

ここで、ｒＵＮＡｃｃＯＵＮＴＡＢＬＹ　　（アンアカ
ウンタブリイ）」なる単語が、未登録語として入力され
た場合の事例を以下に説明する。まず、入力レジスタ５
を通って内部メモリ３内に入力された同単語を、プロセ
ッサ１は処理１０１として、接頭辞テーブル２と比較し
、接頭辞ｒＵＮ　（アン）」が最長−教法によって接頭
辞テーブル２から選ばれる。

処理１０２において内部メモリ３内の未登録語ｒＵＮＡ
ｃｃＯ［ｊＮＴＡＢＬＹ　ＪからｒＵＮＪを除去する。

プロセッサ１は処理１０３で接頭辞ｒＵＮＪを除去する
。プロセッサ１は処理１０３で接頭辞ｒＵ　ＮＪの属性
情報として第３図の（１）に示す情報群を内部メモリ３
に付与して、処理１０４でフラグエ１及びフラグＰをセ
ットする。内部メモリ３内の上記未登録語から接頭辞ｒ
ＵＮＪを除去したキーワードｒＡｃｃＯＵＮＴＡＢＬＹ
　　（アカウンタブリイ）」の辞書検索を処理１０５で
行う。同キーワードが辞書メモリ４内に存在しなければ
、結合点２に分岐し、処理１０８において接尾辞テーブ
ル２内から接尾辞ＦＬＹ　（リイ）」を選んだ処理１０
９おいて同キーワードから除去して、処理１１０で語尾
を再構成する。処理１１１において接尾辞ｒ　Ｌ　Ｙ　
Ｊの属性情報として第４図の（１）に示す情報群を内部
メモリ３内に付与して、フラグ■２及びフラグＳを処理
１１２でセットする。プロセッサ１は処理１１３として
、キーワードから接尾辞を除去し語尾を再構成した第二
のキーワードｒＡｃｃＯＵＮＴＡＢＬＹ　　（アカウン
タブリイ）」での辞書検索を行う。辞書メモリ４内に同
キーワードが存在しない場合、結合点２に分岐し、処理
１０８において再度、接尾辞テーブル２と比較する。同
処理群１０９〜１１２で、接尾辞ｒＡＢＬＥＪの属性情
報として第４図の（２）に示す属性情報群と第二のキー
ワードｒＡｃｃＯＵＮＴ　　（アカウント）」を内部メ
モリ３に得る。同キーワードｒＡｃｃＯ［ｊＮＴ　Ｊが
辞書メモリ４内に存在し、キーワードの品詞情報。

接頭辞、接尾辞の属性情報がうまく一致すれば、プロセ
ッサ１は処理１１６として、辞書メモリ４内の同単語の
属性情報と内部メモリ３内の除去した接頭辞又は接尾辞
の属性情報から上記未登録語の属性を登録用辞書６に登
録できる。第５図にキーワード、接頭辞、接尾辞の属性
情報と未登録語の属性推定例を示す。本図において、キ
ーワード。

接頭辞、接尾辞の下の文字列は各々の持つ品詞情報を示
し、→の左側は語基の品詞情報、右側は派生語の品詞情
報であって、その接頭辞又は、接尾辞を付加することに
よって扱う単語の品詞が左側から右側に変わることを示
す。また、もしもｒＡｃｃＯＵＮＴ　Ｊが辞書メモリ４
内に存在しない場合は、処理１２９において、内部メモ
リ３内の除去した接頭辞又は接尾辞の属性情報のみから
上記未登録語を推定し、登録用辞書６に登録することと
なる。

本実施例では、接頭辞、接尾辞として文法的に意味を持
ったものを想定して記述したが、一般にある品詞が持っ
ている語尾の字面の特徴を属性推定の要因と見なすこと
もできる。例えば、〜ＡＴＥは、動詞、形容詞２名詞と
いったように複数個の品詞を推定すれば良い。ただし、
この場合は、語基の品詞情報は設定できないので、接尾
辞の意味等は付与できないことになるが、品詞のしぼり
込みの効果は実現できる。

〔発明の効果〕

以上、述べたように本発明によれば、未登録語に対して
単語及びその属性を記憶させた辞書メモリ、及び、接頭
辞、接尾辞とその各々の属性を記憶させて接頭辞テーブ
ル、接尾辞テーブルによって、同単語の属性を推定する
ことができ、これによって接頭辞、接尾辞付加の為に未
登録語となっていた単語による構文解析の失敗を無くす
ことができる。故に、未登録語出現による文書処理の中
断を少なくし、その作業性、処理効率の向上を図ること
ができる。また、未登録語解消処理を予め登録済みの属
性情報等を利用して行うので、簡易であり、オペレータ
に対する負担を減少することができる。

尚、本発明は、上述した実施例の属性の情報に限定され
るものではなく、属性の情報を細かく分類すれば、より
きめの細かい属性の付与を行うことができる。

【図面の簡単な説明】

第１図は本発明による未登録語処理方式の動作を示す流
れ線図である。第２図は本処理方式の幾つかの構成要素
を示すブロック図である。第３図接頭辞テーブルの一例
である。第４図は接尾辞テーブルの一例である。第５図
は同処理方式による未登録語の属性推定例を示す説明図
である。１・・・プロセッサ、２・・・接頭辞／接尾辞テーブル
、３・・・内部メモリ、４・・・辞書メモリ、５・・・
入力レジ潟Ｚ　口第３　図第４０第５固

Claims

【特許請求の範囲】

１、複数の単語とその属性等を登録してある辞書を用い
て、与えられた自然言語の文章を処理する際に、辞書登
録されていない単語、即ち未登録語の扱いにおいて、上
記辞書内の未登録語の頭部及び後部を、予め登録済みの
接頭辞テーブル及び接尾辞テーブルと比較する過程と、
同未登録語と一致した接頭辞及び接尾辞を未登録語から
削除して必要ならば語尾を再構成し改めて辞書検索する
過程と、上記の過程によつて得られる接頭辞、接尾辞及
び辞書検索に成功した単語の持つ各属性情報によつて上
記未登録語の属性を推定する過程と、可能性のある複数
の上記属性を上記未登録語と共に辞書に登録する過程と
、複数の属性の多義解消を行いながら文章を解析する過
程によつて、文書処理の続行を可能にすることを特徴と
する未登録語処理方式。