JPS60181973A

JPS60181973A - 未定義単語認定方式

Info

Publication number: JPS60181973A
Application number: JP59037892A
Authority: JP
Inventors: Masato Kobe; 正人小部
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1984-02-29
Filing date: 1984-02-29
Publication date: 1985-09-17

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（１）発明の技術分桁本発明は機械翻訳システムに関するもので、情報処理装
置に日本語文を入力して解析する際辞書に登録されてい
ない単語が出現した場合の処理に係るものである。

（２）従来技術と問題点機械翻訳システムにおいて、連続して書かれた日本語文
の構文解析を行なう際は、まず、該日本語文を単語単位
に分割する必要がある。

連続して書かれた日本語文を単語単位に分割するには、
一定の規則に基づいて元の日本語文から順次取り出した
字並びを予め磁気ファイル等に辞書として登録しておい
た単語や文法情報と照合して判断することにより、単語
の区切シや該単語の属性等を決定する方法が採られる。

一般に辞書には相当量の単語が収録されているが、文章
中に出現する単語について網羅することは不可能である
。特に技術的な内容について記した文章などでは特殊な
用語が使われることが多く、判別困難な単語が発生する
機会が多い。

従来、機械翻訳システムにおける単語の分割処理におい
て、辞書に存在しない単語が出現した場合には、該単語
を漢字、ひらがな、カタカナ等字種の異なるものごとに
分断してそれぞれを固有名詞として扱うことにより処理
していた。

このような従来の方式では該当する単語の文法的属性な
どは不明のまま一律に処理するので、構文解析に際して
の処理不能個所や曖昧な個所が多く発生すると言う欠点
があった。

（３）発明の目的本発明は上記従来の欠点に鑑み入力された文章の構文解
析に係る単語の分割に除し、辞書に存在しない単語が出
現したとき、これを単に固有名詞として扱うのではなく
、該単語についての文法的性質を出力して構分解析の精
度を高めることの可能な未定義単語認定部式を提供する
ことを目的としている。

（４）発明の構成そしてこの目的は本発明によれば特許請求の範囲に記載
のとおシ、入力された日本語文を細分化して、予め辞書
ファイルに格納しておいた単語と照合することによシ該
日本語文を単語単位に分割する手段を有する構文解析方
式において、特定の接頭語とその後に結合する単語の文
法的性格および特定の接尾語とその前に結合する単語の
文法的性格を定義する手段と、文章中で隣り合う単語間
におけるそれぞれの単語の文法的属性の関係を定義する
手段とを設け、入力された文章中に予め辞書に格納され
ていない単語が出現したとき、該単語の前に位置する単
語または後続の単語またはそれらの文法的性格によって
当該単語の文法的性格を推定するが、あるいは前記前に
位置する単語の文法的性格と後続の単語の文法的性格と
の関係によって当該単語の文法的性格を識別して、当該
単語の文法的属性に係る情報を出力することを特徴とす
る未定義単語認定方式により達成される。

（５）発明の実施例一般に辞書に登録されていない様な単語が、文章の中に
孤立して出現すると云うことは少なく、通常は活用語尾
や接尾語、接頭後などを伴なっていることが多い。そし
て、これらの活用語尾や接尾語等は特定の文法属性を持
った単語と親和性が強い。本発明はこの様な文章の性質
を利用して辞書に登録されていない単語の文法的性質−
ｔｇ定しようとするものである。

第１図は本発明の１実施例のブロック図であって、１は
入力部、２は単語分割部、３は辞書ファイル、４は未定
義単語認定部、５は前置単語解析部、６は後続単語解析
部、７は未定義単語情報出力部を示している。

第１図において、単語分割部２は、入力された日本語の
文章を後尾から順次、辞書ファイル３に格納されている
単語と照合するととによυ単語に分割するが、処理中に
辞書に定義されていない単語が出現すると、該単語を未
定義単語認定部４に出力すると共に、該単語の前の単語
および後続の単語をそれぞれＩｉＪ置単語解析部５ある
いは後続単語解析部６に送り込む。

未定義単語認定部４は前置単語解析部５による前置単語
の解析結果と、後続単語解析部６による後続の単語の解
析結果とを参照して先に送り込まれた辞書に定義されて
いない単語について、その文法的性格を解析して該単語
の属性に関する情報を出力する。

例えば［ディスクにアクセスする」と云う文章が入力さ
れたとき、６アクセス″なる単語が辞書に存在しなかっ
た場合、後続の単語゛する”から、その前の単語はす行
変格活用の動詞か、または、”する”と結合して動詞化
する名詞であることが分かるのでその旨を出力する。ま
た後続の単語が１先生”であれば、その前の単語は６人
名”である確率が高く、後続の単語が１化合物”であれ
ば、その前の単語は物質等の名称である等の様に推定出
来るし、一方、該当する単語の前の単語が“御”、“大
”、”小”、′真”等、その後に続く単語の性格が分る
ものもあり、また、該当する単語の前後の単語の関係か
ら推察出来るものもある。

（６）発明の効果以上詳細に説明したように本発明の未定義単語認定装置
圧よれば、機械翻訳システムにおける単語の分割処理に
おいて、入力文章中に辞書に存在しない単語が出現した
とき、該単語の文法的性格を認定して出力することが出
来るので、構文解析の精度が向上するから効果は大であ
る。

【図面の簡単な説明】

第１図は本発明の１実施例のブロック図である。１・・・・・・・・・入力部、２・・・・・・・・・単
語分割部、３・・・・・・・・・辞書ファイル、４・・
・・・・・・・未定義単語認定部、５・・・・・・・・
・前置単語解析部、６・・・・・・・・・後続単語解析
部、７・・・・・・・・・未定義単語情報出力部

Claims

【特許請求の範囲】

入力された日本語文を細分化して、予め辞書７アイルに
格納しておいた単語と照合することにより該日本語文を
単語単位に分割する手段を有する構文解析方式において
、特定の接頭語とその後に結合する単語の文法的性格お
よび特定の接尾語とその前に結合する単語の文法的性格
を定義する手段と、文章中で隣り合う単語間におけるそ
れぞれの単語の文法的属性の関係を定義する手段とを設
け、入力された文章中に予め辞書に格納されていない単
語が出現したとき、該単語の前に位置する単語または後
続の単語またはそれらの文法的性格によって当該単語の
文法的性格を推定するか、あるいは前記前に位置する単
語の文法的性格と後続の単語の文法的性格との関係によ
って当該単語の文法的性格ｅ［別して、当該単語の文法
的鵬性に係る情報を出力することを特徴とする未定義単
語認定方式。