JPH04112366A

JPH04112366A - 自然言語文解析装置

Info

Publication number: JPH04112366A
Application number: JP2233647A
Authority: JP
Inventors: Makoto Ishii; 信石井
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1990-09-03
Filing date: 1990-09-03
Publication date: 1992-04-14

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】艮夏分互本発明は、自然言語文解析装置に関し、より詳細には１
機械翻訳装置など自然言語文を入力とするシステムの実
現において用いられる自然言語文の構文解析装置に関す
る。

災來１生従来の自然言語文解析装置では、形態素解析処理部と構
文解析処理部は別モジュールとして構成し、その後で組
み合わせて全体を構成するのが通常である。これは形態
素解析処理部は構文解析装置以外にもかな漢字変換装置
などに用いることができるため、ソフトウェアのモジュ
ール性が高く再利用性も高いためである。そのため従来
の形態素解析処理部は文節数最小法や最長一致法といっ
たいくつかの評価基準にしたがって、最も尤もらしい解
を一つ選択して出力としていた。こうした従来技術にお
いて問題となることは、形態素解析処理部における解析
の誤りに対してどう対処するかということである。例え
ば、（、）彼が修理を行った。

のような文について考えると、形態素解析処理部が「行
った」を「行＜」（音便形）＋「た」と形態素分割して
しまうといくら性能の良い構文解析処理部によっても解
析は失敗することになる。この例の場合は形態素解析レ
ベルでは本質的に多義なのであり、「行く＋た」と「行
う＋た」の二つの解を出し、構文解析処理部あるいは解
析結果評両部によっていずれかが選択されるべきなので
ある。

以上の問題点を解決する従来技術としてパックトランク
による方法である。ハックトラック法によると、構文解
析処理部は解析失敗の際には形態素解析処理部に第２解
、すなわち次に尤もらしい解の出力を要求する。上記の
（ａ）の例文の場合では、構文解析処理の時点で「行く
」は「を格」をとらないので解析失敗となり、構文解析
処理部は形態素解析処理部に第２解の出力を要求する。

その結果、第２解である「行う＋だ」が出力されて最終
的に正解を得ることができる。

しかし、バックトラック法は深さ優先の解析法であるの
で、真の正解ではない解で不正解ではないようなものが
先に見つかった場合に、正解を落としてしまう可能性が
大きい。例えば、（ｂ）建築は昨年４月に行った。

のような文については「行った」を「行く＋た」と分割
してしまって、「建築」が「行く」の主語となるような
おかしな解が残りがねない問題点があった。

上記の問題点を解決しようとする従来技術には、例えば
、「対話翻訳の一方式についてＪ、（青山昇−１石用他
、電子情報通信学会技術研究報告、ＮＬＣ９０−１４，
１９９０）がある。この技術は形態素解析処理部におけ
る多義をユーザとの対話によって解消しようというもの
である。しかしこの従来技術によると例えば、（ｅ）私は彼がくるまで待つ。

のような文についてもｒくる十までＪ　（来るまで）か
「くるま十で」　（車で）かユーザに問い合わせてくる
。形態素解析処理部におけるこの多義は構文解析処理部
における知識、すなわちｒ車で」とすると「待つ」の主
語が二つのなっておかしいという知識を用いれば「くる
十まで」と−意に決定できる。上記の従来技術ではこう
した場合もユーザに問い合わせることになり、無１駄な
問い合わせをすることが多くなるという問題点があった
。

１−一敗本発明は、上述のごとき実情に鑑みてなされたもので、
形態素解析処理時における多義を一つに絞らず、構文解
析処理及びその後処理である解の選択処理の時点で一つ
に絞ることにより、入力文について最も尤もらしい構文
解析結果を得るように構成した自然言語文解析装置を提
供することを目的としてなされたものである。

盪−一双本発明は、上記目的を達成するために、自然言語文を入
力する入力部と、該入力部からの入力文を形態素分割す
る形態素解析処理部と、該形態素解析処理部の出力を用
いて構文解析木を構成する構文解析処理部と、該構文解
析木の適合性を計算し、入力文について最も尤もらしい
構文解析木を選択する解析結果評価部からなり、前記形
態素解析処理部は複数の解析結果を出力することを特徴
としたものである。以下、本発明の実施例に基づいて説
明する。

第１図は、本発明による自然言語文解析装置の一実施例
を説明するための構成図で、図中、１は入力部、２は表
示部、３は処理部、４は辞書部。

５は形態素解析処理部、６は構文解析処理部、７は解析
結果評価部、８は語當辞書部、９は構文規則部、１０は
制約部である。

処理部３は形態素解析処理部５、構文解析処理部６、解
析結果評価部７とからなる。また辞書部４は語常辞書部
８、構文規則部９．制約部１０とからなる。語禦辞書部
の例を語党辞書Ｄ、構文規則部の例を構文規則Ｒ１制約
部の例を制約Ｃに示す。

自然言語文を入力する入力部１からの入力文を形態素解
析処理部５で形態素分割し、該形態素解析処理部５の出
力を用いて構文解析処理部６により構文解析木を構成す
る。解析結果評価部７においては、前記構文解析木の適
合性を計算し、入力文について最も尤もらしい構文解析
木を選択し、前記形態素解析処理部５は複数の解析結果
を出力する。

第２図（ａ）は１語堂辞書りを示すもので、語常辞書り
の各要素は、見出し語、語禦範躊名（品詞）、素性で表
現される。素性は（素性名、素性値）の形のリストであ
る。ここで素性とは諸量の持つ性質を抽出したものであ
る。ｎは名詞、ｐは助詞、■は動詞、ｓｊは接続助詞を
各々示す。

第２図（ｂ）は、構文規則Ｒを示すもので、構文規則Ｒ
は公知の句構造文法の表記法を拡張したラベル付きの句
構造文法で記述されている。右辺の各要素はラベル付の
非終端記号かラベルなしの非終端記号である。Ｒ１中の
（Ｎ　Ｐ　；　ｔｏｐｉｃ）の場合、ＮＰは非終端記号
でラベルｔｏｐｉｃが付加されている。また右辺の非終
端記号で小文字の英字は前終端記号（諸量範１１ｉ）　
、大文字の英字は前終端記号以外の非終端記号である。

また構文規則中のラベルは機能名を表す。ここで機能名
とは公知の語堂機能文法での用法と同様である。すなわ
ちＲ１の記述は諸量機能文法における以下のＲＩＯと同
じである。

ＲＩＯＶＰ　　−＞　　ＮＰ　　　　　ＶＰ↓＝↑ｔｏ
ｐｉｃ　　↓：↑ 第２図（ｃ）は、制約Ｃを示すもので、制約Ｃの各要素
は機能名とペナルティ付きのプロダクションルールであ
る。表記法は、（機能名：ペナルティ）　制約規則の形式である。ここでペナルティは各制約の持つ文法的
強さを表す数値であり、その値か大きいほどその制約が
文法的に強い、すなわち例外が少ないことを意味する。

各々の制約規則は機能構造中の情報、とくに素性を参照
している。ここで機能構造とは公知の諸量機能文法での
用法と同様であり、機能名を属性名、機能構造を属性値
とする再帰的なマトリクスである。第５図に機能構造の
例を示す。

第３図は、本発明による自然言語文解析装置の処理部の
フローチャートである。以下、各ステップに従って順に
説明する。

旦■１３人力部からユーザは文の入力を行なう。

入力部はキーボード装置やあるいは音声入力装置などで
ある。入力部からの入力文が前述の（ｅ）であったとす
る。

（ｅ）私は彼がくるまで待つ。

この文の入力を受けた形態素解析処理部は入力文を形態
素分割する。ここで形態素解析処理部の解析結果は多義
もありうるものとする。

こうした形態素解析処理部の構成は公知の複数解を出力
する形態素解析技術によって実現できる。例えば、文献
としては［接続コスト最小法による形態素解析の提案と
計算量の評価について」　（久光徹、新田義彦、電子情
報通信学会技術研究報告、ＮＬＣ９０−０８、１９９０
）がある。

例文（ｅ）については、（ｅｌ）　　　（私：ｎ）（は：ｐ）（彼：ｎ）（が：
Ｐ）（くる：Ｖ）（まで：５ｊ）（待つ：Ｖ）（ｅ２）
　　　（私：ｎ）（は：ｐ）（彼：ｎ）（が：ｐ）（く
るま二〇）（で：Ｐ）（待っ：ｖ）の二つの解が出力さ
れる。ここで各形態素は（見出し語二語業範ＩＩＩ）の
形式で表現されている。語業範鴫とは、いわゆる品詞で
あり、構文規則Ｒにおいては小文字の英数字で表現され
ている。

扛虻Ｉ；形態素解析列が残っているかどうが判断する。

残っていなければ後述する５ｔｅｐ　４へ行く。

％　；前記５ｔｅｐ　２において、形態素解析列が残っ
ていれば、構文解析木を作成する。すなわち、次に形態
素解析処理部の出力である形態素の列に対して、構文解
析処理部は構文規則部の情報を用いて構文解析木を構成
する。ここで構文解析木は、公知の諸量機能文法での構
成素構造と同様の構造であり、第４図に示すようなラベ
ル付きの木構造である。木構造に付いているラベルは機
能名を表し、構文規則中に記述されているラベルを構文
規則の適用時に参照することにより得ることができる。

形態素の列から構成素構造を作成する処理については、
多くの手法が提案されていて公知であるが、ここではボ
トムアップにＣＫＹ（Ｃｏｃｋｅ−Ｋａｓａｎ＋ｉ−Ｙ
ｏｕｎｇｅｒ　）法により構成する。

一つの形態素列から構成素構造を作成する際に、処理す
べ、き形態素がなくなった時点で最終状態に達した構成
素構造は全て可能な解であり、これに加えて構成素構造
の作成のための入力となる形態素列が複数でありうるた
め、５ｔｅｐ　３の出力は一般に複数解がある。ここで
。

最終状態に達したかどうかは構文規則Ｒを用いる場合、
文全体に対して作られた構成素構造のルートノートが非
終端記号Ｓであるかどうかで判断される。（ｅｌ）の形
態素列から作成された構成素構造の一つ（Ｃ３）を第４
図に示す。

ジＭ；次に、構文解析木が残っているかどうか判断する
。残っていなければ後述する５ｔｅｐ　７八行く、旦肛二；前記５ｔｅｐ　４において、構文解析木が残っ
ていれば機能構造を作成する。なお、以下に説明する処
理は解析結果評価部の処理の一例である。

前記５ｔｅｐ　３で得られた複数個の構成素構造の各々
から機能構造を作成する。この処理は公知の諸量機能文
法における構成素構造から機能構造を作成する処理にし
たがっても良いし、構成素構造でラベルのない子ノード
にっいては主要語としてエントリ部にブツシュし、ラベ
ル付きの子ノートについてはそのラベルを属性名とし、
子ノードについての機能構造を属性値とするように再帰
的に機能構造を作成しても良い。第４図に示す構成素構
造（Ｃ３）から作成された機能構造（Ｃ４）を第５図に
示す。また５ｔｅｐ　５では辞書部からの情報をも用い
るが、これは諸量辞書りにおける素性の部分である。

社肛旦；構成素構造と機能構造は一対一で対応するので
、前記５ｔｅｐ　５の出力における機能構造は一般に複
数解がある。その各々の機能構造について制約部からの
情報を用いながら制約の適用を行なう。ここで各制約は
機能名（機能構造の属性名）ごとに参照できるようにな
っているので、機能構造の再帰的構造について再帰的に
適用を行なうことができる。例えば第５図に示す機能構
造（Ｃ４）については以下のようになる。文節「彼が」
に相当する機能名は５ｕｂｊ機能であるので、５ｕｂｊ
機能で標識されている制約を全て抽出して順に適用を行
なう。制約Ｃの場合はＣｏ、Ｃ１，Ｃ２の適用を行なう
。この場合は自分の格マーカー素性の値は「が」であり
、親の機能構造は主要語が「くる・までＪで、５ｕｂｊ
機能は「くる」によって下位範喀化されていて、かつ５
ｕｂｊ機能は親の機能構造中で唯一であるのでいずれも
満たされている。次にｒｅｎｙｏ機能であるが標識され
ている制約がＣにないので何もしない。最後にｔｏｐｉ
ｃ機能であるが、自分の格マーカー素性の値は「は」で
あり、親の機能構造は主要語が「待つ」で、空の５ｕｂ
ｊ機能を持っている。すなわち「待っ」は５ｕｂｊ機能
を下位範略化しているがこの機能構造中には５ｕｂｊ機
能はない。したがって満たされている。また親の機能構
造中でｔｏｐｉｃ機能は唯一である。

以上のいずれかの制約が満されていない場合、対応する
ペナルティが加算される。

以上の５ｔｅｐ５　、５ｔｅｐ６の処理は各構成素構造
についてそれぞれ行なわれる。第６図に示すような、形
態素列（Ｃ２）対応する機能構造（Ｃ５）については制
約Ｃ２が満たされていないのでペナルティは３０になる
。

１肛ユ；以上のような５ｔｅｐ５　、５ｔｅｐ６で各構
成素構造について計算されたペナルティをもとに、ペナ
ルティ最小の機能構造に対応する構成素構造を選択する
。この場合は（Ｃ３）を選択してこれを構文解析装置の
出力とする。

このようにして、形態素解析処理時における多義を一つ
に絞らず、構文解析処理及びその後処理である解の選択
処理の時点で一つの絞ることにより、入力文について最
も尤もらしい構文解析結果を得ることができる。

夏−一来以上の説明から明らかなように、本発明によると、形態
素分割時における多義を、形態素分割時に一つに絞り込
むことをせずに、構文解析処理を行なった上で選択する
ことができる。そのため形態素解析処理部での解析失敗
のために構文解析処理部が解析失敗する可能性が高くな
るという問題点を解決することができる。また形態素解
析処理時には多義であっても構文解析処理時によって解
消できる多義である場合には、ユーザへの問い合わせや
談話解析など他の情報源からの情報をもとに多義を解消
するシステムを考える上でも無、駄を防ぐことができる
。すなわち従来のように形態素解析と構文解析を別々の
ものとして捉えず、多義についても両者を総合して考慮
することができるという効果がある。

【図面の簡単な説明】

第１図は、本発明による自然言語文解析装置の一実施例
を説明するための構成図、第２図は、語粂辞書、構文規
則、制約を示す図、第３図は、本発明による自然言語文
解析装置の処理部のフローチャート、第４図は、構成素
構造を示す図、第５図及び第６図は、機能構造を示す図
である。１・・・入力部、２・・・表示部、３・・・処理部、４
・・・辞書部、５・・・形態素解析処理部、６・・構文
解析処理部、７・・解析結果評価部、８・・・諸量辞書
部、９・・・構文規則部、１０・・・制約部。第図（ａ）（ｂ）（ｃ）

Claims

【特許請求の範囲】

１、自然言語文を入力する入力部と、該入力部からの入
力文を形態素分割する形態素解析処理部と、該形態素解
析処理部の出力を用いて構文解析木を構成する構文解析
処理部と、該構文解析木の適合性を計算し、入力文につ
いて最も尤もらしい構文解析木を選択する解析結果評価
部からなり、前記形態素解析処理部は複数の解析結果を
出力することを特徴とする自然言語文解析装置。