JPH0283664A

JPH0283664A - 引用部分の認定及び解析方式

Info

Publication number: JPH0283664A
Application number: JP63235471A
Authority: JP
Inventors: Norikazu Ito; 則和伊藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1988-09-20
Filing date: 1988-09-20
Publication date: 1990-03-23

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】伎椎分災本発明は、引用部分の認定及び解析方式、より詳細には
、機械翻訳における形態素解析部及び構文解析部に関す
るものである。

■技権一般に構文解析の解析単位は一文である。解析を行う時
にその解析範囲は短いのが望ましい。つまり、より短い
範囲を解析するのならば、解析規則の適用回数及び組み
合わせ数が少なくて済むので、解析がより容易であり、
解析過程で生まれるあいまい性をより少なく押さえるこ
とができる。

しかし、実際のテキストは短い文ばかりから成り立って
いるわけではなく、その逆に、多くは長い文からなって
いる。そこでブロックという１文の中での部分解析範囲
を考え、１文の中で解析範囲を部分を指定して区切ると
、解析範囲が限定されて、解析規則の適用回数及び組み
合わせ数が著しく減少するので、むだな規則適用や組み
合わせも減少し、解析効率が向上して速度が上がり、あ
いまい性も解消されて解析精度も向上する。この部分解
析範囲指定が自動的にできれば構文解析の精度と速度は
間違いなく上がる。

月−ｍ−的本発明は、上述のごとき実情に鑑みてなされたもので、
今まで特に区別しなかった強調引用とその他の引用を区
別できるようにすること、今まで特に区別しなかった任
、意力用とタイトル引用を区別できるようにすること、
強調引用の認定によって効果のない範囲指定をしないで
解析を行えるようにすること、及び、任意引用のときに
加えてタイトル引用のときも、より正確で速く効率の良
い解析が行えるようにすることを目的としてなされたも
のである。

構−一一瀉本発明は、上記目的を達成するために。

（１）機械翻訳等の自然言語解析システムにおける形態
素解析部において、入力されたテキストの引用部の有無
を調入、引用部分の存在する文に対して、引用部内の語
数を数え、語数が１つであったら当該引用部分を強調引
用であると認定すること、或いは、（２）機械翻訳等の
自然言語解析システムにおける形態素解析部において、
入力されたテキストの引用部の有無を調べ、引用部分の
存在する文に対して、引用部分を閉じる引用符号の直前
及び直後の句読点（ピリオド、コンマ）の有無を調べ、
句読点のある引用部分を任意引用部、読点のない引用部
分をタイトル引用部として、分けて認識すること、或い
は、（３）機械翻訳等の自然言語解析システムにおける
、形態素解析部の次の処理過程にあたる構文解析部にお
いて、解析を行うための構文解析・文法規則を備え、前
記（１）にて認定を行った強調引用部分に対し、引用符
号が存在しないものと仮定して、当該強調引用部分が存
在する文の解析を行うこと、或いは、（４）機械翻訳等
の自然言語解析システムにおける、形態素解析部の次の
処理過程にあたる構文解析部において、解析を行うため
の構文解析文法規則を備え、前記（２）にて認定を行っ
た２種類の引用部分に対し、解析対象の単位である１文
の解析を行う前に先がけて、引用部分内を部分解析して
、任意引用部は解析結果をそのまま引用部分が文の中で
要求される構文的役割であるとして当該文の解析を行い
、タイトル引用部は解析結果が名詞句にならなくとも、
引用部分が文の中で要求される構文的役割を名詞句であ
るとして当該文の解析を行うことを特徴としたものであ
る。以下、本発明の実施例に基づいて説明する。

而して、本発明は文中の引用部分をブロック（部分解析
範囲）として解析する方式に改良を加えたものである。

同じ引用部分といっても実際には種別があり、本発明で
はそれらを強調引用部と任意引用部とタイトル引用部の
３つに分け、それぞれを形態素解析部で区別して構文解
析部に渡し、構文解析部でそれらの３つの引用部に対し
て異なった解析処理を行うことにより、構文解析の効率
及び精度の上昇を可能としたものである。

第１図は、本発明による辞書引き方式を備えた翻訳装置
の一実施例を示す構成図で、図中、１はＣＲＴ、２はキ
ーボード、３は０ＣＲ５４は入力文書、５はスペルチェ
ック部、６は前編集部、７は翻訳本体部、８は後編集部
、９は辞書、１０は文法規則、１１は出力文書、１２は
プリンタで、ファイル入力、キーボード入力、ＯＣＲ入
力のいずれかによって得た入力文はスペルチェック、前
編集を用いて前処理され、翻訳部によって得られた出力
文は後編集によって翻訳情報を利用して編集され、入力
文と出力文はプリンタを用いて印刷される。

第２図は、翻訳本体の流れを示す図で、この翻訳本体（
翻訳部）７は大きく分けて形態素解析、構文解析、変換
、生成の４つの処理からなり、まず、形態素解析部では
入力テキストの辞書引きを行なう。個々の語の情報を得
て構文解析部では文法規則に従ってパージングを行う、
解析結果から木構造を作成する。変換部では入力言語の
木構造から出力言語の木構造に変形する。生成部では得
られた木構造をノードごとに訳出する。

本発明は、上記形態素解析部および構文解析部に属する
もので、ここでは入力テキストは英文とする。入力され
たテキストを対象として、形態素解析部では第３図に示
す処理を行う。

第３図は、形態素解析における引用認定の流れを説明す
るための図で、ここでは、引用符号の有無を調べる。引
用符号が２つあったら、その間を引用部と認定する。次
に引用部内の語数を数える。

語数が１であったらその引用部を強調引用部とする。そ
れ以外の引用部分に対し、引用部分を閉しる引用符号の
直重直後の句読点（ピリオド、コンマ）の有無を調べ、
ピリオドもしくはコンマがあるとき、その引用部分を任
意引用部分と認定する。

ピリオドもコンマもないとき、その引用部分をタイトル
引用部分と認定する。これらの認定を行った引用部分情
報は形態素解析部から構文解析部に渡される。

第４図は、構文解析部の流れを示す図で、この構文解析
部では１文ごとに解析を行う。本実施例では文脈自由構
文解析文法規則を用いて対象文を文末からボトムアップ
で解析を進める。全ての可能性を尽して規則を適用しな
がら最終的に対象文が文などを示す１つの文法上のコー
ドにまとまると解析が通常終了する。普通は最終的に得
られる文法上のコードは文（ＳＥ：５ｅｎｔｅｎｃｅ）
である。文の中に部分解析範囲（ブロック）である引用
部分がある場合を考えると、引用部分の種類には３つあ
り、強調引用と任意引用とタイトル引用である。それぞ
れの７低味を説明すると、強調引用は、ある特定の語を
強調するために引用符号で囲ったものであり、引用符号
内部は１語であり、引用部内の語と引用部外の語が引用
符号によって意味的に区切られているわけではなく、い
わゆる、特に区切るべきまとまりを持つ解析範囲とは言
い難い。従って強調引用のときは、特別に１部分解析範
囲であるとはしないで解析処理を行う。任意引用は引用
部を閉じる引用符号の前後に句読点の存在する引用部で
、いわゆる典型的な引用部であり、引用部内と引用部外
にはっきりとした意味の切れ目がある。

この引用部を持つ文を解析するには、文末から解析を進
める。部分解析範囲（ブロック）である任意引用部まで
解析が進んだら、任意引用部内を解析する。引用部内の
解析が終了したら、解析の結果得られた文法的役割を示
す文法コードをそのまま引用部がこの文に対して果たす
文法的役割であるとして解析を統ける。つまり任意引用
部は、文の解析範囲を区切るという意味を持つ。また、
タイトル引用は引用部を閉じる引用符号の前後に句読点
（ピリオド、コンマ）を持たない引用部で、引用部内が
タイトル（名詞句）であると推定する。

任意引用と同じく解析を進める。相違点はタイトル引用
部の解析結果をそのまま使って文の解析を行うのではな
く、解析結果がどのようなものになろうと名詞句の役割
を与えて文の解析を行う。

以下、実例を示して説明する。

ａ、　Ａｌｌ　ｙｏｕ　”ｎｅｅｄ”　ｉｓ　１ｏｖｅ
。

ｂ、　Ｈｅ　５ａｙｓ、”ａｌｌ　ｙｏｕ　ｎｅｅｄ　
ｉｓ　１ｏｖｅ、”ｃ、　”Ａｌｌ　ｙｏｕ　ｎｅｅｄ
　ｉｓ　ｌ０Ｖｅ”ａｒｓ　ｔｈｅ　ｗｏｒｄｓ　ｏｆ
ｔｈｅ　Ｂｅａｔｌｅｓ’　ｓｏｎｇ。

まず、これらのａ、ｂ、ｃの３つの文を形態素解析部で
引用認定処理する。引用符号の数を数える。偶数個（普
通は２つだがたまに４つあることもある）あれば引用部
内の語数を数える。１つであれば強調引用であると認定
する。ａの文が強調引用の例である。それ以外のときは
、引用符部分を閉じる引用符号の前後の句読点（ピリオ
ド、コンマ）の有無をみる。ｂは、があるので任意引用
と、Ｃは、も、もないからタイトル引用と認定する。次
に、構文解析部に進むが、上記のａ。

ｂ、ｃの英文を解析するのに１例えば以下の文法規則が
あるとする。

Ａ１品詞分類コードｐｒｎ（主格代名詞）　　ｎ０ｕ（名詞）　　ｎｏ２（
名詞所有格）　　ｄａｔ（定冠詞）ｖｉｌ（他動詞句を
目的語にとる）　　ｖｔ２（他動詞ｔｈａｔ節を目的語
とする）ｖｉｌ（自動詞補語をとる）　　ｐｒｅ（前置
詞）　　ｃｍａ（コンマ）　　ｐｒｄ（ピリオド）Ｂ０文法コードＮＰ（名詞句）　　ＳＮ（主格名詞句）　　ＣＮ（補語
名詞句）ＯＮ（目的語名詞句）　　ＤＰ（前置詞句）　
　ＣＮ（コンマ）ＰＤ（ピリオド）　　ＶＣ（述語）　
　ＱＣ（ｔｈａｔｉ　ｔｈａｔは省略可）　　ＷＣ（目
的語の欠けた述語）　　ＳＧ（文末記号を含まない文）
　　ＳＥ（文末記号を含む文）Ｃ０文法規則１、ＳＥ　　→　ＳＧ　　ＰＤ２、　５Ｇ　　　−＞　　　ＳＮ　　Ｖ（１゜３．０Ｃ
→　　ＳＧ４、ＶＣ−）　　　ｖｉｌ　　ＣＮ５、ＶＣ−＋　　ｖｔｌ　　ＣＮ６、　　ＶＣ＋ｖｔ２　　（ＣＮ）　　ＱＣ７、ＷＣ−
＋　　　ｖｔｌ８．５Ｎ　　　−＋　　ＮＰ９、ＳＮ　　　−＋　　　ｄａｔ　　　ＮＰｌ、０．　
ＳＮ−＋ｐｒｎ　　（ＳＮ　　ＷＣ）１１、ＣＮ　　　
４　　　Ｎｌ’ １２、ＣＮ　　　−＋　　ｄｅｔ　　ＮＰｌ３、ＯＮ　
　　４　　　ＮＰ１４、ＯＮ　　　−）　　　ｄｅｔ　　　ＮＰｌ５、Ｎ
Ｐ　　→　ｎｏｕ　　（ＤＰ）１６、ＮＰ　　　−＊　
　　ｎｏ２　　　ＮＰｌ７、ＤＰ　　→　ｐｒｅ　　０
ＮＩＬ　　ＣＮ　　　−）　　　ｃｍａ１９、円）　　→　　ｐｒｄなお、括弧内の要素はあってもなくてもよい。

また、行頭の数字は規則番号を示す。

ａの文の解析を文末から行う。簡単にするためそれぞれ
の語は正解につながる品詞分類だけを持つとする。ａの
場合は引用部分がないときの解析と同じである。

ａ、　　ａｌｌ（ｐｒｎ）　　ｙｏｕ（ｐｒｎ）　　ｎ
ｅｅｄ（ｖｔｌ）　　１ｓ（ｖｉａ）１０νｅ（ｎｏｕ
）　、（ｐｒｄ）１、（１！］）　ＰＤ　−＋　ｐｒｄ　　　　（、）２
、（１５）　ＮＰ　＋　ｎｏｕ　　　　（Ｌｏｖｅ）３
、（１１）　ＣＮ−＋ＮＰ　　　　　（ｌｏｖｅ）４、
　（４）　ＶＣ−＋　ｖｉｌ　ＣＮ　　（ｉｓ　１ｏｖ
ｅ）５、　（７）　ＷＣ−＊　ｖｔｌ　　　　　（ｎｅ
ｅｄ）６、（１，０）　ＳＮ　→ｐｒｎ　　　　（ｙｏ
ｕ）７、（１０）　ＳＮ−＋ｐｒｎ　ＳＮ　ＷＣ（ａｌ
ｌ　ｙｏｕ　ｎｅｅｄ）８、　（２）　ＳＧ　−＊　Ｓ
Ｎ　ＶＣ（ａｌｌ　ｙｏｕ　ｎｅｅｄ　ｉｓ　１ｏｖｅ
）９、　（１）　ＳＥ　−＋　ＳＧ　ＰＤ　（ａｌｌ　
ｙｏｕ　ｎｅｅｄ　ｉｓ　１ｏｖｅ、）ただし、行頭は
通し番号、括弧内は規則番号である。

ｂの文は”ａｌｌ　ｙｏｕ　ｎｅｅｄ　ｉｓ　１ｏｖｅ
”が任意引用である。この部分の解析はａの２から７ま
でと同一である。また引用符号自体は解析対象とはなら
ない。

ｂ、　　ｈｅ（ｐｒｎ）　　５ａｙｓ（ｖｔ２）　　、
（ｃｍａ）　　ａｌｌ（ｐｒｎ）ｙｏｕ（ｐｒｎ）　　
ｎｅｅｄ（ｖｔｌ）　　１ｓ（ｖｉｌ）　　１ｏｖｅ（
ｎｏｕ）、（ｐｒｄ）１、　　（１９）　　ＰＤ　−＋　　ｐｒｄ　　　（、
）２、　　（１５）　　ＮＰ−＋　　ｎｏｕ　　　（ｌ
ｏｖｅ）８、　　（２）　ＳＧ−＋ＳＮ　ＶＣ（ａｌｌ
　ｙｏｕ　ｎｅｅｄ　ｉｓ　１ｏｖｅ）９、　　（３）
　ＱＣ−）　ＳＧ　　　（ａｌｌ　ｙｏｕ　ｎｅｅｄ　
ｉｓ　１ｏｖｅ）１０、　　（１７）　ＣＮ　　−＋　
ｃｒｍａ　　　（１）１１、　　（６）　ＶＣ−）　ｖ
ｔ２　ＣＮ　ＱＣ（ｓａｙｓ、　ａｌｌ　ｙｏｕ　ｎｅ
ｅｄｉｓ　　１ｏｖｅ）１２、　　（１０）　ＳＮ　→ｐｒｎ　　　（ｈｅ））
３．　　（２）　ＳＧ　−＋　ＳＮ　ＶＣ（ｈａ　５ａ
ｙｓ、　ａｌｌ　ｙｏｕ　ｎｅｅｄｉｓ　　Ｌｏｖｅ）１４、　　（１）　ＳＥ　−＋　ＳＧ　ＰＤ　（ｈｅ　
５ａｙｓ、　ａｌｌ　ｙｏｕ　ｎｅｅｄｉｓ　　１ｏｖ
ｅ、）ａｌｌ　ｙｏｕ　ｎｅｅｄ　ｉｓ　Ｌｏｖｅの解析結果
であるＳＧ（ピリオドのない文）をそのまま利用して解
析を進めている。

Ｃの文は”　ａｌｌ　ｙｏｕ　ｎｅｅｄ　ｉｓ　１ｏｖ
ｅ”がタイトル引用である。この部分の解析はａの２か
ら７までの同一である。また引用符号自体は解析対象と
はならない。

ｂ、　　ａｌｉ（ｐｒｎ）　　ｙｏｕ（ｐｒｎ）　　ｎ
ｅｅｄ（ｖｔｌ）　　１ｓ（ｖｉｌ）ｌｏｖｅ（ｎｏｕ
）　　ａｒｅ（ｖｉｌ）　　ｔｈｅ（ｄｅｔ）ｗｏｒｄ
ｓ（ｎｏｕ）　　ｏｆ（ｐｒｅ）　　ｔｈｅ（ｄｅｔ）
　　Ｂｅａｔｌｅｓ（ｎｏ２）　　ｓｏｎｇ（ｎｏｕ）
　　、（ｐｒｄ）１、　（１９）　ＰＤ　−＋　ｐｒｄ
　　　（、）２、　（１５）　ＮＰ　−＋　ｎｏｕ　　
　（ｓｏｎｇ）３、　（１６）　ＮＰ　−＋　ｎｏ２　
ＮＰ　（Ｂｅａｔｌｅｓ’　ｓｏｎｇ）４、　（１４）
　ＯＮ　→ｄｅｔ　ＮＰ　（ｔｈｅ　Ｂｅａｔｌｅｓ’
　ｓｏｎｇ）５、　（１７）叶−＋　ｐｒｅ　ＯＮ　（
ｏｆ　ｔｈｅ　Ｂｅａｔｌｅｓ’　ｓｏｎｇ）６、　（
１５）　ＮＰ　−＊　ｎｏｕ　ＤＰ　（ｗｏｒｄｓ　ｏ
ｆ　ｔｈｅ　Ｂｅａｔｌｅｓ’ｓｏｎｇ）７、　（１２）　ＣＮ　−＋　ｄｅｔ　ＮＰ　（ｔｈｅ
　ｗｏｒｄｓ　ｏｆ　ｔｈｅＢｅａｔｌｅｓ’　ｓｏｎ
ｇ）８、　　（４）　ＶＣ→ｖｉｌ　ＣＮ　（ａｒｓ　ｔｈ
ｅ　ｗｏｒｄｓ　ｏｆ　ｔｈｅ１３ｅａｔ１．ｅｓ’　
ｓｏｎｇ）９、　　（１５）　　ＮＰ　　−＋　　ｎｏｕ　　　　
（ｌｏｖｅ）１５、　　（２）　ＳＧ　　４　　ＳＮ　
ＶＣ（ａｌｌ　ｙｏｕ　ｎｅｅｄ　ｉｓ　１ｏｖｅ）１
６、　　（０）　ＮＰ→ＳＧ　　　　ＳＧにＮＰ（名詞
句）の役割を与える１７、　　（８）　ＳＮ→ＮＰ　　　（ａｌｌ　ｙｏｕ
　ｎｅｅｄ　ｉｓ　１ｏｖｅ）１８、　　（２）　ＳＧ
　４　ＳＮ　ＶＣ（ａｌｌ　ｙｏｕ　ｎｅｅｄ　ｉｓ　
１ｏｖｅａｒｅ　　ｔｈｅ　　ｗｏｒｄｓ　　ｏｆ　　
ｔｈｅＢｅａｔｌｃｓ’　ｓｏｎｇ）１９、　　（１）　ＳＥ　−＊　ＳＧ　ＰＤ　　（ａｌ
ｌ　ｙｏｕ　ｎｅｅｄ　ｉｓ　１ｏｖｅａｒｅ　　ｔｈ
ｅ　　ｔｍｏｒｄｓ　　ｏｆ　　ｔｈｅＢｅａｔｌｅｓ
’　ｓｏｎｇ、）１５行目でＳＧの文法コードが得られた。このＳ（ｉを
使ってそのまま解析を続けても最終的にＳＨには到達し
ない。解析規則が存在しないからだ。そこで１６行目で
、このタイトル引用に対して新しい役割として文法コー
ドＮＰをダ７える。これは文法規則ではなく１５行目で
得られたＳＧに１６行目ＮＰというラベルをはったと思
えばよい。この処理により、Ｃの文は解析に成功する。

１−果以上の説明から明らかなように、請求項（１）により、
今まで特に区別しなかった強調引用とその他の引用を区
別できるようになった。

請求項（２）により、今まで特に区別しなかった任膚：
引用とタイトル引用を区別できるようになった。

請求項（３）により１強調引用の認定によって効果のな
い範囲指定をしないで解析を行えるようになった。

請求項（４）により、任意引用のときに加えてタイトル
引用のときも、より正確で速く効率の良い解析が行える
ようになった。

【図面の簡単な説明】

第１図は、本発明による辞書引き方式を備えた翻訳装置
の一実施例を示す構成図、第２図は、翻訳本体の流れを
示す図、第３図は、形態素解析部における引用認定の流
れを示す図、第４図は、構文解析の流れを示す図である
。１・・・ＣＲＴ、２・・・キーボード、３・・・ＯＣＲ
，４・・・入力文跡、５・・・スペルチ、エラグ部、６
・・・前編集部。７・・・翻訳本体部、８・・・後編集部、９・・・辞書
、１０・・・文法規則、１１・・・出力文書、１２・・
プリンタ。

Claims

【特許請求の範囲】１、機械翻訳等の自然言語解析システムにおける形態素
解析部において、入力されたテキストの引用部の有無を
調べ、引用部分の存在する文に対して、引用部内の語数
を数え、語数が１つであったら当該引用部分を強調引用
であると認定することを特徴とする引用部分認定方式。２、機械翻訳等の自然言語解析システムにおける形態素
解析部において、入力されたテキストの引用部の有無を
調べ、引用部分の存在する文に対して、引用部分を閉じ
る引用符号の直前及び直後の句読点の有無を調べ、句読
点のある引用部分を任意引用部、読点のない引用部分を
タイトル引用部として、分けて認識することを特徴とす
る引用部分認定方式。３、機械翻訳等の自然言語解析シ
ステムにおける、形態素解析部の次の処理過程にあたる
構文解析部において、解析を行うための構文解析文法規
則を備え、請求項（１）にて認定を行った強調引用部分
に対し、引用符号が存在しないものと仮定して、当該強
調引用部分が存在する文の解析を行うことを特徴とする
引用部分解析方式。４、機械翻訳等の自然言語解析システムにおける、形態
素解析部の次の処理過程にあたる構文解析部において、
解析を行うための構文解析文法規則を備え、請求項（２
）にて認定を行った２種類の引用部分に対し、解析対象
の単位である１文の解析を行う前に先がけて、引用部分
内を部分解析して、任意引用部は解析結果をそのまま引
用部分が文の中で要求される構文的役割であるとして当
該文の解析を行い、タイトル引用部は解析結果が名詞句
にならなくとも、引用部分が文の中で要求される構文的
役割を名詞句であるとして当該文の解析を行うことを特
徴とする引用部分解析方式。