JPH0683861A

JPH0683861A - 機械翻訳装置

Info

Publication number: JPH0683861A
Application number: JP3119837A
Authority: JP
Inventors: Jiyunjiee Kuo; クォ・ジュンジェー
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1991-05-24
Filing date: 1991-05-24
Publication date: 1994-03-25

Abstract

(57)【要約】【目的】本発明は、単語間に混じている諺や慣用句及
びそれらに関連する多義性を同時に解決することができ
る演算処理方法、且つ参照できる諺慣用句辞書により品
質の高い機械翻訳装置を提供することを目的とする。【構成】中間構造生成部２００は入力された文に対し
て、解析辞書２５０を参照しながら、構文、語意の解析
を行い、原始言語に依存する中間構造を獲得する。原始
言語諺慣用句処理部３００はバッフア９００から原始言
語の中間構造を読み出して、諺慣用句辞書３５０を参照
し、中間構造に含まれている諺や慣用句のノードを一つ
の形態素として、一つのノードにする。そして、改めて
新しい意味コードを与え、該当諺や慣用句に関連するノ
ードを削除してから、処理結果をバッファ９００に記憶
する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は定型文ではない、単語間
に混じている諺や慣用句及びその関連の多義性を自動的
に処理することができる機械翻訳装置に関するものであ
る。

【０００２】

【従来の技術】二十世紀は新しい情報がどんどん出てき
ており、知識爆発時代といえるだろう。皆、時代に淘汰
されないように絶えず知識を吸収しなければならない。
だが、できた知識は国内だけではなく、外国からもあ
る。尚、普通の人は母国語を読むスピードが外国語より
早いから、翻訳の重要性は言うまでもないことである。
翻訳の質及び効率を向上するために、人手の代わりに機
械による何らかの方法、つまり機械翻訳システムを考え
なければならない時代になってきたわけである。機械翻
訳システムでは、入力され翻訳される言語を原始言語
と、翻訳され出力される言語を目的言語とする。中間転
換方式を採用する機械翻訳装置は一般的に図８に示すよ
うに、（１）原始言語解析部（２）中間構造転換部（３）目的言語生成部（４）参照用字典、辞書という四つの部分から構成される。機械翻訳の品質は、
原始言語解析部で入力された語句を正確的に解析した
か、また中間構造転換部で原始言語と目的言語との差異
を解消したか、目的言語生成部で目的言語の生成文法規
則に基づいて正確的に目的言語を生成したか、というこ
とによくかかっている。とりわけ、翻訳の対象が諺、慣
用句などの定型文である場合、各語句が文法正しい掛り
受け関係を満足しないものが多く、その結果、翻訳不可
となったり、形式的に文法上の掛り受けを満足しても各
語句毎の訳語句に基づき生成された訳文がまったく意味
をなさない訳文となってしまったりすることが多く、翻
訳の品質が低下する。例えば、Ｈｏｗｄｏｙｏｕｄｏ？（慣用句）に対して、慣用句の解析処理を無視し、普通の英文解析
を行うと、解析結果は図１４のようになる。

【０００３】中国語の訳語は「

【０００４】

【外１】

【０００５】如何作？（あなたはどうするか）」とな
り、「

【０００６】

【外２】

【０００７】好！（こんにちは）」と正しく翻訳される
ことができない。この問題点を解決するために、従来の
技術、例えば日本特開昭 62−82464 号公報の機械翻訳
システムにおいて、諺、慣用句などの定型文の翻訳がよ
り適切に行えるようにしたシステムが提案されている。
この機械翻訳システムは図９に示すようなものである。
図９において、入力部１は原始言語の入力を行う。編集
制御部４は翻訳処理前、後の二種言語の編集を処理す
る。原文記憶部２及び訳文記憶部３はそれぞれ処理中の
原文及び訳文を記憶する。翻訳部５は翻訳の処理をす
る。翻訳辞書６は図１２に示しているように、６ａ〜６
ｇの七部分に分けられ、翻訳処理に検索の必要のある辞
書である。表示制御部７は表示部８の画面表示を処理す
る。印刷部９はファイルや画面の内容をプリントする。
翻訳部５の処理流れは図１０のように、ｓ７１は翻訳辞
書６の定型文辞書６ｇを参照して、入力された原始言語
は定型文であるかを判定する。定型文であれば、ｓ７２
の処理を行い、すなわち、定型文辞書６ｇから日本語の
訳文を取り出して、次にｓ７３により訳文を出力する。
ｓ７１により定型文ではないと判定される場合は、ｓ７
４により一般の翻訳処理を行う。詳細な流れは図１１に
示す。まず形態素解析ｓ５１により規則・不規則変化辞
書６ａを参照して、形態素の解析を行う。次に辞書検索
ｓ５２により単語・熟語辞書６ｂを参照して、処理の必
要のある形態素を探し出してから、ｓ５３、ｓ５４、ｓ
５５により解析文法６ｃ、変換文法６ｄを参照して、構
文解析及び構造変換を繰り返して行い、適当な目的言語
の中間構造を見つける。そして、構文生成ｓ５６により
生成文法６ｅを参照しながら、目的言語の表層構造を生
成する。最後に、形態素生成ｓ５７により形態素生成文
法６ｆを参照して、適当な訳語を選び出す。以上の処理
ステップは一般の翻訳処理と言われる。下記の英文を例
として、この従来例により図１３に示している定型文辞
書を参照しながら、図１０のｓ７１では下記の英文を定
型文と判定するので、ｓ７２により定型文辞書から、マ
ッチングを行い、訳語を取り出してから、ｓ７３を介し
て翻訳結果を出力する。下記のような正しい処理結果が
得られる。

【０００８】Ｈｏｗｄｏｙｏｕｄｏ？（英文原文）はじめまして（日文訳文）

【０００９】

【本発明が解決しようとする課題】入力された原文は語
順の自由度のため、諺や慣用句は定型文ではなくて、単
語間に混じている場合は、例えば、「身に付ける」とい
う定型文を辞書に「穿上」という中国語訳語として登録
すれば、下記のような誤りが出る。第１例彼は身にコートを付ける。（原文）他在身上穿大衣。（従来技術の中国語訳語）他＊穿上＊大衣。（適切な中国語訳語）第２例彼は技術を身に付ける。（原文）他穿上技術。（従来技術の中国語訳語）他＊学習＊技術。（適切な中国語訳語）第１例は語順の自由度のためで、定型文のマッチングを
することができないので、適当な訳語を獲得することが
できない。第２例は慣用句や諺の多義性 (polysemy) に
したがって発生した誤りである。

【００１０】本発明は上記の欠点に鑑み、単語間に混じ
ている諺や慣用句及びそれらに関連する多義性を同時に
解決することができる演算処理方法、且つ参照できる諺
慣用句辞書により品質の高い機械翻訳装置を提供するこ
とを目的とする。

【００１１】

【課題を解決するための手段】本発明は、原始言語の各
諺や慣用句に対して該当諺や慣用句の主形態素を検索キ
ーとして主形態素、主形態素及び副形態素の関連情報、
該当主形態素のすべての諺や慣用句及びそれらに対応す
る意味コードを記憶する諺慣用句辞書と、入力された原
始言語を解析して得られた中間構造を前記諺慣用句辞書
に記憶されている情報と比較して所定条件に合う諺や慣
用句の文を一つのノードにする諺慣用句処理部と、処理
された中間構造のノード数などの情報により入力された
文が単純な諺や慣用句であるかを判断する中間構造判別
部と、該当原始言語の各諺及び慣用句に対応する品詞コ
ード、意味コード、意味支配コード及び対応する目的言
語の訳語を記憶する訳語選択辞書を備えたことを特徴と
する機械翻訳装置である。

【００１２】

【作用】本発明は機械翻訳装置の原始言語解析部及び中
間構造転換部のうちに、諺慣用句処理部を設けて、原始
言語の中間構造（解析結果）にの諺や慣用句について処
理を行い、定型文のマッチング処理の欠点を解決する。
それから、他の処理が必要であるかを判断する中間構造
判別部を設けているにつれて無駄な処理を減らす。本機
械翻訳装置は単に単語間に混じている慣用句や諺を処理
するだけではなく、処理中に意味コードを修正したり、
無駄な、長すぎるノードを削除するなどの手段により、
慣用句や諺の多義性を解決することができる。更に、原
始言語の中間構造をよりきれいに且つ適当に修正するこ
とができるので、翻訳の品質及び効率を向上することが
できる。

【００１３】

【実施例】図１は本発明の一実施例における機械翻訳装
置の構成を示すブロック図である。図１において、１０
０は処理しようとする原始言語をシステムに入力する入
力部である。２００は入力された文に対して、解析辞書
２５０を参照しながら、構文、語意の解析を行い、原始
言語に依存する中間構造を獲得する原始言語解析中間構
造生成部である。３００はバッフア９００から原始言語
の中間構造を読み出して、諺慣用句辞書３５０を参照
し、中間構造に含まれている諺や慣用句のノードを一つ
の形態素として、一つのノードにする。そして、改めて
新しい意味コードを与え、該当諺や慣用句に関連するノ
ードを削除してから、処理結果をバッファ９００に記憶
する諺慣用句処理部である。諺慣用句処理部３００の処
理流れは図２、図３に示す。図５は諺慣用句辞書３５０
の構造の一部を示す説明図である。諺慣用句辞書３５０
には主形態素、主形態素制限要素、補助検索要素、慣用
句、関連意味コードなどの情報を載っている。中間構造
判別部４００はバッファ９００から原始言語の中間構造
を取り出して、図４に示している処理流れにより、単純
な諺或いは慣用句であるかを判定して、判定結果（IDOM
フラグ値）をバッファ９００に記憶する。概念構造転換
部５００は上記中間構造判別部４００の判定結果によ
り、下記の動作を行う。(1)判定結果が単純な諺や慣用句である場合目的言語の生成処理をする必要がなくて、訳語選択部６
００により直接的に諺や慣用句を目的言語に変換するこ
とができる。(2)判定結果が単純な諺や慣用句でない場合バッファ９００から原始言語の中間構造を取り出して、
差異調整転換辞書５５０を参照して、原始言語の語意、
構文に依存する中間構造を目的言語に依存する中間構造
に転換してから、転換結果をバッファ９００に記憶す
る。訳語選択部６００はバッファ９００から目的言語の
中間構造を取り出して、訳語選択辞書６５０を参照し
て、中間構造の各ノードの訳語を決定してから、その処
理結果をバッファ９００に記憶する。目的言語生成部７
００は上記の中間構造判別部４００の判定結果が単純な
諺や慣用句である場合は、処理する必要がない。だが、
単純な諺や慣用句でない場合はバッファ９００から中間
構造を取り出して、目的言語の生成文法により目的言語
を生成し、翻訳結果をバッファ９００に記憶する。最後
にバッファ９００の翻訳結果をプリント等組当てた出力
部８００により出力する。

【００１４】図２、図３は原始言語諺慣用句処理部３０
０の処理流れ図である。図２、図３において、ステップ
２０１は原始言語の中間構造に対してマッチング処理を
して、PROCフラグ（PROCフラグにより中間構造のあるノ
ードは処理されたかを判断する）は１ではないノードを
捜し出す。そういうノードがなかったら、原始言語諺慣
用句処理部３００の動作を終えて、図１の中間構造判別
部４００に入る。もし、PROCフラグは１ではないノード
があれば、続いてステップ２０２により、このノードの
属性は修飾語であるかを判断する。修飾語である場合
は、ステップ２３０の処理に入り、このノードのPROCフ
ラグを１に設定する。そして、ステップ２０１の処理に
戻る。修飾語ではない場合は、ステップ２０３により判
定して葉ノード（子ノードがないノード）と判定する
と、２０４の処理に入り、該当ノードの形態素により、
図１の諺慣用句辞書３５０を参照し、諺や慣用句がある
かどうかを判定する。諺や慣用句がないと判定すると、
ステップ２３０の処理をを行う。諺や慣用句がある場合
はステップ２０５の処理を行い、諺慣用句辞書３５０か
ら、関連のあるすべての諺や慣用句集合S(i)を捜し出し
てから、ステップ２０６の処理に入る。処理されている
ノードに子ノードが葉ノードであるノードを取り出して
集合Yとする。そして、集合Yと集合S(i)との論理積演算
をして、獲得する可能性のある諺や慣用句の集合をM(i)
とする。それから、ステップ２０８の判断処理を行い、
すべてのM(i)は空集合であれば、諺や慣用句がないこと
を意味するので、諺慣用句処理部３００の処理を終え
て、図１の中間構造判別部４００の処理に入る。空集合
ではない場合は、ステップ２０９の処理を行い、上記の
諺慣用句辞書３５０を参照して主形態素制限要素L(i)を
取り出して、そしてステップ２１０の主形態素のノード
属性値から助動詞情報Aを取り出してから、L(i)と集合A
との論理積演算を行い、判断用の集合J(i)を獲得するよ
うにする。図２のステップ２０１では、上記得られた集
合J(i)が空集合であるかどうかを判断する。空集合であ
れば、ステップ２３０の処理を行い、空集合ではない場
合は、上記の諺慣用句辞書３５０を参照して、M(i)を検
索キーとして、慣用句X及び新しい意味コードYを捜し出
す。ステップ２１６、２１７の処理により、中間構造に
対して修正したり、長すぎるノードを削除してから、上
記のステップ２３０の処理に戻る。図４は中間構造判別
部４００の処理を示すフロチャートである。図４におい
て、ステップ３０１は中間構造に対して、該当ノードは
単純な諺や慣用句であるかを判断するために、単一なノ
ードであるかを検査して、単一なノードであれば、ステ
ップ３０２の処理を行い、IDOMフラグ値を１に設定し
て、単一なノードでない場合は、ステップ３０３の処理
を行い、IDOMフラグ値をゼロに設定する。日中翻訳を例
として本発明の機械翻訳装置の動作を説明する。

【００１５】「彼は借金で首が回らぬ」という原始言語
の文を入力部１００により入力されて、原始言語解析中
間構造生成部２００の処理を経て、図６に示している原
始言語中間構造を獲得することができる。次に、原始言
語諺慣用句処理部３００により、図２、図３の流れのよ
うに処理する。図２のステップ２０１では、図６に示し
ている中間構造に対して、上から下まで、また右から左
まで中間構造の PROCフラグ値は１ではないノードを捜
し出す。すると、ノード「回る」が見つかれる。したが
って、ステップ２０２の判断処理により、このノードは
修飾語ではない（例えば、埋め込文など）ので、ステッ
プ２０３の処理に入る。図６の中間構造により「回る」
ノードは葉ノードではないことがよく判断できるので、
ステップ２０４の処理に入る。図１の諺慣用句辞書３５
０には形態素「回る」を検索キーとしての諺慣用句情報
を記憶されているので、ノード「回る」には関連する
諺、慣用句があるという判断を行ない、ステップ２０５
の処理に入る。図５に示している諺慣用句辞書に、形態
素「回る」を検索キーとしてのすべての関連諺慣用句の
補助検索要素集合Sは下記のようになる。

【００１６】 S(1)=（（首が）（借金で）） S(2)=（（手が）） S(3)=（（目が）） S(4)=（（頭が）） S(5)=（（舌が）） S(6)=（（気が））次に、図２のステップ２０６の処理に入り、図６の中間
構造により下記のように葉ノード集合Yを獲得すること
ができる。

【００１７】Y=（（首が）（借金で）（彼は））そして、図２のステップ２０７の処理に入る。ここで、
M(i)=S(i)∩Ｙ,i=１〜６である。その処理結果は下記の
ようになる。

【００１８】 M(1)=（（首が）（借金で）） M(2)=Ф ： M(6)=Ф そして、ステップ２０６の処理に入り、M(i)は空集合で
はないので、ステップ２０９の処理に入る。諺慣用句辞
書によると、下のようになる。

【００１９】L(1)=（ないんぬまいず）次に、図３のステップ２１０の処理に入り、形態素「回
る」の助動詞属性集合A=（ん）ので、J(i)=L(1)。腆の処
理を行うと、J(1)だけは空集合ではないという結果が見
つかれる。続いて、図３のステップ２１１の判断処理で
ある。J(1)は空集合ではないので、ステップ２１５に入
る。諺慣用句辞書及び補助検索キーM(1)により、 X（慣用句）＝借金で首が回らぬ Y（新意味コード）＝M３７１という処理結果が得られる。ステップ２１６に入り、
X、Yにより図６の中間構造の形態素「回る」ノードの形
態素及び意味コード属性値を代わってから、ステップ２
１７の処理により、M(1)及びL(1)に含まれているノー
ド、属性値が既にステップ２１６に処理されたので、無
駄な、長過ぎるなノード及び属性値はここで削除するこ
とができる。図６の例によれば、この処理結果が図６の
右の説明例のように、「借金」及び「首」という二つの
ノード、及び形態素「回る」の助動詞属性「ん」等が削
除されるわけである。次に、図３のステップ２３０に入
り、形態素「回る」ノードの属性PROCを１に設定する
と、ステップ２１０に戻って、中間構造からPROCは１で
はないノード「彼」を見つけてからステップ２０２に入
り、ノード「彼」は修飾語ではないので、ステップ２３
０に入り、このノードのPROCを１に設定してから、ステ
ップ２０１に戻って、このとき、中間構造にのPROCは１
ではないノードがないので、図１の原始言語諺慣用句処
理部３００の処理が終わる。続いて、図４の処理流れの
ように中間構造判別部４００の処理に入る。図４におい
て、まずステップ３０１の判別処理に入り、図６の右の
説明例に示すように、中間構造はただ二つのノードが残
っているので、この入力文は定型文ではないことを判定
することができるので、ステップ３０３に入り、フラグ
IDOMをゼロに設定してから、中間構造判別部４００の処
理を終える。そして、図１の概念構造転換部５００の処
理に入る。図６に示しているノードのフラグIDON値はゼ
ロであるので、図１の差異調整転換辞書５５０を参照を
して、中国語と日本語との語意、構文などの差異を調整
する。その後、図１の訳語選択部６００により、図７に
示すような訳語選択辞書６５０を参照して、中間構造の
各ノードの形態素を決める。例えば、「彼」の訳語は
「他」で、「借金で首が回らぬ」の訳語は「債臺高築」
である。続いて、目的言語生成部７００により、中文の
表層構造を生成して、この例の生成訳文「他債臺高築」
となる。最後に、図１の出力部８００により、翻訳結果
を出力する。

【００２０】

【発明の効果】本発明によれば、下記のような効果が得
られる。（１）定型文ではない諺や慣用句でも、正確に処理でき
るので、適切な訳語が得られる。したがって、翻訳の品
質を向上することができる。（２）処理中の不用な、長過ぎる構造を削除したり、ま
た不適当な意味コードを修正することなどにより、中間
構造を簡単にし、機械翻訳のスピードを速めることがで
きる。（３）機械翻訳の品質の向上に連れて、再編集の必要性
を著しく低くすることができるので、人手による修正も
減少し、自動的な機械翻訳を達成することができる。

【００２１】このように、本発明は従来定型文の諺や慣
用句しか処理できないという問題点を解決することがで
きる上に、実行する際の効率もよく、実用性がはるかに
大きい。

【００２２】

【図面の簡単な説明】

【００２３】

【図１】本発明の一実施例における機械翻訳装置の構成
を示すブロック図である。

【００２４】

【図２】同実施例における原始言語諺慣用句処理部の処
理を示すフローチャートである。

【００２５】

【図３】同実施例における原始言語諺慣用句処理部の図
２の続きの処理を示すフローチャートである。

【００２６】

【図４】同実施例における中間構造判別部の処理を示す
フロチャートである。

【００２７】

【図５】同実施例における諺慣用句辞書の一部の構造を
示す図である。

【００２８】

【図６】同実施例に使用した例文の原始言語の中間構造
を示す図である。

【００２９】

【図７】同実施例における訳語選択辞書の一部の構造を
示す図である。

【００３０】

【図８】一般の中間構造方式における機械翻訳装置の翻
訳処理過程を示す流れ図である。

【００３１】

【図９】従来の機械翻訳装置の構成例を示すブロック図
である。

【００３２】

【図１０】従来の機械翻訳装置の処理を示すフローチャ
ートである。

【００３３】

【図１１】従来例の翻訳処理を示すフローチャートであ
る。

【００３４】

【図１２】従来例の参照用辞書の構成を示す図である。

【００３５】

【図１３】従来例の定型文辞書の一部の構成を示す図で
ある。

【００３６】

【図１４】従来のノード解析を慣用句について行なった
例を示す図である。

【００３７】

【符号の説明】

１００入力部２００原始言語解析中間構造生成部２５０解析辞書３００原始言語諺慣用句処理部３５０諺慣用句辞書４００中間構造判別部５００概念構造転換部５５０差異調整転換部６００訳語選択部６５０訳語選択辞書７００目的言語生成部８００出力部９００バッファ

Claims

【特許請求の範囲】

【請求項１】原始言語の各諺や慣用句に対して該当諺
や慣用句の主形態素を検索キーとして主形態素、主形態
素及び副形態素の関連情報、該当主形態素のすべての諺
や慣用句及びそれらに対応する意味コードを記憶する諺
慣用句辞書と、入力された原始言語を解析して得られた
中間構造を前記諺慣用句辞書に記憶されている情報と比
較して所定条件に合う諺や慣用句の文を一つのノードに
する諺慣用句処理部と、処理された中間構造のノード数
などの情報により入力された文が単純な諺や慣用句であ
るかを判断する中間構造判別部と、該当原始言語の各諺
及び慣用句に対応する品詞コード、意味コード、意味支
配コード及び対応する目的言語の訳語を記憶する訳語選
択辞書を備えたことを特徴とする機械翻訳装置。