JP2000259631A - 機械翻訳校正装置 - Google Patents
機械翻訳校正装置Info
- Publication number
- JP2000259631A JP2000259631A JP11060045A JP6004599A JP2000259631A JP 2000259631 A JP2000259631 A JP 2000259631A JP 11060045 A JP11060045 A JP 11060045A JP 6004599 A JP6004599 A JP 6004599A JP 2000259631 A JP2000259631 A JP 2000259631A
- Authority
- JP
- Japan
- Prior art keywords
- proofreading
- sentence
- rule
- provisional
- rules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
訳文に校正することができる機械翻訳校正装置を提供す
る。 【解決手段】 校正規則生成部10は、機械翻訳された
機械翻訳文である校正対象文と、当該校正対象文から人
手による校正により校正された校正結果文との対を対応
づけて記憶された校正データに基づいて、校正対象文
と、当該校正対象文から挿入、削除、置換のうちの少な
くとも1つの編集校正処理がなされて置き換えすべき校
正文との対からなり、かつ翻訳用校正規則として整合性
を有する校正規則を生成する。自動校正部2は、機械翻
訳された機械翻訳文である校正対象文に対して、上記生
成手段によって生成された校正規則を適用することによ
り、自動的に校正して、校正翻訳文を生成して出力す
る。
Description
入力文から機械翻訳された第2の自然言語の機械翻訳文
を自動的に校正して出力する機械翻訳校正装置に関す
る。
ーズはますます増大し、研究も盛んに行なわれている。
例えば、機械翻訳装置においては、書き言葉の翻訳だけ
でなく、自動翻訳電話などの話し言葉の翻訳の技術開発
が最近、行なわれるようになっている。書き言葉の翻訳
と違って、話し言葉の翻訳を実現するには、話し言葉の
内容が粗い内容であり、文法が所定の予め記憶された文
法からはずれた文法であっても、正しく解析して、その
話し言葉を翻訳した答えを常に出力することができるよ
うな頑健な処理を提供する必要がある。
は、予め記憶された複雑な文法に基づいて、入力された
自然言語文の構造を精密に解析しており、以下のような
問題点があった。 (1)所定の文法に基づいて、しばしば逸脱する話し言
葉の自然言語文を正確に解析することができず、従来の
装置は、話し言葉の解析に向いていない。 (2)例えば、話し言葉をサポートするような複雑な文
法規則を書くためには熟練を要するとともに、当該文法
規則が膨大となって複雑となるので、規則間の矛盾検出
などの管理作業は極めて困難になる。 (3)上記(2)のように、複雑な文法規則を作成した
場合、膨大な数の曖昧な文法規則を生成することにな
り、当該文法規則のメモリが膨大になる一方、文法規則
を照合するアルゴリズムが複雑になる。それ故、記憶装
置の記憶容量が膨大となり、これによって解析装置の規
模が大きくなるとともに、処理時間が極めて長くなる。
人は、特開平8−44740号公報において、所定の文
法からしばしば逸脱する例えば話し言葉などの自然言語
文の構造を解析することができる自然言語解析装置(以
下、第1の従来例という。)を開示している。この第1
の従来例では、「文字列からなりかつ複数の単語からな
る入力された自然言語文の構造を解析する自然言語解析
装置において、単語と言語パターンとの関係を記述した
言語パターン検索テーブルを予め記憶する第1の記憶装
置と、上記第1の記憶装置に記憶された言語パターン検
索テーブルを参照して、入力された自然言語文の各単語
から、当該自然言語文に照合可能な言語パターンを検索
する検索手段と、上記検索手段によって検索された言語
パターンと上記入力された自然言語文に含まれる表層語
句とを組み合わせ、その組み合わせたものと上記入力さ
れた自然言語文とを照合して一致した組み合わせに基づ
いて、上記入力された自然言語文に対する言語パターン
と表層語句の組み合わせよりなる構造を決定して出力す
る照合手段とを備えたこと」を特徴としている。
関係からの中国語生成”,情報処理学会研究会報告,N
L80−6,1990年11月22日」において、日本
語から中国語への機械翻訳装置(以下、第2の従来例と
いう。)を開示している。この第2の従来例では、日本
語の文を形態素/構文/意味解析して得られた格情報や
意味コードなどを持ったノードを入力とし、日本語の深
層格に中国語の文法成分を対応させ、日本語の動詞別に
中国語の文法成分の位置を決める最適な最大表層構造チ
ェーンを検索し、正しい語順で中国語の文を生成してい
る。
従来例においては、変換部において主語などの補完を行
なっていたため、補完に必要な情報として局所的な原言
語構造しか利用できなかった。従って、翻訳言語におい
てより自然な翻訳文を出力することができないという問
題点があった。
を手作業で作成するため、追加、削除などの管理が煩雑
となる。また、生成規則の増加に伴い、規則間の整合性
を取ることが困難となる。言いかえれば、生成規則の精
度が悪く、適切な翻訳をすることができないという問題
点があった。
械翻訳された翻訳文を適切により自然な翻訳文に校正す
ることができる機械翻訳校正装置を提供することにあ
る。
載の機械翻訳校正装置は、第1の自然言語の入力文から
機械翻訳された第2の自然言語の機械翻訳文を自動的に
校正して、校正翻訳文を出力する機械翻訳校正装置であ
って、上記機械翻訳された第2の自然言語の機械翻訳文
である校正対象文と、当該校正対象文から人手による校
正により校正された校正結果文との対を対応づけて校正
データとして記憶する記憶手段と、上記記憶手段に記憶
された校正データに基づいて、校正対象文と、当該校正
対象文から挿入、削除、置換のうちの少なくとも1つの
編集校正処理がなされて置き換えすべき校正文との対か
らなり、かつ翻訳用校正規則として整合性を有する校正
規則を生成する生成手段と、上記機械翻訳された第2の
自然言語の機械翻訳文である校正対象文に対して、上記
生成手段によって生成された校正規則を適用することに
より、自動的に校正して、校正翻訳文を生成して出力す
る校正手段とを備えたことを特徴とする。
は、請求項1記載の機械翻訳校正装置において、上記生
成手段は、上記記憶手段に記憶された校正データに基づ
いて、1箇所の編集位置に対してそれぞれ校正対象文と
校正結果文の1対からなる複数の仮規則を生成し、生成
した仮規則から、校正データのうちの校正対象文と校正
結果文における文字連鎖の不変化部分を校正対象文に有
する有害な仮規則を排除し、仮規則における同一の校正
対象文に対して異なる校正結果文を有して異なる処理を
実行する仮規則を矛盾の規則として排除し、仮規則のう
ち重複する規則を排除することにより、校正規則を生成
することを特徴とする。
は、請求項1又は2記載の機械翻訳校正装置において、
上記校正規則は、(1)語順の変更情報と、(2)省略
された主語を補完するための挿入情報と、(3)省略さ
れた目的語を補完するための挿入情報と、(4)省略さ
れた文要素を補完するための挿入情報と、(5)不要な
文要素を削除するための削除情報とのうちの少なくとも
1つを含むことを特徴とする。
る実施形態について説明する。
械翻訳装置の構成を示すブロック図である。本実施形態
の機械翻訳装置は、機械翻訳部1により公知の機械翻訳
方法により機械翻訳された翻訳文に対して人手による校
正を実行したときの校正前と校正後の対の校正データに
基づいて校正規則を自動的に生成して校正規則メモリ2
4に格納する校正規則生成部10と、上記翻訳文に対し
て生成された校正規則を用いて自動校正して出力する自
動校正部2とを備えたことを特徴としている。ここで、
校正規則生成部10は、校正データメモリ21に記憶さ
れた校正データに基づいて、校正対象文と、当該校正対
象文から挿入、削除、置換のうちの少なくとも1つの編
集校正処理がなされて置き換えすべき校正文との対から
なり、かつ翻訳用校正規則として整合性を有する校正規
則を生成する。具体的には、校正規則生成部10は、図
5に示すように、校正データメモリ21に記憶された校
正データに基づいて、1箇所の編集位置に対してそれぞ
れ校正対象文と校正結果文の1対からなる複数の仮規則
を生成し、生成した仮規則から、校正データのうちの校
正対象文と校正結果文における文字連鎖の不変化部分を
校正対象文に有する有害な仮規則を排除し、仮規則にお
ける同一の校正対象文に対して異なる校正結果文を有し
て異なる処理を実行する仮規則を矛盾の規則として排除
し、仮規則のうち重複する規則を排除することにより、
校正規則を生成する。ここで、上記校正規則は、(1)
語順の変更情報と、(2)省略された主語を補完するた
めの挿入情報と、(3)省略された目的語を補完するた
めの挿入情報と、(4)省略された文要素を補完するた
めの挿入情報と、(5)不要な文要素を削除するための
削除情報とを含む。
理において、自然と感じる文の生成、特に校正作業によ
って自然な文に変更することを目的としている。本実施
形態においては、翻訳結果に対して手作業により校正を
行ない、この両者を比較することによって校正規則を作
成し、校正規則は校正前後のDPマッチングをとること
により、局所的に変更するような形式で記述する。ここ
で、本実施形態では、日本語から中国語への翻訳処理の
一例について説明する。
調整は、生成部において行なっている。しかしながら、
従来のシステムで行なわれているのは、英語生成におけ
る副詞的要素の位置の移動や疑問詞疑問文における疑問
詞の移動など、構文的な理由に基づくものが多く、言い
やすさ、語調をそろえるためなどの文の自然さの考慮は
あまりなされていない。以上のような動機に基づき、本
実施形態では機械翻訳の処理結果をより自然な文に書き
換えることを目的としている。この処理の実現のため
に、人手で行なった校正結果を利用し、それを規則化す
ることで自動的に校正を行う。生成される文がどのよう
な場合に自然と感じられるかは難しい問題であるため、
「自然さ」の規則を直接的に生成することは困難である
と考えられる。また、校正対象の「不自然さ」はそのシ
ステムに依存する。これに対して、与えられた文を自然
な文に校正することは比較的容易であるので、本実施形
態では、校正前後の文の比較によって校正知識を獲得す
るというアプローチを採る。このため本実施形態では、
校正前のテキストは形態素及び品詞の情報を持ち、校正
後のテキストはこれらの情報を持たない文字列と仮定す
る。
作について説明する。図1において、機械翻訳部1は、
例えば従来技術文献2「古瀬蔵ほか,”経験的知識を活
用する変換主導型機械翻訳”,情報処理学会論文誌,V
ol.35,No.3,平成6年3月発行」において開
示された公知の機械翻訳装置であって、翻訳前と翻訳後
の文の対を用例として予め蓄積して、当該用例を用い
て、意味的距離を計算して参照しながら、入力文に対し
て第1の自然言語の表現から第2の自然言語の表現に逐
次、変換主導型機械翻訳処理を実行し、機械翻訳後の翻
訳文を第2の自然言語の機械翻訳文メモリ32に出力し
て格納する。人手による校正3では、第2の自然言語の
機械翻訳文メモリ32内の機械翻訳文に対して、より自
然な翻訳文に翻訳校正して、翻訳前の校正対象文と翻訳
後の校正結果文との対である校正データを生成して校正
データメモリ21に格納する。次いで、校正規則生成部
10は、校正データメモリ21内の校正データに基づい
て、校正不変化部分メモリ22及び仮規則メモリ23を
用いて、図5の校正規則生成処理を実行することによ
り、校正規則を生成して校正規則メモリ24に格納す
る。さらに、自動校正部2は、第2の自然言語の機械翻
訳文メモリ32内の機械翻訳文に対して、校正規則メモ
リ24内の校正規則を参照して、自動的に翻訳校正を行
って、校正後の校正翻訳文を第2の自然言語の校正翻訳
文メモリ33に出力して格納する。この翻訳校正では、
用例翻訳と同様に、校正規則を入力文に逐次適用してゆ
き、校正してゆく。
は、図1に示すように、規則の獲得部である校正規則生
成部10と、規則の適用部である自動校正部2とに分か
れる。規則獲得部は翻訳出力とその人手による校正結果
を組として入力し、これらから規則獲得部である校正規
則生成部10において矛盾のない規則の集合が出力さ
れ、保存される。規則適用部である自動校正部2は、機
械翻訳などの出力結果を入力とし、予め決められた順に
校正規則を適用していく。
する際には、できるだけ校正規則を一般化してその校正
規則の適用範囲を広くしなければならない。その一方
で、現象の一般化は誤った解釈を起こす可能性も高くな
るので、副作用の問題が大きくなる。これらを両立させ
ることは観察対象が少数の場合においては特に困難とな
る。そこで、本実施形態では、悪影響を出さないことを
より重視して校正規則の作成を行う。すなわち、校正規
則を検定する際に、悪影響が出る恐れのある校正規則を
できるだけ排除する方針で取捨選択を行う。これはいわ
ば「臆病な」校正規則の作成方針である。
作成する。これは、構成規則の表現形態として要素列の
置換による表現、すなわち、ある要素列Aがあればこれ
を要素列A’に置換せよ、という表現が処理上便利であ
り、本実施形態の獲得対象としている文の自然さは概ね
前後の局所的な情報が関係すると予想したためである。
は、校正されたテキストを校正前のものと比較すること
で構成規則を作成する。比較は文字を単位とするDPマ
ッチングによって行う。表1に、校正規則の獲得過程の
概要を示す。校正規則生成部10は翻訳された校正対象
文の集合Gと、当該校正対象文の集合Gの各文の人手に
よる校正結果文の集合Pを入力とする。
ムの概略について説明する。ステップS1では、校正対
象文Gと校正結果文Pの対応する各文ごとのDPマッチ
ングによって仮規則集合を作成する。DPマッチングは
文字を単位にして行う。DPマッチング後に、連続する
要素列の書き換えによって両者の差異を吸収するように
規則を作成する。この際、規則作成時には、校正対象文
Gの各文が持つ単語及び品詞に対して規則作成を試み
る。このようにして作成された規則を、ここでは仮規則
と呼ぶ。
<abcd>(ここで、<…>は文字列であり、a,
b,…は単語であって、xは文字である。)であり、こ
こで、a,b,…の品詞はA,B,…とする。この文が
校正結果文s’=<abxcd>となり、これが校正結
果文Pに格納されているとする。校正対象文sと校正結
果文s’のDPマッチングの結果、文字xの挿入がある
ことがわかる。従って、校正規則生成部10ではこの違
いを吸収するような仮規則を作成する。このとき、要素
長パラメータnの値によって、どの程度周囲に依存した
規則を生成するかを決定する。例えば、初期設定ではn
が2であり、規則の左辺の要素長が2である以下の12
の規則が生成される。このとき、右辺の要素長は差異の
種類(挿入、欠落、置換)によって左辺の要素長±1の
いずれかになる。これによって、1ヶ所の修正位置に対
して複数の仮規則が作成される。
象文Gの一文が<abcde>であり、そして対応する
校正結果文Pの一文が<abde>である場合、以下の
18の規則が仮生成される。
文に対して実行され、その結果仮生成された規則集合は
R0(仮規則メモリ23)に格納される。この時、重複
した場合でも1つとみなし頻度は記録しない。上の例に
示すように、1ヶ所の修正に対して複数の仮規則が作成
されるが、矛盾したものや最終的に重複しているものは
削除される。
れた仮規則の絞りこみを行う。これは、「有害」な規則
の排除、矛盾の排除、最終的な検査、重複規則の排除と
いう、4種類の処理に分かれ、これらの処理によって徐
々に仮規則の絞り込みを行なっていく。
対象にDPマッチングによって不変化部分を要素列形式
で(n−gramの形式で)抽出する。例えば、校正対
象文とその校正結果文がそれぞれ<abcd>と<ab
xcd>であった場合に、<ab>と<cd>という2
つの文字連鎖が抽出される。これをすべての文に対して
行ない、変化させてはいけない要素列の集合を集める。
次に、これら不変化部分に対して操作を行なっている仮
規則を「有害」な仮規則とみなし、これを排除する。こ
の処理は、ステップS2.3でDPマッチングの回数を
低減させるために採用した。
盾した規則を持つものを排除する。例えば、ある2つの
仮規則が
なり、規則適用の際にどちらを採用すべきか決めかね
る。そのため、この両規則はその条件部に問題がある
「悪い規則」であると考え、この両者を仮規則から排除
する。
査を行う。ここでは、これまでの処理で排除されなかっ
た各仮規則をすべての訓練文に対して実行する。その結
果、DP距離が悪化した文が1文でもあれば、他の文で
DP距離が改善されていてもその文は「有害」であると
判断し、排除する。
規則に対して重複を調査し、これらに対してより一般的
な規則を採用する。例えば仮規則中に
する)の2つの規則があった場合は、後者のほうがより
一般的であり、前者の規則が適用される場合には後者も
必ず適用される。このことから後者の規則がある場合に
は前者の規則は不要であるため、このような重複規則の
チェックを行ない、該当した場合には個別的な規則を削
除する。
仮規則を正式にパラメータnにおける規則として採用
し、校正対象文の集合Gに対してこれら規則をすべて適
用する。この際、適用する順序はどれからでもよく、任
意である。また、競合する規則もない。全規則適用後の
校正対象文の集合をG1とする。
チェックされる。アルゴリズムの終了条件は、ステップ
S3で校正後の文集合Gが最終校正結果Pと完全に一致
するか、又は、今回の校正規則適用によって校正対象G
が何も変化しなかった場合である。このどちらかを満た
した場合にアルゴリズムは終了し、ステップS5で校正
規則集合Rを返して終了する。そうでない場合には、校
正対象文の集合GをG1と再定義し、パラメータnを1
だけ増加して再びステップS1に進む。
適用について説明する。一般に、実際のシステムにおい
ては、校正規則の適用の際の処理時間を考慮することが
重要である。すなわち各校正規則はできるだけ短時間で
適用されることが望ましい。また、校正規則の適用の際
には、校正規則相互の関係が明確であり、適用の際に適
用順を明確に規定できることが望ましい。本実施形態の
手法においては、各校正規則は入力とのパターンマッチ
ングによって実行されるので、比較的短時間で処理でき
る。また、校正規則は互いに競合することのなく、nが
同一であればすべて同時に適用できるように作成してい
るため、適用時には校正規則の選択やその適用順の選択
を行う必要がない。
(1)語順の変更情報と、(2)省略された主語を補完
するための挿入情報と、(3)省略された目的語を補完
するための挿入情報と、(4)省略された文要素を補完
するための挿入情報と、(5)不要な文要素を削除する
ための削除情報とを含む。
納される校正データの一例を示す図である。図2から明
らかなように、校正データメモリ21では、校正前の校
正対象文とその校正結果である校正結果文とが、以下の
ような形式で格納される。
Xiの表記を形態素列Wiとしかつその品詞をPiとす
るとき、(Pi”Wi”)という形式で定義される。一
方、Yiは文字を示し、”Y1 Y2 … Yn”全体
の文字列を示す。以上のように、校正前の校正対象文
は、単語に分割され、各単語には品詞が付与されてい
る。これに対して、校正後の校正結果文は文字列として
格納されている。実際の例を以下に示す。
語が品詞”
を対にしたものが蓄積の最小単位となって校正データと
して校正データメモリ21に蓄積される。
に格納される校正不変化部分の一例を示す図である。図
3から明らかなように、校正不変化部は、校正規則生成
部10における有害規則排除処理で使用され、以下の形
式を持つ。
はその単語情報Xiの表記(又は形態素列)Wi又は品
詞Piのいずれかとなる。要素長nは校正規則獲得処理
のパラメータnを指し、作成された仮規則の左辺要素長
に一致する。
される校正規則の一例を示す図である。図4から明らか
なように、校正規則は以下のように定義される。
2 Q3 … Qn)
Qj(j=1,2,…,n):文字列、形態素、又は品
詞である。mとnの関係は、挿入規則の場合
に示す要素の列(P1P2 P3 … Pm)があった
場合、これを右辺の要素列(Q1 Q2 Q3… Q
n)に置換することを意味する。実際の規則例を以下に
示す。
れる。ここでは”我”がない場合でも中国語として理解
は可能であるが、一般にはこれを補ったほうが自然であ
ることから、校正例として出現し、校正規則として生成
される。
規則排除処理について詳細に説明する。ある文の校正前
の校正対象文と、校正後の校正結果文が以下のようであ
ったとする。
施形態では、形態素”是”に対しても仮規則を作成し、
その品詞(判定詞)に対しても重複して仮規則を生成す
る。また、「
のような仮規則を作成する。
に番号を付与する。>
り、校正規則を構成する各要素は文字列、形態素、品詞
のいずれかになる。
「照合検定」の各規則のいずれかで仮規則3と仮規則4
が排除され、仮規則1と仮規則2が「重複規則排除」の
対象となる仮規則に残った場合を想定する。この場合、
例えば、処理の最初に、
を品詞に置き換え」た仮規則、すなわちこの例では
「是」を「判定詞」に、「
を検索する。このとき、この例のように要素が形態素で
あるものが複数ある場合、該当する仮規則は組み合わせ
的に複数考えられるが、このそれぞれの組み合わせ、す
なわち、仮規則1の形態素を品詞化した仮規則として以
下を得る。
仮規則が作られているかどうかを検索する。この例では
仮規則2が残っているので、仮規則1は重複規則排除処
理によって排除される。これは、仮規則1が適用される
場面では必ず仮規則2も同時に適用される、すなわち仮
規則2は仮規則1を包含することから、仮規則1の存在
が不要なためである。
て実行される校正規則生成処理を示すフローチャートで
ある。図5のステップS11において、パラメータn
(仮規則の左辺の要素長である。)を2に設定し、ステ
ップS12において校正データメモリ21から校正デー
タの対を読み込む。次いで、ステップS13において仮
規則生成処理(図6)を実行し、ステップS14におい
て有害規則排除処理(図7)を実行し、ステップS15
において矛盾規則排除処理(図9)を実行し、ステップ
S16において照合検定処理(図10)を実行し、ステ
ップS17において重複規則排除処理(図11)を実行
し、ステップS18において校正対象文更新及び仮規則
出力処理(図12)を実行する。そして、ステップS1
9において終了条件を満たすか否かが判断される。ここ
で、終了条件は、以下の2つの条件のいずれかを満たす
ときをいう。 (1)生成した仮規則において、校正対象文において変
化が無い。又は (2)校正対象文が校正結果文と一致する。 ステップS19でNOであるときは、ステップS20で
パラメータnを1だけインクリメントした後、ステップ
S21において校正データメモリ21から別の校正デー
タの対を読み込んで、ステップS13に戻る。一方、ス
テップS19でYESであるときは、当該校正規則生成
処理を終了する。
生成処理(ステップS13)を示すフローチャートであ
る。図6のステップS31において、まず、校正対象文
と校正結果文の1対を選択して処理対象とし、ステップ
S32において処理対象の1対の校正データに対してD
Pマッチング法を用いて文字単位でマッチングをとる。
次いで、ステップS33において1対の校正データ間に
差分があるか否かが判断され、差分があるときは、ステ
ップS34において各差分箇所に対して左辺の要素長が
nとなり、かつ差分を吸収するように仮規則を生成して
仮規則メモリ23に出力し、ステップS35に進む。一
方、ステップS33でNOであるときはそのままステッ
プS35に進む。さらに、ステップS35において次の
校正データの対があるか否かが判断され、YESのとき
はステップS36において校正対象文と校正結果文の別
の1対を選択して処理対象として、ステップS32に戻
る。一方、ステップS35でNOであるときは、元のメ
インルーチンに戻る。
則排除処理(ステップS14)を示すフローチャートで
ある。図7のステップS41において、まず、仮規則メ
モリ23からすべての仮規則を読み込み、ステップS4
2において校正対象文と校正結果文の1対を選択して処
理対象とする。次いで、ステップS43において要素長
がnとなるように不変化部分を抽出して、不変化部分メ
モリ22に出力する。なお、要素長がnを超えるとき
は、要素長がnとなるように分割する。次いで、ステッ
プS44において次の校正データの対があるか否かが判
断され、YESのときは、ステップS45において校正
対象文と校正結果文の別の1対を選択して処理対象とし
て、ステップS43に戻る。一方、ステップS44でN
Oのときは、ステップS46において不変化部分照合処
理(図8)を実行した後、元のメインルーチンに戻る。
部分照合処理(ステップS46)を示すフローチャート
である。図8のステップS51において、まず、不変化
部分メモリ22から不変化部分を1つ選択して処理対象
とし、ステップS52において不変化部分を左辺に持つ
仮規則があるか否かが判断され、YESのときに、ステ
ップS53においてその仮規則を仮規則メモリ23から
排除した後、ステップS54に進む。一方、ステップS
52でNOであるときは、そのままステップS54に進
む。次いで、ステップS54において次の不変化部分が
あるか否かが判断され、YESのときは、ステップS5
5において不変化部分メモリ22から別の不変化部分を
1つ選択して処理対象としてステップS52に戻る。一
方、ステップS54でNOであるときは、元のメインル
ーチンに戻る。
則排除処理(ステップS15)を示すフローチャートで
ある。図9のステップS61において、まず、仮規則メ
モリ23上で全ての仮規則を左辺の要素の文字順にソー
トし、ステップS62において左辺の要素が同一の仮規
則を仮規則メモリ23で検索する。次いで、ステップS
63において該当の仮規則が1つしかないか否かが判断
され、左辺の要素が同一の仮規則が1つしかないとき
は、そのまま元のメインルーチンに戻る。一方、左辺の
要素が同一の仮規則が複数ある仮規則については、ステ
ップS64においてそれらの仮規則(1つ又は複数の仮
規則)を仮規則メモリ23からすべて排除した後、元の
メインルーチンに戻る。
検定処理(ステップS16)を示すフローチャートであ
る。図10のステップS71において、まず、仮規則メ
モリ23から仮規則を1つ選択して処理対象とし、ステ
ップS72においてすべての校正対象文に対してこの仮
規則を適用し、適用前後のDPマッチングの距離(いわ
ゆる、削除、挿入、置き換えを含む文字編集の編集距離
である。)を計算する。このステップS72では、校正
データの校正対象文に対して仮規則を適用する前の校正
対象文と校正結果文との間のDPマッチングの距離と、
校正データの校正対象文に対して仮規則を適用したとき
の校正対象文と校正結果文との間のDPマッチングの距
離とを計算して比較する。次いで、ステップS73にお
いてDPマッチングの距離が悪化した文が1文でもある
か否かが判断され、YESのときはステップS74にお
いて当該仮規則を仮規則メモリ23から排除した後、ス
テップS75に進む。一方、ステップS73でNOであ
るときは、ステップS75において次の仮規則があるか
否かが判断される。ステップS75でYESのときは、
ステップS76において仮規則メモリ23から別の仮規
則を1つ選択して処理対象としてステップS72に戻
る。一方、ステップS75でNOのときは、元のメイン
ルーチンに戻る。
規則排除処理(ステップS17)を示すフローチャート
である。図11のステップS81において、まず、仮規
則メモリ23から仮規則を1つ選択して処理対象とし、
ステップS82において仮規則中の形態素部分を品詞に
置き換えた仮規則を仮規則メモリ23内の残りの仮規則
中から検索する。次いで、ステップS83において検索
できたか否かが判断され、検索できたときは、ステップ
S84において形態素で記述されている仮規則を仮規則
メモリ23から排除した後、ステップS85に進む。一
方、ステップS83でNOであるときは、そのままステ
ップS85に進む。ステップS85において次の仮規則
があるか否かが判断され、YESのときは、ステップS
86において仮規則メモリ23から別の仮規則を1つ選
択して処理対象としてステップS82に戻る。一方、ス
テップS85でNOであるときは、元のメインルーチン
に戻る。
対象文更新及び仮規則出力処理(ステップS18)を示
すフローチャートである。図12のステップS91にお
いて、まず、仮規則メモリ23内で左辺の要素長がnの
仮規則を処理対象とし、ステップS92において校正デ
ータメモリ21から校正対象文を1つ選択して処理対象
とする。次いで、ステップS93において処理対象のす
べての仮規則を順不同で当該校正対象文に対して適用し
て校正を行い、校正された校正データで校正データメモ
リ21を更新する。さらに、ステップS94において次
の校正対象文があるか否かが判断され、YESのとき
は、ステップS95において校正データメモリ21から
別の校正対象文を1つ選択して処理対象としステップS
92に戻る。一方、ステップS94でNOであるとき
は、ステップS96において処理対象の仮規則を校正規
則として校正規則メモリ24に出力して格納して、元の
メインルーチンに戻る。
と、自動校正部2と、校正規則生成部10とは、例えば
ディジタル計算機などの制御処理装置で構成され、校正
データメモリ21と、校正不変化部分メモリ22と、仮
規則メモリ23と、校正規則メモリ24と、第1の自然
言語の入力文メモリ31と、第2の自然言語の機械翻訳
文メモリ32と、第2の自然言語の校正翻訳文メモリ3
3とは、例えば、ハードディスクメモリなどの記憶装置
で構成される。
ける校正規則生成及び自動校正の有効性を確認するた
め、当該装置を計算機上に実現し、小規模な実験を行な
った。実験では、まず、学習用コーパス中から432文
を選択し、これらの文を、従来技術文献2の変換主導型
機械翻訳の変換知識のみで出来るだけ自然に翻訳させる
ことを試みる。次に、これらを人手によって校正を行
う。この際、校正する必要のない文も存在するが、この
ような翻訳出力も以降の校正処理の対象とする。以上の
ようにして準備した翻訳出力である校正対象文と、その
校正結果文を、校正規則生成部10の入力として、前述
した校正規則生成処理を行う。この際に作成された仮規
則数及び各処理で排除される規則数をまとめたものを次
の表に示す。
則が要素数として最大であり、7要素の処理において1
つも校正規則が採用されずアルゴリズムが終了した。本
実施形態のように、1つの校正箇所に対して複数の規則
を作成することを認めた場合、一般的にパラメータnが
増加すると組み合わせが非常に多くなる。このため、パ
ラメータnが小さいうちに多くの校正を行なわないと規
則数はパラメータnの増加によって爆発的に増加してし
まう。しかしながら、本実施形態でのアルゴリズムで
は、比較的消極的な規則作成の方針を採ったにもかかわ
らず、多くの校正箇所が2要素や3要素の規則によって
校正されている様子が表8からわかる。以上の観点か
ら、校正規則の獲得処理は規則数の爆発を抑えることが
でき、有効に機能していると考えられる。
適用し、適用前後でどれだけの文が改善されたかを次の
表にまとめた。次の表の未知欄は、変換主導型日中機械
翻訳の翻訳知識に対しても入力文は未知であるオープン
テストである。また、改善欄は校正位置が以前よりも改
善されたことを意味し、それ以外の部分の訳質を問わな
い。混合欄は改善と悪化の両者があった文及び訳質変化
に無関係の校正があった文を指す。
対象とした文に対する改善状況では、約10%程度の文
が同一出力の文となった。これは、校正不要文と校正状
況が前文に依存しているなどに伴う無改善文に分かれる
が、前者の方が多い。また、規則作成方針通り悪化した
文がないことを確認した。未知の文に対する校正状況で
は、15%程度が悪化したものの、40%以上の文で改
善が観察された。また規則が全く適用されなかった文が
40%程度あるが、この中には校正を要する文がかなり
含まれている。規則獲得に使用した文がまだ少ないた
め、悪化した文や同一出力の文の割合が多いと思われ
る。
ば、以下の効果を有する。 (1)与えられた入力文を自動的にこなれた文体やこな
れた語調などの自然な翻訳文に校正することができる。
すなわち、従来例に比較して、原言語構造に依存しない
翻訳文の生成が可能になり、より自然な自然言語を出力
することが可能になる。 (2)与えられた入力文中にない場合に不自然と感じら
れる主語や目的語などの格要素及び文末助詞などの文末
表現を補うことができる。(3)与えられた入力文中で
冗長であるため不自然と感じられる主語や目的語などの
格要素及び間投詞を削除することができる。
国語への翻訳処理の一例について説明しているが、本発
明はこれに限らず、所定の第1の自然言語の入力文を、
別の第2の自然言語の翻訳文に翻訳するための翻訳処理
に広く適用することができる。
リ31に格納しているが、キーボードなどの入力手段に
より機械翻訳部1に入力してもよい。
訳校正装置によれば、第1の自然言語の入力文から機械
翻訳された第2の自然言語の機械翻訳文を自動的に校正
して、校正翻訳文を出力する機械翻訳校正装置であっ
て、上記機械翻訳された第2の自然言語の機械翻訳文で
ある校正対象文と、当該校正対象文から人手による校正
により校正された校正結果文との対を対応づけて校正デ
ータとして記憶する記憶手段と、上記記憶手段に記憶さ
れた校正データに基づいて、校正対象文と、当該校正対
象文から挿入、削除、置換のうちの少なくとも1つの編
集校正処理がなされて置き換えすべき校正文との対から
なり、かつ翻訳用校正規則として整合性を有する校正規
則を生成する生成手段と、上記機械翻訳された第2の自
然言語の機械翻訳文である校正対象文に対して、上記生
成手段によって生成された校正規則を適用することによ
り、自動的に校正して、校正翻訳文を生成して出力する
校正手段とを備える。ここで、上記生成手段は、具体的
には、上記記憶手段に記憶された校正データに基づい
て、1箇所の編集位置に対してそれぞれ校正対象文と校
正結果文の1対からなる複数の仮規則を生成し、生成し
た仮規則から、校正データのうちの校正対象文と校正結
果文における文字連鎖の不変化部分を校正対象文に有す
る有害な仮規則を排除し、仮規則における同一の校正対
象文に対して異なる校正結果文を有して異なる処理を実
行する仮規則を矛盾の規則として排除し、仮規則のうち
重複する規則を排除することにより、校正規則を生成す
る。また、上記校正規則は、(1)語順の変更情報と、
(2)省略された主語を補完するための挿入情報と、
(3)省略された目的語を補完するための挿入情報と、
(4)省略された文要素を補完するための挿入情報と、
(5)不要な文要素を削除するための削除情報とのうち
の少なくとも1つを含む。
する。 (1)与えられた入力文を自動的にこなれた文体やこな
れた語調などの自然な翻訳文に校正することができる。
すなわち、従来例に比較して、原言語構造に依存しない
翻訳文の生成が可能になり、より自然な自然言語を出力
することが可能になる。 (2)与えられた入力文中にない場合に不自然と感じら
れる主語や目的語などの格要素及び文末助詞などの文末
表現を補うことができる。(3)与えられた入力文中で
冗長であるため不自然と感じられる主語や目的語などの
格要素及び間投詞を削除することができる。
の構成を示すブロック図である。
正データの一例を示す図である。
る校正不変化部分の一例を示す図である。
規則の一例を示す図である。
る校正規則生成処理を示すフローチャートである。
(ステップS13)を示すフローチャートである。
(ステップS14)を示すフローチャートである。
理(ステップS46)を示すフローチャートである。
(ステップS15)を示すフローチャートである。
(ステップS16)を示すフローチャートである。
理(ステップS17)を示すフローチャートである。
及び仮規則出力処理(ステップS18)を示すフローチ
ャートである。
6)
載の機械翻訳校正装置は、第1の自然言語の入力文から
機械翻訳された第2の自然言語の機械翻訳文を自動的に
校正して、校正翻訳文を出力する機械翻訳校正装置であ
って、上記機械翻訳された第2の自然言語の機械翻訳文
である校正対象文と、当該校正対象文から人手による校
正により校正された校正結果文との対を対応づけて校正
データとして記憶する記憶手段と、上記記憶手段に記憶
された校正データに基づいて、校正対象文と、当該校正
対象文から挿入、削除、置換のうちの少なくとも1つの
編集校正処理がなされて置き換えすべき校正文との対か
らなり、かつ翻訳用校正規則として整合性を有する校正
規則を生成する生成手段と、上記機械翻訳された第2の
自然言語の機械翻訳文である校正対象文に対して、上記
生成手段によって生成された校正規則を適用することに
より、自動的に校正して、校正翻訳文を生成して出力す
る校正手段とを備え、上記生成手段は、上記記憶手段に
記憶された校正データに基づいて、それぞれ校正対象文
と校正結果文の1対からなる複数の仮規則を生成し、生
成した仮規則から、翻訳用校正規則として有害であり、
矛盾し、もしくは重複する仮規則を排除することによ
り、校正規則を生成することを特徴とする。
は、請求項1記載の機械翻訳校正装置において、上記校
正規則は、(1)語順の変更情報と、(2)省略された
主語を補完するための挿入情報と、(3)省略された目
的語を補完するための挿入情報と、(4)省略された文
要素を補完するための挿入情報と、(5)不要な文要素
を削除するための削除情報とのうちの少なくとも1つを
含むことを特徴とする。
Claims (3)
- 【請求項1】 第1の自然言語の入力文から機械翻訳さ
れた第2の自然言語の機械翻訳文を自動的に校正して、
校正翻訳文を出力する機械翻訳校正装置であって、 上記機械翻訳された第2の自然言語の機械翻訳文である
校正対象文と、当該校正対象文から人手による校正によ
り校正された校正結果文との対を対応づけて校正データ
として記憶する記憶手段と、 上記記憶手段に記憶された校正データに基づいて、校正
対象文と、当該校正対象文から挿入、削除、置換のうち
の少なくとも1つの編集校正処理がなされて置き換えす
べき校正文との対からなり、かつ翻訳用校正規則として
整合性を有する校正規則を生成する生成手段と、 上記機械翻訳された第2の自然言語の機械翻訳文である
校正対象文に対して、上記生成手段によって生成された
校正規則を適用することにより、自動的に校正して、校
正翻訳文を生成して出力する校正手段とを備えたことを
特徴とする機械翻訳校正装置。 - 【請求項2】 上記生成手段は、上記記憶手段に記憶さ
れた校正データに基づいて、1箇所の編集位置に対して
それぞれ校正対象文と校正結果文の1対からなる複数の
仮規則を生成し、生成した仮規則から、校正データのう
ちの校正対象文と校正結果文における文字連鎖の不変化
部分を校正対象文に有する有害な仮規則を排除し、仮規
則における同一の校正対象文に対して異なる校正結果文
を有して異なる処理を実行する仮規則を矛盾の規則とし
て排除し、仮規則のうち重複する規則を排除することに
より、校正規則を生成することを特徴とする請求項1記
載の機械翻訳校正装置。 - 【請求項3】 上記校正規則は、(1)語順の変更情報
と、(2)省略された主語を補完するための挿入情報
と、(3)省略された目的語を補完するための挿入情報
と、(4)省略された文要素を補完するための挿入情報
と、(5)不要な文要素を削除するための削除情報との
うちの少なくとも1つを含むことを特徴とする請求項1
又は2記載の機械翻訳校正装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP06004599A JP3387437B2 (ja) | 1999-03-08 | 1999-03-08 | 機械翻訳校正装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP06004599A JP3387437B2 (ja) | 1999-03-08 | 1999-03-08 | 機械翻訳校正装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2000259631A true JP2000259631A (ja) | 2000-09-22 |
| JP3387437B2 JP3387437B2 (ja) | 2003-03-17 |
Family
ID=13130726
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP06004599A Expired - Fee Related JP3387437B2 (ja) | 1999-03-08 | 1999-03-08 | 機械翻訳校正装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3387437B2 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011008754A (ja) * | 2009-05-29 | 2011-01-13 | Toshiba Corp | 文書処理装置およびプログラム |
| US8150687B2 (en) | 2003-12-03 | 2012-04-03 | Nuance Communications, Inc. | Recognizing speech, and processing data |
| JP2013196374A (ja) * | 2012-03-19 | 2013-09-30 | Fujitsu Ltd | 文章校正装置、及び文章校正方法 |
| KR102306344B1 (ko) * | 2021-03-17 | 2021-09-28 | 남지원 | 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템 |
-
1999
- 1999-03-08 JP JP06004599A patent/JP3387437B2/ja not_active Expired - Fee Related
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8150687B2 (en) | 2003-12-03 | 2012-04-03 | Nuance Communications, Inc. | Recognizing speech, and processing data |
| JP2011008754A (ja) * | 2009-05-29 | 2011-01-13 | Toshiba Corp | 文書処理装置およびプログラム |
| JP2013196374A (ja) * | 2012-03-19 | 2013-09-30 | Fujitsu Ltd | 文章校正装置、及び文章校正方法 |
| KR102306344B1 (ko) * | 2021-03-17 | 2021-09-28 | 남지원 | 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템 |
| WO2022196956A1 (ko) * | 2021-03-17 | 2022-09-22 | 주식회사 인사이트베슬 | 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3387437B2 (ja) | 2003-03-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6920419B2 (en) | Apparatus and method for adding information to a machine translation dictionary | |
| Wang et al. | A transition-based algorithm for AMR parsing | |
| US7565281B2 (en) | Machine translation | |
| US20050137853A1 (en) | Machine translation | |
| JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
| CA2480373A1 (en) | Machine translation | |
| CN101361064A (zh) | 文本编辑装置和方法 | |
| US20020152246A1 (en) | Method for predicting the readings of japanese ideographs | |
| Hämäläinen et al. | Development of an open source natural language generation tool for finnish | |
| JP2999768B1 (ja) | 音声認識誤り訂正装置 | |
| JPH01142866A (ja) | ロマンス語処理装置 | |
| JP3387437B2 (ja) | 機械翻訳校正装置 | |
| JP7511381B2 (ja) | 文生成装置、文生成方法および文生成プログラム | |
| JPH02112068A (ja) | テキスト簡略表示方式 | |
| JPS59140582A (ja) | 自然言語翻訳援助方式 | |
| Novák | A model of computational morphology and its application to Uralic languages | |
| CN119167950B (zh) | 基于亲属语言的机器翻译方法 | |
| CN115828894B (zh) | 基于多通道特征融合的上下位关系抽取方法、系统及设备 | |
| JP3339006B2 (ja) | 機械翻訳装置における並列名詞句処理装置 | |
| JP3341176B2 (ja) | 自然語文解析装置、文リズムパターン選択装置及び文生成装置 | |
| Singh et al. | Byte-Level Neural Machine Translation for Manipuri and Tangkhul: Advancing Low-Resource Language Translation | |
| Diaconescu et al. | General system for normal and phonetic inflection | |
| JPS6344276A (ja) | 生成文法自動生成装置 | |
| JP2000029878A (ja) | 翻訳知識学習方法および装置、機械翻訳方法および装置 | |
| CN115221899A (zh) | 翻译方法、装置及计算机可读存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090110 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100110 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110110 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110110 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120110 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120110 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130110 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130110 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140110 Year of fee payment: 11 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |