JPH0567144A

JPH0567144A - 前編集支援方法およびその装置

Info

Publication number: JPH0567144A
Application number: JP3255839A
Authority: JP
Inventors: Yasutsugu Morimoto; 康嗣森本
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1991-09-07
Filing date: 1991-09-07
Publication date: 1993-03-19
Also published as: US5396419A

Abstract

(57)【要約】【目的】機械翻訳システムにおける構文解析の精度の
向上を図り、併せて、前編集の支援効率の向上を図るこ
とにある。【構成】第１の言語から第２の言語への翻訳を行う機
械翻訳システムにおいて、第１の言語のテキストを読み
込み、前記テキストを単語に分割し、複数回出現する単
語列を抽出し、前記抽出された単語列のうち、前記単語
列の出現頻度が高いまたは前記単語列中の多品詞語の個
数／割合が高い単語列を連語の候補として抽出し、前記
連語の候補のうち、ひとまとまりとして翻訳すべき連語
をユーザが選択し、前記選択した連語に翻訳援助情報と
して前編集記号を入力し、翻訳処理を行う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、複数文を対象とする機
械翻訳システムに係り、特に、機械翻訳システムにおけ
る前編集支援方法およびその装置に関する。

【０００２】

【従来の技術】現在の機械翻訳システムにおいては、完
全な自動翻訳を望むことは現実的ではない。そこで、翻
訳精度向上のための一手段として人手の介入を支援する
方法が提案されている。例えば、特開昭５９−１４０５
８２号公報のように、翻訳処理の援助情報を事前にある
いは翻訳処理の途中に与える方法が存在する。このよう
な方法の一つとして、文の中で一つにまとまるべき部分
を原文テキスト中で予め括弧などで囲んでおく方法は、
機械翻訳システムにおける前編集方法として一般に用い
られている。しかし、このような方法においては、援助
情報を与えるべき箇所を人間が読んで探さなければなら
ないため、工数がかかる。これを解決するために、特開
平１−３５６６１号公報のように、援助情報を与えるべ
き箇所の候補をユーザに呈示するような前編集支援方法
も存在する。また、機械翻訳システムが主に対象とする
科学技術関係の文章においては、専門用語として複数の
単語からなる連語が頻出する。連語は、全体として一語
として扱われるべきものであり、連語を構成する単語の
訳語から連語の訳語を合成することが困難な場合があ
る。そこで、特開平１−１０２６７９号公報のように、
複数の文からなるテキストから連語を抽出する方法が存
在する。

【０００３】

【発明が解決しようとする問題点】従来の機械翻訳にお
ける前編集支援方法においては、援助情報を与えるべき
箇所が非常に多く検出され、さらに、ユーザがそれぞれ
に個別に対処しなければならないため、作業が非常に繁
雑であるという問題点があった。また、従来、連語を抽
出する必要性の根拠として、連語を構成する単語の訳語
から適切な連語の訳語を合成することが困難である点の
みが指摘されていた。よって、従来の技術では、連語を
抽出し、これを辞書登録することによって訳語の質を向
上することを目的としている。しかし、連語を抽出し、
辞書登録することにより、適切な訳語による訳文の質の
向上に加えて、多品詞解消の失敗などを防ぐことによる
解析精度の向上も期待できる。例えば、（例文１） Time flies like an arrow. のような例文においては、"time"を主語と考えて、"fli
es"を動詞と考えるか、それとも、"time flies"を主語
と考えて、"like"を動詞と考えるかという２通りの解釈
が存在する。これは、実際には"time"を主語と考えるの
が正しいが、人間にそれが分かるのは、"time flies"と
いう連語がおそらく存在しないことを知っているためで
あり、これは次のような例文を考えれば分かる。（例文２） Tsetse flies like blood. この例文２においても例文１と同様の曖昧さが存在する
が、"tsetsefly"（ツェツェ蝿）という蝿が存在するこ
とを知っている人間ならば、例文１とは異なり、"tsets
e flies"を主語と考え、"like"を動詞と考えるであろ
う。しかし、これを知らない人間が読んだ場合には、ど
ちらか解釈しかねる可能性が十分考えられる。同様に、
機械翻訳においてもこのような文を解釈するために
は、"tsetse fly"をひとまとまりの連語として認識する
ことが必要である。以上、述べたように連語抽出・登録
の効果には、１．訳語の質の向上２．解析精度の向上の２点がある。１．を目的とする場合には辞書登録が必
須となるが、２．を目的とする場合には、抽出した連語
に対し連語としての訳語を割り当てる必要はなく、連語
としてひとまとまりになっているという情報のみが得ら
れれば良い。実際、連語を構成する単語の訳語から連語
の訳語を合成することが可能な場合も多く、このような
場合には連語の訳語を辞書登録することは繁雑かつ不要
な作業である。さらに、抽出された連語が辞書登録する
には不適切な場合もある。実テキストから得られた連語
の候補の例を示す。（例） excitatory and inhibitory links このような場合、"excitatory link"および"inhibitory
link"を連語として登録することは通常行われるが、
(例)のようなものは通常辞書登録されない。しかし、
(例)は並列、省略などが含まれている解析が困難な種類
の句であり、これを名詞句として、ひとまとまりだと認
識できれば、構文解析の精度の向上に役立つ。本発明の
目的は、上述の事情に鑑み、機械翻訳システムにおける
構文解析の精度の向上を図り、併せて、前編集の支援効
率の向上を図ることにある。

【０００４】

【課題を解決するための手段】以上の問題を解決するた
めに、第１の言語から第２の言語への翻訳を行う機械翻
訳システムにおいて、第１の言語のテキストを読み込
み、前記テキストを単語に分割し、複数回出現する単語
列を抽出し、前記抽出された単語列のうち、前記単語列
の出現頻度が高いまたは前記単語列中の多品詞語の個数
／割合が高い単語列を連語の候補として抽出し、ユーザ
に表示し、前記連語の候補のうち、ユーザが連語として
扱って良いと指示した場合には、この指示した連語を翻
訳すべき連語としてひとまとまりとし、この連語に翻訳
援助情報として前編集記号を入力し、翻訳処理を行う。

【０００５】

【作用】本発明によれば、繰返し出現する単語列を連語
の候補として抽出し、ユーザに表示し、連語として扱っ
て良いとユーザが判断した場合には、連語の候補を連語
として扱うことにより、構文解析精度が向上する。その
際、従来技術である連語を辞書登録する方法とは異な
り、連語の訳語を入力する必要がない。また、繰返し出
現する単語列を連語の候補として扱うため、ユーザがあ
る単語列を連語として指示すると、その指示は複数の箇
所に出現する同じ単語列全てに対して適用できる。その
ため、前編集の支援効率が向上する。

【０００６】

【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。第１の実施例として、本発明を機械翻訳シス
テムにおける前編集支援システムに適用した場合を詳細
に説明する。図１は、本発明のハードウェア構成図を示
す。図中、１はディスプレイ装置、２はキーボードであ
り、「モード選択キー」、「カーソルキー」、「連語選
択キー」、「親連語検索キー」、「子連語検索キー」、
「次候補キー」、「連語確定キー」（図示せず）などを
含む。３はマウス、４は入力される元の英文が格納され
る原文ファイル、５は翻訳結果である日本文が格納され
る訳文ファイル、６は辞書ファイル、７は翻訳に用いら
れる文法が格納される文法ファイル、８はメモリであ
り、後述する単語テーブル８１、連語フラグテーブル８
２、連語テーブル８３、親テーブル８４、子テーブル８
５、表示連語テーブル８６、連語状態テーブル８７、ノ
ードテーブル８８などを含む。９は一時的に辞書情報を
格納するために用いられるテンポラリー辞書ファイル、
１０は全ての処理を行う処理装置である。

【０００７】以下、図２に示す処理フローに従って詳細
に説明する。（ステップ１１）原文ファイル４から原文テキストを読
み込む。図３に、原文テキストの例を示す。（ステップ１２）読み込んだテキスト中に出現する連語
の候補を抽出する。以下、このステップを図４に示す処
理フローを用いて詳細に説明する。

【０００８】（ステップ１２１）テキスト中の各文を形
態素解析する。形態素解析の方法は、特開昭５８−４０
６８４号公報、特開昭５９−１２１５７４号公報などに
開示された方法を用いることができるので説明は省略す
る。形態素解析結果は、単語テーブル８１に格納され
る。単語テーブル８１の例を図５に示す。単語テーブル
８１には、テキスト中に出現した各単語について、単語
の文字列および各文中での開始文字位置および終了文字
位置が格納されている。例えば、図５の単語テーブル８
１においては、文１、単語１の欄を参照することによ
り、１番目の文の１番目の単語が、"fuzzy"であり、こ
の文字列の最初の位置が１番目の文の１文字目で、最後
の位置が５文字目であることが分かる。また、形態素解
析処理中に検索された単語の内容を辞書ファイル６から
テンポラリー辞書ファイル９に複写する。これにより、
テンポラリー辞書ファイル９には対象テキストを翻訳す
るのに必要十分な辞書情報が格納される。このテンポラ
リー辞書ファイル９を翻訳処理に用いることにより、翻
訳処理を高速化することができる。（ステップ１２２）連語の候補を抽出する。以下、この
ステップを図６に示す処理フローを用いて詳細に説明す
る。

【０００９】（ステップ１２２０１）抽出する連語を構
成する単語数の最大値をユーザが指定する。この長さを
ＭＸＬとする。この値を大きく取れば、連語が抽出され
ずに漏れる可能性は減少するが、処理時間が長くなる。
一方、この値を小さく取れば、連語が漏れる可能性は多
くなるが、処理時間は減少するというトレードオフが存
在する。通常、４〜５程度に設定しておけば良い。（ステップ１２２０２）テキストから一つ文を選び、こ
れを文１とする。（ステップ１２２０３）文１から長さＰＬの単語列で連
語として抽出されていないものを単語列１として選び、
これをワークエリアに格納する。ＰＬは、初期値が２で
あり、最大ＭＸＬまで変化する。連語として登録済みか
どうかのチェックは、連語フラグテーブル８２を参照す
ることによって行う。連語フラグテーブル８２の例を図
７に示す。連語フラグテーブル８２の各行は、文に相当
し、各列は各文中の単語に相当する。各欄には”１”あ
るいは”０”の列が格納され、単語がｉ（ｉ＝２，３，
４・・・）の長さの連語の先頭の単語であることは、左
から（ｉ−１）桁目の数字を１にすることで表現する。
例えば、文１、単語１の欄には、”１００・・・”が格
納されているが、これは１番目の文の１番目の単語つま
り"fuzzy"が、長さ２の連語"fuzzy reasoning"の先頭の
単語であることを示している。（ステップ１２２０４）テキストから一つ文を選び、こ
れを文２とする。文２として選ばれる文は、文１以降の
文に限定する。（ステップ１２２０５）文２から長さＰＬの単語列２を
選ぶ。単語列２は、単語列１より後の単語列とする。（ステップ１２２０６）文１から選ばれた単語列１と文
２から選ばれた単語列２の比較を行う。もし、二つの単
語列が等しければステップ１２２０７へ、等しくなけれ
ばステップ１２２０８へ移る。（ステップ１２２０７）連語の格納処理を行う。以下、
このステップを図８に示す処理フローを用いて詳細に説
明する。

【００１０】（ステップ８０１）単語列の先頭の単語に
長さＰＬの連語であることのフラグを立てる。すなわ
ち、単語列の先頭の単語を調べ、連語フラグテーブル８
２でこの単語に相当する欄の（ＰＬ−１）桁目を１にす
る。（ステップ８０２）連語テーブル８３に見出しが登録さ
れているかどうか調べる。連語テーブル８３の例を図９
に示す。連語テーブル８３は、連語の番号、見出しを構
成する単語列、見出しを構成する単語数、連語の出現頻
度、出現位置を示している。出現位置は、連語を含む文
の文番号と連語の先頭の単語の位置の組によって示す。
登録されていればステップ８０３へ、登録されていなけ
ればステップ８０４へ移る。（ステップ８０３）連語の出現頻度を１増して、新しい
出現位置、すなわち、単語列２の先頭単語の位置を登録
する。（ステップ８０４）新しい見出しとして登録し、出現頻
度を２にして、２個の出現位置、すなわち、単語列１の
先頭単語の位置と単語列２の先頭単語の位置を登録す
る。

【００１１】（ステップ１２２０８）文２中の長さＰＬ
の連語を全て処理したかどうか調べる。処理していれば
ステップ１２２０９へ移る。処理していなければステッ
プ１２２０５へ移り、文２から長さＰＬの別の単語列を
選ぶ。（ステップ１２２０９）文２として全ての文を処理した
かどうかを調べる。処理していればステップ１２２１０
へ移る。処理していなければ、ステップ１２２０４へ移
り、テキストから次の文を文２として選ぶ。（ステップ１２２１０）文１中の長さＰＬの全ての連語
を処理したかどうか調べる。処理していればステップ１
２２１１へ移る。処理していなければ、ステップ１２２
０３へ移り、文１から次の長さＰＬの単語列を選ぶ。（ステップ１２２１１）文１として全ての文を処理した
かどうかを調べる。処理していればステップ１２２１２
へ移る。処理していなければ、ステップ１２２０２へ移
り、テキストから次の文を文１として選ぶ。（ステップ１２２１２）連語の候補の長さＰＬを更新す
る。（ステップ１２２１３）２以上ＭＸＬ以下の全ての長さ
ＰＬについて処理を行ったかどうか調べる。処理してい
なければ、ステップ１２２０２へ移り、新しいＰＬにつ
いて処理を繰り返す。全てのＰＬについて処理を行って
いれば、処理を終了する。

【００１２】（ステップ１２３）不要な連語の候補を削
除する。不要な連語の候補を除くための条件として、
（１）前置詞、接続詞などで始まる連語の候補、（２）
冠詞、前置詞、接続詞などで終わる連語の候補、（３）
ｂｅ動詞やｈａｖｅ動詞を含む連語の候補といった条件
を設けておき、これらの条件を満たす候補を不要として
連語テーブル８３から削除する。以上の処理によって、
連語の候補が抽出される。図３のテキストから抽出した
連語の候補の例を図１０に示す。（ステップ１２４）連語間の包含関係を構築する。連語
Ａが連語Ｂを「包含する」あるいは「含む」とは、連語
Ｂを構成する単語が全て、連語Ｂ中の出現順序と同じ順
序で連語Ａ中に出現しており、かつ連語Ｂ中に含まれな
い単語が連語Ａ中の連語Ｂ中に現れる単語の連鎖の中に
現れないこととして定義する。例えば、"fuzzy reasoni
ng mechanism"という連語は"fuzzy reasoning"を包含す
る。また、ＡがＢを包含するとき、ＡはＢの親、ＢはＡ
の子であると言う。以下、包含関係を構築するステップ
を図１１を用いて詳細に説明する。

【００１３】（ステップ１２４１）連語の長さＰＬをス
テップ１２２０１でユーザが入力した最大の長さＭＸＬ
に初期化する。（ステップ１２４２）連語テーブル８３から、長さＰＬ
の連語を連語１として取り出す。（ステップ１２４３）長さ（ＰＬ−１）の連語を連語２
として取り出す。（ステップ１２４４）連語１が連語２を含むかどうか調
べる。含んでいればステップ１２４５へ、含んでいなけ
ればステップ１２４６へ移る。（ステップ１２４５）包含関係を格納する。以下、この
ステップを図１２を用いて説明する。

【００１４】（ステップ１２４５１）親テーブル８４
で、連語２に親連語が登録されているかどうか調べる。
一つでも親連語が登録されていれば、ステップ１２４５
２に進む。親連語が一つも登録されていなければ、ステ
ップ１２４５３に進む。（ステップ１２４５２）登録済みの親連語と連語１を比
較し、連語１が未登録ならばステップ１２４５３に進
む。（ステップ１２４５３）連語１を新たに連語２の親連語
として登録する。実際には、親テーブル８４中で連語２
を探し、連語２に対して、親連語数を１増し、連語１の
番号を親連語欄に格納する。さらに、親連語中での子連
語の位置として、連語２の先頭の単語が、連語１の何番
目の単語かを調べ、これを親連語中の位置欄の対応する
位置に登録する。例えば、"fuzzy reasoning function"
という親連語に対して、子連語"fuzzy reasoning"の位
置は１であり、子連語"reasoning function"の位置は２
である。親テーブル８４の例を図１３に示す。各連語の
番号は、連語テーブル８３の番号と対応している。（ステップ１２４５４）連語２を新たに連語１の子連語
として登録する。実際には、子テーブル８５中の連語１
に対し、子連語数を１増し、連語２の番号を子連語欄に
格納する。さらに、親連語中の子連語の位置を格納す
る。子テーブル８５の例を図１４に示す。

【００１５】（ステップ１２４６）長さ（ＰＬ−１）の
連語を全て処理したかどうかを調べる。処理していれ
ば、ステップ１２４７へ移る。処理していなければ、ス
テップ１２４３へ移り、次の（ＰＬ−１）の長さの連語
を取り出す。（ステップ１２４７）長さＰＬの連語を全て処理したか
どうか調べる。処理していれば、ステップ１２４８へ移
る。処理していなければ、ステップ１２４２へ移り、次
の長さＰＬの連語を取り出す。（ステップ１２４８）ＰＬを１減少させる。（ステップ１２４９）ＰＬが３以上であるかどうか調べ
る。３以上であれば、ステップ１２４２へ移り、新しい
ＰＬについて処理を繰り返す。３未満になったら処理を
終了する。

【００１６】（ステップ１３）抽出した連語の候補のう
ち、条件を満たすものを表示すべき候補として決定す
る。表示される連語の候補が満たすべき条件としては、
以下のものを考える。（１）テキスト内の出現頻度が高
い。（２）連語の候補内の名詞／動詞の多品詞語の個数
が多い。ここで、多品詞語とは、複数の品詞となりうる
単語のことで、例えば、"fly"という英単語は、「蝿」
という意味の名詞と「飛ぶ」という意味の動詞の多品詞
語である。また、連語には親子関係が存在するため、次
のようなことが言える。例えば、"fuzzy reasoning fun
ction"という連語が存在する場合、その部分単語列であ
る"fuzzy reasoning"という連語が子連語として抽出さ
れる。このとき、"fuzzy reasoning"が"fuzzy reasonin
g function"の一部としてしか出現しないならば、"fuzz
y reasoning"を連語の候補として抽出する必要は無い。
一方、"fuzzy reasoning"のみで出現している箇所があ
る場合には、"fuzzy reasoning function"以外にも"fuz
zy reasoning"を連語の候補として抽出する必要があ
る。そこで、以下のような条件を設定する。（３）ルー
トの連語である。ここで、ルートの連語とは、親連語を
持たない連語のことである。（４）親連語が存在しない
出現位置を持つ連語である。以上の条件を満たす連語を
抽出・表示する。以下、このステップを図１５を用いて
詳細に説明する。

【００１７】（ステップ１３０１）全ての連語の候補を
処理したか調べる。全て処理済みならば処理を終了す
る。処理していない連語の候補があれば、ステップ１３
０２に進む。（ステップ１３０２）連語テーブル８３から、連語の候
補を１つ読みだす。（ステップ１３０３）ルートの連語であるかどうかを調
べる。ルートの連語とは、親を持たない連語である。こ
れは、親テーブル８４の親連語数を参照することによっ
て判定する。ルートであればステップ１３０７へ進み、
ルートでなければステップ１３０４に進む。（ステップ１３０４）連語テーブル８３を参照し、出現
位置を一つ取り出す。（ステップ１３０５）親テーブル８４から親連語を取り
だし、連語テーブル８３を参照して、ステップ１３０４
で取りだした連語の候補の出現位置と親連語の全ての出
現位置を比較する。ただし、出現位置は、連語が含まれ
ている文番号と連語の先頭の単語の位置の対によって表
現されているので、単純に比較することはできない。よ
って、連語の候補の親連語中の位置によって補正してか
ら比較を行う。実際には、連語の候補が出現した文と親
連語が出現した文が等しく、かつ（（連語の候補の先頭
単語の位置）＋１−（親連語中の位置））と親連語の先
頭単語の位置が等しければ、連語の候補のその出現位置
に親連語が存在するものとする。例えば、図９の"fuzzy
reasoning"の２番目の出現位置（２，２）は、第２文
の２番目の単語と３番目の単語が連語であることを表し
ている。ここで、親テーブル８４から親連語として１番
目の連語、すなわち"fuzzy reasoning function"を取り
出す。そして、連語の候補"fuzzy reasoning"との位置
の比較を行う。親連語の位置を連語テーブル８３で調べ
ると、最初の出現位置が（２，２）である。ここで、連
語の候補と親連語が出現した文が両方共第２文であり、
親連語の先頭単語の位置２と（（連語の候補の先頭単語
の位置）＋１−（親連語中の位置））＝２＋１−１＝２
が等しいので、"fuzzy reasoning"の２番目の出現位置
には、親連語が存在すると言える。（ステップ１３０６）全ての連語の候補の出現位置に対
し親連語が存在すれば、ステップ１３０１に進み、次の
連語の候補があるかどうか調べる。連語の候補が、親連
語の無い出現位置を持つ場合には、ステップ１３０７に
進む。（ステップ１３０７）出現頻度を調べ、予め定められた
閾値よりも出現頻度が高ければステップ１３０９へ、低
ければステップ１３０８へ移る。（ステップ１３０８）名詞／動詞の多品詞語の個数を調
べ、予め定められた閾値よりも高ければステップ１３０
９へ、低ければステップ１３０１へ移り、次の連語の候
補があるかどうか調べる。これにより、出現頻度が低く
ても、解析精度向上のために必要な多品詞語を多く含む
連語を抽出できる。ただし、本ステップにおいても出現
頻度の閾値を定めておき、閾値以上の連語の候補のみを
対象とするのが良い。この閾値は、ステップ１３０７に
おける閾値より小さくする必要がある。（ステップ１３０９）表示連語テーブル８６を参照し、
連語の候補の表示フラグをオンにする。そして、ステッ
プ１３０１に進む。図１６に表示連語テーブル８６の例
を示す。図１６の例では、１番目の連語"fuzzy reasoni
ng function"および３番目の連語"fuzzy reasoning mec
hanism"がルートの連語であるため、フラグがオンにな
っている。また、２番目の連語"fuzzy reasoning"は、
ルートの連語ではないが、図３の第１文のように親連語
の一部としてでは無く出現する位置があるため、フラグ
がオンになっている。以上の処理によって決定された連
語の候補を表示する。連語の候補の表示モードとして
は、一覧表示およびテキスト内強調表示の２種類を用意
する。一覧表示モードは図１７に示すように、表示連語
テーブル８６の表示フラグがオンである全ての連語の候
補を一覧表示するものであり、テキスト内強調表示モー
ドは図１８に示すように、原文テキストを表示し、さら
に原文テキスト上で連語の候補を強調して表示するもの
である。

【００１８】（ステップ１４）表示結果を見ながら、ユ
ーザが連語として翻訳すべき連語の候補を指定する。以
下、ユーザによる選択処理の流れを、図１９を用いて詳
細に説明する。

【００１９】（ステップ１４０１）ユーザは、処理の種
類を指定する。ここでは、処理の種類として、表示モー
ドの選択・変更、連語選択、辞書登録、連語確定の４種
類が用意されている。選択された処理の種類に応じて、
ステップ１４０２、ステップ１４０３、ステップ１４０
４、ステップ１４０８のいずれかへ進む。また、処理終
了が指示されたら、ステップ１４０９に進む。（ステップ１４０２）ユーザは、表示モードを選択す
る。モード選択は、キーボード装置２における「モード
選択キー」によって行う。システムは、ユーザの指示に
従ったモードで連語の候補を表示する。ここで表示され
る連語の候補は、表示連語テーブル８６のうち、表示フ
ラグがオンのものである。一覧表示においては、連語の
長さが長いものから順に表示する。また、同じ長さの連
語については、頻度の高い順に表示する。あるいは、ア
ルファベット順に表示しても良い。これらの表示順序の
指定については、ユーザによる変更が可能であるように
しておく。（ステップ１４０３）ユーザが、表示されている連語の
候補のうち、ひとまとまりの連語として扱うべき連語の
候補を指定する。ここでは、指定の方法として、「カー
ソルキー」によってカーソルを指定したい連語の位置に
移動し、「連語選択キー」を押すことによって選択する
方法を用いる。どの連語が選択されているかの決定方法
は、表示モードによって異なる。一覧表示モードにおい
ては、カーソルの位置と表示データを比較することによ
ってどの連語が選択されているかを直接得られる。テキ
スト内強調表示モードにおいては、カーソルの位置と表
示データを比較して、どの単語が選択されているかを決
定したのち、さらにその単語を含む連語のうち、最も親
である連語を選択された連語として決定する。選択され
た連語は、輝度を変えるまたは色を変えるなどして強調
して表示する。また、キーボード２以外に、マウス３な
どを用いて選択することも容易にできる。以上の処理の
詳細は、パソコンやワークステーションにおけるプログ
ラムのインタフェースとして通常用いられている方法を
用いることができるので、説明を省略する。ユーザが連
語の候補を指定すると、その連語の候補は選択状態にな
る。また、一度選択状態になった連語に対して、図２０
に示す連語状態テーブル８７の対応する選択状態欄に１
を格納する。連語が選択状態で、「親連語検索キー」あ
るいは「子連語検索キー」が押されると、選択されてい
る連語の親あるいは子連語がそれぞれ検索される。親あ
るいは子連語の検索は、親テーブル８４あるいは子テー
ブル８５をそれぞれ検索し、親あるいは子連語を一つ選
択することによって行う。また、全ての親あるいは子連
語を配列に保持しておき、「次候補キー」が押された場
合には、別の親あるいは子連語を選択状態にする。一覧
表示モードにおいては、以上の情報のみで親あるいは子
連語を決定できるが、テキスト内強調表示モードにおい
ては、検索された親あるいは子連語の位置を知る必要が
あるため、さらに連語テーブル８３および親テーブル８
４あるいは子テーブル８５を参照して、対応する出現位
置を決定する。（ステップ１４０４）辞書登録を行う。連語の候補を構
成する各単語の訳語を表示する。図２１に表示例を示
す。この表示例では、"reasoning"の訳「推論」はその
まま使えるので、１を選択する。しかし、"fuzzy"につ
いては訳語が使えないので、その他の欄に「ファジー」
と入力する。もし、各単語の訳語がまったく利用できな
い場合には、連語の訳語の欄に訳語を入力する。（ステップ１４０５）連語の訳語欄に訳語が入力されて
いれば、ステップ１４０６へ進む。入力されていなけれ
ば、ステップ１４０７へ進む。（ステップ１４０６）各単語の訳語を合成して、連語の
訳語とする。（ステップ１４０７）訳語を辞書登録する。（ステップ１４０８）選択されている連語の候補を連語
として扱って良ければ、ユーザはこの連語の候補を確定
する。確定させるには、その連語の候補を選択した状態
で「連語確定キー」を押す。確定状態は、図２０に示す
連語状態テーブル８７の確定状態欄に１を格納すること
で管理する。（ステップ１４０９）処理を終了する前に、終了処理を
行う。選択されて確定されていない連語については、ユ
ーザに指示を求める。この処理は、連語状態テーブル８
７の選択状態欄が１で確定状態欄が０の連語を連語テー
ブル８３から抽出し、表示することによって行う。チェ
ック作業は、例えば次のように行われる。一覧表時モー
ドの表示例中に、"fuzzy reasoning","fuzzy reasoning
function","fuzzy reasoning mechanism"という３つの
連語が表示されている。ここで、既に述べたような方法
で"fuzzy reasoning mechanism"という連語を選択した
とする。このとき、一覧表示を見るだけでは、"fuzzy r
easoning"という連語が存在することが分かりにくい
が、「子連語検索キー」を押し、さらに次候補を検索す
ることによって、"fuzzy reasoning"が選択状態とな
り、"fuzzy reasoning"が存在することが分かる。そし
て、"fuzzy reasoning"を登録すれば、"fuzzy reasonin
g mechanism"は名詞句として処理されると考え、"fuzzy
reasoning"を確定状態にする。次に、「親連語検索キ
ー」を押し、候補を検索すると、親連語として"fuzzy r
easoning function"が見つかる。ここで、"function"
は、名詞にも動詞にも利用される多品詞語なので、"fuz
zy reasoning function"も一語として扱うことにして、
確定状態にする。また、慎重を期するには、テキスト内
強調表示モードを利用することによって、"funtion"が
動詞として使われていないことを確認してから、"fuzzy
reasoningfunction"を確定しても良い。他の例として
は、一覧表示モードの表示例において、"XXXX/1 and XX
XX/2"という連語が存在するが、このような並列の単語
列は解析誤りを生じやすいので、連語として指定するこ
とにより解析誤りを避けることができる。例えば、例文
の第２文において、 "a new function of XXXX/1 and XXXX/2" という部分があるが、これが "[[a new function of XXXX/1] and XXXX/2]" のように誤って解析されることを避けることができる。

【００２０】（ステップ１５）ユーザが指定した連語の
候補にテキスト中で前編集記号を挿入する。ここでは、
機械翻訳システムで一般的に用いられている、前編集記
号として括弧を用いて文の一部がひとまとまりであるこ
とを指定する方法を用いる。以下、ユーザが指定した連
語に括弧を挿入する処理を図２２を用いて説明する。

【００２１】（ステップ１５０１）原文テキストを作業
用テキストに複写する。（ステップ１５０２）連語状態テーブル８７を参照し、
確定状態欄が１である連語を連語テーブル８３から選
ぶ。（ステップ１５０３）連語テーブル８３を参照し、連語
の最初の単語および連語の最後の単語の出現位置を得
る。（ステップ１５０４）単語テーブル８１を参照し、ステ
ップ１５０３で得た連語の最初の単語の開始文字の位置
と連語の最後の単語の終了文字の位置を得る。（ステップ１５０５）作業用テキストにおいて（ステッ
プ１５０４で得た開始文字位置＋挿入括弧数）の位置の
直前に左括弧を挿入する。また、（終了文字位置＋挿入
括弧数＋１）の位置の直後に右括弧を挿入する。挿入括
弧数の初期値は０である。（ステップ１５０６）挿入括弧数を２増す。（ステップ１５０７）連語フラグがオンである連語を全
て処理したかどうか調べる。全て処理していれば処理を
終了し、処理していなければステップ１５０２へ戻る。

【００２２】以上の処理によって、ひとまとまりの連語
として扱うべき単語列が括弧でくくられた前編集済みテ
キストが作成される。前編集済みテキストの例を図２３
に示す。この前編集済みテキストを翻訳する方法は、現
在機械翻訳システムにおいて一般に用いられている方法
を用いれば良いので説明は省略する。以上説明したよう
に、本発明による前編集支援システムでは、翻訳すべき
テキストから単語列の出現頻度に基づいて連語の候補を
抽出し、抽出された連語の候補からユーザが指定したも
のをひとまとまりの連語として扱うことにより翻訳精度
が向上する。

【００２３】本発明の第２の実施例として、本発明を英
日機械翻訳システムに適用した例を示す。以下、図２４
に示す処理フローを用いて詳細に説明する。（ステップ２１）原文ファイル４から原文テキストを読
み込む。（ステップ２２）連語の候補を抽出する。本ステップ
は、第１の実施例におけるステップ１２と同様の処理な
ので、詳細な説明は省略する。（ステップ２３）連語の候補から連語を選択する。本ス
テップは、第１の実施例におけるステップ１３の表示す
べき連語の候補決定処理と同様なので詳細な説明は省略
する。ただし、第２の実施例においては、連語を自動的
に抽出するため、意味の無い単語列を連語として抽出す
ることを避けるために、連語の候補として抽出するため
の出現頻度の閾値は、第１の実施例において設定された
値より高い方が望ましい。（ステップ２４）一文毎に翻訳処理を行う。以下、この
ステップを図２５を用いて説明する。

【００２４】（ステップ２４１）形態素解析処理を行
う。形態素解析処理については、特開昭５８−４０６８
４号公報、特開昭５９−１２１５７４号公報などに開示
の方法を用いることができるので、詳細な説明は省略す
る。形態素解析は連語抽出においても行われるので、処
理速度を上げるために、その結果を保持しておいて利用
することも可能であり、メモリ容量などのハードウェア
上の制約があれば、本ステップにおいてやりなおしても
良い。また、やり直す際にも、テンポラリー辞書ファイ
ル９を用いることにより翻訳処理を高速化することがで
きる。（ステップ２４２）連語テーブル８３から、各文に含ま
れている連語を取り出す。（ステップ２４３）翻訳に用いられるノードテーブル８
８において、連語を構成する単語をまとめて一つのノー
ドにする。図２６に、ノードテーブル８８の例を示す。
ノードテーブル８８は、文の解析結果が格納されるもの
である。図２６のノードテーブル８８の内容を模式的に
示すと図２７のようになる。（ステップ２４４）文に含まれている全ての連語を処理
したかどうか調べる。全て処理していたら終了する。処
理していなければ、ステップ２４２へ進む。（ステップ２４５）構文解析、構文変換、生成などの翻
訳処理を行う。各処理については、特開昭５８−４０６
８４号公報、特開昭５９−１２１５７４号公報などに開
示の方法を用いることができるので、詳細な説明は省略
する。以上の実施例では、自動的に連語選択を行ったが、第１
の実施例と同様に、ユーザが連語を指定するステップを
加えることも可能である。

【００２５】本実施例によれば、翻訳処理を行う前に、
予め連語を抽出しておき、構文解析処理の前に、連語を
一つにまとめる連語処理を行うことによって、構文解析
精度を向上させることができる。

【００２６】

【発明の効果】本発明によれば、繰返し出現する単語列
を連語の候補として抽出し、ユーザに表示し、連語とし
て扱って良いとユーザが判断した場合には、連語の候補
を連語として扱うことにより、連語の訳語を登録するこ
となしに、動詞／名詞の認識誤りが減少し、解析精度が
向上する。訳語登録が不要なため、辞書登録が不必要あ
るいは不適切な連語に対して、特に有効である。また、
従来の前編集支援方法と比較すると、繰返し出現する単
語列を連語の候補として扱うため、一度の指示が複数の
箇所に対し有効なので、前編集作業が効率的に行える。

【図面の簡単な説明】

【図１】本発明のハードウェア構成図である。

【図２】本発明の全体的な処理フローである。

【図３】処理対象となるテキストの例である。

【図４】連語の候補抽出の処理フローである。

【図５】単語テーブル８１の例である。

【図６】連語の候補抽出の処理フローである。

【図７】連語フラグテーブル８２の例である。

【図８】連語格納処理の処理フローである。

【図９】連語テーブル８３の例である。

【図１０】抽出される連語の例である。

【図１１】連語間の包含関係構築の処理フローである。

【図１２】親テーブル８４、子テーブル８５への包含関
係格納の処理フローである。

【図１３】親テーブル８４の例である。

【図１４】子テーブル８５の例である。

【図１５】表示すべき連語の候補決定の処理フローであ
る。

【図１６】表示連語テーブル８６の例である。

【図１７】連語の候補の一覧表示の表示例である。

【図１８】テキスト内強調表示の表示例である。

【図１９】ユーザによる連語選択の処理フローである。

【図２０】連語状態テーブル８７の例である。

【図２１】ユーザによる連語の訳語登録画面の表示例で
ある。

【図２２】前編集記号挿入の処理フローである。

【図２３】前編集が済んだテキストの例である。

【図２４】第２の実施例の全体の処理フローである。

【図２５】第２の実施例における翻訳処理の処理フロー
である。

【図２６】翻訳処理に用いられるノードテーブル８８の
例である。

【図２７】ノードテーブル８８の模式図の例である。

【符号の説明】

１ディスプレイ装置２キーボード３マウス４入力される元の英文が格納される原文ファイル５翻訳結果が格納される訳文ファイル６辞書ファイル７翻訳に用いられる文法が格納される文法ファイル８テーブル類が保持されるメモリ９連語抽出に用いられた辞書情報が格納されるテンポ
ラリー辞書ファイル１０処理装置

Claims

【特許請求の範囲】

【請求項１】第１の言語から第２の言語への翻訳を行
う機械翻訳システムにおいて、第１の言語のテキストを
読み込み、前記テキストを単語に分割し、複数回出現す
る単語列を抽出し、前記抽出された単語列のうち、所定
条件を満たす単語列を連語の候補として抽出し、前記連
語の候補のうち、ひとまとまりとして翻訳すべき連語を
ユーザが選択し、前記選択した連語に翻訳援助情報を入
力することを特徴とする前編集支援方法。
【請求項２】請求項１の前編集支援方法において、ユ
ーザが選択した連語の候補を前記テキスト中で検索し、
翻訳援助情報として前編集記号を前記テキストに挿入す
ることを特徴とする前編集支援方法。
【請求項３】請求項１の前編集支援方法において、前
記連語の候補として選ばれる単語列が満たすべき条件と
して、前記単語列の出現頻度を用いること、または、前
記単語列中の多品詞語の個数／割合を用いることを特徴
とする前編集支援方法。
【請求項４】請求項１の前編集支援方法において、前
記抽出された連語の候補のうち、ユーザが指定した連語
について、連語の候補を構成する単語の訳語をユーザに
呈示し、訳語に不満な場合にはユーザが訳語を入力する
ことを特徴とする前編集支援方法。
【請求項５】第１の言語から第２の言語への翻訳を行
う機械翻訳システムにおける自動前編集方法であって、
第１の言語によるテキストを読み込み、前記テキストを
単語に分割し、複数回出現する単語列を連語として抽出
し、前記抽出された連語をひとまとまりの要素として扱
い、第２の言語に翻訳することを特徴とする前編集方
法。
【請求項６】第１の言語から第２の言語への翻訳を行
う機械翻訳システムにおける前編集支援装置であって、
第１の言語のテキストを読み込む手段と、前記テキスト
を単語に分割する手段と、複数回出現する単語列を抽出
する手段と、前記抽出された単語列のうち、所定条件を
満たす単語列を連語の候補として抽出する手段と、前記
連語の候補のうち、ひとまとまりとして翻訳すべき連語
をユーザが選択する手段と、前記選択した連語に翻訳援
助情報を入力する手段を有することを特徴とする前編集
支援装置。
【請求項７】請求項６の前編集支援装置において、ユ
ーザが選択した連語の候補を前記テキスト中で検索する
手段と、翻訳援助情報として前編集記号を前記テキスト
に挿入する手段を有することを特徴とする前編集支援装
置。
【請求項８】第１の言語から第２の言語への翻訳を行
う機械翻訳システムにおける自動前編集装置であって、
第１の言語によるテキストを読み込む手段と、前記テキ
ストを単語に分割する手段と、複数回出現する単語列を
連語として抽出する手段と、前記抽出された連語をひと
まとまりの要素として扱う手段と、第２の言語に翻訳す
る手段を有することを特徴とする前編集装置。