JPH05108710A - 英日機械翻訳装置 - Google Patents

英日機械翻訳装置

Info

Publication number
JPH05108710A
JPH05108710A JP3269242A JP26924291A JPH05108710A JP H05108710 A JPH05108710 A JP H05108710A JP 3269242 A JP3269242 A JP 3269242A JP 26924291 A JP26924291 A JP 26924291A JP H05108710 A JPH05108710 A JP H05108710A
Authority
JP
Japan
Prior art keywords
word
english
unit
words
idiom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3269242A
Other languages
English (en)
Inventor
Hitomi Kinoshita
ひとみ 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP3269242A priority Critical patent/JPH05108710A/ja
Publication of JPH05108710A publication Critical patent/JPH05108710A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 (修正有) 【目的】 名詞連続及びハイフンで連結された単語を、
まとめて一つの単語と見なし、他の単語同様に未登録処
理を行う。 【構成】 原文中の名詞連続及びハイフンで連結された
複合語を熟語、すなわち、一つの単語として認識する熟
語認識部7、辞書に未登録の熟語を登録する未登録熟語
リスト8、未登録熟語リスト8に登録された熟語の訳語
をユーザより得る訳語入力部11、並びに未登録熟語リ
スト8に登録された熟語及びその訳語を登録するユーザ
辞書5を持つことにより、原文中の名詞連続及びハイフ
ンで連結された複合語をすべて熟語と見なし、その熟語
が辞書に未登録であれば、熟語として登録する。 【効果】 名詞連続及びハイフンで連結された複合語に
対してユーザが設定した訳語を活用できるので翻訳の質
の向上が期待できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、英文を日本文に翻訳す
る英日機械翻訳装置に関するものである。
【0002】
【従来の技術】機械翻訳装置にとって、未知語は、必ず
といってよいほど出現する。その時必要となるのが、ユ
ーザによる未知語の登録である。その方法としては、原
文を解析する段階で未知語が現れる度に、必要な情報を
ユーザから登録してもらう方法と、未知語だけ検出し
て、未知語リストを作り、ユーザからまとめて登録して
もらう方法が考えられる。ユーザに与える煩わしさから
考えて、後者の方法がより良いと思われるが、いずれの
方法も単語単位の登録であり、熟語は、扱っていない。
【0003】熟語として認識されなければならないにも
関わらず、辞書には、登録されてなく、個々の単語は、
辞書に登録されていたとする。例えば、データ構造を説
明する文書中にleaf nodeという名詞連続があ
ったとする。これは、ツリー構造における“子のいない
ノード(葉)”のことをいっている。しかし、辞書中に
「leaf node」として登録されていなくて、 leaf = 葉 node = 節 と登録されていたなら、「leaf」と「node」
に、それぞれ「葉」「節」という訳語が与えられ、その
2つの訳語を単純につないで、 leaf node = 葉節 という訳語になってしまう。
【0004】また、arithmetic−logic
unitという単語の並びがあったとする。この単語
列に対して、算術論理演算ユニットという訳語が正しい
のだが、これもまた、辞書中に「arithmetic
−logic unit」として登録されていなくて、 arithmetic = 算術 logic = 論理 unit = ユニット と登録されていたら、算術論理ユニットまたは、ハイフ
ンまで表層化されて、算術−論理ユニットという訳語に
なってしまう。
【0005】
【発明が解決しようとする課題】以上述べた従来の技術
の未知語処理では、単語単位の登録にとどまり、熟語を
未知語として扱うことはできない。また、本来は、「l
eaf node」「arithmetic−logi
c unit」のように、熟語として扱われるべき名詞
連続、ハイフンで連結された複合語であっても、それが
熟語として見なされず、「leaf node = 葉
節」のように、不自然な訳出を行ってしまう。
【0006】
【課題を解決するための手段】本発明は、上記問題点を
解決するために、翻訳対象英文を文字列として入力する
英文入力部と、英単語、及びその単語情報が登録されて
いる解析辞書と、解析辞書を用いて、上記英文入力部よ
り入力された英文を解析する英文解析部と、単語を登録
するためのユーザ辞書と、英文解析部で検出された未知
語、及び、その訳語を登録する未知語登録部と、英文解
析部で解析された解析結果をもとに、句を認定し、英文
解析部では、個々の単語として解析された名詞連続、ま
たは、ハイフンで連結された複合語を一つの単語として
まとめあげる熟語認識部と、熟語認識部で認識された熟
語を登録する未登録熟語リストと、未登録熟語リストに
登録された熟語をユーザに示し、その訳語を入力しても
らう訳語入力部と、ユーザ辞書に、未登録熟語、及び、
その訳語を登録する熟語登録部とを有することにより、
原文中の名詞連続、ハイフンで連結された複合語をすべ
て一つの単語と見なし、その熟語が、辞書に未登録であ
れば、未知語処理を行い、熟語として登録する構成でな
る。
【0007】
【作用】本発明は、上記構成により、名詞連続、及び、
ハイフンで連結された複合語を、熟語、すなわち、一つ
の単語として認識するため、辞書に未登録であれば、未
知語として処理することができる。その結果、ユーザが
設定した訳語を、翻訳に役立てることにより、翻訳の質
の向上が期待できる。
【0008】
【実施例】図1は本発明の一実施例における機械翻訳装
置のブロック図である。
【0009】1は、キーボード、OCR等により、英文
を文字列として入力する英文入力部である。2は、英単
語、及び、その単語情報が登録されている辞書である。
3は、英単語をキーとして、辞書2を検索する辞書検索
部である。4は、辞書2を用いて英文入力部1で入力さ
れた英文を解析する英文解析部である。この時、辞書2
に登録されていない単語は、未知語として検出してお
く。また、解析結果は、14の記憶部に記憶しておく。
5は、英文解析部4で検出された未知語、及び、その訳
語を登録するユーザ辞書である。6は、ユーザ辞書5
に、未知語、及び、その訳語を登録する未知語登録部で
ある。7は、英文解析部4で解析された結果を用いて、
句を認定し、英文解析部4では、個々の単語として解析
された名詞連続、または、ハイフンで連結された複合語
を熟語、すなわち、一つの単語としてまとめあげる熟語
認識部である。8は、熟語認識部でまとめあげられた熟
語を未登録熟語として登録する未登録熟語リストであ
る。9は、未登録熟語リスト8に熟語を登録する未登録
熟語リスト作成部である。10は、未登録熟語リスト8
に登録された熟語をユーザに示す未登録熟語リスト表示
部である。11は、未登録熟語リスト表示部10で表示
された熟語の訳語をユーザから入力してもらう訳語入力
部である。12は、未登録熟語リスト8に登録された熟
語、および、その訳語をユーザ辞書5へ登録する熟語登
録部である。13は、英文入力部1、辞書検索部3、英
文解析部4、未知語登録部6、熟語認識部7、未登録熟
語リスト作成部9、未登録熟語リスト表示部10、訳語
入力部11、熟語登録部12を制御する制御部である。
【0010】以上のように構成された本実施例の機械翻
訳装置における熟語の未知語処理について、以下その動
作を、図2のフローチャートに基づいて説明する。
【0011】まずステップ(イ)で、英文入力部1よ
り、英文を入力する。ここで、 a)The data is transferred
to anarithmetic−logic un
it. という英文を挙げる。
【0012】次にステップ(ロ)で、辞書2を用いて、
入力文aを解析し、各々の単語について、品詞等の単語
情報を調べる(ここでは、多品詞解消は行われな
い。)。そして、辞書2に登録されていない単語は、未
知語処理を行い、その英単語、及び、訳語をユーザ辞書
5に登録する。ここで、解析された結果は、記憶部14
に記憶しておく。
【0013】ステップ(ハ)では、ステップ(ロ)の結
果をもとに、入力文aの句構造を解析する。ステップ
(ロ)では、入力文a中の下線部「arithmeti
c−logic unit」は、 arithmetic : 名詞 − : 記号 logic : 名詞 unit : 名詞 と解析されている。これは、「arithmetic−
logic unit」が、辞書2中の1エントリとな
っていないために、名詞連続や、ハイフンで連結された
複合語が、単語毎に解析されてしまったためである。普
通、名詞連続や、ハイフンで連結された複合語は、一つ
の単語、すなわち、辞書の1エントリとなっていてもお
かしくないものである。その証拠に、 「machine transrater = 機械翻
訳」 のように、既に、名詞連続が、熟語として辞書中に登録
されているものは、ステップ(ロ)で一つの単語とし
て、解析されている(これは、「最長一致」という考え
に基づいて、解析しているため、「machine」と
「transrater」に分解されないからであ
る。)し、また、分解された名詞連続、ハイフンで連結
された複合語も、句構造を解析した段階で、「arit
hmetic−logic unit」は、名詞句とし
て、まとめられる。ただ一つの単語であれば、それが、
辞書に登録されていなければ、未知語として、ユーザよ
り訳語を指定してもらうことになるのだが、現在の機械
翻訳技術では、熟語は、未知語として扱われない。そこ
で、ステップ(ロ)では、別々の単語として解析された
名詞連続や、ハイフンで連結された複合語は、句構造を
解析した段階で、熟語としてまとめあげると同時に、未
登録熟語として、未登録熟語リスト8に登録する。
【0014】ステップ(ニ)では、未登録熟語があった
かどうかチェックして、未登録熟語があればステップ
(ホ)へ、なければ、処理を終わる。
【0015】ステップ(ホ)では、ステップ(ハ)で登
録された未登録熟語を表示し図3、ステップ(ニ)で、
ユーザに訳語を入力してもらう。
【0016】例えば、図3の未登録熟語リストに表示さ
れた熟語arithmetic−logic unit
は、現在、「arithmetic」「−」「logi
c」「unit」という別の単語として解析されてい
る。そのため、このままでは、それぞれの単語毎に、
「算術」「−」「論理」「ユニット」と訳語が与えられ
て、算術−論理ユニットとなってしまう。この熟語に対
する訳語は、算術論理演算ユニットである。そこで、ユ
ーザは、図4のように、訳語を入力する。
【0017】現在、翻訳処理中の文書には、この他に、
「leaf node」「level−shift v
oltage」という名詞連続も存在する。そこでこれ
らの名詞連続も、同様に、「子のいないノード」「レベ
ル変更電圧」と入力する。
【0018】ステップ(ト)では、未登録熟語リストの
内容を、ユーザ辞書へ登録する。この様な方法で、未登
録熟語の登録を行うことにより、複数の単語からなる熟
語も、一つの単語同様に未知語として扱うことができ、
その熟語をユーザ辞書に登録しておくことにより、翻訳
に役立てることができ、翻訳の質を向上させることにな
る。
【0019】
【発明の効果】名詞連続、及び、ハイフンで連結された
複合語を、熟語、すなわち、一つの単語として認識する
ため、辞書に未登録であれば、未知語として処理するこ
とができる。その結果、ユーザが設定した訳語を、翻訳
に役立てることにより、翻訳の質の向上が期待できる。
【図面の簡単な説明】
【図1】本発明の機械翻訳装置の一実施例におけるブロ
ック図
【図2】同実施例における動作の流れを示すフローチャ
ート
【図3】ユーザに示される未登録熟語リストの例を示す
【図4】熟語に対する正しい訳語をユーザより入力され
た後の未登録熟語リストを示す図
【符号の説明】
1 英文入力部 2 辞書 3 辞書検索部 4 英文解析部 5 ユーザ辞書 6 未知語登録部 7 熟語認識部 8 未登録熟語リスト 9 未登録熟語リスト作成部 10 未登録熟語リスト表示部 11 訳語入力部 12 熟語登録部 13 制御部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】翻訳対象英文を文字列として入力する英文
    入力部と、英単語、及びその単語情報が登録されている
    解析辞書と、上記解析辞書を用いて、上記英文入力部よ
    り入力された英文を解析する英文解析部と、単語を登録
    するためのユーザ辞書と、上記英文解析部で検出された
    未知語、及び、その訳語を登録する未知語登録部と、上
    記英文解析部で解析された解析結果をもとに、句を認定
    し、上記英文解析部では、個々の単語として解析された
    名詞連続、または、ハイフンで連結された複合語を一つ
    の単語として認識する熟語認識部と、上記熟語認識部で
    認識された熟語を登録する未登録熟語リストと、上記未
    登録熟語リストに登録された熟語をユーザに示し、その
    訳語を入力してもらう訳語入力部と、上記ユーザ辞書
    に、未登録熟語、及び、その訳語を登録する熟語登録部
    とを有することにより、原文中の名詞連続、ハイフンで
    連結された複合語をすべて一つの単語と見なし、その語
    が、辞書に未登録であれば、未知語処理を行い、熟語と
    して登録することを特徴とした英日機械翻訳装置。
JP3269242A 1991-10-17 1991-10-17 英日機械翻訳装置 Pending JPH05108710A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3269242A JPH05108710A (ja) 1991-10-17 1991-10-17 英日機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3269242A JPH05108710A (ja) 1991-10-17 1991-10-17 英日機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH05108710A true JPH05108710A (ja) 1993-04-30

Family

ID=17469633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3269242A Pending JPH05108710A (ja) 1991-10-17 1991-10-17 英日機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH05108710A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5541838A (en) * 1992-10-26 1996-07-30 Sharp Kabushiki Kaisha Translation machine having capability of registering idioms

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5541838A (en) * 1992-10-26 1996-07-30 Sharp Kabushiki Kaisha Translation machine having capability of registering idioms

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
JP3220560B2 (ja) 機械翻訳装置
US5475586A (en) Translation apparatus which uses idioms with a fixed and variable portion where a variable portion is symbolic of a group of words
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH07282055A (ja) 文解析方法および装置
JPH05108710A (ja) 英日機械翻訳装置
JP4007630B2 (ja) 対訳例文登録装置
JPH06266770A (ja) 文書情報検索装置及び検索装置及び機械翻訳装置及び文書作成装置
JP2966473B2 (ja) 文書作成装置
JP3698454B2 (ja) 並列句解析装置および学習データ自動作成装置
JP3197110B2 (ja) 自然言語解析装置および機械翻訳装置
JP3139624B2 (ja) 形態素解析装置
JP3132058B2 (ja) 文章検査装置
JPH1166068A (ja) 機械翻訳装置および機械翻訳方法ならびに機械翻訳プログラムを記録した記録媒体
JPS6368972A (ja) 未登録語処理方式
JPH0421167A (ja) 機械翻訳装置
JPH10240736A (ja) 形態素解析装置
JPH05342260A (ja) 単語綴りチェック装置
JPH07141382A (ja) 外国語文書作成支援装置
JPH05233686A (ja) 日本語処理装置
JPH05225183A (ja) 日本文単語誤り自動検出装置
JPH02110771A (ja) 電訳機
JPH05197752A (ja) 機械翻訳装置
JPH01296373A (ja) 未登録語処理方法