JPH0554062A - 機械翻訳システム - Google Patents

機械翻訳システム

Info

Publication number
JPH0554062A
JPH0554062A JP3218598A JP21859891A JPH0554062A JP H0554062 A JPH0554062 A JP H0554062A JP 3218598 A JP3218598 A JP 3218598A JP 21859891 A JP21859891 A JP 21859891A JP H0554062 A JPH0554062 A JP H0554062A
Authority
JP
Japan
Prior art keywords
sentence
translation
blank
input
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3218598A
Other languages
English (en)
Inventor
Yumiko Komatsu
由美子 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP3218598A priority Critical patent/JPH0554062A/ja
Publication of JPH0554062A publication Critical patent/JPH0554062A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 機械翻訳システムに於て、入力文の中に空白
コードを認識したら、これを文区切りの目印として文を
分割して翻訳することにより、表のような形式に入力さ
れた入力文を的確に翻訳する。 【構成】 システムは入力された翻訳原文を、文区切り
認識部によって、まず句点やコロンによって分割する。
更に、複数個の空白コードを認識したらこれも文区切り
として文を分割する。分割された翻訳原文は、辞書情報
を用いて、形態素解析、解析、変換、生成、形態素生成
というステップを踏んで、翻訳文に変換される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、第1言語の翻訳原文を
第2言語の翻訳文に翻訳する機械翻訳システムに関す
る。
【0002】
【従来の技術】従来、機械翻訳システムに於て、空白コ
ードは、特に日本語に於ては、通常、文中に使用されな
い文字ということで、誤った入力として削除したり、無
視して翻訳したりしていた。
【0003】図7は、翻訳原文とその翻訳文の例であ
る。例文71aにおいて「機 械で」の2文字目の空白
コードは入力者の誤りによるものと考えられる。このま
まの状態で空白コードを1文字として翻訳すると「機
械」という正しい単語が辞書引きされず、例文71bの
ように「機 械」が未登録語となり、日本語のまま出力
されてしまう。そこで、従来の機械翻訳システムは、通
常日本語の文章において、空白コードが出現するのは誤
りであるという判断により、空白コードを削除して「機
械」は「機械」であると判断して、71cのように翻
訳する。
【0004】
【発明が解決しようとする課題】しかしながら、空白コ
ードが常に不要なわけではなく、図7の例文72aのよ
うに、日本語中に混在するアルファベット文字列内の単
語区切りの空白コードである場合もある。あるいはま
た、例文72bでは、翻訳者が「彼は雅文を書く。」と
書きたかったが、入力時に「雅文」の「雅」の文字が分
からずとりあえず「文」だけ入力し、後で文字を調べて
完成させようと思ったというような場合である。
【0005】このように、翻訳者が入力すべき文字を忘
れた場合や、入力している機械で入力できない文字があ
った場合など、とりあえず文字を書き込むスペースを確
保するという理由で、敢えて、空白コードを挿入すると
いうようなこともある。このような場合、空白コードを
無視して削除してしまうと、正しくない翻訳文が出力さ
れるばかりか、場合によっては、修正すべき箇所を発見
しにくくなってしまうこともある。72a、72bは、
それぞれ、72c、72dのように翻訳される。72c
では、「BROTHER TYPEWRITER」をア
ルファベット文字列として処理する過程で空白を削除し
てしまった為に、「BROTHERTYPEWRITE
R」のように、本来、2単語であるべきものが1語にな
ってしまっている。72dでは、「雅文」と書くべきと
ころ「 文」としてあったために、この空白コードが削
除されて、「文」として翻訳されてしまっている。翻訳
原文に対する翻訳文としては正確ではないが、英文とし
てはつじつまがあっている。図7の71bのように未知
語で出力されれば間違いを発見し易いが、このように英
文としては正しく出力されてしまうと、翻訳の失敗に気
がつきにくい。
【0006】また、操作説明マニュアル文など機械翻訳
に適した分野では、手紙文や論文などと異なり、必ずし
も助詞や句読点が整った文の連続ばかりとは限らず、表
のような形式に、単語や、短文が羅列されたものが翻訳
対象文として入力されることが多い。その場合、文区切
りに句点やコロンを使用すると体裁が悪く、むしろ空白
コードに文区切りとしての役割を与えていることが多
い。従来はこのように文区切りとしての意味を持った空
白が無視されていたために、正しい翻訳結果が出ていな
かった。
【0007】例えば、図7中の例文72eでは、「アメ
リカ向けMX528」が製品名で、その図面についての
説明が空白コードをはさんで記述されている。ところ
が、この空白を無条件に削除してしまうと、72fのよ
うに「MX528部品」が1語であるかのように処理さ
れてしまう。また、空白コードを単なる記号とみなして
無視する方法でも、72gのように、「MX528
部品」を1語とみなして正しくない翻訳文が出力
される。この様な文は、72hのように、2文に切って
翻訳されるべきである。
【0008】本発明は、上述した問題点を解決するため
になされたものであり、空白コードを文区切りを表わす
特殊記号と同様の扱いをして、翻訳単位に分割する手が
かりとし、文区切りの誤りによる翻訳失敗を防ぎ、意図
して入力された空白コードを誤って削除することなく、
また、例えば、表のような形式に入力された翻訳原文で
あっても、的確に分割し、翻訳することを目的とする。
【0009】
【課題を解決するための手段】この目的を達成するため
に本発明の機械翻訳システムは、第1言語の翻訳原文を
入力するための入力手段と、入力された翻訳原文を第2
言語の翻訳文に翻訳するために必要な情報を格納した辞
書と、空白コードを文区切りの目印とみなして入力され
た翻訳原文を翻訳処理単位に分割するための文区切り認
識手段と、分割された翻訳原文を上記辞書を用いて翻訳
単位毎に翻訳文に翻訳する手段と、を備えている。更
に、翻訳原文中に空白コードが複数個連続していた時の
み、文区切りとみなして翻訳処理単位に分割して、翻訳
することを特徴とする。
【0010】
【作用】上記の構成を有する本発明の機械翻訳システム
は、入力手段から入力された第1言語の翻訳原文を、文
区切り認識手段によって空白コードを目印として翻訳処
理単位に分割し、第2言語の翻訳文に翻訳するために必
要な情報を格納した辞書を用いて翻訳単位毎に翻訳文に
翻訳する。又、翻訳原文中に空白コードが複数個連続し
ていた時のみ、文区切りとみなして翻訳処理単位に分割
して、翻訳するとよい。
【0011】
【実施例】以下、本発明を具体化した一実施例を図面を
参照して説明する。
【0012】図1は、本発明を適用した機械翻訳システ
ムに於て、最低限必要な装置の概要を示すブロック図で
ある。この図1に於て、機械翻訳システム1は、計算機
で構成されたデータ処理部10に、キーボードなどで構
成された入力部11と、CRTなどで構成された表示部
16と、走査型プリンタなどで構成される印刷部17と
が接続されている。更に、データ処理部10の内部は、
計算機の機能を利用してソフトウェア的に実現された編
集部12に、文区切り認識部13を介して、翻訳部14
が接続しており、更に、翻訳部14には、ハードディス
ク、光ディスクなどに格納された辞書15が接続されて
いる。
【0013】次に、以上のように構成された機械翻訳シ
ステムにおいて、本システムによる空白コードを利用し
た文区切り認識手段を用いた翻訳処理の基本的な動作に
ついて、日本語から英語に翻訳するシステムを例に取っ
て詳述する。
【0014】まず、図2は、翻訳の対象とする文章の一
例である。マニュアル文などに見られる機能対照表の例
で、単語及び短文が空白コードのみで区切られて並んで
いる。難解な長文ではないが、人手で翻訳するには時間
と手間がかかる為、機械翻訳向きの文章と言える。この
文章には多くの空白コードが含まれているが、細部にわ
たって検討してみると、様々な意味合いを持った空白コ
ードが存在することがわかる。
【0015】図2に於ける1個の空白コード21aは、
英単語間の空白であり、同じく1個の空白コード21b
は、例えば入力時になんらかの事情で入力できなかった
特殊文字などを翻訳終了後に他の手段を用いて入力する
ために、敢えて空けてあるというような空白である。そ
の他、大部分にみられる2個以上の空白コード(例えば
空白21c)は、単語及び短文間の区切りを示す空白で
ある。このように様々な意味合いを持つ空白コードを、
従来は一括して無視あるいは削除するようなシステムが
多かった。総じて、空白コードは単語または文の区切り
を示すことが多い。そこで、本機械翻訳システムによる
文区切り認識手段は、空白コード、特に2個以上の空白
コードの並びを文区切りとして認識する。以下はその手
順である。
【0016】図3は、入力された翻訳原文が文区切り処
理を経て、翻訳単位に分割され、第2言語の翻訳文に変
換されるまでのプログラムの構成を概略的に示すフロー
チャートである。
【0017】図2の文章が図1の入力部11から入力さ
れると、編集部12において、誤字、脱字などについて
必要な修正を施された後、文区切り認識部13へ渡され
る。文区切り認識部13は、ひとまず翻訳原文全体を1
文として受け取り、引続き文区切り処理を行う。
【0018】図4は、本システムによる文区切り認識部
13が行う処理を示したフローチャートである。先ず、
文区切り認識部13は翻訳原文の中に句点(「。」)や
コロン(「:」)を捜す。もしあれば、その前後の状況
を調べ、文末の条件を満たしていれば、文区切りとす
る。文末の条件とは、例えば、句点があっても、その直
後が格助詞であれば、文末でない可能性が高い。「必
ず、文末には。をつけてください。」のような使い方の
場合である。このように、文末の条件を満たしていない
場合には、通常の記号と同様に、名詞または名詞の一部
として処理する。
【0019】続いて、文区切り認識部13は、文中の空
白コードを捜す(S3)。もし1個の空白コードがあれ
ば、入力誤りであるか、文区切りを示すか、名詞の一部
を形成する空白として処理する。例えば、図2の空白コ
ード21aは両端が英単語またはそれに準ずる単語であ
るので、1語の名詞の一部とする。空白コード21bの
場合は、前方が名詞、後方が助詞ということで、前方の
名詞の一部として処理する。この空白21bを含む短文
は、最終的に、The()paper ()is()used,too.(ここ
で()は単語間に必要な空白)のように空白部分を残して
翻訳されるため、翻訳終了後この空白位置に必要な文字
を確実にかつ容易に挿入できる。また、文区切りとみな
されて2文に切れるようなこともない。空白コード21
dの場合は、この空白コードを削除してみると、その前
後の文字列を合わせた単語に対して、「用紙」という単
語が辞書引きされる。
【0020】このような場合は、入力誤りと考えるのが
妥当である。空白21cのような2こ以上の空白コード
は文区切りとみなし、空白コードの直前までを第1文、
直後からを第2文として、それぞれを翻訳部14に於て
別々に翻訳した後、間に翻訳原文と同じ数の空白を挿入
し、翻訳文として完成させる。そのために、文区切り認
識部13は2個以上の空白コードのあった位置とその数
を翻訳部14に情報として引き渡す。以上の処理の結
果、図2の翻訳原文の文区切り認識部13から翻訳部1
4へ送られるデータは図5のようになる。
【0021】このあと、図3で示されるように、文区切
り処理が終了した第1言語の翻訳原文は、先ず、形態素
解析部14aに於て単語に分割され、解析部14bにお
いて、第1言語の辞書情報に基づいて構文解析及び意味
解析が行われ、変換部14cに送られる。変換部14c
では、解析された翻訳原文を、第1言語から第2言語の
翻訳文に変換する。変換部14cにおいて変換された翻
訳文は、生成部14dに於て第2言語の辞書情報に基づ
いて正しい構文に生成され、更に、形態素生成部14e
に於て、活用処理などを行って、完成される。尚、以
上、翻訳部14に於ける形態素解析、解析、変換、生
成、形態素生成の各処理は、いずれも図1における辞書
15に格納されている辞書情報を用いて行われる。
【0022】こうして図3の文章は図6のように翻訳さ
れる。それぞれの空白コードの意味を考慮して処理して
いるので、必要な空白コードはそのまま残り、不必要な
空白コードは削除される。この後、表形式の場合には、
適当なレイアウト処理を施すと更に効果的である。
【0023】尚、前記実施例においては、2個以上の空
白コードを文区切りとするとしたが、機械翻訳システム
の利用される状況によって、3個以上、4個以上、ある
いはその以上にも設定を変えることが出来る。
【0024】
【発明の効果】以上説明したことから明かなように、本
発明の機械翻訳システムに内蔵された文区切り認識手段
によれば、通常、無視されがちな空白コードの意味を判
断し、空白コードが存在していれば、句点(「。」)や
コロン(「:」)などと同様に、文区切りを表わすとみ
なし、翻訳処理を行なう。これによって、翻訳原文入力
者が誤ってではなく、意図して入力した空白コードを無
駄にすることなく、また、空白コードを文区切りとして
使用する表のような形式の翻訳原文に対して、正しく文
区切りを行い、的確な翻訳処理単位内で翻訳を行うこと
が出来るので、翻訳原文を入力する際に、不必要な句点
等を挿入することなく、空白コードを有効に使用して、
従来よりも自由な形式で文章を入力することが出来る。
【図面の簡単な説明】
【図1】本発明を適用した機械翻訳システムの概要を示
すブロック図である。
【図2】翻訳の対象とする文章の一例を示す図である。
【図3】編集済みの翻訳原文を第2言語の翻訳文に変換
するためのプログラムの構成を概略的に示すフローチャ
ートである。
【図4】文区切り認識部が行う処理を示したフローチャ
ートである。
【図5】文区切り認識部が翻訳原文を処理して、翻訳部
へ送るデータを示す説明図である。
【図6】翻訳原文を翻訳部が翻訳した結果を示す図であ
る。
【図7】従来技術で空白コードを含む翻訳原文を翻訳し
た結果を示す図である。
【符号の説明】
1 機械翻訳システム 11 入力部 13 文区切り認識部 14 翻訳部 15 辞書

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 第1言語の翻訳原文を入力するための入
    力手段と、 入力された翻訳原文を第2言語の翻訳文に翻訳するため
    に必要な情報を格納した辞書と、 空白コードを文区切りの目印とみなして入力された翻訳
    原文を翻訳処理単位に分割するための文区切り認識手段
    と、 前記文区切り認識手段によって分割された翻訳原文を前
    記辞書を用いて翻訳単位毎に翻訳文に翻訳する手段と、
    を備えたことを特徴とする機械翻訳システム。
  2. 【請求項2】 請求項1記載の機械翻訳システムに於
    て、翻訳原文中に空白コードが複数個連続していた時の
    み、文区切りとみなして翻訳処理単位に分割して、翻訳
    することを特徴とする機械翻訳システム。
JP3218598A 1991-08-29 1991-08-29 機械翻訳システム Pending JPH0554062A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3218598A JPH0554062A (ja) 1991-08-29 1991-08-29 機械翻訳システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3218598A JPH0554062A (ja) 1991-08-29 1991-08-29 機械翻訳システム

Publications (1)

Publication Number Publication Date
JPH0554062A true JPH0554062A (ja) 1993-03-05

Family

ID=16722472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3218598A Pending JPH0554062A (ja) 1991-08-29 1991-08-29 機械翻訳システム

Country Status (1)

Country Link
JP (1) JPH0554062A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266756A (ja) * 1993-03-15 1994-09-22 Nec Corp 文切り装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266756A (ja) * 1993-03-15 1994-09-22 Nec Corp 文切り装置

Similar Documents

Publication Publication Date Title
US4962452A (en) Language translator which automatically recognizes, analyzes, translates and reinserts comments in a sentence
JP3220560B2 (ja) 機械翻訳装置
EP0686286B1 (en) Text input transliteration system
US6246976B1 (en) Apparatus, method and storage medium for identifying a combination of a language and its character code system
EP0370774B1 (en) Machine translation system
US6073146A (en) System and method for processing chinese language text
US6014615A (en) System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
JPS62121569A (ja) 原文中の成句置換方法
JPH09259125A (ja) 文書作成支援システム及び用語辞書
WO2003065245A1 (en) Translating method, translated sentence outputting method, recording medium, program, and computer device
JPH0535783A (ja) タイポグラフイカル情報付き文書の翻訳装置
JP2001166683A (ja) 自動点訳システム及びそれを用いた自動点訳方法
JP2848729B2 (ja) 翻訳方法および翻訳装置
JPS6244873A (ja) 機械翻訳装置
JPH0554062A (ja) 機械翻訳システム
JPH0883280A (ja) 文書処理装置
JP2626722B2 (ja) 日本語生成装置
JP2894064B2 (ja) 機械翻訳装置
JPH10293811A (ja) 文書認識装置及び方法並びにプログラム記憶媒体
JP3393162B2 (ja) 文章編集装置
JPH0421169A (ja) 翻訳装置
JP3204517B2 (ja) 未知語認定方法
JPH05120260A (ja) 英文字列辞書登録装置及び日本語文書処理装置
JPH0242574A (ja) 翻訳システムにおけるスペルチェック方式
JPH05225183A (ja) 日本文単語誤り自動検出装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Effective date: 20050713

Free format text: JAPANESE INTERMEDIATE CODE: A131

A521 Written amendment

Effective date: 20050912

Free format text: JAPANESE INTERMEDIATE CODE: A523

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051109