JPH1125093A - 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体Info
- Publication number
- JPH1125093A JPH1125093A JP9180907A JP18090797A JPH1125093A JP H1125093 A JPH1125093 A JP H1125093A JP 9180907 A JP9180907 A JP 9180907A JP 18090797 A JP18090797 A JP 18090797A JP H1125093 A JPH1125093 A JP H1125093A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- character string
- word
- program
- machine translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000877 morphologic effect Effects 0.000 claims abstract description 42
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 29
- 238000010586 diagram Methods 0.000 description 7
- 230000001788 irregular Effects 0.000 description 4
- 239000002245 particle Substances 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- HCUOEKSZWPGJIM-YBRHCDHNSA-N (e,2e)-2-hydroxyimino-6-methoxy-4-methyl-5-nitrohex-3-enamide Chemical compound COCC([N+]([O-])=O)\C(C)=C\C(=N/O)\C(N)=O HCUOEKSZWPGJIM-YBRHCDHNSA-N 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 244000153665 Ficus glomerata Species 0.000 description 1
- 235000012571 Ficus glomerata Nutrition 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 235000015125 Sterculia urens Nutrition 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】 連続性のある文字列を含む入力文を正しく翻
訳することができる機械翻訳装置及び記録媒体を提供す
ることである。 【解決手段】 入力部10から入力された文を形態素解
析部52でユーザー辞書61と翻訳辞書57とを参照し
て単語に分割し、構文解析部53で係り受け等の解析を
して、入力文のツリー構造を作る。これを構文変換部5
4で翻訳対象文の構造に変換し、これをもとに構文生成
部55で翻訳対象文のツリー構造を生成し、形態素生成
部56で語形変化等の調整をして、出力部20から翻訳
結果を出力する。前記ユーザー辞書61で数字のような
連続性のある文字列を含む単語を決められた記号に置き
換えて登録し、その単語が検索されたらその記号に置き
換えられた文字列を記憶しておいて英語の訳を置き換え
る。さらに、その文字列が数字の場合は、単数、複数の
情報も記憶させて正しい翻訳を生成する。
訳することができる機械翻訳装置及び記録媒体を提供す
ることである。 【解決手段】 入力部10から入力された文を形態素解
析部52でユーザー辞書61と翻訳辞書57とを参照し
て単語に分割し、構文解析部53で係り受け等の解析を
して、入力文のツリー構造を作る。これを構文変換部5
4で翻訳対象文の構造に変換し、これをもとに構文生成
部55で翻訳対象文のツリー構造を生成し、形態素生成
部56で語形変化等の調整をして、出力部20から翻訳
結果を出力する。前記ユーザー辞書61で数字のような
連続性のある文字列を含む単語を決められた記号に置き
換えて登録し、その単語が検索されたらその記号に置き
換えられた文字列を記憶しておいて英語の訳を置き換え
る。さらに、その文字列が数字の場合は、単数、複数の
情報も記憶させて正しい翻訳を生成する。
Description
【0001】
【発明の属する技術分野】本発明は、第一言語を第二言
語に翻訳するための機械翻訳装置、及び機械翻訳処理プ
ログラムを記録したコンピュータ読み取り可能な記録媒
体に関するものである。
語に翻訳するための機械翻訳装置、及び機械翻訳処理プ
ログラムを記録したコンピュータ読み取り可能な記録媒
体に関するものである。
【0002】
【従来の技術】従来の機械翻訳装置、及びその機械翻訳
装置を動作させるためのプログラムを記録した記録媒体
においては、例えば、「10勝する」(サ変動詞)、
「10勝」(サ変名詞)、「5連敗する」(サ変動
詞)、「5連敗」(サ変名詞)のような数字を含むサ変
動詞やサ変名詞は、所謂「定型文」として登録するか、
ユーザー辞書に個別に登録することによって対応してい
た。「定型文」に登録する場合は、数字の部分を「*」
等の予め定められた記号に置き換えて登録するようにし
ている。従って、「*勝する」を「win * gam
e」と登録すれば、「1勝する」は「win 1 ga
me」のように翻訳される。また、ユーザー辞書におい
て、「1勝する」を見出し語にして、訳を「win 1
game」として登録すれば、「彼は1勝した」は、
「He won 1 game.」と翻訳される。
装置を動作させるためのプログラムを記録した記録媒体
においては、例えば、「10勝する」(サ変動詞)、
「10勝」(サ変名詞)、「5連敗する」(サ変動
詞)、「5連敗」(サ変名詞)のような数字を含むサ変
動詞やサ変名詞は、所謂「定型文」として登録するか、
ユーザー辞書に個別に登録することによって対応してい
た。「定型文」に登録する場合は、数字の部分を「*」
等の予め定められた記号に置き換えて登録するようにし
ている。従って、「*勝する」を「win * gam
e」と登録すれば、「1勝する」は「win 1 ga
me」のように翻訳される。また、ユーザー辞書におい
て、「1勝する」を見出し語にして、訳を「win 1
game」として登録すれば、「彼は1勝した」は、
「He won 1 game.」と翻訳される。
【0003】
【発明が解決しようとする課題】しかしながら、定型文
というのは、「形が決まった文」であって、入力文が登
録された形と同じ場合にだけ参照されるものである。そ
のため、「*勝する」で登録された定型文は、入力文が
「1勝する」であれば引けるが、「1勝した」や「彼は
1勝する」だと引けてこない。また、*の部分を実際の
入力文に現れた数字に置き換えるだけなので、「10勝
する」は、正しくは「win 10 games」であ
るのに、「win 10 game」になってしまう。
これではいろいろなバリエーションを持つ入力文には到
底対応できない。また、ユーザー辞書に登録する場合で
も、「勝」や「勝する」の直前にはどんな数字が来ても
いいのであるから、それを全ての数字に対して個別に登
録するのは不可能である。もちろん、機械翻訳装置に予
め搭載される翻訳辞書もしくは翻訳プログラムで対応さ
れていれば、ユーザーが定型文に登録したり、ユーザー
辞書に登録する必要はない。しかし、数字等の連続性の
ある文字列を含む単語の中でユーザーが必要とする単語
全てが対応されているとは言い難い。
というのは、「形が決まった文」であって、入力文が登
録された形と同じ場合にだけ参照されるものである。そ
のため、「*勝する」で登録された定型文は、入力文が
「1勝する」であれば引けるが、「1勝した」や「彼は
1勝する」だと引けてこない。また、*の部分を実際の
入力文に現れた数字に置き換えるだけなので、「10勝
する」は、正しくは「win 10 games」であ
るのに、「win 10 game」になってしまう。
これではいろいろなバリエーションを持つ入力文には到
底対応できない。また、ユーザー辞書に登録する場合で
も、「勝」や「勝する」の直前にはどんな数字が来ても
いいのであるから、それを全ての数字に対して個別に登
録するのは不可能である。もちろん、機械翻訳装置に予
め搭載される翻訳辞書もしくは翻訳プログラムで対応さ
れていれば、ユーザーが定型文に登録したり、ユーザー
辞書に登録する必要はない。しかし、数字等の連続性の
ある文字列を含む単語の中でユーザーが必要とする単語
全てが対応されているとは言い難い。
【0004】本発明は上述した問題点を解決するために
なされたものであり、数字のように連続性のある文字列
を含む単語であって翻訳辞書に登録されていない単語を
ユーザー辞書に登録できるようにしたものであり、連続
性のある文字列をいちいち別個のユーザー辞書に登録す
るのではなく、一つの見出し語でどんな連続性のある文
字列が入ってきても対応可能にし、その辞書を検索し
て、訳語を正しく翻訳文に反映させることができる機械
翻訳装置及び、機械翻訳処理プログラムを記録したコン
ピュータ読み取り可能な記録媒体を提供することを目的
としている。
なされたものであり、数字のように連続性のある文字列
を含む単語であって翻訳辞書に登録されていない単語を
ユーザー辞書に登録できるようにしたものであり、連続
性のある文字列をいちいち別個のユーザー辞書に登録す
るのではなく、一つの見出し語でどんな連続性のある文
字列が入ってきても対応可能にし、その辞書を検索し
て、訳語を正しく翻訳文に反映させることができる機械
翻訳装置及び、機械翻訳処理プログラムを記録したコン
ピュータ読み取り可能な記録媒体を提供することを目的
としている。
【0005】
【課題を解決するための手段】この目的を達成するため
に、本発明の請求項1に記載の機械翻訳装置は、入力手
段によって入力された第一言語を単語に分割するための
形態素解析手段と、前記形態素解析手段によって分割さ
れた第一言語の単語の係り受け等を解析するための構文
解析手段と、前記構文解析手段によって解析された第一
言語について翻訳辞書を参照しながら目的の第二言語に
翻訳するための翻訳生成手段とを備えたものを対象とし
て、特に、連続性のある文字列を含む単語を予め定めら
れた記号によって記憶手段に登録することができる登録
手段を備えたことを特徴とするものである。
に、本発明の請求項1に記載の機械翻訳装置は、入力手
段によって入力された第一言語を単語に分割するための
形態素解析手段と、前記形態素解析手段によって分割さ
れた第一言語の単語の係り受け等を解析するための構文
解析手段と、前記構文解析手段によって解析された第一
言語について翻訳辞書を参照しながら目的の第二言語に
翻訳するための翻訳生成手段とを備えたものを対象とし
て、特に、連続性のある文字列を含む単語を予め定めら
れた記号によって記憶手段に登録することができる登録
手段を備えたことを特徴とするものである。
【0006】従って、この発明によれば、前記登録手段
によって、連続性のある文字列を含む単語を予め定めら
れた記号によって記憶手段に登録することができる。例
えば、「10勝」、「10勝する」のような単語は、
「10」の部分を記号化して一つの見出し語として前記
記憶手段に登録しておく。このように単語を記号によっ
て登録しておくことにより、前記入力手段によって入力
された第一言語を前記形態素解析手段によって正確に単
語に分割することができ、以後の前記構文解析手段によ
る構文解析、及び前記翻訳生成手段による前記第二言語
への翻訳生成を的確に実行して正確な翻訳結果を得るこ
とができる。
によって、連続性のある文字列を含む単語を予め定めら
れた記号によって記憶手段に登録することができる。例
えば、「10勝」、「10勝する」のような単語は、
「10」の部分を記号化して一つの見出し語として前記
記憶手段に登録しておく。このように単語を記号によっ
て登録しておくことにより、前記入力手段によって入力
された第一言語を前記形態素解析手段によって正確に単
語に分割することができ、以後の前記構文解析手段によ
る構文解析、及び前記翻訳生成手段による前記第二言語
への翻訳生成を的確に実行して正確な翻訳結果を得るこ
とができる。
【0007】また、請求項2に記載の機械翻訳装置は、
前記記憶手段に登録された連続性のある文字列を含む単
語を検索する検索手段と、前記記号に置き換えられた連
続性のある文字列を記憶する文字列記憶手段とを備えた
ことを特徴とする。従って、入力文の中に連続性のある
文字列を含む単語が出現した場合に、前記記憶手段に登
録された単語を前記検索手段によって検索することによ
り、例えば、「10勝」が、「10」と「勝」に切れて
しまったり、「10勝する」が、「10」と「勝する」
に切れて「勝する」が未知語(辞書に登録がない単語)
となるようなことがないようにする。また、予め定めら
れた記号に置き換えられた連続性のある文字列の情報を
前記文字列記憶手段に記憶することによって、その文字
列を翻訳結果に反映させることができる。
前記記憶手段に登録された連続性のある文字列を含む単
語を検索する検索手段と、前記記号に置き換えられた連
続性のある文字列を記憶する文字列記憶手段とを備えた
ことを特徴とする。従って、入力文の中に連続性のある
文字列を含む単語が出現した場合に、前記記憶手段に登
録された単語を前記検索手段によって検索することによ
り、例えば、「10勝」が、「10」と「勝」に切れて
しまったり、「10勝する」が、「10」と「勝する」
に切れて「勝する」が未知語(辞書に登録がない単語)
となるようなことがないようにする。また、予め定めら
れた記号に置き換えられた連続性のある文字列の情報を
前記文字列記憶手段に記憶することによって、その文字
列を翻訳結果に反映させることができる。
【0008】また、請求項3に記載の機械翻訳装置は、
前記構文解析手段が、前記記憶手段等に登録された情報
に基づいて、連続性のある文字列を含む翻訳に必要な情
報をツリー構造に反映させるツリー構造変換手段を備え
ることを特徴とするものである。従って、前記形態素解
析手段によって得られた単語を句にまとめ上げたり、主
語や目的語等の係り先を決める等して、入力文をその内
部構造であるツリー構造に変換することがでる。このよ
うに、ツリー構造に変換しておくことにより、最終的
に、正しい翻訳結果を得ることができる。
前記構文解析手段が、前記記憶手段等に登録された情報
に基づいて、連続性のある文字列を含む翻訳に必要な情
報をツリー構造に反映させるツリー構造変換手段を備え
ることを特徴とするものである。従って、前記形態素解
析手段によって得られた単語を句にまとめ上げたり、主
語や目的語等の係り先を決める等して、入力文をその内
部構造であるツリー構造に変換することがでる。このよ
うに、ツリー構造に変換しておくことにより、最終的
に、正しい翻訳結果を得ることができる。
【0009】また、請求項4に記載の機械翻訳装置は、
前記記憶手段が、ユーザーによって使用される外部記憶
装置であることを特徴とするものである。従って、ユー
ザーによって使用される前記外部記憶装置に、連続性の
ある文字列を含む単語を予め定められた記号によって記
憶しておけば、これを、機械翻訳する度に有効に使用す
ることができる。
前記記憶手段が、ユーザーによって使用される外部記憶
装置であることを特徴とするものである。従って、ユー
ザーによって使用される前記外部記憶装置に、連続性の
ある文字列を含む単語を予め定められた記号によって記
憶しておけば、これを、機械翻訳する度に有効に使用す
ることができる。
【0010】また、請求項5に記載の機械翻訳装置は、
前記翻訳生成手段によって生成された第二言語の翻訳文
を出力する出力手段をさらに備えたことを特徴とするも
のである。従って、前記翻訳生成手段によって生成され
た第二言語の翻訳文を前記出力手段によって出力するこ
とにより、翻訳した第二言語を直ちに確認することがで
き、一連の翻訳処理を効率的に実施することができる。
前記翻訳生成手段によって生成された第二言語の翻訳文
を出力する出力手段をさらに備えたことを特徴とするも
のである。従って、前記翻訳生成手段によって生成され
た第二言語の翻訳文を前記出力手段によって出力するこ
とにより、翻訳した第二言語を直ちに確認することがで
き、一連の翻訳処理を効率的に実施することができる。
【0011】また、請求項6に記載の機械翻訳処理プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、入力手段によって入力された第一言語を単語に分割
するための形態素解析プログラムと、前記形態素解析プ
ログラムによって分割された第一言語の単語の係り受け
等を解析するための構文解析プログラムと、前記構文解
析プログラムによって解析された第一言語について翻訳
辞書を参照しながら目的の第二言語に翻訳するための翻
訳生成プログラムとを記録したものを対象として、特
に、連続性のある文字列を含む単語を予め定められた記
号によって記憶手段に登録することができる登録プログ
ラムを備えたことを特徴とするものである。
グラムを記録したコンピュータ読み取り可能な記録媒体
は、入力手段によって入力された第一言語を単語に分割
するための形態素解析プログラムと、前記形態素解析プ
ログラムによって分割された第一言語の単語の係り受け
等を解析するための構文解析プログラムと、前記構文解
析プログラムによって解析された第一言語について翻訳
辞書を参照しながら目的の第二言語に翻訳するための翻
訳生成プログラムとを記録したものを対象として、特
に、連続性のある文字列を含む単語を予め定められた記
号によって記憶手段に登録することができる登録プログ
ラムを備えたことを特徴とするものである。
【0012】従って、前記記録媒体を用いてプログラム
を実行することにより、前記登録プログラムによって、
連続性のある文字列を含む単語を予め定められた記号に
よって記憶手段に登録することができる。そして、この
ように単語を記号によって登録しておくことにより、前
記入力手段により入力された第一言語を形態素解析によ
って正確に単語に分割することができ、以後の前記構文
解析、及び前記第二言語への翻訳生成を的確に実行して
正確な翻訳結果を得ることができる。
を実行することにより、前記登録プログラムによって、
連続性のある文字列を含む単語を予め定められた記号に
よって記憶手段に登録することができる。そして、この
ように単語を記号によって登録しておくことにより、前
記入力手段により入力された第一言語を形態素解析によ
って正確に単語に分割することができ、以後の前記構文
解析、及び前記第二言語への翻訳生成を的確に実行して
正確な翻訳結果を得ることができる。
【0013】また、請求項7に記載の機械翻訳処理プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、前記記憶手段に登録された連続性のある文字列を含
む単語を検索する検索プログラムと、前記記号に置き換
えられた連続性のある文字列を記憶する文字列記憶プロ
グラムとを備えたことを特徴とするものである。従っ
て、その記録媒体を用いてプログラムを実行することに
より、入力文の中に連続性のある文字列を含む単語が出
現した場合に、前記記憶手段に登録された単語を的確に
検索することができる。また、予め定められた記号に置
き換えられた連続性のある文字列の情報を記憶しておく
ことにより、その文字列を翻訳結果に反映させることが
できる。
グラムを記録したコンピュータ読み取り可能な記録媒体
は、前記記憶手段に登録された連続性のある文字列を含
む単語を検索する検索プログラムと、前記記号に置き換
えられた連続性のある文字列を記憶する文字列記憶プロ
グラムとを備えたことを特徴とするものである。従っ
て、その記録媒体を用いてプログラムを実行することに
より、入力文の中に連続性のある文字列を含む単語が出
現した場合に、前記記憶手段に登録された単語を的確に
検索することができる。また、予め定められた記号に置
き換えられた連続性のある文字列の情報を記憶しておく
ことにより、その文字列を翻訳結果に反映させることが
できる。
【0014】また、請求項8に記載の機械翻訳処理プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、前記構文解析プログラムが、前記記憶手段等に登録
された情報に基づいて、連続性のある文字列を含む翻訳
に必要な情報をツリー構造に反映させるツリー構造変換
プログラムを備えることを特徴とするものである。従っ
て、その記録媒体を用いてプログラムを実行することに
より、形態素解析によって得られた単語を句にまとめ上
げたり、主語や目的語等の係り先を決める等して、入力
文をその内部構造であるツリー構造に変換することがで
きる。このように、ツリー構造に変換しておくことによ
り、最終的に、正しい翻訳結果を得ることができる。
グラムを記録したコンピュータ読み取り可能な記録媒体
は、前記構文解析プログラムが、前記記憶手段等に登録
された情報に基づいて、連続性のある文字列を含む翻訳
に必要な情報をツリー構造に反映させるツリー構造変換
プログラムを備えることを特徴とするものである。従っ
て、その記録媒体を用いてプログラムを実行することに
より、形態素解析によって得られた単語を句にまとめ上
げたり、主語や目的語等の係り先を決める等して、入力
文をその内部構造であるツリー構造に変換することがで
きる。このように、ツリー構造に変換しておくことによ
り、最終的に、正しい翻訳結果を得ることができる。
【0015】
【発明の実施の形態】以下に、本発明の機械翻訳装置及
び機械翻訳処理プログラムを記録したコンピュータ読み
取り可能な記録媒体を具体化した実施の形態について、
第一言語を日本語、第二言語を英語とした場合を例にと
って説明する。
び機械翻訳処理プログラムを記録したコンピュータ読み
取り可能な記録媒体を具体化した実施の形態について、
第一言語を日本語、第二言語を英語とした場合を例にと
って説明する。
【0016】さらに、連続性のある文字列として、ここ
では数字を例に挙げて説明するが、連続性のある文字列
であれば数字に限らず、例えば、アルファベット等でも
構わない。
では数字を例に挙げて説明するが、連続性のある文字列
であれば数字に限らず、例えば、アルファベット等でも
構わない。
【0017】本実施の形態の機械翻訳装置の構成を図1
に示す。この図に示すように、キーボード等からなる日
本語を入力するための入力部10と、CRT(陰極線
管)に表示したり、プリンタから印刷するための出力手
段としての出力部20は、装置全体を制御するための中
央処理装置であるCPU30に接続されている。
に示す。この図に示すように、キーボード等からなる日
本語を入力するための入力部10と、CRT(陰極線
管)に表示したり、プリンタから印刷するための出力手
段としての出力部20は、装置全体を制御するための中
央処理装置であるCPU30に接続されている。
【0018】RAM40はCPU30に接続され、入力
された日本語文を記憶するための入力バッファ領域41
と、翻訳結果の英語文を記憶するための出力バッファ領
域42に分かれている。
された日本語文を記憶するための入力バッファ領域41
と、翻訳結果の英語文を記憶するための出力バッファ領
域42に分かれている。
【0019】プログラムや辞書等を格納するROM50
は、CPU30と接続され、その中には、図4のフロー
チャートで示すプログラムが記憶されており、日本語文
を英語文に翻訳する翻訳プログラム51と、翻訳プログ
ラム51によって翻訳を実行する際に参照される翻訳辞
書57とが格納されている。翻訳プログラム51は、日
本語文を形態素解析するための形態素解析部52と、日
本語文の係り受け等の解析をする構文解析部53と、解
析された日本語文を英語の構造に変換する構文変換部5
4と、変換された英語の構造から英語を生成する構文生
成部55と、語尾変化等の調整を行う形態素生成部56
とに分かれている。
は、CPU30と接続され、その中には、図4のフロー
チャートで示すプログラムが記憶されており、日本語文
を英語文に翻訳する翻訳プログラム51と、翻訳プログ
ラム51によって翻訳を実行する際に参照される翻訳辞
書57とが格納されている。翻訳プログラム51は、日
本語文を形態素解析するための形態素解析部52と、日
本語文の係り受け等の解析をする構文解析部53と、解
析された日本語文を英語の構造に変換する構文変換部5
4と、変換された英語の構造から英語を生成する構文生
成部55と、語尾変化等の調整を行う形態素生成部56
とに分かれている。
【0020】CPU30には、外部記憶装置(HDD)
60が接続されており、ユーザーが任意に作成するユー
ザー辞書61が格納されている。
60が接続されており、ユーザーが任意に作成するユー
ザー辞書61が格納されている。
【0021】図4は、本実施の形態の動作を示すフロー
チャートであり、一般的な翻訳の処理の流れを説明して
いる。
チャートであり、一般的な翻訳の処理の流れを説明して
いる。
【0022】先ず、ステップ1(以下、S1と略称す
る。他のステップも同様)において、キーボード等から
日本語文を入力する。入力された日本語は翻訳にかける
ために入力バッファ領域41に記憶される(S2)。こ
こに記憶された入力文は形態素解析部52において翻訳
辞書57とユーザー辞書61を参照して該当する単語が
あるか否かを調べる形態素解析の処理が行われる(S
3)。通常、形態素解析ではユーザー辞書があれば翻訳
辞書に優先して検索される。一般的に、与えられた文の
構造を把握するためには、先ず、文を単語の並びとして
認識し、各単語を品詞等の属性に対応づける処理が必要
である。英語等では文が単語に分かち書きされるので単
語と単語の境界を認定する必要はないが、日本語や中国
語では通常分かち書きはされないので、単語の境界を認
定する必要がある。そして、文の中に出現した単語が活
用変化や語尾変化をしている場合には、その活用形を認
識して、原形に戻す操作も必要である。単語の並びには
一定の規則があり、入力された文字列をこの規則に従っ
て翻訳辞書57やユーザー辞書61等の辞書を使用しな
がら分割していく処理が「形態素解析」である。
る。他のステップも同様)において、キーボード等から
日本語文を入力する。入力された日本語は翻訳にかける
ために入力バッファ領域41に記憶される(S2)。こ
こに記憶された入力文は形態素解析部52において翻訳
辞書57とユーザー辞書61を参照して該当する単語が
あるか否かを調べる形態素解析の処理が行われる(S
3)。通常、形態素解析ではユーザー辞書があれば翻訳
辞書に優先して検索される。一般的に、与えられた文の
構造を把握するためには、先ず、文を単語の並びとして
認識し、各単語を品詞等の属性に対応づける処理が必要
である。英語等では文が単語に分かち書きされるので単
語と単語の境界を認定する必要はないが、日本語や中国
語では通常分かち書きはされないので、単語の境界を認
定する必要がある。そして、文の中に出現した単語が活
用変化や語尾変化をしている場合には、その活用形を認
識して、原形に戻す操作も必要である。単語の並びには
一定の規則があり、入力された文字列をこの規則に従っ
て翻訳辞書57やユーザー辞書61等の辞書を使用しな
がら分割していく処理が「形態素解析」である。
【0023】本実施の形態の機械翻訳装置、及び機械翻
訳処理プログラム記録したコンピュータ読み取り可能な
記録媒体は、形態素解析における単語認定の方式とし
て、一致する候補の内、最長のものを優先させる「最長
一致法」を採用している。この方法によると、辞書の日
本語見出しとして登録可能な最大文字数分の文字列を文
頭から切り出し、それを検索キーワードとしてユーザー
辞書61及び翻訳辞書57を検索しに行く。そこで検索
されない場合は最大文字数より1文字少ない文字数分の
文字列を文頭から切り出し、それを検索キーワードにし
て検索する。もし、該当する単語が検索されれば、その
単語を確定して、次の文字列から再度最大文字数分を切
り出して検索を続ける。候補の中で一致するものがあれ
ば最長のものが検索される。例えば「理事国」は「理
事」という名詞と「国」という名詞に形態素解析される
が、もし「理事国」という名詞があればその文字数の方
が多いのでこの名詞が引けることになる。
訳処理プログラム記録したコンピュータ読み取り可能な
記録媒体は、形態素解析における単語認定の方式とし
て、一致する候補の内、最長のものを優先させる「最長
一致法」を採用している。この方法によると、辞書の日
本語見出しとして登録可能な最大文字数分の文字列を文
頭から切り出し、それを検索キーワードとしてユーザー
辞書61及び翻訳辞書57を検索しに行く。そこで検索
されない場合は最大文字数より1文字少ない文字数分の
文字列を文頭から切り出し、それを検索キーワードにし
て検索する。もし、該当する単語が検索されれば、その
単語を確定して、次の文字列から再度最大文字数分を切
り出して検索を続ける。候補の中で一致するものがあれ
ば最長のものが検索される。例えば「理事国」は「理
事」という名詞と「国」という名詞に形態素解析される
が、もし「理事国」という名詞があればその文字数の方
が多いのでこの名詞が引けることになる。
【0024】形態素解析では、ユーザー辞書があれば、
この辞書が優先的に検索される(S4)。そのユーザー
辞書の中に該当する単語があるか否かを調べ(S5)、
ユーザー辞書61に該当する単語がない場合は(S5:
Noの場合)、装置に予め搭載された翻訳辞書57を検
索する(S6)。翻訳辞書57にも該当する単語がない
場合(S7:Noの場合)、未知語(辞書に登録がない
単語)として処理される(S8)。ユーザー辞書61に
該当する単語があるか(S5:Yesの場合)、あるい
は、ユーザー辞書61に該当する単語がなくても翻訳辞
書57に該当する単語がある場合は(S7:Yesの場
合)、次に、前後の単語の接続チェックを行う(S
9)。その接続チェックは、英語の場合、冠詞の後ろに
は’and’等の接続詞は来ないが、名詞や’the
beautiful girl’のように形容詞は来て
もよいというように、前後の単語の接続をチェックする
ものである。
この辞書が優先的に検索される(S4)。そのユーザー
辞書の中に該当する単語があるか否かを調べ(S5)、
ユーザー辞書61に該当する単語がない場合は(S5:
Noの場合)、装置に予め搭載された翻訳辞書57を検
索する(S6)。翻訳辞書57にも該当する単語がない
場合(S7:Noの場合)、未知語(辞書に登録がない
単語)として処理される(S8)。ユーザー辞書61に
該当する単語があるか(S5:Yesの場合)、あるい
は、ユーザー辞書61に該当する単語がなくても翻訳辞
書57に該当する単語がある場合は(S7:Yesの場
合)、次に、前後の単語の接続チェックを行う(S
9)。その接続チェックは、英語の場合、冠詞の後ろに
は’and’等の接続詞は来ないが、名詞や’the
beautiful girl’のように形容詞は来て
もよいというように、前後の単語の接続をチェックする
ものである。
【0025】そして、ユーザー辞書から該当する単語が
検索されても接続チェックではじかれると(S10:N
oの場合)、未知語として処理される(S8)。接続も
よければ(S10:Yesの場合)、入力文は単語に分
割されて、検索した単語の辞書情報が各々の単語に付与
される(S11)。以上で形態素解析処理が終了する
(S12)。次に、構文解析部53において、形態素解
析によって得られた単語の並びを解析プログラムによっ
て解析して、単語を句にまとめ上げたり、主語や目的語
等の係り先を決める等して、入力文の内部構造であるツ
リー構造を作る(S13)。
検索されても接続チェックではじかれると(S10:N
oの場合)、未知語として処理される(S8)。接続も
よければ(S10:Yesの場合)、入力文は単語に分
割されて、検索した単語の辞書情報が各々の単語に付与
される(S11)。以上で形態素解析処理が終了する
(S12)。次に、構文解析部53において、形態素解
析によって得られた単語の並びを解析プログラムによっ
て解析して、単語を句にまとめ上げたり、主語や目的語
等の係り先を決める等して、入力文の内部構造であるツ
リー構造を作る(S13)。
【0026】次に、S14において、構文の変換を行
う。ここでは、解析された結果に基づいて、ユーザー辞
書61及び翻訳辞書57を参照しながら、各々の単語に
英語の訳を当てると同時に、翻訳対象言語である英語の
ツリー構造に変換する。また、英文に反映させるため
に、解析で付与された日本語入力文の情報を英語の情報
に付け替える。次に、S15において構文生成を行う。
ここでは、翻訳辞書57を参照しながら、構文変換部で
作られたツリー構造をもとにして、正しい英文を出すた
めのツリー構造にする。また、英語の情報も各々のノー
ドに付与する。次に、S16において、形態素生成を行
って語尾変化等の調整をして、S17で翻訳結果の英文
をCRTに表示したり、プリンタから出力する。
う。ここでは、解析された結果に基づいて、ユーザー辞
書61及び翻訳辞書57を参照しながら、各々の単語に
英語の訳を当てると同時に、翻訳対象言語である英語の
ツリー構造に変換する。また、英文に反映させるため
に、解析で付与された日本語入力文の情報を英語の情報
に付け替える。次に、S15において構文生成を行う。
ここでは、翻訳辞書57を参照しながら、構文変換部で
作られたツリー構造をもとにして、正しい英文を出すた
めのツリー構造にする。また、英語の情報も各々のノー
ドに付与する。次に、S16において、形態素生成を行
って語尾変化等の調整をして、S17で翻訳結果の英文
をCRTに表示したり、プリンタから出力する。
【0027】尚、本実施の形態の機械翻訳装置は、連続
性のある文字列を含む単語を予め定められた記号を用い
てユーザー辞書に登録するプログラムと、前記ユーザー
辞書に登録された連続性のある文字列を含む単語を検索
するプログラムと、記号に置き換えられた連続性のある
文字列を記憶するプログラムと、連続性のある文字列を
含む訳語の情報をツリー構造に反映させるプログラムが
ROMに予め格納されたものであるが、本発明は必ずし
もこれに限定されるものではない。例えば、これらのプ
ログラムをフロッピーディスクやCD−ROM等に格納
したものを読み取り装置により読み取ってインストール
させて動作させることができる。また、有線もしくは無
線回線を使用して外部情報処理装置からプログラムを読
み込んで動作させることができる。この場合、前記フロ
ッピーディスクやCD−ROMや、外部情報処理装置の
当該プログラムを格納したメモリが本発明の記録媒体を
構成することになる。
性のある文字列を含む単語を予め定められた記号を用い
てユーザー辞書に登録するプログラムと、前記ユーザー
辞書に登録された連続性のある文字列を含む単語を検索
するプログラムと、記号に置き換えられた連続性のある
文字列を記憶するプログラムと、連続性のある文字列を
含む訳語の情報をツリー構造に反映させるプログラムが
ROMに予め格納されたものであるが、本発明は必ずし
もこれに限定されるものではない。例えば、これらのプ
ログラムをフロッピーディスクやCD−ROM等に格納
したものを読み取り装置により読み取ってインストール
させて動作させることができる。また、有線もしくは無
線回線を使用して外部情報処理装置からプログラムを読
み込んで動作させることができる。この場合、前記フロ
ッピーディスクやCD−ROMや、外部情報処理装置の
当該プログラムを格納したメモリが本発明の記録媒体を
構成することになる。
【0028】図2には「*勝」を見出し語としたサ変名
詞のユーザー辞書61の辞書情報が示されている。「1
0勝」のように、見出し語の中に数字を含む単語は、数
字の部分をシステムで予め決められた記号に置き換えて
登録する。ここでは「*」を使用している。従って、見
出し語の日本語は「*勝」であり、訳語の英語は「*w
inning game」である。主名詞というのは訳
語の英語の中で複数形の時に複数変化する名詞のことで
ある。この主名詞を「game」にすることによって、
それが可算名詞(数えられる名詞のことで、複数形の場
合には複数変化する単語)であれば、「games」の
ように複数変化する。意味情報には見出し語の日本語の
意味を入力する。「〜勝」は動作などの行為を表すので
「行為」が選ばれている。
詞のユーザー辞書61の辞書情報が示されている。「1
0勝」のように、見出し語の中に数字を含む単語は、数
字の部分をシステムで予め決められた記号に置き換えて
登録する。ここでは「*」を使用している。従って、見
出し語の日本語は「*勝」であり、訳語の英語は「*w
inning game」である。主名詞というのは訳
語の英語の中で複数形の時に複数変化する名詞のことで
ある。この主名詞を「game」にすることによって、
それが可算名詞(数えられる名詞のことで、複数形の場
合には複数変化する単語)であれば、「games」の
ように複数変化する。意味情報には見出し語の日本語の
意味を入力する。「〜勝」は動作などの行為を表すので
「行為」が選ばれている。
【0029】この意味情報には、この他に「人・組織」
「動植物」「部品」等のカテゴリーがある。英語の冠詞
には、訳語の英語にいつも決まった冠詞が付く場合の冠
詞を指定する。「〜 winning game」につ
いては、特に冠詞を必要としないので「付けない」が選
択されている。可算・不可算には、訳語の名詞が数えら
れるか、数えられないかを指定する。「〜 winni
ng game」については、数えることができて、複
数形の場合は「〜 winning games」にな
るので「可算」が選択されている。複数形のタイプに
は、訳語の英語が規則活用するか、不規則活用するかを
指定する。この場合は「s」が付くだけなので規則活用
であり、「規則」が選ばれている。例えば、「man」
の複数形は「men」になるように不規則活用する単語
であれば「不規則」を選択して、複数形のところに「m
en」と入れる。
「動植物」「部品」等のカテゴリーがある。英語の冠詞
には、訳語の英語にいつも決まった冠詞が付く場合の冠
詞を指定する。「〜 winning game」につ
いては、特に冠詞を必要としないので「付けない」が選
択されている。可算・不可算には、訳語の名詞が数えら
れるか、数えられないかを指定する。「〜 winni
ng game」については、数えることができて、複
数形の場合は「〜 winning games」にな
るので「可算」が選択されている。複数形のタイプに
は、訳語の英語が規則活用するか、不規則活用するかを
指定する。この場合は「s」が付くだけなので規則活用
であり、「規則」が選ばれている。例えば、「man」
の複数形は「men」になるように不規則活用する単語
であれば「不規則」を選択して、複数形のところに「m
en」と入れる。
【0030】図3には、「*勝する」を見出し語とした
サ変動詞の、ユーザー辞書61の辞書情報が示されてい
る。「10勝する」のように、見出し語の中に数字を含
む単語は、「*勝」と同様に数字の部分をシステムで予
め設定された記号に置き換えて登録する。ここでは
「*」を使用している。従って、見出し語の日本語は
「*勝する」である。例えば、「10勝する」について
は、「win 10 games」と出したいので、本
実施の形態の機械翻訳装置では、訳語の英語の部分には
動詞の部分だけを入力する。従って、「win」が入力
されている。主動詞というのは訳語の英語の中で活用変
化する動詞のことである。3人称単数の時には「win
s」、過去形及び過去分詞の時には「won」、現在分
詞形の時には「winning」と活用変化するので、
訳語の英語と同様に「win」が入力されている。
サ変動詞の、ユーザー辞書61の辞書情報が示されてい
る。「10勝する」のように、見出し語の中に数字を含
む単語は、「*勝」と同様に数字の部分をシステムで予
め設定された記号に置き換えて登録する。ここでは
「*」を使用している。従って、見出し語の日本語は
「*勝する」である。例えば、「10勝する」について
は、「win 10 games」と出したいので、本
実施の形態の機械翻訳装置では、訳語の英語の部分には
動詞の部分だけを入力する。従って、「win」が入力
されている。主動詞というのは訳語の英語の中で活用変
化する動詞のことである。3人称単数の時には「win
s」、過去形及び過去分詞の時には「won」、現在分
詞形の時には「winning」と活用変化するので、
訳語の英語と同様に「win」が入力されている。
【0031】また、修飾語の部分には主動詞を修飾する
単語を入れる。例えば、「考慮する」という単語につい
ては、「take 〜 into considera
tion」と訳したいので、英語の部分には「tak
e」と入れて、修飾語に「into consider
ation」と入れればよい。「*勝する」の場合は、
何も入れない。目的語には訳語の英語が目的語として取
る単語を入れる。「*勝する」の場合は、「〜 gam
es」を「win」の目的語に取りたいので、数字が入
るところを「*」に置き換えて「* game」と入力
されている。主名詞、英語の冠詞、可算・不可算、複数
形のタイプ、複数形はそれぞれ「*勝」で説明したとお
りである。
単語を入れる。例えば、「考慮する」という単語につい
ては、「take 〜 into considera
tion」と訳したいので、英語の部分には「tak
e」と入れて、修飾語に「into consider
ation」と入れればよい。「*勝する」の場合は、
何も入れない。目的語には訳語の英語が目的語として取
る単語を入れる。「*勝する」の場合は、「〜 gam
es」を「win」の目的語に取りたいので、数字が入
るところを「*」に置き換えて「* game」と入力
されている。主名詞、英語の冠詞、可算・不可算、複数
形のタイプ、複数形はそれぞれ「*勝」で説明したとお
りである。
【0032】以下に、以上のように構成された機械翻訳
装置による翻訳動作について説明する。
装置による翻訳動作について説明する。
【0033】先ず、キーボード等から日本語文が入力さ
れると、翻訳辞書57及びユーザー辞書61を参照して
形態素解析部52で単語に分割し、それぞれの単語につ
いて参照した辞書情報を付与する。その後、構文解析部
53で単語を句にまとめ上げ、翻訳辞書57及びユーザ
ー辞書61を参照しながら係り受け解析等の解析を行
い、入力文をツリー構造に変換すると同時に、翻訳に必
要な情報をツリーの節(以下ノードと呼ぶ)に付ける。
ツリー構造というのは、入力文の内部構造を木の形に置
き換えたものであり、通常、機械翻訳ではツリー構造を
別のツリー構造に書き換えたり、ノードに種々の情報を
付けることによって処理するように作られている。
れると、翻訳辞書57及びユーザー辞書61を参照して
形態素解析部52で単語に分割し、それぞれの単語につ
いて参照した辞書情報を付与する。その後、構文解析部
53で単語を句にまとめ上げ、翻訳辞書57及びユーザ
ー辞書61を参照しながら係り受け解析等の解析を行
い、入力文をツリー構造に変換すると同時に、翻訳に必
要な情報をツリーの節(以下ノードと呼ぶ)に付ける。
ツリー構造というのは、入力文の内部構造を木の形に置
き換えたものであり、通常、機械翻訳ではツリー構造を
別のツリー構造に書き換えたり、ノードに種々の情報を
付けることによって処理するように作られている。
【0034】次に、構文変換部54で、構文解析部で解
析された結果に基づいて、翻訳辞書57及びユーザー辞
書61を参照しながら各々の単語には訳を付与し、英語
を生成するためのツリー構造に変換する。構文生成部5
5では構文変換部で作ったツリー構造を、翻訳辞書57
を参照しながら英文生成規則に基づいて英語として正し
いツリー構造にし、英語を生成するために必要な情報を
ツリーのノードに付与する。最後に形態素生成部56に
おいて、語尾変化等の調整を行い、翻訳結果の英語文を
生成してCRT等に表示するか、プリンターから印刷す
る。
析された結果に基づいて、翻訳辞書57及びユーザー辞
書61を参照しながら各々の単語には訳を付与し、英語
を生成するためのツリー構造に変換する。構文生成部5
5では構文変換部で作ったツリー構造を、翻訳辞書57
を参照しながら英文生成規則に基づいて英語として正し
いツリー構造にし、英語を生成するために必要な情報を
ツリーのノードに付与する。最後に形態素生成部56に
おいて、語尾変化等の調整を行い、翻訳結果の英語文を
生成してCRT等に表示するか、プリンターから印刷す
る。
【0035】図5は本実施の形態の形態素解析処理を示
すフローチャートであり、特に「10勝」という入力文
を形態素解析するプロセスについて説明している。本実
施の形態の「*」を使ったユーザー辞書では「*」に入
る数字の文字列は10文字までという制限になってい
る。また、「*」の数字以外の部分は10文字までとい
う制限を設けている。勿論、この制限はどのようにでも
変更可能である。
すフローチャートであり、特に「10勝」という入力文
を形態素解析するプロセスについて説明している。本実
施の形態の「*」を使ったユーザー辞書では「*」に入
る数字の文字列は10文字までという制限になってい
る。また、「*」の数字以外の部分は10文字までとい
う制限を設けている。勿論、この制限はどのようにでも
変更可能である。
【0036】そこで、先ず、S20において、合計20
文字分の文字列を切り出し位置から切り出す。最初は文
頭から20文字切り出すことになる。その文字列を検索
キーワードにして、ユーザー辞書61を検索する(S2
1)。そして、その中に該当する単語があるか否かを調
べる(S22)。該当する単語がなければ(S22:N
oの場合)、次に、翻訳辞書57を検索する(S2
3)。そこで、該当する単語があるか否かを調べ(S2
4)、該当する単語が見つからなければ(S24:No
の場合)、切り出し位置はそのままで、20文字から1
文字減らした19文字を文頭から切り出してそれを検索
キーワードにセットする(S25)。その検索キーワー
ドによって辞書検索を継続するが、該当する単語が見つ
からず、文字を1文字ずつ減らしていった結果、もう検
索キーワードにセットする文字列がなくなった場合(S
26:Noの場合)、今度は切り出し位置を一文字右に
ずらして、そこを新たな切り出し位置として20文字分
を切り出して検索キーワードにセットする(S27)。
そして、辞書検索を続ける。
文字分の文字列を切り出し位置から切り出す。最初は文
頭から20文字切り出すことになる。その文字列を検索
キーワードにして、ユーザー辞書61を検索する(S2
1)。そして、その中に該当する単語があるか否かを調
べる(S22)。該当する単語がなければ(S22:N
oの場合)、次に、翻訳辞書57を検索する(S2
3)。そこで、該当する単語があるか否かを調べ(S2
4)、該当する単語が見つからなければ(S24:No
の場合)、切り出し位置はそのままで、20文字から1
文字減らした19文字を文頭から切り出してそれを検索
キーワードにセットする(S25)。その検索キーワー
ドによって辞書検索を継続するが、該当する単語が見つ
からず、文字を1文字ずつ減らしていった結果、もう検
索キーワードにセットする文字列がなくなった場合(S
26:Noの場合)、今度は切り出し位置を一文字右に
ずらして、そこを新たな切り出し位置として20文字分
を切り出して検索キーワードにセットする(S27)。
そして、辞書検索を続ける。
【0037】切り出し位置がまだ文末でなければ(S2
8:Noの場合)、引き続き続けられる。切り出し位置
が文末に来た場合(S28:Yesの場合)、全ての入
力文字列が形態素解析されたので未知語処理をして(S
29)、辞書に登録がなかった文字列を未知語としてま
とめる。「10勝」の場合、切り出し位置は文頭のまま
で、そこから3文字分が切り出されてユーザー辞書57
が検索されると、「*勝」が引けてくる。このように、
ユーザー辞書57に該当する単語が見つかった場合に接
続チェックも良ければそこでその単語が確定される(S
30)。
8:Noの場合)、引き続き続けられる。切り出し位置
が文末に来た場合(S28:Yesの場合)、全ての入
力文字列が形態素解析されたので未知語処理をして(S
29)、辞書に登録がなかった文字列を未知語としてま
とめる。「10勝」の場合、切り出し位置は文頭のまま
で、そこから3文字分が切り出されてユーザー辞書57
が検索されると、「*勝」が引けてくる。このように、
ユーザー辞書57に該当する単語が見つかった場合に接
続チェックも良ければそこでその単語が確定される(S
30)。
【0038】次に、このように確定された単語が「*」
で始まるか否かを調べ(S31)、「*」で始まれば
(S31:Yesの場合)、「*」に当たる数字を
「*」(アスタリスク)情報として記憶する(S3
2)。「10勝」の場合は「10」が「*」情報に記憶
される。日本語見出しが「*」から始まらなければ(S
31:Noの場合)、確定された単語の次に切り出し位
置を変更して、そこから再度20文字を切り出して(S
33)、検索を継続する。また、翻訳辞書57に該当す
る単語が見つかった場合に、接続チェックも良ければ同
様にその単語を確定する(S34)。
で始まるか否かを調べ(S31)、「*」で始まれば
(S31:Yesの場合)、「*」に当たる数字を
「*」(アスタリスク)情報として記憶する(S3
2)。「10勝」の場合は「10」が「*」情報に記憶
される。日本語見出しが「*」から始まらなければ(S
31:Noの場合)、確定された単語の次に切り出し位
置を変更して、そこから再度20文字を切り出して(S
33)、検索を継続する。また、翻訳辞書57に該当す
る単語が見つかった場合に、接続チェックも良ければ同
様にその単語を確定する(S34)。
【0039】そして、確定された単語の次に切り出し位
置を変更して、そこから20文字を切り出して(S3
3)、検索を継続する。以上のように、形態素解析され
た結果はツリー構造に展開されて、各単語には検索して
きた辞書の辞書情報が付与される。
置を変更して、そこから20文字を切り出して(S3
3)、検索を継続する。以上のように、形態素解析され
た結果はツリー構造に展開されて、各単語には検索して
きた辞書の辞書情報が付与される。
【0040】図6は、「10勝」という入力文が形態素
解析部52で形態素解析されツリー構造に展開された結
果を表している。入力文が「10勝」であるので、ro
otの下に「10勝」という名詞が下がっている。ro
otというのは、入力文のツリー構造の最上部にいつも
付く仮のノードである。このノードは、内部的なツリー
構造を下げるのに形態素解析から形態素生成までの翻訳
プロセスを通して必要なものであるが、最終的に英文を
得るときには落とされる。rootのノードに下がる
「10勝」の名詞には、ユーザー辞書61の「*勝」の
情報が全て付与されている。つまり、日本語見出しとし
て「*勝」、日本語品詞として「名詞」、意味情報とし
て「行為」、訳の英語として「* winning g
ame」、その内の主名詞が「game」、可算・不可
算の情報として英語のタイプに可算を表す「C」、英語
の冠詞として「付けない」を表す「NONE」、複数形
が規則活用することを表すものとして「活用」に「RE
GULAR」である。
解析部52で形態素解析されツリー構造に展開された結
果を表している。入力文が「10勝」であるので、ro
otの下に「10勝」という名詞が下がっている。ro
otというのは、入力文のツリー構造の最上部にいつも
付く仮のノードである。このノードは、内部的なツリー
構造を下げるのに形態素解析から形態素生成までの翻訳
プロセスを通して必要なものであるが、最終的に英文を
得るときには落とされる。rootのノードに下がる
「10勝」の名詞には、ユーザー辞書61の「*勝」の
情報が全て付与されている。つまり、日本語見出しとし
て「*勝」、日本語品詞として「名詞」、意味情報とし
て「行為」、訳の英語として「* winning g
ame」、その内の主名詞が「game」、可算・不可
算の情報として英語のタイプに可算を表す「C」、英語
の冠詞として「付けない」を表す「NONE」、複数形
が規則活用することを表すものとして「活用」に「RE
GULAR」である。
【0041】この他に、日本語IDとして「9」が付与
されている。日本語IDというのは、見出し語の品詞細
分類として付けられた識別番号である。ユーザー辞書で
検索された単語には品詞に応じて特有の日本語IDが付
与される。ここでは仮に名詞には「9」を、動詞で自動
詞なら「11」を、動詞で他動詞なら「12」を付与す
ることとする。「*勝」は名詞であるので「9」が付
く。ユーザー辞書では日本語見出しとは異なる品詞の英
語を訳として当てることは許されていないので、「*
勝」が名詞なら、「* winning game」も
名詞であり、英語品詞に「名詞」が入っている。さら
に、ユーザー辞書では日本語IDと同じ英語IDが入る
ことになっているので、英語IDにも「9」が入ってい
る。装置に予め搭載されている翻訳辞書57では日本語
見出しの品詞と異なる品詞の英語を訳として当てること
が許されているので、その英語に応じた品詞と細分類の
IDが付く。さらに、「*情報」として「10」が付与
されている。
されている。日本語IDというのは、見出し語の品詞細
分類として付けられた識別番号である。ユーザー辞書で
検索された単語には品詞に応じて特有の日本語IDが付
与される。ここでは仮に名詞には「9」を、動詞で自動
詞なら「11」を、動詞で他動詞なら「12」を付与す
ることとする。「*勝」は名詞であるので「9」が付
く。ユーザー辞書では日本語見出しとは異なる品詞の英
語を訳として当てることは許されていないので、「*
勝」が名詞なら、「* winning game」も
名詞であり、英語品詞に「名詞」が入っている。さら
に、ユーザー辞書では日本語IDと同じ英語IDが入る
ことになっているので、英語IDにも「9」が入ってい
る。装置に予め搭載されている翻訳辞書57では日本語
見出しの品詞と異なる品詞の英語を訳として当てること
が許されているので、その英語に応じた品詞と細分類の
IDが付く。さらに、「*情報」として「10」が付与
されている。
【0042】図7は、本実施の形態の構文解析処理を示
すフローチャートであって、特に、「10勝」という入
力文を構文解析するためのプロセスについて説明してい
る。先ず、日本語見出しが「*」で始まるノードが形態
素解析結果のツリー構造にあるか否かを調べる(S5
0)。ある単語の日本語見出しが「*」で始まっていた
場合(S50:Yesの場合)、次に、日本語品詞が名
詞か否かを調べる(S51)。名詞であれば(S51:
Yesの場合)、英語の「*」を「*」情報に記憶され
ている数字に置き換える(S52)。また、「*」情報
に記憶されている数字が「0」か「1」かを調べ(S5
3)、「0」か「1」であれば(S53:Yesの場
合)、数情報として単数を示す「S」を付与する(S5
4)。「0」でも「1」でもなければ(S53:Noの
場合)、数情報として複数を示す「P」を付与する(S
55)。
すフローチャートであって、特に、「10勝」という入
力文を構文解析するためのプロセスについて説明してい
る。先ず、日本語見出しが「*」で始まるノードが形態
素解析結果のツリー構造にあるか否かを調べる(S5
0)。ある単語の日本語見出しが「*」で始まっていた
場合(S50:Yesの場合)、次に、日本語品詞が名
詞か否かを調べる(S51)。名詞であれば(S51:
Yesの場合)、英語の「*」を「*」情報に記憶され
ている数字に置き換える(S52)。また、「*」情報
に記憶されている数字が「0」か「1」かを調べ(S5
3)、「0」か「1」であれば(S53:Yesの場
合)、数情報として単数を示す「S」を付与する(S5
4)。「0」でも「1」でもなければ(S53:Noの
場合)、数情報として複数を示す「P」を付与する(S
55)。
【0043】そして、「10勝」という名詞は日本語見
出しが「*」で始まっており、日本語品詞が名詞である
ため、英語の「* winning game」の
「*」が「*」情報に記憶されている「10」に置き換
えられて「10 winninggame」となる。さ
らに、「*」情報に記憶されている数字が「10」であ
るので、数情報として、「P」が付与される。この後、
係り受け等の構文解析処理が行われる(S61)。「1
0勝」の場合は、これだけで1文を構成しているので、
その他の構文解析処理は行われない。
出しが「*」で始まっており、日本語品詞が名詞である
ため、英語の「* winning game」の
「*」が「*」情報に記憶されている「10」に置き換
えられて「10 winninggame」となる。さ
らに、「*」情報に記憶されている数字が「10」であ
るので、数情報として、「P」が付与される。この後、
係り受け等の構文解析処理が行われる(S61)。「1
0勝」の場合は、これだけで1文を構成しているので、
その他の構文解析処理は行われない。
【0044】また、「*」で始まる日本語見出しが名詞
でなければ(S51:Noの場合)、次に目的語が
「*」で始まるか否かを調べる(S56)。目的語も
「*」で始まっていなければ(S56:Noの場合)、
「*」を用いたユーザー辞書が検索された場合の構文解
析部での一連の処理は不要になるのでS61のその他の
構文解析処理に移る。目的語が「*」で始まっていれば
(S56:Yesの場合)、目的語の「*」を「*」情
報に記憶されている数字に置き換える(S57)。
でなければ(S51:Noの場合)、次に目的語が
「*」で始まるか否かを調べる(S56)。目的語も
「*」で始まっていなければ(S56:Noの場合)、
「*」を用いたユーザー辞書が検索された場合の構文解
析部での一連の処理は不要になるのでS61のその他の
構文解析処理に移る。目的語が「*」で始まっていれば
(S56:Yesの場合)、目的語の「*」を「*」情
報に記憶されている数字に置き換える(S57)。
【0045】そして、「*」情報に記憶されている数字
が「0」か「1」かを調べ(S58)、「0」か「1」
であれば(S58:Yesの場合)、目的語の数情報と
して単数を示す「S」を付与する(S59)。「0」で
も「1」でもなければ(S58:Noの場合)、数情報
として複数を示す「P」を付与する(S60)。「10
勝する」という動詞は日本語見出しが「*」で始まって
おり、日本語品詞が動詞であって、目的語が「* ga
me」のように「*」で始まっているので、その「*」
が「*」情報に記憶されている「10」に置き換えられ
て「10 game」となる。さらに、「*」情報に記
憶されている数字が「10」であるので、数情報とし
て、「P」が付与される。この後、係り受け等の構文解
析処理が行われる(S61)。
が「0」か「1」かを調べ(S58)、「0」か「1」
であれば(S58:Yesの場合)、目的語の数情報と
して単数を示す「S」を付与する(S59)。「0」で
も「1」でもなければ(S58:Noの場合)、数情報
として複数を示す「P」を付与する(S60)。「10
勝する」という動詞は日本語見出しが「*」で始まって
おり、日本語品詞が動詞であって、目的語が「* ga
me」のように「*」で始まっているので、その「*」
が「*」情報に記憶されている「10」に置き換えられ
て「10 game」となる。さらに、「*」情報に記
憶されている数字が「10」であるので、数情報とし
て、「P」が付与される。この後、係り受け等の構文解
析処理が行われる(S61)。
【0046】図8は、「10勝」という入力文が構文解
析部53で構文解析されツリー構造に展開された結果を
表している。入力文が「10勝」だけであるので、図6
の形態素解析結果のツリー構造と同じであるが、「10
勝」の名詞に付与された情報が異なる。つまり、英語の
「* winning game」は「10 winn
ing game」になり、数情報として、複数を表す
「P」が付与されている。このツリー構造が構文変換部
54に渡されて構文変換処理され、その後に、構文生成
部55に渡されて構文生成処理される。その後、形態素
生成部56において、語尾変化等の活用変化の処理が行
われるが、ここで「10勝」は数情報として「P」が付
与されており、主名詞の英語である「game」が可算
で、活用がREGULAR(規則活用)であるため、英
語の「10 winning game」は「10 w
inning games」となる。また、英語の冠詞
は付けないと指定されているので冠詞は生成されず、
「10勝」は「10 winning games」が
翻訳結果として出力される。
析部53で構文解析されツリー構造に展開された結果を
表している。入力文が「10勝」だけであるので、図6
の形態素解析結果のツリー構造と同じであるが、「10
勝」の名詞に付与された情報が異なる。つまり、英語の
「* winning game」は「10 winn
ing game」になり、数情報として、複数を表す
「P」が付与されている。このツリー構造が構文変換部
54に渡されて構文変換処理され、その後に、構文生成
部55に渡されて構文生成処理される。その後、形態素
生成部56において、語尾変化等の活用変化の処理が行
われるが、ここで「10勝」は数情報として「P」が付
与されており、主名詞の英語である「game」が可算
で、活用がREGULAR(規則活用)であるため、英
語の「10 winning game」は「10 w
inning games」となる。また、英語の冠詞
は付けないと指定されているので冠詞は生成されず、
「10勝」は「10 winning games」が
翻訳結果として出力される。
【0047】次に「彼は10勝した」を入力文とした翻
訳プロセスについて図4を使って説明する。
訳プロセスについて図4を使って説明する。
【0048】先ず、S1において、「彼は10勝した」
が入力されると、次に、S2において、入力バッファ領
域41にその入力文が記憶される。そして、形態素解析
部52に送られて(S3)、ユーザー辞書61を検索し
(S4)、そこで、「*勝する」という単語が引け、翻
訳辞書を検索して(S6)、「彼」という名詞が検索さ
れる。前後の単語との接続もよければ、それらの単語が
確定され、それぞれの単語に辞書情報が付与される(S
11)。図9は入力文の「彼は10勝した」が形態素解
析された結果のツリー構造を表している。この図が示す
ように「彼は10勝した」は、「彼」(名詞)と、
「は」(助詞)と、「*勝する」(動詞)と、「た」
(助動詞)に分割される。
が入力されると、次に、S2において、入力バッファ領
域41にその入力文が記憶される。そして、形態素解析
部52に送られて(S3)、ユーザー辞書61を検索し
(S4)、そこで、「*勝する」という単語が引け、翻
訳辞書を検索して(S6)、「彼」という名詞が検索さ
れる。前後の単語との接続もよければ、それらの単語が
確定され、それぞれの単語に辞書情報が付与される(S
11)。図9は入力文の「彼は10勝した」が形態素解
析された結果のツリー構造を表している。この図が示す
ように「彼は10勝した」は、「彼」(名詞)と、
「は」(助詞)と、「*勝する」(動詞)と、「た」
(助動詞)に分割される。
【0049】そして、それぞれの単語については、この
図9に示すような辞書情報が付与される。「10勝し
た」から「*勝する」という単語が確定される方法は、
「10勝」という入力文の形態素解析のところで説明し
た通りである。「10勝する」は、「*勝する」が引け
て日本語見出しが「*勝する」になり、日本語品詞は
「動詞」、日本語IDには「12」が付いている。目的
語に何かの値が入っている場合は他動詞であるという意
味なので、他動詞の日本語IDである「12」が付与さ
れる。また、訳の英語には「win」が、英語の品詞に
は「動詞」が、英語のIDには日本語IDと同じ「1
2」が、主動詞には「win」、主動詞の活用のタイプ
は不規則活用なので「IRREGULAR」、過去形と
過去分詞形には「won」、現在分詞形には「子音重
ね」、目的語には「* game」、目的語の主名詞に
は「game」、目的語の冠詞には「付けない」を表す
「NONE」が、目的語のタイプには可算名詞であるこ
とを示す「C」が、目的語の活用には規則活用であるこ
とを示す「REGULAR」が付いている。
図9に示すような辞書情報が付与される。「10勝し
た」から「*勝する」という単語が確定される方法は、
「10勝」という入力文の形態素解析のところで説明し
た通りである。「10勝する」は、「*勝する」が引け
て日本語見出しが「*勝する」になり、日本語品詞は
「動詞」、日本語IDには「12」が付いている。目的
語に何かの値が入っている場合は他動詞であるという意
味なので、他動詞の日本語IDである「12」が付与さ
れる。また、訳の英語には「win」が、英語の品詞に
は「動詞」が、英語のIDには日本語IDと同じ「1
2」が、主動詞には「win」、主動詞の活用のタイプ
は不規則活用なので「IRREGULAR」、過去形と
過去分詞形には「won」、現在分詞形には「子音重
ね」、目的語には「* game」、目的語の主名詞に
は「game」、目的語の冠詞には「付けない」を表す
「NONE」が、目的語のタイプには可算名詞であるこ
とを示す「C」が、目的語の活用には規則活用であるこ
とを示す「REGULAR」が付いている。
【0050】さらに「10勝」の形態素解析の処理で説
明したように、「10勝する」から「*勝する」が確定
した時に*には「10」が入ることが認識されて、
「*」情報として「10」が入る。また、「*」情報に
記憶されている数字が「0」でも「1」でもないので、
数情報として複数形を示す「P」が付く。
明したように、「10勝する」から「*勝する」が確定
した時に*には「10」が入ることが認識されて、
「*」情報として「10」が入る。また、「*」情報に
記憶されている数字が「0」でも「1」でもないので、
数情報として複数形を示す「P」が付く。
【0051】形態素解析が終了すると(S12)、その
後、S13において構文解析が行われる。構文解析では
単語を句にまとめ、主語や目的語等の係り受けを決める
等の構文解析を行う。
後、S13において構文解析が行われる。構文解析では
単語を句にまとめ、主語や目的語等の係り受けを決める
等の構文解析を行う。
【0052】図10は、構文解析された結果のツリー構
造を示している。入力文が「彼は10勝した」であるの
で、rootの下には入力文の主動詞となる「10勝す
る」が下がっている。
造を示している。入力文が「彼は10勝した」であるの
で、rootの下には入力文の主動詞となる「10勝す
る」が下がっている。
【0053】主動詞の「10勝する」には、日本語見出
し「*勝する」と、日本語品詞「動詞」と、日本語ID
「12」と、訳語の英語として「win」と、英語品詞
「動詞」と、英語ID「12」と、’win’が不規則
活用することを示す「IRREGULAR」と、過去形
の「won」、過去分詞形の「won」、現在分詞形が
「子音重ね」という辞書情報の他に、構文解析処理で付
けられた入力文の主動詞の時制(この場合は「過去」)
が付いている。主動詞の下には「10勝する」の主語に
解析された「彼」のノードと、目的語のノードが下がっ
ている。
し「*勝する」と、日本語品詞「動詞」と、日本語ID
「12」と、訳語の英語として「win」と、英語品詞
「動詞」と、英語ID「12」と、’win’が不規則
活用することを示す「IRREGULAR」と、過去形
の「won」、過去分詞形の「won」、現在分詞形が
「子音重ね」という辞書情報の他に、構文解析処理で付
けられた入力文の主動詞の時制(この場合は「過去」)
が付いている。主動詞の下には「10勝する」の主語に
解析された「彼」のノードと、目的語のノードが下がっ
ている。
【0054】また、「彼」には、日本語見出しとして
「彼」、日本語品詞として「名詞」、日本語IDとして
「1」の他に、「10勝する」に対して「彼」が主語で
あることを示す日本語の格に「主語」、助詞が「は」だ
ったことを示す日本語助詞に「は」が付与されている。
「10勝する」は自動詞であるので、目的語を持つユー
ザー辞書が引けてこなければ主動詞の下には主語のノー
ドしか下がらない。しかし、形態素解析によって訳に目
的語を持つ「*勝する」が引けてきて、その目的語が
「* game」であるので、構文解析で主語の他に目
的語のノードも生成する。
「彼」、日本語品詞として「名詞」、日本語IDとして
「1」の他に、「10勝する」に対して「彼」が主語で
あることを示す日本語の格に「主語」、助詞が「は」だ
ったことを示す日本語助詞に「は」が付与されている。
「10勝する」は自動詞であるので、目的語を持つユー
ザー辞書が引けてこなければ主動詞の下には主語のノー
ドしか下がらない。しかし、形態素解析によって訳に目
的語を持つ「*勝する」が引けてきて、その目的語が
「* game」であるので、構文解析で主語の他に目
的語のノードも生成する。
【0055】この目的語のノードは、もともと日本語の
入力文にあったものではないので日本語見出しは付いて
いないことを示す「NIL」が付与されている。形態素
解析で「*」の部分に「10」が入ることが分かるの
で、訳の英語の「* game」が「10 game」
に書き換えられる。英語の品詞には「名詞」、英語ID
には名詞であるので「9」、「* game」の主名詞
は「game」であるので、主名詞として「gam
e」、「game」は可算名詞であるので英語のタイプ
として「C」、その英語には冠詞は付かないことを示す
「NONE」、「game」は規則活用であるので活用
には「REGULAR」を付けている。また、*には
「10」が入ることを示す*情報「10」と、*情報の
中の数字が0でも1でもないので数情報として複数形を
表す「P」が付いている。さらに日本語の格として「目
的語」が入っている。
入力文にあったものではないので日本語見出しは付いて
いないことを示す「NIL」が付与されている。形態素
解析で「*」の部分に「10」が入ることが分かるの
で、訳の英語の「* game」が「10 game」
に書き換えられる。英語の品詞には「名詞」、英語ID
には名詞であるので「9」、「* game」の主名詞
は「game」であるので、主名詞として「gam
e」、「game」は可算名詞であるので英語のタイプ
として「C」、その英語には冠詞は付かないことを示す
「NONE」、「game」は規則活用であるので活用
には「REGULAR」を付けている。また、*には
「10」が入ることを示す*情報「10」と、*情報の
中の数字が0でも1でもないので数情報として複数形を
表す「P」が付いている。さらに日本語の格として「目
的語」が入っている。
【0056】このように、構文解析されたツリー構造は
構文変換部54に渡されてS14において構文変換処理
される。ここで、主動詞の日本語IDが11か12であ
った場合にユーザー辞書の動詞が検索されたことを示す
ものであるので、構文変換部54において日本語IDが
11なら主語のノードに、日本語IDが12なら主語と
目的語のノードにそれぞれ英語の格を付ける。つまり、
主語であれば英語の格に「主語」を、目的語であれば英
語の格に「目的語」を入れる。また、入力文の日本語の
時制が「過去」であったが、英語でも過去形で出したい
ので、英語の時制にも「過去」を入れる。
構文変換部54に渡されてS14において構文変換処理
される。ここで、主動詞の日本語IDが11か12であ
った場合にユーザー辞書の動詞が検索されたことを示す
ものであるので、構文変換部54において日本語IDが
11なら主語のノードに、日本語IDが12なら主語と
目的語のノードにそれぞれ英語の格を付ける。つまり、
主語であれば英語の格に「主語」を、目的語であれば英
語の格に「目的語」を入れる。また、入力文の日本語の
時制が「過去」であったが、英語でも過去形で出したい
ので、英語の時制にも「過去」を入れる。
【0057】その後に、S15において構文生成処理さ
れる。さらに、形態素生成部56において語尾変化等の
形態素生成処理が行われるが(S16)、ここで、目的
語の「10 game」には数情報として「P」が付与
されており、主名詞の英語である「game」が可算
で、活用がREGULAR(規則活用)であるため、英
語の「10 game」は「10 games」とな
る。また、英語の冠詞は付けないと指定されているので
冠詞は生成されず、さらに英語の時制も「過去」になっ
ているので過去形の「won」が選ばれて「He wo
n 10 games.」が翻訳結果として出力される
(S17)。
れる。さらに、形態素生成部56において語尾変化等の
形態素生成処理が行われるが(S16)、ここで、目的
語の「10 game」には数情報として「P」が付与
されており、主名詞の英語である「game」が可算
で、活用がREGULAR(規則活用)であるため、英
語の「10 game」は「10 games」とな
る。また、英語の冠詞は付けないと指定されているので
冠詞は生成されず、さらに英語の時制も「過去」になっ
ているので過去形の「won」が選ばれて「He wo
n 10 games.」が翻訳結果として出力される
(S17)。
【0058】
【発明の効果】以上説明したことから明らかなように、
本発明の請求項1に記載の機械翻訳装置によれば、数字
のような連続性のある文字列は見出しを変えて個別に記
憶手段に登録しなくても、予め定められた記号を用いて
一つの見出し語で登録することができる。
本発明の請求項1に記載の機械翻訳装置によれば、数字
のような連続性のある文字列は見出しを変えて個別に記
憶手段に登録しなくても、予め定められた記号を用いて
一つの見出し語で登録することができる。
【0059】また、請求項2に記載の機械翻訳装置によ
れば、入力文の中に数字のような連続性のある文字列を
含む単語が出現した場合に、形態素解析において前記記
憶手段の見出し語を正しく検索することができる。
れば、入力文の中に数字のような連続性のある文字列を
含む単語が出現した場合に、形態素解析において前記記
憶手段の見出し語を正しく検索することができる。
【0060】また、請求項3に記載の機械翻訳装置によ
れば、どんな文字列がその記号に置き換わっているのか
を記憶し、その情報によって、例えば、数字であれば単
数形か複数形かの情報を付与し、さらに目的語の場合は
目的語のノードにそれらの情報を付与するというよう
に、数字のような連続性のある文字列を含む訳語の情報
をツリー構造に正しく展開することができる。これによ
って、入力文にどんな文字列が入ってきても正しい翻訳
結果を出すことができる。
れば、どんな文字列がその記号に置き換わっているのか
を記憶し、その情報によって、例えば、数字であれば単
数形か複数形かの情報を付与し、さらに目的語の場合は
目的語のノードにそれらの情報を付与するというよう
に、数字のような連続性のある文字列を含む訳語の情報
をツリー構造に正しく展開することができる。これによ
って、入力文にどんな文字列が入ってきても正しい翻訳
結果を出すことができる。
【0061】また、請求項4に記載の機械翻訳装置によ
れば、ユーザーによって使用される前記外部記憶装置
に、連続性のある文字列を含む単語を予め定められた記
号によって記憶しておけば、これを機械翻訳する度に有
効に使用することができる。
れば、ユーザーによって使用される前記外部記憶装置
に、連続性のある文字列を含む単語を予め定められた記
号によって記憶しておけば、これを機械翻訳する度に有
効に使用することができる。
【0062】また、請求項5に記載の機械翻訳装置によ
れば、前記翻訳生成手段によって生成された第二言語の
翻訳文を前記出力手段によって出力することにより、翻
訳した第二言語を直ちに確認することができ、一連の翻
訳処理を効率的に実施することができる。
れば、前記翻訳生成手段によって生成された第二言語の
翻訳文を前記出力手段によって出力することにより、翻
訳した第二言語を直ちに確認することができ、一連の翻
訳処理を効率的に実施することができる。
【0063】また、請求項6に記載の機械翻訳処理プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
によれば、各プログラムをフロッピーディスクやCD−
ROM等の様々な媒体の中から機械翻訳装置に適した記
録媒体に記録して提供することができる。そして、この
記録媒体を用いてプログラムを実行することにより、数
字のような連続性のある文字列は見出しを変えて個別に
記憶手段に登録しておかなくても、予め定められた記号
を用いて一つの見出し語で登録することができる。
グラムを記録したコンピュータ読み取り可能な記録媒体
によれば、各プログラムをフロッピーディスクやCD−
ROM等の様々な媒体の中から機械翻訳装置に適した記
録媒体に記録して提供することができる。そして、この
記録媒体を用いてプログラムを実行することにより、数
字のような連続性のある文字列は見出しを変えて個別に
記憶手段に登録しておかなくても、予め定められた記号
を用いて一つの見出し語で登録することができる。
【0064】また、請求項7に記載の機械翻訳処理プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
によれば、各プログラムをフロッピーディスクやCD−
ROM等の様々な媒体の中から機械翻訳装置に適した記
録媒体に記録して提供することができる。そして、この
記録媒体を用いてプログラムを実行することにより、入
力文の中に数字のような連続性のある文字列を含む単語
が出現した場合に、形態素解析において前記記憶手段の
見出し語を正しく検索することができる。
グラムを記録したコンピュータ読み取り可能な記録媒体
によれば、各プログラムをフロッピーディスクやCD−
ROM等の様々な媒体の中から機械翻訳装置に適した記
録媒体に記録して提供することができる。そして、この
記録媒体を用いてプログラムを実行することにより、入
力文の中に数字のような連続性のある文字列を含む単語
が出現した場合に、形態素解析において前記記憶手段の
見出し語を正しく検索することができる。
【0065】さらに、請求項8に記載の機械翻訳処理プ
ログラムを記録したコンピュータ読み取り可能な記録媒
体によれば、各プログラムをフロッピーディスクやCD
−ROM等の様々な媒体の中から機械翻訳装置に適した
記録媒体に記録して提供することができる。そして、こ
の記録媒体を用いてプログラムを実行することにより、
どんな文字列がその記号に置き換わっているのかを記憶
し、その情報によって、例えば、数字であれば単数形か
複数形かの情報を付与し、さらに、目的語の場合は目的
語のノードにそれらの情報を付与するというように、数
字のような連続性のある文字列を含む訳語の情報をツリ
ー構造に正しく展開することができる。これによって、
入力文にどんな文字列が入ってきても正しい翻訳結果を
出すことができる。
ログラムを記録したコンピュータ読み取り可能な記録媒
体によれば、各プログラムをフロッピーディスクやCD
−ROM等の様々な媒体の中から機械翻訳装置に適した
記録媒体に記録して提供することができる。そして、こ
の記録媒体を用いてプログラムを実行することにより、
どんな文字列がその記号に置き換わっているのかを記憶
し、その情報によって、例えば、数字であれば単数形か
複数形かの情報を付与し、さらに、目的語の場合は目的
語のノードにそれらの情報を付与するというように、数
字のような連続性のある文字列を含む訳語の情報をツリ
ー構造に正しく展開することができる。これによって、
入力文にどんな文字列が入ってきても正しい翻訳結果を
出すことができる。
【図1】本発明の実施の形態の機械翻訳装置の構成を示
すブロック図である。
すブロック図である。
【図2】「*勝」のユーザー辞書の辞書情報を示す図で
ある。
ある。
【図3】「*勝する」のユーザー辞書の辞書情報を示す
図である。
図である。
【図4】本実施の形態の翻訳処理を示すフローチャート
である。
である。
【図5】本実施の形態の形態素解析処理を示すフローチ
ャートである。
ャートである。
【図6】形態素解析の処理が終わった後のツリー構造を
示す図である。
示す図である。
【図7】本実施の形態の構文解析処理を示すフローチャ
ートである。
ートである。
【図8】構文解析の処理が終わった後のツリー構造を示
す図である。
す図である。
【図9】形態素解析の処理が終わった後のツリー構造を
示す図である。
示す図である。
【図10】構文解析の処理が終わった後のツリー構造を
示す図である。
示す図である。
10 入力部 20 出力部 30 CPU 50 ROM 52 形態素解析部 53 構文解析部 54 構文変換部 55 構文生成部 56 形態素生成部 57 翻訳辞書 61 ユーザー辞書
Claims (8)
- 【請求項1】 入力手段によって入力された第一言語を
単語に分割するための形態素解析手段と、前記形態素解
析手段によって分割された第一言語の単語の係り受け等
を解析するための構文解析手段と、前記構文解析手段に
よって解析された第一言語について翻訳辞書を参照しな
がら目的の第二言語に翻訳するための翻訳生成手段とを
備えた機械翻訳装置において、 連続性のある文字列を含む単語を予め定められた記号に
よって記憶手段に登録することができる登録手段を備え
たことを特徴とする機械翻訳装置。 - 【請求項2】 前記記憶手段に登録された連続性のある
文字列を含む単語を検索する検索手段と、 前記記号に置き換えられた連続性のある文字列を記憶す
る文字列記憶手段とを備えたことを特徴とする請求項1
に記載の機械翻訳装置。 - 【請求項3】 前記構文解析手段は、前記記憶手段等に
登録された情報に基づいて、連続性のある文字列を含む
翻訳に必要な情報をツリー構造に反映させるツリー構造
変換手段を備えることを特徴とする請求項1もしくは2
に記載の機械翻訳装置。 - 【請求項4】 前記記憶手段は、ユーザーによって使用
される外部記憶装置であることを特徴とする請求項1乃
至3のいずれかに記載の機械翻訳装置。 - 【請求項5】 前記翻訳生成手段によって生成された第
二言語の翻訳文を出力する出力手段を備えたことを特徴
とする請求項1乃至4のいずれかに記載の機械翻訳装
置。 - 【請求項6】 入力手段によって入力された第一言語を
単語に分割するための形態素解析プログラムと、前記形
態素解析プログラムによって分割された第一言語の単語
の係り受け等を解析するための構文解析プログラムと、
前記構文解析プログラムによって解析された第一言語に
ついて翻訳辞書を参照しながら目的の第二言語に翻訳す
るための翻訳生成プログラムとを記録したコンピュータ
読み取り可能な記録媒体において、 連続性のある文字列を含む単語を予め定められた記号に
よって記憶手段に登録することができる登録プログラム
を備えたことを特徴とする機械翻訳処理プログラムを記
録したコンピュータ読み取り可能な記録媒体。 - 【請求項7】 前記記憶手段に登録された連続性のある
文字列を含む単語を検索する検索プログラムと、 前記記号に置き換えられた連続性のある文字列を記憶す
る文字列記憶プログラムとを備えたことを特徴とする請
求項6に記載の機械翻訳処理プログラムを記録したコン
ピュータ読み取り可能な記録媒体。 - 【請求項8】 前記構文解析プログラムは、前記記憶手
段等に登録された情報に基づいて、連続性のある文字列
を含む翻訳に必要な情報をツリー構造に反映させるツリ
ー構造変換プログラムを備えることを特徴とする請求項
6もしくは7に記載の機械翻訳処理プログラムを記録し
たコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9180907A JPH1125093A (ja) | 1997-07-07 | 1997-07-07 | 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9180907A JPH1125093A (ja) | 1997-07-07 | 1997-07-07 | 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH1125093A true JPH1125093A (ja) | 1999-01-29 |
Family
ID=16091393
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9180907A Pending JPH1125093A (ja) | 1997-07-07 | 1997-07-07 | 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH1125093A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7127259B2 (en) | 2000-10-11 | 2006-10-24 | Mitsubishi Denki Kabushiki Kaisha | Intermediation computer system |
| JP2014238772A (ja) * | 2013-06-10 | 2014-12-18 | 株式会社バイトルヒクマ | 翻訳システム及び翻訳プログラム、並びに翻訳方法 |
| JP2014238808A (ja) * | 2013-11-22 | 2014-12-18 | 株式会社バイトルヒクマ | 翻訳システム及び翻訳プログラム、並びに翻訳方法 |
-
1997
- 1997-07-07 JP JP9180907A patent/JPH1125093A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7127259B2 (en) | 2000-10-11 | 2006-10-24 | Mitsubishi Denki Kabushiki Kaisha | Intermediation computer system |
| US7164924B2 (en) | 2000-10-11 | 2007-01-16 | Mitsubishi Denki Kabushiki Kaisha | Location-based information and acquisition method |
| JP2014238772A (ja) * | 2013-06-10 | 2014-12-18 | 株式会社バイトルヒクマ | 翻訳システム及び翻訳プログラム、並びに翻訳方法 |
| JP2014238808A (ja) * | 2013-11-22 | 2014-12-18 | 株式会社バイトルヒクマ | 翻訳システム及び翻訳プログラム、並びに翻訳方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5010486A (en) | System and method for language translation including replacement of a selected word for future translation | |
| EP0907924B1 (en) | Identification of words in japanese text by a computer system | |
| US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
| EP0645720A2 (en) | Dictionary creation supporting system | |
| JPH096787A (ja) | 訳振り機械翻訳装置 | |
| JPH083815B2 (ja) | 自然言語の共起関係辞書保守方法 | |
| JPH05314166A (ja) | 電子化辞書および辞書検索装置 | |
| JP3765799B2 (ja) | 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム | |
| US5625553A (en) | Machine translation system generating a default translation | |
| US7409334B1 (en) | Method of text processing | |
| US4860206A (en) | Translation system allowing user designation of postpositional words | |
| JP2007206975A (ja) | 言語情報変換装置及びその方法 | |
| US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
| JPH1125093A (ja) | 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JP3937741B2 (ja) | 文書の標準化 | |
| KR100487716B1 (ko) | 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치 | |
| KR100327115B1 (ko) | 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법 | |
| KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
| JP4843596B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
| JP2632806B2 (ja) | 言語解析装置 | |
| KR100322743B1 (ko) | 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치 | |
| JPH11282839A (ja) | 機械翻訳システム及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JPH0561902A (ja) | 機械翻訳システム | |
| JP3680489B2 (ja) | 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JP4103311B2 (ja) | 自然言語処理装置及び方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040511 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041019 |