JPH1125093A

JPH1125093A - 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JPH1125093A
Application number: JP9180907A
Authority: JP
Inventors: Seiko Yoshiyama; 盛子吉山
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 1997-07-07
Filing date: 1997-07-07
Publication date: 1999-01-29

Abstract

(57)【要約】【課題】連続性のある文字列を含む入力文を正しく翻
訳することができる機械翻訳装置及び記録媒体を提供す
ることである。【解決手段】入力部１０から入力された文を形態素解
析部５２でユーザー辞書６１と翻訳辞書５７とを参照し
て単語に分割し、構文解析部５３で係り受け等の解析を
して、入力文のツリー構造を作る。これを構文変換部５
４で翻訳対象文の構造に変換し、これをもとに構文生成
部５５で翻訳対象文のツリー構造を生成し、形態素生成
部５６で語形変化等の調整をして、出力部２０から翻訳
結果を出力する。前記ユーザー辞書６１で数字のような
連続性のある文字列を含む単語を決められた記号に置き
換えて登録し、その単語が検索されたらその記号に置き
換えられた文字列を記憶しておいて英語の訳を置き換え
る。さらに、その文字列が数字の場合は、単数、複数の
情報も記憶させて正しい翻訳を生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、第一言語を第二言
語に翻訳するための機械翻訳装置、及び機械翻訳処理プ
ログラムを記録したコンピュータ読み取り可能な記録媒
体に関するものである。

【０００２】

【従来の技術】従来の機械翻訳装置、及びその機械翻訳
装置を動作させるためのプログラムを記録した記録媒体
においては、例えば、「１０勝する」（サ変動詞）、
「１０勝」（サ変名詞）、「５連敗する」（サ変動
詞）、「５連敗」（サ変名詞）のような数字を含むサ変
動詞やサ変名詞は、所謂「定型文」として登録するか、
ユーザー辞書に個別に登録することによって対応してい
た。「定型文」に登録する場合は、数字の部分を「＊」
等の予め定められた記号に置き換えて登録するようにし
ている。従って、「＊勝する」を「ｗｉｎ＊ｇａｍ
ｅ」と登録すれば、「１勝する」は「ｗｉｎ１ｇａ
ｍｅ」のように翻訳される。また、ユーザー辞書におい
て、「１勝する」を見出し語にして、訳を「ｗｉｎ１
ｇａｍｅ」として登録すれば、「彼は１勝した」は、
「Ｈｅｗｏｎ１ｇａｍｅ．」と翻訳される。

【０００３】

【発明が解決しようとする課題】しかしながら、定型文
というのは、「形が決まった文」であって、入力文が登
録された形と同じ場合にだけ参照されるものである。そ
のため、「＊勝する」で登録された定型文は、入力文が
「１勝する」であれば引けるが、「１勝した」や「彼は
１勝する」だと引けてこない。また、＊の部分を実際の
入力文に現れた数字に置き換えるだけなので、「１０勝
する」は、正しくは「ｗｉｎ１０ｇａｍｅｓ」であ
るのに、「ｗｉｎ１０ｇａｍｅ」になってしまう。
これではいろいろなバリエーションを持つ入力文には到
底対応できない。また、ユーザー辞書に登録する場合で
も、「勝」や「勝する」の直前にはどんな数字が来ても
いいのであるから、それを全ての数字に対して個別に登
録するのは不可能である。もちろん、機械翻訳装置に予
め搭載される翻訳辞書もしくは翻訳プログラムで対応さ
れていれば、ユーザーが定型文に登録したり、ユーザー
辞書に登録する必要はない。しかし、数字等の連続性の
ある文字列を含む単語の中でユーザーが必要とする単語
全てが対応されているとは言い難い。

【０００４】本発明は上述した問題点を解決するために
なされたものであり、数字のように連続性のある文字列
を含む単語であって翻訳辞書に登録されていない単語を
ユーザー辞書に登録できるようにしたものであり、連続
性のある文字列をいちいち別個のユーザー辞書に登録す
るのではなく、一つの見出し語でどんな連続性のある文
字列が入ってきても対応可能にし、その辞書を検索し
て、訳語を正しく翻訳文に反映させることができる機械
翻訳装置及び、機械翻訳処理プログラムを記録したコン
ピュータ読み取り可能な記録媒体を提供することを目的
としている。

【０００５】

【課題を解決するための手段】この目的を達成するため
に、本発明の請求項１に記載の機械翻訳装置は、入力手
段によって入力された第一言語を単語に分割するための
形態素解析手段と、前記形態素解析手段によって分割さ
れた第一言語の単語の係り受け等を解析するための構文
解析手段と、前記構文解析手段によって解析された第一
言語について翻訳辞書を参照しながら目的の第二言語に
翻訳するための翻訳生成手段とを備えたものを対象とし
て、特に、連続性のある文字列を含む単語を予め定めら
れた記号によって記憶手段に登録することができる登録
手段を備えたことを特徴とするものである。

【０００６】従って、この発明によれば、前記登録手段
によって、連続性のある文字列を含む単語を予め定めら
れた記号によって記憶手段に登録することができる。例
えば、「１０勝」、「１０勝する」のような単語は、
「１０」の部分を記号化して一つの見出し語として前記
記憶手段に登録しておく。このように単語を記号によっ
て登録しておくことにより、前記入力手段によって入力
された第一言語を前記形態素解析手段によって正確に単
語に分割することができ、以後の前記構文解析手段によ
る構文解析、及び前記翻訳生成手段による前記第二言語
への翻訳生成を的確に実行して正確な翻訳結果を得るこ
とができる。

【０００７】また、請求項２に記載の機械翻訳装置は、
前記記憶手段に登録された連続性のある文字列を含む単
語を検索する検索手段と、前記記号に置き換えられた連
続性のある文字列を記憶する文字列記憶手段とを備えた
ことを特徴とする。従って、入力文の中に連続性のある
文字列を含む単語が出現した場合に、前記記憶手段に登
録された単語を前記検索手段によって検索することによ
り、例えば、「１０勝」が、「１０」と「勝」に切れて
しまったり、「１０勝する」が、「１０」と「勝する」
に切れて「勝する」が未知語（辞書に登録がない単語）
となるようなことがないようにする。また、予め定めら
れた記号に置き換えられた連続性のある文字列の情報を
前記文字列記憶手段に記憶することによって、その文字
列を翻訳結果に反映させることができる。

【０００８】また、請求項３に記載の機械翻訳装置は、
前記構文解析手段が、前記記憶手段等に登録された情報
に基づいて、連続性のある文字列を含む翻訳に必要な情
報をツリー構造に反映させるツリー構造変換手段を備え
ることを特徴とするものである。従って、前記形態素解
析手段によって得られた単語を句にまとめ上げたり、主
語や目的語等の係り先を決める等して、入力文をその内
部構造であるツリー構造に変換することがでる。このよ
うに、ツリー構造に変換しておくことにより、最終的
に、正しい翻訳結果を得ることができる。

【０００９】また、請求項４に記載の機械翻訳装置は、
前記記憶手段が、ユーザーによって使用される外部記憶
装置であることを特徴とするものである。従って、ユー
ザーによって使用される前記外部記憶装置に、連続性の
ある文字列を含む単語を予め定められた記号によって記
憶しておけば、これを、機械翻訳する度に有効に使用す
ることができる。

【００１０】また、請求項５に記載の機械翻訳装置は、
前記翻訳生成手段によって生成された第二言語の翻訳文
を出力する出力手段をさらに備えたことを特徴とするも
のである。従って、前記翻訳生成手段によって生成され
た第二言語の翻訳文を前記出力手段によって出力するこ
とにより、翻訳した第二言語を直ちに確認することがで
き、一連の翻訳処理を効率的に実施することができる。

【００１１】また、請求項６に記載の機械翻訳処理プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、入力手段によって入力された第一言語を単語に分割
するための形態素解析プログラムと、前記形態素解析プ
ログラムによって分割された第一言語の単語の係り受け
等を解析するための構文解析プログラムと、前記構文解
析プログラムによって解析された第一言語について翻訳
辞書を参照しながら目的の第二言語に翻訳するための翻
訳生成プログラムとを記録したものを対象として、特
に、連続性のある文字列を含む単語を予め定められた記
号によって記憶手段に登録することができる登録プログ
ラムを備えたことを特徴とするものである。

【００１２】従って、前記記録媒体を用いてプログラム
を実行することにより、前記登録プログラムによって、
連続性のある文字列を含む単語を予め定められた記号に
よって記憶手段に登録することができる。そして、この
ように単語を記号によって登録しておくことにより、前
記入力手段により入力された第一言語を形態素解析によ
って正確に単語に分割することができ、以後の前記構文
解析、及び前記第二言語への翻訳生成を的確に実行して
正確な翻訳結果を得ることができる。

【００１３】また、請求項７に記載の機械翻訳処理プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、前記記憶手段に登録された連続性のある文字列を含
む単語を検索する検索プログラムと、前記記号に置き換
えられた連続性のある文字列を記憶する文字列記憶プロ
グラムとを備えたことを特徴とするものである。従っ
て、その記録媒体を用いてプログラムを実行することに
より、入力文の中に連続性のある文字列を含む単語が出
現した場合に、前記記憶手段に登録された単語を的確に
検索することができる。また、予め定められた記号に置
き換えられた連続性のある文字列の情報を記憶しておく
ことにより、その文字列を翻訳結果に反映させることが
できる。

【００１４】また、請求項８に記載の機械翻訳処理プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
は、前記構文解析プログラムが、前記記憶手段等に登録
された情報に基づいて、連続性のある文字列を含む翻訳
に必要な情報をツリー構造に反映させるツリー構造変換
プログラムを備えることを特徴とするものである。従っ
て、その記録媒体を用いてプログラムを実行することに
より、形態素解析によって得られた単語を句にまとめ上
げたり、主語や目的語等の係り先を決める等して、入力
文をその内部構造であるツリー構造に変換することがで
きる。このように、ツリー構造に変換しておくことによ
り、最終的に、正しい翻訳結果を得ることができる。

【００１５】

【発明の実施の形態】以下に、本発明の機械翻訳装置及
び機械翻訳処理プログラムを記録したコンピュータ読み
取り可能な記録媒体を具体化した実施の形態について、
第一言語を日本語、第二言語を英語とした場合を例にと
って説明する。

【００１６】さらに、連続性のある文字列として、ここ
では数字を例に挙げて説明するが、連続性のある文字列
であれば数字に限らず、例えば、アルファベット等でも
構わない。

【００１７】本実施の形態の機械翻訳装置の構成を図１
に示す。この図に示すように、キーボード等からなる日
本語を入力するための入力部１０と、ＣＲＴ（陰極線
管）に表示したり、プリンタから印刷するための出力手
段としての出力部２０は、装置全体を制御するための中
央処理装置であるＣＰＵ３０に接続されている。

【００１８】ＲＡＭ４０はＣＰＵ３０に接続され、入力
された日本語文を記憶するための入力バッファ領域４１
と、翻訳結果の英語文を記憶するための出力バッファ領
域４２に分かれている。

【００１９】プログラムや辞書等を格納するＲＯＭ５０
は、ＣＰＵ３０と接続され、その中には、図４のフロー
チャートで示すプログラムが記憶されており、日本語文
を英語文に翻訳する翻訳プログラム５１と、翻訳プログ
ラム５１によって翻訳を実行する際に参照される翻訳辞
書５７とが格納されている。翻訳プログラム５１は、日
本語文を形態素解析するための形態素解析部５２と、日
本語文の係り受け等の解析をする構文解析部５３と、解
析された日本語文を英語の構造に変換する構文変換部５
４と、変換された英語の構造から英語を生成する構文生
成部５５と、語尾変化等の調整を行う形態素生成部５６
とに分かれている。

【００２０】ＣＰＵ３０には、外部記憶装置（ＨＤＤ）
６０が接続されており、ユーザーが任意に作成するユー
ザー辞書６１が格納されている。

【００２１】図４は、本実施の形態の動作を示すフロー
チャートであり、一般的な翻訳の処理の流れを説明して
いる。

【００２２】先ず、ステップ１（以下、Ｓ１と略称す
る。他のステップも同様）において、キーボード等から
日本語文を入力する。入力された日本語は翻訳にかける
ために入力バッファ領域４１に記憶される（Ｓ２）。こ
こに記憶された入力文は形態素解析部５２において翻訳
辞書５７とユーザー辞書６１を参照して該当する単語が
あるか否かを調べる形態素解析の処理が行われる（Ｓ
３）。通常、形態素解析ではユーザー辞書があれば翻訳
辞書に優先して検索される。一般的に、与えられた文の
構造を把握するためには、先ず、文を単語の並びとして
認識し、各単語を品詞等の属性に対応づける処理が必要
である。英語等では文が単語に分かち書きされるので単
語と単語の境界を認定する必要はないが、日本語や中国
語では通常分かち書きはされないので、単語の境界を認
定する必要がある。そして、文の中に出現した単語が活
用変化や語尾変化をしている場合には、その活用形を認
識して、原形に戻す操作も必要である。単語の並びには
一定の規則があり、入力された文字列をこの規則に従っ
て翻訳辞書５７やユーザー辞書６１等の辞書を使用しな
がら分割していく処理が「形態素解析」である。

【００２３】本実施の形態の機械翻訳装置、及び機械翻
訳処理プログラム記録したコンピュータ読み取り可能な
記録媒体は、形態素解析における単語認定の方式とし
て、一致する候補の内、最長のものを優先させる「最長
一致法」を採用している。この方法によると、辞書の日
本語見出しとして登録可能な最大文字数分の文字列を文
頭から切り出し、それを検索キーワードとしてユーザー
辞書６１及び翻訳辞書５７を検索しに行く。そこで検索
されない場合は最大文字数より１文字少ない文字数分の
文字列を文頭から切り出し、それを検索キーワードにし
て検索する。もし、該当する単語が検索されれば、その
単語を確定して、次の文字列から再度最大文字数分を切
り出して検索を続ける。候補の中で一致するものがあれ
ば最長のものが検索される。例えば「理事国」は「理
事」という名詞と「国」という名詞に形態素解析される
が、もし「理事国」という名詞があればその文字数の方
が多いのでこの名詞が引けることになる。

【００２４】形態素解析では、ユーザー辞書があれば、
この辞書が優先的に検索される（Ｓ４）。そのユーザー
辞書の中に該当する単語があるか否かを調べ（Ｓ５）、
ユーザー辞書６１に該当する単語がない場合は（Ｓ５：
Ｎｏの場合）、装置に予め搭載された翻訳辞書５７を検
索する（Ｓ６）。翻訳辞書５７にも該当する単語がない
場合（Ｓ７：Ｎｏの場合）、未知語（辞書に登録がない
単語）として処理される（Ｓ８）。ユーザー辞書６１に
該当する単語があるか（Ｓ５：Ｙｅｓの場合）、あるい
は、ユーザー辞書６１に該当する単語がなくても翻訳辞
書５７に該当する単語がある場合は（Ｓ７：Ｙｅｓの場
合）、次に、前後の単語の接続チェックを行う（Ｓ
９）。その接続チェックは、英語の場合、冠詞の後ろに
は’ａｎｄ’等の接続詞は来ないが、名詞や’ｔｈｅ
ｂｅａｕｔｉｆｕｌｇｉｒｌ’のように形容詞は来て
もよいというように、前後の単語の接続をチェックする
ものである。

【００２５】そして、ユーザー辞書から該当する単語が
検索されても接続チェックではじかれると（Ｓ１０：Ｎ
ｏの場合）、未知語として処理される（Ｓ８）。接続も
よければ（Ｓ１０：Ｙｅｓの場合）、入力文は単語に分
割されて、検索した単語の辞書情報が各々の単語に付与
される（Ｓ１１）。以上で形態素解析処理が終了する
（Ｓ１２）。次に、構文解析部５３において、形態素解
析によって得られた単語の並びを解析プログラムによっ
て解析して、単語を句にまとめ上げたり、主語や目的語
等の係り先を決める等して、入力文の内部構造であるツ
リー構造を作る（Ｓ１３）。

【００２６】次に、Ｓ１４において、構文の変換を行
う。ここでは、解析された結果に基づいて、ユーザー辞
書６１及び翻訳辞書５７を参照しながら、各々の単語に
英語の訳を当てると同時に、翻訳対象言語である英語の
ツリー構造に変換する。また、英文に反映させるため
に、解析で付与された日本語入力文の情報を英語の情報
に付け替える。次に、Ｓ１５において構文生成を行う。
ここでは、翻訳辞書５７を参照しながら、構文変換部で
作られたツリー構造をもとにして、正しい英文を出すた
めのツリー構造にする。また、英語の情報も各々のノー
ドに付与する。次に、Ｓ１６において、形態素生成を行
って語尾変化等の調整をして、Ｓ１７で翻訳結果の英文
をＣＲＴに表示したり、プリンタから出力する。

【００２７】尚、本実施の形態の機械翻訳装置は、連続
性のある文字列を含む単語を予め定められた記号を用い
てユーザー辞書に登録するプログラムと、前記ユーザー
辞書に登録された連続性のある文字列を含む単語を検索
するプログラムと、記号に置き換えられた連続性のある
文字列を記憶するプログラムと、連続性のある文字列を
含む訳語の情報をツリー構造に反映させるプログラムが
ＲＯＭに予め格納されたものであるが、本発明は必ずし
もこれに限定されるものではない。例えば、これらのプ
ログラムをフロッピーディスクやＣＤ−ＲＯＭ等に格納
したものを読み取り装置により読み取ってインストール
させて動作させることができる。また、有線もしくは無
線回線を使用して外部情報処理装置からプログラムを読
み込んで動作させることができる。この場合、前記フロ
ッピーディスクやＣＤ−ＲＯＭや、外部情報処理装置の
当該プログラムを格納したメモリが本発明の記録媒体を
構成することになる。

【００２８】図２には「＊勝」を見出し語としたサ変名
詞のユーザー辞書６１の辞書情報が示されている。「１
０勝」のように、見出し語の中に数字を含む単語は、数
字の部分をシステムで予め決められた記号に置き換えて
登録する。ここでは「＊」を使用している。従って、見
出し語の日本語は「＊勝」であり、訳語の英語は「＊ｗ
ｉｎｎｉｎｇｇａｍｅ」である。主名詞というのは訳
語の英語の中で複数形の時に複数変化する名詞のことで
ある。この主名詞を「ｇａｍｅ」にすることによって、
それが可算名詞（数えられる名詞のことで、複数形の場
合には複数変化する単語）であれば、「ｇａｍｅｓ」の
ように複数変化する。意味情報には見出し語の日本語の
意味を入力する。「〜勝」は動作などの行為を表すので
「行為」が選ばれている。

【００２９】この意味情報には、この他に「人・組織」
「動植物」「部品」等のカテゴリーがある。英語の冠詞
には、訳語の英語にいつも決まった冠詞が付く場合の冠
詞を指定する。「〜ｗｉｎｎｉｎｇｇａｍｅ」につ
いては、特に冠詞を必要としないので「付けない」が選
択されている。可算・不可算には、訳語の名詞が数えら
れるか、数えられないかを指定する。「〜ｗｉｎｎｉ
ｎｇｇａｍｅ」については、数えることができて、複
数形の場合は「〜ｗｉｎｎｉｎｇｇａｍｅｓ」にな
るので「可算」が選択されている。複数形のタイプに
は、訳語の英語が規則活用するか、不規則活用するかを
指定する。この場合は「ｓ」が付くだけなので規則活用
であり、「規則」が選ばれている。例えば、「ｍａｎ」
の複数形は「ｍｅｎ」になるように不規則活用する単語
であれば「不規則」を選択して、複数形のところに「ｍ
ｅｎ」と入れる。

【００３０】図３には、「＊勝する」を見出し語とした
サ変動詞の、ユーザー辞書６１の辞書情報が示されてい
る。「１０勝する」のように、見出し語の中に数字を含
む単語は、「＊勝」と同様に数字の部分をシステムで予
め設定された記号に置き換えて登録する。ここでは
「＊」を使用している。従って、見出し語の日本語は
「＊勝する」である。例えば、「１０勝する」について
は、「ｗｉｎ１０ｇａｍｅｓ」と出したいので、本
実施の形態の機械翻訳装置では、訳語の英語の部分には
動詞の部分だけを入力する。従って、「ｗｉｎ」が入力
されている。主動詞というのは訳語の英語の中で活用変
化する動詞のことである。３人称単数の時には「ｗｉｎ
ｓ」、過去形及び過去分詞の時には「ｗｏｎ」、現在分
詞形の時には「ｗｉｎｎｉｎｇ」と活用変化するので、
訳語の英語と同様に「ｗｉｎ」が入力されている。

【００３１】また、修飾語の部分には主動詞を修飾する
単語を入れる。例えば、「考慮する」という単語につい
ては、「ｔａｋｅ〜ｉｎｔｏｃｏｎｓｉｄｅｒａ
ｔｉｏｎ」と訳したいので、英語の部分には「ｔａｋ
ｅ」と入れて、修飾語に「ｉｎｔｏｃｏｎｓｉｄｅｒ
ａｔｉｏｎ」と入れればよい。「＊勝する」の場合は、
何も入れない。目的語には訳語の英語が目的語として取
る単語を入れる。「＊勝する」の場合は、「〜ｇａｍ
ｅｓ」を「ｗｉｎ」の目的語に取りたいので、数字が入
るところを「＊」に置き換えて「＊ｇａｍｅ」と入力
されている。主名詞、英語の冠詞、可算・不可算、複数
形のタイプ、複数形はそれぞれ「＊勝」で説明したとお
りである。

【００３２】以下に、以上のように構成された機械翻訳
装置による翻訳動作について説明する。

【００３３】先ず、キーボード等から日本語文が入力さ
れると、翻訳辞書５７及びユーザー辞書６１を参照して
形態素解析部５２で単語に分割し、それぞれの単語につ
いて参照した辞書情報を付与する。その後、構文解析部
５３で単語を句にまとめ上げ、翻訳辞書５７及びユーザ
ー辞書６１を参照しながら係り受け解析等の解析を行
い、入力文をツリー構造に変換すると同時に、翻訳に必
要な情報をツリーの節（以下ノードと呼ぶ）に付ける。
ツリー構造というのは、入力文の内部構造を木の形に置
き換えたものであり、通常、機械翻訳ではツリー構造を
別のツリー構造に書き換えたり、ノードに種々の情報を
付けることによって処理するように作られている。

【００３４】次に、構文変換部５４で、構文解析部で解
析された結果に基づいて、翻訳辞書５７及びユーザー辞
書６１を参照しながら各々の単語には訳を付与し、英語
を生成するためのツリー構造に変換する。構文生成部５
５では構文変換部で作ったツリー構造を、翻訳辞書５７
を参照しながら英文生成規則に基づいて英語として正し
いツリー構造にし、英語を生成するために必要な情報を
ツリーのノードに付与する。最後に形態素生成部５６に
おいて、語尾変化等の調整を行い、翻訳結果の英語文を
生成してＣＲＴ等に表示するか、プリンターから印刷す
る。

【００３５】図５は本実施の形態の形態素解析処理を示
すフローチャートであり、特に「１０勝」という入力文
を形態素解析するプロセスについて説明している。本実
施の形態の「＊」を使ったユーザー辞書では「＊」に入
る数字の文字列は１０文字までという制限になってい
る。また、「＊」の数字以外の部分は１０文字までとい
う制限を設けている。勿論、この制限はどのようにでも
変更可能である。

【００３６】そこで、先ず、Ｓ２０において、合計２０
文字分の文字列を切り出し位置から切り出す。最初は文
頭から２０文字切り出すことになる。その文字列を検索
キーワードにして、ユーザー辞書６１を検索する（Ｓ２
１）。そして、その中に該当する単語があるか否かを調
べる（Ｓ２２）。該当する単語がなければ（Ｓ２２：Ｎ
ｏの場合）、次に、翻訳辞書５７を検索する（Ｓ２
３）。そこで、該当する単語があるか否かを調べ（Ｓ２
４）、該当する単語が見つからなければ（Ｓ２４：Ｎｏ
の場合）、切り出し位置はそのままで、２０文字から１
文字減らした１９文字を文頭から切り出してそれを検索
キーワードにセットする（Ｓ２５）。その検索キーワー
ドによって辞書検索を継続するが、該当する単語が見つ
からず、文字を１文字ずつ減らしていった結果、もう検
索キーワードにセットする文字列がなくなった場合（Ｓ
２６：Ｎｏの場合）、今度は切り出し位置を一文字右に
ずらして、そこを新たな切り出し位置として２０文字分
を切り出して検索キーワードにセットする（Ｓ２７）。
そして、辞書検索を続ける。

【００３７】切り出し位置がまだ文末でなければ（Ｓ２
８：Ｎｏの場合）、引き続き続けられる。切り出し位置
が文末に来た場合（Ｓ２８：Ｙｅｓの場合）、全ての入
力文字列が形態素解析されたので未知語処理をして（Ｓ
２９）、辞書に登録がなかった文字列を未知語としてま
とめる。「１０勝」の場合、切り出し位置は文頭のまま
で、そこから３文字分が切り出されてユーザー辞書５７
が検索されると、「＊勝」が引けてくる。このように、
ユーザー辞書５７に該当する単語が見つかった場合に接
続チェックも良ければそこでその単語が確定される（Ｓ
３０）。

【００３８】次に、このように確定された単語が「＊」
で始まるか否かを調べ（Ｓ３１）、「＊」で始まれば
（Ｓ３１：Ｙｅｓの場合）、「＊」に当たる数字を
「＊」（アスタリスク）情報として記憶する（Ｓ３
２）。「１０勝」の場合は「１０」が「＊」情報に記憶
される。日本語見出しが「＊」から始まらなければ（Ｓ
３１：Ｎｏの場合）、確定された単語の次に切り出し位
置を変更して、そこから再度２０文字を切り出して（Ｓ
３３）、検索を継続する。また、翻訳辞書５７に該当す
る単語が見つかった場合に、接続チェックも良ければ同
様にその単語を確定する（Ｓ３４）。

【００３９】そして、確定された単語の次に切り出し位
置を変更して、そこから２０文字を切り出して（Ｓ３
３）、検索を継続する。以上のように、形態素解析され
た結果はツリー構造に展開されて、各単語には検索して
きた辞書の辞書情報が付与される。

【００４０】図６は、「１０勝」という入力文が形態素
解析部５２で形態素解析されツリー構造に展開された結
果を表している。入力文が「１０勝」であるので、ｒｏ
ｏｔの下に「１０勝」という名詞が下がっている。ｒｏ
ｏｔというのは、入力文のツリー構造の最上部にいつも
付く仮のノードである。このノードは、内部的なツリー
構造を下げるのに形態素解析から形態素生成までの翻訳
プロセスを通して必要なものであるが、最終的に英文を
得るときには落とされる。ｒｏｏｔのノードに下がる
「１０勝」の名詞には、ユーザー辞書６１の「＊勝」の
情報が全て付与されている。つまり、日本語見出しとし
て「＊勝」、日本語品詞として「名詞」、意味情報とし
て「行為」、訳の英語として「＊ｗｉｎｎｉｎｇｇ
ａｍｅ」、その内の主名詞が「ｇａｍｅ」、可算・不可
算の情報として英語のタイプに可算を表す「Ｃ」、英語
の冠詞として「付けない」を表す「ＮＯＮＥ」、複数形
が規則活用することを表すものとして「活用」に「ＲＥ
ＧＵＬＡＲ」である。

【００４１】この他に、日本語ＩＤとして「９」が付与
されている。日本語ＩＤというのは、見出し語の品詞細
分類として付けられた識別番号である。ユーザー辞書で
検索された単語には品詞に応じて特有の日本語ＩＤが付
与される。ここでは仮に名詞には「９」を、動詞で自動
詞なら「１１」を、動詞で他動詞なら「１２」を付与す
ることとする。「＊勝」は名詞であるので「９」が付
く。ユーザー辞書では日本語見出しとは異なる品詞の英
語を訳として当てることは許されていないので、「＊
勝」が名詞なら、「＊ｗｉｎｎｉｎｇｇａｍｅ」も
名詞であり、英語品詞に「名詞」が入っている。さら
に、ユーザー辞書では日本語ＩＤと同じ英語ＩＤが入る
ことになっているので、英語ＩＤにも「９」が入ってい
る。装置に予め搭載されている翻訳辞書５７では日本語
見出しの品詞と異なる品詞の英語を訳として当てること
が許されているので、その英語に応じた品詞と細分類の
ＩＤが付く。さらに、「＊情報」として「１０」が付与
されている。

【００４２】図７は、本実施の形態の構文解析処理を示
すフローチャートであって、特に、「１０勝」という入
力文を構文解析するためのプロセスについて説明してい
る。先ず、日本語見出しが「＊」で始まるノードが形態
素解析結果のツリー構造にあるか否かを調べる（Ｓ５
０）。ある単語の日本語見出しが「＊」で始まっていた
場合（Ｓ５０：Ｙｅｓの場合）、次に、日本語品詞が名
詞か否かを調べる（Ｓ５１）。名詞であれば（Ｓ５１：
Ｙｅｓの場合）、英語の「＊」を「＊」情報に記憶され
ている数字に置き換える（Ｓ５２）。また、「＊」情報
に記憶されている数字が「０」か「１」かを調べ（Ｓ５
３）、「０」か「１」であれば（Ｓ５３：Ｙｅｓの場
合）、数情報として単数を示す「Ｓ」を付与する（Ｓ５
４）。「０」でも「１」でもなければ（Ｓ５３：Ｎｏの
場合）、数情報として複数を示す「Ｐ」を付与する（Ｓ
５５）。

【００４３】そして、「１０勝」という名詞は日本語見
出しが「＊」で始まっており、日本語品詞が名詞である
ため、英語の「＊ｗｉｎｎｉｎｇｇａｍｅ」の
「＊」が「＊」情報に記憶されている「１０」に置き換
えられて「１０ｗｉｎｎｉｎｇｇａｍｅ」となる。さ
らに、「＊」情報に記憶されている数字が「１０」であ
るので、数情報として、「Ｐ」が付与される。この後、
係り受け等の構文解析処理が行われる（Ｓ６１）。「１
０勝」の場合は、これだけで１文を構成しているので、
その他の構文解析処理は行われない。

【００４４】また、「＊」で始まる日本語見出しが名詞
でなければ（Ｓ５１：Ｎｏの場合）、次に目的語が
「＊」で始まるか否かを調べる（Ｓ５６）。目的語も
「＊」で始まっていなければ（Ｓ５６：Ｎｏの場合）、
「＊」を用いたユーザー辞書が検索された場合の構文解
析部での一連の処理は不要になるのでＳ６１のその他の
構文解析処理に移る。目的語が「＊」で始まっていれば
（Ｓ５６：Ｙｅｓの場合）、目的語の「＊」を「＊」情
報に記憶されている数字に置き換える（Ｓ５７）。

【００４５】そして、「＊」情報に記憶されている数字
が「０」か「１」かを調べ（Ｓ５８）、「０」か「１」
であれば（Ｓ５８：Ｙｅｓの場合）、目的語の数情報と
して単数を示す「Ｓ」を付与する（Ｓ５９）。「０」で
も「１」でもなければ（Ｓ５８：Ｎｏの場合）、数情報
として複数を示す「Ｐ」を付与する（Ｓ６０）。「１０
勝する」という動詞は日本語見出しが「＊」で始まって
おり、日本語品詞が動詞であって、目的語が「＊ｇａ
ｍｅ」のように「＊」で始まっているので、その「＊」
が「＊」情報に記憶されている「１０」に置き換えられ
て「１０ｇａｍｅ」となる。さらに、「＊」情報に記
憶されている数字が「１０」であるので、数情報とし
て、「Ｐ」が付与される。この後、係り受け等の構文解
析処理が行われる（Ｓ６１）。

【００４６】図８は、「１０勝」という入力文が構文解
析部５３で構文解析されツリー構造に展開された結果を
表している。入力文が「１０勝」だけであるので、図６
の形態素解析結果のツリー構造と同じであるが、「１０
勝」の名詞に付与された情報が異なる。つまり、英語の
「＊ｗｉｎｎｉｎｇｇａｍｅ」は「１０ｗｉｎｎ
ｉｎｇｇａｍｅ」になり、数情報として、複数を表す
「Ｐ」が付与されている。このツリー構造が構文変換部
５４に渡されて構文変換処理され、その後に、構文生成
部５５に渡されて構文生成処理される。その後、形態素
生成部５６において、語尾変化等の活用変化の処理が行
われるが、ここで「１０勝」は数情報として「Ｐ」が付
与されており、主名詞の英語である「ｇａｍｅ」が可算
で、活用がＲＥＧＵＬＡＲ（規則活用）であるため、英
語の「１０ｗｉｎｎｉｎｇｇａｍｅ」は「１０ｗ
ｉｎｎｉｎｇｇａｍｅｓ」となる。また、英語の冠詞
は付けないと指定されているので冠詞は生成されず、
「１０勝」は「１０ｗｉｎｎｉｎｇｇａｍｅｓ」が
翻訳結果として出力される。

【００４７】次に「彼は１０勝した」を入力文とした翻
訳プロセスについて図４を使って説明する。

【００４８】先ず、Ｓ１において、「彼は１０勝した」
が入力されると、次に、Ｓ２において、入力バッファ領
域４１にその入力文が記憶される。そして、形態素解析
部５２に送られて（Ｓ３）、ユーザー辞書６１を検索し
（Ｓ４）、そこで、「＊勝する」という単語が引け、翻
訳辞書を検索して（Ｓ６）、「彼」という名詞が検索さ
れる。前後の単語との接続もよければ、それらの単語が
確定され、それぞれの単語に辞書情報が付与される（Ｓ
１１）。図９は入力文の「彼は１０勝した」が形態素解
析された結果のツリー構造を表している。この図が示す
ように「彼は１０勝した」は、「彼」（名詞）と、
「は」（助詞）と、「＊勝する」（動詞）と、「た」
（助動詞）に分割される。

【００４９】そして、それぞれの単語については、この
図９に示すような辞書情報が付与される。「１０勝し
た」から「＊勝する」という単語が確定される方法は、
「１０勝」という入力文の形態素解析のところで説明し
た通りである。「１０勝する」は、「＊勝する」が引け
て日本語見出しが「＊勝する」になり、日本語品詞は
「動詞」、日本語ＩＤには「１２」が付いている。目的
語に何かの値が入っている場合は他動詞であるという意
味なので、他動詞の日本語ＩＤである「１２」が付与さ
れる。また、訳の英語には「ｗｉｎ」が、英語の品詞に
は「動詞」が、英語のＩＤには日本語ＩＤと同じ「１
２」が、主動詞には「ｗｉｎ」、主動詞の活用のタイプ
は不規則活用なので「ＩＲＲＥＧＵＬＡＲ」、過去形と
過去分詞形には「ｗｏｎ」、現在分詞形には「子音重
ね」、目的語には「＊ｇａｍｅ」、目的語の主名詞に
は「ｇａｍｅ」、目的語の冠詞には「付けない」を表す
「ＮＯＮＥ」が、目的語のタイプには可算名詞であるこ
とを示す「Ｃ」が、目的語の活用には規則活用であるこ
とを示す「ＲＥＧＵＬＡＲ」が付いている。

【００５０】さらに「１０勝」の形態素解析の処理で説
明したように、「１０勝する」から「＊勝する」が確定
した時に＊には「１０」が入ることが認識されて、
「＊」情報として「１０」が入る。また、「＊」情報に
記憶されている数字が「０」でも「１」でもないので、
数情報として複数形を示す「Ｐ」が付く。

【００５１】形態素解析が終了すると（Ｓ１２）、その
後、Ｓ１３において構文解析が行われる。構文解析では
単語を句にまとめ、主語や目的語等の係り受けを決める
等の構文解析を行う。

【００５２】図１０は、構文解析された結果のツリー構
造を示している。入力文が「彼は１０勝した」であるの
で、ｒｏｏｔの下には入力文の主動詞となる「１０勝す
る」が下がっている。

【００５３】主動詞の「１０勝する」には、日本語見出
し「＊勝する」と、日本語品詞「動詞」と、日本語ＩＤ
「１２」と、訳語の英語として「ｗｉｎ」と、英語品詞
「動詞」と、英語ＩＤ「１２」と、’ｗｉｎ’が不規則
活用することを示す「ＩＲＲＥＧＵＬＡＲ」と、過去形
の「ｗｏｎ」、過去分詞形の「ｗｏｎ」、現在分詞形が
「子音重ね」という辞書情報の他に、構文解析処理で付
けられた入力文の主動詞の時制（この場合は「過去」）
が付いている。主動詞の下には「１０勝する」の主語に
解析された「彼」のノードと、目的語のノードが下がっ
ている。

【００５４】また、「彼」には、日本語見出しとして
「彼」、日本語品詞として「名詞」、日本語ＩＤとして
「１」の他に、「１０勝する」に対して「彼」が主語で
あることを示す日本語の格に「主語」、助詞が「は」だ
ったことを示す日本語助詞に「は」が付与されている。
「１０勝する」は自動詞であるので、目的語を持つユー
ザー辞書が引けてこなければ主動詞の下には主語のノー
ドしか下がらない。しかし、形態素解析によって訳に目
的語を持つ「＊勝する」が引けてきて、その目的語が
「＊ｇａｍｅ」であるので、構文解析で主語の他に目
的語のノードも生成する。

【００５５】この目的語のノードは、もともと日本語の
入力文にあったものではないので日本語見出しは付いて
いないことを示す「ＮＩＬ」が付与されている。形態素
解析で「＊」の部分に「１０」が入ることが分かるの
で、訳の英語の「＊ｇａｍｅ」が「１０ｇａｍｅ」
に書き換えられる。英語の品詞には「名詞」、英語ＩＤ
には名詞であるので「９」、「＊ｇａｍｅ」の主名詞
は「ｇａｍｅ」であるので、主名詞として「ｇａｍ
ｅ」、「ｇａｍｅ」は可算名詞であるので英語のタイプ
として「Ｃ」、その英語には冠詞は付かないことを示す
「ＮＯＮＥ」、「ｇａｍｅ」は規則活用であるので活用
には「ＲＥＧＵＬＡＲ」を付けている。また、＊には
「１０」が入ることを示す＊情報「１０」と、＊情報の
中の数字が０でも１でもないので数情報として複数形を
表す「Ｐ」が付いている。さらに日本語の格として「目
的語」が入っている。

【００５６】このように、構文解析されたツリー構造は
構文変換部５４に渡されてＳ１４において構文変換処理
される。ここで、主動詞の日本語ＩＤが１１か１２であ
った場合にユーザー辞書の動詞が検索されたことを示す
ものであるので、構文変換部５４において日本語ＩＤが
１１なら主語のノードに、日本語ＩＤが１２なら主語と
目的語のノードにそれぞれ英語の格を付ける。つまり、
主語であれば英語の格に「主語」を、目的語であれば英
語の格に「目的語」を入れる。また、入力文の日本語の
時制が「過去」であったが、英語でも過去形で出したい
ので、英語の時制にも「過去」を入れる。

【００５７】その後に、Ｓ１５において構文生成処理さ
れる。さらに、形態素生成部５６において語尾変化等の
形態素生成処理が行われるが（Ｓ１６）、ここで、目的
語の「１０ｇａｍｅ」には数情報として「Ｐ」が付与
されており、主名詞の英語である「ｇａｍｅ」が可算
で、活用がＲＥＧＵＬＡＲ（規則活用）であるため、英
語の「１０ｇａｍｅ」は「１０ｇａｍｅｓ」とな
る。また、英語の冠詞は付けないと指定されているので
冠詞は生成されず、さらに英語の時制も「過去」になっ
ているので過去形の「ｗｏｎ」が選ばれて「Ｈｅｗｏ
ｎ１０ｇａｍｅｓ．」が翻訳結果として出力される
（Ｓ１７）。

【００５８】

【発明の効果】以上説明したことから明らかなように、
本発明の請求項１に記載の機械翻訳装置によれば、数字
のような連続性のある文字列は見出しを変えて個別に記
憶手段に登録しなくても、予め定められた記号を用いて
一つの見出し語で登録することができる。

【００５９】また、請求項２に記載の機械翻訳装置によ
れば、入力文の中に数字のような連続性のある文字列を
含む単語が出現した場合に、形態素解析において前記記
憶手段の見出し語を正しく検索することができる。

【００６０】また、請求項３に記載の機械翻訳装置によ
れば、どんな文字列がその記号に置き換わっているのか
を記憶し、その情報によって、例えば、数字であれば単
数形か複数形かの情報を付与し、さらに目的語の場合は
目的語のノードにそれらの情報を付与するというよう
に、数字のような連続性のある文字列を含む訳語の情報
をツリー構造に正しく展開することができる。これによ
って、入力文にどんな文字列が入ってきても正しい翻訳
結果を出すことができる。

【００６１】また、請求項４に記載の機械翻訳装置によ
れば、ユーザーによって使用される前記外部記憶装置
に、連続性のある文字列を含む単語を予め定められた記
号によって記憶しておけば、これを機械翻訳する度に有
効に使用することができる。

【００６２】また、請求項５に記載の機械翻訳装置によ
れば、前記翻訳生成手段によって生成された第二言語の
翻訳文を前記出力手段によって出力することにより、翻
訳した第二言語を直ちに確認することができ、一連の翻
訳処理を効率的に実施することができる。

【００６３】また、請求項６に記載の機械翻訳処理プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
によれば、各プログラムをフロッピーディスクやＣＤ−
ＲＯＭ等の様々な媒体の中から機械翻訳装置に適した記
録媒体に記録して提供することができる。そして、この
記録媒体を用いてプログラムを実行することにより、数
字のような連続性のある文字列は見出しを変えて個別に
記憶手段に登録しておかなくても、予め定められた記号
を用いて一つの見出し語で登録することができる。

【００６４】また、請求項７に記載の機械翻訳処理プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
によれば、各プログラムをフロッピーディスクやＣＤ−
ＲＯＭ等の様々な媒体の中から機械翻訳装置に適した記
録媒体に記録して提供することができる。そして、この
記録媒体を用いてプログラムを実行することにより、入
力文の中に数字のような連続性のある文字列を含む単語
が出現した場合に、形態素解析において前記記憶手段の
見出し語を正しく検索することができる。

【００６５】さらに、請求項８に記載の機械翻訳処理プ
ログラムを記録したコンピュータ読み取り可能な記録媒
体によれば、各プログラムをフロッピーディスクやＣＤ
−ＲＯＭ等の様々な媒体の中から機械翻訳装置に適した
記録媒体に記録して提供することができる。そして、こ
の記録媒体を用いてプログラムを実行することにより、
どんな文字列がその記号に置き換わっているのかを記憶
し、その情報によって、例えば、数字であれば単数形か
複数形かの情報を付与し、さらに、目的語の場合は目的
語のノードにそれらの情報を付与するというように、数
字のような連続性のある文字列を含む訳語の情報をツリ
ー構造に正しく展開することができる。これによって、
入力文にどんな文字列が入ってきても正しい翻訳結果を
出すことができる。

【図面の簡単な説明】

【図１】本発明の実施の形態の機械翻訳装置の構成を示
すブロック図である。

【図２】「＊勝」のユーザー辞書の辞書情報を示す図で
ある。

【図３】「＊勝する」のユーザー辞書の辞書情報を示す
図である。

【図４】本実施の形態の翻訳処理を示すフローチャート
である。

【図５】本実施の形態の形態素解析処理を示すフローチ
ャートである。

【図６】形態素解析の処理が終わった後のツリー構造を
示す図である。

【図７】本実施の形態の構文解析処理を示すフローチャ
ートである。

【図８】構文解析の処理が終わった後のツリー構造を示
す図である。

【図９】形態素解析の処理が終わった後のツリー構造を
示す図である。

【図１０】構文解析の処理が終わった後のツリー構造を
示す図である。

【符号の説明】

１０入力部２０出力部３０ＣＰＵ５０ＲＯＭ５２形態素解析部５３構文解析部５４構文変換部５５構文生成部５６形態素生成部５７翻訳辞書６１ユーザー辞書

Claims

【特許請求の範囲】

【請求項１】入力手段によって入力された第一言語を
単語に分割するための形態素解析手段と、前記形態素解
析手段によって分割された第一言語の単語の係り受け等
を解析するための構文解析手段と、前記構文解析手段に
よって解析された第一言語について翻訳辞書を参照しな
がら目的の第二言語に翻訳するための翻訳生成手段とを
備えた機械翻訳装置において、連続性のある文字列を含む単語を予め定められた記号に
よって記憶手段に登録することができる登録手段を備え
たことを特徴とする機械翻訳装置。
【請求項２】前記記憶手段に登録された連続性のある
文字列を含む単語を検索する検索手段と、前記記号に置き換えられた連続性のある文字列を記憶す
る文字列記憶手段とを備えたことを特徴とする請求項１
に記載の機械翻訳装置。
【請求項３】前記構文解析手段は、前記記憶手段等に
登録された情報に基づいて、連続性のある文字列を含む
翻訳に必要な情報をツリー構造に反映させるツリー構造
変換手段を備えることを特徴とする請求項１もしくは２
に記載の機械翻訳装置。
【請求項４】前記記憶手段は、ユーザーによって使用
される外部記憶装置であることを特徴とする請求項１乃
至３のいずれかに記載の機械翻訳装置。
【請求項５】前記翻訳生成手段によって生成された第
二言語の翻訳文を出力する出力手段を備えたことを特徴
とする請求項１乃至４のいずれかに記載の機械翻訳装
置。
【請求項６】入力手段によって入力された第一言語を
単語に分割するための形態素解析プログラムと、前記形
態素解析プログラムによって分割された第一言語の単語
の係り受け等を解析するための構文解析プログラムと、
前記構文解析プログラムによって解析された第一言語に
ついて翻訳辞書を参照しながら目的の第二言語に翻訳す
るための翻訳生成プログラムとを記録したコンピュータ
読み取り可能な記録媒体において、連続性のある文字列を含む単語を予め定められた記号に
よって記憶手段に登録することができる登録プログラム
を備えたことを特徴とする機械翻訳処理プログラムを記
録したコンピュータ読み取り可能な記録媒体。
【請求項７】前記記憶手段に登録された連続性のある
文字列を含む単語を検索する検索プログラムと、前記記号に置き換えられた連続性のある文字列を記憶す
る文字列記憶プログラムとを備えたことを特徴とする請
求項６に記載の機械翻訳処理プログラムを記録したコン
ピュータ読み取り可能な記録媒体。
【請求項８】前記構文解析プログラムは、前記記憶手
段等に登録された情報に基づいて、連続性のある文字列
を含む翻訳に必要な情報をツリー構造に反映させるツリ
ー構造変換プログラムを備えることを特徴とする請求項
６もしくは７に記載の機械翻訳処理プログラムを記録し
たコンピュータ読み取り可能な記録媒体。