JPH0855123A

JPH0855123A - イディオム登録機能を有する機械翻訳装置

Info

Publication number: JPH0855123A
Application number: JP6186127A
Authority: JP
Inventors: Toshiyuki Okunishi; 稔幸奥西; Youji Fukumochi; 陽士福持; Ichiko Sada; いち子佐田; Takeshi Kutsumi; 毅九津見
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1994-08-08
Filing date: 1994-08-08
Publication date: 1996-02-27

Abstract

(57)【要約】【目的】イディオム登録機能を有する機械翻訳装置に
関し、イディオムの見出し語の固定部分の変化形にも対
応でき、可変部分に利用者定義の記号を導入することが
できる機械翻訳装置を提供することを目的とする。【構成】イディオムの固定部分が通常の単語、単語
列、又はその単語もしくは単語列の変形表現を代表する
変化展開記号によって表現され、かつイディオムの可変
部分が所定の属性を共有する単語又は単語列の集合を代
表する第１の代表記号を複合した形式で表現される、見
出し語とそのイディオムの訳語を登録するイディオム登
録手段と、翻訳すべきイディオムの見出し語に対してそ
の固定部分を予め設定されたすべての変形表現に生成展
開する変化形展開手段と、入力文字列あるいはその一部
分と、イディオムの見出し語の固定部分が変形表現に展
開された見出し語等との同定を行うイディオム翻訳手段
とを備えたことを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、電子化辞書あるいは
電子化辞書を搭載した情報検索装置あるいは電子化辞書
を搭載した機械翻訳装置に関し、特に、可変部分を含む
イディオムを登録し検索・翻訳することのできるイディ
オム登録機能を有する辞書検索装置に関する。

【０００２】

【従来の技術】現在実用化されている言語処理装置に
は、人間の文書作成活動を支援するためのワードプロセ
ッサや、或る言語で書かれた文書を別の言語に翻訳する
ための機械翻訳装置などがある。これらの言語処理装置
には、それぞれの目的に応じた情報を納めた辞書が備え
られている。ここでいう辞書とは、見出語とそれに付帯
する各種の情報の組とを１単位の項目としたものを多数
統合し、見出語を用いて所望の項目を容易に検索できる
ように系統立てて並べたものである。

【０００３】辞書は、原則として機械可読な不揮発性の
媒体に機械可読な形式で記録される。このような辞書
を、電子化辞書と呼ぶことにする。電子化辞書を機械翻
訳において用いる場合には、見出語としては原語（ソー
ス原語）の単語列（１単語のみのものも含む）が用いら
れ、その単語列に付帯する各種の情報として、見出語の
品詞、形態属性、訳語、訳語の品詞等の情報が用いられ
る。

【０００４】このような言語処理装置を用いて利用者が
処理あるいは作成しようとしている文書に、この装置に
備えられた辞書に見出語として記載されていない単語が
含まれている場合には、作業効率が著しく低下してしま
う。そのために、辞書に収録する見出語は、より多いほ
うが好ましい。また、機械翻訳の場合には、原語の各単
語のみではなく、イディオムを見出語として採用し、対
応するターゲット言語の言い回し等をペアとして、この
ようなペアをできるだけ多数登録しておくことが翻訳効
率の上では望ましい。

【０００５】通常イディオムには、数詞、所有格代名
詞、再帰代名詞など、主語や他の語との関係においてそ
の形を変えるイディオムが多い。例えば[ do one's bes
t]中のone's は主語に応じてyour, my, his, herなどの
所有格代名詞となる。翻訳処理並びに辞書開発の効率
上、このようなイディオムは、具体的な語を入れたイデ
ィオムを全て列挙するのではなく、見出し語の一部分の
単語としてある文法特徴を共有する単語や句ならば任意
の単語が入るような形で登録できるのが好ましい。以下
では、ある文法特徴を共有する単語や句ならば任意の単
語が入る部分を可変部分と呼び、それ以外のイディオム
の骨格となる単語や単語列の部分を固定部分と呼ぶ。

【０００６】また、１つのイディオムには、複数の可変
部分が存在するものがあり、可変部分には単語だけでな
く名詞句や文が適用される場合もある。このような種々
の可変部分を表現するために、＊に続く記号（以下この
記号を代表記号と呼ぶ）を導入する機械翻訳装置が提案
されている。

【０００７】たとえば「〜よりＮ倍…」という日本語訳
をもつ英単語イディオム“N timesas…as〜”を登録す
る場合、次のように記述することができる。英単語 [ *m times as *ad as *CN ] 訳語 *CN より *m 倍 *ad 見出し（英単語列）の中で、先頭に“＊”のついた単語
(*m, *ad, *CN)、すなわち代表記号が可変部分であり、
それ以外の単語(times,as)が固定部分である。

【０００８】可変部分では、代表記号で表す品詞（上例
では、m:数詞、ad: 形容詞、C:文、N:名詞句，CN:Cまた
はN)の任意の単語と適合できるのに対し、固定部分では
その表記を持つ単語とでないと適合できない。なお、可
変部分に指定できる代表記号は予めシステムに定義され
たものである。

【０００９】今、 [ This apple is three times as big as that orange.
] という英文が入力されたとし、以下に機械翻訳処理の概
要を以下に示す。まず、各単語の辞書引きが行われる。
その結果、次のような単語情報が得られる。 three 数詞(m) big 形容詞(ad) that 冠詞(d) orange 名詞(n)

【００１０】次に、イディオムの検索と解析処理が実行
され、固定部分ならびに可変部分のマッチングが行われ
る。このとき、入力文の一部が上記のように登録された
イディオムに適合することがわかる。ここで、可変部分*mと“three ”がマッチングし、*ad
と“big ”がマッチングし、*CN と“that orange ”が
マッチングする。また、“times as”と“as”がイディ
オムの固定部分（＃記号部）としてマッチングする。

【００１１】次に、イディオムの可変部分の訳を生成す
る。 *CN あのオレンジ *m ３ *ad 大きい最後に、固定部分の訳と合成することで入力文に対する
日本語文を生成する。

【００１２】

【発明が解決しようとする課題】しかしながら、以上に
示した機械翻訳システムでは、（１）イディオム見出しの固定部分に、活用変化が書け
ない。（２）イディオム見出しの可変部分に、システムで定義
された代表記号以外の記号が使えない。という２つの制限がある。このため、イディオムに登録
する見出し語が増大し、その結果記憶容量及び検索時間
が増大するという問題や、利用者、すなわち辞書にイデ
ィオムを登録する者の負担が大きくなるという問題が発
生する。

【００１３】固定部分と可変部分から成るイディオム見
出し語の固定部分と入力文のマッチングは文字列だけで
比較するので、単複変化する名詞、活用変化する動詞、
助動詞、形容詞、また、助動詞や否定副詞(not) が付加
する単語を含む入力文の場合は、通常よく使われる基本
形のイディオムを登録するだけではマッチングが失敗す
ることとなる。そのため、以上に示したような変化形を
全て異なる見出しとして列挙する必要があった。

【００１４】『〜することはできない』という日本語訳
を持つ英単語イディオム“There isno 〜ing.”を例に
説明する。このイディオムは、次のような形式で登録さ
れる。英単語 [There is no *Ving] 訳語 *Ving ことができない。ここで、“*Ving ”は「動詞の進行形」を表す代表記号
である。

【００１５】しかし、“There was no going to school
yesterday. ”という文はこのイディオムを含むにも関
わらず過去形の文であるため、文中の“There was no”
が見出しの固定部分の“There is no ”と一致できな
い。すなわち、一部に動詞等の語形変化する単語を含ん
だイディオムの場合、変化形を全て展開して登録する必
要があり、この例では[ There was no ]や[ There will
be no ]という見出しのイディオムを別に登録する必要
があった。

【００１６】固定部分と可変部分から成るイディオム見
出しの可変部分は、あらかじめ機械翻訳システムで定義
されたもののみが使用される。これは、幅広い利用者が
ターゲットである商用化システムにおいて、利用者のあ
らゆる要求を予測し代表記号を全て準備しておくのは現
実には不可能であるし、非常に特殊なものまでシステム
で定義しておくのも効率上問題があったからである。

【００１７】このような従来の機械翻訳システムにおい
て、所望する代表記号が定義されていなかった場合につ
いて、『できる限り〜』という日本語訳を持つ英単語イ
ディオム“as〜as…can ”を例に説明する。２つのasの
間の「〜」に入れることができる語句は、形容詞原級
か、形容詞原級で修飾される名詞句であるが、もし、シ
ステムに定義された代表記号に「形容詞を含む名詞句」
という記号がなかったとすると、利用者はシステムが定
義している代表記号で最も近いもの、例えば、次のよう
に、*N（名詞句）とだけ指定しているイディオムを使用
するしかない。英単語 [ as *N as *n *3 can ] 訳語できる限り *N ここで、*3は主格代名詞を表す代表記号である。

【００１８】しかし、このような近似的な登録では実際
にはイディオムを含んでいない文でも誤って認識して、
翻訳精度の低下を招く場合がある。例えば、 [ I regard the person as policeman as you can see.
] あなたがわかるので、私はその人を警官とみなす。という入力文は、２つのasの間の名詞句が形容詞を含ん
でいないため本来ならば上記イディオムの文ではない
が、上記登録ではというように、policeman が*Nとマッチしてしまい、こ
の文がイディオムを含んでいると誤って認識してしま
う。

【００１９】さらに、イディオムと解釈したas policem
an as you can が主語でsee が動詞からなる関係代名詞
の先行詞がthe personであるという誤った解析がたまた
ま成立し、結果的に次のような誤訳を生成してしまう。「私はできる限り警官が見る人を考慮する。」

【００２０】このようにシステムで定義された代表記号
しか使えないため、近似的な指定しかできず、利用者が
意図しなかった誤訳が生じる場合もある。また、指定を
詳細にすると見出しが複雑になる場合が多い。このこと
は、類似した詳細な条件が複数現れた場合に特に顕著に
なる。このように、従来の機械翻訳装置では、以上述べ
たような２つの制限があるため、イディオムに登録する
見出し語が増大しその結果記憶容量及び検索時間が増大
するという問題や、利用者の負担が大きくなるという問
題が発生していた。

【００２１】そこで、この発明は、以上のような事情を
考慮してなされたものであり、イディオムの見出し語の
固定部分の変化形にも対応でき、可変部分に利用者定義
の記号を導入することができるイディオム登録機能を持
つ機械翻訳装置を提供することを目的とする。

【００２２】

【課題を解決するための手段】図１に、この発明の基本
構成ブロック図を示す。同図において、この発明は文字
列および記号を入力する入力手段１と、予め定められた
単語又は単語列からなる固定部分と、共通の属性を持つ
単語又は単語列に変化可能な可変部分とからなるイディ
オムに対して、前記固定部分が通常の単語、単語列、又
はその単語もしくは単語列の変形表現を代表する変化展
開記号によって表現され、かつ前記可変部分が所定の属
性を共有する単語又は単語列の集合を代表する第１の代
表記号を複合した形式で表現される見出し語とそのイデ
ィオムの訳語を登録するイディオム登録手段２と、イデ
ィオムの登録と翻訳処理に必要な辞書及び処理結果を記
憶する記憶手段９と、入力単語列を形態素に分解し、か
つ文法解析を行う辞書引き・形態素解析手段３と、翻訳
すべきイディオムの見出し語に対してその固定部分を予
め設定されたすべての変形表現に生成展開する変化形展
開手段１０と、入力文字列あるいはその一部分と、登録
されたイディオムの見出し語あるいは前記変化形展開手
段１０によってその見出し語の固定部分が変形表現に展
開された見出し語との同定を行い、同定されたイディオ
ムの見出し語に対応する文字列の訳語を生成するイディ
オム翻訳手段４と、構文解析手段５と、構文変換手段６
と、翻訳文生成手段７と、翻訳文を出力する出力手段８
とを備えたことを特徴とするイディオム登録機能を有す
る機械翻訳装置を提供するものである。

【００２３】また、前記変化形展開手段１０が、イディ
オムの見出し語の固定部分を、固定部分を構成する単語
を活用変化させた表現形式又はその固定部分に助動詞も
しくは否定副詞を連接させた表現形式に生成展開するよ
うにしてもよい。

【００２４】また、新たに定義された属性とその属性値
を有する単語又は単語列を代表する第２の代表記号を前
記記憶手段９に登録する代表記号登録手段１１と、翻訳
すべきイディオムの見出し語の可変部分に含まれる前記
第２の代表記号を定義された属性とその属性値とに生成
展開する代表記号展開手段１２とを備え、前記イディオ
ム登録手段２が、前記入力手段１によって入力された第
１の代表記号および／または第２の代表記号を用いて表
現されるイディオムの見出し語とその訳語を登録し、前
記イディオム翻訳手段４が、入力文字列あるいはその一
部分の属性及びその属性値と、前記代表記号展開手段１
２によって生成展開された見出し語の第２の代表記号の
属性及びその属性値との同定を行うようにしてもよい。

【００２５】また、前記記憶手段９は、入力された文字
列の翻訳を行うための文法および訳語情報を持つ辞書メ
モリ９ａと、訳語生成に至るまでの処理の結果を記憶す
るバッファメモリ９ｂと、前記イディオム登録手段２に
よって登録されたイディオムを記憶するイディオム登録
メモリ９ｃとから構成することが好ましい。

【００２６】前記辞書引き・形態素解析手段３は、入力
された文字列を単語に分解し各単語の品詞情報を生成す
る品詞抽出部３ａと、各単語の訳語の候補を生成する訳
語抽出部３ｂとから構成することが好ましい。

【００２７】前記イディオム翻訳手段４は、前記イディ
オム登録メモリを検索し分解された単語列と表現形式が
一致可能なイディオムの見出語の候補を選択するイディ
オム検索部４ａと、イディオムの中の代表記号の位置に
相当する単語又は単語列の属性が、代表記号に与えられ
た属性に一致するイディオムの見出語をイディオム候補
の中から一つに特定するイディオム同定部４ｂと、代表
記号に対応する単語又は単語列の構文を解析しイディオ
ム全体の文構成を生成するイディオム解析部４ｃと、イ
ディオムの文構成を基に、入力された単語列のイディオ
ム部の訳語を生成するイディオム訳語生成部４ｄとから
構成することが好ましい。

【００２８】ここで、図１において入力手段１として
は、キーボード、又はマウス、ペンあるいはトラックボ
ールなどのポインティングデバイスが用いられるがこれ
に限定されるものではなく、その他の入力装置を用いて
もよい。また、記憶手段９は通常ＲＯＭ、ＲＡＭ、フロ
ッピーディスク又はハードディスク等が用いられるが、
これに限定されるものではなく、その他の記憶装置を用
いてもよい。特に、辞書メモリ９ａはＲＯＭが好まし
く、バッファメモリ９ｂ、イディオム登録メモリ９ｃ及
び代表記憶メモリ９ｄはＲＡＭが好ましい。

【００２９】また、イディオム登録手段２、代表記号登
録手段１１、辞書引き・形態素解析手段３、イディオム
翻訳手段４、構文解析手段５、構文変換手段６及び翻訳
文生成手段７としては、通常ＣＰＵが用いられ、ＲＯ
Ｍ、ＲＡＭ、Ｉ／Ｏインターフェイス等の周辺回路を含
んだマイクロコンピュータを用い、ＲＯＭ又はＲＡＭに
はこの文書処理装置の動作を制御するプログラムが内蔵
されていることが好ましい。

【００３０】

【作用】イディオムの見出し語および訳語を登録する場
合、イディオムの固定部分は通常の単語、単語列又はそ
の単語もしくは単語別の変形表現を代表する変化展開記
号によって表現され、イディオムの可変部分は所定の属
性を共有する単語又は単語列の集合を代表する第１の代
表記号を複合した形式で表現されて、イディオム登録手
段２が記憶手段９に登録する。

【００３１】これにより、可変部分の属性が共通し、さ
らに固定部分が種々の変形表現されることのある複数個
のイディオムの見出し語を１つの見出し語で登録するこ
とができる。すなわち、この発明によれば、イディオム
の見出し語としてその固定部分及び可変部分に対して考
えられるあらゆるパターンを登録する必要はなく、登録
されるイディオムの見出し語の増大を抑えることができ
る。

【００３２】入力された文字列を単語に分解し、分解さ
れた単語別の一部の表現形式と一致可能なイディオムの
見出し語の候補を検索し、さらにその見出し語の固定部
分の中に変化展開記号がある場合には、変化形展開手段
によって生成展開された変形表現とその変化展開記号が
存在する位置に担当する単語又は単語列との同定を行
い、イディオムを特定する。

【００３３】以上のように、この発明によれば、入力文
のうちあるイディオムの固定部分に相当する単語又は単
語列が、そのイディオムの見出し語として登録されてい
る単語又は単語列とは完全に一致しないがその変形表現
と一致する場合にも、イディオムの同定をすることがで
きる。

【００３４】また、イディオムの可変部分は新たに定義
された属性とその属性値を有する単語又は単語列を代表
する第２の代表記号を含む形式で表現されて記憶手段９
に登録される。

【００３５】そして、入力された文字列を単語に分解
し、分解された単語列の一部の表現形式と一致可能なイ
ディオムの見出し語の候補を検索し、さらにその見出し
語の可変部分の中に第２の代表記号がある場合には、代
表記号展開手段によって生成展開された属性及びその属
性値と、その第２の代表記号が存在する位置に担当する
単語又は単語列の属性及びその属性値との同定を行い、
イディオムを特定する。

【００３６】以上のように、この発明によれば、新たに
定義された属性及びその属性値を有する単語又は単語列
を代表する第２の代表記号を用いてイディオムの見出し
語の可変部分を表現し、かつイディオムの同定を行うの
で、イディオムとして登録する見出し語の長さを抑える
ことができると共に、利用者自身にとって必要な、ある
いは、ある分野の文章に特有な表現形式を持つイディオ
ムの登録及び同定をすることができる。

【００３７】

【実施例】以下、図に示す実施例に基づいて、この発明
を詳述する。なお、これによってこの発明が限定される
ものではない。実施例の説明の前に、機械翻訳の概念に
ついて簡単に説明する。図２を参照して、機械翻訳にお
いて行なわれる解析処理には、様々な解析レベルがあ
る。機械翻訳は、図２の左上に示されるソース言語が入
力された場合に、各レベルの処理を順に行なって最終的
に図２の右側に示されるターゲット言語を得るための処
理である。すなわちソース言語が入力されると、まずレ
ベルＬ１の辞書引き処理、レベルＬ２の形態素解析処
理、レベルＬ３の構文解析処理、…と処理が進められ、
最終的にレベルＬ１０の形態素生成処理が行なわれてタ
ーゲット言語が生成される。

【００３８】機械翻訳は、どのレベルの解析処理まで行
なうかによって、大きく次の２つに分けられる。第１
は、レベルＬ６に示されるソース言語およびターゲット
言語のどちらにも依存しない概念である中間言語まで解
析し、そこからレベルＬ７の文脈生成、レベルＬ８の意
味生成、レベルＬ９の構文生成、レベルＬ１０の形態素
生成へと進み、ターゲット言語を生成していくピボット
方式である。第２は、上述のレベルＬ２の形態素解析、
レベルＬ３の構文解析、レベルＬ４の意味解析およびレ
ベルＬ５の文脈解析のいずれかまで解析を行なってソー
ス言語の内部構造を得、次に、得られたソース言語の内
部構造と同じレベルのターゲット言語の内部構造に変換
した後、ターゲット言語を生成するトランスファー方式
である。

【００３９】以下、図２に示される各解析処理の内容に
ついて説明する。（１）辞書引き、形態素解析ここでは、形態素が格納された辞書を参照しながら入力
された文章を形態素列（単語列）に分割し、この各単語
に対する品詞などの文法情報および訳語を得、さらに時
制・人称・数などを解析する処理が行なわれる。

【００４０】（２）構文解析ここでは、単語間の係り受けなどの文章の構造（構造解
析木）を決定する処理が行なわれる。（３）意味解析複数の構造解析の結果から、意味的に正しいものとそう
でないものとを判別する処理が行なわれる。（４）文脈解析文脈解析処理では、入力された文章の話題を理解し、入
力文章中に含まれる省略部分や曖昧さなどを取去る処理
が行なわれる。

【００４１】次に、図３に示すこの発明の一実施例であ
る機械翻訳装置のブロック図について説明する。同図に
おいて、３１はメインＣＰＵ（中央処理装置）、３２は
メインメモリ、３はＣＲＴ（陰極線管）やＬＣＤ（液晶
表示装置）などからなる表示装置、３４はキーボード、
３５は翻訳モジュール、３６は翻訳モジュール３５に接
続された翻訳用の辞書、文法規則および木変換構造規則
などを格納している辞書メモリ、３７は上記構成部品を
接続するバスである。

【００４２】また、辞書メモリ３６には、イディオム
や、利用者が独自に定義した代表記号を格納しておくこ
とのできる記憶領域を備える。ＣＰＵ３１は、イディオ
ムの登録及び代表記号の登録の処理と、後述する翻訳モ
ジュール３５の処理の制御を行う。

【００４３】翻訳モジュール３５は、ソース言語の文章
が入力されると、それを所定の手順で翻訳してターゲッ
ト言語を出力するものである。すなわち、キーボード３
４から入力されたソース言語はメインＣＰＵ３１の制御
により翻訳モジュール３５に送られる。翻訳モジュール
３５は辞書メモリ３６に記憶されている辞書、文法規則
および木構造変換規則等を用いて、入力されたソース言
語を後に詳述するようにしてターゲット言語に翻訳す
る。その結果は、メインメモリ３２に一旦記憶されると
共に、表示装置３３に表示される。

【００４４】図４に翻訳モジュール３５のブロック図を
示す。翻訳モジュール３５は、バス３７に接続され、バ
ス３７を介して入力されるソース言語を、所定の翻訳プ
ログラムに従って翻訳してターゲット言語としてバス３
７に出力するための翻訳ＣＰＵ４５と、バス３７に接続
され、翻訳ＣＰＵ４５で実行される翻訳プログラムを格
納するための翻訳プログラムメモリ４６と、入力された
ソース言語の原文を各単語ごとに格納するためのバッフ
ァＡ（４０）と、バッファＡ（４０）に格納された各単
語につき、辞書メモリ３６に含まれる辞書を参照して得
た各単語の品詞、訳語などの情報を格納するためのバッ
ファＢ（４１）と、ソース言語の構造解析木に関する情
報を格納するためのバッファＣ（４２）と、ソース言語
の構造解析木から変換されたターゲット言語の構造解析
木を格納するためのバッファＤ（４３）と、バッファＤ
（４３）に格納されたターゲット言語の構造解析木に適
切な附属語（日本語ならば助詞や助動詞など）を補充し
て、ターゲット言語の形として整えられた文章を格納す
るためのバッファＥ（４４）とを含む。

【００４５】以上のような構成を持つ翻訳モジュール３
５において、少なくとも図２に示したレベルＬ３の構文
解析のレベルまでの解析を行うものとする。ここで、翻
訳処理手順を記述した前記翻訳プログラムは、辞書引き
・形態素解析部、イディオム翻訳部、構文解析部、構文
変換部、翻訳文生成部、変化形展開部及び代表記号展開
部から構成される。

【００４６】以下、図３〜図１０を参照して、本実施例
の機械翻訳装置による英日翻訳の動作を説明する。ここ
では、イディオムを含まない英文“This is a pen.”を
例にとって、この英文を日本文に翻訳する動作の概要を
示す。

【００４７】まず、読込まれた原文は形態素解析によっ
て形態素に分解され、図５に示されるようにバッファＡ
（４０）（図４参照）に格納される。続いて翻訳プログ
ラムメモリ４６に記憶されたプログラムに基づく翻訳Ｃ
ＰＵ４５の制御の下に、辞書引き・形態素解析部によっ
て、バッファＡ（４０）に格納された原文の各単語ごと
に、辞書メモリ３６に格納されている辞書を参照するこ
とにより各単語の訳語などの情報が得られる。たとえ
ば、その情報の一部である品詞情報は、図６のようにバ
ッファＢ（４１）に格納される。

【００４８】ここで、“this”の多品詞語であって代名
詞、指示形容詞の２つの品詞を持つ。また“is”の品詞
は動詞である。同様に“a ”、“pen ”についてもそれ
ぞれの品詞がバッファＢ（４１）に格納される。“thi
s”は多品詞語であるが、文中の品詞が何であるかにつ
いては、翻訳プログラムのうち構文解析部に相当する処
理によって一意に決定される。

【００４９】翻訳プログラムのうち構文解析部に相当す
る処理においては、辞書メモリ３６に格納された辞書お
よび文法規則に従って、各単語間の係り受け関係を示す
構造解析木がたとえば図７に示されるように決定され
る。この構文解析結果は図４のバッファＣ（４２）に格
納される。

【００５０】構造解析木の決定は次のようにして行なわ
れる。辞書メモリ３６に格納された文法規則から、英語
に関する文法規則として次のようなものが得られる。文→主部、述部主部→名詞句述部→動詞、名詞句名詞句→代名詞名詞句→冠詞、名詞

【００５１】この規則のうちたとえば１つ目の規則は、
「文は主部と述部からできている。」ということを表わ
す。以下、これらの規則に従って構造解析木が決定され
る。なお、このような文法規則は同じように日本語につ
いても用意されており、英語の文法規則と日本語の文法
規則との間で対応づけがなされている。

【００５２】翻訳プログラムのうち、構文変換部に相当
する処理においては、辞書メモリ３６の木構造変換規則
を用いて、入力された英文の構造解析木（図７参照）の
構造が、図８に示される日本文に対する構文解析木の構
造に変換される。得られた結果は図４に示されるバッフ
ァＤ（４３）に格納される。この説明において用いられ
ている例文“This is a pen.”は、この変換によって日
本語文字列「これペンである」に変換されたことに
なる。

【００５３】翻訳プログラムのうち翻訳文生成部に相当
する処理を行なう部分は、得られた日本語文字列「これ
ペンである」に適切な助詞「は」や助動詞をつける
ことにより、図９に示されるような日本語の形にし、図
４のバッファＥ（４４）に格納する。この得られた日本
文「これはペンである。」は、図３に示される翻訳モジ
ュール３５から出力され、メインメモリ３２に格納され
るとともに、表示装置３３に表示される。

【００５４】以上が、イディオムを含まない文の翻訳処
理の概要であるが、イディオムを含む文の翻訳処理にお
いては、上記処理のほか、イディオム翻訳部におけるイ
ディオムの同定、解析及び訳語の生成処理が行われ、さ
らに、イディオム翻訳部の処理に関連して、変化形展開
部及び代表記号展開部の処理が行われる。

【００５５】ここで変化形展開部は、後述するように、
イディオムの固定部分に対して活用変化などの変化形を
考慮したマッチング処理を行うものである。また、代表
記号展開部は、利用者が独自に定義した代表記号に対し
てマッチング処理を行うものである。以上の各部の処理
は、翻訳モジュール３５の翻訳ＣＰＵ４５によって翻訳
プログラムの手順に従って実行される。

【００５６】次に、図１０〜１４を用いて、見出し語の
うち固定部分を変化形展開記号で表現したイディオムの
登録について説明する。変化形展開記号は、次のような
記号である。＊品詞記号（単語）なお、「品詞記号」は、変化対象の「単語」が多品詞だ
った場合に、どの品詞で変化されるかを指定するための
ものである。

【００５７】たとえば、“as〜as can be”というイデ
ィオムは次のように記述される。英単語［ as *a as *x(can) be. ］訳語この上なく*aでｘは助動詞を表す品詞記号であり、助動詞としてのcan
の過去形couldであっても、このイディオムであること
を表している。品詞記号ｘを指定するのは、canが多品
詞語だからである。

【００５８】すなわち、canは名詞又は動詞としての用
法もあり、品詞の指定がないと、名詞として変化(cans
など)させるべきか、又は動詞として変化(canned)させ
るべきかを特定するのが困難だからである。

【００５９】また、ここで最後のbeには変化展開指定が
ない。これは、canまたはcouldのどちらかであろうが、
be動詞は原形しかありえないからである。このように、
変化形を持つが見出し以外の形は認識してはいけない時
には、変化展開指定をしない。なお変化させるイディオ
ム登録の方が多い場合には、変化指定のデフォルトを逆
にして、無変化の場合に指定させてもよい。

【００６０】以下に、［ I was as happy as could be.］という入力文があった場合を例にとり、このイディオム
を使った翻訳内容を説明する。図１０に、イディオム部
分の翻訳処理のフローチャートを示す。

【００６１】まず、図１０のステップＳ１１１〜Ｓ１１
２において、入力文の先頭単語から順次辞書引きが行わ
れる。代表記号を含んだイディオムも他の単語と同様に
基本辞書に登録されているので、３単語目（s＝3の時）
asの辞書引き中に、［as *aas *x(can) be］の見出しが
検索される（ステップＳ１１３、Ｓ１１７、Ｓ１１
８）。

【００６２】次に、ステップＳ１１４において、イディ
オムの見出し中の各単語と入力文の単語の間でマッチン
グが行われる。イディオム中の固定部分の単語と入力文
の単語の間のマッチングは文字列比較だけで高速に処理
できるので、最初に固定部分だけのマッチング処理を行
う。

【００６３】ここで、この例では、［ as *a as *x(can) be. ］と“ as happy as could b
e.” の間での固定部分のマッチング処理に入る。

【００６４】図１１に、この固定部分のマッチング処理
のフローチャートを示す。まず、イディオム中の単語番
号を示す変数ｐを初期化する（ステップＳ１２１）。ス
テップＳ１２２において、イディオム中の単語番号ｐの
単語Ｗ_Pが固定部分であるかどうか判断し、固定部分で
ない、すなわち可変部分である場合は、ステップＳ１３
２、Ｓ１３３へ処理を進め、すべての単語が調べられる
まで、処理を繰り返す。

【００６５】また、単語Ｗ_Pが固定部分である場合は、
ステップＳ１２３へ進み、単語Ｗ_Pが変化形展開指定か
どうか判断する。単語Ｗ_Pが変化形展開指定の場合は、
ステップＳ１２５、Ｓ１２６へ進み、活用変化させたマ
ッチング処理に入るが、単語Ｗ_Pが変化形展開指定でな
い場合は、単語Ｗ_PとＷ_Sとの比較を行い（ステップＳ
１２４）、一致する場合は、次の単語に対するマッチン
グ処理を繰り返す（ステップＳ１３０〜１３３、Ｓ１２
２）。

【００６６】上記のイディオムの場合、イディオム見出
し先頭の“as”と入力単語が一致しているので、イディ
オム見出しの次の単語“*a”に処理が移る。（ステップ
Ｓ１２２〜Ｓ１２４、Ｓ１３０〜Ｓ１３３）。“*a”は
可変部分を表す代表記号なので、さらに次の単語“as”
に処理が移る（ステップＳ１２２、Ｓ１３２、Ｓ１３
３）。ここで、“as”は変化形展開指定を含まないので
文字列比較を行い（ステップＳ１２４）、一致している
ことがわかる。

【００６７】次に、イディオムと入力文のそれぞれ次の
単語、*x（can)と“could”のマッチングに処理が移る
（ステップＳ１３０〜Ｓ１３３）。*x（can ）は変化形
展開指定なのでステップＳ１２５へ進み、文字列の比較
に入る前に、“can ”の助動詞としての活用変化を行
う。

【００６８】活用変化は時制や単複などの語尾変化の他
に、助動詞や“not”の付加も考慮するので、形態素解
析が持つ語尾処理テーブルだけでなく、図１３に示す変
化形テーブルを使って変化させる。本例では、“can”
を変化展開した“could”“can”に入力の“can”が含
まれることがわかる（ステップＳ１２６）ので、次の単
語のマッチングを調べにいく（ステップＳ１３０〜Ｓ１
３３）。

【００６９】イディオムと入力文のそれぞれ、次の入力
単語（“be”）とbeのマッチングに処理が移る。これも
同様に一致していることがわかり、結局、固定部分のマ
ッチングは成功することがわかる（ステップＳ１３３に
おいて成功終了）。

【００７０】次に、図１０の可変部分のマッチング処理
（ステップＳ１１５）に入る。図１２に、この可変部分
のマッチング処理のフローチャートを示す。最初に、可
変部分の辞書引きを行う（ステップＳ１４１）。固定部
分のマッチングの際に、代表記号＊ａの対象単語が固定
部分に挟まれたhappy でありえることがわかっているの
で、happy の辞書引きを行なう。

【００７１】次に、代表記号の中にユーザ代表記号があ
るかどうか調べ（ステップＳ１４２）、もしあればユー
ザ代表記号を定義本体部に置換する（ステップＳ１４
３）。次に、形態素レベルでチェックできるかどうかを
調べる（ステップＳ１４４）。“*a”はシステム定義の
単語品詞なので、“happy”の品詞が形容詞であること
を確認し（ステップＳ１４５）、可変部分のマッチング
が終了する。

【００７２】もし可変部分の対象単語が複数の単語から
なる場合、すなわち代表記号が句品詞の場合には、構文
処理が呼ばれ、指定の属性がチェックされる（ステップ
Ｓ１４６）。以上で、入力文がイディオム英単語［as *a as *x(can) be. ］訳語この上なく *a でを含むことがわかったので、最後に、次のようなイディ
オム部分の訳文を生成し、訳バッファに格納しておき、
イディオム処理が完了する（ステップＳ１１６）。イディオム部分［as happy as could be］訳文この上なく幸福で

【００７３】さらに処理を繰り返し（ステップＳ１１
７、Ｓ１１８）、イディオムの次の単語から辞書引きを
再開する。この例はイディオムの範囲が文末までなので
この時点で辞書引きが完了する。以降、イディオム以外
の“I was”の単語列に関して、通常の構文解析、構文
変換が行われ、最後に、翻訳文生成処理でイディオム以
外の日本語訳「私は〜あった」とイディオム部分の日本
語訳「この上なく幸福で」の合成が行なわれ、次のよう
な文全体の訳文が得られる。「私は、この上なく幸福であった。」

【００７４】次に、利用者が登録した代表記号を用いた
イディオムの例と、そのイディオムを用いた文の翻訳処
理について説明する。利用者が新しい代表記号を登録す
るために、次のような書式を利用するものとする。〈新記号〉“::=”〈定義本体部〉ここでこのような書式で記述された代表記号は、ＣＰＵ
３１によって辞書メモリ３６に格納される。

【００７５】また、定義本体部は次のように記述する。 “｛”〈文法属性〉“/”〈値〉“，”〈文法属性〉
“/”〈値〉“，”……“｝” 指定できる文法属性と値（属性値）として、利用者に
は、翻訳システムが内部的に定めているあらゆるパラメ
ータを開放する。これにより、文法や意味の詳細な制約
を使って代表記号を定義でき、簡単にイディオム登録に
利用できるようになる。属性と値は、例えば、図１４の
ような属性を考えることができる。

【００７６】このように形態素解析以外の種々のレベル
の属性と値も利用者が指定できるようになると、辞書引
きの段階だけでは、ある単語列が利用者が定義した代表
記号かどうかのチェックができなくなる。例えば、ある
単語列の品詞が「名詞句」であるかどうかは構文解析の
段階まで進まないとわからない。図１４の各属性の値に
はそれぞれどの段階でチェックできるかが明記されてい
る。

【００７７】以下では、 “as 形容詞 a 冠詞無の単数名詞句 as … can” 「この上なく〜」というイディオムに基づき説明する。このイディオムの
語順は特殊であるため、「冠詞無の単数名詞句」という
文法的制約の指定が必要になる。

【００７８】以下に、この文法的制約を表す代表記号の
登録処理と翻訳処理について説明を行なう。図１４の表
を用いると、品詞(cat)が名詞句(n)で、活用形(inf)が
単数(sg)、用法(use)が冠詞なし(detnil)という「冠詞
無の単数名詞句」を表す代表記号は、 *Nsg ::=｛cat/n, inf/sg, use/detnil ｝と登録できる。

【００７９】この代表記号を用いることで、上記イディ
オムは次のように簡単に登録できる。英単語［as *a a *Nsg as *x(can）be］訳語この上なく*a *Nsg

【００８０】次に、このイディオムを用いた翻訳処理を
図１２を用いて説明する。 [ I bought as large a hat as could be. ] があったとすると、まずイディオムの検索から、固定部
分のマッチングまでの処理が、上記実施例と同様に行な
われる。

【００８１】次に、可変部分のマッチングに移る。例で
は、このイディオムの中に利用者が定義した代表記号を
含んでいるので（ステップＳ１４２）、利用者代表記号
を定義本体部に置換する処理を行なう（ステップＳ１４
３）。

【００８２】本例の代表記号*Nsgの定義本体部の場合に
は、｛cat/n, inf/sg, use/detnil ｝のように展開される。図１４を参照することで、このう
ち、cat/n, inf/sg は形態素解析レベルでチェックでき
る（ステップＳ１４５）のに対して、use/detnilは構文
解析まで進んで初めて、冠詞無名詞であることがわかる
（ステップＳ１４６）。すなわち本例では、“a hat”
の“a”はイディオム見出し中に含まれるので、可変部
分は“hat”だけになり、冠詞無名詞(*Nsg)であること
がわかる。

【００８３】上記のようにマッチング処理が成功し、イ
ディオムを認識した後は、上記実施例と同様に処理が進
み、イディオム部分の訳「この上なく大きな帽子」が得
られる。イディオム部分 [ as large a hat as could be ] 訳文この上なく大きな帽子さらに、文全体の訳文「私はこの上なく大きな帽子を買った」が得られる。

【００８４】

【発明の効果】この発明によれば、イディオムの見出し
語の固定部分を変化展開記号を含む表現で登録し、かつ
変化展開記号で表現された固定部分を変形表現に生成展
開し、この変形表現と変化展開記号が存在する位置に相
当する単語又は単語列との同定を行うため、固定部分が
種々の変形表現されることのある複数個のイディオムの
見出し語を、１つの見出し語で登録することができる。
よって、固定部分の種々の変形表現について考えられる
あらゆるパターンを登録する必要はなく、登録されるイ
ディオムの見出し語の増大を押さえることができ、さら
にイディオム記憶容量及び検索時間を抑制できる。

【００８５】また、この発明によれば、新たに定義され
た属性及びその属性値を有する単語又は単語列を代表す
る第２の代表記号を用いてイディオムの見出し語の可変
部分を表現し、かつイディオムの同定を行うので、イデ
ィオムとして登録する見出し語の長さを抑えることがで
きると共に、利用者自身にとって必要な、あるいは、あ
る分野の文章に特有な表現形式を持つイディオムの登録
及び同定をすることができる。

【図面の簡単な説明】

【図１】この発明の機械翻訳装置の基本構成を示すブロ
ック図である。

【図２】機械翻訳の概念を模式的に示す図である。

【図３】この発明の一実施例の構成ブロック図である。

【図４】図３に示される翻訳モジュール３５のブロック
図である。

【図５】バッファＡの格納内容を模式的に示す図であ
る。

【図６】バッファＢの格納内容を模式的に示す図であ
る。

【図７】バッファＣの格納内容を模式的に示す図であ
る。

【図８】バッファＤの格納内容を模式的に示す図であ
る。

【図９】バッファＥの格納内容を模式的に示す図であ
る。

【図１０】辞書引き・イディオム処理を示すフローチャ
ートである。

【図１１】固定部分のマッチング処理を示すフローチャ
ートである。

【図１２】可変部分のマッチング処理を示すフローチャ
ートである。

【図１３】変化形テーブルを模式的に示す図である。

【図１４】代表記号として指定できる属性を模式的に示
す図である。

【符号の説明】

１入力手段２イディオム登録手段３辞書引き・形態素解析手段３ａ品詞抽出部３ｂ訳語抽出部４イディオム翻訳手段４ａイディオム検索部４ｂイディオム同定部４ｃイディオム解析部４ｄイディオム訳語生成部５構文解析手段６構文変換手段７翻訳文生成手段８出力手段９記憶手段９ａ辞書メモリ９ｂバッファメモリ９ｃイディオム登録メモリ９ｄ代表記号登録メモリ１０変化形展開手段１１代表記号登録手段１２代表記号展開手段３１メインＣＰＵ３２メインメモリ３３表示装置３４キーボード３５翻訳モジュール３６辞書メモリ３７バス

───────────────────────────────────────────────────── フロントページの続き (72)発明者九津見毅大阪府大阪市阿倍野区長池町22番22号シャープ株式会社内

Claims

【特許請求の範囲】

【請求項１】文字列および記号を入力する入力手段
と、予め定められた単語又は単語列からなる固定部分と、共
通の属性を持つ単語又は単語列に変化可能な可変部分と
からなるイディオムに対して、前記固定部分が通常の単
語、単語列、又はその単語もしくは単語列の変形表現を
代表する変化展開記号によって表現され、かつ前記可変
部分が所定の属性を共有する単語又は単語列の集合を代
表する第１の代表記号を複合した形式で表現される見出
し語とそのイディオムの訳語を登録するイディオム登録
手段と、イディオムの登録と翻訳処理に必要な辞書及び処理結果
を記憶する記憶手段と、入力単語列を形態素に分解し、かつ文法解析を行う辞書
引き・形態素解析手段と、翻訳すべきイディオムの見出し語に対してその固定部分
を予め設定されたすべての変形表現に生成展開する変化
形展開手段と、入力文字列あるいはその一部分と、登録されたイディオ
ムの見出し語あるいは前記変化形展開手段によってその
見出し語の固定部分が変形表現に展開された見出し語と
の同定を行い、同定されたイディオムの見出し語に対応
する文字列の訳語を生成するイディオム翻訳手段と、構文解析手段と、構文変換手段と、翻訳文生成手段と、
翻訳文を出力する出力手段とを備えたことを特徴とする
イディオム登録機能を有する機械翻訳装置。
【請求項２】前記変化形展開手段が、イディオムの見
出し語の固定部分を、固定部分を構成する単語を活用変
化させた表現形式又はその固定部分に助動詞もしくは否
定副詞を連接させた表現形式に生成展開することを特徴
とする請求項１のイディオム登録機能を有する機械翻訳
装置。
【請求項３】新たに定義された属性とその属性値を有
する単語又は単語列を代表する第２の代表記号を前記記
憶手段に登録する代表記号登録手段と、翻訳すべきイディオムの見出し語の可変部分に含まれる
前記第２の代表記号を定義された属性とその属性値とに
生成展開する代表記号展開手段とを備え、前記イディオム登録手段が、前記入力手段によって入力
された第１の代表記号および／または第２の代表記号を
用いて表現されるイディオムの見出し語とその訳語を登
録し、前記イディオム翻訳手段が、入力文字列あるいは
その一部分の属性及びその属性値と、前記代表記号展開
手段によって生成展開された見出し語の第２の代表記号
の属性及びその属性値との同定を行うことを特徴とする
請求項１または２記載のイディオム登録機能を有する機
械翻訳装置。