JPH08241319A

JPH08241319A - 機械翻訳装置

Info

Publication number: JPH08241319A
Application number: JP7066830A
Authority: JP
Inventors: Toshiyuki Sugio; 俊之杉尾
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1995-03-01
Filing date: 1995-03-01
Publication date: 1996-09-17

Abstract

(57)【要約】【目的】専門用語に限らず、広く重要な用語を自動的
に原文から抽出し、充分な言語外知識を得る。【構成】翻訳対象となる入力文書１が入力手段３を通
じて入力されると、機械翻訳手段４によって構文解析さ
れ単語に切り分けられる。用語抽出規則は、例えば名詞
がいくつか連結された単語列を抽出するといった内容と
なる。この場合、用語抽出手段７は入力文書１の名詞が
連続した単語列を検索し、その全てを抽出する。入力文
書１の中でそのような単語列が何回使われているか等の
統計をとれば、繰り返し使われる重要な単語列が選別で
きる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、自然言語で記述された
文書から、任意の単語列を抽出する機能を持つ機械翻訳
装置に関する。

【０００２】

【従来の技術】翻訳作業をコンピュータにより自動化し
た機械翻訳装置は、実用化とその機能向上のための開発
や改善が盛んに進められている。任意の言語を他の任意
の言語に翻訳する機械翻訳装置を実用的に利用するため
には、機械翻訳装置が他の翻訳の対象となる言語に関わ
る知識を保持するだけでは十分でない。言語に直接関係
しないが、翻訳の対象となる文書の関連分野や文化等、
その言語を取り巻く情報や知識を備える必要がある。こ
のような知識は言語外知識と呼ばれ、高品質の翻訳結果
を得るために、重要な知識である。

【０００３】この言語外知識の１つとして、翻訳対象文
書に用いられている用語に関わる情報がある。この情報
は専門用語とも呼ばれ、このような用語の用い方や訳語
を前もって機械翻訳装置に示しておくと、その翻訳性能
が格段に向上する。従来、このような言語外知識を得る
ための装置として、例えば特開平６−３５９５４号公報
等に記載された技術が紹介されている。この装置は、従
来の英日機械翻訳器に対し専門用語訳出機能を持たせて
いる。翻訳の際には原文中の専門用語が専門用語検索手
段により検索され、その専門用語及び訳語が専門用語記
憶手段に記憶されて翻訳に利用される。

【０００４】

【発明が解決しようとする課題】しかしながら、上記の
ような従来の機械翻訳装置には次のような解決すべき課
題があった。従来知られている機械翻訳装置は、翻訳の
助けとなる言語外知識を得るために、予め専門用語のリ
スト等を用意し、そのリストに挙げられた専門用語を翻
訳対象となる文書中から抽出するといった処理が必要と
なる。しかしながら、翻訳対象となる文書は様々であ
る。一般に、文書中で繰り返し使用される用語は重要性
が高いが、このような用語は全て予め用意した専門用語
の辞書に準備されているとは限らない。従って、専門用
語に限らず広く重要な用語を原文から抽出し、これに関
する情報を用意することが好ましい。また、機械翻訳装
置がこの種の情報を可能な限り自動的に抽出処理する機
能を持つことが好ましい。

【０００５】

【課題を解決するための手段】本発明は以上の点を解決
するため次の構成を採用する。自然言語のテキストから
構成される入力文書を受け入れる入力手段と、入力文書
の翻訳のために形態素解析を実行する機械翻訳手段と、
機械翻訳手段の得た形態素情報を利用して、入力文書を
構成する形態素毎にその入力文書を分割して、各形態素
と共にその属性情報を含めて表示した文書構成表を生成
する文書分割手段と、文書構成表を使用して、予め設定
された用語抽出規則に従って、入力文書中から形態素列
を抽出する用語抽出手段とを備える。

【０００６】また、本発明は次のような実施の態様が考
えられる。用語抽出手段は、用語抽出規則の名称と抽出
された形態素列群とで構成される統計情報を生成して出
力する。用語抽出手段の出力した統計情報に基づいて、
抽出した用語列毎の出現頻度を集計処理して、翻訳支援
資料を生成する統計手段を備える。各形態素が、入力文
書を構成する単語であるとき、文書構成表の属性情報に
は、各単語の品詞と訳語を含める。用語抽出規則は、抽
出すべき形態素列を構成する形態素の数と、各形態素の
品詞を指定する規則から成る。

【０００７】

【作用】翻訳対象となる入力文書が入力手段を通じて入
力されると、機械翻訳手段によって構文解析され単語に
切り分けられる。用語抽出規則は、例えば名詞がいくつ
か連結された単語列を抽出するといった内容となる。こ
の場合、用語抽出手段は入力文書の名詞が連続した単語
列を検索し、その全てを抽出する。入力文書の中でその
ような単語列が何回使われているか等の統計をとれば繰
り返し使われる重要な単語列が選別できる。これを翻訳
に利用する。

【０００８】

【実施例】以下、本発明を図の実施例を用いて詳細に説
明する。図１は、本発明の装置の実施例を示すブロック
図である。図の装置は、入力文書１について所定の用語
抽出条件２に従って任意の用語を抽出するように構成さ
れている。この目的のために、入力手段３、機械翻訳手
段４、文書分割手段５、用語抽出手段７、統計手段１
０、出力手段１１等が設けられている。

【０００９】入力文書１はこの装置によって翻訳される
自然言語で記述されたテキストから成る。用語抽出条件
２は、この装置の使用者が指定するもので、入力文書の
用語抽出処理の対象となる範囲や抽出用語列の品詞組成
等を示すデータである。なお、そのうち、抽出用語列の
品詞組成等、用語抽出のために直接必要な規則は、用語
抽出規則８にそのまま送り込まれて用語抽出手段７に参
照される。入力手段３は入力文書１や用語抽出条件２を
この装置に取り込むためのキーボード等から構成され
る。入力文書１は、例えばフロッピーディスク等により
入力される。機械翻訳手段４は、従来一般に使用されて
いるコンピュータによる機械翻訳処理を実行する部分
で、形態素解析、構文解析、構文変換、構文生成、形態
素生成等を実施する部分である。これによって、入力文
書１が形態素毎に切り分け可能となる。なお、この形態
素というのは、例えば英語や日本語でいえば、単語等の
一定の意味を持つ文字群のことをいう。

【００１０】この機械翻訳手段４は、この装置が実際に
文書を翻訳する場合に、図示しない辞書等を参照し翻訳
処理を実行する。本発明の装置はこの機械翻訳手段４に
よる入力文書の形態素解析機能を利用し、その出力をそ
の後の単語抽出処理に使用している。文書分割手段５
は、機械翻訳手段４から得られた形態素情報をもとに入
力文書１の形態素毎に検索用の属性情報を含め、文書構
成表６を生成する部分である。なお、この文書構成表６
は、後で図２を用いて説明する。

【００１１】用語抽出手段７は、こうして得られた文書
構成表６を参照しながら、入力文書１から用語抽出規則
８により指定された規則に合致する形態素列、即ち、こ
の実施例では単語列を抽出する部分である。例えば、用
語抽出規則８が、名詞が２〜４個連結された単語列とい
う指定の仕方であれば、そのような単語列を入力文書１
から抽出する。こうして得られた単語列は後で統計手段
１０によって統計処理を行うため、統計情報９として保
存される。統計手段１０は、後で具体的に説明するよう
に、例えばある単語列が入力文書１の中で何回使用され
ているか等の情報を得る統計処理を行う部分である。出
力手段１１は、統計手段１０の処理結果と機械翻訳手段
４の出力とを用語抽出条件２等で予め指定された出力形
式に従って出力するプリンタやディスプレイ等の出力装
置から構成される。出力文書１２は出力手段１１によっ
て印刷出力された文書である。

【００１２】なお、本発明の装置では、入力文書１は自
然言語の形式をとっている限り、英語、日本語といった
言語種による制限を受けない。また、機械翻訳手段の構
成も、文書分割手段５に対し形態素情報を出力すること
ができるものであれば、どのようなものであってもよ
い。

【００１３】図２に、文書構成表の内容説明図を示す。
一般に、入力文書は多数の文から構成されている。図の
２１−１，２１−２，２１−Ｎは、入力文書がＮ個の文
から構成されているものとして付けた符号である。ま
た、各文書はそれぞれいくつかの単語から構成される。
この例では、各単語を指定する記号としてノード２２を
設けた。このノード２２は“，”を挟んで両側に数字が
配置されたデータである。左側の数字は文書番号を示
し、右側の数字はその文書の中の何番目の単語かという
ことを示している。

【００１４】また、属性情報２３には、各単語の属性の
値が列挙される。例えば、この例では属性１の値が見出
し情報、属性２の値が品詞情報、属性Ｘの値が訳語情報
とする。例えば、ノードが（１，１）の単語が「機械」
であるとすると、属性１の値は見出し情報であるから
「機械」となる。属性２の値は品詞情報であるから、
「名詞」となる。更に、属性Ｘの値は訳語情報であるか
ら「マシン」となる。更に、例えば文番号が２１−Ｎの
文の内容が「この機械翻訳装置は適当な用語を抽出す
る」というものであるとする。その場合、この文は、
「この」「機械翻訳」「装置」「は」「適当な」「用
語」「を」「抽出する」という８個の形態素で構成され
る。従って、ノードは（Ｎ，１）、（Ｎ，２）〜（Ｎ，
８）となる。ノード（Ｎ，１）は「この」に対応し、ノ
ード（Ｎ，２）は「機械翻訳」に対応する。なお、形態
素としてこの例では「機械翻訳」という用語を一体に取
り扱ったが、「機械」と「翻訳」の２個に分割されてい
ても差し支えない。これは、図１に示す機械翻訳手段４
の機能に依存する。その結果、例えばノード（Ｎ，８）
には属性１の値として「抽出する」、属性２の値として
「動詞」、属性Ｘの値として「ｅｘｔｒａｃｔ」が格納
される。

【００１５】このような文書構成表を用語抽出のために
作成したのは、入力文書を読み取りながら用語抽出規則
にあった単語列を検索して抽出し、更に統計処理を行う
のに都合のよい形式の情報となるからである。

【００１６】図１に示した統計手段１０で統計処理する
ための統計情報９の内容を図３に示す。即ち、この図３
は統計情報の一般形式を示す図である。図に示すよう
に、統計情報は、抽出された単語列についての文書構成
表から抜き出した情報と、その抽出に使用された適用規
則名２４から構成される。例えば、２個の名詞が連結さ
れた単語列を抽出することが、図１に示す用語抽出規則
８の内容であったとすると、適用規則名２４にはそのよ
うな規則名の名称が格納される。また、これに連なるノ
ード２２は、例えば図２に示す文章の中のいずれかのノ
ード番号となる。先に説明した「機械翻訳」と「装置」
とが抽出された場合には、ノードは（Ｎ，２）と（Ｎ，
３）となる。また、ノード（Ｎ，２）の属性１の値は
「機械翻訳」、ノード（Ｎ，３）の属性１の値は「装
置」となる。

【００１７】なお、この統計情報の左端に位置するノー
ドと右端に位置するノードとを比較すれば、この単語列
が何個の単語により構成されているかがわかる。即ち、
左端のノードの右側の数字がｍ、右端のノードの右側の
数字がｍ＋Ｙとすれば、（Ｙ＋１）個が単語列の単語列
の数を示す。もちろん、適用規則名２４から適用規則の
内容を調べて単語列の数を知ることもできる。

【００１８】図４には、用語抽出規則の説明図を示す。
用語抽出規則は、例えばこの図に示すような形式で記述
される。図の１番上の行に表示された部分はパターン表
現と呼び、２行目から４行目までの部分は属性条件表現
と呼ぶ。パターン表現の左端のＲは規則という意味であ
る。また、その次の＊Ｈは抽出される単語列の左側前方
にはどのような単語が存在してもよいことを示す。右端
の＊Ｔは抽出される単語列の右側後方にどのような単語
があってもよいことを示す。また、（４−２）は抽出さ
れる単語が４〜２語連結されたものであることを指定し
ている。更に、Ｎ３，Ｎ２，Ｎ１は属性条件表現と対応
させるための符号である。ここでは、最初の単語はＮ
３、最後の単語はＮ１、中間の単語は０〜２個のＮ２に
より構成されるといった指定を行っている。なお、この
例ではＮ１〜Ｎ３はいずれも品詞が名詞の単語である。

【００１９】このような用語抽出規則を一般的に表す
と、次の図５に示すような形式となる。図（ａ）に示す
ように、用語抽出規則３０は「；」の区切り３１を境に
したパターン表現４０と属性条件表現５０とで構成され
る。（ｂ）に示すように、パターン表現４０はノード識
別子４１の後に、［］による区切り４２，４６により挟
まれたノード列表現６０あるいはパターン表現４０とノ
ード識別子４５から構成される。ノード識別子４１は、
区切り４２，４６に挟まれた部分を区別するためのラベ
ルである。ここでは、抽出すべき単語列の構成をノード
別表現により指定してもよいし、パターン表現により指
定してもよい。また、別の抽出規則のノード識別子を引
用することもできる。

【００２０】これによって、パターン表現４０を用いて
複数の用語抽出規則とその関係を記述することが可能で
ある。また、このようなパターン表現は区切り４２と４
６の間に挟み込むことによって再帰的に記述することが
できる。従って、照合パターンは入れ子構造になること
もある。属性条件表現５０は、（ｃ）に示すように、ノ
ード識別子５１、区切り５２、属性名５３、比較演算子
５４、属性値５５、区切り５６から構成される。属性条
件表現５０のノード識別子５１は、パターン表現４０等
を用いて説明したノード識別子４１を引用することがで
きる。また、属性名５３は、図２を用いて説明した文書
構成表の各属性の名称を示し、比較演算子５４や属性値
５５によってそのノードの属性条件を記述する。即ち、
属性条件表現５０によれば、例えば属性名がある属性値
と等しいものを指定するといった内容の指定ができる。

【００２１】（ｄ）に示すノード列表現６０は、区切り
６１，６５に挟まれて、ノード数６２とハイフン６３及
びノード数６４から構成される。これは図４に示した単
語Ｎ２の数を２−０というように指定した例からわかる
ように、ノードの数を範囲で指定する。ノードの数が一
定の場合には、ハイフン６３とノード数６４は不要であ
る。ノード記号表現６６はこの他に任意のノード指定方
法を設定できる。例えば、２個のノードを割り当てると
か、１個のノードを割り当てるといった指定もできる。

【００２２】図６には、図１に示した入力手段３の動作
を示すフローチャートを図示した。この図６〜図２０を
用いて、図１に示す装置各部の動作を順に説明する。ま
ず図６のステップＳ１において、入力手段３により入力
文章及び用語抽出条件を入力する。入力文書１は、先に
説明したように自然言語で記述された文書であって、キ
ーボードを用いて入力されたり、あるいはフロッピーデ
ィスク、ＯＣＲ等様々な媒体により入力される。用語抽
出条件２は用語抽出のための要求事項であって、入力文
書１の所定の範囲から所定の用語を抽出するといった内
容となる。ステップＳ２において、このような抽出範囲
を指定し、ステップＳ３において、用語構成条件を設定
する。用語構成条件というのは用語がいくつかの特定の
品詞を連結したものであれば、そのような内容を設定す
る。ステップＳ４においては統計条件を設定する。統計
条件としては、抽出された用語列毎の出現頻度を集計処
理したり、抽出された用語列の種類に応じた分布状況を
調べるといった内容となる。ステップＳ５においては、
出力書式を設定する。この出力書式は、例えば原文や訳
文の出力形式、抽出された用語列の表示形式、そのよう
な用語列が含まれる文章の表示形式等となる。ステップ
Ｓ６において、入力文書を機械翻訳手段に転送すること
により、入力手段の処理を終る。

【００２３】図７には、文書分割手段の動作を示すフロ
ーチャートを図示した。文書分割手段５は、機械翻訳手
段４から、まずステップＳ１において、その入力文書に
関する形態素情報を得る。機械翻訳手段４は入力手段３
から入力文書１と抽出対象範囲に関する情報を得て動作
を開始し、入力文書１を文章に分割した後、その形態素
解析を実施する。これによって、入力文書の形態素情報
が得られ、文書分割手段５はこれを受け入れる。文書分
割手段５は、このような形態素情報に先に説明したよう
なノード番号等を付して文書構成表を生成し保存する
（ステップＳ２）。抽出すべき範囲の全ての文章に関す
る文書構成表を生成すると、文書分割手段の動作が終了
する。即ち、ステップＳ２において、このような文書構
成表を作成し、ステップＳ３において、更に他に処理す
べきものがあるかどうかを判断し、ステップＳ２とステ
ップＳ３を繰り返して処理を完了する。

【００２４】図８に、用語抽出段の動作を示すフローチ
ャートを示す。用語抽出手段７は文書構成表６から文書
データを得る（ステップＳ１）。そして、得られた文書
データに用語抽出規則８を適用する（ステップＳ２）。
そして、ステップ３において、適用できる規則が存在す
るかどうかを判断する。適用できる規則が存在する場合
には、ステップＳ４において、適用規則名とともに照合
パターンを統計情報として格納する。これは、先に図３
を用いて示した形式の情報である。また、適用できる規
則がなければ、文書構成表の全ての文書データを処理し
たかどうかをステップＳ５において判断する。そして、
このような処理を繰り返し、用語抽出作業を進める。

【００２５】図９〜図１８を用いて、この用語抽出手段
のさらに具体的な動作例を説明する。図９は、処理対象
となる文章データの例説明図である。この文章データ
は、例えば「この機械翻訳装置は適当な用語を抽出す
る」という内容とする。この場合、図２に示した文書構
成表の属性の値にはこの図中に示すような、見出し情
報、品詞情報、訳語情報等が含められる。例えば、「機
械翻訳」という単語は、見出し情報が「機械翻訳」、品
詞が「名詞」、訳語は「ＭＴ」とされる。

【００２６】図１０には、この文書から抽出される用語
の抽出規則例内容説明図を示す。図の（ａ）に示す規則
は、図４を用いて説明した規則と同一のものである。こ
の規則によれば「機械翻訳装置」といった単語列が抽出
される。また（ｂ）に示す規則は４つの単語から構成さ
れる用語抽出にあたり、最初の品詞は修飾語であって、
形容詞、形容動詞、動詞のいずれでも良いという内容の
規則になっている。また、その活用形は連体形であると
いう規則になっている。この（ｂ）の規則によれば、
「適当な用語」といった単語列が抽出される。

【００２７】図１１〜図１８に列挙したデータは、用語
抽出手段７が、文書構成表６の各ノードを順番にその区
切りを変更しながら、用語抽出規則に適合する単語の抽
出を行う際の中間データを示したものである。ここで
は、全部で３６段階に渡って区切りを変更しながら規則
との照合を行っている。例えば、図１１に示す（１）段
階では入力文章を初めの４個の単語と後ろの４個の単語
とに２分し、各単語が規則に照らして適合しているかど
うかを判断している。最初のＮ３は「この」であって名
詞ではない。従って、この時点で段階（１）の区切りは
（ａ）の規則に適合しないことがわかる。

【００２８】また、段階（５）を見ると、最初の「こ
の」という単語を除外し、これに続く３個の単語と４個
の単語とを区切っている。最初の３個の単語の先頭の単
語は「機械翻訳」であり、名詞である。また、２番目の
単語は「装置」であり、これも名詞である。従って、こ
のＮ３、Ｎ２の条件は満足している。しかしながら、Ｎ
１の部分に該当する「は」という単語は名詞ではない。
従って、この場合にも（ａ）の用語抽出規則を満たさな
い。

【００２９】一方、図１２の（６）段階では、最初の単
語が「機械翻訳」で、次の単語が「装置」という２個の
名詞を組み合わせた抽出を行っている。この場合、Ｎ３
も名詞、Ｎ１も名詞で、Ｎ２は存在しない。これは、
（ａ）の用語抽出規則に適合している。このため、「機
械翻訳」という単語が抽出される。同様に、区切りを変
更していくと、図１３〜図１７の各段階では適合する単
語は見当らない。しかし、図１８の段階（３３）におい
て、「適当な用語」の前後に区切りをとり、最初の「適
当だ」という単語を見ると、これは形容詞であって規則
に適合する。しかも、その用い方は連体形であって規則
に適合する。更に、Ｎ２は存在しない。また、Ｎ１は
「用語」であって、その品詞は名詞である。従って、
「適当な用語」というのは（ｂ）の規則に適合している
ことがわかる。以上の結果、「機械翻訳装置」と「適当
な用語」という言葉が抽出された。このように、用語抽
出規則の指定によって任意の単語列が効率的に抽出でき
ることがわかる。

【００３０】図１９に、統計手段の動作を示すフローチ
ャートを示す。まず、ステップＳ１において、入力手段
から統計条件を得る。そして、ステップＳ２において、
統計条件に従って統計情報から出力情報を得る。例え
ば、統計条件が同一の用語列が入力文章中に何回あるか
を示すといった内容であれば、同一の用語列が何回抽出
されたかを統計情報９を参照しながらカウントし、その
結果を得る。そして、ステップＳ３において、出力情報
を出力手段に転送する。

【００３１】図２０は、出力手段の動作を示すフローチ
ャートである。まず、ステップＳ１において、出力手段
は入力手段から出力書式を得て、ステップＳ２におい
て、統計手段から得た出力情報を加工し出力書式に整形
する。そして、ステップＳ３において、翻訳手段からの
情報が必要であるかどうかを判断し、情報が必要であれ
ば、ステップＳ４において、翻訳手段から得た出力情報
を加工して出力書式に整形する。不要であれば、ステッ
プＳ３からステップＳ５に移り、出力情報をそのまま出
力文書として出力する。これは印刷によってもよいし、
ディスプレイ等に表示する方法でもよい。

【００３２】本発明は以上の実施例に限定されない。上
記実施例では日本語の文書から名詞句を抽出する例を示
したが、用語抽出規則の構成を変更すること等によって
英語の名詞句を抽出したり、種々の言語に対する任意の
単語列、形態素列の抽出が可能である。更に、その用語
抽出規則の形式自身はどのように設定しても差し支えな
く、区切り記号等も任意に選択できる。更に、出力手段
に与える書式を例えば機械翻訳装置の辞書と同形式にな
るように設定すると、出力手段によって機械翻訳処理の
補助のための辞書を生成することが可能になる。また、
文書構成表や用語抽出規則の構成を変更すれば、パター
ン翻訳を行う機械翻訳装置への適用が可能となる。

【００３３】

【発明の効果】以上説明した本発明の機械翻訳装置は、
機械翻訳手段によって入力文書を解析し形態素情報を得
るとともに、その形態素情報によって所定の形式の文書
構成表を生成し、これに基づいて任意の単語列を抽出す
るようにしたので、翻訳対象となる文書中に頻繁に使用
されている単語列等を自動的に抽出し、これに適切な翻
訳を与えることによって翻訳の質を高めることができ
る。

【図面の簡単な説明】

【図１】本発明の装置の実施例を示すブロック図であ
る。

【図２】文書構成表の内容説明図である。

【図３】統計情報の一般形式を示す図である。

【図４】用語抽出規則の説明図である。

【図５】用語抽出規則の一般形式の例を示す図である。

【図６】入力手段の動作を示すフローチャートである。

【図７】文書分割手段の動作を示すフローチャートであ
る。

【図８】用語抽出手段の動作を示すフローチャートであ
る。

【図９】文章データの例説明図である。

【図１０】実施例の用語抽出規則内容説明図である。

【図１１】用語抽出手段の処理データ説明図（その１）
である。

【図１２】用語抽出手段の処理データ説明図（その２）
である。

【図１３】用語抽出手段の処理データ説明図（その３）
である。

【図１４】用語抽出手段の処理データ説明図（その４）
である。

【図１５】用語抽出手段の処理データ説明図（その５）
である。

【図１６】用語抽出手段の処理データ説明図（その６）
である。

【図１７】用語抽出手段の処理データ説明図（その７）
である。

【図１８】用語抽出手段の処理データ説明図（その８）
である。

【図１９】統計手段の動作を示すフローチャートであ
る。

【図２０】出力手段の動作を示すフローチャートであ
る。

【符号の説明】

１入力文書２用語抽出条件３入力手段４機械翻訳手段５文書分割手段６文書構成表７用語抽出手段８用語抽出規則９統計情報１０統計手段１１出力手段１２出力文書

Claims

【特許請求の範囲】

【請求項１】自然言語のテキストから構成される入力
文書を受け入れる入力手段と、前記入力文書の翻訳のために形態素解析を実行する機械
翻訳手段と、前記機械翻訳手段の得た形態素情報を利用して、前記入
力文書を構成する形態素毎にその入力文書を分割して、
前記各形態素と共にその属性情報を含めて表示した文書
構成表を生成する文書分割手段と、前記文書構成表を使用して、予め設定された用語抽出規
則に従って、前記入力文書中から形態素列を抽出する用
語抽出手段とを備えたことを特徴とする機械翻訳装置。
【請求項２】用語抽出手段は、用語抽出規則の名称と
抽出された形態素列群とで構成される統計情報を生成し
て出力することを特徴とする請求項１記載の機械翻訳装
置。
【請求項３】用語抽出手段の出力した統計情報に基づ
いて、抽出した用語列毎の出現頻度を集計処理して、翻
訳支援資料を生成する統計手段を備えたことを特徴とす
る請求項１または２記載の機械翻訳装置。
【請求項４】各形態素が、入力文書を構成する単語で
あるとき、文書構成表の属性情報には、各単語の品詞と
訳語を含めることを特徴とする請求項１から３に記載の
機械翻訳装置。
【請求項５】用語抽出規則は、抽出すべき形態素列を
構成する形態素の数と、各形態素の品詞を指定する規則
から成ることを特徴とする請求項１から３に記載の機械
翻訳装置。