JPH08241319A - 機械翻訳装置 - Google Patents

機械翻訳装置

Info

Publication number
JPH08241319A
JPH08241319A JP7066830A JP6683095A JPH08241319A JP H08241319 A JPH08241319 A JP H08241319A JP 7066830 A JP7066830 A JP 7066830A JP 6683095 A JP6683095 A JP 6683095A JP H08241319 A JPH08241319 A JP H08241319A
Authority
JP
Japan
Prior art keywords
document
term
morpheme
machine translation
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7066830A
Other languages
English (en)
Inventor
Toshiyuki Sugio
俊之 杉尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP7066830A priority Critical patent/JPH08241319A/ja
Publication of JPH08241319A publication Critical patent/JPH08241319A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 専門用語に限らず、広く重要な用語を自動的
に原文から抽出し、充分な言語外知識を得る。 【構成】 翻訳対象となる入力文書1が入力手段3を通
じて入力されると、機械翻訳手段4によって構文解析さ
れ単語に切り分けられる。用語抽出規則は、例えば名詞
がいくつか連結された単語列を抽出するといった内容と
なる。この場合、用語抽出手段7は入力文書1の名詞が
連続した単語列を検索し、その全てを抽出する。入力文
書1の中でそのような単語列が何回使われているか等の
統計をとれば、繰り返し使われる重要な単語列が選別で
きる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自然言語で記述された
文書から、任意の単語列を抽出する機能を持つ機械翻訳
装置に関する。
【0002】
【従来の技術】翻訳作業をコンピュータにより自動化し
た機械翻訳装置は、実用化とその機能向上のための開発
や改善が盛んに進められている。任意の言語を他の任意
の言語に翻訳する機械翻訳装置を実用的に利用するため
には、機械翻訳装置が他の翻訳の対象となる言語に関わ
る知識を保持するだけでは十分でない。言語に直接関係
しないが、翻訳の対象となる文書の関連分野や文化等、
その言語を取り巻く情報や知識を備える必要がある。こ
のような知識は言語外知識と呼ばれ、高品質の翻訳結果
を得るために、重要な知識である。
【0003】この言語外知識の1つとして、翻訳対象文
書に用いられている用語に関わる情報がある。この情報
は専門用語とも呼ばれ、このような用語の用い方や訳語
を前もって機械翻訳装置に示しておくと、その翻訳性能
が格段に向上する。従来、このような言語外知識を得る
ための装置として、例えば特開平6−35954号公報
等に記載された技術が紹介されている。この装置は、従
来の英日機械翻訳器に対し専門用語訳出機能を持たせて
いる。翻訳の際には原文中の専門用語が専門用語検索手
段により検索され、その専門用語及び訳語が専門用語記
憶手段に記憶されて翻訳に利用される。
【0004】
【発明が解決しようとする課題】しかしながら、上記の
ような従来の機械翻訳装置には次のような解決すべき課
題があった。従来知られている機械翻訳装置は、翻訳の
助けとなる言語外知識を得るために、予め専門用語のリ
スト等を用意し、そのリストに挙げられた専門用語を翻
訳対象となる文書中から抽出するといった処理が必要と
なる。しかしながら、翻訳対象となる文書は様々であ
る。一般に、文書中で繰り返し使用される用語は重要性
が高いが、このような用語は全て予め用意した専門用語
の辞書に準備されているとは限らない。従って、専門用
語に限らず広く重要な用語を原文から抽出し、これに関
する情報を用意することが好ましい。また、機械翻訳装
置がこの種の情報を可能な限り自動的に抽出処理する機
能を持つことが好ましい。
【0005】
【課題を解決するための手段】本発明は以上の点を解決
するため次の構成を採用する。自然言語のテキストから
構成される入力文書を受け入れる入力手段と、入力文書
の翻訳のために形態素解析を実行する機械翻訳手段と、
機械翻訳手段の得た形態素情報を利用して、入力文書を
構成する形態素毎にその入力文書を分割して、各形態素
と共にその属性情報を含めて表示した文書構成表を生成
する文書分割手段と、文書構成表を使用して、予め設定
された用語抽出規則に従って、入力文書中から形態素列
を抽出する用語抽出手段とを備える。
【0006】また、本発明は次のような実施の態様が考
えられる。用語抽出手段は、用語抽出規則の名称と抽出
された形態素列群とで構成される統計情報を生成して出
力する。用語抽出手段の出力した統計情報に基づいて、
抽出した用語列毎の出現頻度を集計処理して、翻訳支援
資料を生成する統計手段を備える。各形態素が、入力文
書を構成する単語であるとき、文書構成表の属性情報に
は、各単語の品詞と訳語を含める。用語抽出規則は、抽
出すべき形態素列を構成する形態素の数と、各形態素の
品詞を指定する規則から成る。
【0007】
【作用】翻訳対象となる入力文書が入力手段を通じて入
力されると、機械翻訳手段によって構文解析され単語に
切り分けられる。用語抽出規則は、例えば名詞がいくつ
か連結された単語列を抽出するといった内容となる。こ
の場合、用語抽出手段は入力文書の名詞が連続した単語
列を検索し、その全てを抽出する。入力文書の中でその
ような単語列が何回使われているか等の統計をとれば繰
り返し使われる重要な単語列が選別できる。これを翻訳
に利用する。
【0008】
【実施例】以下、本発明を図の実施例を用いて詳細に説
明する。図1は、本発明の装置の実施例を示すブロック
図である。図の装置は、入力文書1について所定の用語
抽出条件2に従って任意の用語を抽出するように構成さ
れている。この目的のために、入力手段3、機械翻訳手
段4、文書分割手段5、用語抽出手段7、統計手段1
0、出力手段11等が設けられている。
【0009】入力文書1はこの装置によって翻訳される
自然言語で記述されたテキストから成る。用語抽出条件
2は、この装置の使用者が指定するもので、入力文書の
用語抽出処理の対象となる範囲や抽出用語列の品詞組成
等を示すデータである。なお、そのうち、抽出用語列の
品詞組成等、用語抽出のために直接必要な規則は、用語
抽出規則8にそのまま送り込まれて用語抽出手段7に参
照される。入力手段3は入力文書1や用語抽出条件2を
この装置に取り込むためのキーボード等から構成され
る。入力文書1は、例えばフロッピーディスク等により
入力される。機械翻訳手段4は、従来一般に使用されて
いるコンピュータによる機械翻訳処理を実行する部分
で、形態素解析、構文解析、構文変換、構文生成、形態
素生成等を実施する部分である。これによって、入力文
書1が形態素毎に切り分け可能となる。なお、この形態
素というのは、例えば英語や日本語でいえば、単語等の
一定の意味を持つ文字群のことをいう。
【0010】この機械翻訳手段4は、この装置が実際に
文書を翻訳する場合に、図示しない辞書等を参照し翻訳
処理を実行する。本発明の装置はこの機械翻訳手段4に
よる入力文書の形態素解析機能を利用し、その出力をそ
の後の単語抽出処理に使用している。文書分割手段5
は、機械翻訳手段4から得られた形態素情報をもとに入
力文書1の形態素毎に検索用の属性情報を含め、文書構
成表6を生成する部分である。なお、この文書構成表6
は、後で図2を用いて説明する。
【0011】用語抽出手段7は、こうして得られた文書
構成表6を参照しながら、入力文書1から用語抽出規則
8により指定された規則に合致する形態素列、即ち、こ
の実施例では単語列を抽出する部分である。例えば、用
語抽出規則8が、名詞が2〜4個連結された単語列とい
う指定の仕方であれば、そのような単語列を入力文書1
から抽出する。こうして得られた単語列は後で統計手段
10によって統計処理を行うため、統計情報9として保
存される。統計手段10は、後で具体的に説明するよう
に、例えばある単語列が入力文書1の中で何回使用され
ているか等の情報を得る統計処理を行う部分である。出
力手段11は、統計手段10の処理結果と機械翻訳手段
4の出力とを用語抽出条件2等で予め指定された出力形
式に従って出力するプリンタやディスプレイ等の出力装
置から構成される。出力文書12は出力手段11によっ
て印刷出力された文書である。
【0012】なお、本発明の装置では、入力文書1は自
然言語の形式をとっている限り、英語、日本語といった
言語種による制限を受けない。また、機械翻訳手段の構
成も、文書分割手段5に対し形態素情報を出力すること
ができるものであれば、どのようなものであってもよ
い。
【0013】図2に、文書構成表の内容説明図を示す。
一般に、入力文書は多数の文から構成されている。図の
21−1,21−2,21−Nは、入力文書がN個の文
から構成されているものとして付けた符号である。ま
た、各文書はそれぞれいくつかの単語から構成される。
この例では、各単語を指定する記号としてノード22を
設けた。このノード22は“,”を挟んで両側に数字が
配置されたデータである。左側の数字は文書番号を示
し、右側の数字はその文書の中の何番目の単語かという
ことを示している。
【0014】また、属性情報23には、各単語の属性の
値が列挙される。例えば、この例では属性1の値が見出
し情報、属性2の値が品詞情報、属性Xの値が訳語情報
とする。例えば、ノードが(1,1)の単語が「機械」
であるとすると、属性1の値は見出し情報であるから
「機械」となる。属性2の値は品詞情報であるから、
「名詞」となる。更に、属性Xの値は訳語情報であるか
ら「マシン」となる。更に、例えば文番号が21−Nの
文の内容が「この機械翻訳装置は適当な用語を抽出す
る」というものであるとする。その場合、この文は、
「この」「機械翻訳」「装置」「は」「適当な」「用
語」「を」「抽出する」という8個の形態素で構成され
る。従って、ノードは(N,1)、(N,2)〜(N,
8)となる。ノード(N,1)は「この」に対応し、ノ
ード(N,2)は「機械翻訳」に対応する。なお、形態
素としてこの例では「機械翻訳」という用語を一体に取
り扱ったが、「機械」と「翻訳」の2個に分割されてい
ても差し支えない。これは、図1に示す機械翻訳手段4
の機能に依存する。その結果、例えばノード(N,8)
には属性1の値として「抽出する」、属性2の値として
「動詞」、属性Xの値として「extract」が格納
される。
【0015】このような文書構成表を用語抽出のために
作成したのは、入力文書を読み取りながら用語抽出規則
にあった単語列を検索して抽出し、更に統計処理を行う
のに都合のよい形式の情報となるからである。
【0016】図1に示した統計手段10で統計処理する
ための統計情報9の内容を図3に示す。即ち、この図3
は統計情報の一般形式を示す図である。図に示すよう
に、統計情報は、抽出された単語列についての文書構成
表から抜き出した情報と、その抽出に使用された適用規
則名24から構成される。例えば、2個の名詞が連結さ
れた単語列を抽出することが、図1に示す用語抽出規則
8の内容であったとすると、適用規則名24にはそのよ
うな規則名の名称が格納される。また、これに連なるノ
ード22は、例えば図2に示す文章の中のいずれかのノ
ード番号となる。先に説明した「機械翻訳」と「装置」
とが抽出された場合には、ノードは(N,2)と(N,
3)となる。また、ノード(N,2)の属性1の値は
「機械翻訳」、ノード(N,3)の属性1の値は「装
置」となる。
【0017】なお、この統計情報の左端に位置するノー
ドと右端に位置するノードとを比較すれば、この単語列
が何個の単語により構成されているかがわかる。即ち、
左端のノードの右側の数字がm、右端のノードの右側の
数字がm+Yとすれば、(Y+1)個が単語列の単語列
の数を示す。もちろん、適用規則名24から適用規則の
内容を調べて単語列の数を知ることもできる。
【0018】図4には、用語抽出規則の説明図を示す。
用語抽出規則は、例えばこの図に示すような形式で記述
される。図の1番上の行に表示された部分はパターン表
現と呼び、2行目から4行目までの部分は属性条件表現
と呼ぶ。パターン表現の左端のRは規則という意味であ
る。また、その次の*Hは抽出される単語列の左側前方
にはどのような単語が存在してもよいことを示す。右端
の*Tは抽出される単語列の右側後方にどのような単語
があってもよいことを示す。また、(4−2)は抽出さ
れる単語が4〜2語連結されたものであることを指定し
ている。更に、N3,N2,N1は属性条件表現と対応
させるための符号である。ここでは、最初の単語はN
3、最後の単語はN1、中間の単語は0〜2個のN2に
より構成されるといった指定を行っている。なお、この
例ではN1〜N3はいずれも品詞が名詞の単語である。
【0019】このような用語抽出規則を一般的に表す
と、次の図5に示すような形式となる。図(a)に示す
ように、用語抽出規則30は「;」の区切り31を境に
したパターン表現40と属性条件表現50とで構成され
る。(b)に示すように、パターン表現40はノード識
別子41の後に、[]による区切り42,46により挟
まれたノード列表現60あるいはパターン表現40とノ
ード識別子45から構成される。ノード識別子41は、
区切り42,46に挟まれた部分を区別するためのラベ
ルである。ここでは、抽出すべき単語列の構成をノード
別表現により指定してもよいし、パターン表現により指
定してもよい。また、別の抽出規則のノード識別子を引
用することもできる。
【0020】これによって、パターン表現40を用いて
複数の用語抽出規則とその関係を記述することが可能で
ある。また、このようなパターン表現は区切り42と4
6の間に挟み込むことによって再帰的に記述することが
できる。従って、照合パターンは入れ子構造になること
もある。属性条件表現50は、(c)に示すように、ノ
ード識別子51、区切り52、属性名53、比較演算子
54、属性値55、区切り56から構成される。属性条
件表現50のノード識別子51は、パターン表現40等
を用いて説明したノード識別子41を引用することがで
きる。また、属性名53は、図2を用いて説明した文書
構成表の各属性の名称を示し、比較演算子54や属性値
55によってそのノードの属性条件を記述する。即ち、
属性条件表現50によれば、例えば属性名がある属性値
と等しいものを指定するといった内容の指定ができる。
【0021】(d)に示すノード列表現60は、区切り
61,65に挟まれて、ノード数62とハイフン63及
びノード数64から構成される。これは図4に示した単
語N2の数を2−0というように指定した例からわかる
ように、ノードの数を範囲で指定する。ノードの数が一
定の場合には、ハイフン63とノード数64は不要であ
る。ノード記号表現66はこの他に任意のノード指定方
法を設定できる。例えば、2個のノードを割り当てると
か、1個のノードを割り当てるといった指定もできる。
【0022】図6には、図1に示した入力手段3の動作
を示すフローチャートを図示した。この図6〜図20を
用いて、図1に示す装置各部の動作を順に説明する。ま
ず図6のステップS1において、入力手段3により入力
文章及び用語抽出条件を入力する。入力文書1は、先に
説明したように自然言語で記述された文書であって、キ
ーボードを用いて入力されたり、あるいはフロッピーデ
ィスク、OCR等様々な媒体により入力される。用語抽
出条件2は用語抽出のための要求事項であって、入力文
書1の所定の範囲から所定の用語を抽出するといった内
容となる。ステップS2において、このような抽出範囲
を指定し、ステップS3において、用語構成条件を設定
する。用語構成条件というのは用語がいくつかの特定の
品詞を連結したものであれば、そのような内容を設定す
る。ステップS4においては統計条件を設定する。統計
条件としては、抽出された用語列毎の出現頻度を集計処
理したり、抽出された用語列の種類に応じた分布状況を
調べるといった内容となる。ステップS5においては、
出力書式を設定する。この出力書式は、例えば原文や訳
文の出力形式、抽出された用語列の表示形式、そのよう
な用語列が含まれる文章の表示形式等となる。ステップ
S6において、入力文書を機械翻訳手段に転送すること
により、入力手段の処理を終る。
【0023】図7には、文書分割手段の動作を示すフロ
ーチャートを図示した。文書分割手段5は、機械翻訳手
段4から、まずステップS1において、その入力文書に
関する形態素情報を得る。機械翻訳手段4は入力手段3
から入力文書1と抽出対象範囲に関する情報を得て動作
を開始し、入力文書1を文章に分割した後、その形態素
解析を実施する。これによって、入力文書の形態素情報
が得られ、文書分割手段5はこれを受け入れる。文書分
割手段5は、このような形態素情報に先に説明したよう
なノード番号等を付して文書構成表を生成し保存する
(ステップS2)。抽出すべき範囲の全ての文章に関す
る文書構成表を生成すると、文書分割手段の動作が終了
する。即ち、ステップS2において、このような文書構
成表を作成し、ステップS3において、更に他に処理す
べきものがあるかどうかを判断し、ステップS2とステ
ップS3を繰り返して処理を完了する。
【0024】図8に、用語抽出段の動作を示すフローチ
ャートを示す。用語抽出手段7は文書構成表6から文書
データを得る(ステップS1)。そして、得られた文書
データに用語抽出規則8を適用する(ステップS2)。
そして、ステップ3において、適用できる規則が存在す
るかどうかを判断する。適用できる規則が存在する場合
には、ステップS4において、適用規則名とともに照合
パターンを統計情報として格納する。これは、先に図3
を用いて示した形式の情報である。また、適用できる規
則がなければ、文書構成表の全ての文書データを処理し
たかどうかをステップS5において判断する。そして、
このような処理を繰り返し、用語抽出作業を進める。
【0025】図9〜図18を用いて、この用語抽出手段
のさらに具体的な動作例を説明する。図9は、処理対象
となる文章データの例説明図である。この文章データ
は、例えば「この機械翻訳装置は適当な用語を抽出す
る」という内容とする。この場合、図2に示した文書構
成表の属性の値にはこの図中に示すような、見出し情
報、品詞情報、訳語情報等が含められる。例えば、「機
械翻訳」という単語は、見出し情報が「機械翻訳」、品
詞が「名詞」、訳語は「MT」とされる。
【0026】図10には、この文書から抽出される用語
の抽出規則例内容説明図を示す。図の(a)に示す規則
は、図4を用いて説明した規則と同一のものである。こ
の規則によれば「機械翻訳装置」といった単語列が抽出
される。また(b)に示す規則は4つの単語から構成さ
れる用語抽出にあたり、最初の品詞は修飾語であって、
形容詞、形容動詞、動詞のいずれでも良いという内容の
規則になっている。また、その活用形は連体形であると
いう規則になっている。この(b)の規則によれば、
「適当な用語」といった単語列が抽出される。
【0027】図11〜図18に列挙したデータは、用語
抽出手段7が、文書構成表6の各ノードを順番にその区
切りを変更しながら、用語抽出規則に適合する単語の抽
出を行う際の中間データを示したものである。ここで
は、全部で36段階に渡って区切りを変更しながら規則
との照合を行っている。例えば、図11に示す(1)段
階では入力文章を初めの4個の単語と後ろの4個の単語
とに2分し、各単語が規則に照らして適合しているかど
うかを判断している。最初のN3は「この」であって名
詞ではない。従って、この時点で段階(1)の区切りは
(a)の規則に適合しないことがわかる。
【0028】また、段階(5)を見ると、最初の「こ
の」という単語を除外し、これに続く3個の単語と4個
の単語とを区切っている。最初の3個の単語の先頭の単
語は「機械翻訳」であり、名詞である。また、2番目の
単語は「装置」であり、これも名詞である。従って、こ
のN3、N2の条件は満足している。しかしながら、N
1の部分に該当する「は」という単語は名詞ではない。
従って、この場合にも(a)の用語抽出規則を満たさな
い。
【0029】一方、図12の(6)段階では、最初の単
語が「機械翻訳」で、次の単語が「装置」という2個の
名詞を組み合わせた抽出を行っている。この場合、N3
も名詞、N1も名詞で、N2は存在しない。これは、
(a)の用語抽出規則に適合している。このため、「機
械翻訳」という単語が抽出される。同様に、区切りを変
更していくと、図13〜図17の各段階では適合する単
語は見当らない。しかし、図18の段階(33)におい
て、「適当な用語」の前後に区切りをとり、最初の「適
当だ」という単語を見ると、これは形容詞であって規則
に適合する。しかも、その用い方は連体形であって規則
に適合する。更に、N2は存在しない。また、N1は
「用語」であって、その品詞は名詞である。従って、
「適当な用語」というのは(b)の規則に適合している
ことがわかる。以上の結果、「機械翻訳装置」と「適当
な用語」という言葉が抽出された。このように、用語抽
出規則の指定によって任意の単語列が効率的に抽出でき
ることがわかる。
【0030】図19に、統計手段の動作を示すフローチ
ャートを示す。まず、ステップS1において、入力手段
から統計条件を得る。そして、ステップS2において、
統計条件に従って統計情報から出力情報を得る。例え
ば、統計条件が同一の用語列が入力文章中に何回あるか
を示すといった内容であれば、同一の用語列が何回抽出
されたかを統計情報9を参照しながらカウントし、その
結果を得る。そして、ステップS3において、出力情報
を出力手段に転送する。
【0031】図20は、出力手段の動作を示すフローチ
ャートである。まず、ステップS1において、出力手段
は入力手段から出力書式を得て、ステップS2におい
て、統計手段から得た出力情報を加工し出力書式に整形
する。そして、ステップS3において、翻訳手段からの
情報が必要であるかどうかを判断し、情報が必要であれ
ば、ステップS4において、翻訳手段から得た出力情報
を加工して出力書式に整形する。不要であれば、ステッ
プS3からステップS5に移り、出力情報をそのまま出
力文書として出力する。これは印刷によってもよいし、
ディスプレイ等に表示する方法でもよい。
【0032】本発明は以上の実施例に限定されない。上
記実施例では日本語の文書から名詞句を抽出する例を示
したが、用語抽出規則の構成を変更すること等によって
英語の名詞句を抽出したり、種々の言語に対する任意の
単語列、形態素列の抽出が可能である。更に、その用語
抽出規則の形式自身はどのように設定しても差し支えな
く、区切り記号等も任意に選択できる。更に、出力手段
に与える書式を例えば機械翻訳装置の辞書と同形式にな
るように設定すると、出力手段によって機械翻訳処理の
補助のための辞書を生成することが可能になる。また、
文書構成表や用語抽出規則の構成を変更すれば、パター
ン翻訳を行う機械翻訳装置への適用が可能となる。
【0033】
【発明の効果】以上説明した本発明の機械翻訳装置は、
機械翻訳手段によって入力文書を解析し形態素情報を得
るとともに、その形態素情報によって所定の形式の文書
構成表を生成し、これに基づいて任意の単語列を抽出す
るようにしたので、翻訳対象となる文書中に頻繁に使用
されている単語列等を自動的に抽出し、これに適切な翻
訳を与えることによって翻訳の質を高めることができ
る。
【図面の簡単な説明】
【図1】本発明の装置の実施例を示すブロック図であ
る。
【図2】文書構成表の内容説明図である。
【図3】統計情報の一般形式を示す図である。
【図4】用語抽出規則の説明図である。
【図5】用語抽出規則の一般形式の例を示す図である。
【図6】入力手段の動作を示すフローチャートである。
【図7】文書分割手段の動作を示すフローチャートであ
る。
【図8】用語抽出手段の動作を示すフローチャートであ
る。
【図9】文章データの例説明図である。
【図10】実施例の用語抽出規則内容説明図である。
【図11】用語抽出手段の処理データ説明図(その1)
である。
【図12】用語抽出手段の処理データ説明図(その2)
である。
【図13】用語抽出手段の処理データ説明図(その3)
である。
【図14】用語抽出手段の処理データ説明図(その4)
である。
【図15】用語抽出手段の処理データ説明図(その5)
である。
【図16】用語抽出手段の処理データ説明図(その6)
である。
【図17】用語抽出手段の処理データ説明図(その7)
である。
【図18】用語抽出手段の処理データ説明図(その8)
である。
【図19】統計手段の動作を示すフローチャートであ
る。
【図20】出力手段の動作を示すフローチャートであ
る。
【符号の説明】
1 入力文書 2 用語抽出条件 3 入力手段 4 機械翻訳手段 5 文書分割手段 6 文書構成表 7 用語抽出手段 8 用語抽出規則 9 統計情報 10 統計手段 11 出力手段 12 出力文書

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 自然言語のテキストから構成される入力
    文書を受け入れる入力手段と、 前記入力文書の翻訳のために形態素解析を実行する機械
    翻訳手段と、 前記機械翻訳手段の得た形態素情報を利用して、前記入
    力文書を構成する形態素毎にその入力文書を分割して、
    前記各形態素と共にその属性情報を含めて表示した文書
    構成表を生成する文書分割手段と、 前記文書構成表を使用して、予め設定された用語抽出規
    則に従って、前記入力文書中から形態素列を抽出する用
    語抽出手段とを備えたことを特徴とする機械翻訳装置。
  2. 【請求項2】 用語抽出手段は、用語抽出規則の名称と
    抽出された形態素列群とで構成される統計情報を生成し
    て出力することを特徴とする請求項1記載の機械翻訳装
    置。
  3. 【請求項3】 用語抽出手段の出力した統計情報に基づ
    いて、抽出した用語列毎の出現頻度を集計処理して、翻
    訳支援資料を生成する統計手段を備えたことを特徴とす
    る請求項1または2記載の機械翻訳装置。
  4. 【請求項4】 各形態素が、入力文書を構成する単語で
    あるとき、文書構成表の属性情報には、各単語の品詞と
    訳語を含めることを特徴とする請求項1から3に記載の
    機械翻訳装置。
  5. 【請求項5】 用語抽出規則は、抽出すべき形態素列を
    構成する形態素の数と、各形態素の品詞を指定する規則
    から成ることを特徴とする請求項1から3に記載の機械
    翻訳装置。
JP7066830A 1995-03-01 1995-03-01 機械翻訳装置 Pending JPH08241319A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7066830A JPH08241319A (ja) 1995-03-01 1995-03-01 機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7066830A JPH08241319A (ja) 1995-03-01 1995-03-01 機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH08241319A true JPH08241319A (ja) 1996-09-17

Family

ID=13327153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7066830A Pending JPH08241319A (ja) 1995-03-01 1995-03-01 機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH08241319A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003521785A (ja) * 2000-02-02 2003-07-15 ワールドリンゴ.コム プロプライエタリー リミテッド 翻訳発注システム
JP2007213157A (ja) * 2006-02-07 2007-08-23 Just Syst Corp 用例文検索装置および用例文検索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003521785A (ja) * 2000-02-02 2003-07-15 ワールドリンゴ.コム プロプライエタリー リミテッド 翻訳発注システム
JP2007213157A (ja) * 2006-02-07 2007-08-23 Just Syst Corp 用例文検索装置および用例文検索方法

Similar Documents

Publication Publication Date Title
US6539348B1 (en) Systems and methods for parsing a natural language sentence
EP0645720A2 (en) Dictionary creation supporting system
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
US11301441B2 (en) Information processing system and information processing method
US7409334B1 (en) Method of text processing
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
JP7227705B2 (ja) 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム
US7983899B2 (en) Apparatus for and method of analyzing chinese
JP2000194721A (ja) 文書群分類装置および文書群分類方法
JPH08241319A (ja) 機械翻訳装置
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000250913A (ja) 実例型自然言語翻訳方法、対訳用例集作成方法および装置とそのプログラムを記録した記録媒体
KR100631086B1 (ko) Xml을 이용한 텍스트 정규화 방법 및 장치
JP4458517B2 (ja) 情報抽出装置およびその方法
JP3892227B2 (ja) 機械翻訳システム
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11282839A (ja) 機械翻訳システム及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3692711B2 (ja) 機械翻訳装置
JP3385206B2 (ja) 自然言語処理装置
JPH08297671A (ja) 文書の速読支援装置
JPH0778166A (ja) 翻訳方法及び機械翻訳装置
JP2947554B2 (ja) 機械翻訳装置
JPH0251764A (ja) 索引生成方式
JPH086950A (ja) キーワード翻訳機能付き機械翻訳装置