JP2012113459A - 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム - Google Patents
用例翻訳システム、用例翻訳方法及び用例翻訳プログラム Download PDFInfo
- Publication number
- JP2012113459A JP2012113459A JP2010260845A JP2010260845A JP2012113459A JP 2012113459 A JP2012113459 A JP 2012113459A JP 2010260845 A JP2010260845 A JP 2010260845A JP 2010260845 A JP2010260845 A JP 2010260845A JP 2012113459 A JP2012113459 A JP 2012113459A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- word
- similarity
- corpus
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】用例検索部は翻訳対象原文と翻訳用例データベースの翻訳用例原文との類似度を計算し類似度が予め定めた閾値以上の翻訳用例を翻訳用例データベースから検索する。形態素解析部は用例検索部により複数の翻訳用例が検索されたとき複数の翻訳用例のそれぞれの訳文を形態素解析辞書の形態素解析情報を参照して形態素解析し単語を抽出する。加点値計算部は形態素解析部で抽出された前記単語につきコーパスの単語頻度情報を参照し単語の出現頻度に応じて翻訳用例の類似度の加算値を計算する。翻訳用例選出部は用例検索部で計算された類似度に加点値計算部で計算された加算値を加算して最も大きい類似度の翻訳用例を選出する。
【選択図】 図1
Description
原文:I pass by the shop every day.(類似度:86%)
訳文:私は毎日その店のそばを通る
用例2
原文:I pass behind the shop every day.(類似度:71%)
訳文:私は毎日その店の後ろを通る
この結果、翻訳者は最も類似度の高い用例1の訳文を部分的に修正することで、希望の訳文を得ることができる。
原文:The stocks of this brand bring about profits.
訳文:この銘柄の株式は利益をもたらします
用例2(登録日:2009/11/30)
原文:The fans of this brand bring about profits.
訳文:このブランドのファンたちは利益をもたらします
翻訳対象
原文:The shares of this brand bring about damage.
ここで、この従来の計算方法により翻訳対象原文と各々の翻訳用例原文との類似度を計算した場合、用例1、用例2ともに8単語中6単語が原文と一致するため同じ類似度になり、登録日の新しい用例2の訳文が類似文の訳文として利用者に提示される。
この翻訳対象原文の類似文を検索する場合を考える。なお、この翻訳対象原文は株式関連の文章中に現れた文であり、用例翻訳システムには予め株式の単語情報を登録したコーパス36を持っているものとする。
原文:The stocks of this brand bring about profits.
訳文:この銘柄の株式は利益をもたらします
用例2
原文:The fans of this brand bring about profits.
訳文:このブランドのファンたちは利益をもたらします
翻訳対象原文とこれら二つの翻訳用例原文との類似度は、どちらも75{(一致する単語数/全単語数)×100で計算)}で同じである。この場合、二つの翻訳用例が得られたので、図6のステップS16以降の処理に移ることになる。
半年以内 :1.0
1年以内 :0.9
3年以内 :0.8
3年以上経過 :0.7
具体例として以下の翻訳対象原文及び類似度の高い翻訳用例として検出された用例1、用例2を考える。また、利用するコーパス36には、図7に示すような単語情報が登録されていたとする。
The government must fix a safety net immediately.
用例1
原文:The city must fix a safety net immediately.
訳文:市は早急に安全網を整備しなければならない。
原文:The prefecture must fix a safety net immediately.
訳文:県は早急にセーフティーネットを整備しなければならない。
Claims (6)
- 翻訳対象の第1言語の原文と翻訳目的の第2言語の訳文とを対にした翻訳用例を格納した翻訳用例データベースと、
文を形態素解析する際に参照する形態素解析辞書と、
所定の分野の文書で用いられた単語の出現頻度を格納したコーパスとを記憶した記憶装置と、
前記翻訳対象原文と前記翻訳用例データベースの翻訳用例原文との類似度を計算し、その類似度が予め定めた閾値以上の翻訳用例を前記翻訳用例データベースから検索する用例検索部と、
前記用例検索部により複数の翻訳用例が検索されたとき、当該複数の翻訳用例の各翻訳用例訳文を前記形態素解析辞書を参照して形態素解析し単語を抽出する形態素解析部と、
前記形態素解析部で抽出された単語につき前記コーパスに格納された当該単語の出現頻度に応じて前記類似度に加点する加点値計算部と、
前記加点後の類似度に基づいて翻訳用例を選出する翻訳用例選出部と、
を備えた用例翻訳システム。 - 前記コーパスは単語の出現頻度の更新日時情報をさらに格納し、前記加点値計算部は前記加点について前記更新日時情報の新しいものほど大きな重み付けをする請求項1記載の用例翻訳システム。
- 翻訳対象の第1言語の原文と翻訳目的の第2言語の訳文とを対にした翻訳用例を格納した翻訳用例データベースと、文を形態素解析する際に参照する形態素解析辞書と、所定の分野の文書で用いられた単語の出現頻度を単語頻度情報として格納したコーパスとを予め記憶装置に記憶しておき、
前記翻訳対象原文と前記翻訳用例データベースの翻訳用例原文との類似度を計算し、その類似度が予め定めた閾値以上の翻訳用例を前記翻訳用例データベースから検索し、
複数の翻訳用例が検索されたとき、当該複数の翻訳用例の各翻訳用例訳文を前記形態素解析辞書を参照して形態素解析し単語を抽出し、
抽出された前記単語につき前記コーパスに格納された当該単語の出現頻度に応じて前記類似度に加点し、
前記加点後の類似度に基づいて翻訳用例を選出して翻訳用例とする用例翻訳方法。 - 前記コーパスに前記単語頻度情報に加え単語の出現頻度の更新日時情報を予め格納しておき、前記単語の出現頻度に応じて計算した加算値に前記更新日時情報の新しいものほど大きな重み付け係数を乗算した加算値を計算する請求項3記載の用例翻訳方法。
- 前記用例翻訳プログラム、翻訳対象の第1言語の原文と翻訳目的の第2言語の訳文とを対にした翻訳用例を格納した翻訳用例データベース、翻訳用例訳文を形態素解析する際に参照する形態素解析辞書、所定の分野の文書で用いられた単語の出現頻度を単語頻度情報として格納したコーパスを予め記憶した記憶装置と、前記翻訳対象原文を入力するとともに操作に必要な情報を入力する入力装置と、前記翻訳対象原文や前記翻訳用例を表示する表示装置と、前記用例翻訳プログラムを演算実行する演算制御装置とを備えた用例翻訳システムとして機能させるためのコンピュータにおいて、
前記コンピュータを、
前記翻訳対象原文と前記翻訳用例データベースの翻訳用例原文との類似度を計算し、その類似度が予め定めた閾値以上の翻訳用例を前記翻訳用例データベースから検索する用例検索手段と、
前記用例検索部により複数の翻訳用例が検索されたとき、当該複数の翻訳用例の各翻訳用例訳文を前記形態素解析辞書を参照して形態素解析し単語を抽出する形態素解析手段と、
前記形態素解析部で抽出された前記単語につき前記コーパスに格納された当該単語の出現頻度に応じて前記類似度に加点する加点値計算手段と、
前記加点後の類似度に基づいて翻訳用例を選出する翻訳用例選出手段として機能させるための用例翻訳プログラム。 - 前記コーパスに前記単語頻度情報に加え単語の出現頻度の更新日時情報を予め格納しておき、前記加点値計算手段は単語の出現頻度に応じて計算した加算値に、前記更新日時情報の新しいものほど大きな重み付け係数を乗算した加算値を計算する請求項5記載の用例翻訳システム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010260845A JP5204203B2 (ja) | 2010-11-24 | 2010-11-24 | 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010260845A JP5204203B2 (ja) | 2010-11-24 | 2010-11-24 | 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012113459A true JP2012113459A (ja) | 2012-06-14 |
| JP5204203B2 JP5204203B2 (ja) | 2013-06-05 |
Family
ID=46497622
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010260845A Expired - Fee Related JP5204203B2 (ja) | 2010-11-24 | 2010-11-24 | 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5204203B2 (ja) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5763830B1 (ja) * | 2014-12-25 | 2015-08-12 | パナソニック株式会社 | 翻訳装置、翻訳方法、および翻訳プログラム |
| CN105608083A (zh) * | 2014-11-13 | 2016-05-25 | 北京搜狗科技发展有限公司 | 获得输入库的方法、装置及电子设备 |
| KR20170073354A (ko) * | 2015-12-18 | 2017-06-28 | 한국전자통신연구원 | 문장 유사도 기반 다의어 데이터베이스 확장장치 및 그 방법 |
| CN112085090A (zh) * | 2020-09-07 | 2020-12-15 | 百度在线网络技术(北京)有限公司 | 翻译方法、装置以及电子设备 |
| CN112836529A (zh) * | 2021-02-19 | 2021-05-25 | 北京沃东天骏信息技术有限公司 | 生成目标语料样本的方法和装置 |
| CN113743130A (zh) * | 2020-05-28 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 翻译方法、装置、设备和存储介质 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003308319A (ja) * | 2002-04-16 | 2003-10-31 | Communication Research Laboratory | 訳語選択装置、翻訳装置、訳語選択プログラム、及び翻訳プログラム |
| JP2006309346A (ja) * | 2005-04-26 | 2006-11-09 | Toshiba Corp | 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム |
| JP2009123067A (ja) * | 2007-11-16 | 2009-06-04 | Hitachi Systems & Services Ltd | 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体 |
-
2010
- 2010-11-24 JP JP2010260845A patent/JP5204203B2/ja not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003308319A (ja) * | 2002-04-16 | 2003-10-31 | Communication Research Laboratory | 訳語選択装置、翻訳装置、訳語選択プログラム、及び翻訳プログラム |
| JP2006309346A (ja) * | 2005-04-26 | 2006-11-09 | Toshiba Corp | 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム |
| JP2009123067A (ja) * | 2007-11-16 | 2009-06-04 | Hitachi Systems & Services Ltd | 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体 |
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN105608083A (zh) * | 2014-11-13 | 2016-05-25 | 北京搜狗科技发展有限公司 | 获得输入库的方法、装置及电子设备 |
| CN105608083B (zh) * | 2014-11-13 | 2019-09-03 | 北京搜狗科技发展有限公司 | 获得输入库的方法、装置及电子设备 |
| JP5763830B1 (ja) * | 2014-12-25 | 2015-08-12 | パナソニック株式会社 | 翻訳装置、翻訳方法、および翻訳プログラム |
| KR20170073354A (ko) * | 2015-12-18 | 2017-06-28 | 한국전자통신연구원 | 문장 유사도 기반 다의어 데이터베이스 확장장치 및 그 방법 |
| KR101991486B1 (ko) | 2015-12-18 | 2019-06-20 | 한국전자통신연구원 | 문장 유사도 기반 다의어 데이터베이스 확장장치 및 그 방법 |
| CN113743130A (zh) * | 2020-05-28 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 翻译方法、装置、设备和存储介质 |
| CN112085090A (zh) * | 2020-09-07 | 2020-12-15 | 百度在线网络技术(北京)有限公司 | 翻译方法、装置以及电子设备 |
| US12159120B2 (en) | 2020-09-07 | 2024-12-03 | Baidu Online Network Technology (Beijing) Co., Ltd. | Translation method and apparatus and electronic device |
| CN112836529A (zh) * | 2021-02-19 | 2021-05-25 | 北京沃东天骏信息技术有限公司 | 生成目标语料样本的方法和装置 |
| CN112836529B (zh) * | 2021-02-19 | 2024-04-12 | 北京沃东天骏信息技术有限公司 | 生成目标语料样本的方法和装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5204203B2 (ja) | 2013-06-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8666994B2 (en) | Document analysis and association system and method | |
| US20210192126A1 (en) | Generating structured text summaries of digital documents using interactive collaboration | |
| US20080021891A1 (en) | Searching a document using relevance feedback | |
| US8443008B2 (en) | Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof | |
| JP5204203B2 (ja) | 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム | |
| JP2014106665A (ja) | 文書検索装置、文書検索方法 | |
| JP2016099741A (ja) | 情報抽出支援装置、方法およびプログラム | |
| JP4160548B2 (ja) | 文書要約作成システム、方法、及びプログラム | |
| KR101782802B1 (ko) | 전자 문서 간 메모 공유 방법 및 컴퓨터 프로그램 | |
| JP4873739B2 (ja) | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 | |
| JP4091146B2 (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
| JP7312841B2 (ja) | 法律分析装置、及び法律分析方法 | |
| WO2018150453A1 (ja) | データ分析装置およびデータ分析方法 | |
| CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
| Berdyugina et al. | Setting up context-sensitive real-time contradiction matrix of a given field using unstructured texts of patent contents and natural language processing | |
| JP5025603B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
| JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
| Al Oudah et al. | Wajeez: an extractive automatic Arabic text summarisation system | |
| KR20200122089A (ko) | 지역 색인을 이용한 전자문서 검색 방법 및 장치 | |
| CN116975202A (zh) | 文档检索方法、装置、设备及存储介质 | |
| CN116150478A (zh) | 基于文本相似度的译员推荐方法、装置 | |
| JP2014119988A (ja) | 同義判定装置、同義学習装置、及びプログラム | |
| JP2019061522A (ja) | 文書推薦システム、文書推薦方法および文書推薦プログラム | |
| JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121022 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121225 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130122 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130214 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5204203 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160222 Year of fee payment: 3 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |