JP7663171B2

JP7663171B2 - 疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法

Info

Publication number: JP7663171B2
Application number: JP2020137323A
Authority: JP
Inventors: バンジャマンマリ; 篤藤田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2025-04-16
Anticipated expiration: 2040-08-17
Also published as: JP2022033437A; US12493755B2; WO2022039031A1; US20230274102A1

Description

本発明は、ニューラル機械翻訳の技術に関する。

ニューラル機械翻訳（ＮＭＴ：ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ）とは、多層ニューラルネットワークを用いた機械翻訳技術である。ニューラル機械翻訳システムは、起点言語の各語および文全体をベクトルまたはテンソルに変換するニューラルネットワーク（エンコーダ）と、得られたベクトルまたはテンソルから目標言語の語の系列を生成するニューラルネットワーク（デコーダ）とで構成され、対訳データに基づいてニューラルネットワークのモデルを学習する（パラメータを最適化する）ものである。ニューラル機械翻訳システムで達成できる翻訳性能は、所与の起点言語、目標言語、対象分野についての対訳データの規模に強く依存する。実用的なニューラル機械翻訳システムの構築には大規模な対訳データが必要である（言語対や分野によるが少なくとも数十万個の対訳データが必要である）。対訳データが小規模にしか存在しない場合、ニューラル機械翻訳システムにおいて、高品質な機械翻訳処理を実現することは困難である。

実現したい機械翻訳の対象とする言語対（対象言語対）と同一言語対の他分野（機械翻訳の対象とする分野以外の分野）の対訳データ、あるいは他の言語対であるが同一分野の対訳データが存在する場合、それらの対訳データを用いた機械翻訳分野適用技術、多言語機械翻訳技術によって対象分野の機械翻訳を実現できる場合がある。

また、対訳データとは異なり、安価かつ大量に入手できる単言語データを活用する技術も生み出されてきている。

また、近年、他分野の対訳データや他の言語対の対訳データを用いることなく、単言語データのみから機械翻訳システムを構築する教師なし機械翻訳技術も提案されている（例えば、非特許文献１を参照）。

Mikel Artetxe, Gorka Labaka, Eneko Agirre (2018). Unsupervised Statistical Machine Translation. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 3632-3642.

しかしながら、上記の技術のいずれにおいても、対象言語対・対象分野における数千文程度の対訳データの存在を前提としており、この前提が成り立たない場合、上記の技術により実現される機械翻訳システムにおいて、高い機械翻訳の性能を達成することはできない。また、上記の技術が必要とする対象言語対・対象分野における数千文程度の対訳データを作成するためには、無視できない規模の人的・金銭的コストが必要となる。

このように、ニューラル機械翻訳システムを新規分野向けに適応させる際には、当該ニューラル機械翻訳システムの機械翻訳の対象とする分野（対象分野）における対訳データが一定量必要であり、そのような対訳データがない場合、機械翻訳の性能を改善することは困難である。

そこで、本発明は、上記課題に鑑み、適応先分野（機械翻訳の対象とする分野）の対訳データが一切ない場合であっても、当該適応先分野における機械翻訳を精度良く実行するための疑似対訳データを生成する疑似対訳データ生成装置、および、当該疑似対訳データ生成装置で生成された疑似対訳データを用いて適応先分野における機械翻訳を精度良く実行する機械翻訳システム、および、当該機械翻訳システムで用いられる疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法を実現することを目的とする。

上記課題を解決するための第１の発明は、疑似対訳データを生成するための疑似対訳データ生成用機械翻訳モデルの学習方法であって、初期化ステップと、最適化ステップと、を備える。

初期化ステップは、
生成する疑似対訳データの対象とする分野である適応先分野以外の分野の第１言語のデータである他分野第１言語データと、当該他分野第１言語データの第２言語の翻訳データである他分野第２言語データとからなる対訳データを複数含む他分野対訳データ集合Ｄｓｅｔｐ（Ｌ１－Ｌ２）と、
適応先分野以外の分野の第１言語のデータを複数含む他分野単言語データ集合Ｄｓｅｔｍ（Ｌ１）と、
適応先分野以外の分野の第２言語のデータを複数含む他分野単言語データ集合Ｄｓｅｔｍ（Ｌ２）と、
適応先分野の第１言語のデータを複数含む適応先分野単言語データ集合Ｄｓｅｔｍ（Ｒ１）と、
適応先分野の第２言語のデータを複数含む適応先分野単言語データ集合Ｄｓｅｔｍ（Ｒ２）と、
を用いて、疑似対訳データ生成用機械翻訳モデルの学習処理を行い、当該学習処理を実行した後の疑似対訳データ生成用機械翻訳モデルに設定されているパラメータを初期パラメータに設定する。

最適化ステップは、
初期パラメータが設定されている状態の疑似対訳データ生成用機械翻訳モデルに対して、
（１）正解データを入力データと同一にして疑似対訳データ生成用機械翻訳モデルの学習処理を行う自己符号化処理、
（２）入力データに対する疑似対訳データ生成用機械翻訳モデルの出力データ（この「出力データ」は、例えば、入力データとは異なる言語のデータであり、かつ、ゼロショット（学習したことのない分野）のデータである。）を、再度、疑似対訳データ生成用機械翻訳モデルに入力し、その疑似対訳データ生成用機械翻訳モデルの出力（この「出力」は、入力データと同じ言語である。）が入力データと同一となるように疑似対訳データ生成用機械翻訳モデルの学習処理を行うゼロショット折り返し機械翻訳処理、
（３）他分野対訳データ集合Ｄｓｅｔｐ（Ｌ１－Ｌ２）に含まれる第１言語のデータおよび第２言語データのいずれか一方を疑似対訳データ生成用機械翻訳モデルの入力とし、他方を正解データとして、疑似対訳データ生成用機械翻訳モデルの学習処理を行う教師あり機械翻訳処理、
の少なくとも１つを用いて、学習処理を行うことで、疑似対訳データ生成用機械翻訳モデルの最適パラメータを取得する。

この疑似対訳データ生成用機械翻訳モデルの学習方法では、
（１）精度の高い他分野の対訳データ集合（Ｄｓｅｔｐ（Ｌ１－Ｌ２）（大規模（対訳データ数が多数）であることが好ましい））と、
（２）他分野の第１言語データ集合（Ｄｓｅｔｍ（Ｌ１））と、
（３）他分野の第２言語データ集合（Ｄｓｅｔｍ（Ｌ２））と、
（４）適応先分野の第１言語データ集合（Ｄｓｅｔｍ（Ｒ１））と、
（５）適応先分野の第２言語データ集合（Ｄｓｅｔｍ（Ｒ２））と、
を用いて、疑似対訳データ生成用機械翻訳モデル（例えば、ニューラルネットワークモデル）を事前学習処理（初期化ステップによる処理）により初期化し、さらに、パラメータ最適化処理（最適化ステップによる処理）を行うことで、適応先分野（機械翻訳の対象とする分野）の対訳データが一切ない場合であっても、適応先分野の第１言語および第２言語の疑似対訳データを生成するための疑似対訳データ生成用機械翻訳モデルを学習させることができる。

そして、学習後の（学習済みの）疑似対訳データ生成用機械翻訳モデルにより、適応先分野（対象分野）における対訳データが存在しない場合であっても、適応先分野の疑似対訳データを生成することができる。さらに、生成された適応先分野の疑似対訳データを用いて、機械翻訳モデルを学習させ、学習済みの機械翻訳モデルにより機械翻訳処理を行うことで、適応先分野（対象分野）における対訳データが存在しない場合であっても、適応先分野における機械翻訳を精度良く行うことができる。

なお、事前学習処理により初期化する対象は、入力データから分散表現データを取得する部分のみとしてもよい。例えば、機械翻訳モデルが、入力データから分散表現データを取得する埋込層（例えば、入力データ埋込部により実現）と、機械翻訳用のニューラルネットワークモデル（ＭＴ用ニューラルネットワークモデル）とからなる場合、事前学習処理として、入力データから分散表現データを取得する埋込層（例えば、入力データ埋込部により実現）と、言語横断言語モデル用のニューラルネットワークモデル（ＸＬＭ用ニューラルネットワークモデル、ＸＬＭ：Ｃｒｏｓｓ－ｌｉｎｇｕａｌｌａｎｇｕａｇｅｍｏｄｅｌ）とからなる言語横断言語モデルを設定し、埋込層および当該言語横断言語モデルのパラメータ最適化処理を行う。そして、機械翻訳モデルを、当該言語横断言語モデルの最適化処理後の埋込層（例えば、入力データ埋込部により実現）と、ＭＴ用ニューラルネットワークモデルとからなるモデルとし、当該言語横断言語モデルの最適化処理後の状態を初期状態として、埋込層および機械翻訳モデルのパラメータ最適化処理を行うようにしてもよい。

第２の発明は、第１の発明である疑似対訳データ生成用機械翻訳モデルの学習方法により取得された疑似対訳データ生成用機械翻訳モデルを用いて、適応先分野の疑似対訳データを取得する疑似対訳データ取得方法であって、第１機械翻訳ステップと、第２機械翻訳ステップと、疑似対訳データ取得ステップと、を備える。

第１機械翻訳ステップは、他分野対訳データ集合Ｄｓｅｔｐ（Ｌ１－Ｌ２）から取得した第１言語のデータに対して、出力を適応先分野の第２言語に設定して疑似対訳データ生成用機械翻訳モデルを用いた機械翻訳処理を行うことで、他分野の第１言語のデータの機械翻訳結果データである適応先分野の第２言語疑似翻訳データを取得する。

第２機械翻訳ステップは、他分野対訳データ集合Ｄｓｅｔｐ（Ｌ１－Ｌ２）から取得した第２言語のデータに対して、出力を適応先分野の第１言語に設定して疑似対訳データ生成用機械翻訳モデルを用いた機械翻訳処理を行うことで、他分野の第２言語のデータの機械翻訳結果データである適応先分野の第１言語疑似翻訳データを取得する。

疑似対訳データ取得ステップは、第１機械翻訳ステップで取得された適応先分野の第２言語疑似翻訳データと、第２機械翻訳ステップで取得された適応先分野の第１言語疑似翻訳データと、を対応づけることで、適応先分野の疑似対訳データを取得する。

これにより、この疑似対訳データ取得方法では、適応先分野（対象分野）における対訳データが存在しない場合であっても、適応先分野における疑似対訳データを取得することができる。

なお、第１機械翻訳ステップおよび第２機械翻訳ステップは、並列に実行されるものであってもよい。

第３の発明は、第１の発明である疑似対訳データ生成用機械翻訳モデルの学習方法により取得された疑似対訳データ生成用機械翻訳モデルを用いて、適応先分野の疑似対訳データを取得する疑似対訳データ取得方法であって、単言語データ機械翻訳ステップと、疑似対訳データ取得ステップと、を備える。

単言語データ機械翻訳ステップは、適応先分野単言語データ集合Ｄｓｅｔｍ（Ｒ１）から取得した第１言語のデータまたは適応先分野単言語データ集合Ｄｓｅｔｍ（Ｒ２）から取得した第２言語のデータに対して、出力を適応先分野の第２言語または第１言語に設定して疑似対訳データ生成用機械翻訳モデルを用いた機械翻訳処理を行うことで、適応先分野の第１言語のデータの機械翻訳結果データである適応先分野の第２言語疑似翻訳データまたは適応先分野の第２言語のデータの機械翻訳結果データである適応先分野の第１言語疑似翻訳データを取得する。

疑似対訳データ取得ステップは、単言語データ機械翻訳ステップにおいて、疑似対訳データ生成用機械翻訳モデルの入力とした適応先分野の第１言語のデータまたは第２言語のデータと、単言語データ機械翻訳ステップで取得された適応先分野の第２言語疑似翻訳データまたは第１言語疑似翻訳データと、を対応づける、または、疑似対訳データ生成用機械翻訳モデルの入力とした適応先分野の第２言語のデータと、単言語データ機械翻訳ステップで取得された適応先分野の第１言語疑似翻訳データと、を対応づけることで、適応先分野の疑似対訳データを取得する。

第４の発明は、第２または第３の発明であって、疑似対訳データ取得ステップが取得した適応先分野の疑似対訳データの各文対に対して、機械翻訳処理の結果の精度を示す信頼度を取得し、取得した信頼度が所定の値以上である文対を含む疑似対訳データのみを選択して出力するフィルター処理ステップをさらに備える。

これにより、この疑似対訳データ取得方法において、所定の精度以上の疑似対訳データが取得されることが保証される。

なお、「信頼度」は、その値が高い程、信頼度合いが高いことを示す指標である。また、信頼度は、機械翻訳処理により取得されるデータ（処理結果データ）が、単語列やトークンのデータである場合、個々の単語、トークンごとに付与されることが好ましい。

第５の発明は、適応先分野の第１言語のデータに対して機械翻訳を行い第２言語のデータを取得するための機械翻訳モデルの学習方法であって、機械翻訳モデル学習ステップを備える。

機械翻訳モデル学習ステップは、第２から第４のいずれかの発明である疑似対訳データ取得方法により取得された適応先分野の疑似翻訳データと、適応先分野以外の分野の第１言語のデータである他分野第１言語データと、当該他分野第１言語データの第２言語の翻訳データである他分野第２言語データとからなる対訳データを複数含む他分野対訳データ集合Ｄｓｅｔｐ（Ｌ１－Ｌ２）と、を用いて、機械翻訳モデルの学習を行う。

これにより、この機械翻訳モデルの学習方法では、適応先分野（対象分野）における対訳データが存在しない場合であっても、第２から第５のいずれかの発明である疑似対訳データ取得方法により取得された適応先分野の疑似翻訳データを用いて機械翻訳モデルを学習させることができる。そして、学習済みの機械翻訳モデルにより機械翻訳処理を行うことで、適応先分野（対象分野）における対訳データが存在しない場合であっても、適応先分野における機械翻訳を精度良く行うことができる。

第６の発明は、第１の発明である疑似対訳データ生成用機械翻訳モデルの学習方法により取得された学習済みの機械翻訳モデル、または、第５の発明である機械翻訳モデルの学習方法により取得された学習済みの機械翻訳モデルを用いて機械翻訳処理を行う機械翻訳装置である。

これにより、この機械翻訳装置では、第１の発明である疑似対訳データ生成用機械翻訳モデルの学習方法により取得された学習済みの機械翻訳モデル、または、第５の発明である機械翻訳モデルの学習方法により取得された学習済みの機械翻訳モデルを用いて機械翻訳処理を行うことができる。

なお、第１の発明である疑似対訳データ生成用機械翻訳モデルの学習方法をコンピュータに実行させるためのプログラムも本発明に含まれる。

また、第２から第４のいずれかの発明である疑似対訳データ取得方法をコンピュータに実行させるためのプログラムも本発明に含まれる。

また、第５の発明である機械翻訳モデルの学習方法をコンピュータに実行させるためのプログラムも本発明に含まれる。

さらに、第５の発明である機械翻訳モデルの学習方法により取得された学習済みの機械翻訳モデルを用いて機械翻訳処理を行う機械翻訳方法、当該機械翻訳方法をコンピュータに実行させるためのプログラムも本発明に含まれる。

本発明によれば、適応先分野（機械翻訳の対象とする分野）の対訳データが一切ない場合であっても、当該適応先分野における機械翻訳を精度良く実行するための疑似対訳データを生成する疑似対訳データ生成装置、および、当該疑似対訳データ生成装置で生成された疑似対訳データを用いて適応先分野における機械翻訳を精度良く実行する機械翻訳システム、および、当該機械翻訳システムで用いられる疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法を実現することができる。

第１実施形態に係る機械翻訳システム１０００の概略構成図。第１実施形態に係る疑似対訳データ生成装置１００の概略構成図。第１実施形態に係る疑似対訳データ生成装置１００の入力データ取得部１、入力データ埋込部２、およびＸＬＭ処理部３の概略構成図。第１実施形態に係る疑似対訳データ生成装置１００の入力データ取得部１、入力データ埋込部２、および機械翻訳処理部５の概略構成図。機械翻訳システム１０００で実行される処理のフローチャート。疑似対訳データ生成装置１００で実行される処理のフローチャート。疑似対訳データ生成装置１００で実行される処理を説明するための図。疑似対訳データ生成装置１００で実行される処理を説明するための図。疑似対訳データ生成装置１００で実行される処理を説明するための図。疑似対訳データ生成装置１００で実行される処理を説明するための図。疑似対訳データ生成装置１００で実行される処理を説明するための図。疑似対訳データ生成装置１００で実行される処理を説明するための図。疑似対訳データ生成装置１００で実行される処理を説明するための図。疑似対訳データ生成装置１００で実行される処理を説明するための図。機械翻訳装置ＭＴ１により取得されたデータの一例を示す図。ＣＰＵバス構成を示す図。

［第１実施形態］
第１実施形態について、図面を参照しながら、以下説明する。

＜１．１：機械翻訳システムの構成＞
図１は、第１実施形態に係る機械翻訳システム１０００の概略構成図である。

図２は、第１実施形態に係る疑似対訳データ生成装置１００の概略構成図である。

図３は、第１実施形態に係る疑似対訳データ生成装置１００の入力データ取得部１、入力データ埋込部２、およびＸＬＭ処理部３の概略構成図である。なお、図３では、第１セレクタＳＥＬ１を省略して図示している。

図４は、第１実施形態に係る疑似対訳データ生成装置１００の入力データ取得部１、入力データ埋込部２、および機械翻訳処理部５の概略構成図である。なお、図４では、第１セレクタＳＥＬ１を省略して図示している。

機械翻訳システム１０００は、図１に示すように、対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）と、第１単言語データ記憶部ＤＢｍ（Ｌ１）と、第２単言語データ記憶部ＤＢｍ（Ｌ２）と、第３単言語データ記憶部ＤＢｍ（Ｒ１）と、第４単言語データ記憶部ＤＢｍ（Ｒ２）と、疑似対訳データ生成装置１００と、疑似対訳データ格納部ＤＢ１と、機械翻訳装置ＭＴ１とを備える。

なお、以下では、疑似対訳データ生成装置１００で生成する対訳データの対象とする分野を「適応先分野」といい、当該適応先分野以外の分野を「他分野」という。

対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）は、適応先分野以外の分野（他分野）の第１言語のデータである他分野第１言語データと、当該他分野第１言語データの第２言語の翻訳データである他分野第２言語データとからなる対訳データを複数含む他分野対訳データ集合Ｄｓｅｔｐ（Ｌ１－Ｌ２）を記憶する。そして、対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）は、疑似対訳データ生成装置１００からの読み出し指令に基づいて、対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）に記憶している所定の対訳データＤ０（Ｌ１－Ｌ２）を読み出し、当該対訳データＤ０（Ｌ１－Ｌ２）を疑似対訳データ生成装置１００に出力する。対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）は、例えば、データベースにより実現される。なお、対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）に記憶保持されている対訳データの数が多いことが好ましい（対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）が大規模な対訳データを記憶保持していることが好ましい）。

第１単言語データ記憶部ＤＢｍ（Ｌ１）は、適応先分野以外の分野（他分野）の第１言語の単言語データである他分野第１言語データを複数含む他分野第１言語データ集合Ｄｓｅｔｍ（Ｌ１）を記憶する。第１単言語データ記憶部ＤＢｍ（Ｌ１）は、疑似対訳データ生成装置１００からの読み出し指令に基づいて、第１単言語データ記憶部ＤＢｍ（Ｌ１）に記憶している所定の第１言語の単言語データＤ０（Ｌ１）を読み出し、当該単言語データＤ０（Ｌ１）を疑似対訳データ生成装置１００に出力する。第１単言語データ記憶部ＤＢｍ（Ｌ１）は、例えば、データベースにより実現される。

第２単言語データ記憶部ＤＢｍ（Ｌ２）は、適応先分野以外の分野（他分野）の第２言語の単言語データである他分野第２言語データを複数含む他分野第２言語データ集合Ｄｓｅｔｍ（Ｌ２）を記憶する。第２単言語データ記憶部ＤＢｍ（Ｌ２）は、疑似対訳データ生成装置１００からの読み出し指令に基づいて、第２単言語データ記憶部ＤＢｍ（Ｌ２）に記憶している所定の第２言語の単言語データＤ０（Ｌ２）を読み出し、当該単言語データＤ０（Ｌ２）を疑似対訳データ生成装置１００に出力する。第２単言語データ記憶部ＤＢｍ（Ｌ２）は、例えば、データベースにより実現される。

第３単言語データ記憶部ＤＢｍ（Ｒ１）は、適応先分野の第１言語の単言語データである適応先分野第１言語データを複数含む適応先分野第１言語データ集合Ｄｓｅｔｍ（Ｒ１）を記憶する。第３単言語データ記憶部ＤＢｍ（Ｒ１）は、疑似対訳データ生成装置１００からの読み出し指令に基づいて、第３単言語データ記憶部ＤＢｍ（Ｒ１）に記憶している所定の第１言語の単言語データＤ０（Ｒ１）を読み出し、当該単言語データＤ０（Ｒ１）を疑似対訳データ生成装置１００に出力する。第３単言語データ記憶部ＤＢｍ（Ｒ１）は、例えば、データベースにより実現される。

第４単言語データ記憶部ＤＢｍ（Ｒ２）は、適応先分野の第２言語の単言語データである適応先分野第２言語データを複数含む適応先分野第２言語データ集合Ｄｓｅｔｍ（Ｒ２）を記憶する。第４単言語データ記憶部ＤＢｍ（Ｒ２）は、疑似対訳データ生成装置１００からの読み出し指令に基づいて、第４単言語データ記憶部ＤＢｍ（Ｒ２）に記憶している所定の第２言語の単言語データＤ０（Ｒ２）を読み出し、当該単言語データＤ０（Ｒ２）を疑似対訳データ生成装置１００に出力する。第４単言語データ記憶部ＤＢｍ（Ｒ２）は、例えば、データベースにより実現される。

疑似対訳データ生成装置１００は、図２に示すように、データ入力インターフェースＩＦ１と、入力データ取得部１と、第１セレクタＳＥＬ１と、入力データ埋込部２と、ＸＬＭ処理部３と、第１出力データ評価部４と、機械翻訳処理部５と、第２セレクタＳＥＬ２と、第２出力データ評価部６と、第１バッファＢｕｆ１と、第２入力データ取得処理部７と、フィルター処理部８とを備える。

データ入力インターフェースＩＦ１は、疑似対訳データ生成装置１００の各機能部を制御する制御部（不図示）からの制御信号ＣＴＬ１を入力し、当該制御信号ＣＴＬ１に従い、対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）、第１単言語データ記憶部ＤＢｍ（Ｌ１）、第２単言語データ記憶部ＤＢｍ（Ｌ２）、第３単言語データ記憶部ＤＢｍ（Ｒ１）、および、第４単言語データ記憶部ＤＢｍ（Ｒ２）のいずれかから、所定のデータを読み出し、読み出したデータをデータＤ１として入力データ取得部１に出力する。

入力データ取得部１は、図３に示すように、第１入力データ取得処理部１１と、マスク化処理部１２と、正解データ取得部１３と、入力データ出力部１４と、を備える。入力データ取得部１は、入力されるデータの全部または一部を所定の期間、記憶保持することができるバッファ（不図示）を備えており、処理に応じて、当該バッファに記憶保持されているデータを使用することができる。

第１入力データ取得処理部１１は、データ入力インターフェースＩＦ１から出力されるデータＤ１と、制御部から出力される制御信号ＣＴＬ２とを入力する。第１入力データ取得処理部１１は、制御信号ＣＴＬ２に従い、データＤ１から、マスク化処理部１２および入力データ埋込部２に入力するためのデータを取得（生成）する。具体的には、第１入力データ取得処理部１１は、入力されたデータＤ１（例えば、サブワード列（または単語列）のデータ、または、各サブワード（または各単語）に対応するインデックスの列のデータ）から、（１）トークン（トークンは、文字列を表すものであってもよい）を表すデータであるトークンデータｘｉ０_{ｔｏｋｅｎ}と、（２）当該トークンの位置を特定するための位置データｘｉ_ｐｏｓと、（３）当該トークンの言語を特定するための言語データｘｉ_ｌａｎｇと、を取得する。そして、第１入力データ取得処理部１１は、上記により取得した、トークンデータｘｉ０_{ｔｏｋｅｎ}をマスク化処理部１２に出力し、位置データｘｉ_ｐｏｓと、言語データｘｉ_ｌａｎｇとを第１セレクタＳＥＬ１に出力する。

マスク化処理部１２は、第１入力データ取得処理部１１から出力されるトークンデータｘｉ０_{ｔｏｋｅｎ}と、制御部から出力される制御信号ＣＴＬ２とを入力する。（１）制御信号ＣＴＬ２がマスク化処理の実行を指示している場合、マスク化処理部１２は、トークンデータｘｉ０_{ｔｏｋｅｎ}に対してマスク化処理を実行し、マスク化処理後のデータをトークンデータｘｉ_{ｔｏｋｅｎ}として、第１セレクタＳＥＬ１に出力する。（２）制御信号ＣＴＬ２がマスク化処理の実行を指示していない場合、マスク化処理部１２は、入力したトークンデータｘｉ０_{ｔｏｋｅｎ}をトークンデータｘｉ_{ｔｏｋｅｎ}として、第１セレクタＳＥＬ１に出力する。

なお、入力データ取得部１から第１セレクタＳＥＬ１に出力される（１）トークンデータｘｉ_{ｔｏｋｅｎ}と、（２）位置データｘｉ_ｐｏｓと、（３）言語データｘｉ_ｌａｎｇと、を含むデータをデータＤ２ａと表記する。

正解データ取得部１３は、データ入力インターフェースＩＦ１から出力されるデータＤ１と、制御部から出力される制御信号ＣＴＬ２とを入力する。正解データ取得部１３は、制御信号ＣＴＬ２に従い、データＤ１から、言語横断言語モデル（ＸＬＭ）（入力データ埋込部２（埋込層に対応）およびＸＬＭ処理部３のＸＬＭ用ニューラルネットワークモデル３１からなるモデル）、または、機械翻訳モデル（入力データ埋込部２および機械翻訳処理部５により構成されるニューラルネットワークモデル）の学習処理に用いる正解データＤ＿ｃｏｒｒｅｃｔを生成し、当該正解データＤ＿ｃｏｒｒｅｃｔを第１出力データ評価部４および第２出力データ評価部６に出力する。

入力データ出力部１４は、データ入力インターフェースＩＦ１から出力されるデータＤ１と、制御部から出力される制御信号ＣＴＬ２とを入力する。入力データ出力部１４は、制御信号ＣＴＬ２に従い、入力されたデータＤ１を、データＤ１＿ｏｒｇとしてフィルター処理部８に出力する。

第１セレクタＳＥＬ１は、入力データ取得部１の第１入力データ取得処理部１１から出力されるデータＤ２ａと、第２入力データ取得処理部７から出力されるデータＤ２ｂと、制御部から出力される選択信号ｓｅｌ１とを入力する。第１セレクタＳＥＬ１は、選択信号ｓｅｌ１に従い、データＤ２ａ、または、データＤ２ｂを選択して、データＤ３として入力データ埋込部２に出力する。

入力データ埋込部２は、図３、図４に示すように、トークン埋込部２１と、位置埋込部２２と、言語埋込部２３とを備える。

トークン埋込部２１は、データＤ３に含まれるトークンデータｘｉ_{ｔｏｋｅｎ}を入力し、入力したトークンデータｘｉ_{ｔｏｋｅｎ}の分散表現データを取得し、取得した分散表現データを分散表現データｘｉ’_{ｔｏｋｅｎ}として、ＸＬＭ処理部３および機械翻訳処理部５に出力する。なお、トークン埋込部２１は、例えば、トークンデータｘｉ_{ｔｏｋｅｎ}に対して、分散表現データを取得するための行列による行列演算を行うことで、分散表現データｘｉ’_{ｔｏｋｅｎ}を取得する。例えば、トークン埋込部２１は、下記の行列演算による処理を行うことで、分散表現データｘｉ’_{ｔｏｋｅｎ}を取得する。なお、行列Ｗ_{ｔｏｋｅｎ}の各要素（重み付け係数に相当）は、パラメータθ_ｅｍｂの一部である。パラメータθ_ｅｍｂは、ＸＬＭ処理部３または機械翻訳処理部５から入力データ埋込部２に入力されるパラメータ更新データｕｐｄａｔｅ（θ_ｅｍｂ）により更新される。
ｘｉ’_{ｔｏｋｅｎ}＝ｘｉ_{ｔｏｋｅｎ}・Ｗ_{ｔｏｋｅｎ}
ｘｉ_{ｔｏｋｅｎ}：各トークン（入力データ）文字列を表すベクトル（例えば、１×ｎ１の行列（ｎ１次元ベクトル）（ｎ１：自然数））
Ｗ_{ｔｏｋｅｎ}：分散表現データを取得するための行列（例えば、ｎ１×ｍ１の行列（ｎ１，ｍ１：自然数））
ｘｉ’_{ｔｏｋｅｎ}：入力データｘｉ_{ｔｏｋｅｎ}の分散表現データ（例えば、１×ｍ１の行列（ｍ１次元ベクトル）（ｍ１：自然数））
位置埋込部２２は、データＤ３に含まれる位置データｘｉ_ｐｏｓを入力し、入力した位置データｘｉ_ｐｏｓの分散表現データを取得し、取得した分散表現データを分散表現データｘｉ’_ｐｏｓとして、ＸＬＭ処理部３および機械翻訳処理部５に出力する。なお、位置埋込部２２は、例えば、位置データｘｉ_ｐｏｓに対して、分散表現データを取得するための行列による行列演算を行うことで、分散表現データｘｉ’_ｐｏｓを取得する。例えば、位置埋込部２２は、下記の行列演算による処理を行うことで、分散表現データｘｉ’_ｐｏｓを取得する。なお、行列Ｗ_ｐｏｓの各要素（重み付け係数に相当）は、パラメータθ_ｅｍｂの一部である。パラメータθ_ｅｍｂは、ＸＬＭ処理部３または機械翻訳処理部５から入力データ埋込部２に入力されるパラメータ更新データｕｐｄａｔｅ（θ_ｅｍｂ）により更新される。
ｘｉ’_ｐｏｓ＝ｘｉ_ｐｏｓ・Ｗ_ｐｏｓ
ｘｉ_ｐｏｓ：各トークン（入力データ）の位置を表すベクトル（例えば、１×ｎ２の行列（ｎ２次元ベクトル）（ｎ２：自然数））
Ｗ_ｐｏｓ：分散表現データを取得するための行列（例えば、ｎ２×ｍ２の行列（ｎ２，ｍ２：自然数））
ｘｉ’_ｐｏｓ：入力データｘｉ_ｐｏｓの分散表現データ（例えば、１×ｍ２の行列（ｍ２次元ベクトル）（ｍ２：自然数））
言語埋込部２３は、データＤ３に含まれる言語データｘｉ_ｌａｎｇを入力し、入力した言語データｘｉ_ｌａｎｇの分散表現データを取得し、取得した分散表現データを分散表現データｘｉ’_ｌａｎｇとして、ＸＬＭ処理部３および機械翻訳処理部５に出力する。なお、言語埋込部２３は、例えば、言語データｘｉ_ｌａｎｇに対して、分散表現データを取得するための行列による行列演算を行うことで、分散表現データｘｉ’_ｌａｎｇを取得する。例えば、言語埋込部２３は、下記の行列演算による処理を行うことで、分散表現データｘｉ’_ｌａｎｇを取得する。なお、行列Ｗ_ｌａｎｇの各要素（重み付け係数に相当）は、パラメータθ_ｅｍｂの一部である。パラメータθ_ｅｍｂは、ＸＬＭ処理部３または機械翻訳処理部５から入力データ埋込部２に入力されるパラメータ更新データｕｐｄａｔｅ（θ_ｅｍｂ）により更新される。
ｘｉ’_ｌａｎｇ＝ｘｉ_ｌａｎｇ・Ｗ_ｌａｎｇ
ｘｉ_ｌａｎｇ：各トークン（入力データ）の言語を表すベクトル（例えば、１×ｎ３の行列（ｎ３次元ベクトル）（ｎ３：自然数））
Ｗ_ｌａｎｇ：分散表現データを取得するための行列（例えば、ｎ３×ｍ３の行列（ｎ３，ｍ３：自然数））
ｘｉ’_ｌａｎｇ：入力データｘｉ_ｌａｎｇの分散表現データ（例えば、１×ｍ３の行列（ｍ３次元ベクトル）（ｍ３：自然数））
入力データ埋込部２は、上記により取得された分散表現データをデータＤ４として、ＸＬＭ処理部３および機械翻訳処理部５に出力する。

ＸＬＭ処理部３は、図３に示すように、ＸＬＭ用ニューラルネットワークモデル３１を備える。

ＸＬＭ用ニューラルネットワークモデル３１は、例えば、下記文献Ａに開示されているニューラルネットワークモデルであり、例えば、下記文献Ｂに開示されているトランスフォーマーモデルのアーキテクチャを採用したニューラルネットワークモデルにより実現される。
（文献Ａ）：Alexis Conneau and Guillaume Lample (2019). Cross-Lingual Language Model Pretraining. In Proceedings of the 32nd Neural Information Processing Systems Conference (NeurIPS), pp. 7057-7067.
（文献Ｂ）：Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin (2017). Attention is All You Need. In Proceedings of the 30th Neural Information Processing Systems Conference (NeurIPS), pp. 5998-6008.
ＸＬＭ用ニューラルネットワークモデル３１は、入力データ埋込部２から出力される分散表現データＤ４（＝｛ｘｉ’_{ｔｏｋｅｎ，}ｘｉ’_ｐｏｓ，ｘｉ’_ｌａｎｇ｝）を入力する。

ＸＬＭ用ニューラルネットワークモデル３１は、第１出力データ評価部４から出力されるパラメータ更新データｕｐｄａｔｅ（θ_ＸＬＭ）に基づいて、ＸＬＭ用ニューラルネットワークモデル３１のパラメータを更新する。また、ＸＬＭ用ニューラルネットワークモデル３１は、ＸＬＭ用ニューラルネットワークモデルのパラメータを更新した後、埋込層（入力データ埋込部２のトークン埋込部２１、位置埋込部２２、および、言語埋込部２３に対応）のパラメータを更新するためのパラメータ更新データｕｐｄａｔｅ（θ_ｅｍｂ）を生成し、当該パラメータ更新データｕｐｄａｔｅ（θ_ｅｍｂ）を入力データ埋込部２に出力する。

また、ＸＬＭ用ニューラルネットワークモデル３１は、入力データ埋込部２から出力されるデータＤ４に対して、ＸＬＭ処理を実行し、データＤ５ｘを取得する。そして、ＸＬＭ処理部３は、上記により取得したデータＤ５ｘを第１出力データ評価部４に出力する。

第１出力データ評価部４は、図２に示すように、ＸＬＭ処理部３から出力されるデータＤ５ｘと、入力データ取得部１から出力される正解データＤ＿ｃｏｒｒｅｃｔとを入力する。第１出力データ評価部４は、損失を評価するために、ＸＬＭ処理部３の出力であるデータＤ５ｘに対する正解データＤ＿ｃｏｒｒｅｃｔから損失評価用のデータＤ＿ｃｏｒｒｅｃｔ’を取得し、データＤ５ｘとデータＤ＿ｃｏｒｒｅｃｔ’とから損失を取得する（詳細については後述）。そして、第１出力データ評価部４は、所定の学習データに対する損失（学習損失）に基づいてＸＬＭ処理部３のＸＬＭ用ニューラルネットワークモデル３１のパラメータθ_ＸＬＭを更新するためのデータｕｐｄａｔｅ（θ_ＸＬＭ）を生成し、当該データｕｐｄａｔｅ（θ_ＸＬＭ）をＸＬＭ処理部３に出力する。

機械翻訳処理部５は、図４に示すように、ＭＴ用ニューラルネットワークモデル５１を備える。

ＭＴ用ニューラルネットワークモデル５１は、エンコーダ／デコーダ方式のニューラルネットワークモデルであり、例えば、上記文献Ｂに開示されているトランスフォーマーモデルのアーキテクチャによるエンコーダ、デコーダの構成を採用したニューラルネットワークモデルである。

ＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力される分散表現データＤ４（＝｛ｘｉ’_{ｔｏｋｅｎ，}ｘｉ’_ｐｏｓ，ｘｉ’_ｌａｎｇ｝）と、制御部から出力される制御信号ＣＴＬ３とを入力する。ＭＴ用ニューラルネットワークモデル５１は、制御信号ＣＴＬ３で指示された言語のデータを出力する。

また、ＭＴ用ニューラルネットワークモデル５１は、第２出力データ評価部６から出力されるパラメータ更新データｕｐｄａｔｅ（θ_ＭＴ）に基づいて、ＭＴ用ニューラルネットワークモデル５１のパラメータを更新する。

また、ＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力されるデータＤ４に対して、機械翻訳処理を実行し、データＤ５を取得する。なお、ＭＴ用ニューラルネットワークモデル５１は、制御信号ＣＴＬ３によって指定された種別のデータがデータＤ５として出力されるように、機械翻訳処理を実行する。なお、制御信号ＣＴＬ３によって指定される種別は、（１）Ｌ１（他分野、第１言語）、（２）Ｌ２（他分野、第２言語）、（３）Ｒ１（適応先分野、第１言語）、および、（４）Ｒ２（適応先分野、第２言語）のいずれかである。

機械翻訳処理部５は、ＭＴ用ニューラルネットワークモデル５１により取得したデータＤ５を第２セレクタＳＥＬ２に出力する。

なお、機械翻訳処理部５は、疑似対訳データを取得する場合、入力データ埋込部２に入力されるデータ（例えば、他分野第１言語のデータＤ３（Ｌ１））に対して機械翻訳処理を行い取得したデータ（例えば、Ｒ２のデータ）と、入力データ埋込部２に入力されるデータ（他分野第１言語のデータＤ３（Ｌ１）の他分野第２言語の対訳文に相当するデータＤ３（Ｌ２））に対して機械翻訳処理を行い取得したデータ（例えば、Ｒ１のデータ）とをペアにして、データＤ５（例えば、データＤ５（Ｒ１－Ｒ２）（適応先分野第１言語の機械翻訳文（入力されたＬ２のデータの機械翻訳結果）と、適応先分野の第２言語の機械翻訳文（入力されたＬ１のデータの機械翻訳結果）とをペアとして構成する対訳データＤ５（Ｒ１－Ｒ２）））として、第２セレクタＳＥＬ２に出力する。

第２セレクタＳＥＬ２は、１入力２出力の切替器であり、機械翻訳処理部５から出力されるデータＤ５と、制御部から出力される選択信号ｓｅｌ２とを入力する。第２セレクタＳＥＬ２は、選択信号ｓｅｌ２に従い、データＤ５を、（１）データＤ６ａとして第２出力データ評価部６およびフィルター処理部８に出力する、または、（２）データＤ６ｂとして第１バッファＢｕｆ１に出力する。

第２出力データ評価部６は、図２に示すように、第２セレクタＳＥＬ２から出力されるデータＤ６ａと、入力データ取得部１から出力される正解データＤ＿ｃｏｒｒｅｃｔとを入力する。第２出力データ評価部６は、損失を評価するために、機械翻訳処理部５の出力であるデータＤ６ａの正解データＤ＿ｃｏｒｒｅｃｔから損失評価用のデータＤ＿ｃｏｒｒｅｃｔ’を取得し、データＤ６ａとデータＤ＿ｃｏｒｒｅｃｔ’とから損失を取得する（詳細については後述）。そして、第２出力データ評価部６は、所定の学習データに対する損失（学習損失）に基づいて機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１のパラメータθ_ＭＴを更新するためのデータｕｐｄａｔｅ（θ_ＭＴ）を生成する。

そして、第２出力データ評価部６は、データｕｐｄａｔｅ（θ_ＭＴ）を機械翻訳処理部５に出力する。

第１バッファＢｕｆ１は、第２セレクタＳＥＬ２から出力されるデータＤ６ｂを記憶保持するためのバッファである。第１バッファＢｕｆ１は、記憶保持しているデータをデータＤ６ｂ’として第２入力データ取得処理部７に出力する。

第２入力データ取得処理部７は、第１入力データ取得処理部１１と同様の機能部であり、第１バッファＢｕｆ１から出力されるデータＤ６ｂ’を入力し、データＤ６ｂ’から入力データ埋込部２に入力するためのデータを取得（生成）する。そして、第２入力データ取得処理部７は、取得したデータをデータＤ２ｂとして、第１セレクタＳＥＬ１に出力する。

フィルター処理部８は、第２セレクタＳＥＬ２から出力されるデータＤ６ａと、入力データ取得部１から出力されるデータＤ１＿ｏｒｇと、制御部から出力される制御信号ＣＴＬ４とを入力する。

また、フィルター処理部８は、（１）データＤ６ａが対訳データ（疑似対訳データ）である場合、各対訳データに信頼度を付与し、当該信頼度によるフィルタリング処理を行い、（２）データＤ６ａが機械翻訳データである場合、当該機械翻訳データとデータＤ１＿ｏｒｇとをペアリングして取得した対訳データ（疑似対訳データ）について、信頼度を付与し、当該信頼度によるフィルタリング処理を行う。

そして、フィルター処理部８は、フィルター処理後の対訳データをデータＤｐｓｄ１として、疑似対訳データ格納部ＤＢ１に出力する。

疑似対訳データ格納部ＤＢ１は、図１に示すように、疑似対訳データ生成装置１００から出力されるデータＤｐｓｄ１を記憶保持するための記憶部である。また、疑似対訳データ格納部ＤＢ１は、機械翻訳装置ＭＴ１から読み出し指令に基づいて、記憶保持しているデータを読み出し、読み出したデータをデータＤｐｓｄ２として機械翻訳装置ＭＴ１に出力する。

機械翻訳装置ＭＴ１は、図１に示すように、対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）および／または疑似対訳データ格納部ＤＢ１から、データを読み出し、読み出した当該データを用いて、機械翻訳モデルの学習処理を行う。そして、機械翻訳装置ＭＴ１は、当該学習処理により取得した機械翻訳モデルの学習済みモデルを用いて、機械翻訳処理を行う。つまり、機械翻訳装置ＭＴ１は、起点言語データＤｉｎ＿ｅを入力し、当該起点言語データＤｉｎ＿ｅに対して機械翻訳処理を行い、目標言語データＤｏｕｔ＿ｊを取得する。

＜１．２：機械翻訳システムの動作＞
以上のように構成された機械翻訳システム１０００の動作について、説明する。

図５は、機械翻訳システム１０００で実行される処理のフローチャートである。

図６は、疑似対訳データ生成装置１００で実行される処理（事前学習処理）のフローチャートである。

図７～図１１は、疑似対訳データ生成装置１００で実行される処理（事前学習処理）を説明するための図である。

図１２～図１４は、疑似対訳データ生成装置１００で実行される処理（疑似対訳データ生成処理）を説明するための図である。

以下では、図面を参照しながら、機械翻訳システム１０００の動作について、説明する。

（１．２．１：事前学習処理）
まず、機械翻訳システム１０００の疑似対訳データ生成装置１００において実行される事前学習処理（疑似対訳データ生成用ＮＭＴモデル（入力データ埋込部２（埋込層に相当）と機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１とにより実現されるモデル）の事前学習処理）（図５のフローチャートのステップＳ１）について、ＸＬＭの学習処理と、疑似対訳データ生成用ＮＭＴモデルの学習処理とに分けて説明する。

（１．２．１．１：ＸＬＭの学習処理）
まず、ＸＬＭの学習処理について説明する。

ＸＬＭの学習処理は、図６に示すように、
（Ａ）マスク化言語モデル（ＭＬＭ）の処理（ステップＳ１１１）と、
（Ｂ）翻訳言語モデル（ＴＬＭ）の処理（ステップＳ１１２）と、
（Ｃ）損失の計算処理（ステップＳ１１３）と、
（Ｄ）パラメータ（θ_ＸＬＭ，θ_ｅｍｂ）の更新処理（ステップＳ１１４）と、
から構成される。

なお、図６のフローチャートに示すように、ステップＳ１１１～ステップＳ１１４の処理は、終了条件が満たされるまで繰り返し実行される（図６のループ処理（ループ１）Ｓ１１０～Ｓ１１５）。

（１．２．１．１Ａ：マスク化言語モデル（ＭＬＭ）の処理）
マスク化言語モデル（ＭＬＭ）の処理において、疑似対訳データ生成装置１００は、図７に示すように、入力データ埋込部２への入力をマスク化データとし、正解データを原データ（マスク化していないデータ）として、学習処理を行う。

≪Ｍ１：ＭＬＭの処理（Ｌ１．ｍａｓｋ→Ｌ１）≫
具体的には、データ入力インターフェースＩＦ１は、第１単言語データ記憶部ＤＢｍ（Ｌ１）から他分野第１言語の単言語データＤ０（Ｌ１）を読み出し、読み出した単言語データをデータＤ１（Ｌ１）として、入力データ取得部１に出力する。

入力データ取得部１の第１入力データ取得処理部１１は、データＤ１（他分野第１言語のデータＤ１（Ｌ１））から、（１）トークンデータｘｉ０_{ｔｏｋｅｎ}（＝ｘｉ０_{ｔｏｋｅｎ}（Ｌ１））と、（２）当該トークンの位置を特定するための位置データｘｉ_ｐｏｓ（＝ｘｉ_ｐｏｓ（Ｌ１））と、（３）当該トークンの言語を特定するための言語データｘｉ_ｌａｎｇ（＝ｘｉ_ｌａｎｇ（Ｌ１））と、を取得する。

そして、入力データ取得部１は、上記のように取得したトークンデータｘｉ０_{ｔｏｋｅｎ}をマスク化処理部１２に出力する。

制御部（不図示）は、入力データ取得部１のマスク化処理部１２に対して、マスク化処理を実行することを指示する制御信号ＣＴＬ２を生成し、当該制御信号ＣＴＬ２をマスク化処理部１２に出力する。

マスク化処理部１２は、制御信号ＣＴＬ２に従い、第１入力データ取得処理部１１から入力したトークンデータｘｉ０_{ｔｏｋｅｎ}の一部のトークンをマスクトークン（例えば、ラベル「［ｍａｓｋ］」を付与したデータ（トークン）に設定する）に置換するマスク化処理を行う。そして、マスク化処理部１２は、当該マスク化処理後のトークンデータをトークンデータｘｉ_{ｔｏｋｅｎ}として、第１セレクタＳＥＬ１に出力する。

また、第１入力データ取得処理部１１は、位置データｘｉ_ｐｏｓ（＝ｘｉ_ｐｏｓ（Ｌ１））を第１セレクタＳＥＬ１に出力し、言語データｘｉ_ｌａｎｇ（＝ｘｉ_ｌａｎｇ（Ｌ１））を第１セレクタＳＥＬ１に出力する。

つまり、入力データ取得部１は、上記により取得したデータをデータＤ２ａ（＝Ｄ２ａ（Ｌ１．ｍａｓｋ）＝｛ｘｉ_{ｔｏｋｅｎ}（Ｌ１），ｘｉ_ｐｏｓ（Ｌ１），ｘｉ_ｌａｎｇ（Ｌ１）｝）として第１セレクタＳＥＬ１に出力する。

なお、データを示す変数の末尾に括弧書きを追加し、そのデータの種別を表すものとする。例えば、ｘｉ_{ｔｏｋｅｎ}（Ｌ１）は、他分野第１言語（Ｌ１）のデータから導出されたデータであることを示している（以下、同様）。また、上記括弧の中の「．ｍａｓｋ」という表記は、マスク化処理されたトークンデータを含むデータであることを示しており、例えば、「Ｌ１．ｍａｓｋ」は、他分野第１言語（Ｌ１）のデータから導出されたデータにおけるトークンデータに対してマスク化処理を行ったデータを含むデータであることを示している（以下、同様）。

正解データ取得部１３は、制御信号ＣＴＬ２に従い、データＤ１（＝Ｄ１（Ｌ１））から、入力データ埋込部２およびＸＬＭ処理部３での学習処理（ＸＬＭの学習処理）に用いる正解データＤ＿ｃｏｒｒｅｃｔ（＝Ｄ＿ｃｏｒｒｅｃｔ（Ｌ１））を生成する。そして、正解データ取得部１３は、生成したデータを正解データＤ＿ｃｏｒｒｅｃｔ（＝Ｄ＿ｃｏｒｒｅｃｔ（Ｌ１））として第１出力データ評価部４に出力する。

制御部は、第１セレクタＳＥＬ１の端子「０」を選択する選択信号ｓｅｌ１を生成し、当該選択信号ｓｅｌ１を第１セレクタＳＥＬ１に出力する。

第１セレクタＳＥＬ１は、選択信号ｓｅｌ１に従い、端子「０」を選択し、入力データ取得部１から出力されるデータＤ２ａ（Ｌ１．ｍａｓｋ）を、データＤ３（＝Ｄ３（Ｌ１．ｍａｓｋ））として入力データ埋込部２に出力する。

入力データ埋込部２のトークン埋込部２１は、データＤ３（Ｌ１．ｍａｓｋ）に含まれるトークンデータｘｉ_{ｔｏｋｅｎ}を入力し、入力したトークンデータｘｉ_{ｔｏｋｅｎ}の分散表現データを、例えば、下記数式に相当する処理を実行して取得する。
ｘｉ’_{ｔｏｋｅｎ}＝ｘｉ_{ｔｏｋｅｎ}・Ｗ_{ｔｏｋｅｎ}
ｘｉ_{ｔｏｋｅｎ}：各トークン（入力データ）文字列を表すベクトル（例えば、１×ｎ１の行列（ｎ１次元ベクトル）（ｎ１：自然数））
Ｗ_{ｔｏｋｅｎ}：分散表現データを取得するための行列（例えば、ｎ１×ｍ１の行列（ｎ１，ｍ１：自然数））
ｘｉ’_{ｔｏｋｅｎ}：入力データｘｉ_{ｔｏｋｅｎ}の分散表現データ（例えば、１×ｍ１の行列（ｍ１次元ベクトル）（ｍ１：自然数））
入力データ埋込部２の位置埋込部２２は、データＤ３（Ｌ１．ｍａｓｋ）に含まれる位置データｘｉ_ｐｏｓを入力し、入力した位置データｘｉ_ｐｏｓの分散表現データを、例えば、下記数式に相当する処理を実行して取得する。
ｘｉ’_ｐｏｓ＝ｘｉ_ｐｏｓ・Ｗ_ｐｏｓ
ｘｉ_ｐｏｓ：各トークン（入力データ）の位置を表すベクトル（例えば、１×ｎ２の行列（ｎ２次元ベクトル）（ｎ２：自然数））
Ｗ_ｐｏｓ：分散表現データを取得するための行列（例えば、ｎ２×ｍ２の行列（ｎ２，ｍ２：自然数））
ｘｉ’_ｐｏｓ：入力データｘｉ_ｐｏｓの分散表現データ（例えば、１×ｍ２の行列（ｍ２次元ベクトル）（ｍ２：自然数））
入力データ埋込部２の言語埋込部２３は、データＤ３（Ｌ１．ｍａｓｋ）に含まれる言語データｘｉ_ｌａｎｇを入力し、入力した言語データｘｉ_ｌａｎｇの分散表現データを、例えば、下記数式に相当する処理を実行して取得する。
ｘｉ’_ｌａｎｇ＝ｘｉ_ｌａｎｇ・Ｗ_ｌａｎｇ
ｘｉ_ｌａｎｇ：各トークン（入力データ）の言語を表すベクトル（例えば、１×ｎ３の行列（ｎ３次元ベクトル）（ｎ３：自然数））
Ｗ_ｌａｎｇ：分散表現データを取得するための行列（例えば、ｎ３×ｍ３の行列（ｎ３，ｍ３：自然数））
ｘｉ’_ｌａｎｇ：入力データｘｉ_ｌａｎｇの分散表現データ（例えば、１×ｍ３の行列（ｍ３次元ベクトル）（ｍ３：自然数））
入力データ埋込部２は、上記により取得された分散表現データをデータＤ４（Ｌ１．ｍａｓｋ）として、ＸＬＭ処理部３に出力する。なお、上記のトークン文字列や言語識別子の埋め込み方法、位置の埋め込み方法は、上記に限定されることなく、他の方法を用いてもよい。

ＸＬＭ処理部３のＸＬＭ用ニューラルネットワークモデル３１は、入力データ埋込部２から出力されるデータＤ４（Ｌ１．ｍａｓｋ）に対して、ＸＬＭ処理を実行し、データＤ５ｘ（＝Ｄ５ｘ（Ｌ１．ｍａｓｋ））を取得する。そして、ＸＬＭ処理部３は、上記により取得したデータＤ５ｘを第１出力データ評価部４に出力する。

第１出力データ評価部４は、ＸＬＭ処理部３から出力されるデータＤ５ｘ（Ｌ１．ｍａｓｋ）と、入力データ取得部１から出力される正解データＤ＿ｃｏｒｒｅｃｔ（＝Ｄ＿ｃｏｒｒｅｃｔ（Ｌ１））とを入力する。第１出力データ評価部４は、ＸＬＭ処理部３の出力であるデータＤ５（Ｌ１．ｍａｓｋ）と、その正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）とから損失を取得する。

≪Ｍ２：ＭＬＭの処理（Ｌ２．ｍａｓｋ→Ｌ２）≫
次に、疑似対訳データ生成装置１００のデータ入力インターフェースＩＦ１は、第２単言語データ記憶部ＤＢｍ（Ｌ２）から他分野の第２言語の単言語データＤ０（Ｌ２）を読み出し、読み出した単言語データをデータＤ１（Ｌ２）として、入力データ取得部１に出力する。そして、上記と同様の処理を行う。つまり、入力データ埋込部２への入力データを、データＤ３（Ｌ２．ｍａｓｋ）、すなわち、
Ｄ３（Ｌ２．ｍａｓｋ）＝｛ｘｉ_{ｔｏｋｅｎ}（Ｌ２），ｘｉ_ｐｏｓ（Ｌ２），ｘｉ_ｌａｎｇ（Ｌ２）｝
ｘｉ_{ｔｏｋｅｎ}（Ｌ２）：第２単言語データ記憶部ＤＢｍ（Ｌ２）から読み出した単言語データＤ１（Ｌ２）のトークンデータｘｉ０_{ｔｏｋｅｎ}（Ｌ２）の一部のトークンをマスクトークンに置換するマスク化処理を行うことで取得したマスク化トークンデータ
ｘｉ_ｐｏｓ（Ｌ２）：第２単言語データ記憶部ＤＢｍ（Ｌ２）から読み出した単言語データＤ１（Ｌ２）のトークンデータの位置を示すデータ（位置データ）
ｘｉ_ｌａｎｇ（Ｌ２）：第２単言語データ記憶部ＤＢｍ（Ｌ２）から読み出した単言語データＤ１（Ｌ２）のトークンの言語を示すデータ（言語データ）
とし、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｌ２）（＝原データ（マスク化していないデータ））として、上記と同様の処理を行う。

≪Ｍ３：ＭＬＭの処理（Ｒ１．ｍａｓｋ→Ｒ１）≫
次に、疑似対訳データ生成装置１００のデータ入力インターフェースＩＦ１は、第３単言語データ記憶部ＤＢｍ（Ｒ１）から適応先分野の第１言語の単言語データＤ０（Ｒ１）を読み出し、読み出した単言語データをデータＤ１（Ｒ１）として、入力データ取得部１に出力する。そして、上記と同様の処理を行う。つまり、入力データ埋込部２への入力データを、データＤ３（Ｒ１．ｍａｓｋ）、すなわち、
Ｄ３（Ｒ１．ｍａｓｋ）＝｛ｘｉ_{ｔｏｋｅｎ}（Ｒ１），ｘｉ_ｐｏｓ（Ｒ１），ｘｉ_ｌａｎｇ（Ｒ１）｝
ｘｉ_{ｔｏｋｅｎ}（Ｒ１）：第３単言語データ記憶部ＤＢｍ（Ｒ１）から読み出した単言語データＤ１（Ｒ１）のトークンデータｘｉ０_{ｔｏｋｅｎ}（Ｒ１）の一部のトークンをマスクトークンに置換するマスク化処理を行うことで取得したマスク化トークンデータ
ｘｉ_ｐｏｓ（Ｒ１）：第３単言語データ記憶部ＤＢｍ（Ｒ１）から読み出した単言語データＤ１（Ｒ１）のトークンデータの位置を示すデータ（位置データ）
ｘｉ_ｌａｎｇ（Ｒ１）：第３単言語データ記憶部ＤＢｍ（Ｒ１）から読み出した単言語データＤ１（Ｒ１）のトークンデータの言語を示すデータ（言語データ）
とし、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｒ１）（＝原データ（マスク化していないデータ））として、上記と同様の処理を行う。

≪Ｍ４：ＭＬＭの処理（Ｒ２．ｍａｓｋ→Ｒ２）≫
次に、疑似対訳データ生成装置１００のデータ入力インターフェースＩＦ１は、第４単言語データ記憶部ＤＢｍ（Ｒ２）から適応先分野の第２言語の単言語データＤ０（Ｒ２）を読み出し、読み出した単言語データをデータＤ１として、入力データ取得部１に出力する。そして、上記と同様の処理を行う。つまり、入力データ埋込部２への入力データを、データＤ３（Ｒ２．ｍａｓｋ）、すなわち、
Ｄ３（Ｒ２．ｍａｓｋ）＝｛ｘｉ_{ｔｏｋｅｎ}（Ｒ２），ｘｉ_ｐｏｓ（Ｒ２），ｘｉ_ｌａｎｇ（Ｒ２）｝
ｘｉ_{ｔｏｋｅｎ}（Ｒ２）：第４単言語データ記憶部ＤＢｍ（Ｒ２）から読み出した単言語データＤ１（Ｒ２）のトークンデータｘｉ０_{ｔｏｋｅｎ}（Ｒ２）の一部のトークンをマスクトークンに置換するマスク化処理を行うことで取得したマスク化トークンデータ
ｘｉ_ｐｏｓ（Ｒ２）：第４単言語データ記憶部ＤＢｍ（Ｒ２）から読み出した単言語データＤ１（Ｒ２）のトークンデータの位置を示すデータ（位置データ）
ｘｉ_ｌａｎｇ（Ｒ２）：第４単言語データ記憶部ＤＢｍ（Ｒ２）から読み出した単言語データＤ１（Ｒ２）のトークンデータの言語を示すデータ（言語データ）
とし、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｒ２）（＝原データ（マスク化していないデータ））として、上記と同様の処理を行う。

（１．２．１．１Ｂ：翻訳言語モデル（ＴＬＭ）の処理）
次に、翻訳言語モデル（ＴＬＭ）の処理において、疑似対訳データ生成装置１００は、図７に示すように、入力データ埋込部２への入力（対訳データ）をマスク化データとし、正解データを原データ（マスク化していないデータ）として、学習処理を行う。

≪Ｔ１：ＴＬＭの処理（（Ｌ１－Ｌ２）．ｍａｓｋ→Ｌ１－Ｌ２）≫
具体的には、データ入力インターフェースＩＦ１は、対訳データ記憶部ＤＢｐ（Ｌ１―Ｌ２）から他分野の対訳データＤ０（Ｌ１－Ｌ２）を読み出し、読み出した対訳データをデータＤ１（Ｌ１－Ｌ２）として、入力データ取得部１に出力する。

入力データ取得部１の第１入力データ取得処理部１１は、データＤ１（対訳データＤ１（Ｌ１－Ｌ２）（他分野第１言語の文と、当該文の第２言語の対訳文をペアとして構成する対訳データＤ１（Ｌ１－Ｌ２）））から、（１）トークンデータｘｉ０_{ｔｏｋｅｎ}（＝ｘｉ０_{ｔｏｋｅｎ}（Ｌ１－Ｌ２））と、（２）当該トークンの位置を特定するための位置データｘｉ_ｐｏｓ（＝ｘｉ_ｐｏｓ（Ｌ１－Ｌ２））と、（３）当該トークンの言語を特定するための言語データｘｉ_ｌａｎｇ（＝ｘｉ_ｌａｎｇ（Ｌ１－Ｌ２））と、を取得する。

そして、入力データ取得部１は、上記のように取得したトークンデータｘｉ０_{ｔｏｋｅｎ}（Ｌ１－Ｌ２）をマスク化処理部１２に出力する。

マスク化処理部１２は、制御信号ＣＴＬ２に従い、第１入力データ取得処理部１１から入力したトークンデータｘｉ０_{ｔｏｋｅｎ}（Ｌ１－Ｌ２）の一部のトークンをマスクトークン（例えば、文字列を人工的なトークン「［ＭＡＳＫ］」としたデータ（トークン）に設定する）に置換するマスク化処理を行う。そして、マスク化処理部１２は、当該マスク化処理後のトークンデータをトークンデータｘｉ_{ｔｏｋｅｎ}（（Ｌ１－Ｌ２）．ｍａｓｋ）として、第１セレクタＳＥＬ１に出力する。なお、対訳データＬ１－Ｌ２（他分野第１言語の文と、当該文の第２言語の対訳文をペアとして構成する対訳データ）に対してマスク化処理を行い取得されるデータを「（Ｌ１－Ｌ２）．ｍａｓｋ」と表記する（以下、同様）。

また、第１入力データ取得処理部１１は、位置データｘｉ_ｐｏｓ（＝ｘｉ_ｐｏｓ）（＝ｘｉ_ｐｏｓ（Ｌ１－Ｌ２））を第１セレクタＳＥＬ１に出力し、言語データｘｉ_ｌａｎｇ（＝ｘｉ_ｌａｎｇ）（＝ｘｉ_ｌａｎｇ（Ｌ１－Ｌ２））を第１セレクタＳＥＬ１に出力する。

つまり、入力データ取得部１は、上記により取得したデータをデータＤ２ａ（＝Ｄ２ａ（（Ｌ１－Ｌ２）．ｍａｓｋ）＝｛ｘｉ_{ｔｏｋｅｎ}（（Ｌ１－Ｌ２）．ｍａｓｋ），ｘｉ_ｐｏｓ（Ｌ１－Ｌ２），ｘｉ_ｌａｎｇ（Ｌ１－Ｌ２）｝）として第１セレクタＳＥＬ１に出力する。

正解データ取得部１３は、制御信号ＣＴＬ２に従い、データＤ１から、入力データ埋込部２およびＸＬＭ処理部３での学習処理（ＸＬＭの学習処理）に用いる正解データＤ＿ｃｏｒｒｅｃｔ（＝Ｄ＿ｃｏｒｒｅｃｔ（Ｌ１－Ｌ２））を生成する。そして、正解データ取得部１３は、生成したデータを正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１－Ｌ２）として第１出力データ評価部４に出力する。

第１セレクタＳＥＬ１は、選択信号ｓｅｌ１に従い、端子「０」を選択し、入力データ取得部１から出力されるデータＤ２ａ（（Ｌ１－Ｌ２）．ｍａｓｋ）を、データＤ３（（Ｌ１－Ｌ２）．ｍａｓｋ）として、入力データ埋込部２に出力する。

入力データ埋込部２のトークン埋込部２１は、データＤ３（（Ｌ１－Ｌ２）．ｍａｓｋ）に含まれるトークンデータｘｉ_{ｔｏｋｅｎ}（＝ｘｉ_{ｔｏｋｅｎ}（（Ｌ１－Ｌ２）．ｍａｓｋ））を入力し、入力したトークンデータｘｉ_{ｔｏｋｅｎ}の分散表現データｘｉ’_{ｔｏｋｅｎ}を、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２の位置埋込部２２は、データＤ３（（Ｌ１－Ｌ２）．ｍａｓｋ）に含まれる位置データｘｉ_ｐｏｓ（＝ｘｉ_ｐｏｓ（Ｌ１－Ｌ２））を入力し、入力した位置データｘｉ_ｐｏｓの分散表現データｘｉ’_ｐｏｓを、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２の言語埋込部２３は、データＤ３（（Ｌ１－Ｌ２）．ｍａｓｋ）に含まれる言語データｘｉ_ｌａｎｇ（＝ｘｉ_ｌａｎｇ（Ｌ１－Ｌ２）））を入力し、入力した言語データｘｉ_ｌａｎｇの分散表現データｘｉ’_ｌａｎｇを、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２は、上記により取得された分散表現データをデータＤ４（（Ｌ１－Ｌ２）．ｍａｓｋ）として、ＸＬＭ処理部３に出力する。

ＸＬＭ処理部３のＸＬＭ用ニューラルネットワークモデル３１は、入力データ埋込部２から出力されるデータＤ４（（Ｌ１－Ｌ２）．ｍａｓｋ）に対して、ＸＬＭ処理を実行し、データＤ５ｘ（＝Ｄ５ｘ（（Ｌ１－Ｌ２）．ｍａｓｋ））を取得する。そして、ＸＬＭ処理部３は、上記により取得したデータＤ５ｘ（（Ｌ１－Ｌ２）．ｍａｓｋ）を第１出力データ評価部４に出力する。

第１出力データ評価部４は、ＸＬＭ処理部３から出力されるデータＤ５ｘ（（Ｌ１－Ｌ２）．ｍａｓｋ）と、入力データ取得部１から出力される正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１－Ｌ２）とを入力する。第１出力データ評価部４は、ＸＬＭ処理部３の出力であるデータＤ５ｘ（（Ｌ１－Ｌ２）．ｍａｓｋ）と、その正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１－Ｌ２）とから損失を取得する。

≪Ｔ２：ＴＬＭの処理（（Ｌ２－Ｌ１）．ｍａｓｋ→Ｌ２－Ｌ１）≫
次に、疑似対訳データ生成装置１００のデータ入力インターフェースＩＦ１は、対訳データ記憶部ＤＢｐ（Ｌ１―Ｌ２）から他分野の対訳データＤ０（Ｌ１－Ｌ２）を読み出し、読み出した対訳データの第一言語のデータと第二言語のデータを入れ替えた対訳データをデータＤ１（Ｌ２－Ｌ１）として、入力データ取得部１に出力する。

入力データ取得部１の第１入力データ取得処理部１１は、データＤ１（対訳データＤ１（Ｌ２－Ｌ１）（他分野第２言語の文と、当該文の第１言語の対訳文をペアとして構成する対訳データＤ１（Ｌ２－Ｌ１）））から、（１）トークンデータｘｉ_{ｔｏｋｅｎ}（＝ｘｉ_{ｔｏｋｅｎ}（Ｌ２－Ｌ１））と、（２）当該トークンの位置を特定するための位置データｘｉ_ｐｏｓ（＝ｘｉ_ｐｏｓ（Ｌ２－Ｌ１））と、（３）当該トークンの言語を特定するための言語データｘｉ_ｌａｎｇ（＝ｘｉ_ｌａｎｇ（Ｌ２－Ｌ１））と、を取得する。

そして、入力データ取得部１は、上記のように取得したトークンデータｘｉ_{ｔｏｋｅｎ}（Ｌ２－Ｌ１）をトークンデータｘｉ０_{ｔｏｋｅｎ}（Ｌ２－Ｌ１）としてマスク化処理部１２に出力する。

マスク化処理部１２は、制御信号ＣＴＬ２に従い、第１入力データ取得処理部１１から入力したトークンデータｘｉ０_{ｔｏｋｅｎ}（Ｌ２－Ｌ１）の一部のトークンをマスクトークン（例えば、文字列を人工的なトークン「［ＭＡＳＫ］」としたデータ（トークン）に設定する）に置換するマスク化処理を行う。そして、マスク化処理部１２は、当該マスク化処理後のトークンデータをトークンデータｘｉ_{ｔｏｋｅｎ}（（Ｌ２－Ｌ１）．ｍａｓｋ）として、第１セレクタＳＥＬ１に出力する。なお、対訳データＬ２－Ｌ１（他分野第２言語の文と、当該文の第１言語の対訳文をペアとして構成する対訳データ）に対してマスク化処理を行い取得されるデータを「（Ｌ２－Ｌ１）．ｍａｓｋ」と表記する（以下、同様）。

また、第１入力データ取得処理部１１は、位置データｘｉ_ｐｏｓ（＝ｘｉ_ｐｏｓ）（＝ｘｉ_ｐｏｓ（Ｌ２－Ｌ１））を第１セレクタＳＥＬ１に出力し、言語データｘｉ_ｌａｎｇ（＝ｘｉ_ｌａｎｇ）（＝ｘｉ_ｌａｎｇ（Ｌ２－Ｌ１））を第１セレクタＳＥＬ１に出力する。

つまり、入力データ取得部１は、上記により取得したデータをデータＤ２ａ（＝Ｄ２ａ（（Ｌ２－Ｌ１）．ｍａｓｋ）＝｛ｘｉ_{ｔｏｋｅｎ}（（Ｌ２－Ｌ１）．ｍａｓｋ），ｘｉ_ｐｏｓ（Ｌ２－Ｌ１），ｘｉ_ｌａｎｇ（Ｌ２－Ｌ１）｝）として第１セレクタＳＥＬ１に出力する。

正解データ取得部１３は、制御信号ＣＴＬ２に従い、データＤ１から、入力データ埋込部２およびＸＬＭ処理部３での学習処理（ＸＬＭの学習処理）に用いる正解データＤ＿ｃｏｒｒｅｃｔ（＝Ｄ＿ｃｏｒｒｅｃｔ（Ｌ２－Ｌ１））を生成する。そして、正解データ取得部１３は、生成したデータを正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ２－Ｌ１）として第１出力データ評価部４に出力する。

第１セレクタＳＥＬ１は、選択信号ｓｅｌ１に従い、端子「０」を選択し、入力データ取得部１から出力されるデータＤ２ａ（（Ｌ２－Ｌ１）．ｍａｓｋ）を、データＤ３（（Ｌ２－Ｌ１）．ｍａｓｋ）として、入力データ埋込部２に出力する。

入力データ埋込部２のトークン埋込部２１は、データＤ３（Ｌ２－Ｌ１．ｍａｓｋ）に含まれるトークンデータｘｉ_{ｔｏｋｅｎ}（＝ｘｉ_{ｔｏｋｅｎ}（Ｌ２－Ｌ１））を入力し、入力したトークンデータｘｉ_{ｔｏｋｅｎ}の分散表現データｘｉ’_{ｔｏｋｅｎ}を、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２の位置埋込部２２は、データＤ３（（Ｌ２－Ｌ１）．ｍａｓｋ）に含まれる位置データｘｉ_ｐｏｓ（＝ｘｉ_ｐｏｓ（Ｌ２－Ｌ１））を入力し、入力した位置データｘｉ_ｐｏｓの分散表現データｘｉ’_ｐｏｓを、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２の言語埋込部２３は、データＤ３（（Ｌ２－Ｌ１）．ｍａｓｋ）に含まれる言語データｘｉ_ｌａｎｇ（＝ｘｉ_ｌａｎｇ（Ｌ２－Ｌ１）））を入力し、入力した言語データｘｉ_ｌａｎｇの分散表現データｘｉ’_ｌａｎｇを、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２は、上記により取得された分散表現データをデータＤ４（（Ｌ２－Ｌ１）．ｍａｓｋ）として、ＸＬＭ処理部３に出力する。

ＸＬＭ処理部３のＸＬＭ用ニューラルネットワークモデル３１は、入力データ埋込部２から出力されるデータＤ４（（Ｌ２－Ｌ１）．ｍａｓｋ）に対して、ＸＬＭ処理を実行し、データＤ５ｘ（＝Ｄ５ｘ（（Ｌ２－Ｌ１）．ｍａｓｋ））を取得する。そして、ＸＬＭ処理部３は、上記により取得したデータＤ５ｘ（（Ｌ２－Ｌ１）．ｍａｓｋ）を第１出力データ評価部４に出力する。

第１出力データ評価部４は、ＸＬＭ処理部３から出力されるデータＤ５ｘ（（Ｌ２－Ｌ１）．ｍａｓｋ）と、入力データ取得部１から出力される正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ２－Ｌ１）とを入力する。第１出力データ評価部４は、ＸＬＭ処理部３の出力であるデータＤ５ｘ（（Ｌ２－Ｌ１）．ｍａｓｋ）と、その正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ２－Ｌ１）とから損失を取得する。

（１．２．１．１Ｃ：損失の計算処理）
上記の処理、すなわち、（Ａ）ＭＬＭの処理（４種類の単言語データを使用）（ステップＳ１１１）と、（Ｂ）ＴＬＭの処理（Ｌ１－Ｌ２の対訳データを使用）（ステップＳ１１２）とを実行した後、第１出力データ評価部４は、損失の計算処理を行う。なお、損失の計算をＭ文（Ｍ個の文、Ｍ：自然数）ごとに行う場合、Ｍ文の中の第ｉ番目の文に含まれるサブワード数をＮ_ｉ（１≦ｉ≦Ｍ）とし、第ｉ番目の文についてのＸＬＭ処理部３からの出力データＤ５ｘ（Ｘ_ｉｎ）（入力データをＸ_ｉｎで表す）のｊ番目（ｊ：自然数、１≦ｊ≦Ｎ_ｉ）のサブワードに相当するデータをＤ５ｘ（（Ｘ_ｉｎ→Ｘ_ｏｕｔ），ｉ，ｊ）（「（Ｘ_ｉｎ→Ｘ_ｏｕｔ）」は、入力データがＸ_ｉｎであり、出力データがＸ_ｏｕｔであることを表す）とすると、第１出力データ評価部４は、下記数式のように、ＸＬＭ処理部３から出力されるデータと、正解データとから損失Ｌｏｓｓを取得する。

Ｖ：サブワード語彙のサイズ（各トークン（入力データ）文字列を表すベクトルの次元数）
ｐ：確率分布（ｐ（ｋ）は、ｋ番目（第ｋ次元）の要素の確率を示す）
ｑ：確率分布（ｑ（ｋ）は、ｋ番目（第ｋ次元）の要素の確率を示す）
なお、上記数式において、Ｄ＿ｃｏｒｒｅｃｔ’（ｘ，ｉ，ｊ）は、第１出力データ評価部４により正解データＤ＿ｃｏｒｒｅｃｔ（ｘ）の第ｉ番目の文の第ｊ番目のサブワードから取得されるデータ（ベクトル）であり、サブワード語彙のサイズ（＝各トークン（入力データ）文字列を表すベクトルの次元数（これをｎ１とする））と同じ次元数のベクトル（ｎ１次元のベクトル）である。そして、例えば、Ｄ＿ｃｏｒｒｅｃｔ’（ｘ，ｉ，ｊ）は、ｎ１次元のうち１次元のみ値が「１」であり（ｎ１次元ベクトルの要素のうち、当該正解サブワードに対応する要素のみが「１」）、それ以外は値が「０」であるｏｎｅ－ｈｏｔベクトルである。

また、上記数式において、例えば、Ｄ５ｘ（（Ｌ１．ｍａｓｋ→Ｌ１），ｉ，ｊ）は、ｎ１次元の実数ベクトル（各次元のデータ（ベクトルの要素）が、対応するサブワードである確率を示す実数ベクトル）であり、ｓｏｆｔｍａｘ関数により確率化（実数ベクトルの各要素の総和が「１」となるように正規化）されている。そして、Ｄ５ｘ（（Ｌ１．ｍａｓｋ→Ｌ１），ｉ，ｊ）は、入力データをＬ１．ｍａｓｋとしたときのＸＬＭ処理部３からの出力データであり、第ｉ番目の文の第ｊ番目のサブワードに相当するデータである。

また、上記数式において、ｌｏｓｓ（ｐ、ｑ）は、交差エントロピー誤差を求める数式であり、これにより、確率分布間（上記数式では、確率分布ｐ、ｑ）の相違を定量化できる。

このように、第１出力データ評価部４は、上記数式に相当する処理により、損失Ｌｏｓｓを取得する。

（１．２．１．１Ｄ：パラメータの更新処理）
第１出力データ評価部４は、所定の学習データに対して上記で算出した損失（学習損失）に基づいてＸＬＭ処理部３のＸＬＭ用ニューラルネットワークモデル３１のパラメータθ_ＸＬＭを更新するためのデータｕｐｄａｔｅ（θ_ＸＬＭ）を生成し、当該データｕｐｄａｔｅ（θ_ＸＬＭ）をＸＬＭ処理部３に出力する。

ＸＬＭ処理部３のＸＬＭ用ニューラルネットワークモデル３１は、データｕｐｄａｔｅ（θ_ＸＬＭ）に基づいて、パラメータθ_ＸＬＭを更新する。

また、ＸＬＭ用ニューラルネットワークモデル３１は、ＸＬＭ用ニューラルネットワークモデル３１のパラメータを更新した後、埋込層（入力データ埋込部２のトークン埋込部２１、位置埋込部２２、および、言語埋込部２３に対応）のパラメータを更新するためのパラメータ更新データｕｐｄａｔｅ（θ_ｅｍｂ）を生成し、当該パラメータ更新データｕｐｄａｔｅ（θ_ｅｍｂ）を入力データ埋込部２に出力する。

入力データ埋込部２は、パラメータ更新データｕｐｄａｔｅ（θ_ｅｍｂ）に基づいて、埋込層（入力データ埋込部２のトークン埋込部２１、位置埋込部２２、および、言語埋込部２３に対応）のパラメータを更新する。例えば、入力データ埋込部２は、パラメータ更新データｕｐｄａｔｅ（θ_ｅｍｂ）に基づいて、変換行列（例えば、行列Ｗ_{ｔｏｋｅｎ}、Ｗ_ｐｏｓ、Ｗ_ｌａｎｇ）の要素（値）を更新する。

疑似対訳データ生成装置１００は、所定の終了条件を満たすまで、上記処理（図６のループ１の処理）を繰り返し実行する。その際、例えば、学習に用いるデータとは別の調整用データに対して第１出力データ評価部４で算出される損失（テスト損失）を評価値として参照する。

そして、疑似対訳データ生成装置１００は、上記処理（図６のループ１の処理）の終了条件が満たされたときをもって、ＸＬＭの学習処理を終了させる。これにより、入力データ埋込部２の初期化が完了する。

つまり、ＸＬＭの学習処理が終了した時点において、入力データ埋込部２で設定されている分散表現データを取得するためのパラメータ（例えば、変換行列Ｗ_{ｔｏｋｅｎ}、Ｗ_ｐｏｓ、Ｗ_ｌａｎｇ）を、疑似対訳データ生成用ＮＭＴモデル（入力データ埋込部２（埋込層に相当）と機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１とにより実現されるモデル）の学習処理の初期値（初期パラメータ）に設定する。

つまり、疑似対訳データ生成装置１００において、ＸＬＭの学習処理が終了した時点におけるパラメータが設定されている状態（入力データ埋込部２の状態）を、疑似対訳データ生成用ＮＭＴモデルの学習処理の初期状態として、疑似対訳データ生成用ＮＭＴモデルの学習処理を開始させる。

なお、図６のフローチャートのループ処理（ループ１）の終了条件は、例えば、以下のように設定される。
（１）事前に定めた反復回数だけループ処理（ループ１）が実行された。
（２）言語横断言語モデル（ＸＬＭ）の学習処理において、第１出力データ評価部４における評価値が一定以上（事前に定めた値以上）の変化を示さなかった。
（３）言語横断言語モデル（ＸＬＭ）の学習処理において、第１出力データ評価部４における評価値が事前に定めた値を下回った。
（４）言語横断言語モデル（ＸＬＭ）の学習処理において、第１出力データ評価部４における評価値が事前に定めた回数更新されなかった。

上記の終了条件を満たす場合、疑似対訳データ生成装置１００は、ＸＬＭの学習処理が完了した判断し、ＸＬＭの学習処理を終了させる。

そして、疑似対訳データ生成装置１００は、上記のようにして、パラメータが上記初期値に設定された状態で、以下に説明する、疑似対訳データ生成用ＮＭＴモデル（入力データ埋込部２（埋込層に相当）と機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１とにより実現されるモデル）の学習処理を行う。

（１．２．１．２：疑似対訳データ生成用ＮＭＴモデルの学習処理）
次に、疑似対訳データ生成装置１００では、疑似対訳データ生成用ＮＭＴモデルの学習処理（ステップＳ１２０～Ｓ１２６）が実行される。

疑似対訳データ生成用ＮＭＴモデルの学習処理は、図６に示すように、
（Ａ）自己符号化処理（ステップＳ１２１）と、
（Ｂ）ゼロショット折り返し機械翻訳処理（ステップＳ１２２）と、
（Ｃ）教師データあり機械翻訳処理（ステップＳ１２３）と、
（Ｄ）損失の計算処理（ステップＳ１２４）と、
（Ｅ）パラメータ（θ_ＭＴ，θ_ｅｍｂ）の更新処理（ステップＳ１２５）と、
から構成される。

なお、図６のフローチャートに示すように、ステップＳ１２１～Ｓ１２５の処理は、終了条件が満たされるまで繰り返し実行される（図６のループ処理（ループ２）Ｓ１２０～Ｓ１２６）。

（１．２．１．２Ａ：自己符号化処理）
自己符号化処理において、疑似対訳データ生成装置１００は、図８に示すように、入力データ埋込部２への入力データと同一の出力データが出力されるように学習処理（疑似対訳データ生成用ＮＭＴモデルの学習処理）を行う。つまり、自己符号化処理において、正解データは、入力データと同一のデータに設定される。すなわち、自己符号化処理において、疑似対訳データ生成装置１００は、
（１）入力データ埋込部２への入力をＤ３（Ｌ１）とし、機械翻訳処理部５の出力データＤ５（Ｌ１）の正解データをＤ＿ｃｏｒｒｅｃｔ（Ｌ１）とする、
（２）入力データ埋込部２への入力をＤ３（Ｌ２）とし、機械翻訳処理部５の出力データＤ５（Ｌ２）の正解データをＤ＿ｃｏｒｒｅｃｔ（Ｌ２）とする、
（３）入力データ埋込部２への入力をＤ３（Ｒ１）とし、機械翻訳処理部５の出力データＤ５（Ｒ１）の正解データをＤ＿ｃｏｒｒｅｃｔ（Ｒ１）とする、および、
（４）入力データ埋込部２への入力をＤ３（Ｒ２）とし、機械翻訳処理部５の出力データＤ５（Ｒ２）の正解データをＤ＿ｃｏｒｒｅｃｔ（Ｒ２）として、学習処理（自己符号化処理によるパラメータ最適化処理）を実行する。

≪Ａ１：自己符号化処理（Ｌ１→Ｌ１）≫
入力データ埋込部２への入力をＤ３（Ｌ１）とし、機械翻訳処理部５の出力データＤ５（Ｌ１）の正解データをＤ＿ｃｏｒｒｅｃｔ（Ｌ１）とする場合について、説明する。

データ入力インターフェースＩＦ１は、第１単言語データ記憶部ＤＢｍ（Ｌ１）から他分野第１言語の単言語データＤ０（Ｌ１）を読み出し、読み出した単言語データをデータＤ１（＝Ｄ１（Ｌ１））として、入力データ取得部１に出力する。

入力データ取得部１の第１入力データ取得処理部１１は、データＤ１（他分野第１言語のデータＤ１（Ｌ１））（他分野第１言語の文を構成するデータＤ１（Ｌ１））から、（１）トークンデータｘｉ０_{ｔｏｋｅｎ}と、（２）当該トークンの位置を特定するための位置データｘｉ_ｐｏｓと、（３）当該トークンの言語を特定するための言語データｘｉ_ｌａｎｇと、を取得する。

制御部（不図示）は、入力データ取得部１のマスク化処理部１２に対して、マスク化処理を実行しないことを指示する制御信号ＣＴＬ２を生成し、当該制御信号ＣＴＬ２をマスク化処理部１２に出力する。

マスク化処理部１２は、制御信号ＣＴＬ２に従い、第１入力データ取得処理部１１から入力したトークンデータｘｉ０_{ｔｏｋｅｎ}をトークンデータｘｉ_{ｔｏｋｅｎ}として、第１セレクタＳＥＬ１に出力する。

また、第１入力データ取得処理部１１は、位置データｘｉ_ｐｏｓ（＝ｘｉ_ｐｏｓ（Ｌ１））を第１セレクタＳＥＬ１に出力し、言語データｘｉ_ｌａｎｇ（＝ｘｉ_ｌａｎｇ）（＝ｘｉ_ｌａｎｇ（Ｌ１））を第１セレクタＳＥＬ１に出力する。

つまり、入力データ取得部１は、上記により取得したデータをデータＤ２ａ（＝Ｄ２ａ（Ｌ１）＝｛ｘｉ_{ｔｏｋｅｎ}（Ｌ１），ｘｉ_ｐｏｓ（Ｌ１），ｘｉ_ｌａｎｇ（Ｌ１）｝）として第１セレクタＳＥＬ１に出力する。

正解データ取得部１３は、制御信号ＣＴＬ２に従い、データＤ１（＝Ｄ１（Ｌ１））から、疑似対訳データ生成用ＮＭＴモデル（入力データ埋込部２（埋込層に相当）と機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１とにより実現されるモデル）の学習処理に用いる正解データＤ＿ｃｏｒｒｅｃｔ（＝Ｄ＿ｃｏｒｒｅｃｔ（Ｌ１））を生成する。具体的には、正解データ取得部１３は、第１セレクタＳＥＬ１への入力データＤ２ａ（Ｌ１）と同一のデータを正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）に設定する。そして、正解データ取得部１３は、上記により生成した正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）を第２出力データ評価部６に出力する。

第１セレクタＳＥＬ１は、選択信号ｓｅｌ１に従い、端子「０」を選択し、入力データ取得部１から出力されるデータＤ２ａ（Ｌ１）を、データＤ３（Ｌ１）として、入力データ埋込部２に出力する。

入力データ埋込部２のトークン埋込部２１は、データＤ３（Ｌ１）に含まれるトークンデータｘｉ_{ｔｏｋｅｎ}を入力し、入力したトークンデータｘｉ_{ｔｏｋｅｎ}の分散表現データｘｉ’_{ｔｏｋｅｎ}を、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２の位置埋込部２２は、データＤ３（Ｌ１）に含まれる位置データｘｉ_ｐｏｓを入力し、入力した位置データｘｉ_ｐｏｓの分散表現データｘｉ’_ｐｏｓを、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２の言語埋込部２３は、データＤ３（Ｌ１）に含まれる言語データｘｉ_ｌａｎｇを入力し、入力した言語データｘｉ_ｌａｎｇの分散表現データｘｉ’_ｌａｎｇを、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２は、上記により取得された分散表現データをデータＤ４（Ｌ１）として、機械翻訳処理部５に出力する。

機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力されるデータＤ４（Ｌ１）（分散表現データＤ４（Ｌ１）（＝｛ｘｉ’_{ｔｏｋｅｎ，}ｘｉ’_ｐｏｓ，ｘｉ’_ｌａｎｇ｝））と、制御部から出力される制御信号ＣＴＬ３とを入力する。

制御部は、ＭＴ用ニューラルネットワークモデル５１からＬ１のデータを出力することを指示する制御信号ＣＴＬ３を生成し、当該制御信号ＣＴＬ３を機械翻訳処理部５に出力する。

ＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力されるデータＤ４（Ｌ１）に対して、機械翻訳処理を実行し、データＤ５（Ｌ１）を取得する。なお、ＭＴ用ニューラルネットワークモデル５１は、制御信号ＣＴＬ３に従い、出力データの種別をＬ１（他分野、第１言語）とする。

ＭＴ用ニューラルネットワークモデル５１は、上記により取得したデータＤ５（Ｌ１）を第２セレクタＳＥＬ２に出力する。

制御部は、第２セレクタＳＥＬ２の端子「０」を選択する選択信号ｓｅｌ２を生成し、当該選択信号ｓｅｌ２を第２セレクタＳＥＬ２に出力する。

第２セレクタＳＥＬ２は、選択信号ｓｅｌ２に従い、端子「０」を選択し、機械翻訳処理部５から出力されるデータＤ５（データＤ５（Ｌ１））を、第２出力データ評価部６にデータＤ６ａ（データＤ６ａ（Ｌ１））として出力する。

第２出力データ評価部６は、第２セレクタＳＥＬ２を介して機械翻訳処理部５から出力されるデータＤ５（Ｌ１）（＝データＤ６ａ（Ｌ１））と、入力データ取得部１から出力される正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）とを入力する。第２出力データ評価部６は、機械翻訳処理部５の出力であるデータＤ５（Ｌ１）と、その正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）とから損失を取得する。

≪Ａ２：自己符号化処理（Ｌ２→Ｌ２）≫
入力データ埋込部２への入力をＤ３（Ｌ２）とし、機械翻訳処理部５の出力データＤ５（Ｌ２）の正解データをＤ＿ｃｏｒｒｅｃｔ（Ｌ２）とする場合についても、疑似対訳データ生成装置１００は、上記と同様の処理を実行する。つまり、疑似対訳データ生成装置１００は、上記処理において、Ｄ３（Ｌ１）をＤ３（Ｌ２）に置換し、正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）を正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ２）に置換して、上記処理と同様の処理を行う。

≪Ａ３：自己符号化処理（Ｒ１→Ｒ１）≫
入力データ埋込部２への入力をＤ３（Ｒ１）とし、機械翻訳処理部５の出力データＤ５（Ｒ１）の正解データをＤ＿ｃｏｒｒｅｃｔ（Ｒ１）とする場合についても、疑似対訳データ生成装置１００は、上記と同様の処理を実行する。つまり、疑似対訳データ生成装置１００は、上記処理において、Ｄ３（Ｌ１）をＤ３（Ｒ１）に置換し、正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）を正解データＤ＿ｃｏｒｒｅｃｔ（Ｒ１）に置換して、上記処理と同様の処理を行う。

≪Ａ４：自己符号化処理（Ｒ２→Ｒ２）≫
入力データ埋込部２への入力をＤ３（Ｒ２）とし、機械翻訳処理部５の出力データＤ５（Ｒ２）の正解データをＤ＿ｃｏｒｒｅｃｔ（Ｒ２）とする場合についても、疑似対訳データ生成装置１００は、上記と同様の処理を実行する。つまり、疑似対訳データ生成装置１００は、上記処理において、Ｄ３（Ｌ１）をＤ３（Ｒ２）に置換し、正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）を正解データＤ＿ｃｏｒｒｅｃｔ（Ｒ２）に置換して、上記処理と同様の処理を行う。

（１．２．１．２Ｂ：ゼロショット折り返し機械翻訳処理）
ゼロショット折り返し機械翻訳処理において、疑似対訳データ生成装置１００は、図９、図１０に示すように、（１）入力データ埋込部２への入力データに対して機械翻訳処理（疑似対訳データ生成用ＮＭＴモデル（入力データ埋込部２（埋込層に相当）と機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１とにより実現されるモデル）による機械翻訳処理）を行い（１回目の機械翻訳処理）、入力データと異なる言語のデータ（ゼロショット機械翻訳のデータ）を出力させ、（２）その出力されたデータに対して機械翻訳処理（疑似対訳データ生成用ＮＭＴモデルにより機械翻訳処理）を行い（２回目の機械翻訳処理）、入力データと同一のデータが出力されるように学習処理を行う。つまり、ゼロショット折り返し機械翻訳処理において、正解データは、入力データと同一のデータに設定される。

具体的には、ゼロショット折り返し機械翻訳処理において、疑似対訳データ生成装置１００は、以下の（１）～（６）の処理を行う。
（１）Ｌ１→Ｒ２→Ｌ１：
１回目の機械翻訳処理において、入力データ埋込部２への入力をＤ３^（１）（Ｌ１）とし、機械翻訳処理部５からの出力をＤ５^（１）（Ｒ２）とし、２回目の機械翻訳処理において、入力データ埋込部２への入力をＤ３^（２）（Ｒ２）（＝Ｄ５^（１）（Ｒ２））とし、機械翻訳処理部５からの出力をＤ５^（２）（Ｌ１）とし、また、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｌ１）とする。

なお、１回目の機械翻訳処理の入力データ埋込部２への入力データをＤ３^（１）（ｘ）と、入力データ埋込部２からの出力データをＤ４^（１）（ｘ）と、２回目の機械翻訳処理の入力データ埋込部２への入力データをＤ３^（２）（ｘ）と、入力データ埋込部２からの出力データをＤ４^（２）（ｘ）と表記する（以下同様）。
（２）Ｒ１→Ｌ２→Ｒ１：
１回目の機械翻訳処理において、入力データ埋込部２への入力をＤ３^（１）（Ｒ１）とし、機械翻訳処理部５からの出力をＤ５^（１）（Ｌ２）とし、２回目の機械翻訳処理において、入力データ埋込部２への入力をＤ３^（２）（Ｌ２）（＝Ｄ５^（１）（Ｌ２））とし、機械翻訳処理部５からの出力をＤ５^（２）（Ｒ１）とし、また、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｒ１）とする。
（３）Ｒ１→Ｒ２→Ｒ１：
１回目の機械翻訳処理において、入力データ埋込部２への入力をＤ３^（１）（Ｒ１）とし、機械翻訳処理部５からの出力をＤ５^（１）（Ｒ２）とし、２回目の機械翻訳処理において、入力データ埋込部２への入力をＤ３^（２）（Ｒ２）（＝Ｄ５^（１）（Ｒ２））とし、機械翻訳処理部５からの出力をＤ５^（２）（Ｒ１）とし、また、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｒ１）とする。
（４）Ｌ２→Ｒ１→Ｌ２：
１回目の機械翻訳処理において、入力データ埋込部２への入力をＤ３^（１）（Ｌ２）とし、機械翻訳処理部５からの出力をＤ５^（１）（Ｒ１）とし、２回目の機械翻訳処理において、入力データ埋込部２への入力をＤ３^（２）（Ｒ１）（＝Ｄ５^（１）（Ｒ１））とし、機械翻訳処理部５からの出力をＤ５^（２）（Ｌ２）とし、また、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｌ２）とする。
（５）Ｒ２→Ｌ１→Ｒ２：
１回目の機械翻訳処理において、入力データ埋込部２への入力をＤ３^（１）（Ｒ２）とし、機械翻訳処理部５からの出力をＤ５^（１）（Ｌ１）とし、２回目の機械翻訳処理において、入力データ埋込部２への入力をＤ３^（２）（Ｌ１）（＝Ｄ５^（１）（Ｌ１））とし、機械翻訳処理部５からの出力をＤ５^（２）（Ｒ２）とし、また、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｒ２）とする。
（６）Ｒ２→Ｒ１→Ｒ２：
１回目の機械翻訳処理において、入力データ埋込部２への入力をＤ３^（１）（Ｒ２）とし、機械翻訳処理部５からの出力をＤ５^（１）（Ｒ１）とし、２回目の機械翻訳処理において、入力データ埋込部２への入力をＤ３^（２）（Ｒ１）（＝Ｄ５^（１）（Ｒ１））とし、機械翻訳処理部５からの出力をＤ５^（２）（Ｒ２）とし、また、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｒ１）とする。

≪Ｂ１：ゼロショット折り返し機械翻訳処理（Ｌ１→Ｒ２→Ｌ１）≫
入力データ埋込部２への１回目の入力をＤ３^（１）（Ｌ１）とし、１回目の機械翻訳処理部５からの出力をＤ５^（１）（Ｒ２）とし、入力データ埋込部２への２回目の入力をＤ３^（２）（Ｒ２）（＝Ｄ５^（１）（Ｒ２））とし、２回目の機械翻訳処理部５からの出力をＤ５^（２）（Ｌ１）とし、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｌ１）とする場合について、説明する。

データ入力インターフェースＩＦ１は、第１単言語データ記憶部ＤＢｍ（Ｌ１）から他分野の第１言語の単言語データＤ０（Ｌ１）を読み出し、読み出した単言語データをデータＤ１（＝Ｄ１（Ｌ１））として、入力データ取得部１に出力する。

第１セレクタＳＥＬ１は、選択信号ｓｅｌ１に従い、端子「０」を選択し、入力データ取得部１から出力されるデータＤ２ａ（Ｌ１）を、データＤ３^（１）（Ｌ１）として、入力データ埋込部２に出力する。

入力データ埋込部２のトークン埋込部２１は、データＤ３^（１）（Ｌ１）に含まれるトークンデータｘｉ_{ｔｏｋｅｎ}を入力し、入力したトークンデータｘｉ_{ｔｏｋｅｎ}の分散表現データｘｉ’_{ｔｏｋｅｎ}を、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２の位置埋込部２２は、データＤ３^（１）（Ｌ１）に含まれる位置データｘｉ_ｐｏｓを入力し、入力した位置データｘｉ_ｐｏｓの分散表現データｘｉ’_ｐｏｓを、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２の言語埋込部２３は、データＤ３^（１）（Ｌ１）に含まれる言語データｘｉ_ｌａｎｇを入力し、入力した言語データｘｉ_ｌａｎｇの分散表現データｘｉ’_ｌａｎｇを、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２は、上記により取得された分散表現データをデータＤ４^（１）（Ｌ１）として、機械翻訳処理部５に出力する。

機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力されるデータＤ４^（１）（Ｌ１）（分散表現データＤ４^（１）（Ｌ１）（＝｛ｘｉ’_{ｔｏｋｅｎ，}ｘｉ’_ｐｏｓ，ｘｉ’_ｌａｎｇ｝））と、制御部から出力される制御信号ＣＴＬ３とを入力する。

制御部は、ＭＴ用ニューラルネットワークモデル５１からＲ２のデータを出力することを指示する制御信号ＣＴＬ３を生成し、当該制御信号ＣＴＬ３を機械翻訳処理部５に出力する。

ＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力されるデータＤ４^（１）（Ｌ１）に対して、機械翻訳処理を実行し、データＤ５^（１）（Ｒ２）を取得する。なお、ＭＴ用ニューラルネットワークモデル５１は、制御信号ＣＴＬ３に従い、出力データの種別をＲ２（適応先分野、第２言語）とする。

ＭＴ用ニューラルネットワークモデル５１は、上記により取得したデータＤ５^（１）（Ｒ２）を第２セレクタＳＥＬ２に出力する。

制御部は、第２セレクタＳＥＬ２の端子「１」を選択する選択信号ｓｅｌ２を生成し、当該選択信号ｓｅｌ２を第２セレクタＳＥＬ２に出力する。

第２セレクタＳＥＬ２は、選択信号ｓｅｌ２に従い、端子「１」を選択し、機械翻訳処理部５から出力されるデータＤ５（データＤ５^（１）（Ｒ２））を、第１バッファＢｕｆ１にデータＤ６ｂ（データＤ６ｂ^（１）（Ｒ２））として記憶する（図９を参照）。

次に、第２入力データ取得処理部７は、第１バッファＢｕｆ１から出力されるデータＤ６ｂ’（データＤ６ｂ^（１）（Ｒ２））を入力し、データＤ６ｂ’（データＤ６ｂ^（１）（Ｒ２））から入力データ埋込部２に入力するためのデータ（＝｛ｘｉ_{ｔｏｋｅｎ}（Ｒ２），ｘｉ_ｐｏｓ（Ｒ２），ｘｉ_ｌａｎｇ（Ｒ２）｝）を取得（生成）する。そして、第２入力データ取得処理部７は、取得したデータをデータＤ２ｂ（データＤ２ｂ^（２）（Ｒ２）（＝｛ｘｉ_{ｔｏｋｅｎ}（Ｒ２），ｘｉ_ｐｏｓ（Ｒ２），ｘｉ_ｌａｎｇ（Ｒ２）｝））として、第１セレクタＳＥＬ１に出力する。

制御部は、第１セレクタＳＥＬ１の端子「１」を選択する選択信号ｓｅｌ１を生成し、当該選択信号ｓｅｌ１を第１セレクタＳＥＬ１に出力する。

第１セレクタＳＥＬ１は、選択信号ｓｅｌ１に従い、端子「１」を選択し、第２入力データ取得処理部７から出力されるデータＤ２ｂ^（２）（Ｒ２）を、データＤ３^（２）（Ｒ２）として、入力データ埋込部２に出力する。

入力データ埋込部２のトークン埋込部２１は、データＤ３^（２）（Ｒ２）に含まれるトークンデータｘｉ_{ｔｏｋｅｎ}を入力し、入力したトークンデータｘｉ_{ｔｏｋｅｎ}の分散表現データｘｉ’_{ｔｏｋｅｎ}を、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２の位置埋込部２２は、データＤ３^（２）（Ｒ２）に含まれる位置データｘｉ_ｐｏｓを入力し、入力した位置データｘｉ_ｐｏｓの分散表現データｘｉ’_ｐｏｓを、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２の言語埋込部２３は、データＤ３^（２）（Ｒ２）に含まれる言語データｘｉ_ｌａｎｇを入力し、入力した言語データｘｉ_ｌａｎｇの分散表現データｘｉ’_ｌａｎｇを、上記のＭＬＭの処理で説明したのと同じ処理を実行して取得する。

入力データ埋込部２は、上記により取得された分散表現データをデータＤ４^（２）（Ｒ２）として、機械翻訳処理部５に出力する。

機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力されるデータＤ４^（２）（Ｒ２）（分散表現データＤ４^（２）（Ｒ２）（＝｛ｘｉ’_{ｔｏｋｅｎ，}ｘｉ’_ｐｏｓ，ｘｉ’_ｌａｎｇ｝））と、制御部から出力される制御信号ＣＴＬ３とを入力する。

ＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力されるデータＤ４^（２）（Ｒ２）に対して、機械翻訳処理を実行し、データＤ５^（２）（Ｌ１）を取得する。なお、ＭＴ用ニューラルネットワークモデル５１は、制御信号ＣＴＬ３に従い、出力データの種別をＬ１（他分野、第１言語）とする。

ＭＴ用ニューラルネットワークモデル５１は、上記により取得したデータＤ５^（２）（Ｌ１）を第２セレクタＳＥＬ２に出力する。

第２セレクタＳＥＬ２は、選択信号ｓｅｌ２に従い、端子「０」を選択し、機械翻訳処理部５から出力されるデータＤ５^（２）（Ｌ１）を、データＤ６ａ^（２）（Ｌ１）として、第２出力データ評価部６に出力する。

第２出力データ評価部６は、第２セレクタＳＥＬ２から出力されるデータＤ６ａ^（２）（Ｌ１）（＝Ｄ５^（２）（Ｌ１））と、入力データ取得部１から出力される正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）とを入力する。第２出力データ評価部６は、機械翻訳処理部５の出力であるデータＤ５^（２）（Ｌ１）と、その正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）とから損失を取得する。

≪Ｂ２：ゼロショット折り返し機械翻訳処理（Ｒ１→Ｌ２→Ｒ１）≫
入力データ埋込部２への１回目の入力をＤ３^（１）（Ｒ１）とし、１回目の機械翻訳処理部５からの出力をＤ５^（１）（Ｌ２）とし、入力データ埋込部２への２回目の入力をＤ３^（２）（Ｌ２）（＝Ｄ５^（１）（Ｌ２））とし、２回目の機械翻訳処理部５からの出力をＤ５^（２）（Ｒ１）とし、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｒ１）とする場合についても、疑似対訳データ生成装置１００は、上記と同様の処理を実行する。

つまり、疑似対訳データ生成装置１００は、上記処理において、入力データ埋込部２への１回目の入力Ｄ３^（１）（Ｌ１）をＤ３^（１）（Ｒ１）に、機械翻訳処理部５からの出力Ｄ５^（１）（Ｒ２）をＤ５^（１）（Ｌ２）に置換し、入力データ埋込部２への２回目の入力Ｄ３^（２）（Ｒ２）をＤ３^（２）（Ｌ２）に、機械翻訳処理部５からの出力Ｄ５^（２）（Ｌ１）をＤ５^（２）（Ｒ１）に置換し、正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）を正解データＤ＿ｃｏｒｒｅｃｔ（Ｒ１）に置換して、上記処理と同様の処理を行う。

≪Ｂ３：ゼロショット折り返し機械翻訳処理（Ｒ１→Ｒ２→Ｒ１）≫
入力データ埋込部２への１回目の入力をＤ３^（１）（Ｒ１）とし、１回目の機械翻訳処理部５からの出力をＤ５^（１）（Ｒ２）とし、入力データ埋込部２への２回目の入力をＤ３^（２）（Ｒ２）（＝Ｄ５^（１）（Ｒ２））とし、２回目の機械翻訳処理部５からの出力をＤ５^（２）（Ｒ１）とし、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｒ１）とする場合についても、疑似対訳データ生成装置１００は、上記と同様の処理を実行する。

つまり、疑似対訳データ生成装置１００は、上記処理において、入力データ埋込部２への１回目の入力Ｄ３^（１）（Ｌ１）をＤ３^（１）（Ｒ１）に、機械翻訳処理部５からの出力Ｄ５^（１）（Ｒ２）を同じくＤ５^（１）（Ｒ２）とし、入力データ埋込部２への２回目の入力Ｄ３^（２）（Ｒ２）を同じくＤ３^（２）（Ｒ２）とし、機械翻訳処理部５からの出力Ｄ５^（２）（Ｌ１）をＤ５^（２）（Ｒ１）に置換し、正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）を正解データＤ＿ｃｏｒｒｅｃｔ（Ｒ１）に置換して、上記処理と同様の処理を行う。

≪Ｂ４：ゼロショット折り返し機械翻訳処理（Ｌ２→Ｒ１→Ｌ２）≫
入力データ埋込部２への１回目の入力をＤ３^（１）（Ｌ２）とし、１回目の機械翻訳処理部５からの出力をＤ５^（１）（Ｒ１）とし、入力データ埋込部２への２回目の入力をＤ３^（２）（Ｒ１）（＝Ｄ５^（１）（Ｒ１））とし、２回目の機械翻訳処理部５からの出力をＤ５^（２）（Ｌ２）とし、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｌ２）とする場合についても、疑似対訳データ生成装置１００は、上記と同様の処理を実行する。

つまり、疑似対訳データ生成装置１００は、上記処理において、入力データ埋込部２への１回目の入力Ｄ３^（１）（Ｌ１）をＤ３^（１）（Ｌ２）に、機械翻訳処理部５からの出力Ｄ５^（１）（Ｒ２）をＤ５^（１）（Ｒ１）に置換し、入力データ埋込部２への２回目の入力Ｄ３^（２）（Ｒ２）をＤ３^（２）（Ｒ１）に、機械翻訳処理部５からの出力Ｄ５^（２）（Ｌ１）をＤ５^（２）（Ｌ２）に置換し、正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）を正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ２）に置換して、上記処理と同様の処理を行う。

≪Ｂ５：ゼロショット折り返し機械翻訳処理（Ｒ２→Ｌ１→Ｒ２）≫
入力データ埋込部２への１回目の入力をＤ３^（１）（Ｒ２）とし、１回目の機械翻訳処理部５からの出力をＤ５^（１）（Ｌ１）とし、入力データ埋込部２への２回目の入力をＤ３^（２）（Ｌ１）（＝Ｄ５^（１）（Ｌ１））とし、２回目の機械翻訳処理部５からの出力をＤ５^（２）（Ｒ２）とし、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｒ２）とする場合についても、疑似対訳データ生成装置１００は、上記と同様の処理を実行する。

つまり、疑似対訳データ生成装置１００は、上記処理において、入力データ埋込部２への１回目の入力Ｄ３^（１）（Ｌ１）をＤ３^（１）（Ｒ２）に、機械翻訳処理部５からの出力Ｄ５^（１）（Ｒ２）をＤ５^（１）（Ｌ１）に置換し、入力データ埋込部２への２回目の入力Ｄ３^（２）（Ｒ２）をＤ３^（２）（Ｌ１）に、機械翻訳処理部５からの出力Ｄ５^（２）（Ｌ１）をＤ５^（２）（Ｒ２）に置換し、正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）を正解データＤ＿ｃｏｒｒｅｃｔ（Ｒ２）に置換して、上記処理と同様の処理を行う。

≪Ｂ６：ゼロショット折り返し機械翻訳処理（Ｒ２→Ｒ１→Ｒ２）≫
入力データ埋込部２への１回目の入力をＤ３^（１）（Ｒ２）とし、１回目の機械翻訳処理部５からの出力をＤ５^（１）（Ｒ１）とし、入力データ埋込部２への２回目の入力をＤ３^（２）（Ｒ１）（＝Ｄ５^（１）（Ｒ１））とし、２回目の機械翻訳処理部５からの出力をＤ５^（２）（Ｒ２）とし、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｒ２）とする場合についても、疑似対訳データ生成装置１００は、上記と同様の処理を実行する。

つまり、疑似対訳データ生成装置１００は、上記処理において、入力データ埋込部２への１回目の入力Ｄ３^（１）（Ｌ１）をＤ３^（１）（Ｒ２）に、機械翻訳処理部５からの出力Ｄ５^（１）（Ｒ２）をＤ５^（１）（Ｒ１）に置換し、入力データ埋込部２への２回目の入力Ｄ３^（２）（Ｒ２）をＤ３^（２）（Ｒ１）に、機械翻訳処理部５からの出力Ｄ５^（２）（Ｌ１）をＤ５^（２）（Ｒ２）に置換し、正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）を正解データＤ＿ｃｏｒｒｅｃｔ（Ｒ２）に置換して、上記処理と同様の処理を行う。

以上のようにして、疑似対訳データ生成装置１００では、
（１）Ｌ１→Ｒ２→Ｌ１
（２）Ｒ１→Ｌ２→Ｒ１
（３）Ｒ１→Ｒ２→Ｒ１
（４）Ｌ２→Ｒ１→Ｌ２
（５）Ｒ２→Ｌ１→Ｒ２
（６）Ｒ２→Ｒ１→Ｒ２
の６パターン（６種類の場合）について、ゼロショット折り返し機械翻訳処理が実行される。

（１．２．１．２Ｃ：教師データあり機械翻訳処理）
教師データあり機械翻訳処理において、疑似対訳データ生成装置１００は、図１１に示すように、入力データ埋込部２への入力データを対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）から取得した対訳データＤ０（Ｌ１－Ｌ２）の一方の言語のデータとし、当該入力データに対応する対訳データが出力されるように学習処理を行う。つまり、教師あり機械翻訳処理において、正解データは、対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）から読み出した対訳データＤ０（Ｌ１－Ｌ２）に基づいて、設定される。

なお、教師あり機械翻訳処理において、疑似対訳データ生成装置１００は、
（１）入力データ埋込部２への入力をＤ３（Ｌ１）とし、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｌ２）とする、あるいは、
（２）入力データ埋込部２への入力をＤ３（Ｌ２）とし、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｌ１）として、
疑似対訳データ生成用ＮＭＴモデル（入力データ埋込部２（埋込層に相当）と機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１とにより実現されるモデル）の学習処理（パラメータの最適化処理）を行う。

≪Ｃ１：教師あり機械翻訳処理（Ｌ１→Ｌ２）≫
入力データ埋込部２への入力をＤ３（Ｌ１）とし、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｌ２）とする場合について、説明する。

データ入力インターフェースＩＦ１は、対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）から他分野の対訳データＤ０（Ｌ１－Ｌ２）を読み出し、読み出した対訳データをデータＤ１（Ｌ１－Ｌ２）として、入力データ取得部１に出力する。

入力データ取得部１の第１入力データ取得処理部１１は、データＤ１（他分野対訳データＤ１（Ｌ１－Ｌ２））から第１言語のデータをデータＤ１（Ｌ１）として抽出し、当該第１言語のデータ（言語データ）Ｄ１（Ｌ１）（他分野第１言語の文を構成するデータＤ１（Ｌ１））から、（１）トークンデータｘｉ０_{ｔｏｋｅｎ}と、（２）当該トークンの位置を特定するための位置データｘｉ_ｐｏｓと、（３）当該トークンの言語を特定するための言語データｘｉ_ｌａｎｇと、を取得する。

正解データ取得部１３は、制御信号ＣＴＬ２に従い、データＤ１（他分野対訳データＤ１（Ｌ１－Ｌ２））から第２言語のデータをＤ１（Ｌ２）（他分野対訳データＤ１（Ｌ１－Ｌ２）から抽出したデータＤ１（Ｌ１）（他分野第１言語のデータ）の対訳データに相当するデータ）として抽出し、抽出したデータＤ１（Ｌ２）から、疑似対訳データ生成用ＮＭＴモデルの学習処理に用いる正解データＤ＿ｃｏｒｒｅｃｔ（＝Ｄ＿ｃｏｒｒｅｃｔ（Ｌ２））を生成する。そして、正解データ取得部１３は、当該正解データＤ＿ｃｏｒｒｅｃｔ（＝Ｄ＿ｃｏｒｒｅｃｔ（Ｌ２））を第２出力データ評価部６に出力する。

機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力される分散表現データＤ４（Ｌ１）（＝｛ｘｉ’_{ｔｏｋｅｎ，}ｘｉ’_ｐｏｓ，ｘｉ’_ｌａｎｇ｝）と、制御部から出力される制御信号ＣＴＬ３とを入力する。

制御部は、ＭＴ用ニューラルネットワークモデル５１からＬ２のデータを出力することを指示する制御信号ＣＴＬ３を生成し、当該制御信号ＣＴＬ３を機械翻訳処理部５に出力する。

ＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力されるデータＤ４（Ｌ１）に対して、機械翻訳処理を実行し、データＤ５（Ｌ２）を取得する。なお、ＭＴ用ニューラルネットワークモデル５１は、制御信号ＣＴＬ３に従い、出力データの種別をＬ２（他分野、第２言語）とする。

ＭＴ用ニューラルネットワークモデル５１は、上記により取得したデータＤ５（Ｌ２）を第２セレクタＳＥＬ２に出力する。

第２セレクタＳＥＬ２は、選択信号ｓｅｌ２に従い、端子「０」を選択し、機械翻訳処理部５から出力されるデータＤ５（データＤ５（Ｌ２））を、第２出力データ評価部６にデータＤ６ａ（データＤ６ａ（Ｌ２））として出力する。

第２出力データ評価部６は、第２セレクタＳＥＬ２を介して機械翻訳処理部５から出力されるデータＤ５（Ｌ２）（＝データＤ６ａ（Ｌ２））と、入力データ取得部１から出力される正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ２）とを入力する。第２出力データ評価部６は、機械翻訳処理部５の出力であるデータＤ５（Ｌ２）と、その正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ２）とから損失を取得する。

≪Ｃ２：教師あり機械翻訳処理（Ｌ２→Ｌ１）≫
入力データ埋込部２への入力をＤ３（Ｌ２）とし、正解データをＤ＿ｃｏｒｒｅｃｔ（Ｌ１）とする場合についても、疑似対訳データ生成装置１００は、上記と同様の処理を実行する。つまり、疑似対訳データ生成装置１００は、上記処理において、Ｄ３（Ｌ１）をＤ３（Ｌ２）に置換し、正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ２）を正解データＤ＿ｃｏｒｒｅｃｔ（Ｌ１）に置換して、上記処理と同様の処理を行う。

（１．２．１．２Ｄ：損失の計算処理）
上記の処理、すなわち、
（Ａ）自己符号化処理（ステップＳ１２１）、
（Ｂ）ゼロショット折り返し機械翻訳処理（ステップＳ１２２）、および
（Ｃ）教師データあり機械翻訳処理（ステップＳ１２３）
を実行した後、第２出力データ評価部６は、損失の計算処理を行う。なお、損失の計算をＭ文（Ｍ個の文、Ｍ：自然数）ごとに行う場合、Ｍ文の中の第ｉ番目の文に含まれるサブワード数をＮ_ｉ（１≦ｉ≦Ｍ）とし、第ｉ番目の文についての機械翻訳処理部５からの出力データＤ５（Ｘ_ｉｎ）（入力データをＸ_ｉｎで表す）のｊ番目（ｊ：自然数、１≦ｊ≦Ｎ_ｉ）のサブワードに相当するデータをＤ５（（Ｘ_ｉｎ→Ｘ_ｏｕｔ），ｉ，ｊ）（「（Ｘ_ｉｎ→Ｘ_ｏｕｔ）」は、入力データがＸ_ｉｎであり、出力データがＸ_ｏｕｔであることを表す）またはＤ５（（Ｘ_ｉｎ→Ｘ_ｍ→Ｘ_ｏｕｔ），ｉ，ｊ）（「（Ｘ_ｉｎ→Ｘ_ｍ→Ｘ_ｏｕｔ）」は、入力データがＸ_ｉｎであり、１回目の出力データがＸ_ｍであり、２回目の入力がＸ_ｍであり、２回目の出力がＸ_ｏｕｔであることを表す）とすると、第２出力データ評価部６は、下記数式のように、機械翻訳処理部５から出力されるデータと、正解データとから損失Ｌｏｓｓを取得する。

Ｖ：サブワード語彙のサイズ（各トークン（入力データ）文字列を表すベクトルの次元数）
ｐ：確率分布（ｐ（ｋ）は、ｋ番目（第ｋ次元）の要素の確率を示す）
ｑ：確率分布（ｑ（ｋ）は、ｋ番目（第ｋ次元）の要素の確率を示す）
なお、上記数式において、Ｄ＿ｃｏｒｒｅｃｔ’（ｘ，ｉ，ｊ）は、第２出力データ評価部６により正解データＤ＿ｃｏｒｒｅｃｔ（ｘ）の第ｉ番目の文の第ｊ番目のサブワードから取得されるデータ（ベクトル）であり、サブワード語彙のサイズ（＝各トークン（入力データ）文字列を表すベクトルの次元数（これをｎ１とする））と同じ次元数のベクトル（ｎ１次元のベクトル）である。そして、例えば、Ｄ＿ｃｏｒｒｅｃｔ’（ｘ，ｉ，ｊ）は、ｎ１次元のうち１次元のみ値が「１」であり（ｎ１次元ベクトルの要素のうち、当該正解サブワードに対応する要素のみが「１」）、それ以外は値が「０」であるｏｎｅ－ｈｏｔベクトルである。

また、上記数式において、例えば、Ｄ５（（Ｌ１→Ｌ２），ｉ，ｊ）は、ｎ１次元の実数ベクトル（各次元のデータ（ベクトルの要素）が、対応するサブワードである確率を示す実数ベクトル）であり、ｓｏｆｔｍａｘ関数により確率化（実数ベクトルの各要素の総和が「１」となるように正規化）されている。そして、Ｄ５（（Ｌ１→Ｌ２），ｉ，ｊ）は、入力データをＬ１としたときの機械翻訳処理部５からの出力データ種別をＬ２としたときの出力データであり、第ｉ番目の文の第ｊ番目のサブワードに相当するデータである。

なお、上記数式において、例えば、Ｄ５（（Ｌ１→Ｒ２→Ｌ１），ｉ，ｊ）は、入力データの種別と翻訳処理結果データ（出力データ）の種別を明示した形式で示しており、（Ｌ１→Ｒ２→Ｌ１）は、１回目の処理において種別Ｌ１のデータが種別Ｒ２のデータとして出力され、２回目の処理において、１回目の出力を入力とし、種別Ｌ１のデータが出力されたときのデータであることを示している。

このように、第２出力データ評価部６は、上記数式に相当する処理により、損失Ｌｏｓｓを取得する。

（１．２．１．２Ｅ：パラメータの更新処理）
第２出力データ評価部６は、所定の学習データに対して上記で算出した損失（学習損失）に基づいてＸＬＭ処理部３のＭＴ用ニューラルネットワークモデル５１のパラメータθ_ＭＴを更新するためのデータｕｐｄａｔｅ（θ_ＭＴ）を生成し、当該データｕｐｄａｔｅ（θ_ＭＴ）を機械翻訳処理部５に出力する。

機械翻訳処理部５のＭＬ用ニューラルネットワークモデル５１は、データｕｐｄａｔｅ（θ_ＭＴ）に基づいて、パラメータθ_ＭＴを更新する。

また、ＭＴ用ニューラルネットワークモデル５１は、ＭＴ用ニューラルネットワークモデル５１のパラメータを更新した後、埋込層（入力データ埋込部２のトークン埋込部２１、位置埋込部２２、および、言語埋込部２３に対応）のパラメータを更新するためのパラメータ更新データｕｐｄａｔｅ（θ_ｅｍｂ）を生成し、当該パラメータ更新データｕｐｄａｔｅ（θ_ｅｍｂ）を入力データ埋込部２に出力する。

疑似対訳データ生成装置１００は、所定の終了条件を満たすまで、上記処理（図６のループ２の処理）を繰り返し実行する。その際、例えば、学習に用いるデータとは別の調整用データに対して第２出力データ評価部６で算出される損失（テスト損失）を評価値として参照する。

そして、疑似対訳データ生成装置１００は、上記処理（図６のループ２の処理）の終了条件が満たされたときをもって、疑似対訳データ生成用ＮＭＴモデルの学習処理を終了させる。

なお、図６のフローチャートのループ処理（ループ２）の終了条件は、例えば、以下のように設定される。
（１）事前に定めた反復回数だけループ処理（ループ２）が実行された。
（２）疑似対訳データ生成用ＮＭＴモデルの学習処理において、第２出力データ評価部６における評価値が一定以上（事前に定めた値以上）の変化を示さなかった。
（３）疑似対訳データ生成用ＮＭＴモデルの学習処理において、第２出力データ評価部６における評価値が事前に定めた値を下回った。
（４）疑似対訳データ生成用ＮＭＴモデルの学習処理において、第２出力データ評価部６における評価値が事前に定めた回数更新されなかった。

上記の終了条件を満たす場合、疑似対訳データ生成装置１００は、疑似対訳データ生成用ＮＭＴモデルの学習処理が完了した判断し、当該処理を終了させる。

以上のようにして、疑似対訳データ生成装置１００は、事前学習処理を完了した時点におけるパラメータを疑似対訳データ生成用ＮＭＴモデル（入力データ埋込部２（埋込層に相当）と機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１とにより実現されるモデル）の初期状態（初期パラメータを設定した状態（入力データ埋込部２（埋込層に相当）のパラメータがＸＬＭの学習により最適化された状態））として、上記処理により、疑似対訳データ生成用ＮＭＴモデルの学習処理（パラメータ最適化処理）を行う。

（１．２．２：疑似対訳データ生成処理）
次に、疑似対訳データ生成処理（図４のステップＳ２）について説明する。

疑似対訳データ生成装置１００は、上記の事前学習処理によりに取得された疑似対訳データ生成用ＮＭＴモデル（入力データ埋込部２（埋込層に相当）と機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１とにより実現されるモデル）を用いて、適応先分野の疑似対訳データを自動的に生成する。

具体的には、疑似対訳データ生成装置１００は、以下の（１）、（２）の方法を用いて、疑似対訳データ生成処理を行う。
（１）他分野の対訳データ（Ｌ１－Ｌ２）を適応先分野向けに改変する方法（第１の方法）
（２）適応先分野の単言語データ（Ｒ１またはＲ２）を機械翻訳する方法（第２の方法）
以下、上記２つの方法による疑似対訳データ生成処理について、説明する。

（１．２．２．１：疑似対訳データ生成処理（第１の方法）（他分野対訳データを利用））
まず、第１の方法（他分野対訳データを利用する方法）について、説明する。

入力データ取得部１の第１入力データ取得処理部１１は、データＤ１（他分野対訳データＤ１（Ｌ１－Ｌ２））から、Ｌ１のデータをデータＤ１（Ｌ１）として抽出し、当該データＤ１（Ｌ１）から、（１）トークンデータｘｉ０_{ｔｏｋｅｎ}（＝ｘｉ０_{ｔｏｋｅｎ}（Ｌ１））と、（２）当該トークンの位置を特定するための位置データｘｉ_ｐｏｓ（＝ｘｉ_ｐｏｓ（Ｌ１））と、（３）当該トークンの言語を特定するための言語データｘｉ_ｌａｎｇ（＝ｘｉ_ｌａｎｇ（Ｌ１））と、を取得する。

そして、入力データ取得部１は、上記により取得したトークンデータｘｉ０_{ｔｏｋｅｎ}（Ｌ１）をマスク化処理部１２に出力する。

マスク化処理部１２は、制御信号ＣＴＬ２に従い、第１入力データ取得処理部１１から入力したトークンデータｘｉ０_{ｔｏｋｅｎ}（Ｌ１）を、トークンデータｘｉ_{ｔｏｋｅｎ}（Ｌ１）として第１セレクタＳＥＬ１に出力する。

入力データ埋込部２は、データＤ３（Ｌ１）に含まれる（１）トークンデータｘｉ_{ｔｏｋｅｎ}（Ｌ１）、（２）位置データｘｉ_ｐｏｓ（Ｌ１）、（３）言語データｘｉ_ｌａｎｇ（Ｌ１）から、分散表現データＤ４（Ｌ１）（＝｛ｘｉ’_{ｔｏｋｅｎ}（Ｌ１）_，ｘｉ’_ｐｏｓ（Ｌ１）_，ｘｉ’_ｌａｎｇ（Ｌ１）｝）を取得し、取得した分散表現データＤ４（Ｌ１）を機械翻訳処理部５に出力する。

機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力されるデータＤ４（Ｌ１）（分散表現データＤ４（Ｌ１）（＝｛ｘｉ’_{ｔｏｋｅｎ}（Ｌ１）_，ｘｉ’_ｐｏｓ（Ｌ１）_，ｘｉ’_ｌａｎｇ（Ｌ１）｝））と、制御部から出力される制御信号ＣＴＬ３とを入力する。

ＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力されるデータＤ４（Ｌ１）に対して、機械翻訳処理を実行し、データＤ５（Ｒ２）を取得し、データＤ５（Ｒ２）を保持する。なお、ＭＴ用ニューラルネットワークモデル５１は、制御信号ＣＴＬ３に従い、出力データの種別をＲ２（適応先分野、第２言語）とする。

また、入力データ取得部１の第１入力データ取得処理部１１は、データＤ１（他分野対訳データＤ１（Ｌ１－Ｌ２））から、Ｌ２のデータをデータＤ１（Ｌ２）として抽出し、当該データＤ１（Ｌ２）から、（１）トークンデータｘｉ０_{ｔｏｋｅｎ}（＝ｘｉ０_{ｔｏｋｅｎ}（Ｌ２））と、（２）当該トークンの位置を特定するための位置データｘｉ_ｐｏｓ（＝ｘｉ_ｐｏｓ（Ｌ２））と、（３）当該トークンの言語を特定するための言語データｘｉ_ｌａｎｇ（＝ｘｉ_ｌａｎｇ（Ｌ２））と、を取得する。

そして、入力データ取得部１は、上記により取得したトークンデータｘｉ０_{ｔｏｋｅｎ}（Ｌ２）をマスク化処理部１２に出力する。

マスク化処理部１２は、制御信号ＣＴＬ２に従い、第１入力データ取得処理部１１から入力したトークンデータｘｉ０_{ｔｏｋｅｎ}（Ｌ２）を、トークンデータｘｉ_{ｔｏｋｅｎ}（Ｌ２）として第１セレクタＳＥＬ１に出力する。

また、第１入力データ取得処理部１１は、位置データｘｉ_ｐｏｓ（＝ｘｉ_ｐｏｓ（Ｌ２））を第１セレクタＳＥＬ１に出力し、言語データｘｉ_ｌａｎｇ（＝ｘｉ_ｌａｎｇ（Ｌ２））を第１セレクタＳＥＬ１に出力する。

つまり、入力データ取得部１は、上記により取得したデータをデータＤ２ａ（＝Ｄ２ａ（Ｌ２）＝｛ｘｉ_{ｔｏｋｅｎ}（Ｌ２），ｘｉ_ｐｏｓ（Ｌ２），ｘｉ_ｌａｎｇ（Ｌ２）｝）として第１セレクタＳＥＬ１に出力する。

第１セレクタＳＥＬ１は、選択信号ｓｅｌ１に従い、端子「０」を選択し、入力データ取得部１から出力されるデータＤ２ａ（Ｌ２）を、データＤ３（Ｌ２）として、入力データ埋込部２に出力する。

入力データ埋込部２は、データＤ３（Ｌ２）に含まれる（１）トークンデータｘｉ_{ｔｏｋｅｎ}（Ｌ２）、（２）位置データｘｉ_ｐｏｓ（Ｌ２）、（３）言語データｘｉ_ｌａｎｇ（Ｌ２）から、分散表現データＤ４（Ｌ２）（＝｛ｘｉ’_{ｔｏｋｅｎ}（Ｌ２）_，ｘｉ’_ｐｏｓ（Ｌ２）_，ｘｉ’_ｌａｎｇ（Ｌ２）｝）を取得し、取得した分散表現データＤ４（Ｌ２）を機械翻訳処理部５に出力する。

機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力されるデータＤ４（Ｌ２）（分散表現データＤ４（Ｌ２）（＝｛ｘｉ’_{ｔｏｋｅｎ}（Ｌ２）_，ｘｉ’_ｐｏｓ（Ｌ２）_，ｘｉ’_ｌａｎｇ（Ｌ２）｝））と、制御部から出力される制御信号ＣＴＬ３とを入力する。

制御部は、ＭＴ用ニューラルネットワークモデル５１からＲ１のデータを出力することを指示する制御信号ＣＴＬ３を生成し、当該制御信号ＣＴＬ３を機械翻訳処理部５に出力する。

ＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力されるデータＤ４（Ｌ２）に対して、機械翻訳処理を実行し、データＤ５（Ｒ１）を取得する。なお、ＭＴ用ニューラルネットワークモデル５１は、制御信号ＣＴＬ３に従い、出力データの種別をＲ１（適応先分野、第１言語）とする。

機械翻訳処理部５は、上記処理により取得したデータＤ５（Ｒ２）とデータＤ５（Ｒ１）とをペアリングして、データＤ５（Ｒ２－Ｒ１）として、第２セレクタＳＥＬ２に出力する。

第２セレクタＳＥＬ２は、選択信号ｓｅｌ２に従い、端子「０」を選択し、機械翻訳処理部５から出力されるデータＤ５（データＤ５（Ｒ２－Ｒ１））を、データＤ６ａ（Ｒ２－Ｒ１）として、フィルター処理部８に出力する（図１２を参照）。

制御部は、フィルター処理部８にて、Ｒ２－Ｒ１の疑似対訳データに対してフィルター処理を実行することを指示する制御信号ＣＴＬ４を生成し、当該制御信号をフィルター処理部８に出力する。

フィルター処理部８は、制御信号ＣＴＬ４に従い、入力されるデータＤ６ａ（Ｒ２－Ｒ１）（Ｒ２およびＲ１の疑似対訳データ）に対してフィルター処理を行う。

ここで、上記処理により取得された適応先分野の疑似対訳データ（Ｄ６ａ（Ｒ２－Ｒ１））は、教師データがない適応先分野の対訳データを出力するように学習させたニューラルネットワークモデルを用いて処理して取得したデータであるため、対訳データとしての品質が低い可能性がある。

そこで、フィルター処理部８は、上記処理により取得された適応先分野の疑似対訳データ（Ｄ６ａ（Ｒ２－Ｒ１））に対して、フィルター処理を行う。例えば、フィルター処理部８は、上記処理により取得された適応先分野の疑似対訳データ（Ｄ６ａ（Ｒ２－Ｒ１））の各文対に信頼度を付与し、付与した信頼度に基づいて、フィルタリングを行う。

例えば、元のＬ１－Ｌ２の対訳データ（対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）から取得した対訳データＤ０（Ｌ１－Ｌ２））を参照することが考えられる。より具体的には、フィルター処理部８は、対訳データＬ１－Ｌ２（Ｄ０（Ｌ１－Ｌ２））における文対ａｌ－ａ２を機械翻訳して取得した、適応先分野Ｒ１－Ｒ２の疑似対訳データの文対ｂｌ－ｂ２の信頼度を、ａｌとｂｌとの類似度、および、ａ２とｂ２の類似度に基づいて算出し、その信頼度が事前に定めた閾値Ｔｈよりも高いか否かを判断する。なお、フィルター処理部８は、対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）から、対訳データＬ１－Ｌ２（Ｄ０（Ｌ１－Ｌ２））における文対ａｌ－ａ２を取得できるものとする（例えば、データ入力インターフェースＩＦ１を介して取得する）。

そして、フィルター処理部８は、上記により算出した信頼度が所定の閾値Ｔｈよりも高い疑似対訳データ（Ｒ１－Ｒ２）のみをフィルタリングにより取得する。そして、当該フィルタリングにより取得した疑似対訳データを、疑似対訳データＤｐｓｄ１（Ｒ１－Ｒ２，＃１）として、疑似対訳データ格納部ＤＢ１に出力する。

（１．２．２．２：疑似対訳データ生成処理（第２の方法）（適応先分野単言語データを利用））
次に、第２の方法（適応先分野単言語データを利用する方法）について、説明する。

図１３に示すように、データ入力インターフェースＩＦ１は、第３単言語データ記憶部ＤＢｍ（Ｒ１）から適応先分野の第１言語の単言語データＤ０（Ｒ１）を読み出し、読み出した第１言語のデータをデータＤ１（Ｒ１）として、入力データ取得部１に出力する。

入力データ取得部１の第１入力データ取得処理部１１は、データＤ１（適応先分野第１言語データＤ１（Ｒ１））から、当該第１言語のデータ（言語データ）Ｄ１（Ｒ１）（適応先分野第１言語の文を構成するデータＤ１（Ｒ１））から、（１）トークンデータｘｉ０_{ｔｏｋｅｎ}（＝ｘｉ０_{ｔｏｋｅｎ}（Ｒ１））と、（２）当該トークンの位置を特定するための位置データｘｉ_ｐｏｓ（＝ｘｉ_ｐｏｓ（Ｒ１））と、（３）当該トークンの言語を特定するための言語データｘｉ_ｌａｎｇ（＝ｘｉ_ｌａｎｇ（Ｒ１））と、を取得する。

そして、入力データ取得部１は、上記により取得したトークンデータｘｉ０_{ｔｏｋｅｎ}（Ｒ１）をマスク化処理部１２に出力する。

マスク化処理部１２は、制御信号ＣＴＬ２に従い、第１入力データ取得処理部１１から入力したトークンデータｘｉ０_{ｔｏｋｅｎ}（Ｒ１）を、トークンデータｘｉ_{ｔｏｋｅｎ}（Ｒ１）として第１セレクタＳＥＬ１に出力する。

また、第１入力データ取得処理部１１は、位置データｘｉ_ｐｏｓ（＝ｘｉ_ｐｏｓ（Ｒ１））を第１セレクタＳＥＬ１に出力し、言語データｘｉ_ｌａｎｇ（＝ｘｉ_ｌａｎｇ（Ｒ１））を第１セレクタＳＥＬ１に出力する。

つまり、入力データ取得部１は、上記により取得したデータをデータＤ２ａ（＝Ｄ２ａ（Ｒ１）＝｛ｘｉ_{ｔｏｋｅｎ}（Ｒ１），ｘｉ_ｐｏｓ（Ｒ１），ｘｉ_ｌａｎｇ（Ｒ１）｝）として第１セレクタＳＥＬ１に出力する。

第１セレクタＳＥＬ１は、選択信号ｓｅｌ１に従い、端子「０」を選択し、入力データ取得部１から出力されるデータＤ２ａ（Ｒ１）を、データＤ３（Ｒ１）として、入力データ埋込部２に出力する。

入力データ埋込部２は、データＤ３（Ｒ１）に含まれる（１）トークンデータｘｉ_{ｔｏｋｅｎ}、（２）位置データｘｉ_ｐｏｓ、（３）言語データｘｉ_ｌａｎｇから、分散表現データＤ４（Ｒ１）（＝｛ｘｉ’_{ｔｏｋｅｎ}（Ｒ１）_，ｘｉ’_ｐｏｓ（Ｒ１）_，ｘｉ’_ｌａｎｇ（Ｒ１）｝）を取得し、取得した分散表現データＤ４（Ｒ１）を機械翻訳処理部５に出力する。

機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力される分散表現データＤ４（Ｒ１）（＝｛ｘｉ’_{ｔｏｋｅｎ}（Ｒ１）_，ｘｉ’_ｐｏｓ（Ｒ１）_，ｘｉ’_ｌａｎｇ（Ｒ１）｝）と、制御部から出力される制御信号ＣＴＬ３とを入力する。

ＭＴ用ニューラルネットワークモデル５１は、入力データ埋込部２から出力されるデータＤ４（Ｒ１）に対して、機械翻訳処理を実行し、データＤ５（Ｒ２）を取得する。なお、ＭＴ用ニューラルネットワークモデル５１は、制御信号ＣＴＬ３に従い、出力データの種別をＲ２（適応先分野、第２言語）とする。

ＭＴ用ニューラルネットワークモデル５１は、上記により取得したデータＤ５（Ｒ２）を第２セレクタＳＥＬ２に出力する。

第２セレクタＳＥＬ２は、選択信号ｓｅｌ２に従い、端子「０」を選択し、機械翻訳処理部５から出力されるデータＤ５（データＤ５（Ｒ２））を、データＤ６ａ（Ｒ２）として、フィルター処理部８に出力する（図１３を参照）。

制御部は、フィルター処理部８にて、Ｒ１－Ｒ２の疑似対訳データに対してフィルター処理を実行することを指示する制御信号ＣＴＬ４を生成し、当該制御信号をフィルター処理部８に出力する。

また、入力データ取得部１は、第３単言語データ記憶部ＤＢｍ（Ｒ１）から取得した適応先分野の言語データＤ０（Ｒ１）（機械翻訳処理の入力としたデータ）をデータＤ１＿ｏｒｇ（Ｒ１）として、フィルター処理部８に出力する。

そして、フィルター処理部８は、入力される、（１）データＤ１＿ｏｒｇ（Ｒ１）（機械翻訳処理の入力としたデータ）と、（２）データＤ６ａ（Ｒ２）（データＤ３（Ｒ１）の機械翻訳データ）とを対応づけることで適応先分野の疑似対訳データ（Ｒ１－Ｒ２）を取得する。そして、フィルター処理部８は、制御信号ＣＴＬ４に従い、疑似対訳データ（Ｒ１－Ｒ２）にフィルター処理を行う。

ここで、上記処理により取得された適応先分野の疑似対訳データ（Ｒ１－Ｒ２）は、教師データがない適応先分野の単語データを出力するように学習させたニューラルネットワークモデルを用いて処理して取得したデータであるため、対訳データとしての品質が低い可能性がある。

そこで、フィルター処理部８は、上記処理により取得された適応先分野の疑似対訳データ（Ｒ１－Ｒ２）に対して、フィルター処理を行う。フィルター処理部８は、例えば、下記文献Ｄに開示されている機械翻訳の品質推定に関する技術を用いて、上記処理により取得された適応先分野の疑似対訳データ（Ｒ１－Ｒ２）に対して信頼度を付与する。
（文献Ｄ）：Lucia Specia, Carolina Scarton, and Gustavo Henrique Paetzold (2018). Quality Estimation for Machine Translation. Morgan & Claypool.
そして、フィルター処理部８は、付与された信頼度に基づいて、フィルタリングを行う。例えば、フィルター処理部８は、上記により算出した信頼度が所定の閾値Ｔｈよりも高い疑似対訳データ（Ｒ１－Ｒ２）のみをフィルタリングにより取得する。そして、フィルター処理部８は、当該フィルタリングにより取得した疑似対訳データを、疑似対訳データＤｐｓｄ１（Ｒ１－Ｒ２，＃２）として、疑似対訳データ格納部ＤＢ１に出力する。

なお、上記では、データＤ１＿ｏｒｇを適応先分野の第１言語のデータ（Ｒ１のデータ（＝Ｄ１＿ｏｒｇ（Ｒ１）））とし、データＤ３（Ｒ１）を機械翻訳処理により取得した翻訳データを適応先分野の第２言語のデータＤ５（Ｒ２）（データＤ６ａ（Ｒ２））としたが（図１３の場合）、図１４に示すように、データＤ１＿ｏｒｇを適応先分野の第２言語のデータ（Ｒ２のデータ（＝Ｄ１＿ｏｒｇ（Ｒ２）））とし、データＤ３（Ｒ２）を機械翻訳処理により取得した翻訳データを適応先分野の第２言語のデータＤ５（Ｒ１）（データＤ６ａ（Ｒ２））として、上記と同様の処理により、疑似対訳データ（データＤｐｓｄ１（Ｒ１－Ｒ２，＃２））を生成するようにしてもよい。

≪まとめ≫
以上のように、疑似対訳データ生成装置１００では、
（１）大規模で（対訳データ数が多く）精度の高い他分野の対訳データ（対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）に記憶されている対訳データ）と、
（２）他分野の第１言語データ（第１単言語データ記憶部ＤＢｍ（Ｌ１）に記憶されている単言語データ）と、
（３）他分野の第２言語データ（第２単言語データ記憶部ＤＢｍ（Ｌ２）に記憶されている単言語データ）と、
（４）適応先分野の第１言語データ（第３単言語データ記憶部ＤＢｍ（Ｒ１）に記憶されている単言語データ）と、
（５）適応先分野の第２言語データ（第４単言語データ記憶部ＤＢｍ（Ｒ２）に記憶されている単言語データ）と、
を用いて、言語横断言語モデル（ＸＬＭ）（入力データ埋込部２（埋込層に相当）とＸＬＭ用ニューラルネットワークモデル３１とにより実現されるモデル）を最適化する（事前学習処理による初期化）。そして、疑似対訳データ生成装置１００では、言語横断言語モデル（ＸＬＭ）の最適化処理後（事前学習処理後）の入力データ埋込部２（埋込層に相当）（ＸＬＭの最適化により取得されたパラメータ（例えば、変換行列Ｗ_{ｔｏｋｅｎ}、Ｗ_ｐｏｓ、Ｗ_ｌａｎｇが設定されている状態の入力データ埋込部２））と、学習前の機械翻訳処理部５のＭＴ用ニューラルネットワークモデル５１とからなる疑似対訳データ生成用ＮＭＴモデルの状態を初期状態として、疑似対訳データ生成用ＮＭＴモデルのパラメータ最適化処理を行う。これにより、疑似対訳データ生成装置１００では、適応先分野（機械翻訳の対象とする分野）の対訳データが一切ない場合であっても、適応先分野の第１言語および第２言語の疑似対訳データ（Ｒ１－Ｒ２）を生成できるモデル（学習済みモデル）を取得できる。

（１．２．３：翻訳モデル学習処理）
次に、翻訳モデルの学習処理（図５のステップＳ３）について説明する。

機械翻訳装置ＭＴ１は、ＮＭＴモデルを有しており、当該ＮＭＴモデルにより機械翻訳を行う装置である。機械翻訳装置ＭＴ１は、疑似対訳データ生成装置１００により生成され、疑似対訳データ格納部ＤＢ１に記憶された疑似対訳データを用いて、適応先分野の機械翻訳を行うための機械翻訳モデル（ＮＭＴモデル）の学習処理を行う。

具体的には、例えば、機械翻訳装置ＭＴ１は、以下の（１）～（３）の方法のいずれかにより、適応先分野の機械翻訳を行うための機械翻訳モデル（ＮＭＴモデル）の学習処理を行う。
（１）微調整法：
機械翻訳装置ＭＴ１は、対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）から、他分野の対訳データＤ０’（Ｌ１－Ｌ２）を取得し、他分野の対訳データＤ０’（Ｌ１－Ｌ２）を用いて、機械翻訳装置ＭＴ１のＮＭＴモデルの学習処理を行う。その後、機械翻訳装置ＭＴ１は、疑似対訳データ生成装置１００により生成された適応先分野の疑似対訳データ（Ｒ１－Ｒ２の対訳データ）を疑似対訳データ格納部ＤＢ１から疑似対訳データＤｐｓｄ２（Ｒ１－Ｒ２）として読み出し、読み出した適応先分野の疑似対訳データＤｐｓｄ２（Ｒ１－Ｒ２）により、機械翻訳装置ＭＴ１のＮＭＴモデルの学習処理（パラメータの微調整）を行う。
（２）データ混合法：
機械翻訳装置ＭＴ１は、対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）から、他分野の対訳データＤ０’（Ｌ１－Ｌ２）を取得するとともに、疑似対訳データ格納部ＤＢ１から、適応分野の疑似対訳データＤｐｓｄ２（Ｒ１－Ｒ２）を取得する。そして、機械翻訳装置ＭＴ１は、他分野（Ｌ１－Ｌ２）の対訳データＤ０’（Ｌ１－Ｌ２）と適応先分野（Ｒ１－Ｒ２）の疑似対訳データＤｐｓｄ２（Ｒ１－Ｒ２）とを混合したデータを生成し、生成した当該データにより、機械翻訳装置ＭＴ１のＮＭＴモデルを学習させる。なお、他分野（Ｌ１－Ｌ２）の対訳データＤ０’（Ｌ１－Ｌ２）と適応先分野（Ｒ１－Ｒ２）の疑似対訳データＤｐｓｄ２（Ｒ１－Ｒ２）とを混合する際に、２種類の対訳データをタグで区別するようにしてもよい。また、２種類の対訳データを混合する前に、一方または両方をオーバーサンプリングまたはアンダーサンプリングすることで対訳データの混合比を変更してもよい。
（３）データ混合微調整法：
機械翻訳装置ＭＴ１は、対訳データ記憶部ＤＢｐ（Ｌ１－Ｌ２）から、他分野の対訳データＤ０’（Ｌ１－Ｌ２）を取得し、他分野の対訳データＤ０’（Ｌ１－Ｌ２）を用いて、機械翻訳装置ＭＴ１のＮＭＴモデルの学習処理を行う。その後、機械翻訳装置ＭＴ１は、機械翻訳装置ＭＴ１のＮＭＴモデルの学習処理に用いた対訳データと同じ対訳データＤ０’（Ｌ１－Ｌ２）と、適応先分野の疑似対訳データ（Ｒ１－Ｒ２）（疑似対訳データ格納部ＤＢ１から読み出した適応先分野の疑似対訳データＤｐｓｄ２（Ｒ１－Ｒ２））とを混合したデータを生成する。そして、機械翻訳装置ＭＴ１は、生成したデータ（２種類の対訳データを混合したデータ）を用いて、機械翻訳装置ＭＴ１のＮＭＴモデルの学習処理（パラメータの微調整）を行う。なお、他分野（Ｌ１－Ｌ２）の対訳データＤ０’（Ｌ１－Ｌ２）と適応先分野（Ｒ１－Ｒ２）の疑似対訳データＤｐｓｄ２（Ｒ１－Ｒ２）とを混合する際に、２種類の対訳データをタグで区別するようにしてもよい。また、２種類の対訳データを混合する前に、一方または両方をオーバーサンプリングまたはアンダーサンプリングすることで対訳データの混合比を変更してもよい。

機械翻訳装置ＭＴ１は、上記（１）～（３）の方法のいずれかによるＮＭＴモデルの学習処理を行い、ＮＭＴモデルの最適パラメータを取得する。そして、当該最適パラメータを設定したＮＭＴモデル（学習済みモデル）を用いて、適応先分野の機械翻訳を行う。つまり、図１に示すように、機械翻訳装置ＭＴ１は、適応先分野の起点言語データＤｉｎ＿ｅを入力したとき、当該データＤｉｎ＿ｅに対して機械翻訳処理を行い、目標言語のデータＤｏｕｔ＿ｊ（機械翻訳したデータ）を取得する。

図１５に、機械翻訳装置ＭＴ１により取得されたデータの一例を示す。図１５の上段は、原文（起点言語データ）であり、図１５の下段は、本発明の機械翻訳システム１０００により取得された機械翻訳データである。また、図１５の中段に、比較のため、従来技術の機械翻訳処理を行った結果データ（適応先分野の対訳データによる学習を行うことなく取得したＮＭＴモデルによる機械翻訳の結果データ）を示す。なお、図１５の下段の出力データは、他分野の対訳データとして、日英の対訳データ（適応先分野以外の対訳データ）を用い、適応先分野をＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）分野としたときのデータ（機械翻訳結果データ）である。

図１５から分かるように、適応先分野なしの機械翻訳（従来の機械翻訳）により翻訳データでは、正しく翻訳できていないが、本発明の機械翻訳システム１０００により取得された機械翻訳データは従来の機械翻訳に比べ良好なものとなっている。

≪まとめ≫
このように、機械翻訳システム１０００では、適応先分野（対象分野）における対訳データが存在しない場合であっても、疑似対訳データ生成装置１００により、適応先分野の疑似対訳データを生成することができ、また、疑似対訳データ生成装置１００により生成された疑似対訳データを用いて、機械翻訳装置ＭＴ１のＮＭＴモデルを学習させることができる。さらに、機械翻訳システム１０００では、疑似対訳データ生成装置１００により生成された疑似対訳データにより学習させたＮＭＴモデルを用いて、機械翻訳処理を行うことで、適応先分野（対象分野）における対訳データが存在しない場合であっても、適応先分野における機械翻訳を精度良く行うことができる。

機械翻訳システム１０００では、ＸＬＭの学習、疑似対訳データ生成用機械翻訳モデルの学習、および、機械翻訳装置ＭＴ１による適応先分野のＮＭＴモデルの学習のいずれにおいても適応先分野の正規の対訳データを一切使用していない。この点において、機械翻訳システム１０００は、従来技術と大きく相違する。なお、機械翻訳システム１０００において、疑似対訳データの中から最も信頼度が高い部分を抽出し、調整用の対訳データとして用いるようにしてもよい。

また、機械翻訳システム１０００では、適応先分野（対象分野）における対訳データが存在しないが、他分野の対訳データおよび適応先分野の単言語データが大規模に存在する場合に絶大な効果を発揮する。

［他の実施形態］
上記実施形態で説明した機械翻訳システム１０００、疑似対訳データ生成装置１００、機械翻訳装置ＭＴ１において、各ブロックは、ＬＳＩなどの半導体装置により個別に１チップ化されても良いし、一部または全部を含むように１チップ化されても良い。

なおここではＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

また上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置（ＣＰＵ）により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ＲＯＭなどの記憶装置に格納されており、ＲＯＭにおいて、あるいはＲＡＭに読み出されて実行される。

また上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア（ＯＳ（オペレーティングシステム）、ミドルウェア、あるいは所定のライブラリとともに実現される場合を含む。）により実現してもよい。さらにソフトウェアおよびハードウェアの混在処理により実現しても良い。

例えば上記実施形態の各機能部をソフトウェアにより実現する場合、図１６に示したハードウェア構成（例えばＣＰＵ（ＧＰＵであってもよい）、ＲＯＭ、ＲＡＭ、入力部、出力部、通信部、記憶部（例えば、ＨＤＤ、ＳＳＤ等により実現される記憶部）、外部メディア用ドライブ等をバスＢｕｓにより接続したハードウェア構成）を用いて各機能部をソフトウェア処理により実現するようにしてもよい。

また上記実施形態の各機能部をソフトウェアにより実現する場合、当該ソフトウェアは、図１６に示したハードウェア構成を有する単独のコンピュータを用いて実現されるものであってもよいし、複数のコンピュータを用いて分散処理により実現されるものであってもよい。

また上記実施形態における処理方法の実行順序は、必ずしも上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。

前述した方法をコンピュータに実行させるコンピュータプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここでコンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、大容量ＤＶＤ、次世代ＤＶＤ、半導体メモリを挙げることができる。

上記コンピュータプログラムは、上記記録媒体に記録されたものに限らず、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

また、本明細書内の記載、特許請求の範囲の記載において、「最適化」とは、最も良い状態にすることをいい、システム（モデル）を「最適化」するパラメータとは、当該システムの目的関数の値が最適値となるときのパラメータのことをいう。「最適値」は、システムの目的関数の値が大きくなるほど、システムが良い状態となる場合は、最大値であり、システムの目的関数の値が小さくなるほど、システムが良い状態となる場合は、最小値である。また、「最適値」は、極値であってもよい。また、「最適値」は、所定の誤差（測定誤差、量子化誤差等）を許容するものであってもよく、所定の範囲（十分収束したとみなすことができる範囲）に含まれる値であってもよい。

なお、本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

１０００機械翻訳システム
１００疑似対訳データ生成装置
１入力データ取得部
１１第１入力データ取得処理部
１２マスク化処理部
２入力データ埋込部
２１トークン埋込部
２２位置埋込部
２３言語埋込部
３ＸＬＭ処理部
３１ＸＬＭ用ニューラルネットワークモデル
５機械翻訳処理部
５１ＭＴ用ニューラルネットワークモデル
８フィルター処理部
ＭＴ１機械翻訳装置
ＤＢｐ（Ｌ１－Ｌ２）対訳データ記憶部
ＤＢｍ（Ｌ１）第１単言語データ記憶部（他分野の単言語データ用（第１言語））
ＤＢｍ（Ｌ２）第２単言語データ記憶部（他分野の単言語データ用（第２言語））
ＤＢｍ（Ｒ１）第３単言語データ記憶部（適応先分野の単言語データ用（第１言語））
ＤＢｍ（Ｒ２）第４単言語データ記憶部（適応先分野の単言語データ用（第２言語））
ＤＢ１疑似対訳データ格納部

Claims

パラメータを設定することで学習処理を行うことができ、入力データ埋込部と機械学習処理部とを含む疑似対訳データ生成用機械翻訳モデルの学習方法であって、
生成する疑似対訳データの対象とする分野である適応先分野以外の分野の第１言語のデータである他分野第１言語データと、当該他分野第１言語データの第２言語の翻訳データである他分野第２言語データとからなる対訳データを複数含む他分野対訳データ集合Ｄｓｅｔｐ（Ｌ１－Ｌ２）と、
前記適応先分野以外の分野の第１言語のデータを複数含む他分野単言語データ集合Ｄｓｅｔｍ（Ｌ１）と、
前記適応先分野以外の分野の第２言語のデータを複数含む他分野単言語データ集合Ｄｓｅｔｍ（Ｌ２）と、
前記適応先分野の第１言語のデータを複数含む適応先分野単言語データ集合Ｄｓｅｔｍ（Ｒ１）と、
前記適応先分野の第２言語のデータを複数含む適応先分野単言語データ集合Ｄｓｅｔｍ（Ｒ２）と、
を用いて、パラメータを設定することで学習処理を行うことができ、前記入力データ埋込部とＸＬＭ処理部とを含むＸＬＭモデルに対して、
（Ａ）前記他分野単言語データ集合Ｄｓｅｔｍ（Ｌ１）、前記他分野単言語データ集合Ｄｓｅｔｍ（Ｌ２）、前記適応先分野単言語データ集合Ｄｓｅｔｍ（Ｒ１）、および、前記適応先分野単言語データ集合Ｄｓｅｔｍ（Ｒ２）に含まれるデータである単言語用入力データの一部をマスクしたマスク化データを入力とし、前記単言語用入力データを正解データとし、当該正解データと前記ＸＬＭモデルの出力との損失が小さくなるように学習する処理であるマスク化処理による学習処理と、
（Ｂ）前記他分野対訳データ集合Ｄｓｅｔｐ（Ｌ１－Ｌ２）に含まれる対訳データの前記他分野第１言語データおよび前記他分野第２言語データのうちの一方のデータを入力とし、他方のデータを正解データとし、当該正解データと前記ＸＬＭモデルの出力との損失が小さくなるように学習する処理である教師ありデータによる学習処理と
を行うことで、前記ＸＬＭモデルの最適パラメータを取得し、前記最適パラメータが設定された前記ＸＬＭモデルの前記入力データ埋込部に設定されている最適パラメータを、前記疑似対訳データ生成用機械翻訳モデルの前記入力データ埋込部のパラメータの初期パラメータとして設定する初期化ステップと、
前記初期パラメータが設定されている状態の前記入力データ埋込部と、前記機械学習処理部とを含む前記疑似対訳データ生成用機械翻訳モデルに対して、
（１）正解データを入力データと同一にして前記疑似対訳データ生成用機械翻訳モデルの学習処理を行う自己符号化処理、
（２）入力データに対する前記疑似対訳データ生成用機械翻訳モデルの出力データを、再度、前記疑似対訳データ生成用機械翻訳モデルに入力し、その前記疑似対訳データ生成用機械翻訳モデルの出力が前記入力データと同一となるように前記疑似対訳データ生成用機械翻訳モデルの学習処理を行うゼロショット折り返し機械翻訳処理、
（３）他分野対訳データ集合Ｄｓｅｔｐ（Ｌ１－Ｌ２）に含まれる第１言語のデータおよび第２言語データのいずれか一方を前記疑似対訳データ生成用機械翻訳モデルの入力とし、他方を正解データとして、前記疑似対訳データ生成用機械翻訳モデルの学習処理を行う教師あり機械翻訳処理、
の少なくとも１つを用いて、学習処理を行うことで、前記疑似対訳データ生成用機械翻訳モデルの最適パラメータを取得する最適化ステップと、
を備え、
前記疑似対訳データ生成用機械翻訳モデルは、
制御信号により指定された種別のデータを出力することができ、前記制御信号により指定された、（１）前記他分野第１言語データ、（２）前記他分野第２言語データ、（３）前記適応先分野の第１言語のデータ、および、（４）前記適応先分野の第２言語のデータのいずれかを出力するように設定される、
疑似対訳データ生成用機械翻訳モデルの学習方法。
請求項１に記載の疑似対訳データ生成用機械翻訳モデルの学習方法により取得された疑似対訳データ生成用機械翻訳モデルを用いて、適応先分野の疑似対訳データを取得する疑似対訳データ取得方法であって、
前記他分野対訳データ集合Ｄｓｅｔｐ（Ｌ１－Ｌ２）から取得した第１言語のデータに対して、前記制御信号により前記疑似対訳データ生成用機械翻訳モデルの出力が前記適応先分野の第２言語のデータとなるように設定した前記疑似対訳データ生成用機械翻訳モデルを用いた機械翻訳処理を行うことで、前記他分野第１言語データの機械翻訳結果データである前記適応先分野の第２言語疑似翻訳データを取得する第１機械翻訳ステップと、
前記他分野対訳データ集合Ｄｓｅｔｐ（Ｌ１－Ｌ２）から取得した第２言語のデータに対して、前記制御信号により前記疑似対訳データ生成用機械翻訳モデルの出力が前記適応先分野の第１言語のデータとなるように設定した前記疑似対訳データ生成用機械翻訳モデルを用いた機械翻訳処理を行うことで、前記他分野第２言語データの機械翻訳結果データである前記適応先分野の第１言語疑似翻訳データを取得する第２機械翻訳ステップと、
前記第１機械翻訳ステップで取得された前記適応先分野の第２言語疑似翻訳データと、前記第２機械翻訳ステップで取得された前記適応先分野の第１言語疑似翻訳データと、を対応づけることで、前記適応先分野の疑似対訳データを取得する疑似対訳データ取得ステップと、
を備える疑似対訳データ取得方法。
請求項１に記載の疑似対訳データ生成用機械翻訳モデルの学習方法により取得された疑似対訳データ生成用機械翻訳モデルを用いて、適応先分野の疑似対訳データを取得する疑似対訳データ取得方法であって、
前記適応先分野単言語データ集合Ｄｓｅｔｍ（Ｒ１）から取得した第１言語のデータまたは前記適応先分野単言語データ集合Ｄｓｅｔｍ（Ｒ２）から取得した第２言語のデータに対して、前記制御信号により前記疑似対訳データ生成用機械翻訳モデルの出力が前記適応先分野の第２言語のデータまたは第１言語のデータとなるように設定した前記疑似対訳データ生成用機械翻訳モデルを用いた機械翻訳処理を行うことで、前記適応先分野の第１言語のデータの機械翻訳結果データである前記適応先分野の第２言語疑似翻訳データまたは前記適応先分野の第２言語のデータの機械翻訳結果データである前記適応先分野の第１言語疑似翻訳データを取得する単言語データ機械翻訳ステップと、
前記単言語データ機械翻訳ステップで、前記疑似対訳データ生成用機械翻訳モデルの入力とした前記適応先分野の第１言語のデータと、前記単言語データ機械翻訳ステップで取得された前記適応先分野の第２言語疑似翻訳データと、を対応づける、または、前記疑似対訳データ生成用機械翻訳モデルの入力とした前記適応先分野の第２言語のデータと、前記単言語データ機械翻訳ステップで取得された前記適応先分野の第１言語疑似翻訳データと、を対応づけることで、前記適応先分野の疑似対訳データを取得する疑似対訳データ取得ステップと、
を備える疑似対訳データ取得方法。
前記疑似対訳データ取得ステップが取得した前記適応先分野の疑似対訳データの各文対に対して、機械翻訳処理の結果の精度を示す信頼度を取得し、取得した前記信頼度が所定の値以上である文対を含む前記疑似対訳データのみを選択して出力するフィルター処理ステップをさらに備える、
請求項２または３に記載の疑似対訳データ取得方法。
パラメータを設定することで学習処理を行うことができる機械翻訳モデルであって、適応先分野の第１言語のデータに対して機械翻訳を行い第２言語のデータを取得するための前記機械翻訳モデルの学習方法であって、
請求項２から４のいずれかに記載の疑似対訳データ取得方法により取得された適応先分野の疑似翻訳データと、
前記適応先分野以外の分野の第１言語のデータである他分野第１言語データと、当該他分野第１言語データの第２言語の翻訳データである他分野第２言語データとからなる対訳データを複数含む他分野対訳データ集合Ｄｓｅｔｐ（Ｌ１－Ｌ２）と、
を用いて、前記機械翻訳モデルに対して、
（Ａ）前記他分野対訳データ集合Ｄｓｅｔｐ（Ｌ１－Ｌ２）に含まれる対訳データの前記他分野第１言語データを入力とし、前記他分野対訳データ集合Ｄｓｅｔｐ（Ｌ１－Ｌ２）に含まれる対訳データの前記他分野第２言語データを正解データとし、当該正解データと前記機械翻訳モデルの出力との損失が小さくなるようにする学習処理と、
（Ｂ）前記疑似翻訳データに含まれる前記適応先分野の第１言語のデータを入力とし、前記疑似翻訳データに含まれる前記適応先分野の第２言語のデータを正解データとし、当該正解データと前記機械翻訳モデルの出力との損失が小さくなるようにする学習処理と、
を行うことで、前記機械翻訳モデルの最適パラメータを取得し、当該最適パラメータを機械翻訳モデルに設定することで、学習済み機械翻訳モデルを取得する処理であるの学習処理を行う機械翻訳モデル学習ステップ、
を備える機械翻訳モデルの学習方法。
請求項１に記載の疑似対訳データ生成用機械翻訳モデルの学習方法により取得された学習済みの機械翻訳モデル、または、請求項５に記載の機械翻訳モデルの学習方法により取得された学習済みの機械翻訳モデルを用いて機械翻訳処理を行う機械翻訳装置。