JP7663171B2 - 疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法 - Google Patents
疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法 Download PDFInfo
- Publication number
- JP7663171B2 JP7663171B2 JP2020137323A JP2020137323A JP7663171B2 JP 7663171 B2 JP7663171 B2 JP 7663171B2 JP 2020137323 A JP2020137323 A JP 2020137323A JP 2020137323 A JP2020137323 A JP 2020137323A JP 7663171 B2 JP7663171 B2 JP 7663171B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- machine translation
- pseudo
- language
- parallel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Description
生成する疑似対訳データの対象とする分野である適応先分野以外の分野の第1言語のデータである他分野第1言語データと、当該他分野第1言語データの第2言語の翻訳データである他分野第2言語データとからなる対訳データを複数含む他分野対訳データ集合Dsetp(L1-L2)と、
適応先分野以外の分野の第1言語のデータを複数含む他分野単言語データ集合Dsetm(L1)と、
適応先分野以外の分野の第2言語のデータを複数含む他分野単言語データ集合Dsetm(L2)と、
適応先分野の第1言語のデータを複数含む適応先分野単言語データ集合Dsetm(R1)と、
適応先分野の第2言語のデータを複数含む適応先分野単言語データ集合Dsetm(R2)と、
を用いて、疑似対訳データ生成用機械翻訳モデルの学習処理を行い、当該学習処理を実行した後の疑似対訳データ生成用機械翻訳モデルに設定されているパラメータを初期パラメータに設定する。
初期パラメータが設定されている状態の疑似対訳データ生成用機械翻訳モデルに対して、
(1)正解データを入力データと同一にして疑似対訳データ生成用機械翻訳モデルの学習処理を行う自己符号化処理、
(2)入力データに対する疑似対訳データ生成用機械翻訳モデルの出力データ(この「出力データ」は、例えば、入力データとは異なる言語のデータであり、かつ、ゼロショット(学習したことのない分野)のデータである。)を、再度、疑似対訳データ生成用機械翻訳モデルに入力し、その疑似対訳データ生成用機械翻訳モデルの出力(この「出力」は、入力データと同じ言語である。)が入力データと同一となるように疑似対訳データ生成用機械翻訳モデルの学習処理を行うゼロショット折り返し機械翻訳処理、
(3)他分野対訳データ集合Dsetp(L1-L2)に含まれる第1言語のデータおよび第2言語データのいずれか一方を疑似対訳データ生成用機械翻訳モデルの入力とし、他方を正解データとして、疑似対訳データ生成用機械翻訳モデルの学習処理を行う教師あり機械翻訳処理、
の少なくとも1つを用いて、学習処理を行うことで、疑似対訳データ生成用機械翻訳モデルの最適パラメータを取得する。
(1)精度の高い他分野の対訳データ集合(Dsetp(L1-L2)(大規模(対訳データ数が多数)であることが好ましい))と、
(2)他分野の第1言語データ集合(Dsetm(L1))と、
(3)他分野の第2言語データ集合(Dsetm(L2))と、
(4)適応先分野の第1言語データ集合(Dsetm(R1))と、
(5)適応先分野の第2言語データ集合(Dsetm(R2))と、
を用いて、疑似対訳データ生成用機械翻訳モデル(例えば、ニューラルネットワークモデル)を事前学習処理(初期化ステップによる処理)により初期化し、さらに、パラメータ最適化処理(最適化ステップによる処理)を行うことで、適応先分野(機械翻訳の対象とする分野)の対訳データが一切ない場合であっても、適応先分野の第1言語および第2言語の疑似対訳データを生成するための疑似対訳データ生成用機械翻訳モデルを学習させることができる。
第1実施形態について、図面を参照しながら、以下説明する。
図1は、第1実施形態に係る機械翻訳システム1000の概略構成図である。
xi’token=xitoken・Wtoken
xitoken:各トークン(入力データ)文字列を表すベクトル(例えば、1×n1の行列(n1次元ベクトル)(n1:自然数))
Wtoken:分散表現データを取得するための行列(例えば、n1×m1の行列(n1,m1:自然数))
xi’token:入力データxitokenの分散表現データ(例えば、1×m1の行列(m1次元ベクトル)(m1:自然数))
位置埋込部22は、データD3に含まれる位置データxiposを入力し、入力した位置データxiposの分散表現データを取得し、取得した分散表現データを分散表現データxi’ posとして、XLM処理部3および機械翻訳処理部5に出力する。なお、位置埋込部22は、例えば、位置データxiposに対して、分散表現データを取得するための行列による行列演算を行うことで、分散表現データxi’posを取得する。例えば、位置埋込部22は、下記の行列演算による処理を行うことで、分散表現データxi’posを取得する。なお、行列Wposの各要素(重み付け係数に相当)は、パラメータθembの一部である。パラメータθembは、XLM処理部3または機械翻訳処理部5から入力データ埋込部2に入力されるパラメータ更新データupdate(θemb)により更新される。
xi’pos=xipos・Wpos
xipos:各トークン(入力データ)の位置を表すベクトル(例えば、1×n2の行列(n2次元ベクトル)(n2:自然数))
Wpos:分散表現データを取得するための行列(例えば、n2×m2の行列(n2,m2:自然数))
xi’pos:入力データxiposの分散表現データ(例えば、1×m2の行列(m2次元ベクトル)(m2:自然数))
言語埋込部23は、データD3に含まれる言語データxilangを入力し、入力した言語データxilangの分散表現データを取得し、取得した分散表現データを分散表現データxi’langとして、XLM処理部3および機械翻訳処理部5に出力する。なお、言語埋込部23は、例えば、言語データxilangに対して、分散表現データを取得するための行列による行列演算を行うことで、分散表現データxi’langを取得する。例えば、言語埋込部23は、下記の行列演算による処理を行うことで、分散表現データxi’langを取得する。なお、行列Wlangの各要素(重み付け係数に相当)は、パラメータθembの一部である。パラメータθembは、XLM処理部3または機械翻訳処理部5から入力データ埋込部2に入力されるパラメータ更新データupdate(θemb)により更新される。
xi’lang=xilang・Wlang
xilang:各トークン(入力データ)の言語を表すベクトル(例えば、1×n3の行列(n3次元ベクトル)(n3:自然数))
Wlang:分散表現データを取得するための行列(例えば、n3×m3の行列(n3,m3:自然数))
xi’lang:入力データxilangの分散表現データ(例えば、1×m3の行列(m3次元ベクトル)(m3:自然数))
入力データ埋込部2は、上記により取得された分散表現データをデータD4として、XLM処理部3および機械翻訳処理部5に出力する。
(文献A):Alexis Conneau and Guillaume Lample (2019). Cross-Lingual Language Model Pretraining. In Proceedings of the 32nd Neural Information Processing Systems Conference (NeurIPS), pp. 7057-7067.
(文献B):Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin (2017). Attention is All You Need. In Proceedings of the 30th Neural Information Processing Systems Conference (NeurIPS), pp. 5998-6008.
XLM用ニューラルネットワークモデル31は、入力データ埋込部2から出力される分散表現データD4(={xi’token,xi’pos,xi’lang})を入力する。
以上のように構成された機械翻訳システム1000の動作について、説明する。
まず、機械翻訳システム1000の疑似対訳データ生成装置100において実行される事前学習処理(疑似対訳データ生成用NMTモデル(入力データ埋込部2(埋込層に相当)と機械翻訳処理部5のMT用ニューラルネットワークモデル51とにより実現されるモデル)の事前学習処理)(図5のフローチャートのステップS1)について、XLMの学習処理と、疑似対訳データ生成用NMTモデルの学習処理とに分けて説明する。
まず、XLMの学習処理について説明する。
(A)マスク化言語モデル(MLM)の処理(ステップS111)と、
(B)翻訳言語モデル(TLM)の処理(ステップS112)と、
(C)損失の計算処理(ステップS113)と、
(D)パラメータ(θXLM,θemb)の更新処理(ステップS114)と、
から構成される。
マスク化言語モデル(MLM)の処理において、疑似対訳データ生成装置100は、図7に示すように、入力データ埋込部2への入力をマスク化データとし、正解データを原データ(マスク化していないデータ)として、学習処理を行う。
具体的には、データ入力インターフェースIF1は、第1単言語データ記憶部DBm(L1)から他分野第1言語の単言語データD0(L1)を読み出し、読み出した単言語データをデータD1(L1)として、入力データ取得部1に出力する。
xi’token=xitoken・Wtoken
xitoken:各トークン(入力データ)文字列を表すベクトル(例えば、1×n1の行列(n1次元ベクトル)(n1:自然数))
Wtoken:分散表現データを取得するための行列(例えば、n1×m1の行列(n1,m1:自然数))
xi’token:入力データxitokenの分散表現データ(例えば、1×m1の行列(m1次元ベクトル)(m1:自然数))
入力データ埋込部2の位置埋込部22は、データD3(L1.mask)に含まれる位置データxiposを入力し、入力した位置データxiposの分散表現データを、例えば、下記数式に相当する処理を実行して取得する。
xi’pos=xipos・Wpos
xipos:各トークン(入力データ)の位置を表すベクトル(例えば、1×n2の行列(n2次元ベクトル)(n2:自然数))
Wpos:分散表現データを取得するための行列(例えば、n2×m2の行列(n2,m2:自然数))
xi’pos:入力データxiposの分散表現データ(例えば、1×m2の行列(m2次元ベクトル)(m2:自然数))
入力データ埋込部2の言語埋込部23は、データD3(L1.mask)に含まれる言語データxilangを入力し、入力した言語データxilangの分散表現データを、例えば、下記数式に相当する処理を実行して取得する。
xi’lang=xilang・Wlang
xilang:各トークン(入力データ)の言語を表すベクトル(例えば、1×n3の行列(n3次元ベクトル)(n3:自然数))
Wlang:分散表現データを取得するための行列(例えば、n3×m3の行列(n3,m3:自然数))
xi’lang:入力データxilangの分散表現データ(例えば、1×m3の行列(m3次元ベクトル)(m3:自然数))
入力データ埋込部2は、上記により取得された分散表現データをデータD4(L1.mask)として、XLM処理部3に出力する。なお、上記のトークン文字列や言語識別子の埋め込み方法、位置の埋め込み方法は、上記に限定されることなく、他の方法を用いてもよい。
次に、疑似対訳データ生成装置100のデータ入力インターフェースIF1は、第2単言語データ記憶部DBm(L2)から他分野の第2言語の単言語データD0(L2)を読み出し、読み出した単言語データをデータD1(L2)として、入力データ取得部1に出力する。そして、上記と同様の処理を行う。つまり、入力データ埋込部2への入力データを、データD3(L2.mask)、すなわち、
D3(L2.mask)={xitoken(L2),xipos(L2),xilang(L2)}
xitoken(L2):第2単言語データ記憶部DBm(L2)から読み出した単言語データD1(L2)のトークンデータxi0token(L2)の一部のトークンをマスクトークンに置換するマスク化処理を行うことで取得したマスク化トークンデータ
xipos(L2):第2単言語データ記憶部DBm(L2)から読み出した単言語データD1(L2)のトークンデータの位置を示すデータ(位置データ)
xilang(L2):第2単言語データ記憶部DBm(L2)から読み出した単言語データD1(L2)のトークンの言語を示すデータ(言語データ)
とし、正解データをD_correct(L2)(=原データ(マスク化していないデータ))として、上記と同様の処理を行う。
次に、疑似対訳データ生成装置100のデータ入力インターフェースIF1は、第3単言語データ記憶部DBm(R1)から適応先分野の第1言語の単言語データD0(R1)を読み出し、読み出した単言語データをデータD1(R1)として、入力データ取得部1に出力する。そして、上記と同様の処理を行う。つまり、入力データ埋込部2への入力データを、データD3(R1.mask)、すなわち、
D3(R1.mask)={xitoken(R1),xipos(R1),xilang(R1)}
xitoken(R1):第3単言語データ記憶部DBm(R1)から読み出した単言語データD1(R1)のトークンデータxi0token(R1)の一部のトークンをマスクトークンに置換するマスク化処理を行うことで取得したマスク化トークンデータ
xipos(R1):第3単言語データ記憶部DBm(R1)から読み出した単言語データD1(R1)のトークンデータの位置を示すデータ(位置データ)
xilang(R1):第3単言語データ記憶部DBm(R1)から読み出した単言語データD1(R1)のトークンデータの言語を示すデータ(言語データ)
とし、正解データをD_correct(R1)(=原データ(マスク化していないデータ))として、上記と同様の処理を行う。
次に、疑似対訳データ生成装置100のデータ入力インターフェースIF1は、第4単言語データ記憶部DBm(R2)から適応先分野の第2言語の単言語データD0(R2)を読み出し、読み出した単言語データをデータD1として、入力データ取得部1に出力する。そして、上記と同様の処理を行う。つまり、入力データ埋込部2への入力データを、データD3(R2.mask)、すなわち、
D3(R2.mask)={xitoken(R2),xipos(R2),xilang(R2)}
xitoken(R2):第4単言語データ記憶部DBm(R2)から読み出した単言語データD1(R2)のトークンデータxi0token(R2)の一部のトークンをマスクトークンに置換するマスク化処理を行うことで取得したマスク化トークンデータ
xipos(R2):第4単言語データ記憶部DBm(R2)から読み出した単言語データD1(R2)のトークンデータの位置を示すデータ(位置データ)
xilang(R2):第4単言語データ記憶部DBm(R2)から読み出した単言語データD1(R2)のトークンデータの言語を示すデータ(言語データ)
とし、正解データをD_correct(R2)(=原データ(マスク化していないデータ))として、上記と同様の処理を行う。
次に、翻訳言語モデル(TLM)の処理において、疑似対訳データ生成装置100は、図7に示すように、入力データ埋込部2への入力(対訳データ)をマスク化データとし、正解データを原データ(マスク化していないデータ)として、学習処理を行う。
具体的には、データ入力インターフェースIF1は、対訳データ記憶部DBp(L1―L2)から他分野の対訳データD0(L1-L2)を読み出し、読み出した対訳データをデータD1(L1-L2)として、入力データ取得部1に出力する。
次に、疑似対訳データ生成装置100のデータ入力インターフェースIF1は、対訳データ記憶部DBp(L1―L2)から他分野の対訳データD0(L1-L2)を読み出し、読み出した対訳データの第一言語のデータと第二言語のデータを入れ替えた対訳データをデータD1(L2-L1)として、入力データ取得部1に出力する。
上記の処理、すなわち、(A)MLMの処理(4種類の単言語データを使用)(ステップS111)と、(B)TLMの処理(L1-L2の対訳データを使用)(ステップS112)とを実行した後、第1出力データ評価部4は、損失の計算処理を行う。なお、損失の計算をM文(M個の文、M:自然数)ごとに行う場合、M文の中の第i番目の文に含まれるサブワード数をNi(1≦i≦M)とし、第i番目の文についてのXLM処理部3からの出力データD5x(Xin)(入力データをXinで表す)のj番目(j:自然数、1≦j≦Ni)のサブワードに相当するデータをD5x((Xin→Xout),i,j)(「(Xin→Xout)」は、入力データがXinであり、出力データがXoutであることを表す)とすると、第1出力データ評価部4は、下記数式のように、XLM処理部3から出力されるデータと、正解データとから損失Lossを取得する。
p:確率分布(p(k)は、k番目(第k次元)の要素の確率を示す)
q:確率分布(q(k)は、k番目(第k次元)の要素の確率を示す)
なお、上記数式において、D_correct’(x,i,j)は、第1出力データ評価部4により正解データD_correct(x)の第i番目の文の第j番目のサブワードから取得されるデータ(ベクトル)であり、サブワード語彙のサイズ(=各トークン(入力データ)文字列を表すベクトルの次元数(これをn1とする))と同じ次元数のベクトル(n1次元のベクトル)である。そして、例えば、D_correct’(x,i,j)は、n1次元のうち1次元のみ値が「1」であり(n1次元ベクトルの要素のうち、当該正解サブワードに対応する要素のみが「1」)、それ以外は値が「0」であるone-hotベクトルである。
第1出力データ評価部4は、所定の学習データに対して上記で算出した損失(学習損失)に基づいてXLM処理部3のXLM用ニューラルネットワークモデル31のパラメータθXLMを更新するためのデータupdate(θXLM)を生成し、当該データupdate(θXLM)をXLM処理部3に出力する。
(1)事前に定めた反復回数だけループ処理(ループ1)が実行された。
(2)言語横断言語モデル(XLM)の学習処理において、第1出力データ評価部4における評価値が一定以上(事前に定めた値以上)の変化を示さなかった。
(3)言語横断言語モデル(XLM)の学習処理において、第1出力データ評価部4における評価値が事前に定めた値を下回った。
(4)言語横断言語モデル(XLM)の学習処理において、第1出力データ評価部4における評価値が事前に定めた回数更新されなかった。
次に、疑似対訳データ生成装置100では、疑似対訳データ生成用NMTモデルの学習処理(ステップS120~S126)が実行される。
(A)自己符号化処理(ステップS121)と、
(B)ゼロショット折り返し機械翻訳処理(ステップS122)と、
(C)教師データあり機械翻訳処理(ステップS123)と、
(D)損失の計算処理(ステップS124)と、
(E)パラメータ(θMT,θemb)の更新処理(ステップS125)と、
から構成される。
自己符号化処理において、疑似対訳データ生成装置100は、図8に示すように、入力データ埋込部2への入力データと同一の出力データが出力されるように学習処理(疑似対訳データ生成用NMTモデルの学習処理)を行う。つまり、自己符号化処理において、正解データは、入力データと同一のデータに設定される。すなわち、自己符号化処理において、疑似対訳データ生成装置100は、
(1)入力データ埋込部2への入力をD3(L1)とし、機械翻訳処理部5の出力データD5(L1)の正解データをD_correct(L1)とする、
(2)入力データ埋込部2への入力をD3(L2)とし、機械翻訳処理部5の出力データD5(L2)の正解データをD_correct(L2)とする、
(3)入力データ埋込部2への入力をD3(R1)とし、機械翻訳処理部5の出力データD5(R1)の正解データをD_correct(R1)とする、および、
(4)入力データ埋込部2への入力をD3(R2)とし、機械翻訳処理部5の出力データD5(R2)の正解データをD_correct(R2)として、学習処理(自己符号化処理によるパラメータ最適化処理)を実行する。
入力データ埋込部2への入力をD3(L1)とし、機械翻訳処理部5の出力データD5(L1)の正解データをD_correct(L1)とする場合について、説明する。
入力データ埋込部2への入力をD3(L2)とし、機械翻訳処理部5の出力データD5(L2)の正解データをD_correct(L2)とする場合についても、疑似対訳データ生成装置100は、上記と同様の処理を実行する。つまり、疑似対訳データ生成装置100は、上記処理において、D3(L1)をD3(L2)に置換し、正解データD_correct(L1)を正解データD_correct(L2)に置換して、上記処理と同様の処理を行う。
入力データ埋込部2への入力をD3(R1)とし、機械翻訳処理部5の出力データD5(R1)の正解データをD_correct(R1)とする場合についても、疑似対訳データ生成装置100は、上記と同様の処理を実行する。つまり、疑似対訳データ生成装置100は、上記処理において、D3(L1)をD3(R1)に置換し、正解データD_correct(L1)を正解データD_correct(R1)に置換して、上記処理と同様の処理を行う。
入力データ埋込部2への入力をD3(R2)とし、機械翻訳処理部5の出力データD5(R2)の正解データをD_correct(R2)とする場合についても、疑似対訳データ生成装置100は、上記と同様の処理を実行する。つまり、疑似対訳データ生成装置100は、上記処理において、D3(L1)をD3(R2)に置換し、正解データD_correct(L1)を正解データD_correct(R2)に置換して、上記処理と同様の処理を行う。
ゼロショット折り返し機械翻訳処理において、疑似対訳データ生成装置100は、図9、図10に示すように、(1)入力データ埋込部2への入力データに対して機械翻訳処理(疑似対訳データ生成用NMTモデル(入力データ埋込部2(埋込層に相当)と機械翻訳処理部5のMT用ニューラルネットワークモデル51とにより実現されるモデル)による機械翻訳処理)を行い(1回目の機械翻訳処理)、入力データと異なる言語のデータ(ゼロショット機械翻訳のデータ)を出力させ、(2)その出力されたデータに対して機械翻訳処理(疑似対訳データ生成用NMTモデルにより機械翻訳処理)を行い(2回目の機械翻訳処理)、入力データと同一のデータが出力されるように学習処理を行う。つまり、ゼロショット折り返し機械翻訳処理において、正解データは、入力データと同一のデータに設定される。
(1)L1→R2→L1:
1回目の機械翻訳処理において、入力データ埋込部2への入力をD3(1)(L1)とし、機械翻訳処理部5からの出力をD5(1)(R2)とし、2回目の機械翻訳処理において、入力データ埋込部2への入力をD3(2)(R2)(=D5(1)(R2))とし、機械翻訳処理部5からの出力をD5(2)(L1)とし、また、正解データをD_correct(L1)とする。
(2)R1→L2→R1:
1回目の機械翻訳処理において、入力データ埋込部2への入力をD3(1)(R1)とし、機械翻訳処理部5からの出力をD5(1)(L2)とし、2回目の機械翻訳処理において、入力データ埋込部2への入力をD3(2)(L2)(=D5(1)(L2))とし、機械翻訳処理部5からの出力をD5(2)(R1)とし、また、正解データをD_correct(R1)とする。
(3)R1→R2→R1:
1回目の機械翻訳処理において、入力データ埋込部2への入力をD3(1)(R1)とし、機械翻訳処理部5からの出力をD5(1)(R2)とし、2回目の機械翻訳処理において、入力データ埋込部2への入力をD3(2)(R2)(=D5(1)(R2))とし、機械翻訳処理部5からの出力をD5(2)(R1)とし、また、正解データをD_correct(R1)とする。
(4)L2→R1→L2:
1回目の機械翻訳処理において、入力データ埋込部2への入力をD3(1)(L2)とし、機械翻訳処理部5からの出力をD5(1)(R1)とし、2回目の機械翻訳処理において、入力データ埋込部2への入力をD3(2)(R1)(=D5(1)(R1))とし、機械翻訳処理部5からの出力をD5(2)(L2)とし、また、正解データをD_correct(L2)とする。
(5)R2→L1→R2:
1回目の機械翻訳処理において、入力データ埋込部2への入力をD3(1)(R2)とし、機械翻訳処理部5からの出力をD5(1)(L1)とし、2回目の機械翻訳処理において、入力データ埋込部2への入力をD3(2)(L1)(=D5(1)(L1))とし、機械翻訳処理部5からの出力をD5(2)(R2)とし、また、正解データをD_correct(R2)とする。
(6)R2→R1→R2:
1回目の機械翻訳処理において、入力データ埋込部2への入力をD3(1)(R2)とし、機械翻訳処理部5からの出力をD5(1)(R1)とし、2回目の機械翻訳処理において、入力データ埋込部2への入力をD3(2)(R1)(=D5(1)(R1))とし、機械翻訳処理部5からの出力をD5(2)(R2)とし、また、正解データをD_correct(R1)とする。
入力データ埋込部2への1回目の入力をD3(1)(L1)とし、1回目の機械翻訳処理部5からの出力をD5(1)(R2)とし、入力データ埋込部2への2回目の入力をD3(2)(R2)(=D5(1)(R2))とし、2回目の機械翻訳処理部5からの出力をD5(2)(L1)とし、正解データをD_correct(L1)とする場合について、説明する。
入力データ埋込部2への1回目の入力をD3(1)(R1)とし、1回目の機械翻訳処理部5からの出力をD5(1)(L2)とし、入力データ埋込部2への2回目の入力をD3(2)(L2)(=D5(1)(L2))とし、2回目の機械翻訳処理部5からの出力をD5(2)(R1)とし、正解データをD_correct(R1)とする場合についても、疑似対訳データ生成装置100は、上記と同様の処理を実行する。
入力データ埋込部2への1回目の入力をD3(1)(R1)とし、1回目の機械翻訳処理部5からの出力をD5(1)(R2)とし、入力データ埋込部2への2回目の入力をD3(2)(R2)(=D5(1)(R2))とし、2回目の機械翻訳処理部5からの出力をD5(2)(R1)とし、正解データをD_correct(R1)とする場合についても、疑似対訳データ生成装置100は、上記と同様の処理を実行する。
入力データ埋込部2への1回目の入力をD3(1)(L2)とし、1回目の機械翻訳処理部5からの出力をD5(1)(R1)とし、入力データ埋込部2への2回目の入力をD3(2)(R1)(=D5(1)(R1))とし、2回目の機械翻訳処理部5からの出力をD5(2)(L2)とし、正解データをD_correct(L2)とする場合についても、疑似対訳データ生成装置100は、上記と同様の処理を実行する。
入力データ埋込部2への1回目の入力をD3(1)(R2)とし、1回目の機械翻訳処理部5からの出力をD5(1)(L1)とし、入力データ埋込部2への2回目の入力をD3(2)(L1)(=D5(1)(L1))とし、2回目の機械翻訳処理部5からの出力をD5(2)(R2)とし、正解データをD_correct(R2)とする場合についても、疑似対訳データ生成装置100は、上記と同様の処理を実行する。
入力データ埋込部2への1回目の入力をD3(1)(R2)とし、1回目の機械翻訳処理部5からの出力をD5(1)(R1)とし、入力データ埋込部2への2回目の入力をD3(2)(R1)(=D5(1)(R1))とし、2回目の機械翻訳処理部5からの出力をD5(2)(R2)とし、正解データをD_correct(R2)とする場合についても、疑似対訳データ生成装置100は、上記と同様の処理を実行する。
(1)L1→R2→L1
(2)R1→L2→R1
(3)R1→R2→R1
(4)L2→R1→L2
(5)R2→L1→R2
(6)R2→R1→R2
の6パターン(6種類の場合)について、ゼロショット折り返し機械翻訳処理が実行される。
教師データあり機械翻訳処理において、疑似対訳データ生成装置100は、図11に示すように、入力データ埋込部2への入力データを対訳データ記憶部DBp(L1-L2)から取得した対訳データD0(L1-L2)の一方の言語のデータとし、当該入力データに対応する対訳データが出力されるように学習処理を行う。つまり、教師あり機械翻訳処理において、正解データは、対訳データ記憶部DBp(L1-L2)から読み出した対訳データD0(L1-L2)に基づいて、設定される。
(1)入力データ埋込部2への入力をD3(L1)とし、正解データをD_correct(L2)とする、あるいは、
(2)入力データ埋込部2への入力をD3(L2)とし、正解データをD_correct(L1)として、
疑似対訳データ生成用NMTモデル(入力データ埋込部2(埋込層に相当)と機械翻訳処理部5のMT用ニューラルネットワークモデル51とにより実現されるモデル)の学習処理(パラメータの最適化処理)を行う。
入力データ埋込部2への入力をD3(L1)とし、正解データをD_correct(L2)とする場合について、説明する。
入力データ埋込部2への入力をD3(L2)とし、正解データをD_correct(L1)とする場合についても、疑似対訳データ生成装置100は、上記と同様の処理を実行する。つまり、疑似対訳データ生成装置100は、上記処理において、D3(L1)をD3(L2)に置換し、正解データD_correct(L2)を正解データD_correct(L1)に置換して、上記処理と同様の処理を行う。
上記の処理、すなわち、
(A)自己符号化処理(ステップS121)、
(B)ゼロショット折り返し機械翻訳処理(ステップS122)、および
(C)教師データあり機械翻訳処理(ステップS123)
を実行した後、第2出力データ評価部6は、損失の計算処理を行う。なお、損失の計算をM文(M個の文、M:自然数)ごとに行う場合、M文の中の第i番目の文に含まれるサブワード数をNi(1≦i≦M)とし、第i番目の文についての機械翻訳処理部5からの出力データD5(Xin)(入力データをXinで表す)のj番目(j:自然数、1≦j≦Ni)のサブワードに相当するデータをD5((Xin→Xout),i,j)(「(Xin→Xout)」は、入力データがXinであり、出力データがXoutであることを表す)またはD5((Xin→Xm→Xout),i,j)(「(Xin→Xm→Xout)」は、入力データがXinであり、1回目の出力データがXmであり、2回目の入力がXmであり、2回目の出力がXoutであることを表す)とすると、第2出力データ評価部6は、下記数式のように、機械翻訳処理部5から出力されるデータと、正解データとから損失Lossを取得する。
p:確率分布(p(k)は、k番目(第k次元)の要素の確率を示す)
q:確率分布(q(k)は、k番目(第k次元)の要素の確率を示す)
なお、上記数式において、D_correct’(x,i,j)は、第2出力データ評価部6により正解データD_correct(x)の第i番目の文の第j番目のサブワードから取得されるデータ(ベクトル)であり、サブワード語彙のサイズ(=各トークン(入力データ)文字列を表すベクトルの次元数(これをn1とする))と同じ次元数のベクトル(n1次元のベクトル)である。そして、例えば、D_correct’(x,i,j)は、n1次元のうち1次元のみ値が「1」であり(n1次元ベクトルの要素のうち、当該正解サブワードに対応する要素のみが「1」)、それ以外は値が「0」であるone-hotベクトルである。
第2出力データ評価部6は、所定の学習データに対して上記で算出した損失(学習損失)に基づいてXLM処理部3のMT用ニューラルネットワークモデル51のパラメータθMTを更新するためのデータupdate(θMT)を生成し、当該データupdate(θMT)を機械翻訳処理部5に出力する。
(1)事前に定めた反復回数だけループ処理(ループ2)が実行された。
(2)疑似対訳データ生成用NMTモデルの学習処理において、第2出力データ評価部6における評価値が一定以上(事前に定めた値以上)の変化を示さなかった。
(3)疑似対訳データ生成用NMTモデルの学習処理において、第2出力データ評価部6における評価値が事前に定めた値を下回った。
(4)疑似対訳データ生成用NMTモデルの学習処理において、第2出力データ評価部6における評価値が事前に定めた回数更新されなかった。
次に、疑似対訳データ生成処理(図4のステップS2)について説明する。
(1)他分野の対訳データ(L1-L2)を適応先分野向けに改変する方法(第1の方法)
(2)適応先分野の単言語データ(R1またはR2)を機械翻訳する方法(第2の方法)
以下、上記2つの方法による疑似対訳データ生成処理について、説明する。
まず、第1の方法(他分野対訳データを利用する方法)について、説明する。
次に、第2の方法(適応先分野単言語データを利用する方法)について、説明する。
(文献D):Lucia Specia, Carolina Scarton, and Gustavo Henrique Paetzold (2018). Quality Estimation for Machine Translation. Morgan & Claypool.
そして、フィルター処理部8は、付与された信頼度に基づいて、フィルタリングを行う。例えば、フィルター処理部8は、上記により算出した信頼度が所定の閾値Thよりも高い疑似対訳データ(R1-R2)のみをフィルタリングにより取得する。そして、フィルター処理部8は、当該フィルタリングにより取得した疑似対訳データを、疑似対訳データDpsd1(R1-R2,#2)として、疑似対訳データ格納部DB1に出力する。
以上のように、疑似対訳データ生成装置100では、
(1)大規模で(対訳データ数が多く)精度の高い他分野の対訳データ(対訳データ記憶部DBp(L1-L2)に記憶されている対訳データ)と、
(2)他分野の第1言語データ(第1単言語データ記憶部DBm(L1)に記憶されている単言語データ)と、
(3)他分野の第2言語データ(第2単言語データ記憶部DBm(L2)に記憶されている単言語データ)と、
(4)適応先分野の第1言語データ(第3単言語データ記憶部DBm(R1)に記憶されている単言語データ)と、
(5)適応先分野の第2言語データ(第4単言語データ記憶部DBm(R2)に記憶されている単言語データ)と、
を用いて、言語横断言語モデル(XLM)(入力データ埋込部2(埋込層に相当)とXLM用ニューラルネットワークモデル31とにより実現されるモデル)を最適化する(事前学習処理による初期化)。そして、疑似対訳データ生成装置100では、言語横断言語モデル(XLM)の最適化処理後(事前学習処理後)の入力データ埋込部2(埋込層に相当)(XLMの最適化により取得されたパラメータ(例えば、変換行列Wtoken、Wpos、Wlangが設定されている状態の入力データ埋込部2))と、学習前の機械翻訳処理部5のMT用ニューラルネットワークモデル51とからなる疑似対訳データ生成用NMTモデルの状態を初期状態として、疑似対訳データ生成用NMTモデルのパラメータ最適化処理を行う。これにより、疑似対訳データ生成装置100では、適応先分野(機械翻訳の対象とする分野)の対訳データが一切ない場合であっても、適応先分野の第1言語および第2言語の疑似対訳データ(R1-R2)を生成できるモデル(学習済みモデル)を取得できる。
次に、翻訳モデルの学習処理(図5のステップS3)について説明する。
(1)微調整法:
機械翻訳装置MT1は、対訳データ記憶部DBp(L1-L2)から、他分野の対訳データD0’(L1-L2)を取得し、他分野の対訳データD0’(L1-L2)を用いて、機械翻訳装置MT1のNMTモデルの学習処理を行う。その後、機械翻訳装置MT1は、疑似対訳データ生成装置100により生成された適応先分野の疑似対訳データ(R1-R2の対訳データ)を疑似対訳データ格納部DB1から疑似対訳データDpsd2(R1-R2)として読み出し、読み出した適応先分野の疑似対訳データDpsd2(R1-R2)により、機械翻訳装置MT1のNMTモデルの学習処理(パラメータの微調整)を行う。
(2)データ混合法:
機械翻訳装置MT1は、対訳データ記憶部DBp(L1-L2)から、他分野の対訳データD0’(L1-L2)を取得するとともに、疑似対訳データ格納部DB1から、適応分野の疑似対訳データDpsd2(R1-R2)を取得する。そして、機械翻訳装置MT1は、他分野(L1-L2)の対訳データD0’(L1-L2)と適応先分野(R1-R2)の疑似対訳データDpsd2(R1-R2)とを混合したデータを生成し、生成した当該データにより、機械翻訳装置MT1のNMTモデルを学習させる。なお、他分野(L1-L2)の対訳データD0’(L1-L2)と適応先分野(R1-R2)の疑似対訳データDpsd2(R1-R2)とを混合する際に、2種類の対訳データをタグで区別するようにしてもよい。また、2種類の対訳データを混合する前に、一方または両方をオーバーサンプリングまたはアンダーサンプリングすることで対訳データの混合比を変更してもよい。
(3)データ混合微調整法:
機械翻訳装置MT1は、対訳データ記憶部DBp(L1-L2)から、他分野の対訳データD0’(L1-L2)を取得し、他分野の対訳データD0’(L1-L2)を用いて、機械翻訳装置MT1のNMTモデルの学習処理を行う。その後、機械翻訳装置MT1は、機械翻訳装置MT1のNMTモデルの学習処理に用いた対訳データと同じ対訳データD0’(L1-L2)と、適応先分野の疑似対訳データ(R1-R2)(疑似対訳データ格納部DB1から読み出した適応先分野の疑似対訳データDpsd2(R1-R2))とを混合したデータを生成する。そして、機械翻訳装置MT1は、生成したデータ(2種類の対訳データを混合したデータ)を用いて、機械翻訳装置MT1のNMTモデルの学習処理(パラメータの微調整)を行う。なお、他分野(L1-L2)の対訳データD0’(L1-L2)と適応先分野(R1-R2)の疑似対訳データDpsd2(R1-R2)とを混合する際に、2種類の対訳データをタグで区別するようにしてもよい。また、2種類の対訳データを混合する前に、一方または両方をオーバーサンプリングまたはアンダーサンプリングすることで対訳データの混合比を変更してもよい。
このように、機械翻訳システム1000では、適応先分野(対象分野)における対訳データが存在しない場合であっても、疑似対訳データ生成装置100により、適応先分野の疑似対訳データを生成することができ、また、疑似対訳データ生成装置100により生成された疑似対訳データを用いて、機械翻訳装置MT1のNMTモデルを学習させることができる。さらに、機械翻訳システム1000では、疑似対訳データ生成装置100により生成された疑似対訳データにより学習させたNMTモデルを用いて、機械翻訳処理を行うことで、適応先分野(対象分野)における対訳データが存在しない場合であっても、適応先分野における機械翻訳を精度良く行うことができる。
上記実施形態で説明した機械翻訳システム1000、疑似対訳データ生成装置100、機械翻訳装置MT1において、各ブロックは、LSIなどの半導体装置により個別に1チップ化されても良いし、一部または全部を含むように1チップ化されても良い。
100 疑似対訳データ生成装置
1 入力データ取得部
11 第1入力データ取得処理部
12 マスク化処理部
2 入力データ埋込部
21 トークン埋込部
22 位置埋込部
23 言語埋込部
3 XLM処理部
31 XLM用ニューラルネットワークモデル
5 機械翻訳処理部
51 MT用ニューラルネットワークモデル
8 フィルター処理部
MT1 機械翻訳装置
DBp(L1-L2) 対訳データ記憶部
DBm(L1) 第1単言語データ記憶部(他分野の単言語データ用(第1言語))
DBm(L2) 第2単言語データ記憶部(他分野の単言語データ用(第2言語))
DBm(R1) 第3単言語データ記憶部(適応先分野の単言語データ用(第1言語))
DBm(R2) 第4単言語データ記憶部(適応先分野の単言語データ用(第2言語))
DB1 疑似対訳データ格納部
Claims (6)
- パラメータを設定することで学習処理を行うことができ、入力データ埋込部と機械学習処理部とを含む疑似対訳データ生成用機械翻訳モデルの学習方法であって、
生成する疑似対訳データの対象とする分野である適応先分野以外の分野の第1言語のデータである他分野第1言語データと、当該他分野第1言語データの第2言語の翻訳データである他分野第2言語データとからなる対訳データを複数含む他分野対訳データ集合Dsetp(L1-L2)と、
前記適応先分野以外の分野の第1言語のデータを複数含む他分野単言語データ集合Dsetm(L1)と、
前記適応先分野以外の分野の第2言語のデータを複数含む他分野単言語データ集合Dsetm(L2)と、
前記適応先分野の第1言語のデータを複数含む適応先分野単言語データ集合Dsetm(R1)と、
前記適応先分野の第2言語のデータを複数含む適応先分野単言語データ集合Dsetm(R2)と、
を用いて、パラメータを設定することで学習処理を行うことができ、前記入力データ埋込部とXLM処理部とを含むXLMモデルに対して、
(A)前記他分野単言語データ集合Dsetm(L1)、前記他分野単言語データ集合Dsetm(L2)、前記適応先分野単言語データ集合Dsetm(R1)、および、前記適応先分野単言語データ集合Dsetm(R2)に含まれるデータである単言語用入力データの一部をマスクしたマスク化データを入力とし、前記単言語用入力データを正解データとし、当該正解データと前記XLMモデルの出力との損失が小さくなるように学習する処理であるマスク化処理による学習処理と、
(B)前記他分野対訳データ集合Dsetp(L1-L2)に含まれる対訳データの前記他分野第1言語データおよび前記他分野第2言語データのうちの一方のデータを入力とし、他方のデータを正解データとし、当該正解データと前記XLMモデルの出力との損失が小さくなるように学習する処理である教師ありデータによる学習処理と
を行うことで、前記XLMモデルの最適パラメータを取得し、前記最適パラメータが設定された前記XLMモデルの前記入力データ埋込部に設定されている最適パラメータを、前記疑似対訳データ生成用機械翻訳モデルの前記入力データ埋込部のパラメータの初期パラメータとして設定する初期化ステップと、
前記初期パラメータが設定されている状態の前記入力データ埋込部と、前記機械学習処理部とを含む前記疑似対訳データ生成用機械翻訳モデルに対して、
(1)正解データを入力データと同一にして前記疑似対訳データ生成用機械翻訳モデルの学習処理を行う自己符号化処理、
(2)入力データに対する前記疑似対訳データ生成用機械翻訳モデルの出力データを、再度、前記疑似対訳データ生成用機械翻訳モデルに入力し、その前記疑似対訳データ生成用機械翻訳モデルの出力が前記入力データと同一となるように前記疑似対訳データ生成用機械翻訳モデルの学習処理を行うゼロショット折り返し機械翻訳処理、
(3)他分野対訳データ集合Dsetp(L1-L2)に含まれる第1言語のデータおよび第2言語データのいずれか一方を前記疑似対訳データ生成用機械翻訳モデルの入力とし、他方を正解データとして、前記疑似対訳データ生成用機械翻訳モデルの学習処理を行う教師あり機械翻訳処理、
の少なくとも1つを用いて、学習処理を行うことで、前記疑似対訳データ生成用機械翻訳モデルの最適パラメータを取得する最適化ステップと、
を備え、
前記疑似対訳データ生成用機械翻訳モデルは、
制御信号により指定された種別のデータを出力することができ、前記制御信号により指定された、(1)前記他分野第1言語データ、(2)前記他分野第2言語データ、(3)前記適応先分野の第1言語のデータ、および、(4)前記適応先分野の第2言語のデータのいずれかを出力するように設定される、
疑似対訳データ生成用機械翻訳モデルの学習方法。 - 請求項1に記載の疑似対訳データ生成用機械翻訳モデルの学習方法により取得された疑似対訳データ生成用機械翻訳モデルを用いて、適応先分野の疑似対訳データを取得する疑似対訳データ取得方法であって、
前記他分野対訳データ集合Dsetp(L1-L2)から取得した第1言語のデータに対して、前記制御信号により前記疑似対訳データ生成用機械翻訳モデルの出力が前記適応先分野の第2言語のデータとなるように設定した前記疑似対訳データ生成用機械翻訳モデルを用いた機械翻訳処理を行うことで、前記他分野第1言語データの機械翻訳結果データである前記適応先分野の第2言語疑似翻訳データを取得する第1機械翻訳ステップと、
前記他分野対訳データ集合Dsetp(L1-L2)から取得した第2言語のデータに対して、前記制御信号により前記疑似対訳データ生成用機械翻訳モデルの出力が前記適応先分野の第1言語のデータとなるように設定した前記疑似対訳データ生成用機械翻訳モデルを用いた機械翻訳処理を行うことで、前記他分野第2言語データの機械翻訳結果データである前記適応先分野の第1言語疑似翻訳データを取得する第2機械翻訳ステップと、
前記第1機械翻訳ステップで取得された前記適応先分野の第2言語疑似翻訳データと、前記第2機械翻訳ステップで取得された前記適応先分野の第1言語疑似翻訳データと、を対応づけることで、前記適応先分野の疑似対訳データを取得する疑似対訳データ取得ステップと、
を備える疑似対訳データ取得方法。 - 請求項1に記載の疑似対訳データ生成用機械翻訳モデルの学習方法により取得された疑似対訳データ生成用機械翻訳モデルを用いて、適応先分野の疑似対訳データを取得する疑似対訳データ取得方法であって、
前記適応先分野単言語データ集合Dsetm(R1)から取得した第1言語のデータまたは前記適応先分野単言語データ集合Dsetm(R2)から取得した第2言語のデータに対して、前記制御信号により前記疑似対訳データ生成用機械翻訳モデルの出力が前記適応先分野の第2言語のデータまたは第1言語のデータとなるように設定した前記疑似対訳データ生成用機械翻訳モデルを用いた機械翻訳処理を行うことで、前記適応先分野の第1言語のデータの機械翻訳結果データである前記適応先分野の第2言語疑似翻訳データまたは前記適応先分野の第2言語のデータの機械翻訳結果データである前記適応先分野の第1言語疑似翻訳データを取得する単言語データ機械翻訳ステップと、
前記単言語データ機械翻訳ステップで、前記疑似対訳データ生成用機械翻訳モデルの入力とした前記適応先分野の第1言語のデータと、前記単言語データ機械翻訳ステップで取得された前記適応先分野の第2言語疑似翻訳データと、を対応づける、または、前記疑似対訳データ生成用機械翻訳モデルの入力とした前記適応先分野の第2言語のデータと、前記単言語データ機械翻訳ステップで取得された前記適応先分野の第1言語疑似翻訳データと、を対応づけることで、前記適応先分野の疑似対訳データを取得する疑似対訳データ取得ステップと、
を備える疑似対訳データ取得方法。 - 前記疑似対訳データ取得ステップが取得した前記適応先分野の疑似対訳データの各文対に対して、機械翻訳処理の結果の精度を示す信頼度を取得し、取得した前記信頼度が所定の値以上である文対を含む前記疑似対訳データのみを選択して出力するフィルター処理ステップをさらに備える、
請求項2または3に記載の疑似対訳データ取得方法。 - パラメータを設定することで学習処理を行うことができる機械翻訳モデルであって、適応先分野の第1言語のデータに対して機械翻訳を行い第2言語のデータを取得するための前記機械翻訳モデルの学習方法であって、
請求項2から4のいずれかに記載の疑似対訳データ取得方法により取得された適応先分野の疑似翻訳データと、
前記適応先分野以外の分野の第1言語のデータである他分野第1言語データと、当該他分野第1言語データの第2言語の翻訳データである他分野第2言語データとからなる対訳データを複数含む他分野対訳データ集合Dsetp(L1-L2)と、
を用いて、前記機械翻訳モデルに対して、
(A)前記他分野対訳データ集合Dsetp(L1-L2)に含まれる対訳データの前記他分野第1言語データを入力とし、前記他分野対訳データ集合Dsetp(L1-L2)に含まれる対訳データの前記他分野第2言語データを正解データとし、当該正解データと前記機械翻訳モデルの出力との損失が小さくなるようにする学習処理と、
(B)前記疑似翻訳データに含まれる前記適応先分野の第1言語のデータを入力とし、前記疑似翻訳データに含まれる前記適応先分野の第2言語のデータを正解データとし、当該正解データと前記機械翻訳モデルの出力との損失が小さくなるようにする学習処理と、
を行うことで、前記機械翻訳モデルの最適パラメータを取得し、当該最適パラメータを機械翻訳モデルに設定することで、学習済み機械翻訳モデルを取得する処理であるの学習処理を行う機械翻訳モデル学習ステップ、
を備える機械翻訳モデルの学習方法。 - 請求項1に記載の疑似対訳データ生成用機械翻訳モデルの学習方法により取得された学習済みの機械翻訳モデル、または、請求項5に記載の機械翻訳モデルの学習方法により取得された学習済みの機械翻訳モデルを用いて機械翻訳処理を行う機械翻訳装置。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020137323A JP7663171B2 (ja) | 2020-08-17 | 2020-08-17 | 疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法 |
| PCT/JP2021/029060 WO2022039031A1 (ja) | 2020-08-17 | 2021-08-05 | 疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法 |
| US18/017,938 US12493755B2 (en) | 2020-08-17 | 2021-08-05 | Method for training machine translation model for generating pseudo parallel translation data, method for obtaining pseudo parallel translation data, and method for training machine translation model |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020137323A JP7663171B2 (ja) | 2020-08-17 | 2020-08-17 | 疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022033437A JP2022033437A (ja) | 2022-03-02 |
| JP7663171B2 true JP7663171B2 (ja) | 2025-04-16 |
Family
ID=80322660
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020137323A Active JP7663171B2 (ja) | 2020-08-17 | 2020-08-17 | 疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US12493755B2 (ja) |
| JP (1) | JP7663171B2 (ja) |
| WO (1) | WO2022039031A1 (ja) |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2023282887A1 (en) * | 2021-07-06 | 2023-01-12 | Google Llc | Dataset refining with machine translation quality prediction |
| US12333264B1 (en) * | 2022-03-21 | 2025-06-17 | Amazon Technologies, Inc. | Fuzzy-match augmented machine translation |
| CN114822499B (zh) * | 2022-04-26 | 2024-11-01 | 北京有竹居网络技术有限公司 | 模型训练方法、语音到语音翻译方法、装置及介质 |
| US12333238B2 (en) * | 2022-05-26 | 2025-06-17 | At&T Mobility Ii Llc | Embedding texts into high dimensional vectors in natural language processing |
| US12493838B2 (en) | 2022-10-12 | 2025-12-09 | Sdl Limited | Translation decision assistant |
| US12346666B2 (en) * | 2022-11-09 | 2025-07-01 | Sdl Limited | Translation review suitability assessment |
| US20240403572A1 (en) * | 2023-04-28 | 2024-12-05 | Schlumberger Technology Corporation | Cross-lingual document analysis and translation system |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018116324A (ja) | 2017-01-16 | 2018-07-26 | 国立研究開発法人情報通信研究機構 | フレーズテーブル生成装置およびプログラム |
| JP2020112915A (ja) | 2019-01-09 | 2020-07-27 | 株式会社Nttドコモ | データ生成装置 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9026425B2 (en) * | 2012-08-28 | 2015-05-05 | Xerox Corporation | Lexical and phrasal feature domain adaptation in statistical machine translation |
| JP7170984B2 (ja) * | 2018-03-02 | 2022-11-15 | 国立研究開発法人情報通信研究機構 | 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法 |
-
2020
- 2020-08-17 JP JP2020137323A patent/JP7663171B2/ja active Active
-
2021
- 2021-08-05 WO PCT/JP2021/029060 patent/WO2022039031A1/ja not_active Ceased
- 2021-08-05 US US18/017,938 patent/US12493755B2/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018116324A (ja) | 2017-01-16 | 2018-07-26 | 国立研究開発法人情報通信研究機構 | フレーズテーブル生成装置およびプログラム |
| JP2020112915A (ja) | 2019-01-09 | 2020-07-27 | 株式会社Nttドコモ | データ生成装置 |
Non-Patent Citations (1)
| Title |
|---|
| 森田知熙 他2名,双方向ニューラル機械翻訳の反復的な教師なし適応の検討,言語処理学会第25回年次大会 発表論文集,言語処理学会,2019年03月04日,1451-1454頁 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022033437A (ja) | 2022-03-02 |
| US12493755B2 (en) | 2025-12-09 |
| WO2022039031A1 (ja) | 2022-02-24 |
| US20230274102A1 (en) | 2023-08-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7663171B2 (ja) | 疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法 | |
| US11610131B2 (en) | Ensembling of neural network models | |
| US11604956B2 (en) | Sequence-to-sequence prediction using a neural network model | |
| US20210390416A1 (en) | Variable parameter probability for machine-learning model generation and training | |
| JP7052866B2 (ja) | 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム | |
| JPWO2018051841A1 (ja) | モデル学習装置、その方法、及びプログラム | |
| WO2019167600A1 (ja) | 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法 | |
| KR102799590B1 (ko) | 분류 모델에 기반하여 바꿔 쓰기 모델을 학습하는 방법, 바꿔 쓰기 모델을 이용한 텍스트 데이터의 증강 방법 및 이를 이용한 텍스트 처리 장치 | |
| CN116992942B (zh) | 自然语言模型优化方法、装置、自然语言模型、设备和介质 | |
| WO2021038886A1 (ja) | 学習方法、学習プログラムおよび学習装置 | |
| CN117271792A (zh) | 一种基于大模型构建企业领域知识库的方法 | |
| CN111737417B (zh) | 修正自然语言生成结果的方法和装置 | |
| JP2023051724A (ja) | カスタマイズされたディープラーニングベースのテキスト修正のための方法及び装置 | |
| CN116486150A (zh) | 一种基于不确定性感知的图像分类模型回归误差消减方法 | |
| WO2023084833A1 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
| CN116013407B (zh) | 一种基于语言模型的性质解耦蛋白质生成方法 | |
| JP6705506B2 (ja) | 学習プログラム、情報処理装置および学習方法 | |
| WO2023235119A1 (en) | Efficient computer-implemented real-world testing of causal inference models | |
| US20220180197A1 (en) | Training method, storage medium, and training device | |
| JP7663174B2 (ja) | 疑似対データ生成方法、系列データ変換モデル取得方法、系列データ変換処理装置、および、プログラム | |
| Tagawa et al. | Relation prediction for unseen-entities using entity-word graphs | |
| CN116052649A (zh) | 低资源语音识别中的一种损失权重自适应元学习方法 | |
| KR102669806B1 (ko) | 수학 문제의 풀이를 보조하기 위한 방법 및 장치 | |
| JP2024067172A (ja) | サブワード取得処理装置、サブワード取得処理方法、および、プログラム | |
| JP7800665B2 (ja) | 学習装置、推定装置、それらの方法、およびプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230704 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240924 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241106 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250304 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250326 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7663171 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |








