JP7633438B2 - アテンションベースのシーケンス変換ニューラルネットワーク - Google Patents

アテンションベースのシーケンス変換ニューラルネットワーク Download PDF

Info

Publication number
JP7633438B2
JP7633438B2 JP2024005428A JP2024005428A JP7633438B2 JP 7633438 B2 JP7633438 B2 JP 7633438B2 JP 2024005428 A JP2024005428 A JP 2024005428A JP 2024005428 A JP2024005428 A JP 2024005428A JP 7633438 B2 JP7633438 B2 JP 7633438B2
Authority
JP
Japan
Prior art keywords
input
sequence
attention
output
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024005428A
Other languages
English (en)
Other versions
JP2024038420A (ja
Inventor
ノーム・エム・シャジール
エイダン・ニコラス・ゴメス
ルーカス・ミエチスラフ・カイザー
ジェイコブ・ディー・ウツコライト
リオン・オーウェン・ジョーンズ
ニキ・ジェイ・パーマー
イリア・ポロスキン
アシシュ・テク・ヴァスワニ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2024038420A publication Critical patent/JP2024038420A/ja
Priority to JP2025018368A priority Critical patent/JP7826531B2/ja
Application granted granted Critical
Publication of JP7633438B2 publication Critical patent/JP7633438B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Machine Translation (AREA)
  • Color Image Communication Systems (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

関連出願の相互参照
本出願は、2017年5月23日に出願した米国仮特許出願第62/510、256号明細書、および2017年8月4日に出願した米国仮特許出願第62/541、594号明細書の通常出願であり、その優先権を主張するものである。前述の出願の内容全体は、参照により本明細書に組み込まれる。
本明細書は、ニューラルネットワークを使用してシーケンスを変換することに関する。
ニューラルネットワークは、非線形ユニットの1つまたは複数のレイヤを採用して、受信された入力に対する出力を予測する機械学習モデルである。一部のニューラルネットワークは、出力レイヤに加えて、1つまたは複数の隠れレイヤを含む。各隠れレイヤの出力は、ネットワーク内の次のレイヤ、つまり次の隠れレイヤまたは出力レイヤへの入力として使用される。ネットワークの各レイヤは、パラメータのそれぞれのセットの現在値に従って受信された入力から出力を生成する。
本明細書は、入力順に複数位置の各々においてそれぞれの入力を含む入力シーケンスから出力順に複数位置の各々においてそれぞれの出力を含む出力シーケンスを生成する、つまり入力シーケンスを出力シーケンスに変換する、1つまたは複数の場所における1つまたは複数のコンピュータ上でコンピュータプログラムとして実施されるシステムについて説明する。特に、システムは、いずれもアテンションベースであるエンコーダニューラルネットワークおよびデコーダニューラルネットワークを使用して出力シーケンスを生成する。
本明細書において説明される主題の特定の実施態様は、以下の利点の1つまたは複数を実現するために実施されてもよい。
ニューラルネットワークを使用するシーケンス変換への多くの既存の手法は、エンコーダおよびデコーダにおいて再帰型ニューラルネットワークを使用する。これらの種類のネットワークは、シーケンス変換タスクで良好なパフォーマンスを達成することができるが、それらの計算は本質的に順次である、つまり再帰型ニューラルネットワークは、先行の時間ステップにおける再帰型ニューラルネットワークの隠れ状態に条件付けられた現在時間ステップにおいて出力を生成する。この順次の特性は、並列化を妨げ、その結果として長いトレーニングおよび推論時間と、それに応じて膨大量の計算リソースを利用するワークロードをもたらすことになる。
一方、説明されるシーケンス変換ニューラルネットワークのエンコーダおよびデコーダはアテンションベースであるため、シーケンス変換ニューラルネットワークは、シーケンスをより迅速に変換することが可能であり、より高速にトレーニングされることが可能であるか、またはネットワークの動作がさらに容易に並列化され得るのでその両方が可能となる。すなわち、説明されるシーケンス変換ニューラルネットワークが入力と出力の間のグローバル依存関係を引き出すためにアテンションメカニズムに全面的に依存し、いかなる再帰型ニューラルネットワークレイヤも採用しないので、再帰型ニューラルネットワークレイヤの順次の特性により引き起こされる長いトレーニングおよび推論時間ならびに高いリソース使用量に関連する問題が緩和される。
さらに、シーケンス変換ニューラルネットワークは、たとえトレーニングおよび推論時間が短いとしても、畳み込みレイヤまたは再帰型レイヤに基づく既存のネットワークよりもさらに正確に、シーケンスを変換することができる。特に、従来のモデルにおいて、2つの任意の入力または出力位置からの信号を関連付けるために必要とされる動作の数は、たとえばモデルアーキテクチャに線形または対数的に依存する、位置間の距離に伴って増大する。これは、トレーニング中に遠隔位置間の依存関係を学習することをさらに困難にする。現在説明されているシーケンス変換ニューラルネットワークにおいて、この動作の数は、再帰または畳み込みに依存することなく、アテンション(および、特に、セルフアテンション)の使用により、一定数の動作まで低減される。セルフアテンションは、場合によってはイントラアテンションと称されるが、シーケンスの表現を計算するために、単一のシーケンスの異なる位置を関係付けるアテンションメカニズムである。アテンションメカニズムの使用により、シーケンス変換ニューラルネットワークは、トレーニング中に遠隔位置間の依存関係を効果的に学習することができるようになり、たとえば機械翻訳のようなさまざまな変換タスクでのシーケンス変換ニューラルネットワークの精度を高めることができる。実際に、説明されるシーケンス変換ニューラルネットワークは、従来の機械翻訳ニューラルネットワークよりもトレーニングしやすく、迅速に出力を生成するにもかかわらず、機械翻訳タスクに最先端の結果を達成することができる。シーケンス変換ニューラルネットワークはまた、アテンションメカニズムの使用を通じてタスク固有の調整を行うことなく従来の機械翻訳ニューラルネットワークにまさる改善されたパフォーマンスを呈することもできる。
本明細書の主題の1つまたは複数の実施形態の詳細は、添付の図面および以下の説明に示される。主題のその他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかとなろう。
例示のニューラルネットワークシステムを示す図である。 エンコーダニューラルネットワークおよびデコーダニューラルネットワークのサブネットワークにおいてアテンションサブレイヤにより適用されるアテンションメカニズムを示す図である。 入力シーケンスから出力シーケンスを生成するための例示のプロセスを示す流れ図である。
さまざまな図面において類似する番号および記号表示は類似する要素を示す。
本明細書は、入力順に複数位置の各々においてそれぞれの入力を含む入力シーケンスから出力順に複数位置の各々においてそれぞれの出力を含む出力シーケンスを生成する、つまり入力シーケンスを出力シーケンスに変換する、1つまたは複数の場所における1つまたは複数のコンピュータ上にコンピュータプログラムとして実施されるシステムについて説明する。
たとえば、システムは、ニューラル機械翻訳システムであってもよい。すなわち、入力シーケンスがソース言語の単語のシーケンス、たとえば文または句である場合、出力シーケンスは、入力シーケンスのターゲット言語への変換、つまりソース言語の単語のシーケンスを表すターゲット言語の単語のシーケンスであってもよい。
もう1つの例として、システムは、音声認識システムであってもよい。すなわち、入力シーケンスが口頭の発話を表すオーディオデータのシーケンスである場合、出力シーケンスは、発話を表す、つまり入力シーケンスの翻音である、書記素、特徴、または単語のシーケンスであってもよい。
もう1つの例として、システムは、自然言語処理システムであってもよい。たとえば、入力シーケンスがソース言語の単語のシーケンス、たとえば文または句である場合、出力シーケンスは、ソース言語の入力シーケンスの要約、つまり入力シーケンスよりも少ない単語を有するが、入力シーケンスの本質的な意味を保持するシーケンスであってもよい。もう1つの例として、入力シーケンスが、質問を形成する単語のシーケンスである場合、出力シーケンスは、質問への回答を形成する単語のシーケンスであってもよい。
もう1つの例として、システムは、コンピュータ支援医療診断システムの一部であってもよい。たとえば、入力シーケンスは、電子医療記録からのデータのシーケンスであってもよく、出力シーケンスは、予測される治療のシーケンスであってもよい。
もう1つの例として、システムは、画像処理システムの一部であってもよい。たとえば、入力シーケンスは、画像、つまり画像からの明度のシーケンスであってもよく、出力は、画像を説明するテキストのシーケンスであってもよい。もう1つの例として、入力シーケンスは、テキストまたは異なるコンテキストのシーケンスであってもよく、出力シーケンスは、コンテキストを説明する画像であってもよい。
特に、ニューラルネットワークは、エンコーダニューラルネットワークおよびデコーダニューラルネットワークを含む。一般に、エンコーダおよびデコーダはいずれも、アテンションベースである、つまりいずれも、入力シーケンスを変換する間に、それぞれの受信入力にわたりアテンションメカニズムを適用する。場合によっては、エンコーダまたはデコーダのいずれも、畳み込みレイヤまたは再帰型レイヤを含まない。
図1は、例示のニューラルネットワークシステム100を示す。ニューラルネットワークシステム100は、以下に説明されるシステム、コンポーネント、および技法が実施され得る、1つまたは複数の場所において1つまたは複数のコンピュータ上でコンピュータプログラムとして実施されるシステムの例である。
ニューラルネットワークシステム100は、入力シーケンス102を受信し、入力シーケンス102を処理して、入力シーケンス102を出力シーケンス152に変換する。
入力シーケンス102は、入力順に複数の入力位置の各々においてそれぞれのネットワーク入力を有し、出力シーケンス152は、出力順に複数の出力位置の各々においてそれぞれのネットワーク出力を有する。すなわち、入力シーケンス102は、入力順に従って配列された複数の入力を有し、出力シーケンス152は、出力順に従って配置された複数の出力を有する。
上記で説明されているように、ニューラルネットワークシステム100は、順次出力を生成するために順次入力を処理する必要があるさまざまなタスクのいずれかを実行することができる。
ニューラルネットワークシステム100は、アテンションベースのシーケンス変換ニューラルネットワーク108を含み、このニューラルネットワーク108は、エンコーダニューラルネットワーク110およびデコーダニューラルネットワーク150を含む。
エンコーダニューラルネットワーク110は、入力シーケンス102を受信して、入力シーケンス内の各々のネットワーク入力のそれぞれエンコードされた表現を生成するように構成される。一般に、エンコードされた表現は、数値のベクトルまたはその他の順序付きコレクションである。
次いで、デコーダニューラルネットワーク150は、出力シーケンス152を生成するためにネットワーク入力のエンコードされた表現を使用するように構成される。
一般に、および以下でさらに詳細に説明されるように、エンコーダ110およびデコーダ150はいずれも、アテンションベースである。場合によっては、エンコーダまたはデコーダのいずれも、畳み込みレイヤまたは再帰型レイヤを含まない。
エンコーダニューラルネットワーク110は、埋め込みレイヤ120、および1つまたは複数のエンコーダサブネットワーク130のシーケンスを含む。特に、図1に示されるように、エンコーダニューラルネットワークは、N個のエンコーダサブネットワーク130を含む。
埋め込みレイヤ120は、入力シーケンス内の各ネットワーク入力について、ネットワーク入力を、埋め込みスペース内のネットワーク入力の数値表現に、たとえば埋め込みスペース内のベクトルに、マップするように構成される。次いで、埋め込みレイヤ120は、ネットワーク入力の数値表現を、エンコーダサブネットワーク130のシーケンス内の第1のサブネットワークに、つまりN個のエンコーダサブネットワーク130の第1のエンコーダサブネットワーク130に提供する。
特に、一部の実施態様において、埋め込みレイヤ120は、各ネットワーク入力を、ネットワーク入力の埋め込み表現にマップし、次いでネットワーク入力の埋め込み表現を、入力順にネットワーク入力の入力位置の位置埋め込みと結合、たとえば合計または平均して、ネットワーク入力の結合された埋め込み表現を生成するように構成される。すなわち、入力シーケンス内の各位置は、対応する埋め込みを有し、各ネットワーク入力について、埋め込みレイヤ120は、ネットワーク入力の埋め込み表現を、入力シーケンス内のネットワーク入力の位置の埋め込みと結合する。そのような位置埋め込みは、モデルが、再帰または畳み込みに依存することなく、入力シーケンスの順序を十分に活用できるようにすることができる。
場合によっては、位置埋め込みが学習される。本明細書において使用される、「学習される」という用語は、動作または値が、シーケンス変換ニューラルネットワーク108のトレーニング中に調整されていることを意味する。シーケンス変換ニューラルネットワーク108のトレーニングについては、図3を参照して以下で説明される。
場合によっては、位置埋め込みは、固定されており、各位置ごとに異なっている。たとえば、埋め込みは、さまざまな周波数の正弦関数および余弦関数で構成されてもよく、以下の式を満たすことができる。
ここで、posは位置であり、iは位置埋め込み内の次元であり、dmodelは、位置埋め込みの(およびニューラルネットワーク108により処理されるその他のベクトルの)次元数である。正弦関数の位置埋め込みの使用は、モデルが、より長いシーケンス長さに外挿できるようにし、それによりモデルが採用され得る用途の範囲を増大させることができる。
次いで、結合された埋め込み表現は、ネットワーク入力の数値表現として使用される。
エンコーダサブネットワーク130の各々は、複数の入力位置の各々についてそれぞれのエンコーダサブネットワーク入力を受信するように、および複数の入力位置の各々についてそれぞれのサブネットワーク出力を生成するように構成される。
次いで、シーケンス内の最後のエンコーダサブネットワークにより生成されたエンコーダサブネットワーク出力は、ネットワーク入力のエンコードされた表現として使用される。
シーケンス内の第1のエンコーダサブネットワークの場合、エンコーダサブネットワーク入力は、埋め込みレイヤ120により生成された数値表現であり、シーケンス内の第1のエンコーダサブネットワーク以外の各エンコーダサブネットワークの場合、エンコーダサブネットワーク入力は、シーケンス内の先行のエンコーダサブネットワークのエンコーダサブネットワーク出力である。
各エンコーダサブネットワーク130は、エンコーダセルフアテンションサブレイヤ132を含む。エンコーダセルフアテンションサブレイヤ132は、複数の入力位置の各々についてサブネットワーク入力を受信し、入力順に各特定の入力位置ごとに、特定の入力位置においてエンコーダサブネットワーク入力から導き出された1つまたは複数のクエリを使用して入力位置においてエンコーダサブネットワーク入力にわたりアテンションメカニズムを適用して、特定の入力位置のそれぞれの出力を生成するように構成される。場合によっては、アテンションメカニズムは、マルチヘッドアテンションメカニズムである。アテンションメカニズムについて、およびエンコーダセルフアテンションサブレイヤ132によってアテンションメカニズムがどのように適用されるかについては、図2を参照して以下でさらに詳細に説明される。
一部の実施態様において、エンコーダサブネットワーク130の各々はまた、エンコーダセルフアテンションサブレイヤの出力をエンコーダセルフアテンションサブレイヤへの入力と結合して、エンコーダセルフアテンション残余出力を生成する残余接続レイヤと、レイヤ正規化をエンコーダセルフアテンション残余出力に適用するレイヤ正規化レイヤとを含む。これらの2つのレイヤは、図1の「追加および正規化」動作として集合的に称される。
エンコーダサブネットワークの一部または全部はまた、それぞれ入力シーケンス内の各位置で動作するように構成される位置ごとのフィードフォワードレイヤ134を含むことができる。特に、各入力シーケンス位置について、フィードフォワードレイヤ134は、入力位置において入力を受信し、入力位置において入力に変換のシーケンスを適用して入力位置の出力を生成するように構成される。たとえば、変換のシーケンスは、活性化関数、たとえば非線形要素ごとの活性化関数、たとえば、大規模で複雑なデータベースへのより速く効果的なトレーニングを可能にすることができる、ReLU活性化関数、によって各々分割された2つ以上の学習された線形変換を含むことができる。位置ごとのフィードフォワードレイヤ134により受信された入力は、残余およびレイヤ正規化レイヤが含まれる場合、レイヤ正規化レイヤの出力であってもよいか、または残余およびレイヤ正規化レイヤが含まれない場合、エンコーダセルフアテンションサブレイヤ132の出力であってもよい。レイヤ134により適用された変換は、一般に、各入力位置に対して同じである(しかし、異なるサブネットワークの異なるフィードフォワードレイヤは異なる変換を適用する)。
エンコーダサブネットワーク130が、位置ごとのフィードフォワードレイヤ134を含む場合において、エンコーダサブネットワークはまた、位置ごとのフィードフォワードレイヤの出力を、位置ごとのフィードフォワードレイヤへの入力と結合して、エンコーダ位置ごとの残余出力を生成する残余接続レイヤと、レイヤ正規化をエンコーダ位置ごとの残余出力に適用するレイヤ正規化レイヤとを含むことができる。これらの2つのレイヤはまた、図1の「追加および正規化」動作として集合的に称される。次いで、このレイヤ正規化レイヤの出力は、エンコーダサブネットワーク130の出力として使用されてもよい。
エンコーダニューラルネットワーク110がエンコードされた表現を生成すると、デコーダニューラルネットワーク150は、自己回帰の方式で出力シーケンスを生成するように構成される。
すなわち、デコーダニューラルネットワーク150は、複数の生成時間ステップの各々において、(i)エンコードされた表現、および(ii)出力順に出力位置に先行する出力位置におけるネットワーク出力、に条件付けられた対応する出力位置のネットワーク出力を生成することにより、出力シーケンスを生成する。
特に、所与の出力位置について、デコーダニューラルネットワークは、所与の出力位置における可能なネットワーク出力にわたり確率分布を定義する出力を生成する。次いで、デコーダニューラルネットワークは、確率分布からサンプリングすることによるか、または最も高い確率を伴うネットワーク出力を選択することによって、出力位置のネットワーク出力を選択することができる。
デコーダニューラルネットワーク150は、自己回帰であるため、各生成時間ステップにおいて、デコーダ150は、生成時間ステップの前にすでに生成されているネットワーク出力、つまり出力順に対応する出力位置に先行する出力位置におけるネットワーク出力で動作する。一部の実施形態において、これが推理およびトレーニングの間にあてはまることを保証するため、各生成時間ステップにおいて、デコーダニューラルネットワーク150は、すでに生成されているネットワーク出力を1つの出力順序位置だけ右に移動させ(つまり、すでに生成されているネットワーク出力シーケンスに1つの位置オフセットを導入し)、(以下でさらに詳細に説明されるように)位置が出力シーケンス内のその位置までおよびその位置を含む位置(後続の位置ではなく)にのみ注意を払うことができるように特定の動作をマスクする。以下の説明の残りの部分は、所与の出力位置において所与の出力を生成するときに、デコーダ150のさまざまなコンポーネントが所与の出力位置に先行する出力位置におけるデータ上で(しかも任意のその他の出力位置におけるデータ上ではなく)動作することを説明するが、このタイプの条件付けが上記で説明される移動を使用して効果的に実施され得ることが理解されよう。
デコーダニューラルネットワーク150は、埋め込みレイヤ160、デコーダサブネットワーク170のシーケンス、線形レイヤ180、およびソフトマックスレイヤ190を含む。特に、図1に示されるように、デコーダニューラルネットワークは、N個のデコーダサブネットワーク170を含む。しかし、図1の例は、同じ数のサブネットワークを含むエンコーダ110およびデコーダ150を示すが、場合によっては、エンコーダ110およびデコーダ150は、異なる数のサブネットワークを含む。すなわち、デコーダ150は、エンコーダ110よりも多いかまたは少ないサブネットワークを含むことができる。
埋め込みレイヤ160は、各生成時間ステップにおいて、出力順に現在の出力位置に先行する出力位置における各ネットワーク出力について、ネットワーク出力を、埋め込みスペース内のネットワーク出力の数値表現にマップするように構成される。次いで、埋め込みレイヤ160は、ネットワーク出力の数値表現を、デコーダサブネットワークのシーケンス内の第1のサブネットワーク170に、つまりN個のデコーダサブネットワークの第1のデコーダサブネットワーク170に、提供する。
特に、一部の実施態様において、埋め込みレイヤ160は、各ネットワーク出力を、ネットワーク出力の埋め込み表現にマップして、ネットワーク出力の埋め込み表現を、出力順にネットワーク出力の出力位置の位置埋め込みと結合して、ネットワーク出力の結合された埋め込み表現を生成するように構成される。次いで、結合された埋め込み表現は、ネットワーク出力の数値表現として使用される。埋め込みレイヤ160は、埋め込みレイヤ120を参照して上記で説明されている方法と同じ方法で結合された埋め込み表現を生成する。
それぞれのデコーダサブネットワーク170は、各生成時間ステップにおいて、対応する出力位置に先行する複数の出力位置の各々についてそれぞれのデコーダサブネットワーク入力を受信し、対応する出力位置に先行する複数の出力位置の各々についてそれぞれのデコーダサブネットワーク出力を(または同等に、出力シーケンスが右に移動されている場合、現在の出力位置までおよびその位置を含む位置において各ネットワーク出力を)生成するように構成される。
特に、各デコーダサブネットワーク170は、デコーダセルフアテンションサブレイヤ172およびエンコーダ-デコーダアテンションサブレイヤ174という2つの異なるアテンションサブレイヤを含む。
各デコーダセルフアテンションサブレイヤ172は、各生成時間ステップにおいて、対応する出力位置に先行する各出力位置について入力を受信し、特定の出力位置の各々について、特定の出力位置において入力から導き出された1つまたは複数のクエリを使用して対応する位置に先行する出力位置において入力にわたりアテンションメカニズムを適用して、特定の出力位置の更新された表現を生成するように構成される。すなわち、デコーダセルフアテンションサブレイヤ172は、出力シーケンス内の現在の出力位置に先行する位置にはない任意のデータを注意または処理しないようにマスクされるアテンションメカニズムを適用する。
一方、各エンコーダ-デコーダアテンションサブレイヤ174は、各生成時間ステップにおいて、対応する出力位置に先行する各出力位置について入力を受信し、出力位置の各々について、出力位置の入力から導き出された1つまたは複数のクエリを使用して入力位置においてエンコードされた表現にわたりアテンションメカニズムを適用して出力位置の更新された表現を生成するように構成される。したがって、エンコーダ-デコーダアテンションサブレイヤ174は、エンコードされた表現にわたりアテンションを適用するが、エンコーダセルフアテンションサブレイヤ172は、出力位置において入力にわたりアテンションを適用する。
これらのアテンションサブレイヤの各々によって適用されるアテンションメカニズムについては、図2を参照して以下でさらに詳細に説明される。
図1において、デコーダセルフアテンションサブレイヤ172は、デコーダサブネットワーク170内の処理順でエンコーダ-デコーダアテンションサブレイヤの前にあるものとして示される。しかし、その他の例において、デコーダセルフアテンションサブレイヤ172は、デコーダサブネットワーク170内の処理順でエンコーダ-デコーダアテンションサブレイヤ174の後にあってもよいか、または異なるサブネットワークが異なる処理順序を有してもよい。
一部の実施態様において、各デコーダサブネットワーク170は、デコーダセルフアテンションサブレイヤ172の後、エンコーダ-デコーダアテンションサブレイヤ174の後、または2つのサブレイヤの各々の後に、アテンションサブレイヤの出力をアテンションサブレイヤへの入力と結合して残余出力を生成する残余接続レイヤと、レイヤ正規化を残余出力に適用するレイヤ正規化レイヤとを含む。図1は、2つのサブレイヤの各々の後に挿入される、いずれも「追加および正規化」動作と称される、これらの2つのレイヤを示す。
デコーダサブネットワーク170の一部または全部はまた、エンコーダ110から位置ごとのフィードフォワードレイヤ134と類似する方法で動作するように構成される位置ごとのフィードフォワードレイヤ176を含む。特に、レイヤ176は、各生成時間ステップにおいて、対応する出力位置に先行する各出力位置について、出力位置において入力を受信し、出力位置において入力に変換のシーケンスを適用して出力位置の出力を生成するように構成される。たとえば、変換のシーケンスは、活性化関数、たとえば非線形要素ごとの活性化関数、たとえば、ReLU活性化関数、によって各々分割された2つ以上の学習された線形変換を含むことができる。位置ごとのフィードフォワードレイヤ176により受信された入力は、残余およびレイヤ正規化レイヤが含まれる場合、(サブネットワーク170内の最後のアテンションサブレイヤに続く)レイヤ正規化レイヤの出力であってもよいか、または残余およびレイヤ正規化レイヤが含まれない場合、サブネットワーク170内の最後のアテンションサブレイヤの出力であってもよい。
デコーダサブネットワーク170が、位置ごとのフィードフォワードレイヤ176を含む場合において、デコーダサブネットワークはまた、位置ごとのフィードフォワードレイヤの出力を、位置ごとのフィードフォワードレイヤへの入力と結合してデコーダ位置ごとの残余出力を生成する残余接続レイヤと、レイヤ正規化をデコーダ位置ごとの残余出力に適用するレイヤ正規化レイヤとを含むことができる。これらの2つのレイヤはまた、図1の「追加および正規化」動作として集合的に称される。次いで、このレイヤ正規化レイヤの出力は、デコーダサブネットワーク170の出力として使用されてもよい。
各生成時間ステップにおいて、線形レイヤ180は、最後のデコーダサブネットワーク170の出力を、ソフトマックスレイヤ190による処理に適切なスペースに投影するために、学習された線形変換を最後のデコーダサブネットワーク170の出力に適用する。次いで、ソフトマックスレイヤ190は、線形レイヤ180の出力にわたりソフトマックス関数を適用して、生成時間ステップにおける可能なネットワーク出力にわたり確率分布を生成する。上記で説明されるように、デコーダ150は、次いで、確率分布を使用して可能なネットワーク出力からネットワーク出力を選択することができる。
図2は、エンコーダニューラルネットワーク110およびデコーダニューラルネットワーク150のサブネットワークにおいてアテンションサブレイヤにより適用されるアテンションメカニズムを示す図200である。
一般に、アテンションメカニズムは、クエリおよびキー値ペアのセットを出力にマップし、クエリ、キー、および値はすべてベクトルである。出力は、値の加重合計として計算され、ここで各値に割り当てられる重みは、対応するキーとのクエリの適合関数によって計算される。
さらに詳細には、各アテンションサブレイヤは、縮小付き内積アテンションメカニズム230を適用する。縮小付き内積アテンションにおいて、所与のクエリについて、アテンションサブレイヤは、キーのすべてとのクエリの内積を計算し、内積の各々を、倍率により、たとえばクエリとキーの次元の平方根により、除算して、縮小付き内積にわたりソフトマックス関数を適用して値への重みを取得する。次いで、アテンションサブレイヤは、これらの重みに従って値の加重合計を計算する。したがって、縮小付き内積アテンションの場合、適合関数は内積であり、適合関数の出力は、倍率によりさらに縮小される。
動作中、および図2の左側に示されるように、アテンションサブレイヤは、クエリのセットにわたり同時にアテンションを計算する。特に、アテンションサブレイヤは、クエリを行列Qにパックし、キーを行列Kにパックし、値を行列Vにパックする。ベクトルのセットを行列にパックするために、アテンションサブレイヤは、行列の行としてベクトルを含む行列を生成することができる。
次いで、アテンションサブレイヤは、行列Qと行列Kの転置の間に行列乗算(MatMul)を実行して、適合関数出力の行列を生成する。
次いで、アテンションサブレイヤは、適合関数出力行列を縮小する、つまり倍率により行列の各要素を除算する。
次いで、アテンションサブレイヤは、縮小付き出力行列にソフトマックスを適用して、重みの行列を生成し、重み行列と行列Vの間に行列乗算(MatMul)を実行して、値ごとのアテンションメカニズムの出力を含む出力行列を生成する。
マスキングを使用するサブレイヤ、つまりデコーダアテンションサブレイヤの場合、アテンションサブレイヤは、ソフトマックスを適用する前に縮小付き出力行列をマスクする。すなわち、アテンションサブレイヤは、現在の出力位置の後の位置に対応する縮小付き出力行列のすべての値を、マスクにより除外する(負の無限大にセットする)。
一部の実施態様において、アテンションサブレイヤが、さまざまな位置においてさまざまな表現サブスペースから情報に共同で注意できるようにするため、アテンションサブレイヤは、図2の右側に示されているマルチヘッドアテンションを採用する。
特に、マルチアヘッドアテンションを実施するため、アテンションサブレイヤは、hの異なるアテンションメカニズムを並行して適用する。言い換えれば、アテンションサブレイヤは、hの異なるアテンションレイヤを含み、同じアテンションサブレイヤ内の各々のアテンションレイヤが同じ元のクエリQ、元のキーK、および元の値Vを受信するようになっている。
各アテンションレイヤは、元のクエリ、キー、および値を、学習された線形変換を使用して変換して、アテンションメカニズム230を変換されたクエリ、キー、および値に適用するように構成される。各アテンションレイヤは、一般に、同じアテンションサブレイヤ内の相互のアテンションレイヤからさまざまな変換を学習する。
特に、各アテンションレイヤは、学習されたクエリ線形変換を各元のクエリに適用して、各元のクエリのレイヤ固有のクエリを生成し、学習されたキー線形変換を各元のキーに適用して、各元のクエリのレイヤ固有のキーを生成し、学習された値線形変換を各元の値に適用して、各元の値のレイヤ固有の値を生成するように構成される。次いで、アテンションレイヤは、これらのレイヤ固有のクエリ、キー、および値を使用して上記で説明されているアテンションメカニズムを適用して、アテンションレイヤの初期出力を生成する。
次いで、アテンションサブレイヤは、アテンションレイヤの初期出力を結合して、アテンションサブレイヤの最終出力を生成する。図2に示されるように、アテンションサブレイヤは、アテンションレイヤの出力を連結(concat)し、学習された線形変換を連結された出力に適用して、アテンションサブレイヤの出力を生成する。
場合によっては、アテンションサブレイヤによって適用された学習された変換は、元のキー、値、およびオプションとしてクエリの次元を減らす。たとえば、元のキー、値、およびクエリの次元がdであり、サブレイヤ内にhのアテンションレイヤがある場合、サブレイヤは、元のキー、値、およびクエリの次元をd/hまで減らすことがある。これは、マルチヘッドアテンションメカニズムの計算コストを、全次元数でアテンションメカニズムを1回実行するために要したであろう計算コストと同様に維持し、しかも同時に、アテンションサブレイヤの表現能力を増大させる。
各アテンションサブレイヤによって適用されるアテンションメカニズムは同じであるが、クエリ、キー、および値は、アテンションの異なるタイプに対して異なっている。すなわち、異なるタイプのアテンションサブレイヤは、アテンションサブレイヤによって入力として受信される元のクエリ、キー、および値に対して異なるソースを使用する。
特に、アテンションサブレイヤがエンコーダセルフアテンションサブレイヤである場合、キー、値、およびクエリのすべては、同じ場所、この場合はエンコーダ内の以前のサブネットワークの出力から生じるか、または第1のサブネットワーク内のエンコーダセルフアテンションサブレイヤに対して、エンコーダの入力および各位置の埋め込みは、入力順にすべての位置に注意することができる。したがって、入力順に各位置に対してそれぞれのキー、値、およびクエリがある。
アテンションサブレイヤがデコーダセルフアテンションサブレイヤである場合、デコーダ内の各位置は、その位置に先行するデコーダのすべての位置に注意する。したがって、キー、値、およびクエリのすべては、同じ場所、この場合はデコーダの以前のサブネットワークの出力から生じるか、または第1のデコーダサブネットワーク内のデコーダセルフアテンションサブレイヤについては、すでに生成された出力の埋め込みから、生じる。したがって、現在の位置の前に出力順に各位置に対してそれぞれのキー、値、およびクエリがある。
アテンションサブレイヤがエンコーダ-デコーダアテンションサブレイヤである場合、クエリはデコーダ内の以前のコンポーネントから生じ、キーおよび値はエンコーダの出力から、つまりエンコーダによって生成されたエンコードされた表現から生じる。これは、デコーダ内のあらゆる位置が、入力シーケンス内のすべての位置にわたり注意できるようにする。したがって、現在の位置の前に出力順に各位置に対してそれぞれのクエリがあり、入力順で各位置に対してそれぞれのキーおよびそれぞれの値がある。
さらに詳細には、アテンションサブレイヤがエンコーダセルフアテンションサブレイヤである場合、入力順に特定の入力位置ごとに、エンコーダセルフアテンションサブレイヤは、特定の入力位置においてエンコーダサブネットワーク入力から導き出された1つまたは複数のクエリを使用して入力位置においてエンコーダサブネットワーク入力にわたりアテンションメカニズムを適用して、特定の入力位置のそれぞれの出力を生成するように構成される。
エンコーダセルフアテンションサブレイヤがマルチヘッドアテンションを実施する場合、エンコーダセルフアテンションサブレイヤ内の各エンコーダセルフアテンションレイヤは、学習されたクエリ線形変換を各入力位置において各エンコーダサブネットワーク入力に適用して、各入力位置に対してそれぞれのクエリを生成し、学習されたキー線形変換を各入力位置において各エンコーダサブネットワーク入力に適用して、各入力位置に対してそれぞれのキーを生成し、学習された値線形変換を各入力位置において各エンコーダサブネットワーク入力に適用して、各入力位置に対してそれぞれの値を生成し、次いでクエリ、キー、および値を使用してアテンションメカニズム(つまり、上記で説明されている縮小付き内積アテンションメカニズム)を適用して、各入力位置に対する初期エンコーダセルフアテンション出力を決定するように構成される。次いで、サブレイヤは、上記で説明されているようにアテンションレイヤの初期出力を結合する。
アテンションサブレイヤがデコーダセルフアテンションサブレイヤである場合、デコーダセルフアテンションサブレイヤは、各生成時間ステップにおいて、対応する出力位置に先行する各出力位置について入力を受信し、特定の出力位置の各々について、特定の出力位置において入力から導き出された1つまたは複数のクエリを使用して対応する位置に先行する出力位置において入力にわたりアテンションメカニズムを適用して、特定の出力位置の更新された表現を生成するように構成される。
デコーダセルフアテンションサブレイヤがマルチヘッドアテンションを実施する場合、デコーダセルフアテンションサブレイヤ内の各アテンションレイヤは、各生成時間ステップにおいて、学習されたクエリ線形変換を対応する出力位置に先行する各出力位置において入力に適用して、各出力位置に対してそれぞれのクエリを生成し、学習されたキー線形変換を対応する出力位置に先行する各出力位置において各入力に適用して、各出力位置に対してそれぞれのキーを生成し、学習された値線形変換を対応する出力位置に先行する各出力位置において各入力に適用して、各出力位置に対してそれぞれのキーを生成し、次いでクエリ、キー、および値を使用してアテンションメカニズム(つまり、上記で説明されている縮小付き内積アテンションメカニズム)を適用して、各出力位置に対する初期デコーダセルフアテンション出力を決定するように構成される。次いで、サブレイヤは、上記で説明されているようにアテンションレイヤの初期出力を結合する。
アテンションサブレイヤがエンコーダ-デコーダアテンションサブレイヤである場合、エンコーダ-デコーダアテンションサブレイヤは、各生成時間ステップにおいて、対応する出力位置に先行する各出力位置について入力を受信し、出力位置の各々について、出力位置の入力から導き出された1つまたは複数のクエリを使用して入力位置においてエンコードされた表現にわたりアテンションメカニズムを適用して、出力位置に対する更新された表現を生成するように構成される。
エンコーダ-デコーダアテンションサブレイヤがマルチヘッドアテンションを実施する場合、各アテンションレイヤは、各生成時間ステップにおいて、学習されたクエリ線形変換を対応する出力位置に先行する各出力位置において入力に適用して、各出力位置に対してそれぞれのクエリを生成し、学習されたキー線形変換を各入力位置において各エンコードされた表現に適用して、各入力位置に対してそれぞれのキーを生成し、学習された値線形変換を各入力位置において各エンコードされた表現に適用して、各入力位置に対してそれぞれの値を生成し、次いでクエリ、キー、および値を使用してアテンションメカニズム(つまり、上記で説明されている縮小付き内積アテンションメカニズム)を適用して、各入力位置に対する初期エンコーダ-デコーダアテンション出力を決定するように構成される。次いで、サブレイヤは、上記で説明されているようにアテンションレイヤの初期出力を結合する。
図3は、入力シーケンスから出力シーケンスを生成するための例示のプロセスを示す流れ図である。便宜上、プロセス300は、1つまたは複数の場所に配置された1つまたは複数のコンピュータのシステムによって実行されるものとして説明される。たとえば、本明細書に従って適切にプログラムされた、ニューラルネットワークシステム、たとえば図1のニューラルネットワークシステム100は、プロセス300を実行することができる。
システムは、入力シーケンスを受信する(ステップ310)。
システムは、エンコーダニューラルネットワークを使用して入力シーケンスを処理して、入力シーケンス内の各々のネットワーク入力のそれぞれエンコードされた表現を生成する(ステップ320)。特に、システムは、埋め込みレイヤを通じて入力シーケンスを処理して、各ネットワーク入力の埋め込み表現を生成し、次いでエンコーダサブネットワークのシーケンスを通じて埋め込み表現を処理して、ネットワーク入力のエンコードされた表現を生成する。
システムは、デコーダニューラルネットワークを使用してエンコードされた表現を処理して、出力シーケンスを生成する(ステップ330)。デコーダニューラルネットワークは、自己回帰の方式でエンコードされた表現から出力シーケンスを生成するように構成される。すなわち、デコーダニューラルネットワークは、各生成時間ステップにおいて出力シーケンスから1つの出力を生成する。所与の出力が生成されている所与の生成時間ステップにおいて、システムは、デコーダの埋め込みレイヤを通じて出力シーケンス内の所与の出力の前の出力を処理して、埋め込み表現を生成する。次いで、システムは、デコーダサブネットワーク、線形レイヤ、およびソフトマックスレイヤのシーケンスを通じて埋め込み表現を処理して、所与の出力を生成する。デコーダサブネットワークはエンコーダ-デコーダアテンションサブレイヤおよびデコーダセルフアテンションサブレイヤを含むので、デコーダは、所与の出力を生成するときに、すでに生成されている出力とエンコードされた表現の両方を利用する。
システムは、所望の出力、つまり入力シーケンスに対してシステムにより生成されるべき出力シーケンスが不明である出力の入力シーケンスについてプロセス300を実行することができる。
システムはまた、エンコーダおよびデコーダのパラメータにトレーニングされた値を決定するようにエンコーダおよびデコーダをトレーニングするため、トレーニングデータのセット、つまりシステムにより生成されるべき出力シーケンスが知られている入力のセットの入力シーケンスにプロセス300を実行することができる。プロセス300は、たとえばAdamオプティマイザのような従来のオプティマイザを使用する逆伝搬トレーニング技法による勾配降下など、初期ニューラルネットワークレイヤをトレーニングするための従来の機械学習トレーニング技法の一部として、トレーニングデータのセットから選択された入力に繰り返し実行され得る。トレーニング中、システムは、トレーニングプロセスの速度、有効性、またはその両方を改善するため、任意の数の技法を組み入れることができる。たとえば、システムは、過剰適合を低減するために、ドロップアウト、ラベルスムージング、またはその両方を使用することができる。もう1つの例として、システムは、並行してシーケンス変換ニューラルネットワークの複数のインスタンスをトレーニングする分散型アーキテクチャを使用してトレーニングを実行することができる。
本明細書は、システムおよびコンピュータプログラムコンポーネントに関連して「構成される」という用語を使用する。1つまたは複数のコンピュータのシステムが特定の動作またはアクションを実行するように構成されるとは、システムが、作動中にシステムに動作またはアクションを実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせをインストールしていることを意味する。1つまたは複数のコンピュータプログラムが特定の動作またはアクションを実行するように構成されるとは、1つまたは複数のプログラムが、データ処理装置によって実行されるとき、装置に動作またはアクションを実行させる命令を含むことを意味する。
本明細書において説明される主題および機能動作の実施形態は、デジタル電子回路において、有形に具現されたコンピュータソフトウェアもしくはファームウェアにおいて、本明細書で開示される構造およびそれらの構造的等価物を含むコンピュータハードウェアにおいて、またはそれらの1つまたは複数の組み合わせにおいて実施されてもよい。本明細書において説明される主題の実施形態は、1つまたは複数のコンピュータプログラム、つまりデータ処理装置による実行のため、またはその動作を制御するために、有形の非一時的ストレージ媒体でエンコードされたコンピュータプログラム命令の1つまたは複数のモジュールとして実施されてもよい。コンピュータストレージ媒体は、機械可読ストレージデバイス、機械可読ストレージ基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらの1つまたは複数の組み合わせであってもよい。あるいは、または加えて、プログラム命令は、データ処理装置による実行のため適切な受信機装置へ送信する情報をエンコードするように生成される、人工的に生成された伝搬信号、たとえば機械生成の電気、光学、または電磁信号でエンコードされてもよい。
「データ処理装置」という用語は、データ処理ハードウェアを示し、一例としてプログラマブルプロセッサ、コンピュータ、または複数プロセッサもしくはコンピュータを含む、データを処理するためのあらゆる種類の装置、デバイス、および機械を包含する。装置はまた、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)のような、特殊用途論理回路であってもよいか、またはこれをさらに含むことができる。装置は、ハードウェアに加えて、コンピュータプログラムの実行環境を作るコード、たとえばプロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはこれらの1つまたは複数の組み合わせを構成するコードをオプションとして含むことができる。
プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードとして称されるかまたは説明されてもよい、そのようなコンピュータプログラムは、コンパイラ型もしくはインタープリタ型言語を含むプログラミング言語、または宣言型もしくはプロシージャ型言語の任意の形態で記述されてもよく、コンピュータプログラムは、スタンドアロンプログラムとして、またはモジュールとして、コンポーネント、サブルーチン、もしくはコンピューティング環境での使用に適したその他のユニットを含む任意の形態で配備されてもよい。プログラムは、ファイルシステムのファイルに対応することがあるが、それは必須ではない。プログラムは、その他のプログラムまたはデータを保持するファイルの一部に、たとえばマークアップ言語文書、当該のプログラムに専用の単一ファイル、もしくは、たとえば1つまたは複数のモジュール、サブプログラム、もしくはコードの部分を格納するファイルのような複数の協調ファイルに格納された1つまたは複数のスクリプトに格納されてもよい。コンピュータプログラムは、1つのサイトに位置する1つのコンピュータ上、または複数のサイトにわたり分散されてデータ通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように配備されてもよい。
本明細書において、「データベース」という用語は、データの任意のコレクションを示すように幅広く使用され、データは、特定の方法で構造化される必要はないか、または全く構造化される必要はなく、1つまたは複数の場所のストレージデバイスに格納されてもよい。したがって、たとえば、索引データベースは、各々が編成されて別々にアクセスされてもよいデータの複数のコレクションを含むことができる。
同様に、本明細書において、「エンジン」という用語は、ソフトウェアベースのシステム、サブシステム、または1つまたは複数の固有の機能を実行するようにプログラムされるプロセスを示すように幅広く使用される。一般に、エンジンは、1つまたは複数の場所の1つまたは複数のコンピュータにインストールされた1つまたは複数のソフトウェアモジュールまたはコンポーネントとして実施される。場合によっては、1つまたは複数のコンピュータは、特定のエンジンに専用であるか、また別の場合には、複数のエンジンが同一のコンピュータまたは複数コンピュータ上でインストールされて実行してもよい。
本明細書において説明されるプロセスおよび論理フローは、入力データを操作して出力を生成することによって機能を実行するように1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラマブルコンピュータによって実行されてもよい。処理および論理フローはまた、特殊用途論理回路、たとえばFPGAもしくはASICによって、または特殊用途論理回路と1つまたは複数のプログラムされたコンピュータの組み合わせによって実行されてもよい。
コンピュータプログラムの実行に適したコンピュータは、汎用もしくは特殊用途マイクロプロセッサ、またはその両方、または任意のその他の種類の中央演算処理装置に基づいてもよい。一般に、中央演算処理装置は、読取り専用メモリもしくはランダムアクセスメモリ、またはその両方から命令およびデータを受信する。コンピュータの重要な要素は、命令を実行または遂行するための中央演算処理装置、ならびに命令およびデータを格納するための1つまたは複数のメモリデバイスである。中央演算処理装置およびメモリは、特殊用途論理回路によって補足されるか、または特殊用途論理回路に組み入れられてもよい。一般に、コンピュータはまた、たとえば磁気、磁気光学ディスク、または光ディスクのような、データを格納するための1つまたは複数の大容量ストレージデバイスを含むか、または大容量ストレージデバイスとの間で、データの受信、もしくはデータの送信、またはその両方を行うように動作可能に結合される。しかし、コンピュータは、そのようなデバイスを有する必要はない。さらに、コンピュータは、別のデバイス、ほんの一例をあげると、たとえば携帯電話、携帯情報端末(PDA)、モバイルオーディオまたはビデオプレイヤー、ゲームコンソール、全地球測位システム(GPS)受信機、またはポータブルストレージデバイス、たとえばユニバーサルシリアルバス(USB)フラッシュドライブに組み入れられてもよい。
コンピュータプログラム命令およびデータを格納するために適したコンピュータ可読媒体は、一例として、たとえばEPROM、EEPROM、およびフラッシュメモリデバイスのような半導体メモリデバイス、たとえば内蔵ハードディスクまたは取り外し可能ディスクのような磁気ディスク、磁気光学ディスク、ならびにCD-ROMディスクおよびDVD-ROMディスクを含むすべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。
ユーザとの対話を提供するため、本明細書において説明される主題の実施形態は、情報をユーザに表示するためのディスプレイデバイス、たとえばCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ、ならびにユーザが入力をコンピュータに提供することができるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールを有するコンピュータで実施されてもよい。その他の種類のデバイスがユーザとの対話を提供するために使用されてもよく、たとえば、ユーザに提供されるフィードバックは任意の形態の感知フィードバック、たとえば視覚フィードバック、聴覚フィードバック、または触覚フィードバックであってもよく、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形態で受信されてもよい。加えて、コンピュータは、たとえばWebブラウザから受信された要求に応じてユーザのデバイス上のWebブラウザにWebページを送信することにより、ユーザによって使用されるデバイスとの間で文書を送信および受信することによって、ユーザと対話することができる。また、コンピュータは、たとえばメッセージングアプリケーションを実行しているスマートフォンのようなパーソネルデバイスにテキストメッセージまたはその他のフォームのメッセージを送信すること、および返信としてユーザから応答メッセージを受信することによって、ユーザと対話することができる。
機械学習モデルを実施するためのデータ処理装置はまた、たとえば、機械学習トレーニングまたは生産、つまり推論、ワークロードの共通および計算主体の部分を処理するための専用ハードウェアアクセラレータユニットを含むこともできる。
機械学習モデルは、機械学習フレームワーク、たとえば、TensorFlowフレームワーク、Microsoft Cognitive Toolkitフレームワーク、Apache Singaフレームワーク、またはAoache MXNetフレームワークを使用して実施および配備されてもよい。
本明細書において説明される主題の実施形態は、たとえばデータサーバとしてバックエンドコンポーネントを含むか、またはたとえばアプリケーションサーバのようなミドルウェアコンポーネントを含むか、またはたとえば本明細書において説明される主題の実施態様とユーザが対話することができるグラフィカルユーザインターフェイス、Webブラウザ、もしくはアプリケーションを有するクライアントコンピュータのようなフロントエンドコンポーネントを含むか、または1つまたは複数のそのようなバックエンド、ミドルウェア、もしくはフロントエンドのコンポーネントの任意の組み合わせを含む、コンピューティングシステムにおいて実施されてもよい。システムのコンポーネントは、たとえば通信ネットワークのような、デジタルデータ通信の任意の形態または媒体によって相互接続されてもよい。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、およびたとえばインターネットのようなワイドエリアネットワーク(WAN)を含む。
コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは一般に、相互に離れており、通常は通信ネットワークを通じて対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で稼働し、相互にクライアント-サーバの関係を有するコンピュータプログラムにより生じる。一部の実施形態において、サーバは、たとえばクライアントの機能を果たす、デバイスと対話するユーザにデータを表示し、ユーザからユーザ入力を受信する目的で、たとえばHTMLページのようなデータをユーザデバイスに送信する。ユーザデバイスにおいて生成されたデータ、たとえばユーザインタラクションの結果は、デバイスからサーバにおいて受信されてもよい。
本明細書は多くの固有の実施態様の詳細を含むが、これらは任意の発明または主張され得るものの範囲を限定するものとして解釈されるべきではなく、特定の発明の特定の実施形態に固有となり得る特徴の説明として解釈されるべきである。別個の実施形態のコンテキストで本明細書において説明される特定の特徴はまた、単一の実施形態において組み合わせて実施されてもよい。逆に、単一の実施形態のコンテキストで説明されるさまざまな特徴はまた、別個に、または任意の適切な部分的組み合わせで複数の実施形態において実施されてもよい。その上、特徴が特定の組み合わせにおいて動作するものと上記で説明され、そのようなものとして最初に主張されているとしても、主張される組み合わせからの1つまたは複数の特徴は、場合によっては組み合わせから削除されてもよく、主張される組み合わせは、部分的組み合わせまたは部分的組み合わせの変形に向けられてもよい。
同様に、動作は、特定の順序で図面に示され、特許請求の範囲に列挙されているが、これは、望ましい結果を達成するために、そのような動作が示されている特定の順序または順次に実行されること、またはすべての説明されている動作が実行されることを要求するものと理解されるべきではない。ある特定の状況において、マルチタスキングおよび並列処理が有益となり得る。その上、上記で説明される実施形態におけるさまざまなシステムモジュールおよびコンポーネントの分離は、すべての実施形態においてそのような分離を要求するものと理解されるべきではなく、説明されるプログラムコンポーネントおよびシステムが一般に単一のソフトウェア製品に一体化されるか、または複数のソフトウェア製品にパッケージングされてもよいことを理解されたい。
主題の特定の実施形態が説明された。その他の実施形態は、添付の特許請求の範囲に含まれる。たとえば、特許請求の範囲において列挙されるアクションは、異なる順序で実行され得るが、引き続き望ましい結果を達成する。一例として、添付の図面に示されるプロセスは、望ましい結果を達成するために、示されている特定の順序、または一連の順序を必ずしも要求するとは限らない。場合によっては、マルチタスキングおよび並列処理が有益となり得る。
100 ニューラルネットワークシステム
108 アテンションベースのシーケンス変換ニューラルネットワーク
110 エンコーダニューラルネットワーク
120 埋め込みレイヤ
130 エンコーダサブネットワーク
132 エンコーダセルフアテンションサブレイヤ
134 位置ごとのフィードフォワードレイヤ
150 デコーダニューラルネットワーク
152 出力シーケンス
160 埋め込みレイヤ
170 デコーダサブネットワーク
172 デコーダセルフアテンションサブレイヤ
174 エンコーダ-デコーダアテンションサブレイヤ
176 位置ごとのフィードフォワードレイヤ
180 線形レイヤ
190 ソフトマックスレイヤ
230 アテンションメカニズム

Claims (13)

1つまたは複数のコンピュータによって実行される、出力画像を生成するための方法であって、
コンテキスト入力を受信するステップと、
前記コンテキスト入力のエンコードされた表現のシーケンスを生成するステップと、
ニューラルネットワークを使用して前記コンテキスト入力のエンコードされた表現の前記シーケンスを処理して、前記出力画像を生成するステップであって、前記ニューラルネットワークが、
複数の生成時間ステップの各々において動作を実行するように構成されたエンコーダ-デコーダアテンションサブレイヤを備え、該動作が、
前記生成時間ステップにおいて前記出力画像の明度のそれぞれの入力表現を受信することと、
前記コンテキスト入力のエンコードされた表現の前記シーケンスを受信することと、
前記コンテキスト入力のエンコードされた表現の前記シーケンスにわたりエンコーダ-デコーダアテンションメカニズムを適用して、前記出力画像の前記明度の前記それぞれの入力表現を更新して、前記出力画像の前記明度の更新された表現を生成することと
を含む、方法。
前記コンテキスト入力は、テキストシーケンスを含む、請求項1に記載の方法。
前記コンテキスト入力のエンコードされた表現のシーケンスを生成するステップが、
エンコーダニューラルネットワークを使用して、エンコードされた表現の前記シーケンスを処理するステップを含む、請求項1に記載の方法。
前記エンコーダニューラルネットワークは、前記コンテキスト入力の複数の入力位置の各々についてエンコーダサブネットワーク入力を受信し、特定の入力位置ごとに、入力位置において前記エンコーダサブネットワーク入力にわたりアテンションメカニズムを適用して、前記特定の入力位置のそれぞれの出力を生成するように構成された、エンコーダセルフアテンションサブレイヤを含む、請求項3に記載の方法。
前記ニューラルネットワークは、
複数の生成時間ステップの各々において動作を実行するように構成されたデコーダアテンションサブレイヤを備え、該動作が、
前記生成時間ステップにおいて前記出力画像の前記明度のそれぞれの入力表現を受信することと、
前記明度の前記それぞれの入力表現にわたりデコーダアテンションメカニズムを適用して、前記出力画像の前記明度の前記それぞれの入力表現を更新して、前記出力画像の前記明度の更新された表現を生成することとをさらに含む、請求項1に記載の方法。
前記コンテキスト入力のエンコードされた表現の前記シーケンスにわたりエンコーダ-デコーダアテンションメカニズムを適用して、前記出力画像の前記明度の前記それぞれの入力表現を更新して、前記出力画像の前記明度の更新された表現を生成することは、1つまたは複数のアテンションヘッドのセットのアテンションヘッドごとに、
前記コンテキスト入力のエンコードされた表現の前記シーケンスからキーを生成することと、
前記コンテキスト入力のエンコードされた表現の前記シーケンスから値を生成することと、
前記明度の前記それぞれの入力表現からクエリを生成することと、
前記クエリ、キー、および値を使用して、初期の更新された表現を生成することとを含む、請求項1に記載の方法。
アテンションヘッドの前記セットは、複数のアテンションヘッドを含み、前記エンコーダ-デコーダアテンションメカニズムを適用することは、
前記セットの前記アテンションヘッドの前記初期の更新された表現を結合することをさらに含む、請求項6に記載の方法。
前記コンテキスト入力のエンコードされた表現の前記シーケンスからキーを生成することは、
前記コンテキスト入力のエンコードされた表現の前記シーケンスの各エンコードされた表現に学習されたキー変換を適用して、各エンコードされた表現のそれぞれのキーを生成することを含む、請求項6に記載の方法。
前記コンテキスト入力のエンコードされた表現の前記シーケンスから値を生成することとは、
前記コンテキスト入力のエンコードされた表現の前記シーケンスの各エンコードされた表現に学習された値変換を適用して、各エンコードされた表現のそれぞれの値を生成することを含む、請求項6に記載の方法。
前記明度の前記それぞれの入力表現は、表現のシーケンスを含み、前記明度の前記それぞれの入力表現からクエリを生成することは、表現の前記シーケンスの各表現に学習されたクエリ変換を適用して、各表現のそれぞれのクエリを生成することを含む、請求項6に記載の方法。
前記クエリ、キー、および値を使用して、初期の更新された表現を生成することは、
クエリごとに、前記クエリおよび前記キーから前記シーケンスの各エンコードされた表現についてそれぞれの重みを生成するとともに、前記それぞれの重みに従って前記値を結合することを含む、請求項6に記載の方法。
1つまたは複数のコンピュータによって実行されるとき、前記1つまたは複数のコンピュータに、請求項1~11のいずれか一項に記載の動作を実行させる命令を格納した1つまたは複数のコンピュータストレージ媒体。
1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータによって実行されるとき、前記1つまたは複数のコンピュータに、請求項1~11のいずれか一項に記載の動作を実行させる命令を格納した1つまたは複数のストレージデバイスとを備えるシステム。
JP2024005428A 2017-05-23 2024-01-17 アテンションベースのシーケンス変換ニューラルネットワーク Active JP7633438B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2025018368A JP7826531B2 (ja) 2017-05-23 2025-02-06 アテンションベースのシーケンス変換ニューラルネットワーク

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201762510256P 2017-05-23 2017-05-23
US62/510,256 2017-05-23
US201762541594P 2017-08-04 2017-08-04
US62/541,594 2017-08-04
JP2019538514A JP6884871B2 (ja) 2017-05-23 2018-05-23 アテンションベースのシーケンス変換ニューラルネットワーク
JP2021080995A JP7214783B2 (ja) 2017-05-23 2021-05-12 アテンションベースのシーケンス変換ニューラルネットワーク
JP2023006053A JP7423828B2 (ja) 2017-05-23 2023-01-18 アテンションベースのシーケンス変換ニューラルネットワーク

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2023006053A Division JP7423828B2 (ja) 2017-05-23 2023-01-18 アテンションベースのシーケンス変換ニューラルネットワーク

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2025018368A Division JP7826531B2 (ja) 2017-05-23 2025-02-06 アテンションベースのシーケンス変換ニューラルネットワーク

Publications (2)

Publication Number Publication Date
JP2024038420A JP2024038420A (ja) 2024-03-19
JP7633438B2 true JP7633438B2 (ja) 2025-02-19

Family

ID=62873574

Family Applications (6)

Application Number Title Priority Date Filing Date
JP2019538514A Active JP6884871B2 (ja) 2017-05-23 2018-05-23 アテンションベースのシーケンス変換ニューラルネットワーク
JP2021080995A Active JP7214783B2 (ja) 2017-05-23 2021-05-12 アテンションベースのシーケンス変換ニューラルネットワーク
JP2021080996A Active JP7214784B2 (ja) 2017-05-23 2021-05-12 アテンションベースのシーケンス変換ニューラルネットワーク
JP2023006053A Active JP7423828B2 (ja) 2017-05-23 2023-01-18 アテンションベースのシーケンス変換ニューラルネットワーク
JP2024005428A Active JP7633438B2 (ja) 2017-05-23 2024-01-17 アテンションベースのシーケンス変換ニューラルネットワーク
JP2025018368A Active JP7826531B2 (ja) 2017-05-23 2025-02-06 アテンションベースのシーケンス変換ニューラルネットワーク

Family Applications Before (4)

Application Number Title Priority Date Filing Date
JP2019538514A Active JP6884871B2 (ja) 2017-05-23 2018-05-23 アテンションベースのシーケンス変換ニューラルネットワーク
JP2021080995A Active JP7214783B2 (ja) 2017-05-23 2021-05-12 アテンションベースのシーケンス変換ニューラルネットワーク
JP2021080996A Active JP7214784B2 (ja) 2017-05-23 2021-05-12 アテンションベースのシーケンス変換ニューラルネットワーク
JP2023006053A Active JP7423828B2 (ja) 2017-05-23 2023-01-18 アテンションベースのシーケンス変換ニューラルネットワーク

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2025018368A Active JP7826531B2 (ja) 2017-05-23 2025-02-06 アテンションベースのシーケンス変換ニューラルネットワーク

Country Status (12)

Country Link
US (9) US10452978B2 (ja)
EP (7) EP4156034A1 (ja)
JP (6) JP6884871B2 (ja)
KR (5) KR102592677B1 (ja)
CN (1) CN110192206A (ja)
AU (5) AU2018271931B2 (ja)
BR (1) BR112019014822B1 (ja)
CA (3) CA3144674C (ja)
ES (1) ES2934313T3 (ja)
PL (1) PL3542316T3 (ja)
RU (2) RU2021116658A (ja)
WO (1) WO2018217948A1 (ja)

Families Citing this family (180)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10510018B2 (en) 2013-09-30 2019-12-17 Manyworlds, Inc. Method, system, and apparatus for selecting syntactical elements from information as a focus of attention and performing actions to reduce uncertainty
US12314834B1 (en) 2015-08-03 2025-05-27 Steven D. Flinn Iterative attention-based neural network training and processing
US20190272589A1 (en) 2016-09-15 2019-09-05 Erik M. Simpson Securitization of transportation units
US12493831B2 (en) 2016-09-15 2025-12-09 Circlesx Llc Market layer price queue map routing in transportation capacity and space
US11157852B2 (en) 2016-09-15 2021-10-26 Simpsx Technologies Llc Tool appliance community objects with price-time priority queues for transformed tool appliance units
US11861527B2 (en) 2018-11-07 2024-01-02 Circlesx Llc Financial swap payment structure method and system on transportation capacity unit assets
US20200151816A1 (en) 2016-09-15 2020-05-14 Erik M Simpson Transportation and freight capacity units
US12487095B2 (en) 2016-09-15 2025-12-02 Circlesx Llc Curb community objects with price-time priority queues for transformed curb capacity units
US11880883B2 (en) 2016-09-15 2024-01-23 Circlesx Llc Systems and methods for geolocation portfolio exchanges
US12517892B2 (en) 2017-04-10 2026-01-06 Circlesx Llc Systems, methods, and devices to map to a distributed ledger using a search term
US11138661B2 (en) 2016-09-15 2021-10-05 Simpsx Technologies Llc Agriculture community objects with price-time priority queues for transformed agriculture units
US12124976B2 (en) 2018-01-23 2024-10-22 Circlesx Llc Market exchange for transportation capacity in transportation vehicles
US12579588B2 (en) 2016-09-15 2026-03-17 Circlesx Llc Method and system utilizing one or more virtual power plant capacity units
US11790382B2 (en) 2016-09-15 2023-10-17 Circlesx Llc Method to transmit geolocation exchange based markets
WO2018057667A1 (en) 2016-09-20 2018-03-29 Paradromics, Inc. Systems and methods for detecting corrupt or inaccurate sensory representations
EP4156034A1 (en) 2017-05-23 2023-03-29 Google LLC Attention-based sequence transduction neural networks
US11205121B2 (en) * 2018-06-20 2021-12-21 Disney Enterprises, Inc. Efficient encoding and decoding sequences using variational autoencoders
US11138392B2 (en) 2018-07-26 2021-10-05 Google Llc Machine translation using neural network models
US11295739B2 (en) * 2018-08-23 2022-04-05 Google Llc Key phrase spotting
KR102744304B1 (ko) 2018-12-04 2024-12-18 삼성전자주식회사 뉴럴 네트워크를 구동하기 위한 메모리 공간을 할당하는 방법 및 장치
CN111401081B (zh) * 2018-12-14 2025-07-01 波音公司 神经网络机器翻译方法、模型及模型形成方法
CN109558605B (zh) * 2018-12-17 2022-06-10 北京百度网讯科技有限公司 用于翻译语句的方法和装置
KR102699828B1 (ko) * 2018-12-18 2024-08-29 삼성전자주식회사 어텐션 모델과 하이퍼네트워크를 이용한 기계 번역 방법 및 장치
CN109740169B (zh) * 2019-01-09 2020-10-13 北京邮电大学 一种基于词典和seq2seq预训练机制的中医古籍翻译方法
SG11202107620QA (en) * 2019-01-17 2021-08-30 Visa Int Service Ass A deep learning model for learning program embeddings
WO2020154538A1 (en) * 2019-01-23 2020-07-30 Google Llc Generating neural network outputs using insertion operations
EP3690752A1 (en) * 2019-01-31 2020-08-05 Avatar Cognition Barcelona, SL Fractal cognitive computing node and computer-implemented method for learning procedures
CN109919358B (zh) * 2019-01-31 2021-03-02 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
KR102254300B1 (ko) * 2019-04-19 2021-05-21 한국과학기술원 토론 상황 시 발화된 주장에 대한 근거 문장 제공 엔진
CN110083770B (zh) * 2019-04-29 2023-01-13 苏州市职业大学 一种基于特征层面更深的自注意力网络的序列推荐方法
CN112037776A (zh) * 2019-05-16 2020-12-04 武汉Tcl集团工业研究院有限公司 一种语音识别方法、语音识别装置及终端设备
WO2020237188A1 (en) * 2019-05-23 2020-11-26 Google Llc Fully attentional computer vision
US11657277B2 (en) 2019-05-23 2023-05-23 Google Llc Generating neural network outputs using insertion commands
CN110175338B (zh) * 2019-05-31 2023-09-26 北京金山数字娱乐科技有限公司 一种数据处理方法及装置
US11908457B2 (en) * 2019-07-03 2024-02-20 Qualcomm Incorporated Orthogonally constrained multi-head attention for speech tasks
CN110321961A (zh) * 2019-07-09 2019-10-11 北京金山数字娱乐科技有限公司 一种数据处理方法及装置
JP7290507B2 (ja) * 2019-08-06 2023-06-13 本田技研工業株式会社 情報処理装置、情報処理方法、認識モデルならびにプログラム
US11600067B2 (en) * 2019-09-12 2023-03-07 Nec Corporation Action recognition with high-order interaction through spatial-temporal object tracking
WO2021058663A1 (en) 2019-09-25 2021-04-01 Deepmind Technologies Limited Augmenting attention-based neural networks to selectively attend to past inputs
US11663444B2 (en) 2019-09-27 2023-05-30 Microsoft Technology Licensing, Llc Pipelined neural network processing with continuous and asynchronous updates
KR20210043995A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 모델 학습 방법 및 장치, 및 시퀀스 인식 방법
KR20210044056A (ko) 2019-10-14 2021-04-22 삼성전자주식회사 중복 토큰 임베딩을 이용한 자연어 처리 방법 및 장치
CN110737764B (zh) * 2019-10-24 2023-07-07 西北工业大学 一种个性化对话内容生成方法
CN112751686B (zh) * 2019-10-29 2022-10-18 中国移动通信集团浙江有限公司 局数据脚本生成方法、装置、计算设备及计算机存储介质
US11246173B2 (en) 2019-11-08 2022-02-08 Huawei Technologies Co. Ltd. Systems and methods for multi-user pairing in wireless communication networks
KR102430918B1 (ko) * 2019-11-15 2022-08-10 고려대학교 산학협력단 한국어 맞춤법 교정장치 및 방법
US20210150349A1 (en) * 2019-11-15 2021-05-20 Waymo Llc Multi object tracking using memory attention
US11455656B2 (en) * 2019-11-18 2022-09-27 Walmart Apollo, Llc Methods and apparatus for electronically providing item advertisement recommendations
US11392984B2 (en) 2019-11-20 2022-07-19 Walmart Apollo, Llc Methods and apparatus for automatically providing item advertisement recommendations
KR102439165B1 (ko) * 2019-11-26 2022-09-01 한국과학기술원 상식 지식과 언어학적 패턴을 이용한 서술문 신뢰도 평가 시스템 및 그 방법
KR102556096B1 (ko) 2019-11-29 2023-07-18 한국전자통신연구원 이전 프레임의 정보를 사용한 오디오 신호 부호화/복호화 장치 및 방법
CN111222343B (zh) * 2019-12-06 2023-12-29 深圳市优必选科技股份有限公司 一种意图识别方法和意图识别装置
KR102785402B1 (ko) * 2019-12-06 2025-03-21 삼성전자주식회사 뉴럴 네트워크의 행렬 곱셈 연산을 수행하는 장치 및 방법
KR102436900B1 (ko) * 2019-12-12 2022-08-26 서울대학교산학협력단 양방향 언어 모델을 이용한 문장 평가 방법 및 장치
CN111079450B (zh) * 2019-12-20 2021-01-22 北京百度网讯科技有限公司 基于顺句驱动的语言转换方法和装置
CN111078825A (zh) 2019-12-20 2020-04-28 北京百度网讯科技有限公司 结构化处理方法、装置、计算机设备及介质
CN111222562B (zh) * 2020-01-02 2022-04-08 南京邮电大学 基于空间自注意力机制的目标检测方法
EP4073666A1 (en) 2020-01-14 2022-10-19 Google LLC Method and system for activity prediction, prefetching and preloading of computer assets by a client-device
US12131243B2 (en) * 2020-02-07 2024-10-29 Deepmind Technologies Limited Autoregressive neural networks for the generation of polygonal meshes of 3D objects
US12346793B2 (en) * 2020-02-07 2025-07-01 Google Llc Sorting attention neural networks
US12254411B2 (en) * 2020-02-12 2025-03-18 Google Llc Attention neural networks with linear units
US11386885B2 (en) 2020-02-17 2022-07-12 Wipro Limited Method and system for detecting intent as an ordered sequence from a user query
US20210279576A1 (en) * 2020-03-03 2021-09-09 Google Llc Attention neural networks with talking heads attention
CN111427932B (zh) * 2020-04-02 2022-10-04 南方科技大学 出行预测方法、装置、设备和存储介质
CN113627135B (zh) * 2020-05-08 2023-09-29 百度在线网络技术(北京)有限公司 一种招聘岗位描述文本的生成方法、装置、设备及介质
US10909461B1 (en) * 2020-05-08 2021-02-02 Google Llc Attention neural networks with locality-sensitive hashing
CN113627199B (zh) * 2020-05-09 2025-10-17 阿里巴巴集团控股有限公司 一种机器翻译方法及其装置
US11806631B2 (en) * 2020-05-11 2023-11-07 Rovi Guides, Inc. Gaming content recommendation for a video game
KR20210145490A (ko) 2020-05-25 2021-12-02 삼성전자주식회사 어텐션 기반 시퀀스 투 시퀀스 모델의 성능 향상 방법 및 장치
US12423575B2 (en) 2020-05-29 2025-09-23 Samsung Electronics Co., Ltd. Method and apparatus for training retrosynthesis prediction model
CN111859927B (zh) * 2020-06-01 2024-03-15 北京先声智能科技有限公司 一种基于注意力共享Transformer的语法改错模型
US20210390410A1 (en) * 2020-06-12 2021-12-16 Google Llc Local self-attention computer vision neural networks
CN111460126B (zh) * 2020-06-12 2020-09-25 支付宝(杭州)信息技术有限公司 一种用于人机对话系统的回复生成方法、装置及电子设备
WO2022006329A1 (en) * 2020-06-30 2022-01-06 Google Llc Attention neural networks with conditional computation
US12541292B2 (en) 2020-07-15 2026-02-03 Circlesx Llc User device utilizing one or more multidimensional object databases
JP7357291B2 (ja) * 2020-07-16 2023-10-06 日本電信電話株式会社 翻訳装置、翻訳方法及びプログラム
CN111652357B (zh) * 2020-08-10 2021-01-15 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN112016245A (zh) * 2020-08-13 2020-12-01 五邑大学 基于自注意力变形网络的磁暴预测方法、装置及存储介质
US11983619B2 (en) * 2020-08-14 2024-05-14 Micron Technology, Inc. Transformer neural network in memory
US20220058489A1 (en) * 2020-08-19 2022-02-24 The Toronto-Dominion Bank Two-headed attention fused autoencoder for context-aware recommendation
JP7536574B2 (ja) * 2020-09-16 2024-08-20 キオクシア株式会社 演算デバイス、計算機システム、及び演算方法
EP4154185A2 (en) * 2020-09-16 2023-03-29 Google LLC Modeling dependencies with global self-attention neural networks
US12125247B2 (en) * 2020-10-02 2024-10-22 Google Llc Processing images using self-attention based neural networks
JP7618201B2 (ja) 2020-10-20 2025-01-21 国立研究開発法人情報通信研究機構 回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム
CN112347104B (zh) * 2020-11-06 2023-09-29 中国人民大学 一种基于深度强化学习的列存储布局优化方法
US11270124B1 (en) * 2020-11-16 2022-03-08 Branded Entertainment Network, Inc. Temporal bottleneck attention architecture for video action recognition
CN112580822B (zh) * 2020-12-16 2023-10-17 北京百度网讯科技有限公司 机器学习模型的对抗训练方法装置、电子设备和介质
CN112580361A (zh) * 2020-12-18 2021-03-30 蓝舰信息科技南京有限公司 基于统一注意力机制的公式及文字识别模型方法
CN112508625B (zh) * 2020-12-18 2022-10-21 国网河南省电力公司经济技术研究院 基于多分枝残差注意力网络的智能稽查建模方法
KR102747605B1 (ko) * 2020-12-31 2024-12-27 팽현석 이미지 생성 방법 및 장치
US11741967B2 (en) 2021-01-04 2023-08-29 Kwai Inc. Systems and methods for automatic speech recognition based on graphics processing units
EP4030355A1 (en) 2021-01-14 2022-07-20 Naver Corporation Neural reasoning path retrieval for multi-hop text comprehension
KR102628947B1 (ko) * 2021-02-02 2024-01-23 숙명여자대학교산학협력단 반응 데이터를 예측하는 시스템 및 그 제어방법
EP4260237A2 (en) * 2021-02-05 2023-10-18 DeepMind Technologies Limited Attention neural networks with short-term memory units
WO2022167518A2 (en) * 2021-02-05 2022-08-11 Deepmind Technologies Limited Generating neural network outputs by enriching latent embeddings using self-attention and cross-attention operations
US11755973B2 (en) * 2021-02-12 2023-09-12 Accenture Global Solutions Limited System and method for intelligent contract guidance
US20220284267A1 (en) * 2021-03-05 2022-09-08 Qualcomm Incorporated Architectures for temporal processing associated with wireless transmission of encoded data
CN112966626B (zh) * 2021-03-16 2024-10-29 三星(中国)半导体有限公司 人脸识别方法和装置
US12494083B2 (en) 2021-03-16 2025-12-09 Samsung Electronics Co., Ltd. Method and apparatus with face recognition
KR20220130450A (ko) 2021-03-18 2022-09-27 삼성전자주식회사 음성 인식을 위한 인공 신경망에서의 디코딩 방법 및 디코딩 장치
US12462794B2 (en) 2021-03-25 2025-11-04 Beijing Transtreams Technology Co. Ltd. Methods and devices for structured pruning for automatic speech recognition
US12002453B2 (en) 2021-03-25 2024-06-04 Beijing Transtreams Technology Co. Ltd. Methods and devices for irregular pruning for automatic speech recognition
CN117157635A (zh) 2021-04-14 2023-12-01 三菱电机株式会社 学习装置、推理装置、程序、学习方法和推理方法
CN113095431B (zh) * 2021-04-27 2023-08-18 中山大学 一种基于注意力机制的图像描述方法、系统及装置
US20220367052A1 (en) * 2021-05-14 2022-11-17 Google Llc Neural networks with feedforward spatial transformation units
KR102589164B1 (ko) * 2021-05-25 2023-10-13 한국과학기술원 협업 작업에서 시간적 관계를 활용한 트랜스포머 기반 활동 예측 방법
WO2022250063A1 (ja) 2021-05-26 2022-12-01 キヤノン株式会社 顔認証を行う画像処理装置および画像処理方法
US12373688B2 (en) 2021-05-28 2025-07-29 Google Llc Granular neural network architecture search over low-level primitives
US20240232580A1 (en) * 2021-05-28 2024-07-11 Deepmind Technologies Limited Generating neural network outputs by cross attention of query embeddings over a set of latent embeddings
CN113393025A (zh) * 2021-06-07 2021-09-14 浙江大学 一种基于Informer模型编码结构的非侵入式负荷分解方法
EP4102405A1 (en) 2021-06-10 2022-12-14 Naver Corporation Demonstration-conditioned reinforcement learning for few-shot imitation
CN113705323B (zh) * 2021-06-15 2022-09-09 腾讯医疗健康(深圳)有限公司 图像识别方法、装置、设备以及存储介质
US12354402B2 (en) * 2021-06-16 2025-07-08 Sony Group Corporation Landmark detection using deep neural network with multi-frequency self-attention
US11669331B2 (en) * 2021-06-17 2023-06-06 International Business Machines Corporation Neural network processing assist instruction
US20220402122A1 (en) * 2021-06-18 2022-12-22 Naver Labs Corporation Robotic demonstration retrieval systems and methods
US20230028226A1 (en) * 2021-07-15 2023-01-26 Samsung Electronics Co., Ltd. Method for sparsification of feature maps in self-attention mechanisms
CN113379164B (zh) * 2021-07-16 2024-03-26 国网江苏省电力有限公司苏州供电分公司 基于深度自注意力网络的负荷预测方法及系统
KR20230022005A (ko) * 2021-08-06 2023-02-14 주식회사 제이엘케이바이오 화합물 정보 추출을 위한 장치 및 방법
KR102388599B1 (ko) * 2021-08-24 2022-04-21 (주)제로엑스플로우 텍스트 및 이미지를 활용한 문장 교정 장치 및 방법
CN113688640B (zh) * 2021-08-30 2023-01-20 深译信息科技(珠海)有限公司 一种用于医学文档翻译的神经网络机器翻译方法
US12524630B2 (en) 2021-08-31 2026-01-13 Naver Corporation Adversarial generation method for training a neural model
US20230082485A1 (en) * 2021-09-10 2023-03-16 Optum, Inc. Machine learning techniques for denoising input sequences
KR102793723B1 (ko) * 2021-10-08 2025-04-09 네이버 주식회사 세분성 자각 어텐션 기반의 신경망
US20250104717A9 (en) * 2021-10-27 2025-03-27 Mitsubishi Electric Research Laboratories, Inc. End-to-End Speech Recognition Adapted for Multi-Speaker Applications
CN114021736B (zh) * 2021-11-01 2025-07-18 上海交通大学 基于双层索引嵌入层的推荐模型分布式训练方法及gpu
KR102610431B1 (ko) * 2021-11-04 2023-12-06 연세대학교 산학협력단 인공지능 분석 기반 프로그램 소스코드의 요약문 생성 장치 및 방법
KR20230069607A (ko) 2021-11-12 2023-05-19 삼성전자주식회사 셀프 어텐션 기반의 영상 인식 방법 및 장치
KR20230073630A (ko) * 2021-11-19 2023-05-26 주식회사 제이엘케이바이오 화합물 최적화를 위한 장치 및 방법
KR102479817B1 (ko) * 2021-11-25 2022-12-21 인하대학교 산학협력단 소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법
KR102405828B1 (ko) * 2021-12-03 2022-06-07 주식회사 대교씨엔에스 가우시안 혼합 모델을 이용한 클러스터링과 인공지능을 동시에 활용한 학습량 추천 방법 및 장치
KR102405832B1 (ko) * 2021-12-03 2022-06-07 주식회사 대교씨엔에스 통계적 분석과 딥러닝 기반의 인공지능을 동시에 활용한 학습량 추천 방법 및 장치
KR102475316B1 (ko) * 2021-12-03 2022-12-08 (주)대교씨엔에스 복수의 은닉층들로 구성되는 딥러닝 기반의 인공지능을 이용한 학습량 추천 방법 및 장치
CN114529234A (zh) * 2022-01-18 2022-05-24 北京旷视机器人技术有限公司 出库排序方法、电子设备和计算机可读介质
US20250173821A1 (en) 2022-03-23 2025-05-29 Google Llc Multi-resolution Transformer for Video Quality Assessment
US12147776B2 (en) * 2022-04-11 2024-11-19 AtomLeap GmbH Method for extracting information from an unstructured data source
US20250218109A1 (en) 2022-04-27 2025-07-03 Google Llc Rendering Videos with Novel Views from Near-Duplicate Photos
WO2023211446A1 (en) * 2022-04-28 2023-11-02 Google Llc Modeling ambiguity in neural machine translation
WO2023219275A1 (ko) * 2022-05-09 2023-11-16 삼성전자 주식회사 영상 처리 장치 및 그 동작 방법
EP4468232A4 (en) 2022-05-09 2025-04-09 Samsung Electronics Co., Ltd Image processing device and method for operating same
US12137073B2 (en) 2022-05-16 2024-11-05 Google Llc Email summary and completion check
CN114758032B (zh) * 2022-06-15 2022-09-16 之江实验室 基于时空注意力模型的多相期ct图像分类系统及构建方法
US20240020477A1 (en) * 2022-07-13 2024-01-18 Samsung Electronics Co., Ltd. System and method for using residual transformers in natural language processing
KR20240014374A (ko) 2022-07-25 2024-02-01 삼성전자주식회사 트랜스포머 모델을 경량화하는 컴퓨터 시스템 및 그것의 양자화 학습 방법
JP2024032167A (ja) 2022-08-29 2024-03-12 キヤノン株式会社 画像処理装置、画像処理方法及びコンピュータプログラム
KR102573643B1 (ko) 2022-11-14 2023-09-01 주식회사 마키나락스 인공지능 기반 제어 시뮬레이션 방법
CN115760863A (zh) * 2022-11-15 2023-03-07 济南大学 一种适用于水培根茎类禾草根系的图像分割分析方法
US12304512B2 (en) 2022-11-21 2025-05-20 GM Global Technology Operations LLC Detecting and resolving information contradictions for a vehicle
US20240169715A1 (en) * 2022-11-23 2024-05-23 Google Llc Training large-scale vision transformer neural networks with variable patch sizes
US12333835B2 (en) * 2022-11-29 2025-06-17 Bloomberg L.P. Method and apparatus for document analysis and outcome determination
WO2024123310A1 (en) 2022-12-06 2024-06-13 Google Llc Universal sound event detector using multi-layered conditioning
KR102865156B1 (ko) * 2022-12-19 2025-09-29 한국전자통신연구원 인공지능 연산 시스템 및 방법
WO2024156887A1 (en) * 2023-01-26 2024-08-02 Deepmind Technologies Limited Neural networks with intention layers
KR102539679B1 (ko) * 2023-02-01 2023-06-02 (주)피플리 사용자의 경로를 이용하여 사용자 맞춤형 장소 추천 방법, 장치 및 시스템
CN115994668B (zh) * 2023-02-16 2023-06-20 浙江非线数联科技股份有限公司 智慧社区资源管理系统
US20250371843A1 (en) 2023-02-23 2025-12-04 Ceske Vysoke Uceni Technicke V Praze Systems and methods for few-shot new action recognition
CN116312039A (zh) * 2023-03-23 2023-06-23 Oppo广东移动通信有限公司 停车场寻车方法及装置、存储介质及电子设备
CN116070676B (zh) * 2023-03-28 2023-06-30 南京气象科技创新研究院 基于注意力机制和自编码器的高速公路路面温度预报方法
CN116030078B (zh) * 2023-03-29 2023-06-30 之江实验室 多任务学习框架下结合注意力的肺叶分割方法及系统
CN120958494A (zh) 2023-03-31 2025-11-14 谷歌有限责任公司 在基于Transformer的动作识别中使用外部对象检测
CN120936463A (zh) 2023-04-20 2025-11-11 株式会社安川电机 机器人系统、机器人控制方法、机器人控制程序以及程序生成系统
US20240362460A1 (en) 2023-04-25 2024-10-31 Google Llc Train-once-for-all personalization
WO2024233088A1 (en) 2023-05-09 2024-11-14 Google Llc Multimodal multitask alternating gradient descent
KR102644779B1 (ko) * 2023-07-10 2024-03-07 주식회사 스토리컨셉스튜디오 온라인 쇼핑몰의 컨셉에 맞는 상품의 추천 방법
US20250021800A1 (en) * 2023-07-14 2025-01-16 Google Llc Memory efficient sequence generation neural networks
CN117059081B (zh) * 2023-08-30 2024-08-09 易方信息科技股份有限公司 一种轻量化语音识别方法、计算机设备及可读存储介质
WO2025048508A1 (ko) * 2023-08-30 2025-03-06 하인텔 주식회사 학습 효율 향상을 위한 트랜스포머의 학습 방법 및 이를 위한 장치
WO2025075756A1 (en) 2023-10-04 2025-04-10 X Development Llc Large language models for predictive modeling and inverse design
US12608565B2 (en) 2023-10-19 2026-04-21 Naver Corporation Multimodal text-to-text neural machine translation using noise and domain adapters and training noise adapters while a domain adapter is frozen
KR102884459B1 (ko) * 2023-12-13 2025-11-11 동국대학교 산학협력단 트랜스포머를 이용한 배터리 soh 추정 장치 및 추정 방법
EP4576016A1 (en) 2023-12-20 2025-06-25 Naver Corporation Methods and systems for generating 3d representations of scenes from a plurality of images using pointmaps
EP4597364A1 (en) 2024-02-05 2025-08-06 NXAI GmbH Extended long short-term memory neural networks
KR102775392B1 (ko) 2024-02-22 2025-03-05 주식회사 알세미 인공지능 연산의 효율화를 위한 방법, 장치 및 이에 기반한 모델
WO2026005639A1 (ru) * 2024-06-26 2026-01-02 Акционерное Общество "Софит" Способ сопоставления структур топологии слоя микроэлектронного компонента
KR102786623B1 (ko) * 2024-07-24 2025-03-27 렉스이노베이션 주식회사 수급에 따른 마이크로그리드의 동적 가격 조정 방법 및 장치
CN119739995B (zh) * 2024-12-10 2025-09-16 西北工业大学 一种基于自注意力机制的卫星指令自动生成方法
CN119785296A (zh) * 2025-01-13 2025-04-08 济南幼儿师范高等专科学校 一种基于推理增强的校园监控行为识别方法及系统
US12335379B1 (en) 2025-01-17 2025-06-17 K2 Network Labs, Inc. Privacy-preserving transformer model with encrypted dimensionality reduction
US12316753B1 (en) 2025-02-03 2025-05-27 K2 Network Labs, Inc. Secure multi-agent system for privacy-preserving distributed computation
KR102913263B1 (ko) * 2025-02-27 2026-01-15 주식회사 스피어에이엑스 시각 언어 모델에 대한 학습을 위한 학습 데이터를 구축하기 위한 장치 및 이를 위한 방법
US12437113B1 (en) 2025-05-10 2025-10-07 K2 Network Labs, Inc. Data processing orchestrator utilizing semantic type inference and privacy preservation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016194248A1 (ja) 2015-06-03 2016-12-08 三菱電機株式会社 推論装置及び推論方法
US20170124433A1 (en) 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Unsupervised matching in fine-grained datasets for single-view object reconstruction
US20170140753A1 (en) 2015-11-12 2017-05-18 Google Inc. Generating target sequences from input sequences using partial conditioning

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7039621B2 (en) * 2000-03-22 2006-05-02 Johnson & Johnson Pharmaceutical Research & Development, L.L.C. System, method, and computer program product for representing object relationships in a multidimensional space
EP2036079B1 (en) * 2006-04-27 2011-01-12 Mobiter Dicta Oy A method, a system and a device for converting speech
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US10181098B2 (en) * 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
CN106462802B (zh) * 2014-11-14 2019-08-06 谷歌有限责任公司 生成映像的自然语言描述
US11080587B2 (en) * 2015-02-06 2021-08-03 Deepmind Technologies Limited Recurrent neural networks for data item generation
US10083157B2 (en) * 2015-08-07 2018-09-25 Google Llc Text classification and transformation based on author
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
EP3360082B1 (en) * 2015-11-12 2021-06-02 Deepmind Technologies Limited Neural programming
WO2017201444A1 (en) * 2016-05-20 2017-11-23 Google Llc Classifying input examples using a comparison set
CN106372577A (zh) * 2016-08-23 2017-02-01 北京航空航天大学 一种基于深度学习的交通标志自动识别与标注方法
US10642887B2 (en) * 2016-12-27 2020-05-05 Adobe Inc. Multi-modal image ranking using neural networks
EP4156034A1 (en) 2017-05-23 2023-03-29 Google LLC Attention-based sequence transduction neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016194248A1 (ja) 2015-06-03 2016-12-08 三菱電機株式会社 推論装置及び推論方法
US20170124433A1 (en) 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Unsupervised matching in fine-grained datasets for single-view object reconstruction
US20170140753A1 (en) 2015-11-12 2017-05-18 Google Inc. Generating target sequences from input sequences using partial conditioning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GREGOR, Karol et al.,"DRAW: A Recurrent Neural Network For Image Generation",arXiv [online],2015年,p. 1-10,[2024年12月19日検索],インターネット<URL:https://arxiv.org/abs/1502.04623v2>,1502.04623v2
江里口瑛子 ほか,"句構造へのアテンションに基づくニューラル機械翻訳モデル",言語処理学会第22回年次大会 発表論文集,言語処理学会,2016年02月29日,p. 697-700

Also Published As

Publication number Publication date
AU2020213318B2 (en) 2022-06-02
AU2022221389B2 (en) 2024-01-25
AU2020213317A1 (en) 2020-08-27
BR112019014822B1 (pt) 2022-06-07
ES2934313T3 (es) 2023-02-21
US20200372357A1 (en) 2020-11-26
JP2025084774A (ja) 2025-06-03
AU2022221389A1 (en) 2022-09-22
US20250217644A1 (en) 2025-07-03
KR20200129198A (ko) 2020-11-17
CA3050334C (en) 2023-04-11
JP2021121952A (ja) 2021-08-26
EP4156034A1 (en) 2023-03-29
RU2021116658A (ru) 2021-07-05
KR20200129197A (ko) 2020-11-17
KR102486348B1 (ko) 2023-01-09
JP2020506466A (ja) 2020-02-27
EP4156030A1 (en) 2023-03-29
AU2020213317B2 (en) 2022-06-02
EP3542316A1 (en) 2019-09-25
JP7423828B2 (ja) 2024-01-29
US20210019623A1 (en) 2021-01-21
CA3144657A1 (en) 2018-11-29
EP4156031A1 (en) 2023-03-29
JP7214783B2 (ja) 2023-01-30
BR112019014822A2 (pt) 2020-02-27
AU2018271931B2 (en) 2020-05-07
KR20230151047A (ko) 2023-10-31
PL3542316T3 (pl) 2023-02-20
US12217173B2 (en) 2025-02-04
JP6884871B2 (ja) 2021-06-09
CN110192206A (zh) 2019-08-30
AU2024202594A1 (en) 2024-05-09
US11113602B2 (en) 2021-09-07
CA3050334A1 (en) 2018-11-29
JP7826531B2 (ja) 2026-03-09
EP4156033A1 (en) 2023-03-29
EP4156032A1 (en) 2023-03-29
US20240144006A1 (en) 2024-05-02
US10719764B2 (en) 2020-07-21
CA3144657C (en) 2023-10-10
KR20190089980A (ko) 2019-07-31
JP7214784B2 (ja) 2023-01-30
RU2749945C1 (ru) 2021-06-21
WO2018217948A1 (en) 2018-11-29
AU2020213318A1 (en) 2020-08-27
JP2023052483A (ja) 2023-04-11
US10956819B2 (en) 2021-03-23
US20190392319A1 (en) 2019-12-26
CA3144674C (en) 2023-10-10
EP4156035A1 (en) 2023-03-29
KR20220133323A (ko) 2022-10-04
CA3144674A1 (en) 2018-11-29
AU2018271931A1 (en) 2019-07-11
JP2021121951A (ja) 2021-08-26
EP3542316B1 (en) 2022-12-07
KR102180002B1 (ko) 2020-11-17
KR102448389B1 (ko) 2022-09-28
JP2024038420A (ja) 2024-03-19
US20210019624A1 (en) 2021-01-21
US20180341860A1 (en) 2018-11-29
US20220051099A1 (en) 2022-02-17
US10452978B2 (en) 2019-10-22
KR102592677B1 (ko) 2023-10-23
US20200372358A1 (en) 2020-11-26
US11893483B2 (en) 2024-02-06

Similar Documents

Publication Publication Date Title
JP7633438B2 (ja) アテンションベースのシーケンス変換ニューラルネットワーク

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240124

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20241218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250206

R150 Certificate of patent or registration of utility model

Ref document number: 7633438

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150