JP7403573B2

JP7403573B2 - 低ビットレートのビデオ圧縮のためのマイクロドージング

Info

Publication number: JP7403573B2
Application number: JP2022062154A
Authority: JP
Inventors: デジェロフアブデルアジズ; マルクスヘルミンガーレオンハルト; ジェルソンデアルバカーキアゼヴェードロベルト; ラブロージースコット; リヒャルトシュロアーズクリストファ; シュエユアンイ
Original assignee: ディズニーエンタープライゼスインコーポレイテッド; イーティーエイチ・チューリッヒ
Priority date: 2021-04-08
Filing date: 2022-04-01
Publication date: 2023-12-22
Anticipated expiration: 2042-04-01
Also published as: US12010335B2; CN115209155A; KR102613527B1; US20240283957A1; KR20220139801A; EP4072138A1; US20220337852A1; JP2022161862A; CN115209155B; US12382069B2; BR102022006511A2; EP4072138B1; CN120751154A

Description

関連出願の参照
本出願は、２０２１年４月８日に出願され、「ＮｅｕｒａｌＮｅｔｗｏｒｋＢａｓｅｄＶｉｄｅｏＣｏｄｅｃｓ」と題する仮特許出願シリアル番号６３／１７２，３１５、および２０２１年１０月１３日に出願され、「ＭｉｃｒｏｄｏｓｉｎｇＦｏｒＬｏｗＢｉｔｒａｔｅＶｉｄｅｏＣｏｍｐｒｅｓｓｉｏｎ」と題する仮特許出願シリアル番号６３／２５５，２８０の利益および優先権を主張するものである。それによって、これらは参照により完全に本出願に組み込まれている。

ビデオコンテンツは、インターネットトラフィック全体の大部分を占めており、空間解像度のフレームレートおよびビデオの色深度が増加し、ストリーミングサービスを採用するユーザが増えるにつれて、さらに増加すると予想される。既存のコーデックは、素晴らしい性能を達成しているが、これ以上小さな改良を加えても将来の需要に対応できないところまで作り込まれている。そのため、ビデオコーディングを実行するための根本的に異なる方法を探求することは、有利にも、性能および柔軟性を改善させた新しいクラスのビデオコーデックにつながる可能性がある。

例えば、例として生成的敵対ネットワーク（ＧＡＮ）の形態のニューラルネットワーク（ＮＮ）などのトレーニング済機械学習（ＭＬ）モデルを使用してビデオ圧縮を行うことの１つの利点は、そうでなければデータ伝送の点から取得するのにコストがかかるであろう視覚的詳細を、ＭＬモデルに推測可能とさせることである。しかしながら、現在の最先端の提案においては、モデルサイズが依然として重要な問題であり、既存のソリューションでは、複合化の側で大きな計算負荷がかかる。つまり、既存のＧＡＮベースの圧縮フレームワークの大きな欠点は、典型的に、それらが大きなデコーダモデルを必要とすることである。大きなデコーダモデルは、時にプライベートなデータセットでトレーニングされることもある。したがって、これらのモデルを元の性能に再トレーニングすることは、一般に不可能である。トレーニングデータが利用可能な場合でも、モデルの再トレーニングは、複雑で時間がかかるであろう。さらに、既存の大きなデコーダモデルは、メモリ要件と推論時間を理由として、特にビデオコーディングの面では実用的ではない。

一実装形態による、機械学習（ＭＬ）モデルベースビデオコーデックを提供する例示的なシステムのダイヤグラムである。一実装形態による、ニューラル圧縮に対する既存のアプローチと例示的なマイクロドージング圧縮アプローチと、を比較するダイヤグラムである。一実装形態による、大きなデコーダを含む既存の高性能コーデックを示す図である。図4Ａは、本概念の例示的な一実装形態による、教師役デコーダを使用する小さな生徒役デコーダのトレーニングを描く図である。図４Ｂは、一実装形態による、図４Ａに示す小規模生徒役デコーダでの使用に適した例示的なＭＬモデルベースデコーディングネットワークを描く図である。一実装形態による、低ビットレートのビデオ圧縮のためのマイクロドージングを含む知識蒸留（ＫＤ）技術を実装するためのビデオ圧縮パイプラインを示す図である。一実装形態による、低ビットレートのビデオ圧縮のためのマイクロドージングを実行する例示的な方法を概説するフローチャートである。一実装形態による、図６で概説した方法を拡張するための追加のアクションを説明するフローチャートである。

以下の説明は、本開示における実装に関連する特定の情報を含む。当業者は、本開示が、本明細書で具体的に記載されているものとは異なる態様で実装され得ることを認識するであろう。本出願の図面およびそれらに付随する詳細な説明は、単に例示的な実装に向けられている。特に明記しない限り、図中の同様のまたは対応する要素は、同様のまたは対応する参照符号によって示すことができる。さらに、本出願の図面およびイラストレーションは、概して、縮尺通りではなく、実際の相対的な寸法に対応することを意図していない。

本出願は、機械学習（ＭＬ）モデルベースビデオコーデックを提供するためのシステムおよび方法に向けられている。さらに、本出願は、デコーダのサイズを縮小しながら、良好な知覚画像品質を保持することを可能にする知識蒸留（ＫＤ）アプローチを開示する。本発明の新規かつ発明的な原理によれば、ＫＤの目標は、教師役ネットワークの学習された知識を、教師役ネットワークの性能に対して競争力を維持する、より小さな生徒役ネットワークに転送することである。必要とするのが、最初の教師役ネットワークよりも少ないメモリと計算能力であることによって、生徒役ネットワークを、例えば、携帯電話または専用デバイスなどのパワーの劣るデバイス上で動かすことができる。本明細書において開示されるように、自動エンコーダ設定においてジェネレータネットワークまたはデコーダを圧縮する能力は、メモリ要件および計算効率の両方の点において有利である。これは、複合化が単純であるべきとしつつ、計算の大部分はセンダ（エンコーダ）側で実行されることが好適である画像およびビデオ圧縮にとって、特に重要である。特にビデオストリーミングの場合、アセットは、典型的に、配信のために１回符号化され、しかしながら何百万回も複合化される場合がある。

例えば人工ニューラルネットワーク（ＮＮ）などのトレーニング済機械学習モデルを使用してビデオ圧縮を行うことの１つの利点は、そうでなければデータ転送の点から取得するのにコストがかかるであろう視覚的詳細を、機械学習モデルが推論可能とさせることである。したがって、結果として生じる画像は、典型的に、高いビットレートを必要とせずに、視覚的に心地よい。機械学習モデルベースビデオコーデックを使用して合成された画像の細部は、現実的に見えることができるが、一方でグランドトゥルースからわずかに逸脱する場合がある。それにもかかわらず、本機械学習モデルベースのビデオ圧縮ソリューションは、従来のアプローチにおいて同じ量の送信データを使用して不可能であるような画質を提供可能である。さらに、いくつかの実装形態において、本機械学習モデルベースのソリューションは、実質的に自動化されたシステムおよび方法として実装することができる。

本出願で使用される場合、用語「自動化」、「自動化された」、および「自動化する」は、人間の編集者またはシステム管理者のような人間のユーザの参加を必要としないシステムおよびプロセスを指すことに留意されたい。いくつかの実装形態においては、人間のシステム管理者が、本明細書に記載の自動化されたプロセスに従って動作する自動化されたシステムの性能をレビューすることができる。しかしながら、その人間の関与は任意選択である。したがって、本出願に記載されるプロセスは、開示されるシステムのハードウェア処理コンポーネントの制御下で、実行することができる。

さらに、本出願で定義されるように、「機械学習モデル」（以下「ＭＬモデル」）という表現は、トレーニングデータとして知られる信頼される既知のマッチおよび既知のミスマッチのセットから得られるデータのサンプルから学習されたパターンに基づいて将来の予測を行うための数学的モデルを指すことに留意されたい。入力データと出力データとの間の相関関係をマッピングするために、多様な学習アルゴリズムを使用できる。これらの相関関係は、新しい入力データに対して将来の予測を行うために使用できる数学的モデルを形成する。このような予測モデルは、例えば、１つまたは複数のロジスティック回帰モデル、ベイジアンモデル、またはＮＮを含むことができる。さらに、機械学習モデルは、特定のタスクの機械学習モデルの性能を徐々に向上させるように設計することができる。

ディープラーニングの文脈における「ディープニューラルネットワーク」（deep ＮＮ）は、入力層と出力層の間の複数の隠れ層を利用するＮＮを指すことができる。隠れ層によって、生データにおいて明示的に定義されていない特徴に基づく学習ができるようになる。本出願で使用される場合、ＮＮと付された特徴は、ディープニューラルネットワークを指す。多様な実装形態において、ＮＮは、画像処理または自然言語処理を実行するために利用できる。本発明の新規かつ発明的な原理は、生成的敵対ネットワーク（ＧＡＮ）として知られる例示的なＮＮクラスを参照することによって以下に説明される。しかしながら、その特徴付けは、単に概念を明確にするために提供されるものである。

図１は、一実装態様による、機械学習（ＭＬ）モデルベースのビデオ圧縮を実行するための例示的なシステムを示す。図１に示すように、システム１００は、処理ハードウェア１０４と、コンピュータが読み取り可能な非一時的記憶媒体として実装されたシステムメモリ１０６と、を有するコンピューティングプラットフォーム１０２を含む。この例示的な実装形態によれば、システムメモリ１０６は、非圧縮ビデオシーケンス１１６およびＭＬモデルベースビデオエンコーダ１０８を格納する。

図１に更に示すように、システム１００は、通信ネットワーク１１０と、ユーザ１１４による使用のために構成されたユーザシステム１２０と、を含む使用環境内部に実装されている。ユーザシステム１２０は、ディスプレイ１２２と、ユーザシステムの処理ハードウェア１２４と、コンピュータが読み取り可能な非一時的記憶媒体として実装されてＭＬモデルベースビデオデコーダ１２８を格納するユーザシステムメモリ１２６と、を含む。さらに、図１は、通信ネットワーク１１０を介してユーザシステム１２０をシステム１００とインタラクティブに接続するネットワーク通信リンク１１２と、ＭＬモデルベースビデオエンコーダ１０８によって出力されて非圧縮ビデオシーケンス１１６に対応する、圧縮ビデオビットストリーム１１８と、を示す。

本出願では、概念を明確にするために、ＭＬモデルベースビデオエンコーダ１０８がシステムメモリ１０６に格納されていると言及する。しかしながら、より一般的には、システムメモリ１０６は、任意のコンピュータが読み取り可能な非一時的記憶媒体の形態をとることができる。本出願で使用される「コンピュータが読み取り可能な非一時的記憶媒体」という表現は、コンピューティングプラットフォーム１０２の処理ハードウェア１０４に命令を供給する搬送波または他の一時的な信号を除く、任意の媒体を指す。したがって、コンピュータが読み取り可能な非一時的記憶媒体は、例えば、揮発性媒体および不揮発性媒体などの多様な種類の媒体に対応することができる。揮発性媒体は、ダイナミックランダムアクセスメモリ（ダイナミックＲＡＭ）などの動的メモリを含むことができる。一方で、不揮発性メモリは、光学、磁気、または静電記憶デバイスを含むことができる。コンピュータが読み取り可能な非一時的記憶媒体の一般的な形態には、例えば、光ディスク、ＲＡＭ、プログラマブルリードオンリーメモリ（ＰＲＯＭ）、消去可能なＰＲＯＭ（ＥＰＲＯＭ）、およびフラッシュメモリが含まれる。

さらに、図１は、ＭＬモデルベースビデオエンコーダ１０８を、その全体がシステムメモリ１０６に格納されるものとして描いている。しかしながら、その表現も、単に概念的に明確にするための補助として提供されているに過ぎない。より一般的には、システム１００は、例えばコンピュータサーバなどの１つまたは複数のコンピューティングプラットフォーム１０２を含むことができる。これらは、コロケーテッド（co-located）していてもよく、または、例えばクラウドベースのシステムのような、インタラクティブにリンクされているが分散されたシステムを形成してもよい。その結果、処理ハードウェア１０４およびシステムメモリ１０６は、システム１００内部の分散されたプロセッサおよびメモリリソースに対応することができる。したがって、いくつかの実装形態において、ＭＬモデルベースビデオエンコーダ１０８の１つまたは複数の機能を、システム１００の分散されたメモリリソース上に相互に遠隔で格納することができる。

処理ハードウェア１０４は、例えば、１つまたは複数の中央処理ユニット、１つまたは複数のグラフィックス処理ユニットおよび１つまたは複数のテンソル処理ユニットなどの複数のハードウェア処理ユニット、１つまたは複数のフィールドプログラマブルゲートアレイ（ＦＰＧＡｓ）、機械学習トレーニングまたは推論用のカスタムハードウェア、ならびにアプリケーションプログラミングインターフェイス（ＡＰＩ）サーバを含むことができる。定義により、本出願で使用される場合、用語「中央処理ユニット」（ＣＰＵ）、「グラフィックス処理ユニット」（ＧＰＵ）、および「テンソル処理ユニット」（ＴＰＵ）は、当該技術分野における慣習的な意味を有する。すなわち、ＣＰＵは、コンピューティングプラットフォーム１０２の算術演算および論理演算を実行するための算術論理ユニット（ＡＬＵ）と、ＭＬモデルベースビデオエンコーダ１０８などのプログラムをシステムメモリ１０６から取り出すためのコントロールユニット（ＣＵ）と、を含む。一方、ＧＰＵは、計算集約的なグラフィックスまたは他の処理タスクを実行することによって、ＣＰＵの処理のオーバーヘッドを低減するために実装することができる。ＴＰＵは、機械学習のような人工知能（ＡＩ）処理のために特別に構成された特定用途向け集積回路（ＡＳＩＣ）である。

いくつかの実装形態において、コンピューティングプラットフォーム１０２は、例えば、インターネットなどのパケット交換ネットワークの形態である通信ネットワーク１１０を介してアクセス可能な、１つまたは複数のウェブサーバに対応することができる。さらに、いくつかの実装形態では、通信ネットワーク１１０は、例えば１０ＧｉｇＥネットワークまたはインフィニバンド（登録商標）ネットワークのような、ハイパフォーマンスコンピューティング（ＨＰＣ）に適した高速ネットワークとすることができる。いくつかの実装形態では、コンピューティングプラットフォーム１０２は、私的な広域ネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）をサポートする１つまたは複数のコンピュータサーバに、または別のタイプの限定された配信または私的なネットワークに含まれる１つまたは複数のコンピュータサーバに、対応することができる。さらに別の代替案として、いくつかの実装形態では、システム１００は、データセンター内など、仮想的に実装されてもよい。例えば、いくつかの実装形態では、システム１００は、ソフトウェアにおいて、または仮想マシンとして、実装されてもよい。

図１によって示される実装形態によれば、ユーザ１１４は、通信ネットワーク１１０を介してシステム１００とインターアクト（interact）するためにユーザシステム１２０を利用できる。ユーザシステム１２０および通信ネットワーク１１０は、ユーザ１１４がシステム１００から非圧縮ビデオシーケンス１１６に対応する圧縮ビデオビットストリーム１１８を取得することを可能にする。

ユーザシステム１２０は、図１ではデスクトップコンピュータとして示されている。しかしながら、その表現は単に例として提供されているに過ぎない。より一般的には、ユーザシステム１２０は、ユーザインターフェイスを提供し、通信ネットワーク１１０への接続をサポートし、本明細書においてユーザシステム１２０に帰属する機能を実装するのに十分なデータ処理能力を実装する任意の適切なモバイル型または据え付け型コンピューティング装置またはシステムとすることができる。例えば、いくつかの実装形態では、ユーザシステム１２０は、例えばラップトップコンピュータ、タブレットコンピュータ、スマートフォン、またはゲームコンソールの形態をとることができる。しかしながら、他の実装形態では、ユーザシステム１２０は、ユーザ１１４が、キーボードまたは他の入力デバイスを介して入力を提供すること、およびディスプレイ１２２を介してビデオコンテンツを提供することを可能にする、システム１００の「ダム端末」周辺構成要素であってもよい。それらの実装形態では、ユーザシステム１２０およびディスプレイ１２２は、システム１００の処理ハードウェア１０４によって制御できる。

ユーザシステム１２０のディスプレイ１２２に関して、ディスプレイ１２２は、ユーザシステム１２０と物理的に一体化されてもよく、またはユーザシステム１２０と通信可能に結合されているが物理的に分離されていてもよい。例えば、ユーザシステム１２０が、スマートフォン、ラップトップコンピュータ、またはタブレットコンピュータとして実装される場合、ディスプレイ１２２は、典型的には、ユーザシステム１２０と一体化される。対照的に、ユーザシステム１２０がデスクトップコンピュータとして実装される場合、ディスプレイ１２２は、コンピュータータワーの形態でユーザシステム１２０から分離されたモニタの形態をとることができる。さらに、ディスプレイ１２２は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、量子ドット（ＱＤ）ディスプレイ、または信号を光に物理変換する任意の他の適切なディスプレイ技術を使用するディスプレイとすることができる。

画像圧縮は、形式的に、ビットストリームの予想長、および原画と比較して再構成された画像の予想歪みを最小化することと表現できて、以下のレート‐歪み目的関数を最適化するものとして定式化される。

識別器のトレーニングは、画像圧縮ＭＬモデル２３２のトレーニングと交互に行われる。この場合、敵対的損失（adversarial loss）で増強されたレート‐歪み目標が最適化される。

ビデオ符号化における時間的冗長性を利用するために、ビデオ圧縮は、動き補償による情報伝達に依拠する。より正確には、後続のフレームｘ_ｔ＋１は、動き情報を考慮してその先行するフレームｘ_ｔから予測できる。本出願で定義されるように、「動き補償」という表現は、動きベクトルを計算し符号化する完全なプロセス、ならびに発生し得るあらゆる後処理を指す。簡単にするために、動き補償が完了したと仮定し、その結果は、
の推定値および
である。

低ビットレートの圧縮のためのマイクロドージング
図２は、ニューラル圧縮に対する既存のアプローチ２３２を、本出願によって紹介されるマイクロドージング圧縮アプローチ２３４と比較するダイヤグラム２３０である。本マイクロドージング圧縮アプローチ２３４は、以下に基づいている。１）大きなデコーダから生成されたデータで、縮小された生徒役デコーダをトレーニングする、２）縮小された生徒役デコーダモデルを、特定の画像または画像のセットにオーバーフィットさせる、３）特化されたデコーダの重みを、画像の潜在と一緒に、伸張データ２３６として送信する。本マイクロドージング圧縮アプローチの実現性を示すために、低ビットレート設定をターゲットとする、ニューラル画像およびビデオ圧縮のための最先端モデルへのその組み込みを説明する。

第一に、高忠実度圧縮（Ｈｉｇｈ－ＦｉｄｅｌｉｔｙＣｏｍｐｒｅｓｓｉｏｎ：ＨｉＦｉＣ）デコーダまたは他の高性能デコーダは、はるかにより小さな生徒役デコーダで置き換えられる。ＨｉＦｉＣは、現在、低ビットレートのニューラル画像圧縮（すなわち、ピクセルあたり約０．１５ビット）での最先端技術を提供し、比較的大きな（すなわち、約１億５６００万パラメータ）デコーダネットワークを代償として、極めて競争力のある結果を制作することに留意されたい。既存のアプローチ２３２において、ＨｉＦｉＣアーキテクチャが利用されることが示されている。しかしながら、その表現は単に例示的なものである。他の実装形態では、既存のアプローチ２３２のＨｉＦｉＣエンコーダ‐デコーダネットワークは、残差ブロックに基づく同様のアーキテクチャを有する実質的に任意のＧＡＮトレーニング済ネットワークによって置換することができる。

既存のアプローチ２３２とは対照的に、本出願によって開示されるマイクロドージング圧縮アプローチ２３４は、有利にも、ＨｉＦｉＣによって提供されるものと視覚的に同様の出力画像を制作しながら、はるかにより小さなデコーダ（例えば、約８００万パラメータ）および５０パーセント（５０％）速い復号時間を可能にする。第二に、潜在残差に基づくニューラルビデオ圧縮フレームワークにおける、本マイクロドージングＫＤ戦略の適用を説明する。このようなシナリオでは、シーケンスに特化したデコーダを提供できるように、縮小された生徒役デコーダをシーケンスにオーバーフィットさせる。

図２に示すように、既存のニューラル圧縮アプローチ２３２によれば、エンコーダ‐デコーダのペアは、多様な異なるコンテンツ上で全体的に良好な性能を得るために、大きなデータセット上でトレーニングされる。オートエンコーダが完全にトレーニングされると、デコーダが配置され、レシーバに送られる。そして、大きなデコーダは、あらゆるタイプのコンテンツの復号化を可能にする。

対照的に、本マイクロドージングアプローチ２３４によれば、ＭＬモデルベースビデオエンコーダ２０８は、非圧縮ビデオシーケンス２１６のデータを、サブセットＳ_ｉに分割し、各サブセットに対する対応情報θ_Ｓｉを有するコンテンツ固有のデコーダを学習するよう構成される。この特化により、有利にも、より少ないパラメータ、より少ないメモリフットプリントを必要とし、より少ない計算を使用するＭＬモデルベースビデオデコーダ２３８のトレーニングが可能となる。ＭＬモデルベースビデオエンコーダ２０８、非圧縮ビデオシーケンス２１６、およびＭＬモデルベースビデオデコーダ２３８は、それぞれ、図１におけるＭＬモデルベースビデオエンコーダ１０８、非圧縮ビデオシーケンス１１６、およびＭＬモデルベースビデオデコーダ１３８に概して対応することに留意されたい。したがって、ＭＬモデルベースビデオエンコーダ１０８、非圧縮ビデオシーケンス１１６、およびＭＬモデルベースビデオデコーダ１３８は、本開示によって、ＭＬモデルベースビデオエンコーダ２０８、非圧縮ビデオシーケンス２１６、およびＭＬモデルベースビデオデコーダ２３８の各々に帰着する特徴のいずれかを共有できて、その逆も同様とすることができる。

ＭＬモデルベースビデオデコーダ２３８が完全にトレーニングされ、サブセットに対するＭＬモデルベースビデオエンコーダ１０８の再構成品質要件が満たされると、コンテンツ固有の情報（例えば、伸張データ２３６）をサブセットと一緒に格納することができる。ＭＬモデルベースビデオデコーダ２３８が
を復号化したい場合、重みの形態のサブセット固有の伸張データθ_Ｓｉは、サブセットごとに１回だけ送信されなければならない。本マイクロドージングＫＤアプローチをＧＡＮでの画像圧縮に適用し、潜在空間残差を使用するビデオ圧縮に対してそれを拡張する手順について、以下に説明する。

図３は、従来のＨｉＦｉＣアーキテクチャ３４０を示す。そのデコーダ３４８は、３つのサブネットに分割できる。すなわち、約２００万（２Ｍ）パラメータを含むヘッド３４２、約１４９Ｍパラメータを含む残差ネットワーク（ｒｅｓ＿ｂｌｏｃｋｓ）３４４、および約５．５Ｍパラメータを含むテール３４６である。ＨｉＦｉＣアーキテクチャ３４０を使用して処理された画像の粗情報は、潜在空間に保存され、テクスチャのハルシネーション（ｈａｌｌｕｃｉｎａｔｉｏｎ）は、デコーダ３４８のｒｅｓ＿ｂｌｏｃｋｓ３４４によって生成されることに留意されたい。特に、ｒｅｓ＿ｂｌｏｃｋｓ３４４のサイズは、モデルが大きなプライベート（ｐｒｉｖａｔｅ）データセットで訓練されたことに起因しており、したがって、トレーニング中に見られるすべてのテクスチャをキャプチャするために、このような大きなサイズが必要である。

しかしながら、どの画像を圧縮すべきかが予め分かっている場合（例えば、同様の特徴を有するビデオシーケンスのフレーム）、符号化中にそのデータにオーバーフィットし、それらの画像（すなわち、伸張データ２３６）を適切に復号化するために必要な重みのみを送信することが可能である。それは、本願に開示され、図４Ａおよび図４Ｂを参照して説明されるＮＮアーキテクチャを使用して実装されるものである。

図４Ａおよび図４Ｂによって示される例示的な実装形態によれば、生徒役デコーダ４３８のサイズは、画像の特定のサブセットについて、図３のres_block３４４の挙動を模倣する、より小さなサブネットワーク、マイクロ残差ネットワーク（マイクロ‐ＲＮ）４６０をトレーニングし、それによって生徒役デコーダ４３８のハルシネーション能力（ｈａｌｌｕｃｉｎａｔｉｏｎｃａｐａｂｉｌｉｔｙ）をマイクロドージングすることによって、教師役デコーダ４５２のサイズに対して著しく低減される。上述のように、ＨｉＦｉＣアーキテクチャの代替として、いくつかの実装形態において、本発明の新規かつ発明的な原理は、残差ブロックに基づく同様のアーキテクチャを有する実質的に任意のＧＡＮトレーニング済ネットワークに適用できる。そのようなＧＡＮトレーニング済ネットワークの実装形態では、ＧＡＮトレーニング済ネットワークデコーダの残差ブロック部分は、マイクロ‐ＲＮ４６０によって置き換えることができる。生徒役デコーダ４３８は、図１および図２における、ＭＬモデルベースビデオデコーダ１３８および２３８に概して対応し、それらの対応する特徴は、いずれかの対応する特徴に帰着する特徴のいずれかを、本開示で共有し得ることに、さらに留意されたい。すなわち、生徒役デコーダ４３８のように、ＭＬモデルベースビデオデコーダ１３８および２３８は、マイクロ‐ＲＮ４６０を含むことができる。

図４Ｂに示す例示的な実装形態によれば、マイクロ‐ＲＮ４６０は、当該技術分野で既知の、劣化認識（ｄｅｇｒａｄａｔｉｏｎａｗａｒｅ：ＤＡ）ブロックに基づく。ＤＡブロックを利用する既存の方法は、劣化ベクトルに従って重みを操縦するために、典型的に、カーネル予測ネットワークを利用する。しかしながら、一方で、本実装形態は、サブセットＳ_ｉごとに異なる重みのセットθ_Ｓｉを利用する。マイクロ‐ＲＮ４６０は、２つのパラメータで定義される。すなわち、隠れチャンネルの数であるCh、およびＤＡブロックの数であるＢ、である。一実装形態において、３×３の畳み込みを使用できる。図４Ｂを参照すると、ＤＣｏｎｖは深さ方向の畳み込みを表す。マイクロ‐ＲＮ４６０は、図４Ａに示す教師‐生徒アーキテクチャでトレーニングされ、一方、生徒役デコーダ４３８（以下「ＭＬモデルベースビデオデコーダ４３８」）のヘッド４５６およびテール４５８は、教師役デコーダ４５２から事前にトレーニングされ、借用される。

ニューラルビデオ圧縮シナリオにおけるＫＤの適用を示すために、図５のネットワーク５７０のようなネットワークを使用することができる。図５に示すように、ネットワーク５７０は、２つの部分を含む。すなわち、フレーム予測ネットワーク（ＦＰＮ）５７２および潜在残差ネットワーク（ＬａｔｅｎｔＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ：ＬＲＮ）５７４である。符号化されるべきフレーム（グループオブピクチャ、またはＧＯＰ）のシーケンスｘ_０、…、ｘ_ＧＯＰが与えられ、ｘ_０はキーフレーム（Ｉ‐フレーム）であり、ｘ_１、…、ｘ_ＧＯＰは予測フレーム（Ｐ‐フレーム）である場合、シーケンスの圧縮は以下のように動作することができる。

低ビットレート設定において、ＨｉＦｉＣは、上記の潜在空間残差フレームワークとともに使用できるニューラル画像圧縮アーキテクチャに対する、適切な選択肢であると思われる。しかしながら、上述のように、ＨｉＦｉＣデコーダのサイズが、制限要因である。さらに、毎秒、約３０フレーム（３０ｆｐｓ）の復号化フレームレートを維持することが必要であることの多いビデオでは、推論時間がクリティカルとなる可能性がある。本出願に開示されるマイクロドージングのソリューションは、有利にも、推論時間を短縮しながら計算効率を高めることによって、最先端技術を進歩させるものである。符号化の間、本ソリューションは、特定のシーケンスに対してオーバーフィットされる。その結果、そのシーケンスの全てのフレームについて、θ_Ｓｉは１回だけ送信される必要がある。そして、本発明の新規かつ発明的な復号化プロセスは、ＭＬモデルベースビデオデコーダ４３８上でシーケンス固有のマイクロ‐ＲＮ重みを受信してロードすることによって進行し、そのシーケンスの復号化の間に固定される。本マイクロドージングのソリューションによって課されるのが、小さな計算オーバーヘッドであることの結果として、復号時間は、有利にも、より大きな、より遅い既存のデコーダと同様のビジュアルを達成しながら、５０％削減することができる。

図２、図３、図４Ａ、図４Ｂ、および図５を参照して上述したマイクロドージングアプローチによる知識蒸留を、図６および図７を参照して更に説明する。図６は、一実装形態による、低ビットレートのビデオ圧縮のためのマイクロドージングを実行する例示的な方法を提示するフローチャート６８０を示す。一方、図７は、図６で概説された方法を拡張するための追加のアクションを説明するフローチャート７９０を示す。図６および図７に記載されるアクションに関して、本出願における発明的特徴の議論を不明瞭にしないために、特定の詳細および特徴がフローチャート６８０および７９０から省かれていることに留意されたい。

ここで図６を図１および図２と組み合わせて参照すると、フローチャート６８０は、複数のビデオフレームを含む非圧縮ビデオシーケンス１１６／２１６を受信すること（アクション６８１）を含む。図２に示すように、非圧縮ビデオシーケンス１１６／２１６は、ＭＬモデルベースビデオエンコーダ１０８／２０８によってアクション６８１で受信することができる。さらに、また図１を参照して上述したように、ＭＬモデルベースビデオエンコーダ１０８／２０８は、システムメモリ１０６に格納することができる。したがって、非圧縮ビデオシーケンス１１６／２１６は、システム１００の１０４の処理ハードウェアによって実行されるＭＬモデルベースビデオエンコーダ１０８／２０８によって、アクション６８１で受信することができる。

フローチャート６８０は、複数のビデオフレームのうちから、第１ビデオフレームサブセットおよび第２ビデオフレームサブセットを決定すること（アクション６８２）を、更に含む。いくつかの実装形態では、アクション６８２における、第１ビデオフレームサブセットおよび第２ビデオフレームサブセットの決定は、非圧縮ビデオシーケンス１１６／２１９に含まれるビデオフレーム間の類似性および非類似性に基づくことができる。換言すると、いくつかの実装形態では、アクション６８２において決定される第１ビデオフレームサブセットは、互いに視覚的に類似するビデオフレームを含むことができる。一方、第２ビデオフレームサブセットは、第１ビデオフレームサブセットに含まれるビデオフレームよりも、互いにより視覚的に類似する他のビデオフレームを含むことができる。引き続き図１および図２を組み合わせて参照すると、アクション６８２における第１ビデオフレームサブセットおよび第２ビデオフレームサブセットの決定は、システム１００の処理ハードウェア１０４によって実行される、ＭＬモデルベースビデオエンコーダ１０８／２０８によって実行することができる。

フローチャート６８０は、第１圧縮ビデオフレームサブセットＳ_１を制作するために、アクション６８２において決定された第１ビデオフレームサブセットを符号化すること（アクション６８３）を、更に含む。上述のように、アクション６８３における、第１圧縮ビデオフレームサブセットＳ_１を生成するための第１ビデオフレームサブセットの符号化は、システム１００の処理ハードウェア１０４によって実行される、ＭＬモデルベースビデオエンコーダ１０８／２０８によって実行することができる。

フローチャート６８０は、第１圧縮ビデオフレームサブセットＳ_１のための第１伸張データθ_Ｓ１を識別すること（アクション６８４）を、更に含む。いくつかの実装形態では、第１伸張データθ_Ｓ１を識別することは、アクション６８３における第１ビデオフレームサブセットの符号化の間に、第１伸張データθ_Ｓ１をオーバーフィットさせることを含む。すなわち、いくつかの実装形態では、アクション６８４における第１伸張データθ_Ｓ１の識別は、アクション６８２における、第１圧縮ビデオフレームサブセットＳ_１を生成するための第１ビデオフレームサブセットの符号化と並行して、すなわち、実質的に同時に実行されてもよい。上述のように、アクション６８４における、第１圧縮ビデオフレームサブセットＳ_１のための第１伸張データθ_Ｓ１の識別は、システム１００の処理ハードウェア１０４によって実行される、ＭＬモデルベースビデオエンコーダ１０８／２０８によって実行することができる。

フローチャート６８０は、第２圧縮ビデオフレームサブセットＳ_２を制作するために、アクション６８２において決定された第２ビデオフレームサブセットを符号化すること（アクション６８５）を、更に含む。上述のように、アクション６８５における、第２圧縮ビデオフレームサブセットＳ_２を生成するための第２ビデオフレームサブセットの符号化は、システム１００の処理ハードウェア１０４によって実行される、ＭＬモデルベースビデオエンコーダ１０８／２０８によって実行することができる。

フローチャート６８０は、第２圧縮ビデオフレームサブセットＳ_２のための第２伸張データθ_Ｓ２を識別すること（アクション６８６）を、更に含む。いくつかの実装形態では、第２伸張データθ_Ｓ２を識別することは、アクション６８５における第２ビデオフレームサブセットの符号化の間に、第２伸張データθ_Ｓ２をオーバーフィットさせることを含む。すなわち、いくつかの実装形態では、アクション６８６における第２伸張データθ_Ｓ２の識別は、アクション６８５における、第２圧縮ビデオフレームサブセットＳ_２を生成するための第２ビデオフレームサブセットの符号化と並行して、すなわち、実質的に同時に実行されてもよい。上述のように、アクション６８６における、第２圧縮ビデオフレームサブセットＳ_２のための第２伸張データθ_Ｓ２の識別は、システム１００の処理ハードウェア１０４によって実行される、ＭＬモデルベースビデオエンコーダ１０８／２０８によって実行することができる。

第１および第２伸張データθ_Ｓ１、θ_Ｓ２に関して、それらのデータは、それらが伴う圧縮ビデオフレームサブセットのそれぞれに固有であることに留意されたい。したがって、第１伸張データθ_Ｓ１は、第１圧縮ビデオフレームサブセットＳ_１の復号化に固有であるが、第２圧縮ビデオフレームサブセットＳ_２の復号化には固有ではない。そして、第２伸張データθ_Ｓ２は、第２圧縮ビデオフレームサブセットＳ_２の復号化に固有であるが、第１圧縮ビデオフレームサブセットＳ_１の復号化には固有ではない。

フローチャート６８０は、アクション６８３および６８４に続くものとしてアクション６８５および６８６を描いている。しかしながら、その表現は単に例として提供されているに過ぎないことに更に留意されたい。いくつかの他の実装形態では、アクション６８３および６８５は、アクション６８４および６８６の前に並行して実行されてよく、いくつかの実装形態では、それらが並行して実行されてもよい。したがって、いくつかの実装形態では、アクション６８３および６８４は、アクション６８５および６８６と並行して実行されてもよい。

いくつかの実装形態において、フローチャート６８０によって概説される方法は、アクション６８６で終了することができる。しかしながら、他の実装形態では、その方法は、図７のフローチャート７９０によって説明される１つまたは複数のアクションによって拡張されてもよい。ここで図１および図２と組み合わせて図７を参照すると、フローチャート７９０は、ＭＬモデルベースビデオデコーダ１３８／２３８／４３８に、第１圧縮ビデオフレームサブセットＳ_１、第２圧縮ビデオフレームサブセットＳ_２、第１伸張データθ_Ｓ１、および第２伸張データθ_Ｓ２を送信すること（アクション７９１）を含む。図２に示すように、第１圧縮ビデオフレームサブセットＳ_１、第２圧縮ビデオフレームサブセットＳ_２、第１伸張データθ_Ｓ１、および第２伸張データθ_Ｓ２は、システム１００の処理ハードウェア１０４によって実行される、ＭＬモデルベースビデオエンコーダ１０８／２０８によって、通信ネットワーク１１０およびネットワーク通信リンク１１２を介して、アクション７９１において、ＭＬモデルベースビデオデコーダ１３８／２３８／４３８に送信することができる。

フローチャート７９０は、第１圧縮ビデオフレームサブセットＳ_１、第２圧縮ビデオフレームサブセットＳ_２、第１伸張データθ_Ｓ１、および第２伸張データθ_Ｓ２を受信すること（アクション７９２）を、更に含む。図２に示すように、第１圧縮ビデオフレームサブセットＳ_１、第２圧縮ビデオフレームサブセットＳ_２、第１伸張データθ_Ｓ１、および第２伸張データθ_Ｓ２は、アクション７９２において、ＭＬモデルベースビデオデコーダ１３８／２３８／４３８によって受信することができる。いくつかの実装形態では、ＭＬモデルベースビデオデコーダは、ユーザシステムの処理ハードウェア１２４によって実行することができる。しかしながら、また図１を参照して上述したように、いくつかの実装形態では、ユーザシステム１２０は、システム１００のダム端末周辺構成要素であってもよい。それらの後者の実装形態では、ＭＬモデルベースビデオデコーダ１３８／２３８／４３８は、システム１００の機能として含まれ、アクション７９２を実行するために、システム１００の処理ハードウェア１０４によって実行することができる。

フローチャート７９０は、第１伸張データθ_Ｓ１を使用して第１圧縮ビデオフレームサブセットＳ_１を復号化すること（アクション７９３）を、更に含む。上述のように、アクション７９３における、第１伸張データθ_Ｓ１を使用して第１圧縮ビデオフレームサブセットＳ_１を復号化することは、ユーザシステムの処理ハードウェア１２４によって、またはシステム１００の処理ハードウェア１０４によって実行されるＭＬモデルベースビデオデコーダ１３８／２３８／４３８によって実行することができる。

いくつかの実装形態では、上述のように、ＭＬモデルベースビデオデコーダ１３８／２３８／４３８は、例えばマイクロＲＮなどのＮＮを含むことができる。ＭＬモデルベースビデオデコーダ１３８／２３８／４３８がマイクロＲＮを含む実装形態では、第１伸張データθ_Ｓ１は、第１圧縮ビデオフレームサブセットＳ_１を復号化する際に使用する、そのマイクロＲＮの重みのみを含むことができる。さらに、いくつかの実装形態では、第１圧縮ビデオフレームサブセットＳ_１をその全体で復号化するために、第１伸張データθ_Ｓ１を一度だけ受信することができる。

フローチャート７９０は、第２伸張データθ_Ｓ２を使用して第２圧縮ビデオフレームサブセットＳ_２を復号化すること（アクション７９４）を、更に含む。上述のように、アクション７９４における、第２伸張データθ_Ｓ２を使用して第２圧縮ビデオフレームサブセットＳ_２を復号化することは、ユーザシステムの処理ハードウェア１２４によって、またはシステム１００の処理ハードウェア１０４によって実行されるＭＬモデルベースビデオデコーダ１３８／２３８／４３８によって実行することができる。

ＭＬモデルベースビデオデコーダ１３８／２３８／４３８がマイクロＲＮを含む実装形態では、第２伸張データθ_Ｓ２は、第２圧縮ビデオフレームサブセットＳ_２を復号化する際に使用する、そのマイクロＲＮの重みのみを含むことができる。さらに、いくつかの実装形態では、第２圧縮ビデオフレームサブセットＳ_２をその全体で復号化するために、第２伸張データθ_Ｓ２を一度だけ受信することができる。

フローチャート７９０は、アクション７９３に続くものとしてアクション７９４を描いている。しかしながら、その表現は単に例として提供されているに過ぎないことに留意されたい。いくつかの実装形態では、アクション７９３における、第１伸張データθ_Ｓ１を使用する第１圧縮ビデオフレームサブセットＳ_１の復号化、およびアクション７９４における、第２伸張データθ_Ｓ２を使用する第２圧縮ビデオフレームサブセットＳ_２の復号化は、並行して、すなわち、実質的に同時に実行されてもよい。

ＭＬモデルベースビデオエンコーダ１０８／２０８とＭＬモデルベースビデオデコーダ１３８／２３８／４３８との組み合わせについて、以下に留意されたい。ＭＬモデルベースビデオエンコーダ１０８／２０８は、ＨｉＦｉＣエンコーダとして実装することができる。一方、ＭＬモデルベースビデオデコーダ１３８／２３８／４３８は、例えば１０倍少ないパラメータのような、ＨｉＦｉＣデコーダ、すなわち第１伸張データθ_Ｓ１および第２伸張データθ_Ｓ２を使用しない大きなデコーダよりも少ないパラメータを有するように構成される。さらに、ＭＬモデルベースビデオデコーダ１３８／２３８／４３８は、ＨｉＦｉＣデコーダ、すなわち第１伸張データθ_Ｓ１および第２伸張データθ_Ｓ２を使用しない大きなデコーダよりも、例えば５０パーセント（５０％）速い復号時間などである、より速い復号時間を達成するように構成することができる。

図６および図７に記載されたアクションに関して、多様な実装形態において、フローチャート６８０のアクション６８１、６８２、６８３、６８４、６８５、および６８６（以下「アクション６８１～６８６」）、またはアクション６８１～６８６およびフローチャート７９０のアクション７９１、またはアクション６８１～６８６、７９１、７９２、７９３、および７９４は、人間の参加を省略できる自動化された処理として、実行できることに留意されたい。

したがって、本出願は、知識蒸留（ＫＤ）およびマイクロドージングに基づくＭＬモデルベースのビデオ圧縮ソリューションを含むフレームワークを開示し、低ビットレートのビデオ圧縮をターゲットとする場合に特に重要なトレーニング済ＧＡＮと同様のハルシネーション能力を有するビデオ圧縮コーデックの使用を可能にするものである。さらに、本出願は、デコーダのサイズを縮小しながら、良好な知覚画像品質を保持することを可能にするアプローチを開示する。本発明の新規かつ発明的な原理によれば、ＫＤの目標は、教師役ネットワークの学習された知識を、教師役ネットワークの性能に対して競争力を維持する、より小さな生徒役ネットワークに転送することである。必要とするのが、最初の教師役ネットワークよりも少ないメモリと計算能力であることによって、生徒役ネットワークを、有利にも、携帯電話または専用デバイスなどのパワーの劣るデバイス上で動かすことができる。上記に開示したように、自動エンコーダ設定において、生成器ネットワークまたはデコーダを圧縮する能力は、メモリ要件と計算効率の両方において有利である。

以上の説明から、本出願に記載の概念を実施するために、それらの概念の範囲から逸脱することなく、様々な技術を使用可能であることが明らかである。さらに、特定の実装形態を具体的に参照して概念を説明してきたが、当業者は、それらの概念の範囲から逸脱することなく、形態および詳細に変更を行うことができることを認識するであろう。それ故、説明されている実装形態は、あらゆる点で例示的であり、制限的ではないとみなされる。また、本出願は、本明細書に記載の特定の実装形態に限定されず、本開示の範囲から逸脱することなく多くの再構成、修正、および置換が可能であることも理解されたい。

Claims

システム（１００）であって、
機械学習（ＭＬ）モデルベースビデオエンコーダ（１０８，２０８）、および、
劣化認識ブロックに基づくマイクロ残差ネットワーク（マイクロＲＮ）（４６０）を備えた機械学習（ＭＬ）モデルベースビデオデコーダ（１３８，２３８，４３８）であって、前記マイクロ残差ネットワークは、前記マイクロ残差ネットワークの隠れチャンネルの数および劣化認識ブロックの数によって定義される、前記機械学習（ＭＬ）モデルベースビデオデコーダを備え、
前記ＭＬモデルベースビデオエンコーダは、
複数のビデオフレームを含む非圧縮ビデオシーケンス（１１６，２１６）を受信し、
前記複数のビデオフレームのうちから、第１ビデオフレームサブセットおよび第２ビデオフレームサブセットを決定し、
第１圧縮ビデオフレームサブセットを制作するために、前記第１ビデオフレームサブセットを符号化し、
前記第１圧縮ビデオフレームサブセットのための第１伸張データを識別し、
第２圧縮ビデオフレームサブセットを制作するために、前記第２ビデオフレームサブセットを符号化し、および、
前記第２圧縮ビデオフレームサブセットのための第２伸張データを識別するように構成される、システム。
請求項１に記載のシステムであって、前記第１伸張データを識別することは、前記第１ビデオフレームサブセットを符号化する間に、前記第１伸張データをオーバーフィットさせることを含み、前記第２ビデオフレームサブセットを符号化する間に、前記第２伸張データをオーバーフィットさせることを含む、システム。
請求項１に記載のシステムであって、
前記ＭＬモデルベースビデオエンコーダは、
前記ＭＬモデルベースビデオデコーダに、前記第１圧縮ビデオフレームサブセット、前記第２圧縮ビデオフレームサブセット、前記第１伸張データ、および前記第２伸張データを送信するように更に構成され、
前記ＭＬモデルベースビデオデコーダは、
前記第１圧縮ビデオフレームサブセット、前記第２圧縮ビデオフレームサブセット、前記第１伸張データ、および前記第２伸張データを受信し、
前記第１伸張データを使用して、前記第１圧縮ビデオフレームサブセットを復号化し、
および、
前記第２伸張データを使用して、前記第２圧縮ビデオフレームサブセットを復号化するように構成される、システム。
請求項３に記載のシステムであって、前記第１伸張データは、前記第１圧縮ビデオフレームサブセットの復号化に固有であるが、前記第２圧縮ビデオフレームサブセットの復号化には固有ではなく、また、前記第２伸張データは、前記第２圧縮ビデオフレームサブセットの復号化に固有であるが、前記第１圧縮ビデオフレームサブセットの復号化には固有ではない、システム。
請求項３に記載のシステムであって、前記第１伸張データおよび前記第２伸張データは前記マイクロＲＮ４６０の重みのみを含む、システム。
請求項３に記載のシステムであって、前記ＭＬモデルベースビデオエンコーダは高忠実度圧縮（ＨｉＦｉＣ）エンコーダを備え、前記ＭＬモデルベースビデオデコーダは、前記第１伸張データおよび前記第２伸張データを使用しないＨｉＦｉＣデコーダよりも少ないパラメータを含む、システム。
請求項３に記載のシステムであって、前記ＭＬモデルベースビデオエンコーダはＨｉＦｉＣエンコーダを備え、前記ＭＬモデルベースビデオデコーダは、前記第１伸張データおよび前記第２伸張データを使用しないＨｉＦｉＣデコーダよりも早い復号時間を達成するように構成される、システム。
請求項３に記載のシステムであって、前記第１圧縮ビデオフレームサブセットを復号化するために、前記第１伸張データが一度だけ受信され、前記第２圧縮ビデオフレームサブセットを復号化するために、前記第２伸張データが一度だけ受信される、システム。
機械学習（ＭＬ）モデルベースビデオエンコーダ、および、劣化認識ブロックに基づくマイクロ残差ネットワーク（マイクロＲＮ）（４６０）を備えた機械学習（ＭＬ）モデルベースビデオデコーダ（１３８，２３８，４３８）であって、前記マイクロ残差ネットワークは、前記マイクロ残差ネットワークの隠れチャンネルの数および劣化認識ブロックの数によって定義される、前記機械学習（ＭＬ）モデルベースビデオデコーダを含むシステムによって使用する方法であって、前記方法は、
複数のビデオフレームを含む非圧縮ビデオシーケンスを、前記ＭＬモデルベースビデオエンコーダによって受信するステップと、
前記複数のビデオフレームのうちから、第１ビデオフレームサブセットおよび第２ビデオフレームサブセットを、前記ＭＬモデルベースビデオエンコーダによって決定するステップと、
第１圧縮ビデオフレームサブセットを制作するために、前記第１ビデオフレームサブセットを、前記ＭＬモデルベースビデオエンコーダによって符号化するステップと、
前記第１圧縮ビデオフレームサブセットのための第１伸張データを、前記ＭＬモデルベースビデオエンコーダによって識別するステップと、
第２圧縮ビデオフレームサブセットを制作するために、前記第２ビデオフレームサブセットを、前記ＭＬモデルベースビデオエンコーダによって符号化するステップと、
前記第２圧縮ビデオフレームサブセットのための第２伸張データを、前記ＭＬモデルベースビデオエンコーダによって識別するステップと、を含む、方法。
請求項９に記載の方法であって、前記第１伸張データを識別するステップは、前記第１ビデオフレームサブセットを前記符号化するステップの間に、前記第１伸張データをオーバーフィットさせるステップを含み、前記第２伸張データを識別するステップは、前記第２ビデオフレームサブセットを前記符号化するステップの間に、前記第２伸張データをオーバーフィットさせるステップを含む、方法。
請求項９に記載の方法であって、前記方法は、
前記ＭＬモデルベースビデオデコーダに、第１圧縮ビデオフレームサブセット、第２圧縮ビデオフレームサブセット、第１伸張データ、および第２伸張データを、前記ＭＬモデルベースビデオエンコーダによって送信するステップと、
第１圧縮ビデオフレームサブセット、第２圧縮ビデオフレームサブセット、第１伸張データ、および第２伸張データを、前記ＭＬモデルベースビデオデコーダによって受信するステップと、
前記第１伸張データを使用して、前記第１圧縮ビデオフレームサブセットを、前記ＭＬモデルベースビデオデコーダによって復号化するステップと、
前記第２伸張データを使用して、前記第２圧縮ビデオフレームサブセットを、前記ＭＬモデルベースビデオデコーダによって復号化するステップと、を更に含む、方法。
請求項１１に記載の方法であって、前記第１伸張データは、前記第１圧縮ビデオフレームサブセットの復号化に固有であるが、前記第２圧縮ビデオフレームサブセットの復号化には固有ではなく、また、前記第２伸張データは、前記第２圧縮ビデオフレームサブセットの復号化に固有であるが、前記第１圧縮ビデオフレームサブセットの復号化には固有でない、方法。
請求項１１に記載の方法であって、前記第１伸張データおよび前記第２伸張データは前記マイクロＲＮ４６０の重みのみを含む、方法。
請求項１１に記載の方法であって、前記ＭＬモデルベースビデオエンコーダは高忠実度圧縮（ＨｉＦｉＣ）エンコーダを備え、前記ＭＬモデルベースビデオデコーダは、前記第１伸張データおよび前記第２伸張データを使用しないＨｉＦｉＣデコーダよりも少ないパラメータを含む、方法。
請求項１１に記載の方法であって、前記ＭＬモデルベースビデオエンコーダはＨｉＦｉＣエンコーダを備え、前記ＭＬモデルベースビデオデコーダは、前記第１伸張データおよび前記第２伸張データを使用しないＨｉＦｉＣデコーダよりも早い復号時間を達成するように構成する、方法。
請求項１１に記載の方法であって、前記第１圧縮ビデオフレームサブセットを復号化するために、前記第１伸張データを一度だけ受信し、前記第２圧縮ビデオフレームサブセットを復号化するために、前記第２伸張データを一度だけ受信する、方法。