JP7196331B2 - ニューラルネットワークを更新するための方法および装置 - Google Patents
ニューラルネットワークを更新するための方法および装置 Download PDFInfo
- Publication number
- JP7196331B2 JP7196331B2 JP2021549873A JP2021549873A JP7196331B2 JP 7196331 B2 JP7196331 B2 JP 7196331B2 JP 2021549873 A JP2021549873 A JP 2021549873A JP 2021549873 A JP2021549873 A JP 2021549873A JP 7196331 B2 JP7196331 B2 JP 7196331B2
- Authority
- JP
- Japan
- Prior art keywords
- parameters
- neural network
- media data
- updating
- media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本願は、以下の優先権出願の優先権を主張する:すなわち、2019年3月15日に出願された米国仮出願第62/818,879号(参照番号:D19009USP1)および2019年5月15日に出願された欧州特許出願第19174542.1号(参照番号:D19009EP)であり、これらはここに参照により組み込まれる。
本開示は、概括的には、デコーダ内のニューラルネットワークを更新するためのパラメータを伝送するためのメディアビットストリームを生成すること、およびデコーダによって前記ニューラルネットワークを更新することのための方法および装置に関する。
第2の例では、メディアデータ側層および/または出力層の重みを更新するためのパラメータのみが決定される。すなわち、他の層についてはパラメータが決定されない。
本開示の文脈において、深層ニューラルネットワークは、オーディオおよび/またはビデオメディアデータを処理するために使用されうる。オーディオについては、ニューラルネットワークの可能な応用は、メディア解析、メディア向上(たとえば、符号化オーディオ向上)、メディア分類(発話、映画、音楽、拍手など)、メディア生成(たとえば、欠けているメディアデータを、または完全に新しいメディアデータを生成する深層生成モデル(deep generative model))、またはダイアログ向上を含む。ビデオについては、ニューラルネットワークの可能な応用は、ブロック化解除または動き向上(たとえば、スポーツ番組の場合)を含む。
いくつかの実施形態において、パラメータの前記少なくとも1つの集合は、構文要素の集合に基づいてエンコードされてもよい。構文要素は、生成されたメディアビットストリーム内のパラメータの前記少なくとも1つの集合を伝送(転送)することを許容でき、さらに、デコーダがニューラルネットワークを更新することを許容できる。いくつかの実施形態では、構文要素の集合は、デコーダによって受領され、デコーダによってパラメータの前記少なくとも1つの集合を用いてニューラルネットワークを更新することは、受領された構文要素の集合に基づいていてもよい。
neural_network_idは、更新されなければならないデコーダ内のニューラルネットワークを識別するために使用されてもよい。
nn_update_byteは、特定のフォーマットで、ニューラルネットワークを更新するためのパラメータの前記少なくとも1つの集合を担持するために使用されてもよい。
upd_typeは、パラメータの前記少なくとも1つの集合を用いて実行される更新のタイプを識別するために使用されてもよく、これは、たとえば、以下の可能性がある:
0‐相対更新(伝送された値が、勾配を含み、もとの重みから加算または減算される)
1‐絶対更新(伝送された値がもとの重みを置き換えてもよい)
注意すべきことに、相対更新および絶対更新に対する0および1の割り当ては、限定しない例であり、実装によっては、割り当ては逆でもよい。現在のコンテキストで重要なのは、upd_typeが何らかの仕方で相対的な更新と絶対的な更新を示しうることである。
update_idは、実行される更新のためのパラメータの集合を識別するために、すなわち、更新パラメータの異なる集合の間の区別をするために使用されてもよい。これにより、更新パラメータの異なる集合からのパラメータの混同を避けることができる。一般に、これらの構文要素は、実行されるべきニューラルネットワークのそれぞれの更新のためのパラメータのそれぞれの集合を識別する一つまたは複数の構文要素を含んでいてもよい。
number_of_upd_packagesは、関連するneural_network_idについての更新パッケージの総数を信号伝達する。パラメータの前記少なくとも1つの集合を用いた更新は、デコーダ(クライアント)がその更新のための関連するすべてのパッケージを受領した場合にのみ適用されうる。
upd_sequence_counterは、関連する更新のための特定のパッケージを識別するために使用されてもよい。
nn_update_byteは、パラメータ(たとえば、重みの更新)の前記少なくとも1つの集合を担持するために使用されてもよい。これらのバイトのフォーマットはneural_network_idと、upd_typeのような他の値とに依存してもよい。
layer_idは、重みが更新されなければならない層を識別するために使用されてもよい。
weight_num_in_layerは、層内のどの重みが更新される必要があるかを識別するために使用されてもよい。
weight_valueは、更新されなければならない重みの値を担持するために使用されてもよい。それは、upd_typeの値、すなわち、相対更新か絶対更新かに依存して解釈されてもよい。
upd_type=0であれば、符号付バイト
upd_type=1であれば、符号なしバイト
ここでもまた、0および1の割り当ては、限定しない例であると理解される。
拡張機構を定義していることが活用されてもよい。以下の例に示されるように、充填要素(Fill Element)ID_FIL内に含まれる最上位の構文(シンタックス)要素extension_payloadがある。
ニューラルネットワークの構造は限定されないが、ニューラルネットワークは層構造(多層構造)を有してもよい。そのような層構造は、以下の限定しない例に基づいて説明される。
1/入力:生のオーディオデータ
3/エンコーダ層L=1:フィルタ数N=16、フィルタサイズ=31、活性化=PreLU
4/エンコーダ層L=2:フィルタ数N=32、フィルタサイズ=31、活性化=PreLU
.
.
.
5/エンコーダ層L=11:フィルタ数N=512、フィルタサイズ=31
6/エンコーダ層L=12:フィルタ数N=1024、フィルタサイズ=31
12/符号化されたオーディオ特徴空間
7/デコーダ層L=1:フィルタ数N=512、フィルタサイズ=31
.
.
.
8/デコーダ層L=10:フィルタ数N=32、フィルタサイズ=31、活性化PreLU
9/デコーダ層L=11:フィルタ数N=16、フィルタサイズ=31、活性化PreLU
10/出力層:フィルタ数N=1、フィルタサイズ=31、活性化tanh
11/出力:向上されたオーディオデータ
2/スキップ接続
。
特に断りのない限り、以下の議論から明らかなように、本開示を通じて、「処理」、「コンピューティング」、「計算」、「決定」、「解析」などの用語を使用する議論は、コンピュータまたは計算システム、または同様の電子計算装置のアクションおよび/またはプロセスであって、電子的な量のような物理的な量として表わされるデータを操作および/または変換して、物理的な量として同様に表わされる他のデータにするものを指すことが理解される。
デコーダにおいて実装されたニューラルネットワークを更新するためのパラメータを伝送するためのメディアビットストリームを生成する方法であって、当該方法は:
(a)前記ニューラルネットワークを更新するためのパラメータの少なくとも1つの集合を決定するステップと;
(b)パラメータの前記少なくとも1つの集合およびメディアデータをエンコードして前記メディアビットストリームを生成するステップと;
(c)前記ニューラルネットワークをパラメータの前記少なくとも1つの集合を用いて更新するために、前記デコーダに前記メディアビットストリームを伝送するステップとを含む、
方法。
〔EEE2〕
前記メディアデータは、オーディオデータおよび/またはビデオデータの一つまたは複数を含む、EEE1に記載の方法。
〔EEE3〕
パラメータの前記少なくとも1つの集合は、構文要素の集合に基づいてエンコードされる、EEE1またはEEE2に記載の方法。
〔EEE4〕
ステップ(a)において、前記ニューラルネットワークを更新するためのパラメータの2つ以上の集合が決定され、構文要素の前記集合は、実行される前記ニューラルネットワークのそれぞれの更新のためのパラメータのそれぞれの集合を同定する一つまたは複数の構文要素を含む、EEE3に記載の方法。
〔EEE5〕
前記デコーダにおいて実装される前記ニューラルネットワークは、メディアデータの処理のために使用され、前記メディアビットストリームにおいて、前記ニューラルネットワークを更新するためのパラメータの前記少なくとも1つの集合は、前記ニューラルネットワークによって処理される前記メディアデータと時間整列される、EEE1ないし4のうちいずれか一項に記載の方法。
〔EEE6〕
パラメータの前記少なくとも1つの集合は、コーデック・モード、前記メディアデータの内容、およびエンコード制約条件のうちの一つまたは複数に基づいて決定される、EEE5に記載の方法。
〔EEE7〕
前記コーデック・モードは、ビットレート、ビデオおよび/またはオーディオ・フレームレート、および使用されるコア・コーデックのうちの一つまたは複数を含む、EEE6に記載の方法。
〔EEE8〕
メディアデータの内容は、発話、音楽、および拍手のうちの一つまたは複数を含む、EEE6またはEEE7に記載の方法。
〔EEE9〕
前記エンコード制約条件は、パフォーマンス・スケーラビリティについての制約条件および適応処理についての制約条件のうちの一つまたは複数を含む、EEE6ないし8のうちいずれか一項に記載の方法。
〔EEE10〕
前記メディアデータはMPEG-HオーディオまたはMPEG-Iオーディオ・フォーマットであり、前記メディアビットストリームはMHASフォーマットのパケット化されたメディアビットストリームである、EEE1ないし9のうちいずれか一項に記載の方法。
〔EEE11〕
パラメータの前記少なくとも1つの集合は、パラメータの前記少なくとも1つの集合を、新規のMHASパケットタイプの一つまたは複数のMHASパケットにカプセル化することによってエンコードされる、EEE10に記載の方法。
〔EEE12〕
前記メディアデータが、AC-4、AC-3またはEAC-3フォーマットである、EEE1ないし11のうちいずれか一項に記載の方法。
〔EEE13〕
パラメータの前記少なくとも1つの集合は、一つまたは複数のペイロード要素として前記メディアビットストリームにおいてエンコードされる、EEE12に記載の方法。
〔EEE14〕
前記メディアデータは、MPEG-4またはMPEG-D USACフォーマットである、EEE1ないし13のうちいずれか一項に記載の方法。
〔EEE15〕
パラメータの前記少なくとも1つの集合は、一つまたは複数のペイロード要素として、または一つまたは複数のデータストリーム要素として、前記メディアビットストリームにおいてエンコードされる、EEE14に記載の方法。
〔EEE16〕
前記ニューラルネットワークは層構造を有しており、パラメータの前記少なくとも1つの集合は、前記ニューラルネットワークの、少なくともメディアデータ側層および/または出力層の重みを更新するためのパラメータを含む、EEE1ないし15のうちいずれか一項に記載の方法。
〔EEE17〕
デコーダにおいて実装されるニューラルネットワークを更新する方法であって、当該方法は:
(a)メディアデータと、前記ニューラルネットワークを更新するためのパラメータの少なくとも1つの集合とを含む符号化メディアビットストリームを受領するステップと;
(b)受領されたメディアビットストリームをデコードして、デコードされたメディアデータと、前記ニューラルネットワークを更新するためのパラメータの前記少なくとも1つの集合とを取得するステップと;
(c)前記デコーダによって、パラメータの前記少なくとも1つの集合を用いて前記ニューラルネットワークを更新するステップとを含む、
方法。
〔EEE18〕
前記メディアデータは、オーディオデータおよび/またはビデオデータの一つまたは複数を含む、EEE17に記載の方法。
〔EEE19〕
当該方法は、さらに、構文要素の集合を受領し、前記デコーダによって、パラメータの前記少なくとも1つの集合を用いて前記ニューラルネットワークを更新することを含み、前記デコーダによって、パラメータの前記少なくとも1つの集合を用いて前記ニューラルネットワークを更新することは、受領された構文要素の集合に基づく、EEE17またはEEE18に記載の方法。
〔EEE20〕
ステップ(a)において、前記ニューラルネットワークを更新するためのパラメータの2つ以上の集合が、受領された符号化メディアビットストリームに含まれ、受領された構文要素の集合は、実行される前記ニューラルネットワークのそれぞれの更新のためのパラメータのそれぞれの集合を識別する一つまたは複数の構文要素を含む、EEE19に記載の方法。
〔EEE21〕
前記ニューラルネットワークは、メディアデータの処理のために使用され、受領された符号化メディアビットストリームにおいて、パラメータの前記少なくとも1つの集合は、前記ニューラルネットワークによって処理されるメディアデータと時間整列される、EEE17ないし20のうちいずれか一項に記載の方法。
〔EEE22〕
前記ニューラルネットワークは、層構造を有しており、前記ニューラルネットワークの、少なくともメディアデータ側層および/または出力層の重みは、前記デコーダによって、パラメータの前記少なくとも1つの集合を用いて更新される、EEE17ないし21のうちいずれか一項に記載の方法。
〔EEE23〕
デコーダにおいて実装されるニューラルネットワークを更新するためのパラメータを伝送するためのメディアビットストリームを生成するための装置であって、当該装置は:
(a)前記ニューラルネットワークを更新するためのパラメータの少なくとも1つの集合を決定するステップと;
(b)パラメータの前記少なくとも1つの集合およびメディアデータをエンコードして、前記メディアビットストリームを生成するステップと;
(c)パラメータの前記少なくとも1つの集合を用いて前記ニューラルネットワークを更新するために、前記メディアビットストリームを前記デコーダに伝送するステップを含む方法を実行するように構成されたプロセッサを含む、
装置。
〔EEE24〕
デコーダにおいて実装されるニューラルネットワークを更新するための装置であって、当該装置は、
(a)メディアデータと、前記ニューラルネットワークを更新するためのパラメータの少なくとも1つの集合とを含む符号化メディアビットストリームを受領するための受領器と;
(b)受領されたメディアビットストリームをデコードして、デコードされたメディアデータと、前記ニューラルネットワークを更新するためのパラメータの前記少なくとも1つの集合とを得るためのデコーダと;
(c)パラメータの前記少なくとも1つの集合を用いて前記ニューラルネットワークを更新するための更新器とを含む、
装置。
〔EEE25〕
前記受領器は、さらに、構文要素の集合を受領し、前記更新器は、前記構文要素の集合に基づいて、パラメータの前記少なくとも1つの集合を用いて前記ニューラルネットワークを更新する、EEE24に記載の装置。
〔EEE26〕
前記ニューラルネットワークを更新するためのパラメータの2つ以上の集合が、前記受領器によって受領される前記符号化メディアビットストリームに含まれており、前記受領された構文要素の集合は、実行される前記ニューラルネットワークのそれぞれの更新のためのパラメータのそれぞれの集合を識別する一つまたは複数の構文要素を含む、EEE25に記載の装置。
〔EEE27〕
処理能力を有する装置によって実行されたときに、該装置に、EEE1ないし16のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を有するコンピュータ・プログラム・プロダクト。
〔EEE28〕
処理能力を有する装置によって実行されたときに、該装置に、EEE17ないし22のうちいずれか一項に記載の方法を実行させるように適応された命令を有するコンピュータ読み取り可能な記憶媒体を有するコンピュータ・プログラム・プロダクト。
Claims (19)
- デコーダにおいて実装されたニューラルネットワークを更新するためのパラメータを伝送するためのメディアビットストリームを生成する方法であって、前記ニューラルネットワークは少なくとも3つの層を有し、前記少なくとも3つの層のうちの最初の層としてメディアデータ側層をもち、前記少なくとも3つの層のうちの最後の層として出力層をもち、当該方法は:
(a)前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータを含む、前記ニューラルネットワークの前記少なくとも3つの層の重みを更新するためのパラメータの少なくとも1つの集合を決定するステップと;
(b)前記ニューラルネットワークの前記少なくとも3つの層の重みを更新するためのパラメータの前記少なくとも1つの集合のうち、前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータのみと、オーディオデータおよび/またはビデオデータの一つまたは複数を含むメディアデータとをエンコードすることによって前記メディアビットストリームを生成するステップと;
(c)前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータを用いて前記ニューラルネットワークを更新するために、前記デコーダに前記メディアビットストリームを伝送するステップとを含む、
方法。 - パラメータの前記少なくとも1つの集合は、構文要素の集合に基づいてエンコードされる、請求項1に記載の方法。
- ステップ(a)において、前記ニューラルネットワークを更新するためのパラメータの2つ以上の集合が決定され、構文要素の前記集合は、実行される前記ニューラルネットワークのそれぞれの更新のためのパラメータのそれぞれの集合を同定する一つまたは複数の構文要素を含む、請求項2に記載の方法。
- 前記デコーダにおいて実装される前記ニューラルネットワークは、メディアデータの処理のために使用され、前記メディアビットストリームにおいて、前記ニューラルネットワークを更新するためのパラメータの前記少なくとも1つの集合は、前記ニューラルネットワークによって処理されるメディアデータと時間整列される、請求項1ないし3のうちいずれか一項に記載の方法。
- パラメータの前記少なくとも1つの集合は、コーデック・モード、前記メディアデータの内容、およびエンコード制約条件のうちの一つまたは複数に基づいて決定される、請求項4に記載の方法。
- 前記コーデック・モードは、ビットレート、ビデオおよび/またはオーディオ・フレームレート、および使用されるコア・コーデックのうちの一つまたは複数を含む、請求項5に記載の方法。
- メディアデータの内容は、発話、音楽、および拍手のうちの一つまたは複数を含む、請求項5または請求項6に記載の方法。
- 前記エンコード制約条件は、パフォーマンス・スケーラビリティについての制約条件および適応処理についての制約条件のうちの一つまたは複数を含む、請求項5ないし7のうちいずれか一項に記載の方法。
- パラメータの前記少なくとも1つの集合は、前記メディアビットストリームにおいて、それぞれの更新されたニューラルネットワークによって処理されるべきメディアデータより前に含められる、請求項5ないし8のうちいずれか一項に記載の方法。
- 前記メディアデータはMPEG-HオーディオまたはMPEG-Iオーディオ・フォーマットであり、前記メディアビットストリームはMHASフォーマットのパケット化されたメディアビットストリームである、請求項1ないし9のうちいずれか一項に記載の方法。
- パラメータの前記少なくとも1つの集合は、パラメータの前記少なくとも1つの集合を、新規のMHASパケットタイプの一つまたは複数のMHASパケットにカプセル化することによってエンコードされる、請求項10に記載の方法。
- 前記メディアデータが、AC-4、AC-3、EAC-3フォーマット、MPEG-4またはMPEG-D USACフォーマットである、請求項1ないし11のうちいずれか一項に記載の方法。
- パラメータの前記少なくとも1つの集合は、一つまたは複数のペイロード要素として前記メディアビットストリームにおいてエンコードされる、請求項12に記載の方法。
- パラメータの前記少なくとも1つの集合は、一つまたは複数のペイロード要素または一つまたは複数のデータストリーム要素として、前記メディアビットストリームにおいてエンコードされる、請求項13に記載の方法。
- パラメータの前記少なくとも1つの集合は、重みを更新するための前記パラメータが相対値を表すか絶対値を表すかを識別する識別子を含む、請求項1ないし14のうちいずれか一項に記載の方法。
- デコーダにおいて実装されるニューラルネットワークを更新する方法であって、前記ニューラルネットワークは少なくとも3つの層を有し、前記少なくとも3つの層のうちの最初の層としてメディアデータ側層をもち、前記少なくとも3つの層のうちの最後の層として出力層をもち、当該方法は:
(a)メディアデータと、前記ニューラルネットワークの前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータとを含む符号化メディアビットストリームを受領するステップと;
(b)受領されたメディアビットストリームをデコードして、デコードされたメディアデータと、前記ニューラルネットワークの前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータとを取得するステップと;
(c)前記デコーダによって、前記ニューラルネットワークの前記メディアデータ側層および/または前記出力層の重みを更新するための受領されたパラメータを用いて前記メディアデータ側層および/または前記出力層を更新するステップとを含む、
方法。 - デコーダにおいて実装されるニューラルネットワークを更新するためのパラメータを伝送するためのメディアビットストリームを生成するための装置であって、前記ニューラルネットワークは少なくとも3つの層を有し、前記少なくとも3つの層のうちの最初の層としてメディアデータ側層をもち、前記少なくとも3つの層のうちの最後の層として出力層をもち、当該装置は:
(a)前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータを含む、前記ニューラルネットワークの前記少なくとも3つの層の重みを更新するためのパラメータの少なくとも1つの集合を決定するステップと;
(b)前記ニューラルネットワークの前記少なくとも3つの層の重みを更新するためのパラメータの前記少なくとも1つの集合のうち、前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータのみと、オーディオデータおよび/またはビデオデータの一つまたは複数を含むメディアデータとをエンコードすることによって前記メディアビットストリームを生成するステップと;
(c)前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータを用いて前記ニューラルネットワークを更新するために、前記デコーダに前記メディアビットストリームを伝送するステップとを含む方法を実行するように構成されたプロセッサを含む、
装置。 - デコーダにおいて実装されるニューラルネットワークを更新するための装置であって、前記ニューラルネットワークは少なくとも3つの層を有し、前記少なくとも3つの層のうちの最初の層としてメディアデータ側層をもち、前記少なくとも3つの層のうちの最後の層として出力層をもち、当該装置は:
(a)メディアデータと、前記ニューラルネットワークの前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータとを含む符号化メディアビットストリームを受領するように構成された受領器と;
(b)受領されたメディアビットストリームをデコードして、デコードされたメディアデータと、前記ニューラルネットワークの前記メディアデータ側層および/または前記出力層の重みを更新するためのパラメータとを取得するように構成されたデコーダと;
(c)前記ニューラルネットワークの前記メディアデータ側層および/または前記出力層の重みを更新するための受領されたパラメータを用いて前記メディアデータ側層および/または前記出力層を更新するように構成された更新器とを含む、
装置。 - 処理能力を有する装置に、請求項1ないし15のうちいずれか一項に記載の方法を実行させるためのコンピュータ・プログラム。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201962818879P | 2019-03-15 | 2019-03-15 | |
| US62/818,879 | 2019-03-15 | ||
| EP19174542 | 2019-05-15 | ||
| EP19174542.1 | 2019-05-15 | ||
| PCT/EP2020/055869 WO2020187587A1 (en) | 2019-03-15 | 2020-03-05 | Method and apparatus for updating a neural network |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022522685A JP2022522685A (ja) | 2022-04-20 |
| JP7196331B2 true JP7196331B2 (ja) | 2022-12-26 |
Family
ID=69699916
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021549873A Active JP7196331B2 (ja) | 2019-03-15 | 2020-03-05 | ニューラルネットワークを更新するための方法および装置 |
Country Status (5)
| Country | Link |
|---|---|
| US (2) | US12400113B2 (ja) |
| EP (2) | EP3938962B1 (ja) |
| JP (1) | JP7196331B2 (ja) |
| CN (2) | CN113508399B (ja) |
| WO (1) | WO2020187587A1 (ja) |
Families Citing this family (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11647212B2 (en) * | 2020-09-30 | 2023-05-09 | Qualcomm Incorporated | Activation function design in neural network-based filtering process for video coding |
| EP4289136A1 (en) * | 2021-02-05 | 2023-12-13 | Nokia Technologies Oy | High-level syntax for signaling neural networks within a media bitstream |
| CN116965029A (zh) * | 2021-02-25 | 2023-10-27 | 华为技术有限公司 | 使用卷积神经网络对图像进行译码的装置和方法 |
| US20240146938A1 (en) * | 2021-03-18 | 2024-05-02 | Nokia Technologies Oy | Method, apparatus and computer program product for end-to-end learned predictive coding of media frames |
| JP2022156140A (ja) * | 2021-03-31 | 2022-10-14 | シャープ株式会社 | 動画像符号化装置、復号装置 |
| CN112767956B (zh) * | 2021-04-09 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 音频编码方法、装置、计算机设备及介质 |
| US20220353521A1 (en) * | 2021-04-30 | 2022-11-03 | Tencent America LLC | Method and apparatus for content-adaptive online training in neural image compression |
| US12382061B2 (en) * | 2022-01-17 | 2025-08-05 | Nokia Technologies Oy | Predictive and residual coding of sparse signals for weight update compression |
| CN115188362B (zh) * | 2022-07-07 | 2025-02-07 | 百果园技术(新加坡)有限公司 | 语音合成模型生成方法及其装置、设备、介质、产品 |
| US12387097B2 (en) * | 2023-02-20 | 2025-08-12 | Lemon Inc. | Efficient video processing via temporal progressive learning |
| WO2024180650A1 (ja) * | 2023-02-28 | 2024-09-06 | 日本電信電話株式会社 | 学習装置、信号生成器、学習方法及びプログラム |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2016199330A1 (ja) | 2015-06-12 | 2016-12-15 | パナソニックIpマネジメント株式会社 | 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置 |
| WO2018150083A1 (en) | 2017-02-16 | 2018-08-23 | Nokia Technologies Oy | A method and technical equipment for video processing |
| WO2018163011A1 (ja) | 2017-03-09 | 2018-09-13 | 株式会社半導体エネルギー研究所 | 半導体装置および放送システム |
Family Cites Families (28)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0232679Y2 (ja) | 1985-03-19 | 1990-09-04 | ||
| JPH0232679A (ja) * | 1988-07-22 | 1990-02-02 | Hitachi Ltd | ニューラルネットによるデータ通信方法および装置 |
| US5907822A (en) * | 1997-04-04 | 1999-05-25 | Lincom Corporation | Loss tolerant speech decoder for telecommunications |
| US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
| KR100989222B1 (ko) * | 2002-01-30 | 2010-10-20 | 엔엑스피 비 브이 | 멀티미디어 데이터로부터의 인코딩된 스트림 세트를 제공하는 방법 및 인코더와, 클라이언트 애플리케이션에 인코딩된 스트림을 제공하는 서버와, 가변 대역폭을 갖는 네트워크상에서 멀티미디어 데이터를 스트리밍하는 송신기 |
| US7397848B2 (en) | 2003-04-09 | 2008-07-08 | Rambus Inc. | Partial response receiver |
| US7400588B2 (en) * | 2003-08-01 | 2008-07-15 | Thomson Licensing | Dynamic rate adaptation using neural networks for transmitting video data |
| US20110274162A1 (en) | 2010-05-04 | 2011-11-10 | Minhua Zhou | Coding Unit Quantization Parameters in Video Coding |
| WO2013006324A2 (en) | 2011-07-01 | 2013-01-10 | Dolby Laboratories Licensing Corporation | Audio playback system monitoring |
| EP3036702A4 (en) | 2013-08-19 | 2017-02-22 | Monster Worldwide, Inc. | Sourcing abound candidates apparatuses, methods and systems |
| PL3522554T3 (pl) * | 2014-05-28 | 2021-06-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Procesor danych i transport danych kontrolnych użytkownika do dekoderów audio i modułów renderowania |
| US11080587B2 (en) | 2015-02-06 | 2021-08-03 | Deepmind Technologies Limited | Recurrent neural networks for data item generation |
| US10573304B2 (en) | 2015-05-26 | 2020-02-25 | Katholieke Universiteit Leuven | Speech recognition system and method using an adaptive incremental learning approach |
| CN105142096B (zh) * | 2015-08-14 | 2018-10-19 | 湘潭大学 | 物联网中基于神经网络的跨媒体数据融合方法 |
| US10891540B2 (en) * | 2015-12-18 | 2021-01-12 | National Technology & Engineering Solutions Of Sandia, Llc | Adaptive neural network management system |
| US10014002B2 (en) * | 2016-02-16 | 2018-07-03 | Red Pill VR, Inc. | Real-time audio source separation using deep neural networks |
| GB2553351A (en) | 2016-09-05 | 2018-03-07 | Nokia Technologies Oy | Salient object detection |
| GB2555431A (en) | 2016-10-27 | 2018-05-02 | Nokia Technologies Oy | A method for analysing media content |
| KR102403494B1 (ko) | 2017-04-27 | 2022-05-27 | 에스케이텔레콤 주식회사 | 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법 |
| US11003995B2 (en) | 2017-05-19 | 2021-05-11 | Huawei Technologies Co., Ltd. | Semi-supervised regression with generative adversarial networks |
| US10810472B2 (en) | 2017-05-26 | 2020-10-20 | Oracle International Corporation | Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network |
| US10242292B2 (en) | 2017-06-13 | 2019-03-26 | Digital Surgery Limited | Surgical simulation for training detection and classification neural networks |
| KR101880901B1 (ko) | 2017-08-09 | 2018-07-23 | 펜타시큐리티시스템 주식회사 | 기계 학습 방법 및 장치 |
| US12406172B2 (en) | 2017-08-30 | 2025-09-02 | International Business Machines Corporation | Computational method for feedback in a hierarchical neural network |
| US10089383B1 (en) | 2017-09-25 | 2018-10-02 | Maana, Inc. | Machine-assisted exemplar based similarity discovery |
| US11019183B2 (en) | 2018-07-02 | 2021-05-25 | Intel Corporation | Network provenance with multi-interface translation |
| JP7019096B2 (ja) | 2018-08-30 | 2022-02-14 | ドルビー・インターナショナル・アーベー | 低ビットレート符号化オーディオの増強を制御する方法及び機器 |
| US10210861B1 (en) | 2018-09-28 | 2019-02-19 | Apprente, Inc. | Conversational agent pipeline trained on synthetic data |
-
2020
- 2020-03-05 WO PCT/EP2020/055869 patent/WO2020187587A1/en not_active Ceased
- 2020-03-05 JP JP2021549873A patent/JP7196331B2/ja active Active
- 2020-03-05 CN CN202080016829.4A patent/CN113508399B/zh active Active
- 2020-03-05 EP EP20707146.5A patent/EP3938962B1/en active Active
- 2020-03-05 CN CN202511404223.9A patent/CN121257603A/zh active Pending
- 2020-03-05 US US17/438,908 patent/US12400113B2/en active Active
- 2020-03-05 EP EP25217509.6A patent/EP4708145A3/en active Pending
-
2025
- 2025-08-01 US US19/288,333 patent/US20260111728A1/en active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2016199330A1 (ja) | 2015-06-12 | 2016-12-15 | パナソニックIpマネジメント株式会社 | 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置 |
| WO2018150083A1 (en) | 2017-02-16 | 2018-08-23 | Nokia Technologies Oy | A method and technical equipment for video processing |
| WO2018163011A1 (ja) | 2017-03-09 | 2018-09-13 | 株式会社半導体エネルギー研究所 | 半導体装置および放送システム |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2020187587A1 (en) | 2020-09-24 |
| CN121257603A (zh) | 2026-01-02 |
| US20260111728A1 (en) | 2026-04-23 |
| US20220156584A1 (en) | 2022-05-19 |
| CN113508399B (zh) | 2025-10-21 |
| JP2022522685A (ja) | 2022-04-20 |
| EP4708145A3 (en) | 2026-04-29 |
| EP4708145A2 (en) | 2026-03-11 |
| CN113508399A (zh) | 2021-10-15 |
| US12400113B2 (en) | 2025-08-26 |
| EP3938962B1 (en) | 2025-11-26 |
| EP3938962A1 (en) | 2022-01-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7196331B2 (ja) | ニューラルネットワークを更新するための方法および装置 | |
| US11589088B2 (en) | System and method for automatically selecting encoding/decoding for streaming media | |
| KR20210101233A (ko) | 미디어 아이템에 임베딩된 뉴럴 네트워크의 설명을 포함하는 렌더링 엔진 모델을 제공하기 위한 방법 및 장치 | |
| US12380897B2 (en) | Real-time packet loss concealment using deep generative networks | |
| CN112751820B (zh) | 使用深度学习实现数字语音丢包隐藏 | |
| US8509931B2 (en) | Progressive encoding of audio | |
| JP2022511156A (ja) | オーディオ信号及び関連するメタデータによる空間オーディオの表現 | |
| JP2023553664A (ja) | 事前設定されたジェネレータを用いたオーディオデータの処理の方法及び装置 | |
| JP5377287B2 (ja) | ポストフィルタ、復号装置およびポストフィルタ処理方法 | |
| CN116324982B (zh) | 一般媒体神经网络预测器和包括这种预测器的生成模型 | |
| CN103503462B (zh) | 实时转码方法及设备 | |
| EP4229556A1 (en) | Method and apparatus for audio processing using a nested convolutional neural network architecture | |
| CN115152241B (zh) | 用于媒体内容的自适应播放的方法和设备 | |
| EP4619941A1 (en) | Rate-adaptive codec for dynamic point cloud compression | |
| Konstantinov et al. | The use of asymmetric numeral systems entropy encoding in video compression | |
| EP2804094A1 (en) | A system and method for forwarding a graphics command stream | |
| US20240329915A1 (en) | Specifying loudness in an immersive audio package | |
| US20250131933A1 (en) | Packet loss concealment in an audio decoder | |
| Wu et al. | A scalable to lossless audio streaming system applicable to mobile devices | |
| WO2024134350A1 (en) | Rate-adaptive codec for dynamic point cloud compression | |
| CN116368495A (zh) | 使用嵌套卷积神经网络架构进行音频处理的方法和装置 | |
| Benamirouche et al. | A Dynamic FEC for Improved Robustness of CELP-Based Codec |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210825 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220830 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220906 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221107 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221108 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221115 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221214 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7196331 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |





