JP7764632B2

JP7764632B2 - ビデオ処理方法、装置、機器及び媒体

Info

Publication number: JP7764632B2
Application number: JP2024561603A
Authority: JP
Inventors: チェン，ルウショアン
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2022-06-21
Filing date: 2023-06-21
Publication date: 2025-11-05
Anticipated expiration: 2043-06-21
Also published as: WO2023246844A1; JP2025515439A; CN117336422A; US20250272800A1; EP4546767A1

Description

［関連出願の相互参照］
本願は、中国出願番号が２０２２１０７０５９８３．３であり、出願日が２０２２年６月２１日である出願を基礎としており、その優先権を主張し、該中国出願の全ての開示内容は参照により本出願に組み込まれる。

［技術分野］
本開示は、ビデオ処理技術分野に関し、特にビデオ処理方法、装置、機器及び媒体に関する。

ビデオ創作分野では、創作者は、一般的には、ニーズに応じてビデオ撮影を行う。撮影方式が異なる場合、得られるビデオ効果は異なる。場合によっては、創作者は、主体オブジェクトが鮮明で、背景がぶれてコマ落ち感を有するビデオ効果を撮影する必要がある。このようなビデオ効果は、プロの撮影道具を用いてスローシャッタ撮影を行い、及び／又はムービングシュートによって撮影を行う必要があることが多く、且つ、ビデオ創作者がしっかりとした撮影スキルを有する必要もあり、しかも適切な撮影シーンを要する。

本開示の実施例は、初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得ることと、ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行い、前記ターゲット画像群に対応する動きぼけ画像を得ることであって、前記複数の画像群における各画像群は、いずれも前記ターゲット画像群であることと、前記ターゲット画像群における指定フレーム画像に基づいて、前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を決定することと、前記主体オブジェクト領域と前記背景領域に応じて、前記動きぼけ画像と前記指定フレーム画像に対してフュージョンを行い、ターゲットフュージョン画像を得ることであって、前記ターゲットフュージョン画像の前記主体オブジェクト領域における画像部分は、前記指定フレーム画像の前記主体オブジェクト領域における画像部分であり、前記ターゲットフュージョン画像の前記背景領域における画像部分は、前記動きぼけ画像の前記背景領域における画像部分であることと、前記複数の画像群の各々に対応するターゲットフュージョン画像に基づいて、ターゲットビデオを生成することであって、前記複数の画像群の各々に対応するターゲットフュージョン画像の前記ターゲットビデオにおける再生順序は、前記複数の画像群の前記初期ビデオにおける再生順序と同じであることとを含む、ビデオ処理方法を提供する。

幾つかの実施例では、ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行うステップは、オプティカルフロー補間アルゴリズムを採用して前記ターゲット画像群における隣り合うフレーム画像間にいずれも指定された個数の中間フレーム画像を挿入し、フレーム挿入された前記ターゲット画像群における全てのフレーム画像を、前記ターゲット画像群における各フレーム画像を動きぼけ処理して得られた画像とすることと、前記各フレーム画像を動きぼけ処理して得られた画像に対して平均フュージョンを行うこととを含む。

幾つかの実施例では、オプティカルフロー補間アルゴリズムを採用して前記ターゲット画像群における隣り合うフレーム画像間に指定された個数の中間フレーム画像を挿入するステップは、前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得することと、前記画素ブロックの双方向動きベクトル及びブロック動き補償アルゴリズムにより、前記隣り合うフレーム画像間に指定された個数の中間フレーム画像を挿入することとを含む。

幾つかの実施例では、前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得するステップは、改良されたＤＩＳオプティカルフローアルゴリズムにより、前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得することを含み、前記改良されたＤＩＳオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度は、元のＤＩＳオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度よりも小さく、及び／又は、前記改良されたＤＩＳオプティカルフローアルゴリズムに採用される反復回数は、元のＤＩＳオプティカルフローアルゴリズムに採用される反復回数よりも小さい。

幾つかの実施例では、前記ターゲット画像群における指定フレーム画像に基づいて主体オブジェクト領域と背景領域を決定するステップは、前記ターゲット画像群の中間位置に位置する画像を指定フレーム画像とし、オブジェクトインスタンスセグメンテーションアルゴリズムを採用して前記指定フレーム画像に対して処理を行い、処理結果に基づいて前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を得ることを含む。

幾つかの実施例では、前記主体オブジェクト領域と前記背景領域に応じて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うステップは、前記主体オブジェクト領域と前記背景領域に応じて、主体オブジェクトマスク画像を得ることと、前記主体オブジェクトマスク画像に対応する重み係数を取得することと、前記重み係数に基づいて、前記主体オブジェクトマスク画像の画素値を調整して、調整された前記主体オブジェクトマスク画像を得ることと、調整された前記主体オブジェクトマスク画像に基づいて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うこととを含む。

幾つかの実施例では、前記主体オブジェクトマスク画像に対応する重み係数を取得するステップは、オプティカルフロー法により、前記ターゲット画像群における各フレーム画像に対応する全局動き幅を取得することと、前記全局動き幅に応じて、前記主体オブジェクトマスク画像に対応する重み係数を決定することとを含む。

幾つかの実施例では、調整された前記主体オブジェクトマスク画像に基づいて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うステップは、次式を採用して前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うことを含み、
βは、前記重み係数であり、mask_mainは、前記主体オブジェクトマスク画像であり、β*mask_mainは、調整された前記主体オブジェクトマスク画像であり、Pnは、前記指定フレーム画像であり、Merge_Nは、前記動きぼけ画像であり、Merge_N’は、前記ターゲットフュージョン画像である。

幾つかの実施例では、初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得るステップは、初期ビデオのビデオフレーム系列を指定間隔で切分けて、複数の画像群を得ることを含み、隣り合う２つの画像群間には所定個数の重合フレーム画像を有する。

本開示の実施例は、初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得るための画像群取得モジュールと、ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行い、前記ターゲット画像群に対応する動きぼけ画像を得るためのぼけ処理モジュールであって、前記複数の画像群における各画像群は、いずれも前記ターゲット画像群であるぼけ処理モジュールと、前記ターゲット画像群における指定フレーム画像に基づいて、前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を決定するための領域決定モジュールと、前記主体オブジェクト領域と前記背景領域に応じて、前記動きぼけ画像と前記指定フレーム画像に対してフュージョンを行い、ターゲットフュージョン画像を得るためのフュージョンモジュールであって、前記ターゲットフュージョン画像の前記主体オブジェクト領域における画像部分は、前記指定フレーム画像の前記主体オブジェクト領域における画像部分であり、前記ターゲットフュージョン画像の前記背景領域における画像部分は、前記動きぼけ画像の前記背景領域における画像部分であるフュージョンモジュールと、前記複数の画像群の各々に対応するターゲットフュージョン画像に基づいて、ターゲットビデオを生成するためのビデオ生成モジュールであって、前記複数の画像群の各々に対応するターゲットフュージョン画像の前記ターゲットビデオにおける再生順序は、前記複数の画像群の前記初期ビデオにおける再生順序と同じであるビデオ生成モジュールとを含む、ビデオ処理装置をさらに提供する。

本開示の実施例は、プロセッサと、前記プロセッサが実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリから前記実行可能な命令を読み出し、前記命令を実行して本開示の実施例によるビデオ処理方法を実現させるためのものである、電子機器をさらに提供する。

本開示の実施例は、プロセッサによって運行されると、前記プロセッサに本開示の実施例によるビデオ処理方法を実行させるためのコンピュータプログラムが記憶された、コンピュータ可読記憶媒体をさらに提供する。

本開示の実施例は、プロセッサによって実行されると、プロセッサに本開示の実施例によるビデオ処理方法を実行させる命令を含む、コンピュータプログラムをさらに提供する。

この部分に説明された内容は、本開示の実施例の肝心又は重要な特徴を特定することを意図しておらず、本開示の範囲を制限するものでもないことを理解されたい。本開示の他の特徴は、以下の明細書によって容易に理解できるようになる。

ここでの図面は、明細書に組み込まれ、本明細書の一部を構成し、本開示に適合する実施例を示しており、明細書とともに本開示の原理を説明するために用いられる。

本開示の実施例又は従来技術における技術案をより明確に説明するために、以下は、実施例又は従来技術の説明において使用される必要がある図面を簡単に説明する。自明なことに、当業者であれば、創造的な労力を払うことなく、それらの図面に基づき、他の図面を得ることもできる。
本開示の実施例によるビデオ処理方法の流れを示す概略図である。本開示の実施例による隣り合うフレーム画像間のフレーム挿入の概略図である。本開示の実施例によるビデオ処理装置の構成概略図である。本開示の実施例による電子機器の構成概略図である。

本開示の上記の目的、特徴及び利点をより明確に理解できるように、以下は、本開示の態様についてさらに説明する。なお、矛盾しない限り、本開示の実施例及び実施例における特徴は、互いに組み合わせることができる。

本開示を十分に理解するために、以下の説明において、多くの具体的な詳細が説明されているが、本開示は、ここで説明されている形態と異なる他の形態で実施されてもよい。明らかに、明細書における実施例は、本開示の一部の実施例に過ぎず、全ての実施例ではない。

前述したように、主体オブジェクトが鮮明で、背景がぶれてコマ落ち感を有するビデオ効果を得るために、プロの撮影道具を用いてスローシャッタ撮影を行い、及び／又はムービングシュートによって撮影を行う必要があることが多く、且つ、ビデオ創作者がしっかりとした撮影スキルを有する必要もあり、しかも適切な撮影シーンを要する。多くのビデオ創作者にとって、上記の撮影条件を満たすことが困難であり、撮影により上記のビデオ効果を得る難度が高い。

主体オブジェクトが鮮明で、背景がぶれてコマ落ち感を有するビデオ効果を得るために、一般的には、プロの撮影道具、しっかりとした撮影スキル、及び適切な撮影シーンを要する。例えば、プロの撮影スタビライザーと三脚を組み合わせて使用してスローシャッタ撮影を行い、スローシャッタにより、ぶれる背景及びモーションスミアを実現して、画面朦朧感を作り出す必要があり、また、撮影中にスローシャッタを専門的に調整する必要もあり、且つ適正露光を利用して初めて所望の効果を達成することができる。また、撮影により上記のビデオ効果を得るために、撮影シーンに対する要求が高く、例えば、撮影シーンが夜間であること又は暗いことを要求し、そうでないと、光線が充分であれば、露出オーバーになり易い。

関連技術では、撮影フレームレートと露光時間を制御することにより、モーションスミアを発生することが多いが、このような方式では、撮影シーンの制限を受け、暗いシーンでしか撮影できず、全てのシーンに適用できない。また、ビデオにおける主体オブジェクトを保護することができず、画像全体にスミアを発生させるしかなく、主体オブジェクトが鮮明であることを保障し難い。また、ユーザ個人撮影に対して、プロの撮影スタビライザーが欠けていることが多く、ユーザの手振れによって主体がぼけることが多い。

上記の問題を改善するために、本開示の実施例は、ソフトウェア処理により、正常に撮影して得られたビデオを、主体の人物像が鮮明で、背景がぶれてコマ落ち感を有するビデオに処理することができるビデオ処理方法、装置、機器及び媒体を提供する。以下、詳細に説明する。

図１は、本開示の実施例によるビデオ処理方法の流れを示す概略図である。該方法は、ビデオ処理装置によって実行されてもよい。ここで、該装置は、ソフトウェア及び／又はハードウェアで実現されてもよく、一般的には電子機器に統合され得る。図１に示すように、この方法は主に以下のステップＳ１０２～ステップＳ１１０を含む。

ステップＳ１０２：初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得る。

初期ビデオは、撮影道具、撮影スキル及び撮影シーンの制限を受けずに撮影して得られたビデオであってもよく、例えば、ユーザが単に携帯電話で任意のシーンで撮影して得られたビデオであってもよい。初期ビデオは、ユーザがリアルタイムで撮影して得られたビデオであってもよいし、ユーザがアップロードした、予め撮影されたビデオであってもよい。

幾つかの実施形態では、初期ビデオのビデオフレーム系列を指定間隔で切分けて、複数の画像群を得てもよい。本開示の実施例は、切分け方式について限定するものではなく、該切分け方式は、例えば、平均切分け（つまり、等間隔切分け）、非平均切分けであってもよいし、交差切分けであってもよい（交差切分けて得られた隣り合う画像群間には、重合フレーム画像が存在する）。該指定間隔は、数の間隔であってもよい。このため、各画像群におけるフレーム画像の数は、同じであってもよく、いずれもＮフレームの画像を含んでもよい。Ｎの数は、必要に応じて柔軟に設定してもよく、例示的に、初期ビデオのフレームレート及び所望のビデオの実フレームレートを参照して決定してもよい。例えば、Ｎの値は、初期ビデオのフレームレートと所望のビデオの実フレームレートとの比の値であってもよく、例えば、比の値が整数でない場合、その比の値に最も近い整数値をとってもよい。幾つかの実施形態では、隣り合う２つの画像群間のフレーム画像は、全く異なる。別の幾つかの実施形態では、隣り合う２つの画像群間の一部のフレーム画像が同じであり、つまり、一部のフレーム画像が重ね合わせる。言い換えれば、隣り合う２つの画像群間には、所定個数の重合フレーム画像がある。このようにすることにより、画像群の数の合理性を確保しつつ（つまり、後で生成されるビデオのフレームレート合理性を確保する）、各画像群の後の処理時における画像フュージョン効果を保障することができる。理解を容易にするために、以下、例示的に説明する。

仮に初期ビデオのオリジナルフレームレートがＸｆｐｓであるとして、連続したコマ落ちビデオを生成するために、Ｎフレームの画像を一組として処理を行ってもよい。それにより、後でＮフレームの画像に基づいて１フレームの画像としてフュージョンすることができる。例えば、所望のビデオの実フレームレートが１０ｆｐｓ～１５ｆｐｓであり、例示的に、Ｎ＝Ｘ／１０となるように選択してもよく、つまり、Ｘ／１０個のオリジナルフレームを１フレームとしてフュージョンする。仮にオリジナルフレームレートが３０ｆｐｓであるとすると、３個のオリジナルフレームを１フレームとしてフュージョンする。仮にオリジナルフレームレートが６０ｆｐｓであるとすると、６個のオリジナルフレームを１フレームとしてフュージョンする。以上は、あくまでもＮの値を選び取る例であり、制限と見なされるべきではない。処理すべきビデオのビデオフレーム系列に対して、仮にＰｉが第ｉフレームの画像であるとする。幾つかの実施形態では、Ｐ１～Ｐ６を１つの画像群とし、Ｐ７～Ｐ１２を１つの画像群とし、Ｐ１２～Ｐ１７を１つの画像群とし、…、以下同様である。このように得られた画像群の数は一般的には少なく、最終的に生成されたビデオのフレームレートが少なく、その結果、コマ落ちが目立ち過ぎる。一方、画像群におけるフレーム画像の数を減らし、例えば、Ｐ１～Ｐ３を１つの画像群とし、Ｐ４～Ｐ６を１つの画像群として、毎回３フレームのみをフュージョンする場合、モーションスミア度合が小さく、目立つ流動効果は容易に観察されない。より良いフュージョン効果を達成するために、本開示の実施例は、画像フレームを多重化してもよい。依然として６フレームずつ選択して１組として処理を行うが、隣り合う画像群間に重合フレームがあり、つまり、Ｐ１～Ｐ６を１つの画像群とし、Ｐ４～Ｐ９を１つの画像群とし、Ｐ７～Ｐ１２を１つの画像群とし、Ｐ１０～Ｐ１５を１つの画像群として採用し、・・・、以下同様である。つまり、任意２つの隣り合う画像群間には、いずれも、３フレームの画像が重ね合わせ、このようにフレーム画像を多重化することにより、各画像群に６フレームの画像が含まれることを保障しつつ、画像群の数を２倍まで高めることができる。従って、画像群の数の合理性を保障しつつ、各画像群における複数フレームの画像の後の処理時におけるフュージョン効果を保障することができる。つまり、生成されたビデオフレームレートを確保する前提の下で、画面全体のぶれるフロー感を向上させる。

各画像群をそれぞれターゲット画像群とし、つまり、各画像群に対して、それぞれ以下のステップＳ１０４～ステップＳ１０８を実行する。

ステップＳ１０４：ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行い、ターゲット画像群に対応する動きぼけ画像を得る。

動きぼけ処理（ＭｏｔｉｏｎＢｌｕｒ）は、オブジェクト（物体、動物又は人物など）の動き状態効果をキャプチャする後処理方式であり、主にオブジェクトが動っている時に露光する撮像手法を模擬する。例えば、撮像中に動いているオブジェクトを撮影する間接露光機能を模擬して、画像に動的効果を発生させ、例えば、オブジェクトが掠め、又は移動する効果を作る。例えば、動きぼけ処理は、指定された方向に沿う。

本開示の実施例では、ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、動きぼけ処理して得られた全ての画像に対してフュージョンを行う。例えば、動きぼけ処理して得られた画像は、ターゲット画像群における処理済みのオリジナルフレーム画像を含むだけでなく、動きぼけ処理中にオリジナルフレーム画像を基に追加挿入されたフレーム画像をさらに含んでもよい。最後に、全ての画像に対してフュージョンを行った後、ターゲット画像群に対応する動きぼけ画像を得ることができる。該動きぼけ画像は、ぼけ且つぶれる画面効果を有する。

ステップＳ１０６：ターゲット画像群における指定フレーム画像に基づいてターゲット画像群に対応する主体オブジェクト領域と背景領域を決定する。

本開示の実施例は、主体オブジェクトのタイプについて制限を加えなく、主体オブジェクトは、例えば、人物であってもよいし、動物、又は例えば車両などの物品であってもよい。

ビデオにおける主体オブジェクト部分が相対的に鮮明に画面に現れるように、本開示の実施例は、オブジェクト保護ポリシーを提案する。例えば、ターゲット画像群から指定フレーム画像を選択してもよく、例えば、該指定フレーム画像は、ターゲット画像群の中間位置フレームであってもよい。指定フレーム画像に対してオブジェクト分割を行うことにより、分割結果に基づいて最終的にターゲット画像群に対応する主体オブジェクト領域と背景領域を取得することができる。主体オブジェクト領域と背景領域により、後で主体オブジェクトに対する保護を実現することができる。例えば、指定フレーム画像に対してオブジェクト分割を行い（主体オブジェクトが人物である場合を例にして、人物像分割を行う）、指定フレーム画像における主体オブジェクト領域と背景領域を得て、指定フレーム画像における主体オブジェクト領域と背景領域をターゲット画像群に対応する主体オブジェクト領域と背景領域としてもよく、背景領域は、主体オブジェクト領域以外の領域である。

なお、上記のステップＳ１０４とステップＳ１０６とは先後関係がなく、並列に実行されてもよい。

ステップＳ１０８：主体オブジェクト領域と背景領域に応じて、動きぼけ画像と指定フレーム画像に対してフュージョンを行い、ターゲットフュージョン画像を得る。

ターゲットフュージョン画像の主体オブジェクト領域における画像部分は、指定フレーム画像の主体オブジェクト領域における画像部分であり、ターゲットフュージョン画像の背景領域における画像部分は、動きぼけ画像の背景領域における画像部分である。つまり、ターゲットフュージョン画像における主体オブジェクト領域は、指定フレーム画像における主体オブジェクト領域の画素から構成され、ターゲットフュージョン画像における背景領域は、動きぼけ画像における背景領域の画素から構成される。上記の方式により、ターゲットフュージョン画像は、ぼけ且つぶれる背景画面を有しながら、相対的に鮮明な主体オブジェクトを有する。

例えば、ターゲット画像群における指定フレーム画像に対して主体オブジェクト領域と背景領域との分割を行った後、特定の方式により、主体オブジェクト領域と背景領域を区分してもよい。例えば、主体オブジェクト領域と背景領域に基づいて主体オブジェクトマスク画像を生成してもよい。該主体オブジェクトマスク画像は、異なる領域に対して異なる画素値を採用して標識を行ってもよい。例示的に、主体オブジェクトマスク画像における背景領域の画素値はいずれも０であり、主体オブジェクト領域の画素値はいずれも１である。そして、主体オブジェクトマスク画像に基づいて、動きぼけ画像と指定フレーム画像に対してフュージョンを行い、指定フレーム画像における鮮明な主体オブジェクトと、動きぼけ画像におけるぼけ且つぶれる背景とが結合されたターゲットフュージョン画像を得る。

ステップＳ１１０：複数の画像群の各々に対応するターゲットフュージョン画像に基づいてターゲットビデオを生成し、複数の画像群の各々に対応するターゲットフュージョン画像のターゲットビデオにおける再生順序は、複数の画像群の初期ビデオにおける再生順序と同じである。

各画像群は、いずれもそれぞれターゲット画像群として上記のステップＳ１０４～ステップＳ１０８を実行した。このため、それに応じて、各画像群は、いずれも１枚のターゲットフュージョン画像を有する。全てのターゲットフュージョン画像は、複数の画像群の初期ビデオのビデオフレーム系列における対応する先後位置関係で配列され、各ターゲットフュージョン画像は、いずれもターゲットビデオを構成する１フレームとされ、複数のターゲットフュージョン画像は、順に配列された後、ターゲットビデオのビデオフレーム系列を構成することができる。つまり、ターゲットフュージョン画像から構成されたビデオフレーム系列は、ターゲットビデオである。ターゲットビデオに含まれるビデオフレームの数は、初期ビデオのビデオフレームの数よりも少なく、ターゲットビデオにおける各フレーム画像は、いずれも初期ビデオにおける複数フレームの画像に対して動きぼけ、主体オブジェクト保護などの処理を行った後でフュージョンして得られたものである。従って、ターゲットビデオは、一定のコマ落ち感を与えることができ、且つ画像画面の背景がぼけ且つぶれるが、主体人物は鮮明である。

上記の方式により、ソフトウェアアルゴリズムを採用すれば、正常に撮影して得られたビデオを、主体人物像が鮮明で、背景がぶれてコマ落ち感を有する効果を有するビデオに処理することができる。ユーザは、撮影道具、撮影スキル及び撮影シーンの制限を受けなく、上記のビデオ撮影効果を容易且つ迅速に得ることができる。

本開示の実施例による上記の技術案は、初期ビデオのビデオフレーム系列に基づいて複数の画像群を得て、各画像群をそれぞれターゲット画像群として、以下の操作を実行することができる。ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行い、ターゲット画像群に対応する動きぼけ画像を得る。ターゲット画像群における指定フレーム画像に基づいてターゲット画像群に対応する主体オブジェクト領域と背景領域を決定する。そして、主体オブジェクト領域と背景領域に応じて、動きぼけ画像と指定フレーム画像に対してフュージョンを行い、ターゲットフュージョン画像を得る。最後に、複数の画像群の各々に対応するターゲットフュージョン画像に基づいてターゲットビデオを生成する。上記の方式により、ソフトウェアアルゴリズムを採用すれば、正常に撮影して得られたビデオを、主体人物像が鮮明で、背景がぶれてコマ落ち感を有する効果を有するビデオに処理することができ、ユーザは、撮影道具、撮影スキル及び撮影シーンの制限を受けなく、上記のビデオ撮影効果を容易且つ迅速に得ることができる。

幾つかの実施形態では、ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行うステップは、以下のステップＡ～ステップＢを参照して実行してもよい。

ステップＡ：オプティカルフロー補間アルゴリズムを採用してターゲット画像群における隣り合うフレーム画像間にいずれも指定された個数の中間フレーム画像を挿入し、フレーム挿入されたターゲット画像群における全てのフレーム画像を、ターゲット画像群における各フレーム画像を動きぼけ処理して得られた画像とする。

オプティカルフローは、空間で動く物体の、観測される結像面上の画素の動きの「瞬時速度」である。オプティカルフローの研究は、画像シーケンスにおける画素強度データのタイムドメイン変化と相関を利用して、各画素位置の「動き」を決定する。言い換えれば、オプティカルフローアルゴリズムでは、１枚の画像における画素と、別の画像における画素とをマッチングし、マッチングにより、画素がどのように１枚の画像から別の画像に「移動」又は「流動」するかを知ることができる。各画素に対してマッチングした後、局所的に画素を移動して２枚の画像の中間ビューを補間することができる。幾つかの実施形態では、演算力を節約し、処理効率を高めるために、疎なオプティカルフロー補間により、フレーム挿入を行ってもよい。例えば、フレーム画像を指定サイズの画素ブロック（例えば、１６＊１６）に分け、画素ブロック単位で、画素ブロック間のマッチング及び動きベクトルの計算を行う。同じ画素ブロックに属する全ての画素に対応する動きベクトルは、いずれも同じであり、異なる画素ブロック間の動きベクトルは、同じである可能性もあるし、異なる可能性もある。このような方式により、演算力を大幅に節約することができる。サービス側か携帯端末かに関わらず、直接的に上記の方式によりビデオ処理を行うことができる。これに基づいて、幾つかの実施例では、上記のステップＡは、以下のステップＡ１～ステップＡ２を参照して実行してもよい。

ステップＡ１：ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得する。

例えば、双方向動きベクトルは、順方向動きベクトルと逆方向動きベクトルとを含む。例えば、隣り合うフレーム画像は、それぞれ前フレーム画像Ｆａと後フレーム画像Ｆｂであり、Ｆａを基準として、Ｆａにおける画素ブロックと、Ｆｂにおける画素ブロックとをマッチングし、ＦａからＦｂの方向に順方向動きベクトルを計算する。Ｆｂを基準として、Ｆｂにおける画素ブロックとＦａにおける画素ブロックとをマッチングし、ＦｂからＦａの方向に逆方向動きベクトルを計算する。双方向動きベクトルにより、画素ブロックの画像間のオプティカルフローの動きの傾向を適切且つ確実に表すことができる。

幾つかの実施形態では、改良されたＤＩＳオプティカルフローアルゴリズムにより、ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得してもよい。

例えば、改良されたＤＩＳオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度は、元のＤＩＳオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度よりも小さい。

例えば、改良されたＤＩＳオプティカルフローアルゴリズムに採用される反復回数は、元のＤＩＳオプティカルフローアルゴリズムに採用される反復回数よりも小さい。例示的に、元のＤＩＳオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度は、原画像の解像度であり、改良されたＤＩＳオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度は、原画像の解像度の１／４である。元のＤＩＳオプティカルフローアルゴリズムの反復回数は、１２回であり、改良されたＤＩＳオプティカルフローアルゴリズムに採用される反復回数は、５回である。

ＤＩＳオプティカルフローアルゴリズムは、ＤｅｎｓｅＩｎｖｅｒｓｅＳｅａｒｃｈ－ｂａｓｅｄｍｅｔｈｏｄ（密な逆順検索に基づく方法）の略称である。元のＤＩＳオプティカルフローアルゴリズムは、密なオプティカルフローアルゴリズムに属し、本開示の実施例では、演算力を節約するために、元のＤＩＳオプティカルフローアルゴリズムを基に改良を行う。例えば、ＤＩＳアルゴリズムは、画像を異なるサイズにズームして、１つの画像ピラミッドを構築し、そして、解像度が最も小さい階層から、１階層ずつ下に向けてオプティカルフローを推定し、各階層において推定されたオプティカルフローを、次の階層の推定の初期化とすることにより、異なる幅の動きを正確に推定する目的を達成する。本開示の実施例では、疎なオプティカルフローが得られればよい（即ち、各画素に対して相応なオプティカルフローを計算する必要があるのではなく、各画素ブロックにおける画素は、いずれも１つのオプティカルフローを共有し、オプティカルフローは、動きベクトルを表すことができる）。従って、ＤＩＳオプティカルフローアルゴリズムを改良し、画像ピラミッドの底層画像の解像度（つまり、最高解像度）を下げる。例示的に、最高解像度を原画像の１／４に設定する。また、最高解像度においても稠密化ステップを行う必要がなく、最後に疎なオプティカルフローを得ることができる。また、本開示の実施例は、疎なオプティカルフローが得られればよく、高い精度が要求されないため、勾配降下法を用いて解を求める場合、小さい反復回数を使用すればよい。従って、元のＤＩＳオプティカルフローアルゴリズムの１２回の反復は、５回の反復に変更される。ＤＩＳオプティカルフローアルゴリズムを改良した後、改良されたＤＩＳオプティカルフローアルゴリズムを採用して、隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを迅速に得ることができる。

ステップＡ２：画素ブロックの双方向動きベクトル及びブロック動き補償アルゴリズムにより、隣り合うフレーム画像間に指定された個数の中間フレーム画像を挿入する。中間フレーム画像は、隣り合うフレーム画像間に挿入される画像である。

動き補償は、隣り合うフレームの差を記述する方法であり、例えば、前フレーム画像における各画素ブロックがどのように徐々に後フレーム画像におけるある位置に移動するかを記述する。ブロック動き補償アルゴリズム（ブロッキング動き補償とも呼ばれる）では、各フレーム画像は、若干の画素ブロックに分けられる。元のフレーム画像における画素ブロック及び相応な動きベクトルに基づいて、それの中間フレーム画像における位置を予測してもよい。例えば、隣り合うフレーム画像画素ブロック間の双方向動きベクトルが既知である場合、隣り合うフレーム画像の画素ブロックをそれぞれ動き経路において等距離にＭ回サンプリングし、サンプリング毎に１フレームを挿入してもよい。サンプリング数の値Ｍは、画像フュージョンのきめ細かさを表すことができる。Ｍ値が大きいほど、画像のフュージョンがより自然になり、Ｍ値が小さいほど、画像のフュージョンの度合が粗く、目立つ重合跡が現れやすい。ブロック動き補償によりフレーム挿入を行い、隣り合うフレーム間のぼけ効果図を得る。理解を容易にするために、図２に示す隣り合うフレーム画像間のフレーム挿入概略図を参照して、ＦａとＦｂは隣り合うフレームであり、Ｆａフレームにおける任意の画素ブロックｂｌｏｃｋ＿ｉに対して、前後フレームから対応するｂｌｏｃｋ＿ｉ０とｂｌｏｃｋ＿ｉＭを見出し、該画素ブロックの双方向動きベクトル（順方向動きベクトルＦ＿ａｂ、逆方向動きベクトルＦ＿ｂａ）により、それぞれ相応な動き経路において等距離にＭ回サンプリングし、サンプリング毎に１フレームを挿入する。例示的に、ｊ回目とｋ回目に採用される画素ブロック位置は、図２に示す通りであり、ｊ回目のサンプリングに対応する画素ブロックがｂｌｏｃｋ＿ｉｊであり、ｋ回目のサンプリングに対応する画素ブロックがｂｌｏｃｋ＿ｉｋであることを示す。図２に示すように、各画素を、それが属する画素ブロックの動き経路において複製して重ね合わせることにより、リアルで滑らかな動きぼけ効果を作り出す。上記の方式により、複数回のサンプリングにより、隣り合うフレーム画像間に複数の中間フレーム画像を挿入することができ、且つ中間フレーム画像はいずれもぼけ図である。

ステップＢ：各フレーム画像を動きぼけ処理して得られた画像に対して平均フュージョンを行う。

動きぼけ処理して得られた全ての画像（元の隣り合う画像フレーム及び挿入された中間フレーム画像）の画素値を平均化すれば、ターゲット画像群に対応する動きぼけ画像を得ることができる。このような方式により、最終的な動きぼけ画像は、撮像中に動いているオブジェクトを撮影する間接露光機能を模擬して、動いてぶれる動的効果を画像に発生させることができる。また、画素ブロックの処理方式により、画像フュージョン効果を確保する前提の下で、必要な演算力も低減し、アルゴリズムの全体的な性能を効果的に向上させ、携帯端末の実現可能性を確保することができる。

上記の方式により、各画像群におけるフレーム画像に基づいて、いずれも動きぼけ画像を対応して生成することができ、動きぼけ画像のぼけ度合は、一般的には動き度合に比例し、動きが速いほど、スミアが長くなる。上記のアルゴリズムを採用する実現原理及び達成できる効果は、実際のスローシャッタの原理及び撮影されたぼけ度合と一致する。従って、いずれも以下の問題がある。ユーザが画面背景が動いてぼけるが、主体オブジェクトが相対的に鮮明であることを希望する場合、採用される上記のぼけ処理アルゴリズム又は実際の撮影効果では、いずれも主体が動き、又は撮影機器が振れることに起因して主体がぼけることを回避することができない。言い換えれば、本開示の実施例による上記の動きぼけ処理方式により得られた動きぼけ画像における主体オブジェクトもぼけており、ユーザに鮮明に呈示され難い。この問題を改善するために、本開示の実施例は、オブジェクト保護ポリシーを提案して、ターゲット画像群における指定フレーム画像に基づいてオブジェクト分割を行って、ターゲット画像群に対応する主体オブジェクト領域と背景領域を取得し、主体オブジェクト領域と背景領域に応じて、オブジェクト保護を行うことができる。例えば、指定フレーム画像として、ターゲット画像群の中間位置に位置する画像を選択してもよい。それにより、後のフュージョンがより自然になることに寄与する。

幾つかの実施形態では、ターゲット画像群の中間位置に位置する画像を指定フレーム画像とし、オブジェクトインスタンスセグメンテーションアルゴリズムを採用して指定フレーム画像に対して処理を行い、処理結果に基づいてターゲット画像群に対応する主体オブジェクト領域と背景領域を得る。例えば、主体オブジェクト領域と背景領域に応じて、主体オブジェクトマスク画像を得てもよい。幾つかの実施形態では、指定フレーム画像には、少なくとも１つのオブジェクトがあり得る。よって、少なくとも１つのオブジェクトマスクから主体オブジェクトマスクを決定してもよい。主体オブジェクトマスクは、画像中心に最も近いオブジェクトマスクであり、それにより、主体オブジェクトマスク画像を得る。

主体オブジェクトマスク画像を決定する幾つかの実施形態では、以下のステップ１～ステップ４を参照してもよい。

ステップ１：指定フレーム画像のオブジェクト分割結果（Ａｌｐｈａ分割図）に対して画像侵食を行い、複数のオブジェクト間のつながりを減少させる。

ステップ２：侵食後の画像を２値化し、その後、つながり領域検出を行い、画像中心に最も近い広大のつながり領域を見出して主体オブジェクトとする。

ステップ３：選定されたつながり領域に対して膨張操作を行い、元のＡｌｐｈａ分割図にマッピングし、主体オブジェクトマスクを得る。

ステップ４：主体オブジェクトマスクを最適化し、例示的に、ボックスブラー及びエッジスムージング処理を行い、主体オブジェクトマスク画像を得る。

上記の方式により、主体オブジェクトマスク画像を得て、後で主体オブジェクトマスク画像を利用して主体オブジェクトを保護することを容易にすることができる。

なお、本開示の実施例では、ターゲット画像群に対応する動きぼけ画像及び主体オブジェクトマスク画像を取得する２つのプロセスは順序を問わず、並列に実行されてもよい。

上記の方式により動きぼけ画像と主体オブジェクトマスク画像を得た後、幾つかの実施形態では、動きぼけ画像、主体オブジェクトマスク画像と指定フレーム画像に基づいて、ターゲット画像群に対応するターゲットフュージョン画像を得てもよい。

得られたターゲットビデオのフレーム画像の画面をよりリアルにするために、本開示の実施例は、主体オブジェクトの保護の度合を制御してもよい。例えば、違和感を避けるために、全局動き幅が大きい場合、主体オブジェクトが特に鮮明でない。これに基づいて、主体オブジェクトマスク画像に基づいて、動きぼけ画像と指定フレーム画像に対して画像フュージョンを行うステップは、以下のステップ（１）～ステップ（３）を参照してもよい。

ステップ（１）では、主体オブジェクトマスク画像に対応する重み係数を取得する。重み係数は、主体オブジェクトの保護の度合に関連し、重み係数が大きいほど、主体オブジェクトの保護の度合が高くなり、主体オブジェクトが鮮明になる。

幾つかの実施例では、オプティカルフロー法により、ターゲット画像群における各フレーム画像に対応する全局動き幅を取得し、全局動き幅に応じて、主体オブジェクトマスク画像に対応する重み係数を決定してもよい。本開示の実施例は、オプティカルフロー法について限定するものではなく、例えば、疎なオプティカルフロー法を採用して、画素ブロックの動き情報を決定してもよい。それにより、ターゲット画像群における各フレーム画像に対応する全局動き幅を取得する。全局動き幅は、重み係数と負の相関があり、全局動き幅が大きいほど、つまり、動きが速いほど、重み係数が小さくなり、主体オブジェクトの鮮明さが相対的に低くなる（但し、依然としてぼける背景の鮮明さよりも高く、主体オブジェクトが特に鮮明でないようにするだけである）。以上の通り、本開示の実施例は、レンズシフトによる全局動き幅に基づいて、オブジェクト保護の度合を調節することができる。

ステップ（２）では、重み係数に基づいて、主体オブジェクトマスク画像の画素値を調整して、調整された主体オブジェクトマスク画像を得る。幾つかの例では、重み係数を主体オブジェクトマスク画像の画素値に乗じることにより、調整された主体オブジェクトマスク画像を得てもよい。

ステップ（３）では、調整された主体オブジェクトマスク画像に基づいて、動きぼけ画像と指定フレーム画像に対して画像フュージョンを行う。例示的に、次式を採用して動きぼけ画像と指定フレーム画像に対して画像フュージョンを行ってもよい。
ここで、βは、重み係数であり、mask_mainは、主体オブジェクトマスク画像であり、β*mask_mainは、調整された主体オブジェクトマスク画像であり、Pnは、指定フレーム画像であり、Merge_Nは、動きぼけ画像であり、Merge_N’は、ターゲットフュージョン画像である。

上記の式に基づいて画像フュージョンを行って得られるターゲットフュージョン画像は、背景画面がぼけ且つぶれるが、主体オブジェクトが相対的に鮮明であり、且つ、重み係数に基づいて鮮明さを調整することができる。重み係数をレンズシフトによる全局動き幅に基づいて決定してもよいため、主体オブジェクトの鮮明さが全局動き幅に関連し、画面効果がよりリアルで自然になる。

初期ビデオのビデオフレーム系列を切分けて（平均切分け、非平均切分け、交差切分けなど、切分け方式を限定するものではない）得られた画像群に対して全て上記の方式により相応なターゲットフュージョン画像を得た後、全てのターゲットフュージョン画像を順に配列して所望のターゲットビデオを形成することができる。また、初期ビデオの複数フレームの画像をターゲットビデオにおける１フレーム画像にフュージョン処理し、フレームレートを下げたため、ユーザにコマ落ち感を与えることができる。以上の通り、ユーザは、撮影道具、撮影スキル及び撮影シーンの制限を受けなく、本開示の実施例による上記のビデオ処理方法のみにより、ソフトウェアアルゴリズムを採用すれば、ユーザが正常に撮影したビデオを、主体オブジェクトが鮮明で、背景がぶれてコマ落ち感を有するターゲットビデオに容易且つ迅速に変換することができる。上記のターゲットビデオは、スタイルが独特で、ユーザに動き感及びコマ落ち感を有するビデオ画面を呈示することができ、該ビデオ画面における主体オブジェクトは依然として鮮明であるため、主体オブジェクトを良好に目立たせることができる。主体オブジェクトが人物である場合を例にして、上記のビデオ効果は、主体人物の内心の意識をある程度反映でき、深い感銘を与える。また、処理中に、例えば、疎なオプティカルフローアルゴリズムなどを採用して動きぼけを行い、演算力を効果的に低減し、アルゴリズムの全体的な性能を向上させ、携帯端末の実現可能性を確保することができる。従って、サービス側で実現できると共に、携帯端末側でも実現でき、適用範囲がより広い。

前記ビデオ処理方法に対応して、本開示の実施例は、ビデオ処理装置を提供する。図３は、本開示の実施例によるビデオ処理装置の構成概略図である。該装置は、ソフトウェア及び／又はハードウェアで実現されてもよく、図４に示すように、一般的には電子機器に統合され得る。

ビデオ処理装置は、初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得るための画像群取得モジュール３０２と、
ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行い、前記ターゲット画像群に対応する動きぼけ画像を得るためのぼけ処理モジュールであって、前記複数の画像群における各画像群は、いずれも前記ターゲット画像群であるぼけ処理モジュール３０４と、
前記ターゲット画像群における指定フレーム画像に基づいて前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を決定するための領域決定モジュール３０６と、
前記主体オブジェクト領域と前記背景領域に応じて、前記動きぼけ画像と前記指定フレーム画像に対してフュージョンを行い、ターゲットフュージョン画像を得るためのフュージョンモジュールであって、前記ターゲットフュージョン画像の前記主体オブジェクト領域における画像部分は、前記指定フレーム画像の前記主体オブジェクト領域における画像部分であり、前記ターゲットフュージョン画像の前記背景領域における画像部分は、前記動きぼけ画像の前記背景領域における画像部分であるフュージョンモジュール３０８と、
前記複数の画像群の各々に対応するターゲットフュージョン画像に基づいて、ターゲットビデオを生成するためのビデオ生成モジュールであって、前記複数の画像群の各々に対応するターゲットフュージョン画像の前記ターゲットビデオにおける再生順序は、前記複数の画像群の前記初期ビデオにおける再生順序と同じであるビデオ生成モジュール３１０とを含む。

上記の装置により、ソフトウェアアルゴリズムを採用すれば、正常に撮影して得られたビデオを、主体人物像が鮮明で、背景がぶれてコマ落ち感を有する効果を有するビデオに処理することができ、ユーザは、撮影道具、撮影スキル及び撮影シーンの制限を受けなく、上記のビデオ撮影効果を容易且つ迅速に得ることができる。

幾つかの実施形態では、ぼけ処理モジュール３０４は、オプティカルフロー補間アルゴリズムを採用して前記ターゲット画像群における隣り合うフレーム画像間にいずれも指定された個数の中間フレーム画像を挿入し、フレーム挿入された前記ターゲット画像群における全てのフレーム画像を、前記ターゲット画像群における各フレーム画像を動きぼけ処理して得られた画像とすることと、前記各フレーム画像を動きぼけ処理して得られた画像に対して平均フュージョンを行うこととに用いられる。

幾つかの実施形態では、ぼけ処理モジュール３０４は、前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得することと、前記画素ブロックの双方向動きベクトル及びブロック動き補償アルゴリズムにより、前記隣り合うフレーム画像間に指定された個数の中間フレーム画像を挿入することとに用いられる。

幾つかの実施形態では、ぼけ処理モジュール３０４は、改良されたＤＩＳオプティカルフローアルゴリズムにより、前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得することに用いられ、前記改良されたＤＩＳオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度は、元のＤＩＳオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度よりも小さく、及び／又は、前記改良されたＤＩＳオプティカルフローアルゴリズムに採用される反復回数は、元のＤＩＳオプティカルフローアルゴリズムに採用される反復回数よりも小さい。

幾つかの実施形態では、領域決定モジュール３０６は、前記ターゲット画像群の中間位置に位置する画像を指定フレーム画像とし、オブジェクトインスタンスセグメンテーションアルゴリズムを採用して前記指定フレーム画像に対して処理を行い、処理結果に基づいて前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を得ることに用いられる。

幾つかの実施形態では、フュージョンモジュール３０８は、前記主体オブジェクト領域と前記背景領域に応じて、主体オブジェクトマスク画像を得ることと、前記主体オブジェクトマスク画像に対応する重み係数を取得することと、前記重み係数に基づいて、前記主体オブジェクトマスク画像の画素値を調整して、調整された前記主体オブジェクトマスク画像を得ることと、調整された前記主体オブジェクトマスク画像に基づいて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うこととに用いられる。

幾つかの実施形態では、フュージョンモジュール３０８は、オプティカルフロー法により、前記ターゲット画像群における各フレーム画像に対応する全局動き幅を取得することと、前記全局動き幅に応じて、前記主体オブジェクトマスク画像に対応する重み係数を決定することとに用いられる。

幾つかの実施形態では、フュージョンモジュール３０８は以下に用いられる。調整された前記主体オブジェクトマスク画像に基づいて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うステップは、
次式を採用して前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うことを含み、
βは、前記重み係数であり、mask_mainは、前記主体オブジェクトマスク画像であり、β*mask_mainは、調整された前記主体オブジェクトマスク画像であり、Pnは、前記指定フレーム画像であり、Merge_Nは、前記動きぼけ画像であり、Merge_N’は、前記ターゲットフュージョン画像である。

幾つかの実施形態では、画像群取得モジュール３０２は、初期ビデオのビデオフレーム系列を指定間隔で切分けて、複数の画像群を得ることに用いられ、隣り合う２つの画像群間には所定個数の重合フレーム画像がある。

本開示の実施例によるビデオ処理装置は、本開示の任意の実施例によるビデオ処理方法を実行することができ、実行する方法に対応する機能モジュールと有益な効果を有する。

当業者が明確に理解できるように、説明の利便性及び簡潔性のために、以上に説明された装置実施例の作動プロセスは、方法の実施例における対応するプロセスを参照すればよい。ここではこれ以上説明しない。

本開示の実施例は、プロセッサと、プロセッサが実行可能な命令を記憶するためのメモリとを含み、プロセッサは、メモリから実行可能な命令を読み出し、命令を実行して上記のビデオ処理方法を実現させるためのものである、電子機器をさらに提供する。図４は、本開示の実施例による電子機器の構成概略図である。図４に示すように、電子機器４００は、１つ又は複数のプロセッサ４０１とメモリ４０２とを含む。

プロセッサ４０１は、中央処理ユニット（ＣＰＵ）又はデータ処理能力及び／又は命令実行能力を有する他の形態の処理ユニットであってもよく、電子機器４００における他の構成要素を制御して所望の機能を実行することができる。

メモリ４０２は、様々な形態のコンピュータ可読記憶媒体、例えば、揮発性メモリ及び／又は不揮発性メモリを含み得る１つ又は複数のコンピュータプログラム製品を含んでもよい。前記揮発性メモリは、例えば、ランダムアクセスメモリ（ＲＡＭ）及び／又はキャッシュメモリ（ｃａｃｈｅ）などを含んでもよい。前記不揮発性メモリは、例えば、リードオンリーメモリ（ＲＯＭ）、ハードディスク、フラッシュメモリなどを含んでもよい。前記コンピュータ可読記憶媒体には、１つ又は複数のコンピュータプログラム命令が記憶されてもよく、プロセッサ４０１は、前記プログラム命令を運行して上記で説明された本開示の実施例のビデオ処理方法及び／又は他の所望の機能を実現させることができる。前記コンピュータ可読記録媒体には、例えば、入力信号、信号成分、ノイズ成分など様々な内容がさらに記憶されてもよい。

幾つかの例では、電子機器４００は、入力装置４０３と出力装置４０４をさらに含んでもよく、これらの構成要素は、バスシステム及び／又は他の形態の接続機構（図示せず）によって相互接続される。

また、該入力装置４０３は、例えば、キーボード、マウスなどをさらに含んでもよい。

該出力装置４０４は、決定された距離情報、方向情報などを含む様々な情報を外部に出力することができる。該出力装置４０４は、例えば、ディスプレイ、スピーカ、プリンタ、通信ネットワーク及びそれに接続された遠隔出力機器などを含んでもよい。

もちろん、簡略化のため、図４では、該電子機器４００における、本開示に関係する構成要素のうちの一部のみを示しており、例えばバス、入出力インタフェースなどの構成要素を省略している。また、具体的な応用状況に応じて、電子機器４００は、他の任意の適切な構成要素をさらに含んでもよい。

上記方法と機器に加えて、本開示の実施例は、プロセッサによって運行されると、前記プロセッサに本開示の実施例によるビデオ処理方法を実行させるコンピュータプログラム命令を含むコンピュータプログラム製品であってもよい。

前記コンピュータプログラム製品は、本開示の実施例の操作を実行するためのプログラムコードを１種類又は複数種類のプログラミング言語の任意の組み合わせを用いて書くことが可能であり、前記プログラミング言語は、オブジェクト指向のプログラミング言語、例えばＪａｖａ、Ｃ＋＋などを含み、さらに一般の手続き型プログラミング言語、例えば「Ｃ」言語又は類似的なプログラミング言語を含む。プログラムコードは、完全にユーザコンピューティング機器で実行したり、部分的にユーザ機器で実行したり、独立したソフトウェアパッケージとして実行したり、一部をユーザコンピューティング機器で一部をリモートコンピューティング機器で実行したり、完全にリモートコンピューティング機器又はサーバで実行したりすることができる。

また、本開示の実施例は、プロセッサによって運行されると、前記プロセッサに本開示の実施例によるビデオ処理方法を実行させるコンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体であってもよい。

前記コンピュータ可読記憶媒体は、１つ又は複数の可読媒体の任意の組み合わせを採用してもよい。可読媒体は、可読信号媒体又は可読記憶媒体であり得る。可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線又は半導体のシステム、装置又はデバイス或いはそれらの任意の組み合わせを含んでもよいが、それらに限定されない。可読記憶媒体の例（非網羅的リスト）として、１つ又は複数の導線を有する電気接続、携帯型ディスク、ハードディス、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバー、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶デバイス、磁気記憶デバイス又はそれらの任意の適切な組み合わせを含む。

本開示の実施例は、プロセッサによって実行されると、本開示の実施例におけるビデオ処理方法を実現させるコンピュータプログラム/命令を含むコンピュータプログラム製品をさらに提供する。

なお、本明細書において、例えば「第１」及び「第２」などのような関係用語は、単に１つのエンティティ又は操作を他のエンティティ又は操作と区別する目的だけに用いられ、これらエンティティ又は操作間にこのような実際の関係又は順序が存在することを要求又は暗示するものではない。さらに、用語「含む」、「包含する」又は任意のその他の変体は、非排他的な含有を示すことで、一系列の要素を含む過程、方法、物品又は機器は、それらの要素だけでなく、明示されていない他の要素も含み、又はこのような過程、方法、物品又は機器に固有の要素も含む。さらに多い制限がない場合に、「１つの・・・を含む」によって限定される要素は、前記要素を含む過程、方法、物品又は機器に他の同じ要素も含むことを除外しない。

以上は本開示の具体的な実施形態にすぎず、当業者が本開示を理解又は実現することを可能にするために使用される。これらの実施例に対する様々な修正は、当業者には自明となり、本明細書で定義される一般原理は、本開示の趣旨又は範囲から逸脱することなく他の実施例において実現されてもよい。従って、本開示は、本明細書のこれら実施例に限定されるものではなく、本明細書で開示される原理及び新規の特徴に適合する最も広い範囲を有する。

Claims

初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得ることと、
ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行い、前記ターゲット画像群に対応する動きぼけ画像を取得し、前記複数の画像群における各画像群は、いずれも前記ターゲット画像群であることと、
前記ターゲット画像群における指定フレーム画像に基づいて、前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を決定することと、
前記主体オブジェクト領域と前記背景領域に応じて、前記動きぼけ画像と前記指定フレーム画像に対してフュージョンを行い、ターゲットフュージョン画像を取得し、前記ターゲットフュージョン画像の前記主体オブジェクト領域における画像部分は、前記指定フレーム画像の前記主体オブジェクト領域における画像部分であり、前記ターゲットフュージョン画像の前記背景領域における画像部分は、前記動きぼけ画像の前記背景領域における画像部分であることと、
前記複数の画像群の各々に対応するターゲットフュージョン画像に基づいて、ターゲットビデオを生成し、前記複数の画像群の各々に対応するターゲットフュージョン画像の前記ターゲットビデオにおける再生順序は、前記複数の画像群の前記初期ビデオにおける再生順序と同じであることとを含む、ビデオ処理方法。
ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行うステップは、
オプティカルフロー補間アルゴリズムを採用して、前記ターゲット画像群における隣り合うフレーム画像間にいずれも指定された個数の中間フレーム画像を挿入し、フレーム挿入された前記ターゲット画像群における全てのフレーム画像を、前記ターゲット画像群における各フレーム画像を動きぼけ処理して得られた画像とすることと、
前記各フレーム画像を動きぼけ処理して得られた画像に対して平均フュージョンを行うこととを含む、請求項１に記載のビデオ処理方法。
オプティカルフロー補間アルゴリズムを採用して前記ターゲット画像群における隣り合うフレーム画像間に指定された個数の中間フレーム画像を挿入するステップは、
前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得することと、
前記画素ブロックの双方向動きベクトル及びブロック動き補償アルゴリズムにより、前記隣り合うフレーム画像間に指定された個数の中間フレーム画像を挿入することとを含む、請求項２に記載のビデオ処理方法。
前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得するステップは、
改良された密な逆順検索に基づくＤＩＳオプティカルフローアルゴリズムにより、前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得することを含み、
改良されたＤＩＳオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度は、元のＤＩＳオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度よりも小さく、及び／又は、前記改良されたＤＩＳオプティカルフローアルゴリズムに採用される反復回数は、元のＤＩＳオプティカルフローアルゴリズムに採用される反復回数よりも小さい、請求項３に記載のビデオ処理方法。
前記ターゲット画像群における指定フレーム画像に基づいて、主体オブジェクト領域と背景領域を決定するステップは、
前記ターゲット画像群の中間位置に位置する画像を指定フレーム画像とすることと、
オブジェクトインスタンスセグメンテーションアルゴリズムを採用して、前記指定フレーム画像に対して処理を行うことと、
処理結果に基づいて、前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を得ることとを含む、請求項１に記載のビデオ処理方法。
前記主体オブジェクト領域と前記背景領域に応じて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うステップは、
前記主体オブジェクト領域と前記背景領域に応じて、主体オブジェクトマスク画像を得ることと、
前記主体オブジェクトマスク画像に対応する重み係数を取得することと、
前記重み係数に基づいて、前記主体オブジェクトマスク画像の画素値を調整して、調整された前記主体オブジェクトマスク画像を得ることと、
調整された前記主体オブジェクトマスク画像に基づいて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うこととを含む、請求項１に記載のビデオ処理方法。
前記主体オブジェクトマスク画像に対応する重み係数を取得するステップは、
オプティカルフロー法により、前記ターゲット画像群における各フレーム画像に対応する全局動き幅を取得することと、
前記全局動き幅に応じて、前記主体オブジェクトマスク画像に対応する重み係数を決定することとを含む、請求項６に記載のビデオ処理方法。
前記全局動き幅は、前記重み係数と負の相関がある、請求項７に記載のビデオ処理方法。
調整された前記主体オブジェクトマスク画像に基づいて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うステップは、
次式を採用して前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うことを含み、
ここで、βは、前記重み係数であり、mask_mainは、前記主体オブジェクトマスク画像であり、β*mask_mainは、調整された前記主体オブジェクトマスク画像であり、Pnは、前記指定フレーム画像であり、Merge_Nは、前記動きぼけ画像であり、Merge_N’は、前記ターゲットフュージョン画像である、請求項６に記載のビデオ処理方法。
初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得るステップは、
前記初期ビデオのビデオフレーム系列を指定間隔で切分けて、前記複数の画像群を取得し、隣り合う２つの画像群間には所定個数の重合フレーム画像を有することを含む、請求項１に記載のビデオ処理方法。
初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得るための画像群取得モジュールと、
ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行い、前記ターゲット画像群に対応する動きぼけ画像を取得し、前記複数の画像群における各画像群は、いずれも前記ターゲット画像群であるぼけ処理モジュールと、
前記ターゲット画像群における指定フレーム画像に基づいて前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を決定するための領域決定モジュールと、
前記主体オブジェクト領域と前記背景領域に応じて、前記動きぼけ画像と前記指定フレーム画像に対してフュージョンを行い、ターゲットフュージョン画像を得るためのフュージョンモジュールであって、前記ターゲットフュージョン画像の前記主体オブジェクト領域における画像部分は、前記指定フレーム画像の前記主体オブジェクト領域における画像部分であり、前記ターゲットフュージョン画像の前記背景領域における画像部分は、前記動きぼけ画像の前記背景領域における画像部分であるフュージョンモジュールと、
前記複数の画像群の各々に対応するターゲットフュージョン画像に基づいて、ターゲットビデオを生成し、前記複数の画像群の各々に対応するターゲットフュージョン画像の前記ターゲットビデオにおける再生順序は、前記複数の画像群の前記初期ビデオにおける再生順序と同じであるビデオ生成モジュールとを含む、ビデオ処理装置。
プロセッサと、
前記プロセッサが実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリから前記実行可能な命令を読み出し、前記命令を実行して請求項１～１０のいずれか１項に記載のビデオ処理方法を実現させるためのものである、電子機器。
プロセッサによって実行されると、前記プロセッサに請求項１～１０のいずれか１項に記載のビデオ処理方法を実行させるコンピュータプログラムが記憶された、コンピュータ可読記憶媒体。
プロセッサによって実行されると、前記プロセッサに請求項１～１０のいずれか１項に記載のビデオ処理方法を実行させる命令を含む、コンピュータプログラム。