JP7764632B2 - ビデオ処理方法、装置、機器及び媒体 - Google Patents

ビデオ処理方法、装置、機器及び媒体

Info

Publication number
JP7764632B2
JP7764632B2 JP2024561603A JP2024561603A JP7764632B2 JP 7764632 B2 JP7764632 B2 JP 7764632B2 JP 2024561603 A JP2024561603 A JP 2024561603A JP 2024561603 A JP2024561603 A JP 2024561603A JP 7764632 B2 JP7764632 B2 JP 7764632B2
Authority
JP
Japan
Prior art keywords
image
target
images
video
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024561603A
Other languages
English (en)
Other versions
JP2025515439A (ja
Inventor
チェン,ルウショアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Publication of JP2025515439A publication Critical patent/JP2025515439A/ja
Application granted granted Critical
Publication of JP7764632B2 publication Critical patent/JP7764632B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/00Two-dimensional [2D] image generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/682Vibration or motion blur correction
    • H04N23/684Vibration or motion blur correction performed by controlling the image sensor readout, e.g. by controlling the integration time
    • H04N23/6845Vibration or motion blur correction performed by controlling the image sensor readout, e.g. by controlling the integration time by combination of a plurality of images sequentially taken
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/951Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Image Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Studio Circuits (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Description

[関連出願の相互参照]
本願は、中国出願番号が202210705983.3であり、出願日が2022年6月21日である出願を基礎としており、その優先権を主張し、該中国出願の全ての開示内容は参照により本出願に組み込まれる。
[技術分野]
本開示は、ビデオ処理技術分野に関し、特にビデオ処理方法、装置、機器及び媒体に関する。
ビデオ創作分野では、創作者は、一般的には、ニーズに応じてビデオ撮影を行う。撮影方式が異なる場合、得られるビデオ効果は異なる。場合によっては、創作者は、主体オブジェクトが鮮明で、背景がぶれてコマ落ち感を有するビデオ効果を撮影する必要がある。このようなビデオ効果は、プロの撮影道具を用いてスローシャッタ撮影を行い、及び/又はムービングシュートによって撮影を行う必要があることが多く、且つ、ビデオ創作者がしっかりとした撮影スキルを有する必要もあり、しかも適切な撮影シーンを要する。
本開示の実施例は、初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得ることと、ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行い、前記ターゲット画像群に対応する動きぼけ画像を得ることであって、前記複数の画像群における各画像群は、いずれも前記ターゲット画像群であることと、前記ターゲット画像群における指定フレーム画像に基づいて、前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を決定することと、前記主体オブジェクト領域と前記背景領域に応じて、前記動きぼけ画像と前記指定フレーム画像に対してフュージョンを行い、ターゲットフュージョン画像を得ることであって、前記ターゲットフュージョン画像の前記主体オブジェクト領域における画像部分は、前記指定フレーム画像の前記主体オブジェクト領域における画像部分であり、前記ターゲットフュージョン画像の前記背景領域における画像部分は、前記動きぼけ画像の前記背景領域における画像部分であることと、前記複数の画像群の各々に対応するターゲットフュージョン画像に基づいて、ターゲットビデオを生成することであって、前記複数の画像群の各々に対応するターゲットフュージョン画像の前記ターゲットビデオにおける再生順序は、前記複数の画像群の前記初期ビデオにおける再生順序と同じであることとを含む、ビデオ処理方法を提供する。
幾つかの実施例では、ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行うステップは、オプティカルフロー補間アルゴリズムを採用して前記ターゲット画像群における隣り合うフレーム画像間にいずれも指定された個数の中間フレーム画像を挿入し、フレーム挿入された前記ターゲット画像群における全てのフレーム画像を、前記ターゲット画像群における各フレーム画像を動きぼけ処理して得られた画像とすることと、前記各フレーム画像を動きぼけ処理して得られた画像に対して平均フュージョンを行うこととを含む。
幾つかの実施例では、オプティカルフロー補間アルゴリズムを採用して前記ターゲット画像群における隣り合うフレーム画像間に指定された個数の中間フレーム画像を挿入するステップは、前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得することと、前記画素ブロックの双方向動きベクトル及びブロック動き補償アルゴリズムにより、前記隣り合うフレーム画像間に指定された個数の中間フレーム画像を挿入することとを含む。
幾つかの実施例では、前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得するステップは、改良されたDISオプティカルフローアルゴリズムにより、前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得することを含み、前記改良されたDISオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度は、元のDISオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度よりも小さく、及び/又は、前記改良されたDISオプティカルフローアルゴリズムに採用される反復回数は、元のDISオプティカルフローアルゴリズムに採用される反復回数よりも小さい。
幾つかの実施例では、前記ターゲット画像群における指定フレーム画像に基づいて主体オブジェクト領域と背景領域を決定するステップは、前記ターゲット画像群の中間位置に位置する画像を指定フレーム画像とし、オブジェクトインスタンスセグメンテーションアルゴリズムを採用して前記指定フレーム画像に対して処理を行い、処理結果に基づいて前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を得ることを含む。
幾つかの実施例では、前記主体オブジェクト領域と前記背景領域に応じて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うステップは、前記主体オブジェクト領域と前記背景領域に応じて、主体オブジェクトマスク画像を得ることと、前記主体オブジェクトマスク画像に対応する重み係数を取得することと、前記重み係数に基づいて、前記主体オブジェクトマスク画像の画素値を調整して、調整された前記主体オブジェクトマスク画像を得ることと、調整された前記主体オブジェクトマスク画像に基づいて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うこととを含む。
幾つかの実施例では、前記主体オブジェクトマスク画像に対応する重み係数を取得するステップは、オプティカルフロー法により、前記ターゲット画像群における各フレーム画像に対応する全局動き幅を取得することと、前記全局動き幅に応じて、前記主体オブジェクトマスク画像に対応する重み係数を決定することとを含む。
幾つかの実施例では、調整された前記主体オブジェクトマスク画像に基づいて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うステップは、次式を採用して前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うことを含み、
βは、前記重み係数であり、mask_mainは、前記主体オブジェクトマスク画像であり、β*mask_mainは、調整された前記主体オブジェクトマスク画像であり、Pnは、前記指定フレーム画像であり、Merge_Nは、前記動きぼけ画像であり、Merge_N’は、前記ターゲットフュージョン画像である。
幾つかの実施例では、初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得るステップは、初期ビデオのビデオフレーム系列を指定間隔で切分けて、複数の画像群を得ることを含み、隣り合う2つの画像群間には所定個数の重合フレーム画像を有する。
本開示の実施例は、初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得るための画像群取得モジュールと、ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行い、前記ターゲット画像群に対応する動きぼけ画像を得るためのぼけ処理モジュールであって、前記複数の画像群における各画像群は、いずれも前記ターゲット画像群であるぼけ処理モジュールと、前記ターゲット画像群における指定フレーム画像に基づいて、前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を決定するための領域決定モジュールと、前記主体オブジェクト領域と前記背景領域に応じて、前記動きぼけ画像と前記指定フレーム画像に対してフュージョンを行い、ターゲットフュージョン画像を得るためのフュージョンモジュールであって、前記ターゲットフュージョン画像の前記主体オブジェクト領域における画像部分は、前記指定フレーム画像の前記主体オブジェクト領域における画像部分であり、前記ターゲットフュージョン画像の前記背景領域における画像部分は、前記動きぼけ画像の前記背景領域における画像部分であるフュージョンモジュールと、前記複数の画像群の各々に対応するターゲットフュージョン画像に基づいて、ターゲットビデオを生成するためのビデオ生成モジュールであって、前記複数の画像群の各々に対応するターゲットフュージョン画像の前記ターゲットビデオにおける再生順序は、前記複数の画像群の前記初期ビデオにおける再生順序と同じであるビデオ生成モジュールとを含む、ビデオ処理装置をさらに提供する。
本開示の実施例は、プロセッサと、前記プロセッサが実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリから前記実行可能な命令を読み出し、前記命令を実行して本開示の実施例によるビデオ処理方法を実現させるためのものである、電子機器をさらに提供する。
本開示の実施例は、プロセッサによって運行されると、前記プロセッサに本開示の実施例によるビデオ処理方法を実行させるためのコンピュータプログラムが記憶された、コンピュータ可読記憶媒体をさらに提供する。
本開示の実施例は、プロセッサによって実行されると、プロセッサに本開示の実施例によるビデオ処理方法を実行させる命令を含む、コンピュータプログラムをさらに提供する。
この部分に説明された内容は、本開示の実施例の肝心又は重要な特徴を特定することを意図しておらず、本開示の範囲を制限するものでもないことを理解されたい。本開示の他の特徴は、以下の明細書によって容易に理解できるようになる。
ここでの図面は、明細書に組み込まれ、本明細書の一部を構成し、本開示に適合する実施例を示しており、明細書とともに本開示の原理を説明するために用いられる。
本開示の実施例又は従来技術における技術案をより明確に説明するために、以下は、実施例又は従来技術の説明において使用される必要がある図面を簡単に説明する。自明なことに、当業者であれば、創造的な労力を払うことなく、それらの図面に基づき、他の図面を得ることもできる。
本開示の実施例によるビデオ処理方法の流れを示す概略図である。 本開示の実施例による隣り合うフレーム画像間のフレーム挿入の概略図である。 本開示の実施例によるビデオ処理装置の構成概略図である。 本開示の実施例による電子機器の構成概略図である。
本開示の上記の目的、特徴及び利点をより明確に理解できるように、以下は、本開示の態様についてさらに説明する。なお、矛盾しない限り、本開示の実施例及び実施例における特徴は、互いに組み合わせることができる。
本開示を十分に理解するために、以下の説明において、多くの具体的な詳細が説明されているが、本開示は、ここで説明されている形態と異なる他の形態で実施されてもよい。明らかに、明細書における実施例は、本開示の一部の実施例に過ぎず、全ての実施例ではない。
前述したように、主体オブジェクトが鮮明で、背景がぶれてコマ落ち感を有するビデオ効果を得るために、プロの撮影道具を用いてスローシャッタ撮影を行い、及び/又はムービングシュートによって撮影を行う必要があることが多く、且つ、ビデオ創作者がしっかりとした撮影スキルを有する必要もあり、しかも適切な撮影シーンを要する。多くのビデオ創作者にとって、上記の撮影条件を満たすことが困難であり、撮影により上記のビデオ効果を得る難度が高い。
主体オブジェクトが鮮明で、背景がぶれてコマ落ち感を有するビデオ効果を得るために、一般的には、プロの撮影道具、しっかりとした撮影スキル、及び適切な撮影シーンを要する。例えば、プロの撮影スタビライザーと三脚を組み合わせて使用してスローシャッタ撮影を行い、スローシャッタにより、ぶれる背景及びモーションスミアを実現して、画面朦朧感を作り出す必要があり、また、撮影中にスローシャッタを専門的に調整する必要もあり、且つ適正露光を利用して初めて所望の効果を達成することができる。また、撮影により上記のビデオ効果を得るために、撮影シーンに対する要求が高く、例えば、撮影シーンが夜間であること又は暗いことを要求し、そうでないと、光線が充分であれば、露出オーバーになり易い。
関連技術では、撮影フレームレートと露光時間を制御することにより、モーションスミアを発生することが多いが、このような方式では、撮影シーンの制限を受け、暗いシーンでしか撮影できず、全てのシーンに適用できない。また、ビデオにおける主体オブジェクトを保護することができず、画像全体にスミアを発生させるしかなく、主体オブジェクトが鮮明であることを保障し難い。また、ユーザ個人撮影に対して、プロの撮影スタビライザーが欠けていることが多く、ユーザの手振れによって主体がぼけることが多い。
上記の問題を改善するために、本開示の実施例は、ソフトウェア処理により、正常に撮影して得られたビデオを、主体の人物像が鮮明で、背景がぶれてコマ落ち感を有するビデオに処理することができるビデオ処理方法、装置、機器及び媒体を提供する。以下、詳細に説明する。
図1は、本開示の実施例によるビデオ処理方法の流れを示す概略図である。該方法は、ビデオ処理装置によって実行されてもよい。ここで、該装置は、ソフトウェア及び/又はハードウェアで実現されてもよく、一般的には電子機器に統合され得る。図1に示すように、この方法は主に以下のステップS102~ステップS110を含む。
ステップS102:初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得る。
初期ビデオは、撮影道具、撮影スキル及び撮影シーンの制限を受けずに撮影して得られたビデオであってもよく、例えば、ユーザが単に携帯電話で任意のシーンで撮影して得られたビデオであってもよい。初期ビデオは、ユーザがリアルタイムで撮影して得られたビデオであってもよいし、ユーザがアップロードした、予め撮影されたビデオであってもよい。
幾つかの実施形態では、初期ビデオのビデオフレーム系列を指定間隔で切分けて、複数の画像群を得てもよい。本開示の実施例は、切分け方式について限定するものではなく、該切分け方式は、例えば、平均切分け(つまり、等間隔切分け)、非平均切分けであってもよいし、交差切分けであってもよい(交差切分けて得られた隣り合う画像群間には、重合フレーム画像が存在する)。該指定間隔は、数の間隔であってもよい。このため、各画像群におけるフレーム画像の数は、同じであってもよく、いずれもNフレームの画像を含んでもよい。Nの数は、必要に応じて柔軟に設定してもよく、例示的に、初期ビデオのフレームレート及び所望のビデオの実フレームレートを参照して決定してもよい。例えば、Nの値は、初期ビデオのフレームレートと所望のビデオの実フレームレートとの比の値であってもよく、例えば、比の値が整数でない場合、その比の値に最も近い整数値をとってもよい。幾つかの実施形態では、隣り合う2つの画像群間のフレーム画像は、全く異なる。別の幾つかの実施形態では、隣り合う2つの画像群間の一部のフレーム画像が同じであり、つまり、一部のフレーム画像が重ね合わせる。言い換えれば、隣り合う2つの画像群間には、所定個数の重合フレーム画像がある。このようにすることにより、画像群の数の合理性を確保しつつ(つまり、後で生成されるビデオのフレームレート合理性を確保する)、各画像群の後の処理時における画像フュージョン効果を保障することができる。理解を容易にするために、以下、例示的に説明する。
仮に初期ビデオのオリジナルフレームレートがXfpsであるとして、連続したコマ落ちビデオを生成するために、Nフレームの画像を一組として処理を行ってもよい。それにより、後でNフレームの画像に基づいて1フレームの画像としてフュージョンすることができる。例えば、所望のビデオの実フレームレートが10fps~15fpsであり、例示的に、N=X/10となるように選択してもよく、つまり、X/10個のオリジナルフレームを1フレームとしてフュージョンする。仮にオリジナルフレームレートが30fpsであるとすると、3個のオリジナルフレームを1フレームとしてフュージョンする。仮にオリジナルフレームレートが60fpsであるとすると、6個のオリジナルフレームを1フレームとしてフュージョンする。以上は、あくまでもNの値を選び取る例であり、制限と見なされるべきではない。処理すべきビデオのビデオフレーム系列に対して、仮にPiが第iフレームの画像であるとする。幾つかの実施形態では、P1~P6を1つの画像群とし、P7~P12を1つの画像群とし、P12~P17を1つの画像群とし、…、以下同様である。このように得られた画像群の数は一般的には少なく、最終的に生成されたビデオのフレームレートが少なく、その結果、コマ落ちが目立ち過ぎる。一方、画像群におけるフレーム画像の数を減らし、例えば、P1~P3を1つの画像群とし、P4~P6を1つの画像群として、毎回3フレームのみをフュージョンする場合、モーションスミア度合が小さく、目立つ流動効果は容易に観察されない。より良いフュージョン効果を達成するために、本開示の実施例は、画像フレームを多重化してもよい。依然として6フレームずつ選択して1組として処理を行うが、隣り合う画像群間に重合フレームがあり、つまり、P1~P6を1つの画像群とし、P4~P9を1つの画像群とし、P7~P12を1つの画像群とし、P10~P15を1つの画像群として採用し、・・・、以下同様である。つまり、任意2つの隣り合う画像群間には、いずれも、3フレームの画像が重ね合わせ、このようにフレーム画像を多重化することにより、各画像群に6フレームの画像が含まれることを保障しつつ、画像群の数を2倍まで高めることができる。従って、画像群の数の合理性を保障しつつ、各画像群における複数フレームの画像の後の処理時におけるフュージョン効果を保障することができる。つまり、生成されたビデオフレームレートを確保する前提の下で、画面全体のぶれるフロー感を向上させる。
各画像群をそれぞれターゲット画像群とし、つまり、各画像群に対して、それぞれ以下のステップS104~ステップS108を実行する。
ステップS104:ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行い、ターゲット画像群に対応する動きぼけ画像を得る。
動きぼけ処理(Motion Blur)は、オブジェクト(物体、動物又は人物など)の動き状態効果をキャプチャする後処理方式であり、主にオブジェクトが動っている時に露光する撮像手法を模擬する。例えば、撮像中に動いているオブジェクトを撮影する間接露光機能を模擬して、画像に動的効果を発生させ、例えば、オブジェクトが掠め、又は移動する効果を作る。例えば、動きぼけ処理は、指定された方向に沿う。
本開示の実施例では、ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、動きぼけ処理して得られた全ての画像に対してフュージョンを行う。例えば、動きぼけ処理して得られた画像は、ターゲット画像群における処理済みのオリジナルフレーム画像を含むだけでなく、動きぼけ処理中にオリジナルフレーム画像を基に追加挿入されたフレーム画像をさらに含んでもよい。最後に、全ての画像に対してフュージョンを行った後、ターゲット画像群に対応する動きぼけ画像を得ることができる。該動きぼけ画像は、ぼけ且つぶれる画面効果を有する。
ステップS106:ターゲット画像群における指定フレーム画像に基づいてターゲット画像群に対応する主体オブジェクト領域と背景領域を決定する。
本開示の実施例は、主体オブジェクトのタイプについて制限を加えなく、主体オブジェクトは、例えば、人物であってもよいし、動物、又は例えば車両などの物品であってもよい。
ビデオにおける主体オブジェクト部分が相対的に鮮明に画面に現れるように、本開示の実施例は、オブジェクト保護ポリシーを提案する。例えば、ターゲット画像群から指定フレーム画像を選択してもよく、例えば、該指定フレーム画像は、ターゲット画像群の中間位置フレームであってもよい。指定フレーム画像に対してオブジェクト分割を行うことにより、分割結果に基づいて最終的にターゲット画像群に対応する主体オブジェクト領域と背景領域を取得することができる。主体オブジェクト領域と背景領域により、後で主体オブジェクトに対する保護を実現することができる。例えば、指定フレーム画像に対してオブジェクト分割を行い(主体オブジェクトが人物である場合を例にして、人物像分割を行う)、指定フレーム画像における主体オブジェクト領域と背景領域を得て、指定フレーム画像における主体オブジェクト領域と背景領域をターゲット画像群に対応する主体オブジェクト領域と背景領域としてもよく、背景領域は、主体オブジェクト領域以外の領域である。
なお、上記のステップS104とステップS106とは先後関係がなく、並列に実行されてもよい。
ステップS108:主体オブジェクト領域と背景領域に応じて、動きぼけ画像と指定フレーム画像に対してフュージョンを行い、ターゲットフュージョン画像を得る。
ターゲットフュージョン画像の主体オブジェクト領域における画像部分は、指定フレーム画像の主体オブジェクト領域における画像部分であり、ターゲットフュージョン画像の背景領域における画像部分は、動きぼけ画像の背景領域における画像部分である。つまり、ターゲットフュージョン画像における主体オブジェクト領域は、指定フレーム画像における主体オブジェクト領域の画素から構成され、ターゲットフュージョン画像における背景領域は、動きぼけ画像における背景領域の画素から構成される。上記の方式により、ターゲットフュージョン画像は、ぼけ且つぶれる背景画面を有しながら、相対的に鮮明な主体オブジェクトを有する。
例えば、ターゲット画像群における指定フレーム画像に対して主体オブジェクト領域と背景領域との分割を行った後、特定の方式により、主体オブジェクト領域と背景領域を区分してもよい。例えば、主体オブジェクト領域と背景領域に基づいて主体オブジェクトマスク画像を生成してもよい。該主体オブジェクトマスク画像は、異なる領域に対して異なる画素値を採用して標識を行ってもよい。例示的に、主体オブジェクトマスク画像における背景領域の画素値はいずれも0であり、主体オブジェクト領域の画素値はいずれも1である。そして、主体オブジェクトマスク画像に基づいて、動きぼけ画像と指定フレーム画像に対してフュージョンを行い、指定フレーム画像における鮮明な主体オブジェクトと、動きぼけ画像におけるぼけ且つぶれる背景とが結合されたターゲットフュージョン画像を得る。
ステップS110:複数の画像群の各々に対応するターゲットフュージョン画像に基づいてターゲットビデオを生成し、複数の画像群の各々に対応するターゲットフュージョン画像のターゲットビデオにおける再生順序は、複数の画像群の初期ビデオにおける再生順序と同じである。
各画像群は、いずれもそれぞれターゲット画像群として上記のステップS104~ステップS108を実行した。このため、それに応じて、各画像群は、いずれも1枚のターゲットフュージョン画像を有する。全てのターゲットフュージョン画像は、複数の画像群の初期ビデオのビデオフレーム系列における対応する先後位置関係で配列され、各ターゲットフュージョン画像は、いずれもターゲットビデオを構成する1フレームとされ、複数のターゲットフュージョン画像は、順に配列された後、ターゲットビデオのビデオフレーム系列を構成することができる。つまり、ターゲットフュージョン画像から構成されたビデオフレーム系列は、ターゲットビデオである。ターゲットビデオに含まれるビデオフレームの数は、初期ビデオのビデオフレームの数よりも少なく、ターゲットビデオにおける各フレーム画像は、いずれも初期ビデオにおける複数フレームの画像に対して動きぼけ、主体オブジェクト保護などの処理を行った後でフュージョンして得られたものである。従って、ターゲットビデオは、一定のコマ落ち感を与えることができ、且つ画像画面の背景がぼけ且つぶれるが、主体人物は鮮明である。
上記の方式により、ソフトウェアアルゴリズムを採用すれば、正常に撮影して得られたビデオを、主体人物像が鮮明で、背景がぶれてコマ落ち感を有する効果を有するビデオに処理することができる。ユーザは、撮影道具、撮影スキル及び撮影シーンの制限を受けなく、上記のビデオ撮影効果を容易且つ迅速に得ることができる。
本開示の実施例による上記の技術案は、初期ビデオのビデオフレーム系列に基づいて複数の画像群を得て、各画像群をそれぞれターゲット画像群として、以下の操作を実行することができる。ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行い、ターゲット画像群に対応する動きぼけ画像を得る。ターゲット画像群における指定フレーム画像に基づいてターゲット画像群に対応する主体オブジェクト領域と背景領域を決定する。そして、主体オブジェクト領域と背景領域に応じて、動きぼけ画像と指定フレーム画像に対してフュージョンを行い、ターゲットフュージョン画像を得る。最後に、複数の画像群の各々に対応するターゲットフュージョン画像に基づいてターゲットビデオを生成する。上記の方式により、ソフトウェアアルゴリズムを採用すれば、正常に撮影して得られたビデオを、主体人物像が鮮明で、背景がぶれてコマ落ち感を有する効果を有するビデオに処理することができ、ユーザは、撮影道具、撮影スキル及び撮影シーンの制限を受けなく、上記のビデオ撮影効果を容易且つ迅速に得ることができる。
幾つかの実施形態では、ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行うステップは、以下のステップA~ステップBを参照して実行してもよい。
ステップA:オプティカルフロー補間アルゴリズムを採用してターゲット画像群における隣り合うフレーム画像間にいずれも指定された個数の中間フレーム画像を挿入し、フレーム挿入されたターゲット画像群における全てのフレーム画像を、ターゲット画像群における各フレーム画像を動きぼけ処理して得られた画像とする。
オプティカルフローは、空間で動く物体の、観測される結像面上の画素の動きの「瞬時速度」である。オプティカルフローの研究は、画像シーケンスにおける画素強度データのタイムドメイン変化と相関を利用して、各画素位置の「動き」を決定する。言い換えれば、オプティカルフローアルゴリズムでは、1枚の画像における画素と、別の画像における画素とをマッチングし、マッチングにより、画素がどのように1枚の画像から別の画像に「移動」又は「流動」するかを知ることができる。各画素に対してマッチングした後、局所的に画素を移動して2枚の画像の中間ビューを補間することができる。幾つかの実施形態では、演算力を節約し、処理効率を高めるために、疎なオプティカルフロー補間により、フレーム挿入を行ってもよい。例えば、フレーム画像を指定サイズの画素ブロック(例えば、16*16)に分け、画素ブロック単位で、画素ブロック間のマッチング及び動きベクトルの計算を行う。同じ画素ブロックに属する全ての画素に対応する動きベクトルは、いずれも同じであり、異なる画素ブロック間の動きベクトルは、同じである可能性もあるし、異なる可能性もある。このような方式により、演算力を大幅に節約することができる。サービス側か携帯端末かに関わらず、直接的に上記の方式によりビデオ処理を行うことができる。これに基づいて、幾つかの実施例では、上記のステップAは、以下のステップA1~ステップA2を参照して実行してもよい。
ステップA1:ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得する。
例えば、双方向動きベクトルは、順方向動きベクトルと逆方向動きベクトルとを含む。例えば、隣り合うフレーム画像は、それぞれ前フレーム画像Faと後フレーム画像Fbであり、Faを基準として、Faにおける画素ブロックと、Fbにおける画素ブロックとをマッチングし、FaからFbの方向に順方向動きベクトルを計算する。Fbを基準として、Fbにおける画素ブロックとFaにおける画素ブロックとをマッチングし、FbからFaの方向に逆方向動きベクトルを計算する。双方向動きベクトルにより、画素ブロックの画像間のオプティカルフローの動きの傾向を適切且つ確実に表すことができる。
幾つかの実施形態では、改良されたDISオプティカルフローアルゴリズムにより、ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得してもよい。
例えば、改良されたDISオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度は、元のDISオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度よりも小さい。
例えば、改良されたDISオプティカルフローアルゴリズムに採用される反復回数は、元のDISオプティカルフローアルゴリズムに採用される反復回数よりも小さい。例示的に、元のDISオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度は、原画像の解像度であり、改良されたDISオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度は、原画像の解像度の1/4である。元のDISオプティカルフローアルゴリズムの反復回数は、12回であり、改良されたDISオプティカルフローアルゴリズムに採用される反復回数は、5回である。
DISオプティカルフローアルゴリズムは、Dense Inverse Search-based method(密な逆順検索に基づく方法)の略称である。元のDISオプティカルフローアルゴリズムは、密なオプティカルフローアルゴリズムに属し、本開示の実施例では、演算力を節約するために、元のDISオプティカルフローアルゴリズムを基に改良を行う。例えば、DISアルゴリズムは、画像を異なるサイズにズームして、1つの画像ピラミッドを構築し、そして、解像度が最も小さい階層から、1階層ずつ下に向けてオプティカルフローを推定し、各階層において推定されたオプティカルフローを、次の階層の推定の初期化とすることにより、異なる幅の動きを正確に推定する目的を達成する。本開示の実施例では、疎なオプティカルフローが得られればよい(即ち、各画素に対して相応なオプティカルフローを計算する必要があるのではなく、各画素ブロックにおける画素は、いずれも1つのオプティカルフローを共有し、オプティカルフローは、動きベクトルを表すことができる)。従って、DISオプティカルフローアルゴリズムを改良し、画像ピラミッドの底層画像の解像度(つまり、最高解像度)を下げる。例示的に、最高解像度を原画像の1/4に設定する。また、最高解像度においても稠密化ステップを行う必要がなく、最後に疎なオプティカルフローを得ることができる。また、本開示の実施例は、疎なオプティカルフローが得られればよく、高い精度が要求されないため、勾配降下法を用いて解を求める場合、小さい反復回数を使用すればよい。従って、元のDISオプティカルフローアルゴリズムの12回の反復は、5回の反復に変更される。DISオプティカルフローアルゴリズムを改良した後、改良されたDISオプティカルフローアルゴリズムを採用して、隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを迅速に得ることができる。
ステップA2:画素ブロックの双方向動きベクトル及びブロック動き補償アルゴリズムにより、隣り合うフレーム画像間に指定された個数の中間フレーム画像を挿入する。中間フレーム画像は、隣り合うフレーム画像間に挿入される画像である。
動き補償は、隣り合うフレームの差を記述する方法であり、例えば、前フレーム画像における各画素ブロックがどのように徐々に後フレーム画像におけるある位置に移動するかを記述する。ブロック動き補償アルゴリズム(ブロッキング動き補償とも呼ばれる)では、各フレーム画像は、若干の画素ブロックに分けられる。元のフレーム画像における画素ブロック及び相応な動きベクトルに基づいて、それの中間フレーム画像における位置を予測してもよい。例えば、隣り合うフレーム画像画素ブロック間の双方向動きベクトルが既知である場合、隣り合うフレーム画像の画素ブロックをそれぞれ動き経路において等距離にM回サンプリングし、サンプリング毎に1フレームを挿入してもよい。サンプリング数の値Mは、画像フュージョンのきめ細かさを表すことができる。M値が大きいほど、画像のフュージョンがより自然になり、M値が小さいほど、画像のフュージョンの度合が粗く、目立つ重合跡が現れやすい。ブロック動き補償によりフレーム挿入を行い、隣り合うフレーム間のぼけ効果図を得る。理解を容易にするために、図2に示す隣り合うフレーム画像間のフレーム挿入概略図を参照して、FaとFbは隣り合うフレームであり、Faフレームにおける任意の画素ブロックblock_iに対して、前後フレームから対応するblock_i0とblock_iMを見出し、該画素ブロックの双方向動きベクトル(順方向動きベクトルF_ab、逆方向動きベクトルF_ba)により、それぞれ相応な動き経路において等距離にM回サンプリングし、サンプリング毎に1フレームを挿入する。例示的に、j回目とk回目に採用される画素ブロック位置は、図2に示す通りであり、j回目のサンプリングに対応する画素ブロックがblock_ijであり、k回目のサンプリングに対応する画素ブロックがblock_ikであることを示す。図2に示すように、各画素を、それが属する画素ブロックの動き経路において複製して重ね合わせることにより、リアルで滑らかな動きぼけ効果を作り出す。上記の方式により、複数回のサンプリングにより、隣り合うフレーム画像間に複数の中間フレーム画像を挿入することができ、且つ中間フレーム画像はいずれもぼけ図である。
ステップB:各フレーム画像を動きぼけ処理して得られた画像に対して平均フュージョンを行う。
動きぼけ処理して得られた全ての画像(元の隣り合う画像フレーム及び挿入された中間フレーム画像)の画素値を平均化すれば、ターゲット画像群に対応する動きぼけ画像を得ることができる。このような方式により、最終的な動きぼけ画像は、撮像中に動いているオブジェクトを撮影する間接露光機能を模擬して、動いてぶれる動的効果を画像に発生させることができる。また、画素ブロックの処理方式により、画像フュージョン効果を確保する前提の下で、必要な演算力も低減し、アルゴリズムの全体的な性能を効果的に向上させ、携帯端末の実現可能性を確保することができる。
上記の方式により、各画像群におけるフレーム画像に基づいて、いずれも動きぼけ画像を対応して生成することができ、動きぼけ画像のぼけ度合は、一般的には動き度合に比例し、動きが速いほど、スミアが長くなる。上記のアルゴリズムを採用する実現原理及び達成できる効果は、実際のスローシャッタの原理及び撮影されたぼけ度合と一致する。従って、いずれも以下の問題がある。ユーザが画面背景が動いてぼけるが、主体オブジェクトが相対的に鮮明であることを希望する場合、採用される上記のぼけ処理アルゴリズム又は実際の撮影効果では、いずれも主体が動き、又は撮影機器が振れることに起因して主体がぼけることを回避することができない。言い換えれば、本開示の実施例による上記の動きぼけ処理方式により得られた動きぼけ画像における主体オブジェクトもぼけており、ユーザに鮮明に呈示され難い。この問題を改善するために、本開示の実施例は、オブジェクト保護ポリシーを提案して、ターゲット画像群における指定フレーム画像に基づいてオブジェクト分割を行って、ターゲット画像群に対応する主体オブジェクト領域と背景領域を取得し、主体オブジェクト領域と背景領域に応じて、オブジェクト保護を行うことができる。例えば、指定フレーム画像として、ターゲット画像群の中間位置に位置する画像を選択してもよい。それにより、後のフュージョンがより自然になることに寄与する。
幾つかの実施形態では、ターゲット画像群の中間位置に位置する画像を指定フレーム画像とし、オブジェクトインスタンスセグメンテーションアルゴリズムを採用して指定フレーム画像に対して処理を行い、処理結果に基づいてターゲット画像群に対応する主体オブジェクト領域と背景領域を得る。例えば、主体オブジェクト領域と背景領域に応じて、主体オブジェクトマスク画像を得てもよい。幾つかの実施形態では、指定フレーム画像には、少なくとも1つのオブジェクトがあり得る。よって、少なくとも1つのオブジェクトマスクから主体オブジェクトマスクを決定してもよい。主体オブジェクトマスクは、画像中心に最も近いオブジェクトマスクであり、それにより、主体オブジェクトマスク画像を得る。
主体オブジェクトマスク画像を決定する幾つかの実施形態では、以下のステップ1~ステップ4を参照してもよい。
ステップ1:指定フレーム画像のオブジェクト分割結果(Alpha分割図)に対して画像侵食を行い、複数のオブジェクト間のつながりを減少させる。
ステップ2:侵食後の画像を2値化し、その後、つながり領域検出を行い、画像中心に最も近い広大のつながり領域を見出して主体オブジェクトとする。
ステップ3:選定されたつながり領域に対して膨張操作を行い、元のAlpha分割図にマッピングし、主体オブジェクトマスクを得る。
ステップ4:主体オブジェクトマスクを最適化し、例示的に、ボックスブラー及びエッジスムージング処理を行い、主体オブジェクトマスク画像を得る。
上記の方式により、主体オブジェクトマスク画像を得て、後で主体オブジェクトマスク画像を利用して主体オブジェクトを保護することを容易にすることができる。
なお、本開示の実施例では、ターゲット画像群に対応する動きぼけ画像及び主体オブジェクトマスク画像を取得する2つのプロセスは順序を問わず、並列に実行されてもよい。
上記の方式により動きぼけ画像と主体オブジェクトマスク画像を得た後、幾つかの実施形態では、動きぼけ画像、主体オブジェクトマスク画像と指定フレーム画像に基づいて、ターゲット画像群に対応するターゲットフュージョン画像を得てもよい。
得られたターゲットビデオのフレーム画像の画面をよりリアルにするために、本開示の実施例は、主体オブジェクトの保護の度合を制御してもよい。例えば、違和感を避けるために、全局動き幅が大きい場合、主体オブジェクトが特に鮮明でない。これに基づいて、主体オブジェクトマスク画像に基づいて、動きぼけ画像と指定フレーム画像に対して画像フュージョンを行うステップは、以下のステップ(1)~ステップ(3)を参照してもよい。
ステップ(1)では、主体オブジェクトマスク画像に対応する重み係数を取得する。重み係数は、主体オブジェクトの保護の度合に関連し、重み係数が大きいほど、主体オブジェクトの保護の度合が高くなり、主体オブジェクトが鮮明になる。
幾つかの実施例では、オプティカルフロー法により、ターゲット画像群における各フレーム画像に対応する全局動き幅を取得し、全局動き幅に応じて、主体オブジェクトマスク画像に対応する重み係数を決定してもよい。本開示の実施例は、オプティカルフロー法について限定するものではなく、例えば、疎なオプティカルフロー法を採用して、画素ブロックの動き情報を決定してもよい。それにより、ターゲット画像群における各フレーム画像に対応する全局動き幅を取得する。全局動き幅は、重み係数と負の相関があり、全局動き幅が大きいほど、つまり、動きが速いほど、重み係数が小さくなり、主体オブジェクトの鮮明さが相対的に低くなる(但し、依然としてぼける背景の鮮明さよりも高く、主体オブジェクトが特に鮮明でないようにするだけである)。以上の通り、本開示の実施例は、レンズシフトによる全局動き幅に基づいて、オブジェクト保護の度合を調節することができる。
ステップ(2)では、重み係数に基づいて、主体オブジェクトマスク画像の画素値を調整して、調整された主体オブジェクトマスク画像を得る。幾つかの例では、重み係数を主体オブジェクトマスク画像の画素値に乗じることにより、調整された主体オブジェクトマスク画像を得てもよい。
ステップ(3)では、調整された主体オブジェクトマスク画像に基づいて、動きぼけ画像と指定フレーム画像に対して画像フュージョンを行う。例示的に、次式を採用して動きぼけ画像と指定フレーム画像に対して画像フュージョンを行ってもよい。
ここで、βは、重み係数であり、mask_mainは、主体オブジェクトマスク画像であり、β*mask_mainは、調整された主体オブジェクトマスク画像であり、Pnは、指定フレーム画像であり、Merge_Nは、動きぼけ画像であり、Merge_N’は、ターゲットフュージョン画像である。
上記の式に基づいて画像フュージョンを行って得られるターゲットフュージョン画像は、背景画面がぼけ且つぶれるが、主体オブジェクトが相対的に鮮明であり、且つ、重み係数に基づいて鮮明さを調整することができる。重み係数をレンズシフトによる全局動き幅に基づいて決定してもよいため、主体オブジェクトの鮮明さが全局動き幅に関連し、画面効果がよりリアルで自然になる。
初期ビデオのビデオフレーム系列を切分けて(平均切分け、非平均切分け、交差切分けなど、切分け方式を限定するものではない)得られた画像群に対して全て上記の方式により相応なターゲットフュージョン画像を得た後、全てのターゲットフュージョン画像を順に配列して所望のターゲットビデオを形成することができる。また、初期ビデオの複数フレームの画像をターゲットビデオにおける1フレーム画像にフュージョン処理し、フレームレートを下げたため、ユーザにコマ落ち感を与えることができる。以上の通り、ユーザは、撮影道具、撮影スキル及び撮影シーンの制限を受けなく、本開示の実施例による上記のビデオ処理方法のみにより、ソフトウェアアルゴリズムを採用すれば、ユーザが正常に撮影したビデオを、主体オブジェクトが鮮明で、背景がぶれてコマ落ち感を有するターゲットビデオに容易且つ迅速に変換することができる。上記のターゲットビデオは、スタイルが独特で、ユーザに動き感及びコマ落ち感を有するビデオ画面を呈示することができ、該ビデオ画面における主体オブジェクトは依然として鮮明であるため、主体オブジェクトを良好に目立たせることができる。主体オブジェクトが人物である場合を例にして、上記のビデオ効果は、主体人物の内心の意識をある程度反映でき、深い感銘を与える。また、処理中に、例えば、疎なオプティカルフローアルゴリズムなどを採用して動きぼけを行い、演算力を効果的に低減し、アルゴリズムの全体的な性能を向上させ、携帯端末の実現可能性を確保することができる。従って、サービス側で実現できると共に、携帯端末側でも実現でき、適用範囲がより広い。
前記ビデオ処理方法に対応して、本開示の実施例は、ビデオ処理装置を提供する。図3は、本開示の実施例によるビデオ処理装置の構成概略図である。該装置は、ソフトウェア及び/又はハードウェアで実現されてもよく、図4に示すように、一般的には電子機器に統合され得る。
ビデオ処理装置は、初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得るための画像群取得モジュール302と、
ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行い、前記ターゲット画像群に対応する動きぼけ画像を得るためのぼけ処理モジュールであって、前記複数の画像群における各画像群は、いずれも前記ターゲット画像群であるぼけ処理モジュール304と、
前記ターゲット画像群における指定フレーム画像に基づいて前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を決定するための領域決定モジュール306と、
前記主体オブジェクト領域と前記背景領域に応じて、前記動きぼけ画像と前記指定フレーム画像に対してフュージョンを行い、ターゲットフュージョン画像を得るためのフュージョンモジュールであって、前記ターゲットフュージョン画像の前記主体オブジェクト領域における画像部分は、前記指定フレーム画像の前記主体オブジェクト領域における画像部分であり、前記ターゲットフュージョン画像の前記背景領域における画像部分は、前記動きぼけ画像の前記背景領域における画像部分であるフュージョンモジュール308と、
前記複数の画像群の各々に対応するターゲットフュージョン画像に基づいて、ターゲットビデオを生成するためのビデオ生成モジュールであって、前記複数の画像群の各々に対応するターゲットフュージョン画像の前記ターゲットビデオにおける再生順序は、前記複数の画像群の前記初期ビデオにおける再生順序と同じであるビデオ生成モジュール310とを含む。
上記の装置により、ソフトウェアアルゴリズムを採用すれば、正常に撮影して得られたビデオを、主体人物像が鮮明で、背景がぶれてコマ落ち感を有する効果を有するビデオに処理することができ、ユーザは、撮影道具、撮影スキル及び撮影シーンの制限を受けなく、上記のビデオ撮影効果を容易且つ迅速に得ることができる。
幾つかの実施形態では、ぼけ処理モジュール304は、オプティカルフロー補間アルゴリズムを採用して前記ターゲット画像群における隣り合うフレーム画像間にいずれも指定された個数の中間フレーム画像を挿入し、フレーム挿入された前記ターゲット画像群における全てのフレーム画像を、前記ターゲット画像群における各フレーム画像を動きぼけ処理して得られた画像とすることと、前記各フレーム画像を動きぼけ処理して得られた画像に対して平均フュージョンを行うこととに用いられる。
幾つかの実施形態では、ぼけ処理モジュール304は、前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得することと、前記画素ブロックの双方向動きベクトル及びブロック動き補償アルゴリズムにより、前記隣り合うフレーム画像間に指定された個数の中間フレーム画像を挿入することとに用いられる。
幾つかの実施形態では、ぼけ処理モジュール304は、改良されたDISオプティカルフローアルゴリズムにより、前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得することに用いられ、前記改良されたDISオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度は、元のDISオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度よりも小さく、及び/又は、前記改良されたDISオプティカルフローアルゴリズムに採用される反復回数は、元のDISオプティカルフローアルゴリズムに採用される反復回数よりも小さい。
幾つかの実施形態では、領域決定モジュール306は、前記ターゲット画像群の中間位置に位置する画像を指定フレーム画像とし、オブジェクトインスタンスセグメンテーションアルゴリズムを採用して前記指定フレーム画像に対して処理を行い、処理結果に基づいて前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を得ることに用いられる。
幾つかの実施形態では、フュージョンモジュール308は、前記主体オブジェクト領域と前記背景領域に応じて、主体オブジェクトマスク画像を得ることと、前記主体オブジェクトマスク画像に対応する重み係数を取得することと、前記重み係数に基づいて、前記主体オブジェクトマスク画像の画素値を調整して、調整された前記主体オブジェクトマスク画像を得ることと、調整された前記主体オブジェクトマスク画像に基づいて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うこととに用いられる。
幾つかの実施形態では、フュージョンモジュール308は、オプティカルフロー法により、前記ターゲット画像群における各フレーム画像に対応する全局動き幅を取得することと、前記全局動き幅に応じて、前記主体オブジェクトマスク画像に対応する重み係数を決定することとに用いられる。
幾つかの実施形態では、フュージョンモジュール308は以下に用いられる。調整された前記主体オブジェクトマスク画像に基づいて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うステップは、
次式を採用して前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うことを含み、
βは、前記重み係数であり、mask_mainは、前記主体オブジェクトマスク画像であり、β*mask_mainは、調整された前記主体オブジェクトマスク画像であり、Pnは、前記指定フレーム画像であり、Merge_Nは、前記動きぼけ画像であり、Merge_N’は、前記ターゲットフュージョン画像である。
幾つかの実施形態では、画像群取得モジュール302は、初期ビデオのビデオフレーム系列を指定間隔で切分けて、複数の画像群を得ることに用いられ、隣り合う2つの画像群間には所定個数の重合フレーム画像がある。
本開示の実施例によるビデオ処理装置は、本開示の任意の実施例によるビデオ処理方法を実行することができ、実行する方法に対応する機能モジュールと有益な効果を有する。
当業者が明確に理解できるように、説明の利便性及び簡潔性のために、以上に説明された装置実施例の作動プロセスは、方法の実施例における対応するプロセスを参照すればよい。ここではこれ以上説明しない。
本開示の実施例は、プロセッサと、プロセッサが実行可能な命令を記憶するためのメモリとを含み、プロセッサは、メモリから実行可能な命令を読み出し、命令を実行して上記のビデオ処理方法を実現させるためのものである、電子機器をさらに提供する。図4は、本開示の実施例による電子機器の構成概略図である。図4に示すように、電子機器400は、1つ又は複数のプロセッサ401とメモリ402とを含む。
プロセッサ401は、中央処理ユニット(CPU)又はデータ処理能力及び/又は命令実行能力を有する他の形態の処理ユニットであってもよく、電子機器400における他の構成要素を制御して所望の機能を実行することができる。
メモリ402は、様々な形態のコンピュータ可読記憶媒体、例えば、揮発性メモリ及び/又は不揮発性メモリを含み得る1つ又は複数のコンピュータプログラム製品を含んでもよい。前記揮発性メモリは、例えば、ランダムアクセスメモリ(RAM)及び/又はキャッシュメモリ(cache)などを含んでもよい。前記不揮発性メモリは、例えば、リードオンリーメモリ(ROM)、ハードディスク、フラッシュメモリなどを含んでもよい。前記コンピュータ可読記憶媒体には、1つ又は複数のコンピュータプログラム命令が記憶されてもよく、プロセッサ401は、前記プログラム命令を運行して上記で説明された本開示の実施例のビデオ処理方法及び/又は他の所望の機能を実現させることができる。前記コンピュータ可読記録媒体には、例えば、入力信号、信号成分、ノイズ成分など様々な内容がさらに記憶されてもよい。
幾つかの例では、電子機器400は、入力装置403と出力装置404をさらに含んでもよく、これらの構成要素は、バスシステム及び/又は他の形態の接続機構(図示せず)によって相互接続される。
また、該入力装置403は、例えば、キーボード、マウスなどをさらに含んでもよい。
該出力装置404は、決定された距離情報、方向情報などを含む様々な情報を外部に出力することができる。該出力装置404は、例えば、ディスプレイ、スピーカ、プリンタ、通信ネットワーク及びそれに接続された遠隔出力機器などを含んでもよい。
もちろん、簡略化のため、図4では、該電子機器400における、本開示に関係する構成要素のうちの一部のみを示しており、例えばバス、入出力インタフェースなどの構成要素を省略している。また、具体的な応用状況に応じて、電子機器400は、他の任意の適切な構成要素をさらに含んでもよい。
上記方法と機器に加えて、本開示の実施例は、プロセッサによって運行されると、前記プロセッサに本開示の実施例によるビデオ処理方法を実行させるコンピュータプログラム命令を含むコンピュータプログラム製品であってもよい。
前記コンピュータプログラム製品は、本開示の実施例の操作を実行するためのプログラムコードを1種類又は複数種類のプログラミング言語の任意の組み合わせを用いて書くことが可能であり、前記プログラミング言語は、オブジェクト指向のプログラミング言語、例えばJava、C++などを含み、さらに一般の手続き型プログラミング言語、例えば「C」言語又は類似的なプログラミング言語を含む。プログラムコードは、完全にユーザコンピューティング機器で実行したり、部分的にユーザ機器で実行したり、独立したソフトウェアパッケージとして実行したり、一部をユーザコンピューティング機器で一部をリモートコンピューティング機器で実行したり、完全にリモートコンピューティング機器又はサーバで実行したりすることができる。
また、本開示の実施例は、プロセッサによって運行されると、前記プロセッサに本開示の実施例によるビデオ処理方法を実行させるコンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体であってもよい。
前記コンピュータ可読記憶媒体は、1つ又は複数の可読媒体の任意の組み合わせを採用してもよい。可読媒体は、可読信号媒体又は可読記憶媒体であり得る。可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線又は半導体のシステム、装置又はデバイス或いはそれらの任意の組み合わせを含んでもよいが、それらに限定されない。可読記憶媒体の例(非網羅的リスト)として、1つ又は複数の導線を有する電気接続、携帯型ディスク、ハードディス、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバー、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶デバイス、磁気記憶デバイス又はそれらの任意の適切な組み合わせを含む。
本開示の実施例は、プロセッサによって実行されると、本開示の実施例におけるビデオ処理方法を実現させるコンピュータプログラム/命令を含むコンピュータプログラム製品をさらに提供する。
本開示の実施例は、プロセッサによって実行されると、プロセッサに本開示の実施例によるビデオ処理方法を実行させる命令を含む、コンピュータプログラムをさらに提供する。
なお、本明細書において、例えば「第1」及び「第2」などのような関係用語は、単に1つのエンティティ又は操作を他のエンティティ又は操作と区別する目的だけに用いられ、これらエンティティ又は操作間にこのような実際の関係又は順序が存在することを要求又は暗示するものではない。さらに、用語「含む」、「包含する」又は任意のその他の変体は、非排他的な含有を示すことで、一系列の要素を含む過程、方法、物品又は機器は、それらの要素だけでなく、明示されていない他の要素も含み、又はこのような過程、方法、物品又は機器に固有の要素も含む。さらに多い制限がない場合に、「1つの・・・を含む」によって限定される要素は、前記要素を含む過程、方法、物品又は機器に他の同じ要素も含むことを除外しない。
以上は本開示の具体的な実施形態にすぎず、当業者が本開示を理解又は実現することを可能にするために使用される。これらの実施例に対する様々な修正は、当業者には自明となり、本明細書で定義される一般原理は、本開示の趣旨又は範囲から逸脱することなく他の実施例において実現されてもよい。従って、本開示は、本明細書のこれら実施例に限定されるものではなく、本明細書で開示される原理及び新規の特徴に適合する最も広い範囲を有する。

Claims (14)

  1. 初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得ることと、
    ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行い、前記ターゲット画像群に対応する動きぼけ画像を取得し、前記複数の画像群における各画像群は、いずれも前記ターゲット画像群であることと、
    前記ターゲット画像群における指定フレーム画像に基づいて、前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を決定することと、
    前記主体オブジェクト領域と前記背景領域に応じて、前記動きぼけ画像と前記指定フレーム画像に対してフュージョンを行い、ターゲットフュージョン画像を取得し、前記ターゲットフュージョン画像の前記主体オブジェクト領域における画像部分は、前記指定フレーム画像の前記主体オブジェクト領域における画像部分であり、前記ターゲットフュージョン画像の前記背景領域における画像部分は、前記動きぼけ画像の前記背景領域における画像部分であることと、
    前記複数の画像群の各々に対応するターゲットフュージョン画像に基づいて、ターゲットビデオを生成し、前記複数の画像群の各々に対応するターゲットフュージョン画像の前記ターゲットビデオにおける再生順序は、前記複数の画像群の前記初期ビデオにおける再生順序と同じであることとを含む、ビデオ処理方法。
  2. ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行うステップは、
    オプティカルフロー補間アルゴリズムを採用して、前記ターゲット画像群における隣り合うフレーム画像間にいずれも指定された個数の中間フレーム画像を挿入し、フレーム挿入された前記ターゲット画像群における全てのフレーム画像を、前記ターゲット画像群における各フレーム画像を動きぼけ処理して得られた画像とすることと、
    前記各フレーム画像を動きぼけ処理して得られた画像に対して平均フュージョンを行うこととを含む、請求項1に記載のビデオ処理方法。
  3. オプティカルフロー補間アルゴリズムを採用して前記ターゲット画像群における隣り合うフレーム画像間に指定された個数の中間フレーム画像を挿入するステップは、
    前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得することと、
    前記画素ブロックの双方向動きベクトル及びブロック動き補償アルゴリズムにより、前記隣り合うフレーム画像間に指定された個数の中間フレーム画像を挿入することとを含む、請求項2に記載のビデオ処理方法。
  4. 前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得するステップは、
    改良された密な逆順検索に基づくDISオプティカルフローアルゴリズムにより、前記ターゲット画像群における隣り合うフレーム画像間の画素ブロックの双方向動きベクトルを取得することを含み、
    改良されたDISオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度は、元のDISオプティカルフローアルゴリズムに採用される画像ピラミッドの底層画像の解像度よりも小さく、及び/又は、前記改良されたDISオプティカルフローアルゴリズムに採用される反復回数は、元のDISオプティカルフローアルゴリズムに採用される反復回数よりも小さい、請求項3に記載のビデオ処理方法。
  5. 前記ターゲット画像群における指定フレーム画像に基づいて、主体オブジェクト領域と背景領域を決定するステップは、
    前記ターゲット画像群の中間位置に位置する画像を指定フレーム画像とすることと、
    オブジェクトインスタンスセグメンテーションアルゴリズムを採用して、前記指定フレーム画像に対して処理を行うことと、
    処理結果に基づいて、前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を得ることとを含む、請求項に記載のビデオ処理方法。
  6. 前記主体オブジェクト領域と前記背景領域に応じて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うステップは、
    前記主体オブジェクト領域と前記背景領域に応じて、主体オブジェクトマスク画像を得ることと、
    前記主体オブジェクトマスク画像に対応する重み係数を取得することと、
    前記重み係数に基づいて、前記主体オブジェクトマスク画像の画素値を調整して、調整された前記主体オブジェクトマスク画像を得ることと、
    調整された前記主体オブジェクトマスク画像に基づいて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うこととを含む、請求項に記載のビデオ処理方法。
  7. 前記主体オブジェクトマスク画像に対応する重み係数を取得するステップは、
    オプティカルフロー法により、前記ターゲット画像群における各フレーム画像に対応する全局動き幅を取得することと、
    前記全局動き幅に応じて、前記主体オブジェクトマスク画像に対応する重み係数を決定することとを含む、請求項6に記載のビデオ処理方法。
  8. 前記全局動き幅は、前記重み係数と負の相関がある、請求項7に記載のビデオ処理方法。
  9. 調整された前記主体オブジェクトマスク画像に基づいて、前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うステップは、
    次式を採用して前記動きぼけ画像と前記指定フレーム画像に対して画像フュージョンを行うことを含み、
    ここで、βは、前記重み係数であり、mask_mainは、前記主体オブジェクトマスク画像であり、β*mask_mainは、調整された前記主体オブジェクトマスク画像であり、Pnは、前記指定フレーム画像であり、Merge_Nは、前記動きぼけ画像であり、Merge_N’は、前記ターゲットフュージョン画像である、請求項6に記載のビデオ処理方法。
  10. 初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得るステップは、
    前記初期ビデオのビデオフレーム系列を指定間隔で切分けて、前記複数の画像群を取得し、隣り合う2つの画像群間には所定個数の重合フレーム画像を有することを含む、請求項に記載のビデオ処理方法。
  11. 初期ビデオのビデオフレーム系列に基づいて、複数の画像群を得るための画像群取得モジュールと、
    ターゲット画像群における各フレーム画像に基づいて動きぼけ処理を行い、前記各フレーム画像を動きぼけ処理して得られた画像に対してフュージョンを行い、前記ターゲット画像群に対応する動きぼけ画像を取得し、前記複数の画像群における各画像群は、いずれも前記ターゲット画像群であるぼけ処理モジュールと、
    前記ターゲット画像群における指定フレーム画像に基づいて前記ターゲット画像群に対応する主体オブジェクト領域と背景領域を決定するための領域決定モジュールと、
    前記主体オブジェクト領域と前記背景領域に応じて、前記動きぼけ画像と前記指定フレーム画像に対してフュージョンを行い、ターゲットフュージョン画像を得るためのフュージョンモジュールであって、前記ターゲットフュージョン画像の前記主体オブジェクト領域における画像部分は、前記指定フレーム画像の前記主体オブジェクト領域における画像部分であり、前記ターゲットフュージョン画像の前記背景領域における画像部分は、前記動きぼけ画像の前記背景領域における画像部分であるフュージョンモジュールと、
    前記複数の画像群の各々に対応するターゲットフュージョン画像に基づいて、ターゲットビデオを生成し、前記複数の画像群の各々に対応するターゲットフュージョン画像の前記ターゲットビデオにおける再生順序は、前記複数の画像群の前記初期ビデオにおける再生順序と同じであるビデオ生成モジュールとを含む、ビデオ処理装置。
  12. プロセッサと、
    前記プロセッサが実行可能な命令を記憶するためのメモリと、を含み、
    前記プロセッサは、前記メモリから前記実行可能な命令を読み出し、前記命令を実行して求項1~10のいずれか1項に記載のビデオ処理方法を実現させるためのものである、電子機器。
  13. プロセッサによって実行されると、前記プロセッサに求項1~10のいずれか1項に記載のビデオ処理方法を実行させるコンピュータプログラムが記憶された、コンピュータ可読記憶媒体。
  14. プロセッサによって実行されると、前記プロセッサに請求項1~10のいずれか1項に記載のビデオ処理方法を実行させる命令を含む、コンピュータプログラム。
JP2024561603A 2022-06-21 2023-06-21 ビデオ処理方法、装置、機器及び媒体 Active JP7764632B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202210705983.3 2022-06-21
CN202210705983.3A CN117336422A (zh) 2022-06-21 2022-06-21 视频处理方法、装置、设备及介质
PCT/CN2023/101608 WO2023246844A1 (zh) 2022-06-21 2023-06-21 视频处理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
JP2025515439A JP2025515439A (ja) 2025-05-15
JP7764632B2 true JP7764632B2 (ja) 2025-11-05

Family

ID=89277884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024561603A Active JP7764632B2 (ja) 2022-06-21 2023-06-21 ビデオ処理方法、装置、機器及び媒体

Country Status (5)

Country Link
US (1) US20250272800A1 (ja)
EP (1) EP4546767A1 (ja)
JP (1) JP7764632B2 (ja)
CN (1) CN117336422A (ja)
WO (1) WO2023246844A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20250191145A1 (en) * 2023-12-06 2025-06-12 Waymo Llc Stacked Image Processing to Reduce Blur for Autonomous Driving
CN119255045B (zh) * 2024-01-04 2025-10-24 荣耀终端股份有限公司 一种视频插帧方法、装置、电子设备及存储介质
CN118524258B (zh) * 2024-07-25 2024-10-18 浙江嗨皮网络科技有限公司 离线视频背景处理方法、系统及可读存储介质
CN121056747B (zh) * 2025-11-04 2026-02-03 辽宁北斗卫星导航平台有限公司 高空作业监控中多摄像头图像叠加融合方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018160235A (ja) 2017-03-22 2018-10-11 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム
CN113313788A (zh) 2020-02-26 2021-08-27 北京小米移动软件有限公司 图像处理方法和装置、电子设备以及计算机可读存储介质
CN114245035A (zh) 2021-12-17 2022-03-25 深圳市慧鲤科技有限公司 视频生成方法和装置、设备、介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160205291A1 (en) * 2015-01-09 2016-07-14 PathPartner Technology Consulting Pvt. Ltd. System and Method for Minimizing Motion Artifacts During the Fusion of an Image Bracket Based On Preview Frame Analysis
CN111292337B (zh) * 2020-01-21 2024-03-01 广州虎牙科技有限公司 图像背景替换方法、装置、设备及存储介质
CN114419073B (zh) * 2022-03-09 2022-08-12 荣耀终端有限公司 一种运动模糊生成方法、装置和终端设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018160235A (ja) 2017-03-22 2018-10-11 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム
CN113313788A (zh) 2020-02-26 2021-08-27 北京小米移动软件有限公司 图像处理方法和装置、电子设备以及计算机可读存储介质
CN114245035A (zh) 2021-12-17 2022-03-25 深圳市慧鲤科技有限公司 视频生成方法和装置、设备、介质

Also Published As

Publication number Publication date
WO2023246844A1 (zh) 2023-12-28
JP2025515439A (ja) 2025-05-15
CN117336422A (zh) 2024-01-02
US20250272800A1 (en) 2025-08-28
EP4546767A1 (en) 2025-04-30

Similar Documents

Publication Publication Date Title
JP7764632B2 (ja) ビデオ処理方法、装置、機器及び媒体
Zhang et al. Gradient-directed multiexposure composition
EP3457683B1 (en) Dynamic generation of image of a scene based on removal of undesired object present in the scene
Zhang et al. Gradient-directed composition of multi-exposure images
Teodosio et al. Salient video stills: Content and context preserved
JP5762356B2 (ja) 焦点に基づく動的シーンの深度再構成のための装置および方法
Bennett et al. Computational time-lapse video
Hajisharif et al. Adaptive dualISO HDR reconstruction
CN110084765B (zh) 一种图像处理方法、图像处理装置及终端设备
Cho et al. Single‐shot High dynamic range imaging using coded electronic shutter
Paramanand et al. Shape from sharp and motion-blurred image pair
WO2024183388A1 (zh) 图像处理方法、电子设备及存储介质
CN114331902A (zh) 一种降噪方法、装置、电子设备及介质
Low et al. Deblur e-nerf: Nerf from motion-blurred events under high-speed or low-light conditions
Bae et al. I 2-SLAM: Inverting Imaging Process for Robust Photorealistic Dense SLAM
CN114390201A (zh) 对焦方法及其装置
Luo et al. Dynamic neural radiance field from defocused monocular video
Vien et al. Exposure-aware dynamic weighted learning for single-shot HDR imaging
KR101886246B1 (ko) 이미지 데이터에 포함된 모션 블러 영역을 찾고 그 모션 블러 영역을 처리하는 이미지 프로세싱 장치 및 그 장치를 이용한 이미지 프로세싱 방법
Mikamo et al. A Method For Adding Motion-Blur on Arbitrary Objects By using Auto-Segmentation and Color Compensation Techniques
Doner et al. FPGA-based infrared image deblurring using angular position of IR detector
Uda et al. Variable exposure time imaging for obtaining unblurred HDR images
Keinert et al. Cost-effective multi-camera array for high quality video with very high dynamic range
CN118890554B (zh) 视频处理方法、装置、电子设备和可读存储介质
Wang et al. A novel deghosting method for exposure fusion

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241017

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20241017

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20250924

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250930

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20251023

R150 Certificate of patent or registration of utility model

Ref document number: 7764632

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150