WO2024217164A1

WO2024217164A1 - 视频去噪模型的处理方法、装置、计算机设备和存储介质

Info

Publication number: WO2024217164A1
Application number: PCT/CN2024/079883
Authority: WO
Inventors: 陈艺云
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-04-18
Filing date: 2024-03-04
Publication date: 2024-10-24
Anticipated expiration: 2025-10-18
Also published as: EP4632666A4; US20250272803A1; CN116977200A; EP4632666A1

Abstract

本申请涉及一种视频去噪模型的处理方法、装置、计算机设备、存储介质和计算机程序产品，该方法可应用于人工智能领域，所述方法包括：在样本视频的视频帧序列中获取目标视频帧，以及获取所述样本视频对应的参考视频(S202)；通过视频去噪模型的第一分支提取目标视频帧的图像细节特征(S204)；通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取，得到图像融合特征(S206)；基于图像融合特征和图像细节特征生成预测视频帧(S208)；根据预测视频帧和参考视频中与目标视频帧对应的视频帧之间的损失值，对视频去噪模型中的参数进行调整，得到目标视频去噪模型(S210)。采用本方法能够提高目标视频去噪模型的去噪效果。

Description

视频去噪模型的处理方法、装置、计算机设备和存储介质

相关申请

本申请要求2023年04月18日申请的，申请号为2023104577981，名称为“视频去噪模型的处理方法、装置、计算机设备和存储介质”的中国专利申请的优先权，在此将其全文引入作为参考。

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频去噪模型的处理方法、装置、计算机设备和存储介质。

背景技术

随着计算机视觉技术的发展，在提高视频质量领域中视频去噪技术逐渐成为了研究热点。其中，基于深度学习的视频去噪模型在去噪效果和速度上都具有明显的优势，并且具有广泛的应用前景。

然而，现有基于单帧的视频去噪模型因不能充分考虑视频在时间维度上的相关性和连续性，无法提取较好的特征，基于多帧的视频去噪模型在计算资源有限的情况下，也无法提取较好的特征，从而导致现有的视频去噪模型对视频的去噪效果较差。

发明内容

根据本申请提供的各种实施例，提供了一种能够提高视频去噪效果的视频去噪模型的处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种视频去噪模型的处理方法，由计算机设备执行，所述方法包括：

在样本视频的视频帧序列中获取目标视频帧，以及获取所述样本视频对应的参考视频；

通过视频去噪模型的第一分支提取所述目标视频帧的图像细节特征；

对所述视频帧序列进行下采样得到下采样视频帧序列，通过所述视频去噪模型的第二分支对所述下采样视频帧序列进行特征提取，得到图像融合特征；

基于所述图像融合特征和所述图像细节特征生成预测视频帧；

根据所述预测视频帧和参考视频帧之间的损失值，对所述视频去噪模型中的参数进行调整，得到目标视频去噪模型；所述参考视频帧是所述参考视频中与所述目标视频帧对应的视频帧；所述目标视频去噪模型用于对待去噪视频进行去噪处理。

第二方面，本申请还提供了一种视频去噪模型的处理装置。所述装置包括：

视频帧获取模块，用于在样本视频的视频帧序列中获取目标视频帧，以及获取所述样本视频对应的参考视频；

细节特征提取模块，用于通过视频去噪模型的第一分支提取所述目标视频帧的图像细节特征；

融合特征提取模块，用于对所述视频帧序列进行下采样得到下采样视频帧序列，通过所述视频去噪模型的第二分支对所述下采样视频帧序列进行特征提取，得到图像融合特征；

预测模块，用于基于所述图像融合特征和所述图像细节特征生成预测视频帧；

参数调整模块，用于根据所述预测视频帧和和参考视频帧之间的损失值，对所述视频去噪模型中的参数进行调整，得到目标视频去噪模型；所述参考视频帧是所述参考视频中与所述目标视频帧对应的视频帧；所述目标视频去噪模型用于对待去噪视频进行去噪处理。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现所述视频去噪模型的处理方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现所述视频去噪模型的处理方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机可读指令，该计算机可读指令被处理器执行时实现所述视频去噪模型的处理方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例或传统技术中的技术方案，下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据公开的附图获得其他的附图。

图1为一个实施例中视频去噪模型的处理方法的应用环境图；

图2a为一个实施例中视频去噪模型的处理方法的流程示意图；

图2b为另一个实施例中视频去噪模型的处理方法的流程示意图；

图3为一个实施例中带噪视频帧去噪示意图；

图4为一个实施例中视频帧加噪示意图；

图5为一个实施例中真实噪声图像示意图；

图6为一个实施例中图像融合特征提取步骤的流程示意图；

图7为一个实施例中视频去噪步骤的流程示意图；

图8为另一个实施例中视频去噪模型的处理方法的流程示意图；

图9为一个实施例中样本数据处理示意图；

图10为一个实施例中视频去噪模型结构示意图；

图11为另一个实施例中带噪视频帧示意图；

图12为一个实施例中去噪后视频帧示意图；

图13为一个实施例中视频去噪模型的处理装置的结构框图；

图14为另一个实施例中视频去噪模型的处理装置的结构框图；

图15为一个实施例中计算机设备的内部结构图；

图16为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，在以下的描述中，所涉及的术语“第一、第二和第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一、第二和第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

本申请实施例提供的视频去噪模型的处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。该视频去噪模型的处理方法由终端102或服务器104单独执行，或者由终端102和服务器104协同执行。在一些实施例中，该视频去噪模型的处理方法由终端102执行，终端102在样本视频的视频帧序列中获取目标视频帧，以及获取样本视频对应的参考视频；通过视频去噪模型的第一分支提取目标视频帧的图像细节特征；对视频帧序列进行下采样得到下采样视频帧序列，通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取，得到图像融合特征；基于图像融合特征和图像细节特征生成预测视频帧；根据预测视频帧和和参考视频帧之间的损失值，对视频去噪模型中的参数进行调整，得到目标视频去噪模型；其中，参考视频帧是参考视频中与目标视频帧对应的视频帧，目标视频去噪模型用于对待去噪视频进行去噪处理。

其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一个实施例中，如图2a和图2b所示，提供了一种视频去噪模型的处理方法，以该方法应用于图1中的计算机设备(终端102或服务器104)为例进行说明，包括以下步骤：

S202，在样本视频的视频帧序列中获取目标视频帧，以及获取样本视频对应的参考视频。

其中，样本视频是用于对机器学习模型进行训练的视频数据，样本视频通常由多个视频帧组成，并且每个视频帧都包含有关视频内容的信息，例如颜色、形状、动作等，样本视频可以来自于各种来源，例如现实生活中的录像、模拟生成的视频、互联网上的视频等。样本视频是携带有噪声的视频，参考视频是与样本视频相对应的无噪声或噪声水平极低的视频，通常被用作视频去噪任务中的“真实”或“理想”状态，在视频去噪模型的训练和评估过程中，参考视频提供了一个目标标准，用于评估去噪效果和模型性能。

需要说明的是，本申请实施例中样本视频包括携带真实噪声的静态视频和加噪的动态视频。静态视频是指相机固定不动，被拍摄对象不运动的情况下，产生的视频数据，由于相机不动，所以静态视频中真实噪声通常是由相机本身的噪声、光照不均匀、传感器噪声等因素引起的，因此，携带真实噪声的静态视频可以更好地反映实际应用中的视频噪声情况；动态视频是指相机或拍摄对象在运动的情况下，产生的视频数据，加噪的动态视频是指在原始视频数据的基础上，通过在视频数据中添加噪声来模拟实际应用场景中的噪声情况，通过加噪的动态视频，可以更好地测试和评估视频去噪算法或模型的鲁棒性和性能。本申请实施例中的参考视频包括对静态视频进行平滑处理所得的清晰静态视频和未加噪的清晰动态视频。

具体的，终端从样本视频中按照一定的时间间隔抽取出视频帧序列，并从所抽取出的视频帧序列中获取当前待处理的目标视频帧。例如，终端从样本视频中抽取出的视频帧序列包含10个视频帧，当前待处理的目标视频帧为第2帧，则从视频帧序列中获取第2帧的视频帧。

S204，通过视频去噪模型的第一分支提取目标视频帧的图像细节特征。

其中，视频去噪模型是指用于去除视频中的噪声的计算机视觉模型或算法。视频噪声通常由于采集设备的不完美、信号传输中的干扰、压缩算法等因素引起，因此在很多视频应用中，如视频会议、视频编码等，去噪处理是一个重要的预处理步骤，视频去噪模型的任务是从输入的噪声视频中恢复出尽可能清晰、无噪声的视频，且同时尽量保留输入的噪声视频中的细节和质量。

视频去噪模型的第一分支具体可以是高分辨率分支，用于对原始分辨率的目标视频帧进行处理，可以理解的是，目标视频帧的原始分辨率为高分辨率，高分辨率是指图像的分辨率达到了特定的分辨率阈值，分辨率阈值可以根据需求进行设定，高分辨率的目标视频帧通常会携带更多的噪声和更丰富的细节信息，通过视频去噪模型的第一分支对目标视频帧进行特征处理，可以得到更加丰富的图像细节特征。

图像细节特征是指图像中细节部分的特征，例如纹理、边缘、角点等，通过提取图像细节特征，可以更准确地区分噪声和信号，并且可以还原更多的细节信息，从而提高图像的质量和清晰度。

具体的，终端在得到目标视频帧之后，将目标视频帧输入视频去噪模型的第一分支，通过第一分支的各网络层对目标视频帧进行处理，得到目标视频帧的图像细节特征。

S206，对视频帧序列进行下采样得到下采样视频帧序列，通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取，得到图像融合特征。

其中，下采样视频帧序列是指对样本视频的视频帧序列进行下采样所得到的视频帧序列，在图像处理中，下采样是指将图像的分辨率降低，从而使图像的尺寸减小，同时减少图像中的细节信息，通常用于降低计算量和内存占用，同时加速模型的训练和推理过程。

视频去噪模型的第二分支具体可以是低分辨率分支，用于对下采样视频帧序列进行处理，可以理解的是，下采样视频帧序列中的各个下采样视频帧的分辨率是低分辨率，低分辨率是指图像的分辨率未达到特定的分辨率阈值，分辨率阈值可以根据需求进行设定，低分辨率的下采样视频帧序列中各下采样视频帧的尺寸减小或者细节信息减少，通过视频去噪模型的第二分支对下采样视频帧序列进行处理，能够有效地降低计算量，提高模型的运行效率，同时还能够增强模型的泛化能力，使其更适合处理不同分辨率的视频。

图像融合特征是下采样视频帧序列中至少两个下采样视频帧的特征进行融合得到的特征表示，可以理解的是，对于存在噪声的视频数据，单独使用一帧图像进行去噪往往难以获得良好的去噪效果，因为单帧图像可能存在过多的噪声和失真，无法提供足够的信息，通过融合多个下采样视频帧的特征可以提高特征的表达能力，从而可以提高模型的去噪效果，此外下采样视频帧序列中的各个下采样视频帧经过特征提取后得到的特征表示可能存在信息损失，融合多个下采样视频帧的特征可以提高特征的表达能力，从而可以提高模型的去噪效果。

具体的，终端在得到视频帧序列之后，对视频帧序列中的各个视频帧进行下采样处理，得到下采样视频帧序列，并将下采样视频帧序列输入视频去噪模型的第二分支，通过第二分支的各个子分支分别对下采样视频帧序列中的各个下采样视频帧进行处理，得到图像融合特征。

S208，基于图像融合特征和图像细节特征生成预测视频帧。

预测视频帧是指在视频去噪模型中通过对输入的视频进行去噪处理后所生成的视频帧。

具体的，终端在得到图像融合特征和图像细节特征之后，对图像融合特征和图像细节特征进行融合，得到全局图像特征，并基于全局图像特征生成预测视频帧。

S210，根据预测视频帧参考视频帧的损失值，对视频去噪模型中的参数进行调整，得到目标视频去噪模型。

其中，参考视频帧是参考视频中与目标视频帧对应的视频帧，损失值用于评估视频去噪模型在对输入视频进行去噪处理后所得到的预测视频帧和参考视频中对应的视频帧之间的差异程度，通常，损失值越小，代表模型预测的结果和真实结果之间的差异越小，模型的预测准确度和效果就越好。

目标视频去噪模型是训练好的用于对待去噪视频进行去噪处理的机器学习模型。

在一个实施例中，终端在得到预测视频帧之后，从参考视频中获取与目标视频帧对应的视频帧，该视频帧也可以称为参考视频帧，基于预测视频帧和对应的参考视频帧确定损失值，并基于所确定的损失值对视频去噪模型中的参数进行调整，直至满足收敛条件时停止训练，得到目标视频去噪模型。

其中，收敛是指视频去噪模型的训练过程已经趋于稳定，即视频去噪模型已经学习到了数据的特征，并且不再有显著的改善，收敛条件包括固定的训练轮数、固定损失函数的阈值等，当模型在达到该条件时停止训练，以避免过度拟合。

具体的，终端在得到损失值之后，基于损失值调整视频去噪模型中的权重参数和偏置参数的值，得到调整后视频去噪模型，并重新执行步骤S202直至训练满足收敛条件时停止训练，得到目标视频去噪模型。

在一个实施例中，终端可基于以下公式确定：

其中，L表示损失值，I_LQ表示样本视频中的视频帧序列，T表示视频帧序列中视频帧的数量，F(I_LQ)ⁱ表示视频帧序列中第i个视频帧(目标视频帧)对应的预测视频帧，表示参考视频中的第i个视频帧，即目标视频帧对应的参考视频帧。

上述实施例中，终端在样本视频的视频帧序列中获取目标视频帧之后，通过视频去噪模型的第一分支提取目标视频帧的图像细节特征，在获得视频帧序列对应的下采样视频帧序列后，通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取，得到图像融合特征，基于图像融合特征和图像细节特征生成预测视频帧，既充分考虑了视频在时间维度上的相关性和连续性，又能够有效地降低计算量，提高模型的运行效率，从而在计算资源有限的情况下，也能够根据预测视频帧和参考视频中与目标视频帧对应的视频帧之间的损失值，对视频去噪模型中的参数进行调整，得到去噪效果较好的目标视频去噪模型。

在一个实施例中，样本视频包括携带真实噪声的静态视频和加噪的动态视频；参考视频包括对静态视频进行平滑处理所得的清晰静态视频和未加噪的动态视频，通过使用包含真实噪声的静态视频和加噪的动态视频作为样本视频，以及使用对静态视频进行平滑处理所得的清晰静态视频和未加噪的动态视频作为参考，可以更好地模拟真实场景下的噪声情况，进一步提高了目标视频去噪模型的去噪效果。

在一个实施例中，静态视频还携带有加噪噪声，上述视频去噪模型的处理方法还包括以下步骤：对静态对象进行视频采集，得到携带真实噪声的原始静态视频；对原始静态视频进行加噪处理，得到静态视频；静态视频携带有加噪噪声和真实噪声；对原始静态视频进行平滑处理，得到清晰静态视频。

其中，加噪噪声是以人工方式添加到视频中的噪声，加噪噪声的种类包括高斯噪声、椒盐噪声、伪随机噪声等；静态对象是指保持不运动的对象。平滑处理是一种图像处理方法，其主要目的是降低图像的噪声，在视频处理中，平滑处理可以应用于视频的每一帧图像中，通过对每一帧图像进行平滑操作，可以使得视频更加平滑和自然，降低噪声，平滑处理通常需要应用到每一帧图像上，因此对于视频而言，平滑处理也可以称为时域滤波。

具体的，终端保持视频采集设备不运动，对静态对象进行拍摄，得到静态视频，该静态视频即为携带真实噪声的原始静态视频，一方面采用预设的加噪算法对原始静态视频进行加噪处理，得到静态视频，该静态视频即携带有加噪噪声和真实噪声，另一方面，采用预设的平滑处理算法对该原始静态视频进行平滑处理，得到清晰静态视频。

其中，平滑处理算法包括高斯模糊、中值滤波、均值滤波等，高斯模糊可以通过对每个像素点的周围像素点进行加权平均的方式，来降低图像的噪声，中值滤波和均值滤波通过对每个像素点周围的像素点进行中值或者平均值的计算来降低图像的噪声。

可以理解的是，清晰静态视频相比于原始静态视频的噪声水平明显降低，因此也可以将清晰静态视频近似为未携带噪声的视频，以便在模型训练时将其作为未携带噪声的参考视频。

在一个实施例中，终端采用预设的平滑处理算法对该原始静态视频进行平滑处理，得到清晰静态视频的过程具体包括以下步骤：确定原始静态视频中相邻原始静态视频帧之间的帧差，将帧差达到帧差阈值的区域确定为相应原始静态视频帧中的噪声区域，对各原始静态视频帧中的噪声区域进行平滑处理，得到清晰静态视频。

需要说明的是，虽然携带真实噪声的原始静态视频是对静态对象进行视频采集所得到的，但是在视频采集时，采集设备可能并非绝对的稳定，可能存在一些非常小的抖动，以及环境中气体流动导致静态对象轻微运动等，从而导致所得到原始静态视频并非绝对的静态，而是相对的静态，对于绝对静态的静态视频如果相邻视频帧之间不存在噪声，那么相邻视频帧之间的帧差应当为0。

参考图3，图3中的(b)示出了相邻的三个带噪视频帧，图3中的(a)为相邻的两个带噪视频帧之间的帧差示意图，在对该三个带噪视频帧进行平滑处理后，得到如图3中(c)所示清晰视频帧，图3中的(d)相邻的两个清晰视频帧之间的帧差示意图，从图3可以看出，原始静态视频的从单个带噪视频帧来看，没有明显的噪声，但是相邻的两个带噪视频帧之间的帧差比较大，相应的原始静态视频在播放时会有明显的闪烁噪声，该闪烁噪声即为帧间噪声，在对原始静态视频进行时域平滑后，相邻的两个清晰视频帧之间的帧差明显减小，说明帧间噪声被大大减弱。

上述实施例中，终端通过对静态对象进行视频采集，得到携带真实噪声的原始静态视频，并对原始静态视频进行加噪处理，得到静态视频，静态视频携带有加噪噪声和真实噪声，对原始静态视频进行平滑处理，得到清晰静态视频，从而可以使用包含真实噪声的静态视频作为样本视频，使用清晰静态视频作为参考视频对视频去噪模型进行训练，可以更好地模拟真实场景下的噪声情况，提高了目标视频去噪模型的去噪效果。

在一个实施例中，终端对原始静态视频进行加噪处理，得到静态视频的过程具体包括以下步骤：从原始静态视频的各带噪视频帧中获取部分像素；根据各带噪视频帧的部分像素分别生成对应的第一像素图像；生成与各带噪视频帧对应的第一初始噪声图像；将第一初始噪声图像分别与第一像素图像进行融合，得到各带噪视频帧对应的第一噪声图像；将各第一噪声图像分别融合至对应的带噪视频帧中，得到静态视频。

其中，部分像素是指带噪视频帧中的部分像素点，具体可以是从带噪视频帧中随机选取出的，第一像素图像用于描述部分像素点的分布，具体的第一像素图像中部分像素点所对应的位置处的灰度值为1，1表示在此像素点所对应的位置处添加噪声，部分像素点之外的其他位置处的灰度值为0，0表示在此像素点所对应的位置处不添加噪声。

具体的，终端在得到原始静态视频后，从原始静态视频中获取各个带噪视频帧，针对任意一个带噪视频帧，从该带噪视频帧中随机选取部分像素，并基于所选取的部分像素生成与带噪视频帧大小相同的第一像素图像，其中该第一像素图像中部分像素对应位置处的灰度值可以为1，部分像素之外的其他位置处的灰度值可以为0，并采用预设的噪声生成算法生成第一初始噪声图像，将第一像素图像与第一初始噪声图像进行点乘，得到第一噪声图像，将该第一噪声图像融合至该带噪视频帧中，得到对应的加噪后的静态视频帧，可以理解的是对原始静态视频中的各个带噪视频帧均进行以上加噪处理，可以得到加噪后的静态视频。

其中，预设的噪声生成算法可以是随机分布算法，例如高斯分布算法，则采用高斯分布算法对相应的带噪视频帧进行处理，得到第一初始噪声图像。

在一个实施例中，终端将第一噪声图像融合至对应的带噪视频帧中，具体可以采用逐像素加权平均的方式实现图像融合，具体包括以下步骤：获取第一噪声图像对应的第一权重和带噪视频帧对应的第二权重，基于第一权重和第一噪声图像中各像素点的像素值、以及第二权重和带噪视频帧中各像素点的像素值，确定对应各目标像素点的加权像素值，基于各目标像素点的加权像素值生成加噪后的静态视频帧。其中目标像素点是指加噪后静态视频帧中的像素点。

参考图4，图4中的第一行，展示了传统的加噪方式，该加噪方式具体为，首先随机生成噪声图像，将该噪声图像直接融合到待加噪图像(干净图像)上，得到对应噪声图像，从该噪声图像中可以看出噪声被均匀添加到了干净图像上，然而如图5所示，真实的图像中，噪声(图中圆点表示噪声)并不是均匀分布在每个像素位置的；本申请实施例中所采用的加噪方式如图4中的第二行或第三行所示，首先从待加噪图像(干净图像)中随机选取出部分像素，并基于所选取出的部分像素生成像素图像，将像素图像与对应的噪声图像进行融合，得到加噪后的噪声图像，其中像素图像是仅由0和1组成的与待加噪图像长宽相同的矩阵，0表示此像素位置不加噪，1表示此像素位置加噪，图4中第二行和第三行中待加噪图像(干净图像)是相同的，随机生成的噪声图像也是相同的，但是分别所生成的像素图像是不同的，并且在加噪时所使用的加噪系数也是不同的，从而得到的噪声图像也是不同的，其中加噪系数具体可以是基于噪声图像对应的权重、干净图像对应的权重所确定的。

上述实施例中，终端通过从原始静态视频的各带噪视频帧中获取部分像素；根据各带噪视频帧的部分像素分别生成对应的第一像素图像；生成与各带噪视频帧对应的第一初始噪声图像；将第一初始噪声图像分别与第一像素图像进行融合，得到各带噪视频帧对应的第一噪声图像；将各第一噪声图像分别融合至对应的带噪视频帧中，得到静态视频，从而可以使得到的静态视频能够更加准确地模拟实际图像中噪声的分布情况，同时也能够增加噪声的多样性，采用该静态视频训练视频去噪模型，可以进一步提高视频去噪模型的去噪效果。

在一个实施例中，上述视频去噪模型的处理方法还包括以下步骤：从视频数据库中获取未加噪的动态视频；对未加噪的动态视频进行加噪处理，得到加噪的动态视频。

其中，动态视频包含有运动、变化的内容，例如人的行走、车辆行驶等等，这样的视频可以从多个角度展示动态物体的运动和变化情况。视频数据库可以是公开视频数据集，公开视频数据集具体可以是清晰视频数据集REDS和DAVIS，视频数据库也可以是对自己进行视频采集所得到视频进行去噪处理后所得到的清晰视频库。需要说明的是，本申请实施例中的清晰可以近似为不含噪，即清晰视频是指不含噪视频。

具体的，终端可以直接从视频数据库中获取清晰的动态视频，该动态视频即为未加噪的动态视频，并采用预设的加噪算法对所获取的动态视频进行加噪处理，得到加噪的动态视频。

上述实施例中，终端通过从视频数据库中获取未加噪的动态视频，对未加噪的动态视频进行加噪处理，得到加噪的动态视频，从而可以使用加噪的动态视频作为样本视频，使用未加噪的动态视频作为参考视频对视频去噪模型进行训练，可以更好的模拟真实场景中的噪声情况，从而提高了目标视频去噪模型的去噪效果。

在一个实施例中，未加噪的动态视频中的视频帧为清晰视频帧，终端对未加噪的动态视频进行加噪处理，得到加噪的动态视频的过程包括以下步骤：从各清晰视频帧中选取部分像素；根据各清晰视频帧的部分像素分别生成对应的第二像素图像；生成各清晰视频帧对应的第二初始噪声图像；将各第二初始噪声图像分别与对应的第二像素图像进行融合，得到各清晰视频帧对应的第二噪声图像；将各第二噪声图像分别融合至对应的清晰视频帧中，得到加噪的动态视频。

其中，部分像素是指清晰视频帧中的部分像素点，具体可以是从清晰视频帧中随机选取出的，第二像素图像用于描述部分像素点的分布，具体的第二像素图像中部分像素点所对应的位置处的灰度值为1，1表示在此像素点所对应的位置处添加噪声，部分像素点之外的其他位置处的灰度值为0，0表示在此像素点所对应的位置处不添加噪声。

具体的，终端在得到未加噪的动态视频后，从未加噪的动态视频中获取各个清晰视频帧，针对任意一个清晰视频帧，从该清晰视频帧中随机选取部分像素，并基于所选取的部分像素生成预清晰视频帧大小相同的第二像素图像，其中该第二像素图像中部分像素对应位置处的灰度值可以为1，部分像素之外的其他位置处的灰度值可以为0，并采用预设的噪声生成算法生成第二初始噪声图像，将第二像素图像与第二初始噪声图像进行点乘，得到第二噪声图像，将该第二噪声图像融合至该清晰视频帧中，得到加噪后的动态视频帧，可以理解的是，对未加噪的动态视频中的各个清晰视频帧均进行以上加噪处理，可以到加噪后的动态视频。

其中，预设的噪声生成算法可以随机分布算法，例如高斯分布算法等，例如高斯分布算法，则采用高斯分布算法对相应的清晰视频帧进行处理，得到第二初始噪声图像。

在一个实施例中，终端将第二噪声图像融合至对应的清晰视频帧中，具体可以采用逐像素加权平均的方式实现图像融合，具体包括以下步骤：获取第二噪声图像对应的第三权重和清晰视频帧对应的第四权重，基于第三权重和第二噪声图像中各像素点的像素值、以及第四权重和清晰视频帧中各像素点的像素值，确定对应各目标像素点的加权像素值，基于各目标像素点的加权像素值生成加噪后的动态视频帧。其中目标像素点是指加噪后动态视频帧中的像素点。

上述实施例中，终端通过从各清晰视频帧中选取部分像素；根据各清晰视频帧的部分像素分别生成对应的第二像素图像；生成各清晰视频帧对应的第二初始噪声图像；将各第二初始噪声图像分别与对应的第二像素图像进行融合，得到各清晰视频帧对应的第二噪声图像；将各第二噪声图像分别融合至对应的清晰视频帧中，得到加噪的动态视频，从而可以使得到的加噪的动态视频能够更加准确地模拟实际图像中噪声的分布情况，同时也能够增加噪声的多样性，采用该加噪的动态视频训练视频去噪模型，可以进一步提高视频去噪模型的去噪效果。

在一个实施例中，第二分支包括光流网络、目标帧子分支和其它帧子分支，如图6所示，终端通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取，得到图像融合特征的过程具体包括以下步骤：

S602，通过光流网络，确定下采样视频帧序列中的下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息。

其中，光流网络是用于估计光流信息的神经网络模型，具体可以是光流网络SpyNet；光流信息是指相邻的视频帧之间像素位置变化的信息，可以理解的是，在视频中，相邻的视频帧之间可能存在着物体的运动或相机的运动，这些运动导致相邻帧之间的像素位置不同，而光流信息就是用于描述相邻帧之间像素位置变化的信息。

本申请实施例中的光流信息可以包括下采样视频帧序列中的下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息，也可以包括下采样视频帧序列中任意两个相邻的下采样视频帧之间的光流信息。光流信息也可以称为光流向量，光流向量可以表示相邻的视频帧之间的像素位移，可以用于后续的帧对齐和特征融合。

下采样视频帧序列是指对视频帧序列中的各个视频帧进行下采样处理后所得到的视频帧序列，具体可以包括下采样目标视频帧和下采样连续视频帧，下采样连续视频帧包括下采样前序视频帧和下采样后序视频帧中的至少一种，例如，下采样视频帧序列中包含5个下采样视频帧，若下采样目标视频帧为下采样视频帧序列中的第3帧，则下采样视频帧序列中第3帧之外的其他下采样视频帧则为下采样连续视频帧，其中第1帧和第2帧为下采样前序视频帧，第4帧和第5帧为下采样后序视频帧；若下采样目标视频帧为下采样视频帧序列中的第1帧，则下采样视频帧序列中的第2帧至5帧则为下采样目标视频帧的下采样后序视频帧；若下采样目标视频帧为下采样视频帧序列中的第5帧，则下采样视频帧序列中的第1帧至4帧则为下采样目标视频帧的下采样前序视频帧。

具体的，终端在得到下采样视频帧序列之后，将下采样视频帧序列中的各个下采样视频帧输入光流网络，通过光流网络确定下采样视频帧序列中任意两个相邻的下采样视频帧之间的光流信息，从而得到下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息。

在一个实施例中，相邻下采样视频帧包括下采样前序视频帧和下采样后序视频帧中的至少一种；光流信息包括第一光流信息和第二光流信息中的至少一种，当下采样连续视频帧包括下采样前序视频帧时，终端通过光流网络，确定相邻的第一下采样视频帧之间的第一光流信息；当下采样连续视频帧包括下采样后序视频帧时，终端通过光流网络，确定相邻的第二下采样视频帧之间的第二光流信息；

其中，第一光流信息是相邻的第一下采样视频帧之间的信息，第二光流信息是第二下采样视频帧之间的信息，第一下采样视频帧是下采样目标视频帧与下采样前序视频帧中的下采样视频帧，第二下采样视频帧是下采样目标视频帧与下采样后序视频帧中的下采样视频帧，例如，下采样视频帧序列中包含5个下采样视频帧，若下采样目标视频帧为下采样视频帧序列中的第3帧，则下采样视频帧序列中第1帧和第2帧为下采样前序视频帧，第4帧和第5帧为下采样后序视频帧，第一下采样视频帧即为采样视频帧序列中第1帧、第2帧和第3帧中的下采样视频帧，第一光流信息包括第1帧到第2帧的光流信息、第2帧到第3帧的光流信息，第二下采样视频帧即采样视频帧序列中为第3帧、第4帧和第5帧中的下采样视频帧，第二光流信息包括第5帧到第4帧的光流信息、第4帧到第3帧的光流信息。

具体的，当下采样连续视频帧包括下采样前序视频帧时，终端将下采样视频帧序列中的各个下采样前序视频帧和下采样目标视频帧输入光流网络，通过光流网络确定下采样前序视频帧和下采样目标视频帧中任意两个相邻的下采样视频帧之间的光流信息，即确定相邻的第一下采样视频帧之间的光流信息，并将该光流信息确定为下采样目标视频帧与对应的相邻下采样视频帧之间的第一光流信息；当下采样连续视频帧包括下采样后序视频帧时，终端将下采样视频帧序列中的各个下采样后序视频帧和下采样目标视频帧输入光流网络，通过光流网络确定下采样后序视频帧和下采样目标视频帧中任意两个相邻的下采样视频帧之间的光流信息，即确定相邻的第二下采样视频帧之间的光流信息，并将该光流信息确定为下采样目标视频帧与对应的相邻下采样视频帧之间的第二光流信息，从而可以更好地理解视频中的运动和变化，从而更精确地对齐视频帧并提取特征。

S604，通过其它帧子分支对下采样视频帧序列进行特征提取，得到下采样目标视频帧对应的连续视频帧特征。

其中，其它帧子分支用于对下采样视频帧序列中下采样目标视频帧之外的下采样视频帧进行特征提取，以得到下采样目标视频帧对应的连续视频帧特征，其它帧子分支包括前序帧子分支和后序帧子分支中的至少一种，前序帧子分支用于对下采样前序视频帧进行特征提取，得到前序视频帧特征，后序帧子分支用于对下采样后序视频帧进行特征提取，得到后序视频帧特征。

具体的，终端在得到下采样视频帧序列之后，将下采样视频帧序列中的下采样连续视频帧输入其它帧子分支，通过其它帧子分支对输入的采样连续视频帧进行特征提取，得到下采样目标视频帧对应的连续视频帧特征。

在一个实施例中，相邻下采样视频帧包括下采样前序视频帧和下采样后序视频帧中的至少一种；连续视频帧特征包括前序视频帧特征和后序视频帧特征中的至少一种；当下采样连续视频帧包括下采样前序视频帧时，终端通过前序帧子分支的前向网络层对下采样前序视频帧进行特征提取，得到前序视频帧特征；当下采样连续视频帧包括下采样后序视频帧时，终端通过后序帧子分支的后向网络层对下采样后序视频帧进行特征提取，得到后序视频帧特征。

其中，前向网络层是指前向U型网络，后向网络层是指后向U型网络，前向U型网络是用于对下采样前序视频帧进行特征提取的U型网络，后向U型网络是用于对下采样后序视频帧进行特征提取的U型网络，U型网络是用于图像处理任务的卷积神经网络结构，它由下采样模块和上采样模块组成，通常在中间还会有一些卷积层和池化层。

具体的，当下采样连续视频帧包括下采样前序视频帧时，终端将下采样视频帧序列中的各个下采样前序视频帧输入前序帧子分支，通过前序帧子分支的前向网络层对各个下采样前序视频帧进行特征提取，得到前序视频帧特征；当下采样连续视频帧包括下采样后序视频帧时，终端将下采样视频帧序列中的各个下采样后序视频帧输入后序帧子分支，通过后序帧子分支的后向网络层对各个下采样后序视频帧进行特征提取，得到后序视频帧特征，在视频帧序列中，前后帧之间通常存在相关性，通过利用前序视频帧和后序视频帧的信息，可以更好地捕捉到视频序列中的时空特征，从而更精确地提取视频帧特征。

例如下采样视频帧序列中包含5个下采样视频帧，下采样目标视频帧为下采样视频帧序列中的第3帧，则前序帧子分支1用于对下采样视频帧序列中的第1帧下采样视频帧进行特征提取，前序帧子分支2用于对下采样视频帧序列中的第2帧下采样视频帧进行特征提取，后序帧子分支3用于对下采样视频帧序列中的第4帧下采样视频帧进行特征提取，后序帧子分支4用于对下采样视频帧序列中的第5帧下采样视频帧进行特征提取。

S606，基于光流信息将连续视频帧特征与下采样目标视频帧进行对齐，得到对齐后视频帧特征。

其中，对齐是指将连续视频帧特征与下采样目标视频帧的内容进行匹配，可以理解的是，在视频帧序列中，相邻的视频帧之间存在一定的运动关系，通过光流信息，可以将下采样目标视频帧与对应的连续视频帧特征进行对齐，这样在后续的处理中，就可以将它们看作是同一时刻的视频帧和视频帧特征，从而提高模型的准确度。

在一个实施例中，相邻下采样视频帧包括下采样前序视频帧和下采样后序视频帧中的至少一种；光流信息包括第一光流信息和第二光流信息中的至少一种；连续视频帧特征包括前序视频帧特征和后序视频帧特征中的至少一种；对齐后视频帧特征包括前序对齐后视频帧特征和后序对齐后视频帧特征中的至少一种；当下采样连续视频帧包括下采样前序视频帧时，终端基于第一光流信息将前序视频帧特征与下采样目标视频帧进行对齐，得到前序对齐后视频帧特征；当下采样连续视频帧包括下采样后序视频帧时，终端基于第二光流信息将后序视频帧特征与下采样目标视频帧进行对齐，得到后序对齐后视频帧特征。

具体的，当下采样连续视频帧包括下采样前序视频帧时，终端从前序视频帧特征中提取预设位置的特征向量，基于第一光流信息和所提取的特征向量确定该预设位置在下采样目标视频帧中对应的目标位置，基于预设位置的特征向量和下采样目标视频帧中对应的目标位置，采用插值法将前序视频帧特征与下采样目标视频帧的特征进行对齐，得到前序对齐后视频帧特征；当下采样连续视频帧包括下采样后序视频帧时，终端从后序视频帧特征中提取预设位置的特征向量，基于第二光流信息和所提取的特征向量确定该预设位置在下采样目标视频帧中对应的目标位置，基于预设位置的特征向量和下采样目标视频帧中对应的目标位置，采用插值法将后序视频帧特征与下采样目标视频帧的特征进行对齐，得到后序对齐后视频帧特征。其中预设位置可以是随机选取出的位置，也可以是预先指定的位置。

可以理解的是，通过对前序视频帧特征和后序视频帧特征进行对齐，可以在下采样目标视频帧的特征提取中获得更多的信息，提高了对目标视频帧的特征提取效果，从而有助于更好地去噪，同时，通过前后两个方向的光流信息的利用，可以进一步提高视频帧的特征提取质量，从而视频去噪模型可以准确的估计出对齐后视频帧特征中的噪声，进而提高视频去噪模型的去噪效果。

S608，通过目标子分支对对齐后视频帧特征进行处理，得到图像融合特征。

其中，目标子分支用于对下采样视频帧序列中的下采样目标视频帧进行特征处理，以得到下采样目标视频帧对应的图像融合特征。

具体的，终端在得到下采样目标视频帧对应的对齐后视频帧特征之后，将对齐后视频帧特征输入目标子分支，通过目标子分支对对齐后视频帧特征进行特征处理，得到图像融合特征。

在一个实施例中，当下采样连续视频帧包括下采样前序视频帧时，终端通过目标子分支的前向网络层对前序对齐后视频帧特征进行处理，得到前序图像融合特征；当下采样连续视频帧包括下采样后序视频帧时，终端通过目标子分支的后向网络层对后序对齐后视频帧特征进行处理，得到后序图像融合特征；基于前序图像融合特征和后序图像融合特征中的至少一个，确定图像融合特征。

其中，前向网络层是指前向U型网络，后向网络层是指后向U型网络，目标子分支的前向U型网络是用于对前序对齐后视频帧特征进行特征处理的U型网络，目标子分支的后向U型网络是用于对后序对齐后视频帧进行特征处理的U型网络，U型网络是用于图像处理任务的卷积神经网络结构，它由下采样模块和上采样模块组成，通常在中间还会有一些卷积层和池化层。

具体的，当下采样连续视频帧包括下采样前序视频帧时，终端将前序对齐后视频帧特征输入目标子分支的前向网络层，通过目标子分支的前向网络层对前序对齐后视频帧特征进行特征处理，得到前序图像融合特征；当下采样连续视频帧包括下采样后序视频帧时，终端将后序对齐后视频帧特征输入目标子分支的前向网络层，通过目标子分支的前向网络层对后序对齐后视频帧特征进行特征处理，得到后序图像融合特征；在下采样连续视频帧仅包括下采样前序视频帧时，直接将前序图像融合特征确定为图像融合特征，在下采样连续视频帧仅包括下采样后序视频帧时，直接将后序图像融合特征确定为图像融合特征，在下采样连续视频帧包括下采样前序视频帧和下采样后序视频帧时，则基于前序图像融合特征和后序图像融合特征确定图像融合特征。

上述实施例中，终端通过第二分支的光流网络确定下采样视频帧序列中的下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息，以及通过第二分支的其它帧子分支对下采样视频帧序列进行特征处理，得到下采样目标视频帧对应的连续视频帧特征，从而可以利用视频序列中的连续帧信息和光流信息，更好地理解视频中的运动和变化，从而可以得到准确的视频特征表示，同时，通过第二分支的目标子分支对对齐后的视频帧特征进行处理，可以得到更加准确的图像融合特征，进而基于图像融合特征可以使得后续的图像重建更加准确，提高了目标视频去噪模型的去噪效果。

在一个实施例中，下采样连续视频帧包括下采样前序视频帧和下采样后序视频帧时，终端基于前序图像融合特征和后序图像融合特征确定图像融合特征的过程具体包括以下步骤：将前序图像融合特征和后序图像融合特征进行拼接，得到拼接后图像特征，对拼接后图像特征进行卷积处理，得到图像融合特征。

具体的，终端在得到前序图像融合特征和后序图像融合特征之后，将前序图像融合特征和后序图像融合特征进行拼接，得到拼接后图像特征，并将拼接后图像特征输入目标子分支的卷积层，通过卷积层对拼接后图像特征进行卷积处理，得到更加高级的特征信息，该更加高级的特征信息即为图像融合特征。

上述实施例中，终端通过将前序图像融合特征和后序图像融合特征进行拼接可以有效地融合前后序视频帧的信息，充分利用前后序视频帧中连续帧之间的关联性，从而可以得到准确的视频特征表示，同时，对拼接后的图像特征进行卷积处理可以进一步提取和增强特征，从而可以得到更加准确的图像融合特征，进而基于图像融合特征可以使得后续的图像重建更加准确，提高了目标视频去噪模型的去噪效果。

在一个实施例中，终端基于图像融合特征和图像细节特征生成预测视频帧的过程具体包括以下步骤：将图像融合特征与图像细节特征进行融合，得到全局图像特征；基于全局图像特征进行图像重建，得到预测视频帧。

具体的，终端在得到图像融合特征与图像细节特征之后，获取图像融合特征对应的第一融合系数和图像细节特征对应的第二融合系数，并基于第一融合系数和第二融合系数对图像融合特征与图像细节特征进行融合，得到全局图像特征，对全局图像特征进行反卷积操作得到与目标视频帧相同大小的预测视频帧。

其中，反卷积操作用于将全局图像特征进行逐步放大到原始尺寸，以得到目标视频帧相同大小的预测视频帧。

上述实施例中，终端通过将图像融合特征与图像细节特征进行融合，得到全局图像特征，可以综合利用将图像融合特征与图像细节特征两者的信息，更全面的描述目标视频帧的图像内容，从而基于全局图像特征进行图像重建，得到预测视频帧，也能有较好的去噪效果，进而提高了目标视频去噪模型的去噪效果。

在一个实施例中，终端将图像融合特征与图像细节特征进行融合，得到全局图像特征的过程具体包括以下步骤：对图像融合特征进行上采样处理，得到上采样图像融合特征；将上采样图像融合特征与图像细节特征进行融合，得到全局图像特征。

具体的终端在得到图像融合特征之后，对图像融合特征进行反卷积操作，得到上采样图像融合特征，获取上采样图像融合特征对应的第一融合系数和图像细节特征对应的第二融合系数，并基于第一融合系数和第二融合系数对上采样图像融合特征与图像细节特征进行融合，得到全局图像特征。具体可以是基于第一融合系数和第二融合系数对上采样图像融合特征与图像细节特征进行加权融合。

上述实施例中，终端通过对图像融合特征进行上采样处理，从而可以得到与目标视频帧相同分辨率的上采样图像融合特征，将上采样图像融合特征与图像细节特征进行融合，得到全局图像特征，可以充分利用两种特征的各自的优势，进一步提高全局图像特征的表达能力，进而提高了目标视频去噪模型的去噪效果。

在一个实施例中，终端在得到目标视频去噪模型之后，还可以使用目标视频去噪模型对待去噪视频进行去噪处理，如图7所示，该过程具体包括以下步骤：

S702，在待去噪视频的待去噪视频帧序列中确定当前的待去噪视频帧。

具体的，终端获取待去噪视频，并从待去噪视频中抽取出待去噪视频帧序列，从待去噪视频帧序列中确定当前要进行去噪处理的待去噪视频帧。例如，终端从待去噪视频中抽取出的待去噪视频帧序列包含10个视频帧，当前的待去噪视频帧为第2帧，则从待去噪视频帧序列中获取第2帧。

S704，通过目标视频去噪模型的第一分支提取待去噪视频帧的待去噪图像细节特征。

其中，目标视频去噪模型是指对视频去噪模型进行训练所得到的训练好的视频去噪模型，目标视频去噪模型的第一分支具体可以是高分辨率分支，用于对原始分辨率的当前的待去噪视频帧进行处理。

具体的，终端在得到待去噪视频的当前的待去噪视频帧后，将当前的待去噪视频帧输入目标视频去噪模型的第一分支，通过第一分支的各网络层对当前的待去噪视频帧进行处理，得到该待去噪视频帧的待去噪图像细节特征。

S706，对待去噪视频帧序列进行下采样得到下采样待去噪视频帧序列，通过目标视频去噪模型的第二分支对下采样待去噪视频帧序列进行特征提取，得到待去噪图像融合特征。

其中，下采样待去噪视频帧序列是指对待去噪视频序列进行下采样所得到的视频帧序列，在图像处理中，下采样指将图像的分辨率降低，从而使图像的尺寸减小，同时减少图像中的细节信息，通常用于降低计算量和内存占用，同时加速模型的预测过程。

目标视频去噪模型的第二分支具体可以是低分辨率分支，用于对下采样待去噪视频帧序列进行处理，可以理解的是，下采样待去噪视频帧序列中的各个下采样待去噪视频帧的分辨率是低分辨率，低分辨率的下采样待去噪视频帧序列中各下采样待去噪视频帧的尺寸减小或者细节信息减少，通过目标视频去噪模型的第二分支对下采样待去噪视频帧序列进行处理，能够有效地降低计算量，提高模型的运行效率，同时还能够增强模型的泛化能力，使其更适合处理不同分辨率的视频。

待去噪图像融合特征是指下采样待去噪视频帧序列中至少两个下采样待去噪视频帧的特征进行融合得到的特征表示，可以理解的是，对于存在噪声的视频数据，单独使用一帧图像进行去噪往往难以获得良好的去噪效果，因为单帧图像可能存在过多的噪声和失真，无法提供足够的信息，通过融合多个下采样待去噪视频帧的特征可以提高特征的表达能力，从而可以提高目标视频去噪模型的去噪效果，此外下采样待去噪视频帧序列中的各个下采样待去噪视频帧经过特征提取后得到的特征表示可能存在信息损失，融合多个下采样待去噪视频帧的特征可以提高特征的表达能力，从而可以提高目标视频去噪模型的去噪效果。

具体的，终端在得到待去噪视频帧序列之后，对待去噪视频帧序列中的各个待去噪视频帧进行下采样处理，得到下采样待去噪视频帧序列，并将下采样待去噪视频帧序列输入目标视频去噪模型的第二分支，通过第二分支的各个子分支分别对下采样待去噪视频帧序列中的各个下采样待去噪视频帧进行处理，得到待去噪图像融合特征。

在一个实施例中，第二分支包括光流网络、目标帧子分支和其它帧子分支，S706具体包括以下步骤：通过光流网络，确定下采样待去噪视频帧序列中的当前的下采样待去噪视频帧与对应的相邻下采样待去噪视频帧之间的光流信息；通过其它帧子分支对下采样待去噪视频帧序列进行特征提取，得到当前的下采样待去噪视频帧对应的待去噪连续视频帧特征；基于光流信息将待去噪连续视频帧特征与当前的下采样待去噪视频帧进行对齐，得到待去噪对齐后视频帧特征；通过目标子分支对待去噪对齐后视频帧特征进行处理，得到待去噪图像融合特征。

在一个实施例中，下采样待去噪视频帧序列包括当前的下采样待去噪视频帧和下采样待去噪连续视频帧，下采样待去噪连续视频帧包括下采样待去噪前序视频帧和下采样待去噪后序视频帧中的至少一种，其它帧子分支包括前序帧子分支和后序帧子分支中的至少一种，待去噪连续视频帧特征包括待去噪前序视频帧特征和待去噪后序视频帧特征中的至少一种，待去噪对齐后视频帧特征包括待去噪前序对齐后视频帧特征和待去噪后序对齐后视频帧特征中的至少一种，终端通过光流网络，确定下采样待去噪视频帧序列中的当前的下采样待去噪视频帧与对应的相邻下采样视频帧之间的光流信息的过程具体包括以下步骤：通过光流网络，确定当前的下采样待去噪视频帧与下采样待去噪前序视频帧中的相邻下采样视频帧之间的第三光流信息；通过光流网络，确定当前的下采样待去噪视频帧与下采样待去噪后序视频帧中相邻下采样视频帧之间的第四光流信息。

在一个实施例中，终端通过其它帧子分支对下采样待去噪视频帧序列进行特征提取，得到当前的下采样待去噪视频帧对应的待去噪连续视频帧特征的过程包括以下步骤：通过前序帧子分支的前向网络层对下采样待去噪前序视频帧进行特征提取，得到待去噪前序视频帧特征；通过后序帧子分支的后向网络层对下采样待去噪后序视频帧进行特征提取，得到待去噪后序视频帧特征。

在一个实施例中，终端基于光流信息将待去噪连续视频帧特征与当前的下采样待去噪视频帧进行对齐，得到待去噪对齐后视频帧特征的过程包括以下步骤：基于第三光流信息将待去噪前序视频帧特征与当前的下采样待去噪视频帧进行对齐，得到待去噪前序对齐后视频帧特征；基于第四光流信息将待去噪后序视频帧特征与当前的下采样待去噪视频帧进行对齐，得到待去噪后序对齐后视频帧特征；

在一个实施例中，终端通过目标子分支对待去噪对齐后视频帧特征进行处理，得到图像融合特征的过程包括以下步骤：通过目标子分支的前向网络层对待去噪前序对齐后视频帧特征进行处理，得到待去噪前序图像融合特征；通过目标子分支的后向网络层对待去噪后序对齐后视频帧特征进行处理，得到待去噪后序图像融合特征；基于待去噪前序图像融合特征和待去噪后序图像融合特征中的至少一个，确定待去噪图像融合特征。

在一个实施例中，终端基于待去噪前序图像融合特征和待去噪后序图像融合特征中的至少一个，确定待去噪图像融合特征的过程具体包括以下步骤：在下采样待去噪连续视频帧仅包括下采样待去噪前序视频帧时，直接将待去噪前序图像融合特征确定为待去噪图像融合特征，在下采样待去噪连续视频帧仅包括下采样待去噪后序视频帧时，直接将待去噪后序图像融合特征确定为待去噪图像融合特征，在下采样待去噪连续视频帧包括下采样待去噪前序视频帧和下采样待去噪后序视频帧时，将待去噪前序图像融合特征和待去噪后序图像融合特征进行拼接，得到待去噪拼接后图像特征；对待去噪拼接后图像特征进行卷积处理，得到待去噪图像融合特征。

S708，基于待去噪图像细节特征和待去噪图像融合特征，生成待去噪视频帧对应的去噪视频帧。

具体的，终端在得到待去噪图像融合特征和待去噪图像细节特征之后，对待去噪图像融合特征和待去噪图像细节特征进行融合，得到待去噪全局图像特征，并基于待去噪全局图像特征生成预测视频帧。

上述实施例中，终端通过在待去噪视频的待去噪视频帧序列中确定当前的待去噪视频帧；通过目标视频去噪模型的第一分支提取待去噪视频帧的待去噪图像细节特征；在获得待去噪视频帧序列对应的下采样待去噪视频帧序列后，通过目标视频去噪模型的第二分支对下采样待去噪视频帧序列进行特征提取，得到待去噪图像融合特征；基于待去噪图像细节特征和待去噪图像融合特征，生成待去噪视频帧对应的去噪视频帧，既充分考虑了视频在时间维度上的相关性和连续性，又能够有效地降低计算量，提高模型的运行效率，从而在计算资源有限的情况下，也能够较好的提取出待去噪视频帧的特征，进而提高了目标视频去噪模型的去噪效果。

在一个实施例中，如图8所示，提供了一种视频去噪模型的处理方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

S802，对静态对象进行视频采集，得到携带真实噪声的原始静态视频；对原始静态视频进行加噪处理，得到静态视频；静态视频携带有加噪噪声和真实噪声；对原始静态视频进行平滑处理，得到清晰静态视频。

S804，从视频数据库中获取未加噪的动态视频；对未加噪的动态视频进行加噪处理，得到加噪的动态视频。

S806，将携带有加噪噪声和真实噪声的静态视频、以及加噪的动态视频确定为样本视频，将清晰静态视频和未加噪的动态视频确定为参考视频。

S808，在样本视频的视频帧序列中获取目标视频帧。

S810，通过视频去噪模型的第一分支提取目标视频帧的图像细节特征。

S812，对视频帧序列进行下采样得到下采样视频帧序列，通过视频去噪模型的第二分支的光流网络，确定下采样视频帧序列中的下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息。

S814，通过第二分支的其它帧子分支对下采样视频帧序列进行特征提取，得到下采样目标视频帧对应的连续视频帧特征。

S816，基于光流信息将连续视频帧特征与下采样目标视频帧进行对齐，得到对齐后视频帧特征。

S818，通过第二分支的目标子分支对对齐后视频帧特征进行处理，得到图像融合特征。

S820，对图像融合特征进行上采样处理，得到上采样图像融合特征。

S822，将上采样图像融合特征与图像细节特征进行融合，得到全局图像特征。

S824，基于全局图像特征进行图像重建，得到预测视频帧。

S826，根据预测视频帧和参考视频帧之间的损失值，对视频去噪模型中的参数进行调整，得到目标视频去噪模型。

其中，参考视频帧是参考视频中与目标视频帧对应的视频帧；目标视频去噪模型用于对待去噪视频进行去噪处理，参考视频包括对静态视频进行平滑处理所得的清晰静态视频和未加噪的动态视频。

本申请还提供一种应用场景，该应用场景应用上述视频去噪模型的处理方法，该方法包括以下步骤：

1、训练数据准备

参考图9所示的训练数据示意图，训练数据来源于两个部分，一部分是人工采集的画面静止的带有真实噪声的视频，另一部分是公开的清晰视频集，分别对带有真实噪声的视频和清晰视频进行人工加噪，得到低质量噪声视频(LQ)，对带有真实噪声的视频进行时域平滑，以及对清晰视频进行复制，得到高质量清晰视频(GT)，将低质量噪声视频(LQ)作为样本视频，将对应的高质量清晰视频(GT)作为参考视频，构建出成对的数据集，用所构建的成对的数据集来训练视频去噪模型。

2、模型训练

具体的，视频去噪模型的网络结构如图10所示，该视频去噪模型包括高分辨率分支和低分辨率分支，低分辨率分支包括光流网络以及多个子分支，每个子分支包括前向U型网络和后向U型网络，终端在样本视频的视频帧序列中获取目标视频帧，通过该视频去噪模型的高分辨率分支提取目标视频帧的图像细节特征，在对视频帧序列进行下采样得到下采样视频帧序列后，将下采样视频帧序列输入低分辨率分支，通过视频去噪模型的第二分支的光流网络，确定下采样视频帧序列中相邻下采样视频帧之间的光流信息，分别通过低分辨率分支中目标视频帧对应的目标子分支之外其他子分支和光流信息处理对应的下采样视频帧，从而得到下采样目标视频帧对应的连续视频帧特征，并基于下采样目标视频帧以及其与相邻下采样视频帧之间的光流信息，将连续视频帧特征与下采样目标视频帧进行对齐，得到对齐后视频帧特征，通过第分辨率分支的目标子分支对齐后视频帧特征进行处理，得到图像融合特征，对图像融合特征进行上采样处理，得到上采样图像融合特征，将上采样图像融合特征与图像细节特征进行融合，得到全局图像特征，基于全局图像特征进行图像重建，得到预测视频帧，根据预测视频帧和参考视频中与目标视频帧对应的视频帧确定损失值，基于损失值对视频去噪模型中的参数进行调整，得到目标视频去噪模型。

举例对通过视频去噪模型的低分辨率分支对下采样视频帧序列进行特征提取，得到图像融合特征的过程进行说明，以视频帧序列包含10个视频帧，目标视频帧为第i帧为例进行说明，在对视频帧序列的10个视频帧进行下采样得到10个下采样视频帧之后，将该10个下采样视频帧输入视频去噪模型的低分辨率分支，每个下采样视频帧分别对应于低分辨率分支中的一个子分支，以第i+1帧到第i帧、第i-1帧到第i帧为例，首先利用预训练好的光流网络SpyNet分别确定第i+1帧到第i帧的第一光流信息，以及第i-1帧到第i帧的第二光流信息，通过第i+1帧对应子分支的后向U型网络层对第i+1帧进行特征提取得到后序视频帧特征，通过第i-1帧对应子分支的前向U型网络层对第i-1帧进行特征提取得到前序视频帧特征，并基于第一光流信息和第二光流信息分别将前序视频帧特征和后序视频帧特征与第i帧对齐，得到前序对齐后视频帧特征和后序对齐后视频帧特征，通过第i帧对应的子分支的前向U型网络层对前序对齐后视频帧特征进行特征处理，得到前序图像融合特征，通过第i帧对应的子分支的后向U型网络层对后序对齐后视频帧特征进行特征处理，得到后序图像融合特征，将前序图像融合特征和后序图像融合特征进行拼接，得到拼接后图像特征，通过第i帧对应的子分支的卷积层对拼接后图像特征进行卷积处理，得到图像融合特征。其中，第i-1帧对应的前序视频帧特征具体可以是基于第i-1帧的图像和第i-2帧的视频帧特征而确定的，第i+1帧对应的后序视频帧特征具体可以是基于第i+1帧的图像和第i+2帧的视频帧特征而确定的。

参考图11和图12，图11为待去噪视频的某个待去噪视频帧，该待去噪视频帧中包含较多噪声，图12为采用本申请方案训练好的目标视频去噪模型去该待去噪视频帧进行去噪处理后所得到的清晰视频帧。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频去噪模型的处理方法的视频去噪模型的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频去噪模型的处理装置实施例中的具体限定可以参见上文中对于视频去噪模型的处理方法的限定，在此不再赘述。

在一个实施例中，如图13所示，提供了一种视频去噪模型的处理装置，包括：视频帧获取模块1302、细节特征提取模块1304、融合特征提取模块1306、预测模块1308和参数调整模块1310，其中：

视频帧获取模块1302，用于在样本视频的视频帧序列中获取目标视频帧；

细节特征提取模块1304，用于通过视频去噪模型的第一分支提取目标视频帧的图像细节特征；

融合特征提取模块1306，用于对视频帧序列进行下采样得到下采样视频帧序列，通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取，得到图像融合特征；

预测模块1308，用于基于图像融合特征和图像细节特征生成预测视频帧；

参数调整模块1310，用于根据预测视频帧和参考视频帧之间的损失值，对视频去噪模型中的参数进行调整，得到目标视频去噪模型；参考视频帧是参考视频中与目标视频帧对应的视频帧；目标视频去噪模型用于对待去噪视频进行去噪处理。

上述实施例中，在样本视频的视频帧序列中获取目标视频帧之后，通过视频去噪模型的第一分支提取目标视频帧的图像细节特征，在获得视频帧序列对应的下采样视频帧序列后，通过视频去噪模型的第二分支对下采样视频帧序列进行特征提取，得到图像融合特征，基于图像融合特征和图像细节特征生成预测视频帧，既充分考虑了视频在时间维度上的相关性和连续性，又能够有效地降低计算量，提高模型的运行效率，从而在计算资源有限的情况下，也能够根据预测视频帧和参考视频中与目标视频帧对应的视频帧之间的损失值，对视频去噪模型中的参数进行调整，得到去噪效果较好的目标视频去噪模型；另外通过样本视频包括携带真实噪声的静态视频和加噪的动态视频；通过使用包含真实噪声的静态视频和加噪的动态视频作为样本视频，以及使用对静态视频进行平滑处理所得的清晰静态视频和未加噪的动态视频作为参考，可以更好地模拟真实场景下的噪声情况，进一步提高了目标视频去噪模型的去噪效果。

在一个实施例中，样本视频包括携带真实噪声的静态视频和加噪的动态视频；参考视频包括对静态视频进行平滑处理所得的清晰静态视频和未加噪的动态视频。

在一个实施例中，如图14所示，装置还包括样本视频获取模块1312和参考视频获取模块1314，其中：样本视频获取模块1312，用于对静态对象进行视频采集，得到携带真实噪声的原始静态视频；对原始静态视频进行加噪处理，得到静态视频；静态视频携带有加噪噪声和真实噪声；参考视频获取模块1314，用于对原始静态视频进行平滑处理，得到清晰静态视频。

在一个实施例中，样本视频获取模块1312，还用于从原始静态视频的各带噪视频帧中获取部分像素；根据各带噪视频帧的部分像素分别生成对应的第一像素图像；生成与各带噪视频帧对应的第一初始噪声图像；将第一初始噪声图像分别与第一像素图像进行融合，得到各带噪视频帧对应的第一噪声图像；将各第一噪声图像分别融合至对应的带噪视频帧中，得到静态视频。

在一个实施例中，参考视频获取模块1314，还用于从视频数据库中获取未加噪的动态视频；样本视频获取模块1312，还用于对未加噪的动态视频进行加噪处理，得到加噪的动态视频。

在一个实施例中，未加噪的动态视频中的视频帧为清晰视频帧；样本视频获取模块1312，还用于从各清晰视频帧中选取部分像素；根据各清晰视频帧的部分像素分别生成对应的第二像素图像；生成各清晰视频帧对应的第二初始噪声图像；将各第二初始噪声图像分别与对应的第二像素图像进行融合，得到各清晰视频帧对应的第二噪声图像；将各第二噪声图像分别融合至对应的清晰视频帧中，得到加噪的动态视频。

在一个实施例中，第二分支包括光流网络、目标帧子分支和其它帧子分支；融合特征提取模块1306，还用于：通过光流网络，确定下采样视频帧序列中的下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息；通过其它帧子分支对下采样视频帧序列进行特征提取，得到下采样目标视频帧对应的连续视频帧特征；基于光流信息将连续视频帧特征与下采样目标视频帧进行对齐，得到对齐后视频帧特征；通过目标子分支对对齐后视频帧特征进行处理，得到图像融合特征。

在一个实施例中，相邻下采样视频帧包括下采样前序视频帧和下采样后序视频帧，融合特征提取模块1306，光流信息包括第一光流信息和第二光流信息；连续视频帧特征包括前序视频帧特征和后序视频帧特征；对齐后视频帧特征包括前序对齐后视频帧特征和后序对齐后视频帧特征；还用于：通过光流网络，确定相邻的第一下采样视频帧之间的第一光流信息；通过光流网络，确定相邻的第二下采样视频帧之间的第二光流信息；所述第一下采样视频帧是所述下采样目标视频帧与所述下采样前序视频帧中的下采样视频帧；所述第二下采样视频帧是所述下采样目标视频帧与所述下采样后序视频帧中的下采样视频帧；通过前序帧子分支的前向网络层对下采样前序视频帧进行特征提取，得到前序视频帧特征；通过后序帧子分支的后向网络层对下采样后序视频帧进行特征提取，得到后序视频帧特征；前序帧子分支和后序帧子分支属于其它帧子分支；基于光流信息中的第一光流信息将前序视频帧特征与下采样目标视频帧进行对齐，得到前序对齐后视频帧特征；基于光流信息中的第二光流信息将后序视频帧特征与下采样目标视频帧进行对齐，得到后序对齐后视频帧特征；通过目标子分支的前向网络层对前序对齐后视频帧特征进行处理，得到前序图像融合特征；通过目标子分支的后向网络层对后序对齐后视频帧特征进行处理，得到后序图像融合特征；基于前序图像融合特征和后序图像融合特征，确定图像融合特征。

在一个实施例中，融合特征提取模块1306，用于：将前序图像融合特征和后序图像融合特征进行拼接，得到拼接后图像特征；对拼接后图像特征进行卷积处理，得到图像融合特征。

在一个实施例中，预测模块1308，还用于：将图像融合特征与图像细节特征进行融合，得到全局图像特征；基于全局图像特征进行图像重建，得到预测视频帧。

在一个实施例中，预测模块，还用于：对图像融合特征进行上采样处理，得到上采样图像融合特征；将上采样图像融合特征与图像细节特征进行融合，得到全局图像特征。

在一个实施例中，视频帧获取模块1302，还用于在待去噪视频的待去噪视频帧序列中确定当前的待去噪视频帧；细节特征提取模块，还用于通过目标视频去噪模型的第一分支提取待去噪视频帧的待去噪图像细节特征；融合特征提取模块1306，还用于在获得待去噪视频帧序列对应的下采样待去噪视频帧序列后，通过目标视频去噪模型的第二分支对下采样待去噪视频帧序列进行特征提取，得到待去噪图像融合特征；预测模块，还用于基于待去噪图像细节特征和待去噪图像融合特征，生成待去噪视频帧对应的去噪视频帧。

上述视频去噪模型的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储视频数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种视频去噪模型的处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图16所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机可读指令被处理器执行时以实现一种视频去噪模型的处理方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图15或图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，该处理器执行计算机可读指令时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机可读指令，该计算机可读指令被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机可读指令，该计算机可读指令被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

一种视频去噪模型的处理方法，由计算机设备执行，所述方法包括：

在样本视频的视频帧序列中获取目标视频帧，以及获取所述样本视频对应的参考视频；

通过视频去噪模型的第一分支提取所述目标视频帧的图像细节特征；

对所述视频帧序列进行下采样得到下采样视频帧序列，通过所述视频去噪模型的第二分支对所述下采样视频帧序列进行特征提取，得到图像融合特征；

基于所述图像融合特征和所述图像细节特征生成预测视频帧；

根据所述预测视频帧和参考视频帧之间的损失值，对所述视频去噪模型中的参数进行调整，得到目标视频去噪模型；所述参考视频帧是所述参考视频中与所述目标视频帧对应的视频帧；所述目标视频去噪模型用于对待去噪视频进行去噪处理。
根据权利要求1所述的方法，所述样本视频包括携带真实噪声的静态视频和加噪的动态视频；所述参考视频包括对所述静态视频进行平滑处理所得的清晰静态视频和未加噪的所述动态视频。
根据权利要求2所述的方法，所述静态视频还携带有加噪噪声；所述方法还包括：

对静态对象进行视频采集，得到携带真实噪声的原始静态视频；

对所述原始静态视频进行加噪处理，得到所述静态视频；所述静态视频携带有所述加噪噪声和所述真实噪声；

对所述原始静态视频进行平滑处理，得到所述清晰静态视频。
根据权利要求3所述的方法，所述对所述原始静态视频进行加噪处理，得到所述静态视频，包括：

从所述原始静态视频的各带噪视频帧中获取部分像素；

根据各所述带噪视频帧的部分像素分别生成对应的第一像素图像；

生成与各所述带噪视频帧对应的第一初始噪声图像；

将所述第一初始噪声图像分别与所述第一像素图像进行融合，得到各所述带噪视频帧对应的第一噪声图像；

将各所述第一噪声图像分别融合至对应的所述带噪视频帧中，得到所述静态视频。
根据权利要求1所述的方法，所述方法还包括：

从视频数据库中获取未加噪的动态视频；

对所述未加噪的动态视频进行加噪处理，得到加噪的动态视频。
根据权利要求5所述的方法，所述未加噪的动态视频中的视频帧为清晰视频帧；

所述对所述未加噪的动态视频进行加噪处理，得到加噪的动态视频，包括：

从各所述清晰视频帧中选取部分像素；

根据各所述清晰视频帧的部分像素分别生成对应的第二像素图像；

生成各所述清晰视频帧对应的第二初始噪声图像；

将各所述第二初始噪声图像分别与对应的所述第二像素图像进行融合，得到各所述清晰视频帧对应的第二噪声图像；

将各所述第二噪声图像分别融合至对应的所述清晰视频帧中，得到加噪的动态视频。
根据权利要求1所述的方法，所述第二分支包括光流网络、目标帧子分支和其它帧子分支；所述通过所述视频去噪模型的第二分支对所述下采样视频帧序列进行特征提取，得到图像融合特征，包括：

通过所述光流网络，确定所述下采样视频帧序列中的下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息；

通过所述其它帧子分支对所述下采样视频帧序列进行特征提取，得到所述下采样目标视频帧对应的连续视频帧特征；

基于所述光流信息将所述连续视频帧特征与所述下采样目标视频帧进行对齐，得到对齐后视频帧特征；

通过所述目标子分支对所述对齐后视频帧特征进行处理，得到图像融合特征。
根据权利要求7所述的方法，所述相邻下采样视频帧包括下采样前序视频帧和下采样后序视频帧；所述光流信息包括第一光流信息和第二光流信息；所述连续视频帧特征包括前序视频帧特征和后序视频帧特征；对齐后视频帧特征包括前序对齐后视频帧特征和后序对齐后视频帧特征；

所述通过所述光流网络，确定所述下采样视频帧序列中的下采样目标视频帧与对应的相邻下采样视频帧之间的光流信息，包括：

通过所述光流网络，确定相邻的第一下采样视频帧之间的第一光流信息；通过所述光流网络，确定相邻的第二下采样视频帧之间的第二光流信息；所述第一下采样视频帧是所述下采样目标视频帧与所述下采样前序视频帧中的下采样视频帧；所述第二下采样视频帧是所述下采样目标视频帧与所述下采样后序视频帧中的下采样视频帧；

所述通过所述其它帧子分支对所述下采样视频帧序列进行特征提取，得到所述下采样目标视频帧对应的连续视频帧特征，包括：

通过前序帧子分支的前向网络层对所述下采样前序视频帧进行特征提取，得到前序视频帧特征；通过后序帧子分支的后向网络层对所述下采样后序视频帧进行特征提取，得到后序视频帧特征；所述前序帧子分支和所述后序帧子分支属于所述其它帧子分支；

所述基于所述光流信息将所述连续视频帧特征与所述下采样目标视频帧进行对齐，得到对齐后视频帧特征，包括：

基于所述第一光流信息将所述前序视频帧特征与所述下采样目标视频帧进行对齐，得到前序对齐后视频帧特征；基于所述第二光流信息将所述后序视频帧特征与所述下采样目标视频帧进行对齐，得到后序对齐后视频帧特征；

所述通过所述目标子分支对所述对齐后视频帧特征进行处理，得到图像融合特征，包括：

通过所述目标子分支的前向网络层对所述前序对齐后视频帧特征进行处理，得到前序图像融合特征；通过所述目标子分支的后向网络层对所述后序对齐后视频帧特征进行处理，得到后序图像融合特征；

基于所述前序图像融合特征和所述后序图像融合特征，确定图像融合特征。
根据权利要求8所述的方法，所述基于所述前序图像融合特征和所述后序图像融合特征，确定图像融合特征，包括：

将所述前序图像融合特征和所述后序图像融合特征进行拼接，得到拼接后图像特征；

对所述拼接后图像特征进行卷积处理，得到图像融合特征。
根据权利要求1所述的方法，所述基于所述图像融合特征和所述图像细节特征生成预测视频帧，包括：

将所述图像融合特征与所述图像细节特征进行融合，得到全局图像特征；

基于所述全局图像特征进行图像重建，得到预测视频帧。
根据权利要求10所述的方法，所述将所述图像融合特征与所述图像细节特征进行融合，得到全局图像特征，包括：

对所述图像融合特征进行上采样处理，得到上采样图像融合特征；

将所述上采样图像融合特征与所述图像细节特征进行融合，得到全局图像特征。
根据权利要求1至11中任一项所述的方法，所述方法还包括：

在待去噪视频的待去噪视频帧序列中确定当前的待去噪视频帧；

通过所述目标视频去噪模型的第一分支提取所述待去噪视频帧的待去噪图像细节特征；

对所述待去噪视频帧序列进行下采样得到下采样待去噪视频帧序列，通过所述目标视频去噪模型的第二分支对所述下采样待去噪视频帧序列进行特征提取，得到待去噪图像融合特征；

基于所述待去噪图像细节特征和所述待去噪图像融合特征，生成所述待去噪视频帧对应的去噪视频帧。
一种视频去噪模型的处理装置，所述装置包括：

视频帧获取模块，用于在样本视频的视频帧序列中获取目标视频帧，以及获取所述样本视频对应的参考视频；

细节特征提取模块，用于通过视频去噪模型的第一分支提取所述目标视频帧的图像细节特征；

融合特征提取模块，用于对所述视频帧序列进行下采样得到下采样视频帧序列，通过所述视频去噪模型的第二分支对所述下采样视频帧序列进行特征提取，得到图像融合特征；

预测模块，用于基于所述图像融合特征和所述图像细节特征生成预测视频帧；

参数调整模块，用于根据所述预测视频帧和和参考视频帧之间的损失值，对所述视频去噪模型中的参数进行调整，得到目标视频去噪模型；所述参考视频帧是所述参考视频中与所述目标视频帧对应的视频帧；所述目标视频去噪模型用于对待去噪视频进行去噪处理。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现权利要求1至12中任一项所述的方法的步骤。
一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
一种计算机程序产品，包括计算机可读指令，其特征在于，该计算机可读指令被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。