WO2019184654A1

WO2019184654A1 - 神经网络模型的训练、延时摄影视频的生成方法及设备

Info

Publication number: WO2019184654A1
Application number: PCT/CN2019/076724
Authority: WO
Inventors: 罗文寒; 马林; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-26
Filing date: 2019-03-01
Publication date: 2019-10-03
Anticipated expiration: 2020-09-26
Also published as: US11429817B2; JP7026262B2; CN110555527A; EP3779891A4; US20200293833A1; US12001959B2; JP2021515347A; EP3779891A1; US20220366193A1; CN110363293A

Abstract

一种神经网络模型的训练、延时摄影视频的生成方法及设备。所述延时摄影视频的生成方法包括：获取指定图像；根据指定图像生成包括第一预设数目帧指定图像的图像集；根据所述图像集，通过预先训练的神经网络模型对图像集进行内容建模和运动状态建模，获得神经网络模型输出的延时摄影视频；其中，所述神经网络模型包括用于对延时摄影视频进行内容建模的基础网络和用于对延时摄影视频的运动状态进行建模的优化网络，其是通过获取训练样本，并根据包括训练视频及其对应的图像集在内的训练样本训练得到。通过多阶段的生成对抗网络对延时摄影视频进行持续性优化，通过对内容建模以及对运动状态建模保证合理预测，实现从粗到细逐步生成延时摄影视频。

Description

神经网络模型的训练、延时摄影视频的生成方法及设备

本申请要求于2018年03月26日提交中国专利局、申请号为201810253848.3、申请名称为“神经网络模型的训练、延时摄影视频的生成方法及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种神经网络模型的训练方法、一种延时摄影视频的生成方法以及对应的装置、系统、设备、存储介质及计算机程序产品。

背景技术

延时摄影又叫缩时摄影(Time-lapse photography)或缩时录影，是以一种将时间压缩的拍摄技术。其拍摄的是一组照片，后期通过照片串联，把几分钟、几小时甚至是几天或者几年的过程压缩在一个较短的时间内以视频的方式播放。目前，延时摄影视频的生成方法仍处于学术研究阶段，其主要是通过神经网络模型实现的，但是该方法生成的视频内容模糊，真实性较差，难以满足用户的需求，因而并未得到广泛的应用。

发明内容

有鉴于此，本申请实施例提供了一种神经网络模型的训练方法、延时摄影视频的生成方法，其能够生成清晰流畅、真实性较高的延时摄影视频，满足用户的需求，具有广泛的应用前景。本申请还提供了相应的装置、系统、设备、存储介质以及计算机程序产品。

为实现上述目的，本申请实施例提供如下技术方案：

一种神经网络模型的训练方法，应用于服务器，包括：

获取训练样本，所述训练样本包括训练视频以及与其对应的图像集，所述图像集包括第一预设数目帧所述训练视频中的首帧图像或尾帧图像；

根据所述训练样本训练得到满足训练结束条件的神经网络模型，所述神经网络模型包括用于对延时摄影视频进行内容建模的基础网络和用于对延时摄影视频的运动状态进行建模的优化网络；

其中，所述基础网络是以包括第一预设数目帧相同图像的图像集作为输入，以基础延时摄影视频为输出的第一生成式对抗网络；

所述优化网络是以所述基础网络的输出作为输入，以优化延时摄影视频作为输出的第二生成式对抗网络。

一种延时摄影视频的生成方法，应用于电子设备，包括：

获取指定图像；

根据所述指定图像，生成包括第一预设数目帧所述指定图像的图像集；

根据所述图像集，通过预先训练的神经网络模型对所述图像集进行内容建模和运动状态建模，获得所述神经网络模型输出的延时摄影视频；其中，所述神经网络模型是通过本申请所述的神经网络模型的训练方法训练得到的。

一种神经网络模型的训练装置，包括：

获取模块，用于获取训练样本，所述训练样本包括训练视频以及与其对应的图像集，所述图像集包括第一预设数目张所述训练视频中的首帧图像或尾帧图像；

训练模块，用于根据所述训练样本训练得到满足训练结束条件的神经网络模型，所述神经网络模型包括用于对延时摄影视频进行内容建模的基础网络和用于对延时摄影视频的运动状态进行建模的优化网络；其中，所述基础网络是以包括第一预设数目帧相同图像的图像集作为输入，以基础延时摄影视频为输出的第一生成式对抗网络；所述优化网络是以所述基础网络的输出作为输入，以优化延时摄影视频作为输出的第二生成式对抗网络。

一种延时摄影视频的生成装置，所述装置包括：

获取模块，用于获取指定图像；

第一生成模块，用于根据所述指定图像，生成包括第一预设数目张所述指定图像的图像集；

第二生成模块，用于根据所述图像集，通过预先训练的神经网络模型对所述图像集进行内容建模和运动状态建模，获得所述神经网络模型输出的延时摄影视频；其中，所述神经网络模型是通过本申请所述的神经网络模型的训练方法训练得到的。

一种延时摄影视频的生成系统，包括：

终端和服务器，所述终端和所述服务器通过网络进行交互；

所述服务器用于接收所述终端发送的指定图像，根据所述指定图像，生成包括第一预设数目张所述指定图像的图像集，根据所述图像集，通过预先训练的神经网络模型对所述图像集进行内容建模和运动状态建模，获得所述神经网络模型输出的延时摄影视频，并将向所述终端发送所述延时摄影视频；其中，所述神经网络模型是通过本申请所述的神经网络模型的训练方法训练得到的。

一种电子设备，包括：

处理器和存储器；其中，

所述存储器中用于存储计算机程序；

所述处理器用于调用并执行所述存储器中的计算机程序，以实现本申请所述的神经网络模型的训练方法，或者用于实现本申请所述的延时摄影视频的生成方法。

一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现：如上述所述的用于生成延时摄影视频的神经网络模型的训练方法的各个步骤；和/或如上述所述的延时摄影视频的生成方法的各个步骤。

一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行本申请所述的神经网络模型的训练方法，或者执行本申请所述的延时摄影视频的生成方法。

经由上述的技术方案可知，与现有技术相比，本申请提供了一种基于双网络结构的模型生成延时摄影视频的方法，其中，双网络结构具体包括用于对延时摄影视频进行内容建模的基础网络和用于对延时摄影视频的运动状态进行建模的优化网络，其中，基础网络是以包括第一预设数目帧指定帧图像的视频为输入，以基础延时摄影视频为输出的第一生成式对抗网络，优化网络是以所述基础网络的输出作为输入，用于对延时摄影视频的运动状态进行建模，以优化延时摄影视频作为输出的第二生成式对抗网络，在获取多个训练视频后，根据训练视频生成与训练视频对应的图像集，该图像集包括第一预设数目张所述训练视频中的首帧图像或尾帧图像，通过该训练视频及其对应的图像集训练基础网络和优化网络组成的神经网络模型，当满足训练结束条件时，即可将该视频用于生成延时摄影视频。

具体地，获取指定图像，根据该指定图像生成包括第一预设数目张指定图像的指定图像集，然后利用预先训练的神经网络模型对所述指定图像集进行内容建模和运动状态建模，获得所述神经网络模型输出的延时摄影视频。该方法通过多阶段的生成对抗网络对延时摄影视频进行持续性优化，通过对内容建模以及对运动状态建模保证预测合理的未来帧或历史帧，实现从粗到细逐步生成延时摄影视频。该方法一方面保留了内容的真实性和运动信息的合理性，使得生成的延时摄影视频具有较高的真实性，并且比较自然；另一方面，该方法所使用的模型是级联的双网络结构，易于实现和简化，可以应用于云端或离线场景中。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种延时摄影视频的生成方法的流程图；

图2为本申请实施例提供的一种神经网络模型的训练方法的流程图；

图3为本申请实施例提供的另外一种神经网络模型的训练方法的流程图；

图4为本申请实施例提供的基础网络的训练方法的流程图；

图5为本申请实施例提供的一种基础网络的结构图；

图6为本申请实施例提供的优化网络的训练方法的流程图；

图7为本申请实施例提供的一种优化网络的结构图；

图8为本申请实施例提供的一种延时摄影视频的生成系统的结构图；

图9为本申请实施例提供的一种延时摄影视频的生成方法的信令流程图；

图10为本申请实施例提供的一种延时摄影视频的生成装置的结构图；

图11为本申请实施例提供的一种神经网络模型的训练装置的结构图；

图12为本申请实施例提供的另外一种神经网络模型的训练装置的结构图；

图13为本申请实施例提供的一种电子设备的硬件结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例

本申请实施例提供一种延时摄影视频的生成方法，可以应用于电子设备，该电子设备可以是位于本地的终端，也可以是云端的服务器，或者是由终端和服务器组成的延时摄影视频的生成系统。请参阅图1，图1为本申请实施例提供的一种延时摄影视频的生成方法的流程图。如图1所示，该方法包括：

步骤S11，获取指定图像；

该方法通过终端实现时，获取指定图像有两种实现方式，一种实现方式为从相册中选中照片作为指定图像，具体地，终端响应于选中指令，获取相册中被选中的照片作为指定图像；一种实现方式为实时拍摄图像作为指定图像，具体地，终端响应于拍摄指令，获取拍摄的照片作为指定图像。当该方法通过服务器实现时，服务器接收终端发送的延时摄影生成请求，该延时摄影生成请求中携带有指定图像，服务器可以从所述延时摄影生成请求中获取所述指定图像。

步骤S12，根据所述指定图像，生成包括第一预设数目帧所述指定图像的图像集；

本实施例提供了两种方式生成图像集。一种实现方式为，复制所述指定图像，直至所述指定图像的数目达到第一预设数目，然后根据第一预设数目帧所述指定图像生成图像集；另一种实现方式为，从数据源处重复获取指定图像，例如从相册中多次获取同一图像，该图像即为指定图像，直至所述指定图像的数目达到第一预设数目，然后根据第一预设数目帧所述指定图像生成图像集。

可选的，所述第一预设数目可以为32，即所述图像集包括32张所述指定图像，需要说明的是，本申请并不限定所述第一预设数目的具体数值，其可以根据实际需要进行调整，第一预设数目具体数值的变化不脱离本申请的保护范围。

步骤S13，根据所述图像集，通过预先训练的神经网络模型对所述图像集进行内容建模和运动状态建模，获得所述神经网络模型输出的延时摄影视频。

其中，所述神经网络模型包括基础网络和优化网络。基础网络用于对延时摄影视频进行内容建模，其是以包括第一预设数目帧指定图像的图像集为输入，以基础延时摄影视频为输出的生成式对抗网络，为了方便表述，记作第一生成式对抗网络。优化网络用于对对延时摄影视频的运动状态进行建模，其是以所述基础网络的输出作为输入，以优化延时摄影视频作为输出的生成式对抗网络，为了方便表述，记作第二生成式对抗网络。

所谓生成式对抗网络是一种基于二人零和博弈思想实现的网络。该网络中包括生成模型(也称生成器)和判别模型(也称判别器)，生成模型捕捉样本数据的分布，用服从某一分布(如均匀分布，高斯分布等)的噪声生成一个类似真实训练数据的样本数据；判别模型是一个二分类器，用于估计一个样本数据来自于真实训练数据(而非生成数据)的概率，如果样本来自于真实的训练数据，则输出大概率，否则，输出小概率。其中，生成模型的目标是生成和真实训练数据一样的样本数据，使得判别模型判别不出来，判别模型的目标是检测出来生成模型生成的样本数据。

在本实施例中，电子设备部署有神经网络模型，将指定图像集输入至神经网络模型，该神经网络模型的基础网络对延时摄影视频进行内容建模，生成基础延时摄影视频，接着，基础网络输出的基础延时摄影视频输入至优化网络，优化网络对延时摄影视频的运动状态进行建模，输出优化延时摄影视频，该优化延时摄影视频即为最终输出的延时摄影视频。

需要说明的是，本实施例提供的延时摄影视频的生成方法所生成的视频可以是表征未来的视频，也可以是表征过去的视频，其主要由所使用的神经网络模型决定，若模型是对未来帧进行预测，实现前向预测，则生成表征未来的视频，若模型是对历史帧预测，实现后向预测，则生成表征过去的视频。

为了便于理解，下面以一个简单示例进行说明。若用户想要生成一个表征花开过程的延时摄影视频，则可以将花为花蕾时的照片作为指定图像，通过复制该指定图像得到第一预设数目帧指定图像，从而生成图像集，然后将图像集输入至能够对未来帧进行预测的神经网络模型，该神经网络模型能够输出花由花蕾状态逐步盛开直至完全盛开的延时视频。

在一些可能的实现方式中，若用户想要生成一个表征花开过程的延时摄影视频，也可以将花完全盛开时的照片作为指定图像，通过复制该指定图像得到第一预设数目帧指定图像，从而生成图像集，然后将图像集输入至能够对历史帧进预测的神经网络模型，该神经网络模型能够预测花完全盛开以前的历史帧，因而能够输出花由花蕾状态逐步盛开直至完全盛开的延时视频。

其中，神经网络模型的训练过程将在下文进行说明，在此不作详细介绍。

本申请实施例提供了一种延时摄影视频的生成方法，该方法是利用预先训练的神经网络模型对包括第一预设数目帧指定图像的图像集进行内容建模和运动状态建模生成延时摄影视频的，该方法通过多阶段的生成对抗网络对延时摄影视频进行持续性优化，通过对内容建模以及对运动状态建模保证预测合理的未来帧或历史帧，实现从粗到细逐步生成延时摄影视频。该方法一方面保留了内容的真实性和运动信息的合理性，使得生成的延时摄影视频具有较高的真实性，并且比较自然；另一方面，该方法所使用的模型是级联的双网络结构，易于实现和简化，可以应用于云端或离线场景中。

具体的，本申请上文实施例中，所述步骤S13使用的是已经预先训练好的用于生成延时摄影视频的神经网络模型，可以理解的是，该用于生成延时摄影视频的神经网络模型需要提前进行训练，下面将对该用于生成延时摄影视频的神经网络模型的训练过程进行介绍。

请参阅图2，图2为本申请实施例提供的一种神经网络模型的训练方法的流程图。如图2所示，该方法包括：

步骤S21，获取训练样本；

所述训练样本包括训练视频以及与其对应的图像集，所述图像集包括第一预设数目帧所述训练视频中的首帧图像或尾帧图像。需要说明的是，在训练神经网络模型时通常是采用批量训练样本实现的，批量训练样本的图像集所包括的图像均为训练视频中的首帧图像，或者均为训练视频中的尾帧图像。

其中，训练视频为延时摄影视频。具体的，将预先获取的各延时摄影视频进行预处理，生成合格的多个训练视频，获取多个该合格的、独立且不重合的训练视频。

可选的，可以通过设定关键字预先在互联网上爬取大量的延时摄影视频，这些爬取的延时摄影视频一般较大，可以将这些大的视频分割成小的视频片段，在这个过程当中，去掉不合适的训练数据，比如画面静止不动、画面黑边很大、画面很黑或者画面有快速的放大缩小等操作的小视频片段。去掉了这些不合适的视频片段之后，可以将剩下的视频片段按照每第一预设数目帧组成一个训练视频的形式得到合格的、独立且不重合的训练视频。例如，一视频片段包括128帧，第一预设数目为32，则可以将该视频片段按照每32帧生成4个训练视频。其中，各训练视频包括第一预设数目帧图像，所述第一预设数目可以为32，其大小比较合适，方便训练，当然，所述第一预设数目可以根据实际需要来进行设置，本申请并不限定其具体数值，其具体数值的变化不脱离本申请的保护范围。

在本实施例中，可以通过如下方式获取训练样本，具体地，首先获取训练视频，然后从所述训练视频中提取首帧图像或尾帧图像，生成与所述训练视频对应的图像集，将所述训练视频以及其对应的图像集作为训练样本。其中，从所述训练视频中提取首帧图像或尾帧图像后，可以通过两种方式生成训练视频对应的图像集。一种方式为复制提取的图像，直至图像数目达到第一预设数目，根据上述第一预设数目帧图像生成图像集。另一种方式为，通过多次提取的方式，得到第一预设数目帧首帧图像，或者第一预设数目帧尾帧图像，从而生成图像集。

步骤S23，根据所述训练样本训练得到满足训练结束条件的神经网络模型。

所述神经网络模型包括用于对延时摄影视频进行内容建模的基础网络和用于对延时摄影视频的运动状态进行建模的优化网络；其中，所述基础网络是以包括第一预设数目帧相同图像的图像集作为输入，以基础延时摄影视频为输出的第一生成式对抗网络；所述优化网络是以所述基础网络的输出作为输入，以优化延时摄影视频作为输出的第二生成式对抗网络。

在本实施例中，基础网络和优化网络均为生成式对抗网络，基础网络能够基于包括第一预设数目帧相同图像的图像集，进行内容建模，从而生成基础延时摄影视频，在此基础上，还可以通过优化网络对基础延时摄影视频进行运动状态建模，以便进行持续优化，生成更加真实、更为自然的优化延时摄影视频。

下面对所述步骤S22中根据所述训练样本训练得到满足训练结束条件的神经网络模型过程进行详细阐述。请参阅图3，图3为本申请实施例提供的另外一种神经网络模型的训练方法的流程图。如图3所示，该方法包括：

步骤S31，根据所述训练样本训练得到满足训练结束条件的第一生成式对抗网络，作为基础网络；

训练样本中包括训练视频和训练视频对应的图像集，基础网络以图像集为输入，通过进行内容建模输出基础延时摄影视频，其以生成的基础延时摄影视频接近训练视频为目标，如此，可以基于生成视频与训练视频的相似程度调整第一生成式对抗网络的参数，通过不断调参，对第一生成式对抗网络进行优化，当满足训练结束条件时，将该第一生成式网络作为基础网络。

其中，训练结束条件可以根据实际需求而设置，例如可以是第一生成式对抗网络的损失函数处于收敛状态，或者第一生成式对抗网络的损失函数小于预设值。基础网络的训练过程将在下文进行详细描述，在此不再赘述。

步骤S32，根据所述训练视频对应的图像集，通过基础网络获得所述基础网络输出的基础延时摄影视频；

基础网络以包括第一预设数目帧相同图像的图像集为输入，以基础延时摄影视频为输出，将训练视频对应的图像集输入基础网络，可以获得基础网络输出的基础延时摄影视频。

步骤S33，根据所述基础延时摄影视频和所述训练视频，训练得到满足训练结束条件的第二生成式对抗网络，作为优化网络。

优化网络用于对基础延时摄影视频进行进一步优化，其可以通过生成式对抗网络训练得到。在具体实现时，可以以基础延时摄影视频和训练视频作为训练样本，以基础延时摄影视频为输入，以优化延时摄影视频为输出，以生成的优化延时摄影视频接近训练视频为目标，如此，可以基于生成的优化延时摄影视频与训练视频的相似程度调整第二生成式对抗网络的参数，通过不断调参，对第二生成式对抗网络进行优化，当满足训练结束条件时，将该第二生成式网络作为优化网络。

其中，训练结束条件可以根据实际需求而设置，例如可以是第二生成式对抗网络的损失函数处于收敛状态，或者第二生成式对抗网络的损失函数小于预设值。基础网络的训练过程将在下文进行详细描述，在此不再赘述。在训练好基础网络和优化网络后，将基础网络和优化网络级联即为生成延时摄影视频的神经网络模型。

下面对所述步骤S31中基础网络的训练过程进行详细阐述。请参阅图4，图4为本申请实施例提供的基础网络的训练方法的流程图。如图4所示，该方法包括：

步骤S41，将所述图像集输入至第一生成器，得到所述第一生成器网络输出的基础延时摄影视频；

在该实施例中，基础网络包括第一生成器和第一判别器，其中，第一生成器用于生成基础延时摄影视频，第一判别器用于判别基础延时摄影视频是否为真实视频，若第一判别器判别结果为真实视频，则表明第一生成器生成的基础延时摄影视频具有较高的真实性，而且比较自然。

第一生成器可以由编码器和解码器组成。在具体实现时，编码器括包括指定数目的卷积层，解码器可以包括指定数目的反卷积层，如此，编码器整体呈现对称结构。其中，指定数目可以根据实际需求设置，作为一个示例，其可以为6。每个卷积层和与之对称的反卷积层通过跳接进行相连，如此，可以更好地利用编码器的特征。经过基础网络的第一生成器，输出得到与输入的原始图片分辨率不变的视频帧。

第一判别器，用于分别对第一生成器生成的视频(即预测的视频)和上文中的所述训练视频(即真实视频)进行判别，以保证第一生成器生成更加接近真实的视频，该判别器除了输出层是一个二分类的层之外，其他部分具有与第一生成器中的编码器一样的结构。需要说明的是，第一判别器中卷积层的个数可以根据实际需要进行调整，本申请对此不做限定。

请参阅图5，图5为本申请实施例提供的一种基础网络的结构图。如图5所示，该基础网络包括第一生成器51和第一判别器52，x表示首帧图像或尾帧图像，X表示首帧图像形成的图像集或者尾帧图像形成的图像集，Y表示训练视频，Y1表示第一生成器输出的基础延时摄影视频。

步骤S42，将所述基础延时摄影视频和所述图像集对应的训练视频输入至所述第一判别器，通过第一生成对抗式网络的损失函数计算第一生成对抗式网络的损失；

在本实施例中，为了保证生成器生成真实性较高的视频，采用一个判别器即第一判别器分别对生成器生成的视频和真实视频进行判别。第一判别器具有与第一生成器中的编码器相似的结构，主要区别在于其输出层为二分类层，将第一生成器输出的基础延时摄影视频和训练视频输入第一判别器，第一判别器根据基础延时摄影视频和训练视频计算第一生成式对抗损失。

本实施例是通过调整网络参数减小第一生成对抗式网络的损失实现基础网络的训练的。其中，第一生成对抗式网络的损失至少包括对抗损失，该对抗损失可以基于如下公式计算得到：

其中，L _adv表示对抗损失，E表示期望，D ₁表示第一生成器对应的函数，G ₁表示第一判别器对应的函数，X表示图像集对应的四维矩阵，Y表示(所述图像集对应的)训练视频所对应的四维矩阵；其中，所述四维矩阵的四个维度分别是图像的长、宽、通道数(指图像的通道数，如果图像为RGB色彩模式，则通道数为3)以及图像的帧数。

其中，

表示：在计算第一生成器的对抗损失时，第一判别器的函数D ₁取常量(即，为固定值)，而第一生成器的函数G ₁取最大值；在计算第一判别器的对抗损失时，第一生成器的函数G ₁取常量(即，为固定值)，而第一判别器对应的函数D ₁取最大值。

其中，为了保证第一生成器生成的视频内容足够真实，还设置了基于L1范数的内容损失函数为：

L _con(G ₁)＝||Y-G ₁(X)|| ₁ (2)

其中，L _con(G ₁)表示内容损失，G ₁表示第一判别器对应的函数，X表示图像集对应的四维矩阵，Y表示(所述图像集对应的)训练视频所对应的四维矩阵；|| || ₁表示求L1范数。

也即，第一生成对抗式网络的损失可以是对抗损失与基于L1范数的内容损失之和。

步骤S43，基于所述第一生成对抗式网络的损失，分别更新所述第一生成器和所述第一判别器的参数；

具体的，通过所述第一生成对抗式网络的损失，计算各层的梯度值，进而对所述第一生成器和所述第一判别器的参数(如权重、偏移量等)进行更新。通过不断更新第一生成器和第一判别器的参数，实现第一生成对抗式网络的训练，当满足训练结束条件时，如第一生成对抗式网络的损失处于收敛，或者小于预设值时，即可将第一生成对抗式网络确定为基础网络。

下面对所述步骤S33中优化网络的训练过程进行详细阐述。请参阅图6，图6为本申请实施例提供的优化网络的训练方法的流程图。如图6所示，该方法包括：

步骤S61，根据所述基础延时摄影视频，通过所述第二生成式对抗网络中的第二生成器，获得优化延时摄影视频；

优化网络包括第二生成器和第二判别器，其中，第二生成器用于根据基础延时摄影视频，进行运动信息建模，得到优化延时摄影视频，第二判别器则用于判断优化延时摄影视频是否为真实视频，若第二判别器判别结果为真实视频，则表明第二生成器生成的优化延时摄影视频具有较高的真实性，而且比较自然。

与基础网络类似，优化网络中的第二生成器包括编码器和解码器，其中，编码器可以由M个卷积层构成，解码器由M个反卷积层构成，编码器整体呈现对称结构。其中，M为正整数。此外，可以选择性的指定卷积层和与之对称的反卷积层通过跳接进行相连，这样可以更好地利用编码器的特征，具体指定哪一(或者哪几)个卷积层和与之对称的反卷积层通过跳接进行相连，可以通过一定量的实验后，根据实验结果来择优确定，本申请对此不做限定。

需要说明的是，卷积层的个数和反卷积层的个数(即M)，以及每个层的参数配置，都可以根据实际需要进行调整，比如M可以等于6，本申请对此不做限定，只需保证输入和输出的图片分辨率保持一致即可。也就是说，优化网络的第二生成器中，卷积层和反卷积层的个数的增减变化不脱离本申请的保护范围。通过对比可以发现，优化网络的第二生成器网络具有与基础网络的第一生成器网络相类似的结构(除了去掉几个跳接之外，其余结构相同)。

而优化网络的第二判别器具有与基础网络的第一判别器相同的结构，在此不再赘述。

请参阅图7，图7为本申请实施例提供的一种优化网络的结构图。如图7所示，该优化网络包括第二生成器71和第二判别器72，Y1'表示所述训练之后的基础网络输出的基础延时摄影视频，Y表示训练视频，Y2表示第二生成器输出的优化延时摄影视频。

步骤S62，根据所述优化延时摄影视频，通过所述第二生成式对抗网络中的第二判别器，获得判别结果；

与第一判别器类似，第二判别器可以根据优化延时摄影视频和训练视频对第二生成器生成的优化延时摄影视频的真实性进行判别，从而得到判别结果，若优化延时摄影视频与训练视频相似性达到预设程度，则判别优化延时摄影视频为真实视频，也即该优化延时摄影视频具有较高的真实性。

步骤S63，根据所述优化延时摄影视频、所述基础延时摄影视频、所述训练视频和所述判别结果，生成第二生成式对抗网络的损失；

与基础网络类似，优化网络是通过调整参数减少第二生成式对抗网络的损失实现模型训练的。所述损失至少包括排序损失，所述排序损失是根据所述优化延时摄影视频、所述基础延时摄影视频和所述训练视频各自对应的运动特征确定的。

可选的，所述第二生成式对抗网络的损失可以根据所述第二生成式对抗网络的内容损失、对抗损失以及所述排序损失确定，基于此，在一些可能的实现方式中，所述优化网络的损失函数可以为：

预设常数与排序损失函数的乘积、对抗损失函数以及基于L1范数的内容损失函数三者相加之和。

其中，所述优化网络的损失函数的表达式为：

L _stage1＝L _adv+λ·L _rank+L _con (3)

其中，L _stage1表示优化网络的损失，L _adv表示对抗损失，L _con[即L _con(G ₁)]表示内容损失，λ表示预设常数，L _rank表示(总的)排序损失；所述对抗损失函数、基于L1范数的内容损失函数已在上文进行阐述，此处不再赘述。下面重点对排序损失函数进行说明。

在一些可能的实现方式中，可以利用所述第二生成式对抗网络中的第二判别器，分别提取所述优化延时摄影视频的特征、所述基础延时摄影视频和所述训练视频各自的特征，根据所述特征分别计算所述优化延时摄影视频、所述基础延时摄影视频和所述训练视频各自对应的格拉姆gram矩阵，该gram矩阵用于表征视频帧间的运动状态；然后根据所述优化延时摄影视频、所述基础延时摄影视频和所述训练视频各自对应的格拉姆gram矩阵，可以确定所述排序损失。其中，所述排序损失函数为：

其中，L _rank(Y ₁,Y,Y ₂)表示(总的)排序损失，L _rank(Y ₁,Y,Y ₂；l)表示单层(即单个特征层)的排序损失函数，l表示第二判别器中特征层的序号，Y ₁表示基础延时摄影视频对应的四维矩阵，Y表示(所述图像集对应的)训练视频所对应的四维矩阵，Y ₂表示优化延时摄影视频对应的四维矩阵，

表示求和。可选的，l(即具体选择哪些特征层)可以通过一定量的实验后，根据实验结果来择优确定。

可选的，单层的排序损失函数的表达式为：

其中，g(Y；l)表示在l层提取到的gram(格拉姆)矩阵。

步骤S64，根据所述生成式对抗网络的损失，对所述第二生成式对抗网络的网络参数进行优化，直到得到满足训练结束条件的第二生成式对抗网络，作为优化网络。

具体的，通过所述优化网络的损失，计算各层的梯度值，进而对所述第二生成器和所述第二判别器的参数(如权重、偏移量等)进行更新。通过不断更新第二生成器和第二判别器的参数，实现第二生成对抗式网络的训练，当满足训练结束条件时，如第二生成对抗式网络的损失处于收敛，或者小于预设值时，即可将第二生成对抗式网络确定为优化网络。

上文各实施例中，第一生成器和第一判别器交替进行训练：在训练第一生成器的时候，第一判别器固定；在训练第一判别器的时候，第一生成器固定；类似的，第二生成器和第二判别器交替进行训练：在训练第二生成器的时候，第二判别器固定，如此最小化排序损失，以保证第二生成器输出的优化延时摄影视频更加接近真实的视频(即第二生成器生成的视频与真实视频更加相似)，而且更加远离(即增加差异化)输入至第二生成器的视频(即，已训练至收敛的基础网络输出的视频)；在训练第二判别器的时候，第二生成器固定，最大化排序损失，以放大第二生成器输出的优化延时摄影视频与真实视频之间的区别，有利于后续对优化网络的进一步训练。

经本实施例训练得到的优化网络，能够对已训练至收敛的基础网络输出的视频进行进一步优化，主要体现在能够对运动信息进行优化。

以上为本申请实施例提供的延时摄影视频的生成方法、神经网络模型的训练方法的具体实现方式，对应地，本申请还提供了延时摄影视频的生成系统。请参阅图8，图8为本申请实施例提供的一种延时摄影视频的生成系统的结构图。如图8所示，该系统包括：

终端81和服务器82，所述终端81和所述服务器82通过网络进行交互；

所述服务器82用于接收所述终端发送的指定图像，根据所述指定图像，生成包括第一预设数目帧所述指定图像的图像集，根据所述图像集，通过预先训练的神经网络模型对所述图像集进行内容建模和运动状态建模，获得所述神经网络模型输出的延时摄影视频，并将向所述终端发送所述延时摄影视频；其中，所述神经网络模型是通过上文所述的神经网络模型的训练方法训练得到的。

可以理解的是，所述服务器82的操作还可以包括上文已经阐述的所述用于生成延时摄影视频的神经网络模型的训练过程的各个步骤。

可选的，所述终端81可以为智能手机等移动智能设备811，或者电脑等本地计算机设备812。

本申请实施例提供的技术方案，用户只需要通过本地终端上传一张指定图像，远程服务器便能够基于该指定图像，通过用于生成延时摄影视频的神经网络模型输出预测的延时摄影视频，并发送给本地终端，从而方便用户很容易便能够制作一个延时摄影视频，从而能够有效提升用户体验。

同时，该技术方案不需要本地终端来运行所述用于生成延时摄影视频的神经网络模型，从而不必占用本地终端的运行资源便能够制作一个延时摄影视频，从而可以有效节省本地终端的运行资源。

对应于本申请实施例提供的延时摄影视频的生成系统，本申请将介绍一种延时摄影视频的生成方法的信令流程。请参阅图9，图9为本申请实施例提供的一种延时摄影视频的生成方法的信令流程图，如图9所示，该信令流程包括：

步骤S91，本地终端将指定图像发送至远程服务器；

步骤S92，远程服务器复制所述指定图像，生成包括第一预设数目帧所述指定图像的图像集；

步骤S93，远程服务器将所述图像集输入至用于生成延时摄影视频的神经网络模型；

步骤S94，通过所述神经网络模型重构图像集中指定图像的内容，输出延时摄影视频；

其中，指定图像为首帧图像时，可以对其后的多帧图像进行内容建模，重构图像中的内容，指定图像为尾帧图像时，可以对在其之前的多帧图像进行内容建模，重构图像中的内容，从而生成延时摄影视频。步骤S95，远程服务器将所述输出的延时摄影视频发送至本地终端。

该方法通过多阶段的生成对抗网络对延时摄影视频进行持续性优化，通过对内容建模以及对运动状态建模保证预测合理的未来帧或历史帧，实现从粗到细逐步生成延时摄影视频。该方法一方面保留了内容的真实性和运动信息的合理性，使得生成的延时摄影视频具有较高的真实性，并且比较自然。

另外，需要说明的是，由于所述用于生成延时摄影视频的神经网络模型的训练过程需要的系统资源较大，因此，优选的，在远程服务器一端执行所述用于生成延时摄影视频的神经网络模型的训练过程。

为了更加全面地阐述本申请提供的技术方案，对应于本申请实施例提供的延时摄影视频的生成方法，本申请公开一种延时摄影视频的生成装置。

请参阅图10，图10为本申请实施例提供的一种延时摄影视频的生成装置的结构图。该装置可应用于本地终端，或者延时摄影视频的生成系统中的远程服务器一端，如图10所示，该装置1000包括：

获取模块1010，用于获取指定图像；

第一生成模块1020，用于根据所述指定图像，生成包括第一预设数目帧所述指定图像的图像集；

第二生成模块1030，用于根据所述图像集，通过预先训练的神经网络模型对所述图像集进行内容建模和运动状态建模，获得所述神经网络模型输出的延时摄影视频；其中，所述神经网络模型是通过上述神经网络模型的训练方法训练得到的。

可选的，所述电子设备为终端设备，所述终端设备中部署有所述神经网络模型，则所述获取模块1010具体用于：

响应于选中指令，获取相册中被选中的照片，作为指定图像；或者，

响应于拍摄指令，获取拍摄的照片，作为指定图像。

可选的，所述电子设备为服务器，则所述获取模块1010具体用于：

接收终端设备发送的延时摄影生成请求，所述延时摄影生成请求中携带有指定图像；

从所述延时摄影生成请求中获取所述指定图像。

本申请实施例提供的延时摄影视频的生成装置，首先获取指定图像，根据该指定图像生成包括第一预设数目张指定图像的指定图像集，然后利用预先训练的神经网络模型对所述指定图像集进行内容建模和运动状态建模，获得所述神经网络模型输出的延时摄影视频。该装置通过多阶段的生成对抗网络对延时摄影视频进行持续性优化，通过对内容建模以及对运动状态建模保证预测合理的未来帧，实现从粗到细逐步生成延时摄影视频。该装置一方面保留了内容的真实性和运动信息的合理性，使得生成的延时摄影视频具有较高的真实性，并且比较自然；另一方面，该装置所使用的模型是级联的双网络结构，易于实现和简化，可以应用于云端或离线场景中。

可选的，请参阅图11，图11为本申请实施例提供的一种神经网络模型的训练装置的结构图。如图11所示，该装置1100包括：

获取模块1110，用于获取训练样本，所述训练样本包括训练视频以及与其对应的图像集，所述图像集包括第一预设数目张所述训练视频中的首帧图像或尾帧图像；

训练模块1120，用于根据所述训练样本训练得到满足训练结束条件的神经网络模型，所述神经网络模型包括用于对延时摄影视频进行内容建模的基础网络和用于对延时摄影视频的运动状态进行建模的优化网络；其中，所述基础网络是以包括第一预设数目帧相同图像的图像集作为输入，以基础延时摄影视频为输出的第一生成式对抗网络；所述优化网络是以所述基础网络的输出作为输入，以优化延时摄影视频作为输出的第二生成式对抗网络。

可选的，请参阅图12，图12为本申请实施例提供的另外一种神经网络模型的训练装置的结构图。如图12所示，该装置1100在包括如图11及其对应的实施例中所述的各模块的基础上，所述训练模块1120具体包括：

第一训练子模块1121，用于根据所述训练样本训练得到满足训练结束条件的第一生成式对抗网络，作为基础网络；

获取子模块1122，用于根据所述训练视频对应的图像集，通过基础网络获得所述基础网络输出的基础延时摄影视频；

第二训练子模块1123，用于根据所述基础延时摄影视频和所述训练视频，训练得到满足训练结束条件的第二生成式对抗网络，作为优化网络。

可选的，所述第二训练子模块1123具体用于：

根据所述基础延时摄影视频，通过所述第二生成式对抗网络中的第二生成器，获得优化延时摄影视频；

根据所述优化延时摄影视频，通过所述第二生成式对抗网络中的第二判别器，获得判别结果；

根据所述优化延时摄影视频、所述基础延时摄影视频、所述训练视频和所述判别结果，生成第二生成式对抗网络的损失，所述损失至少包括排序损失，所述排序损失是根据所述优化延时摄影视频、所述基础延时摄影视频和所述训练视频各自对应的运动特征确定的；

根据所述生成式对抗网络的损失，对所述第二生成式对抗网络的网络参数进行优化，直到得到满足训练结束条件的第二生成式对抗网络，作为优化网络。

可选的，所述装置还包括确定模块，用于通过以下方式确定所述第二生成式对抗网络的损失：

利用所述第二生成式对抗网络中的第二判别器，分别提取所述优化延时摄影视频的特征、所述基础延时摄影视频和所述训练视频各自的特征，根据所述特征分别计算所述优化延时摄影视频、所述基础延时摄影视频和所述训练视频各自对应的格拉姆gram矩阵，所述gram矩阵用于表征视频帧间的运动状态；

根据所述优化延时摄影视频、所述基础延时摄影视频和所述训练视频各自对应的格拉姆gram矩阵，确定所述排序损失；

根据所述第二生成式对抗网络的内容损失、对抗损失以及所述排序损失，确定所述第二生成式对抗网络的损失。

可选的，所述获取模块1110具体用于：

获取训练视频；

从所述训练视频中，提取首帧图像或者尾帧图像；

复制所述首帧图像或者尾帧图像，生成与所述训练视频对应的图像集；

将所述训练视频以及其对应的图像集作为训练样本。

由上可知，本申请提供了一种基于双网络结构的神经网络模型生成方法，其中，双网络结构具体包括用于对延时摄影视频进行内容建模的基础网络和用于对延时摄影视频的运动状态进行建模的优化网络，其中，基础网络是以包括第一预设数目帧指定帧图像的视频为输入，以基础延时摄影视频为输出的第一生成式对抗网络，优化网络是以所述基础网络的输出作为输入，用于对延时摄影视频的运动状态进行建模，以优化延时摄影视频作为输出的第二生成式对抗网络，在获取多个训练视频后，根据训练视频生成与训练视频对应的图像集，该图像集包括第一预设数目张所述训练视频中的首帧图像或尾帧图像，通过该训练视频及其对应的图像集训练基础网络和优化网络组成的神经网络模型，当满足训练结束条件时，即可将该视频用于生成延时摄影视频。该装置训练的神经网络模型通过多阶段的生成对抗网络对延时摄影视频进行持续性优化，通过对内容建模以及对运动状态建模保证预测合理的未来帧或历史帧，实现从粗到细逐步生成延时摄影视频。该方法一方面保留了内容的真实性和运动信息的合理性，使得生成的延时摄影视频具有较高的真实性，并且比较自然；另一方面，该装置训练的神经网络模型是级联的双网络结构，易于实现和简化，可以应用于云端或离线场景中。

为了更加全面地阐述本申请提供的技术方案，对应于本申请实施例提供的延时摄影视频的生成方法，本申请公开一种电子设备，该电子设备可以是本地终端(如本地计算机、移动终端等)，或者远程服务器等。

请参阅图13，图13为本申请实施例提供的一种电子设备的硬件结构图。如图13所示，该电子设备包括：

处理器1，通信接口2，存储器3和通信总线4；

其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1，用于调用并执行所述存储器中存储的程序；

存储器3，用于存储程序；

所述程序可以包括程序代码，所述程序代码包括计算机操作指令；在本申请实施例中，程序可以包括：用于生成延时摄影视频的神经网络模型的训练方法对应的程序，以及所述延时摄影视频的生成方法对应的程序这两套程序，或者其中的任意一套程序。

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

其中，所述程序可具体用于：

获取指定图像；

根据所述图像集，通过预先训练的神经网络模型对所述图像集进行内容建模和运动状态建模，获得所述神经网络模型输出的延时摄影视频；其中，所述神经网络模型是通过上述神经网络模型的训练方法训练得到的。

可选的，所述程序还可以用于执行本申请实施例提供的延时摄影视频的生成方法的任意一种实现方式的步骤。

此外，本申请实施例还提供一种存储介质，该存储介质存储有计算机程序，所述计算机程序被处理器执行时，用于执行上述实施例所述神经网络模型的训练方法的各个步骤，和/或所述延时摄影视频的生成方法的各个步骤。

下面对本申请的实际应用场景做简要介绍。比如用户想要制作一个以天空的变化为实际场景的延时摄影视频，应用本申请提供的技术方案，用户可以有两种方式进行制作：

第一种方式为，用户在本地终端进行制作；其中，本地终端的执行的操作包括：

获取用户提供的指定图像；该指定图像可以为用户现场拍摄的天空的图片，或者用户选择之前已有的天空的图片；复制所述指定图像，生成包括第一预设数目张所述指定图像的图像集；将所述图像集输入至用于生成延时摄影视频的神经网络模型；通过所述神经网络模型进行内容建模和运动状态建模，重构指定图像的内容，输出优化延时摄影视频。

该方式中，本地终端中预先设置有用于生成延时摄影视频的神经网络模型，也就是说，本地终端可以独立生成延时摄影视频。

第二种方式为，用户在本地终端进行操作，借助远程服务器来获得延时摄影视频；其具体流程如下：

本地终端将指定图像发送至远程服务器；该指定图像可以为用户现场拍摄的天空的图片，或者用户选择之前已有的天空的图片；

远程服务器复制所述指定图像，生成包括第一预设数目张所述指定图像的图像集；将所述图像集输入至用于生成延时摄影视频的神经网络模型；通过所述神经网络模型进行内容建模和运动状态建模，重构定图像的内容，输出优化延时摄影视频。

该方式中，用户通过本地终端只需要将天空的图片发送至远程服务器，远程服务器中预先设置有用于生成延时摄影视频的神经网络模型，由远程服务器生成由天空的图片预测得到的延时摄影视频，然后再发送给用户的本地终端。

经由上述的技术方案可知，与现有技术相比，本申请提供了一种神经网络模型的训练、延时摄影视频的生成方法及设备。本申请提供的技术方案基于双网络结构的神经网络模型生成延时摄影视频，其中，双网络结构具体包括用于对延时摄影视频进行内容建模的基础网络和用于对延时摄影视频的运动状态进行建模的优化网络，基础网络是以包括第一预设数目帧指定帧图像的视频为输入，以基础延时摄影视频为输出的第一生成式对抗网络，优化网络是以所述基础网络的输出作为输入，用于对延时摄影视频的运动状态进行建模，以优化延时摄影视频作为输出的第二生成式对抗网络，在获取多个训练视频后，根据训练视频生成与训练视频对应的图像集，该图像集包括第一预设数目张所述训练视频中的首帧图像或尾帧图像，通过该训练视频及其对应的图像集训练基础网络和优化网络组成的神经网络模型，当满足训练结束条件时，即可将该视频用于生成延时摄影视频。

在生成延时摄影视频时，首先获取指定图像，根据该指定图像生成包括第一预设数目张指定图像的指定图像集，然后利用预先训练的神经网络模型对所述指定图像集进行内容建模和运动状态建模，获得所述神经网络模型输出的延时摄影视频。

该技术方案通过多阶段的生成对抗网络对延时摄影视频进行持续性优化，通过对内容建模以及对运动状态建模保证预测合理的未来帧，实现从粗到细逐步生成延时摄影视频。一方面保留了内容的真实性和运动信息的合理性，使得生成的延时摄影视频具有较高的真实性，并且比较自然；另一方面，由于所使用的模型是级联的双网络结构，易于实现和简化，可以应用于云端或离线场景中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者智能设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者智能设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者智能设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、系统、智能设备和存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器 (RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种神经网络模型的训练方法，应用于服务器，包括：

获取训练样本，所述训练样本包括训练视频以及与其对应的图像集，所述图像集包括第一预设数目帧所述训练视频中的首帧图像或尾帧图像；

根据所述训练样本训练得到满足训练结束条件的神经网络模型，所述神经网络模型包括用于对延时摄影视频进行内容建模的基础网络和用于对延时摄影视频的运动状态进行建模的优化网络；

其中，所述基础网络是以包括第一预设数目帧相同图像的图像集作为输入，以基础延时摄影视频为输出的第一生成式对抗网络；所述优化网络是以所述基础网络的输出作为输入，以优化延时摄影视频作为输出的第二生成式对抗网络。
根据权利要求1所述的方法，所述根据所述训练样本训练得到满足训练结束条件的神经网络模型，包括：

根据所述训练样本训练得到满足训练结束条件的第一生成式对抗网络，作为基础网络；

根据所述训练视频对应的图像集，通过基础网络获得所述基础网络输出的基础延时摄影视频；

根据所述基础延时摄影视频和所述训练视频，训练得到满足训练结束条件的第二生成式对抗网络，作为优化网络。
根据权利要求2所述的方法，所述根据所述基础延时摄影视频和所述训练视频，训练得到满足训练结束条件的第二生成式对抗网络，作为优化网络，包括：

根据所述基础延时摄影视频，通过所述第二生成式对抗网络中的第二生成器，获得优化延时摄影视频；

根据所述优化延时摄影视频，通过所述第二生成式对抗网络中的第二判别器，获得判别结果；

根据所述优化延时摄影视频、所述基础延时摄影视频、所述训练视频和所述判别结果，生成第二生成式对抗网络的损失，所述损失至少包括排序损失，所述排序损失是根据所述优化延时摄影视频、所述基础延时摄影视频和所述训练视频各自对应的运动特征确定的；

根据所述生成式对抗网络的损失，对所述第二生成式对抗网络的网络参数进行优化，直到得到满足训练结束条件的第二生成式对抗网络，作为优化网络。
根据权利要求1所述的方法，通过以下方式确定所述第二生成式对抗网络的损失：

利用所述第二生成式对抗网络中的第二判别器，分别提取所述优化延时摄影视频的特征、所述基础延时摄影视频和所述训练视频各自的特征，根据所述特征分别计算所述优化延时摄影视频、所述基础延时摄影视频和所述训练视频各自对应的格拉姆gram矩阵，所述gram矩阵用于表征视频帧间的运动状态；

根据所述优化延时摄影视频、所述基础延时摄影视频和所述训练视频各自对应的格拉姆gram矩阵，确定所述排序损失；

根据所述第二生成式对抗网络的内容损失、对抗损失以及所述排序损失，确定所述第二生成式对抗网络的损失。
根据权利要求1所述的方法，所述获取训练样本，包括：

获取训练视频；

从所述训练视频中，提取首帧图像或者尾帧图像；

复制所述首帧图像或者尾帧图像，生成与所述训练视频对应的图像集；

将所述训练视频以及其对应的图像集作为训练样本。
一种延时摄影视频的生成方法，应用于电子设备，包括：

获取指定图像；

根据所述指定图像，生成包括第一预设数目帧所述指定图像的图像集；

根据所述图像集，通过预先训练的神经网络模型对所述图像集进行内容建模和运动状态建模，获得所述神经网络模型输出的延时摄影视频；其中，所述神经网络模型是通过上述权利要求1至5中任一项所述的方法训练得到的。
根据权利要求1所述的方法，所述电子设备为终端设备，所述终端设备中部署有所述神经网络模型，则所述获取指定图像，包括：

响应于选中指令，获取相册中被选中的照片，作为指定图像；或者，

响应于拍摄指令，获取拍摄的照片，作为指定图像。
根据权利要求1所述的方法，所述电子设备为服务器，则所述获取指定图像，包括：

接收终端设备发送的延时摄影生成请求，所述延时摄影生成请求中携带有指定图像；

从所述延时摄影生成请求中获取所述指定图像。
一种神经网络模型的训练装置，包括：

获取模块，用于获取训练样本，所述训练样本包括训练视频以及与其对应的图像集，所述图像集包括第一预设数目张所述训练视频中的首帧图像或尾帧图像；

训练模块，用于根据所述训练样本训练得到满足训练结束条件的神经网络模型，所述神经网络模型包括用于对延时摄影视频进行内容建模的基础网络和用于对延时摄影视频的运动状态进行建模的优化网络；其中，所述基础网络是以包括第一预设数目帧相同图像的图像集作为输入，以基础延时摄影视频为输出的第一生成式对抗网络；所述优化网络是以所述基础网络的输出作为输入，以优化延时摄影视频作为输出的第二生成式对抗网络。
一种延时摄影视频的生成装置，包括：

获取模块，用于获取指定图像；

第一生成模块，用于根据所述指定图像，生成包括第一预设数目帧所述指定图像的图像集；

第二生成模块，用于根据所述图像集，通过预先训练的神经网络模型对所述图像集进行内容建模和运动状态建模，获得所述神经网络模型输出的延时摄影视频；其中，所述神经网络模型是通过上述权利要求1至5中任一项所述的方法训练得到的。
一种延时摄影视频的生成系统，包括：

终端和服务器，所述终端和所述服务器通过网络进行交互；

所述服务器用于接收所述终端发送的指定图像，根据所述指定图像，生成包括第一预设数目帧所述指定图像的图像集，根据所述图像集，通过预先训练的神经网络模型对所述图像集进行内容建模和运动状态建模，获得所述神经网络模型输出的延时摄影视频，并将向所述终端发送所述延时摄影视频；其中，所述神经网络模型是通过上述权利要求1至5中任一项所述的方法训练得到的。
一种电子设备，包括：存储器和处理器；其中，

所述存储器中用于存储计算机程序；

所述处理器用于调用并执行所述存储器中的计算机程序，以实现权利要求1至5任一项所述的神经网络模型的训练方法，或者用于实现权利要求6-8任一项所述的延时摄影视频的生成方法。
一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时用于实现权利要求1至5任一项所述的神经网络模型的训练方法，或者用于实现权利要求6-8任一项所述的延时摄影视频的生成方法。
一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求1至5任一项所述的神经网络模型的训练方法，或者执行权利要求6-8任一项所述的延时摄影视频的生成方法。