WO2024248736A1

WO2024248736A1 - 视频生成方法、训练视频生成模型的方法及装置

Info

Publication number: WO2024248736A1
Application number: PCT/SG2024/050361
Authority: WO
Inventors: 陈大友; 张士伟; 张迎亚; 赵德丽
Original assignee: Alibaba Innovation Private Ltd
Current assignee: Alibaba Innovation Private Ltd
Priority date: 2023-05-29
Filing date: 2024-05-29
Publication date: 2024-12-05
Anticipated expiration: 2025-11-29
Also published as: EP4722982A1; CN116863003A; EP4722982A4

Abstract

本公开实施例公开了一种视频生成方法、训练视频生成模型的方法及装置。其中主要技术方案包括：获取局部条件，局部条件包括空间条件和/或时间条件；对局部条件进行编码处理得到局部条件特征表示；将噪声序列与局部条件特征表示进行整合，得到噪声隐向量序列；利用扩散模型对噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列；利用去噪后的隐向量序列进行解码处理，得到视频。

Description

视频生成方法、训练祝频生成模型的方法及装置交叉援引本公开要求于 2023年 05月 29 日提交中国专利局、优先权号为 202310618707.8、发明名称为 "视频生成方法、训练视频生成模型的方法及装置” 的中国专利公开的优先权，其全部内容通过引用结合在本公开中。技术领域本公开涉及计算机视觉技术领域，特别是涉及一种视频生成方法、训练视频生成模型的方法及装置。背景技术人工智能技术的不断发展给计算机视觉技术提供了新的契机，其中自动生成视频的能力越来越强大。基于文本的视频生成技术为很多内容创作者提供了全新的工具，让原本需要专业人员和昂贵设备制作的视频内容创作变得更加容易和低成本。然而，目前 ■大多数技术以文本作为引导条件，生成的视频缺乏多样性和灵活性，导致视频的质量较低。发明内容有鉴于此，本公开提供了一种视频生成方法、训练视频生成模型的方法及装置，以便于提高生成的视频质量。本公开提供了如下方案：第一方面，提供了一种视频生成方法，所述方法包括：获取局部条件，所述局部条件包括空间条件和 /或时间条件；对所述局部条件进行编码处理得到局部条件特征表示；将噪声序列与所述局部条件特征表示进行整合，得到噪声隐向量序列；利用扩散模型对所述噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列 ; 利用所述去噪后的隐向量序列进行解码处理，得到视频。根据本公开实施例中一可实现的方式，所述方法还包括：获取全局条件，所述全局条件包括文本条件、风格条件和颜色条件中的至少一种；对所述全局条件进行编码处理得到全局条件特征表示；所述利用扩散模型对所述噪声隐向量序列进行去噪声处理包括：所述扩散模型利用所述全局条件特征表示对所述噪声隐向量序列进行交叉注意力处理以预测噪声，并利用预测的噪声进行去噪声处理。根据本公开实施例中一可实现的方式，所述空间条件包括单幅图像和单幅语义草图中的至少一种; 所述时间条件包括运动矢量序列、深度图序列、掩膜图序列、语义草图序列和灰度图序列中的至少一种。根据本公开实施例中一可实现的方式，对所述全局条件进行编码处理得到全局条件特征表示包括：对所述文本条件进行文本编码得到文本特征表示，以及对所述风格条件和 /或颜色条件进行图像编码得到图像特征表示；对所述文本特征表示和所述图像特征表示进行整合，得到全局条件特征表示。根据本公开实施例中一可实现的方式，对所述局部条件进行编码处理得到局部条件特征表示包括：利用各时空条件编码器分别对各局部条件进行编码，得到各局部条件对应的特征张量，其中时空条件编码器与局部条件一一对应；将各局部条件对应的特征张量进行融合处理，得到所述局部条件特征表示。根据本公开实施例中一可实现的方式，所述利用时空条件编码器分别对各局部条件进行编码包括：利用时空条件编码器对局部条件进行空间特征编码，得到该局部条件的空间特征表示；若该局部条件为序列，则对该局部条件的空间特征表示进行时域自注意力处理, 得到该局部条件对应的特征张量；否则，对该局部条件的空间特征表示在时序上复制产生时序上的空间特征表示，对所述时序上的空间特征表示进行时域自注意力处理，得到该局部条件对应的特征张量。第二方面，提供了一种训练视频生成模型的方法，所述方法包括：获取包括多个第一训练样本的第一训练数据，所述第一训练样本包括局部条件样本，所述局部条件样本包括空间条件样本和 /或时间条件样本；利用所述第一训练数据训练视频生成模型，所述视频生成模型包括：时空条件编码器、扩散模型和解码器；其中，时空条件编码器对所述局部条件样本进行编码处理得到局部条件特征表示；扩散模型对噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列，所述噪声隐向量序列是将噪声序列与所述局部条件特征表示进行整合后得到的；所述解码器利用所述去噪后的隐向量序列进行解码处理，得到视频；所述训练的目标包括：最小化扩散模型进行去噪声处理时预测的噪声与高斯噪声之间的差异。根据本公开实施例中一可实现的方式，所述第一训练样本还包括全局条件样本, 所述全局条件样本包括文本条件样本、风格条件样本和颜色条件样本中的至少一种; 所述视频生成模型还包括全局编码器，所述全局编码器对所述全局条件样本进行编码处理得到全局条件特征表示；所述扩散模型对噪声隐向量序列进行去噪声处理包括：所述扩散模型利用所述全局条件特征表示对所述噪声隐向量序列进行交叉注意力处理以预测噪声，并利用预测的噪声进行去噪声处理。根据本公开实施例中一可实现的方式，所述全局编码器和所述解码器采用预训练得到的参数，在所述训练的每一轮迭代中，利用与所述训练的目标对应的损失函数更新所述时空条件编码器和扩散模型的参数。根据本公开实施例中一可实现的方式，所述获取包括多个第一训练样本的第一训练数据包括：获取视频样本；获取所述视频样本的描述文本、风格图像和 /或颜色直方图分别作为所述文本条件样本、风格条件样本和 /或颜色条件样本；提取单幅图像和单幅语义草图中的至少一种作为所述空间条件样本；提取运动矢量序列、深度图序列、掩膜图序列、语义草图序列和/或灰度图序列中的至少一种作为所述时间条件样本。根据本公开实施例中一可实现的方式，在利用所述第一训练数据训练视频生成模型之前，还包括预训练所述扩散模型；在预训练得到的扩散模型的参数基础上进一步利用所述第一训练数据训练视频生成模型；其中，预训练所述扩散模型包括：获取包括多个第二训练样本的第二训练数据，所述第二训练样本包括：从视频样本中提取描述文本作为文本样本；利用全局编码器对所述文本样本进行编码处理得到文本特征表示；将所述文本特征表示和噪声序列输入扩散模型以对所述扩散模型进行训练，所述扩散模型利用所述文本特征表示对所述噪声序列进行去噪声处理；所述训练的目标包括：最小化扩散模型在各时间步进行去噪声处理时预测的噪声与高斯噪声之间的差异。根据本公开实施例中一可实现的方式，时空条件编码器对所述局部条件样本进行编码处理得到局部条件特征表示包括：利用各时空条件编码器分别对各局部条件样本进行编码，得到各局部条件样本对应的特征张量，其中时空条件编码器与局部条件对应；将各局部条件样本对应的特征张量进行融合处理，得到所述局部条件特征表示。根据本公开实施例中一可实现的方式，所述利用各时空条件编码器分别对各局部条件样本进行编码包括: 利用时空条件编码器对局部条件样本进行空间特征编码，得到该局部条件样本的空间特征表示；若该局部条件样本为序列，则对该局部条件样本的空间特征表示进行时域自注意力处理，得到该局部条件样本对应的特征张量；否则，对该局部条件样本的空间特征表示在时序上复制产生时序上的空间特征表示，对所述时序上的空间特征表示进行时域自注意力处理，得到该局部条件样本对应的特征张量。第三方面，提供了一种视频生成方法，由云端服务器执行，所述方法包括：获取来自用户终端的局部条件，所述局部条件包括空间条件和 /或时间条件；对所述局部条件进行编码处理得到局部条件特征表示；将噪声序列与所述局部条件特征表示进行整合，得到噪声隐向量序列；利用扩散模型对所述噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列; 利用所述去噪后的隐向量序列进行解码处理，得到视频；将所述视频发送给所述用户终端以进行展示。第四方面，提供了一种视频生成装置，所述装置包括：条件获取单元，被配置为获取局部条件，所述局部条件包括空间条件和/或时间条件；视频生成单元，被配置为对所述局部条件进行编码处理得到局部条件特征表示；将噪声序列与所述局部条件特征表示进行整合，得到噪声隐向量序列；利用扩散模型对所述噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列；利用所述.去噪后的隐向量序列进行解码处理，得到视频。第五方面，提供了一种训练视频生成模型的装置，所述装置包括：样本获取单元，被配置为获取包括多个第一训练样本的第一训练数据，所述第一训练样本包括局部条件样本，所述局部条件样本包括空间条件样本和 /或时间条件样本；模型训练单元，被配置为利用所述第一训练数据训练视频生成模型，所述视频生成模型包括：时空条件编码器、扩散模型和解码器；其中，时空条件编码器对所述局部条件样本进行编码处理得到局部条件特征表示；扩散模型对噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列，所述噪声隐向量序列是将噪声序列与所述局部条件特征表示进行整合后得到的；所述解码器利用所述去噪后的隐向量序列进行解码处理，得到视频；所述训练的目标包括：最小化扩散模型进行去噪声处理时预测的噪声与高斯噪声之间的差异。根据第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面至第三方面中任一项所述的方法的步骤。根据第七方面，提供了一种电子设备，包括：一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器被设置为存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面至第三方面中任一项所述的方法的步骤。根据本公开提供的具体实施例，本公开公开了以下技术效果：

1）本公开融入了空间条件和 /或时间条件作为局部条件，利用局部条件特征表示与噪声序列进行整合得到噪声隐向量序列，并对噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列，进而解码得到视频。这种方式使得视频生成不再局限于在文本条件，而是引入空间条件和 /或时间条件来引导视频生成，从而更加灵活、多样化地生成视频，提高视频的质量。

2）本公开可以通过组合多种全局条件、多种局部条件中的空间条件和时间条件，来生成需要的视频；其中通过时空条件编码器实现多种局部条件的编码、对齐和融合，与噪声序列进行整合实现对视频的局部控制；通过全局编码器对全局条件进行编码和整合，在扩散模型中利用全局条件特征表示对噪声隐向量序列进行交叉注意力处理，实现对视频的全局控制。这种方式大大提高了视频生成的可控性，生成的视频更加灵活多样。

3）本公开新创性地在时间条件中引入运动矢量序列，通过融入运动矢量序列的控制信号，使得视频生成模型能够捕获帧间动态，从而实现对视频中内部运动的控制。

4）本公开提供的时空条件编码器首先提取局部的空间信息，然后进行时序建模，促进了时域的显示嵌入。并且为不同的局部条件提供了统一的接口，增强了帧间的一致性。对于单幅图像、单幅语义草图等非时序型的空间条件，通过在时间维度进行复制以确保与时间条件的一致性，实现局部条件的融合。这种编码和融合的处理使得后续生成的视频在时间和空间感知方面都能够具有更好的可控性。

5）本公开在训练视频生成装置之前，可以先利用文本生成视频的训练数据对扩散模型进行预训练，在预训练得到的扩散模型的参数基础上进一步训练视频生成模型, 从而提高视频生成模型的效果和效率。当然，实施本公开的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图 1为是本公开实施例所适用的系统架构图；图 2为本公开实施例提供的视频生成方法流程图；图 3为本公开实施例提供的生成视频所需要条件的示意图；图 4为本公开实施例提供的视频生成模型的原理性示意图；图 5为本公开实施例提供的时空条件编码器的结构示意图；图 6为本公开实施例提供的扩散模型在各时间步的原理性示意图；图 72~图 7d为本公开实施例提供的四个生成视频的实例图；图 8为本公开实施例提供的训练视频生成模型的方法流程图；图 9为本公开实施例提供的视频生成装置的示意性框图；图 10为本公开实施例提供的训练视频生成模型的装置的示意性框图；图 11为本公开实施例提供的电子设备的示意性框图。具体实施方式下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。在本发明实施例中使用的术语是出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的 “一种 " 、 “所述” 和 “该" 也旨在包括多数形式，除非上下文清楚地表示其他含义。应当理解，本文中使用的术语 “和 /或”是一种描述关联对象的关联关系，表示可以存在三种关系，例如， A和 /或 B , 可以表示：单独存在 A, 同时存在 A和 B , 单独存在 B 这三种情况。另外，本文中字符 " /” ，一般表示前后关联对象是一种 “或” 的关系。取决于语境，如在此所使用的词语 “如果 ”可以被解释成为 “在 …时 ”或 “当 … 时” 或 “响应于确定” 或 “响应于检测” 。类似地，取决于语境，短语 “如果确定” 或 “如果检测（陈述的条件或事件） ”可以被解释成为 “当确定时 ”或"响应于确定” 或 “当检测（陈述的条件或事件）时” 或 “响应于检测（陈述的条件或事件） ” 。为了方便对本公开的理解，首先对本公开所适用的系统架构进行简单描述。图 1 示出了可以应用本公开实施例的示例性系统架构，如图 1 中所示，该系统架构包括用户终端，以及位于服务端的模型训练装置和视频生成装置。其中，服务端的模型训练装置采用本公开实施例提供的方法，在离线阶段进行模型训练，得到视频生成模型。用户终端可以通过网络与服务端的视频生成装置进行信息交互。例如，用户终端可以将用户输入的生成视频所使用的条件信息通过网络发送给视频生成装置，其中条件信息可以包括全局条件和局部条件，具体内容将在后续实施例中详述。视频生成装置可以利用已经训练得到的视频生成模型，在全局条件和局部条件的限制下生成视频，并将生成的视频通过网络发送给用户终端，以供用户终端展示该视频。上述用户终端可以包括但不限于诸如：智能移动终端、智能家居设备、可穿戴式设备、智能医疗设备、 PC （ Personal Computer , 个人计算机）等。其中智能，移动设备可以包括诸如手机、平板电脑、笔记本电脑、 PDA （Personal Digital Assistant, 个人数字助理）、互联网汽车等。智能家居设备可以包括智能家电设备，诸如智能电视、智能冰箱等等具备视频播放功能的家电设备。可穿戴式设备可以包括诸如智能手表、智能眼镜、智能手环、 VR（Virtual Reality , 虚拟现实）设备、 AR（Augmented Reality, 增强现实设备）、混合现实设备（即可以支持虚拟现实和增强现实的设备）等等。模型训练装置和视频生成装置可以分别设置为独立的服务器，也可以设置于同一个服务器或服务器群组，还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚 ■拟专用服务器（VPS , Virtual Private Server）服务中存在的管理难度大，服务扩展性弱的缺陷。模型训练装置和视频生成装置还可以设置于具有较强计算能力的计算机终端。需要说明的是，上述视频生成装置除了在线上进行视频生成之外，也可以采用离线的方式进行视频生成。应该理解，图 1 中的用户终端、模型训练装置、视频生成装置以及视频生成模型的数目是示意性的。根据实现需要，可以具有任意数目的用户终端、模型训练装置、视频生成装置以及视频生成模型。图 2为本公开实施例提供的视频生成方法流程图，该方法可以由图 1所示系统架构中的视频生成装置执行。如图 2中所示，该方法可以包括以下步骤：步骤 202：获取局部条件，局部条件包括空间条件和/或时间条件。步骤 204 : 对局部条件进行编码处理得到局部条件特征表示。步骤 206：将噪声序列与局部条件特征表示进行整合，得到噪声隐向量序列；利用扩散模型对噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列。步骤 208：利用去噪后的隐向量序列进行解码处理，得到视频。由上述流程可以看出，本公开融入了空间条件和 /或时间条件作为局部条件，利用局部条件特征表示与噪声序列进行整合得到噪声隐向量序列，并利用全局条件特征表示对噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列，进而解码得到视频。这种方式使得视频生成不再局限于在文本条件，而是引入空间条件和/或时间条件来引导视频生成，从而更加灵活、多样化地生成视频，提高视频的质量。下面对上述流程中的各步骤分别进行详细描述。首先结合实施例对上述步骤 202 即 "获取局部条件 " 进行详细描述。现有的视频生成方法通常在文本条件的引导下，生成视频，灵活性和多样性差。本公开实施例中通过引入新的组合性条件来提高视频生成的可控性。从引入方式上来看，至少包括局部条件，还可以进一步包括全局条件。其中，全局条件主要包括文本条件、风格条件和 /或颜色条件。文本条件主要是对视频内容的描述，从全局上体现出要生成视频的内容。风格条件通常可以采用一幅风格图像，作为条件目的是生成具有与该风格图像所具有的风格特征一致的视频，即视频在整体上具有风格图像中所表达的风格。颜色条件可以采用颜色直方图等形式，作为条件的目标是为了对生成的视频的颜色分布进行指导。局部条件主要包括空间条件和 /或时间条件。其中，空间条件可以包括单幅图像、单幅语义草图等中的至少一种。其中单幅图像指的是单一图像，用以限制视频中图像帧的内容和结构。语义草图也称为手绘草图、素描图等等，是一种用来描述图像中对象基本语义的方式，是一种概括的表述手法，主要描绘出对象的边缘（或轮廓）特征，能够忽略对象的细节和冗余特征，保留主要信息。可以看出，空间条件主要是从空间特征上对视频内容进行指导。时间条件包括运动矢量序列、深度图序列、掩膜图序列和语义草图序列中的至少一种。由于视频是图像序列，相应地，时间条件是沿着时间维度对视频进行的更精细的引导。运动矢量序列包含各相邻帧之间的运动矢量，运动矢量指示各 Token （元素）在相邻帧之间的运动方向，包括水平方向和垂直方向，因此运动矢量可以表示为二维矢量。它显式地表达了相邻两个图像帧之间各 Token的移动，用以使得视频生成模型生成的视频具有运动可控性。其中，图像的各 Token指的是构成图像的元素。对于图像而言，将图像切分成不重叠的区块，则图像中的区块以及起始符等均为 Token。深度图序列由各帧的深度图构成，深度图包含图像帧中各 Token的深度信息，用以指导视频中各帧的深度信息。掩膜图序列由各帧的掩膜图构成，掩膜图是将图像帧中部分区域的内容进行掩膜 , 从而使得模型具备预测掩膜部分内容的能力。其中掩膜的区域可以是用户指定的，也可以是随机确定的。语义草图序列由各帧的语义草图构成，与空间条件中的单幅语义草图相比，草图序列能够提供更多的控制细节。灰度图序列由各帧的灰度图构成，灰度图包含图像帧中各 Token的灰度信息，用以指导视频中各帧的灰度信息。上述时间条件中各序列的长度是一致的，都等于生成视频的长度，例如表示为 T1。例如，文本条件为 “一个站在圣涎树旁边的孩子” ，风格条件为一幅风格图像，用以限制生成的视频的整体风格，即将风格图像的风格特征迁移至生成的视频，颜色条件为一幅颜色直方图，如图 3中所示，用以限制所生成视频的颜色分布。空间条件中的单幅图像就可以是包含一个孩子和圣诞树的图像，用以限制生成的视频中孩子和圣诞树的样子等，如图 3中所示。语义草图可以是描述孩子、圣诞树的基本线条的图，用以限制孩子和圣诞树的基本形状和位置等。时间条件中的运动矢量序列包含相邻帧之间的运动矢量，图中示意性的以小箭头表示，深度图序列包含各帧的深度图，掩膜图序列包含各帧的掩膜图，语义草图序列包含各帧的语义草图。各序列的长度均为 T1 , T1为要生成的视频的长度。作为其中一种可实现的方式，可以向用户提供条件输入界面，用户可以在界面上选择输入上述全局条件和局部条件。例如，用户可以在文本输入框输入文本条件。再例如，用户可以通过界面上提供的图像绘制或编辑工具，输入单幅图像和 /或单幅语义草图作为空间条件，输入运动矢量序列、深度图序列、掩膜图序列和语义图序列等中的至少一种作为时间条件，还可以通过上传自选图像或者从界面提供的图像库中选择图像的方式输入风格图像。其中在输入运动矢量序列时，用户可以通过框选图像中的特定区域，并通过特定手势、鼠标轨迹等方式产生移动轨迹来指示特定区域在视频中的运动路线，服务端依据该移动轨迹自动生成运动矢量序列。除了上述列举的条件输入方式之外，也可以采用其他条件输入方式，在此不做穷举。下面结合实施例对上述步骤 204即 “对局部条件进行编码处理得到局部条件特征表示对全局条件进行编码处理得到全局条件特征表示，以及对局部条件进行编码处理得到局部条件特征表示” 进行详细描述。图 2中涉及的步骤 204~步骤 208可以通过预先训练得到的视频生成模型实现。如图 4中所示，视频生成模型可以包括时空条件编码器、扩散模型和解码器，还可以进一步包括全局编码器。本步骤主要由时空条件编码器执行，如果使用了全局条件，则进一步全局编码器执行。全局编码器用以对全局条件进行编码处理得到全局条件特征表示。若全局条件中包含文本条件，则可以采用文本编码器对文本条件进行文本编码, 得到文本特征表示，将该文本特征表示作为全局条件特征表示。若全局条件中包含文本条件和风格图像，则可以利用文本编码器对文本条件进行文本编码得到文本特征表示，以及利用图像编码器对风格条件和/或颜色条件进行图像编码得到图像特征表示；再对文本特征表示和图像特征表示进行整合，得到全局条件特征表示。其中，文本编码器可以采用预训练语言模型实现，例如 BERT （Bidirectional Encoder Representation from Transformers, 基于转换的双向编码表示）、 XLNet（一种通过排列语言模型实现双向上下文信息的自回归模型）、 GPT（Generative Pre-Training , 生成式预训练）模型、 CLIP （是一种可以实现多模态编码的编码模型）等。通过文本编码器实际上可以获得文本条件的语义嵌入即文本特征表示。图像编码器可以使用诸如 VIT （Vision Transformer, 视觉转换器）、 CLIP等，通过图像编码器实际上可以获取风格图像的语义嵌入即图像特征表示。

时空条件编码器用以对局部条件进行编码处理得到局部条件特征表示。由于局部条件中包括空间条件和 /时间条件。由于时间条件是序列型的条件，因此局部条件包含了丰富而复杂的时空关系，对视频的可控引导提出了挑战。有鉴于此，本公开实施例中针对各局部条件分别布设对应的时空条件编码器，作为其中一种可实现的方式，局部条件和时空条件编码器是一一对应的关系。利用各时空条件编码器分别对各局部条件进行编码，得到各局部条件对应的特征张量，再将各局部条件对应的特征张量进行融合处理，得到局部条件特征表示。其中，时空条件编码器的结构可以如图 5中所示。时空条件编码器首先对局部条件进行空间特征编码，得到该局部条件的空间特征表示。如图 5中所示，时空条件编码器可以由两个二维卷积（Conv2D）、两个激活 ■层（例如可以采用 SiLU 激活函数）和一个平均池化层组成。若输入时空条件编码器的局部条件为序列，则对该局部条件（即时序上）的空间特征表示进行时域自注意力处理，得到该局部条件对应的特征张量，该部分由图 5中所示的时域 Transformer （转换器）执行。若输入时空条件编码器的局部条件并非序列，例如是单幅图像、单幅语义草图等。则可以首先对该局部条件的空间特征表示在时序上复制产生时序上的空间特征表示，该部分在图 5中由 “齿”执行，使其与序列型的局部条件对应的空间特征表示在时序上对齐。然后通过时域 Transformer在对时序上的空间特征表示进行时域自注意力处理，得到该局部条件对应的特征张量。作为其中一种可实现的方式，将各局部条件对应的特征张量进行融合处理时，可以采用将各特征张量进行逐元素相加的方式。可以看出，时空条件编码器实际上首先提取局部的空间信息，然后进行时序建模，促进了时域的显示嵌入。并且为不同的局部条件提供了统一的接口，增强了帧间的一致性。对于单幅图像、单幅语义草图等非时序型的空间条件，通过在时间维度进行复制以确保与时间条件的一致性，实现局部条件的融合。这种编码和融合的处理使得后续生成的视频在时间和空间感知方面都能够具有更好的可控性。尤其是在时间条件中引入的运动矢量序列，能够捕获帧间动态，从而实现对视频中内部运动的直接控制。下面结合实施例对上述步骤 206 即 “将噪声序列与局部条件特征表示进行整合，得到噪声隐向量序列；利用扩散模型对噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列”进行详细描述。本公开实施例中可以随机产生噪声序列 & , 随机产生的噪声序列符合正态分布，即高斯噪声，且的长度与要生成的视频长度一致，均为 T1。经过时空条件编码器对局部条件进行的编码处理以及整合后，局部条件特征表示与&具有相同的空间形状。然后将噪声序列与局部条件特征表示进行整合，例如沿着通道维度将两者进行拼接，得到噪声隐向量序列 z, , 该噪声隐向量序列作为视频生成的一路控制信号。扩散模型因其具有更稳定的训练和生成灵活性，在图像生成领域已经得到了广泛的应用，但在视频生成领域尚未被很好地利用。为了有效地处理视频数据，本公开实施例中引入 IDM （Latent Diffusion Model, 隐在扩散模型）来保持局部保真度，即将初始视频投影到隐在表示，然后再通过解码器将隐在表示映射回像素空间得到最终视频。其中，初始视频即噪声序列，最终视频即生成的视频。除了 IDM 之外，也可以采用其他类型的扩散模型。扩散模型的处理可以理解为预测正态分布的噪声，在每一时间步进行去噪声处理，旨在恢复真实的视频内容。这个过程模拟了长度为的马尔科夫链的反向过程。其中 T 为扩散模型的总时间步， T越长去噪效果越好，但对计算性能的影响越大，因此需要在两者之间进行权衡。可以取经验值或实验值，例如可以取 1000c 扩散模型可以在各时间步利用上一时间步得到的噪声隐向量序列（在第一个时间步则利用扩散模型被输入的噪声隐向量序列）预测当胡时间步的噪声，利用预测的噪声对该噪声隐向量序列进行去噪声处理，得到当前时间步的噪声隐向量序列。更进一步地，若输入的条件包括全局条件，则扩散模型利用全局条件特征表示对噪声隐向量序列进行交叉注意力处理以预测噪声，并利用预测的噪声进行去噪声处理。具体地，如图 6中所示，扩散模型在第一个时间步利用全局条件特征表示对噪声隐向量序列进行交叉注意力处理，以预测当前时间步的噪声，利用预测的噪声对噪声隐向量序列进行去噪声处理，得到当前时间步的噪声隐向量序列。在其他时间步利用全局条件特征表示对上一时间步得到的噪声隐向量序列进行交叉注意力处理，以预测当前时间步的噪声，利用预测的噪声对上一时间步得到的噪声隐向量序列进行去噪声处理，得到当前时间步的噪声隐向量序列。其中，扩散模型可以将三维 UNet作为骨干网络。 UNet网络是一种引入了跳跃连接的编码器-解码器网络，因其结构似字母 U 而得名，能够将深层高级特征与浅层低级特征相结合，鉴于其是一种已知网络，在此不做详述。上述过程可以看做是，对噪声隐向量序列 z,和条件 (例如包括全局条件和局部条件) c应用去噪函数勺 (•,•/) , 其中 /引1,...,0。在去噪过程中，采用交叉注意力机制注入全局条件，使得全局条件在整体语义上对视频生成进行引导。最终扩展模型最后一步得到的去噪后的隐向量序列在步骤 208中输入解码器，由解码器利用去噪后的隐向量序列进行解码处理，得到视频。关于解码器的部分可以采用目前已有的视频生成模型的解码器，在此不做详述。通过本公开实施例提供的上述方式，可以灵活组合各种条件来生成更多样化的视频，在此举几个实例说明本公开在视频生成上的可控性。实例 1：可以组合全局条件中的文本条件和局部条件中的时间条件。如图 7a中所示，用户输入文本条件"一个站在森林中的长发女人的旋转视角”，以及语义草图序列，本实例中序列长度以 6帧为例。最终生成视频如图 7a中所示，图中示出的是视频中的各帧图像。实例 2 : 可以组合局部条件中的空间条件和时间条件。用户输入单幅图像和深度图序列，最终生成视频如图 7b中所示。实例 3 : 可以组合全局条件中的风格条件和局部条件中的深度图序列、语义草图序列。用户输入风格图像，深度图序列和语义草图序列，最终生成视频如图 7c中所示。实例 4 : 可以组合全局条件中的文本条件、风格条件以及局部条件中的一幅语义草图、运动矢量序列。用户输入文本条件“一轮移动的金色月亮 " ，一幅风格图像，一幅语义草图，并且用户可以在语义草图上手绘出月亮的运动方向，服务端的视频生成装置能够根据用户在语义草图上手绘的月亮的运动方向自动生成运动矢量序列，从而利用本公开实施例提供的方式生成视频。如图 7d 中所示，生成的视频中月亮沿用户手绘的运动方向发生移动。下面结合实施例对上述视频生成模型的训练过程进行详细描述。图 8为本公开实施例提供的训练视频生成模型的方法流程图，该方法流程可以由图 1所示系统架构中的模型训练装置执行。如图 8中所示，该方法可以包括如下步骤：步骤 802 : 获取包括多个第一训练样本的第一训练数据，第一训练样本包括局部条件样本，局部条件包括空间条件样本和 /或时间条件样本。更进一步地，第一训练数据样本还可以包括全局条件样本，全局条件样本可以包括文本条件样本、风格条件样本和颜色条件样本中的至少一种。作为其中一种可实现的方式，可以首先获取视频样本，获取视频样本的描述文本作为文本条件样本。获取视频样本的风格图像作为风格条件样本，获取视频样本的颜色直方图作为颜色条件样本。例如，可以采用已有的视频描述文本生成模型来获取视频样本的描述文本，也可以从视频样本所来源网页上获取视频样本的描述文本，也可以人工添加视频样本的描述文本，等等。例如，可以将视频样本的第一帧图像作为风格图像。再例如，可以将视频样本的第一帧图像对应的颜色直方图作为颜色条件样本。然后从视频样本中提取单幅图像和单幅语义草图中的至少一种作为空间条件样本。例如可以将视频样本的第一帧图像作为上述的单幅图像。再例如，可以对视频样本中的第一帧图像进行边缘提取，利用从图像中提取的边缘信息形成单幅语义草图。或者，可以利用手绘图生成工具对视频样本中的第一帧图像生成单幅语义草图。再从视频样本中提取运动矢量序列、深度图序列、掩膜图序列、语义草图序列和灰度图序列中的至少一种作为时间条件样本。例如，可以从视频样本中提取各相邻帧之间的运动矢量构成运动矢量序列。从视频样本中提取各帧图像的深度图构成深度图序列。将视频样本中各帧进行掩膜处理，得到掩膜图序列。针对视频样本中的各帧图像生成语义草图，得到语义草图序列。针对视频样本中的各帧图像生成灰度图，得到灰度图序列。除了上述方式之外，也可以采用其他方式来得到上述条件样本，在此不做一一列举。需要说明的是，本公开实施例中涉及的' '第一 ”、 "第二 ”等限定并不具备大小、顺序和数量等方面的限制，用以在名称上加以区分，例如 “第一训练样本" 和 “第二训练样本” 用以在名称上区分两种训练样本。步骤 804：利用第一训练数据训练视频生成模型，视频生成模型包括：时空条件编码器、扩散模型和解码器；其中，时空条件编码器对局部条件样本进行编码处理得到局部条件特征表示；扩散模型对噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列，噪声隐向量序列是将噪声序列与局部条件特征表示进行整合后得到的；解码器利用去噪后的隐向量序列进行解码处理，得到视频；训练的目标包括：最小化扩散模型进行去噪声处理时预测的噪声与高斯噪声之间的差异。更进一步地，上述视频生成模型还可以包括全局编码器。全局编码器对全局条件样本进行编码处理得到全局条件特征表示。相应地，扩散模型可以利用全局条件特征表示对噪声隐向量序列进行交叉注意力处理以预测噪声，并利用预测的噪声进行去噪声处理。作为其中一种可实现的方式，若全局条件样本中包含文本条件样本，则全局编码器可以采用文本编码器对文本条件样本进行文本编码，得到文本特征表示，将该文本特征表示作为全局条件特征表示。作为另一种可实现的方式，若全局条件中包含文本条件样本之外，还包含风格条件样本和 /或颜色条件样本，则全局编码器可以利用文本编码器对文本条件样本进行文本编码得到文本特征表示，以及利用图像编码器对风格条件样本和 /或颜色条件样本进行图像编码得到图像特征表示；再对文本特征表示和图像特征表示进行整合，得到全局条件特征表示。作为其中一种可实现的方式，可以利用各时空条件编码器分别对各局部条件样本进行编码，得到各局部条件样本对应的特征张量，其中时空条件编码器与局部条件一一对应；然后将各局部条件样本对应的特征张量进行融合处理，得到所述局部条件特征表 7F o 其中，可以首先利用时空条件编码器对局部条件样本进行空间特征编码，得到该局部条件样本的空间特征表示。若该局部条件样本为序列，则对该局部条件样本的空间特征表示进行时域自注意力处理，得到该局部条件样本对应的特征张量；否则，对该局部条件样本的空间特征表示在时序上复制产生时序上的空间特征表示，对时序上的空间特征表示进行时域自注意力处理，得到该局部条件样本对应的特征张量。作为其中一种可实现的方式，扩散模型可以在第一个时间步利用全局条件特征表示对噪声隐向量序列进行交叉注意力处理，以预测当前时间步的噪声，利用预测的噪声对噪声隐向量序列进行去噪声处理，得到当前时间步的噪声隐向量序列。扩散模型在其他时间步利用全局条件特征表示对上一时间步得到的噪声隐向量序列进行交叉注意力处理，以预测当前时间步的噪声，利用预测的噪声对上一时间步得到的噪声隐向量序列进行去噪声处理，得到当前时间步的噪声隐向量序列。关于视频生成模型的具体结构和详细描述可以参见之前方法实施例中关于图 4、图 5和图 6的相关记载，在此不做赘述。在本公开实施例中，可以依据上述训练目标构造损失函数，在训练视频生成模型的每一轮迭代中利用损失函数的取值，采用诸如梯度下降等方式更新模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

另外，除了上述公式（1）中示出的损失函数之外，在此精神原则之内采用的其他损失函数同样在本公开的保护范围之内。例如在每一轮迭代中选择多个时间步预测得到的噪声与高斯噪声之间的差异得到损失函数。作为其中一种可实现的方式，在视频生成模型的训练过程中，全局编码器和解码器可以采用预训练得到的参数，在训练的每一轮迭代中，利用与训练的目标对应的损失函数更新时空条件编码器和扩散模型的参数。其中全局编码器的预训练可以采用其他任务，例如图像生成任务、文本分类任务等等。解码器的预训练也可以采用其他任务，例如图像生成任务、图像分类任务等等。这些是目前已有的训练任务，在此不做详述。在视频生成模型的训练之前，可以使用图像生成模型中的扩散模型的参数进行初始化，这种方式在一定程度上缓解了训练难度，加快了训练速度，但仍在学习处理时序特征和多条件生成视频方面存在难度。有鉴于此，本公开提供了一种更为优选的实施方式，即采用两阶段的训练策略，在利用第一训练数据训练视频生成模型之前，首先对扩散模型进行预训练，该预训练是利用基于文本条件生成视频的过程来使得扩散模型进行学习，然后在预训练得到的扩散模型的参数基础上进一步利用第一训练数据（即包含全局条件和局部条件等多种条件）训练视频生成模型。其中，预训练扩散模型的过程可以包括以下步骤：首先获取包括多个第二训练样本的第二训练数据，第二训练样本包括：从视频样本中提取描述文本作为文本样本。其中可以采用已有的视频描述文本生成模型来获取视频样本的描述文本，也可以从视频样本所来源网页上获取视频样本的描述文本，也可以人工添加视频样本的描述文本，等等。然后利用全局编码器对文本样本进行编码处理得到文本特征表示。再将得到的文本特征表示和噪声序列输入扩散模型以对扩散模型进行训练，其中扩散模型利用文本特征表示对噪声序列进行去噪声处理；训练的目标包括：最小化扩散模型在各时间步进行去噪声处理时预测的噪声与高斯噪声之间的差异。该部分预训练采用的损失函数与上述公式（1）相同，是包含的条件 C不同，预训练过程中涉及的条件 C包含文本条件。也就是说，输入条件有文本条件的情况下，利用生成视频的过程来训练扩散模型。然后将训练得到的扩散模型的参数作为步骤 804中训练视频生成模型时扩散模型采用的初始化参数。上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。根据另一方面的实施例，提供了一种视频生成装置。图 9示出根据一个实施例的视频生成装置的示意性框图，该装置对应图 1所示系统中的模型训练装置。如图 9所示，该装置 900包括：条件获取单元 901和视频生成单元 902 o 其中各组成单元的主要功能如下：条件获取单元 901 , 被配置为获取局部条件，局部条件包括空间条件和 /或时间条件；视频生成单元 902, 被配置为对局部条件进行编码处理得到局部条件特征表示；将噪声序列与局部条件特征表示进行整合，得到噪声隐向量序列；利用扩散模型对噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列；利用去噪后的隐向量序列进行解码处理，得到视频。更进一步地，条件获取单元 901 , 还可以被配置为获取全局条件，全局条件包括文本条件、风格条件和颜色条件中的至少一种。相应地，视频生成单元 902, 还可以别配置为对全局条件进行编码处理得到全局条件特征表示。扩散模型可以利用全局条件特征表示对噪声隐向量序列进行交叉注意力处理以预测噪声，并利用预测的噪声进行去噪声处理。上述空间条件可以包括单幅图像和单幅语义草图中的至少一种。时间条件包括运动矢量序列、深度图序列、掩膜图序列、语义草图序列和灰度图序列中的至少一种。其中，视频生成单元 902可以通过图 3中所示的视频生成模型实现。全局编码器用以对全局条件进行编码处理得到全局条件特征表示。时空条件编码器用以对局部条件进行编码处理得到局部条件特征表示。扩散模型用以对噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列。解码器利用去噪后的隐向量序列进行解码处理，得到视频。作为其中一种可实现的方式，视频生成模型中的全局编码器对文本条件进行文本编码得到文本特征表示，以及对风格条件和 /或颜色条件进行图像编码得到图像特征表示；对文本特征表示和图像特征表示进行整合，得到全局条件特征表示。作为其中一种可实现的方式，各时空条件编码器分别对各局部条件进行编码，得到各局部条件对应的特征张量，其中时空条件编码器与局部条件一一对应；将各局部条件对应的特征张量进行融合处理，得到局部条件特征表示。具体地，时空条件编码器可以利用时空条件编码器对局部条件进行空间特征编码 , 得到该局部条件的空间特征表示；若该局部条件为序列，则对该局部条件的空间特征表示进行时域自注意力处理，得到该局部条件对应的特征张量；否则，对该局部条件的空间特征表示在时序上复制产生时序上的空间特征表示，对时序上的空间特征表示进行时域自注意力处理，得到该局部条件对应的特征张量。根据另一方面的实施例，提供了一种训练视频生成模型的装置。图 10 示出根据一个实施例的训练视频生成模型的装置的示意性框图。如图 10所示，该装置 1000包括：样本获取单元 1001 和模型训练单元 1002, 还可以进一步包括预训练单元 1003。其中各组成单元的主要功能如下：样本获取单元 1001 , 被配置为获取包括多个第一训练样本的第一训练数据，第一训练样本包括局部条件样本，局部条件样本包括空间条件样本和 /或时间条件样本。模型训练单元 1002, 被配置为利用第一训练数据训练视频生成模型，视频生成模型包括：时空条件编码器、扩散模型和解码器；其中，时空条件编码器对局部条件样本进行编码处理得到局部条件特征表示；扩散模型对噪声隐向量序列进行去噪声处理, 得到去噪后的隐向量序列，噪声隐向量序列是将噪声序列与局部条件特征表示进行整合后得到的；解码器利用去噪后的隐向量序列进行解码处理，得到视频；训练的目标包括：最小化扩散模型进行去噪声处理时预测的噪声与高斯噪声之间的差异。更进一步地，上述第一训练样本还包括全局条件样本，全局条件样本包括文本条件样本、风格条件样本和颜色条件样本中的至少一种。视频生成模型还包括全局编码器，全局编码器对全局条件样本进行编码处理得到全局条件特征表示。相应地，扩散模型利用全局条件特征表示对噪声隐向量序列进行交叉注意力处理以预测噪声，并利用预测的噪声进行去噪声处理。作为其中一种可实现的方式，全局编码器和解码器采用预训练得到的参数，在训练的每一轮迭代中，利用与训练的目标对应的损失函数更新时空条件编码器和扩散模型的参数。作为其中一种可实现的方式，样本获取单元 1001 可以获取视频样本；获取视频样本的描述文本、风格图像和 /或颜色直方图分别作为文本条件样本、风格条件样本和 /或颜色条件样本；提取单幅图像和单幅语义草图中的至少一种作为空间条件样本；提取运动矢量序列、深度图序列、掩膜图序列、语义草图序列和 /或灰度图序列中的至少一种作为时间条件样本。作为其中一种可实现的方式，预训练单元 1003 可以被配置为采用如下方式预训练扩散模型：获取包括多个第二训练样本的第二训练数据，第二训练样本包括：从视频样本中提取描述文本作为文本样本；利用全局编码器对文本样本进行编码处理得到文本特征表示；将文本特征表示和噪声序列输入扩散模型以对扩散模型进行训练，扩散模型利用文本特征表示对噪声序列进行去噪声处理；训练的目标包括：最小化扩散模型在各时间步进行去噪声处理时预测的噪声与高斯噪声之间的差异。相应地，模型训练单元 1002在预训练单元 1003预训练得到的扩散模型的参数基础上进一步利用第一训练数据训练视频生成模型。作为其中一种可实现的方式，时空条件编码器可以利用各时空条件编码器分别对各局部条件样本进行编码，得到各局部条件样本对应的特征张量，其中时空条件编码器与局部条件一一对应；将各局部条件样本对应的特征张量进行融合处理，得到局部条件特征表示。作为其中一种可实现的方式，时空条件编码器可以对局部条件样本进行空间特征编码，得到该局部条件样本的空间特征表示；若该局部条件样本为序列，则对该局部条件样本的空间特征表示进行时域自注意力处理，得至 '］该局部条件样本对应的特征张量；否则，对该局部条件样本的空间特征表示在时序上复制产生时序上的空间特征表示，对时序上的空间特征表示进行时域自注意力处理，得到该局部条件样本对应的特征张量。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。需要说明的是，本公开所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。另外，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。以及一种电子设备，包括：一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器被设置为存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任 ■一项所述的方法的步骤。本公开还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。其中，图 1 1 示例性的展示出了电子设备的架构，具体可以包括处理器 1 1 10, 视频显示适配器 1 1 1 1 , 磁盘驱动器 1 1 12, 输入 /输出接口 1 1 13 , 网络接口 1 1 14, 以及存储器 1120。上述处理器 1110、视频显示适配器 1111、磁盘驱动器 1112、输入 /输出接口 1113、网络接口 1114, 与存储器 1120之间可以通过通信总线 1130进行通信连接。其中，处理器 1110 可以采用通 .用的 CPU、微处理器、应用专用集成电路（Application Specific Integrated Circuit, ASIC）、或者一个或多个集成电路等方式实现，被设置为执行相关程序，以实现本公开所提供的技术方案。存储器 1120可以采用 ROM（Read Only Memory, 只读存储器）、 RAM （Random Access Memory , 随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器 1120可以存储被设置为控制电子设备 1100运行的操作系统 1121 ,被设置为控制电子设备 1100的低级别操作的基本输入输出系统（BIOS） 1122o 另外，还可以存储网页浏览器 1123 ,数据存储管理系统 1124,以及视频生成装置 /模型训练装置 1125等等。上述视频生成装置 /模型训练装置 1125就可以是本公开实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本公开所提供的技术方案时，相关的程序代码保存在存储器 1 120中，并由处理器 1 1 10来调用执行。输入 /输出接口 1113被设置为连接输入 /输出模块，以实现信息输入及输出。输入输出 /模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。网络接口 1114 被设置为连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如 USB、网线等）实现通信，也可以通过无线方式（例如移动网络、 WIFE 蓝牙等）实现通信。总线 1 130包括一通路，在设备的各个组件（例如处理器 1 1 10、视频显示适配器 1111、磁盘驱动器 1112、输入/输出接口 1113、网络接口 1114, 与存储器 1120）之间传输信息。需要说明的是，尽管上述设备示出了处理器 1110、视频显示适配器 1111、磁盘驱动器 1112、输入 /输出接口 1113、网络接口 1114, 存储器 112。，总线 1130等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以包含实现本公开方案所必需的组件, 而不必包含图中所示的全部组件。通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本公开可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如 ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本公开各个实施例或者实施例的某些部分所述的方法。以上对本公开所提供的技术方案进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域的一般技术人员，依据本公开的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本公开的限制。工业实用性本公开实施例提供了一种视频生成方法，包括：获取局部条件，局部条件包括空间条件和 /或时间条件，对局部条件进行编码处理得到局部条件特征表示，将噪声序列与局部条件特征表示进行整合，得到噪声隐向量序列，利用扩散模型对噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列，利用所述去噪后的隐向量序列进行解码处理，得到视频。本公开融入了空间条件和/或时间条件作为局部条件，利用局部条件特征表示与噪声序列进行整合得到噪声隐向量序列，并对噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列，进而解码得到视频。这种方式使得视频生成不再局限于在文本条件，而是引入空间条件和 /或时间条件来引导视频生成，从而更加灵活、多样化地生成视频，提高视频的质量。

Claims

权利要求书

1.一种视频生成方法，所述方法包括：获取局部条件，所述局部条件包括空间条件和 /或时间条件；对所述局部条件进行编码处理得到局部条件特征表示；将噪声序列与所述局部条件特征表示进行整合，得到噪声隐向量序列；利用扩散模型对所述噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列 ; 利用所述去噪后的隐向量序列进行解码处理，得到视频。

2.根据权利要求 1所述的方法，其中，所述方法还包括：获取全局条件，所述全局条件包括文本条件、风格条件和颜色条件中的至少一种；对所述全局条件进行编码处理得到全局条件特征表示；所述利用扩散模型对所述噪声隐向量序列进行去噪声处理包括：所述扩散模型利用所述全局条件特征表示对所述噪声隐向量序列进行交叉注意力处理以预测噪声，并利用预测的噪声进行去噪声处理。

3.根据权利要求 1所述的方法，其中，所述空间条件包括单幅图像和单幅语义草图中的至少一种；所述时间条件包括运动矢量序列、深度图序列、掩膜图序列、语义草图序列和灰度图序列中的至少一种。

4.根据权利要求 2所述的方法，其中，对所述全局条件进行编码处理得到全局条件特征表示包括：对所述文本条件进行文本编码得到文本特征表示，以及对所述风格条件和 /或颜色条件进行图像编码得到图像特征表示；对所述文本特征表示和所述图像特征表示进行整合，得到全局条件特征表示。

5.根据权利要求 1至 4中任一项所述的方法，其中，对所述局部条件进行编码处理得到局部条件特征表示包括：利用各时空条件编码器分别对各局部条件进行编码，得到各局部条件对应的特征张量，其中时空条件编码器与局部条件一一对应；将各局部条件对应的特征张量进行融合处理，得到所述局部条件特征表示。

6.根据权利要求 5所述的方法，其中，所述利用时空条件编码器分别对各局部条件进行编码包括：利用时空条件编码器对局部条件进行空间特征编码，得到该局部条件的空间特征表示；若该局部条件为序列，则对该局部条件的空间特征表示进行时域自注意力处理，得到该局部条件对应的特征张量；否则，对该局部条件的空间特征表示在时序上复制产生时序上的空间特征表示，对所述时序上的空间特征表示进行时域自注意力处理，得到该局部条件对应的特征张量。

7. —种训练视频生成模型的方法，所述方法包括：获取包括多个第一训练样本的第一训练数据，所述第一训练样本包括局部条件样本，所述局部条件样本包括空间条件样本和 /或时间条件样本；利用所述第一训练数据训练视频生成模型，所述视频生成模型包括：时空条件编码器、扩散模型和解码器；其中，时空条件编码器对所述局部条件样本进行编码处理得到局部条件特征表示；扩散模型对噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列，所述噪声隐向量序列是将噪声序列与所述局部条件特征表示进行整合后得到的；所述解码器利用所述去噪后的隐向量序列进行解码处理，得到视频；所述训练的目标包括：最小化扩散模型进行去噪声处理时预测的噪声与高斯噪声之间的差异。

8.根据权利要求 7所述的方法，其中，所述第一训练样本还包括全局条件样本，所述全局条件样 ■本包括文本条件样 ■本、风格条件样本和颜色条件样本中的至少一种 ; 所述视频生成模型还包括全局编码器，所述全局编码器对所述全局条件样本进行编码处理得到全局条件特征表示；所述扩散模型对噪声隐向量序列进行去噪声处理包括：所述扩散模型利用所述全局条件特征表示对所述噪声隐向量序列进行交叉注意力处理以预测噪声，并利用预测的噪声进行去噪声处理。

9.根据权利要求 8所述的方法，其中，所述全局编码器和所述解码器采用预训练得到的参数，在所述训练的每一轮迭代中，利用与所述训练的目标对应的损失函数更新所述时空条件编码器和扩散模型的参数。

10.根据权利要求 8所述的方法，其中，所述获取包括多个第一训练样本的第一训练数据包括：获取视频样本；获取所述视频样本的描述文本、风格图像和 /或颜色直方图分别作为所述文本条件样本、风格条件样本和 /或颜色条件样本；提取单幅图像和单幅语义草图中的至少一种作为所述空间条件样本；提取运动矢量序列、深度图序列、掩膜图序列、语义草图序列和 /或灰度图序列中的至少一种作为所述时间条件样本。

11.根据权利要求 7至 10中任一项所述的方法，其中，在利用所述第一训练数据训练视频生成模型之前，还包括预训练所述扩散模型；在预训练得到的扩散模型的参数基础上进一步利用所述第一训练数据训练视频生成模型；其中，预训练所述扩散模型包括：获取包括多个第二训练样本的第二训练数据，所述第二训练样本包括：从视频样本中提取描述文本作为文本样本；利用全局编码器对所述文本样本进行编码处理得到文本特征表示；将所述文本特征表示和噪声序列输入扩散模型以对所述扩散模型进行训练，所述扩散模型利用所述文本特征表示对所述噪声序列进行去噪声处理；所述训练的目标包括 : 最小化扩散模型在各时间步进行去噪声处理时预测的噪声与高斯噪声之间的差异。

12.根据权利要求 7至 10中任一项所述的方法，其中，时空条件编码器对所述局部条件样本进行编码处理得到局部条件特征表示包括：利用各时空条件编码器分别对各局部条件样本进行编码，得到各局部条件样本对应的特征张量，其中时空条件编码器与局部条件一一对应；将各局部条件样本对应的特征张量进行融合处理，得到所述局部条件特征表示。

13.根据权利要求 12所述的方法，其中，所述利用各时空条件编码器分别对各局部条件样本进行编码包括：利用时空条件编码器对局部条件样本进行空间特征编码，得到该局部条件样本的空间特征表示；若该局部条件样本为序列，则对该局部条件样本的空间特征表示进行时域自注意力处理，得到该局部条件样本对应的特征张量；否则，对该局部条件样本的空间特征表示在时序上复制产生时序上的空间特征表示，对所述时序上的空间特征表示进行时域自注意力处理，得到该局部条件样本对应的特征张量。

14.一种视频生成方法，由云端服务器执行，所述方法包括：获取来自用户终端的局部条件，所述局部条件包括空间条件和 /或时间条件；对所述局部条件进行编码处理得到局部条件特征表示；将噪声序列与所述局部条件特征表示进行整合，得到噪声隐向量序列；利用扩散模型对所述噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列; 利用所述去噪后的隐向量序列进行解码处理，得到视频；将所述视频发送给所述用户终端以进行展示。

15. —种视频生成装置，所述装置包括：条件获取单元，被配置为获取局部条件，所述局部条件包括空间条件和/或时间条件；视频生成单元，被配置为对所述局部条件进行编码处理得到局部条件特征表示；将噪声序列与所述局部条件特征表示进行整合，得到噪声隐向量序列；利用扩散模型对所述噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列；利用所述去噪后的隐向量序列进行解码处理，得到视频。

16. —种训练视频生成模型的装置，所述装置包括：样本获取单元，被配置为获取包括多个第一训练样本的第一训练数据，所述第一训练样本包括局部条件样本，所述局部条件样本包括空间条件样本和/或时间条件样本 ; 模型训练单元，被配置为利用所述第一训练数据训练视频生成模型，所述视频生成模型包括：时空条件编码器、扩散模型和解码器；其中，时空条件编码器对所述局部条件样本进行编码处理得到局部条件特征表示；扩散模型对噪声隐向量序列进行去噪声处理，得到去噪后的隐向量序列，所述噪声隐向量序列是将噪声序列与所述局部条件特征表示进行整合后得到的；所述解码器利用所述去噪后的隐向量序列进行解码处理，得到视频；所述训练的目标包括：最小化扩散模型进行去噪声处理时预测的噪声与高斯噪声之间的差异。

17.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现权利要求 1至 14中任一项所述的方法的步骤。

18. —种电子设备，包括：一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器被设置为存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求 1 至 14 中任一项所述的方法的步骤。