CN119729112B - 基于优先级划分的视频语义传输方法 - Google Patents

基于优先级划分的视频语义传输方法

Info

Publication number
CN119729112B
CN119729112B CN202411751690.4A CN202411751690A CN119729112B CN 119729112 B CN119729112 B CN 119729112B CN 202411751690 A CN202411751690 A CN 202411751690A CN 119729112 B CN119729112 B CN 119729112B
Authority
CN
China
Prior art keywords
video
features
feature
semantic
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202411751690.4A
Other languages
English (en)
Other versions
CN119729112A (zh
Inventor
崔艺博
郭一珺
郝建军
张志龙
何欣欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202411751690.4A priority Critical patent/CN119729112B/zh
Publication of CN119729112A publication Critical patent/CN119729112A/zh
Application granted granted Critical
Publication of CN119729112B publication Critical patent/CN119729112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供一种基于优先级划分的视频语义传输方法,方法包括:获取待传输视频对应的图像组,并进行基于多任务的特征提取,得到所述待传输视频的动作向量特征、背景特征以及物体特征;接下来进行特征优先级划分,并根据动态的特征筛选阈值对划分后的特征进行筛选,得到融合特征,将融合特征对应的优先级权重映射处理为概率分布,根据概率分布对融合特征进行算术编码和算术解码,得到对应的视频语义特征,最后进行语义解码处理,并将解码得到的图像组进行重构,得到传输后的视频。通过本申请,解决现有技术中在语义通信时采用信源信息的分割传输,存在丢失重要数据特征信息的情况,且后续视频的恢复和重构质量低下的技术问题。

Description

基于优先级划分的视频语义传输方法
技术领域
本发明涉及视频语义处理技术领域,尤其涉及一种基于优先级划分的视频语义传输方法。
背景技术
语义通信系统旨在重建原始信息或在接收器处执行面向目标的智能任务。语义通信在有限的带宽内传输更多的相关数据,从而提高传输效率和鲁棒性。语义通信不再关注符号的准确传输,而是注重比特背后的语义信息的传输准确率。
现有技术中面向视频信源的语义通信系统,研究重点在于对于信源信息的压缩传输。为了节省信道带宽以及应对复杂的信道条件,语义通信系统在发送端会对信源内容的进行分割传输,例如基于关键点的视频恢复方法,仅将关键点信息实时编码传输,而背景和其他非关键信息则在开始时共享。还例如对一组帧图片中的人物和背景进行直接分割,一组图片只传输一次背景信息,传输全部的人物信息。这些方法虽然达到了节省信道带宽的目的,但是背景、物体和运动特征会在相邻帧中都保持一定的连续性,忽视这些特征会影响视觉一致性,没有考虑对数据特征本身进行划分,没有考虑背景信息中的语义特征和运动物体特征的相关性,而是从整体上对特征所属的类(如背景、物体等)进行划分。如此,一方面会导致丢失重要数据特征信息,另一方面也没有充分的利用信道带宽资源,影响运动物体的恢复、视频的重构质量和用户体验。
发明内容
本发明提供一种基于优先级划分的视频语义传输方法,用以解决现有技术中在语义通信时采用信源信息的分割传输,存在丢失重要数据特征信息的情况,且后续视频的恢复和重构质量低下的技术问题。
本发明提供一种基于优先级划分的视频语义传输方法,方法包括如下步骤:
获取待传输视频对应的图像组,并对所述图像组进行基于多任务的特征提取,得到所述待传输视频的动作向量特征、背景特征以及物体特征;
对所述动作向量特征、所述背景特征以及所述物体特征进行特征优先级划分,并根据动态的特征筛选阈值对划分后的特征进行筛选,得到融合特征,其中,所述特征筛选阈值是根据传输信道的信噪比映射得到的,所述信噪比与所述特征筛选阈值的映射遵从负相关关系;
将所述融合特征对应的优先级权重映射处理为概率分布,根据所述概率分布对所述融合特征进行算术编码和算术解码,得到对应的视频语义特征,其中,所述优先级权重用于表征所述待传输视频中动作与背景物体的相关程度;
将所述视频语义特征进行语义解码处理,并将解码得到的图像组进行重构,得到传输后的视频。
在一些实施例中,所述对所述图像组进行基于多任务的特征提取,得到所述待传输视频的动作向量特征、背景特征以及物体特征,包括:
获取基于多任务训练的特征提取模型,其中,所述特征提取模型训练时选择的多任务包括动作特征提取任务、动作分类任务、背景提取任务;
调用所述特征提取模型对所述图像组中每一帧图像进行特征提取,得到所述待传输视频的动作向量特征、背景特征以及物体特征。
在一些实施例中,所述对所述动作向量特征、所述背景特征以及所述物体特征进行特征优先级划分,包括:
将所述背景特征和所述背景特征组成背景物体特征序列;
对所述动作向量特征、所述背景物体特征序列进行多头注意力计算,得到所述背景物体特征序列对应的一组注意力得分;
将所述注意力得分作为分配权重,对所述背景物体特征序列中的特征元素进行加权求和,并将加权求和得到的结果与所述动作向量特征进行融合。
在一些实施例中,所述对所述动作向量特征、所述背景物体特征序列进行多头注意力计算,得到所述背景物体特征序列对应的一组注意力得分,包括:
将所述动作向量特征组成的序列作为查询向量,将所述背景物体特征序列分别作为键向量和值向量;
将所述查询向量、所述键向量以及所述值向量输入到多个注意力头中进行注意力计算,输出一组注意力得分,所述注意力得分为所述动作向量特征中每个特征元素,与所述背景物体特征序列中特征元素之间的注意力计算值。
在一些实施例中,所述传输后的视频是调用视频语义传输模型对所述待传输视频进行语义传输后构建得到的,所述视频语义传输模型的训练方法包括:
获取视频样本;
将所述视频样本输入到所述视频语义传输模型中进行正向传播,得到重构视频,并在正向传播时确定所述视频样本的动作预测标签;
基于所述重构视频以及所述动作预测标签构建所述视频语义传输模型的最终损失函数;
通过所述最终损失函数在所述视频语义传输模型进行反向传播,以更新所述视频语义传输模型的参数。
在一些实施例中,所述视频样本携带有动作类别的真实分类标签,所述基于所述重构视频以及所述动作预测标签构建所述视频语义传输模型的最终损失函数,包括:
根据所述真实分类标签和所述动作预测标签构建交叉熵损失函数,作为所述视频语义传输模型的动作分类损失函数;
根据所述视频样本中的真实视频帧和所述重构视频中的重构视频帧,构建均方误差损失函数,作为所述视频语义传输模型的视频重构损失函数;
预设动作分类损失权重以及视频重构损失权重,并通过所述动作分类损失权重对所述动作分类损失函数进行加权,得到动作分类加权损失,通过所述视频重构损失权重对所述视频重构损失函数进行加权,得到视频重构加权损失;
将所述动作分类加权损失和所述视频重构加权损失进行求和,得到所述视频语义传输模型的最终损失函数。
本发明还提供一种基于优先级划分的视频语义传输装置,装置包括如下模块:
视频特征提取模块,用于获取待传输视频对应的图像组,并对所述图像组进行基于多任务的特征提取,得到所述待传输视频的动作向量特征、背景特征以及物体特征;
特征优先级划分模块,用于对所述动作向量特征、所述背景特征以及所述物体特征进行特征优先级划分,并根据动态的特征筛选阈值对划分后的特征进行筛选,得到融合特征,其中,所述特征筛选阈值是根据传输信道的信噪比映射得到的,所述信噪比与所述特征筛选阈值的映射遵从负相关关系;
特征动态传输模块,用于将所述融合特征对应的优先级权重映射处理为概率分布,根据所述概率分布对所述融合特征进行算术编码和算术解码,得到对应的视频语义特征,其中,所述优先级权重用于表征所述待传输视频中动作与背景物体的相关程度;
视频特征重构模块,用于将所述视频语义特征进行语义解码处理,并将解码得到的图像组进行重构,得到传输后的视频。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述基于优先级划分的视频语义传输方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于优先级划分的视频语义传输方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于优先级划分的视频语义传输方法。
本发明提供的基于优先级划分的视频语义传输方法,通过对待传输视频的图像组进行基于多任务的特征提取,得到动作向量特征、背景特征以及物体特征等视频特征,然后对这些视频特征本身进行优先级划分,接下来通过信噪比对划分后的特征进行筛选,得到融合特征,用于进行视频重构。由此在视频传输过程中实现了视频特征本身进行优先级划分,并且能够在信噪比的条件下对划分特征进行筛选,使得视频传输时更加关注动作和背景物体的相关程度,从而提高视频关键信息的传输效果和重构质量,进而提高用户体验。此外,特征筛选阈值是根据传输信道的信噪比进行负相关映射得到的,能够充分利用传输信道时的带宽资源。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图逐一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于优先级划分的视频语义传输方法的流程示意图。
图2是本发明提供的基于优先级划分的视频语义传输方法的框架原理图。
图3是本发明提供的特征筛选过程的示意图。
图4是本发明提供的基于优先级划分的视频语义传输装置的结构示意图。
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的基于优先级划分的视频语义传输方法可应用于可以进行视频播放或者视频传输的电子设备中,例如可以是服务器或者终端。因此该方法的执行主体为终端或者服务器。在电子设备执行视频传输任务时,通过该方法获取待传输视频对应的图像组,最终得到传输后的视频,用于完成电子设备的视频传输任务。
下面结合附图来描述本发明的基于优先级划分的视频语义传输方法及装置,图1是本发明提供的基于优先级划分的视频语义传输方法的流程示意图,如图1所示,该方法包括如下步骤101至步骤104。
步骤101、获取待传输视频对应的图像组,并对图像组进行基于多任务的特征提取,得到待传输视频的动作向量特征、背景特征以及物体特征。
首先在需要进行视频语义传输的应用场景中,获取需要进行传输的待传输视频,然后将待传输视频划分为一帧帧的图像,作为对应的图像组。
在进行传输时,需要对图像组进行基于多任务的特征提取,得到待传输视频的动作向量特征、背景特征以及物体特征。
这里,本发明实施例预先训练一个特征提取模型,这个特征提取模型是基于多任务训练的,也就是说在训练时采用的是多任务学习的训练方法。其中,特征提取模型训练时选择的多任务包括动作特征提取任务、动作分类任务、背景提取任务。特征提取模型可以是基于3D-CNN的网络的共享特征提取器。
在多任务学习过程中,先通过共享特征提取器提取几个任务所需的共享视频特征,然后共享视频特征会分别输入到三个分支中,用于执行多个任务。三个分支分别为动作提取分支,动作分类分支以及背景提取分支,这些分支分别用于执行动作特征提取任务、动作分类任务、背景提取任务。用于执行多个任务。
在多任务学习过程中,能够通过学习多个相关任务,提高模型在各个任务上的性能。并且还能够在执行多个任务同时实现参数的共享,学习所有任务的参数,实现参数的联合优化,提升模型的特征提取能力。
因此,在对图像组进行特征提取时,首先获取基于多任务训练的特征提取模型,然后调用特征提取模型对图像组中每一帧图像进行特征提取,得到待传输视频的动作向量特征、背景特征以及物体特征。
这里将图像组中的每一帧图像依次输入到特征提取模型中,模型直接输出图像帧对应的动作向量特征、背景特征以及物体特征,所有图像提取完毕,即得到待传输视频的动作向量特征、背景特征以及物体特征。
如图2所示,在进行视频特征提取时,输入一组帧图片(即上文的图像组)到共享特征层的共享特征提取器,然后分别进入到动作提取分支、动作分类分支以及背景提取分支中进行特征提取,最终输出动作向量特征、背景特征以及物体特征。
本发明实施例,在进行视频特征提取时,通过多任务学习方法来训练特征提取模型,在训练时特征提取模型能够通过学习多个相关任务,提高在各个任务上的性能,而且能够在执行多个任务同时执行参数的共享,学习所有任务的参数,实现参数的联合优化,增强模型的特征提取效果。
步骤102、对动作向量特征、背景特征以及物体特征进行特征优先级划分,并根据动态的特征筛选阈值对划分后的特征进行筛选,得到融合特征。
通过步骤101进行特征提取后,接下来对动作向量特征、背景特征以及物体特征进行特征优先级划分。优先级划分的目的是为了关注动作与背景物体的相关程度,因为动作和背景物体越相关,说明属于视频传输的关键信息就越重要,优先级就越高。这些关键信息决定了后续视频重构的质量。而计算动作与背景物体的相关程度,本发明实施例是通过联合多头注意力机制来进行计算的,进而实现特征优先级划分。
如图3所示,背景特征物理特征会组成对应的背景物理特征序列,然后与动作特征一起输入多头注意力模块进行注意力计算,实现对视频特征的优先级划分,然后对划分得到的特征进行特征筛选,最终得到融合特征,下面具体说明。
首先将背景特征和背景特征组成背景物体特征序列,然后对动作向量特征、背景物体特征序列进行多头注意力计算,得到背景物体特征序列对应的一组注意力得分。这里通过注意力得分来衡量动作与背景物体的相关程度,注意力得分越高,说明动作与背景物体的相关程度就越高,反之就越低。
具体来说,将动作向量特征组成的序列作为查询向量(Query),将背景物体特征序列分别作为键向量(Key)和值向量(Value)。联合多头注意力机制通过多个注意力头来实现,将查询向量、键向量以及值向量输入到多个注意力头中进行注意力计算,输出每个注意力头对应的注意力得分。注意力得分为动作向量特征中每个特征元素,与背景物体特征序列中每个特征元素之间的注意力计算值。
这里在注意力头进行计算时,计算动作向量特征中的每个特征元素与背景物体特征序列中所有特征元素之间的注意力计算值,得到一组注意力计算值,例如动作向量特征中的特征元素有10个,就会计算得到10个注意力计算值。然后将每个注意力头计算得到的一组注意力计算值进行求均值,得到一组平均的注意力得分,例如注意力头有3个,那么得到3组注意力计算值,然后对应的3个注意力计算值求平均值,得到10个平均的注意力计算值。
最后将注意力得分作为分配权重,对背景物体特征序列中的特征元素进行加权求和,并将加权求和得到的结果与动作向量特征进行融合。注意力得分可以作为一组分配的权重值,用于表示动作特征元素与背景物体特征元素的相关程度。然后通过分配的权重值对背景物体特征元素分别进行加权,然后将加权的结果进行求和,最后再将求和得到的背景物体特征与动作向量特征进行融合。
如图2所示,将动作向量特征、背景特征以及物体特征输入到联合多头注意力加权模块中进行优先级划分,通过对这些特征进行多头注意力机制计算,得到特征优先级划分后的特征。然后根据动态的特征筛选阈值对划分后的特征进行筛选,得到融合特征。在划分后的特征中,针对大于特征筛选阈值的特征元素则保留下来进行信道传输,针对小于或等于特征筛选阈值则筛选掉,最终筛选得到的特征元素组成对应的融合特征,用于进行信息传输。其中,特征筛选阈值是根据传输信道的信噪比映射得到的。
这里如图2所示,划分后的特征会输入到特征筛选融合模块,在特征筛选融合模块对划分得到的特征进行特征筛选,但根据当前信道传输的信噪比来设置特征筛选阈值,特征筛选阈值是根据传输信道的信噪比映射得到的。
具体先获取当前信道传输的信噪比,然后利用sigmoid函数将信噪比映射到特征筛选阈值上,从而实现根据信噪比来动态调整特征筛选阈值。通过特征筛选阈值对划分得到的特征进行筛选,得到融合特征,从而实现对信道传输信息量的控制。需要说明的是,信噪比与特征筛选阈值的映射是遵从负相关关系的,也即若当前传输信道的质量越差时,说明信噪比越低,则映射得到的特征筛选阈值越高,如此能够通过筛选减少信道传输的信息量。而当前信道的质量越好时,信噪比越高,则映射得到的特征筛选阈值越低,如此能够保证传输更多的信息量。
本发明实施例,通过信道传输的信噪比来确定特征筛选阈值,对划分的特征进行合理的筛选,能够合理地控制信道传输的信息量,保证最大程度上利用信道传输的带宽资源。
步骤103、将融合特征对应的优先级权重映射处理为概率分布,根据概率分布对融合特征进行算术编码和算术解码,得到对应的视频语义特征。
通过步骤102完成信息传输后,再根据传输后得到的融合特征进行视频重构,将融合特征对应的优先级权重映射处理为概率分布,映射处理可通过sigmoid函数来计算得到,这个优先级权重能够指示出待传输视频中的关键特征,即动作与背景物体更相关的特征。因为背景物体在不同的视频帧中可能是不变的,但部分动作在不同的视频帧中可能会发生变化。因此在进行视频重构其实是需要更关注动作特征与视频帧特征之间的相关程度,有助于提高视频重构的质量。
优先级权重通过概率分布来体现,其中包括的概率值表征了不同动作与背景物体的不同相关程度。接下来根据概率分布对融合特征进行算术编码和算术解码,得到对应的视频语义特征。
如图2所示,在特征动态传输时,采用传统的视频语义传输方法,将概率分布的概率值与融合特征一起输入到算术编码器进行算术编码,算术编码属于一种联合熵编码,能够实现视频图像特征的压缩。编码得到的结果会输入到信道中输入到后续的算术解码器,通过算术解码将算术编码结果映射回对应的特征序列,从而恢复成对应的视频语义特征,由此可以实现特征数据的有效压缩。
步骤104、将视频语义特征进行语义解码处理,并将解码得到的图像组进行重构,得到传输后的视频。
通过步骤103映射得到视频语义特征后,最后将视频语义特征进行语义解码处理,并将解码得到的图像组进行重构,得到传输后的视频。如图2所示,语义解码处理可以采用一个语义解码器来实现,语义解码器可以是生成器网络模型,同于将视频语义特征序列还原为对应的图像,最后在重构视频层将还原得到的多个图像重构成对应的视频,作为待传输视频传输后的视频,由此实现了视频进行语义传输的整个过程。
本发明实施例,通过对待传输视频的图像组进行基于多任务的特征提取,得到动作向量特征、背景特征以及物体特征等视频特征,然后对这些视频特征本身进行优先级划分,接下来通过信噪比对划分后的特征进行筛选,得到融合特征,用于进行视频重构。由此在视频传输过程中实现了视频特征本身进行优先级划分,并且能够在信噪比的条件下对划分特征进行筛选,使得视频传输时更加关注动作和背景物体的相关程度,从而提高视频关键信息的传输效果和重构质量,进而提高用户体验。此外,特征筛选阈值是根据传输信道的信噪比进行负相关映射得到的,能够充分利用传输信道时的带宽资源。
为了进一步提高视频的传输质量和重构准确率,本发明实施例中设计了一个视频语义传输模型,通过调用视频语义传输模型对待传输视频进行语义传输后,构建得到传输后的视频。并采用端到端的训练方法来对视频语义传输模型进行训练,下面介绍视频语义传输模型的训练过程。
首先获取视频样本,通过收集大量的视频资源作为模型训练的样本。然后将视频样本输入到视频语义传输模型中进行正向传播,得到重构视频。在将视频样本输入到视频语义传输模型后的正向传输过程中,视频语义传输模型将视频样本作为待传输视频进行特征提取、特征筛选、算术编码、算术解码等一系列处理过程,最终得到重构视频作为传输后的视频。这些处理过程可参照图1中的步骤101至步骤105,这里不再赘述。
进一步地,在正向传播时确定视频样本的动作预测标签,因为在正向传播的特征提取过程中,需要执行多任务,其中动作分类任务需要对动作特征提取任务提取的动作特征进行分类,实现对应动作的类别预测,这期间会输出对应的分类预测概率,根据这个分类预测概率就可确定出视频语义传输模型对视频样本中动作的预测标签,例如0或者1,0代表预测错误,1代表预测正确。
接下来基于重构视频以及动作预测标签构建视频语义传输模型的最终损失函数。视频语义传输模型的最终损失函数由两部分构成,第一部分为动作分类损失,另一部分为视频重构损失。动作分类损失用于训练视频语义传输模型对视频中动作的识别准确率,视频重构损失用于训练视频语义传输模型根据视频语义特征重构视频的准确率,下面说明构建最终损失函数的过程。
视频样本携带有动作类别的真实分类标签,真实分类标签标注了视频样本中的动作属于哪个类别,以供模型进行分类学习。在构建损失函数时,根据真实分类标签和动作预测标签构建交叉熵损失函数,作为视频语义传输模型的动作分类损失函数,记作,表示为如下公式(1):
(1)
上述公式(1)中,N表视频样本的总数量,C表示视频样本中动作的类别数量,表示第i个视频样本在类别c上的真实分类标签,取值为0或1,表示视频语义传输模型将第i个视频样本预测为类别c的预测概率。
在构建视频重构损失时,根据视频样本中的真实视频帧和重构视频中的重构视频帧,构建均方误差损失函数,作为视频语义传输模型的视频重构损失函数,记作,表示为如下公式(2):
(2)
上述公式(2)中,表示第i个视频样本的真实视频帧,表示第i个重构视频的重构视频帧,N表示视频样本的总数量。
为了平衡动作分类和视频重构在视频语义传输模型的重要性,本发明实施例预设动作分类损失权重以及视频重构损失权重,在设定这两个权重时,可通过网格搜索来系统地探索权重系数的不同组合。网格搜索自动尝试不同的参数组合,并评估每个组合的性能,最后选择最佳的权重参数组合)。
接下来通过动作分类损失权重对动作分类损失函数进行加权,得到动作分类加权损失,通过视频重构损失权重对视频重构损失函数进行加权,得到视频重构加权损失,最后将动作分类加权损失和视频重构加权损失进行求和,得到视频语义传输模型的最终损失函数,表示为如下公式(3):
(3)
在训练时,通过最终损失函数在视频语义传输模型进行反向传播,以更新视频语义传输模型的参数。
这里,在训练时是按照预设的迭代轮次进行训练的,每一个训练轮次中,通过输入的视频样本在视频语义传输模型中进行正向传播,计算出最终损失值后,然后通过最终损失值在视频语义传输模型反向传播,反向传播过程中计算出视频语义传输模型的梯度,并采用梯度优化算法优化梯度,由此更新视频语义传输模型的参数。当某个训练轮次中,最终损失值开始收敛或者已达到预设的训练轮次时,结束训练过程。训练后的视频语义传输模型即可根据输入的待传输视频进行视频语义传输,最终输出重构后的视频,作为视频语义传输的结果。
在一些实施例中,视频语义传输模型训练过程中可能会出现最终损失函数难以收敛、梯度消失或者爆炸的情况,提高了模型的训练难度。由此本发明实施例提出一个两个阶段训练策略,将视频语义传输模型分为视频特征提取模型和视频传输重构模型,视频特征提取模型专门用户对视频样本进行特征提取,得到对应的动作向量特征、背景特征以及物体特征,而视频传输重构模型专门根据动作向量特征、背景特征以及物体特征进行特征筛选,算术编码、包括后续的视频重构。
根据两阶段训练策略,第一阶段,首先通过部分视频样对视频特征提取模型进行专门的预训练,来保证视频语义传输模型具有很优秀的特征提取能力,训练过程中,视频传输重构模型参数固定。第二阶段再执行端到端的训练,通过剩下部分视频样本同时对视频特征提取模型和视频传输重构模型进行训练。如此,不仅能加快第二阶段端到端训练时的最终损失函数收敛速度,还能够减少了梯度爆炸或消失的风险,进而降低模型的训练难度。
下面对本发明提供的基于优先级划分的视频语义传输装置进行描述,下文描述的基于优先级划分的视频语义传输装置与上文描述的基于优先级划分的视频语义传输方法可相互对应参照。
如图4所示,基于优先级划分的视频语义传输装置包括视频特征提取模块401、特征优先级划分模块402、特征动态传输模块403、视频特征重构模块404。具体的,视频特征提取模块401,用于获取待传输视频对应的图像组,并对所述图像组进行基于多任务的特征提取,得到所述待传输视频的动作向量特征、背景特征以及物体特征;特征优先级划分模块402,用于对所述动作向量特征、所述背景特征以及所述物体特征进行特征优先级划分,并根据动态的特征筛选阈值对划分后的特征进行筛选,得到融合特征,其中,所述特征筛选阈值是根据传输信道的信噪比映射得到的,所述信噪比与所述特征筛选阈值的映射遵从负相关关系;特征动态传输模块403,用于将所述融合特征对应的优先级权重映射处理为概率分布,根据所述概率分布对融合特征进行算术编码和算术解码,得到对应的视频语义特征,其中,所述优先级权重用于表征所述待传输视频中动作与背景物体的相关程度;视频特征重构模块404,用于将所述视频语义特征进行语义解码处理,并将解码得到的图像组进行重构,得到传输后的视频。
需要说明的是,这里基于优先级划分的视频语义传输装置与上文中基于优先级划分的视频语义传输方法的有益效果可相互对应,因此这里不再赘述基于优先级划分的视频语义传输装置的有益效果。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行基于优先级划分的视频语义传输方法,该方法包括:获取待传输视频对应的图像组,并对所述图像组进行基于多任务的特征提取,得到所述待传输视频的动作向量特征、背景特征以及物体特征;对所述动作向量特征、所述背景特征以及所述物体特征进行特征优先级划分,并根据动态的特征筛选阈值对划分后的特征进行筛选,得到融合特征,其中,所述特征筛选阈值是根据传输信道的信噪比映射得到的,所述信噪比与所述特征筛选阈值的映射遵从负相关关系;
将所述融合特征对应的优先级权重映射处理为概率分布,根据所述概率分布对所述融合特征进行算术编码和算术解码,得到对应的视频语义特征,其中,所述优先级权重用于表征所述待传输视频中动作与背景物体的相关程度;将所述视频语义特征进行语义解码处理,并将解码得到的图像组进行重构,得到传输后的视频。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于优先级划分的视频语义传输方法,该方法包括:获取待传输视频对应的图像组,并对所述图像组进行基于多任务的特征提取,得到所述待传输视频的动作向量特征、背景特征以及物体特征;对所述动作向量特征、所述背景特征以及所述物体特征进行特征优先级划分,并根据动态的特征筛选阈值对划分后的特征进行筛选,得到融合特征,其中,所述特征筛选阈值是根据传输信道的信噪比映射得到的,所述信噪比与所述特征筛选阈值的映射遵从负相关关系;将所述融合特征对应的优先级权重映射处理为概率分布,根据所述概率分布对所述融合特征进行算术编码和算术解码,得到对应的视频语义特征,其中,所述优先级权重用于表征所述待传输视频中动作与背景物体的相关程度;将所述视频语义特征进行语义解码处理,并将解码得到的图像组进行重构,得到传输后的视频。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于优先级划分的视频语义传输方法,该方法包括:获取待传输视频对应的图像组,并对所述图像组进行基于多任务的特征提取,得到所述待传输视频的动作向量特征、背景特征以及物体特征;对所述动作向量特征、所述背景特征以及所述物体特征进行特征优先级划分,并根据动态的特征筛选阈值对划分后的特征进行筛选,得到融合特征,其中,所述特征筛选阈值是根据传输信道的信噪比映射得到的,所述信噪比与所述特征筛选阈值的映射遵从负相关关系;将所述融合特征对应的优先级权重映射处理为概率分布,根据所述概率分布对所述融合特征进行算术编码和算术解码,得到对应的视频语义特征,其中,所述优先级权重用于表征所述待传输视频中动作与背景物体的相关程度;将所述视频语义特征进行语义解码处理,并将解码得到的图像组进行重构,得到传输后的视频。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于优先级划分的视频语义传输方法,其特征在于,所述方法包括:
获取待传输视频对应的图像组,并对所述图像组进行基于多任务的特征提取,得到所述待传输视频的动作向量特征、背景特征以及物体特征;
对所述动作向量特征、所述背景特征以及所述物体特征进行特征优先级划分,并根据动态的特征筛选阈值对划分后的特征进行筛选,得到融合特征,其中,所述特征筛选阈值是根据传输信道的信噪比映射得到的,所述信噪比与所述特征筛选阈值的映射遵从负相关关系;
将所述融合特征对应的优先级权重映射处理为概率分布,根据所述概率分布对所述融合特征进行算术编码和算术解码,得到对应的视频语义特征,其中,所述优先级权重用于表征所述待传输视频中动作与背景物体的相关程度;
将所述视频语义特征进行语义解码处理,并将解码得到的图像组进行重构,得到传输后的视频;
所述传输后的视频是调用视频语义传输模型对所述待传输视频进行语义传输后构建得到的,所述视频语义传输模型的训练方法包括:
获取视频样本;
将所述视频样本输入到所述视频语义传输模型中进行正向传播,得到重构视频,并在正向传播时确定所述视频样本的动作预测标签;
基于所述重构视频以及所述动作预测标签构建所述视频语义传输模型的最终损失函数;
通过所述最终损失函数在所述视频语义传输模型进行反向传播,以更新所述视频语义传输模型的参数;
所述视频样本携带有动作类别的真实分类标签,所述基于所述重构视频以及所述动作预测标签构建所述视频语义传输模型的最终损失函数,包括:
根据所述真实分类标签和所述动作预测标签构建交叉熵损失函数,作为所述视频语义传输模型的动作分类损失函数;
根据所述视频样本中的真实视频帧和所述重构视频中的重构视频帧,构建均方误差损失函数,作为所述视频语义传输模型的视频重构损失函数;
预设动作分类损失权重以及视频重构损失权重,并通过所述动作分类损失权重对所述动作分类损失函数进行加权,得到动作分类加权损失,通过所述视频重构损失权重对所述视频重构损失函数进行加权,得到视频重构加权损失;
将所述动作分类加权损失和所述视频重构加权损失进行求和,得到所述视频语义传输模型的最终损失函数。
2.根据权利要求1所述的基于优先级划分的视频语义传输方法,其特征在于,所述对所述图像组进行基于多任务的特征提取,得到所述待传输视频的动作向量特征、背景特征以及物体特征,包括:
获取基于多任务训练的特征提取模型,其中,所述特征提取模型训练时选择的多任务包括动作特征提取任务、动作分类任务、背景提取任务;
调用所述特征提取模型对所述图像组中每一帧图像进行特征提取,得到所述待传输视频的动作向量特征、背景特征以及物体特征。
3.根据权利要求1所述的基于优先级划分的视频语义传输方法,其特征在于,所述对所述动作向量特征、所述背景特征以及所述物体特征进行特征优先级划分,包括:
将所述背景特征和所述背景特征组成背景物体特征序列;
对所述动作向量特征、所述背景物体特征序列进行多头注意力计算,得到所述背景物体特征序列对应的一组注意力得分;
将所述注意力得分作为分配权重,对所述背景物体特征序列中的特征元素进行加权求和,并将加权求和得到的结果与所述动作向量特征进行融合。
4.根据权利要求3所述的基于优先级划分的视频语义传输方法,其特征在于,所述对所述动作向量特征、所述背景物体特征序列进行多头注意力计算,得到所述背景物体特征序列对应的一组注意力得分,包括:
将所述动作向量特征组成的序列作为查询向量,将所述背景物体特征序列分别作为键向量和值向量;
将所述查询向量、所述键向量以及所述值向量输入到多个注意力头中进行注意力计算,输出一组注意力得分,所述注意力得分为所述动作向量特征中每个特征元素,与所述背景物体特征序列中特征元素之间的注意力计算值。
5.一种基于优先级划分的视频语义传输装置,其特征在于,所述装置包括:
视频特征提取模块,用于获取待传输视频对应的图像组,并对所述图像组进行基于多任务的特征提取,得到所述待传输视频的动作向量特征、背景特征以及物体特征;
特征优先级划分模块,用于对所述动作向量特征、所述背景特征以及所述物体特征进行特征优先级划分,并根据动态的特征筛选阈值对划分后的特征进行筛选,得到融合特征,其中,所述特征筛选阈值是根据传输信道的信噪比映射得到的,所述信噪比与所述特征筛选阈值的映射遵从负相关关系;
特征动态传输模块,用于将所述融合特征对应的优先级权重映射处理为概率分布,根据所述概率分布对所述融合特征进行算术编码和算术解码,得到对应的视频语义特征,其中,所述优先级权重用于表征所述待传输视频中动作与背景物体的相关程度;
视频特征重构模块,用于将所述视频语义特征进行语义解码处理,并将解码得到的图像组进行重构,得到传输后的视频;
所述传输后的视频是调用视频语义传输模型对所述待传输视频进行语义传输后构建得到的,所述视频语义传输模型的训练方法包括:
获取视频样本;
将所述视频样本输入到所述视频语义传输模型中进行正向传播,得到重构视频,并在正向传播时确定所述视频样本的动作预测标签;
基于所述重构视频以及所述动作预测标签构建所述视频语义传输模型的最终损失函数;
通过所述最终损失函数在所述视频语义传输模型进行反向传播,以更新所述视频语义传输模型的参数;
所述视频样本携带有动作类别的真实分类标签,所述基于所述重构视频以及所述动作预测标签构建所述视频语义传输模型的最终损失函数,包括:
根据所述真实分类标签和所述动作预测标签构建交叉熵损失函数,作为所述视频语义传输模型的动作分类损失函数;
根据所述视频样本中的真实视频帧和所述重构视频中的重构视频帧,构建均方误差损失函数,作为所述视频语义传输模型的视频重构损失函数;
预设动作分类损失权重以及视频重构损失权重,并通过所述动作分类损失权重对所述动作分类损失函数进行加权,得到动作分类加权损失,通过所述视频重构损失权重对所述视频重构损失函数进行加权,得到视频重构加权损失;
将所述动作分类加权损失和所述视频重构加权损失进行求和,得到所述视频语义传输模型的最终损失函数。
6.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述基于优先级划分的视频语义传输方法。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于优先级划分的视频语义传输方法。
8.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于优先级划分的视频语义传输方法。
CN202411751690.4A 2024-12-02 2024-12-02 基于优先级划分的视频语义传输方法 Active CN119729112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411751690.4A CN119729112B (zh) 2024-12-02 2024-12-02 基于优先级划分的视频语义传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411751690.4A CN119729112B (zh) 2024-12-02 2024-12-02 基于优先级划分的视频语义传输方法

Publications (2)

Publication Number Publication Date
CN119729112A CN119729112A (zh) 2025-03-28
CN119729112B true CN119729112B (zh) 2026-01-16

Family

ID=95088418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411751690.4A Active CN119729112B (zh) 2024-12-02 2024-12-02 基于优先级划分的视频语义传输方法

Country Status (1)

Country Link
CN (1) CN119729112B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155474A (zh) * 2021-12-12 2022-03-08 菅政 基于视频语义分割算法的损伤识别技术
CN117793289A (zh) * 2022-09-22 2024-03-29 清华大学 一种视频传输方法、视频重建方法及相关设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2903282A4 (en) * 2012-09-28 2016-05-25 Samsung Electronics Co Ltd METHOD OF SAO COMPENSATION FOR CODING INTERMEDIATE LAYER FORESIGN ERRORS AND DEVICE THEREFOR
WO2021050007A1 (en) * 2019-09-11 2021-03-18 Nanyang Technological University Network-based visual analysis
CN111639607A (zh) * 2020-06-01 2020-09-08 广州虎牙科技有限公司 模型训练、图像识别方法和装置、电子设备及存储介质
CN114155255B (zh) * 2021-12-14 2023-07-28 成都索贝数码科技股份有限公司 一种基于特定人物时空轨迹的视频横屏转竖屏方法
US11824653B2 (en) * 2021-12-17 2023-11-21 Lenovo (Singapore) Pte. Ltd. Radio access network configuration for video approximate semantic communications
CN118612784A (zh) * 2024-05-29 2024-09-06 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 面向图像语义的卫星互联网组播传输方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155474A (zh) * 2021-12-12 2022-03-08 菅政 基于视频语义分割算法的损伤识别技术
CN117793289A (zh) * 2022-09-22 2024-03-29 清华大学 一种视频传输方法、视频重建方法及相关设备

Also Published As

Publication number Publication date
CN119729112A (zh) 2025-03-28

Similar Documents

Publication Publication Date Title
CN112181666B (zh) 一种基于边缘智能的设备评估和联邦学习重要性聚合方法
CN112819689B (zh) 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
CN112565777B (zh) 基于深度学习模型视频数据传输方法、系统、介质及设备
CN108230291B (zh) 物体识别系统训练方法、物体识别方法、装置和电子设备
CN110807757A (zh) 基于人工智能的图像质量评估方法、装置及计算机设备
CN113705811A (zh) 模型训练方法、装置、计算机程序产品及设备
CN113177538B (zh) 一种视频循环识别方法、装置、计算机设备及存储介质
WO2022252372A1 (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
CN111724400A (zh) 视频自动抠像方法及系统
CN116229323A (zh) 一种基于改进的深度残差网络的人体行为识别方法
CN113591674A (zh) 一种面向实时视频流的边缘环境行为识别系统
WO2023051583A1 (zh) 视频编码单元划分方法及装置、计算机设备和计算机可读存储介质
CN115905613A (zh) 音视频多任务学习、评估方法、计算机设备及介质
CN113298017B (zh) 一种针对视频行为检测的行为提议生成方法
Qin et al. Neural Coding Is Not Always Semantic: Toward the Standardized Coding Workflow in Semantic Communications
CN119729112B (zh) 基于优先级划分的视频语义传输方法
CN115115510A (zh) 一种图像处理方法、系统及存储介质和终端设备
CN114004974A (zh) 对弱光环境下拍摄的图像的优化方法及装置
Huang et al. Visual fidelity index for generative semantic communications with critical information embedding
CN117750014B (zh) 视频编码方法、装置及存储介质
CN113823297B (zh) 语音数据处理方法、装置、设备及存储介质
CN117788979A (zh) 模型预训练方法、模型预训练装置、计算机设备和存储介质
CN119107970A (zh) 一种语义通信方法、装置、设备及可读存储介质
CN116758449A (zh) 一种基于深度学习的视频显著目标检测方法及系统
CN118196579B (zh) 基于目标识别的多媒体内容管控优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant