CN117061825B

CN117061825B - 流媒体视频坏帧检测方法、装置及计算机设备

Info

Publication number: CN117061825B
Application number: CN202311316549.7A
Authority: CN
Inventors: 王曜; 刘琦; 许亦; 贺国超; 请求不公布姓名
Original assignee: Shenzhen Yuntian Changxiang Information Technology Co ltd
Current assignee: Shenzhen Yuntian Changxiang Information Technology Co ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-01-26
Anticipated expiration: 2043-10-12
Also published as: CN117061825A

Abstract

本发明公开了一种流媒体视频坏帧检测方法、装置及计算机设备，包括以下步骤：获取流媒体视频；对所述视频帧，通过划分映射关系，得到第一局部区域；对第一局部区域进行特征信息量统计，根据所述特征信息量统计结果，确定出第一局部区域中的目标区域；根据视频帧的所述目标区域，通过检测模型，确定出多个视频帧中的坏帧。本发明通过构建检测模型，在视频帧渲染之前确定出视频帧中的坏帧，避免产生了无效处理，节约硬件运算资源，也减少了渲染时长，而且用于将视频帧进行目标特征分割。

Description

流媒体视频坏帧检测方法、装置及计算机设备

技术领域

本发明涉及视频帧处理技术领域，具体涉及一种流媒体视频坏帧检测方法、装置及计算机设备。

背景技术

流媒体已经遍布人们工作生活的方方面面，例如电视、手机、笔记本等各种终端中都要使用流媒体进行视频及云视频播放。相应的，人们对视频播放质量的要求，包括清晰度、流畅性、实时性等方面要求也越来越高。很多流媒体场景比如云游戏的云渲染(Rendering)，是在云端完成渲染，然后将渲染得到的视频图像编码串流传输至端侧，由端侧对接收到的码流进行解码。这样，端侧可以获取到高质量的渲染内容实现视频播放。

现有技术中在保持视频帧渲染效果的视频帧超分辨预处理时，对所有视频帧进行无差别式超分辨率处理，因此容易对混迹在内的坏帧也进行了处理，产生了无效处理，浪费硬件运算资源，也延长了渲染时长。

发明内容

本发明的目的在于提供一种流媒体视频坏帧检测方法、装置及计算机设备，以解决现有技术中产生了无效处理，浪费硬件运算资源，也延长了渲染时长的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

在本发明的第一个方面，本发明提供了一种流媒体视频坏帧检测方法，包括以下步骤：

获取流媒体视频，所述流媒体视频中包含有多个视频帧；

对所述视频帧，通过划分映射关系，得到第一局部区域，所述第一局部区域对应于视频帧的区域划分结果；

对第一局部区域进行特征信息量统计，根据所述特征信息量统计结果，确定出第一局部区域中的目标区域，所述目标区域对应于视频帧中包含有拍摄目标物特征的局部图像区域；

根据视频帧的所述目标区域，通过检测模型，确定出多个视频帧中的坏帧，所述检测模型为神经网络。

作为本发明的一种优选方案，所述第一局部区域的确定，包括：

通过划分映射关系确定出第一局部区域的划分数量m；

依据所述划分数量m对视频帧进行等面积划分得到m个第一局部区域。

作为本发明的一种优选方案，所述划分映射关系的构建，包括：

设定第一局部区域的划分数量m，并将视频帧依等面积划分为m个第一局部区域，计算m个第一局部区域间的图像离散性，所述图像离散性通过方差公式进行衡量，所述图像离散性的量化公式为：；；式中，δ表征为图像离散性，S _k表征为第k个第一局部区域的图像矩阵，S _E表征为m个第一局部区域间的均值图像矩阵，x _E,i表征为均值图像矩阵S _E中第i个像素点的像素值，x _k,i表征为第k个第一局部区域的图像矩阵S _k中第i个像素点的像素值，N为所述图像矩阵的像素点数量，i，k为计量常数；对第一局部区域间的图像离散性进行最大化求解得到m的取值，以求得的m值进行视频帧划分，实现将表征拍摄目标物特征的有效像素点进行集中划分至同一个第一局部区域中，以及将表征非拍摄目标物特征的无效像素点集中划分中同一个第一局部区域中。

作为本发明的一种优选方案，所述目标区域的确定，包括：

利用直方图对视频帧的各个第一局部区域进行特征信息量统计，得到各个第一局部区域的特征信息量；

将第一局部区域的特征信息量与预设阈值比较，其中，

当第一局部区域的特征信息量大于或等于预设阈值，则将第一局部区域标定为目标区域；

当第一局部区域的特征信息量小于预设阈值，则将第一局部区域标定为非目标区域。

作为本发明的一种优选方案，确定出多个视频帧中的坏帧，包括：

将视频帧的所有目标区域，输入至检测模型中，由检测模型输出对视频帧的分类标签；

所述分类标签包括坏帧标签和非坏帧标签。

作为本发明的一种优选方案，所述检测模型的构建包括：

在拍摄标准物已知的流媒体视频中，选取一组视频帧作为样本视频帧，获取样本视频帧中的所有目标区域；

将样本视频帧中的所有目标区域与拍摄目标物特征的标准图像进行一致性比较，其中，

若样本视频帧中的所有目标区域与拍摄目标物特征的标准图像一致，则将样本视频帧标记为非坏帧标签；

若样本视频帧中的所有目标区域与拍摄目标物特征的标准图像不一致，则将样本视频帧标记为坏帧标签；

利用神经网络对样本视频帧的所有目标区域和样本视频帧的分类标签进行学习训练，得到所述检测模型；

所述检测模型的模型表达式为：

Label=CNN(g)；

式中，Label为分类标签，g为样本视频帧的所有目标区域，CNN为神经网络。

作为本发明的一种优选方案，所述一致性利用图像相似性进行量化。

作为本发明的一种优选方案，所述样本视频帧中的所有目标区域与拍摄目标物特征的标准图像的规格一致。

在本发明的第二个方面，本发明提供了一种流媒体视频坏帧检测装置，包括：

数据获取模块，用于获取流媒体视频，所述流媒体视频中包含有多个视频帧；

数据处理模块，用于对所述视频帧，通过划分映射关系，得到第一局部区域；

对第一局部区域进行特征信息量统计，根据所述特征信息量统计结果，确定出第一局部区域中的目标区域；

根据视频帧的所述目标区域，通过检测模型，确定出多个视频帧中的坏帧；

数据存储模块，用于存储检测模型。

在本发明的第三个方面，本发明提供了一种计算机设备，至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使计算机设备执行流媒体视频坏帧检测方法。

在本发明的第四个方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现流媒体视频坏帧检测方法。本发明与现有技术相比较具有如下有益效果：

本发明通过构建检测模型，在视频帧渲染之前确定出视频帧中的坏帧，避免产生了无效处理，节约硬件运算资源，也减少了渲染时长，而且用于将视频帧进行目标特征分割，实现将表征拍摄目标物特征的有效像素点进行集中分割至同一局部区域中，无需对视频帧的所有特征进行检测，达到了针对性检测，提高了检测效率和准确性。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的流媒体视频坏帧检测方法流程图；

图2为本发明实施例提供的流媒体视频坏帧检测装置框图；

图3为本发明实施例提供的计算机装置的内部结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在本发明的第一个方面，本发明提供了一种流媒体视频坏帧检测方法，包括以下步骤：

获取流媒体视频，流媒体视频中包含有多个视频帧；

对视频帧，通过划分映射关系，得到第一局部区域，第一局部区域对应于视频帧的区域划分结果；

对第一局部区域进行特征信息量统计，根据特征信息量统计结果，确定出第一局部区域中的目标区域，目标区域对应于视频帧中包含有拍摄目标物特征的局部图像区域；

根据视频帧的目标区域，通过检测模型，确定出多个视频帧中的坏帧，检测模型为神经网络。

本发明为了获得最佳的视频渲染效果，在渲染之前对视频帧进行超分辨率处理，提高视频帧的分辨率，使得渲染后的视频帧具有高分辨率。

进一步的，本发明在进行视频帧的超分辨率处理之前，对视频帧进行检测，将视频帧中俗称坏帧的视频帧选出，不对其进行超分辨率处理，由于坏帧没有渲染处理的意义，因此视频帧检测，能够避免掉无效或无意义的超分辨率处理，实现节约硬件运算资源，也减少了渲染时长的目的。

更进一步的，本发明在进行坏帧检测时，通过区域分割和信息量统计标定出视频帧中表征拍摄目标物特征的图像区域，即目标区域，利用目标区域进行坏帧检测，降低坏帧检测要处理的图像像素数据量，提高了坏帧检测效率。

本发明中目标区域实质上指的是要在视频帧中拍摄目标物展示给观众/受众的有效画面特征，因此目标区域内图像特征的质量好坏检测，才属于有效的质量检测，而非目标区域中包含的背景特征、噪声特征，进行质量好坏检测属于无效冗余检测，因此本发明在坏帧检测是针对于表征拍摄目标物特征的视频帧局部区域（目标区域）进行，检测针对性强，使得拍摄目标物特征显示不加的视频帧均被过滤，提高了坏帧检测的精准性。

本发明中为了使得表征拍摄目标物特征的视频帧局部图像被集中划分至一个或少数个局部区域中，从而得到一个或少数个局部区域中主要包含的内容是拍摄目标物，而将表征背景底色部位能够进行汇聚中其余的局部区域中，从而得到其余多个局部区域中主要包含的内容是背景底色部位，利用图像方差是表征分割而来的所有局部区域之间呈现的高度的差异性，即图像方差越高，则局部区域之间表征的像素表征内容相差越大，即实现上述的期望结果，具体如下：

第一局部区域的确定，包括：

通过划分映射关系确定出第一局部区域的划分数量m；

依据划分数量m对视频帧进行等面积划分得到m个第一局部区域。

划分映射关系的构建，包括：

设定第一局部区域的划分数量m，并将视频帧依等面积划分为m个第一局部区域，计算m个第一局部区域间的图像离散性，图像离散性通过方差公式进行衡量，图像离散性的量化公式为：；；式中，δ表征为图像离散性，S _k表征为第k个第一局部区域的图像矩阵，S _E表征为m个第一局部区域间的均值图像矩阵，x _E,i表征为均值图像矩阵S _E中第i个像素点的像素值，x _k,i表征为第k个第一局部区域的图像矩阵S _k中第i个像素点的像素值，N为图像矩阵的像素点数量，i，k为计量常数；对第一局部区域间的图像离散性进行最大化求解得到m的取值，以求得的m值进行视频帧划分，实现将表征拍摄目标物特征的有效像素点进行集中划分至同一个第一局部区域中，以及将表征非拍摄目标物特征的无效像素点集中划分中同一个第一局部区域中。

目标区域的确定，包括：

将第一局部区域的特征信息量与预设阈值比较，其中，

本发明通过构建检测模型，在视频帧渲染之前确定出视频帧中的坏帧，避免产生了无效处理，节约硬件运算资源，也减少了渲染时长，具体如下：

确定出多个视频帧中的坏帧，包括：

分类标签包括坏帧标签和非坏帧标签。

检测模型的构建包括：

利用神经网络对样本视频帧的所有目标区域和样本视频帧的分类标签进行学习训练，得到检测模型；

检测模型的模型表达式为：

Label=CNN(g)；

一致性利用图像相似性进行量化。

样本视频帧中的所有目标区域与拍摄目标物特征的标准图像的规格一致。

如图2所示，在本发明的第二个方面，本发明提供了一种流媒体视频坏帧检测装置，包括：

数据获取模块，用于获取流媒体视频，流媒体视频中包含有多个视频帧；

数据处理模块，用于对视频帧，通过划分映射关系，得到第一局部区域；

对第一局部区域进行特征信息量统计，根据特征信息量统计结果，确定出第一局部区域中的目标区域；

根据视频帧的目标区域，通过检测模型，确定出多个视频帧中的坏帧；

数据存储模块，用于存储检测模型。

如图3所示，在本发明的第三个方面，本发明提供了一种计算机设备，至少一个处理器；以及

与至少一个处理器通信连接的存储器；

其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使计算机设备执行流媒体视频坏帧检测方法。在本发明的第四个方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现流媒体视频坏帧检测方法。本发明与现有技术相比较具有如下有益效果：

将上述坏帧检测应用至流媒体视频帧渲染方法内，其中，流媒体视频帧渲染方法采用多因子融合的方式进行超分辨率渲染，具体如下：

获取流媒体视频，流媒体视频中包含有多个视频帧；

对视频帧，进行视频帧质量评价，得到高视频帧质量的视频帧和低视频帧质量的视频帧；

对高视频帧质量的视频帧，进行超分辨率处理，得到超分辨率的高视频帧质量的视频帧；

根据超分辨率的高视频帧质量的视频帧，对低视频帧质量的视频帧进行视频帧质量补偿，得到超分辨率的低视频质量的视频帧；

对超分辨率的高视频帧质量的视频帧和超分辨率的低视频帧质量的视频帧，进行渲染处理，得到视频帧的超分辨率渲染结果。

本发明为了提高视频帧超分辨处理的效果，突出视频帧中重要区域的特征，抑制噪音，分辨率提升效果最佳，利用多因子融合思想，将多种注意力模型应用于超分辨率处理，包括通道注意力模型、空间注意力模型和多头自注意力模型，融合三者的优势进行互补，达到分辨率提升效果的目的。

本发明在融合通道注意力模型、空间注意力模型和多头自注意力模型的优势时，利用神经网络进行融合权重的确定，客观化、自动化确定了最优的融合权重，能够使得三者模型的优势在融合中发挥到最大，达到分辨率提升效果最佳的目的。

进一步的，本发明在进行视频帧的超分辨率处理之前，对视频帧进行检测，将视频帧中低视频质量的视频帧（俗称坏帧）选出，即将视频帧中俗称坏帧的视频帧选出，不对其进行超分辨率处理，由于坏帧没有渲染处理的意义，因此视频帧检测，能够避免掉无效或无意义的超分辨率处理。

本发明在进行视频帧的超分辨率处理之前，对视频帧进行检测，将视频帧中低视频质量的视频帧（俗称坏帧）选出，具体如下：

对所述视频帧，通过划分映射关系，得到第一局部区域，所述第一局部区域对应于视频帧的区域划分结果，视频帧的多个分割区域；

根据视频帧的目标区域，通过检测模型，确定出多个视频帧中的坏帧或称低视频质量的视频帧，检测模型为神经网络。

进一步的，确定出多个视频帧中的坏帧，包括：

分类标签包括坏帧标签和非坏帧标签；

将具有坏帧标签的视频帧作为低视频质量的视频帧，将具有非坏帧标签的视频帧作为高视频质量的视频帧。

在多因子融合方式的视频帧渲染过程中，能够避免低视频质量的视频帧进入后续的视频帧超分辨率处理、视频帧质量补偿以及视频帧渲染等步骤，降低了无效步骤，保证了渲染效果的精准。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种流媒体视频坏帧检测方法，其特征在于，包括以下步骤：

获取流媒体视频，所述流媒体视频中包含有多个视频帧；

根据视频帧的所述目标区域，通过检测模型，确定出多个视频帧中的坏帧，所述检测模型为神经网络；

所述划分映射关系的构建，包括：

设定第一局部区域的划分数量m，并将视频帧依等面积划分为m个第一局部区域，计算m个第一局部区域间的图像离散性，所述图像离散性通过方差公式进行衡量，所述图像离散性的量化公式为：；；式中，δ表征为图像离散性，S _k表征为第k个第一局部区域的图像矩阵，S _E表征为m个第一局部区域间的均值图像矩阵，x _E,i表征为均值图像矩阵S _E中第i个像素点的像素值，x _k,i表征为第k个第一局部区域的图像矩阵S _k中第i个像素点的像素值，N为所述图像矩阵的像素点数量，i，k为计量常数；对第一局部区域间的图像离散性进行最大化求解得到m的取值，以求得的m值进行视频帧划分，实现将表征拍摄目标物特征的有效像素点进行集中划分至同一个第一局部区域中，以及将表征非拍摄目标物特征的无效像素点集中划分至同一个第一局部区域中。

2.根据权利要求1所述的一种流媒体视频坏帧检测方法，其特征在于：

所述第一局部区域的确定，包括：

通过划分映射关系确定出第一局部区域的划分数量m；

3.根据权利要求1所述的一种流媒体视频坏帧检测方法，其特征在于：所述目标区域的确定，包括：

将第一局部区域的特征信息量与预设阈值比较，其中，

4.根据权利要求3所述的一种流媒体视频坏帧检测方法，其特征在于：

确定出多个视频帧中的坏帧，包括：

所述分类标签包括坏帧标签和非坏帧标签。

5.根据权利要求4所述的一种流媒体视频坏帧检测方法，其特征在于：

所述检测模型的构建包括：

所述检测模型的模型表达式为：Label=CNN(g)；式中，Label为分类标签，g为样本视频帧的所有目标区域，CNN为神经网络。

6.根据权利要求5所述的一种流媒体视频坏帧检测方法，其特征在于：

所述一致性利用图像相似性进行量化。

7.根据权利要求5所述的一种流媒体视频坏帧检测方法，其特征在于：

所述样本视频帧中的所有目标区域与拍摄目标物特征的标准图像的规格一致。

8.一种流媒体视频坏帧检测装置，其特征在于，包括：

数据处理模块，用于对所述视频帧，通过划分映射关系，得到第一局部区域，所述第一局部区域对应于视频帧的区域划分结果；

数据存储模块，用于存储检测模型；

划分映射关系的构建，包括：

9.一种计算机设备，其特征在于，至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使计算机设备执行权利要求 1-7任一项所述的方法。