CN121908012A - 用于视频编解码方法、设备、介质和产品 - Google Patents

用于视频编解码方法、设备、介质和产品

Info

Publication number
CN121908012A
CN121908012A CN202511488996.XA CN202511488996A CN121908012A CN 121908012 A CN121908012 A CN 121908012A CN 202511488996 A CN202511488996 A CN 202511488996A CN 121908012 A CN121908012 A CN 121908012A
Authority
CN
China
Prior art keywords
intra
prediction
prediction signal
frame
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202511488996.XA
Other languages
English (en)
Inventor
马常月
修晓宇
闫宁
陈伟
朱弘正
郭哲玮
王祥林
陈彬
于冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Publication of CN121908012A publication Critical patent/CN121908012A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开提供了用于视频编解码方法、设备、介质和产品。一种方法包括:获取当前块的空间临近参考样点;基于当前块的空间临近参考样点,使用基于神经网络的帧内预测模式确定第一帧内预测信号;以及将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号。

Description

用于视频编解码方法、设备、介质和产品
技术领域
本申请涉及视频编解码和压缩。更具体地,本申请涉及基于神经网络的帧内预测方法和装置。
背景技术
各种电子设备(例如数字电视、膝上型计算机或台式计算机、平板计算机、数码相机、数字记录设备、数字媒体播放器、视频游戏机、智能电话、视频电话会议设备、视频流传输设备等)支持数字视频。电子设备通过通信网络来发送和接收或以其他方式传送数字视频数据,和/或将数字视频数据存储在存储设备上。由于通信网络的带宽容量有限并且存储设备的存储器资源有限,因此在视频数据被传送或存储之前,可以根据一种或多种视频编解码标准使用视频编解码来压缩视频数据。例如,视频编解码标准包括通用视频编解码(VVC)、联合探索测试模型(JEM)、高效视频编解码(HEVC/H.265)、高级视频编解码(AVC/H.264)、移动图像专家组(MPEG)编解码等。视频编解码通常采用利用视频数据中固有的冗余的预测方法(例如,帧间预测、帧内预测等)。视频编解码旨在将视频数据压缩成使用较低比特率的形式,同时避免或最小化视频质量的下降。
发明内容
根据本公开的第一方面,提供了一种用于视频解码的方法,包括:获取当前块的空间临近参考样点;基于所述当前块的所述空间临近参考样点,使用基于神经网络的帧内预测模式确定第一帧内预测信号;以及将所述第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号。
根据本公开的第二方面,提供了一种用于视频解码的方法,包括:针对当前块的空间临近参考样点确定权重矩阵;基于所述权重矩阵和所述空间临近参考样点确定第一帧内预测信号;以及响应于解码器侧帧内模式推导DIMD融合过程中的一个或多个帧内预测模式等于针对所述权重矩阵的帧内预测模式,使用所述第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号。
根据本公开的第三方面,提供了一种用于视频编码的方法,包括:获取当前块的空间临近参考样点;基于所述当前块的所述空间临近参考样点,使用基于神经网络的帧内预测模式确定第一帧内预测信号;以及将所述第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号。
根据本公开的第四方面,提供了一种用于视频编码的方法,包括:针对当前块的空间临近参考样点确定权重矩阵;基于所述权重矩阵和所述空间临近参考样点确定第一帧内预测信号;以及响应于解码器侧帧内模式推导DIMD融合过程中的一个或多个帧内预测模式等于针对所述权重矩阵的帧内预测模式,使用所述第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号。
应当理解,前述概括描述和以下详细描述均仅是示例而不是对本公开的限制。
附图说明
结合在说明书中并构成本说明书的一部分的附图图示了与本公开一致的示例,并与所述描述一起用于解释本公开的原理。
图1是示出了根据本公开的一些实施方式的用于对视频块进行编码和解码的示例性系统的框图。
图2是示出了根据本公开的一些实施方式的示例性视频编码器的框图。
图3是示出了根据本公开的一些实施方式的示例性视频解码器的框图。
图4A至图4E是示出了根据本公开的一些实施方式的如何将帧递归地分割为不同尺寸和形状的多个视频块的框图。
图5图示了如VVC中定义的帧内模式的简图。
图6图示了用于帧内预测的多个参考行的简图。
图7A和图7B分别图示了在右上对角线模式和左下对角线模式下位置相关帧内预测组合(PDPC)的参考样点的简图。
图8A图示了4 × 8和84的CU的子分区的简图。
图8B图示了除48、84和44的CU以外的CU的子分区的简图。
图9图示了跨分量线性模型(CCLM)预测所涉及的CU的左侧样点和上方样点的位置的简图。
图10图示了矩阵加权帧内预测(MIP)过程的简图。
图11图示了给定预测块的L形邻域的简图。
图12图示了经由基于神经网络的帧内预测模式从当前w × h块Y周围的参考样点的上下文X预测Y的简图。这里,w = 8并且h = 4。
图13图示了将当前块周围的参考样点的上下文分解为可用参考样点和不可用参考样点的简图。这里,并且。在所图示的情况下,不可用参考样点的数量达到其最大值。
图14图示了以橙色虚线框出的当前w × h亮度CB的帧内预测模式信令的简图。该CB左上角的像素坐标为 (y,x)。nnFlag值的二进制值以粗体灰色显示。这里,h = 8,w = 4,x = 8,并且y = 0。
图15图示了几何分区模式(GPM)的单向预测运动矢量选择。
图16图示了在CIIP权重推导中使用的顶部邻近块和左侧邻近块。
图17图示了用于角度模式的划分方法。
图18图示了利用帧间和帧内预测的GPM。可用的IPM候选 (a) ~ (c)。(d) 利用帧内和帧内预测的GPM的示例。
图19图示了模板上的边缘。
图20图示了基于从预测样点位置到GPM分区边界的位移(d)和混合区域尺寸(τ)的GPM混合的权重的斜坡函数。
图21图示了空间GPM候选。
图22图示了GPM模板。
图23图示了GPM混合。
图24是图示了根据本公开的一些实施方式的与用户界面耦接的计算环境的简图。
图25是示出了根据本公开的一些实施方式的视频解码方法的流程图。
图26是示出了根据本公开的一些实施方式的视频解码方法的流程图。
图27是示出了根据本公开的一些实施方式的视频编码方法的流程图。
图28是示出了根据本公开的一些实施方式的视频编码方法的流程图。
具体实施方式
现在将详细参照具体实施方式,在附图中示出了具体实施方式的示例。在以下详细描述中,阐述了大量非限制性具体细节以便帮助理解本文呈现的主题。但是在不脱离权利要求的范围的情况下,可以使用各种替代方案,并且可以在没有这些具体细节的情况下实践主题。例如,本文呈现的主题可以在具有数字视频能力的许多类的电子设备上实现。
应当说明的是,本公开的说明书和权利要求书以及附图中的术语“第一”、“第二”等用于区分对象,而不用于描述任何具体的顺序或先后次序。应当理解的是,这样使用的数据在适当情况下可以互换,以便本文描述的本公开的实施例能够以除了在附图中所示的或本公开中描述的那些顺序以外的顺序实施。
图1是示出了根据本公开的一些实施方式的用于并行地对视频块进行编码和解码的示例性系统10的框图。如图1中所示,系统10包括源设备12,源设备12生成并编码稍后将由目标设备14进行解码的视频数据。源设备12和目标设备14可以包括各种各样的电子设备中的任何电子设备,包括云服务器、服务器计算机、台式计算机或膝上型计算机、平板计算机、智能电话、机顶盒、数字电视、相机、显示器设备、数字媒体播放器、视频游戏机、视频流传输设备等。在一些实施方式中,源设备12和目标设备14配备有无线通信能力。
在一些实施方式中,目标设备14可以经由链路16接收待解码的编码视频数据。链路16可以包括能够将编码视频数据从源设备12移动到目标设备14的任何类型的通信介质或设备。在一个示例中,链路16可以包括使源设备12能够实时地将编码视频数据直接发送到目标设备14的通信介质。编码视频数据可以根据通信标准(例如无线通信协议)被调制,并且被发送到目标设备14。通信介质可以包括任何无线或有线通信介质,例如射频(RF)频谱或一个或多个物理传输线。通信介质可以形成基于分组的网络(例如局域网、广域网或诸如互联网的全球网)的一部分。通信介质可以包括路由器、交换机、基站或可以有利于促进从源设备12到目标设备14的通信的任何其他装置。
在其他一些实施方式中,可以将编码视频数据从输出接口22发送到存储设备32。随后,可以由目标设备14经由输入接口28访问存储设备32中的编码视频数据。存储设备32可以包括各种分布式或本地访问的数据存储介质中的任何数据存储介质,例如硬盘驱动器、蓝光光盘、数字通用盘(DVD)、压缩盘只读存储器(CD-ROM)、闪存存储器、易失性或非易失性存储器、或者用于存储编码视频数据的任何其他合适的数字存储介质。在另一示例中,存储设备32可以对应于文件服务器或可以保持由源设备12生成的编码视频数据的另一中间存储设备。目标设备14可以经由流传输或下载从存储设备32访问存储的视频数据。文件服务器可以是能够存储编码视频数据并且将编码视频数据发送到目标设备14的任何类型的计算机。示例性文件服务器包括网络服务器(例如,用于网站)、文件传输协议(FTP)服务器、网络附属存储(NAS)设备或本地磁盘驱动器。目标设备14可以通过适合于访问存储在文件服务器上的编码视频数据的任何标准数据连接来访问编码视频数据,标准数据连接包括无线信道(例如,无线保真(Wi-Fi)连接)、有线连接(例如,数字订户线(DSL)、电缆调制解调器等)或无线信道和有线连接两者的组合。编码视频数据从存储设备32的传输可以是流传输、下载传输或流传输和下载传输两者的组合。
如图1中所示,源设备12包括视频源18、视频编码器20和输出接口22。视频源18可以包括诸如以下项的源或此类源的组合:视频捕获设备(例如,摄像机)、包含先前捕获的视频的视频存档、用于从视频内容提供者接收视频的视频馈入接口、和/或用于生成作为源视频的计算机图形数据的计算机图形系统。作为一个示例,如果视频源18是安全监控系统的摄像机,则源设备12和目标设备14可以形成相机电话或视频电话。然而,本申请中所描述的实施方式通常可以适用于视频编解码,并且可以应用于无线和/或有线应用。
可以由视频编码器20对捕获、预先捕获或计算机生成的视频进行编码。可以经由源设备12的输出接口22将编码视频数据直接发送到目标设备14。还可以(或另选地)将编码视频数据存储到存储设备32上以便稍后被目标设备14或其他设备访问,以用于解码和/或回放。输出接口22可以进一步包括调制解调器和/或发送器。编码视频数据可以包括图片的序列,每个图片可以包括一个或多个样点阵列,例如,针对单色的仅亮度(Y);YCbCr或YCgCo域中的亮度和两个色度;或者GBR(也被称为RGB)域中的绿色、蓝色和红色。为了便于本申请中的标记和术语,在一些实施例中,与具有三个样点阵列的每个集合相关联的变量和术语可以被称为亮度和色度,其中两个色度阵列可以被称为Cb和Cr,而不管实际使用何种颜色表示方法。视频数据可以采用色度格式4:0:0、色度格式4:2:0、色度格式4:2:2或色度格式4:4:4,但是本申请不限于此。
目标设备14包括输入接口28、视频解码器30和显示器设备34。输入接口28可以包括接收器和/或调制解调器,并且通过链路16接收编码视频数据。通过链路16传送或在存储设备32上提供的编码视频数据可以包括由视频编码器20生成的各种语法元素以供视频解码器30在对视频数据进行解码时使用。此类语法元素可以被包括在通信介质上发送的、存储在存储介质上的或存储在文件服务器上的编码视频数据内。
在一些实施方式中,目标设备14可以包括显示器设备34,显示器设备34可以是集成显示器设备和被配置为与目标设备14通信的外部显示器设备。显示器设备34向用户显示解码视频数据,并且可以包括各种显示器设备中的任何显示器设备,诸如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示器设备。
视频编码器20和视频解码器30可以根据专有标准或行业标准(例如,VVC、HEVC、MPEG-4的第10部分、AVC)或此类标准的扩展进行操作。应当理解,本申请不限于特定的视频编码/解码标准,并且可以适用于其他视频编码/解码标准。通常认为源设备12的视频编码器20可以被配置为根据这些当前标准或未来标准中的任何标准对视频数据进行编码。类似地,还通常认为目标设备14的视频解码器30可以被配置为根据这些当前标准或未来标准中的任何标准对视频数据进行解码。
视频编码器20和视频解码器30可以分别被实现为各种合适的编码器和/或解码器电路中的任何电路,例如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、分立逻辑器件、软件、硬件、固件或其任何组合。当部分地以软件实现时,电子设备可以将用于软件的指令存储于合适的非暂态计算机可读介质中,并且使用一个或多个处理器执行硬件中的指令以执行本公开中所公开的视频编码/解码操作。视频编码器20和视频解码器30中的每一个可以被包括在一个或多个编码器或解码器中,编码器或解码器中的任一者可以被集成为相应设备中的组合式编码器/解码器(CODEC)的一部分。
在一些实施方式中,源设备12的组件(例如,视频源18、视频编码器20或以下参考图2所描述的包括在视频编码器20中的组件、以及输出接口22)中的至少一部分组件和/或目标设备14的组件(例如,输入接口28、视频解码器30或以下参考图3所描述的包括在视频解码器30中的组件、以及显示器设备34)中的至少一部分组件可以在诸如软件即服务(SaaS)、平台即服务(PaaS)或基础设施即服务(IaaS)等云计算服务网络中操作,其中该云计算服务网络可以提供软件、平台和/或基础设施。在一些实施方式中,源设备12和/或目标设备14中未包括在云计算服务网络中的一个或多个组件可以设置在一个或多个客户端设备中,并且该一个或多个客户端设备可以通过无线通信网络(例如,蜂窝通信网络、短距离无线通信网络或全球导航卫星系统(GNSS)通信网络)或有线通信网络(例如,局域网(LAN)通信网络或电力线通信(PLC)网络)来与云计算服务网络中的服务器计算机进行通信。在实施例中,本文描述的操作中的至少一部分操作可以被实现为由一个或多个服务器计算机提供的基于云的服务,其中该一个或多个服务器计算机由云计算服务网络中的源设备12的组件中的至少一部分组件和/或目标设备 14 的组件中的至少一部分组件实现;并且本文描述的一个或多个其他操作可以由一个或多个客户端设备实现。在一些实施方式中,云计算服务网络可以是私有云、公共云或混合云。在不脱离本公开的范围的情况下,本文中诸如“云”、“云计算”、“基于云的”等术语可以视情况互换使用。应当理解,本公开不限于在上述云计算服务网络中实现。相反,本公开还可以在当前已知的或将来开发的任何其他类型的计算环境中实现。
图2是示出了根据本申请中描述的一些实施方式的示例性视频编码器20的框图。视频编码器20可以对视频帧内的视频块执行帧内预测编码和帧间预测编码。帧内预测编码依赖于空间预测以减少或移除给定视频帧或图片内的视频数据中的空间冗余。帧间预测编码依赖于时间预测以减少或移除视频序列的邻近视频帧或图片内的视频数据中的时间冗余。应当注意的是,在视频编解码领域中,术语“帧”可以用作术语“图像”或“图片”的同义词。
如图2中所示,视频编码器20包括视频数据存储器40、预测处理单元41、解码图片缓冲器(DPB)64、加法器50、变换处理单元52、量化单元54和熵编码单元56。预测处理单元41进一步包括运动估计单元42、运动补偿单元44、分割单元45、帧内预测处理单元46和帧内块复制(BC)单元48。在一些实施方式中,视频编码器20还包括用于视频块重建的反量化单元58、逆变换处理单元60和加法器62。诸如去块滤波器的环路滤波器63可以位于加法器62与DPB 64之间以对块边界进行滤波以从重建视频去除块效应。除了去块滤波器之外,还可以使用另一环路滤波器(例如样点自适应偏移(SAO)滤波器、跨分量样点自适应偏移(CCSAO)滤波器和/或自适应环路滤波器(ALF))来对加法器62的输出进行滤波。应注意,对于CCSAO技术,本申请不限于本文所描述的实施例,而是还可以应用于根据亮度分量和两个色度分量(如上所述,为了便于本申请中的标记和术语,在YCbCr域中,亮度分量和两个色度分量可以表示Y、Cb和Cr;在YCgCo域中,亮度分量和两个色度分量可以表示Y、Cg和Co;或者在RGB域中,亮度分量和两个色度分量可以表示G、B和R)中的任一分量为亮度分量和两个色度分量中的任一另一分量选择偏移以基于所选择的偏移对该任一另一分量进行修改的情况。此外,还应注意,本文提到的第一分量可以是亮度分量和两个色度分量中的任一分量,本文提到的第二分量可以是亮度分量和两个色度分量中的任一另一分量,并且本文提到的第三分量可以是亮度分量和两个色度分量中的剩余分量。在一些示例中,可以省略环路滤波器,并且解码视频块可以直接由加法器62提供给DPB 64。视频编码器20可以采取固定或可编程硬件单元的形式,或者可以分散在所说明的固定或可编程硬件单元中的一个或多个中。
视频数据存储器40可以存储将由视频编码器20的组件编码的视频数据。可例如从图1所示的视频源18获得视频数据存储器40中的视频数据。DPB 64是存储供视频编码器20(例如,以帧内或帧间预测编码模式)在对视频数据进行编码时使用的参考视频数据(例如,参考帧或图片)的缓冲器。视频数据存储器40和DPB 64可以由各种存储器设备中的任何存储器设备形成。在各种示例中,视频数据存储器40可以与视频编码器20的其他组件一起在芯片上,或相对于那些组件在芯片外。
如图2中所示,在接收到视频数据之后,预测处理单元41内的分割单元45将视频数据分割为视频块。此分割还可以包括根据与视频数据相关联的预定义的拆分结构(例如四叉树(QT)结构)将视频帧分割为条带、瓦片(tile)(例如,视频块的集合)或其他更大的编码单元(CU)。视频帧是或可以被视为具有样点值的二维样点阵列或矩阵。阵列中的样点也可以被称为像素或图像元素(pel)。阵列或图片的水平和垂直方向(或轴)上的样点的数量定义了视频帧的尺寸和/或分辨率。例如,可以通过使用QT分割将视频帧划分为多个视频块。视频块再次是或可以被视为具有样点值的二维样点阵列或矩阵,但是其维度小于视频帧的维度。视频块的水平和垂直方向(或轴)上的样点的数量定义了视频块的尺寸。通过例如迭代地使用QT分割、二叉树(BT)分割或三叉树(TT)分割或其任意组合,可以将视频块进一步分割为一个或多个块分区或子块(其可以再次形成块)。应注意,本文所使用的术语“块”或“视频块”可以是帧或图片的一部分,尤其是矩形(正方形或非正方形)部分。参考例如HEVC和VVC,块或视频块可以是或对应于编码树单元(CTU)、CU、预测单元(PU)或变换单元(TU)和/或可以是或对应于相应的块(例如编码树块(CTB)、编码块(CB)、预测块(PB)或变换块(TB))和/或子块。
预测处理单元41可以基于误差结果(例如,编码速率和失真等级)为当前视频块选择多个可行预测编码模式中的一个,例如多个帧内预测编码模式中的一个或多个帧间预测编码模式中的一个。预测处理单元41可以将所得的帧内预测编码块或帧间预测编码块提供给加法器50以生成残差块,并且提供给加法器62以重建编码块以用于随后作为参考帧的一部分使用。预测处理单元41还将语法元素(例如运动矢量、帧内模式指示符、分割信息和其他此类语法信息)提供给熵编码单元56。
为了选择用于当前视频块的合适的帧内预测编码模式,预测处理单元41内的帧内预测处理单元46可以与和待编码的当前块在同一帧中的一个或多个邻近块相关地执行当前视频块的帧内预测编码以提供空间预测。预测处理单元41内的运动估计单元42和运动补偿单元44与一个或多个参考帧中的一个或多个预测块相关地执行当前视频块的帧间预测编码以提供时间预测。视频编码器20可以执行多个编码通道,例如,以为视频数据的每个块选择合适的编码模式。
在一些实施方式中,运动估计单元42通过根据视频帧序列内的预定模式生成运动矢量来确定用于当前视频帧的帧间预测模式,运动矢量指示当前视频帧内的视频块相对于参考视频帧内的预测块的位移。由运动估计单元42执行的运动估计是生成运动矢量的过程,该运动矢量估计针对视频块的运动。例如,运动矢量可以指示当前视频帧或图片内的视频块相对于与当前帧内正被编码的当前块相关的参考帧内的预测块的位移。预定模式可以将序列中的视频帧指定为P帧或B帧。帧内BC单元48可以以与由运动估计单元42确定用于帧间预测的运动矢量类似的方式确定用于帧内BC编码的矢量(例如,块矢量),或可以利用运动估计单元42确定块矢量。
在像素差方面,针对视频块的预测块可以是或可以对应于被认为与待编码视频块紧密匹配的参考帧的块或参考块,像素差可以由绝对差总和(SAD)、平方差总和(SSD)或其他差度量确定。在一些实施方式中,视频编码器20可以计算用于DPB 64中存储的参考帧的子整数像素位置的值。例如,视频编码器20可以对参考帧的四分之一像素位置、八分之一像素位置或其他分数像素位置的值进行内插。因此,运动估计单元42可以相对于全像素位置和分数像素位置执行运动搜索并且输出具有分数像素精度的运动矢量。
运动估计单元42通过以下方式来计算针对帧间预测编码帧中的视频块的运动矢量:将视频块的位置与从第一参考帧列表(列表0)或第二参考帧列表(列表1)选择的参考帧的预测块的位置进行比较,第一参考帧列表和第二参考帧列表中的每一个参考帧列表标识DPB 64中存储的一个或多个参考帧。运动估计单元42将计算出的运动矢量发送到运动补偿单元44,然后发送到熵编码单元56。
由运动补偿单元44执行的运动补偿可以涉及基于由运动估计单元42确定的运动矢量获取或生成预测块。在接收到针对当前视频块的运动矢量之后,运动补偿单元44可以在参考帧列表中的一个参考帧列表中定位运动矢量所指向的预测块,从DPB 64取回预测块,并且将预测块转发到加法器50。然后,加法器50通过从正被编码的当前视频块的像素值减去由运动补偿单元44提供的预测块的像素值来形成像素差值的残差视频块。形成残差视频块的像素差值可以包括亮度分量差或色度分量差或两者。运动补偿单元44还可以生成与视频帧的视频块相关联的语法元素以供视频解码器30在对视频帧的视频块进行解码时使用。语法元素可以包括例如定义用于识别预测块的运动矢量的语法元素、指示预测模式的任何标志、或本文描述的任何其他语法信息。应注意,运动估计单元42和运动补偿单元44可以高度集成,但出于概念目的而单独说明。
在一些实施方式中,帧内BC单元48可以以与上文结合运动估计单元42和运动补偿单元44所描述的方式类似的方式生成矢量并获取预测块,但是这些预测块在与正被编码的当前块相同的帧中,并且这些矢量被称为块矢量而非运动矢量。具体地,帧内BC单元48可以确定将用于对当前块进行编码的帧内预测模式。在一些示例中,帧内BC单元48可以例如在单独的编码通道期间使用各种帧内预测模式来对当前块进行编码,并且通过率失真分析来测试它们的性能。接下来,帧内BC单元48可以在各种测试的帧内预测模式中选择合适的帧内预测模式来使用并相应地生成帧内模式指示符。例如,帧内BC单元48可以使用率失真分析针对各种测试的帧内预测模式计算率失真值,并且在测试的模式中选择具有最佳率失真特性的帧内预测模式作为合适的帧内预测模式来使用。率失真分析大体上确定编码块与被编码以产生编码块的原始未编码块之间的失真(或误差)量、以及用于产生编码块的比特率(即,比特数量)。帧内BC单元48可以根据针对各种编码块的失真和速率计算比率,以确定哪个帧内预测模式展现针对块的最佳率失真值。
在其他示例中,帧内BC单元48可以全部或部分地使用运动估计单元42和运动补偿单元44来执行根据本文描述的实施方式的用于帧内BC预测的此类功能。在任一情况下,对于帧内块复制,在像素差方面,预测块可以是被认为与待编码的块紧密匹配的块,像素差可以由SAD、SSD或其他差度量确定,并且识别预测块可以包括计算针对子整数像素位置的值。
无论预测块是来自根据帧内预测的相同帧还是来自根据帧间预测的不同帧,视频编码器20可以通过从正被编码的当前视频块的像素值减去预测块的像素值来形成像素差值,从而形成残差视频块。形成残差视频块的像素差值可以包括亮度分量差和色度分量差两者。
作为如上文所描述的由运动估计单元42和运动补偿单元44执行的帧间预测或由帧内BC单元48执行的帧内块复制预测的替代方案,帧内预测处理单元46可以对当前视频块进行帧内预测。具体地,帧内预测处理单元46可以确定帧内预测模式以用于对当前块进行编码。为此,帧内预测处理单元46可以例如在单独的编码通道期间使用各种帧内预测模式来对当前块进行编码,并且帧内预测处理单元46(或在一些示例中,模式选择单元)可以从测试的帧内预测模式中选择合适的帧内预测模式来使用。帧内预测处理单元46可以将指示针对块选择的帧内预测模式的信息提供给熵编码单元56。熵编码单元56可以将指示选择的帧内预测模式的信息编码到比特流中。
在预测处理单元41经由帧间预测或帧内预测确定针对当前视频块的预测块之后,加法器50通过从当前视频块减去预测块来形成残差视频块。残差块中的残差视频数据可以被包括在一个或多个TU中并且提供给变换处理单元52。变换处理单元52使用变换(例如离散余弦变换(DCT)或概念上类似的变换)将残差视频数据变换为残差变换系数。
变换处理单元52可以将所得变换系数发送到量化单元54。量化单元54对变换系数进行量化以进一步减小比特率。量化过程还可以减小与系数中的一些或全部相关联的比特深度。可以通过调整量化参数来修改量化程度。在一些示例中,量化单元54可以随后对包括量化的变换系数的矩阵执行扫描。另选地,熵编码单元56可以执行扫描。
在量化之后,熵编码单元56使用例如上下文自适应可变长度编码(CAVLC)、上下文自适应二进制算术编码(CABAC)、基于语法的上下文自适应二进制算术编码(SBAC)、概率区间分割熵(PIPE)编码或另一熵编码方法或技术,将量化的变换系数熵编码成视频比特流。然后,可以将编码的比特流发送到如图1所示的视频解码器30,或存档于如图1所示的存储设备32中以供稍后发送到视频解码器30或由视频解码器30取回。熵编码单元56还可以对用于正被编码的当前视频帧的运动矢量和其他语法元素进行熵编码。
反量化单元58和逆变换处理单元60分别应用反量化和逆变换以在像素域中重建残差视频块以用于生成用于预测其他视频块的参考块。如上文指出的,运动补偿单元44可以从存储在DPB 64中的帧的一个或多个参考块生成运动补偿预测块。运动补偿单元44还可以将一个或多个内插滤波器应用于预测块以计算子整数像素值以用于在运动估计时使用。
加法器62将重建的残差块与由运动补偿单元44产生的运动补偿预测块相加来产生参考块以存储在DPB 64中。然后,参考块可以由帧内BC单元48、运动估计单元42和运动补偿单元44用作预测块以对后续视频帧中的另一视频块进行帧间预测。
图3是示出了根据本申请的一些实施方式的示例性视频解码器30的框图。视频解码器30包括视频数据存储器79、熵解码单元80、预测处理单元81、反量化单元86、逆变换处理单元88、加法器90和DPB 92。预测处理单元81进一步包括运动补偿单元82、帧内预测单元84和帧内BC单元85。视频解码器30可以执行与上文结合图2关于视频编码器20所描述的编码过程基本互逆的解码过程。例如,运动补偿单元82可以基于从熵解码单元80接收的运动矢量生成预测数据,而帧内预测单元84可以基于从熵解码单元80接收的帧内预测模式指示符生成预测数据。
在一些示例中,视频解码器30的单元可以被分派任务以执行本申请的实施方式。此外,在一些示例中,本公开的实施方式可以分散在视频解码器30的单元中的一个或更多个单元中。例如,帧内BC单元85可以单独地或与视频解码器30的其他单元(例如运动补偿单元82、帧内预测单元84和熵解码单元80)组合地执行本申请的实施方式。在一些示例中,视频解码器30可以不包括帧内BC单元85,并且帧内BC单元85的功能可以由预测处理单元81的其他组件(例如运动补偿单元82)执行。
视频数据存储器79可以存储将由视频解码器30的其他组件进行解码的视频数据,例如编码视频比特流。可以例如从存储设备32、从本地视频源(例如相机)、经由视频数据的有线或无线网络通信、或通过访问物理数据存储介质(例如,闪存驱动器或硬盘)获得存储在视频数据存储器79中的视频数据。视频数据存储器79可以包括存储来自编码视频比特流的编码视频数据的编码图片缓冲器(CPB)。视频解码器30的DPB 92存储参考视频数据以供视频解码器30(例如,以帧内或帧间预测编码模式)在对视频数据进行解码时使用。视频数据存储器79和DPB 92可以由各种存储器设备中的任何存储器设备形成,例如动态随机存取存储器(DRAM)(包括同步DRAM(SDRAM))、磁阻式RAM(MRAM)、电阻式RAM(RRAM)或其他类型的存储器设备。出于说明性目的,视频数据存储器79和DPB 92在图3中被描绘为视频解码器30的两个不同组件。但是对于本领域的技术人员将显而易见的是,视频数据存储器79和DPB92可以由同一存储器设备或单独存储器设备提供。在一些示例中,视频数据存储器79可以与视频解码器30的其他组件一起在芯片上,或相对于那些组件在芯片外。
在解码过程期间,视频解码器30接收表示编码视频帧的视频块和相关联的语法元素的编码视频比特流。视频解码器30可以在视频帧级和/或视频块级接收语法元素。视频解码器30的熵解码单元80对比特流进行熵解码以生成量化系数、运动矢量或帧内预测模式指示符、以及其他语法元素。然后,熵解码单元80将运动矢量或帧内预测模式指示符、以及其他语法元素转发到预测处理单元81。
当视频帧被编码为帧内预测编码(I)帧或用于其他类型的帧中的帧内编码预测块时,预测处理单元81的帧内预测单元84可以基于用信号传送的帧内预测模式和来自当前帧的先前解码块的参考数据来生成用于当前视频帧的视频块的预测数据。
当视频帧被编码为帧间预测编码(即,B或P)帧时,预测处理单元81的运动补偿单元82基于从熵解码单元80接收的运动矢量和其他语法元素产生针对当前视频帧的视频块的一个或更多个预测块。预测块中的每一个可以从参考帧列表中的一个参考帧列表内的参考帧产生。视频解码器30可以基于存储在DPB 92中的参考帧使用默认构建技术来构建参考帧列表,即,列表0和列表1。
在一些示例中,当根据本文描述的帧内BC模式对视频块进行编码时,预测处理单元81的帧内BC单元85基于从熵解码单元80接收的块矢量和其他语法元素产生针对当前视频块的预测块。预测块可以在由视频编码器20定义的与当前视频块相同的图片的重建区域内。
运动补偿单元82和/或帧内BC单元85通过解析运动矢量和其他语法元素来确定针对当前视频帧的视频块的预测信息,然后使用该预测信息产生针对正被解码的当前视频块的预测块。例如,运动补偿单元82使用接收到的语法元素中的一些语法元素来确定用于对视频帧的视频块进行编码的预测模式(例如,帧内预测或帧间预测)、帧间预测帧类型(例如,B或P)、用于针对帧的参考帧列表中的一个或更多个的构建信息、用于帧的每个帧间预测编码视频块的运动矢量、用于帧的每个帧间预测编码视频块的帧间预测状态、以及用于对当前视频帧中的视频块进行解码的其他信息。
类似地,帧内BC单元85可以使用接收到的语法元素中的一些语法元素,例如标志,以确定当前视频块是使用帧内BC模式预测的、帧的哪些视频块在重建区域内且应被存储在DPB 92中的构建信息、用于帧的每个帧内BC预测视频块的块矢量、用于帧的每个帧内BC预测视频块的帧内BC预测状态、以及用于对当前视频帧中的视频块进行解码的其他信息。
运动补偿单元82还可以使用如由视频编码器20在对视频块进行编码期间使用的内插滤波器执行内插,以计算针对参考块的子整数像素的内插值。在这种情况下,运动补偿单元82可以根据接收到的语法元素确定由视频编码器20使用的内插滤波器,并且使用这些内插滤波器来产生预测块。
反量化单元86使用由视频编码器20针对视频帧中的每个视频块计算出的用于确定量化程度的相同量化参数,对在比特流中提供且由熵解码单元80熵解码的量化的变换系数进行反量化。逆变换处理单元88将逆变换(例如,逆DCT、逆整数变换或概念上类似的逆变换过程)应用于变换系数,以便在像素域中重建残差块。
在运动补偿单元82或帧内BC单元85基于矢量和其他语法元素生成针对当前视频块的预测块之后,加法器90通过将来自逆变换处理单元88的残差块与由运动补偿单元82和帧内BC单元85生成的对应预测块相加,来重建针对当前视频块的解码视频块。环路滤波器91(例如去块滤波器、SAO滤波器、CCSAO滤波器和/或ALF)可以位于加法器90与DPB 92之间以进一步处理解码视频块。在一些示例中,可以省略环路滤波器91,并且解码视频块可以直接由加法器90提供给DPB 92。然后,将给定帧中的解码视频块存储在DPB 92中,DPB 92存储用于接下来的视频块的后续运动补偿的参考帧。DPB 92或与DPB 92分离的存储器设备还可以存储解码视频以用于稍后呈现在显示器设备(例如,图1的显示器设备34)上。
在典型的视频编解码过程中,视频序列通常包括帧或图片的有序集合。每一帧可以包括三个样点阵列,表示为SL、SCb和SCr。SL是亮度样点的二维阵列。SCb是Cb色度样点的二维阵列。SCr是Cr色度样点的二维阵列。在其他实例中,帧可以是单色的,因此仅包括亮度样点的一个二维阵列。
如图4A中所示,视频编码器20(或更具体地,分割单元45)通过首先将帧分割为CTU的集合来生成帧的编码表示。视频帧可以包括以光栅扫描顺序从左到右和从上到下连续排序的整数个CTU。每个CTU是最大的逻辑编码单元,并且由视频编码器20在序列参数集中用信号传送CTU的宽度和高度,使得视频序列中的所有CTU具有128×128、64×64、32×32和16×16之一的相同尺寸。但是应当注意,本申请不必限于特定尺寸。如图4B中所示,每个CTU可以包括亮度样点的一个CTB、色度样点的两个对应编码树块、以及用于对编码树块的样点进行编码的语法元素。语法元素描述编码像素块的不同类型的单元的性质以及可以如何在视频解码器30处重建视频序列,包括帧间预测或帧内预测、帧内预测模式、运动矢量和其他参数。在单色图片或具有三个单独颜色平面的图片中,CTU可以包括单个编码树块和用于对该编码树块的样点进行编码的语法元素。编码树块可以是N×N的样点块。
为了实现更好的性能,视频编码器20可以对CTU的编码树块递归地执行树分割,例如二叉树分割、三叉树分割、四叉树分割或其组合,并且将CTU划分为较小的CU。如图4C中所描绘的,首先将64×64的CTU 400划分为四个较小的CU,每个CU具有32×32的块尺寸。在四个较小的CU中,将CU 410和CU 420分别划分为块尺寸为16×16的四个CU。将两个16×16的CU 430和CU 440分别进一步划分为块尺寸为8×8的四个CU。图4D描绘了示出如图4C中所描绘的CTU 400的分割过程的最终结果的四叉树数据结构,四叉树的每个叶节点与范围从32×32到8×8的相应尺寸的一个CU对应。类似于图4B中描绘的CTU,每个CU可以包括相同尺寸的帧的亮度样点的CB和色度样点的两个对应编码块、以及用于对编码块的样点进行编码的语法元素。在单色图片或具有三个单独颜色平面的图片中,CU可以包括单个编码块和用于对编码块的样点进行编码的语法结构。应注意,图4C和图4D中所描绘的四叉树分割仅用于说明性目的,并且一个CTU可以基于四叉树分割/三叉树分割/二叉树分割而被拆分为多个CU以适应于变化的局部特性。在多类型树结构中,一个CTU按照四叉树结构被分割,并且每个四叉树叶CU可以按照二叉和三叉树结构被进一步分割。如图4E所示,具有宽度W和高度H的编码块有五种可能的分割类型,即四元分割、水平二元分割、垂直二元分割、水平三元分割和垂直三元分割。
在一些实施方式中,视频编码器20可以进一步将CU的编码块分割为一个或更多个(M×N)PB。PB是被应用相同预测(帧间或帧内)的矩形(正方形或非正方形)样点块。CU的PU可以包括亮度样点的PB、色度样点的两个对应PB和用于对PB进行预测的语法元素。在单色图片或具有三个单独颜色平面的图片中,PU可以包括单个PB和用于对PB进行预测的语法结构。视频编码器20可以生成针对CU的每个PU的亮度PB、Cb PB和Cr PB的预测亮度块、预测Cb块和预测Cr块。
视频编码器20可以使用帧内预测或帧间预测来生成针对PU的预测块。如果视频编码器20使用帧内预测来生成PU的预测块,则视频编码器20可以基于与PU相关联的帧的解码样点来生成PU的预测块。如果视频编码器20使用帧间预测来生成PU的预测块,则视频编码器20可以基于除与PU相关联的帧之外的一个或更多个帧的解码样点来生成PU的预测块。
在视频编码器20生成针对CU的一个或更多个PU的预测亮度块、预测Cb块和预测Cr块之后,视频编码器20可以通过从CU的原始亮度编码块减去CU的预测亮度块来生成针对CU的亮度残差块,使得CU的亮度残差块中的每个样点指示CU的预测亮度块之一中的亮度样点与CU的原始亮度编码块中的对应样点之差。类似地,视频编码器20可以分别生成针对CU的Cb残差块和Cr残差块,使得CU的Cb残差块中的每个样点指示CU的预测Cb块之一中的Cb样点与CU的原始Cb编码块中的对应样点之差,并且CU的Cr残差块中的每个样点可以指示CU的预测Cr块之一中的Cr样点与CU的原始Cr编码块中的对应样点之差。
此外,如图4C中所示,视频编码器20可以使用四叉树分割将CU的亮度残差块、Cb残差块和Cr残差块分别分解成一个或更多个亮度变换块、Cb变换块和Cr变换块。变换块是被应用相同变换的矩形(正方形或非正方形)样点块。CU的TU可以包括亮度样点的变换块、色度样点的两个对应变换块和用于对变换块样点进行变换的语法元素。因此,CU的每个TU可以与亮度变换块、Cb变换块和Cr变换块相关联。在一些示例中,与TU相关联的亮度变换块可以是CU的亮度残差块的子块。Cb变换块可以是CU的Cb残差块的子块。Cr变换块可以是CU的Cr残差块的子块。在单色图片或具有三个单独颜色平面的图片中,TU可以包括单个变换块和用于对该变换块的样点进行变换的语法结构。
视频编码器20可以将一个或多个变换应用于TU的亮度变换块以生成针对TU的亮度系数块。系数块可以是变换系数的二维阵列。变换系数可以是标量。视频编码器20可以将一个或多个变换应用于TU的Cb变换块以生成针对TU的Cb系数块。视频编码器20可以将一个或多个变换应用于TU的Cr变换块以生成针对TU的Cr系数块。
在生成系数块(例如,亮度系数块、Cb系数块或Cr系数块)之后,视频编码器20可以对系数块进行量化。量化通常是指变换系数被量化以可能减少用于表示变换系数的数据量从而提供进一步压缩的过程。在视频编码器20对系数块进行量化之后,视频编码器20可以对指示量化的变换系数的语法元素进行熵编码。例如,视频编码器20可以对指示量化的变换系数的语法元素执行CABAC。最后,视频编码器20可以输出包括比特序列的比特流,比特序列形成编码帧和相关联数据的表示,比特流被保存于存储设备32中或被发送到目标设备14。
在接收到由视频编码器20生成的比特流之后,视频解码器30可以解析比特流以从比特流获得语法元素。视频解码器30可以至少部分地基于从比特流获得的语法元素来对视频数据的帧进行重建。对视频数据进行重建的过程通常与由视频编码器20执行的编码过程互逆。例如,视频解码器30可以对与当前CU的TU相关联的系数块执行逆变换以重建与当前CU的TU相关联的残差块。视频解码器30还通过将针对当前CU的PU的预测块的样点与当前CU的TU的变换块的对应样点相加,来重建当前CU的编码块。在重建针对帧的每个CU的编码块之后,视频解码器30可以重建帧。
如上所述,视频编码主要使用两种模式(即,帧内部预测(或帧内预测)和帧之间预测(或帧间预测))来实现视频压缩。应注意,IBC可以被视为帧内预测或第三模式。在两种模式之间,由于使用运动矢量来根据参考视频块预测当前视频块,所以帧间预测比帧内预测对编码效率的贡献更大。
但是随着不断改进的视频数据捕获技术和用于保留视频数据中的细节的更精细的视频块尺寸,表示用于当前帧的运动矢量所需的数据量也大幅增加。克服此挑战的一种方式受益于以下事实:不仅空间域和时间域两者中的一组邻近CU具有用于预测目的的相似视频数据,而且这些邻近CU之间的运动矢量也是相似的。因此,可以通过以下方式而使用空间邻近CU和/或时间同位CU的运动信息作为当前CU的运动信息(例如,运动矢量)的近似(其也被称为当前CU的“运动矢量预测值”(MVP)):探索它们的空间和时间相关性。
代替如上文结合图2所描述的将由运动估计单元42确定的当前CU的实际运动矢量编码到视频比特流中,从当前CU的实际运动矢量减去当前CU的运动矢量预测值以产生针对当前CU的运动矢量差(MVD)。通过这样做,不需要将由运动估计单元42针对帧的每个CU确定的运动矢量编码到视频比特流中,并且可以显著减少用于表示视频比特流中的运动信息的数据量。
类似于在编码块的帧间预测期间选择参考帧中的预测块的过程,视频编码器20和视频解码器30两者需要采用一组规则,以用于使用与当前CU的空间邻近CU和/或时间同位CU相关联的那些潜在候选运动矢量来构建针对当前CU的运动矢量候选列表(也称为“合并列表”),然后从运动矢量候选列表中选择一个成员作为针对当前CU的运动矢量预测值。通过这样做,不需要从视频编码器20向视频解码器30发送运动矢量候选列表本身,并且运动矢量候选列表内的所选运动矢量预测值的索引足以使视频编码器20和视频解码器30使用运动矢量候选列表内的相同运动矢量预测值来对当前CU进行编码和解码。
通常,在VVC中应用的基本帧内预测方案几乎与HEVC的帧内预测方案保持相同,不同之处在于进一步扩展、添加和/或改进了若干个预测工具,例如,利用宽角度帧内模式的扩展帧内预测、多参考行(MRL)帧内预测、PDPC、帧内子分区(ISP)预测、CCLM预测和MIP。
利用宽角度帧内模式的扩展帧内预测
与HEVC一样,VVC使用与当前CU邻近(即,在当前CU上方或在当前CU左侧)的一组参考样点来预测当前CU的样点。然而,为了捕获自然视频中存在的更精细的边缘方向(尤其是对于高分辨率(例如,4K)的视频内容),角度帧内模式的数量从HEVC中的33个扩展到VVC中的93个。图5图示了如VVC中定义的帧内模式的简图。如图5所示,在93个角度帧内模式中,模式2至66是传统角度帧内模式,并且模式-1至-14和模式67至80是宽角度帧内模式。除了角度帧内模式之外,HEVC的平面模式(图5中的模式0)和直流(DC)模式(图5中的模式1)也应用于VVC中。
由于VVC中应用了四叉/二叉/三叉树分区结构,因此除了正方形的视频块之外,还存在矩形视频块用于VVC中的帧内预测。由于一个给定视频块的宽度和高度不相等,对于不同的块形状,可以从93个角度帧内模式中选择不同的角度帧内模式集合。更具体地,对于正方形视频块和矩形视频块两者,除了平面模式和DC模式之外,每个块形状还支持93个角度帧内模式中的65个角度帧内模式。当视频块的矩形块形状满足特定条件时,可以由视频解码器30使用如下表1所示的映射关系、根据从视频编码器20接收到的传统角度帧内模式的索引来自适应地确定视频块的宽角度帧内模式的索引。也就是说,对于非正方形块,由视频编码器20使用传统角度帧内模式的索引来用信号传输宽角度帧内模式,所述索引在被解析之后被视频解码器30映射到宽角度帧内模式的索引,从而确保帧内模式(即,平面模式、DC模式和93个角度帧内模式中的65个角度帧内模式)的总数(即,67)不变,并且帧内模式编解码方法不变。因此,在提供跨不同块尺寸的一致设计的同时实现了用信号传输帧内模式的良好效率。
表1示出了用于VCC中不同块形状的帧内预测的传统角度帧内模式的索引与宽角度帧内模式的索引之间的映射关系,其中,W表示视频块的宽度,并且H表示视频块的高度。
表1
MRL帧内预测
与HEVC中的帧内预测类似,VVC中的所有帧内模式(即,平面帧内模式、DC帧内模式和角度帧内模式)利用当前视频块上方和左侧的一组参考样点进行帧内预测。然而,与仅使用参考样点的最近行/列(即,图6中的第零行601)的HEVC不同,在VVC中引入了MRL帧内预测,其中,除了参考样点的最近行/列之外,还可以将参考样点的另外两行/列(即,图6中的第一行603和第三行605)用于帧内预测。将参考样点的所选行/列的索引从视频编码器20用信号传输到视频解码器30。当选择参考样点的非最近行/列(即,图6中的第一行603或第三行605)时,平面模式被排除在可以用于预测当前视频块的一组帧内模式之外。针对当前CTU内的视频块的第一行/列禁用MRL帧内预测,以防止使用当前CTU外的扩展参考样点。
PDPC
如前所述,帧内预测样点是从一组邻近参考样点生成的,这可能会在当前视频块与其邻近视频块之间的块边界上引入不连续性。VVC中引入了PDPC工具,以通过采用帧内预测样点与边界参考样点的加权组合来解决这种问题。在VVC中,可以在无需传输信号的情况下为以下帧内模式启用PDPC:平面模式、DC模式、索引小于或等于水平帧内模式(即,模式18)的角度帧内模式、以及索引大于或等于垂直帧内模式(即,模式50)且小于或等于80的角度帧内模式。如果当前块应用了块差分脉冲编码调制(BDPCM)模式或者MRL帧内预测的参考样点的所选行/列的索引大于0,则不应用PDPC。假设位于坐标 (x,y) 处的当前样点的预测样点是pred(x,y),在执行PDPC之后的修改后的预测样点pred'(x,y) 被计算为:
其中,Bitdepth表示样点的位深度,R x',-1R -1,y'分别表示位于当前样点顶部边界和左侧边界的参考样点,wLwT是根据当前块的帧内模式和块尺寸自适应选择的权重,“> >”表示按位右移运算,并且“<<”指示按位左移运算。
等式 (1) 中的函数Clip3(x, y, z)可以定义如下:
图7A和图7B分别图示了在右上对角线模式和左下对角线模式下PDPC的参考样点的简图。预测样点pred(x,y)位于预测块内的 (x,y) 处。参考样点R x',-1具有水平坐标x'=x+y+1和垂直坐标-1,并且参考样点R -1,y'具有水平坐标-1和垂直坐标y'=x+y+1。
ISP预测
ISP预测是应用于亮度帧内预测模式的工具,所述工具根据亮度视频块的块尺寸将所述亮度视频块垂直地或水平地划分为2或4个子分区,如表2所示。例如,ISP的最小块尺寸为4 × 8或8 × 4。图8A和图8B示出了取决于块尺寸的子分区的简图。如果视频块(例如,如图8A所示的视频块401)的块尺寸W × H等于4 × 8或8 × 4,则将视频块划分为2个子分区。如果视频块(例如,如图8B所示的视频块403)的块尺寸W × H大于4 × 8或8 ×4,则将视频块划分为4个子分区。可以使用ISP的CU尺寸被限制为最大为64 × 64。所有子分区都满足具有至少16个样点的条件。
表2
对于每个子分区,通过将残差信号添加到预测信号来获得重建样点。这里,残差信号是通过如熵解码、逆量化和逆变换等过程来生成的。每个子分区的重建样点可用于生成下一个子分区的预测。另外,要处理的第一子分区是包含CU的左上样点的子分区,并且在处理第一子分区之后,ISP预测继续向下(对于如图8A和图8B所示的水平分割)或向右(对于如图8A和图8B所示的垂直分割)。所有子分区共享同一帧内预测模式。
CCLM预测
为了减少跨分量冗余,在VVC中使用了CCLM预测模式,其中,通过使用线性模型基于CU的重建亮度样点rec_L (i,j) 来预测CU的色度样点,如下所示:
其中,表示CU中的预测色度样点,表示对重建亮度样点执行下采样后得到的CU的下采样重建亮度样点,并且α和β是从最多四个邻近色度样点及其对应的下采样亮度样点推导出的线性模型参数。假设当前色度块具有尺寸W ×H,则W'和H'可如下获得:
当应用LM模式时,W' = W,H' = H;
当应用LM_A模式时,W' =W + H;
当应用LM_L模式时,H' = H + W。
其中,在LM模式中,CU的上方样点和左侧样点一起用于计算线性模型系数;在LM_A模式中,仅CU的上方样点用于计算线性模型系数;并且在LM_L模式中,仅CU的左侧样点用于计算线性模型系数。
如果色度块的上方样点的位置表示为S[0, -1]…S[W' - 1, -1]并且色度块的左侧样点的位置表示为S[-1, 0]…S[-1, H' - 1],则按照以下方式来选择四个邻近色度样点的位置:
-当应用LM模式且上方样点和左侧样点均可用时,选择S[W' / 4, -1]、、S[ -1, H' / 4]和作为这四个邻近色度样点的位置;
-当应用LM_A模式且上方样点可用时或者当仅上方样点可用时,选择作为这四个邻近色度样点的位置;
-当应用LM_L模式且左侧样点可用时或者当仅左侧样点可用时,选择作为这四个邻近色度样点的位置。
通过下采样操作获得与所选位置相对应的四个邻近亮度样点,并将所获得的四个邻近亮度样点比较四次以找到两个较大的值:x 0 Ax 1 A,以及两个较小的值:x 0 Bx 1 B。与这两个较大值和这两个较小值相对应的色度样点值分别被表示为y 0 Ay 1 Ay 0 By 1 B。然后X aX bY a和Yb被推导为:
最后,根据以下方程获得线性模型参数
图9示出了CCLM模式所涉及的CU的左侧样点和上方样点的位置的简图,包括CU中N× N色度块901的左侧样点和上方样点的位置、CU中2N × 2N亮度块903的左侧样点和上方样点的位置。
上述参数计算是作为解码过程的一部分执行的,因此未使用语法元素来将α和β的值从视频编码器20传送到视频解码器30。
MIP
MIP是在VVC中新添加的一种帧内预测方法。在MIP预测方法中,以宽度为W且高度为H的矩形块左侧的一列H个重建邻近边界样点和该矩形块上方的一行W个重建邻近边界样点作为输入,基于如图10所示的以下求平均、矩阵矢量乘法和线性插值三个步骤,生成该矩形块的样点的预测信号。
第一步骤:对邻近样点求平均
通过基于块尺寸和形状对邻近边界样点bdry top bdry left求平均来确定四个样点或八个样点。具体地,通过根据取决于块尺寸的预定义规则对邻近边界样点bdry top bdry left求平均,将邻近边界样点bdry top bdry left简化为边界样点。然后,简化后的边界样点串连成简化的边界矢量,因此,对于形状为的块,其大小为4,而对于所有其他形状的块,其大小为8。如果是指MIP模式,则这种串连定义如下:
第二步骤:矩阵矢量乘法
使用简化后的边界矢量中的平均样点作为输入来执行矩阵矢量乘法,然后添加偏移量,以生成原始块中的一组下采样样点的简化预测信号。更具体地,简化后的预测信号被计算如下:
这里,是一个矩阵,该矩阵在时具有行和4列,或者在所有其他情况下为8列。是大小为的偏移矢量。
这里,被定义为:
矩阵和偏移矢量取自集合之一。从中得出矩阵和偏移矢量的集合的索引被定义如下:
这里,矩阵的每个系数以8位精度表示。集合由16个矩阵和16个偏移矢量构成,其中每个矩阵都有16行和4列,并且每个偏移矢量的大小为16,。该集合的矩阵和偏移矢量被用于尺寸为的块。集合由8个矩阵和8个偏移矢量构成,其中每个矩阵都有行和8列,并且每个偏移矢量的大小为16,。集合由6个矩阵和6个偏移矢量构成,其中每个矩阵都有64行和8列,并且每个偏移矢量的大小为64,
第三步骤:插值
剩余位置处的预测信号是通过线性插值从样点的下采样集的简化后的预测信号生成的,该线性插值是每个方向上的单步线性插值。无论块形状或块尺寸如何,插值都首先在水平方向上执行,然后在垂直方向上执行。
基于矩阵的位置相关帧内预测替代现有的传统帧内模式(PDP)
引入了针对块形状和帧内模式定义的权重矩阵,将这些权重乘以邻近参考模板以得出预测样点,从而替代传统帧内预测。将权重应用于L形因果邻域模板的参考样点,如图11所示。
因果邻域中的参考样点表示为r,并且F(x,y) 是权重矩阵。然后预测P(x,y) 可以被推导为
其中,k表示模板中参考样点的索引。
在测试中,该预测用于宽度和高度均不超过32的块尺寸(4 × 32、32 × 4、8 ×32和32 × 8除外)。对于宽度和高度均不超过16的块,模板尺寸为2,并且仅用于模式0、1和。对于其他块,模板尺寸被设置为1;用于模式0、1和;仅对16 × 16个位置执行预测,并且其余样点通过双线性插值生成。对于所有块尺寸,使用基于块形状和模式的对称性。对于大于18且小于50的模式,参考长度设置为W和H,而其他情况下则设置为
对基于矩阵的位置相关帧内预测的修改
对矩阵进行重新训练,通过矩阵乘法生成的预测块的尺寸等于当前块尺寸,而无需子采样。
NNVC中基于神经网络的帧内预测
神经网络推理
基于神经网络的帧内预测模式包含个神经网络,每个预测块具有在中的不同尺寸。尺寸为的神经网络预测块表示为,其中,集合了其参数。对于给定的获取由位于该块上方的个参考样点行和该块左侧的个参考样点组成的上下文的预处理版本,以提供。对应用后处理以产生的预测,参见图12。此外,返回两个索引表示表征LFNST内核索引的索引,并且表示当时,通过对神经网络预测的残差在水平方向上应用DCT-2和在垂直方向上应用DCT-2而产生的初级变换系数是否被转置,参见图12。此外,给出了VVC帧内预测模式(PLANAR(平面)帧内预测模式、或DC帧内预测模式、或方向性帧内预测模式)的索引,该模式根据周围的参考样点对的预测最能表示,参见图12。
如果
否则:
如果
否则:
如果
否则:
如果,则。否则,
如果,则。否则,
预处理和后处理
当前块的上下文的预处理
图12所示的“预处理”包括以下四个步骤。
参见图13,从中减去中可用参考样点的平均值
如果预测当前块的神经网络采用浮点数,则上下文中的参考样点需乘以为内部位深度,即在VVC中为。否则,上下文中的参考样点需乘以表示输入量化器。
中的所有不可用参考样点(参见图13)均设置为
从前一步得到的上下文被平坦化,从而产生大小为的矢量
神经网络预测的后处理
图12中描绘的“后处理”包括将大小为的矢量整形为高度为且宽度为的矩形,将整形的结果除以,与当前块的上下文中可用参考样点的平均值相加,以及截取到。因此,后处理可以概括为
MPM列表的推导的自适应
当创建给定亮度CB的MPM列表时,如果“左侧”亮度CB是经由基于神经网络的帧内预测模式预测的,则基于神经网络的模式索引可以被在预测“左侧”亮度CB期间返回的替代,并成为要放入MPM列表中的候选索引。类似地,如果“上方”亮度CB是经由基于神经网络的帧内预测模式预测的,则基于神经网络的模式索引可以被在预测“上方”亮度CB期间返回的替代,并成为要插入MPM列表中的候选索引。
基于神经网络的帧内预测模式的信令
在亮度中基于神经网络的帧内预测模式的信令
对于其左上角像素位于当前亮度通道中的位置处的当前亮度CB,亮度中的帧内预测模式信令被分成两种情况。
如果,则nnFlag出现在亮度中的帧内预测模式信令中。nnFlag 意味着选择基于神经网络的帧内预测模式来预测当前亮度CB并结束(END)。nnFlag 意味着未选择基于神经网络的帧内预测模式来预测当前亮度CB,然后应用亮度中的常规帧内预测模式信令(表示为),参见图14。
否则,应用亮度中的常规帧内预测模式信令
注意,在“”的情况下,如果当前亮度CB的上下文超出当前亮度通道的界限,即,则基于神经网络的帧内预测被PLANAR替代。
在色度中基于神经网络的帧内预测模式的信令
对于左上角像素位于当前色度通道对中的位置处的当前色度CB对,色度中的帧内预测模式信令被分成两种情况。
如果与这对色度CB同位的亮度CB是通过基于神经网络的帧内预测模式预测的:
如果,则DM变为基于神经网络的帧内预测模式。
否则,将DM设置为PLANAR。
否则:
如果,则nnFlagChroma出现在色度中的帧内预测模式信令中。nnFlagChroma被放置在色度中的帧内预测模式信令的决策树中的DM标志之前。nnFlagChroma意味着选择基于神经网络的帧内预测模式来预测当前色度CB对并结束。nnFlagChroma意味着未选择基于神经网络的帧内预测模式来预测当前色度CB对,然后从DM标志恢复色度中的常规帧内预测模式信令。
否则,应用色度中的常规帧内预测模式信令。
注意,在“”的情况下和“”的情况下,如果当前色度CB的上下文超出当前色度通道的界限,即,则基于神经网络的帧内预测被PLANAR替代。
上下文和神经网络预测的变换
对于给定的块,如果,则基于神经网络的帧内预测模式可能必须预测该块,但基于神经网络的帧内预测模式不包含。在这种情况下,在图12中被称为“预处理”的步骤之前,当前块的上下文可以在垂直方向上下采样倍和/或在水平方向上下采样倍和/或被转置。然后,在图12中被称为“后处理”的步骤之后,当前块的预测可以被转置和/或在垂直方向上上采样倍和/或在水平方向上上采样倍。选择当前块的上下文和预测的转置、,使得使用属于基于神经网络的帧内预测模式的神经网络进行预测,参见表3。
表3:针对每个,对要预测的当前块的上下文和该块的预测的转置、的值和的值、以及属于基于神经网络的帧内预测模式且用于预测的神经网络的决策。
基于神经网络的帧内预测模式的高复杂性版本和低复杂性版本
ECM中应用的基于神经网络的帧内预测
基于神经网络的帧内预测算法和模型描述如下:
SADL用于推理
模型权重和中间结果采用16位整数,内部计算使用32位整数
取决于块尺寸,有7个模型
在训练时强制使用稀疏权重以降低复杂性。SADL支持简单的稀疏矩阵存储(压缩行方法)和稀疏矩阵乘法算法,从而利用矩阵稀疏性。与JVET-AH0156相比,稀疏性约束得到了加强。
表4示出了每个模型所需的参数计数和存储内存。所报告的内存使用情况仅供参考,因为它取决于稀疏矩阵存储的实施。表4报告了实际测试的ECM实施的总内存存储。
表4:每个模型所需的参数计数和存储内存。
表5中报告了不同神经网络模型的以MAC/像素为单位测量的复杂性。该表的底部示出了用下采样参考样点预测的块的复杂性。
表5:不同神经网络模型的以MAC/像素为单位测量的复杂性。
利用DIMD模式推导的基于神经网络的帧内预测
所提出的基于神经网络的帧内预测模型描述如下:
使用密集矩阵乘法
应用修正线性激活ReLU而不是渗漏ReLU
利用DIMD来推导出帧内模式,而不是预测网络
SADL用于推理
使用参数被量化为16位整数的七个模型(如在NNVC方法中)
表6中报告了不同神经网络模型的以MAC/像素为单位测量的复杂性。该表的底部示出了用下采样参考样点预测的块的复杂性。
表6:不同神经网络模型的以MAC/像素为单位测量的复杂性。
GPM
在VVC中,支持GPM用于帧间预测。使用CU级标志用信号传输GPM作为一种合并模式,其他合并模式包括常规合并模式、MMVD模式、CIIP模式和子块合并模式。对于每个可能的CU尺寸其中,)(不包括864和648),GPM总共支持64个分区。
当使用GPM时,通过几何定位的直线将CU分割成两个部分。分割线的位置是根据特定分区的角度和偏移量参数在数学上推导的。使用通过几何分区获得的CU的每个部分自身的运动对其进行帧间预测;并且每个分区仅允许单向预测,即,每个部分具有一个运动矢量和一个参考索引。应用单向预测运动约束以确保与传统的双向预测一样,每个CU仅需要两种运动补偿预测。
如果针对当前CU使用GPM,则进一步用信号传输指示几何分区的分区模式(指示几何分区的角度和偏移)的几何分区索引和两个合并索引(每个分区一个)。
直接从根据上述扩展合并预测过程构建的合并候选列表推导单向预测候选列表。将n表示为单向预测候选列表中的单向预测运动矢量的索引。使用合并候选列表中的第n个合并候选的LX运动矢量(X等于n的奇偶性)作为GPM的第n个单向预测运动矢量。这些运动矢量在图15中用“x”标记。在合并候选列表中的第n个合并候选的对应LX运动矢量不存在的情况下,使用同一合并候选的L(1 - X) 运动矢量作为GPM的单向预测运动矢量。
CIIP
在VVC中,当以合并模式对CU编解码时,如果CU包含至少64个亮度样点(即,CU的宽度乘以CU的高度等于或大于64)并且如果CU的宽度和CU的高度都小于128个亮度样点,则用信号传输用于指示是否将CIIP模式应用于当前CU的附加标志。在CIIP模式下,通过将帧间预测信号与帧内预测信号组合来获得预测信号。使用与常规合并模式中应用的相同的帧间预测过程推导CIIP模式下的帧间预测信号;并且在利用平面模式的常规帧内预测过程之后推导CIIP模式下的帧内预测信号。然后,使用加权平均来组合帧内预测信号和帧间预测信号,其中,根据(如图16所示)当前CU 1601的顶部邻近块和左侧邻近块的编码模式来计算权重值如下:
—如果顶部邻近块可用并且已进行帧内编码,则isIntraTop设置为1,否则isIntraTop设置为0;
—如果左侧邻近块可用并且已进行帧内编码,则isIntraLeft设置为1,否则isIntraLeft设置为0;
—如果(isIntraLeft + isIntraTop)等于2,则将权重值设置为3;
—否则,如果(isIntraLeft + isIntraTop)等于1,则将权重值设置为2;
—否则,将权重值设置为1。
— CIIP模式下的预测信号推导如下:
其中,是CIIP模式下的帧间预测信号,是CIIP模式下的帧内预测信号,是权重值,并且>>表示右移运算。
解码器侧帧内模式推导(DIMD)
当应用DIMD时,从重建的邻近样点中推导出最多达五种帧内模式,并将这五个预测值与非方向性预测值(基于平面或块矢量的预测值)组合,其权重根据梯度直方图推导出,如JVET-O0449中所述。非方向性模式之间的决策是根据模板代价做出的。具体地,将(以IntraTMP或IBC编码的)所有相邻和不相邻合并候选的块矢量与重建模板上的平面预测进行比较。模板代价(SATD)用于从中选择最佳预测值。
权重推导中的除法运算利用与CCLM所使用的相同的基于查找表(LUT)的整数化方案来执行。例如,取向计算中的除法运算:
通过以下基于LUT的方案来计算:
其中,
DivSigTable[16] = { 0, 7, 6, 5 ,5, 4, 4, 3, 3, 2, 2, 1, 1, 1, 1, 0 }。
对于尺寸为的块,如果上方或左侧的直方图幅值中的一个为另一个的两倍大,则修改五个推导的模式中每一个的权重。在这种情况下,权重是位置相关的并且计算如下:
如果上方的直方图是左侧的两倍,则:
如果左侧的直方图是上方的两倍,则:
其中,是如在JVET-O0449中选择的DIMD的未修改的均匀权重,是预定义的并且被设置为10。
将推导的帧内模式包括在帧内最可能模式(MPM)的主列表中,因此在构建MPM列表之前执行DIMD过程。DIMD块的主要推导的帧内模式与块一起存储并用于邻近块的MPM列表构建。
最后,注意,与JVET-O0449方法相比,根据重建样点的可用性,修改用于计算梯度直方图的邻近重建样点的区域。当前W × H亮度CB的已解码参考样点的区域朝向右上侧(如果可用)扩展,最多扩展W个附加列。它朝向左下侧(如果可用)扩展,最多扩展H个附加行。
基于模板的帧内模式推导(TIMD)的融合
对于MPM中的每个帧内预测模式、以及在右上角参考样点和/或左下角参考样点可用的情况下的宽角度模式,计算模板的预测样点与重建样点之间的SATD。选择具有最小SATD的前两个帧内预测模式和具有最低SATD代价的一个非角度帧内预测模式(即,DC或平面)作为TIMD模式。在应用PDPC过程之后,这三个TIMD模式与权重融合,并使用这种加权帧内预测对当前CU进行编码。位置相关帧内预测组合(PDPC)包括在TIMD模式的推导中。
检查以下条件以确定是否在融合中使用非角度帧内预测模式:
非角度帧内预测模式不同于两个所选择的帧内预测模式。
,其中,costMode3是非角度帧内预测模式的SATD代价,并且costMode1是第一帧内预测模式的SATD代价。
如果这两个条件都成立,则使用三个帧内预测模式来生成预测。并且根据SATD代价计算每个帧内预测模式的权重:
否则,在预测中不使用非角度帧内预测模式。并且将两个所选择的模式的代价与阈值进行比较,在测试中,代价因子2应用如下:
如果该条件成立,则应用融合,否则仅使用模式1。
模式的权重根据其SATD代价计算如下:
weight1 = costMode2 / (costMode1+ costMode2)
weight2 = 1 - weight1
除法运算使用与CCLM所使用的相同的基于查找表(LUT)的整数化方案来进行。
此外,将在DIMD融合过程中使用的位置相关的基于样点的融合用于TIMD融合,但是应用于所选择的预测值的幅度的位置相关标准被基于SATD代价的标准替代。位置相关标准是根据在上方模板区域和左侧模板区域中计算的所选择的TIMD预测值的归一化SATD之比来确定的。
CIIP的改进
子块CIIP
基于子块的合并候选可以用于生成CIIP的帧间信号,其中,利用了仿射和sbTMVP所使用的相同的基于子块的合并候选列表。
当CIIP标志为真且CIIP-TM标志为假时,用信号传输基于子块的CIIP标志。如果基于子块的CIIP标志为真,则用信号传输指示基于子块的合并列表中的特定候选的索引,并且默认情况下使用TIMD来生成帧内信号,因此不再用信号传输CIIP-PDPC标志。
CIIP与TIMD和TM合并的组合
在CIIP模式下,通过对使用CIIP-TM合并候选预测的帧间预测信号和使用TIMD推导的帧内预测模式预测的帧内预测信号进行加权来生成预测样点。该方法仅应用于面积小于或等于1024的编码块。
TIMD推导方法用于推导CIIP中的帧内预测模式。具体地,选择TIMD模式列表中具有最小SATD值的帧内预测模式,并将其映射到67个常规帧内预测模式中的一个。
另外,还提出了如果推导的帧内预测模式是角度模式,则修改这两个测试的权重(wIntra,wInter)。对于近水平模式(2<=角度模式索引<34),当前块如图17(a) 所示被垂直划分;对于近垂直模式(34<=角度模式索引<= 66),当前块如图17(b) 所示被水平划分。
表7中示出了不同子块的(wIntra,wInter)。
表7. 用于角度模式的修改权重。
利用CIIP-TM,为CIIP-TM模式建立CIIP-TM合并候选列表。通过模板匹配对合并候选进行细化。CIIP-TM合并候选也通过ARMC方法重新排序为常规合并候选。CIIP-TM合并候选的最大数量等于二。
ECM中的几何分区模式(GPM)
利用合并运动矢量差(MMVD)的GPM
通过在现有的GPM单向MV的顶部上应用运动矢量细化来扩展VVC中的GPM。首先用信号传输用于GPM CU的标志,以指定是否使用该模式。如果使用所述模式,则GPM CU的每个几何分区可以进一步决定是否用信号传输MVD。如果针对几何分区用信号传输MVD,则在选择GPM合并候选之后,通过用信号传输的MVD信息来进一步细化分区的运动。所有其他程序与GPM中的程序保持相同。
与在MMVD中类似,将MVD作为一对距离和方向用信号传输。在利用MMVD的GPM(GPM-MMVD)中涉及九个候选距离(像素、像素、1像素、2像素、3像素、4像素、6像素、8像素、16像素)和八个候选方向(四个水平/垂直方向和四个对角线方向)。另外,当pic_fpel_mmvd_enabled_flag等于1时,将MVD如在MMVD中那样左移2位。
利用模板匹配(TM)的GPM
将模板匹配应用于GPM。当针对CU启用GPM模式时,用信号传输CU级标志以指示TM是否被应用于两个几何分区。使用TM细化每个几何分区的运动信息。当选择TM时,根据如表8所示的分区角度使用左侧邻近样点、上方邻近样点、或左侧邻近样点和上方邻近样点来构建模板。然后,通过使用禁用半像素内插滤波器的合并模式的相同搜索模式最小化当前模板与参考图片中的模板之间的差异来细化运动。
表8. 用于第1几何分区和第2几何分区的模板,其中,A表示使用上方样点,L表示使用左侧样点,并且L+A表示使用左侧样点和上方样点两者。
GPM候选列表构建如下:
1.直接从常规合并候选列表中推导交错的列表0 MV候选和列表1 MV候选,其中,列表0 MV候选的优先级高于列表1 MV候选。应用其中自适应阈值基于当前CU尺寸的修剪方法来移除冗余MV候选。
2.直接从常规合并候选列表中进一步推导交错的列表1 MV候选和列表0 MV候选,其中,列表1 MV候选的优先级高于列表0 MV候选。也应用相同的利用自适应阈值的修剪方法来移除冗余MV候选。
3.填充零MV候选,直到GPM候选列表满为止。
仅针对一个GPM CU启用GPM-MMVD和GPM-TM。这是通过首先用信号传输GPM-MMVD语法来实现的。当两个GPM-MMVD控制标志都等于假时(即,针对两个GPM分区禁用GPM-MMVD),用信号传输GPM-TM标志以指示模板匹配是否被应用于两个GPM分区。否则(至少一个GPM-MMVD标志等于真),GPM-TM标志的值被推断为假。
利用帧间和帧内预测的GPM
在利用帧间和帧内预测的GPM中,通过对每个GPM分离区域的帧间预测样点和帧内预测样点进行加权来生成最终预测样点。帧间预测样点通过帧间GPM得到,而帧内预测样点通过帧内预测模式(IPM)候选列表和从编码器用信号传输的索引得到。IPM候选列表大小预定义为3。可用IPM候选是分别针对GPM块边界的平行角度模式(平行模式)、针对GPM块边界的垂直角度模式(垂直模式)、以及如图18(a) 至图18(c) 所示的平面模式。此外,如图18(d) 所示的利用帧内和帧内预测的GPM受到限制,以减少IPM的信号传输开销,并避免硬件解码器上帧内预测电路尺寸的增加。另外,在GPM混合区域引入了直接运动矢量和IPM存储,以进一步改进编解码性能。
在基于DIMD和邻近模式的IPM推导中,首先注册平行模式。因此,如果列表中不存在相同的IPM候选,则最多可以注册从解码器侧帧内模式推导(DIMD)方法和/或邻近块推导的两个IPM候选。至于邻近模式的推导,可用邻近块最多有五个位置,但这些位置受GPM块边界角度的限制(如下表9中所示),其已经用于利用模板匹配的GPM(GPM-TM)。
表9. 基于GPM块边界的角度,IPM候选推导可用的邻近块的位置。A和L表示预测块的上方和左侧。
GPM-帧内可以与利用使用运动矢量差的合并的GPM(GPM-MMVD)组合。TIMD用于GPM-帧内的IPM候选上,以进一步改进编解码性能。可以首先注册平行模式,然后注册TIMD、DIMD和邻近块的IPM候选。
基于模板匹配的GPM分割模式重新排序
在基于模板匹配的GPM分割模式重新排序中,给定当前GPM块的运动信息,计算GPM分割模式的相应TM代价值。然后,基于TM代价值以升序重新排序所有GPM分割模式。代替发送GPM分割模式,用信号传输使用Golomb-Rice代码来指示确切的GPM分割模式位于重新排序列表中的何处的索引。
GPM分割模式的重新排序方法是在生成编码单元中两个GPM分区的相应参考模板之后执行的两步式过程,如下:
•将GPM分区边缘扩展到两个GPM分区的参考模板中,从而产生64个参考模板,并计算64个参考模板中的每一个的相应TM代价;
•基于GPM分割模式的TM代价值以升序对其进行重新排序,并将最佳的32个标记为可用分割模式。
如图19所示,模板上的边缘从当前CU的边缘扩展,但是GPM混合过程不用于该边缘上的模板区域。
在使用TM代价进行升序重新排序之后,用信号传输索引。
利用自适应混合的几何分区模式(GPM)
在VVC中,通过使用加权平均值对两个预测信号的预测进行混合来生成最终预测样点。使用两个整数混合矩阵(W0和W1)。GPM混合矩阵中的权重是基于从预测样点位置到GPM分区边界的位移从斜坡函数中推导的。混合区域尺寸固定为两个(GPM分区分割边界的每一侧上的2个样点)。
ECM中的混合过程通过添加四个额外的混合区域尺寸(现有区域尺寸的四分之一、一半、两倍和四倍)来改进,如图20所示。用信号传输被编码以表示所选混合区域尺寸的CU级标志。此外,利用扩展的加权精度,其中加权的最大值从8(在VVC中)变为32,以适应扩展的混合区域尺寸。
双向预测GPM
VVC中的GPM设计依赖于单向预测运动矢量来为每个帧间GPM分区生成经运动补偿的预测样点。在ECM中,这种设计已经被扩展以允许使用双向预测运动矢量。
当构建GPM候选列表时,仅针对小块8 × 8、16 × 8和8 × 16调用从初始合并列表中提取单向预测运动矢量的提取过程。对于较大的块,绕过提取过程,因此初始合并列表(其可以包含合并的Bi-MV)直接用作最终GPM合并列表。初始合并列表的生成与之前相同(即,没有任何候选重新排序的正常合并列表生成),不同之处在于当为较大的块(即,绕过提取过程的块)生成初始合并列表时,用于控制是否可以将候选添加到列表中的运动矢量差阈值增加到一个完整样点距离。
当生成经运动补偿的预测样点时,使用如多通DMVR中的基于BDOF的运动矢量细化。
当GPM-MMVD用于GPM分区并且其基本运动矢量是双向预测的时,对于低延迟图片,如在现有合并MMVD设计中那样,在L0和L1运动矢量上应用用信号传输的MVD。对于非低延迟图片,首先将双向预测运动矢量转换为单向预测运动矢量,然后在其上应用MVD。
AMC-GPM
在ECM中,GPM进一步扩展以启用仿射运动补偿(AMC)。因此,可以通过AMC帧间预测、非AMC帧间预测或帧内预测来预测GPM分区。另外,由AMC预测的GPM分区可以与通过AMC、非AMC或帧内预测预测的其他GPM分区组合。
当应用AMC时,在丢弃子TMVP候选之后从基于子块的合并候选列表构建单向预测仿射合并候选列表,类似于VVC中的GPM的单向预测合并候选列表构建。使用单向预测仿射合并候选列表中的合并候选的控制点运动矢量(CPMV)对GPM分区执行AMC。在SPS中用信号传输单向预测仿射合并候选列表的长度。当ARMC适用时,根据模板代价对单向预测仿射合并候选列表进行重新排序。
针对每个GPM分区用信号传输gpm_affine_flag,以指示是否将AMC应用于GPM分区。取决于应用的是AMC还是非AMC,使用单独的算术上下文模型用信号传输GPM分区的合并候选索引。
AMC不被允许用于GPM-MMVD和GPM-TM。
隐式GPM
在隐式GPM中,两个整数混合矩阵(W 0W 1)是从模板推导的(上方1行,左侧1列)。混合矩阵被建模为当前CU中的样点位置 (x,y) 的仿射线性函数:
W0(x,y) = a.x + b.y + c以及 W1(x,y) = 1 - W0(x,y)
参数(a,b,c)是使用与用于CCCM、GLM或GL-CCCM的求解器相同的求解器(MSE最小化)从参考模板推导的。候选对列表是从常规GPM候选构建的,并且根据模板代价进行重新排序。
GPM隐式模式通过CU级标志(gpm_implicit_flag)用信号传输。如果gpm_ implicit_flag为真,则对merge-idx进行编码以用信号传输要使用的GPM候选对。如果gpm_ implicit_flag为假,则用信号传输常规GPM语法元素。
空间几何分区模式(SGPM)
SGPM是类似于GPM的帧间编解码工具的帧内模式,其中两个预测部分是根据帧内预测过程生成的。在该模式下,建立候选列表,其中每个条目包含一个分区分割模式和两个帧内预测模式,如图21所示。26个分区模式和3个帧内预测模式用于形成组合。候选列表的长度设置为等于16。用信号传输所选候选索引。
使用模板对列表进行重新排序(图22),其中模板的预测和重建之间的SAD用于排序。模板尺寸固定为1。
对于每个分区模式,使用相同的帧内-帧间GPM列表推导来针对每个部分推导IPM列表。IPM列表大小设置为3。在该列表中,TIMD推导模式被具有水平和垂直取向的2个推导模式替代。使用从以IntraTMP或IBC模式编码的相邻和不相邻合并候选获得的基于块矢量的预测候选来进一步扩充列表。模板代价用于选择最多6个块矢量。最终列表最多包含最多9个预测值:3个常规帧内模式和最多6个基于块矢量的预测值。
SGPM模式应用于受限块尺寸:4<=宽度<=64,4<=高度<=64,
PPS标志被编码为指示是否不允许两个帧内预测的混合。当该PPS标志被设置为假时,以下自适应混合还被用于空间GPM,其中,图23中所示的混合深度τ是如下推导的:
如果min(width, height)==4,则选择1/2τ
否则,如果min(width, height)==8,则选择τ
否则,如果min(width, height)==16,则选择2τ
否则,如果min(width, height)==32,则选择4τ
否则,选择8τ
否则(PPS标志被设置为真),对于空间GPM编码块,始终使用1/4τ,以确保当SGPM块具有完全水平或垂直的分区角度时不使用混合,并且当SGPM块具有其他分区角度时使用窄得多的混合宽度。注意,在屏幕内容视频的当前常见测试条件(CTC)中,标志被设置为真。
本申请发明人认识到,目前,CIIP中的帧内预测信号是使用TIMD推导的帧内预测模式来预测的。考虑到基于神经网络的帧内预测模式的预测准确度通常优于传统的帧内预测模式,在推导CIIP中的帧内预测信号时最好导入基于神经网络的帧内预测模式,这可以进一步提高编解码性能。
本申请发明人认识到,目前,GPM中的帧内预测信号是使用来自邻近块的并行模式、TIMD推导的模式、DIMD推导的模式或帧内预测模式来预测的。考虑到基于神经网络的帧内预测模式的预测准确度通常优于传统的帧内预测模式,在推导GPM中的帧内预测信号时最好导入基于神经网络的帧内预测模式,这可以进一步提高编解码性能。
本申请发明人认识到,目前,SGPM中的帧内预测信号是使用来自邻近块的并行模式、水平TIMD推导的模式、垂直TIMD推导的模式、DIMD推导的模式或帧内预测模式来预测的。考虑到基于神经网络的帧内预测模式的预测准确度通常优于传统的帧内预测模式,在推导SGPM中的帧内预测信号时最好导入基于神经网络的帧内预测模式,这可以进一步提高编解码性能。
本申请发明人认识到,目前,在TIMD中,利用模板的预测样点与重建样点之间的SATD来选择一种帧内预测模式或融合若干帧内预测模式。考虑到基于神经网络的帧内预测模式的预测准确度通常优于传统的帧内预测模式,在TIMD中最好是导入基于神经网络的帧内预测模式,这可以进一步提高编解码性能。
本申请发明人认识到,目前,在DIMD中,利用梯度直方图来选择若干帧内预测模式,并将它们与对应权重融合。考虑到基于神经网络的帧内预测模式的预测准确度通常优于传统的帧内预测模式,在DIMD中最好是导入基于神经网络的帧内预测模式,这可以进一步提高编解码性能。
本申请发明人认识到,目前,在DIMD中,利用梯度直方图来选择若干帧内预测模式,并将它们与对应权重融合。考虑到基于矩阵的位置相关帧内预测模式(PDP)的预测准确度通常优于传统的帧内预测模式,在DIMD中最好是导入基于矩阵的位置相关帧内预测模式(PDP),这可以进一步提高编解码性能。
在本公开中,提供了进一步改进CIIP、GPM、SGPM、TIMD和DIMD的现有设计的方法。通常,本公开中提出的技术的主要特征总结如下。
基于神经网络的帧内预测与CIIP组合。
基于神经网络的帧内预测与GPM组合。
基于神经网络的帧内预测与SGPM组合。
基于神经网络的帧内预测与TIMD组合。
基于神经网络的帧内预测与DIMD组合。
基于矩阵的位置相关帧内预测与DIMD组合。
应当注意,所公开的方法可以独立地或联合地应用。
与CIIP组合的基于神经网络的帧内预测
根据本公开的一个或多个实施例,基于神经网络的帧内预测与CIIP组合。可以使用不同的方法来实现这一目标。
在第一种方法中,使用TIMD推导的帧内预测模式预测的帧内预测信号被使用基于神经网络的帧内预测预测的帧内预测信号替代。这里,块的帧内预测模式表示可以是使用TIMD推导的帧内预测模式、或由神经网络预测的帧内预测模式、或使用DIMD推导的帧内预测模式。
在第二种方法中,将使用基于神经网络的帧内预测预测的帧内预测信号添加为除了使用TIMD推导的帧内预测模式预测的现有帧内预测信号之外的另一候选。将使用基于神经网络的帧内预测预测的帧内预测信号与在编码器中的RDO过程中使用TIMD推导的帧内预测模式预测的帧内预测信号进行比较,并且在比特流中传输标志以指示使用哪种模式。这里,如果帧内预测信号是使用TIMD推导的帧内预测模式来预测的,则块的帧内预测模式表示是使用TIMD推导的帧内预测模式;如果帧内预测信号是使用基于神经网络的帧内预测来预测的,则块的帧内预测模式表示是由神经网络预测的帧内预测模式、或使用DIMD推导的帧内预测模式。
与GPM组合的基于神经网络的帧内预测
根据本公开的一个或多个实施例,基于神经网络的帧内预测与GPM组合。可以使用不同的方法来实现这一目标。
在第一种方法中,使用基于神经网络的帧内预测预测的帧内预测信号替代了使用原始帧内预测列表中的对应帧内预测模式预测的一个帧内预测信号。目前,在GPM中,帧内预测列表的长度为3,基于神经网络的帧内预测可以替代原始帧内预测列表中的第一帧内预测、第二帧内预测或第三帧内预测。这里,如果最终选择的帧内预测是基于神经网络的帧内预测,则块的帧内预测模式表示可以是由神经网络预测的帧内预测模式、或使用DIMD推导的帧内预测模式;否则,块的帧内预测模式表示是原始帧内预测模式。
在第二种方法中,将使用基于神经网络的帧内预测预测的帧内预测信号添加为除了使用原始帧内预测列表中的帧内预测模式预测的帧内预测信号之外的另一候选。目前,在GPM中,帧内预测列表的长度为3,在添加基于神经网络的帧内预测之后,在GPM中,帧内预测列表的长度为4。基于神经网络的帧内预测可以插入到原始帧内预测列表中的头部、插入在第一位置之后、插入在第二位置之后或插入到结束位置。在编码器中的RDO过程中比较帧内预测列表中的4个帧内预测信号之后,在比特流中用信号传输最终选择的帧内预测信号的索引。这里,如果最终选择的帧内预测是基于神经网络的帧内预测,则块的帧内预测模式表示可以是由神经网络预测的帧内预测模式、或使用DIMD推导的帧内预测模式;否则,块的帧内预测模式表示是原始帧内预测模式。
与SGPM组合的基于神经网络的帧内预测
根据本公开的一个或多个实施例,基于神经网络的帧内预测与SGPM组合。可以使用不同的方法来实现这一目标。
在第一种方法中,使用基于神经网络的帧内预测预测的帧内预测信号替代了使用原始帧内预测列表中的对应帧内预测模式预测的一个帧内预测信号。目前,在SGPM中,帧内预测列表的长度为3,基于神经网络的帧内预测可以替代原始帧内预测列表中的第一帧内预测、第二帧内预测或第三帧内预测。这里,如果最终选择的帧内预测是基于神经网络的帧内预测,则块的帧内预测模式表示可以是由神经网络预测的帧内预测模式、或使用DIMD推导的帧内预测模式;否则,块的帧内预测模式表示是原始帧内预测模式。
在第二种方法中,将使用基于神经网络的帧内预测预测的帧内预测信号添加为除了使用原始帧内预测列表中的帧内预测模式预测的帧内预测信号之外的另一候选。目前,在SGPM中,帧内预测列表的长度为3,在添加基于神经网络的帧内预测之后,在SGPM中,帧内预测列表的长度为4。基于神经网络的帧内预测可以插入到原始帧内预测列表中的头部、插入在第一位置之后、插入在第二位置之后或插入到结束位置。在编码器中的RDO过程中比较帧内预测列表中的4个帧内预测信号之后,在比特流中用信号传输最终选择的帧内预测信号的索引。这里,如果最终选择的帧内预测是基于神经网络的帧内预测,则块的帧内预测模式表示可以是由神经网络预测的帧内预测模式、或使用DIMD推导的帧内预测模式;否则,块的帧内预测模式表示是原始帧内预测模式。
与TIMD组合的基于神经网络的帧内预测
根据本公开的一个或多个实施例,基于神经网络的帧内预测与TIMD组合。可以使用不同的方法来实现这一目标。
在第一种方法中,如果由TIMD推导的帧内预测模式等于基于神经网络的帧内预测的帧内预测模式表示,或者TIMD融合中的一种帧内预测模式等于基于神经网络的帧内预测的帧内预测模式表示,则对应的帧内预测模式预测结果被基于神经网络的帧内预测结果替代,其中,对应的帧内预测模式预测结果用作最终结果或用作融合过程的一部分。否则,保存用原始TIMD获得的预测结果。对于基于神经网络的帧内预测的帧内预测模式表示,其可以是由神经网络预测的帧内预测模式、或是使用DIMD推导的帧内预测模式。
在第二种方法中,当计算模板的预测样点与重建样点之间的SATD时,如果帧内预测模式扫描过程期间的一种帧内预测模式等于基于神经网络的帧内预测的帧内预测模式表示,则模板的对应预测样点是利用基于神经网络的帧内预测生成的。如果最终决定的帧内预测模式是基于神经网络的帧内预测的帧内预测模式表示,或者基于神经网络的帧内预测的帧内预测模式表示包括在TIMD融合过程中,则对应的帧内预测模式预测结果是利用基于神经网络的帧内预测生成的。否则,保存用原始TIMD获得的预测结果。对于基于神经网络的帧内预测的帧内预测模式表示,其可以是由神经网络预测的帧内预测模式、或是使用DIMD推导的帧内预测模式。
与DIMD组合的基于神经网络的帧内预测
根据本公开的一个或多个实施例,基于神经网络的帧内预测与DIMD组合。可以使用不同的方法来实现这一目标。
在第一种方法中,如果DIMD融合中的一种帧内预测模式等于基于神经网络的帧内预测的帧内预测模式表示,则对应的帧内预测模式预测结果被基于神经网络的帧内预测结果替代,其中,对应的帧内预测模式预测结果用作融合过程的一部分。否则,保存用原始DIMD获得的预测结果。对于基于神经网络的帧内预测的帧内预测模式表示,其可以是由神经网络预测的帧内预测模式、或是使用DIMD推导的帧内预测模式。
与DIMD组合的基于矩阵的位置相关帧内预测
根据本公开的一个或多个实施例,基于矩阵的位置相关帧内预测与DIMD组合。可以使用不同的方法来实现这一目标。
在第一种方法中,如果DIMD融合中的一种帧内预测模式等于由基于矩阵的位置相关帧内预测替代的帧内预测模式,则对应的帧内预测模式预测结果由基于矩阵的位置相关帧内预测结果替代,其中,对应的帧内预测模式预测结果用作融合过程的一部分。否则,保存用原始DIMD获得的预测结果。
图24示出了与用户界面2650耦接的计算环境2610。计算环境2610可以是数据处理服务器的一部分。计算环境2610包括处理器2620、存储器2630和输入/输出(I/O)接口2640。
处理器2620通常控制计算环境2610的整体操作,例如与显示、数据采集、数据通信和图像处理相关联的操作。处理器2620可以包括用于执行指令以执行上述方法中的全部或一些步骤的一个或多个处理器。此外,处理器2620可以包括促进处理器2620与其他组件之间的交互的一个或多个模块。处理器可以是中央处理单元(CPU)、微处理器、单片机、图形处理单元(GPU)等。
存储器2630被配置为存储各种类型的数据以支持计算环境2610的操作。存储器2630可以包括预定软件2632。上述数据的示例包括用于在计算环境2610上操作的任何应用或方法的指令、视频数据集、图像数据等。存储器2630可以通过使用任何类型的易失性或非易失性存储器设备或其组合来实现,例如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、闪存存储器、磁盘或光盘。
I/O接口2640提供处理器2620与外围接口模块(例如键盘、点击轮、按钮等)之间的接口。按钮可以包括但不限于主页按钮、开始扫描按钮和停止扫描按钮。I/O接口2640可以与编码器和解码器耦接。
在实施例中,还提供了一种包括例如存储器2630中的多个程序和/或存储通过上述编码方法生成的比特流或待通过上述解码方法解码的比特流的非暂态计算机可读存储介质,多个程序可以由计算环境2610中的处理器2620执行以用于执行上述方法。在实施例中,多个程序可以由计算环境2610中的处理器2620执行以(例如,从图2中的视频编码器20)接收包括编码的视频信息(例如,表示编码的视频帧的视频块、和/或相关联的一个或多个语法元素等)的比特流或数据流,并且还可以由计算环境2610中的处理器2620执行以用于根据所接收的比特流或数据流执行上述解码方法。在另一示例中,多个程序可以由计算环境2610中的处理器2620执行以用于执行上述编码方法以将视频信息(例如,表示视频帧的视频块、和/或相关联的一个或多个语法元素等)编码为比特流或数据流,并且还可以由计算环境2610中的处理器2620执行以用于(例如,向图3中的视频解码器30)发送该比特流或数据流。另选地,非暂态计算机可读存储介质中可以存储有由编码器(例如,图2中的视频编码器20)使用例如上述编码方法生成以由解码器(例如,图3中的视频解码器30)在解码视频数据时使用的包括编码的视频信息(例如,表示编码的视频帧的视频块、和/或相关联的一个或多个语法元素等)的比特流或数据流。非暂态计算机可读存储介质例如可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光学数据存储设备等。
在实施例中,提供了一种通过上述编码方法生成的比特流或待通过上述解码方法解码的比特流。在实施例中,提供了一种包括通过上述编码方法生成的编码视频信息或待通过上述解码方法解码的编码视频信息的比特流。
在实施例中,还提供了一种计算设备,该计算设备包括:一个或多个处理器(例如,处理器2620);以及在其中存储了可以由一个或多个处理器执行的多个程序的非暂态计算机可读存储介质或存储器2630,其中一个或多个处理器在执行多个程序时被配置为执行上述方法。
在实施例中,还提供了一种具有用于存储或传输比特流的指令的计算机程序产品,该比特流包括通过上述编码方法生成的编码视频信息或待通过上述解码方法解码的编码视频信息。在实施例中,还提供了一种包括例如存储器2630中的多个程序的计算机程序产品,多个程序可以由计算环境2610中的处理器2620执行以用于执行上述方法。例如,计算机程序产品可以包括非暂态计算机可读存储介质。
在实施例中,计算环境2610可以由用于执行上述方法的一个或多个ASIC、DSP、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、FPGA、GPU、控制器、微控制器、微处理器或其他电子组件来实现。
在实施例中,还提供了一种存储比特流的方法,包括:在数字存储介质上存储比特流,其中,该比特流包括通过上述编码方法生成的编码视频信息或待通过上述解码方法解码的编码视频信息。
在实施例中,还提供了一种用于发送通过上述编码器生成的比特流的方法。在实施例中,还提供了一种用于接收待通过上述解码器解码的比特流的方法。
图25是示出了根据本公开的一些实施方式的视频解码方法2500的流程图。视频解码方法2500包括步骤S2502-S2506。
在步骤S2502中,获取当前块的空间临近参考样点。
在步骤S2504中,基于当前块的空间临近参考样点,使用基于神经网络的帧内预测模式确定第一帧内预测信号。
在步骤S2506中,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号。
根据一些实施例,其中,一个或多个预测工具包括帧间帧内联合预测CIIP,并且其中,步骤S2506,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:使用第一帧内预测信号替换CIIP中使用基于模板的帧内模式推导TIMD得到的帧内预测模式确定的帧内预测信号,其中,当前块的帧内预测模式包括使用TIMD得到的帧内预测模式、基于神经网络确定的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者。
根据一些实施例,其中,一个或多个预测工具包括帧间帧内联合预测CIIP,并且其中,步骤S2506,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:确定候选列表,候选列表包括使用基于模板的帧内模式推导TIMD得到的帧内预测模式确定的帧内预测信号、以及第一帧内预测信号。
根据一些实施例,方法2500还包括:从比特流中接收指示目标帧内预测信号的标志;基于标志,从候选列表中确定目标帧内预测信号;响应于所确定的目标帧内预测信号是使用TIMD得到的帧内预测模式确定的帧内预测信号,确定当前块的帧内预测模式是使用TIMD得到的帧内预测模式;以及响应于所确定的目标帧内预测信号是第一帧内预测信号,确定当前块的帧内预测模式是基于神经网络的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者。
根据一些实施例,其中,一个或多个预测工具包括几何分区模式GPM,并且其中,步骤S2506,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:确定候选列表,其中,候选列表中的原始帧内预测信号中的一个或多个原始帧内预测信号被第一帧内预测信号替换。
根据一些实施例,其中,一个或多个预测工具包括几何分区模式GPM,并且其中,步骤S2506,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:确定候选列表,其中,候选列表包括一个或多个原始帧内预测信号、以及被添加的第一帧内预测信号,其中,第一帧内预测信号被添加到候选列表中的头部、或者被添加到一个或多个原始帧内预测信号中的一个原始帧内预测信号之后。
根据一些实施例,方法2500还包括:从比特流中接收指示目标帧内预测信号的标志;基于标志,从候选列表中确定目标帧内预测信号;响应于确定目标帧内预测信号为候选列表的中第一帧内预测信号,确定当前块的帧内预测模式是基于神经网络的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者。
根据一些实施例,其中,一个或多个预测工具包括空间几何分区模式SGPM,并且其中,步骤S2506,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:确定候选列表,其中,候选列表中的原始帧内预测信号中的一个或多个原始帧内预测信号被第一帧内预测信号替换。
根据一些实施例,其中,一个或多个预测工具包括空间几何分区模式SGPM,并且其中,步骤S2506,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:确定候选列表,其中,候选列表包括一个或多个原始帧内预测信号、以及被添加的第一帧内预测信号,其中,第一帧内预测信号被添加到候选列表中的头部、或者被添加到一个或多个原始帧内预测信号中的一个原始帧内预测信号之后。
根据一些实施例,方法2500还包括:从比特流中接收指示目标帧内预测信号的标志;基于标志,从候选列表中确定目标帧内预测信号;响应于确定目标帧内预测信号为候选列表的中第一帧内预测信号,确定当前块的帧内预测模式是基于神经网络的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者。
根据一些实施例,其中,一个或多个预测工具包括基于模板的帧内模式推导TIMD,并且其中,步骤S2506,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:响应于使用TIMD得到的帧内预测模式等于基于神经网络的帧内预测模式,使用第一帧内预测信号替换使用TIMD得到的帧内预测模式确定的帧内预测信号;以及响应于TIMD融合过程中的一个或多个帧内预测模式等于基于神经网络的帧内预测模式,使用第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号。
根据一些实施例,其中,一个或多个预测工具包括基于模板的帧内模式推导TIMD,并且其中,步骤S2506,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:响应于TIMD融合过程中的一个或多个帧内预测模式等于基于神经网络的帧内预测模式,使用第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号,以计算帧内预测信号与重建信号之间的代价函数;以及基于代价函数,确定TIMD融合过程中的一个或多个帧内预测模式的权重。
根据一些实施例,其中,一个或多个预测工具包括解码器侧帧内模式推导DIMD,并且其中,步骤S2506,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:响应于DIMD融合过程中的一个或多个帧内预测模式等于基于神经网络的帧内预测模式,使用第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号。
图26是示出了根据本公开的一些实施方式的视频解码方法2600的流程图。视频解码方法2600包括步骤S2602-S2606。
在步骤S2602中,针对当前块的空间临近参考样点确定权重矩阵。
在步骤S2604中,基于权重矩阵和空间临近参考样点确定第一帧内预测信号。
在步骤S2606中,响应于解码器侧帧内模式推导DIMD融合过程中的一个或多个帧内预测模式等于针对权重矩阵的帧内预测模式,使用第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号。
图27是示出了根据本公开的一些实施方式的视频编码方法2700的流程图。视频编码方法2700包括步骤S2702-S2706。
在步骤S2702中,获取当前块的空间临近参考样点。
在一些实施例中,该空间临近参考样点可以是上述针对NNVC中基于神经网络的帧内预测所获取的参考样点。
在步骤S2704中,基于当前块的空间临近参考样点,使用基于神经网络的帧内预测模式确定第一帧内预测信号。
在一些实施例中,可以使用上述针对NNVC中基于神经网络的帧内预测所描述的方法来使用基于神经网络的帧内预测模式确定第一帧内预测信号。
在一些实施例中,帧内预测信号包括帧内预测样点值。
在步骤S2706中,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号。
根据本公开的实施例,在视频预测中导入基于神经网络的帧内预测模式及预测信号,可以进一步提高编解码性能。
根据一些实施例,其中,一个或多个预测工具包括帧间帧内联合预测CIIP,并且其中,步骤S2706,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:使用第一帧内预测信号替换CIIP中使用基于模板的帧内模式推导TIMD得到的帧内预测模式确定的帧内预测信号,其中,当前块的帧内预测模式包括使用TIMD得到的帧内预测模式、基于神经网络确定的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者。
根据一些实施例,其中,一个或多个预测工具包括帧间帧内联合预测CIIP,并且其中,步骤S2706,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:将第一帧内预测信号添加到候选列表,候选列表包括使用基于模板的帧内模式推导TIMD得到的帧内预测模式确定的帧内预测信号。
根据一些实施例,方法2700还包括:基于率失真优化RDO参数,从候选列表中确定目标帧内预测信号;响应于所确定的目标帧内预测信号是使用TIMD得到的帧内预测模式确定的帧内预测信号,确定当前块的帧内预测模式是使用TIMD得到的帧内预测模式;响应于所确定的目标帧内预测信号是第一帧内预测信号,确定当前块的帧内预测模式是基于神经网络的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者;以及将指示目标帧内预测信号的标志编码到视频比特流中。
示例性地,率失真优化RDO参数中的失真项可以由绝对差总和(SAD)、平方差总和(SSD)或其他差度量确定。
根据一些实施例,其中,一个或多个预测工具包括几何分区模式GPM,并且其中,步骤S2706,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:使用第一帧内预测信号替换候选列表中的原始帧内预测信号,候选列表包括一个或多个原始帧内预测信号。
根据一些实施例,其中,一个或多个预测工具包括几何分区模式GPM,并且其中,步骤S2706,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:将第一帧内预测信号添加到候选列表,候选列表包括一个或多个原始帧内预测信号,其中,第一帧内预测信号被添加到候选列表中的头部、或者被添加到一个或多个原始帧内预测信号中的一个原始帧内预测信号之后。
根据一些实施例,方法2700还包括:基于率失真优化RDO参数,从候选列表中确定目标帧内预测信号;响应于确定目标帧内预测信号为候选列表的中第一帧内预测信号,确定当前块的帧内预测模式是基于神经网络的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者;以及将指示目标帧内预测信号的标志编码到视频比特流中。
根据一些实施例,其中,一个或多个预测工具包括空间几何分区模式SGPM,并且其中,步骤S2706,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:使用第一帧内预测信号替换候选列表中的原始帧内预测信号,候选列表包括一个或多个原始帧内预测信号。
根据一些实施例,其中,一个或多个预测工具包括空间几何分区模式SGPM,并且其中,步骤S2706,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:将第一帧内预测信号添加到候选列表,候选列表包括一个或多个原始帧内预测信号,其中,第一帧内预测信号被添加到候选列表中的头部、或者被添加到一个或多个原始帧内预测信号中的一个原始帧内预测信号之后。
根据一些实施例,方法2700还包括:基于率失真优化RDO参数,从候选列表中确定目标帧内预测信号;响应于确定目标帧内预测信号为候选列表的中第一帧内预测信号,确定当前块的帧内预测模式是基于神经网络的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者;以及将指示目标帧内预测信号的标志编码到视频比特流中。
根据一些实施例,其中,一个或多个预测工具包括基于模板的帧内模式推导TIMD,并且其中,步骤S2706,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:响应于使用TIMD得到的帧内预测模式等于基于神经网络的帧内预测模式,使用第一帧内预测信号替换使用TIMD得到的帧内预测模式确定的帧内预测信号;以及响应于TIMD融合过程中的一个或多个帧内预测模式等于基于神经网络的帧内预测模式,使用第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号。
根据一些实施例,其中,一个或多个预测工具包括基于模板的帧内模式推导TIMD,并且其中,步骤S2706,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:响应于TIMD融合过程中的一个或多个帧内预测模式等于基于神经网络的帧内预测模式,使用第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号,以计算帧内预测信号与重建信号之间的代价函数;以及基于代价函数,确定TIMD融合过程中的一个或多个帧内预测模式的权重。
根据一些实施例,其中,一个或多个预测工具包括解码器侧帧内模式推导DIMD,并且其中,步骤S2706,将第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:响应于DIMD融合过程中的一个或多个帧内预测模式等于基于神经网络的帧内预测模式,使用第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号。
图28是示出了根据本公开的一些实施方式的视频编码方法2800的流程图。视频编码方法2800包括步骤S2802-S2806。
在步骤S2802中,针对当前块的空间临近参考样点确定权重矩阵。
在步骤S2804中,基于权重矩阵和空间临近参考样点确定第一帧内预测信号。
在步骤S2806中,响应于解码器侧帧内模式推导DIMD融合过程中的一个或多个帧内预测模式等于针对权重矩阵的帧内预测模式,使用第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号。
根据本公开的实施例,在视频预测中导入基于矩阵的位置相关帧内预测及预测信号,可以进一步提高编解码性能。
在一些实施例中,可以利用上述基于矩阵的位置相关帧内预测替代现有的传统帧内模式(PDP)所描述的方法确定权重矩阵,并基于权重矩阵和空间临近参考样点确定包括预测样点的帧内预测信号。
根据一些实施例,提供了一种计算设备,包括:一个或多个处理器;以及与一个或多个处理器耦接的存储器,其中,存储器被配置为存储可由一个或多个处理器执行的指令,一个或多个处理器在执行指令时使得计算设备执行上述方法。
根据一些实施例,提供了一种非暂态计算机可读存储介质,存储有通过指令生成的比特流,指令在由具有一个或多个处理器的计算设备执行时,使一个或多个处理器执行上述用于视频编码的方法。
根据一些实施例,提供了一种存储比特流的方法,包括:根据上述用于视频编码的方法生成比特流;以及存储比特流。
根据一些实施例,提供了一种计算机程序产品,包括指令,指令当由计算设备的一个或多个处理器执行时,使计算设备执行上述方法。
本公开的描述出于说明的目的被呈现,并且不旨在穷举或限于本公开。受益于在以上描述和相关联的附图中呈现的教导,许多修改、变化和替代实施方式对于本领域普通技术人员将是显而易见的。
除非另有特别说明,否则根据本公开的方法的步骤顺序仅旨在是说明性的,并且根据本公开的方法的步骤不局限于上述具体描述的顺序,而是可以根据实际情况而改变。此外,根据本公开的方法的步骤中的至少一个步骤可以根据实际需要进行调整、合并或删减。
选择和描述示例是为了解释本公开的原理,并且使本领域的其他技术人员能够理解本公开的各种实施方式,并且最好地利用基本原理和具有适合于预期的特定用途的各种修改的各种实施方式。因此,应当理解,本公开的范围不限于所公开的实施方式的具体示例,并且修改和其他实施方式旨在被包括在本公开的范围内。

Claims (32)

1.一种用于视频解码的方法,包括:
获取当前块的空间临近参考样点;
基于所述当前块的所述空间临近参考样点,使用基于神经网络的帧内预测模式确定第一帧内预测信号;以及
将所述第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号。
2.根据权利要求1所述的方法,其中,所述一个或多个预测工具包括帧间帧内联合预测CIIP,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
使用所述第一帧内预测信号替换所述CIIP中使用基于模板的帧内模式推导TIMD得到的帧内预测模式确定的帧内预测信号,
其中,所述当前块的帧内预测模式包括使用所述TIMD得到的帧内预测模式、基于所述神经网络确定的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者。
3.根据权利要求1所述的方法,其中,所述一个或多个预测工具包括帧间帧内联合预测CIIP,并且其中,将所述第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
确定候选列表,所述候选列表包括使用基于模板的帧内模式推导TIMD得到的帧内预测模式确定的帧内预测信号、以及所述第一帧内预测信号。
4.根据权利要求3所述的方法,还包括:
从比特流中接收指示目标帧内预测信号的标志;
基于所述标志,从所述候选列表中确定所述目标帧内预测信号;
响应于所确定的目标帧内预测信号是使用所述TIMD得到的帧内预测模式确定的帧内预测信号,确定所述当前块的帧内预测模式是使用所述TIMD得到的帧内预测模式;以及
响应于所确定的目标帧内预测信号是所述第一帧内预测信号,确定所述当前块的帧内预测模式是基于所述神经网络的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者。
5.根据权利要求1所述的方法,其中,所述一个或多个预测工具包括几何分区模式GPM,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
确定候选列表,其中,所述候选列表中的原始帧内预测信号中的一个或多个原始帧内预测信号被所述第一帧内预测信号替换。
6.根据权利要求1所述的方法,其中,所述一个或多个预测工具包括几何分区模式GPM,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
确定候选列表,其中,所述候选列表包括一个或多个原始帧内预测信号、以及被添加的所述第一帧内预测信号,
其中,所述第一帧内预测信号被添加到所述候选列表中的头部、或者被添加到所述一个或多个原始帧内预测信号中的一个原始帧内预测信号之后。
7.根据权利要求5-6中任一项所述的方法,还包括:
从比特流中接收指示目标帧内预测信号的标志;
基于所述标志,从所述候选列表中确定所述目标帧内预测信号;
响应于确定目标帧内预测信号为所述候选列表的中第一帧内预测信号,确定所述当前块的帧内预测模式是基于所述神经网络的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者。
8.根据权利要求1所述的方法,其中,所述一个或多个预测工具包括空间几何分区模式SGPM,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
确定候选列表,其中,所述候选列表中的原始帧内预测信号中的一个或多个原始帧内预测信号被所述第一帧内预测信号替换。
9.根据权利要求1所述的方法,其中,所述一个或多个预测工具包括空间几何分区模式SGPM,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
确定候选列表,其中,所述候选列表包括一个或多个原始帧内预测信号、以及被添加的所述第一帧内预测信号,
其中,所述第一帧内预测信号被添加到所述候选列表中的头部、或者被添加到所述一个或多个原始帧内预测信号中的一个原始帧内预测信号之后。
10.根据权利要求8-9中任一项所述的方法,还包括:
从比特流中接收指示目标帧内预测信号的标志;
基于所述标志,从所述候选列表中确定所述目标帧内预测信号;
响应于确定目标帧内预测信号为所述候选列表的中第一帧内预测信号,确定所述当前块的帧内预测模式是基于所述神经网络的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者。
11. 根据权利要求1所述的方法,其中,所述一个或多个预测工具包括基于模板的帧内模式推导TIMD,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
响应于使用所述TIMD得到的帧内预测模式等于基于神经网络的帧内预测模式,使用所述第一帧内预测信号替换使用所述TIMD得到的帧内预测模式确定的帧内预测信号;以及
响应于所述TIMD融合过程中的一个或多个帧内预测模式等于基于神经网络的帧内预测模式,使用所述第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号。
12. 根据权利要求1所述的方法,其中,所述一个或多个预测工具包括基于模板的帧内模式推导TIMD,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
响应于所述TIMD融合过程中的一个或多个帧内预测模式等于基于神经网络的帧内预测模式,使用所述第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号,以计算帧内预测信号与重建信号之间的代价函数;以及
基于所述代价函数,确定所述TIMD融合过程中的一个或多个帧内预测模式的权重。
13.根据权利要求1所述的方法,其中,所述一个或多个预测工具包括解码器侧帧内模式推导DIMD,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
响应于所述DIMD融合过程中的一个或多个帧内预测模式等于基于神经网络的帧内预测模式,使用所述第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号。
14.一种用于视频解码的方法,包括:
针对当前块的空间临近参考样点确定权重矩阵;
基于所述权重矩阵和所述空间临近参考样点确定第一帧内预测信号;以及
响应于解码器侧帧内模式推导DIMD融合过程中的一个或多个帧内预测模式等于针对所述权重矩阵的帧内预测模式,使用所述第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号。
15.一种用于视频编码的方法,包括:
获取当前块的空间临近参考样点;
基于所述当前块的所述空间临近参考样点,使用基于神经网络的帧内预测模式确定第一帧内预测信号;以及
将所述第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号。
16.根据权利要求15所述的方法,其中,所述一个或多个预测工具包括帧间帧内联合预测CIIP,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
使用所述第一帧内预测信号替换所述CIIP中使用基于模板的帧内模式推导TIMD得到的帧内预测模式确定的帧内预测信号,
其中,所述当前块的帧内预测模式包括使用所述TIMD得到的帧内预测模式、基于所述神经网络确定的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者。
17.根据权利要求15所述的方法,其中,所述一个或多个预测工具包括帧间帧内联合预测CIIP,并且其中,将所述第一帧内预测信号作为用于一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
将所述第一帧内预测信号添加到候选列表,所述候选列表包括使用基于模板的帧内模式推导TIMD得到的帧内预测模式确定的帧内预测信号。
18.根据权利要求17所述的方法,还包括:
基于率失真优化RDO参数,从所述候选列表中确定目标帧内预测信号;
响应于所确定的目标帧内预测信号是使用所述TIMD得到的帧内预测模式确定的帧内预测信号,确定所述当前块的帧内预测模式是使用所述TIMD得到的帧内预测模式;
响应于所确定的目标帧内预测信号是所述第一帧内预测信号,确定所述当前块的帧内预测模式是基于所述神经网络的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者;以及
将指示所述目标帧内预测信号的标志编码到视频比特流中。
19.根据权利要求15所述的方法,其中,所述一个或多个预测工具包括几何分区模式GPM,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
使用所述第一帧内预测信号替换候选列表中的原始帧内预测信号,所述候选列表包括一个或多个原始帧内预测信号。
20.根据权利要求15所述的方法,其中,所述一个或多个预测工具包括几何分区模式GPM,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
将所述第一帧内预测信号添加到候选列表,所述候选列表包括一个或多个原始帧内预测信号,
其中,所述第一帧内预测信号被添加到所述候选列表中的头部、或者被添加到所述一个或多个原始帧内预测信号中的一个原始帧内预测信号之后。
21.根据权利要求19-20中任一项所述的方法,还包括:
基于率失真优化RDO参数,从所述候选列表中确定目标帧内预测信号;
响应于确定目标帧内预测信号为所述候选列表的中第一帧内预测信号,确定所述当前块的帧内预测模式是基于所述神经网络的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者;以及
将指示所述目标帧内预测信号的标志编码到视频比特流中。
22.根据权利要求15所述的方法,其中,所述一个或多个预测工具包括空间几何分区模式SGPM,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
使用所述第一帧内预测信号替换候选列表中的原始帧内预测信号,所述候选列表包括一个或多个原始帧内预测信号。
23.根据权利要求15所述的方法,其中,所述一个或多个预测工具包括空间几何分区模式SGPM,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
将所述第一帧内预测信号添加到候选列表,所述候选列表包括一个或多个原始帧内预测信号,
其中,所述第一帧内预测信号被添加到所述候选列表中的头部、或者被添加到所述一个或多个原始帧内预测信号中的一个原始帧内预测信号之后。
24.根据权利要求22-23中任一项所述的方法,还包括:
基于率失真优化RDO参数,从所述候选列表中确定目标帧内预测信号;
响应于确定目标帧内预测信号为所述候选列表的中第一帧内预测信号,确定所述当前块的帧内预测模式是基于所述神经网络的帧内预测模式、或使用解码器侧帧内模式推导DIMD得到的帧内预测模式中的一者;以及
将指示所述目标帧内预测信号的标志编码到视频比特流中。
25. 根据权利要求15所述的方法,其中,所述一个或多个预测工具包括基于模板的帧内模式推导TIMD,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
响应于使用所述TIMD得到的帧内预测模式等于基于神经网络的帧内预测模式,使用所述第一帧内预测信号替换使用所述TIMD得到的帧内预测模式确定的帧内预测信号;以及
响应于所述TIMD融合过程中的一个或多个帧内预测模式等于基于神经网络的帧内预测模式,使用所述第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号。
26. 根据权利要求15所述的方法,其中,所述一个或多个预测工具包括基于模板的帧内模式推导TIMD,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
响应于所述TIMD融合过程中的一个或多个帧内预测模式等于基于神经网络的帧内预测模式,使用所述第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号,以计算帧内预测信号与重建信号之间的代价函数;以及
基于所述代价函数,确定所述TIMD融合过程中的一个或多个帧内预测模式的权重。
27.根据权利要求15所述的方法,其中,所述一个或多个预测工具包括解码器侧帧内模式推导DIMD,并且其中,将所述第一帧内预测信号作为用于所述一个或多个预测工具的帧内预测信号或候选帧内预测信号包括:
响应于所述DIMD融合过程中的一个或多个帧内预测模式等于基于神经网络的帧内预测模式,使用所述第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号。
28.一种用于视频编码的方法,包括:
针对当前块的空间临近参考样点确定权重矩阵;
基于所述权重矩阵和所述空间临近参考样点确定第一帧内预测信号;以及
响应于解码器侧帧内模式推导DIMD融合过程中的一个或多个帧内预测模式等于针对所述权重矩阵的帧内预测模式,使用所述第一帧内预测信号替换使用该一个或多个帧内预测模式确定的帧内预测信号。
29. 一种计算设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器耦接的存储器,
其中,所述存储器被配置为存储可由所述一个或多个处理器执行的指令,所述一个或多个处理器在执行所述指令时使得所述计算设备执行如权利要求1-28中任一项所述的方法。
30.一种非暂态计算机可读存储介质,存储有通过指令生成的比特流,所述指令在由具有一个或多个处理器的计算设备执行时,使所述一个或多个处理器执行如权利要求15-28中任一项所述的方法。
31. 一种存储比特流的方法,包括:
根据如权利要求15-28中任一项所述的方法生成比特流;以及
存储所述比特流。
32.一种计算机程序产品,包括指令,所述指令当由计算设备的一个或多个处理器执行时,使所述计算设备执行如权利要求1-28中任一项所述的方法。
CN202511488996.XA 2024-10-17 2025-10-17 用于视频编解码方法、设备、介质和产品 Pending CN121908012A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CNPCT/CN2024/125507 2024-10-17
CN2024125507 2024-10-17

Publications (1)

Publication Number Publication Date
CN121908012A true CN121908012A (zh) 2026-04-21

Family

ID=99444142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202511488996.XA Pending CN121908012A (zh) 2024-10-17 2025-10-17 用于视频编解码方法、设备、介质和产品

Country Status (1)

Country Link
CN (1) CN121908012A (zh)

Similar Documents

Publication Publication Date Title
US20250039457A1 (en) Methods and devices for geometric partitioning mode with adaptive blending
US20240214580A1 (en) Intra prediction modes signaling
US12294734B2 (en) Spatial neighbor based affine motion derivation
US12542898B2 (en) Methods and devices for decoder-side intra mode derivation
US20240298007A1 (en) Methods and devices for decoder-side intra mode derivation
US20240244192A1 (en) Methods and devices for decoder-side intra mode derivation
CN117730535A (zh) 视频编解码中用于仿射运动补偿预测的几何分割
CN117730531A (zh) 用于解码器侧帧内模式推导的方法和设备
CN121713476A (zh) 基于外推滤波器的预测模式的方法和设备
US12542897B2 (en) Methods and devices for decoder-side intra mode derivation
CN116636218A (zh) 利用多方向帧内预测的视频编解码
CN120660349A (zh) 用于帧内块复制和帧内模板匹配的方法和设备
CN115514971B (zh) 对视频数据进行编码的方法和装置
CN121942194A (zh) 用于参考图片重采样的基于模板的编解码方法、装置和存储介质
CN119096540A (zh) 用于具有自适应混合的几何划分模式的方法和设备
WO2023141338A1 (en) Methods and devices for geometric partitioning mode with split modes reordering
CN121908012A (zh) 用于视频编解码方法、设备、介质和产品
WO2025103344A1 (en) Methods and devices of extrapolation filter-based prediction mode
CN121693912A (zh) 基于外推滤波器的预测模式的方法和设备
CN121942200A (zh) 基于外推滤波器的预测模式的方法和设备
CN121750873A (zh) 针对颜色分量的残差编解码
CN120751143A (zh) 视频编码方法和装置
CN120958793A (zh) 用于帧内模板匹配预测的搜索区域修改
CN121970345A (zh) 用于帧内块复制的方法和设备
CN121128180A (zh) 用于帧内块复制和帧内模板匹配的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination