WO2024098941A1

WO2024098941A1 - 图像的处理方法、装置、电子设备和存储介质

Info

Publication number: WO2024098941A1
Application number: PCT/CN2023/118093
Authority: WO
Inventors: 蒋博; 陈少宇; 廖本成; 程天恒; 陈嘉杰; 周贺龙; 张骞; 黄畅
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2022-11-11
Filing date: 2023-09-11
Publication date: 2024-05-16
Anticipated expiration: 2025-05-11
Also published as: JP2025539067A; EP4610945A4; EP4610945A1; CN115719476A

Abstract

本公开实施例公开了一种图像的处理方法、装置、电子设备和存储介质，其中，方法包括：基于至少一个视角中各视角分别对应的待处理图像，确定各视角分别对应的第一图像特征；基于各视角分别对应的第一图像特征，确定第一鸟瞰图特征；基于第一鸟瞰图特征，确定静态元素任务查询特征、动态对象任务查询特征和运动轨迹任务查询特征中的至少一种任务查询特征；基于至少一种任务查询特征中的各任务查询特征，确定各任务查询特征分别对应的任务处理结果。本公开实施例仅依赖多视角环境图像即可实现端到端的单任务或多任务处理，即使在没有高精地图的情况下也能够有效获得准确的周围环境信息，大大提高通用性，且有效降低成本。

Description

图像的处理方法、装置、电子设备和存储介质

本公开要求在2022年11月11日提交国家知识产权局、申请号为CN202211417346.2、发明名称为“图像的处理方法、装置、电子设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及计算机视觉技术，尤其是一种图像的处理方法、装置、电子设备和存储介质。

背景技术

在自动驾驶领域，如何依赖多视角的环境图像高效理解环境信息是极为重要的技术问题。

发明内容

本公开的实施例提供了一种图像的处理方法、装置、电子设备和存储介质。

根据本公开实施例的一个方面，提供了一种图像的处理方法，包括：基于至少一个视角中各所述视角分别对应的待处理图像，确定各所述视角分别对应的第一图像特征；基于各所述视角分别对应的所述第一图像特征，确定第一鸟瞰图特征；基于所述第一鸟瞰图特征，确定静态元素任务查询特征、动态对象任务查询特征和运动轨迹任务查询特征中的至少一种任务查询特征；基于所述至少一种任务查询特征中的各所述任务查询特征，确定各所述任务查询特征分别对应的任务处理结果。

根据本公开实施例的另一个方面，提供了一种图像的处理装置，包括：第一处理模块，用于基于至少一个视角中各所述视角分别对应的待处理图像，确定各所述视角分别对应的第一图像特征；第二处理模块，用于基于各所述视角分别对应的所述第一图像特征，确定第一鸟瞰图特征；第三处理模块，用于基于所述第一鸟瞰图特征，确定静态元素任务查询特征、动态对象任务查询特征和运动轨迹任务查询特征中的至少一种任务查询特征；第四处理模块，用于基于所述至少一种任务查询特征中的各所述任务查询特征，确定各所述任务查询特征分别对应的任务处理结果。

根据本公开实施例的再一方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本公开上述任一实施例所述的图像的处理方法。

根据本公开实施例的又一方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本公开上述任一实施例所述的图像的处理方法。

本公开上述实施例提供的图像的处理方法、装置、电子设备和存储介质，可以基于各视角的待处理图像确定出的各视角分别对应的图像特征，确定出鸟瞰图特征，基于鸟瞰图特征确定出至少一种任务查询特征，进而基于各任务查询特征，获得各任务分别对应的任务处理结果，基于多视角环境图像即可实现端到端的单任务或多任务处理，可以避免或降低对高精地图的依赖，从而实现即使在没有高精地图的情况下也能够有效获得准确的周围环境信息，有助于提高通用性，且可以降低成本。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

图1是本公开提供的图像的处理方法的一个示例性的应用场景；

图2是本公开一示例性实施例提供的图像的处理方法的流程示意图；

图3是本公开另一示例性实施例提供的图像的处理方法的流程示意图；

图4是本公开一示例性实施例提供的步骤2031a的流程示意图；

图5是本本公开一示例性实施例提供的第一解码网络的网络结构示意图；

图6是本公开一示例性实施例提供的步骤2031b的流程示意图；

图7是本公开一示例性实施例提供的步骤2031c的流程示意图；

图8是本公开一示例性实施例提供的第三解码网络的结构示意图；

图9是本公开再一示例性实施例提供的图像的处理方法的流程示意图；

图10是本公开一示例性实施例提供的步骤301的流程示意图；

图11是本公开一示例性实施例提供的初始运动轨迹查询特征的确定原理示意图；

图12是本公开一示例性实施例提供的步骤2021的流程示意图；

图13是本公开一示例性实施例提供的编码器网络的网络结构示意图；

图14是本公开一示例性实施例提供的用于图像处理的网络模型的整体结构示意图；

图15是本公开一示例性实施例提供的图像的处理装置的结构示意图；

图16是本公开另一示例性实施例提供的图像的处理装置的结构示意图；

图17是本公开一示例性实施例提供的第三处理模块503的结构示意图；

图18是本公开电子设备一个应用实施例的结构示意图。

具体实施方式

为了解释本公开，下面将参考附图详细地描述本公开的示例实施例，显然，所描述的实施例仅是本公开的一部分实施例，而不是全部实施例，应理解，本公开不受示例性实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本公开概述

在实现本公开的过程中，发明人发现，在自动驾驶领域，如何依赖多视角的环境图像高效理解环境信息是极为重要的技术问题，若基于多视角的环境图像结合高精地图实现对周围环境信息的理解，容易导致在没有高精地图情况下获得的环境信息准确性较差。

示例性概述

图1是本公开提供的图像的处理方法的一个示例性的应用场景。

在自动驾驶场景，可以基于车载环视摄像头(可以包括多个视角的摄像头)采集车辆周围环境图像作为各视角分别对应的待处理图像，利用本公开的图像的处理装置执行本公开的图像的处理方法，可以基于至少一个视角中各视角分别对应的待处理图像，确定各视角分别对应的第一图像特征，基于各视角分别对应的第一图像特征，确定第一鸟瞰图特征，第一鸟瞰图特征是鸟瞰图(Bird’s Eye View，简称：BEV)对应的网格坐标系下的特征，基于第一鸟瞰图特征可以确定静态元素任务查询特征、动态对象任务查询特征和运动轨迹任务查询特征，进而分别基于静态元素任务查询特征、动态对象任务查询特征和运动轨迹任务查询特征，确定对应的任务处理结果(例如但不限于包括任务处理结果1、任务处理结果2和任务处理结果3)，比如基于静态元素任务查询特征确定出静态元素任务处理结果(具体比如自动驾驶场景中车辆周围环境的静态元素检测结果)，基于动态对象任务查询特征确定出动态对象任务处理结果(具体比如三维目标检测结果)，基于运动轨迹任务查询特征确定出运动轨迹任务处理结果(具体比如动态对象的运动轨迹预测结果)，实现基于多视角环境图像的端到端的单任务或多任务处理，无需结合高精地图，有助于避免或降低对高精地图的依赖，从而实现即使在没有高精地图的情况下也能够有效获得准确的周围环境信息，有助于提高通用性，且可以降低成本。其中，静态元素可以包括车道线、斑马线、路沿等静态的对象元素，动态对象可以包括周围的车辆、行人等具有运动属性的对象，运动轨迹是指动态对象的运动轨迹。

需要说明的是，本公开的图像的处理方法不限于上述的自动驾驶场景，可以根据实际需求应用于其他任意可能的场景，比如一定区域的安防监控场景，通过各视角的摄像头采集的图像获得该区域内的鸟瞰图特征，实现该区域内静态元素、动态对象和/或动态对象运动轨迹的端到端任务处理，具体场景可以根据实际需求设置。

示例性方法

图2是本公开一示例性实施例提供的图像的处理方法的流程示意图。本实施例可应用在电子设备上，具体比如车载计算平台上，如图2所示，包括如下步骤：

步骤201，基于至少一个视角中各视角分别对应的待处理图像，确定各视角分别对应的第一图像特征。

其中，视角数量可以根据实际需求设置，比如在自动驾驶场景，视角数量为车辆上设置的环视摄像头数量，每个摄像头对应一个视角，比如左前摄像头、左后摄像头、右前摄像头和右后摄像头构成的四路环视系统包括4个视角，具体不作限定。第一图像特征可以采用任意可实施的特征提取方式获得，比如基于预先训练获得的特征提取网络对各待处理图像进行特征提取，获得各视角分别对应的第一图像特征。其中，特征提取网络可以根据实际需求设置，比如可以采用卷积神经网络作为特征提取网络。

在一个可选示例中，该步骤201可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一处理模块执行。

步骤202，基于各视角分别对应的第一图像特征，确定第一鸟瞰图特征。

其中，第一鸟瞰图特征是鸟瞰图对应的网格坐标系下的BEV特征，可以基于预先训练获得的编码器网络，对各视角的第一图像特征进行编码，获得第一鸟瞰图特征。编码器网络可以根据实际需求设置。

在一个可选示例中，该步骤202可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二处理模块执行。

步骤203，基于第一鸟瞰图特征，确定静态元素任务查询特征、动态对象任务查询特征和运动轨迹任务查询特征中的至少一种任务查询特征。

其中，静态元素任务查询特征是从第一鸟瞰图特征中提取的与静态元素相关的任务查询特征，同理，动态对象任务查询特征是从第一鸟瞰图特征中提取的与动态对象相关的任务查询特征，运动轨迹任务查询特征是从静态元素任务查询特征中提取的与动态对象运动轨迹相关的任务查询特征。具体需要获得哪种或哪几种任务查询特征可以根据实际需求设置。比如可以获得任一种，也可以获得任两种，也可以同时获得三种。对于任一种任务查询特征，可以采用预先训练获得的该任务对应的解码网络对第一鸟瞰图特征进行解码获得。具体解码网络可以根据实际需求设置。

在一个可选示例中，该步骤203可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第三处理模块执行。

步骤204，基于至少一种任务查询特征中的各任务查询特征，确定各任务查询特征分别对应的任务处理结果。

其中，对于任一种任务，可以设置该任务对应的头网络，并进行训练获得训练后的头网络，用于对该任务对应的任务查询特征进行输出投影，获得该任务查询特征对应的任务处理结果。其中，头网络的具体网络结构可以根据实际需求设置，比如可以采用多层感知机(Multilayer Perceptron，简称：MLP)实现。

在一个可选示例中，该步骤204可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第四处理模块执行。

本实施例提供的图像的处理方法，可以基于各视角的待处理图像确定出的各视角分别对应的图像特征，确定出鸟瞰图特征，基于鸟瞰图特征确定出至少一种任务查询特征，进而基于各任务查询特征，获得各任务分别对应的任务处理结果，仅依赖多视角环境图像即可实现端到端的单任务或多任务处理，无需结合高精地图，可以避免或降低对高精地图的依赖，从而实现即使在没有高精地图的情况下也能够有效获得准确的周围环境信息，有助于提高通用性，且可以降低成本。

图3是本公开另一示例性实施例提供的图像的处理方法的流程示意图。

在一个可选示例中，步骤203具体可以包括以下步骤：

步骤2031a，基于第一鸟瞰图特征及初始静态元素查询特征，利用预先训练获得的第一解码网络，确定静态元素任务查询特征，初始静态元素查询特征包括至少一个静态元素中各静态元素分别对应的初始查询特征。

其中，初始静态元素查询特征可以根据实际需求设置，比如基于第一初始化规则进行初始化获得的初始静态元素查询特征，第一初始化规则可以根据实际需求设置，比如随机初始化N2个D维的静态query(静态query表示静态元素对应的初始查询特征)作为初始静态元素查询特征，N2为静态query的数量，也即静态元素的数量，N2可以根据实际需求设置，D表示每个静态元素对应的初始查询特征的维度。第一解码网络可以包括至少一个解码器，用于基于初始静态元素查询特征从第一鸟瞰图特征中查询与静态元素相关的任务查询特征，获得静态元素任务查询特征。第一解码网络的具体网络结构可以根据实际需求设置。

在一个可选示例中，该步骤2031a可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一处理单元执行。

本公开实施例通过利用训练获得的第一解码网络，基于初始静态元素查询特征从第一鸟瞰图特征中查询获得与静态元素相关的静态元素任务查询特征，为后续静态元素检测任务的实现提供更加准确有效的特征数据，以实现基于多视角图像的端到端的任务处理，当应用于地图重建场景时，可以不依赖离线生成的高精地图即可在线生成静态地图信息，进一步提高通用性。

在一个可选示例中，步骤203具体可以包括以下步骤：

步骤2031b，基于第一鸟瞰图特征及初始动态对象查询特征，利用预先训练获得的第二解码网络，确定动态对象任务查询特征，初始动态对象查询特征包括至少一个动态对象中各动态对象分别对应的初始查询特征。

其中，初始动态对象查询特征可以根据实际需求设置，比如基于第二初始化规则进行初始化获得的初始动态对象查询特征，第二初始化规则可以根据实际需求设置，比如随机初始化N1个D维的动态query(动态query表示动态对象对应的初始查询特征)作为初始动态对象查询特征，N1为动态query的数量，也即动态对象的数量，N1可以根据实际需求设置，D表示每个动态对象对应的初始查询特征的维度。第二解码网络可以包括至少一个解码器，用于基于初始动态对象查询特征从第一鸟瞰图特征中查询与动态对象相关的任务查询特征，获得动态对象任务查询特征。第二解码网络的具体网络结构可以根据实际需求设置。

在一个可选示例中，该步骤2031b可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二处理单元执行。

本公开实施例通过利用训练获得的第二解码网络，基于初始动态对象查询特征从第一鸟瞰图特征中查询获得与动态对象相关的动态对象任务查询特征，为后续动态对象检测任务的实现提供更加准确有效的特征数据，以实现基于多视角图像的端到端的三维目标检测任务处理，可以避免再进行动态对象的跟踪，从而有助于降低网络模型的计算复杂度，同时可以避免目标跟踪误差对后续应用产生的影响。

在一个可选示例中，步骤203具体可以包括以下步骤：

步骤2031c，基于静态元素任务查询特征及初始运动轨迹查询特征，利用预先训练获得的第三解码网络，确定运动轨迹任务查询特征，初始运动轨迹查询特征包括至少一个动态对象中各动态对象分别对应的初始轨迹查询特征。

其中，初始运动轨迹查询特征需要结合动态对象任务查询特征及模态查询特征确定，模态查询特征用于表征动态对象的运动趋势，不同模态关注不同的未来运动类型(比如快速直行、低速直行、左转、右转，等等)，动态对象任务查询特征用于表征动态对象相关的特征，结合模态查询特征和动态对象任务查询特征，可以确定出与动态对象运动轨迹相关的初始轨迹查询特征，进而在第三解码网络中与静态元素任务查询特征交互，解码出运动轨迹任务查询特征。第三解码网络可以根据实际需求设置。

在一个可选示例中，该步骤2031c可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第三处理单元执行。

本公开实施例通过利用训练获得的第三解码网络，基于初始运动轨迹查询特征从静态元素任务查询特征中查询获得与动态对象运动轨迹相关的运动轨迹任务查询特征，为后续动态对象的运动轨迹预测任务的实现提供更加准确有效的特征数据，以实现基于多视角图像的端到端的运动轨迹预测任务处理。

在一个可选示例中，步骤203可以包括上述2031a-2031c中的至少两个步骤，具体可以根据实际需求设置，从而可以仅依赖多视角图像实现端到端的多任务处理，同时获得多个任务分别对应的任务处理结果，可以避免对高精地图及激光雷达的依赖，有助于进一步提高通用性。

图4是本公开一示例性实施例提供的步骤2031a的流程示意图。

在一个可选示例中，步骤2031a的基于第一鸟瞰图特征及初始静态元素查询特征，利用预先训练获得的第一解码网络，确定静态元素任务查询特征，包括：

步骤20311a，基于初始静态元素查询特征，确定第一查询张量、第一键张量和第一值张量。

其中，可以基于第一查询映射规则将初始静态元素查询特征映射为第一查询张量，比如基于第一查询映射矩阵进行映射，同理，可以基于第一键映射规则将初始静态元素查询特征映射为第一键张量，基于第一值映射规则将初始静态元素查询特征映射为第一值张量，具体映射原理不再赘述。

步骤20312a，基于第一查询张量、第一键张量和第一值张量，利用第一解码网络中第一个解码器的第一自注意力网络，确定第一自注意力结果。

其中，第一自注意力网络为基于自注意力机制的网络，可以根据实际需求设置，用于完成第一查询张量、第一键张量和第一值张量的自注意力操作。具体来说，基于第一查询张量和第一键张量进行自注意力操作，获得第一权重，进而基于第一权重对第一值张量进行加权求和，获得第一自注意力结果。具体自注意力机制的原理不再赘述。

步骤20313a，基于第一自注意力结果和初始静态元素查询特征，利用第一解码网络中的第一个解码器的第一相加归一化网络，确定第一中间结果。

其中，第一相加归一化网络(Add&Norm)具有相加和归一化两种功能，其中，相加是将第一自注意力结果与初始静态元素查询特征相加，获得第一相加结果，将第一相加结果再进行归一化，获得第一中间结果。

步骤20314a，基于第一中间结果，确定第二查询张量。

其中，可以将第一中间结果作为第二查询张量，或者基于相应的映射规则将第一中间结果映射为第二查询张量，具体可以根据实际需求设置。

步骤20315a，基于第一鸟瞰图特征，确定第二键张量和第二值张量。

其中，第二键张量和第二值张量的确定原理参见前述内容，在此不再赘述。

步骤20316a，基于第二查询张量、第二键张量和第二值张量，利用第一解码网络中第一个解码器的第一可变形交叉注意力网络，确定第一交叉注意力结果。

其中，第一可变形交叉注意力网络为基于可变形卷积的交叉注意力网络，其功能是可以从第一鸟瞰图特征中提取与初始静态元素查询特征对应位置附近的局部区域内的特征，进一步提高提取特征的准确性和有效性。

步骤20317a，基于第一交叉注意力结果和第一中间结果，确定静态元素任务查询特征。

其中，在第一解码网络中的第一个解码器中在第一可变形交叉注意力网络之后还可以包括其他相关网络，比如相加归一化网络(Add&Norm)、前馈网络(Feed Forward)等，因此在获得第一交叉注意力结果后，可以将第一交叉注意力结果与第一中间结果相加并归一化后，再通过其他相关网络，最终获得第一个解码器的解码结果，当第一解码网络中包括多个解码器时，第一个解码器的解码结果还可以作为第二个解码器的输入，按照上述第一个解码器的解码流程再进行解码，以此类推，直至完成所有解码器的解码，获得第一解码网络的最终解码结果，该最终解码结果作为静态元素任务查询特征。

在一个可选示例中，图5是本公开一示例性实施例提供的第一解码网络的网络结构示意图。如图5所示，第一解码网络包括6个解码器。其中，×6表示第一解码网络包括6个虚框内的解码器，该虚框内的解码器以第一个解码器为例，Q1、K1、V1分别表示第一查询张量、第一键张量和第一值张量，Self Attention表示第一自注意力网络，Add&Norm表示相加归一化网络，与第一自注意力网络连接的Add&Norm表示第一相加归一化网络，Q2、K2、V2分别表示第二查询张量、第二键张量和第二值张量；Deformable Cross Attention表示第一可变形交叉注意力网络，Feed Forward表示前馈网络。初始静态元素查询特征映射为第一查询张量、第一键张量和第一值张量后在第一自注意力网络进行自我交互，获得第一自注意力结果，第一自注意力结果与初始静态元素查询特征相加并归一化后获得第一中间结果，第一中间结果映射为第二查询张量，同时，第一鸟瞰图特征映射为第二键张量和第二值张量，第二查询张量、第二键张量和第二值张量在第一可变形交叉注意力网络进行交叉注意力，实现第一鸟瞰图特征与初始静态元素查询特征的交互，获得第一交叉注意力结果，第一交叉注意力结果与第一中间结果相加并归一化后获得第一归一化结果，第一归一化结果经前馈网络和又一个相加归一化网络后获得第一个解码器的解码结果，该解码结果再经过5个解码器的解码获得静态元素任务查询特征。

在一个可选示例中第一自注意力网络可以是多头自注意力网络，第一可变形交叉注意力网络也可以是多头可变形交叉注意力网络，具体可以根据实际需求设置。

在一个可选示例中，上述步骤20311a至步骤20317a可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一处理单元执行。

本公开实施例通过第一解码网络中的自注意力网络实现静态元素查询特征的自我交互，可以捕获静态元素查询特征的内部相关性，进而在可变形交叉注意力网络与鸟瞰图特征进行交互，实现对数据的稀疏注意力，灵活地捕获相关局部区域的特征，有助于在保证获得准确有效的相关特征基础上，降低计算量，从而可以提高网络推理速度。

图6是本公开一示例性实施例提供的步骤2031b的流程示意图。

在一个可选示例中，步骤2031b的基于第一鸟瞰图特征及初始动态对象查询特征，利用预先训练获得的第二解码网络，确定动态对象任务查询特征，包括：

步骤20311b，基于初始动态对象查询特征，确定第三查询张量、第三键张量和第三值张量。

步骤20312b，基于第三查询张量、第三键张量和第三值张量，利用第二解码网络中第一个解码器的第二自注意力网络，确定第二自注意力结果。

步骤20313b，基于第二自注意力结果和初始动态对象查询特征，利用第二解码网络中的第一个解码器的第二相加归一化网络，确定第二中间结果。

步骤20314b，基于第二中间结果，确定第四查询张量。

步骤20315b，基于第一鸟瞰图特征，确定第四键张量和第四值张量。

步骤20316b，基于第四查询张量、第四键张量和第四值张量，利用第二解码网络中第一个解码器的第二可变形交叉注意力网络，确定第二交叉注意力结果。

步骤20317b，基于第二交叉注意力结果和第二中间结果，确定动态对象任务查询特征。

步骤20311b-20317b的具体操作原理与前述步骤20311a-20317a相同或相似，不同之处在于步骤20311b中基于的是初始动态对象查询特征，与步骤20311a中的初始静态元素查询特征不同，在此不再一一赘述。基于此，第二解码网络的网络结构与第一解码网络相同或相似，在此不再赘述。

在一个可选示例中，上述步骤20311b至步骤20317b可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二处理单元执行。

图7是本公开一示例性实施例提供的步骤2031c的流程示意图。

在一个可选示例中，步骤2031c的基于静态元素任务查询特征及初始运动轨迹查询特征，利用预先训练获得的第三解码网络，确定运动轨迹任务查询特征，包括：

步骤20311c，基于初始运动轨迹查询特征，确定第五查询张量、第五键张量和第五值张量。

步骤20312c，基于第五查询张量、第五键张量和第五值张量，利用第三解码网络中第一个解码器的第三自注意力网络，确定第三自注意力结果。

步骤20313c，基于第三自注意力结果和初始运动轨迹查询特征，利用第三解码网络中的第一个解码器的第三相加归一化网络，确定第三中间结果。

步骤20314c，基于第三中间结果，确定第六查询张量。

步骤20311c-步骤20314c的具体操作原理与前述步骤20311a-20314a相同或相似，在此不再赘述。

步骤20315c，基于静态元素任务查询特征，确定第六键张量和第六值张量。

该步骤的第六查询张量和第六值张量是基于前述示例获得的静态元素任务查询特征映射获得，映射原理参见前述内容。

步骤20316c，基于第六查询张量、第六键张量和第六值张量，利用第三解码网络中第一个解码器的第一交叉注意力网络，确定第三交叉注意力结果。

其中，第一交叉注意力网络可以采用任意可实施的交叉注意力网络，具体可以根据实际需求设置，示例性地，第一交叉注意力网络可以采用常规的视觉Transformer中的交叉注意力网络结构，具体不作限定。

步骤20317c，基于第三交叉注意力结果和第三中间结果，确定运动轨迹任务查询特征。

该步骤的具体操作原理参见前述步骤20317a，在此不再赘述。

示例性的，图8是本公开一示例性实施例提供的第三解码网络的结构示意图。其中，初始运动轨迹查询特征包括多个轨迹query(轨迹query表示动态对象对应的初始轨迹查询特征)，Q5、K5、V5分别表示第五查询张量、第五键张量和第五值张量，Q6、K6、V6分别表示第六查询张量、第六键张量和第六值张量，其他符号含义及推理过程参见前述内容，在此不再赘述。

在一个可选示例中，上述步骤20311c至步骤20317c可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第三处理单元执行。

本公开实施例通过第三解码网络中的自注意力网络实现运动轨迹查询特征的自我交互，可以捕获运动轨迹查询特征的内部相关性，进而在交叉注意力网络与静态元素任务查询特征进行交互，实现对动态对象的运动轨迹相关特征的有效捕获，从而隐式地了解到周围的静态信息(比如周围道路信息)，有助于为准确预测出动态对象的更合理的未来运动轨迹提供准确有效的特征数据，实现基于多视角图像特征的端到端运动轨迹预测。

图9是本公开再一示例性实施例提供的图像的处理方法的流程示意图。

在一个可选示例中，在步骤2031c的基于静态元素任务查询特征及初始运动轨迹查询特征，利用预先训练获得的第三解码网络，确定运动轨迹任务查询特征之前，还包括：

步骤301，基于动态对象任务查询特征及模态查询特征，确定初始运动轨迹查询特征，模态查询特征包括至少一种模态中各模态分别对应的第一模态查询特征，模态对应的第一模态查询特征用于表征动态对象的一种运动趋势。

其中，模态查询特征可以根据实际需求设置，比如通过第三初始化规则进行初始化获得，由于模态查询特征可以表征动态对象的运动趋势，结合表征动态对象位置的动态对象任务查询特征，可以确定出初始运动轨迹查询特征。

示例性的，可以随机初始化N3个D维的模态query(模态query表示模态对应的第一模态查询特征)，作为模态查询特征。N3可以根据实际需求设置。模态查询特征与动态对象任务查询特征融合，形成N1×N3个D维的轨迹query，作为初始运动轨迹查询特征，即每个动态对象具有N3个模态，表征其N3种运动趋势。

在一个可选示例中，该步骤301可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第四处理单元执行。

本公开实施例基于更新获得的动态对象任务查询特征和模态查询特征融合，获得初始运动轨迹查询特征，从而使得初始运动轨迹查询特征可以包括各动态对象分别对应的任务查询特征以及每个动态对象的多个模态的查询特征，不同模态可以关注不同的未来运动类型(比如快速直行、低速直行、左转、右转，等等)，有助于为后续通过第三解码网络解码出运动轨迹任务查询特征提供有效的数据支撑。

图10是本公开一示例性实施例提供的步骤301的流程示意图。

在一个可选示例中，动态对象任务查询特征包括至少一个动态对象的任务查询特征；步骤301的基于动态对象任务查询特征及模态查询特征，确定初始运动轨迹查询特征，包括：

步骤3011，对于每个动态对象对应的任务查询特征，基于该任务查询特征，确定第一数量的该任务查询特征，第一数量为模态查询特征中包括的第一模态查询特征数量。

其中，每个动态对象都可以赋予第一数量的第一模态查询特征，用于表征该动态对象的第一数量的运动趋势，因此，为了能够将该对象的任务查询特征与模态查询特征融合，可以将该动态对象的任务查询特征的数量变换为与模态查询特征的数量相同，因此，基于该动态对象的任务查询特征，可以确定出第一数量的该任务查询特征。

示例性的，模态查询特征包括N3个D维的模态query，则对于每个动态对象的D维的任务查询特征(可以称为任务query)，可以将该任务查询特征复制N3份，获得N3个相同的D维的任务查询特征。

在一个可选示例中，该步骤3011可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第四处理单元执行。

步骤3012，将第一数量的该任务查询特征分别与模态查询特征中各模态分别对应的第一模态查询特征相加，获得该动态对象对应的初始轨迹查询特征。

示例性的，可以将N3个相同的任务查询特征与N3个第一模态查询特征(模态query)相加(add)，形成N3个运动轨迹查询特征。

在一个可选示例中，该步骤3012可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第四处理单元执行。

步骤3013，基于各动态对象分别对应的初始轨迹查询特征，确定初始运动轨迹查询特征。

示例性的，图11是本公开一示例性实施例提供的初始运动轨迹查询特征的确定原理示意图。在本示例中，动态对象数量为N1，任务query表示动态对象对应的任务查询特征，每个动态对象的第一模态查询特征(模态query)的数量为N3，最终获得的初始运动轨迹查询特征包括N1×N3个D维的初始轨迹查询特征。

在一个可选示例中，该步骤3013可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第四处理单元执行。

本公开实施例通过动态对象任务查询特征与模态查询特征融合获得初始运动轨迹查询特征，使得初始运动轨迹查询特征包含动态对象任务查询相关特征和动态对象的运动趋势相关信息，进一步通过训练获得的第三解码网络可以获得准确有效的运动轨迹任务查询特征。

在一个可选示例中，步骤202的基于各视角分别对应的第一图像特征，确定第一鸟瞰图特征，包括：

步骤2021，基于各视角分别对应的第一图像特征、初始鸟瞰图查询特征、及在第一鸟瞰图特征之前获得的在前帧鸟瞰图特征，确定第一鸟瞰图特征。

其中，初始鸟瞰图查询特征是鸟瞰图下初始化的特征，其大小可以表征鸟瞰图的大小，具体初始化规则可以根据实际需求设置。比如基于需要的鸟瞰图大小初始化H×W个D维的鸟瞰图query，作为初始鸟瞰图查询特征，其中，H和W分别为鸟瞰图的高度和宽度，D为每个鸟瞰图query的特征维度。每个鸟瞰图query可以对应一组物理空间的三维坐标，比如可以是以自车为原点的世界坐标系下的三维坐标，具体可以根据实际需求设置。在前帧鸟瞰图特征是当前之前的图像处理流程中获得的鸟瞰图特征，其具体处理流程与第一鸟瞰图特征一致。

在一个可选示例中，该步骤2021可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一确定单元执行。

由于在前帧鸟瞰图特征中包含了在前帧采集的图像中静态元素、动态对象等相关历史信息，结合在前帧鸟瞰图特征、初始鸟瞰图查询特征和第一图像特征，既可以实现当前的待处理图像中静态元素和动态对象相关特征的确定，还可以实现动态对象相对在前帧的变化，从而便于实现动态对象的跟踪。

图12是本公开一示例性实施例提供的步骤2021的流程示意图。

在一个可选示例中，步骤2021的基于各视角分别对应的第一图像特征、初始鸟瞰图查询特征、及在第一鸟瞰图特征之前获得的在前帧鸟瞰图特征，确定第一鸟瞰图特征，包括：

步骤20211，基于在前帧鸟瞰图特征和初始鸟瞰图查询特征，利用预先训练获得的编码器网络中第一个编码器的时序自注意力网络，确定时序自注意力结果。

其中，编码器网络用于基于在前帧鸟瞰图特征和初始鸟瞰图查询特征对提取的各视角的分别对应的第一图像特征进行编码，获得鸟瞰图下的第一鸟瞰图特征。编码器网络可以包括一个或多个编码器，每个编码器可以包括时序自注意力网络，时序自注意力网络用于初始鸟瞰图查询特征根据自车的运动情况，找到其在历史的在前帧鸟瞰图中对应的位置，作为参考位置，用于后续在第一图像特征中提取该参考位置区域对应的特征。通过多个编码器的不断编码，可以获得当前帧的第一鸟瞰图特征。

步骤20212，基于时序自注意力结果和初始鸟瞰图查询特征，利用第一个编码器的第四相加归一化网络，确定第四中间结果。

其中，第四相加归一化网络的具体原理参见前述内容，在此不再赘述。

步骤20213，基于各视角分别对应的第一图像特征和第四中间结果，利用第一个编码器中的空间交叉注意力网络，确定空间交叉注意力结果。

其中，空间交叉注意力网络用于对第四中间结果在高度上进行均匀采样，获得一组三维坐标，然后根据相机(摄像头)内参和外参将三维坐标映射到各视角分别对应的第一图像特征中的对应位置上，进而可以基于可变形卷积提取第一图像特征中对应位置的特征，经过后续处理，获得当前帧的第一鸟瞰图特征。

步骤20214，基于空间交叉注意力结果和第四中间结果，确定第一鸟瞰图特征。

其中，在每个编码器中，除了上述的时序自注意力网络、第四相加归一化网络和空间交叉注意力网络之外还包括一些其他相关网络，比如在空间交叉注意力网络之后还包括相加归一化网络、前馈网络、再一相加归一化网络，等等，具体可以根据实际需求设置。因此，在获得空间交叉注意力结果之后，还可以将空间交叉注意力结果与第四中间结果相加并归一化，然后再经过其他相关网络，获得第一个编码器的编码结果，若编码器网络包括多个编码器，则第一个编码器输出的编码结果还可以经后续的各编码器继续进行编码，最终获得第一鸟瞰图特征。

示例性的，图13是本公开一示例性实施例提供的编码器网络的网络结构示意图。其中，BEV B(t-1)表示在前帧鸟瞰图特征，BEV queries Q表示初始鸟瞰图查询特征，Temporal Self-Attention表示时序自注意力网络，Spatial Cross-Attention表示空间交叉注意力网络，其他符号含义参见前述内容。在前鸟瞰图特征BEV B(t-1)与初始鸟瞰图查询特征BEV queries Q在时序自注意力网络进行交互，根据车辆运动情况，找到初始鸟瞰图查询特征在在前帧鸟瞰图中对应的位置作为参考位置，获得时序自注意力结果，时序自注意力结果与初始鸟瞰图查询特征相加并归一化，获得第四中间结果，第四中间结果与各视角的第一图像特征在空间交叉注意力网络进行空间交叉注意力操作，空间交叉注意力网络基于可变形卷积实现基于参考位置从第一图像特征中提取出对应位置的特征，获得空间交叉注意力结果，空间交叉注意力结果与第四中间结果相加并归一化获得第五中间结果，第五中间结果经前馈网络(Feed Forward)和相加归一化网络(Add&Norm)获得第一个编码器的编码结果，该编码结果再经后续编码器的编码，获得最终的编码结果，即为第一鸟瞰图特征。可以理解地，在网络推理过程中对于各第一图像特征，还可以进行空间位置编码的嵌入(Embedding)，本公开不作限定。

在一个可选示例中，上述步骤20211至步骤20214可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第一确定单元执行。

本公开实施例通过编码器网络中的时序自注意力网络实现当前帧初始鸟瞰图查询特征与在前帧鸟瞰图的位置匹配，建立当前帧与在前帧的时序相关性，进而基于空间交叉注意力网络从第一图像特征中提取出参考位置附近的局部特征，有助于在提取出有效特征的基础上，降低计算量，从而可以提高图像处理效率。

在一个可选示例中，步骤204的基于至少一种任务查询特征中的各任务查询特征，确定各任务查询特征分别对应的任务处理结果，包括：

步骤2041a，基于静态元素任务查询特征，利用预先训练获得的静态元素检测头网络，确定静态元素检测结果。

其中，静态元素检测头网络可以采用任意可实施的头网络，比如基于多层感知机的头网络。

在一个可选示例中，该步骤2041a可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第二确定单元执行。

步骤2041b，基于动态对象任务查询特征，利用预先训练获得的动态对象检测头网络，确定动态对象检测结果。

其中，动态对象检测头网络可以采用任意可实施的头网络，比如基于多层感知机的头网络。

在一个可选示例中，该步骤2041b可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第三确定单元执行。

步骤2041c，基于运动轨迹任务查询特征，利用预先训练获得的运动轨迹预测头网络，确定运动轨迹预测结果。

其中，运动轨迹预测头网络可以采用任意可实施的头网络，比如基于多层感知机的头网络。

在一个可选示例中，该步骤2041c可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的第四确定单元执行。

本公开实施例通过基于各视角分别对应的第一图像特征进行编码获得第一鸟瞰图特征，基于第一鸟瞰图特征及不同任务分别对应的解码网络解码出不同任务的任务查询特征，进而基于不同任务分别对应的头网络，获得不同任务分别对应的任务处理结果，可以实现基于多帧多视角环视图像的端到端的多任务处理，有助于提高任务处理效率，可以避免或降低对离线生成的高精地图及激光雷达的依赖，同时实现静态元素检测、动态对象三维检测、运动轨迹的预测，有助于降低成本。

在一个可选示例中，图14是本公开一示例性实施例提供的用于图像处理的网络模型的整体结构示意图。可以基于多视角的待处理图像，利用特征提取网络获得各视角分别对应的第一图像特征，各第一图像特征通过编码器网络获得第一鸟瞰图特征，第一鸟瞰图特征经第一解码网络获得静态元素任务查询特征，进而利用静态元素检测头网络获得静态元素检测结果，第一鸟瞰图特征经第二解码网络获得动态对象任务查询特征，进而利用动态对象检测头网络获得动态对象检测结果；动态对象任务查询结果与模态查询特征融合获得初始运动轨迹查询特征，基于初始运动轨迹查询特征和第一解码网络获得的静态元素任务查询特征，利用第三解码网络获得运动轨迹任务查询特征，进而利用运动轨迹预测头网络，获得运动轨迹预测结果。

在一个可选示例中，网络模型可以通过预先训练获得。当网络模型同时包括多个任务时，可以多个任务一起训练，也可以先单独训练，再综合训练，具体可以根据实际需求设置，比如，为了保证运动轨迹预测性能更好，可以先训练静态元素任务和动态对象任务，获得基础模型，再基于基础模型，进行三种任务的一起训练，具体训练原理不再赘述。

本公开实施例可以仅使用多视角图像实现静态元素、动态对象及运动轨迹的任务处理，相对于激光雷达，可以获得更丰富的环境信息，并且硬件成本较低，易于部署。且本公开实施例通过静态元素检测可以实现静态地图信息的在线生成，可以不依赖离线生成的高精地图，应用场景更加广泛。此外，本公开实施例可以无需进行显示的动态目标跟踪，有助于降低模型计算复杂度，且能够避免跟踪模块误差对后续处理产生影响，从而可以进一步提高任务处理结果的准确性。

在一个可选示例中，还可以将各视角图像与激光雷达采集的数据进行特征融合，用于端到端的单任务或多任务处理，提高特征信息的丰富度，从而有助于进一步提高模型性能。

本公开上述各实施例或可选示例可以单独实施也可以在不冲突的情况下以任意组合方式结合实施，具体可以根据实际需求设置，本公开不作限定。

本公开实施例提供的任一种图像的处理方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种图像的处理方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种图像的处理方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

示例性装置

图15是本公开一示例性实施例提供的图像的处理装置的结构示意图。该实施例的装置可用于实现本公开相应的方法实施例，如图15所示的装置包括：第一处理模块501、第二处理模块502、第三处理模块503和第四处理模块504。

第一处理模块501，用于基于至少一个视角中各视角分别对应的待处理图像，确定各视角分别对应的第一图像特征；第二处理模块502，用于基于各视角分别对应的第一图像特征，确定第一鸟瞰图特征；第三处理模块503，用于基于第一鸟瞰图特征，确定静态元素任务查询特征、动态对象任务查询特征和运动轨迹任务查询特征中的至少一种任务查询特征；第四处理模块504，用于基于至少一种任务查询特征中的各任务查询特征，确定各任务查询特征分别对应的任务处理结果。

图16是本公开另一示例性实施例提供的图像的处理装置的结构示意图。

在一个可选示例中，第三处理模块503包括：

第一处理单元5031，用于基于第一鸟瞰图特征及初始静态元素查询特征，利用预先训练获得的第一解码网络，确定静态元素任务查询特征，初始静态元素查询特征包括至少一个静态元素中各静态元素分别对应的初始查询特征。

在一个可选示例中，第三处理模块503包括：

第二处理单元5032，用于基于第一鸟瞰图特征及初始动态对象查询特征，利用预先训练获得的第二解码网络，确定动态对象任务查询特征，初始动态对象查询特征包括至少一个动态对象中各动态对象分别对应的初始查询特征。

在一个可选示例中，第三处理模块503包括：

第三处理单元5033，用于基于静态元素任务查询特征及初始运动轨迹查询特征，利用预先训练获得的第三解码网络，确定运动轨迹任务查询特征，初始运动轨迹查询特征包括至少一个动态对象中各动态对象分别对应的初始轨迹查询特征。

在一个可选示例中，第三处理模块503可以包括上述第一处理单元5031、第二处理单元5032和第三处理单元5033中的至少两个，具体可以根据实际需求设置。

在一个可选示例中，第一处理单元5031具体用于：

基于初始静态元素查询特征，确定第一查询张量、第一键张量和第一值张量；基于第一查询张量、第一键张量和第一值张量，利用第一解码网络中第一个解码器的第一自注意力网络，确定第一自注意力结果；基于第一自注意力结果和初始静态元素查询特征，利用第一解码网络中的第一个解码器的第一相加归一化网络，确定第一中间结果；基于第一中间结果，确定第二查询张量；基于第一鸟瞰图特征，确定第二键张量和第二值张量；基于第二查询张量、第二键张量和第二值张量，利用第一解码网络中第一个解码器的第一可变形交叉注意力网络，确定第一交叉注意力结果；基于第一交叉注意力结果和第一中间结果，确定静态元素任务查询特征。

在一个可选示例中，第二处理单元5032具体用于：

基于初始动态对象查询特征，确定第三查询张量、第三键张量和第三值张量；基于第三查询张量、第三键张量和第三值张量，利用第二解码网络中第一个解码器的第二自注意力网络，确定第二自注意力结果；基于第二自注意力结果和初始动态对象查询特征，利用第二解码网络中的第一个解码器的第二相加归一化网络，确定第二中间结果；基于第二中间结果，确定第四查询张量；基于第一鸟瞰图特征，确定第四键张量和第四值张量；基于第四查询张量、第四键张量和第四值张量，利用第二解码网络中第一个解码器的第二可变形交叉注意力网络，确定第二交叉注意力结果；基于第二交叉注意力结果和第二中间结果，确定动态对象任务查询特征。

在一个可选示例中，第三处理单元5033具体用于：

基于初始运动轨迹查询特征，确定第五查询张量、第五键张量和第五值张量；基于第五查询张量、第五键张量和第五值张量，利用第三解码网络中第一个解码器的第三自注意力网络，确定第三自注意力结果；基于第三自注意力结果和初始运动轨迹查询特征，利用第三解码网络中的第一个解码器的第三相加归一化网络，确定第三中间结果；基于第三中间结果，确定第六查询张量；基于静态元素任务查询特征，确定第六键张量和第六值张量；基于第六查询张量、第六键张量和第六值张量，利用第三解码网络中第一个解码器的第一交叉注意力网络，确定第三交叉注意力结果；基于第三交叉注意力结果和第三中间结果，确定运动轨迹任务查询特征。

图17是本公开一示例性实施例提供的第三处理模块503的结构示意图。

在一个可选示例中，第三处理模块503还包括：

第四处理单元5034，用于基于动态对象任务查询特征及模态查询特征，确定初始运动轨迹查询特征，模态查询特征包括至少一种模态中各模态分别对应的第一模态查询特征，模态对应的第一模态查询特征用于表征动态对象的一种运动趋势。

在一个可选示例中，动态对象任务查询特征包括至少一个动态对象的任务查询特征；第四处理单元5034具体用于：

对于每个动态对象对应的任务查询特征，基于该任务查询特征，确定第一数量的该任务查询特征，第一数量为模态查询特征中包括的第一模态查询特征数量；将第一数量的该任务查询特征分别与模态查询特征中各模态分别对应的第一模态查询特征相加，获得该动态对象对应的初始轨迹查询特征；基于各动态对象分别对应的初始轨迹查询特征，确定初始运动轨迹查询特征。

在一个可选示例中，第二处理模块502包括：

第一确定单元5021，用于基于各视角分别对应的第一图像特征、初始鸟瞰图查询特征、及在第一鸟瞰图特征之前获得的在前帧鸟瞰图特征，确定第一鸟瞰图特征。

在一个可选示例中，第一确定单元5021具体用于：

基于在前帧鸟瞰图特征和初始鸟瞰图查询特征，利用预先训练获得的编码器网络中第一个编码器的时序自注意力网络，确定时序自注意力结果；基于时序自注意力结果和初始鸟瞰图查询特征，利用第一个编码器的第四相加归一化网络，确定第四中间结果；基于各视角分别对应的第一图像特征和第四中间结果，利用第一个编码器中的空间交叉注意力网络，确定空间交叉注意力结果；基于空间交叉注意力结果和第四中间结果，确定第一鸟瞰图特征。

在一个可选示例中，第四处理模块504包括：

第二确定单元5041，用于基于静态元素任务查询特征，利用预先训练获得的静态元素检测头网络，确定静态元素检测结果；第三确定单元5042，用于基于动态对象任务查询特征，利用预先训练获得的动态对象检测头网络，确定动态对象检测结果；第四确定单元5043，用于基于运动轨迹任务查询特征，利用预先训练获得的运动轨迹预测头网络，确定运动轨迹预测结果。

在一个可选示例中，本公开上述各单元还可以根据实际需求进行更细粒度的划分，比如将单元划分成多个子单元，具体可以根据实际需求设置。

本装置示例性实施例对应的有益技术效果可以参见上述示例性方法部分的相应有益技术效果，在此不再赘述。

示例性电子设备

图18是本公开电子设备一个应用实施例的结构示意图。本实施例中，该电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本公开的各个实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入装置13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图18中仅示出了该电子设备10中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为其是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本领域的技术人员可以对本公开进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

一种图像的处理方法，包括：

基于至少一个视角中各所述视角分别对应的待处理图像，确定各所述视角分别对应的第一图像特征；

基于各所述视角分别对应的所述第一图像特征，确定第一鸟瞰图特征；

基于所述第一鸟瞰图特征，确定静态元素任务查询特征、动态对象任务查询特征和运动轨迹任务查询特征中的至少一种任务查询特征；

基于所述至少一种任务查询特征中的各所述任务查询特征，确定各所述任务查询特征分别对应的任务处理结果。
根据权利要求1所述的方法，其中，所述基于所述第一鸟瞰图特征，确定静态元素任务查询特征、动态对象任务查询特征和运动轨迹任务查询特征中的至少一种任务查询特征，包括：

基于所述第一鸟瞰图特征及初始静态元素查询特征，利用预先训练获得的第一解码网络，确定所述静态元素任务查询特征，所述初始静态元素查询特征包括至少一个静态元素中各所述静态元素分别对应的初始查询特征；和/或，

基于所述第一鸟瞰图特征及初始动态对象查询特征，利用预先训练获得的第二解码网络，确定所述动态对象任务查询特征，所述初始动态对象查询特征包括至少一个动态对象中各所述动态对象分别对应的初始查询特征；和/或，

基于所述静态元素任务查询特征及初始运动轨迹查询特征，利用预先训练获得的第三解码网络，确定所述运动轨迹任务查询特征，所述初始运动轨迹查询特征包括至少一个动态对象中各所述动态对象分别对应的初始轨迹查询特征。
根据权利要求2所述的方法，其中，所述基于所述第一鸟瞰图特征及初始静态元素查询特征，利用预先训练获得的第一解码网络，确定所述静态元素任务查询特征，包括：

基于所述初始静态元素查询特征，确定第一查询张量、第一键张量和第一值张量；

基于所述第一查询张量、所述第一键张量和所述第一值张量，利用所述第一解码网络中第一个解码器的第一自注意力网络，确定第一自注意力结果；

基于所述第一自注意力结果和所述初始静态元素查询特征，利用所述第一解码网络中的第一个解码器的第一相加归一化网络，确定第一中间结果；

基于所述第一中间结果，确定第二查询张量；

基于所述第一鸟瞰图特征，确定第二键张量和第二值张量；

基于所述第二查询张量、所述第二键张量和所述第二值张量，利用所述第一解码网络中第一个解码器的第一可变形交叉注意力网络，确定第一交叉注意力结果；

基于所述第一交叉注意力结果和所述第一中间结果，确定所述静态元素任务查询特征；和/或，

所述基于所述第一鸟瞰图特征及初始动态对象查询特征，利用预先训练获得的第二解码网络，确定所述动态对象任务查询特征，包括：

基于所述初始动态对象查询特征，确定第三查询张量、第三键张量和第三值张量；

基于所述第三查询张量、所述第三键张量和所述第三值张量，利用所述第二解码网络中第一个解码器的第二自注意力网络，确定第二自注意力结果；

基于所述第二自注意力结果和所述初始动态对象查询特征，利用所述第二解码网络中的第一个解码器的第二相加归一化网络，确定第二中间结果；

基于所述第二中间结果，确定第四查询张量；

基于所述第一鸟瞰图特征，确定第四键张量和第四值张量；

基于所述第四查询张量、所述第四键张量和所述第四值张量，利用所述第二解码网络中第一个解码器的第二可变形交叉注意力网络，确定第二交叉注意力结果；

基于所述第二交叉注意力结果和所述第二中间结果，确定所述动态对象任务查询特征。
根据权利要求2所述的方法，其中，所述基于所述静态元素任务查询特征及初始运动轨迹查询特征，利用预先训练获得的第三解码网络，确定所述运动轨迹任务查询特征，包括：

基于所述初始运动轨迹查询特征，确定第五查询张量、第五键张量和第五值张量；

基于所述第五查询张量、所述第五键张量和所述第五值张量，利用所述第三解码网络中第一个解码器的第三自注意力网络，确定第三自注意力结果；

基于所述第三自注意力结果和所述初始运动轨迹查询特征，利用所述第三解码网络中的第一个解码器的第三相加归一化网络，确定第三中间结果；

基于所述第三中间结果，确定第六查询张量；

基于所述静态元素任务查询特征，确定第六键张量和第六值张量；

基于所述第六查询张量、所述第六键张量和所述第六值张量，利用所述第三解码网络中第一个解码器的第一交叉注意力网络，确定第三交叉注意力结果；

基于所述第三交叉注意力结果和所述第三中间结果，确定所述运动轨迹任务查询特征。
根据权利要求2所述的方法，其中，在所述基于所述静态元素任务查询特征及初始运动轨迹查询特征，利用预先训练获得的第三解码网络，确定所述运动轨迹任务查询特征之前，还包括：

基于所述动态对象任务查询特征及模态查询特征，确定所述初始运动轨迹查询特征，所述模态查询特征包括至少一种模态中各所述模态分别对应的第一模态查询特征，所述模态对应的所述第一模态查询特征用于表征动态对象的一种运动趋势。
根据权利要求5所述的方法，其中，所述动态对象任务查询特征包括至少一个动态对象的任务查询特征；所述基于所述动态对象任务查询特征及模态查询特征，确定所述初始运动轨迹查询特征，包括：

对于每个所述动态对象对应的所述任务查询特征，基于该任务查询特征，确定第一数量的该任务查询特征，所述第一数量为所述模态查询特征中包括的第一模态查询特征数量；

将第一数量的该任务查询特征分别与所述模态查询特征中各所述模态分别对应的所述第一模态查询特征相加，获得该动态对象对应的初始轨迹查询特征；

基于各所述动态对象分别对应的所述初始轨迹查询特征，确定所述初始运动轨迹查询特征。
根据权利要求1-6任一所述的方法，其中，所述基于各所述视角分别对应的所述第一图像特征，确定第一鸟瞰图特征，包括：

基于各所述视角分别对应的所述第一图像特征、初始鸟瞰图查询特征、及在所述第一鸟瞰图特征之前获得的在前帧鸟瞰图特征，确定所述第一鸟瞰图特征。
根据权利要求7所述的方法，其中，所述基于各所述视角分别对应的所述第一图像特征、初始鸟瞰图查询特征、及在所述第一鸟瞰图特征之前获得的在前帧鸟瞰图特征，确定所述第一鸟瞰图特征，包括：

基于所述在前帧鸟瞰图特征和所述初始鸟瞰图查询特征，利用预先训练获得的编码器网络中第一个编码器的时序自注意力网络，确定时序自注意力结果；

基于所述时序自注意力结果和所述初始鸟瞰图查询特征，利用所述第一个编码器的第四相加归一化网络，确定第四中间结果；

基于各所述视角分别对应的所述第一图像特征和所述第四中间结果，利用所述第一个编码器中的空间交叉注意力网络，确定空间交叉注意力结果；

基于所述空间交叉注意力结果和所述第四中间结果，确定所述第一鸟瞰图特征。
根据权利要求1-6任一所述的方法，其中，所述基于所述至少一种任务查询特征中的各所述任务查询特征，确定各所述任务查询特征分别对应的任务处理结果，包括：

基于所述静态元素任务查询特征，利用预先训练获得的静态元素检测头网络，确定静态元素检测结果；

基于所述动态对象任务查询特征，利用预先训练获得的动态对象检测头网络，确定动态对象检测结果；

基于所述运动轨迹任务查询特征，利用预先训练获得的运动轨迹预测头网络，确定运动轨迹预测结果。
一种图像的处理装置，包括：

第一处理模块，用于基于至少一个视角中各所述视角分别对应的待处理图像，确定各所述视角分别对应的第一图像特征；

第二处理模块，用于基于各所述视角分别对应的所述第一图像特征，确定第一鸟瞰图特征；

第三处理模块，用于基于所述第一鸟瞰图特征，确定静态元素任务查询特征、动态对象任务查询特征和运动轨迹任务查询特征中的至少一种任务查询特征；

第四处理模块，用于基于所述至少一种任务查询特征中的各所述任务查询特征，确定各所述任务查询特征分别对应的任务处理结果。
一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-9任一所述的图像的处理方法。
一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-9任一所述的图像的处理方法。