CN116152702A - 点云标签的获取方法、装置、电子设备和自动驾驶车辆 - Google Patents

点云标签的获取方法、装置、电子设备和自动驾驶车辆 Download PDF

Info

Publication number
CN116152702A
CN116152702A CN202211649079.1A CN202211649079A CN116152702A CN 116152702 A CN116152702 A CN 116152702A CN 202211649079 A CN202211649079 A CN 202211649079A CN 116152702 A CN116152702 A CN 116152702A
Authority
CN
China
Prior art keywords
point cloud
grid
semantic segmentation
acquiring
target fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211649079.1A
Other languages
English (en)
Other versions
CN116152702B (zh
Inventor
欧阳博骏
梁志栋
王云鹏
陈竞凯
马彧
王昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211649079.1A priority Critical patent/CN116152702B/zh
Publication of CN116152702A publication Critical patent/CN116152702A/zh
Application granted granted Critical
Publication of CN116152702B publication Critical patent/CN116152702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了点云标签的获取方法、装置和自动驾驶车辆,人工智能技术领域,具体为深度学习、语义分割和自动驾驶技术领域,具体实现方案为:获取包括当前点云帧在内的M个点云帧,并将M个点云帧中的点云分别投影至鸟瞰图的网格中,其中M为大于或者等于2的整数;根据投影后鸟瞰图,获取各网格对应的M个点云帧的目标融合特征;针对各网格,基于网格的目标融合特征,分别获取网格的语义分割标签和动静态标签;对网格进行反向投影,获取当前点云帧中点云所在网格,将点云所在网格的标签确定为点云的标签。本公开对多帧点云进行特征融合,基于融合特征获取点云的标签,降低了获取点云的标签之间的时延,提高了点云的标签的准确性和可靠性。

Description

点云标签的获取方法、装置、电子设备和自动驾驶车辆
技术领域
本公开涉及人工智能技术领域,具体为深度学习、语义分割和自动驾驶技术领域,尤其涉及一种点云标签的获取方法、装置和电子设备存储介质。
背景技术
随着深度学习以及激光雷达的普及与发展,通过深度学习方法对点云背景进行语义分割以及动静态估计逐渐变为可能。相关技术中,点云背景语义分割以及动静态估计这两个任务相互之间独立,当想同时得到语义分割结果以及动静态估计结果时,需要使用两个深度学习模型分别生成语义分割结果以及动静态估计结果,以应用场景为自动驾驶场景而言,上述方法往往会加大自动驾驶感知链路的时延。因此,如何降低同时获取点云帧每个点云的语义分割标签和动静态标签之间的时延,同时保证点云帧中每个点云的标签的准确性和可靠性,已成为亟待解决的问题。
发明内容
本公开提供了一种点云标签的获取方法、装置、电子设备、存储介质及程序产品。
根据第一方面,提供了一种点云标签的获取方法,包括:获取包括当前点云帧在内的M个点云帧,并将所述M个点云帧中的点云分别投影至鸟瞰图的网格中,其中M为大于或者等于2的整数;根据投影后鸟瞰图,获取各网格对应的所述M个点云帧的目标融合特征;针对各网格基于所述网格的目标融合特征,分别获取所述网格的语义分割标签和动静态标签;对各网格进行反向投影,确定所述当前点云帧中点云所的网格,并将所述点云所在网格的语义分割标签和动静态标签确定为所述点云的标签。
根据第二方面,提供了一种点云标签的获取装置,包括:投影模块,用于获取包括当前点云帧在内的M个点云帧,并将所述M个点云帧中的点云分别投影至鸟瞰图的网格中,其中M为大于或者等于2的整数;第一获取模块,用于根据投影后鸟瞰图,获取各网格对应的所述M个点云帧的目标融合特征;第二获取模块,用于针对各网格,基于所述网格的目标融合特征,分别获取所述网格的语义分割标签和动静态标签;第三获取模块,用于对各网格进行反向投影,确定所述当前点云帧中点云所的网格,并将所述点云所在网格的语义分割标签和动静态标签确定为所述点云的标签。
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面所述的点云标签的获取方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开第一方面所述的点云标签的获取方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开第一方面所述的点云标签的获取方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的点云标签的获取方法的流程示意图;
图2是根据本公开第二实施例的点云标签的获取方法的流程示意图;
图3是根据本公开第三实施例的点云标签的获取方法的流程示意图;
图4是根据本公开一种骨干网络的结构示意图;
图5是根据本公开第四实施例的点云标签的获取方法的流程示意图;
图6是根据本公开第五实施例的点云标签的获取方法的流程示意图;
图7是根据本公开点云标签的获取方法的示意图;
图8是是用来实现本公开实施例的点云标签的获取装置的框图;
图9是用来实现本公开实施例的点云标签的获取方法电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
人工智能(Artificial Intelligence,简称AI),它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
深度学习(Deep Learning,简称DL)是机器学习(Machine Learning,简称ML)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标—人工智能,深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
语义分割(semantic segmentation)是计算机视觉中的基本任务,在语义分割中需要将视觉输入分为不同的语义可解释类别,即分类类别在真实世界中是有意义的。
自动驾驶一般指自动驾驶系统,自动驾驶系统采用先进的通信、计算机、网络和控制技术,对列车实现实时、连续控制。采用现代通信手段,直接面对列车,可实现车地间的双向数据通信,传输速率快,信息量大,后续追踪列车和控制中心可以及时获知前行列车的确切位置,使得运行管理更加灵活,控制更为有效,更加适应列车自动驾驶的需求。
下面结合附图描述本公开实施例的一种点云标签的获取方法。
图1是根据本公开第一实施例的点云标签的获取方法的流程示意图。
如图1所示,本公开实施例的点云标签的获取方法具体可包括以下步骤:
S101,获取包括当前点云帧在内的M个点云帧,并将M个点云帧中的点云分别投影至鸟瞰图的网格中,其中M为大于或者等于2的整数。
具体的,本公开实施例的点云标签的获取方法的执行主体可为本公开实施例提供的处理装置,该处理装置可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选的,执行主体可包括工作站、服务器,计算机、用户终端及其他设备。其中,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
需要说明的是,本公开对于获取点云帧的具体方式不作限定,可以根据实际情况进行选取。
可选地,可以利用激光雷达采集装置,获取点云帧。
举例而言,可以利用激光线扫相机、双目结构光相机等图像采集装置,获取点云帧。
可选地,可以利用激光雷达(Light Detection And Ranging,简称LiDAR)进行获取点云帧。
其中,鸟瞰图(Bird’s Eye View,简称BEV),是根据透视原理,用高视点透视法从高处某一点俯视地面起伏绘制成的立体图。
需要说明的是,将M个点云帧中的点云分别投影至鸟瞰图的网格中,即是将点云三维(x,y,z)坐标投影至网格二维(x,y)坐标上。
需要说明的是,本公开对于鸟瞰图的网格的具体设置不作限定,可以根据实际情况进行设定。
可选地,可以设置10m为一个网格;可选地,可以设置20m为一个网格。
需要说明的是,在获取到点云三维(x,y,z)坐标后,可以根据点云三维(x,y,z)坐标和鸟瞰图的网格值,将点云投影至鸟瞰图对应的网格中。
可选地,当M为2时,可以将当前帧点云帧以及上一帧点云帧中的点云分别投影至鸟瞰图的网格中。
S102,根据投影后鸟瞰图,获取各网格对应的M个点云帧的目标融合特征。
需要说明的是,在将M个点云帧中的点云分别投影至鸟瞰图的网格后,可以根据投影后鸟瞰图,获取多个初始特征信息,进而可以对多个初始特征信息进行处理,以获取目标融合特征。
举例而言,根据投影后鸟瞰图,可以获取点云的数量信息、点云的反射率信息、点云的高度信息、点云的高度差信息等多种初始特征,再将多种初始特征进行拼接,以获取拼接特征,然后对拼接特征进行特征提取,以获取目标融合特征。
S103,基于网格的目标融合特征,分别获取网格的语义分割标签和动静态标签。
举例而言,在获取到网格的目标融合特征后,可以将目标融合特征输入至对应的模型中,以分别获取网格的语义分割标签和动静态标签,其中,模型有两个输出分支,可以同时输出网格的语义分割标签和动静态标签。
S104,对各网格进行反向投影,确定当前点云帧中点云所在网格,并将点云所在网格的语义分割标签和动静态标签确定为该点云的标签。
在本公开实施例中,在获取到各网格的语义分割标签和动静态标签后,可以对各网格进行反向投影,也就是说,将每个网格反向投影至当前点云帧,进而可以确定每个网格所覆盖的当前点云帧中的点云,从而可以确定当前点云帧中每个点云所在网格。进一步地,将点云所在网格的语义分割标签和动静态标签确定为该点云的标签。
举例而言,针对网格1,当网格1的语义分割标签为1,动静态标签为0,则网格1内的当前点云帧的每个点云的语义分割标签都为1,动静态标签都为0。
综上,本公开实施例的点云标签的获取方法,通过获取包括当前点云帧在内的M个点云帧,并将M个点云帧中的点云分别投影至鸟瞰图的网格中,其中M为大于或者等于2的整数,根据投影后鸟瞰图,获取各网格对应的M个点云帧的目标融合特征,针对各网格,基于网格的目标融合特征,分别获取网格的语义分割标签和动静态标签,对各网格进行反向投影,获取当前点云帧中每个点云的标签。本公开通过对多个点云帧中的点云投影到网格中,通过网格实现了多个点云帧中点云的聚集,使得同一网格可以具有多个点云帧的特征,进而基于网格的目标融合特征,获取网格的语义分割标签和动静态标签,再通过反向投影确定当前点云帧中点云所在网格,从而确定当前点云帧中点云的语义分割标签和动静态标签,不仅降低了获取点云的语义分割标签和动静态标签之间的时延,同时提高了点云的标签的准确性和可靠性。
图2是根据本公开第二实施例的点云标签的获取方法的流程示意图。
如图2所示,在图1所示实施例的基础上,本公开实施例的点云标签的获取方法具体可包括以下步骤:
S201,获取包括当前点云帧在内的M个点云帧,并将M个点云帧中的点云分别投影至鸟瞰图的网格中,其中M为大于或者等于2的整数。
具体的,本实施例中的步骤S201与上述实施例中的步骤S101相同,此处不再赘述。
上述实施例中的步骤S102“根据投影后鸟瞰图,获取各网格对应的M个点云帧的目标融合特征”具体可包括以下步骤S202~S204。
S202,针对M个点云帧中的每个点云帧,根据点云帧的投影后鸟瞰图,获取各网格对应的该点云帧的初始特征信息。
作为一种可能的实现方式,如图3所示,在上述实施例的基础上,上述步骤S202中根据点云帧的投影后鸟瞰图,获取各网格对应的点云帧的初始特征信息的具体过程,包括以下步骤:
S301,获取投影后鸟瞰图中位于各网格内的点云集。
可选地,可以根据网格的二维(x,y)坐标,确定投影后鸟瞰图中位于各网格内的点云集,其中,点云集有多个点云组成。
S302,基于各网格的点云集,确定各网格的初始特征信息。
可选地,可以获取点云集中点云的数量,点云集中点云的高度值,并可以根据高度值确定点云集的高度差和/或平均高度,点云集中点云的反射率,并根据反射率确定点云集的平均反射率。
可选地,可以将点云集中点云的数量、点云集的高度差和/或平均高度以及点云集的平均反射率作为各网格的初始特征信息。
S203,对同一网格的每个点云帧的初始特征信息进行拼接,得到候选拼接特征。
举例而言,可以将同一网格的每个点云帧的初始特征信息在行维度上进行拼接,以得到候选拼接特征。
S204,通过骨干网络对网格的候选拼接特征进行处理,得到网格的目标融合特征。
可选地,可以建立初始骨干网络结构,利用已知数据集和验证集对初始骨干网络结构进行训练,设置总损失函数对初始骨干网络结构进行监督,获得训练好的骨干网络结构。
举例而言,骨干网络的结构,如图4所示,可以将候选拼接特征(concat)输入至骨干网络中,由骨干网络的卷积层和反卷积层,对候选拼接特征进行处理,以输出目标融合特征。
上述实施例中的步骤S103“基于网格的目标融合特征,获取网格的语义分割标签”具体可包括以下步骤S205~S207。
S205,对网格的目标融合特征进行语义分割,获取网格的多个语义分割概率。
作为一种可能的实现方式,如图5所示,在上述实施例的基础上,上述步骤S205中对网格的目标融合特征进行语义分割,获取网格的多个语义分割概率的具体过程,包括以下步骤:
S501,对目标融合特征进行第一卷积处理,得到第一卷积后融合特征。
可选地,可以对目标融合特征使用二维卷积对目标融合特征进行编码,以得到第一卷积后融合特征。
S502,对第一卷积后融合特征进行第一概率函数映射,得到多个语义分割概率。
可选地,第一概率函数可以为归一化指数函数,即softmax函数,通过softmax函数可以将一个数值向量归一化为一个概率分布向量,且概率之和为一,即可以映射成(0,1)的值。
举例而言,对第一卷积后融合特征进行softmax函数映射,可以得到多个语义分割概率。
S206,从多个语义分割概率中确定最大的语义分割概率。
需要说明的是,本公开对于从多个语义分割概率中确定最大的语义分割概率的具体方式不作限定,可以根据实际情况进行选取。
可选地,可以通过最大值自变量点集argmax函数,从多个语义分割概率中确定最大的语义分割概率。
S207,将最大的语义分割概率对应的语义分割标签,确定为网格的语义分割标签。
在本公开实施例中,在确定为网格的语义分割标签时,可以将最大的语义分割概率对应的语义分割标签,确定为网格的语义分割标签。
上述实施例中的步骤S103“基于网格的目标融合特征,获取网格的动静态标签”具体可包括以下步骤S208~S209。
S208,对网格的目标融合特征进行二分类识别,获取网格的类型识别概率。
作为一种可能的实现方式,如图6所示,在上述实施例的基础上,上述步骤S208中对网格的目标融合特征进行二分类识别,获取网格的类型识别概率的具体过程,包括以下步骤:
S601,对目标融合特征进行第二卷积处理,得到第二卷积后融合特征。
可选地,可以对目标融合特征使用二维卷积对目标融合特征进行编码,以得到第二卷积后融合特征。
S602,对第二卷积后融合特征进行第二概率函数映射,得到网格的类型识别概率。
可选地,第二概率函数可以为sigmiod函数,通过sigmiod函数可以将变量映射成(0,1)的值。
举例而言,对第二卷积后融合特征进行sigmiod函数映射,得到网格的类型识别概率。
S209,将类型识别概率和预设概率阈值进行比较,并基于比较结果确定网格的动静态标签。
可选地,可以预设概率阈值为0.5。
举例而言,若类型识别概率大于0.5,可以确定网格的动静态标签为1,若类型识别概率小于0.5,确定网格的动静态标签为0。
S210,对各网格进行反向投影,获取当前点云帧中每个点云的标签。
具体的,本实施例中的步骤S210与上述实施例中的步骤S104相同,此处不再赘述。
本公开通过对多个点云帧中的点云投影到网格中,通过网格实现了多个点云帧中点云的聚集,使得同一网格可以具有多个点云帧的特征,进而基于网格的目标融合特征,获取网格的语义分割标签和动静态标签,再通过反向投影确定当前点云帧中点云所在网格,从而确定当前点云帧中点云的语义分割标签和动静态标签,提高了点云帧中每个点云的标签的准确性和可靠性。进一步地,本公开通过一个完整的神经网络,可以同时获取点云帧中每个点云的语义分割标签和动静态标签,降低了获取点云的语义分割标签和动静态标签之间的时延。
下面对点云标签的获取方法进行解释说明。
举例而言,如图7所示,可以将当前帧(current frame)点云帧(point cloud)以及其上一帧(previous frame)点云帧(point cloud)投影到Bev网格上,获取投影后鸟瞰图(Bev projection),然后生成各网格对应的点云帧的初始特征信息即手工特征(handcraft feature),将这两帧点云各自生成的初始特征信息进行拼接(concat),输入至模型中,其中,模型包括骨干网络,语义分割网络和动静态估计网络,可选地,可以建立初始骨干网络结构,利用已知数据集和验证集对初始骨干网络结构进行训练,设置总损失函数对初始骨干网络结构进行监督,获得训练好的骨干网络结构,可选地,可以建立初始语义分割网络结构,利用已知数据集和验证集对初始语义分割网络结构进行训练,设置总损失函数对初始语义分割网络结构进行监督,获得训练好的语义分割网络结构,可选地,可以建立初始动静态估计网络结构,利用已知数据集和验证集对初始动静态估计网络结构进行训练,设置总损失函数对初始动静态估计网络结构进行监督,获得训练好的动静态估计网络结构,首先,通过骨干网络对候选拼接特征进行下采样处理,得到目标融合特征(Deconv2d,s=4),在语义分割的输出分支中,对目标融合特征使用二维卷积对其进行编码,使用softmax函数将输出转换为概率值,通过argmax函数从多个语义分割概率中确定最大的语义分割概率,将最大的语义分割概率对应的语义分割标签,确定为网格的语义分割标签,在动静态估计的输出分支中,对目标融合特征使用二维卷积对其进行编码,然后使用sigmiod函数把输出转换为概率值,通过设置0.5概率阈值,将类型识别概率和预设概率阈值进行比较,并基于比较结果确定网格的动静态标签,在获取到bev网格中的语义分割标签以及动静态标签之后,可以通过反向投影的方式得到当前帧点云帧中每个点云的标签。
本公开通过对多个点云帧中的点云投影到网格中,通过网格实现了多个点云帧中点云的聚集,使得同一网格可以具有多个点云帧的特征,进而基于网格的目标融合特征,获取网格的语义分割标签和动静态标签,再通过反向投影确定当前点云帧中点云所在网格,从而确定当前点云帧中点云的语义分割标签和动静态标签,提高了点云帧中每个点云的标签的准确性和可靠性。进一步地,本公开通过一个完整的神经网络,可以同时获取点云帧中每个点云的语义分割标签和动静态标签,降低了获取点云的语义分割标签和动静态标签之间的时延。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
图8是根据本公开一个实施例的点云标签的获取装置的结构示意图。
如图8所示,该点云标签的获取装置800,包括:投影模块810、第一获取模块820、第二获取模块830和第三获取模块840。其中:
投影模块810,用于获取包括当前点云帧在内的M个点云帧,并将所述M个点云帧中的点云分别投影至鸟瞰图的网格中,其中M为大于或者等于2的整数;
第一获取模块820,用于根据投影后鸟瞰图,获取各网格对应的所述M个点云帧的目标融合特征;
第二获取模块830,用于针对各网格,基于所述网格的目标融合特征,分别获取所述网格的语义分割标签和动静态标签;
第三获取模块840,用于对各网格进行反向投影,确定所述当前点云帧中点云所在网格,并将所述点云所在网格的语义分割标签和动静态标签确定为所述点云的标签。
其中,第一获取模块820,还用于:
针对所述M个点云帧中的每个点云帧,根据所述点云帧的投影后鸟瞰图,获取各网格对应的所述点云帧的初始特征信息;
对同一网格的每个点云帧的初始特征信息进行拼接,得到候选拼接特征;
通过骨干网络对所述候选拼接特征进行处理,得到所述目标融合特征。
其中,所述第一获取模块820,还用于:
获取所述投影后鸟瞰图中位于各网格内的点云集;
基于各网格的点云集,确定各网格的所述初始特征信息。
其中,第一获取模块820,还用于:
获取所述点云集中点云的数量;
获取所述点云集中点云的高度值,并根据所述高度值确定所述点云集的高度差和/或平均高度;
获取所述点云集中点云的反射率,并根据所述反射率确定所述点云集的平均反射率。
其中,第二获取模块830,还用于:
针对各网格,对所述网格的目标融合特征进行语义分割,获取所述网格的多个语义分割概率;
从所述多个语义分割概率中确定最大的语义分割概率;
将所述最大的语义分割概率对应的语义分割标签,确定为所述网格的语义分割标签。
其中,第二获取模块830,还用于:
对所述目标融合特征进行第一卷积处理,得到第一卷积后融合特征;
对所述第一卷积后融合特征进行第一概率函数映射,得到所述多个语义分割概率。
其中,第二获取模块830,还用于:
针对各网格,对所述网格的目标融合特征进行二分类识别,获取所述网格的类型识别概率;
将所述类型识别概率和预设概率阈值进行比较,并基于比较结果确定所述网格的动静态标签。
其中,第二获取模块830,还用于:
对所述目标融合特征进行第二卷积处理,得到第二卷积后融合特征;
对所述第二卷积后融合特征进行第二概率函数映射,得到所述网格的类型识别概率。
需要说明的是,上述对点云标签的获取方法实施例的解释说明,也适用于本公开实施例的点云标签的获取装置,具体过程此处不再赘述。
本公开通过对多个点云帧中的点云投影到网格中,通过网格实现了多个点云帧中点云的聚集,使得同一网格可以具有多个点云帧的特征,进而基于网格的目标融合特征,获取网格的语义分割标签和动静态标签,再通过反向投影确定当前点云帧中点云所在网格,从而确定当前点云帧中点云的语义分割标签和动静态标签,提高了点云帧中每个点云的标签的准确性和可靠性。进一步地,本公开通过一个完整的神经网络,可以同时获取点云帧中每个点云的语义分割标签和动静态标签,降低了获取点云的语义分割标签和动静态标签之间的时延。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元907加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如点云标签的获取方法。例如,在一些实施例中,点云标签的获取方法。可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的模型训练或者点云标签的获取方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行点云标签的获取方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网以及区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
本公开还提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时,实现如上所述的点云标签的获取方法。
本公开还提供一种自动驾驶车辆,该自动驾驶车辆可以包括如上述实施例中的电子设备,该电子设备用于执行如上述实施例中的点云标签的获取方法。该自动驾驶车辆设置有点云采集装置,通过该点云采集装置进行点云帧的采集,采集后的点云帧可以输入电子设备中,由电子设备对输入的点云帧执行如上述实施例中的点云标签的获取方法。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (20)

1.一种点云标签的获取方法,其中,包括:
获取包括当前点云帧在内的M个点云帧,并将所述M个点云帧中的点云分别投影至鸟瞰图的网格中,其中M为大于或者等于2的整数;
根据投影后鸟瞰图,获取各网格对应的所述M个点云帧的目标融合特征;
针对各网格,基于所述网格的目标融合特征,获取所述网格的语义分割标签和动静态标签;
对各网格进行反向投影,确定所述当前点云帧中点云所在网格,并将所述点云所在网格的语义分割标签和动静态标签确定为所述点云的标签。
2.根据权利要求1所述的方法,其中,所述根据投影后鸟瞰图,获取各网格对应的所述M个点云帧的目标融合特征,包括:
针对所述M个点云帧中的每个点云帧,根据所述点云帧的投影后鸟瞰图,获取各网格对应的所述点云帧的初始特征信息;
对同一网格的每个点云帧的初始特征信息进行拼接,得到候选拼接特征;
针对各网格,通过骨干网络对所述网格的候选拼接特征进行处理,得到所述网格的目标融合特征。
3.根据权利要求2所述的方法,其中,所述根据所述点云帧的投影后鸟瞰图,获取各网格对应的所述点云帧的初始特征信息,包括:
获取所述投影后鸟瞰图中位于各网格内的点云集;
基于各网格的点云集,确定各网格的所述初始特征信息。
4.根据权利要求3所述的方法,其中,所述基于各网格的点云集,确定各网格的所述初始特征信息,包括:
获取所述点云集中点云的数量;
获取所述点云集中点云的高度值,并根据所述高度值确定所述点云集的高度差和/或平均高度;
获取所述点云集中点云的反射率,并根据所述反射率确定所述点云集的平均反射率。
5.根据权利要求1-4中任一项所述的方法,其中,针对各网格,基于所述网格的目标融合特征,获取所述网格的语义分割标签,包括:
对所述网格的目标融合特征进行语义分割,获取所述网格的多个语义分割概率;
从所述多个语义分割概率中确定最大的语义分割概率;
将所述最大的语义分割概率对应的语义分割标签,确定为所述网格的语义分割标签。
6.根据权利要求5所述的方法,其中,所述对所述网格的目标融合特征进行语义分割,获取所述网格的多个语义分割概率,包括:
对所述目标融合特征进行第一卷积处理,得到第一卷积后融合特征;
对所述第一卷积后融合特征进行第一概率函数映射,得到所述多个语义分割概率。
7.根据权利要求1-4中任一项所述的方法,其中,针对各网格,基于所述网格的目标融合特征,获取所述网格的动静态标签,包括:
对所述网格的目标融合特征进行二分类识别,获取所述网格的类型识别概率;
将所述类型识别概率和预设概率阈值进行比较,并基于比较结果确定所述网格的动静态标签。
8.根据权利要求6所述的方法,其中,所述对所述网格的目标融合特征进行二分类识别,获取所述网格的类型识别概率,包括:
对所述目标融合特征进行第二卷积处理,得到第二卷积后融合特征;
对所述第二卷积后融合特征进行第二概率函数映射,得到所述网格的类型识别概率。
9.一种点云标签的获取装置,其中,包括:
投影模块,用于获取包括当前点云帧在内的M个点云帧,并将所述M个点云帧中的点云分别投影至鸟瞰图的网格中,其中M为大于或者等于2的整数;
第一获取模块,用于根据投影后鸟瞰图,获取各网格对应的所述M个点云帧的目标融合特征;
第二获取模块,用于针对各网格,基于所述网格的目标融合特征,分别获取所述网格的语义分割标签和动静态标签;
第三获取模块,用于对各网格进行反向投影,确定所述当前点云帧中点云所在网格,并将所述点云所在网格的语义分割标签和动静态标签确定为所述点云的标签。
10.根据权利要求9所述的装置,其中,所述第一获取模块,还用于:
针对所述M个点云帧中的每个点云帧,根据所述点云帧的投影后鸟瞰图,获取各网格对应的所述点云帧的初始特征信息;
对同一网格的每个点云帧的初始特征信息进行拼接,得到候选拼接特征;
针对各网格通过骨干网络对所述网格的候选拼接特征进行处理,得到所述网格的目标融合特征。
11.根据权利要求10所述的装置,其中,所述第一获取模块,还用于:
获取所述投影后鸟瞰图中位于各网格内的点云集;
基于各网格的点云集,确定各网格的所述初始特征信息。
12.根据权利要求11所述的装置,其特征在于,所述第一获取模块,还用于:
获取所述点云集中点云的数量;
获取所述点云集中点云的高度值,并根据所述高度值确定所述点云集的高度差和/或平均高度;
获取所述点云集中点云的反射率,并根据所述反射率确定所述点云集的平均反射率。
13.根据权利要求9-12中任一项所述的装置,其中,所述第二获取模块,还用于:
针对各网格,对所述网格的目标融合特征进行语义分割,获取所述网格的多个语义分割概率;
从所述多个语义分割概率中确定最大的语义分割概率;
将所述最大的语义分割概率对应的语义分割标签,确定为所述网格的语义分割标签。
14.根据权利要求13所述的装置,其中,所述第二获取模块,还用于:
对所述目标融合特征进行第一卷积处理,得到第一卷积后融合特征;
对所述第一卷积后融合特征进行第一概率函数映射,得到所述多个语义分割概率。
15.根据权利要求9-12中任一项所述的装置,其特征在于,所述第二获取模块,还用于:
针对各网格,对所述网格的目标融合特征进行二分类识别,获取所述网格的类型识别概率;
将所述类型识别概率和预设概率阈值进行比较,并基于比较结果确定所述网格的动静态标签。
16.根据权利要求15所述的装置,其中,所述第二获取模块,还用于:
对所述目标融合特征进行第二卷积处理,得到第二卷积后融合特征;
对所述第二卷积后融合特征进行第二概率函数映射,得到所述网格的类型识别概率。
17.一种电子设备,其中,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-8所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8所述的方法。
20.一种自动驾驶车辆,包括如权利要求17所述的电子设备。
CN202211649079.1A 2022-12-21 2022-12-21 点云标签的获取方法、装置、电子设备和自动驾驶车辆 Active CN116152702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211649079.1A CN116152702B (zh) 2022-12-21 2022-12-21 点云标签的获取方法、装置、电子设备和自动驾驶车辆

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211649079.1A CN116152702B (zh) 2022-12-21 2022-12-21 点云标签的获取方法、装置、电子设备和自动驾驶车辆

Publications (2)

Publication Number Publication Date
CN116152702A true CN116152702A (zh) 2023-05-23
CN116152702B CN116152702B (zh) 2025-10-03

Family

ID=86349939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211649079.1A Active CN116152702B (zh) 2022-12-21 2022-12-21 点云标签的获取方法、装置、电子设备和自动驾驶车辆

Country Status (1)

Country Link
CN (1) CN116152702B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117292140A (zh) * 2023-10-17 2023-12-26 小米汽车科技有限公司 点云数据的处理方法、装置、车辆及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126473A (zh) * 2019-12-18 2020-05-08 北京新能源汽车技术创新中心有限公司 基于全卷积神经网络的点云数据分类方法及电子设备
CN111429514A (zh) * 2020-03-11 2020-07-17 浙江大学 一种融合多帧时序点云的激光雷达3d实时目标检测方法
CN111476822A (zh) * 2020-04-08 2020-07-31 浙江大学 一种基于场景流的激光雷达目标检测与运动跟踪方法
US10860034B1 (en) * 2017-09-27 2020-12-08 Apple Inc. Barrier detection
CN114445593A (zh) * 2022-01-30 2022-05-06 重庆长安汽车股份有限公司 基于多帧语义点云拼接的鸟瞰图语义分割标签生成方法
WO2022178895A1 (zh) * 2021-02-27 2022-09-01 华为技术有限公司 目标检测方法及相关设备
CN115019034A (zh) * 2022-05-31 2022-09-06 阿里巴巴(中国)有限公司 检测模型训练方法及装置、对象检测方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10860034B1 (en) * 2017-09-27 2020-12-08 Apple Inc. Barrier detection
CN111126473A (zh) * 2019-12-18 2020-05-08 北京新能源汽车技术创新中心有限公司 基于全卷积神经网络的点云数据分类方法及电子设备
CN111429514A (zh) * 2020-03-11 2020-07-17 浙江大学 一种融合多帧时序点云的激光雷达3d实时目标检测方法
CN111476822A (zh) * 2020-04-08 2020-07-31 浙江大学 一种基于场景流的激光雷达目标检测与运动跟踪方法
WO2022178895A1 (zh) * 2021-02-27 2022-09-01 华为技术有限公司 目标检测方法及相关设备
CN114445593A (zh) * 2022-01-30 2022-05-06 重庆长安汽车股份有限公司 基于多帧语义点云拼接的鸟瞰图语义分割标签生成方法
CN115019034A (zh) * 2022-05-31 2022-09-06 阿里巴巴(中国)有限公司 检测模型训练方法及装置、对象检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张易;项志宇;乔程昱;陈舒雅;: "基于3维点云鸟瞰图的高精度实时目标检测", 机器人, no. 02, 6 March 2020 (2020-03-06) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117292140A (zh) * 2023-10-17 2023-12-26 小米汽车科技有限公司 点云数据的处理方法、装置、车辆及存储介质
CN117292140B (zh) * 2023-10-17 2024-04-02 小米汽车科技有限公司 点云数据的处理方法、装置、车辆及存储介质

Also Published As

Publication number Publication date
CN116152702B (zh) 2025-10-03

Similar Documents

Publication Publication Date Title
US20230068238A1 (en) Method and apparatus for processing image, electronic device and storage medium
US12326915B2 (en) Method and apparatus of training model, device, medium, and program product
KR20220122566A (ko) 텍스트 인식 모델의 트레이닝 방법, 텍스트 인식 방법 및 장치
US20230245429A1 (en) Method and apparatus for training lane line detection model, electronic device and storage medium
JP2023531350A (ja) サンプル画像を増分する方法、画像検出モデルの訓練方法及び画像検出方法
CN113920273B (zh) 图像处理方法、装置、电子设备和存储介质
CN114093006A (zh) 活体人脸检测模型的训练方法、装置、设备以及存储介质
CN113537309B (zh) 一种对象识别方法、装置及电子设备
CN114186681A (zh) 用于生成模型簇的方法、装置及计算机程序产品
CN114581732A (zh) 一种图像处理及模型训练方法、装置、设备和存储介质
CN113780578A (zh) 模型训练方法、装置、电子设备及可读存储介质
CN113591709A (zh) 动作识别方法、装置、设备、介质和产品
CN110633716A (zh) 一种目标对象的检测方法和装置
CN114220163A (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN114581746B (zh) 物体检测方法、装置、设备及介质
US20220351495A1 (en) Method for matching image feature point, electronic device and storage medium
US20220383626A1 (en) Image processing method, model training method, relevant devices and electronic device
CN115984566A (zh) 图像分割模型的训练及图像分割方法、装置、设备和介质
CN116152702A (zh) 点云标签的获取方法、装置、电子设备和自动驾驶车辆
CN116030206A (zh) 地图生成方法、训练方法、装置、电子设备以及存储介质
CN114973333A (zh) 人物交互检测方法、装置、设备以及存储介质
CN113378858A (zh) 图像检测方法、装置、设备、车辆和介质
WO2025156876A1 (zh) 点云语义分割的方法、装置、设备及存储介质
CN117710459A (zh) 三维信息的确定方法、装置及计算机程序产品
US20220222941A1 (en) Method for recognizing action, electronic device and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant