CN120931902A

CN120931902A - 目标检测方法和装置、存储介质及电子设备

Info

Publication number: CN120931902A
Application number: CN202511053738.9A
Authority: CN
Inventors: 尚守望; 郑春煌; 周祥明; 金达
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2025-07-28
Filing date: 2025-07-28
Publication date: 2025-11-11

Abstract

本申请公开了一种目标检测方法和装置、存储介质及电子设备。其中，该方法包括：基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框，其中，主导类别检测框包括主导类别标记，附属类别检测框包括附属类别标记，遍历主导类别检测框，基于主导类别检测框与每个附属类别检测框之间的重合程度为主导类别检测框添加附属类别标记，基于附属类别标记在待检测图像中的出现次数确定待检测图像中的检测框的类别。本申请解决了相关技术中存在的目标检测过程中检测框的类别判定的动态一致性较差，相似目标跟踪鲁棒性较差的技术问题。

Description

目标检测方法和装置、存储介质及电子设备

技术领域

本申请涉及计算机领域，具体而言，涉及一种目标检测方法和装置、存储介质及电子设备。

背景技术

在计算机视觉领域，目标检测与跟踪技术广泛应用于智能监控、自动驾驶等场景，其核心任务是对视频序列中的目标进行准确定位与持续追踪。现有技术通常采用神经网络模型进行目标检测，通过输出目标框坐标及类别信息，结合跟踪算法生成目标运动轨迹。然而，当检测对象为具有高度相似特征的类别时，例如厢式三轮车与小型机动车、特定型号的无人机与鸟类等，现有技术面临显著挑战。

传统方法通过优化神经网络结构或调整损失函数权重提升模型对相似目标的区分能力。例如，部分方案采用焦点损失函数抑制易分类别权重，或通过多尺度特征融合增强细节识别。此类方法在动态视频场景中存在局限性：检测模型对相似目标的类别输出易发生跳变，导致同一目标在不同帧中被判定为不同类别。这种不稳定性使得后续跟踪算法难以维持目标ID的一致性，进而引发轨迹断裂、重复计数等问题，严重制约了统计分析与行为预测的准确性。因此，相关技术中存在的目标检测过程中检测框的类别判定的动态一致性较差，相似目标跟踪鲁棒性较差的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种目标检测方法和装置、存储介质及电子设备，以至少解决相关技术中存在的目标检测过程中检测框的类别判定的动态一致性较差，相似目标跟踪鲁棒性较差的技术问题。

根据本申请实施例的一个方面，提供了一种目标检测方法，包括：基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框，其中，所述主导类别检测框包括主导类别标记，所述附属类别检测框包括附属类别标记，所述目标检测模型的训练样本包括增量训练样本，所述增量训练样本的类别标记为所述主导类别标记，所述增量训练样本的坐标信息为附属类别训练样本的坐标信息；遍历所述主导类别检测框，基于所述主导类别检测框与每个所述附属类别检测框之间的重合程度为所述主导类别检测框添加所述附属类别标记；基于所述附属类别标记在所述待检测图像中的出现次数确定所述待检测图像中的检测框的类别。

根据本申请实施例的另一方面，还提供了一种目标检测装置，包括：检测模块，用于基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框，其中，所述主导类别检测框包括主导类别标记，所述附属类别检测框包括附属类别标记，所述目标检测模型的训练样本包括增量训练样本，所述增量训练样本的类别标记为所述主导类别标记，所述增量训练样本的坐标信息为附属类别训练样本的坐标信息；遍历模块，用于遍历所述主导类别检测框，基于所述主导类别检测框与每个所述附属类别检测框之间的重合程度为所述主导类别检测框添加所述附属类别标记；确定模块，用于基于所述附属类别标记在所述待检测图像中的出现次数确定所述待检测图像中的检测框的类别。

在一个示例性的实施例中，所述装置用于通过如下方式遍历所述主导类别检测框，基于所述主导类别检测框与每个所述附属类别检测框之间的重合程度为所述主导类别检测框添加所述附属类别标记：遍历所述主导类别检测框，依次确定所述主导类别检测框与每个所述附属类别检测框之间的重合程度，确定所述重合程度满足预设条件的目标主导类别检测框和目标附属类别检测框；为所述目标主导类别检测框添加所述附属类别标记；删除所述目标附属类别检测框。

在一个示例性的实施例中，所述遍历所述主导类别检测框，依次确定所述主导类别检测框与每个所述附属类别检测框之间的重合程度，确定所述重合程度满足预设条件的目标主导类别检测框和目标附属类别检测框，包括：遍历所述主导类别检测框，每次选中的所述主导类别检测框视为当前主导类别检测框，每次选中的所述附属类别检测框视为当前附属类别检测框，执行如下步骤：确定所述当前主导类别检测框与所述当前附属类别检测框之间的交并比参数；在所述交并比参数大于或等于预设阈值的情况下，将所述当前主导类别检测框与所述当前附属类别检测框分别确定为所述目标主导类别检测框和所述目标附属类别检测框。

在一个示例性的实施例中，所述装置还用于：所述基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框之前，获取初始训练样本，其中，所述初始训练样本包括初始主导类别训练样本和初始附属类别训练样本；基于所述初始训练样本确定增量训练样本；合并所述初始训练样本和所述增量训练样本，得到目标训练样本；使用所述目标训练样本对初始检测模型进行训练，得到所述目标检测模型。

在一个示例性的实施例中，所述装置用于通过如下方式基于所述初始训练样本确定增量训练样本：获取所述初始主导类别训练样本的主导类别标记以及所述初始附属类别训练样本的坐标信息；基于所述主导类别标记以及所述坐标信息生成所述增量训练样本。

在一个示例性的实施例中，所述装置用于通过如下方式基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框：基于所述目标检测模型确定连续N帧所述待检测图像中的主导类别检测框和附属类别检测框，其中，N为整数，且N大于1；所述装置用于通过如下方式基于所述附属类别标记在所述待检测图像中的出现次数确定所述待检测图像中的检测框的类别：对连续N帧所述待检测图像中的目标检测框使用统一标识进行标记，其中，不同的所述目标检测框使用不同的统一标识；基于每个所述统一标识在连续N帧所述待检测图像中的出现次数确定所述附属类别标记在所述待检测图像中的出现次数；在所述附属类别标记在所述待检测图像中的出现次数满足预设次数条件的情况下，确定所述目标检测框的类别为所述附属类别标记对应的类别；在所述附属类别标记在所述待检测图像中的出现次数未满足预设次数条件的情况下，确定所述目标检测框的类别为主导类别标记对应的类别，其中，所述主导类别检测框包括主导类别标记。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述目标检测方法。

根据本申请实施例的又一方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上目标检测方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的目标检测方法。

在本申请实施例中，采用主导类别检测框与附属类别标记动态关联机制，通过构建跨帧协同处理架构，在检测阶段基于预训练模型同步输出主导类别检测框及携带附属类别标记的附属检测框，在框合并阶段依据空间重合度分析实现主导框标记增强与冗余附属框剔除，在决策阶段依托时间窗口统计策略动态优化类别判定逻辑，达到了稳定目标跟踪标识与提升类别判定准确性的双重目的，从而实现了检测与跟踪系统协同优化的技术效果。通过主导框的持续性特征保持跟踪标识稳定传递，利用附属标记的辅助特征记录瞬时分类结果，有效克服了相似目标检测跳变引发的跟踪中断问题；同时基于跨帧统计的决策机制将单帧检测误差转化为可收敛的概率分布，显著提升了复杂场景下类别判定的鲁棒性，形成检测精度容忍度高、跟踪连续性强的技术优势，为动态视频分析场景提供了可靠的解决方案，进而解决了相关技术中存在的目标检测过程中检测框的类别判定的动态一致性较差，相似目标跟踪鲁棒性较差的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的目标检测方法的应用环境的示意图；

图2是根据本申请实施例的一种可选的目标检测方法的流程示意图；

图3是根据本申请实施例的一种可选的目标检测方法的示意图；

图4是根据本申请实施例的又一种可选的目标检测方法的示意图；

图5是根据本申请实施例的又一种可选的目标检测方法的示意图；

图6是根据本申请实施例的又一种可选的目标检测方法的示意图；

图7是根据本申请实施例的一种可选的目标检测装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

目标检测：模型输出画面中待检测目标的外包矩形框，并给出类别；训练目标检测模型的训练集包含图像和其中目标的标签，通常标签包含目标框位置坐标和类别标签，如类别为车的目标，目标框左上角位置坐标(10，20)，右下角位置坐标(100，120)，标签车映射为整数0，则可以用类似(0,10,20,100,120)来表示这个图片中车的标签。

目标跟踪：获取目标检测的矩形框，确定每一个矩形框的id。对于连续的视频帧，使得相同目标拥有同一个id。

IOU(Intersection over Union，交并比)是计算机视觉中用于衡量两个目标检测框(Bounding Box)重合程度的指标，尤其在目标检测和跟踪任务中广泛应用。

下面结合实施例对本申请进行说明：

根据本申请实施例的一个方面，提供了一种目标检测方法，可选地，在本实施例中，上述目标检测方法可以应用于如图1所示的由服务器101和终端设备103所构成的硬件环境中。如图1所示，服务器101通过网络与终端103进行连接，可用于为终端设备或终端设备上安装的应用程序提供服务，应用程序可以是视频应用程序、即时通信应用程序、浏览器应用程序、教育应用程序、游戏应用程序等。可在服务器上或独立于服务器设置数据库105，用于为服务器101提供数据存储服务，例如，游戏数据存储服务器，上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络，终端设备103可以是配置有应用程序的终端，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视、智能语音交互设备、智能家电、车载终端、飞行器、虚拟现实(Virtual Reality，简称VR)终端、增强现实(Augmented Reality，简称AR)终端、混合现实(Mixed Reality，简称MR)终端等计算机设备，上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。

结合图1所示，上述目标检测方法可以由电子设备执行，该电子设备可以是终端设备或服务器，上述目标检测方法可以由终端设备或服务器分别实现，或由终端设备和服务器共同实现。

上述仅是一种示例，本实施例不做具体的限定。

可选地，作为一种可选的实施方式，如图2所示，上述目标检测方法包括：

S202，基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框，其中，所述主导类别检测框包括主导类别标记，所述附属类别检测框包括附属类别标记，所述目标检测模型的训练样本包括增量训练样本，所述增量训练样本的类别标记为所述主导类别标记，所述增量训练样本的坐标信息为附属类别训练样本的坐标信息；

S204，遍历主导类别检测框，基于主导类别检测框与每个附属类别检测框之间的重合程度为主导类别检测框添加附属类别标记；

S206，基于附属类别标记在待检测图像中的出现次数确定待检测图像中的检测框的类别。

在步骤S202中，预训练的目标检测模型通过前向推理生成检测结果，其中主导类别检测框对应训练阶段定义的基准类别(如机动车)，而附属类别检测框则保留其原始类别标签(如三轮车)。例如，在交通监控场景中，模型对一帧图像进行推理后，可能输出多个检测框，其中部分框被标记为“机动车”(主导类别)，另一部分标记为“三轮车”(附属类别)。每个附属类别检测框会携带其原始类别信息，但因其与主导类别框高度重合，后续步骤将对其进行合并处理。

可选地，在本申请实施例中，上述主导类别检测框可以包括但不限于在模型训练阶段通过标签调整生成的检测框，该检测框对应的是相似类别中被选为基准的类别。例如，在训练集中，假设存在相似类别“三轮车”和“机动车”，若“机动车”被选为主导类别，则所有附属类别(如三轮车)的目标框会被复制并修改标签为“机动车”，从而在训练后的模型中，每个附属类别的目标在检测时会同时生成一个与之高度重合的主导类别检测框。这种设计确保在推理阶段，即使附属类别的检测框因模型误判而消失，主导类别检测框仍能稳定存在，为后续跟踪提供连续的基础。主导类别的选择通常基于目标数量或业务需求，例如在交通监控场景中，若机动车数量占优，则可将其设为主导类别。

需要说明的是，本申请支持灵活定义主导类别的策略，以适应不同场景需求。在基础层级中，主导类别通过训练集的样本数量自动确定，确保模型优先学习高频目标的特征。在进阶层级中，可依据业务逻辑强制指定关键类别，例如在安防监控场景中将“可疑包裹”设为主导类别，优先保障高风险目标的检测稳定性。在更高层级中，系统引入在线学习能力，结合实时数据流动态调整主导类别权重，适应目标外观变化或环境光照波动等复杂情况。

可选地，在本申请实施例中，上述附属类别检测框可以包括但不限于与主导类别具有相似特征但在训练中被标记为次要类别的目标框。例如，在主导类别为“机动车”的情况下，“三轮车”作为附属类别，其原始标签在训练阶段被部分替换为“机动车”，但在推理阶段仍可能被模型检测为独立类别。附属类别检测框的特点在于其与主导类别检测框的空间位置高度重合，但在业务逻辑中需要根据标记频次最终确定其类别归属。例如，在视频监控中，若某目标在连续帧中频繁被标记为“三轮车”，则即使其主导类别为“机动车”，仍可能被修正为“三轮车”，以满足精确统计需求。

可选地，在本申请实施例中，上述附属类别标记可以包括但不限于在合并检测框时为每个主导类别检测框添加的标识符，用于记录其与附属类别的关联关系。例如，当主导类别检测框与附属类别检测框合并后，会在主导框的元数据中记录附属类别名称及其出现次数。这种标记机制使得后续的逻辑分析模块能够基于历史频次动态调整目标类别。例如，在100帧内，若某主导类别检测框被标记为“三轮车”的次数达到70次，则可判定其实际类别为“三轮车”，从而实现类别修正。

需要说明的是，附属类别标记的统计机制分为空间维度和时间维度两个层级。在空间维度中，通过滑动窗口统计近期帧的标记频次，抑制单帧检测噪声对分类结果的影响。在时间维度中，系统可结合目标的运动轨迹持续性进行分析，例如对长时间停留于特定区域的目标增强其附属标记的可信度。此外，系统支持融合多源传感器数据(如红外热成像、激光雷达点云)进行跨模态统计，提升复杂环境下的决策鲁棒性。

可选地，在本申请实施例中，上述主导类别标记可以包括但不限于在训练阶段为基准类别目标定义的唯一标识符，用于在模型训练中强化主导类别的特征学习。例如，在交通场景中，若“机动车”被设为主导类别，则所有标注为“机动车”的样本在训练时保留其原始标签，同时在训练过程中通过标签调整策略(如复制附属类别框并修改其标签为主导类别)进一步巩固主导类别的检测能力。主导类别标记的作用在于确保模型在推理阶段优先稳定输出主导类别的检测框，即使附属类别的检测结果存在波动，也能通过主导框的持续存在避免跟踪中断。例如，在交通流量统计系统中，机动车的主导类别标记使得其检测框在视频帧中始终可见，为后续跟踪模块提供稳定的ID分配基础。

在步骤S204中，遍历所有主导类别检测框，并计算其与附属类别检测框的空间重叠程度。例如，若某主导类别框与附属类别框的IOU值为0.95(超过阈值0.9)，则删除附属类别框，并在主导框的元数据中添加“三轮车”标记。此过程通过消除冗余检测框减少后续跟踪算法的复杂度，同时保留类别修正所需的关键信息。举例而言，在密集车流场景中，若多个附属类别框与同一主导框重叠，系统会逐一比对并合并，确保每个主导框仅保留最相关的附属标记。

可选地，在本申请实施例中，上述重合程度可以包括但不限于通过交并比(IOU)、中心点距离或形状相似性等指标衡量两个检测框之间的空间重叠关系。以IOU为例，其计算方式为两个框的交集面积与并集面积的比值，阈值可根据实际场景动态调整(如0.7-0.95)。在工业质检场景中，若主导框与附属框的IOU值超过阈值，则触发合并操作；在医学图像分析中，还可结合像素级语义分割结果增强重合度判定的鲁棒性。这一参数的设计直接影响误检过滤的灵敏度与漏检风险之间的平衡。

需要说明的是，上述重合程度的计算方式可以包括但不限于交并比(IOU)、中心点距离、重叠面积占比等。例如，在遮挡严重场景中，可采用中心点距离作为辅助指标；在目标尺寸差异较大时，可结合重叠面积占比调整合并策略。此外，阈值的选择可根据业务需求动态调整，例如在低误报优先的场景中提高阈值，而在高召回优先的场景中降低阈值。本申请对此不作具体限定。

在步骤S206中，通过统计附属类别标记在连续帧中的出现频次，动态修正目标类别。例如，某主导类别框在连续100帧中被标记为“三轮车”的次数达到70次，则逻辑分析模块将其最终类别判定为“三轮车”。这一机制有效避免了单帧误判的影响，提升类别判定的鲁棒性。举例而言，在光照变化导致附属类别框偶发消失的场景中，基于频次的判定仍能保证结果稳定。

可选地，在本申请实施例中，上述出现次数可以包括但不限于在一定时间窗口或连续帧数内附属类别标记被统计到的频率。例如，在视频监控系统中，系统可维护一个长度为N帧的滑动窗口(N＝50)，统计每个主导框ID在此窗口内被标记为附属类别的次数。若某ID的标记出现次数超过阈值(如30次)，则判定其最终类别为附属类别。此方法通过时间维度上的平滑处理，有效抑制单帧检测跳变带来的噪声，适用于自动驾驶中障碍物类型的持续识别等场景。

需要说明的是，上述出现次数的统计逻辑可以包括但不限于固定窗口统计、滑动窗口加权统计、自适应窗口调整等。例如，在高速运动目标的跟踪中，可采用较短的时间窗口以快速响应类别变化；而在静态或低速场景中，可采用长窗口提升统计稳定性。此外，频次判定可结合置信度分数进行加权，例如高置信度标记的权重更高。本申请对此不作具体限定。

可选地，在本申请实施例中，上述检测框的类别可以包括但不限于基于业务逻辑动态确定的最终分类结果。例如，在零售货架分析场景中，若某主导框被标记为“饮料A”的频次超过60％，则将其类别修正为“饮料A”；在安防监控中，可根据附属标记的时空分布模式(如连续出现于特定区域)调整分类策略。该类别判定机制支持插件化设计，允许根据不同业务需求配置统计规则，从而提升方案的扩展性。

需要说明的是，检测框合并策略的设计分为几何层、特征层与语义层三个层级。几何层基于检测框的交并比或中心点距离判定空间重叠度，形成初步合并依据。特征层通过比对卷积神经网络提取的目标深层特征相似性，验证目标身份的一致性。语义层则结合场景先验知识(如交通规则、工业质检标准)对合并结果进行二次校验，避免误合并导致的业务逻辑错误。

通过本申请实施例，采用主导类别检测框与附属类别标记动态关联机制，通过构建跨帧协同处理架构，在检测阶段基于预训练模型同步输出主导类别检测框及携带附属类别标记的附属检测框，在框合并阶段依据空间重合度分析实现主导框标记增强与冗余附属框剔除，在决策阶段依托时间窗口统计策略动态优化类别判定逻辑，达到了稳定目标跟踪标识与提升类别判定准确性的双重目的，从而实现了检测与跟踪系统协同优化的技术效果。通过主导框的持续性特征保持跟踪标识稳定传递，利用附属标记的辅助特征记录瞬时分类结果，有效克服了相似目标检测跳变引发的跟踪中断问题；同时基于跨帧统计的决策机制将单帧检测误差转化为可收敛的概率分布，显著提升了复杂场景下类别判定的鲁棒性，形成检测精度容忍度高、跟踪连续性强的技术优势，为动态视频分析场景提供了可靠的解决方案，进而解决了相关技术中存在的目标检测过程中检测框的类别判定的动态一致性较差，相似目标跟踪鲁棒性较差的技术问题。

作为一种可选的方案，遍历主导类别检测框，基于主导类别检测框与每个附属类别检测框之间的重合程度为主导类别检测框添加附属类别标记，包括：

遍历主导类别检测框，依次确定主导类别检测框与每个附属类别检测框之间的重合程度，确定重合程度满足预设条件的目标主导类别检测框和目标附属类别检测框；

为目标主导类别检测框添加附属类别标记；

删除目标附属类别检测框。

可选地，在本申请实施例中，上述目标主导类别检测框可以包括但不限于在模型推理阶段优先保留的检测框类型，其类别由训练集中相似目标的样本数量或业务优先级确定。例如，在交通监控场景中，若“机动车”被定义为主导类别，则所有检测到的机动车框将作为核心跟踪目标，而与之相似的“三轮车”框则可能被归为附属类别。上述目标附属类别检测框可以包括但不限于与主导类别具有相似视觉特征但优先级较低的检测框类型。

可选地，在本申请实施例中，上述预设条件可以包括但不限于通过实验或业务需求设定的阈值或规则，用于判断主导类别检测框与附属类别检测框是否需要合并。例如，在交通流量统计场景中，若需严格避免误删，可将IOU阈值设为0.95；而在实时性要求较高的场景中，可适当降低阈值至0.85以加速处理流程。预设条件的设定需权衡精度与效率，例如在密集目标场景中，可通过动态调整阈值来适应不同时段的检测需求。

示例性地，首先，遍历所有主导类别检测框(如“机动车”框)，并逐个计算其与当前帧中所有附属类别检测框(如“三轮车”框)的空间重合程度。例如，若某主导框与附属框的IOU值为0.92(超过预设阈值0.9)，则判定两者满足合并条件。此过程通过逐一对主导框和附属框进行几何匹配，筛选出需要合并的框对。例如，在交通监控场景中，一辆三轮车可能被检测为“三轮车”(附属类别)和“机动车”(主导类别)两个框，通过计算两者的IOU值，系统确定是否需要合并以消除冗余。

然后，在确定合并条件后，系统会在主导类别检测框的元数据中添加附属类别标记，以记录其与附属框的关联关系。例如，某主导框(机动车)与附属框(三轮车)合并后，系统会在机动车框的属性中记录“三轮车”标记及其出现次数。这一步骤的关键在于保留附属类别的语义信息，以便后续分析模块能够基于历史数据修正目标类别。例如，在物流分拣场景中，若某包裹的主导类别为“普通包裹”，但频繁被标记为“易碎品”，则最终可能被归类为“易碎品”以触发特殊处理流程。

最后，完成标记添加后，系统会删除满足合并条件的附属类别检测框，仅保留主导类别检测框及其附属标记。例如，在合并三轮车框与机动车框后，系统删除三轮车框，避免跟踪算法为同一目标分配多个ID。此步骤减少了后续处理的复杂度，同时确保跟踪模块仅需处理主导框，从而提升系统效率。例如，在密集人流监控中，若某行人同时被检测为“成人”和“儿童”，删除附属框可避免跟踪算法因冗余数据而误判轨迹。

通过本申请实施例，遍历主导类别检测框并计算其与附属类别检测框的重合程度，实现冗余检测框的精准合并与标记管理。在检测阶段，通过动态判定重合程度并添加附属类别标记，既保留了附属类别的语义信息，又避免了多框共存导致的跟踪混乱。例如，在交通场景中，三轮车与机动车的检测框合并后，跟踪算法仅需处理主导框(机动车)，同时通过标记记录三轮车的出现频次，确保后续统计与轨迹分析的准确性。删除冗余附属框的设计显著降低了计算资源消耗，尤其适用于高帧率视频流或大规模监控系统。此外，基于预设条件的灵活调整能力使得本方案能够适配不同场景需求，例如在安防领域，通过提高阈值可减少误合并风险，而在工业质检中，降低阈值则可提升小缺陷目标的检出率。整体而言，本方法通过结构化的框合并与标记机制，有效解决了相似目标检测中的类别跳变问题，提升了系统的鲁棒性与业务适应性。

作为一种可选的方案，遍历主导类别检测框，依次确定主导类别检测框与每个附属类别检测框之间的重合程度，确定重合程度满足预设条件的目标主导类别检测框和目标附属类别检测框，包括：

遍历主导类别检测框，每次选中的主导类别检测框视为当前主导类别检测框，每次选中的附属类别检测框视为当前附属类别检测框，执行如下步骤：

确定当前主导类别检测框与当前附属类别检测框之间的交并比参数；

在交并比参数大于或等于预设阈值的情况下，将当前主导类别检测框与当前附属类别检测框分别确定为目标主导类别检测框和目标附属类别检测框。

可选地，在本申请实施例中，上述交并比参数可以包括但不限于用于量化两个检测框之间空间重叠程度的指标，通常通过交并比(IOU)公式计算，即两个框的交集面积与并集面积的比值。例如，在交通场景中，若机动车(主导类别)检测框与三轮车(附属类别)检测框的交集面积为90像素，并集面积为100像素，则IOU值为0.9。交并比参数是判断两个框是否属于同一目标的核心依据，其值范围在0到1之间，值越接近1表示重叠程度越高。需要说明的是，交并比的计算可针对不同形状的检测框进行优化，例如旋转框或多边形框，以适应复杂场景的需求。

可选地，在本申请实施例中，上述目标主导类别检测框可以包括但不限于经过重合程度筛选后保留下来的主导类别检测框，其与某一附属类别检测框满足预设的合并条件。例如，在交通监控中，当机动车(主导类别)框与三轮车(附属类别)框的IOU值超过阈值时，机动车框被标记为目标主导类别检测框，并携带三轮车的附属标记。目标主导框的选定确保了后续跟踪和分析仅需处理关键检测结果，避免冗余数据干扰。例如，在高速公路场景中，若卡车(主导类别)与货厢(附属类别)的检测框高度重合，则卡车框被保留为目标主导框，货厢框则被合并删除。

可选地，在本申请实施例中，上述目标附属类别检测框可以包括但不限于与目标主导类别检测框满足合并条件的附属类别检测框，其信息被整合至主导框的标记中后将被删除。例如，当三轮车(附属类别)框与机动车(主导类别)框的IOU值达到阈值时，三轮车框被标记为目标附属框，其类别信息被记录在机动车框的属性中，随后从检测结果中移除。这种设计在保证数据精简的同时，保留了关键类别修正依据。例如，在停车场管理中，若电动车(附属类别)与汽车(主导类别)的检测框重叠，电动车框被合并后，其出现频次将用于最终类别判定。

示例性地，首先，对当前帧中的所有主导类别检测框(如机动车框)进行遍历，并逐一将其与所有附属类别检测框(如三轮车框)进行匹配。例如，在交通流量统计场景中，系统首先选中一个机动车框作为当前主导框，再依次选中每个三轮车框作为当前附属框，进行后续计算。这一遍历机制确保每一对主导与附属框的匹配关系均被独立评估，避免漏检或多检。例如，在十字路口监控中，若存在多个机动车与三轮车交错行驶，系统需逐一比对每对框以准确判定合并条件。

然后，系统计算当前主导框与附属框的IOU值，作为是否合并的依据。例如，某机动车框的坐标为(10,20,100,120)，三轮车框的坐标为(15,25,95,115)，两者的交集面积为80像素，并集面积为90像素，则IOU值为0.89。若预设阈值为0.85，则满足合并条件。这一计算过程通过几何运算精确量化框间重叠，为后续操作提供客观标准。例如，在夜间低光照场景中，模型可能误检阴影区域为目标框，但通过IOU阈值筛选可有效过滤虚假重叠。

最后，当IOU值达到阈值时，系统将当前主导框标记为目标主导框，附属框标记为目标附属框，并触发合并流程。例如，在交通拥堵场景中，一辆三轮车紧贴机动车行驶，两者的检测框IOU值为0.91(阈值0.9)，则机动车框被保留为目标主导框，三轮车框则被标记为待合并的目标附属框。此步骤通过动态判定框间关系，确保仅对高度重叠的框对进行处理，避免无效操作。例如，在车辆变道过程中，短暂重叠的框可能因IOU值低于阈值而被忽略，从而减少误合并风险。

需要说明的是，上述预设阈值的设定可以基于场景特性、目标尺寸或业务需求灵活调整。例如，在车辆密集的城区道路中，可适当降低阈值(如0.85)以加速合并处理；而在高速公路场景中，由于车辆间距较大，可提高阈值(如0.95)以提升合并精度。此外，阈值可动态适应环境变化，例如在雨雾天气中，模型检测框的稳定性下降，此时可结合置信度分数加权调整阈值。本申请对此不作具体限定。

需要说明的是，上述交并比参数的计算可扩展至三维空间或多模态数据融合场景。例如，在自动驾驶系统中，可结合激光雷达点云数据计算三维IOU；在无人机监控中，可融合红外与可见光图像的检测框进行跨模态重叠分析。此外，对于非矩形框(如旋转框或语义分割掩膜)，可采用多边形交集算法或像素级重叠率计算。本申请对此不作具体限定。

通过本申请实施例，通过逐对计算主导与附属类别检测框的交并比参数，并结合预设阈值动态判定合并条件，显著提升了交通场景中相似目标检测与跟踪的准确性。在遍历匹配过程中，系统通过独立评估每对框的重叠程度，确保合并决策的精细化。例如，在混合车流场景中，机动车与三轮车的检测框因高度重叠而被合并，主导框持续稳定的存在为跟踪算法提供了可靠的ID分配基础，避免了因类别跳变导致的轨迹断裂。删除冗余附属框的设计不仅降低了后续处理的复杂度，还减少了内存与计算资源的消耗，尤其适用于实时性要求高的交通监控系统。此外，预设阈值的灵活性使得本方案能够适应不同场景需求，例如在城区复杂路况中通过调整阈值平衡精度与效率，或在恶劣天气条件下结合多传感器数据增强鲁棒性。整体而言，该方法通过结构化的框合并机制，有效解决了相似目标检测中的误检与漏检问题，为交通管理、流量统计等业务提供了高效可靠的技术支撑。

作为一种可选的方案，基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框之前，上述方法还包括：

获取初始训练样本，其中，初始训练样本包括初始主导类别训练样本和初始附属类别训练样本；

基于初始训练样本确定增量训练样本；

合并初始训练样本和增量训练样本，得到目标训练样本；

使用目标训练样本对初始检测模型进行训练，得到目标检测模型。

可选地，在本申请实施例中，上述初始训练样本可以包括但不限于在模型训练初期使用的原始数据集，其中包含主导类别和附属类别的标注样本。例如，在交通识别场景中，初始训练样本可能包含大量标注为“机动车”(主导类别)的图像样本，以及少量标注为“三轮车”(附属类别)的样本。这些样本通过人工标注或自动化工具生成，每个样本包含目标的位置坐标及类别标签。初始训练样本的构建需覆盖典型场景，例如城市道路、高速公路、交叉路口等，以确保模型具备基础泛化能力。需要说明的是，主导类别的样本数量通常显著多于附属类别，以反映实际场景中的分布特征。

可选地，在本申请实施例中，上述初始主导类别训练样本可以包括但不限于训练集中被定义为基准类别的标注数据，其标签在训练过程中保持不变。例如，在交通监控场景中，若“机动车”被设为主导类别，则所有标注为“机动车”的样本将直接用于模型训练，无需调整其类别标签。这些样本通常覆盖多样化的目标形态，如不同车型、颜色、角度及光照条件下的机动车图像。主导类别的选择需基于业务优先级，例如在车流量统计系统中，机动车因其高占比而被优先设为基准类别。

可选地，在本申请实施例中，上述初始附属类别训练样本可以包括但不限于与主导类别具有相似特征但被标记为次要类别的原始数据。例如，在初始训练样本中，“三轮车”作为附属类别，其原始标签在后续训练阶段会被部分替换为主导类别标签(如“机动车”)。这些样本需包含与主导类别易混淆的目标实例，例如三轮车与小型机动车的侧面视图。附属类别样本的标注需精细化，以避免训练过程中引入噪声，例如在遮挡或模糊场景中需严格校验标注准确性。

可选地，在本申请实施例中，上述增量训练样本可以包括但不限于在初始训练集基础上新增或动态生成的补充数据，用于优化模型性能。例如，在交通场景中，增量集可能包含新采集的夜间行车数据、雨雪天气条件下的目标图像，或通过数据增强技术生成的旋转、缩放、噪声扰动样本。增量集的构建可基于模型在初始训练后的表现，针对薄弱环节(如小目标检测)定向补充样本。需要说明的是，增量数据需与初始集在分布上保持一致性，避免引入领域偏移问题。

可选地，在本申请实施例中，上述目标训练样本可以包括但不限于初始集与增量集合并后的完整数据集，用于最终模型训练。例如，在交通识别场景中，目标训练集可能包含初始的10万张标注图像及增量的2万张新样本，覆盖更全面的场景与目标形态。合并过程中需去除重复样本，并对标注格式进行统一，例如将不同来源的坐标格式(如YOLO格式与COCO格式)转换为模型输入要求的标准形式。目标训练集的规模与质量直接影响模型对相似目标的区分能力。

示例性地，首先，从数据源中收集并整理原始训练数据，区分主导类别与附属类别样本。例如，在交通识别任务中，初始主导类别样本可能包含5000张标注为“机动车”的图像，而附属类别样本包含500张标注为“三轮车”的图像。数据来源可包括公开数据集(如COCO、KITTI)、企业自有监控视频或第三方标注服务。需要确保样本多样性，例如涵盖不同时间段(白天/夜晚)、天气条件(晴/雨/雾)及目标姿态(正面/侧面)。

然后，根据初始训练结果或业务需求，动态生成或筛选增量数据。例如，若初始模型在检测夜间三轮车时表现不佳，增量集可针对性添加低光照条件下的三轮车样本。增量数据可通过实际场景采集(如新增摄像头部署)、数据增强(如调整亮度、添加运动模糊)或合成生成(如使用GAN生成逼真图像)。增量集的规模需平衡模型性能与训练成本，例如在嵌入式设备中采用轻量级增量数据以避免过载。

最后，将初始集与增量集进行整合，形成最终的训练数据集。例如，初始集的5000张机动车样本与增量集的1000张夜间机动车样本合并后，目标训练集包含6000张机动车样本，覆盖更全面的场景。合并过程中需进行数据清洗，例如去除标注错误或低质量图像(如过度模糊或重复样本)，并对类别分布进行平衡，避免主导类别样本过度倾斜导致模型偏倚。

需要说明的是，上述增量训练样本的生成方式可以包括但不限于实际场景采集、数据增强、对抗样本生成或跨领域迁移。例如，在交通识别中，可通过调整图像色彩饱和度模拟不同季节的路况，或通过添加虚拟遮挡物(如树木、广告牌)增强模型鲁棒性。此外，增量数据可结合主动学习策略，根据模型预测不确定性动态选择高价值样本。本申请对此不作具体限定。

需要说明的是，上述合并操作的具体实现可以包括但不限于简单叠加、加权采样或分层整合。例如，在资源受限场景中，可采用随机采样从初始集与增量集中按比例抽取样本；在类别不平衡场景中，可通过过采样附属类别或欠采样主导类别优化分布。此外，合并过程可引入数据版本管理机制，以追踪样本来源及修改记录。本申请对此不作具体限定。

通过本申请实施例，利用分阶段构建与合并训练样本，显著提升了相似目标检测模型的泛化能力与稳定性。初始训练样本的构建确保了模型对基础场景的覆盖，例如日间机动车检测的准确性；增量训练样本的引入则针对性地弥补了初始模型的短板，如夜间或恶劣天气下的目标漏检。通过合并形成目标训练样本，模型能够学习到更全面的特征表达，从而减少因环境变化导致的类别跳变。例如，在交通流量监控中，合并后的数据集使模型能够稳定区分机动车与三轮车，即便在光照不足或目标部分遮挡的情况下仍保持高可靠性。此外，增量数据的动态扩充机制支持模型持续优化，适应业务场景的演进需求，例如新增交通标志或车型类别的快速适配。整体而言，该方法通过结构化的数据管理策略，为相似目标检测与跟踪提供了坚实的数据基础，提升了系统在复杂现实场景中的实用性与鲁棒性。

作为一种可选的方案，基于初始训练样本确定增量训练样本，包括：

获取初始主导类别训练样本的主导类别标记以及初始附属类别训练样本的坐标信息；

基于主导类别标记以及坐标信息生成增量训练样本。

可选地，在本申请实施例中，上述初始附属类别训练样本的坐标信息可以包括但不限于附属类别目标在图像中的位置标注，通常以矩形框的左上角和右下角坐标表示。例如，在训练集中，三轮车(附属类别)的坐标信息可能标注为(x1,y1,x2,y2)，其中(x1,y1)为框的左上角坐标，(x2,y2)为右下角坐标。这些坐标信息在训练阶段被复制并修改为主导类别的标签，从而生成新的训练样本。通过复用附属类别的坐标信息，模型能够学习到主导类别与附属类别在空间位置上的高度重合性，进而在推理阶段更精准地合并冗余检测框。例如，在停车场监控场景中，电动车(附属类别)的坐标信息被用于生成机动车(主导类别)的伪标签，使模型能够识别两者的空间重叠特征。

示例性地，首先，从原始训练数据中提取主导类别的标签信息及附属类别的空间位置数据。例如，在交通识别场景中，初始主导类别样本(机动车)的标签为“0”，而附属类别样本(三轮车)的坐标信息为(10,20,100,120)。这些数据经过解析后，主导类别标记用于标识基准类别的训练目标，附属类别坐标则用于生成增量样本。例如，在模型训练过程中，系统读取三轮车的坐标信息，将其复制并修改标签为“0”(机动车)，从而生成新的训练样本，强化模型对主导类别的识别能力。

然后，利用主导类别标记和附属类别坐标信息，通过标签替换或数据增强技术生成增量训练样本。例如，针对附属类别(三轮车)的坐标(10,20,100,120)，系统生成一个新样本，保留相同坐标但将类别标签修改为主导类别(机动车)。这种增量数据扩充了训练集的多样性，使模型能够学习到主导类别与附属类别在空间分布上的高度一致性。例如，在夜间交通监控场景中，增量样本可包含低光照条件下的三轮车坐标信息，通过标签替换生成机动车伪标签，从而提升模型在复杂环境中的检测鲁棒性。

通过本申请实施例，利用提取主导类别标记与附属类别坐标信息，并基于此生成增量训练样本，显著提升了模型对相似目标的区分能力与检测稳定性。在训练阶段，通过复用附属类别的坐标信息并替换为主导类别标签，模型能够学习到两类目标在空间分布上的高度重合性，从而在推理阶段更精准地合并冗余检测框。例如，在交通场景中，机动车与三轮车的检测框因增量训练而被模型识别为同一空间区域的不同类别表达，进而通过合并操作消除跳变干扰。主导类别标记的强化学习确保了检测框的持续稳定输出，为跟踪模块提供了可靠的ID分配基础，避免了因类别切换导致的轨迹断裂。增量训练样本的引入进一步扩展了模型的场景适应性，使其能够在低光照、遮挡或目标形变等复杂条件下保持高鲁棒性。整体而言，该方法通过结构化的数据生成策略，有效解决了相似目标检测中的误检与漏检问题，为交通管理、智能监控等业务场景提供了高效且可靠的技术支持。

作为一种可选的方案，基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框，包括：基于目标检测模型确定连续N帧待检测图像中的主导类别检测框和附属类别检测框，其中，N为整数，且N大于1；

基于附属类别标记在待检测图像中的出现次数确定待检测图像中的检测框的类别，包括：

对连续N帧待检测图像中的目标检测框使用统一标识进行标记，其中，不同的目标检测框使用不同的统一标识；

基于每个统一标识在连续N帧待检测图像中的出现次数确定附属类别标记在待检测图像中的出现次数；

在附属类别标记在待检测图像中的出现次数满足预设次数条件的情况下，确定目标检测框的类别为附属类别标记对应的类别；

在附属类别标记在待检测图像中的出现次数未满足预设次数条件的情况下，确定目标检测框的类别为主导类别标记对应的类别，其中，主导类别检测框包括主导类别标记。

可选地，在本申请实施例中，上述预训练的目标检测模型可以包括但不限于通过大规模数据集预先训练完成的深度学习模型，具备基础目标检测能力，能够输出图像中目标的位置坐标及类别标签。例如，在交通识别场景中，模型可能采用YOLO、Faster R-CNN或DETR等架构，并在包含机动车、行人、三轮车等类别的数据集上进行训练。预训练模型通过迁移学习技术适配特定任务，例如在交通监控中，模型可通过微调优化对相似类别(如机动车与三轮车)的区分能力。此类模型在部署前已具备较高的检测精度，可快速适应实际场景需求，例如实时视频流中的多目标跟踪。

可选地，在本申请实施例中，上述统一标识可以包括但不限于为同一目标在不同视频帧中分配的唯一ID，用于跨帧追踪与状态更新。例如，在连续视频流中，某辆三轮车在初始帧被分配ID“001”，后续帧中若检测到同一目标，则沿用该ID并记录其运动轨迹。统一标识的生成可基于目标外观特征、运动轨迹匹配或深度学习嵌入向量。在交通监控中，统一标识的稳定性直接影响统计数据的准确性，例如车辆计数或轨迹分析需依赖ID的持续一致。

可选地，在本申请实施例中，上述预设次数条件可以包括但不限于基于业务需求设定的阈值，用于判定附属类别标记是否足够频繁以修正目标类别。例如，在连续10帧中，若某主导类别检测框(机动车)被标记为附属类别(三轮车)的次数超过7次，则判定其实际类别为三轮车。预设次数条件的设计需权衡误判风险与响应速度，例如在需要快速响应的场景(如违章检测)中，可降低阈值以缩短判定周期；而在高精度要求的场景(如流量统计)中，可提高阈值以减少误修正。

示例性地，首先，系统利用预训练模型对连续多帧图像进行检测，分别输出主导类别(如机动车)与附属类别(如三轮车)的检测框。例如，在交通监控视频中，模型对连续5帧图像进行推理，每帧均输出多个机动车框和三轮车框。通过多帧检测，系统能够捕捉目标的动态变化，减少单帧误检或漏检的影响。例如，某三轮车在首帧可能被误检为机动车，但在后续帧中因特征逐渐明确而被正确识别，多帧综合分析可提升检测稳定性。

其次，为每个检测框分配唯一ID，用于跨帧追踪。例如，某机动车在连续帧中被分配ID“002”，其位置与类别信息被逐帧记录。统一标识的生成可基于目标运动轨迹匹配，例如通过卡尔曼滤波预测下一帧位置并与实际检测框关联。在交通场景中，统一标识的稳定性对轨迹分析至关重要，例如车辆变道或超车时，ID需持续一致以避免轨迹断裂。

再次，统计每个ID在连续多帧中被标记为附属类别的频次。例如，ID“002”在5帧中被标记为三轮车的次数为4次，则其附属类别出现次数为4。此统计过程通过累加或滑动窗口实现，例如在实时监控中，系统维护一个长度为N的队列记录最近帧的标记状态。频次统计可结合时间衰减因子，使得近期帧的标记对结果影响更大，从而提升动态场景的适应性。

接着，当附属类别标记的频次达到阈值时，系统修正目标类别。例如，预设条件为“5帧中出现3次”，若ID“002”的附属标记达到3次，则其最终类别被修正为三轮车。此机制有效减少单帧误判的影响，例如光照突变导致的短暂误检不会触发类别修正。在交通流量统计中，这种修正逻辑可避免因模型波动导致的计数误差，提升数据可靠性。

最后，若附属标记频次未达阈值，系统维持主导类别判定。例如，ID“003”在5帧中仅1次被标记为三轮车，则其类别仍为机动车。此设计确保在信息不足时优先依赖主导类别的稳定性，避免过度修正。例如，在目标短暂被遮挡或部分可见时，主导类别标记的持续存在为跟踪模块提供可靠依据，减少ID跳变或丢失风险。

需要说明的是，上述连续帧数N的取值可以基于场景动态性、硬件处理能力或业务实时性需求灵活调整。例如，在高速公路场景中，车辆运动速度快，可采用较小的N值(如3帧)以快速响应类别变化；而在城市拥堵路段，目标移动缓慢，可采用较大的N值(如10帧)以提高判定精度。此外，N的设定可结合目标尺寸自适应调整，例如对大型车辆(如卡车)使用较长窗口，而对小型目标(如自行车)使用较短窗口。本申请对此不作具体限定。

需要说明的是，上述统一标识的生成策略可以包括但不限于基于外观特征匹配、运动轨迹预测或深度学习嵌入相似度计算。例如，在光照变化频繁的场景中，可结合颜色直方图与SIFT特征进行标识关联；在密集目标场景中，可基于运动方向与速度预测下一帧位置以实现高效匹配。此外，标识管理可引入生命周期机制，例如对长时间未更新的ID进行回收，以避免内存泄漏。本申请对此不作具体限定。

需要说明的是，上述预设次数条件的设定依据可以包括业务容错率、目标运动模式或环境复杂度。例如，在违章检测场景中，为减少漏报可设定较低阈值(如5帧中2次)；而在科研级数据收集中，为追求高精度可设定较高阈值(如10帧中8次)。此外，阈值可动态适应目标行为，例如对频繁变道的车辆采用更严格的判定条件。本申请对此不作具体限定。

通过本申请实施例，利用连续多帧分析与统一标识管理，显著提升了交通场景中相似目标检测与分类的鲁棒性。预训练模型的多帧检测能力确保主导与附属类别框的稳定输出，而统一标识的跨帧关联机制则实现了目标状态的连贯记录。通过统计附属类别标记在连续帧中的出现频次，并结合预设条件动态修正目标类别，系统能够有效抑制单帧误判的干扰。例如，在交通监控中，短暂被遮挡的三轮车可能单帧被误判为机动车，但多帧频次统计可准确还原其真实类别，避免计数或轨迹分析误差。主导类别标记的优先级设计进一步增强了系统的容错性，确保在信息不充分时仍能提供可靠输出。此外，参数(如N值、阈值)的灵活适配支持不同场景需求，例如在高速路况中快速响应，或在复杂城区场景中精细调整。整体而言，该方法通过时序分析与动态决策的结合，为智能交通管理提供了高精度、高稳定的技术基础。

下面结合具体的示例，对本申请进行进一步的解释说明：

一、模型训练阶段，如图3所示，包括但不限于如下步骤：

S302，训练集中假设有相似类别A、B(可以不只有两类)，选择其中数量最多的类别命名其为“主导类别”，其余类别为称为“附属类别”，如主导类别A，附属类别B。对于附属类别B，复制类别B的目标框坐标，但是修改其类别标签为A。例如，B类别某目标的标签为(b，x1,y1,x2,y2)，增加一个标签(a,x1,y1,x2,y2)，直观上的理解即在原B目标上叠加一个框完全一样但是类别为A的框。

S304，使用新生成的标签同原始标签训练网络模型，可以选择的模型包括但不限于YOLO系列，DETR系列等。这样训练的模型出来的结果，即三轮车框上一定会有一个几乎重合的机动车的框。

二、模型推理阶段，如图4所示，包括但不限于如下步骤：

S402，使用训练好的检测模型对视频帧进行推理；

S404，合并相似类别目标框，具体而言：遍历所有模型输出为主导类别A的目标框，对其中一个目标框a，计算其与各附属类别的目标框(如类别为B的框b)的IOU值，当IOU值大于一个设定阈值t(典型值为0.9)，则删除框b，并且为框a添加一个附属数类别为B的标记，便于后续的分析，如图5所示，包括但不限于如下步骤：

S404-1，计算类别A框a与相似类别B框b的IOU；

S404-2，判断IOU是否大于t；

S404-3，在判断结果为是的情况下，删除框b，为a框的类别增加一个附属类别b的标记；

S404-4，在判断结果为否的情况下，不进行框的删除操作；

S406，使用跟踪算法为该视频帧中的所有目标分配id，跟踪算法包括但不限于Sort，DeepSort等；

S408，统计某个id连续帧的结果，根据业务确定目标所属类别。这里提供一种简单的业务逻辑：计算主类的附属类别标记在指定数目视频帧出现的频数，从而确定该id目标的最终类别。如在当前帧的前100帧内主类为A，id为1的目标，附属类别B标记出现的次数为70帧，附属类别C标记出现的概率为50帧，则确定当前帧id为1的目标最终类别为B。

如图6所示，整个系统可以有如下模块构成：

目标检测模块：获取检测图像检测结果，包含每个目标的类别及其矩形框；

检测框合并模块：根据主导类别和附属类别，合并附属类别的矩形框；

跟踪模块：跟踪模块为每个目标分配一个id；

逻辑分析模块：分析同一个id附属类别标记出现的频数，确定id最终的类别。

本申请对相似类别定义了“主导类别”和“附属类别”的概念，在“附属类别”的标签框上生成“主导类别”的标签框，使用新的训练集训练模型；对模型的输出结果做结果框的合并，删除附属类别的框，在其重合的主导类别框上增加附属类别的标记。解决了相似类别检测跳变从而带来的跟踪id中断的问题。使用主导类别叠框的方法，保证所有附属类别上框一定存在一个高度重合的主导类别框。跟踪算法跟踪主导类别，就能实现跟踪id的不间断。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述目标检测方法的目标检测装置。如图7所示，该装置包括：

检测模块702，用于基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框，其中，主导类别检测框包括主导类别标记，附属类别检测框包括附属类别标记，目标检测模型的训练样本包括增量训练样本，增量训练样本的类别标记为主导类别标记，增量训练样本的坐标信息为附属类别训练样本的坐标信息；

遍历模块704，用于遍历主导类别检测框，基于主导类别检测框与每个附属类别检测框之间的重合程度为主导类别检测框添加附属类别标记；

确定模块706，用于基于附属类别标记在待检测图像中的出现次数确定待检测图像中的检测框的类别。

作为一种可选的方案，上述装置用于通过如下方式遍历主导类别检测框，基于主导类别检测框与每个附属类别检测框之间的重合程度为主导类别检测框添加附属类别标记：遍历主导类别检测框，依次确定主导类别检测框与每个附属类别检测框之间的重合程度，确定重合程度满足预设条件的目标主导类别检测框和目标附属类别检测框；为目标主导类别检测框添加附属类别标记；删除目标附属类别检测框。

作为一种可选的方案，遍历主导类别检测框，依次确定主导类别检测框与每个附属类别检测框之间的重合程度，确定重合程度满足预设条件的目标主导类别检测框和目标附属类别检测框，包括：遍历主导类别检测框，每次选中的主导类别检测框视为当前主导类别检测框，每次选中的附属类别检测框视为当前附属类别检测框，执行如下步骤：确定当前主导类别检测框与当前附属类别检测框之间的交并比参数；在交并比参数大于或等于预设阈值的情况下，将当前主导类别检测框与当前附属类别检测框分别确定为目标主导类别检测框和目标附属类别检测框。

作为一种可选的方案，上述装置还用于：基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框之前，获取初始训练样本，其中，初始训练样本包括初始主导类别训练样本和初始附属类别训练样本；基于初始训练样本确定增量训练样本；合并初始训练样本和增量训练样本，得到目标训练样本；使用目标训练样本对初始检测模型进行训练，得到目标检测模型。

作为一种可选的方案，上述装置用于通过如下方式基于初始训练样本确定增量训练样本：获取初始主导类别训练样本的主导类别标记以及初始附属类别训练样本的坐标信息；基于主导类别标记以及坐标信息生成增量训练样本。

作为一种可选的方案，上述装置用于通过如下方式基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框：基于目标检测模型确定连续N帧待检测图像中的主导类别检测框和附属类别检测框，其中，N为整数，且N大于1；上述装置用于通过如下方式基于附属类别标记在待检测图像中的出现次数确定待检测图像中的检测框的类别：对连续N帧待检测图像中的目标检测框使用统一标识进行标记，其中，不同的目标检测框使用不同的统一标识；基于每个统一标识在连续N帧待检测图像中的出现次数确定附属类别标记在待检测图像中的出现次数；在附属类别标记在待检测图像中的出现次数满足预设次数条件的情况下，确定目标检测框的类别为附属类别标记对应的类别；在附属类别标记在待检测图像中的出现次数未满足预设次数条件的情况下，确定目标检测框的类别为主导类别标记对应的类别，其中，主导类别检测框包括主导类别标记。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的，一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括中央处理器(Central Processing Unit，CPU)，其可以根据存储在只读存储器(Read-OnlyMemory，ROM)中的程序或者从存储部分加载到随机访问存储器(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器中，还存储有系统操作所需的各种程序和数据。中央处理器、在只读存储器以及随机访问存储器通过总线彼此相连。输入/输出接口(Input/Output接口，即I/O接口)也连接至总线。

以下部件连接至输入/输出接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至输入/输出接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请的系统中限定的各种功能。

在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请实施例提供的各种功能。

根据本申请实施例的又一个方面，还提供了一种用于实施上述目标检测方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。该电子设备包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行本申请各实施例中的方法。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的目标检测方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标检测方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

可选地，上述电子设备的传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机可读存储介质，电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述目标检测方面的各种可选实现方式中提供的目标检测方法。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行本申请各实施例中的方法。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台电子设备执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的应用程序，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种目标检测方法，其特征在于，包括：

基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框，其中，所述主导类别检测框包括主导类别标记，所述附属类别检测框包括附属类别标记，所述目标检测模型的训练样本包括增量训练样本，所述增量训练样本的类别标记为所述主导类别标记，所述增量训练样本的坐标信息为附属类别训练样本的坐标信息；

遍历所述主导类别检测框，基于所述主导类别检测框与每个所述附属类别检测框之间的重合程度为所述主导类别检测框添加所述附属类别标记；

基于所述附属类别标记在所述待检测图像中的出现次数确定所述待检测图像中的检测框的类别。

2.根据权利要求1所述的方法，其特征在于，所述遍历所述主导类别检测框，基于所述主导类别检测框与每个所述附属类别检测框之间的重合程度为所述主导类别检测框添加所述附属类别标记，包括：

遍历所述主导类别检测框，依次确定所述主导类别检测框与每个所述附属类别检测框之间的重合程度，确定所述重合程度满足预设条件的目标主导类别检测框和目标附属类别检测框；

为所述目标主导类别检测框添加所述附属类别标记；

删除所述目标附属类别检测框。

3.根据权利要求2所述的方法，其特征在于，所述遍历所述主导类别检测框，依次确定所述主导类别检测框与每个所述附属类别检测框之间的重合程度，确定所述重合程度满足预设条件的目标主导类别检测框和目标附属类别检测框，包括：

遍历所述主导类别检测框，每次选中的所述主导类别检测框视为当前主导类别检测框，每次选中的所述附属类别检测框视为当前附属类别检测框，执行如下步骤：

确定所述当前主导类别检测框与所述当前附属类别检测框之间的交并比参数；

在所述交并比参数大于或等于预设阈值的情况下，将所述当前主导类别检测框与所述当前附属类别检测框分别确定为所述目标主导类别检测框和所述目标附属类别检测框。

4.根据权利要求1所述的方法，其特征在于，所述基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框之前，所述方法还包括：

获取初始训练样本，其中，所述初始训练样本包括初始主导类别训练样本和初始附属类别训练样本；

基于所述初始训练样本确定增量训练样本；

合并所述初始训练样本和所述增量训练样本，得到目标训练样本；

使用所述目标训练样本对初始检测模型进行训练，得到所述目标检测模型。

5.根据权利要求4所述的方法，其特征在于，所述基于所述初始训练样本确定增量训练样本，包括：

获取所述初始主导类别训练样本的主导类别标记以及所述初始附属类别训练样本的坐标信息；

基于所述主导类别标记以及所述坐标信息生成所述增量训练样本。

6.根据权利要求1至5中任一项所述的方法，其特征在于，

所述基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框，包括：基于所述目标检测模型确定连续N帧所述待检测图像中的主导类别检测框和附属类别检测框，其中，N为整数，且N大于1；

所述基于所述附属类别标记在所述待检测图像中的出现次数确定所述待检测图像中的检测框的类别，包括：

对连续N帧所述待检测图像中的目标检测框使用统一标识进行标记，其中，不同的所述目标检测框使用不同的统一标识；

基于每个所述统一标识在连续N帧所述待检测图像中的出现次数确定所述附属类别标记在所述待检测图像中的出现次数；

在所述附属类别标记在所述待检测图像中的出现次数满足预设次数条件的情况下，确定所述目标检测框的类别为所述附属类别标记对应的类别；

在所述附属类别标记在所述待检测图像中的出现次数未满足预设次数条件的情况下，确定所述目标检测框的类别为主导类别标记对应的类别，其中，所述主导类别检测框包括主导类别标记。

7.一种目标检测装置，其特征在于，包括：

检测模块，用于基于预训练的目标检测模型确定待检测图像中的主导类别检测框和附属类别检测框，其中，所述主导类别检测框包括主导类别标记，所述附属类别检测框包括附属类别标记，所述目标检测模型的训练样本包括增量训练样本，所述增量训练样本的类别标记为所述主导类别标记，所述增量训练样本的坐标信息为附属类别训练样本的坐标信息；

遍历模块，用于遍历所述主导类别检测框，基于所述主导类别检测框与每个所述附属类别检测框之间的重合程度为所述主导类别检测框添加所述附属类别标记；

确定模块，用于基于所述附属类别标记在所述待检测图像中的出现次数确定所述待检测图像中的检测框的类别。

8.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的计算机程序，其中，所述计算机程序可被电子设备运行时执行所述权利要求1至6任一项中所述的方法。

9.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6任一项中所述方法的步骤。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。