CN109727275B

CN109727275B - 目标检测方法、装置、系统和计算机可读存储介质

Info

Publication number: CN109727275B
Application number: CN201811630396.2A
Authority: CN
Inventors: 李姣; 刘朋樟; 刘通
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2022-04-12
Anticipated expiration: 2038-12-29
Also published as: CN109727275A

Abstract

本发明公开了一种目标检测方法、装置、系统和计算机可读存储介质，涉及图像处理技术领域。目标检测方法包括：将包括多帧图像的待检测序列输入到目标检测模型中，获得目标检测模型输出的具有检测框的多个图像；确定检测框中的具有运动光流的像素；根据检测框中的具有运动光流的像素数，保留部分或全部检测框；将保留的检测框中的对象确定为相应的图像中的目标对象。本发明的实施例能够提高目标检测的准确性。

Description

目标检测方法、装置、系统和计算机可读存储介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种目标检测方法、装置、系统和计算机可读存储介质。

背景技术

目标检测是指在给定的图像中精确找到物体所在位置，并标注出物体的类别。目标检测技术是当前计算机视觉和机器学习领域的研究热点之一。如今，目标检测的研究方向主要有两大类。一是基于传统图像处理和机器学习算法的目标检测，该方法主要包括目标特征提取、目标识别、目标定位等等。二是基于深度学习的目标检测，该方法主要通过深度网络模型完成深度特征的提取、目标识别与定位。

发明内容

发明人认识到，目前基于深度学习的检测模型针对不同应用场景的泛化能力较低，导致在场景复杂的情况下，检测模型会产生大量的误检结果，导致检测的准确率较低。

本发明实施例所要解决的一个技术问题是：如何提高目标检测方法的准确率。

根据本发明一些实施例的第一个方面，提供一种目标检测方法，包括：将包括多帧图像的待检测序列输入到目标检测模型中，获得目标检测模型输出的具有检测框的多个图像；确定检测框中的具有运动光流的像素；根据检测框中的具有运动光流的像素数，保留部分或全部检测框；将保留的检测框中的对象确定为相应的图像中的目标对象。

在一些实施例中，确定检测框中的具有运动光流的像素包括：根据一帧图像的检测框中的像素的位置与上一帧图像的同一像素的位置，确定像素的位移；在像素的位移大于位移阈值的情况下，确定像素具有运动光流。

在一些实施例中，目标检测方法还包括：检测图像的检测框中的特征点，以便计算图像的检测框中的每个特征点相对于图像的前一帧图像中的同一特征点的位移，并在特征点的位移大于位移阈值的情况下，确定特征点对应的像素具有运动光流。

在一些实施例中，根据检测框中的具有运动光流的像素数，保留部分或全部检测框包括：在图像的检测框中的具有运动光流的像素数小于预设阈值，并且在图像的前若干帧图像中图像的检测框对应的范围内的具有运动光流的像素数也小于预设阈值的情况下，删除图像的检测框。

在一些实施例中，目标检测模型为神经网络模型；目标检测方法还包括：采用训练图像训练神经网络模型以获得目标检测模型，其中，训练图像包括正样本图像和负样本图像，每个正样本图像具有标记的目标对象的位置信息，每个负样本图像中不具有目标对象，负样本图像包括目标检测模型误识别的检测框中的图像。

在一些实施例中，目标检测方法还包括：基于采集的真实图像，采用生成式对抗网络生成虚拟图像；将虚拟图像作为训练图像。

在一些实施例中，目标检测方法还包括：响应于售货装置的柜门被开启，采集视频或连续采集多个图像作为待检测序列，以便检测图像中的目标对象，其中，目标对象为被拿取的物品；识别目标对象的图像以确定被拿取的物品的标识。

根据本发明一些实施例的第二个方面，提供一种目标对象检测装置，包括：检测框输出模块，被配置为将包括多帧图像的待检测序列输入到目标检测模型中，获得目标检测模型输出的具有检测框的多个图像；运动光流确定模块，被配置为确定检测框中的具有运动光流的像素；检测框筛选模块，被配置为根据检测框中的具有运动光流的像素数，保留部分或全部检测框；目标对象确定模块，被配置为将保留的检测框中的对象确定为相应的图像中的目标对象。

根据本发明一些实施例的第三个方面，提供一种目标对象检测装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行用于运行包括以下操作的目标对象检测方法：将包括多帧图像的待检测序列输入到目标检测模型中，获得目标检测模型输出的具有检测框的多个图像；确定检测框中的具有运动光流的像素；根据检测框中的具有运动光流的像素数，保留部分或全部检测框；将保留的检测框中的对象确定为相应的图像中的目标对象。

在一些实施例中，操作还包括：检测图像的检测框中的特征点，以便计算图像的检测框中的每个特征点相对于图像的前一帧图像中的同一特征点的位移，并在特征点的位移大于位移阈值的情况下，确定特征点对应的像素具有运动光流。

在一些实施例中，目标检测模型为神经网络模型；操作还包括：

采用训练图像训练神经网络模型以获得目标检测模型，其中，训练图像包括正样本图像和负样本图像，每个正样本图像具有标记的目标对象的位置信息，每个负样本图像中不具有目标对象，负样本图像包括目标检测模型误识别的检测框中的图像。

在一些实施例中，操作还包括：基于采集的真实图像，采用生成式对抗网络生成虚拟图像；将虚拟图像作为训练图像。

根据本发明一些实施例的第四个方面，提供一种目标对象检测系统，包括：前述任意一种目标对象检测装置，被配置为将包括多帧图像的待检测序列输入到目标检测模型中，获得目标检测模型输出的具有检测框的多个图像；确定检测框中的具有运动光流的像素；根据检测框中的具有运动光流的像素数，保留部分或全部检测框；将保留的检测框中的对象确定为相应的图像中的目标对象；以及摄像设备，被配置为采集包括多帧图像的待检测序列。

在一些实施例中，目标对象检测系统还包括：售货装置；摄像设备位于售货装置，进一步被配置为响应于售货装置的柜门被开启，采集视频或连续采集多个图像作为待检测序列；目标对象检测装置进一步被配置为检测图像中的目标对象，并识别目标对象的图像以确定被拿取的物品的标识，其中，目标对象为被拿取的物品。

根据本发明一些实施例的第五个方面，提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意一种目标对象检测方法。

上述发明中的一些实施例具有如下优点或有益效果：本发明的实施例可以采用目标检测模型、基于静态的图像特征识别出单帧图像中可能存在的目标对象，再采用基于帧间的动态特征的运动光流来对可能存在的目标对象进行筛选来获得检测结果。即使在场景复杂的情况下，本发明的实施例也可以通过这种二次筛选的方式进行检测，提高了目标检测的准确性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明一些实施例的目标检测方法的流程示意图。

图2为根据本发明一些实施例的具有运动光流的像素确定方法的流程示意图。

图3为根据本发明另一些实施例的具有运动光流的像素确定方法的流程示意图。

图4为根据本发明一些实施例的检测框筛选方法的流程示意图。

图5为根据本发明另一些实施例的检测框筛选方法的流程示意图。

图6为根据本发明一些实施例的目标检测模型训练方法的流程示意图。

图7为根据本发明一些实施例的训练图像生成方法的流程示意图。

图8为根据本发明一些实施例的售货方法的流程示意图。

图9为根据本发明一些实施例的目标检测装置的结构示意图。

图10为根据本发明一些实施例的目标对象检测系统的结构示意图。

图11为根据本发明另一些实施例的目标对象检测装置的结构示意图。

图12为根据本发明又一些实施例的目标对象检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

图1为根据本发明一些实施例的目标检测方法的流程示意图。如图1所示，该实施例的目标检测方法包括步骤S102～S108。

在步骤S102中，将包括多帧图像的待检测序列输入到目标检测模型中，获得目标检测模型输出的具有检测框的多个图像。检测框中的对象被目标检测模型认为是目标对象。

待检测序列例如可以是一段视频，或者是由一个拍摄设备在一段时间内连续采集的多幅图像组成的图像序列。待检测序列可以通过固定视角的拍摄设备采集，拍摄设备例如可以为同一拍摄过程中固定在预设位置处、并且拍摄角度和焦距不变的监控摄像头。例如，可以为放置在无人售货柜处，用于拍摄用户拿取物品的行为的摄像头。

在一些实施例中，目标检测模型为神经网络模型，例如可以为基于mobilenet(移动端神经网络)-SSD(Single Shot MultiBox Detector，单镜头多盒检测器)网络框架的模型。目标检测模型输出的图像中可能有一个或多个检测框。

发明人认识到，目标检测模型是依据单帧图像中的图像特征来确定目标对象的。这是一种基于静态特征的识别方式。当识别的目标对象是运动中的物体时，为了进一步提升目标检测的准确性，还可以对目标检测模型的输出结果进行进一步筛选。

在步骤S104中，确定检测框中的具有运动光流的像素。

运动光流反映了物体在相邻帧之间的运动信息。在本发明的实施例中，像素是否存在运动光流例如可以利用同一像素在处于不同帧时所产生的变化信息来确定。

在步骤S106中，根据检测框中的具有运动光流的像素数，保留部分或全部检测框。

在一些实施例中，可以根据某一帧图像以及其前预设数量帧的图像的检测框中的具有运动光流的像素数，保留这一帧图像中的部分或全部检测框。当光流数为0或较少时，说明检测框中存在运动物体的可能性较低，该检测框很可能是误识别，或者识别出的是背景物、而非运动中的目标对象。

在步骤S108中，将保留的检测框中的对象确定为相应的图像中的目标对象。

通过上述实施例的方法，可以采用目标检测模型、基于静态的图像特征识别出单帧图像中可能存在的目标对象，再采用基于帧间的动态特征的运动光流来对可能存在的目标对象进行筛选来获得检测结果。即使在场景复杂的情况下，本发明的实施例也可以通过这种二次筛选的方式进行检测，提高了目标检测的准确性。

下面参考图2和3描述本发明具有运动光流的像素确定方法的实施例。

图2为根据本发明一些实施例的具有运动光流的像素确定方法的流程示意图。如图2所示，该实施例的具有运动光流的像素确定方法包括步骤S202～S204。

在步骤S202中，根据一帧图像的检测框中的像素的位置与上一帧图像的同一像素的位置，确定像素的位移。

在步骤S204中，在像素的位移大于位移阈值的情况下，确定像素具有运动光流。

当像素在不同时刻的位置变化大于位移阈值时，说明该像素具有运动信息，从而该像素对应的运动光流可以反映物体的运动特征。通过该实施例的方法，可以准确地检测检测框中的具有运动光流的像素。

在一些实施例中，可以通过特征点来识别不同帧中的同一像素。图3为根据本发明另一些实施例的具有运动光流的像素确定方法的流程示意图。如图3所示，该实施例的具有运动光流的像素确定方法包括步骤S302～S306。

在步骤S302中，检测图像的检测框中的特征点。特征点例如可以为角点特征、SIFT(Scale-Invariant Feature Transform，尺度不变特征变换)特征等等，本领域技术人员可以根据需要进行选择。

在一些实施例中，可以根据每帧图像中的全部像素检测图像中的所有特征点，再将落入到检测框中的特征点筛选出来。从而可以更全面地检测特征点。在一些实施例中，还可以仅根据检测框中的像素点检测特征点。从而可以提高特征点的检测速度。

在步骤S304中，计算图像的检测框中的每个特征点相对于图像的前一帧图像中的同一特征点的位移。

在一些实施例中，可以将图像映射到坐标系中，图像中的每个像素位置对应坐标系中的一个坐标点。从而，可以将同一特征点在相邻两帧图像中的坐标点的距离确定为特征点的位移。

在步骤S306中，在特征点的位移大于位移阈值的情况下，确定特征点对应的像素具有运动光流。

通过上述实施例的方法，可以更准确地检测出不同图像帧中的相同像素，提高了具有运动光流的像素的检测的准确性。

在确定检测框中的具有运动光流的像素后，可以根据检测框中的具有运动光流的像素数，保留部分或全部检测框。在删除一帧图像中的检测框时，不仅可以根据该帧图像的检测框中的具有运动光流的像素数进行处理，还可以根据该帧图像的前若干帧图像的检测框中的具有运动光流的像素数进行处理。下面参考图4和图5描述本发明检测框筛选方法的实施例。

图4为根据本发明一些实施例的检测框筛选方法的流程示意图。如图4所示，该实施例的检测框筛选方法包括步骤S402～S404。

在步骤S402中，确定检测框中的具有运动光流的像素。

在步骤S404中，在图像的检测框中的具有运动光流的像素数小于预设阈值，并且在图像的前若干帧图像中图像的检测框对应的范围内的运动光流数也小于预设阈值的情况下，删除图像的检测框。

如果在一段时间内，检测框中没有出现运动物体，则检测框中的内容很可能是背景物，因此可以将检测框删除。

图5为根据本发明另一些实施例的检测框筛选方法的流程示意图。如图5所示，该实施例的检测框筛选方法包括步骤S502～S510。

在步骤S502中，获取目标检测模型输出的具有检测框的多帧图像。

在步骤S504中，确定多帧图像中的检测框中的具有运动光流的像素。

步骤S506～S10是针对多帧图像中的一帧待处理图像中的一个检测框的示例性处理方式。对于待处理图像中的其他检测框以及其他帧图像，均可以采用相同或相似的手段进行处理。

在步骤S506中，判断待处理图像的待处理检测框内的具有运动光流的像素数是否小于预设阈值。如果不小于，判定待处理图像的待处理检测框内存在运动物体，保留待处理检测框；如果小于，执行步骤S508。

在步骤S508中，判断在待处理图像的上一帧图像中，待处理检测框对应的范围内的具有运动光流的像素数是否小于预设阈值。如果不小于，说明虽然待处理检测框内可能不存在运动物体，但是前一帧中与该待处理检测框所在位置的相同位置存在运动物体，因此待处理检测框中很可能是目标对象经过一段运动后停止时所采集的图像，从而可以保留待处理检测框；如果小于，执行步骤S510。

在步骤S510中，判断在待处理图像的前N(N为正整数)帧图像中，待处理检测框对应的范围内的具有运动光流的像素数是否小于预设阈值。如果不小于，可以保留待处理检测框；如果小于，说明在一段时间内待处理检测框所在位置均没有运动物体，则待处理检测框中很有可能是背景物，因此可以删除待处理检测框。

通过上述实施例的方法，可以结合多帧图像的光流数综合地判断检测框内是否存在目标对象，提高了目标对象检测的准确性。

为了进一步提升目标检测模型的准确率，本发明还可以将目标检测模型的训练进行优化。在一些实施例中，可以采用训练图像训练神经网络模型以获得目标检测模型，其中，训练图像包括正样本图像和负样本图像，每个正样本图像具有标记的目标对象的位置信息，每个负样本图像中不具有目标对象。负样本图像包括目标检测模型误识别的检测框中的图像。下面参考图6描述本发明目标检测模型训练方法的实施例。

图6为根据本发明一些实施例的目标检测模型训练方法的流程示意图。如图6所示，该实施例的目标检测模型训练方法包括步骤S602～S608。

在步骤S602中，获取训练图像，训练图像包括正样本图像和负样本图像。

在步骤S604中，将训练图像输入到神经网络模型中，获得输出的预测图像。部分预测图像具有检测框。

在步骤S606中，根据神经网络模型的预测准确性，对神经网络的模型进行调整。

在步骤S608中，响应于神经网络模型输出的负样本图像对应的预测图像中具有检测框，将负样本图像对应的预测图像的检测框中的图像作为新的负样本，添加到训练图像中。

从而，可以将训练过程中误识别的图像重新进行训练，以提升神经网络模型对于难例(Hard Example，也被称为Hard Negative、Hard Instance)的识别能力，从而提升了目标检测模型的识别准确率。

在一些实施例中，还可以在使用过程中丰富负样本，以便持续地对目标检测模型进行更新。例如，还可以包括步骤S610～S614。

在步骤S610中，将包括多帧图像的待检测序列输入到目标检测模型中，获得目标检测模型输出的具有检测框的多个图像。

在步骤S612中，基于运动光流保留部分或全部检测框，将保留的检测框中的对象确定为相应的图像中的目标对象。

在步骤S614中，将删除的检测框中的图像作为新的负样本，添加到训练图像中。

在一些实施例中，训练图像可以包括真实的图像，还可以包括虚拟图像。虚拟图像可以是根据真实的图像生成的。下面参考图7描述本发明训练图像生成方法的实施例。

图7为根据本发明一些实施例的训练图像生成方法的流程示意图。如图7所示，该实施例的训练图像生成方法包括步骤S702～S704。

在步骤S702中，基于采集的真实图像，采用生成式对抗网络生成虚拟图像。

在一些实施例中，可以预先训练多个场景分别对应的多个生成式对抗网络，这些场景例如可以为前述实施例中的目标检测方法可能会应用的场景。通过将采集的真实图像输入到一个生成式对抗网络中，生成式对抗网络可以生成相应场景下的虚拟图像。

在步骤S704中，将虚拟图像作为训练图像。训练图像中除了虚拟图像以外，也可以还包括真实图像。

从而，可以基于少量的真实图像生成大量的虚拟图像用于训练，使得训练的目标检测模型可以对多种场景具有良好的适应性，提高而了训练效率和目标检测的准确性。

本发明的实施例例如可以应用于售货装置的售货场景。例如，当用户打开无人售货柜的柜门取货时，安装在无人售货柜的摄像头可以采集用户拿取货物时的视频或图像。然后，可以通过本发明的目标检测方法识别用户手中拿取的商品。由于用户在拿取商品的过程中，商品大多数时间处于移动状态，因此可以在目标检测模型识别出图像中的部分商品后，再基于运动光流将图像中的周围环境、放置在售货柜内的用户未拿取的静止商品进行进一步筛除，从而可以确定用户拿取的商品。下面参考图8描述本发明无人售货柜售货方法的实施例。

图8为根据本发明一些实施例的售货方法的流程示意图。如图8所示，该后实施例的售货方法包括步骤S802～S812。

在步骤S802中，响应于售货柜的柜门被开启，采集视频或连续采集多个图像作为待检测序列。

在一些实施例中，可以响应于用户关闭柜门而停止视频或图像的采集。

在步骤S804中，将待检测序列输入到目标检测模型中，获得目标检测模型输出的具有检测框的多个图像。

在步骤S806中，确定检测框中的具有运动光流的像素。

在步骤S808中，根据检测框中的具有运动光流的像素数，保留部分或全部检测框。

在步骤S810中，将保留的检测框中的对象确定为相应的图像中的目标对象。目标对象为被拿取的物品。

在步骤S812中，识别目标对象的图像以确定被拿取的物品的标识。从而，可以确定用户拿取的物品的SKU(Stock Keeping Unit，库存量单位)、名称、价格、规格等信息，以便对用户拿取的物品进行结算，实现自动售货流程。

通过上述实施例的方法，可以针对用户从自动售货机中拿取物品时，物品在大多数时间处于运动状态的特点，准确地识别被用户拿取的物品，从而可以提高自动售货机的售货效率与商品结算的准确性。

下面参考图9描述本发明目标检测装置的实施例。

图9为根据本发明一些实施例的目标检测装置的结构示意图。如图9所示，该实施例的目标检测装置90包括：检测框输出模块910，被配置为将包括多帧图像的待检测序列输入到目标检测模型中，获得目标检测模型输出的具有检测框的多个图像；运动光流确定模块920，被配置为确定检测框中的具有运动光流的像素；检测框筛选模块930，被配置为根据检测框中的具有运动光流的像素数，保留部分或全部检测框；目标对象确定模块940，被配置为将保留的检测框中的对象确定为相应的图像中的目标对象。

在一些实施例中，运动光流确定模块920进一步被配置为根据一帧图像的检测框中的像素的位置与上一帧图像的同一像素的位置，确定像素的位移；在像素的位移大于位移阈值的情况下，确定像素具有运动光流。

在一些实施例中，目标检测装置90还包括：特征点检测模块950，被配置为检测图像的检测框中的特征点，以便计算图像的检测框中的每个特征点相对于图像的前一帧图像中的同一特征点的位移，并在特征点的位移大于位移阈值的情况下，确定特征点对应的像素具有运动光流。

在一些实施例中，检测框筛选模块930进一步被配置为在图像的检测框中的具有运动光流的像素数小于预设阈值，并且在图像的前若干帧图像中图像的检测框对应的范围内的具有运动光流的像素数也小于光流数阈值的情况下，删除图像的检测框。

在一些实施例中，目标检测模型为神经网络模型；目标检测装置90还包括：训练模块960进一步被配置为采用训练图像训练神经网络模型以获得目标检测模型，其中，训练图像包括正样本图像和负样本图像，每个正样本图像具有标记的目标对象的位置信息，每个负样本图像中不具有目标对象，负样本图像包括目标检测模型误识别的检测框中的图像。

在一些实施例中，目标检测装置90还包括：虚拟图像生成模块970，被配置为基于采集的真实图像，采用生成式对抗网络生成虚拟图像；将虚拟图像作为训练图像。

下面参考图10描述本发明目标对象检测系统的实施例。

图10为根据本发明一些实施例的目标对象检测系统的结构示意图。如图10所示，该实施例的目标对象检测系统100包括：目标对象检测装置1010以及摄像设备1020。摄像设备1020被配置为采集包括多帧图像的待检测序列。目标对象检测装置1010的具体实施方式可以参考图9实施例中的目标检测装置90，这里不再赘述。

图11为根据本发明另一些实施例的目标对象检测装置的结构示意图。如图11所示，该实施例的目标对象检测装置110包括：存储器1110和耦接至该存储器1110的处理器1120，处理器1120被配置为基于存储在存储器1110中的指令，执行前述任意一个实施例中的目标对象检测方法。

其中，存储器1110例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

图12为根据本发明又一些实施例的目标对象检测装置的结构示意图。如图12所示，该实施例的目标对象检测装置120包括：存储器1210以及处理器1220，还可以包括输入输出接口1230、网络接口1240、存储接口1250等。这些接口1230，1240，1250以及存储器1210和处理器1220之间例如可以通过总线1260连接。其中，输入输出接口1230为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口1240为各种联网设备提供连接接口。存储接口1250为SD卡、U盘等外置存储设备提供连接接口。

本发明的实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前述任意一种目标对象检测方法。

本领域内的技术人员应当明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标检测方法，包括：

将包括多帧图像的待检测序列输入到目标检测模型中，获得目标检测模型输出的具有检测框的多个图像；

确定检测框中的具有运动光流的像素，包括：检测图像的检测框中的特征点，特征点包括角点特征、尺度不变特征变换SIFT特征，通过特征点来识别不同帧中的同一像素，计算图像的检测框中的每个特征点相对于所述图像的前一帧图像中的同一特征点的位移，并在特征点的位移大于位移阈值的情况下，确定所述特征点对应的像素具有运动光流；

根据检测框中的具有运动光流的像素数，保留部分或全部检测框，包括：在图像的检测框中的具有运动光流的像素数小于预设阈值，并且在所述图像的前若干帧图像中所述图像的检测框对应的范围内的具有运动光流的像素数也小于预设阈值的情况下，删除所述图像的检测框；

将保留的检测框中的对象确定为相应的图像中运动中的目标对象。

2.根据权利要求1所述的目标检测方法，检测图像的检测框中的特征点包括：根据每帧图像中的全部像素检测图像中的所有特征点，再将落入到检测框中的特征点筛选出来。

3.根据权利要求1所述的目标检测方法，检测图像的检测框中的特征点包括：根据检测框中的像素点检测特征点。

4.根据权利要求1所述的目标检测方法，其中，所述目标检测模型为神经网络模型；

所述目标检测方法还包括：

采用训练图像训练神经网络模型以获得目标检测模型，其中，所述训练图像包括正样本图像和负样本图像，每个正样本图像具有标记的目标对象的位置信息，每个负样本图像中不具有目标对象，所述负样本图像包括所述目标检测模型误识别的检测框中的图像。

5.根据权利要求4所述的目标检测方法，还包括：

基于采集的真实图像，采用生成式对抗网络生成虚拟图像；

将虚拟图像作为训练图像。

6.根据权利要求1所述的目标检测方法，还包括：

响应于售货装置的柜门被开启，采集视频或连续采集多个图像作为待检测序列，以便检测图像中的目标对象，其中，所述目标对象为被拿取的物品；

识别目标对象的图像以确定被拿取的物品的标识。

7.一种目标对象检测装置，包括：

检测框输出模块，被配置为将包括多帧图像的待检测序列输入到目标检测模型中，获得目标检测模型输出的具有检测框的多个图像；

运动光流确定模块，被配置为确定检测框中的具有运动光流的像素，包括：检测图像的检测框中的特征点，特征点包括角点特征、尺度不变特征变换SIFT特征，通过特征点来识别不同帧中的同一像素，计算图像的检测框中的每个特征点相对于所述图像的前一帧图像中的同一特征点的位移，并在特征点的位移大于位移阈值的情况下，确定所述特征点对应的像素具有运动光流；

检测框筛选模块，被配置为根据检测框中的具有运动光流的像素数，保留部分或全部检测框，包括：在图像的检测框中的具有运动光流的像素数小于预设阈值，并且在所述图像的前若干帧图像中所述图像的检测框对应的范围内的具有运动光流的像素数也小于预设阈值的情况下，删除所述图像的检测框；

目标对象确定模块，被配置为将保留的检测框中的对象确定为相应的图像中运动中的目标对象。

8.一种目标对象检测装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行用于运行包括以下操作的目标对象检测方法：

9.根据权利要求8所述的目标对象检测装置，其中，所述目标检测模型为神经网络模型；

所述操作还包括：

10.根据权利要求9所述的目标对象检测装置，其中，所述操作还包括：

基于采集的真实图像，采用生成式对抗网络生成虚拟图像；

将虚拟图像作为训练图像。

11.一种目标对象检测系统，包括：

权利要求8～10中任一项所述的目标对象检测装置；以及

摄像设备，被配置为采集包括多帧图像的待检测序列。

12.根据权利要求11所述的目标对象检测系统，

还包括：售货装置；

所述摄像设备位于售货装置，进一步被配置为响应于售货装置的柜门被开启，采集视频或连续采集多个图像作为待检测序列。

13.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1～6中任一项所述的目标检测方法。