WO2020024851A1

WO2020024851A1 - 目标跟踪方法、计算机设备和存储介质

Info

Publication number: WO2020024851A1
Application number: PCT/CN2019/097343
Authority: WO
Inventors: 赵艳丹; 汪铖杰; 曹玮剑; 曹赟; 程盼; 黄渊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-01
Filing date: 2019-07-23
Publication date: 2020-02-06
Anticipated expiration: 2021-02-01
Also published as: US11961242B2; US20210012510A1; EP3754608A1; EP3754608A4; CN108961315B; CN108961315A

Abstract

本申请涉及一种目标跟踪方法、计算机设备和存储介质，该方法包括：确定当前图像帧的目标候选区域；在当前图像帧中截取与所述目标候选区域匹配的目标候选图像；根据所述目标候选图像的图像特征确定所述当前图像帧的目标区域；通过运动预测模型，并根据所述目标候选图像的图像特征，确定下一图像帧相对于当前图像帧的运动预测数据；根据所述目标区域和所述运动预测数据，确定下一图像帧的目标候选区域。本申请方案可以保证在目标候选区域中确定目标区域，从而提高了目标跟踪的准确性，降低了目标跟踪丢失率。

Description

目标跟踪方法、计算机设备和存储介质

本申请要求于2018年8月1日提交的申请号为2018108670368、发明名称为“目标跟踪方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种目标跟踪方法、计算机设备和存储介质。

背景技术

随着计算技术的飞速发展，图像处理技术也加快了发展的步伐。在图像处理技术领域中，尤其是视频图像处理领域，需要对视频图像中的目标进行跟踪。

然而，传统的视频图像中的目标跟踪，一般只能对视频图像中移动速度较慢的目标进行跟踪。在对视频图像中的目标进行跟踪中，如果目标的移动速度较快，很容易出现目标跟踪失败或者目标丢失的情况，很难对目标进行跟踪，从而导致目标跟踪丢失率较高的情况。

发明内容

基于此，本申请提供了一种目标跟踪方法、计算机设备和存储介质，能够解决传统方法中目标跟踪丢失率较高的问题。

一种目标跟踪方法，所述方法包括：

确定当前图像帧的目标候选区域；

在当前图像帧中截取与所述目标候选区域匹配的目标候选图像；

根据所述目标候选图像的图像特征确定所述当前图像帧的目标区域；

通过运动预测模型，根据所述目标候选图像的图像特征，确定下一图像帧相对于当前图像帧的运动预测数据；

根据所述目标区域和所述运动预测数据，确定下一图像帧的目标候选区域。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

确定当前图像帧的目标候选区域；

一种存储有计算机程序的存储介质，所述计算机程序被处理器执行时，使得处理器执行如下步骤：

确定当前图像帧的目标候选区域；

上述目标跟踪方法、计算机设备和存储介质，根据当前图像帧的目标候选区域截取目标候选图像，在目标候选图像中确定目标区域，通过运动预测模型确定下一图像帧相对于当前图像帧的运动预测数据，通过运动预测数据对当前图像帧的目标区域移动，即可确定下一图像帧的目标候选区域。由于基于运动预测数据，可以确定目标大概移动到的位置，因此，这样可以保证在从当前图像帧切换到下一图像帧时，可以准确确定目标候选区域，提高了确定目标候选区域的准确性，在切换到下一图像帧时，也可以保证在目标候选区域中确定目标区域，从而提高了目标跟踪的准确性，降低了目标跟踪丢失率。

附图说明

图1为一个实施例中目标跟踪方法的应用场景图；

图2为另一个实施例中目标跟踪方法的应用场景图；

图3为一个实施例中目标跟踪方法的流程示意图；

图4为一个实施例中确定目标区域的步骤的流程示意图；

图5为一个实施例中获得运动预测数据的步骤的流程示意图；

图6为一个实施例中训练运动预测模型的步骤的流程示意图；

图7为一个实施例中确定运动训练数据的步骤的流程示意图；

图8为一个实施例中目标跟踪方法中模型的连接示意图；

图9为一个实施例中多任务模型的结构示意图；

图10为一实施例中目标根据方法的流程示意图；

图11为一个实施例中标记预设预测分类的示意图；

图12为一个实施例中确定图像帧的预设预测分类的示意图；

图13为另一个实施例中确定图像帧的预设预测分类的示意图；

图14为一个实施例中目标跟踪装置的框图；

图15为另一个实施例中目标跟踪装置的框图；

图16为一个实施例中计算机设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中目标跟踪方法的应用场景图。参照图1，该应用场景包括终端110和至少一个摄像头120，摄像头用于采集图像。终端110具体可以是台式终端或移动终端，移动终端具体可以是手机、平板电脑和笔记本电脑中的至少一种。

图2为另一个实施例中目标跟踪方法的应用场景图。参照图2，该应用场景包括终端200，终端200为移动终端，移动终端具体可以是手机、平板电脑和笔记本电脑中的至少一种。终端200中安装有摄像头210，摄像头用于采集图像。终端200将摄像头210采集到的图像220展示在显示屏上。

如图3所示，在一个实施例中，提供一种目标跟踪方法。目标跟踪方法可以应用于上述图1中的终端110或图2中的终端200。本实施例主要以该方法应用于图1或图2中的终端来举例说明。参照图3，该目标跟踪方法，具体包括以下步骤：

S302，终端确定当前图像帧的目标候选区域。

其中，当前图像帧为终端当前正在处理的图像帧。图像帧为组成视频图像的视频帧序列的最小单位图像。目标候选区域为确定目标区域的候选区域。目标候选区域包括目标区域。目标可以是移动的，也可以是静止的。举例说明，目标可以是移动的人脸、移动的汽车和移动的飞机等。

其中，目标区域可以是指目标所在的一个或多个图像区域，该目标区域可以采用矩形框的形式来表示。

具体地，摄像头可以实时采集当前视场范围内的当前图像帧，将实时采集到的当前图像帧发送至终端。终端接收摄像头返回的当前图像帧，对当前图像帧进行识别，识别当前图像帧中目标预测范围，根据识别到的目标位置确定当前图像帧的目标候选区域。其中，目标预测范围是指目标可能存在的图像范围。

在一个实施例中，终端通过摄像头获取摄像头的当前视场范围内的当前图像帧，调用目标识别程序对当前图像帧中的目标进行识别，通过识别得到目标位置，根据目标位置确定目标候选区域。

在一个实施例中，终端获取当前图像帧，获取根据上一图像帧中的目标区域和运动预测数据所确定的目标候选区域。运动预测数据可以包括运动速度、运动方向和运动距离中的至少一种。

S304，该终端在当前图像帧中截取与目标候选区域匹配的目标候选图像。

其中，目标候选图像为根据目标候选区域从当前图像中截取到的部分图像。

具体地，终端在识别当前图像帧中的目标候选区域后，对目标候选区域内的图像进行截取，截取得到与目标候选区域匹配的目标候选图像。通过该截取所得到的图像，可以被确定为与目标候选区域匹配的目标候选图像。

在一个实施例中，终端识别到当前图像帧中的目标候选区域后，按照预设倍数扩大目标候选区域，根据扩大后的目标候选区域在当前图像帧中截取目标候选图像。

在一个实施例中，终端将目标候选区域的边长扩大预设倍数，根据扩大后的边长在当前图像帧中截取，与目标候选区域匹配的目标候选图像。

在一个实施例中，S304具体包括：按照预设倍数在当前图像帧中扩大目标候选区域；在当前图像帧中确定与扩大后的目标候选区域匹配的目标候选图像；从当前图像帧中截取确定的目标候选图像。

具体地，终端按照预设倍数将目标候选区域扩大，按照扩大后的目标候选区域，在当前图像帧中确定扩大后的目标候选区域。终端根据确定的目标候选区域在当前图像帧中截取目标候选图像，截取的目标候选图像与确定的目标候选区域的大小相匹配。预设倍数具体可以是1.3倍。

在一个实施例中，终端以目标候选区域的各边长为中心，将目标候选区域的各边长向两端方向按照预设倍数延长。终端将延长后的各边长进行按照垂直方向向目标候选区域外部平移，直至各边长的端点两两重合，以各边长形成的闭合区域为扩大后的目标候选区域。预设倍数具体可以是1.3倍。

S306，该终端根据目标候选图像的图像特征确定当前图像帧的目标区域。

其中，目标区域为识别到的目标所在的图像区域。

具体地，终端在截取到目标候选图像后，提取目标候选图像的图像特征，根据图像特征进行特征分析，通过特征分析在目标候选图像中确定目标区域。

在一个实施例中，终端将目标候选图像输入到图像特征提取模型，获取图像特征提取模型输入的图像特征，将获取到的图像特征输入目标定位模型，通过目标定位模型确定当前图像帧的目标区域。

S308，该终端通过运动预测模型，根据目标候选图像的图像特征，确定下一图像帧相对于当前图像帧的运动预测数据。

其中，下一图像帧相对于当前图像帧的运动预测数据为下一图像帧中的目标相对于当前图像帧的目标，预测目标移动的数据。运动预测数据包括运动方向、运动速度和运动距离中的至少一种。可以理解的是，运动预测数据可以用于表示通过预测得到的下一图像帧中的目标相对于当前图像帧中目标的可能移动情况，例如，向哪个方向移动、运动速度以及移动的多大距离等等。

具体地，终端在获取到目标候选图像的图像特征后，将图像特征输入运动预测模型，通过运动预测模型对图像特征进行特征分析，获得运动预测模型输出的运动预测数据，以获得的运动预测数据作为下一图像帧相对于当前图像帧的运动预测数据。特征分析具体可以是对图像特征进行卷积处理、矩阵计算和向量计算中的至少一种。

S310，该终端根据目标区域和运动预测数据，确定下一图像帧的目标候选区域。

具体地，终端在确定当前图像帧的目标区域和下一图像帧相对于当前图像帧的运动预测数据后，根据运动预测数据对当前图像帧中的目标区域进行移动，获取移动后的目标区域在当前图像帧的位置信息，根据获取到的位置信息在下一图像帧中确定目标候选区域。

在一个实施例中，终端根据运动预测数据对当前图像帧中的目标区域进行移动，按照倍数扩大移动后的目标区域，获取扩大后的目标区域的位置信息，根据获取到的位置信息在下一图像帧中确定目标候选区域。

本实施例中，根据当前图像帧的目标候选区域截取目标候选图像，在目标候选图像中确定目标区域，通过运动预测模型确定下一图像帧相对于当前图像帧的运动预测数据，通过运动预测数据对当前图像帧的目标区域移动，即可确定下一图像帧的目标候选区域。这样可以保证在从当前图像帧切换到下一图像帧时，可以准确确定目标候选区域，提高了确定目标候选区域的准确性，在切换到下一图像帧时，也可以保证在目标候选区域中确定目标区域，从而提高了目标跟踪的准确性，降低了目标跟踪丢失率。

如图4所示，在一个实施例中，S306具体包括确定目标区域的步骤，该步骤具体包括以下内容：

S402，该终端通过目标定位模型，根据目标候选图像的图像特征，确定目标关键点位置。

其中，目标关键点用于确定目标的关键点。

举例说明，当目标是人脸时，目标关键点可以是人脸中的标记五官位置的点。当目标为汽车时，目标关键点可以是标记汽车轮廓的点。

具体地，终端在截取到目标候选图像后，提取目标候选图像的图像特征，将提取到的图像特征输入目标定位模型，通过目标定位模型对图像特征进行分析，获取目标定位模型输出的目标关键点位置。目标关键点位置为在目标候选图像中目标关键点的位置。

在一个实施例中，S402具体包括以下内容：将目标候选图像输入图像特征提取模型；获取图像特征提取模型输出的图像特征；以图像特征作为目标定位模型的输入，得到当前图像帧的目标关键点位置。

具体地，终端将目标候选图像输入图像特征提取模型，通过图像特征提取模型对目标候选图像进行分析，得到图像特征提取模型输出的目标候选图像的图像特征，将得到的图像特征输入到目标定位模型，通过目标定位模型对图像特征进行分析，输出当前图像帧的目标关键点位置。

在一个实施例中，终端根据图像特征确定分类特征，将分类特征作为目标定位模型的输入，得到当前图像帧目标关键点位置。

S404，该终端根据目标关键点位置确定当前图像帧的目标区域。

具体地，终端在获取到目标关键点位置后，根据目标关键点位置在当前图像帧中确定目标所在位置，根据目标所在位置确定目标区域。

本实施例中，通过目标定位模型根据目标候选图像的图像特征，确定目标关键点位置，提高了确定目标关键点位置的准确性，且根据目标关键点位置确定当前图像帧的目标区域，进一步提高了确定当前图像帧中目标区域的准确性。

如图5所示，在一个实施例中，S308具体还包括获得运动预测数据的步骤，该步骤具体包括以下内容：

S502，该终端将图像特征输入分类特征提取模型。

具体地，终端在获取到目标候选图像的图像特征后，将图像特征作为分类特征提取模型的输入，输入到分类特征提取模型。分类特征提取模型用于根据图像特征确定分类特征的模型。

S504，该终端获取分类特征提取模型输出的分类特征。

具体地，分类特征提取模型在接收到输入的图像特征后，对图像特征进行分析得到分类特征，输出分类特征。终端获取分类特征提取模型输出的分类特征。

S506，该终端通过目标判定模型，根据分类特征确定目标候选图像的置信度。

其中，置信度用于表示目标候选图像中存在目标的概率值。目标判定模型用于确定目标候选图像中目标的存在概率的机器学习模型。

具体地，终端将分类特征提取模型提取到的分类特征，将分类特征输入目标判定模型，通过目标判定模型对分类特征进行分析，输出目标候选图像的置信度。

S508，当确定的置信度大于等于预设置信度阈值，该终端以分类特征作为运动预测模型的输入，得到下一图像帧相对于当前图像帧的运动预测数据。

具体地，终端将确定的置信度与预设置信度阈值进行比较，当确定的置信度大于等于预设置信度，则终端分类特征提取模型提取到的分类特征输入到运动预测模型，运动预测模型对分类特征进行分析，输出运动预测数据。终端获取运动预测模型输出的运动预测数据，以获取到的运动预测数据得到下一图像帧相对于当前图像帧的运动运动预测数据。

在一个实施例中，以分类特征作为运动预测模型的输入，得到下一图像帧相对于当前图像帧的运动预测数据包括：通过运动预测模型，根据分类特征确定各预设预测分类分别对应的概率值；确定最大概率值对应的预设预测分类；获取确定的预设预测分类所对应的运动预测数据。

其中，预设预测分类为根据目标运动数据进行的分类。每个预设预测分类都与唯一的运动预测数据相对应。

具体地，终端将分类特征输入运动预测模型，运动预测模型根据分类特征确定各预设预测分类分别对应的概率值，将各概率值进行比较，通过比较确定最大概率值，选取最大概率值对应的预设预测分类，获取与选取的预设预测分类对应的运动预测数据。终端以获取到的运动预测数据作为下一图像帧相对于当前图像帧的运动预测数据。

S510，当确定的置信度小于预设置信度阈值，则该终端结束目标跟踪。

具体地，终端将确定的置信度与预设置信度阈值进行比较，当确定的置信度小于预设置信度阈值，则结束目标跟踪。

本实施例中，将图像特征输入分类特征提取模型，通过分类特征提取模型提取分类特征，将分类特征输入目标判定模型确定目标候选图像的置信度，通过置信度确定目标候选图像中是否存在目标，在确定目标候选图像中存在目标时，即确定的置信度大于等于预设置信度阈值时，将分类特征输入运动预测模型的输入，得到下一图像帧相对于当前图像帧的运动预测数据，从而可对目标进行准确的跟踪，提高对目标的跟踪效率。

如图6所示，在一个实施例中，目标跟踪方法还包括训练运动预测模型的步骤，该步骤具体包括以下内容：

S602，终端获取模型训练数据。

其中，模型训练数据为用于训练机器学习模型所用的到的样本数据。

具体地，终端获取模型训练数据的存储路径，根据存储路径获取模型训练数据。

在一个实施例中，终端获取模型训练数据的存储路径，根据存储路径生成数据获取请求，根据数据获取请求从数据库获取模型训练数据。

S604，该终端从模型训练数据中读取当前训练帧和下一训练帧。

具体地，模型训练数据中包括连续的图像训练帧。终端按照图像训练帧的排列顺序从图像训练帧中读取当前训练帧和下一训练帧。

S606，该终端提取当前训练帧中的图像特征。

具体地，模型训练数据中包括每个图像训练帧对应的图像特征。终端在读取当前训练帧后，从模型训练数据中提取与当前训练帧对应的图像特征。

S608，该终端根据提取到当前训练帧的图像特征、标记的目标关键点位置和标记的置信度进行模型训练，得到目标定位模型和目标判定模型。

其中，目标定位模型为对图像帧中的目标关键点进行定位的模型。目标判定模型为对图像帧中是否存在目标所进行判定的模型。

具体地，终端从模型训练数据中提取当前训练帧所对应的目标关键点位置和置信度，以提取到的目标关键点位置作为标记的目标关键点位置，以提取到的置信度作为标记的置信度。终端以提取到的图像特征作为目标定位模型的输入，以标记的目标关键点位置作为目标定位模型的输出进行训练，得到目标定位模型。终端以提取到的图像特征作为目标判定模型的输入，以标记的置信度作为目标判定模型的输出进行训练，得到目标判定模型。

在一个实施例中，终端根据提取到的图像特征确定分类特征，以确定的分类特征作为目标判定模型的输入，以标记的置信度作为目标判定模型的输出进行训练，得到目标判定模型。

在一些实施例中，上述训练过程可以由包括该终端的任一种计算机设备来进行，再将训练得到的模型下发至终端来使用，以节约终端的处理资源，保证终端的正常运行。

在一个实时例中，S608包括训练各模型的步骤，该步骤具体包括以下内容：根据当前训练帧和当前训练帧中的图像特征进行模型训练，得到图像特征提取模型；以当前训练帧中的图像特征作为输入，以当前训练帧中标记的目标关键点位置作为输出进行模型训练，得到目标定位模型；以当前训练帧中的图像特征作为输入，以当前训练帧标记的分类特征作为输出进行模型训练，得到分类特征提取模型；根据当前训练帧标记的分类特征和当前训练帧标记的置信度进行模型训练，得到目标判定模型。

具体地，终端以当前训练帧作为图像特征提取模型的输入，以当前训练帧中的图像特征作为图像特征提取模型的输出进行训练，得到图像特征提取模型。

在一个实施例中，终端以当前训练帧中的图像特征作为目标定位模型的输入，以当前训练帧中标记的目标关键点位置作为目标定位模型的输出进行模型训练，得到目标定位模型。

在一个实施例中，终端以当前训练帧中的图像特征作为分类特征提取模型的输入，以当前训练帧标记的分类特征作为分类特征提取模型的输出进行模型训练，得到分类特征提取模型。

在一个实施例中，终端以当前训练帧标记的分类特征作为目标判定模型的输入，以当前训练帧标记的置信度作为目标判定模型的输出进行模型训练，得到目标判定模型。

S610，该终端确定下一训练帧相对于当前训练帧的运动训练数据。

具体地，模型训练数据中包括相邻两帧之间的运动训练数据。终端在读取到当前训练帧和下一训练帧后，从模型训练数据中提取下一训练帧相对于当前训练帧的运动训练数据。运动训练数据包括运动速度、运动方法和运动距离中的至少一种。

S612，该终端根据提取到的图像特征和确定的运动训练数据训练运动预测模型。

具体地，终端以提取到的图像特征作为运动预测模型的输入，以运动训练数据作为运动预测模型的输出进行模型训练，通过训练得到运动预测模型。

在一个实施例中，终端根据提取到的图像特征确定分类特征，根据确定的运动训练数据确定预设预测分类，以确定的分类特征作为运动预测模型的输入，以确定的预设预测分类作为输出进行模型训练，通过训练得到运动预测模型。

在一个实施例中，终端在训练运动预测模型时，以L作为损失函数，其中L如下述公式：

其中，T表示预设预测分类的数量，s _j表示属于第j个预设预测分类的概率值。

本实施例中，读取模型训练数据中读取当前训练帧和下一训练帧，提取当前训练帧中的图像帧，根据图像特征、标记的目标关键点位置、标记的置信度以及下一训练帧相对于当前训练帧的运动训练数据进行分别进行模型训练，通过模型训练得到运动预测模型、目标定位模型和目标判定模型等，通过运动预测模型、目标定位模型和目标判定模型的配合，提高运动预测数据的准确性，从而准确对目标进行跟踪。

如图7所示，在一个实施例中，S610具体还包括确定运动训练数据的步骤，该步骤具体包括以下内容：

S702，该终端获取下一训练帧中标记的目标区域。

具体地，模型训练数据中包括图像帧中每一帧所对应标记的目标区域位置。终端从模型训练数据中查询与下一训练帧对应的标记的目标区域位置，根据目标区域位置确定下一训练帧中标记的目标区域。

S704，该终端根据当前训练帧，确定各预设预测分类分别对应的下一训练帧的目标预测区域。

具体地，终端确定当前训练帧中目标区域，对确定的目标区域按照各预设预测分类分别对应的预设运动训练数据进行移动，得到每个预设预测分类对应的移动后的目标区域，以移动后的目标区域作为下一训练帧的目标预测区域。

S706，该终端根据目标区域和目标预测区域，获取各预设预测分类分别对应的预测准确度。

具体地，对于每个预设预测分类对应的下一训练帧的目标预测区域和目标区域，终端在下一训练帧中确定目标预测区域和目标区域的交集面积和并集面积，以交集面积除以并集面积得到预设预测分类对应的预测准确度，从而得到每个预设预测分类对应的预测准确度。

在一个实施例中，S706具体包括以下内容：确定每一预设预测分类对应的下一训练帧中的目标预测区域与目标区域之间的交集区域和并集区域；分别计算每一预设预测分类对应的交集区域与所对应的并集区域之间的面积比值，得到相应预设预测分类所对应的预测准确度。

具体地，终端对于每一预设预测分类对应的下一训练帧中的目标预测区域与目标区域，确定目标预测区域与目标区域之间的交集区域和并集区域，得到当前预设预测分类对应的交集区域和并集区域。终端对于每一预设预测分类对应的交集区域和并集区域，分别计算交集区域和并集区域的区域面积，将交集区域的区域面积除以并集区域的区域面积，得到交集区域和并集区域的面积比值，以各预设预测分类对应面积比值作为预测准确度。

S708，该终端将最高预测准确度对应的预设预测分类所对应的预设运动训练数据，确定为下一训练帧相对于当前训练帧的运动训练数据。

具体地，终端在得到各预设预测分类分别对应的预测准确度后，将各预测准确度进行比较，通过比较确定最高预测准确度，确定最高预测准确度对应的预设预测分类，获取与确定的预设预测分类对应的运动训练数据。运动训练数据包括运动速度和运动方向。

本实施例中，对于每个预设预测分类对应的下一图像帧中目标预测区，根据下一图像帧的目标区域和目标预测区域之间交集区域和并集区域的面积比值，来表示每中预设预测分类对应的预测准确度，以最高预测准确度对应的预设预测分类作为根据当前图像帧对下一图像帧进行预测时标记的预设预测分类，从而提高了模型训练数据的准确性，提高了模型训练数据的训练准确性。

图8为一个实施例中目标跟踪方法中模型的连接示意图。参照图8，图像特征提取模型分别与目标定位模型和分类特征提取模型相连接，分类特征提取模型分别与目标判定模型和运动预测模型相连接。

图像特征提取模型接收输入的当前图像帧的目标候选图像，提取目标候选图像的图像特征，将图像特征输入分别输入目标定位模型和分类特征提取模型。目标定位模型根据图像特征输出目标关键点位置。分类特征提取模型根据图像特征输出分类特征，将分类特征分别输入目标判定模型和运动预测模型。目标判定模型根据分类特征输出置信度。运动预测模型根据分类特征输出下一图像帧相对于当前图像帧的运动预测数据。

图9为一个实施例中多任务模型的结构示意图。参照图9,多任务模型由图像特征提取分支、目标定位分支、分类特征提取分支、目标判定分支和运动预测分支组成的。图像特征提取分支分别与目标定位分支和分类特征提取分支相连接，分类特征提取分支分别与目标判定分支和运动预测分支相连接。

其中，图像特征提取分支由图像特征提取模型构成，目标定位分支有目标定位模型构成，分类特征提取分支由分类特征提取模型构成，目标判定分支由目标判定模型构成，运动预测分支由运动预测模型构成。

多任务模型接收到当前图像帧的目标候选图像时，将目标候选图像帧输入图像特征提分支，图像特征提取分支接收输入的当前图像帧的目标候选图像，提取目标候选图像的图像特征，将图像特征输入分别输入目标定位分支和分类特征提取分支。目标定位分支根据图像特征输出目标关键点位置。分类特征提取分支根据图像特征输出分类特征，将分类特征分别输入目标判定模型和运动预测分支。目标判定分支根据分类特征输出置信度。运动预测分支根据分类特征生成下一图像帧相对于当前图像帧的运动预测数据。多任务模型将运动预测分支生成的运动预测数据输出。

图10为一个实施例中目标根据方法的流程示意图。参照图10，目标为人脸，目标候选区域为人脸候选区域，目标候选图像为人脸候选图像，目标关键点位置为人脸关键点位置。

终端以第一图像帧作为当前图像帧时，对当前图像帧进行人脸检测，通过人脸检测确定人脸候选区域，根据人脸候选区域截取人脸候选图像，将人脸候选图像输入图像特征提取模型；图像特征提取模型提取图像特转给你，分别将图像特征输入目标定位模型和分类特征提取模型；目标定位模型根据图像特征输出人脸关键点位置；分类特征提取模型根据图像特征输出分类特征，将分类特征输入目标判定模型；目标判定模型根据分类特征输出置信度，当置信度小于预设置信度阈值时，结束目标跟踪；当置信度大于等于预设置信度阈值时，分类特征提取模型将分类特征输入运动预测模型；运动预测模型根据分类特征输出下一图像帧相对于当前图像帧的运动预测数据；终端根据当前图像帧的人脸关键点位置和下一图像帧相对于当前图像帧的运动预测数据，确定下一图像帧的人脸候选区域，以下一图像帧作为当前图像帧，返回根据人脸候选区域截取人脸候选图像进行执行，直至结束目标跟踪。

图11为一个实施例中标记预设预测分类的示意图。参考图11,图11中灰色区域标识目标候选区域，下一图像帧相对于当前图像帧中目标候选区域的运动速度为0的标记为预设预测分类0；下一图像帧相对于当前图像帧中目标候选区域的运动速度为1，且根据8个运动方向的预设预测分类分别标记为预设预测分类1-8。

图12为一个实施例中确定图像帧的预设预测分类的示意图。图12中的图像帧对应的运动方向向右，运动速度为1，则基于图10中标记的预设预测分类，则可以确定图12中的图像帧的预设预测分类为3。

图13为另一个实施例中确定图像帧的预设预测分类的示意图。图13中的图像帧对应的运动速度为0，则基于图11中标记的预设预测分类，则可以确定图13中的图像帧的预设预测分类为0。

如图14所示，在一个实施例中，提供一种目标跟踪装置1400，该装置具体包括以下内容：候选区域确定模块1402、候选图像截取模块1404、目标区域确定模块1406、预测数据确定模块1408和预测区域确定模块1410。

候选区域确定模块1402，用于确定当前图像帧的目标候选区域。

候选图像截取模块1404，用于在当前图像帧中截取与目标候选区域匹配的目标候选图像。

目标区域确定模块1406，用于根据目标候选图像的图像特征确定当前图像帧的目标区域。

预测数据确定模块1408，用于通过运动预测模型，并根据目标候选图像的图像特征，确定下一图像帧相对于当前图像帧的运动预测数据。

预测区域确定模块1410，用于根据目标区域和运动预测数据，确定下一图像帧的目标候选区域。

在一个实施例中，候选图像截取模块1404还用于按照预设倍数在当前图像帧中扩大目标候选区域；在当前图像帧中确定与扩大后的目标候选区域匹配的目标候选图像；从当前图像帧中截取确定的目标候选图像。

在一个实施例中，目标区域确定模块1406还用于通过目标定位模型，并根据目标候选图像的图像特征，确定目标关键点位置；根据目标关键点位置确定当前图像帧的目标区域。

在一个实施例中，目标区域确定模块1406还用于将目标候选图像输入图像特征提取模型；获取图像特征提取模型输出的图像特征；以图像特征作为目标定位模型的输入，得到当前图像帧的目标关键点位置。

在一个实施例中，预测数据确定模块1408还用于将图像特征输入分类特征提取模型；获取分类特征提取模型输出的分类特征；以分类特征作为运动预测模型的输入，得到下一图像帧相对于当前图像帧的运动预测数据。

在一个实施例中，预测数据确定模块1408还用于通过目标判定模型，并根据分类特征确定目标候选图像的置信度；当确定的置信度大于等于预设置信度阈值，则执行以分类特征作为运动预测模型的输入，得到下一图像帧相对于当前图像帧的运动预测数据的步骤；当确定的置信度小于预设置信度阈值，则结束目标跟踪。

在一个实施例中，预测数据确定模块1408还用于通过运动预测模型，根据分类特征确定各预设预测分类分别对应的概率值；确定最大概率值对应的预设预测分类；获取确定的预设预测分类所对应的运动预测数据。

如图15所示，在一个实施例中，目标跟踪装置1400具体还包括：训练数据获取模块1412、训练帧读取模块1414、图像特征提取模块1416、运动数据确定模块1418和预测模块训练模块1420。

训练数据获取模块1412，用于获取模型训练数据。

训练帧读取模块1414，用于从模型训练数据中读取当前训练帧和下一训练帧。

图像特征提取模块1416，用于提取当前训练帧中的图像特征。

运动数据确定模块1418，用于确定下一训练帧相对于当前训练帧的运动训练数据。

模型训练模块1420，用于根据提取到的图像特征和确定的运动训练数据训练运动预测模型。

在一个实施例中，模型训练模块1420还用于根据提取到当前训练帧的图像特征、标记的目标关键点位置和标记的置信度进行模型训练，得到目标定位模型和目标判定模型。

在一个实施例中，模型训练模块1420还用于根据当前训练帧和当前训练帧中的图像特征进行模型训练，得到图像特征提取模型；以当前训练帧中的图像特征作为输入，以当前训练帧中标记的目标关键点位置作为输出进行模型训练，得到目标定位模型；以当前训练帧中的图像特征作为输入，以当前训练帧标记的分类特征作为输出进行模型训练，得到分类特征提取模型；根据当前训练帧标记的分类特征和当前训练帧标记的置信度进行模型训练，得到目标判定模型。

在一个实施例中，运动数据确定模块1418还用于获取下一训练帧中标记的目标区域；根据当前训练帧，确定各预设预测分类分别对应的下一训练帧的目标预测区域；根据目标区域和目标预测区域，获取各预设预测分类分别对应的预测准确度；将最高预测准确度对应的预设预测分类所对应的预设运动训练数据，确定为下一训练帧相对于当前训练帧的运动训练数据。

在一个实施例中，运动数据确定模块1418还用于确定每一预设预测分类对应的下一训练帧中的目标预测区域与目标区域之间的交集区域和并集区域；分别计算每一预设预测分类对应的交集区域与所对应的并集区域之间的面积比值，得到相应预设预测分类所对应的预测准确度。

图16为一个实施例中计算机设备的内部结构示意图。参照图16，该计算机设备可以是图2中所示的终端200，该计算机设备包括通过系统总线连接的处理器、存储器、摄像头和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时，可使得处理器执行一种目标跟踪方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行一种目标跟踪方法。计算机设备的网络接口用于进行网络通信。摄像头用于采集图像。

本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备或机器人的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的目标跟踪装置1400可以实现为一种计算机程序的形式，计算机程序可在如图16所示的计算机设备上运行。计算机设备的存储器中可存储组成该目标跟踪装置的各个程序模块，比如，图14所示的候选区域确定模块1402、候选图像截取模块1404、目标区域确定模块1406、预测数据确定模块1408和预测区域确定模块1410。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的目标跟踪方法中的步骤。

例如，图16所示的计算机设备可以通过如图14所示的目标跟踪装置1400中的候选区域确定模块1402确定当前图像帧的目标候选区域。计算机设备可通过候选图像截取模块1404在当前图像帧中截取与目标候选区域匹配的目标候选图像。计算机设备可通过目标区域确定模块1406根据目标候选图像的图像特征确定当前图像帧的目标区域。计算机设备可通过预测数据确定模块1408通过运动预测模型，并根据目标候选图像的图像特征，确定下一图像帧相对于当前图像帧的运动预测数据。计算机设备可通过预测区域确定模块1410根据目标区域和运动预测数据，确定下一图像帧的目标候选区域。

一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如下步骤：确定当前图像帧的目标候选区域；在当前图像帧中截取与目标候选区域匹配的目标候选图像；根据目标候选图像的图像特征确定当前图像帧的目标区域；通过运动预测模型，并根据目标候选图像的图像特征，确定下一图像帧相对于当前图像帧的运动预测数据；根据目标区域和运动预测数据，确定下一图像帧的目标候选区域。

在一个实施例中，所述处理器还执行下述方法步骤：

按照预设倍数在当前图像帧中扩大目标候选区域；在当前图像帧中确定与扩大后的目标候选区域匹配的目标候选图像；从当前图像帧中截取确定的目标候选图像。

在一个实施例中，所述处理器还执行下述方法步骤：

通过目标定位模型，并根据目标候选图像的图像特征，确定目标关键点位置；根据目标关键点位置确定当前图像帧的目标区域。

在一个实施例中，所述处理器还执行下述方法步骤：

通过目标定位模型，并根据目标候选图像的图像特征，确定目标关键点位置包括：将目标候选图像输入图像特征提取模型；获取图像特征提取模型输出的图像特征；以图像特征作为目标定位模型的输入，得到当前图像帧的目标关键点位置。

在一个实施例中，所述处理器还执行下述方法步骤：

将图像特征输入分类特征提取模型；获取分类特征提取模型输出的分类特征；以分类特征作为运动预测模型的输入，得到下一图像帧相对于当前图像帧的运动预测数据。

在一个实施例中，获取分类特征提取模型输出的分类特征之后，计算机程序被处理器执行时，使得处理器还执行如下步骤：通过目标判定模型，并根据分类特征确定目标候选图像的置信度；当确定的置信度大于等于预设置信度阈值，则执行以分类特征作为运动预测模型的输入，得到下一图像帧相对于当前图像帧的运动预测数据的步骤；当确定的置信度小于预设置信度阈值，则结束目标跟踪。

在一个实施例中，所述处理器还执行下述方法步骤：

通过运动预测模型，根据分类特征确定各预设预测分类分别对应的概率值；确定最大概率值对应的预设预测分类；获取确定的预设预测分类所对应的运动预测数据。

在一个实施例中，计算机程序被处理器执行时，使得处理器还执行如下步骤：获取模型训练数据；从模型训练数据中读取当前训练帧和下一训练帧；提取当前训练帧中的图像特征；确定下一训练帧相对于当前训练帧的运动训练数据；根据提取到的图像特征和确定的运动训练数据训练运动预测模型。

在一个实施例中，提取当前训练帧中的图像特征之后，计算机程序被处理器执行时，使得处理器还执行如下步骤：根据提取到当前训练帧的图像特征、标记的目标关键点位置和标记的置信度进行模型训练，得到目标定位模型和目标判定模型。

在一个实施例中，所述处理器还执行下述方法步骤：

根据当前训练帧和当前训练帧中的图像特征进行模型训练，得到图像特征提取模型；以当前训练帧中的图像特征作为输入，以当前训练帧中标记的目标关键点位置作为输出进行模型训练，得到目标定位模型；以当前训练帧中的图像特征作为输入，以当前训练帧标记的分类特征作为输出进行模型训练，得到分类特征提取模型；根据当前训练帧标记的分类特征和当前训练帧标记的置信度进行模型训练，得到目标判定模型。

在一个实施例中，所述处理器还执行下述方法步骤：

获取下一训练帧中标记的目标区域；根据当前训练帧，确定各预设预测分类分别对应的下一训练帧的目标预测区域；根据目标区域和目标预测区域，获取各预设预测分类分别对应的预测准确度；将最高预测准确度对应的预设预测分类所对应的预设运动训练数据，确定为下一训练帧相对于当前训练帧的运动训练数据。

在一个实施例中，所述处理器还执行下述方法步骤：

确定每一预设预测分类对应的下一训练帧中的目标预测区域与目标区域之间的交集区域和并集区域；分别计算每一预设预测分类对应的交集区域与所对应的并集区域之间的面积比值，得到相应预设预测分类所对应的预测准确度。

一种存储有计算机程序的存储介质，所述计算机程序被处理器执行时，使得处理器执行如下步骤：确定当前图像帧的目标候选区域；在当前图像帧中截取与目标候选区域匹配的目标候选图像；根据目标候选图像的图像特征确定当前图像帧的目标区域；通过运动预测模型，并根据目标候选图像的图像特征，确定下一图像帧相对于当前图像帧的运动预测数据；根据目标区域和运动预测数据，确定下一图像帧的目标候选区域。

在一个实施例中，在当前图像帧中截取与目标候选区域匹配的目标候选图像包括：按照预设倍数在当前图像帧中扩大目标候选区域；在当前图像帧中确定与扩大后的目标候选区域匹配的目标候选图像；从当前图像帧中截取确定的目标候选图像。

在一个实施例中，根据目标候选图像的图像特征确定当前图像帧的目标区域包括：通过目标定位模型，并根据目标候选图像的图像特征，确定目标关键点位置；根据目标关键点位置确定当前图像帧的目标区域。

在一个实施例中，通过目标定位模型，并根据目标候选图像的图像特征，确定目标关键点位置包括：将目标候选图像输入图像特征提取模型；获取图像特征提取模型输出的图像特征；以图像特征作为目标定位模型的输入，得到当前图像帧的目标关键点位置。

在一个实施例中，通过运动预测模型，并根据目标候选图像的图像特征，确定下一图像帧相对于当前图像帧的运动预测数据包括：将图像特征输入分类特征提取模型；获取分类特征提取模型输出的分类特征；以分类特征作为运动预测模型的输入，得到下一图像帧相对于当前图像帧的运动预测数据。

在一个实施例中，根据提取到当前训练帧的图像特征、标记的目标关键点位置和标记的置信度进行模型训练，得到目标定位模型和目标判定模型包括：根据当前训练帧和当前训练帧中的图像特征进行模型训练，得到图像特征提取模型；以当前训练帧中的图像特征作为输入，以当前训练帧中标记的目标关键点位置作为输出进行模型训练，得到目标定位模型；以当前训练帧中的图像特征作为输入，以当前训练帧标记的分类特征作为输出进行模型训练，得到分类特征提取模型；根据当前训练帧标记的分类特征和当前训练帧标记的置信度进行模型训练，得到目标判定模型。

在一个实施例中，确定下一训练帧相对于当前训练帧的运动训练数据包括：获取下一训练帧中标记的目标区域；根据当前训练帧，确定各预设预测分类分别对应的下一训练帧的目标预测区域；根据目标区域和目标预测区域，获取各预设预测分类分别对应的预测准确度；将最高预测准确度对应的预设预测分类所对应的预设运动训练数据，确定为下一训练帧相对于当前训练帧的运动训练数据。

在一个实施例中，根据目标区域和目标预测区域，获取各预设预测分类分别对应的预测准确度包括：确定每一预设预测分类对应的下一训练帧中的目标预测区域与目标区域之间的交集区域和并集区域；分别计算每一预设预测分类对应的交集区域与所对应的并集区域之间的面积比值，得到相应预设预测分类所对应的预测准确度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线 (Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种目标跟踪方法，所述方法包括：

确定当前图像帧的目标候选区域；

在当前图像帧中截取与所述目标候选区域匹配的目标候选图像；

根据所述目标候选图像的图像特征确定所述当前图像帧的目标区域；

通过运动预测模型，根据所述目标候选图像的图像特征，确定下一图像帧相对于当前图像帧的运动预测数据；

根据所述目标区域和所述运动预测数据，确定下一图像帧的目标候选区域。
根据权利要求1所述的方法，其特征在于，所述在当前图像帧中截取与所述目标候选区域匹配的目标候选图像包括：

按照预设倍数在当前图像帧中扩大目标候选区域；

在当前图像帧中确定与扩大后的目标候选区域匹配的目标候选图像；

从当前图像帧中截取确定的目标候选图像。
根据权利要求1所述的方法，其特征在于，所述根据所述目标候选图像的图像特征确定所述当前图像帧的目标区域包括：

通过目标定位模型，根据所述目标候选图像的图像特征，确定目标关键点位置；

根据所述目标关键点位置确定所述当前图像帧的目标区域。
根据权利要求3所述的方法，其特征在于，所述通过目标定位模型，根据所述目标候选图像的图像特征，确定目标关键点位置包括：

将所述目标候选图像输入图像特征提取模型；

获取所述图像特征提取模型输出的图像特征；

以所述图像特征作为目标定位模型的输入，得到所述当前图像帧的目标关键点位置。
根据权利要求4所述的方法，其特征在于，所述通过运动预测模型，根据所述目标候选图像的图像特征，确定下一图像帧相对于当前图像帧的运动预测数据包括：

将所述图像特征输入分类特征提取模型；

获取所述分类特征提取模型输出的分类特征；

以所述分类特征作为所述运动预测模型的输入，得到下一图像帧相对于当前图像帧的运动预测数据。
根据权利要求5所述的方法，其特征在于，所述获取所述分类特征提取模型输出的分类特征之后，所述方法还包括：

通过目标判定模型，并根据所述分类特征确定目标候选图像的置信度；

当确定的置信度大于等于预设置信度阈值，则执行所述以所述分类特征作为所述运动预测模型的输入，得到下一图像帧相对于当前图像帧的运动预测数据的步骤；

当确定的置信度小于预设置信度阈值，则结束目标跟踪。
根据权利要求5所述的方法，其特征在于，所述以所述分类特征作为所述运动预测模型的输入，得到下一图像帧相对于当前图像帧的运动预测数据包括：

通过运动预测模型，根据所述分类特征确定各预设预测分类分别对应的概率值；

确定最大概率值对应的预设预测分类；

获取确定的预设预测分类所对应的运动预测数据。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取模型训练数据；

从所述模型训练数据中读取当前训练帧和下一训练帧；

提取当前训练帧中的图像特征；

确定下一训练帧相对于当前训练帧的运动训练数据；

根据提取到的图像特征和确定的运动训练数据训练运动预测模型。
根据权利要求8所述的方法，其特征在于，所述提取当前训练帧中的图像特征之后，还包括：

根据提取到当前训练帧的图像特征、标记的目标关键点位置和标记的置信度进行模型训练，得到目标定位模型和目标判定模型。
根据权利要求9所述的方法，其特征在于，所述根据提取到当前训练帧的图像特征、标记的目标关键点位置和标记的置信度进行模型训练，得到目标定位模型和目标判定模型包括：

根据当前训练帧和当前训练帧中的图像特征进行模型训练，得到图像特征提取模型；

以当前训练帧中的图像特征作为输入，以当前训练帧中标记的目标关键点位置作为输出进行模型训练，得到目标定位模型；

以当前训练帧中的图像特征作为输入，以当前训练帧标记的分类特征作为输出进行模型训练，得到分类特征提取模型；

根据当前训练帧标记的分类特征和当前训练帧标记的置信度进行模型训练，得到目标判定模型。
根据权利要求8所述的方法，其特征在于，所述确定下一训练帧相对于当前训练帧的运动训练数据包括：

获取下一训练帧中标记的目标区域；

根据所述当前训练帧，确定各预设预测分类分别对应的下一训练帧的目标预测区域；

根据所述目标区域和所述目标预测区域，获取所述各预设预测分类分别对应的预测准确度；

将最高预测准确度对应的预设预测分类所对应的预设运动训练数据，确定为下一训练帧相对于当前训练帧的运动训练数据。
根据权利要求11所述的方法，其特征在于，所述根据所述目标区域和所述目标预测区域，获取所述各预设预测分类分别对应的预测准确度包括：

确定每一预设预测分类对应的下一训练帧中的目标预测区域与所述目标区域之间的交集区域和并集区域；

分别计算每一预设预测分类对应的所述交集区域与所对应的所述并集区域之间的面积比值，得到相应预设预测分类所对应的预测准确度。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行下述方法的步骤：

确定当前图像帧的目标候选区域；

在当前图像帧中截取与所述目标候选区域匹配的目标候选图像；

根据所述目标候选图像的图像特征确定所述当前图像帧的目标区域；

通过运动预测模型，根据所述目标候选图像的图像特征，确定下一图像帧相对于当前图像帧的运动预测数据；

根据所述目标区域和所述运动预测数据，确定下一图像帧的目标候选区域。
根据权利要求13所述的计算机设备，其特征在于，所述处理器还执行下述方法步骤：

按照预设倍数在当前图像帧中扩大目标候选区域；

在当前图像帧中确定与扩大后的目标候选区域匹配的目标候选图像；

从当前图像帧中截取确定的目标候选图像。
根据权利要求13所述的计算机设备，其特征在于，所述处理器还执行下述方法步骤：

通过目标定位模型，根据所述目标候选图像的图像特征，确定目标关键点位置；

根据所述目标关键点位置确定所述当前图像帧的目标区域。
根据权利要求15所述的计算机设备，其特征在于，所述处理器还执行下述方法步骤：

将所述目标候选图像输入图像特征提取模型；

获取所述图像特征提取模型输出的图像特征；

以所述图像特征作为目标定位模型的输入，得到所述当前图像帧的目标关键点位置。
根据权利要求16所述的计算机设备，其特征在于，所述处理器还执行下述方法步骤：

将所述图像特征输入分类特征提取模型；

获取所述分类特征提取模型输出的分类特征；

以所述分类特征作为所述运动预测模型的输入，得到下一图像帧相对于当前图像帧的运动预测数据。
根据权利要求17所述的计算机设备，其特征在于，所述处理器还执行下述方法步骤：

通过目标判定模型，并根据所述分类特征确定目标候选图像的置信度；

当确定的置信度大于等于预设置信度阈值，则执行所述以所述分类特征作为所述运动预测模型的输入，得到下一图像帧相对于当前图像帧的运动预测数据的步骤；

当确定的置信度小于预设置信度阈值，则结束目标跟踪。
根据权利要求17所述的计算机设备，其特征在于，所述处理器还执行下述方法步骤：

通过运动预测模型，根据所述分类特征确定各预设预测分类分别对应的概率值；

确定最大概率值对应的预设预测分类；

获取确定的预设预测分类所对应的运动预测数据。
一种存储有计算机程序的存储介质，所述计算机程序被处理器执行时，使得处理器执行如下述方法的步骤：确定当前图像帧的目标候选区域；

在当前图像帧中截取与所述目标候选区域匹配的目标候选图像；

根据所述目标候选图像的图像特征确定所述当前图像帧的目标区域；

通过运动预测模型，根据所述目标候选图像的图像特征，确定下一图像帧相对于当前图像帧的运动预测数据；

根据所述目标区域和所述运动预测数据，确定下一图像帧的目标候选区域。