WO2023185241A1

WO2023185241A1 - 数据处理方法、装置、设备以及介质

Info

Publication number: WO2023185241A1
Application number: PCT/CN2023/073976
Authority: WO
Inventors: 张亮; 马名浪; 徐湛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-31
Filing date: 2023-01-31
Publication date: 2023-10-05
Anticipated expiration: 2024-09-30
Also published as: CN116934848A; CN116934848B; JP7792532B2; EP4411641A1; JP2025510833A; EP4411641A4; US20230401740A1

Abstract

一种数据处理方法、装置、设备以及介质，可以应用于人工智能、辅助驾驶等领域。方法包括：获取图像帧中的对象对应的对象姿态检测结果和图像帧中的对象的第一对象部位对应的部位姿态检测结果；其中，对象姿态检测结果中缺失对象的至少一个对象部位，第一对象部位为对象的一个或多个部位；根据部位姿态检测结果以及与对象相关联的标准姿态，对对象姿态检测结果中缺失的至少一个对象部位进行插值处理，得到对象对应的全局姿态，其中，全局姿态用于操控计算机设备以实现与全局姿态对应的业务功能。

Description

数据处理方法、装置、设备以及介质

本申请要求于2022年3月31日提交中国专利局、申请号为2022103327630，发明名称为“数据处理方法、装置、设备以及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种数据处理方法、装置、设备以及介质。

背景技术

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对进行识别、测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。

姿态估计可以检测出图片或者视频中各个关键点的位置，在电影动画、辅助驾驶、虚拟现实、动作识别等领域具有十分广泛的应用价值。

目前的姿态估计算法中，可以通过对图像或视频进行关键点检测，基于检测到的关键点以及对象约束关系，构建最终的对象姿态。

技术内容

本申请实施例提供一种数据处理方法、装置、设备以及介质，可以提升对象姿态的估计准确性。

本申请实施例提供了一种数据处理方法，由计算机设备执行，包括：

获取图像帧中的对象对应的对象姿态检测结果，以及图像帧中所述对象的第一对象部位对应的部位姿态检测结果；其中，所述对象姿态检测结果中缺失所述对象的至少一个对象部位，所述第一对象部位为所述对象的一个或多个部位；

根据部位姿态检测结果以及与对象相关联的标准姿态，对所述对象姿态检测结果中缺失的至少一个对象部位进行插值处理，得到对象对应的全局姿态，其中，所述全局姿态用于操控计算机设备以实现与所述全局姿态对应的业务功能。

本申请实施例还提供了一种数据处理装置，包括：

姿态检测模块，用于获取图像帧中的对象对应的对象姿态检测结果，以及图像帧中所述对象的第一对象部位对应的部位姿态检测结果；其中，所述对象姿态检测结果中缺失所述对象的至少一个对象部位，所述第一对象部位为所述对象的一个或多个部位；

姿态估计模块，用于根据部位姿态检测结果以及与对象相关联的标准姿态，对所述对象姿态检测结果中缺失的至少一个对象部位进行插值处理，得到对象对应的全局姿态，其中，所述全局姿态用于操控计算机设备以实现与所述全局姿态对应的业务功能。

本申请实施例还提供了一种计算机设备，包括存储器和处理器，存储器与处理器相连，存储器用于存储计算机程序，处理器用于调用计算机程序，以使得该计算机设备执行本申请实施例中上述的方法。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序适于由处理器加载并执行，以使得具有处理器的计算机设备执行本申请实施例中上述的方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的方法。

附图简要说明

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种视频数据的对象姿态估计场景示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种标准姿态的示意图；

图5是本申请实施例提供的一种对象姿态估计的场景示意图；

图6是本申请实施例提供的一种全局姿态的应用场景示意图；

图7是本申请实施例提供的另一种数据处理方法的流程示意图；

图8是本申请实施例提供的一种对象检测模型的结构示意图；

图9是本申请实施例提供的一种获取对象姿态检测结果的流程示意图；

图10是本申请实施例提供的一种获取部位姿态检测结果的流程示意图；

图11是本申请实施例提供的一种对象关键点的矫正示意图；

图12是本申请实施例提供的一种对象姿态估计的流程示意图；

图13是本申请实施例提供的一种数据处理装置的结构示意图；

图14是本申请实施例提供的另一种数据处理装置的结构示意图；

图15是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请涉及计算机视觉技术下属的姿态估计(Pose Estimation)，姿态估计是计算机视觉中的一个重要任务，也是计算机理解对象动作、行为必不可少的一步；姿态估计可以转换为对对象关键点的预测问题，如可以预测出图像中的各个对象关键点的位置坐标，并根据各个对象关键点之间的位置关系，预测出图像中的对象骨架。其中，本申请所涉及的姿态估计可以包括针对对象的对象姿态估计，以及针对对象的特定部位的部位姿态估计等，对象可以包括但不限于：人体、动物、植物等，对象的特定部位可以为手掌、脸部、动物肢体、植物根部等，本申请对对象的类型不做限定。

当图像或视频为移动端场景下的拍摄画面时，图像或视频画面可能只能包含对象的一部分部位，那么在对其进行姿态估计的过程中，由于缺少对象中的一些部位，造成提取到的部位信息不足，导致最终的对象姿态结果并不是该对象的完整姿态，影响了对象姿态的完整性。

本申请实施例中，通过对图像帧中的对象分别进行对象姿态估计和特定部位姿态估计，可以得到针对对象的对象姿态检测结果，以及针对对象的第一对象部位的部位姿态检测结果，进而可以基于对象姿态检测结果、部位姿态检测结果以及标准姿态，对图像帧中的对象进行姿态估计，可以对图像帧中对象缺少的部位关键点进行补偿，可以确保最终得到的对象的全局姿态的完整性和合理性，进而可以提高全局姿态的估计准确性。

请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括服务器10d和用户终端集群，该用户终端集群可以包括一个或者多个用户终端，这里不对用户终端的数量进行限制。如图1所示，该用户终端集群可以具体包括用户终端10a、用户终端10b以及用户终端10c等。

其中，服务器10d可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

用户终端10a、用户终端10b以及用户终端10c等均可以包括：智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备(例如智能手表、智能手环等)、智能语音交互设备、智能家电(例如智能电视等)、车载设备等具有对象姿态估计功能的电子设备。如图1所示，用户终端10a、用户终端10b以及用户终端10c等可以分别与服务器10d进行网络连接，以便于每个用户终端可以通过该网络连接与服务器10d之间进行数据交互。

如图1所示的用户终端集群中的用户终端(例如，用户终端10a)集成有具备对象姿态估计功能的应用客户端，该应用客户端可以包括但不限于：多媒体客户端(例如，短视频客户端、视频直播客户端、视频客户端)、对象管理应用(例如，病患护理客户端)。用户终端10a中的应用客户端可以获取视频数据，该视频数据可以是指移动端场景下所拍摄的对象的视频，如采用用户终端10a中集成的相机拍摄对象以得到视频数据，或者采用与用户终端10a相连的摄像设备(例如，单反、摄像头等)拍摄对象以得到视频数据。需要说明的是，在移动端场景下(例如，自拍场景)，由于拍摄距离以及拍摄设备的限制，视频数据中的画面可能只可以包含对象的一部分，如对象为人体时，视频数据中的画面可能只包含人体的上半身，或者只包含人体的头部等；在对视频数据中的对象进行对象姿态估计时，需要对视频数据中包含的对象进行姿态修补，以得到该对象对应的全局姿态，在保证对象的全局姿态的完整性的前提下，还可以提高全局姿态的准确性。在本申请实施例中，全局姿态也可以称为完整姿态，是指包含对象所有部分的姿态，即完整的对象所对应的姿态。

需要说明的是，本申请实施例所涉及的对象姿态估计过程可以由计算机设备执行，该计算机设备可以为图1所示用户终端集群中的用户终端，或者为图1所示的服务器10d；总而言之，计算机设备可以为用户终端，或者为服务器，或者为服务器和用户终端构成的组合设备，本申请对此不做限定。

请参见图2，图2是本申请实施例提供的一种视频数据的对象姿态估计场景示意图。以图1所示的用户终端10a为例，对视频中的对象姿态估计过程进行描述；如图2所示，用户终端10a可以获取视频数据20a，该视频数据20a可以是通过用户终端10a中集成的相机所拍摄的对象的视频，或者为其余设备传输至用户终端10a的关于对象的视频等；通过对视频数据20a进行分帧处理，得到N个图像帧，N为正整数，如N可以取值为1，2，……。可以按照时间顺序从N个图像帧中获取第一个图像帧(即图像帧T1)，并将该图像帧T1输入至对象检测模型20b，通过该对象检测模型20b对图像帧T1进行对象检测，得到该图像帧T1对应的对象姿态检测结果20c；该对象姿态检测结果20c可以包括图像帧T1所包含的对象的关键点(为方便描述，下面将对象的关键点称为对象关键点)，以及这些对象关键点在该图像帧T1中的位置；对象姿态检测结果20c还可以包含检测得到的每个对象关键点分别对应的第一置信度，该第一置信度可以用于表征检测到的对象关键点的预测准确性，第一置信度越大，表示检测到的对象关键点越准确，越有可能是对象的真实关键点。

例如，当视频数据20a中的对象为人体时，对象所对应的对象关键点可以认为是人体结构中的关节点，对象的关键点数量和关键点类别是可以预先定义的，如人体结构可以包括四肢、脑部、腰部、胸部等部位的多个对象关键点。当图像帧T1中包含完整的对象时，该图像帧T1中可能包含该对象的所有对象关键点；当图像帧T1中只包含对象的部分结构时，该图像帧T1中可以包含对象的部分对象关键点。在检测到图像帧T1中所包含对象关键点后，可以按照对象的关键点类别和关键点位置对检测到的对象关键点进行连接，并在图像帧T1中标记连接后的结果，即对象姿态检测结果20c。其中，对象检测模型20b可以为预先训练完成的网络模型，具备针对视频/图像的对象检测功能；当对象为人体时，该对象检测模型20b也可以称为人体姿态估计模型。

通过对象姿态检测结果20c可以得到对象在图像帧T1中的人体姿态20j，由于人体姿态20j缺失了一些对象关键点(缺少人体关节点)，因此用户终端10a可以获取对象对应的标准姿态20k，基于该标准姿态20k，可以对人体姿态20j进行关键点补偿，得到图像帧T1中的对象所对应的人体姿态20m。其中，标准姿态20k也可以认为是对象的默认姿态，或者称为参考姿态，该标准姿态20k可以基于对象的所有对象关键点进行预先构建，如可以将人体在正常站立时的姿态(例如，全局姿态)确定为标准姿态20k。

该图像帧T1还可以输入至部位检测模型20d，通过该部位检测模型20d对图像帧T1中的对象的特定部位(例如，第一对象部位)进行检测，得到该图像帧T1对应的部位姿态检测结果20e。当检测到图像帧T1中不存在对象的第一对象部位时，可以确定该图像帧T1的部位姿态检测结果为空；当检测到图像帧T1中存在对象的第一对象部位，则可以继续检测该第一对象部位的关键点以及关键点的位置，并按照第一对象部位的关键点类别和关键点位置，可以对检测到的第一对象部位关键点进行连接，并在图像帧T1中标记连接后的结果，即部位姿态检测结果20e。其中，第一对象部位所对应的关键点数量和关键点类别同样是可以预先定义的；当对象为人体时，该部位检测模型20d可以为手掌姿态估计模型(此处第一对象部位为手掌)，如手掌可以包括手心关键点和手指关键点；部位检测模型20d可以为预先训练完成的网络模型，具备针对视频/图像的对象部位检测功能，为方便描述，下面将第一对象部位的关键点称为部位关键点。

如图2所示，部位姿态检测结果20e携带第二置信度，该第二置信度可以用于表征检测到的对象部位为第一对象部位的可能性，如通过部位检测模型20d可以确定图像帧T1中的区域20f为第一对象部位的第二置信度为0.01，区域20g为第一对象部位的第二置信度为0.09，区域20h为第一对象部位的第二置信度为0.86，区域20i为第一对象部位的第二置信度为0.84。第二置信度越大，表示该区域为第一对象部位的可能性越大，如可以基于第二置信度可以确定区域20h和区域20i中包含第一对象部位，在区域20h和区域20i中可以标记出第一对象部位的姿态。

进一步地，用户终端10a可以联合对象姿态检测结果20c和部位姿态检测结果20e，对部分缺失的对象部位进行插值处理，通过插值处理得到一个合理的对象关键点。如部位姿态检测结果20e为手掌关键点时，可以联合对象姿态检测结果20c和部位姿态检测结果20e，对图像帧T1中缺失的对象的手腕、手肘等部位进行插值处理，以完善对象的人体姿态20m，得到人体姿态20n(也可以称为全局姿态)。同理，在得到图像帧T1中的对象所对应的全局姿态后，可以采用相同的方式对视频数据20a中的后续图像帧进行对象姿态估计，得到每个图像帧中的对象所对应的全局姿态，基于N个图像帧分别对应的全局姿态，可以得到对象在视频数据20a中的行为。可以理解的是，视频数据20a还可以为实时拍摄的视频，用户终端10a可以对实时拍摄的视频数据中的图像帧进行对象姿态估计，以实时获取对象的行为。

总而言之，针对仅包含部分对象的图像帧，可以通过对象检测模型20b所输出的对象检测结果、部位检测模型20d所输出的部位检测结果，以及标准姿态20m，来估计图像帧中的对象的全局姿态，可以确保最终得到的对象的全局姿态的完整性和合理性，进而可以提高全局姿态的估计准确性。

请参见图3，图3是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示，该数据处理方法可以包括以下步骤S101-步骤S102：

步骤S101，获取与图像帧中的对象对应的对象姿态检测结果，以及与所述对象的第一对象部位对应的部位姿态检测结果；其中，所述对象姿态检测结果中缺失所述对象的至少一个对象部位，所述第一对象部位为所述对象的一个或多个部位。

具体的，计算机设备可以获取移动端场景下拍摄的对象的视频数据(例如，图2所对应实施例中的视频数据20a)或图像数据；在对视频数据或图像数据进行姿态估计时，计算机设备可以通过对图像数据或视频数据中的图像帧进行对象检测，得到针对对象的对象姿态检测结果(例如，上述图2所对应实施例中的对象姿态检测结果20c)；与此同时，还可以对图像帧进行部位检测，得到针对对象的第一对象部位的部位姿态检测结果(例如，上述图2所对应实施例中的部位姿态检测结果20e)。其中，对象可以是指视频数据中所包含的物体，如人体、动物、植物等；第一对象部位可以是指对象中的一个或多个部位，如人体结构中的脸部、手掌，动物结构中的肢体、尾部、头部，植物的根部等，本申请对对象的类型以及第一对象部位的类型都不做限定。需要说明的是，受限于移动端场景下的拍摄设备与被拍摄的对象之间的距离，视频数据或图像数据中的对象可能会存在缺少部位的情况，即对象可能会有一部分对象部位不在视频数据的画面中，通过联合对象姿态检测结果和部位姿态检测结果，可以提高对象的姿态估计准确性。

为方便描述，本申请实施例均以对象是人体为例，对视频数据或图像数据的对象姿态估计过程进行描述。若对移动端场景下的图像数据进行对象姿态估计，则可以将该图像数据作为图像帧；若对移动端场景下的视频数据进行对象姿态估计，则可以对视频数据进行分帧处理，得到该视频数据对应的N个图像帧，N为正整数，进而可以按照N个图像帧在视频数据中的时间顺序，组成包含N个图像帧的图像帧序列，可以对图像帧序列中的N个图像帧依次进行对象姿态估计；例如，可以在完成图像帧序列中第一个图像帧的对象姿态估计后，可以继续对图像帧序列中第二个图像帧进行对象姿态估计，直至完成整个视频数据的对象姿态估计。

其中，计算机设备可以获取对象检测模型和部位检测模型，将图像帧输入至对象检测模型，通过该对象检测模型可以输出图像帧对应的对象姿态检测结果；与此同时，还可以将图像帧输入至部位检测模型，通过该部位检测模型可以输出图像帧对应的部位姿态检测结果。其中，对象检测模型可以用于检测图像帧中的对象的关键点(如人体关键点，也可以称为对象关键点)，此时的对象检测模型也可以称为人体姿态估计模型；对象检测模型可以包括但不限于：DensePose(人体实时姿势识别系统，用于实现密集人群的实时姿态识别)、OpenPose(一种对多人身体、面部和手部形态进行实时估计的框架)、Realtime Multi-Person Pose Estimation(实时多人姿态估计模型)、DeepPose(一种基于深度神经网络的姿态估计方法)、mobilenetv2(轻量级深度神经网络)，本申请对对象检测模型的类型不做限定。部位检测模型可以用于检测对象的第一对象部位的关键点(如手掌关键点)，此时的部位检测模型也可以称为手掌姿态估计模型；部位检测模型可以为基于检测的方法，或者为基于回归的方法，基于检测的方法可以通过生成热力图来预测第一对象部位的部位关键点，基于回归的方法可以直接回归部位关键点的位置坐标；部位检测模型的网络结构与对象检测模型的网络结构可以相同，也可以不同，当部位检测模型和对象检测模型的网络结构相同时，两者的网络参数也是不同的(由不同的数据训练得到的)，本申请对部位检测模型的类型不做限定。

在一些实施例中，上述对象检测模型和部位检测模型可以是利用样本数据预先训练好的检测模型，如可以利用携带人体关键点标签信息的样本数据(如三维人体数据集)训练得到对象检测模型，利用携带手掌关键点信息的样本数据(如手掌数据集)训练得到部位检测模型；或者，对象检测模型可以是通过应用程序接口(API)从人工智能云服务中调用的对象检测服务，部位检测模型可以是通过API接口从人工智能云服务中调用的部位检测服务，此处不做具体限定。

其中，人工智能云服务，一般也被称作是AI即服务(AI as a Service，AIaaS)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自身专属的云人工智能服务。

在一些实施例中，本申请实施例所使用的对象检测模型可以为带有置信度的人体三维姿态估计模型，如通过对象检测模型可以预测图像帧中的对象的对象关键点，每个预测到的对象关键点都可以对应一个第一置信度，第一置信度可以用于表征每个预测到的对象关键点的预测准确性，预测得到的对象关键点以及对应的第一置信度可以称为图像帧对应的对象姿态检测结果。部位检测模型可以为带有置信度的手掌三维姿态估计模型，如通过部位检测模型可以预测第一对象部位在图像帧中的位置区域，并预测位置区域中的第一对象部位的部位关键点；部位检测模型可以预测得到一个或多个可能是第一对象部位所处的位置区域，一个位置区域可以对应一个第二置信度，第二置信度可以用于表征每个预测到的位置区域的预测准确性，预测得到的部位关键点和位置区域对应的第二置信度可以称为图像帧对应的部位姿态检测结果。

步骤S102，根据部位姿态检测结果以及与对象相关联的标准姿态，对所述对象姿态检测结果中缺失的至少一个对象部位进行插值处理，得到对象对应的全局姿态，其中，所述全局姿态用于操控计算机设备以实现与所述全局姿态对应的业务功能。

具体的，计算机设备可以获取对象对应的标准姿态(例如，图2所对应实施例中的标准姿态20m)，该标准姿态可以认为是对象的完整默认姿态(记为T-pose)；标准姿态的数量可以为一个或多个，如人体默认站姿、人体默认坐姿、人体默认蹲姿等，本申请对标准姿态的类型和数量不做限定。

请参见图4，图4是本申请实施例提供的一种标准姿态的示意图。如图4所示，模型 30a可以表示为SMPL(Skinned Multi-Person Linear)模型，该模型30a是一个参数化人体模型，可以适用于不同的人体结构；该模型30a中可以包括人体关节分布：1个根节点(序号为0的节点)和23个关节节点(序号1至序号23所表示的节点)，其中根节点用于将整个人体作为完整刚体(在受力作用下，体积和形状都不发生变化的物体)进行变换，23个关节节点可以用于描述局部的人体部位形变。当对象为人体时，上述1个根节点和23个关节节点可以作为对象的对象关键点，基于对象关键点的类别(例如，手腕关节点、手肘关节点、手掌关节点、脚踝关节点等)和位置，对1个根节点和23个关节节点进行连接，可以得到标准姿态30b。

图像帧中可能没有包含完整的对象，如对象的部分部位(如人体下肢)不在图像帧中，那么该图像帧对应的对象姿态检测结果中缺失了一部分对象关键点，可以通过标准姿态对对象对应的对象姿态检测结果进行关键点补偿，完善缺失的对象关键点，以得到对象对应的第一候选对象姿态。当部位姿态检测结果包括第一对象部位的部位关键点时，可以联合部位姿态检测结果中的部位关键点和对象姿态检测结果中的对象关键点，对第一候选对象姿态进行调整，以得到对象在图像帧中的全局姿态。在得到当前的图像帧对应的全局姿态之后，可以继续对视频数据中的下一个图像帧进行对象姿态估计，以得到对象在视频数据的各个图像帧中的全局姿态。

在一些实施例中，计算机设备可以根据对象在视频数据中的全局姿态，确定对象的行为动作，通过这些行为动作可以对该对象进行管理或护理，或者通过对象的行为动作进行人机交互。总而言之，对象在视频数据中的全局姿态可以应用在人机交互场景(例如，虚拟现实、人机动画等)、内容审核场景、自动驾驶场景、虚拟直播场景、游戏或电影人物动作设计场景等。在人机交互场景中，可以采集用户(对象)的图像(或视频)，在得到图像或视频中的全局姿态之后，可以基于全局姿态实现对机器的操控，如基于一个特定的人体动作(由全局姿态来确定)执行一个特定指令。在游戏人物动作设计场景中，通过对象对应的全局姿态来获取人体动作，以取代昂贵的动作捕捉设备，可以降低游戏人物动作设计成本与难度。

其中，虚拟直播场景可以是指直播间的直播画面不直接播放主播用户(对象)的视频，而是在直播间播放与主播用户具有相同行为动作的虚拟对象的视频，如可以基于主播用户的全局姿态确定该主播用户的行为动作，进而可以通过该主播用户的行为动作驱动虚拟对象，即构建一个与主播用户具有相同行为动作的虚拟对象，利用虚拟对象进行直播，既可以避免主播用户出现在公众视野中，又可以达到与真实主播用户相同的直播效果。例如，计算机设备可以根据对象在视频数据中的全局姿态，构建与对象相关联的虚拟对象，并在多媒体应用(例如，直播间、视频网站、短视频应用等)中播放具有该全局姿态的虚拟对象，即在多媒体应用中可以播放关于虚拟对象的视频，且虚拟对象的姿态与对象在视频数据中的姿态保持同步。其中，视频数据中的对象所对应的全局姿态都会在多媒体应用中所播放的虚拟对象上体现，对象每变化一次姿态，就会驱动多媒体应用中的虚拟对象变换为相同的姿态(可以认为是重新构建一个具有新姿态的虚拟对象，此处的新姿态为对象变化后的姿态)，使得对象与虚拟对象的姿态始终保持一致。

请参见图5，图5是本申请实施例提供的一种对象姿态估计的场景示意图。以虚拟直播场景为例，对视频数据的对象姿态估计过程进行描述；如图5所示，当主播用户40c(可以作为对象)需要进行直播时，可以进入直播间(如房间号为116889的直播间)，在开始直播之前，主播用户40c可以选择真人直播模式，也可以选择虚拟直播模式。若主播用户40c选择虚拟直播模式，则可以拉取虚拟对象，在主播用户40c开始直播时，可以利用该主播用户40c的行为动作去驱动虚拟对象，使得虚拟对象与主播用户40c保持相同的姿态。

在开始直播后，主播用户40c可以通过用户终端40a(例如，智能手机)采集自身的视频数据，此时的主播用户40a可以作为对象，用户终端40a可以采用支架40b进行固定。该用户终端40a采集到主播用户40c的视频数据后，可以从该视频数据中获取图像帧40g，将该图像帧40g分别输入对象检测模型和部位检测模型，通过对象检测模型可以预测得到图像帧40g中所包含的主播用户40c的部位关节点(对象关键点)，这些预测的部位关节点可以作为该图像帧40g的对象姿态检测结果；通过部位检测模型可以预测得到图像帧40g中所包含的主播用户40c的手掌关键点(这里默认第一对象部位为手掌，手掌关键点也可以称为部位关键点)，这些预测的手掌关键点可以作为该图像帧40g的部位姿态检测结果；此处的对象姿态检测结果和部位姿态检测结果可以标记在图像帧40g中(如图像40h所示)，其中，图像40h中的区域40i和区域40j表示上述部位姿态检测结果。

如图5所示，通过图像40h中所展示的对象姿态检测结果和部位姿态检测结果，可以得到主播用户40c在图像帧40g中的人体姿态40k；很显然，由于图像帧40g仅包含主播用户40c的上半身，所以人体姿态40k并不是主播用户40c的完整人体姿态。在这种情形下，可以获取标准姿态(人体完整默认姿态)，通过标准姿态对人体姿态40k进行关节点插值，以完善人体姿态40k中缺失的部位关节点，得到针对主播用户40c的整体人体姿态40m(全局姿态)。

通过整体人体姿态40m可以驱动直播间中的虚拟对象，让直播间中的虚拟对象40m 具备与主播用户40c相同的整体人体姿态40k。对于进入该直播间观看直播的用户，可以在其使用的用户终端40d中显示虚拟对象所在直播间的展示页面，该直播间的展示页面可以包括区域40e和区域40f，区域40e可以用于播放虚拟对象的视频(与主播用户40c具有相同的姿态)，区域40f可以用于发表弹幕等。在虚拟直播场景中，进入直播间观看直播的用户只能看到虚拟对象的视频和主播用户40c的语音数据，而无法看到主播用户40c的视频数据，这样可以保护主播用户40c的个人信息，并通过虚拟对象达到与主播用户40c相同的直播效果。

在一些实施例中，可以将上述对象在视频数据中的全局姿态应用在内容审核场景中，当全局姿态与内容审核系统中的姿态相同时，可以确定对象在内容审核系统中的审核结果为审核通过结果，并为该对象设置针对内容审核系统的访问权限；在全局姿态通过内容审核系统中的审核后，对象可以具备访问内容审核系统的权限。

请参见图6，图6是本申请实施例提供的一种全局姿态的应用场景示意图。如图6所示，用户A(对象)可以通过用户终端50a向服务器50d发送验证请求，服务器50d在接收到用户终端50a发送的验证请求之后，可以获取针对用户A的身份审核方式，并将该身份审核方式返回至用户终端50a，在该用户终端50a的终端屏幕中可以显示验证框50b。用户A可以正面对准用户终端50a中的验证框50b，并做出特定动作(例如，抬手、踢腿、叉腰等)，用户终端50a可以实时采集验证框50b中的待验证图像50c(可以认为是上述图像帧)，并将实时采集到的待验证图像50c发送至服务器50d。

服务器50d可以获取用户终端50a发送的待验证图像50c，并获取用户A预先在内容审核系统中设置的姿态50e，该姿态50e可以作为用户A在内容审核系统中的验证信息。服务器50d可以利用对象检测模型、部位检测模型以及标准姿态对待验证图像50c进行姿态估计，得到用户A在待验证图像50c中的全局姿态；将待验证图像50c对应的全局姿态与姿态50e进行相似度比较，当待验证图像50c的全局姿态与姿态50e之间的相似度大于或等于相似度阈值(例如，相似度阈值可以设置为90％)时，可以确定待验证图像50c的全局姿态与姿态50e相同，该用户A在内容审核系统中通过审核。当待验证图像50c的全局姿态与姿态50e之间的相似度小于相似度阈值时，可以确定待验证图像50c的全局姿态与姿态50e不相同，该用户A在内容审核系统中未通过审核，并向用户终端50a返回动作错误提示信息，该动作错误提示信息用于提示用户A重新做动作进行身份审核。

请参见图7，图7是本申请实施例提供的另一种数据处理方法的流程示意图。如图7所示，该数据处理方法可以包括以下步骤S201-步骤S208：

步骤S201，将图像帧输入至对象检测模型，通过对象检测模型获取图像帧中的对象对应的对象姿态特征，识别对象姿态特征对应的第一分类结果；第一分类结果用于表征对象的关键点所对应的对象部位类别。

具体的，计算机设备在获取到移动端场景下拍摄的视频数据后，可以从该视频数据中选取一个图像帧，将该图像帧输入至训练完成的对象检测模型，经过对象检测模型可以获取图像帧中的对象所对应的对象姿态特征，通过对象检测模型的分类器，可以输出对象姿态特征对应的第一分类结果，该第一分类结果可以用于表征对象的关键点(例如，人体关节)所对应的对象部位类别。其中，上述对象姿态特征可以为经过对象检测模型所提取到的针对对象的对象描述特征，或者可以为对象所对应的对象描述特征与部位描述特征之间的融合特征。当对象姿态特征为图像帧中的对象所对应的对象描述特征时，表明利用对象检测模型对图像帧进行特征提取的过程中，未引入基于部位感知的分块学习；当对象姿态特征为图像帧中的对象所对应的对象描述特征与部位描述特征之间的融合特征时，表明利用对象检测模型对图像帧进行特征提取的过程中，引入了基于部位感知的分块学习；通过引入基于部位感知的分块学习，使得对象姿态特征既可以包含图像帧中所包含的对象的各个部位的局部姿态特征(部位描述特征)，又可以包含对象中所包含的对象的对象描述特征，可以增强对象姿态特征的细粒度，进而可以提高对象姿态检测结果的准确性。

在一些实施例中，若在使用对象检测模型对图像帧进行特征提取的过程中，引入了基于部位感知的分块学习，则计算机设备可以将图像帧输入至对象检测模型，在对象检测模型中获取图像帧中的对象对应的对象描述特征，根据对象检测模型中的分类器，输出对象描述特征对应的第二分类结果；获取对象检测模型中的卷积层所输出的针对图像帧的对象卷积特征，将第二分类结果和对象卷积特征进行乘积运算，得到图像帧对应的第二激活映射图；根据第二激活映射图对图像帧进行分块处理，得到M个对象部位区域图像，根据对象检测模型获取M个对象部位区域图像分别对应的部位描述特征，M为正整数；将对象描述特征和M个对象部位区域图像所对应的部位描述特征组合为对象姿态特征。

其中，对象描述特征可以认为是从图像帧中提取到的用于表征对象的特征表示；第二分类结果也可以用于表示图像帧中所包含的对象关键点对应的对象部位类别；卷积层可以是指对象检测模型中的最后一个卷积层，对象卷积特征可以表示对象检测模型的最后一个卷积层所输出的针对图像帧的卷积特征；第二激活映射图可以为图像帧对应的类激活映射图(Class Activation Mapping，CAM)，CAM是一种可视化图像特征的工具。将对象检测模型中的最后一个卷积层输出的对象卷积特征和第二分类结果进行加权(第二分类结果可以认为是对象卷积特征对应的权重)，可以得到第二激活映射图，该第二激活映射图可以认为是对卷积层所输出的对象卷积特征进行可视化后的结果，可以用于表征对象检测模型所关注的图像像素点区域。

计算机设备可以将图像帧中的各个对象关键点的类激活映射图(第二激活映射图)作为区域位置的先验信息，对图像帧进行分块处理，即根据第二激活映射图对图像帧进行剪裁，得到包含单个部位的对象部位区域图像；进而可以通过对象检测模型对每个对象部位区域图像均进行特征提取，得到每个对象部位区域图像分别对应的部位描述特征，前述对象描述特征和每个对象部位区域图像分别对应的部位描述特征可以组合为针对对象的对象姿态特征；部位描述特征可以认为是从对象部位区域图像中提取到的用于表征对象部位的特征表示。

步骤S202，根据第一分类结果和对象检测模型输出的所述图像帧的对象卷积特征，生成第一激活映射图。

具体的，计算机设备在得到第一分类结果后，可以将第一分类结果和图像帧的对象卷积特征进行相乘，生成第一激活映射图。其中，第一激活映射图和第二激活映射图都是针对图像帧的类激活映射图，只是第一激活映射图是以第一分类结果作为卷积层所输出的对象卷积特征的权重(此处默认第一分类结果结合了对象描述特征和部位描述特征)，而第二激活映射图是以第二分类结果作为卷积层所输出的对象卷积特征的权重，第二分类结果只与对象描述特征有关。

步骤S203，获取第一激活映射图对应的像素平均值，根据像素平均值确定对象中的关键点在图像帧中的定位结果，根据对象部位类别和定位结果，确定图像帧对应的对象姿态检测结果。

具体的，计算机设备可以对第一激活映射图取像素平均值，并将像素平均值确定为对象中的关键点在图像帧中的定位结果，根据对象部位类别和定位结果，可以确定图像帧中的对象的对象骨架，该对象骨架可以作为图像帧中的对象所对应的对象姿态检测结果。

请参见图8，图8是本申请实施例提供的一种对象检测模型的结构示意图。如图8所示，计算机设备在获取到图像帧60a后，可以将图像帧60a输入至对象检测模型，通过该对象检测模型中的特征提取组件60b(例如，该特征提取网络可以为卷积网络)对图像帧60a进行特征提取，可以得到图像帧60a中的对象对应的对象描述特征60c，利用全局平均池化(对象描述特征的数量可以为多个，全局平均池化是指将一个对象描述特征转换为一个数值)以及激活函数，对对象描述特征60c进行处理，并对处理后的结果进行分类，得到第二分类结果；将第二分类结果与特征提取组件60b中的最后一个卷积层所输出的对象卷积特征进行加权，得到第二激活映射图。

基于第二激活映射图对图像帧60a进行分块处理，得到M个对象部位区域图像60f，将M个对象部位区域图像60f依次输入至对象检测模型中的特征提取组件60b，通过特征提取组件60b可以得到M个对象部位区域图像60f分别对应的部位描述特征60g。将M个部位描述特征60g与图像帧60a的对象描述特征60c进行特征组合，得到对象姿态特征；通过对对象姿态特征进行识别，可以得到第一分类结果60d，将第一分类结果60d和特征提取组件60b中的最后一个卷积层所输出的对象卷积特征进行加权，可以得到第一激活映射图60e。该第一激活映射图60e的像素平均值可以作为对象在图像帧60a中的定位结果，并以此得到图像帧60a中的对象对应的对象姿态检测结果。

需要说明的是，图8所对应实施例中所描述的对象姿态检测结果的获取方式仅为本申请实施例的一个举例说明，本申请还可以采用其余的方式得到对象姿态检测结果，本申请对此不做限定。

请参见图9，图9是本申请实施例提供的一种获取对象姿态检测结果的流程示意图。如图9所示，以对象检测模型是人体三维姿态估计模型为例，计算机设备可以将图像帧70a输入人体三维姿态估计模型，通过该人体三维姿态估计模型可以获取对象(此时的对象为人体)在图像帧70a中的人体三维关键点。如图9所示，若通过人体三维姿态估计模型检测得到图像帧70a所包含的16个人体三维关键点，分别标记为x1至x16，每个人体三维关键点都可以对应一个位置坐标和一个第一置信度，基于第一置信度可以确定检测到的人体三维关键点为真实人体关键点的可能性；如第一置信度大于第一置信阈值(可以根据实际需求进行设置)的人体三维关键点可以认为是真实人体关键点(例如，x4至x16所表示的人体三维关键点)。通过对真实人体关键点进行连接，可以得到人体姿态70c(也可以认为是对象姿态检测结果)。第一置信度小于或等于第一置信阈值的人体三维关键点为异常关键点，在后续处理中可以对这些异常关键点进行补偿，以得到更准确的人体关键点。

可以理解的是，以图像帧构建空间坐标系，人体三维关键点的位置坐标可以是指在该空间坐标系中的空间坐标。

步骤S204，将图像帧输入至部位检测模型，在部位检测模型中检测图像帧中的对象的第一对象部位。

具体的，计算机设备还可以将图像帧输入至部位检测模型，在该部位检测模型中首先检测图像帧中是否包含对象的第一对象部位。其中，部位检测模型可以用于检测第一对象部位的关键点，因此需要检测图像帧中的第一对象部位，若在图像帧中未检测到对象的第一对象部位，则可以直接确定图像帧对应的部位姿态检测结果为空值，无需执行后续检测第一对象部位的关键点的步骤。

步骤S205，若在图像帧中检测到第一对象部位，则从图像帧中获取包含第一对象部位的区域图像，根据区域图像获取第一对象部位对应的部位关键点位置，基于部位关键点位置确定图像帧对应的部位姿态检测结果。

具体的，若在图像帧中检测到第一对象部位，则可以确定第一对象部位在图像帧中的位置区域，基于第一对象部位在图像帧中的位置区域，对图像帧进行剪裁，得到包含第一对象部位的区域图像。在部位检测模型中可以对区域图像进行特征提取，获取区域图像中的第一对象部位对应的部位轮廓特征，根据部位轮廓特征可以预测第一对象部位对应的部位关键点位置；基于部位关键点位置，可以对第一对象部位的关键点进行连接，得到图像帧对应的部位姿态检测结果。

请参见图10，图10是本申请实施例提供的一种获取部位姿态检测结果的流程示意图。如图10所示，以部位检测模型是手掌三维姿态估计模型为例，计算机设备可以将图像帧80a输入手掌三维姿态估计模型，在该手掌三维姿态估计模型中可以检测图像帧80a中是否包含对象的手掌(第一对象部位)，若在图像帧80a中未检测到手掌，则可以确定图像帧80a对应的部位姿态检测结果为空值；若在图像帧80a中检测到手掌，则可以在图像帧80a中确定包含手掌的区域(例如，图像80b中的区域80c和区域80d，区域80c包含对象的右手掌，区域80d包含对象的左手掌)，并通过手掌三维姿态估计模型可以检测得到区域80c中的手掌三维关键点，以及区域80d中的手掌三维关键点。

其中，通过手掌三维姿态估计模可以获取多个可能的区域，并预测每个可能的区域中包含手掌的第二置信度，将第二置信度大于第二置信阈值(可以与前述第一置信阈值相同，也可以不同，在此不做限定)的区域确定为包含手掌的区域，如区域80c和区域80d对应的第二置信度都大于第二置信阈值。对区域80c中所检测到的手掌关键点进行连接可以得到右手掌姿态80e，对区域80d中所检测到的手掌关键点进行连接可以得到左手掌姿态80f。上述左手掌姿态80f和右手掌姿态80e可以称为图像帧80a对应的部位姿态检测结果。

步骤S206，获取与对象相关联的标准姿态，确定所述标准姿态对应的第一关键点数量，以及对象姿态检测结果对应的第二关键点数量。

具体的，计算机设备可以获取对象对应的标准姿态，并统计标准姿态中所包含的对象关键点的第一关键点数量，以及对象姿态检测结果中所包含的对象关键点的第二关键点数量。其中，第一关键点数量是在构建标准姿态时就已知的，第二关键点数量是对象检测模型所预测得到的对象关键点的数量。

步骤S207，当第一关键点数量大于第二关键点数量时，根据标准姿态对对象姿态检测结果进行插值处理，得到第一候选对象姿态。

具体的，当第一关键点数量大于第二关键点数量时，表示对象姿态检测结果中存在缺失的对象关键点，可以通过标准姿态对该对象姿态检测结果进行关键点补偿(插值处理)，完善缺失的对象关键点，以得到对象对应的第一候选对象姿态。如图2所示，通过标准姿态20k对人体姿态20j(对象姿态检测结果)进行关键点补偿，可以得到人体姿态20m，此时的人体姿态20m可以称为第一候选对象姿态。

例如，假设对象为人体，若通过对象检测模型预测得到的对象姿态检测结果中缺失了膝盖、脚踝、脚部、手肘等部位的关键点，则可以通过标准姿态对上述对象姿态检测结果进行插值处理，如添加缺失的对象关键点，以得到更合理的第一候选对象姿态。通过标准姿态对对象姿态检测结果进行插值，可以提高对象姿态的完整性和合理性。

步骤S208，根据部位姿态检测结果对第一候选对象姿态中与第一对象部位相关联的对象部位进行插值处理，得到对象对应的全局姿态。

具体的，在实际应用场景中，对象的姿态变化在很大程度上取决于对象的少数几个部位，也就是说，对象的一些特定部位(例如，人体结构中的手臂部位，手臂部位可以包括手掌、手腕以及手肘等部位的关键点)对最终的结果具有重要作用；因此，本申请实施例中，可以基于部位姿态检测结果对第一候选对象姿态中，与第一对象部位相关联的对象部位进行插值处理，可以得到对象对应的全局姿态。在一些实施例中，若部位姿态检测结果为空值(即图像帧中不包含第一对象部位)，则可以直接将第一候选对象姿态确定为对象对应的全局姿态。

举例来说，假设对象为人体，第一对象部位为手掌；当图像帧中包含手肘部位时，通过对象检测模型可以预测得到针对手肘部位的关键点。当图像帧中不包含手肘部位时，通过对象检测模型无法预测得到手肘部位的关键点，此时可以基于部位姿态检测结果确定对象的手肘关键点和手腕关键点，将手肘关键点和手腕关键点添加到第一候选对象姿态中，可以得到对象对应的全局姿态。

在一些实施例中，对象包括第二对象部位和第三对象部位，第二对象部位和第三对象部位是相对称的，如第二对象部位为对象的右手臂，则第三对象部位为对象的左手臂；第二对象部位为对象的左腿，则第三对象部位为对象的右腿等。

在部位姿态检测结果包括第一对象部位的所有部位关键点的情形下(若第一对象部位为手掌，此处假设部位姿态检测结果包括左右手掌关键点)，若对象姿态检测结果包含第二对象部位的姿态，且对象姿态检测结果不包含第三对象部位的姿态，即图像帧中包含第二对象部位，但不包含第三对象部位，则可以根据部位姿态检测结果中所包含的第一对象部位的关键点位置，确定第三对象部位对应的第一部位方向；其中，第二对象部位和第三对象部位为对象的对称部位。由于第二对象部位和第三对象部位为对称部位，因此第二对象部位的长度与第三对象部位的长度相同，因此可以获取第二对象部位在第一候选对象姿态中的第一部位长度，根据第一部位长度和第一部位方向，确定第三对象部位的关键点位置；并将第三对象部位的关键点位置添加至第一候选对象姿态，得到图像帧中的对象对应的全局姿态。

若对象姿态检测结果不包括第二对象部位和第三对象部位的姿态，即图像帧中既不包含第二对象部位，也不包含第三对象部位，则可以根据部位姿态检测结果中所包含的第一对象部位的关键点位置，确定第二对象部位对应的第二部位方向，以及第三对象部位对应的第三部位方向；进而可以在第i-1个图像帧中，获取第二对象部位对应的第二部位长度，以及第三对象部位对应的第三部位长度；换言之，可以将第二对象部位在前一个图像帧中的长度作为第二对象部位在图像帧中的长度，将第三对象部位在前一个图像帧中的图像作为第三对象部位在图像帧中的长度。即而可以根据第二部位长度和第二部位方向，确定第二对象部位的关键点位置；根据第三部位长度和第三部位方向，确定第三对象部位的关键点位置，将第二对象部位的关键点位置和第三对象部位的关键点位置添加至第一候选对象姿态，得到图像帧中的对象对应的全局姿态。若第i-1个图像帧中同样不包含第二对象部位和第三对象部位，则可以继续往前回溯，获取第二对象部位和第三对象部位分别在第i-2个图像帧中的长度，以确定第二对象部位和第三对象部位分别在图像帧中的关键点位置。若在图像帧之前的图像帧中都没有检测到第二对象部位和第三对象部位，则可以根据第一候选对象姿态为第二对象部位和第三对象部位分别设置一个近似长度，以确定第二对象部位和第三对象部位分别在图像帧中的关键点位置。

举例来说，假设对象为人体，第一对象部位为手掌，第二对象部位和第三对象部位分别为左右手臂；在图像帧中检测到左右手掌的前提下，可以通过左手掌的关键点计算得到左小手臂的方向，通过右手掌的关键点计算得到右小手臂的方向，左小手臂属于左手臂的一部分，右小手臂属于右手臂的一部分。

若在图像帧中未检测到左右手臂，则可以将图像帧之前的图像帧(例如，第i-1个图像帧)中的左右小手臂长度(第二部位长度和第二部位长度)，作为图像帧中的左右小手臂长度。若图像帧以及之前的图像帧中均未检测到左右手臂，则可以参考图像帧中的肩膀长度，赋予图像帧中的左右小手臂的参考长度。若在图像帧中检测到左右手臂中的任意一个手臂(例如，左手臂)，则可以直接将左小手臂长度(第一部位长度)赋予给右小手臂。例如，已知右手腕点A，右手掌点B，右手肘点C缺失；右小手臂的方向可以表示为右手掌点B至右手腕点A的方向，可以记为向量BA；左小手臂长度可以表示为右手腕点A至右手肘点C的长度，可以记为L；通过上述信息可以计算得到右手肘点C的位置坐标，可以表示为：C＝A+BA_normal*L，其中，C表示手肘点的位置坐标，A表示手腕点的位置坐标，BA_normal表示向量BA的单位向量。

可以理解的是，若在图像帧中检测到了左右手臂，则可以基于检测到的手掌关键点，对对象检测模型所预测到的手肘点进行调整更新，可以提高手肘点的准确性，进而提高全局姿态的合理性。

在一些实施例中，基于部位姿态检测结果对第一候选对象姿态进行插值处理后所得到的姿态，可能存在一些不合理的对象关键点，因此可以结合标准姿态对不合理的对象关键点进行矫正，以得到对象最终的全局姿态。具体的，假设在图像帧中未检测到第三对象部位，计算机设备可以将添加了第三对象部位的关键点位置的第一候选对象姿态，确定为第二候选对象姿态；进而可以获取标准姿态与第二候选对象姿态之间的姿态偏移量，若姿态偏移量大于偏移阈值(可以理解为是对象在正常情况下可以偏移的最大角度)，则基于标准姿态对第二候选对象姿态进行关键点矫正，得到图像帧中的对象对应的全局姿态。其中，上述姿态偏移量可以理解为第二候选对象姿态与标准姿态之间的相关夹角，如对象为人体时，该姿态偏移量可以为第二候选对象姿态的肩膀与标准姿态的肩膀之间的夹角等。

请参见图11，图11是本申请实施例提供的一种对象关键点的矫正示意图。如图11所示，对于图像帧90a，在得到该图像帧90a对应的第二候选对象姿态后，基于该第二候选对象姿态可以构建人体模型90b；受限于对象检测模型的性能，该人体模型90b中的区域90c(例如，肩膀区域)相较于正常的人体结构(例如，标准姿态)，很明显存在塌陷问题，如第一候选对象姿态的肩膀与标准姿态的肩膀之间的夹角大于偏移阈值。计算机设备可以通过标准姿态对人体模型90c进行矫正，得到人体模型90d；该人体模型90d中的区域90e可以认为是对区域90c进行矫正之后的结果，人体模型90d所对应的姿人体姿态可以称为图像帧90a中的对象所对应的全局姿态。

在移动端场景下所拍摄的视频数据中通常无法包含整个对象，通过对象检测模型预测得到的针对对象的姿态是不完整的，通过关键点插值、关键点矫正等处理，可以提高全局姿态的合理性；通过部位姿态检测结果，可以计算得到与第一对象部位相关联的对象关键点位置，可以提高全局姿态的准确性。

请参见图12，图12是本申请实施例提供的一种对象姿态估计的流程示意图。如图12所示，假设对象为人体，计算机设备在获取到移动端场景下拍摄的视频数据或图像数据之后，可以获取带有置信度的人体三维姿态估计模型(对象检测模型)和带有置信度的手掌三维姿态估计模型(部位检测模型)。通过人体三维姿态估计模型可以预测得到任意一个图像帧(图像帧)中的人体三维关键点，这些人体三维关键点可以构成对象姿态检测结果；通过手掌三维姿态估计模型可以预测得到任意一个图像帧(图像帧)中的手掌三维关键点，这些手掌三维关键点可以构成部位姿态检测结果。根据人体默认姿态(标准姿态)可以对人体三维姿态估计模型预测的人体三维关键点进行插值处理，以完善缺失的人体关键点；还可以结合手掌三维关键点和人体三维关键点，对人体(对象)的手肘、手腕进行插值处理，得到候选人体姿态(上述第二候选对象姿态)。若候选人体姿态中检测到不符合正常人体结构的人体关键点(姿态偏移量大于偏移阈值的人体关键点)，可以对这些不符合正常人体结构的人体关键点进行矫正，最终得到合理的三维姿态估计结果(即上述全局姿态)。

可以理解的是，在本申请的具体实施方式中，可能涉及到用户的视频采集，当本申请以上实施例运用到具体产品或技术中时，需要获得用户的许可或同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请实施例中，通过对图像帧中的对象分别进行对象姿态估计和特定部位姿态估计，可以得到针对对象的对象姿态检测结果，以及针对对象的第一对象部位的部位姿态检测结果，进而可以基于对象姿态检测结果、部位姿态检测结果以及标准姿态，对图像帧中的对象进行姿态估计，可以对图像帧中对象缺少的部位关键点进行补偿，并矫正不符合标准姿态的对象关键点，可以确保最终得到的对象的全局姿态的完整性和合理性，进而可以提高全局姿态的估计准确性。

请参见图13，图13是本申请实施例提供的一种数据处理装置的结构示意图。如图13所示，该数据处理装置1可以包括：姿态检测模块11，姿态估计模块12；

姿态检测模块11，用于获取图像帧中的对象对应的对象姿态检测结果以及图像帧中所述对象的第一对象部位对应的部位姿态检测结果；其中，所述对象姿态检测结果中缺失所述对象的至少一个对象部位，所述第一对象部位为所述对象的一个或多个部位；

姿态估计模块12，用于根据部位姿态检测结果以及与对象相关联的标准姿态，对所述对象姿态检测结果中缺失的至少一个对象部位进行插值处理，得到对象对应的全局姿态，其中，所述全局姿态用于操控计算机设备以实现与所述全局姿态对应的业务功能。

其中，姿态检测模块11，姿态估计模块12的具体功能实现方式可以参见上述图3所对应实施例中对步骤S101-步骤S102的描述，这里不再进行赘述。

本申请实施例中，通过对图像帧中的对象分别进行全局对象姿态估计和特定部位姿态估计，可以得到针对对象的对象姿态检测结果，以及针对对象的第一对象部位的部位姿态检测结果，进而可以基于对象姿态检测结果、部位姿态检测结果以及标准姿态，对图像帧中的对象进行姿态估计，可以对图像帧中对象缺少的部位关键点进行补偿，可以确保最终得到的对象的全局姿态的完整性和合理性，进而可以提高全局姿态的估计准确性。

请参见图14，图14是本申请实施例提供的另一种数据处理装置的结构示意图。如图14所示，该数据处理装置2包括：姿态检测模块21，姿态估计模块22，虚拟对象构建模块23；

姿态检测模块21，用于获取图像帧中的对象对应的对象姿态检测结果和图像帧中所述对象的第一对象部位对应的部位姿态检测结果；其中，所述对象姿态检测结果中缺失所述对象的至少一个对象部位，所述第一对象部位为所述对象的一个或多个部位；

姿态估计模块22，用于根据部位姿态检测结果以及与对象相关联的标准姿态，对所述对象姿态检测结果中缺失的至少一个对象部位进行插值处理，得到对象对应的全局姿态。

虚拟对象构建模块23，用于构建与对象相关联的虚拟对象，根据所述全局姿态控制所述虚拟对象的姿态。

其中，姿态检测模块21，姿态估计模块22，虚拟对象构建模块23的具体功能实现方式可以参见前述相关步骤的描述，这里不再进行赘述。

在一个或多个实施例中，姿态检测模块21包括：对象检测单元211，部位检测单元212；

对象检测单元211，用于将图像帧输入至对象检测模型，通过对象检测模型，获得所述对象姿态检测结果；

部位检测单元212，用于将图像帧输入至部位检测模型，通过部位检测模型，获得所述部位姿态检测结果。

其中，对象检测单元211，部位检测单元212的具体功能实现方式可以参见图3所对应实施例中的步骤S101，这里不再进行赘述。

在一个或多个实施例中，对象检测单元211可以包括：部位分类子单元2111，部位映射图生成子单元2112，定位结果确定子单元2113，检测结果确定子单元2114；

部位分类子单元2111，用于将图像帧输入至对象检测模型，通过对象检测模型获取图像帧中的对象对应的对象姿态特征，识别对象姿态特征对应的第一分类结果；第一分类结果用于表征对象的关键点所对应的对象部位类别；

部位映射图生成子单元2112，用于根据第一分类结果和所述对象检测模型输出的图像帧的对象卷积特征，生成第一激活映射图；

定位结果确定子单元2113，用于获取第一激活映射图对应的像素平均值，根据像素平均值确定对象中的关键点在图像帧中的定位结果；

检测结果确定子单元2114，用于根据对象部位类别和定位结果，确定图像帧对应的对象姿态检测结果。

其中，部位分类子单元2111，部位映射图生成子单元2112，定位结果确定子单元2113，检测结果确定子单元2114的具体功能实现方式可以参见图7所对应实施例中的步骤S201-步骤S203，这里不再进行赘述。

在一个或多个实施例中，部位分类子单元2111包括：全局分类子单元21111，全局映射图获取子单元21112，分块处理子单元21113，特征组合子单元21114；

全局分类子单元21111，用于在对象检测模型中获取图像帧中的对象对应的对象描述特征，根据对象检测模型中的分类器，输出对象描述特征对应的第二分类结果；

全局映射图获取子单元21112，用于获取对象检测模型中的卷积层所输出的针对图像帧的对象卷积特征，将第二分类结果和对象卷积特征进行乘积运算，得到图像帧对应的第二激活映射图；

分块处理子单元21113，用于根据第二激活映射图对图像帧进行分块处理，得到M个对象部位区域图像，根据对象检测模型获取M个对象部位区域图像分别对应的部位描述特征；M为正整数；

特征组合子单元21114，用于将对象描述特征和M个对象部位区域图像所对应的部位描述特征组合为对象姿态特征。

其中，全局分类子单元21111，全局映射图获取子单元21112，分块处理子单元21113，特征组合子单元21114的具体功能实现方式可以参见图7所对应实施例中的步骤 S201，这里不再进行赘述。

在一个或多个实施例中，部位检测单元212可以包括：对象部位检测子单元2121，部位姿态估计子单元2122，空值确定子单元2123；

对象部位检测子单元2121，用于将图像帧输入至部位检测模型，在部位检测模型中检测图像帧中的对象的第一对象部位；

部位姿态估计子单元2122，用于若在图像帧中检测到第一对象部位，则从图像帧中获取包含第一对象部位的区域图像，根据区域图像获取第一对象部位对应的部位关键点位置，基于部位关键点位置确定图像帧对应的部位姿态检测结果；

空值确定子单元2123，用于若在图像帧中未检测到第一对象部位，则确定图像帧对应的部位姿态检测结果为空值。

其中，对象部位检测子单元2121，部位姿态估计子单元2122，空值确定子单元2123的具体功能实现方式可以参见图7所对应实施例中的步骤S204-步骤S205，这里不再进行赘述。

在一个或多个实施例中，部位姿态估计子单元2122可以包括：图像剪裁子单元21221，部位关键点确定子单元21222，部位关键点连接子单元21223；

图像剪裁子单元21221，用于若在图像帧中检测到第一对象部位，则对图像帧进行剪裁，得到包含第一对象部位的区域图像；

部位关键点确定子单元21222，用于获取区域图像对应的部位轮廓特征，根据部位轮廓特征预测第一对象部位对应的部位关键点位置；

部位关键点连接子单元21223，用于基于部位关键点位置，对第一对象部位的关键点进行连接，得到图像帧对应的部位姿态检测结果。

其中，图像剪裁子单元21221，部位关键点确定子单元21222，部位关键点连接子单元21223的具体功能实现方式可以参见图7所对应实施例中的步骤S205，这里不再进行赘述。

在一个或多个实施例中，姿态估计模块22包括：关键点数量确定单元221，第一插值处理单元222，第二插值处理单元223；

关键点数量确定单元221，用于获取与对象相关联的标准姿态，确定标准姿态对应的第一关键点数量，以及对象姿态检测结果对应的第二关键点数量；

第一插值处理单元222，用于若第一关键点数量大于第二关键点数量，根据标准姿态对对象姿态检测结果中缺失的至少一个对象部位进行插值处理，得到第一候选对象姿态；

第二插值处理单元223，用于根据部位姿态检测结果，对第一候选对象姿态中与第一对象部位相关联的对象部位进行插值处理，得到对象对应的全局姿态。

其中，关键点数量统计单元221，第一插值处理单元222，第二插值处理单元223的具体功能实现方式可以参见图7所对应实施例中的步骤S206-步骤S208，这里不再进行赘述。

在一个或多个实施例中，第二插值处理单元223可以包括：第一方向确定子单元2231，第一位置确定子单元2232，第一关键点增加子单元2233；

第一方向确定子单元2231，用于若对象姿态检测结果包含第二对象部位的姿态，且对象姿态检测结果不包含第三对象部位的姿态，则根据部位姿态检测结果中所包含的第一对象部位的关键点位置，确定第三对象部位对应的第一部位方向；第二对象部位和第三对象部位为对象的对称部位、且所述第二对象部位和第三对象部位与第一对象部位相关联；

第一位置确定子单元2232，用于获取第二对象部位在第一候选对象姿态中的第一部位长度，根据第一部位长度和第一部位方向，确定第三对象部位的关键点位置；

第一关键点增加子单元2233，用于将第三对象部位的关键点位置添加至第一候选对象姿态，得到图像帧中的对象对应的全局姿态。

在一些实施例中，第一关键点增加子单元2233具体用于：

将第三对象部位的关键点位置添加至第一候选对象姿态，得到图像帧中的对象对应的第二候选对象姿态，获取标准姿态与第二候选对象姿态之间的姿态偏移量；

若姿态偏移量大于偏移阈值，则基于标准姿态对第二候选对象姿态进行关键点矫正，得到图像帧中的对象对应的全局姿态。

在一些实施例中，图像帧为视频数据中的第i个图像帧，i为正整数；第二插值处理单元223还可以包括：第二方向确定子单元2234，第二位置确定子单元2235，第二关键点增加子单元2236；

第二方向确定子单元2234，用于若对象姿态检测结果不包括第二对象部位和第三对象部位的姿态，则根据部位姿态检测结果中所包含的第一对象部位的关键点位置，确定第二对象部位对应的第二部位方向，以及第三对象部位对应的第三部位方向；第二对象部位和第三对象部位为对象的对称部位、且所述第二对象部位和第三对象部位与第一对象部位相关联；

第二位置确定子单元2235，用于在第j个图像帧中，获取第二对象部位对应的第二部位长度，以及第三对象部位对应的第三部位长度，根据第二部位长度和第二部位方向，确定第二对象部位的关键点位置；其中，j为正整数且j小于i；

第二关键点增加子单元2236，用于根据第三部位长度和第三部位方向，确定第三对象部位的关键点位置，将第二对象部位的关键点位置和第三对象部位的关键点位置添加至第一候选对象姿态，得到图像帧中的对象对应的全局姿态。

其中，第一方向确定子单元2231，第一位置确定子单元2232，第一关键点增加子单元2233，第二方向确定子单元2234，第二位置确定子单元2235，第二关键点增加子单元2236的具体功能实现方式可以参见图7所对应实施例中的步骤S208，这里不再进行赘述。其中，当第一方向确定子单元2231，第一位置确定子单元2232，第一关键点增加子单元2233在执行相应的操作时，第二方向确定子单元2234，第二位置确定子单元2235，第二关键点增加子单元2236均暂停执行操作；当第二方向确定子单元2234，第二位置确定子单元2235，第二关键点增加子单元2236在执行相应的操作时，第一方向确定子单元2231，第一位置确定子单元2232，第一关键点增加子单元2233均暂停执行操作。

请参见图15，图15是本申请实施例提供的一种计算机设备的结构示意图。如图15所示，该计算机设备1000可以为用户终端，例如，上述图1所对应实施例中的用户终端10a，还可以为服务器，例如，上述图1所对应实施例中的服务器10d，这里将不对其进行限制。为便于理解，本申请以计算机设备为用户终端为例，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，该计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

其中，该计算机设备1000中的网络接口1004还可以提供网络通讯功能，且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图15所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取图像帧中的对象对应的对象姿态检测结果以及所述图像帧中所述对象的第一对象部位对应的部位姿态检测结果；其中，所述对象姿态检测结果中缺失所述对象的至少一个对象部位，所述第一对象部位为所述对象的一个或多个部位；

根据部位姿态检测结果以及与对象相关联的标准姿态，对所述对象姿态检测结果中缺失的至少一个对象部位进行插值处理，得到对象对应的全局姿态，其中，所述全局姿态用于操控计算机色斑以实现与所述全局姿态对应的业务功能。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3、图7中任一个实施例中对数据处理方法的描述，也可执行前文图13所对应实施例中对数据处理装置1的描述，还可执行前文图14所对应实施例中对数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有计算机程序，且计算机程序包括计算机指令，当处理器执行计算机指令时，能够执行前文图3、图7中任一个实施例中对数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，计算机指令可被部署在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行，分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。

此外，需要说明的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图3、图7中任一个实施例中对数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储器(Read-Only Memory，ROM)或随机存储器(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

一种数据处理方法，由计算机设备执行，包括：

获取图像帧中的对象对应的对象姿态检测结果，以及所述图像帧中所述对象的第一对象部位对应的部位姿态检测结果；其中，所述对象姿态检测结果中缺失所述对象的至少一个对象部位，所述第一对象部位为所述对象的一个或多个部位；

根据所述部位姿态检测结果以及与所述对象相关联的标准姿态，对所述对象姿态检测结果中缺失的至少一个对象部位进行插值处理，得到所述对象对应的全局姿态，其中，所述全局姿态用于操控计算机设备以实现与所述全局姿态对应的业务功能。
根据权利要求1所述的方法，其中，所述获取图像帧中的对象对应的对象姿态检测结果，以及图像帧中所述对象的第一对象部位对应的部位姿态检测结果，包括：

将所述图像帧输入至对象检测模型，通过所述对象检测模型，获得所述对象姿态检测结果；

将所述图像帧输入至部位检测模型，通过所述部位检测模型，获得所述部位姿态检测结果。
根据权利要求2所述的方法，其中，所述将所述图像帧输入至对象检测模型，通过所述对象检测模型，获得所述对象姿态检测结果，包括：

将所述图像帧输入至对象检测模型，通过所述对象检测模型获取所述对象对应的对象姿态特征，识别所述对象姿态特征对应的第一分类结果；所述第一分类结果用于表征所述对象的关键点所对应的对象部位类别；

根据所述第一分类结果和所述对象检测模型输出的图像帧的对象卷积特征，生成第一激活映射图；

获取所述第一激活映射图对应的像素平均值，根据所述像素平均值确定所述对象中的关键点在所述图像帧中的定位结果；

根据所述对象部位类别和所述定位结果，确定所述对象姿态检测结果。
根据权利要求3所述的方法，其中，所述通过所述对象检测模型获取所述对象对应的对象姿态特征，包括：

在所述对象检测模型中获取所述图像帧中的所述对象对应的对象描述特征，根据所述对象检测模型中的分类器，输出所述对象描述特征对应的第二分类结果；

获取所述对象检测模型中的卷积层所输出的针对所述图像帧的对象卷积特征，将所述第二分类结果和所述对象卷积特征进行乘积运算，得到所述图像帧对应的第二激活映射图；

根据所述第二激活映射图对所述图像帧进行分块处理，得到M个对象部位区域图像，根据所述对象检测模型获取所述M个对象部位区域图像分别对应的部位描述特征；M为正整数；

将所述对象描述特征和所述M个对象部位区域图像所对应的部位描述特征组合为所述对象姿态特征。
根据权利要求2所述的方法，其中，所述将所述图像帧输入至部位检测模型，通过所述部位检测模型，获得所述部位姿态检测结果，包括：

将所述图像帧输入至部位检测模型，在所述部位检测模型中检测所述所述对象的第一对象部位；

若在所述图像帧中检测到所述第一对象部位，则从所述图像帧中获取包含所述第一对象部位的区域图像，根据所述区域图像获取所述第一对象部位对应的部位关键点位置，基于所述部位关键点位置确定所述图像帧对应的部位姿态检测结果；

若在所述图像帧中未检测到所述第一对象部位，则确定所述图像帧对应的部位姿态检测结果为空值。
根据权利要求5所述的方法，其中，所述若在所述图像帧中检测到所述第一对象部位，则从所述图像帧中获取包含所述第一对象部位的区域图像，根据所述区域图像获取所述第一对象部位对应的部位关键点位置，基于所述部位关键点位置确定所述图像帧对应的部位姿态检测结果，包括：

若在所述图像帧中检测到所述第一对象部位，则对所述图像帧进行剪裁，得到包含所述第一对象部位的区域图像；

获取所述区域图像对应的部位轮廓特征，根据所述部位轮廓特征预测所述第一对象部位对应的部位关键点位置；

基于所述部位关键点位置，对所述第一对象部位的关键点进行连接，得到所述图像帧对应的部位姿态检测结果。
根据权利要求1所述的方法，其中，所述根据所述部位姿态检测结果，以及与所述对象相关联的标准姿态，对所述对象姿态检测结果中缺失的至少一个对象部位进行插值处理，得到所述对象对应的全局姿态，包括：

获取与所述对象相关联的标准姿态，确定所述标准姿态对应的第一关键点数量，以及所述对象姿态检测结果对应的第二关键点数量；

若所述第一关键点数量大于所述第二关键点数量，根据所述标准姿态对所述对象姿态检测结果中缺失的至少一个对象部位进行插值处理，得到第一候选对象姿态；

根据所述部位姿态检测结果，对所述第一候选对象姿态中与第一对象部位相关联的对象部位进行插值处理，得到所述对象对应的全局姿态。
根据权利要求7所述的方法，其中，所述根据所述部位姿态检测结果，对所述第一候选对象姿态中与第一对象部位相关联的对象部位进行插值处理，得到所述对象对应的全局姿态，包括：

若所述对象姿态检测结果包含第二对象部位的姿态，且所述对象姿态检测结果不包含第三对象部位的姿态，则根据所述部位姿态检测结果中所包含的第一对象部位的关键点位置，确定所述第三对象部位对应的第一部位方向；所述第二对象部位和所述第三对象部位为所述对象的对称部位、且所述第二对象部位和第三对象部位与第一对象部位相关联；

获取所述第二对象部位在所述第一候选对象姿态中的第一部位长度，根据所述第一部位长度和所述第一部位方向，确定所述第三对象部位的关键点位置；

将所述第三对象部位的关键点位置添加至所述第一候选对象姿态，得到所述图像帧中的对象对应的全局姿态。
根据权利要求8所述的方法，其中，所述将所述第三对象部位的关键点位置添加至所述第一候选对象姿态，得到所述图像帧中的对象对应的全局姿态，包括：

将所述第三对象部位的关键点位置添加至所述第一候选对象姿态，得到所述图像帧中的对象对应的第二候选对象姿态，获取所述标准姿态与所述第二候选对象姿态之间的姿态偏移量；

若所述姿态偏移量大于偏移阈值，则基于所述标准姿态对所述第二候选对象姿态进行关键点矫正，得到所述图像帧中的对象对应的全局姿态。
根据权利要求7所述的方法，其中，所述图像帧为视频数据中的第i个图像帧， i为正整数；

所述根据所述部位姿态检测结果对所述第一候选对象姿态中与第一对象部位相关联的对象部位进行插值处理，得到所述对象对应的全局姿态，包括：

若所述对象姿态检测结果不包括第二对象部位和第三对象部位的姿态，则根据所述部位姿态检测结果中所包含的第一对象部位的关键点位置，确定所述第二对象部位对应的第二部位方向，以及所述第三对象部位对应的第三部位方向；所述第二对象部位和所述第三对象部位为所述对象的对称部位、且所述第二对象部位和第三对象部位与第一对象部位相关联；

在第j个图像帧中，获取所述第二对象部位对应的第二部位长度，以及所述第三对象部位对应的第三部位长度，根据所述第二部位长度和所述第二部位方向，确定所述第二对象部位的关键点位置；其中，j为正整数且j小于i；

根据所述第三部位长度和所述第三部位方向，确定所述第三对象部位的关键点位置，将所述第二对象部位的关键点位置和所述第三对象部位的关键点位置添加至所述第一候选对象姿态，得到所述图像帧中的对象对应的全局姿态。
根据权利要求1所述的方法，还包括：

构建与所述对象相关联的虚拟对象，根据所述全局姿态控制所述虚拟对象的姿态。
一种数据处理装置，包括：

姿态检测模块，用于获取图像帧中的对象对应的对象姿态检测结果、以及图像帧中所述对象的第一对象部位对应的部位姿态检测结果；所述第一对象部位为所述对象的一个或多个部位；

姿态估计模块，用于根据所述部位姿态检测结果，以及与所述对象相关联的标准姿态，对所述对象姿态检测结果中缺失的对象部位进行插值处理，得到所述对象对应的全局姿态，其中，所述全局姿态用于操控计算机设备以实现与所述全局姿态对应的业务功能。
一种计算机设备，包括存储器和处理器；

所述存储器与所述处理器相连，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1-11任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-11任一项所述的方法。
一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1-11任一项所述的方法。