WO2018121524A1

WO2018121524A1 - 一种数据处理方法及装置、采集设备及存储介质

Info

Publication number: WO2018121524A1
Application number: PCT/CN2017/118600
Authority: WO
Inventors: 王亮; 叶小阳; 黄成�
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2016-12-30
Filing date: 2017-12-26
Publication date: 2018-07-05
Anticipated expiration: 2019-06-30
Also published as: EP3564785A1; CN106774930A; US11223923B2; EP3564785A4; US20210112363A1; US20190387347A1; US10911884B2

Abstract

本发明公开了一种数据处理方法，包括：获取采集设备的音频采集设备的空间信息；所述采集设备对应的采集空间形成几何体；所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体；每个视频采集设备的设置方位对应设置有N个音频采集设备；N为正整数；针对每个视频采集设备的设置方位对应设置的N个音频采集设备，依据音频采集设备的空间信息，将N个音频采集设备采集的音频数据进行编码，形成M路音频数据；所述M路音频数据中携带音频的空间信息。本发明实施例还提供了一种采集设备、数据处理装置及存储介质。

Description

一种数据处理方法及装置、采集设备及存储介质

相关申请的交叉引用

本申请基于申请号为201611265760.0、申请日为2016年12月30日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本发明涉及虚拟现实(VR，Virtual Reality)技术，尤其涉及一种数据处理方法及装置、采集设备及存储介质。

背景技术

VR技术是仿真技术的一个重要方向，是一门富有挑战性的交叉技术前沿学科和研究领域。VR技术主要是指在视、听、触、嗅、味觉等方面高度逼真的计算机模拟环境。具体来说，VR技术是利用计算机技术模拟产生三维的虚拟世界，让使用者即时、没有闲置地感知虚拟空间内的事物。VR技术是一种多门学科的综合技术，包括：计算机图形技术、多媒体技术、传感器技术、人机交互技术、网络技术、立体成像技术以及计算机仿真技术等。

目前虚拟现实音频采集设备中，只布置较少的麦克风，并未真正做到全向音频采集，也就是说采集的范围没有做到经纬方向上的360度；并且存储和传输过程中并没有音频的空间信息，这样在渲染时，也只重点考虑视频数据，所以需要进行后期人为简单的制作，才能将当前虚拟现实采集的音频和视频的空间方位配合渲染，这种配合渲染并不能达到真正同步的效果。

发明内容

本发明实施例提供一种数据处理方法及装置、采集设备及存储介质。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种数据处理方法，包括：

获取采集设备的音频采集设备的空间信息；所述采集设备对应的采集空间形成几何体；所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体；每个视频采集设备的设置方位对应设置有N个音频采集设备；N为正整数；

针对每个视频采集设备的设置方位对应设置的N个音频采集设备，依据音频采集设备的空间信息，将N个音频采集设备采集的音频数据进行编码，形成M路音频数据；所述M路音频数据中携带音频的空间信息；M为正整数。

上述方案中，所述M路音频数据中携带的音频的空间信息为以下至少之一：

N个音频采集设备物理或拾音空间信息；

N个音频采集设备空间位置的中心点空间信息；

所拍摄视频的中心点空间信息。

上述方案中，所述M路音频数据中携带的音频的空间信息的表现形式为以下至少之一：

经纬图上的对应方位信息；

三维坐标系中的三维笛卡尔坐标；

球坐标系中的球坐标；

与相对面方位信息。

上述方案中，所述采集设备采集到的视频数据以及音频数据满足以下至少之一：

所有视频采集设备采集的视频数据能还原为球体；

所有音频采集设备采集的音频数据能还原为球体。

上述方案中，所述方法还包括：

将M路音频数据存储或者发出。

本发明实施例还提供了一种数据处理方法，包括：

接收编码后的M路音频数据；

对编码的M路音频数据进行解码，获得对应的音频的空间信息；M为正整数；

依据获得的音频的空间信息及扬声设备的方位信息，确定M路音频数据对应的Q个扬声设备；Q为正整数；

利用确定的Q个扬声设备，渲染M路音频数据。

上述方案中，所述方法还包括：

根据使用者的运动姿态，获得视点和兴趣区域中至少之一在投影映射体上的方位信息；

依据Q个扬声设备的方位信息及所述音频的空间信息，调整每个扬声设备所渲染的音频数据。

上述方案中，利用确定的Q个扬声设备，渲染M路音频数据，包括以下至少之一：

将以扬声器方位为中心预设半径范围内的至少两路音频数据混合后渲染；

扬声器的方位与音频采集设备矢量一致，对应渲染；

与音频的空间信息对应方位相对应的扬声器一一渲染，与音频的空间信息对应方位不对应的扬声器不做渲染；

位置满足预设条件的至少两个扬声器渲染同一个音频数据；所述预设条件表征扬声器方位与音频的空间信息对应的方位之间的距离小于预设距离。

本发明实施例又提供了一种采集设备，所述采集设备对应的采集空间形成几何体，所述采集设备包括：视频采集设备及音频采集设备；其中，

所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体；每个视频采集设备的设置方位对应设置有N个音频采集设备；N为正整数。

上述方案中，所述采集设备还包括：

移动装置，配置为接收控制指令，响应所述控制指令移动所述采集设备，使所述采集设备在移动中采集数据；或者，使所述采集设备静止，以在静止的状态下使所述采集设备采集数据。

上述方案中，视频采集设备以及音频采集设备的设置位置满足以下至少之一：

所有视频采集设备采集的视频数据能还原为球体；

所有音频采集设备采集的音频数据能还原为球体。

上述方案中，所述几何体的每面均设置有至少一个视频采集设备。

上述方案中，所述采集设备还包括：

处理器，配置为针对每个视频采集设备的设置方位对应设置的N个音频采集设备，获取采集设备的音频采集设备的空间信息；依据音频采集设备的空间信息，将N个音频采集设备采集的音频数据进行编码，形成M路音频数据；所述M路音频数据中携带音频的空间信息；M为正整数。

本发明实施例还提供了一种数据处理装置，包括：

获取单元，配置为获取采集设备的音频采集设备的空间信息；所述采集设备对应的采集空间形成几何体；所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体；每个视频采集设备的设置方位对应设置有N个音频采集设备；N为正整数；

编码单元，配置为针对每个视频采集设备的设置方位对应设置的N个音频采集设备，依据音频采集设备的空间信息，将N个音频采集设备采集的音频数据进行编码，形成M路音频数据；所述M路音频数据中携带音频的空间信息；M为正整数。

上述方案中，所述装置还包括：

处理单元，配置为将M路音频数据存储或者发出。

本发明实施例又提供了一种数据处理装置，包括：

接收单元，配置为接收编码后的M路音频数据；

解码单元，配置为对编码的M路音频数据进行解码，获得对应的音频的空间信息；M为正整数；

第一确定单元，配置为依据获得的音频的空间信息及扬声设备的方位信息，确定M路音频数据对应的Q个扬声设备；Q为正整数；

渲染单元，配置为利用确定的Q个扬声设备，渲染M路音频数据。

上述方案中，所述装置还包括：

第二确定单元，配置为根据使用者的运动姿态，获得视点和/或兴趣区域在投影映射体上的方位信息，

所述渲染单元，还配置为依据Q个扬声设备的方位信息及所述音频的空间信息，调整每个扬声设备所渲染的音频数据。

本发明实施例还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

本发明实施例提供的数据处理方法及装置、采集设备及存储介质，采集设备对应的采集空间形成几何体；所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体；每个视频采集设备的设置方位对应设置有N个音频采集设备；N为正整数，将视频采集设备及音频采集设备部署的空间方位覆盖整个几何体，如此，能够实现真正地全向音频采集。同时，针对每个视频采集设备的设置方位对应设置的N个音频采集设备，获取采集设备的音频采集设备的空间信息；依据音频采集设备的空间信息，将N个音频采集设备采集的音频数据进行编码，形成M路音频数据；所述M路音频数据中携带音频的空间信息；M为正整数；而接收到编码后的M路音频数据后，对编码的M路音频数据进行解码，获得对应的音频的空间信息；依据获得的音频的空间信息及扬声设备的方位信息，确定M路音频数据对应的Q个扬声设备；Q为正整数；利用确定的Q个扬声设备，渲染M路音频数据；每个视频采集设备的设置方位对应设置有N个音频采集设备，音频数据有对应的空间信息，这样能够将音频数据进行沉浸式的音频呈现，达到音频和时频的空间方位配合同步的效果。

附图说明

在附图(其不一定是按比例绘制的)中，相似的附图标记可在不同的视图中描述相似的部件。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。

图1为本发明实施例一一种数据处理的方法流程示意图；

图2为本发明实施例一另一种数据处理的方法流程示意图；

图3为本发明实施例二采集设备结构示意图；

图4A-4B为本发明实施例三一种采集设备结构示意图；

图5A-5B为本发明实施例三另一种采集设备结构示意图；

图6A-6B为本发明实施例三再一种采集设备结构示意图；

图7为本发明实施例四球坐标式的空间信息示意图；

图8为本发明实施例四立方体下面信息式的空间信息示意图；

图9为本发明实施例四图8所示的空间信息展开后的空间信息示意图；

图10为本发明实施例五M大于扬声器数量时的音频渲染示意图；

图11为本发明实施例五M等于扬声器数量时的音频渲染示意图；

图12A-12B为本发明实施例五M小于扬声器数量时的音频渲染示意图；

图13A-13B为本发明实施例六一种基于兴趣区域或视点的音频渲染示意图；

图14A-14B本发明实施例六另一种基于兴趣区域或视点的音频渲染示意图；

图15为本发明实施例六基于兴趣区域或视点的音频渲染流程示意图；

图16为本发明实施例七一种数据处理装置结构示意图；

图17为本发明实施例七另一种数据处理装置结构示意图。

具体实施方式

下面结合附图及实施例对本发明再作进一步详细的描述。

在描述本发明实施例之前，先了解一下VR的相关技术。

目前虚拟现实音频采集设备(也可以称为VR音频捕获设备)中，通常只设置1到2个麦克风，因此并未做到真正地全向音频捕获。

并且传输和存储过程，目前也是重点考虑视频，包括视频的方位、基于视角(VP)以及兴趣区域(ROI)的视频tiled存储以及传输。然而，目前，由于音频采集时没有携带与对应区域视频相关的空间信息；加之传输和存储过程，也未考虑携带空间信息(包括三维空间坐标或面信息)，因此对于VP以及ROI的音频和视频方位的配合渲染并未做过多考虑。虽然目前可以通过后期人为的制作，可以实现虚拟现实采集的音频和时频的空间方位配合渲染，但是这种配合渲染并不能达到方位同步的效果。

基于此，在本发明的各种实施例中：获取采集设备的音频采集设备的空间信息；所述采集设备对应的采集空间形成几何体；所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体；每个视频采集设备的设置方位对应设置有N个音频采集设备；N为正整数；依据音频采集设备的空间信息，将N个音频采集设备采集的音频数据进行编码，形成M路音频数据；所述M路音频数据中携带音频的空间信息；M为正整数。

实施例一

本发明实施例提供一种数据处理方法，如图1所示，该方法包括：

步骤101：获取采集设备的音频采集设备的空间信息；

这里，所述采集设备对应的采集空间形成几何体；所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体；每个视频采集设备的设置方位对应设置有N个音频采集设备；N为正整数。

所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体是指：所述采集设备的至少两个视频采集设备设置在所述几何体对应的空间方位，且至少两个视频采集设备部署的空间方位覆盖整个几何体表面。

换句话说，采集设备上设置的所有视频采集设备及音频采集设备在空间方位上覆盖整个几何体表面。

所述采集设备可以为VR采集设备。

实际应用时，音频采集设备可以是麦克风；视频采集设备可以是摄像头。

实际应用时，采集设备发送的采集的音频数据里可以携带音频采集设备的空间信息，据此可以获知每个音频采集设备的空间信息。

音频采集设备的空间信息可以是以下之一：

N个麦克风的物理或拾音空间信息；

对应摄像头物理或所拍摄视频的中心点空间信息。

所述采集设备采集到的视频数据和音频数据中至少之一数据满足以下至少之一：

所有视频采集设备采集的视频数据能够直接还原为球体；

所有音频采集设备采集的音频数据能够直接还原为球体。

步骤102：针对每个视频采集设备的设置方位对应设置的N个音频采集设备，依据音频采集设备的空间信息，将N个音频采集设备采集的音频数据进行编码，形成M路音频数据。

其中，所述M路音频数据中携带音频的空间信息；M为正整数。

这里，实际应用时，根据编码应用场景的不同，编码后的音频数据的格式可以是：mpega、aac、mp3、G.711等。

所述M路音频数据中携带的音频的空间信息为以下至少之一：

N个音频采集设备物理或拾音空间信息；

N个音频采集设备空间位置的中心点空间信息；

所拍摄视频的中心点空间信息。

其中，当M等于N时，所述M路音频数据中携带的音频的空间信息可以为以下之一：

N个音频采集设备物理或拾音空间信息；

N个音频采集设备空间位置的中心点空间信息；

所拍摄视频的中心点空间信息。

当M小于N时，所述M路音频数据中携带的音频的空间信息可以为以下之一：

N个音频采集设备空间位置的中心点空间信息；

所拍摄视频的中心点空间信息。

实际应用时，所述M路音频数据中携带的音频的空间信息的表现形式可以为以下至少之一：

经纬图上的对应方位信息；

三维坐标系中的三维笛卡尔坐标；

球坐标系中的球坐标；

与相对面方位信息。

编码后的音频数据可以保存也可以发送，以实现虚拟现实的交互性。

基于此，在一实施例中，该方法还可以包括：

将M路音频数据存储或者发出。

相应地，本发明实施例还提供一种数据处理方法，可以认为是一种实现虚拟现实交互性的方法。如图2所示，该方法包括：

步骤201：接收编码后的M路音频数据；

这里，需要说明的是：接收的编码后的M路音频数据是通过图1所示的方法得到的编码数据。

步骤202：对编码的M路音频数据进行解码，获得对应的音频的空间信息；

这里，M为正整数。

步骤203：依据获得的音频的空间信息及扬声设备的方位信息，确定M 路音频数据对应的Q个扬声设备；

这里，Q为正整数。

具体地，假设扬声设备的总个数为L，L为正整数，确定扬声设备时，

当M大于L时，将音频的空间信息在以每个扬声设备的方位为中心，预设半径范围内的至少一路音频数据对应一个扬声设备；

当M等于L时，且每个扬声设备的方位与每路音频数据的空间信息一致时，将每路音频数据对应一个扬声设备；

当M小于L时，依据获得的音频的空间信息及扬声设备的方位信息，从L个扬声设备中选择Q个扬声设备；或者，将扬声设备的方位在以每路音频数据的空间方位为中心，预设半径范围内的至少一个扬声设备，作为每路音频数据的扬声设备。

这里，实际应用时，预设半径可以根据需要来设置。

步骤204：利用确定的Q个扬声设备，渲染M路音频数据。

这里，实际应用时，可能会出现每个扬声设备所要渲染的音频数据不是一路，而是至少两路，在这种情况下，需要对至少两路音频数据进行混合处理，就是进行混音处理。

从上面的描述中可以看出，利用确定的Q个扬声设备，渲染M路音频数据，可以包括以下至少之一：

扬声器的方位与音频采集设备矢量一致，对应渲染；

其中，所述预设半径以及预设距离可以根据需要设置。

实际应用时，除了步骤204所描述的基本的音频渲染操作之外，还可以配合视频的兴趣区域或视点，进行音频的渲染。

基于此，在一实施例中，该方法还可以包括：

根据使用者的运动姿态，获得视点和/或兴趣区域在投影映射体上的方位信息，并可以获得Q个扬声设备对应的方位信息；

这里，实际应用时，扬声设备的方位信息可以是在所述投影映射体上对应的方位信息，也可以不是在所述投影映射体上对应的方位信息，此时，可以根据扬声设备的方位信息通过计算来确定如何调整扬声设备所渲染的音频数据。

需要说明的是：实际应用时，针对每个视频采集设备的设置方位对应设置的N个音频采集设备，所形成的编码后的M路音频数据，均执行上述的渲染操作。

本发明实施例提供的数据处理方法，获取采集设备的音频采集设备的空间信息；所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体；每个视频采集设备的设置方位对应设置有N个音频采集设备；N为正整数；针对每个视频采集设备的设置方位对应设置的N个音频采集设备，依据音频采集设备的空间信息，将N个音频采集设备采集的音频数据进行编码，形成M路音频数据；所述M路音频数据中携带音频的空间信息；M为正整数；而接收到编码后的M路音频数据后，对编码的M路音频数据进行解码，获得对应的音频的空间信息；依据获得的音频的空间信息及扬声设备的方位信息，确定M路音频数据对应的Q个扬声设备；Q为正整数；利用确定的Q个扬声设备，渲染M路音频数据；每个视频采集设备的设置方位对应设置有N个音频采集设备，音频数据有对应的空间信息，这样能够将音频数据进行沉浸式的音频呈现，达到音频和时频的空间方位配合同步的效果音频数据有对应的空间信息，这样能够将音频数据进行沉浸式的音频呈现，达到音频和时频的空间方位配合同步的效果。

实施例二

从实施例一可以看出，本发明实施例提供的采集设备可以全向采集音频数据。基于此，本实施例提供一种采集设备，采集设备对应的采集空间形成几何体，如图3所示，该采集设备包括：视频采集设备31及音频采集设备32；其中，

所述采集设备中的视频采集设备31部署的空间方位覆盖整个几何体；

每个视频采集设备31的设置方位对应设置有N个音频采集设备32；N为正整数。

所述采集设备中的视频采集设备31部署的空间方位覆盖整个几何体是指：所述采集设备的至少两个视频采集设备31设置在所述几何体对应的空间方位，且至少两个视频采集设备31部署的空间方位覆盖整个几何体表面。

换句话说，采集设备上设置的所有视频采集设备31及音频采集设备32在空间方位上覆盖整个几何体表面。

其中，实际应用时，所述几何体的每面均可以设置有至少一个视频采集设备31，以实现在空间方位上覆盖整个几何体表面。

另外，当每个视频采集设备31的设置方位设置有多个音频采集设备32时，每个视频采集设备31的设置方位所设置的至少两个音频采集设备32，环绕视频采集设备设置。

所述采集设备可以为VR采集设备。

实际应用时，音频采集设备32可以是麦克风；视频采集设备31可以是摄像头。

在一实施例中，视频采集设备31以及音频采集设备31的设置位置满足以下至少之一：

所有视频采集设备31采集的视频数据能够直接还原为球体；

所有音频采集设备32采集的音频数据能够直接还原为球体。

也就是说，所有视频采集设备31在经纬360度均可以还原视频数据。所有音频采集设备32在经纬360度均可以还原音频数据。

在一实施例中，所述采集设备能够实现移动或静止拍摄和拾音的功能。

基于此，在一实施例中，该采集设备还可以包括：

这里，实际应用时，所述移动装置的具体功能可以类似与航拍飞行器的功能，具体组成可以包括：桨叶、动力驱动装置等。

在一实施例中，该采集设备还可以包括：

其中，所述M路音频数据中携带的音频的空间信息可以为以下至少之一：

N个音频采集设备物理或拾音空间信息；

N个音频采集设备空间位置的中心点空间信息；

所拍摄视频的中心点空间信息。

所述M路音频数据中携带的音频的空间信息的表现形式可以为以下至少之一：

经纬图上的对应方位信息；

三维坐标系中的三维笛卡尔坐标；

球坐标系中的球坐标；

与相对面方位信息。

本发明实施例提供的采集设设备，采集设备对应的采集空间形成几何体；所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体；每个视频采集设备的设置方位对应设置有N个音频采集设备；N为正整数，将视频采集设备及音频采集设备部署的空间方位覆盖整个几何体，如此，能够实现真正地全向音频采集。

实施例三

在实施例二的基础上，本实施例详细描述采集设备的各部件的设置方式。

在本实施例中，视频采集设备为摄像头，音频采集设备为麦克风。

结合实施例二可以看出，VR采集设备为麦克风和摄像头的组合，是有一个对应的几何体，有VR采集设备的麦克风可以实现全向音频采集，所以这些麦克风可以称为几何体虚拟现实全向麦克风。

其中，几何体包括基本几何体和组合几何体。基本几何体包括旋转体(球体，圆柱体等)、多面体(柏拉图立体和非柏拉图立体)。组合几何体为同一种或任意几种的两个以上的基本几何体组成在一起的几何体。

几何体虚拟现实全向麦克风具备移动或者静止拾音的功能，也就是说，在VR采集设备移动过程中或者在静止的状态下能够实现音频采集。当然，在VR采集设备移动过程中或在静止的状态下，摄像头能够实现拍摄功能。

麦克风和摄像头部署的空间方位覆盖整个几何体表面。几何体虚拟现实全向麦克风采集的音频可以还原为球体，所有摄像头采集的视频可以还原为球体，即在经纬360度均可还原采集的音频。

下面详细描述麦克风的部署位置。

几何体每个面的麦克风数量为N，N为正整数。

如图4A及4B所示，当几何体为球体时，即全向麦克风为球体的虚拟现实全向麦克风，每个摄像头方位对应1个或多个麦克风。具体地，在图4A中，每个摄像机方位对应麦克风数量为1。在图4B中，每个摄像机方位对应麦克风数量为多个，且多个麦克风环绕摄像头部署，以摄像头为同心圆，一圈或多圈部署。

如图5A及5B所示，当几何体为立方时，即全向麦克风为立方体的虚拟现实全向麦克风，每个摄像头方位对应1个或多个麦克风。具体地，在图5A中，每个摄像头方位对应麦克风数量为1。在图5B中，每个摄像头方位对应麦克风数量为多个，且多个麦克风环绕摄像头部署，以摄像头为同心圆，一圈或多圈部署。

如图6A及6B所示，当几何体为正二十面体时，即全向麦克风为正二十面体的虚拟现实全向麦克风，每个摄像头方位对应1个或多个麦克风。具体地，在图6A中，每个摄像头方位对应麦克风数量为1。在图6B中，每个摄像头方位对应麦克风数量为多个，且多个麦克风环绕摄像头分散部署。

实施例四

在本实施例中，采用实施例二、三所描述的VR采集设备采集音频数据。

在实施例一的基础上，本实施例详细描述对采集的音频数据的编码过程。

N个麦克风采集的音频数据可携带以下信息之一：

N个麦克风的物理或拾音空间信息；

对应摄像头物理或所拍摄视频的中心点空间信息。

将N个麦克风采集的音频数据编码成M路音频，M为正整数。

其中，编码后的M路音频携带音频的空间信息。

依据编码的格式(如mpega、aac、mp3、或者G.711等)进行编码。

编码后，将携带有音频的空间信息的编码音频数据进行存储，存储时，按照封装格式(比如ISOBMFF文件、ts文件等)将音频的空间信息。

当然，如果需要传输音频文件，则基于传输协议(例如DASH、超文本传输协议(HTTP)、HLS(HTTP Live Streaming)、实时传输协议(RTP)等)规定封装携带有音频的空间信息的编码音频数据。

这里，所携带的空间信息形式可以是以下至少一种：

经纬图上的对应方位信息；

三维坐标系中的三维笛卡尔坐标；

球坐标系中的球坐标(如图7所示)；

与相对面方位信息。

这里，方位信息可以是如图8或9所示的摄像头所在几何体面的面信息。

其中，当M＝N时，M路音频携带的空间信息对应N个麦克风物理或拾音空间信息，或者对应摄像头物理或所拍摄视频的中心点空间信息，如每个摄像头对应麦克风的数量为1的情况。

当M＝1时，M路音频携带的空间信息为N个麦克风的物理或拾音空间的中心点空间信息，或者对应摄像头物理或所拍摄视频的中心点空间信息，例如每个摄像头方位对应麦克风数量为N个的情况。

当然，实际应用过程中，在编码的音频数据中携带音频的空间信息时，需要扩展Audio空间信息参数，以用来描述携带空间信息的音频。具体地，

实施例五

在实施例一的基础上，本实施例纤细描述利用采集的音频数据渲染的过程。

在基本渲染时，对M路编码后的音频数据进行基本渲染时，需要考虑扬声器的数量及方位。具体来说，

当M>扬声器数量时，将靠近扬声器方位的音频混合后，收敛渲染。具体地，解码后的M路音频，按照每路音频的空间信息，对应当前扬声器的方位，将扬声器方位附近的音频混合后，进行沉浸式地音频渲染。如图10所示，将上半圆对应方位的多路音频进行收敛(混音处理)后，对应四个扬声器进行渲染，其他方位同理。

当M＝扬声器数量时，且扬声器的方位与麦克风矢量一致，则一一对应渲染，如图11所示。

当M<扬声器数量时，可以做部分对应渲染(方位相对应的扬声器则一一渲染，剩余的扬声器不做渲染，如图12A所示)，或者扩散渲染，即位置相近的扬声器渲染同一个音频，如图12B所示。

实施例六

除了实施例五描述的基本的音频渲染外，还可以配合视频的兴趣区域或视点，进行音频的渲染。本实施例描述基于兴趣区域和/或视点的渲染过程。

图13A和13B为音频携带相对方位信息时的麦克风的部署及音频渲染示意图。从图13A和13B可以看出，而图内的内切圆为虚拟现实渲染设备，部署四个麦克风，F为正对人脸的方位，L和R分别为左右耳方位，B为后脑中央方位。立方体为还原的投影映射体，与图8或图9所示的采集方位对应，每个面上的麦克风采集的音频携带face_id相对方位信息。如图13A所示，假设当前视点为“1前”，1前方位的音频对应F扬声器渲染，2右方位的音频对应R扬声器渲染，3后方位的音频对应B扬声器进行渲染，4左方位的音频对应L扬声器进行渲染。当视点从“1前”变为“4左”时，内切圆扬声器的方位相对立方体有所变化，在这种情况下，如图13B所示，4左采集的音频对应F扬声器进行渲染，1前采集的音频对应R扬声器进行渲染，2右采集的音频对应B扬声器进行渲染，3后采集的音频对应L扬声器进行渲染。实际的音效举例为，假设视点为1前时听到4左传来水声(由L扬声器渲染)，头部转动，视点变为4左，此时水声为正前方传来(由F扬声器渲染)。

图14A和14B为音频携带球坐标方位信息时的麦克风的部署及音频渲染示意图。从图14A和14B可以看出，而图内的内同心圆为虚拟现实渲染设备，部署四个麦克风，F为正对人脸的方位，L和R分别为左右耳方位，B为后脑中央方位。外同心圆为投影映射体。如图14所示，假设当前视点为(yaw1,pitch1)，该方位的音频对应F扬声器渲染，而(yaw2,pitch2)方位的音频对应R扬声器渲染，(yaw3,pitch3)方位的音频对应B扬声器进行渲染，(yaw4,pitch4)方位的音频对应L扬声器进行渲染。当视点从(yaw1,pitch1)变为(yaw3,pitch3)时，同心圆扬声器的方位相对立方体有所变化，在这种情况下，如图14B所示，(yaw3,pitch3)音频对应F扬声器进行渲染，(yaw4,pitch4)的音频对应R扬声器进行渲染，(yaw1,pitch1)音频对应B扬声器进行渲染，(yaw2,pitch2)的音频对应L扬声器进行渲染。

从上面的描述可以看出，基于视点和/或兴趣区域的渲染，如图15所示，首先获得麦克风采集的声音的空间方位信息(步骤1501)；编码音频时考虑采集声音的空间方位信息，也就是说，编码后的音频数据携带音频空间方位信息(步骤1502)；根据头部或眼部运动获得视点和/或兴趣区域在投影映射体上的方位信息(步骤1503)；获得扬声器在投影映射体上的方位信息(步骤1504)；再根据多路音频携带的方位信息(球坐标/面id等)，结合基本渲染规则，动态调整音频渲染方位(1505)。

实施例七

为实现本发明实施例一的方法，本实施例还提供了一种数据处理装置，如图16所示，该装置包括：

获取单元161，配置为获取采集设备的音频采集设备的空间信息；所述采集设备对应的采集空间形成几何体；所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体；每个视频采集设备的设置方位对应设置有N 个音频采集设备；N为正整数；

编码单元162，配置为针对每个视频采集设备的设置方位对应设置的N个音频采集设备，依据音频采集设备的空间信息，将N个音频采集设备采集的音频数据进行编码，形成M路音频数据；所述M路音频数据中携带音频的空间信息；M为正整数。

其中，所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体是指：所述采集设备的至少两个视频采集设备设置在所述几何体对应的空间方位，且至少两个视频采集设备部署的空间方位覆盖整个几何体表面。

对于所述采集设备上部署的视频采集设备及音频采集设备，换句话说，采集设备上设置的所有视频采集设备及音频采集设备在空间方位上覆盖整个几何体表面。

所述采集设备可以为VR采集设备。

音频采集设备的空间信息可以是以下之一：

N个麦克风的物理或拾音空间信息；

对应摄像头物理或所拍摄视频的中心点空间信息。

所述采集设备采集到的视频数据和/或音频数据满足以下至少之一：

所有视频采集设备采集的视频数据能够直接还原为球体；

所有音频采集设备采集的音频数据能够直接还原为球体。

所述M路音频数据中携带的音频的空间信息为以下至少之一：

N个音频采集设备物理或拾音空间信息；

N个音频采集设备空间位置的中心点空间信息；

所拍摄视频的中心点空间信息。

N个音频采集设备物理或拾音空间信息；

N个音频采集设备空间位置的中心点空间信息；

所拍摄视频的中心点空间信息。

N个音频采集设备空间位置的中心点空间信息；

所拍摄视频的中心点空间信息。

经纬图上的对应方位信息；

三维坐标系中的三维笛卡尔坐标；

球坐标系中的球坐标；

与相对面方位信息。

基于此，在一实施例中，该装置还可以包括：

处理单元，配置为将M路音频数据存储或者发出。

实际应用时，所述获取单元161、编码单元162及处理单元可由数据处理装置中的处理器实现。

相应地，为了实现本发明实施例的方法，本实施例还提供了一种数据处理装置，如图17所示，该装置包括：

接收单元171，配置为接收编码后的M路音频数据；

解码单元172，配置为对编码的M路音频数据进行解码，获得对应的音频的空间信息；M为正整数；

第一确定单元173，配置为依据获得的音频的空间信息及扬声设备的方位信息，确定M路音频数据对应的Q个扬声设备；Q为正整数；

渲染单元174，配置为利用确定的Q个扬声设备，渲染M路音频数据。

这里，需要说明的是：所述接收单元171接收的编码后的M路音频数据是通过图1所示的方法得到的编码数据。

假设扬声设备的总个数为L，L为正整数，确定扬声设备时，

当M大于L时，所述第一确定单元173将音频的空间信息在以每个扬声设备的方位为中心，预设半径范围内的至少一路音频数据对应一个扬声设备；

当M等于L时，且每个扬声设备的方位与每路音频数据的空间信息一致时，所述第一确定单元173将每路音频数据对应一个扬声设备。

当M小于L时，所述第一确定单元173依据获得的音频的空间信息及扬声设备的方位信息，从L个扬声设备中选择Q个扬声设备；或者，所述第一确定单元173将扬声设备的方位在以每路音频数据的空间方位为中心，预设半径范围内的至少一个扬声设备，作为每路音频数据的扬声设备。

这里，实际应用时，预设半径可以根据需要来设置。

扬声器的方位与音频采集设备矢量一致，对应渲染；

其中，所述预设半径以及预设距离可以根据需要设置。

实际应用时，除了上面描述的基本的音频渲染操作之外，还可以配合视频的兴趣区域或视点，进行音频的渲染。

基于此，在一实施例中，该装置还可以包括：

第二确定单元，配置为根据使用者的运动姿态，获得视点和/或兴趣区域在投影映射体上的方位信息，并可以获得Q个扬声设备的方位信息；

所述渲染单元174，还配置为依据Q个扬声设备的方位信息及所述音频的空间信息，调整每个扬声设备所渲染的音频数据。

需要说明的是：实际应用时，针对每个视频采集设备的设置方位对应设置的N个音频采集设备，所形成的编码后的M路音频数据，数据处理装置中的个单元均执行上述的功能。

实际应用时，所述接收单元171、解码单元172、第一确定单元173、渲染单元174、第二确定单元可由数据处理装置中的处理器实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和 /或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

基于此，本发明实施例还提供了一种存储介质，具体为计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中一种数据处理方法的步骤，或者实现上述实施例中另一种数据处理方法的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

工业实用性

本发明实施例提供的方案，采集设备对应的采集空间形成几何体；所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体；每个视频采集设备的设置方位对应设置有N个音频采集设备；N为正整数，将视频采集设备及音频采集设备部署的空间方位覆盖整个几何体，如此，能够实现真正地全向音频采集。同时，针对每个视频采集设备的设置方位对应设置的N个音频采集设备，获取采集设备的音频采集设备的空间信息；依据音频采集设备的空间信息，将N个音频采集设备采集的音频数据进行编码，形成M路音频数据；所述M路音频数据中携带音频的空间信息；M为正整数；而接收到编码后的M路音频数据后，对编码的M路音频数据进行解码，获得对应的音频的空间信息；依据获得的音频的空间信息及扬声设备的方位信息，确定M路音频数据对应的Q个扬声设备；Q为正整数；利用确定的Q个扬声设备，渲染M路音频数据；每个视频采集设备的设置方位对应设置有N个音频采集设备，音频数据有对应的空间信息，这样能够将音频数据进行沉浸式的音频呈现，达到音频和时频的空间方位配合同步的效果。

Claims

一种数据处理方法，包括：

获取采集设备的音频采集设备的空间信息；所述采集设备对应的采集空间形成几何体；所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体；每个视频采集设备的设置方位对应设置有N个音频采集设备；N为正整数；

针对每个视频采集设备的设置方位对应设置的N个音频采集设备，依据音频采集设备的空间信息，将N个音频采集设备采集的音频数据进行编码，形成M路音频数据；所述M路音频数据中携带音频的空间信息；M为正整数。
根据权利要求1所述的方法，其中，所述M路音频数据中携带的音频的空间信息为以下至少之一：

N个音频采集设备物理或拾音空间信息；

N个音频采集设备空间位置的中心点空间信息；

所拍摄视频的中心点空间信息。
根据权利要求1所述的方法，其中，所述M路音频数据中携带的音频的空间信息的表现形式为以下至少之一：

经纬图上的对应方位信息；

三维坐标系中的三维笛卡尔坐标；

球坐标系中的球坐标；

与相对面方位信息。
根据权利要求1所述的方法，其中，所述采集设备采集到的视频数据以及音频数据满足以下至少之一：

所有视频采集设备采集的视频数据能还原为球体；

所有音频采集设备采集的音频数据能还原为球体。
根据权利要求1所述的方法，其中，所述方法还包括：

将M路音频数据存储或者发出。
一种数据处理方法，包括：

接收编码后的M路音频数据；

对编码的M路音频数据进行解码，获得对应的音频的空间信息；M为正整数；

依据获得的音频的空间信息及扬声设备的方位信息，确定M路音频数据对应的Q个扬声设备；Q为正整数；

利用确定的Q个扬声设备，渲染M路音频数据。
根据权利要求6所述的方法，其中，所述方法还包括：

根据使用者的运动姿态，获得视点和/或兴趣区域在投影映射体上的方位信息；

依据Q个扬声设备的方位信息及所述音频的空间信息，调整每个扬声设备所渲染的音频数据。
根据权利要求6所述的方法，其中，利用确定的Q个扬声设备，渲染M路音频数据，包括以下至少之一：

将以扬声器方位为中心预设半径范围内的至少两路音频数据混合后渲染；

扬声器的方位与音频采集设备矢量一致，对应渲染；

与音频的空间信息对应方位相对应的扬声器一一渲染，与音频的空间信息对应方位不对应的扬声器不做渲染；

位置满足预设条件的至少两个扬声器渲染同一个音频数据；所述预设条件表征扬声器方位与音频的空间信息对应的方位之间的距离小于预设距离。
一种采集设备，所述采集设备对应的采集空间形成几何体，所述采集设备包括：视频采集设备及音频采集设备；其中，

所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体；每个视频采集设备的设置方位对应设置有N个音频采集设备；N为正整数。
根据权利要求9所述的采集设备，其中，所述采集设备还包括：

移动装置，配置为接收控制指令，响应所述控制指令移动所述采集设备，使所述采集设备在移动中采集数据；或者，使所述采集设备静止，以在静止的状态下使所述采集设备采集数据。
根据权利要求9所述的采集设备，其中，视频采集设备以及音频采集设备的设置位置满足以下至少之一：

所有视频采集设备采集的视频数据能还原为球体；

所有音频采集设备采集的音频数据能还原为球体。
根据权利要求9所述的采集设备，其中，所述几何体的每面均设置有至少一个视频采集设备。
根据权利要求9所述的采集设备，其中，所述采集设备还包括：

处理器，配置为针对每个视频采集设备的设置方位对应设置的N个音频采集设备，获取采集设备的音频采集设备的空间信息；依据音频采集设备的空间信息，将N个音频采集设备采集的音频数据进行编码，形成M路音频数据；所述M路音频数据中携带音频的空间信息；M为正整数。
一种数据处理装置，包括：

获取单元，配置为获取采集设备的音频采集设备的空间信息；所述采集设备对应的采集空间形成几何体；所述采集设备中的视频采集设备部署的空间方位覆盖整个几何体；每个视频采集设备的设置方位对应设置有N个音频采集设备；N为正整数；

编码单元，配置为针对每个视频采集设备的设置方位对应设置的N个音频采集设备，依据音频采集设备的空间信息，将N个音频采集设备采集的音频数据进行编码，形成M路音频数据；所述M路音频数据中携带音频的空间信息；M为正整数。
根据权利要求14所述的装置，其中，所述装置还包括：

处理单元，配置为将M路音频数据存储或者发出。
一种数据处理装置，包括：

接收单元，配置为接收编码后的M路音频数据；

解码单元，配置为对编码的M路音频数据进行解码，获得对应的音频的空间信息；M为正整数；

第一确定单元，配置为依据获得的音频的空间信息及扬声设备的方位信息，确定M路音频数据对应的Q个扬声设备；Q为正整数；

渲染单元，配置为利用确定的Q个扬声设备，渲染M路音频数据。
根据权利要求16所述的装置，其中，所述装置还包括：

第二确定单元，配置为根据使用者的运动姿态，获得视点和/或兴趣区域在投影映射体上的方位信息，

所述渲染单元，还配置为依据Q个扬声设备的方位信息及所述音频的空间信息，调整每个扬声设备所渲染的音频数据。
一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤，或者实现权利要求6至8任一项所述方法的步骤。