WO2019237850A1

WO2019237850A1 - 一种视频处理方法、装置以及存储介质

Info

Publication number: WO2019237850A1
Application number: PCT/CN2019/085606
Authority: WO
Inventors: 刘玉杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-06-15
Filing date: 2019-05-06
Publication date: 2019-12-19
Anticipated expiration: 2020-12-15
Also published as: CN110149530B; US11611809B2; EP3809710A4; EP3809710A1; CN110149530A; US20200356782A1

Abstract

本申请实施例公开了一种视频处理方法，由客户终端执行，所述方法包括：播放视频数据，并获取所述视频数据对应的弹幕数据；在关键信息库中获取与所述弹幕数据相匹配的关键字信息，作为目标关键字信息；所述关键信息库中包含用户设置的关键字信息，以及每个关键字信息对应的目标对象的分类识别模型；在所述视频数据的多个视频帧中获取目标视频帧，并基于所述目标关键字信息对应的分类识别模型，识别所述目标关键字信息对应的目标对象在所述目标视频帧中的图像区域，并将识别出的所述图像区域作为目标区域；当播放所述视频数据中的所述目标视频帧时，对所述目标视频帧中的所述目标区域进行动画处理。

Description

一种视频处理方法、装置以及存储介质

本申请要求于2018年6月15日提交中国专利局、申请号为201810618681.6、名称为“一种视频处理方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网技术领域，尤其涉及一种视频处理方法、装置以及存储介质。

背景

用户在通过客户终端或者网页观看视频的过程中，常常开启弹幕，以查看其它用户发表的弹幕。由于部分视频的弹幕数量较大或者弹幕播放速度较快，用户在这些弹幕播放过程中，将无法在该视频播放界面上及时、清楚的辨识出弹幕关键内容(即难以及时捕捉到这些弹幕中的关键字信息)，从而降低了弹幕数据的可识别度，以至于降低了弹幕数据的视觉展示效果。

此外，由于在所述视频播放界面上的弹幕，是独立于所播放的视频内容，因此，在该视频播放界面上所显示的弹幕将无法实时反馈当前播放的视频内容，即缺乏该客户终端中的弹幕与所述视频内容之间的相关性，进而降低当前显示的弹幕数据的视觉展示效果。

技术内容

本申请实施例提供了一种视频处理方法，由客户终端执行，包括：

播放视频数据，并获取所述视频数据对应的弹幕数据；

在关键信息库中获取与所述弹幕数据相匹配的关键字信息，作为目标关键字信息；所述关键信息库中包含用户设置的关键字信息，以及每个关键字信息对应的目标对象的分类识别模型；

在所述视频数据的多个视频帧中获取目标视频帧，并基于所述目标关键字信息对应的分类识别模型，识别所述目标关键字信息对应的目标对象在所述目标视频帧中的图像区域，并将识别出的所述图像区域作为目标区域；

当播放所述视频数据中的所述目标视频帧时，对所述目标视频帧中的所述目标区域进行动画处理。

本申请实施例提供了一种视频处理装置，包括：

弹幕数据获取模块，用于播放视频数据，并获取所述视频数据对应的弹幕数据；

关键字获取模块，用于在关键信息库中获取与所述弹幕数据相匹配的关键字信息，作为目标关键字信息；所述关键信息库中包含用户设置的关键字信息，以及每个关键字信息对应的目标对象的分类识别模型；

目标对象识别模块，用于在所述视频数据的多个视频帧中获取目标视频帧，并基于所述目标关键字信息对应的分类识别模型，识别所述目标关键字信息对应的目标对象在所述目标视频帧中的图像区域，并将识别出的所述图像区域作为目标区域；

目标区域处理模块，用于当播放所述视频数据中的所述目标视频帧时，对所述目标视频帧中的所述目标区域进行动画处理。

本申请实施例提供了一种视频处理装置，包括：处理器和存储器；

所述处理器与存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行本申请实施例提供的视频处理方法。

本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行本申请实施例提供的视频处理方法。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种视频处理方法的流程示意图；

图3是本申请实施例提供的一种获取弹幕数据的示意图；

图4是本申请实施例提供的另一种获取弹幕数据的示意图；

图5是本申请实施例提供的另一种视频处理方法的流程示意图；

图6是本申请实施例提供的一种弹幕数据显示在多个视频帧上的示意图；

图7是本申请实施例提供的一种特征提取的示意图；

图8是本申请实施例提供的一种选择最优候选区域的示意图；

图9是本申请实施例提供的一种修正所述目标视频帧的最优视频帧的示意图；

图10是本申请实施例提供的一种视频处理装置的结构示意图；

图11是本申请实施例提供的另一种视频处理装置的结构示意图。

实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提出一种视频处理方法，可以丰富该弹幕数据的视觉展示效果，并避免由于为了识别和捕捉弹幕数据而造成的设备资源和网络资源的浪费。

请参见图1，是本申请实施例提供的一种网络架构的结构示意图。如图1所示，所述网络架构可以包括服务器集群以及客户终端集群；所述客户终端集群可以包括多个客户终端，如图1所示，具体包括客户终端3000a、客户终端3000b、…、客户终端3000n；

如图1所示，所述服务器集群可以包括弹幕服务器2000a和视频源服务器2000b，所述弹幕服务器2000a用于将预设时间段内的弹幕数据作为历史弹幕数据进行存储，所述视频源服务器2000b用于存储多个视频数据源。

其中，客户终端3000a、客户终端3000b、…、客户终端3000n可以分别与所述服务器集群进行网络连接。

如图1所示，为更好的理解本方案，本申请实施例可在所述客户终端集群中选择一个客户终端作为目标客户终端(以目标客户终端为客户终端3000a为例)，以便于分别描述该客户终端3000a与所述弹幕服务器2000a和视频源服务器2000b之间的数据交互关系，即当该目标客户终端(客户终端3000a)在播放视频数据(该视频数据是所述视频源服务器2000b基于该客户终端3000a发送的视频下载请求所返回的数据)过程中，可基于该视频数据的当前播放进度向弹幕服务器2000a发送弹幕获取请求，以使该弹幕服务器2000a基于所述弹幕获取请求返回历史弹幕数据，

其中，所述历史弹幕数据可以为其他用户基于当前播放进度在其对应的客户终端(例如，客户终端3000b)上所输入的文本输入数据。即此时，可以理解为：客户终端3000a对应的用户(例如，用户A)与客户终端3000b对应的用户(例如，用户B)正在同步观看该视频数据。因此，该客户终端3000a可在当前播放进度下，同步显示由该客户终端3000b上传给所述弹幕服务器2000a的弹幕数据。此时，该弹幕服务器2000a可在弹幕数据库中将该弹幕数据存储为与当前播放进度对应的历史弹幕数据，并可基于接收到的弹幕获取请求返回该历史弹幕数据。此外，所述历史弹幕数据还可以包括所述弹幕服务器在一段时间段内所接收并存储的其他客户终端(例如，客户终端3000c)所上传的弹幕数据，即此时，相比于同步播放该视频数据的客户终端3000a和客户终端3000b而言，客户终端3000c对该视频数据的播放时间戳，会较早于所述客户终端3000a和客户终端3000b对该视频数据的播放时间戳。例如，该历史弹幕数据可以为该客户终端3000c在1小时之前上传给所述弹幕服务器2000a的弹幕数据(比如，该客户终端3000c可以在1小时之前，将获取到的播放进度为10％时的文本输入数据，作为弹幕数据，并将该弹幕数据上传至所述弹幕服务器2000a)。因此，对于同步播放该视频数据的客户终端3000a和客户终端3000b而言，则可以在该视频数据的播放进度达到10％时，同步从该弹幕服务器2000a上获取该播放进度对应的历史弹幕数据，并可进一步将获取到的历史弹幕数据作为该视频数据对应的弹幕数据。

其中，所述一段时间段可以以分钟、小时，天，月和年等为时间单位，这里将不对其进行具体限制。

应当理解，只要所述弹幕服务器2000a接收到目标客户终端发送的弹幕获取请求，则会在弹幕数据库中找到与该弹幕获取请求对应的历史弹幕数据，并将其下发至该目标客户终端。

此外，所述目标客户终端对应的用户还可以在该视频播放界面上看到自己实时输入的文本输入数据，即该目标客户终端在接收到该用户输入的文本输入数据时，可将该文本输入数据作为当前播放的视频数据对应的弹幕数据，并在该视频数据对应的播放界面上显示该弹幕数据。与此同时，所述目标客户终端还可以将该弹幕数据上传至与该目标客户终端具有网络连接关系的弹幕服务器2000a，以使该弹幕服务器2000a将该弹幕数据进行存储和/或下发，此时，该弹幕服务器2000a可进一步将该弹幕数据存储为与当前视频数据的播放进度对应的历史弹幕数据，还可以将该弹幕数据同步发送给观看该视频数据的其他客户终端。

随后，所述目标客户终端(即客户终端3000a)在获取到该弹幕数据后，可在该目标客户终端的后台对该弹幕数据中的目标关键字信息进行提取，并基于该目标关键字信息在当前播放的视频数据中识别该目标关键字对应的目标对象，并可以进一步在该目标视频帧中对所述目标对象所处的目标区域进行动画处理，以丰富该弹幕数据的视觉展示效果，避免由于为了识别和捕捉弹幕数据而造成的设备资源和网络资源的浪费。

其中，所述目标客户终端对该弹幕数据中目标关键字信息进行提取，并在该目标视频帧中对该目标关键字对应的目标对象进行识别，以及对该目标对象所对应的目标区域进行动画处理的具体过程，可以参见如下图2至图5对应的实施例。

进一步地，请参见图2，是本申请实施例提供的一种视频处理方法的流程示意图。如图2所示，所述方法可以由客户终端执行，包括步骤S101～S104：

S101，播放视频数据，并获取所述视频数据对应的弹幕数据；

具体地，客户终端在播放视频数据的过程中，可获取所述视频数据对应的弹幕数据；所述弹幕数据可以为弹幕服务器所返回的历史弹幕数据，也可以为所述客户终端所对应的用户在该视频数据对应的播放界面上所输入的文本输入数据；随后，所述客户终端可将所述弹幕数据显示在所述视频数据对应的播放界面上。

其中，所述客户终端可以为上述图1所对应实施例中的目标客户终端，所述客户终端包括个人电脑、平板电脑、笔记本电脑、智能电视、智能手机等携带视频数据播放功能的终端设备。

其中，所述弹幕服务器可以为上述图1所对应实施例中的弹幕服务器2000a，该弹幕服务器可以用于存储每个用户在其对应客户终端上对当前播放的视频数据所输入的文本输入数据(即该弹幕服务器可用于存储各客户终端分别上传的弹幕数据)，并可进一步按照该视频数据的播放进度对每个弹幕数据进行存储，以便于观看该视频数据的用户可以在其对应客户终端的弹幕开启的情况下，基于该视频数据的播放进度获取相应的弹幕数据，并显示所述视频数据对应的弹幕数据。

其中，所述客户终端获取并显示所述弹幕数据的具体过程可以包括：播放视频数据，并向弹幕服务器发送弹幕获取请求，并接收所述弹幕服务器基于所述弹幕获取请求返回的历史弹幕数据，并将所述历史弹幕数据作为所述视频数据对应的弹幕数据，并在所述视频数据的播放界面上显示所述弹幕数据。

为便于理解，所述客户终端以上述图1所对应实施例中的客户终端3000a为例，进一步地，请参见图3，是本申请实施例提供的一种获取弹幕数据的示意图。

如图3所示，所述客户终端3000a在播放视频数据的过程中，可以在弹幕开启时，获取到与所述视频数据对应的弹幕数据。其中，所述弹幕数据获取的具体过程可以为：所述客户终端3000a可以基于所述视频数据的当前播放进度(即如图3所示的当前播放进度为20％)，向如图3所示的弹幕服务器2000a发送弹幕获取请求，并接收所述弹幕服务器2000a基于该弹幕获取请求返回历史弹幕数据(其中，该历史弹幕数据可以为上述图1所对应实施例中的客户终端3000b在该视频数据的播放进度达到20％时所上传的弹幕数据，因此，所述弹幕服务器2000a在接收到该弹幕数据后，可将该弹幕数据作为历史弹幕数据，存储于如图3所示的弹幕数据库中)。随后，所述客户终端3000a可以将接收到的历史弹幕数据作为该视频数据对应的弹幕数据，并可进一步在该视频数据的播放界面(即如图3所示的播放界面100a)上显示所述弹幕数据。

此时，应当理解，本申请实施例中的客户终端3000a和客户终端3000b并非同步播放该视频数据，因此，客户终端3000a可以基于该视频数据的播放进度从弹幕服务器2000a上获取到客户终端3000b所上传的弹幕数据。其中，所述客户终端3000b上传弹幕数据的具体过程可进一步参见图4，是本申请实施例提供的另一种获取弹幕数据的示意图。

此时，用户B和用户C在不同客户终端上同步观看同一视频数据，其中，用户B持有客户终端3000b，用户C持有客户终端3000c。如图4所示，当用户B在如图4所示的文本输入界面200b上输入文本输入数据(例如，该文本输入数据为：快看那个小孩)时，所述客户终端(此时，该客户终端为如图4所示的客户终端3000b)可以进一步在检测到与文本输入数据对应的弹幕触发操作时，将该文本输入数据作为该视频数据的弹幕数据，并在所述视频数据的播放界面(即如图4所示的播放界面200a)上，基于弹幕轨道显示所述弹幕数据。其中，所述弹幕轨道用于表征该弹幕数据在该播放界面200a上所处的位置信息(例如，可将该弹幕数据显示在在该弹幕轨道的第一行上)。与此同时，所述客户终端3000b可以进一步将该弹幕数据(即快看那个小孩)发送到如图4所示的弹幕服务器2000a。此时，所述弹幕服务器2000a可以将该弹幕数据(即快看那个小孩)发送至同步观看该视频数据的客户终端3000c，以使该客户终端3000c在所述视频数据的播放界面300a上显示如图4所示的弹幕数据。可见，对于同步播放该视频数据的两个客户终端而言，将会在这两个客户终端(即客户终端3000b和客户终端3000c)分别对应的播放界面上同步显示该视频数据对应的弹幕数据。

可选地，所述客户终端获取并显示所述弹幕数据的具体过程也可以包括：播放视频数据，并获取文本输入数据，并将所述文本输入数据作为所述视频数据对应的弹幕数据，并在所述视频数据的播放界面上，基于弹幕轨道显示所述弹幕数据，并将所述弹幕数据发送到弹幕服务器，以使所述弹幕服务器将所述弹幕数据同步发送至观看所述视频数据的客户终端。

由此可见，当所述客户终端为客户终端3000a时，所述客户终端所获取到的弹幕数据为所述弹幕服务器基于该客户终端所发送的弹幕获取请求所返回的历史弹幕数据，即此时，所述客户终端可以将该历史弹幕数据作为弹幕数据；可选地，当该客户终端为客户终端3000b时，所述客户终端所获取到的弹幕数据为用户B在该客户终端3000b的文本输入界面上所输入的文本输入数据，即此时，所述客户终端可以将该文本输入数据作为弹幕数据。

步骤S102，在关键信息库中获取与所述弹幕数据相匹配的关键字信息，作为目标关键字信息；

具体地，所述客户终端可以获取关键信息库，并基于分词技术将所述弹幕数据拆分为多个分词数据，并在所述关键信息库中遍历查找与各分词数据匹配的关键字信息，若所述客户终端查找到与所述各分词数据匹配的关键字信息，则可以将所述关键字信息作为所述弹幕数据对应的目标关键字信息，并可以进一步在所述关键信息库中，获取所述目标关键字信息对应的目标对象的分类识别模型。

其中，所述关键信息库中包含用户设置的关键字信息，以及每个关键字信息对应的目标对象的分类识别模型，例如，关键字信息可以为用户设置的“花”、“树”、“河流”等目标对象的分类信息，对于用户设置的每个关键字信息，可以对应的在该关键信息库中查找到与该目标关键字信息对应的目标对象的分类识别模型。比如，对于关键字信息为“树”而言，可以在关键信息库中存储有与该关键字信息“树”所对应的目标对象(树)的分类识别模型，即在该关键信息库中存在大量的该树的轮廓特征。

其中，所述分词技术是指所述客户终端可以对所述弹幕数据进行分词处理，以将该弹幕数据拆分为多个分词数据，例如，以所述弹幕数据为“那朵花真漂亮”为例，所述客户终端通过该分词技术，可以得到如下四个拆分后的分词数据：“那朵，花，真，漂亮”。随后，所述客户终端可以进一步在关键信息库中遍历查找与这4个分词数据分别匹配的关键字信息。为便于理解，以用户在关键信息库中所设置的关键字信息为“花”为例，于是，所述客户终端可以在关键信息库中找到与该分词数据(“花”)匹配的关键字信息(花)，并将该关键字信息(花)作为所述弹幕数据(“那朵花真漂亮”)对应的目标关键字信息。随后，所述客户终端还可以进一步在该关键信息库中，获取与该目标关键字信息(花)对应的目标对象的分类识别模型，即可以获取到大量该目标对象(花)的轮廓特征，以便于所述客户终端可以进一步执行步骤S103。

为便于理解，本申请实施例以所述目标关键字信息为一个为例，以便于进一步对下述步骤S103和步骤S104进行详细描述。

应当理解，所述弹幕数据中的目标关键字信息可以为多个，且每个目标关键字信息分别对应一类目标对象的分类识别模型，例如，若所述目标关键字信息为猫和狗时，则可以在关键信息库中获取到猫的分类识别模型，以及狗的分类识别模型。因此，这里将不对所述视频数据对应的目标关键字信息的数量进行限制，且在所述目标视频帧中对所述多个目标关键字信息分别对应的目标对象的识别过程，可参见本申请实施例对所述目标视频帧中包含一个目标关键字信息对应的目标对象的识别过程。

步骤S103，在所述视频数据的多个视频帧中获取目标视频帧，并基于所述目标关键字信息对应的分类识别模型，识别所述目标关键字信息对应的目标对象在所述目标视频帧中的图像区域，并将识别出的所述图像区域作为目标区域；

具体地，所述客户终端可以在所述视频数据的多个视频帧中获取目标视频帧，所述目标视频帧为所述弹幕数据出现前后预设时间段内的视频帧，例如，所述目标视频帧为所述弹幕数据出现前后3秒的视频帧，并进一步将所述目标视频帧划分为多个子区域，并对各子区域进行选择性搜索，并对选择性搜索后的子区域进行合并，得到多个合并区域，并将所述多个子区域和所述多个合并区域均确定为待处理区域，其次，所述客户终端还可以进一步基于神经网络模型对所述待处理区域进行特征提取，得到与所述待处理区域对应的图像特征，然后，所述客户终端还可以进一步基于所述图像特征以及与所述目标关键字信息对应的所述分类识别模型，生成所述待处理区域对应的识别概率，并根据所述识别概率在所述待处理区域中选择包含所述目标关键字信息对应的目标对象的候选区域，最后，所述客户终端可以基于回归模型，对所述目标视频帧对应的候选区域进行最优选择，并将选择出的所述目标视频帧对应的最优候选区域确定为目标区域。

应当理解，所述客户终端在获取到所述弹幕数据后，会将所述弹幕数据显示在所述视频数据对应的播放界面上，且所述弹幕数据会在该播放界面对应的弹幕轨道中进行动态显示，以使该视频数据对应的弹幕数据可以在该视频数据的不同视频帧上进行显示，即在该弹幕数据动态显示的这段时间(本申请可将这段时间定义为弹幕显示时间段)内，该弹幕数据对应的视频流(即该弹幕数据对应的视频数据)中的每个视频帧也会同步按照时间顺序进行动态播放。因此，只要该视频数据对应的播放界面上，显示该弹幕数据中的目标关键字信息，所述客户终端则会在该弹幕数据对应的每个视频帧中获取目标视频帧(即所述客户终端可将该弹幕数据对应的视频数据拆分为多个视频帧，并可以在所述多个视频帧中进一步将当前播放的视频帧作为目标视频帧)，以便于该客户终端进一步在该目标视频帧中识别所述目标关键字信息对应的目标对象。

鉴于此，所述客户终端可以在该弹幕数据对应的弹幕显示时间段内，对该弹幕数据对应的多个视频帧内所述目标关键字信息对应的目标对象进行识别，且所述客户终端对每个视频帧内所述目标关键字信息对应的目标对象进行识别的具体过程，可参见所述客户终端对所述目标视频帧内的所述目标关键字信息对应的目标对象的识别过程。

其中，所述神经网络模型可以为卷积神经网络(Convolutional Neural Networks，CNN)模型，还可以为CNN模型和循环神经网络模型(Recurrent Neural Network，RNN)的组合模型，所述神经网络模型可以用于对输入该神经网络模型的所有待处理区域进行特征提取，以得到与所述各待处理区域分别对应的图像特征。但在对各待处理区域进行特征提取之前，所述客户终端需要先对所述目标视频帧进行划分，以得到与该目标视频帧对应的多个子区域，并通过对各子区域进行选择性搜索，以及对选择性搜索后的子区域进行合并，可以得到多个合并区域(所述多个合并区域包含经过多次合并后的合并区域)。因此，该客户终端可以将所有子区域，以及多个合并区域作为待处理区域，以进一步通过该神经网络模型对该待处理区域进行特征提取，以得到与所述待处理区域对应的图像特征。

其中，为便于理解，本申请实施例以在多个待处理区域中选择一个待处理区域进行特征提取为例，则所述客户终端对该待处理区域对应的图像特征进行提取的具体过程为：所述客户终端通过神经网络模型(例如，卷积神经网络模型，CNN模型)进行卷积处理，即所述客户终端可以随机选取该待处理区域中的一小部分特征信息作为样本(即卷积核)，并将这个样本作为一个窗口依次滑过所述待处理区域，也就是将上述样本和所述待处理区域做卷积运算，从而获得该待处理区域的空间特征信息。卷积运算后，获取到该待处理区域的空间特征信息，但上述空间特征信息的数量庞大，为了减少后续计算量，可以基于卷积神经网络模型的池化处理(Pooling)，以对上述空间特征信息进行聚合统计，聚合统计后的空间特征信息的数量要远远低于卷积运算提取的空间特征信息的数量，同时还会提高后续分类效果(即对所述目标对象进行识别的效果)。常用的池化方法主要包括平均池化运算方法和最大池化运算方法。平均池化运算方法是在一个特征信息集合里计算出一个平均特征信息代表该特征信息集合的特征；最大池化运算是在一个特征信息集合里提取出最大特征信息代表该特征信息集合的特征。可见，采用上述方法，可以提取所有待处理区域的空间特征信息，并将所述空间特征信息作为各待处理区域分别对应的图像特征。

此外，所述客户终端在提取到所述待处理区域的空间特征信息之后，还可以进一步通过循环神经网络模型(RNN模型)进行时序处理，即在循环神经网络模型的遗忘门中，处理器首先计算需要从单元状态(cell state)中去除的信息；然后在输入门(input gate)中，处理器计算出在单元状态中需要存储的信息；最后在输出门(output gate)中，更新单元状态，也就是处理器将单元旧状态乘以需要去除的信息，然后再加上需要存储的信息，就得到单元新状态。所述待处理区域的空间特征信息通过与多个单元状态之间的线性作用，可以提取隐藏在所述待处理区域中的时空特征信息。可见，采用上述方法，可以提取所有待处理区域的时空特征信息，并将所述时空特征信息称之为各待处理区域分别对应的图像特征。

其中，所述识别概率是用于表示所述待处理区域中包含所述目标对象的概率。

应当理解，对于一个目标视频帧而言，所述客户终端只需在划分好的多个子区域中按照选择性搜索算法执行一次选择性搜索，以得到选择性搜索后的多个子区域，此时，这些子区域之间存在一定的相关性(比如，可以纹理相近，也可以颜色相近)，因此，所述客户终端通过该选择性搜索算法可以大大减少搜索区域，从而可以提高对目标对象进行识别的效率。

其中，所述客户终端对选择性搜索后的子区域进行合并，是指所述客户终端可以基于合并规则(比如，纹理相近，颜色相近等)，将两两相邻的两个子区域进行合并，且在对各子区域进行合并的过程中，会根据选择性搜索后的子区域的数量进行多次合并，直到得到一张携带完整图像的合并区域。

比如，所述客户终端可以在后台将所述目标视频帧划分为多个子区域(例如，可以将该目标视频帧划分为1000个子区域，即所述客户终端可将所述目标视频帧对应的视频帧图像拆分成多个图形块。此时，应当理解，这些子区域的划分对用户而言是不可见的)。随后，所述客户终端可进一步对各子区域进行选择性搜索，以得到多个选择性搜索后的子区域(比如，所述客户终端可以在划分好的1000个子区域中，选择500个携带图像特征的子区域，作为选择性搜索后的子区域)，并可进一步对选择性搜索后的子区域进行合并，即所述客户终端可以按照颜色或纹理等合并规则，将相邻的两个子区域进行合并，以得到多个合并区域。应当理解，所述客户终端可以重复基于该合并规则对合并后的合并区域进行合并，以得到包含完整图像的合并区域，随后，所述客户终端可以将所述多个子区域和所述多个合并区域均确定为待处理区域。即所述客户终端可以将所有出现过的与所述目标视频帧对应的图像区域作为待处理区域，并将这些待处理区域输入至所述神经网络模型。

又比如，为了更好的理解所述合并规则，本申请实施例以通过对目标视频帧的子区域进行选择性搜索，得到8个选择性搜索后的子区域为例。其中，在进行选择性搜索之前，所述客户终端可以将所述目标视频帧拆分为100个子区域。其次，所述客户终端可以进一步通过选择性搜索算法对这100个子区域进行选择性搜索，以得到以下这8个选择性搜索后的子区域为：a-b-c-d-e-f-g-h。然后，所述客户终端可以基于上述合并规则(即将相邻的两个子区域进行合并)对这8个子区域进行合并。于是，所述客户终端在进行第一次合并后的合并区域可以为ab-cd-ef-gh，所述客户终端在进行第二次合并后的合并区域可以为abcd-efgh，所述客户终端在进行第三次合并后的合并区域可以为abcdefgh，此时，已得到一个包含完整图像的合并区域。

其中，应当理解，所述待处理区域包括：100个拆分后的子区域，8个选择性搜索后的子区域(a-b-c-d-e-f-g-h)，以及第一次合并后的四个合并区域(ab-cd-ef-gh)，第二次合并后的两个合并区域(abcd-efgh)和第三次合并后的一个合并区域(abcdefgh)，即包含图像特征的待处理区域总共有115个(即100个+8个+4个+2个+1个)。

随后，所述客户终端还可以进一步基于神经网络模型(该神经网络模型可以为CNN模型，也可以为CNN+RNN模型)对所述待处理区域进行特征提取，即所述客户终端可以将所述待处理区域输入所述神经网络模型，以输出与所述待处理区域对应的图像特征(例如，对于115个待处理区域，则可对应的得到这115个待处理区域分别对应的图像特征)。然后，所述客户终端还可以进一步基于所述图像特征以及与所述目标关键字信息对应的所述分类识别模型(例如，该目标关键字信息可以为上述图4所对应实施例中的小孩，此时，该分类识别模型中将包含大量与该小孩对应的轮廓特征)，从而可以生成与所述待处理区域对应的识别概率，此时，每个待处理区域均会对应一个识别概率。于是，所述客户终端可以进一步根据所述识别概率，在所述待处理区域中选择包含所述目标关键字信息对应的目标对象的候选区域(即所述客户终端可以将识别概率大于概率阈值的待处理区域作为所述目标关键字信息对应的目标对象的候选区域)。此时，所述候选区域中将携带能完整表征所述目标对象的图像特征。

比如，对于上述图4所对应实施例中的目标关键字(小孩)而言，所述客户终端所确定的待处理区域为：115个待处理区域，通过将这115个待处理区域输入所述神经网络模型，可以输出与所述待处理区域对应的图像特征，即可以得到115个图像特征，所述客户终端通过将这115个图像特征与该小孩对应的分类识别模型进行匹配，即将这115个图像特征进一步输入该神经网络对应的分类器(此时，该分类器可以为神经网络模型中自带的分类器)中，即可以输出这115个图像特征分别对应的识别概率，此时，所述客户终端可以得到这115个待处理区域分别对应的识别概率。随后，所述客户终端可以在这115个待处理区域中选择出识别概率大于概率阈值的待处理区域作为所述目标关键字信息对应的目标对象的候选区域，即此时所述客户终端可以在该目标视频帧中完成对所述目标对象的识别，即可以确定该目标视频帧中包含所述目标对象。

最后，所述客户终端可以基于回归模型，对所述目标视频帧对应的候选区域进行最优选择，并将选择出的所述目标视频帧对应的最优候选区域确定为目标区域。

其中，所述回归模型可用于定位出该目标对象在该目标视频帧中的位置，即所述客户终端通过该回归模型可以在该目标对象对应的多个候选区域中选择出与所述目标视频帧对应的最优候选区域，并可进一步将该最优候选区域确定为目标区域。应当理解，所述最优候选区域则为所述目标关键字信息对应的目标对象在所述目标视频帧中的图像区域，因此，所述客户终端可以将所述最优候选区域确定为目标区域。

应当理解，所述目标视频帧可以为当前播放的视频帧，还可以为与该弹幕数据对应的多个视频帧中与当前播放的视频帧不同的视频帧，比如，该视频数据中尚未播放的视频帧。因此，所述客户终端在对该弹幕数据对应的多个视频帧中目标对象的识别，可以是按照每个视频帧的时间顺序，依次对每个视频帧中所述目标关键字信息对应的目标对象进行识别，并逐一确定该目标对象在每一个视频帧中的目标区域；当然，所述客户终端还可以同步对该弹幕数据对应的多个视频帧中的目标对象进行识别，即所述客户终端在获取到该弹幕数据对应的多个视频帧时，可以将所述多个视频帧中的每个视频帧均作为目标视频帧，即该客户终端可以对尚未播放的视频帧进行预处理，以便于提前对这些尚未播放的视频帧中的目标对象进行识别，以得到该目标对象在每个视频帧中的目标区域。此时，当所述客户终端播放所述目视频数据中的所述目标视频帧时，即按照时间顺序依次播放每个视频帧时，可以即时地对该目标对象对应的目标区域进行动画显示。

为便于理解，本申请实施例仅仅是以当前播放的视频帧作为目标视频帧为例，以对该目标视频帧中所述目标关键字信息对应的目标对象进行识别。当然，当该弹幕数据对应的多个视频帧中的其他视频帧被确定为目标视频帧时，对每个视频帧中目标关键字信息对应的目标对象的识别仍可参见本申请实施例对所述当前播放的视频帧中的目标对象的识别过程，这里将不再继续赘述。

步骤S104，当播放所述视频数据中的所述目标视频帧时，对所述目标视频帧中的所述目标区域进行动画处理。

应当理解，所述弹幕数据对应的视频数据是动态播放的，即对所述弹幕数据对应的视频数据中的每一个视频帧都将会按照时间顺序逐一播放，因此，所述客户终端可以在该多个视频帧中的每个视频帧被播放(即当所述弹幕数据对应的视频数据中的每个视频帧按照时间顺序依次被播放)时，对所述目标视频帧中的目标区域进行动画处理(比如，可以对该目标区域进行渲染处理，并将渲染处理后的目标区域进行放大显示)。

因此，通过将该弹幕数据中的关键字信息与所述目标视频帧中位于目标区域处的目标对象进行关联，可以丰富弹幕数据的视觉展示效果。

本申请实施例通过在获取到所述视频数据播放过程中的弹幕数据之后，可进一步基于关键信息库提取出该弹幕数据中的所有关键内容(即所有关键字信息)，此外，通过每个关键字信息所对应的目标对象的分类识别模型。可对所述视频数据的多个视频帧中的目标视频帧对应的目标对象进行识别，并可进一步确定该目标对象在所述目标视频帧中的具体位置(即该目标对象在所述目标视频帧中的目标区域)，并将该目标区域进行动画显示。因此，通过将该弹幕数据中的关键字信息与所述目标视频帧中位于目标区域处的目标对象进行关联，可以丰富弹幕数据的视觉展示效果。

进一步的，请参见图5，是本申请实施例提供的另一种视频处理方法的流程示意图。如图5所示，所述方法可以包括步骤S201-步骤208：

步骤S201，播放视频数据，并获取所述视频数据对应的弹幕数据；

步骤S202，在关键信息库中获取与所述弹幕数据相匹配的关键字信息，作为目标关键字信息；

其中，所述步骤S201和步骤S202的具体执行方法可以参见上述图2所对应实施例中对步骤S101和步骤S102的描述，这里将不再继续进行赘述。

步骤S203，在所述视频数据的多个视频帧中获取目标视频帧；

具体地，所述客户终端可以在所述弹幕数据对应的所述视频数据的多个视频帧中获取目标视频帧，即所述客户终端可以在所述弹幕数据显示在该视频数据对应的播放界面上时，可获取到与该弹幕数据对应的视频流(该视频流是由与弹幕数据对应的多个视频帧按播放时间顺序所构成的)，并可进一步将该视频流拆分为与所述弹幕数据对应的多个视频帧，于是，所述客户终端可以在所述多个视频帧中选择一个视频帧作为目标视频帧。

进一步地，请参见图6，是本申请实施例提供的一种弹幕数据显示在多个视频帧上的示意图。如图6所示，所述客户终端中的视频数据在动态播放的过程中，与该视频数据对应的弹幕数据可以在该视频数据的不同视频帧上进行显示，从而呈现出如图6所示的动态显示该弹幕数据的效果图。应当注意，该视频数据对应的弹幕数据是基于图6所示的弹幕轨道进行显示的(即该弹幕数据可以在图6所示的弹幕显示区域上由右向左进行显示，应当理解，图6所示的弹幕显示区域对于用户而言，是虚拟存在的)。在如图6所示的播放进度条上，若当前播放进度t＝T，则所述弹幕数据可以位于该弹幕显示区域的最右侧，即刚显示在与该视频数据对应的播放界面上；若当前播放进度t＝T+1，则所述弹幕数据可以位于该弹幕显示区域的较右侧；若当前播放进度t＝T+2，则所述弹幕数据可以位于该弹幕显示区域的较左侧；若当前播放进度t＝T+3，则所述弹幕数据可以位于该弹幕显示区域的最右侧，即该弹幕数据将离开与该视频数据对应的播放界面。

其中，如图6所示，T时刻为该视频数据中当前播放的视频帧，而T+1，T+2，T+3时刻为所述视频数据中即将顺序播放的视频帧。为便于理解，本申请实施例仅以所述目标视频帧为所述视频数据中当前播放的视频帧为例，即在图6所示的四个视频帧中，将播放进度t＝T时刻的视频帧作为目标视频帧，以在该弹幕数据所对应的目标视频帧中对所述目标关键字信息(例如，猫)对应的目标对象进行识别。

应当理解，当该客户终端依次播放所述视频流中的余下视频帧(即T+1时刻对应的视频帧，T+2时刻对应的视频帧，T+3时刻对应的视频帧)时，可按照时间顺序依次将余下视频帧中的每一个视频帧作为目标视频帧，以对所述余下视频帧中所述目标关键字信息(猫)对应的目标对象进行识别。即对每个视频帧而言，需要基于当前播放时间进度循环执行步骤S203-步骤S207，以对所述视频数据中每个视频帧中所述目标关键字信息对应的目标对象进行识别。

当然，所述目标视频帧还可以为与所述弹幕数据对应的多个视频帧，即所述客户终端还可以将与所述弹幕数据对应的所述视频数据中的多个视频帧一并作为目标视频帧，以在所述目标视频帧中进一步对所述目标关键字信息(猫)对应的目标对象进行识别。即所述客户终端可以在执行完步骤S203之后，进一步对每个视频帧同步执行下述步骤S204-步骤S207，进而可以一并对每个视频帧中所述目标关键字信息对应的目标对象进行识别。因此，对于所述视频数据中尚未播放的视频帧而言，所述客户终端可以对这些尚未播放的视频帧一并按照如下步骤S204-步骤S207进行预处理。

当然，为了更好的理解本方案，本申请实施例仅以所述目标视频帧为所述多个视频帧中当前播放的视频帧为例，以对该目标视频帧中所述目标关键字信息对应的目标对象进行识别。因此，当所述多个视频帧中余下的视频帧被确定为所述目标视频帧时，对多个视频帧中余下视频帧中所述目标关键字信息对应的目标对象进行识别的过程，可以参见本申请实施例所列举的在所述当前播放的视频帧(即目标视频帧)中对所述目标对象的具体识别过程。

步骤S204，将所述目标视频帧划分为多个子区域，并对各子区域进行选择性搜索，并对选择性搜索后的子区域进行合并，得到多个合并区域，并将所述多个子区域和所述多个合并区域均确定为待处理区域；

其中，所述待处理区域的确定可参照上述图2所对应实施例中对所述待处理区域的描述，即所述客户终端可以将多次合并后的所述多个合并区域和拆分后得到的多个子区域均确定为待处理区域。其中，所述客户终端对所述目标视频帧的拆分，以及对拆分后的子区域进行选择性搜索以及对选择性搜索后的子区域进行合并的具体过程可以参见上述图2所对应实施例中对所述多个子区域和所述多个合并区域的描述，这里将不再继续进行赘述。

步骤S205，基于神经网络模型对所述待处理区域进行特征提取，得到与所述待处理区域对应的图像特征；

具体地，所述客户终端可以将所述待处理区域内的图像块缩放至相同尺寸，并将具有相同尺寸的待处理区域作为神经网络模型的输入，并通过所述神经网络模型输出与所述待处理区域内的图像块对应的图像特征。

进一步的，请参见图7，是本申请实施例提供的一种特征提取的示意图。如图7所示，所述客户终端可以在如图7所示的图像处理区域C中，将所述目标视频帧对应的待处理区域A内的图像块和待处理区域B内的图像块进行图像处理，即可以将所述待处理区域A内的图像块和所述待处理区域B内的图像块缩放至相同尺寸，以确保对各待处理区域内的图像块进行图像特征提取的准确性。随后，所述客户终端可以进一步将具有相同尺寸的待处理区域作为神经网络模型的输入，并通过所述神经网络模型输出与所述待处理区域内的图像块对应的图像特征(即所述客户终端可以得到如图7所示的待处理区域A的图像特征和待处理区域B的图像特征)。

应当理解，本申请实施例所列举的待处理区域A和待处理区域B仅仅是所述目标视频帧对应的部分待处理区域，在实际应用中，所述客户终端将会对所有的待处理区域内的图像块进行图像处理，并将图像处理后具有相同尺寸的所有待处理区域作为该神经网络模型的输入，以通过该所述神经网络模型输出与各待处理区域内的图像块分别对应的图像特征(比如，有1000个待处理区域，则会提取到与这1000个待处理区域内的图像块一一对应的图像特征)。

步骤S206，基于所述图像特征以及与所述目标关键字信息对应的所述分类识别模型，生成所述待处理区域对应的识别概率，并根据所述识别概率在所述待处理区域中选择包含所述目标关键字信息对应的目标对象的候选区域；

又比如，在如图7所示的目标视频帧中，所述弹幕数据的目标关键字信息为猫，且该目标关键字信息对应的分类识别模型中包含已训练好的猫对应的多种轮廓特征。于是，该客户终端可以进一步通过该神经网络模型中的分类器(即分类识别模型，例如，支持向量机)，将图7所示的待处理区域A对应的图像特征和待处理区域B对应的图像特征，分别与所述分类识别模型中的各轮廓特征进行比对，以得到与待处理区域A对应的识别概率(例如，90％)和与待处理区域B对应的识别概率(例如，40％)。此时，所述客户终端可以进一步根据待处理区域A对应的识别概率和与待处理区域B对应的识别概率，确定所述目标关键字信息对应的目标对象的候选区域为待处理区域A，即该客户终端可以将识别概率大于识别概率阈值(例如，70％)的待处理区域A确定为所述目标关键字信息对应的目标对象的候选区域。因此，所述客户终端此时可以确定所述待处理区域A中包含所述目标关键字信息对应的目标对象，而认为所述待处理区域B中不包含所述目标关键字信息对应的目标对象。

步骤S207，基于回归模型，对所述目标视频帧对应的候选区域进行最优选择，并将选择出的所述目标视频帧对应的最优候选区域确定为目标区域。

具体地，所述客户终端可以基于回归模型，对所述目标视频帧对应的候选区域进行最优选择，并从中选择出所述目标视频帧对应的最优候选区域，并将所述目标视频帧的上一个视频帧确定为参考视频帧，并获取所述参考视频帧对应的多个候选区域，并在所述参考视频帧对应的多个候选区域中，选择预估区域，并确定每个预估区域与所述目标视频帧对应的最优候选区域之间的重叠率，并获取具有最高重叠率的预估区域，并用所述具有最高重叠率的预估区域修正所述目标视频帧对应的最优候选区域，并将修正后的最优候选区域确定为所述目标区域。

其中，所述参考视频帧对应的多个候选区域是通过所述目标关键字信息对应的所述分类识别模型在所述参考视频帧对应的待处理区域中选择出的；所述参考视频帧对应的待处理区域是通过对所述参考视频帧进行选择性搜索所生成的。

其中，所述客户终端在执行完上述步骤S206之后，可以将多个包含所述目标关键字对应的目标对象的待处理区域作为候选区域(此时，应当理解，所述待处理区域为所述客户终端通过对图8所示的目标视频帧对应的待处理区域X1，待处理区域X2和待处理区域X3进行缩放处理后所得到的)，因此，如图8所示，所述目标视频帧对应的待处理区域(即待处理区域X1，待处理区域X2和待处理区域X3)与图8所示的包含所述目标对象的三个候选区域之间存在映射关系，即待处理区域X1与候选区域X1之间存在映射关系，待处理区域X2与候选区域X2之间存在映射关系，待处理区域X3与候选区域X3之间存在映射关系。于是，所述客户终端可以在如图8所示的三个候选区域中进行最优选择。具体地，请参见图8，是本申请实施例提供的一种选择最优候选区域的示意图。如图8所示，在获取到所述目标视频帧对应的多个候选区域(即候选区域X1，候选区域X2和候选区域X3)后，可以基于回归模型，在这多个候选区域中选择出所述目标视频帧对应的最优候选区域。

在一些实施例中，通过回归模型分别计算出每个候选区域中的目标对象到所在候选区域的候选边框的归一化距离，将所述归一化距离满足预设条件的候选区域作为所述目标视频帧对应的最优候选区域，并将选择出的最优候选区域确定为目标区域，所述预设条件为所述目标对象到所在候选区域的候选边框的归一化距离最小或所述目标对象到所在候选区域的候选边框的归一化距离最大。

为便于理解，本申请将这三个候选区域的候选边框用不同样式的线型来表示，且每种线型的候选边框均可以在如图8所示的所述目标视频帧中对应的找到相应的待处理区域。

由于此时，每个待处理区域的候选框均被缩放为相同尺寸，因此，所述客户终端可以通过该回归模型可以分别计算出每个候选区域中的目标对象到其候选边框的归一化距离，即可以理解为，通过该回归模型，可以得到输入该神经网络模型的每个待处理区域在该目标视频帧中的位置信息(比如，中心点位置信息)，以及各待处理区域的长度值和宽度值。因此，通过计算所述各候选区域对应的归一化距离，可以在如图8所示的候选区域X1中，确定所述目标对象距离其候选边框的归一化距离较远，并在如图8所示的候选区域X2中，确定所述目标对象距离其候选边框的归一化距离最近，并在如图8所示的候选区域X3中，确定所述目标对象距离其候选边框的归一化距离最远。因此，可以将如图8所示的候选区域X2作为所述目标视频帧对应的最优候选区域。

应当理解，对于所述弹幕数据对应的多个视频帧中的每个视频帧中的最优候选区域均可以参见图8所示的选择最优候选区域的选择过程，这里将不再继续赘述。

进一步地，所述客户终端可以将所述目标视频帧的上一个视频帧确定为参考视频帧，并获取所述参考视频帧对应的多个候选区域。

其中，所述参考视频帧可以为所述目标视频帧的上一个视频帧，即所述参考视频帧和所述目标视频帧均为当前播放的视频数据中的部分视频帧。其中，所述参考视频帧对应的多个候选区域的确定可以参见上述图8所对应实施例中确定所述目标视频帧对应的多个候选区域的具体过程。即所述参考视频帧对应的多个候选区域是通过所述目标关键字信息对应的所述分类识别模型在所述参考视频帧对应的待处理区域中选择出的；所述参考视频帧对应的待处理区域是通过对所述参考视频帧进行选择性搜索所生成的。

因此，所述客户终端可以在所述参考视频帧对应的多个候选区域中，选择预估区域。

具体地，所述客户终端可以首先获取所述目标对象在所述参考视频帧中的目标区域，并获取所述参考视频帧中的所述目标区域的位置信息，作为第一位置信息，并获取所述参考视频帧对应的候选区域的位置信息，作为第二位置信息，其次，所述客户终端可以进一步计算所述参考视频帧对应的第一位置信息与第二位置信息之间的距离，并将所述距离小于距离阈值的候选区域作为所述目标视频帧对应的预估区域，并进一步确定每个预估区域与所述目标视频帧对应的最优候选区域之间的重叠率，并获取具有最高重叠率的预估区域，并用所述具有最高重叠率的预估区域修正所述目标视频帧对应的最优候选区域，并将修正后的最优候选区域确定为所述目标区域。应当理解，所述修正后的最优候选区域则为所述目标关键字信息对应的目标对象在所述目标视频帧中的图像区域，因此，所述客户终端可以将所述修正后的最优候选区域确定为目标区域。

其中，所述参考视频帧对应的目标区域是通过对所述参考视频帧对应的最优候选区域进行修正得到的；所述参考视频帧对应的最优候选区域是基于所述回归模型在所述参考视频帧对应的候选区域中选择出的。

所述客户终端在获取到所述参考视频帧中所述目标对象(例如，猫)对应的目标区域后，可进一步获取该参考视频帧中所述目标区域的位置信息(即所述目标区域的中心点位置信息(例如，目标区域的位置信息为Q1))，并将该参考视频帧中所述目标区域的中心点位置信息作为第一位置信息，其次，所述客户终端还可以进一步获取该参考视频帧对应的候选区域的位置信息，作为第二位置信息。应当理解，由于所述参考视频帧对应的目标区域是通过对所述参考视频帧对应的最优候选区域进行修正得到的；所述参考视频帧对应的最优候选区域是基于所述回归模型在所述参考视频帧对应的候选区域中选择出的，因此，所述参考视频帧中的目标区域也可以被理解为该参考视频帧对应的候选区域。比如，以处于静止状态的目标对象为例，该目标对象在所述参考视频帧中的目标区域和目标视频帧中的目标区域具有相同的中心点位置信息。因此，在通过所述参考视频帧对所述目标视频帧中所述目标对象所处的区域进行预估的过程中，可以将所述参考视频帧中的目标区域作为一种特殊的候选区域。

进一步地，请一并参见图9，是本申请实施例提供的一种修正所述目标视频帧的最优视频帧的示意图。在如图9所示的四个候选区域，候选区域Y1为该参考视频帧对应的目标区域，由于所述参考视频帧对应的目标区域是通过对所述参考视频帧对应的最优候选区域进行修正得到的，且所述参考视频帧对应的最优候选区域是基于所述回归模型在所述参考视频帧对应的候选区域中选择出的；因此，所述客户终端可以在该参考视频帧中确定这四个候选区域(即如图9所示的候选区域Y1，候选区域Y2，候选区域Y3和候选区域Y4)的位置信息，其中，候选区域Y1的位置信息为目标区域的位置信息(即Q1)，候选区域Y2的位置信息为Q2，候选区域Y3的位置信息为Q3，候选区域Y4的位置信息为Q4。考虑到相邻视频帧里的目标对象的持续性(比如，运动轨迹的一致性)，可以在该参考视频帧中预估该目标对象在下一个视频帧中出现的区域，即可以在该参考视频帧对应的多个候选区域中，通过计算该参考视频帧的各候选区域与目标区域之间距离，以将距离小于距离阈值的候选区域作为所述目标视频帧对应的预估区域。于是，所述客户终端可以进一步计算所述参考视频帧对应的第一位置信息与第二位置信息之间的距离(该距离可用符号D表示)，即所述客户终端可以进一步计算Q1与Q1之间的距离D1(此时，D1＝0)，Q1与Q2之间的距离D2(例如，D2＝0.8)，Q1与Q3之间的距离D3(例如，D3＝0.5)，Q1与Q4之间的距离D4(D4＝3)。最后，所述客户终端可以进一步将所述距离小于距离阈值(例如，该距离阈值为1)的候选区域作为所述目标视频帧对应的预估区域，即在上述四个候选区域中，候选区域Y1的位置信息(Q1)与所述目标区域的位置信息(Q1)之间的距离小于所述距离阈值，候选区域Y2的位置信息(Q2)与所述目标区域的位置信息(Q1)之间的距离小于所述距离阈值，以及候选区域Y3的位置信息(Q3)与所述目标区域的位置信息(Q1)之间的距离也小于所述距离阈值，因此，如图9所示，所述客户终端可以将候选区域Y1、候选区域Y2和候选区域Y3作为所述目标视频帧对应的预估区域。

进一步地，所述客户终端可以进一步确定每个预估区域与所述目标视频帧对应的最优候选区域之间的重叠率；最后，所述客户终端可以获取具有最高重叠率的预估区域，并用所述具有最高重叠率的预估区域修正所述目标视频帧对应的最优候选区域，并将修正后的最优候选区域确定为所述目标区域。

其中，所述重叠率的计算可以通过以下步骤：所述客户终端可以首先获取所述目标视频帧对应的最优候选区域的长度值和宽度值，并根据所述长度值和宽度值确定所述目标视频帧对应的最优候选区域的面积，作为第一面积；其次，所述客户终端可以进一步获取所述预估区域的长度值和宽度值，并根据所述预估区域的长度值和宽度值、所述目标视频帧对应的最优候选区域的长度值和宽度值，确定所述预估区域与所述目标视频帧对应的最优候选区域之间的重叠面积，作为第二面积；然后，所述客户终端可以根据所述第一面积和所述第二面积，确定所述预估区域与所述目标视频帧对应的最优候选区域之间的重叠率。

进一步地，所述客户终端可以在获取到如图9所示的所述目标视频帧对应的预估区域(即预估区域Y1，预估区域Y2，预估区域Y3)后，基于外形比较网络分别计算这三个预估区域与所述目标视频帧对应的最优候选区域之间的重叠面积，作为第二面积，另外，所述目标视频帧对应的最优候选区域的面积为第一面积。因此，所述客户终端可以根据所述第二面积与所述第一面积之间的比值，进一步得到各预估区域与所述目标视频帧对应的最优候选区域之间的重叠率。其中，预估区域Y1与所述目标视频帧对应的最优候选区域之间的重叠率为50％，预估区域Y2与所述目标视频帧对应的最优候选区域之间的重叠率为40％，预估区域Y3与所述目标视频帧对应的最优候选区域之间的重叠率为80％，因此，所述客户终端可以用所述目标视频帧对应的预估区域的中心位置信息和最优候选区域的中心位置信息之间的均值，作为所述目标视频帧的目标区域的中心点位置信息。

可见，通过外形比较网络可以得到所述目标视频帧对应的预估区域和最优候选区域之间的重叠情况(即计算二者之间的重叠率)。然后，所述客户终端还可以进一步用具有最高重叠率的预估区域对该目标视频帧对应的最优候选区域进行修正。当然，若所述预估区域Y1与所述目标视频帧对应的最优候选区域之间的重叠率为100％，则表明所述目标对象在该视频数据对应的多个视频帧中处于静止状态，此时，所述目标视频帧的目标区域与所述参考视频帧的目标区域具有相同中心位置信息，此时，所述目标区域(即所述目标关键字信息对应的目标对象在所述目标视频帧中的图像区域)可以理解为所述目标视频帧对应的最优候选区域；当然，该目标区域还可以理解为所述客户终端对该目标视频帧对应的最优候选区域进行修正后的图像区域，即该图像区域为修正后的最优候选区域。

步骤S208，当播放所述视频数据中的所述目标视频帧时，对所述目标视频帧中的所述目标区域进行动画处理。

其中，所述步骤S208的具体实现过程可参见上述图2所对应实施例中对步骤S104的描述，这里将不再继续进行赘述。

由此可见，本申请实施例在播放所述视频数据的过程中，可以将所述弹幕数据对应的视频数据拆分为多个视频帧，可以对所述当前播放的视频数据中所述目标关键字信息所对应的目标对象进行识别。此时，所述客户终端可以将对视频数据中所述目标对象的检测转化为对每个视频帧中的目标对象进行逐一检测，若该视频数据的每个视频帧中均存在与所述目标关键字信息对应的目标对象，则可以进一步确定该目标对象在每一个视频帧中的目标区域，从而可以进一步为每个目标区域设置动画效果，以使每个视频帧在播放的时候可以对应的显示该目标区域的动画效果。可见，通过将所述弹幕数据中的通过将该弹幕数据中的目标关键字信息与所述目标视频帧中位于目标区域处的目标对象进行关联，可以丰富该弹幕数据的视觉展示效果，从而可以确保观看该视频数据的用户可以通过设置的关键字信息有效地捕捉到自己感兴趣的视频内容，避免由于为了识别和捕捉弹幕数据而造成的设备资源和网络资源的浪费。

比如，以录制的视频数据为一个在奔跑的人为例，用户通过该客户终端可以在该视频数据对应的播放界面上看到这个人的运动轨迹，即由于每个视频帧均按照时间顺序进行播放，因此，对于该客户终端在获取到的每个视频帧中的目标区域之后，可以依次将每个视频帧中的目标区域进行动画显示，以确保持有该客户终端的用户可以在该视频数据的播放界面上，看到每个目标区域所对应的动画展示效果，即可在该播放界面上看到这个人的运动轨迹。

进一步地，请参见图10，是本申请实施例提供的一种视频处理装置的结构示意图。如图10所示，所述视频处理装置1可以为上述图1所对应实施例中的目标客户终端，所述视频处理装置1可以包括：弹幕数据获取模块10，关键字获取模块20，目标对象识别模块30和目标区域处理模块40；

所述弹幕数据获取模块10，用于播放视频数据，并获取所述视频数据对应的弹幕数据；

其中，所述弹幕数据获取模块10，具体用于播放视频数据，并向弹幕服务器发送弹幕获取请求，并接收所述弹幕服务器基于所述弹幕获取请求返回的历史弹幕数据，并将所述历史弹幕数据作为所述视频数据对应的弹幕数据，并在所述视频数据的播放界面上显示所述弹幕数据。

可选地，所述弹幕数据获取模块10，具体用于播放视频数据，并获取文本输入数据，并将所述文本输入数据作为所述视频数据对应的弹幕数据，并在所述视频数据的播放界面上，基于弹幕轨道显示所述弹幕数据，并将所述弹幕数据发送到弹幕服务器，以使所述弹幕服务器将所述弹幕数据同步发送至观看所述视频数据的客户终端。

所述关键字获取模块20，用于在关键信息库中获取与所述弹幕数据相匹配的关键字信息，作为目标关键字信息；所述关键信息库中包含用户设置的关键字信息，以及每个关键字信息对应的目标对象的分类识别模型；

其中，所述关键字获取模块20包括：弹幕数据拆分单元201，关键字查找单元202，关键字确定单元203和分类模型获取单元204；

所述弹幕数据拆分单元201，用于获取关键信息库，并将所述弹幕数据拆分为多个分词数据；

所述关键字查找单元202，用于在所述关键信息库中遍历查找与各分词数据匹配的关键字信息；

所述关键字确定单元203，用于若查找到与所述各分词数据匹配的关键字信息，则将所述关键字信息作为所述弹幕数据对应的目标关键字信息；

所述分类模型获取单元204，用于在所述关键信息库中，获取所述目标关键字信息对应的目标对象的分类识别模型。

其中，所述弹幕数据拆分单元201，关键字查找单元202，关键字确定单元203和分类模型获取单元204的具体实现过程可以参见上述图2所对应实施例中对步骤S102的描述，这里将不再继续进行赘述。

所述目标对象识别模块30，用于在所述视频数据的多个视频帧中获取目标视频帧，并基于所述目标关键字信息对应的分类识别模型，识别所述目标关键字信息对应的目标对象在所述目标视频帧中的图像区域，并将识别出的所述图像区域作为目标区域；

其中，所述目标对象识别模块30包括：目标帧获取单元301，选择性搜索单元302，特征提取单元303，候选区域确定单元304和目标区域确定单元305；

所述目标帧获取单元301，用于在所述视频数据的多个视频帧中获取目标视频帧；

所述选择性搜索单元302，用于将所述目标视频帧划分为多个子区域，并对各子区域进行选择性搜索，并对选择性搜索后的子区域进行合并，得到多个合并区域，并将所述多个子区域和所述多个合并区域均确定为待处理区域；

所述特征提取单元303，用于基于神经网络模型对所述待处理区域进行特征提取，得到与所述待处理区域对应的图像特征；

具体地，所述特征提取单元303，具体用于将所述待处理区域内的图像块缩放至相同尺寸，并将具有相同尺寸的待处理区域作为神经网络模型的输入，并通过所述神经网络模型输出与所述待处理区域内的图像块对应的图像特征。

所述候选区域确定单元304，用于基于所述图像特征以及与所述目标关键字信息对应的所述分类识别模型，生成所述待处理区域对应的识别概率，并根据所述识别概率在所述待处理区域中选择包含所述目标关键字信息对应的目标对象的候选区域；

其中，所述识别概率是用于表示所述待处理区域中包含所述目标对象的概率；

所述目标区域确定单元305，用于基于回归模型，对所述目标视频帧对应的候选区域进行最优选择，并将选择出的所述目标视频帧对应的最优候选区域确定为目标区域。

其中，所述目标区域确定单元305包括：最优区域选择子单元3051，参考帧确定子单元3052，预估区域选择子单元3053，重叠率确定子单元3054和目标区域确定子单元3055；

所述最优区域选择子单元3051，用于基于回归模型，对所述目标视频帧对应的候选区域进行最优选择，并从中选择出所述目标视频帧对应的最优候选区域；

所述参考帧确定子单元3052，用于将所述目标视频帧的上一个视频帧确定为参考视频帧，并获取所述参考视频帧对应的多个候选区域；所述参考视频帧对应的多个候选区域是通过所述目标关键字信息对应的所述分类识别模型在所述参考视频帧对应的待处理区域中选择出的；所述参考视频帧对应的待处理区域是通过对所述参考视频帧进行选择性搜索所生成的；

所述预估区域选择子单元3053，用于在所述参考视频帧对应的多个候选区域中，选择预估区域；

具体地，所述预估区域选择子单元3053，具体用于获取所述目标对象在所述参考视频帧中的目标区域，并获取所述参考视频帧中的所述目标区域的位置信息，作为第一位置信息，并获取所述参考视频帧对应的候选区域的位置信息，作为第二位置信息，并计算所述参考视频帧对应的第一位置信息与第二位置信息之间的距离，并将所述距离小于距离阈值的候选区域作为所述目标视频帧对应的预估区域；

所述重叠率确定子单元3054，用于确定每个预估区域与所述目标视频帧对应的最优候选区域之间的重叠率；

具体地，所述重叠率确定子单元3054，具体用于获取所述目标视频帧对应的最优候选区域的长度值和宽度值，并根据所述长度值和宽度值确定所述目标视频帧对应的最优候选区域的面积，作为第一面积，并获取所述预估区域的长度值和宽度值，并根据所述预估区域的长度值和宽度值、所述目标视频帧对应的最优候选区域的长度值和宽度值，确定所述预估区域与所述目标视频帧对应的最优候选区域之间的重叠面积，作为第二面积，并根据所述第一面积和所述第二面积，确定所述预估区域与所述目标视频帧对应的最优候选区域之间的重叠率。

所述目标区域确定子单元3055，用于获取具有最高重叠率的预估区域，并用所述具有最高重叠率的预估区域修正所述目标视频帧对应的最优候选区域，并将修正后的最优候选区域确定为所述目标区域。

其中，所述最优区域选择子单元3051，参考帧确定子单元3052，预估区域选择子单元3053，重叠率确定子单元3054和目标区域确定子单元3055的具体实现过程可以参见上述图5所对应实施例中对步骤S207的描述，这里将不再继续进行赘述。

其中，所述目标帧获取单元301，选择性搜索单元302，特征提取单元303，候选区域确定单元304和目标区域确定单元305的具体实现过程可以参见上述图5所对应实施例中对步骤S203-步骤S207的描述，这里将不再继续进行赘述。

所述目标区域处理模块40，用于当播放所述视频数据中的所述目标视频帧时，对所述目标视频帧中的所述目标区域进行动画处理。

其中，所述弹幕数据获取模块10，关键字获取模块20，目标对象识别模块30和目标区域处理模块40的具体实现过程可以参见上述图2所对应实施例中对步骤S101-步骤S104的描述，这里将不再继续进行赘述。

进一步地，请参见图11，是本申请实施例提供的另一种视频处理装置的结构示意图。如图11所示，所述视频处理装置1000可以是上述图1对应实施例中的目标客户终端，所述视频处理装置1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图11所示的视频处理装置1000中，网络接口1004主要用于连接弹幕服务器和视频源服务器；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

播放视频数据，并获取所述视频数据对应的弹幕数据；

在所述视频数据的多个视频帧中获取目标视频帧，并基于所述目标关键字信息对应的分类识别模型，识别所述目标关键字信息对应的目标对象在所述目标视频帧中的图像区域，作为目标区域；

应当理解，本申请实施例中所描述的视频处理装置1000可执行前文图2或图5所对应实施例中对所述视频处理方法的描述，也可执行前文图10所对应实施例中对所述视频处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的视频处理装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图2或图5所对应实施例中对所述视频处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

一种视频处理方法，由客户终端执行，包括：

播放视频数据，并获取所述视频数据对应的弹幕数据；

在关键信息库中获取与所述弹幕数据相匹配的关键字信息，作为目标关键字信息；所述关键信息库中包含用户设置的关键字信息，以及每个关键字信息对应的目标对象的分类识别模型；

在所述视频数据的多个视频帧中获取目标视频帧，并基于所述目标关键字信息对应的分类识别模型，识别所述目标关键字信息对应的目标对象在所述目标视频帧中的图像区域，并将识别出的所述图像区域作为目标区域；

当播放所述视频数据中的所述目标视频帧时，对所述目标视频帧中的所述目标区域进行动画处理。
根据权利要求1所述的方法，其中，所述在关键信息库中获取与所述弹幕数据相匹配的关键字信息，作为目标关键字信息，包括：

获取关键信息库，并将所述弹幕数据拆分为多个分词数据；

在所述关键信息库中遍历查找与各分词数据匹配的关键字信息；

若查找到与所述各分词数据匹配的关键字信息，则将所述关键字信息作为所述弹幕数据对应的目标关键字信息；

在所述关键信息库中，获取所述目标关键字信息对应的目标对象的分类识别模型。
根据权利要求2所述的方法，其中，所述在所述视频数据的多个视频帧中获取目标视频帧，并基于所述目标关键字信息对应的分类识别模型，识别所述目标关键字信息对应的目标对象在所述目标视频帧中的图像区域，并将识别出的所述图像区域作为目标区域，包括：

在所述视频数据的多个视频帧中获取目标视频帧；

将所述目标视频帧划分为多个子区域，并对各子区域进行选择性搜索，并对选择性搜索后的子区域进行合并，得到多个合并区域，并将所述多个子区域和所述多个合并区域均确定为待处理区域；

基于神经网络模型对所述待处理区域进行特征提取，得到与所述待处理区域对应的图像特征；

基于所述图像特征以及与所述目标关键字信息对应的所述分类识别模型，生成所述待处理区域对应的识别概率，并根据所述识别概率在所述待处理区域中选择包含所述目标关键字信息对应的目标对象的候选区域；所述识别概率是用于表示所述待处理区域中包含所述目标对象的概率；

通过回归模型分别计算出每个候选区域中的目标对象到所在候选区域的候选边框的归一化距离，将所述归一化距离满足预设条件的候选区域作为所述目标视频帧对应的最优候选区域，并将选择出的最优候选区域确定为目标区域，所述预设条件为所述目标对象到所在候选区域的候选边框的归一化距离最小或所述目标对象到所在候选区域的候选边框的归一化距离最大。
根据权利要3所述的方法，其中，所述基于神经网络模型对所述待处理区域进行特征提取，得到与所述待处理区域对应的图像特征，包括：

将所述待处理区域内的图像块缩放至相同尺寸，并将具有相同尺寸的待处理区域作为神经网络模型的输入，并通过所述神经网络模型输出与所述待处理区域内的图像块对应的图像特征。
根据权利要求3所述的方法，其中，将选择出的所述目标视频帧对应的最优候选区域确定为目标区域，包括：

将所述目标视频帧的上一个视频帧确定为参考视频帧，并获取所述参考视频帧对应的多个候选区域；所述参考视频帧对应的多个候选区域是通过所述目标关键字信息对应的所述分类识别模型在所述参考视频帧对应的待处理区域中选择出的；所述参考视频帧对应的待处理区域是通过对所述参考视频帧进行选择性搜索所生成的；

在所述参考视频帧对应的多个候选区域中，选择预估区域；

确定每个预估区域与所述目标视频帧对应的最优候选区域之间的重叠率；

获取具有最高重叠率的预估区域，并用所述具有最高重叠率的预估区域修正所述目标视频帧对应的最优候选区域，并将修正后的最优候选区域确定为所述目标区域。
根据权利要求5所述的方法，其中，所述在所述参考视频帧对应的多个候选区域中，选择预估区域，包括：

获取所述目标对象在所述参考视频帧中的目标区域；所述参考视频帧对应的目标区域是通过对所述参考视频帧对应的最优候选区域进行修正得到的；所述参考视频帧对应的最优候选区域是基于所述回归模型在所述参考视频帧对应的候选区域中选择出的；

获取所述参考视频帧中的所述目标区域的位置信息，作为第一位置信息，并获取所述参考视频帧对应的候选区域的位置信息，作为第二位置信息；

计算所述参考视频帧对应的第一位置信息与第二位置信息之间的距离，并将所述距离小于距离阈值的候选区域作为所述目标视频帧对应的预估区域。
根据权利要求6所述的方法，其中，所述确定每个预估区域与所述目标视频帧对应的最优候选区域之间的重叠率，包括：

获取所述目标视频帧对应的最优候选区域的长度值和宽度值，并根据所述长度值和宽度值确定所述目标视频帧对应的最优候选区域的面积，作为第一面积；

获取所述预估区域的长度值和宽度值，并根据所述预估区域的长度值和宽度值、所述目标视频帧对应的最优候选区域的长度值和宽度值，确定所述预估区域与所述目标视频帧对应的最优候选区域之间的重叠面积，作为第二面积；

根据所述第一面积和所述第二面积，确定所述预估区域与所述目标视频帧对应的最优候选区域之间的重叠率。
根据权利要求1所述的方法，其中，所述播放视频数据，并获取所述视频数据对应的弹幕数据，包括：

播放视频数据，并向弹幕服务器发送弹幕获取请求，并接收所述弹幕服务器基于所述弹幕获取请求返回的历史弹幕数据，并将所述历史弹幕数据作为所述视频数据对应的弹幕数据，并在所述视频数据的播放界面上显示所述弹幕数据。
根据权利要求1所述的方法，其中，所述播放视频数据，并获取所述视频数据对应的弹幕数据，包括：

播放视频数据，并获取文本输入数据，并将所述文本输入数据作为所述视频数据对应的弹幕数据，并在所述视频数据的播放界面上，基于弹幕轨道显示所述弹幕数据，并将所述弹幕数据发送到弹幕服务器，以使所述弹幕服务器将所述弹幕数据同步发送至观看所述视频数据的客户终端。
一种视频处理装置，包括：

弹幕数据获取模块，用于播放视频数据，并获取所述视频数据对应的弹幕数据；

关键字获取模块，用于在关键信息库中获取与所述弹幕数据相匹配的关键字信息，作为目标关键字信息；所述关键信息库中包含用户设置的关键字信息，以及每个关键字信息对应的目标对象的分类识别模型；

目标对象识别模块，用于在所述视频数据的多个视频帧中获取目标视频帧，并基于所述目标关键字信息对应的分类识别模型，识别所述目标关键字信息对应的目标对象在所述目标视频帧中的图像区域，并将识别出的所述图像区域作为目标区域；

目标区域处理模块，用于当播放所述视频数据中的所述目标视频帧时，对所述目标视频帧中的所述目标区域进行动画处理。
根据权利要求10所述的装置，其中，所述关键字获取模块包括：

弹幕数据拆分单元，用于获取关键信息库，并将所述弹幕数据拆分为多个分词数据；

关键字查找单元，用于在所述关键信息库中遍历查找与各分词数据匹配的关键字信息；

关键字确定单元，用于若查找到与所述各分词数据匹配的关键字信息，则将所述关键字信息作为所述弹幕数据对应的目标关键字信息；

分类模型获取单元，用于在所述关键信息库中，获取所述目标关键字信息对应的目标对象的分类识别模型。
根据权利要求11所述的装置，其中，所述目标对象识别模块包括：

目标帧获取单元，用于在所述视频数据的多个视频帧中获取目标视频帧；

选择性搜索单元，用于将所述目标视频帧划分为多个子区域，并对各子区域进行选择性搜索，并对选择性搜索后的子区域进行合并，得到多个合并区域，并将所述多个子区域和所述多个合并区域均确定为待处理区域；

特征提取单元，用于基于神经网络模型对所述待处理区域进行特征提取，得到与所述待处理区域对应的图像特征；

候选区域确定单元，用于基于所述图像特征以及与所述目标关键字信息对应的所述分类识别模型，生成所述待处理区域对应的识别概率，并根据所述识别概率在所述待处理区域中选择包含所述目标关键字信息对应的目标对象的候选区域；所述识别概率是用于表示所述待处理区域中包含所述目标对象的概率；

目标区域确定单元，用于基于回归模型，对所述目标视频帧对应的候选区域进行最优选择，并将选择出的所述目标视频帧对应的最优候选区域确定为目标区域。
根据权利要12所述的装置，其中，

所述特征提取单元，具体用于将所述待处理区域内的图像块缩放至相同尺寸，并将具有相同尺寸的待处理区域作为神经网络模型的输入，并通过所述神经网络模型输出与所述待处理区域内的图像块对应的图像特征。
一种视频处理装置，包括：处理器和存储器；

所述处理器与存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-9任一项所述的方法。
一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-9任一项所述的方法。