CN107529068A

CN107529068A - 视频内容鉴别方法及系统

Info

Publication number: CN107529068A
Application number: CN201610452922.5A
Authority: CN
Inventors: 张师群; 罗旻; 鲍东山
Original assignee: BEIJING NUFRONT SOFTWARE TECHNOLOGY Co Ltd
Current assignee: BEIJING NUFRONT SOFTWARE TECHNOLOGY Co Ltd
Priority date: 2016-06-21
Filing date: 2016-06-21
Publication date: 2017-12-29

Abstract

本发明公开了一种视频内容鉴别方法及系统，其中方法包括如对输入的音频流进行语音识别，与预先存储的敏感信息比对，判断是否有违禁内容；从视频数据流中分离出视频信息和字幕信息，提取相关视频信息和字幕信息；将所获取的字幕信息进行文字分割、识别，判断是否有违禁内容；对输入的视频数据流中提取人脸特征信息，进行人脸识别，与策略缓存器中的敏感信息比对，判断是否有违禁内容；根据人脸识别、语音识别和字幕识别的结果对节目进行鉴别。本发明为节目管理和审查提供一最大限度自动化的内容审核终端系统，它不仅适合分散型网络流媒体节目发布模式的需求，而且可以大大提高审核系统的全面性和整体性，同时大量减轻人工审核的难度和工作量。

Description

视频内容鉴别方法及系统

技术领域

本发明涉及视频处理技术领域，更具体地说，涉及一种视频内容鉴别方法及系统。

背景技术

广电部门是国家文化政策宣传的口舌，电视、电影等媒体节目是广大群众提升自我修养、丰富精神生活的重要手段。一套健康、安全的节目传输和管理机制对于抵制精神垃圾、提高人们的精神生活质量，乃至保障国家安全而言都具有至关重要的意义。

为了确保节目的合法性、安全性、健康性，国家广播电影电视总局负责研究并起草广播电影电视事业管理的法律、法规；制订广播电影电视管理规章和事业的发展规划；监督管理广播电视节目、卫星电视节目收录和通过信息网络向公众传播的视听节目。

但是传统的节目审核监督法规缺少与之相应的技术手段，“以人为主”的内容监管方法实际效果不佳。传统的内容审查是将制作好的节目磁带送到审查部门用人眼主观审查。这个过程中，节目的送审需要大量的人力，物力；对于海量的节目，该方式工作量过大，节目审查难以贯彻执行，使得一些不符合国家标准的节目鱼目混珠，造成了十分恶劣的社会影响。

随着宽带流媒体技术的发展，网络流媒体势头正劲，不同形式的流媒体内容很容易在网络上共享与发布，这在一定程度上又加重了节目审核的复杂性和难度。节目发布形式和资源获取渠道的多样性都加重了节目审核的难度，仅靠人工审核已经远远不能适应社会的发展，不能满足群众文化的需要了。

从节目管理的安全性、易用性出发，兼顾IPTV发展的可靠性、健康性要求，设计了一基于分布式环境的分级内容审查系统，该系统由位于宽带流媒体运营平台前端的内容审查中心和位于客户端软件两部分构成。本发明是上述分级内容审查系统中的客户端软件，即视频内容鉴别系统。

发明内容

本发明的目的是为节目管理和审查提供一最大限度自动化的内容审核终端系统，它不仅适合分散型网络流媒体节目发布模式的需求，而且可以大大提高审核系统的全面性和整体性，同时大量减轻人工审核的难度和工作量。

本发明提供的一种对视频内容进行鉴别的方法，包括如下步骤：

对输入的音频流进行语音识别，与预先存储的敏感信息比对，判断是否有违禁内容；

从视频数据流中分离出视频信息和字幕信息，提取相关视频信息和字幕信息；

将所获取的字幕信息进行文字分割、识别，判断是否有违禁内容；

对输入的视频数据流中提取人脸特征信息，进行人脸识别，与策略缓存器中的敏感信息比对，判断是否有违禁内容；

根据人脸识别、语音识别和字幕识别的结果对节目进行鉴别。

更适宜地，该方法，还包括：

预先将敏感或违禁的词、语句以及相关的人脸特征信息收集入库，保存到策略缓存器，用于比对、判断识别视频或音频中是否有违禁内容。

更适宜地，该方法中根据人脸识别、语音识别和字幕识别的结果对节目进行鉴别，具体包括：

根据语音分析、字幕分析以及人脸轮廓信息，得到多个评判标准，根据不同的比重可以制定出不同的融合打分策略；对媒体播放的视频或音频信息内容予以综合评价。

优选地，该方法，还包括：

获取视频信号的节目源地址和相关信息并保存，用于检索查找该视频信号的来源。

本发明还提供一种视频内容鉴别系统，包括：

音频识别模块，用于对输入的音频流进行语音识别，与预先存储的敏感信息比对，判断是否有违禁内容；

提取模块，用于从视频数据流中分离出视频信息和字幕信息，提取相关视频信息和字幕信息；

字母处理模块，用于将所获取的字幕信息进行文字分割、识别，判断是否有违禁内容；

人脸识别模块，用于对输入的视频数据流中提取人脸特征信息，进行人脸识别，与策略缓存器中的敏感信息比对，判断是否有违禁内容；

鉴别模块，用于根据人脸识别、语音识别和字幕识别的结果对节目进行鉴别。

更适宜地，该系统还包括：

策略缓存器，用于保存预先将敏感或违禁的词、语句以及相关的人脸特征信息，供后续比对、判断识别使用。

优选地，当字母处理模块对所提取的字母进行预处理后，得到单个字符，再采用针对低分辨率的光学字符识别OCR方法对单个字符进行识别。

更适宜地，该系统，还包括：

节目源信息管理模块，用于获取视频信号的节目源地址和相关信息并保存，用于检索查找该视频信号的来源。

为了上述以及相关的目的，一个或多个实施例包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明某些示例性方面，并且其指示的仅仅是各个实施例的原则可以利用的各种方式中的一些方式。其它的益处和新颖性特征将随着下面的详细说明结合附图考虑而变得明显，所公开的实施例是要包括所有这些方面以及它们的等同。

说明书附图

附图提供本发明的一种更深入的理解，是本申请的整体的一部分，根据本发明的具体实施用例，并与说明书一起用于解释本发明的原理。

图1为本发明实施例提供的一种对视频内容进行鉴别的方法流程图；

图2为本发明实施例提供的一种视频内容鉴别系统架构示意图；

图3为本发明实施例提供的系统中的一种语音分析模块框架图；

图4为本发明实施例提供的系统中的视频内容鉴别系统人脸分析模块框架图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的组件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。在本文中，本发明的这些实施方案可以被单独地或总地用术语“发明”来表示，这仅仅是为了方便，并且如果事实上公开了超过一个的发明，不是要自动地限制该应用的范围为任何单个发明或发明构思。

参照图1，本发明提供的一种对视频内容进行鉴别的方法，包括如下步骤：

S101，对输入的音频流进行语音识别，与预先存储的敏感信息比对，判断是否有违禁内容；

S102，从视频数据流中分离出视频信息和字幕信息，提取相关视频信息和字幕信息；

S103，将所获取的字幕信息进行文字分割、识别，判断是否有违禁词句；

S104，对输入的视频数据流中提取人脸特征信息，进行人脸识别，与策略缓存器中的敏感信息比对，判断是否有违禁内容；

S105，根据人脸识别、语音识别和字幕识别的结果对节目进行鉴别。

更适宜地，该方法，还包括：

优选地，该方法，还包括：

本发明还提供一种视频内容鉴别系统100，包括：

音频识别模块10，用于对输入的音频流进行语音识别，与预先存储的敏感信息比对，判断是否有违禁内容；

提取模块20，用于从视频数据流中分离出视频信息和字幕信息，提取相关视频信息和字幕信息；

字幕处理模块30，用于将所获取的字幕信息进行文字分割、识别，判断是否有违禁内容；

人脸识别模块40，用于对输入的视频数据流中提取人脸特征信息，进行人脸识别，与策略缓存器中的敏感信息比对，判断是否有违禁内容；

鉴别模块50，用于根据人脸识别、语音识别和字幕识别的结果对节目进行鉴别。

更适宜地，该系统还包括：

策略缓存器60，用于保存预先将敏感或违禁的词、语句以及相关的人脸特征信息，供后续比对、判断识别使用。

更适宜地，该系统，还包括：

节目源信息管理模块70，用于获取视频信号的节目源地址和相关信息并保存，用于检索查找该视频信号的来源。

本发明的具体实施例中，视频内容鉴别系统是基于视频内容分析技术研发的分布式系统，由前端的审核中心和两部分组成。

前端内容审核中心可以对各个电视台、节目发布中心存储的海量节目，可以对通过网络爬虫获得的网络流媒体资源，还可以对由用户端软件提交的可疑流媒体文件进行全方位的内容审核。在前端，对节目可以由功能强大的节目分析集群进行自动审核，也可以直接由审核专业人员进行人工审核。人工审核与自动审核相结合，从而大大提高效率和精度。

内容审核终端部分，集成了视频内容鉴别系统的内容审核模块，承担了视频内容鉴别系统的部分内容分析和审核工作，以审核服务的方式对终端用户观看的、上传的节目进行在线、离线的审核。对于具有明显违禁内容的节目可以立即封杀，对于可能含有违禁内容的节目可以直接上传到前端内容审核中心，进行更加全面的审核。

节目源信息管理模块70：记录了节目相关信息，包括地址、审核分数、是否作为可疑文件上传、是否即时封杀等信息。节目源可以是本地文件、网络流媒体(IPTV)实时节目、数字电视(DTV)实时节目和DVD节目源。本模块还包括一个与鉴别模块60的接口：从鉴别模块60接收评估结果，根据结果判断节目是即时封杀还是允许播放，或者为可疑文件；包括一个与前端内容审核中心的接口：上传可疑文件地址给内容审核中心，以进一步对可疑节目进行更高级地审核。

提取模块20支持网络流媒体的播放，支持本地磁盘中保存的多媒体音视频文件的回放。本地文件可以是MP4文件，3GP文件，AVI文件，MP3文件，ASF文件，WMV文件等多种音视频格式。网络媒体流可以是通过RTP/RTCP加RTSP和SDP协议接收或通过微软的MMS协议，以及会话初始协议(SIP)进行接受。该模块可分为解码和播放两部分。其中解码部分提供解码后的媒体数据给内容分析模块，以便进行实时的内容审核。此处的解码器还可以使用第三方的解码器，提供了较大的灵活性。

语音识别模块10获取音频数据进行分析，然后与策略缓存模块60中的敏感信息进行比对，确定是否有违禁内容，分析结果作为评判标准送入到鉴别模块50。为了提高语音分析的准确率，语音识别模块10要结合语音识别训练模型9得到参数进行语音分析，并将语音分析结果返回给语音识别训练模型9，进行模型训练和二次分析。

语音识别模块10框图如附图3所示，包括：音频流获取单元10a、音频分段单元10b、音频分类单元10c、语音流分析单元10d和语音关键词搜索单元10e。音频流获取单元10a用以从外界获取音频流；获取的音频流送入音频分段单元10b，用以对音频流进行分割，使得分割后每个分段都具有单一的声学特征；单一特征的音频流送入音频分类单元10c，用以对音频流的类型进行分析，得到其确定的声学特征；经分析确定为非语音的音频片段被抛弃，确定为语音的音频片段送入语音流分析单元10d，对其进行分析后得到拼音图；语音关键词搜索单元10e，用以实现对敏感信息的关键词的检索和匹配，以判断是否有违禁内容。

字幕处理模块30获取字幕图片信息，进行字幕切割，得到单个的文字图片，然后送入光学字符识别(OCR，Optical Character Recognition)系统中进行文字识别，光学字符识别OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

OCR识别系统，将影像作一个转换，使影像内的图形继续保存、有表格则表格内资料及影像内的文字，一律变成计算机文字，使能达到影像资料的储存量减少、识别出的文字可再使用及分析，当然也可节省因键盘输入的人力与时间。从影像到结果输出，须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正，将结果输出。

识别出来的与策略缓存模块60中的敏感信息进行比对，判断是否有违禁内容，将判断结果作为评判标准送入鉴别模块50。

由于视频中文字的低分辨率以及彩色背景的高复杂度，所以视频文字检测，尤其是文字提取存在很大的困难，但是视频中的文字作为一种高级语义特征，对视频内容的理解、审核具有重要作用。为此，本发明利用视频中的字幕文本具有的特点，比如：文字与背景对比度强、文字的分布比较集中、文字的尺寸有一定的范围、文字的排列一般为水平方向或垂直方向等等，通过灰度变化，亮度信息边缘检测、水平和垂直方向区域形状投影、由粗到精的定位，并辅之以字幕文本区域预测、长宽比、前背景亮度对比等先验知识最终完成视频中字幕文本区域的自动化探测定位。

字幕文本区域被整体分割出来以后，从中把每个字符单独分割出来，以送入OCR模块进行识别。由于存在复杂的背景噪声干扰和文字的分辨率较低的影响，简单阈值分割方法会产生三种类型的分割错误：(i)字符粘连，(ii)字符断裂，(iii)孤立噪声，同时也无法直接运用传统的OCR引擎得到良好识别效果。因此，采用区域动态局部阈值二值化、侯选区域增强、重采样技术等方法来减少复杂背景对字幕文字的干扰以及在一定程度上增加了文字的分辨率，通过区域垂直投影法探测准则对孤立噪声进行滤除，对粘连字符进行自适应分裂，对断裂字符进行自适应合并，最终完成单个字符的分割。通过这些预处理后，再采用针对低分辨率的OCR识别方法对单个字符进行识别。

人脸识别模块40获取图像信息，进行人脸的检测定位和特征提取，将提取到的特征与人脸训练模型中的人脸特征匹配，进行人脸识别，然后将识别结果与策略缓存模块60中的敏感信息比对，判断是否有违禁内容，将判断结果送入鉴别模块50。为了提高人脸识别的准确率，人脸识别模块40将人脸识别结果返回给人脸训练模型，进行训练学习。

人脸识别模块40共分为四部分，如附图4所示，具体包括人脸图像获取单元40a、图像(预)后处理单元40b、图像特征提取及优化选取单元40c、分类器及识别单元40d。人脸图像获取单元主要包括人脸图像库中人脸像和待测人脸图像的获取，采用人脸检测技术，从复杂图像或视频流中分离出人脸图像。图像(预)后处理：在图像获取时，由于条件的限制或人为等意外的因素，获取的图像尺寸、光照条件和分辨率等可能达不到要求，对下一步的特征提取和最终分类造成不良影响，因此有必要对图像进行技术处理，如尺度校正、灰度校正，以及边缘增强、图像二值化等。图像特征提取及优化选取：为了提高分类的速度和识别率，对处理过的图像，一般要进行提取图像的特征，可以达到以下目的有二：一是减少图像的计算和存储，一副92X92象素的人脸灰度图像，直接存储就占用8464个存储空间，而经过特征提取和优化选择后，一般讲，存储量仅为直接存储的几十分之一左右，这在大规模识别问题中就十分重要；二是人脸图像大部分象素对区分人脸并没有太大贡献，经过特征提取和优化选择后讲剔除冗余信息对分类的影响，提高识别率。分类器设计及识别是对提取到的图像特征集，运用某种度量标准，对图像差异进行度量最终取得分类结果。分类时采用新发展的智能分类方法，同时具有特征提取、分类的双重功能，这类方法需要通过人脸训练模型进行一定的训练，运用算法自调节功能，自动调节系统的参数，使系统自动抽取人脸的最优表达特征，从而较好地适应人脸的灰度畸变、光照、姿势等变化，达到自动人脸识别的目的。

策略缓存模块60是从内容审核中心下载更新策略，将敏感信息送给语音识别模块、人脸识别模块和字幕识别模块以供比对。策略缓存模块更新策略的流程是：先查询本地的策略文件版本，然后获取内容审核中心的策略文件版本号，如发现内容审核中心的文件版本号比本地的更新，则从内容审核中心下载更新策略文件。策略缓存模块与内容审核中心、语音识别模块、人脸识别模块和字幕识别模块都有接口。根据不同的主题可以定出不同的审查策略。

可以以某一人物作为审查策略主题，跟此人物相关的头像，语音，已经相应的文字，都可以成为审查的关键信息。可以以某一事件作为审查主题，跟此事件相关的文字信息，图片，语音就成为了审查的相应信息。

鉴别模块50：内容审核的方法是通过对节目内容进行融合打分的方法来实现，主要是根据语音识别，字幕识别，以及人脸识别结果，得到多个评判标准，依照不同的比重制定出不同的融合打分策略。融合打分的基本方法是先分别对经内容分析后的一小段音视频(比如一帧或一图像组)的语音识别、字幕识别、和人脸识别结果打分，如果识别结果是其中含有相应的敏感信息，则给一较高的分值，如果不含，则给一较低分值；在一定的时间段对媒体流的识别结果进行累计积分，然后对媒体播放的信息内容予以综合评价，对评价值较高的内容，即很有可能存在违禁信息，则相应的采取封杀；但是对于评价值相对较高，但还不能完全确定的内容，则可以把文件的网络地址，通知前端的内容审核中心，通过前端内容审核中心的进一步审查从而得出最终的评判结果。

视频内容鉴别系统采用了多项世界领先的模式识别技术，以期达到卓越的系统性能。使用人脸识别技术确定视频中人脸出现的位置和时间，能准确自动标识出人物，速度快、实时性高；使用字幕识别技术自动对各种类型视频中不同大小和字体的字幕进行检测定位以及识别，速度快、识别率高；使用语音识别技术有效提升了内容审核的精度。在这些关键技术领域，本发明具有明显和难以超越的技术优势。

视频内容鉴别系统视频内容鉴别系统视频内容鉴别系统的工作流程如下：

第一：记录网络，本地系统中媒体影音文件的信息，通过节目源管理模块，得到相应的文件信息，并根据服务器端的指令，以及本地的评审情况确定节目源是否存在违禁内容。

第二：节目流的解码播放，对各种不同的影音文件进行解析，并通过各自进行解码播放。

第三：内容分析，将音视频解码后的信息，传送给各自的分析模块，其中：视频内容传送给内容分析模块，从中分解出人脸模型与字幕信息，再分别传送给人脸分析模块，字幕分析模块。将解码后的语音信息传送给语音分析模块。

第四：策略缓冲模块更新流程：策略更新主要根据服务器端的升级信息来更新，得到策略缓存内容文件、音频训练模型文件、人脸训练模型文件。

第五，根据各个分析模块得出的结果，进行评判打分。

以上是分析内容审核系统客户端的流程，有关分级内容审核服务端的处理流程请参看服务器端说明书。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种对视频内容进行鉴别的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求1所述的方法，其特征在于，所述根据人脸识别、语音识别和字幕识别的结果对节目进行鉴别，具体包括：

4.如权利要求1所述的方法，其特征在于，所述对字幕信息进行文字分割、识别，具体为：

对所提取的字母进行预处理后，得到单个字符，再采用针对低分辨率的光学字符识别OCR方法对单个字符进行识别。

5.如权利要求1所述的方法，其特征在于，还包括：

6.一种视频内容鉴别系统，其特征在于，包括：

7.如权利要求6所述的系统，其特征在于，还包括：

8.如权利要求6所述的系统，其特征在于，所述根据人脸识别、语音识别和字幕识别的结果对节目进行鉴别，具体包括：

9.如权利要求6所述的系统，其特征在于，所述字母处理模块对所提取的字母进行预处理后，得到单个字符，再采用针对低分辨率的光学字符识别OCR方法对单个字符进行识别。

10.如权利要求6所述的系统，其特征在于，还包括：

节目源信息获取模块，用于获取视频信号的节目源地址和相关信息并保存，用于检索查找该视频信号的来源。