• 欢迎来到北京明(míng)景科技有限公司

联系我们: 010-82378600, 13911129392

視(shì)頻(pín)摘要(yào)技術(shù)在視(shì)頻(pín)分析领域的作(zuò)用

視(shì)頻(pín)摘要(yào)又称視(shì)頻(pín)浓缩,是对視(shì)頻(pín)內(nèi)容的一(yī)个简单概括,以自(zì)动或半自(zì)动的方式,先通(tōng)过运动目标分析,提取运动目标,然后对各个目标的运动轨迹进行(xíng)分析,将不同的目标拼接到一(yī)个共同的背景场景中,并将它们以某种方式进行(xíng)组合。視(shì)頻(pín)摘要(yào)在視(shì)頻(pín)分析和(hé)基于內(nèi)容的視(shì)頻(pín)检索中扮演着重要(yào)角色。


視(shì)頻(pín)录像存在存储數(shù)据量大,存储時(shí)間(jiān)長(cháng)等特点,通(tōng)过录像寻找线索,获取证据传统的做(zuò)法是要(yào)耗費(fèi)大量人(rén)力、物(wù)力以及時(shí)間(jiān),效率极其低(dī)下(xià),以至于错过最佳破案時(shí)机。因此在視(shì)頻(pín)监控系统中,对原始視(shì)頻(pín)进行(xíng)浓缩,可(kě)以快(kuài)速浏览,锁定检索对象,对于公安加快(kuài)破案速度,提高大案、要(yào)案的破案效率具有重要(yào)指导意义。


对于企业应用来说,視(shì)頻(pín)摘要(yào)与压缩技術(shù)可(kě)以使企业管理人(rén)員(yuán)在短時(shí)間(jiān)內(nèi)浏览完視(shì)頻(pín)。在智能(néng)手机大行(xíng)其道(dào)的今天,使用視(shì)頻(pín)摘要(yào)技術(shù)对监控視(shì)頻(pín)进行(xíng)处理,供手机浏览,既可(kě)以节约管理者的時(shí)間(jiān),又可(kě)以节约大量的流量。


視(shì)頻(pín)摘要(yào)技術(shù)

視(shì)頻(pín)摘要(yào)技術(shù)的研究最早始于1994年(nián)CMU大学的Informedia工(gōng)程,随后德國(guó)曼海(hǎi)姆大学、FXPaloAlto实验室、Minnesota大学、MITRE公司、哥伦比亚大学与微(wēi)软研究院等都(dōu)在這(zhè)方面进行(xíng)了(le)较為(wèi)深入的研究,分别提出了(le)各自(zì)的視(shì)頻(pín)摘要(yào)策略,視(shì)頻(pín)摘要(yào)的表现形式也由最初的静态摘要(yào)转变為(wèi)现在的动态缩略視(shì)頻(pín)。


总的来说視(shì)頻(pín)摘要(yào)是对一(yī)長(cháng)段視(shì)頻(pín)內(nèi)容的简短总结,即視(shì)頻(pín)摘要(yào)就是一(yī)连串静止或运动的图像,分别称為(wèi)静态視(shì)頻(pín)摘要(yào)和(hé)动态視(shì)頻(pín)摘要(yào),它们用精简的方式代表了(le)原視(shì)頻(pín)的內(nèi)容,同時(shí)保留了(le)原內(nèi)容的要(yào)点。静态視(shì)頻(pín)摘要(yào)是從(cóng)原始視(shì)頻(pín)中剪取而生成的一(yī)系列静止图像的集合,這(zhè)些代表了(le)原始視(shì)頻(pín)的图像成為(wèi)关键帧;动态視(shì)頻(pín)摘要(yào)是由一(yī)些图像序列以及对应的音頻(pín)组成,它本身是一(yī)个視(shì)頻(pín)片断。两者區(qū)别是静态視(shì)頻(pín)摘要(yào)只考虑其关键帧,忽略了(le)音頻(pín)信息,但(dàn)生成摘要(yào)的速度比动态視(shì)頻(pín)摘要(yào)快(kuài);动态視(shì)頻(pín)摘要(yào)表现的內(nèi)容比静态視(shì)頻(pín)摘要(yào)丰富,通(tōng)常以镜头的方式表示,融合了(le)图像、声音和(hé)文字等信息。


視(shì)頻(pín)摘要(yào)的作(zuò)用主要(yào)是便于存储和(hé)視(shì)頻(pín)的浏览或查找,相对于原始的視(shì)頻(pín)资料,視(shì)頻(pín)摘要(yào)的長(cháng)度要(yào)短很(hěn)多,节省了(le)存储時(shí)間(jiān)和(hé)空間(jiān)。視(shì)頻(pín)摘要(yào)保留了(le)原內(nèi)容的要(yào)点,所以对于用户来说,浏览或查找視(shì)頻(pín)摘要(yào)比浏览原始視(shì)頻(pín)要(yào)节省時(shí)間(jiān)。


視(shì)頻(pín)摘要(yào)生成方法及过程

視(shì)頻(pín)摘要(yào)的生成方法大致可(kě)以分為(wèi)4类:

简单的生成方法

基于時(shí)間(jiān)点对視(shì)頻(pín)进行(xíng)采样,即每間(jiān)隔一(yī)定的時(shí)間(jiān)抽取一(yī)个代表帧或者一(yī)个片段,這(zhè)种生成方法很(hěn)容易实现,但(dàn)完全没有基于視(shì)頻(pín)的內(nèi)容。


基于視(shì)觉信息的生成方法

根据視(shì)頻(pín)里出现的颜色、纹理、形状、运动方向和(hé)强度等視(shì)觉信息,基于模式识别的思维,应用各种視(shì)頻(pín)和(hé)图像处理技術(shù),进行(xíng)镜头探测、关键帧提取、场景聚类、运动特征提取等一(yī)系列操作(zuò),最终生成具有代表性的关键帧序列或缩略視(shì)頻(pín)。這(zhè)种算法完全基于視(shì)觉特征,忽略了(le)音頻(pín)、字幕等信息对視(shì)頻(pín)的作(zuò)用。


融合多特性的生成方法

在基于視(shì)觉方法的基础上(shàng)融入其他(tā)媒体提供的信息,准确的判断視(shì)頻(pín)片段的重要(yào)程度,這(zhè)种算法是目前大多數(shù)視(shì)頻(pín)摘要(yào)技術(shù)采用的方法。


基于視(shì)頻(pín)句法语义的生成方法

從(cóng)視(shì)頻(pín)的句法结构分析入手,探寻镜头与镜头之間(jiān)、场景与场景之間(jiān)的结构规则,将視(shì)頻(pín)的句法语义尽可(kě)能(néng)完整的保存在摘要(yào)中。



視(shì)頻(pín)摘要(yào)生成过程可(kě)以归纳為(wèi)3个过程:

視(shì)頻(pín)分割

任何視(shì)頻(pín)摘要(yào)算法都(dōu)遵循“先分后合”的原则,要(yào)进行(xíng)視(shì)頻(pín)內(nèi)容理解和(hé)分析必须首先将視(shì)頻(pín)切分成合理的基本单位,這(zhè)些基本单位包括场景、镜头、帧等。


視(shì)頻(pín)內(nèi)容提取

采用模式识别或者視(shì)頻(pín)结构探测的方法来获取能(néng)够被计算机或者人(rén)感觉的信息。


合成摘要(yào)

把判定為(wèi)重要(yào)的視(shì)頻(pín)片段组合在一(yī)起形成某种形式的摘要(yào)。


如(rú)果将上(shàng)述3个过程细化,由原始視(shì)頻(pín)生成視(shì)頻(pín)摘要(yào)首先要(yào)对非结构化的图像流进行(xíng)处理,使之成為(wèi)结构化的數(shù)据,這(zhè)个过程被称為(wèi)視(shì)頻(pín)结构化,又叫視(shì)頻(pín)分析。帧是視(shì)頻(pín)數(shù)据的最小单元,是一(yī)幅静止的畫(huà)面,镜头是由帧组成的視(shì)頻(pín)數(shù)据的基本单位,是摄像头的一(yī)次连续的动作(zuò),只能(néng)拍摄相邻地(dì)点连续发生的事情,场景由內(nèi)容相近的镜头组成,從(cóng)不同的角度描述同一(yī)个事件,視(shì)頻(pín)是由许多场景组成,叙述一(yī)件完成的事情。针对視(shì)頻(pín)內(nèi)容的结构化提取是通(tōng)过自(zì)底向上(shàng)的方法從(cóng)每一(yī)帧中分析出结构化信息。


視(shì)頻(pín)结构化主要(yào)步骤有镜头分割、关键帧提取、场景重构。


镜头分割:镜头是視(shì)頻(pín)检索的基本单元,大部分視(shì)頻(pín)是由一(yī)个个镜头连接而成的。在编辑時(shí),可(kě)能(néng)采用不同的方法将前后两个镜头结合在一(yī)起。两个镜头的结合方法可(kě)能(néng)是突变,即一(yī)个镜头直接加在上(shàng)一(yī)个镜头最后一(yī)个畫(huà)面之后;也可(kě)能(néng)是渐变,如(rú)淡入淡出、慢(màn)转换等。镜头分割过程的主要(yào)工(gōng)作(zuò)是镜头边界的检测。常用的镜头边界检测的算法有突变检测算法和(hé)渐变检测算法。


关键帧提取:在进行(xíng)镜头分割后,視(shì)頻(pín)被分解為(wèi)一(yī)个个连续的镜头。在同一(yī)镜头中,t時(shí)刻的图像帧和(hé)t+1時(shí)刻的图像帧往往在視(shì)觉特征和(hé)內(nèi)容上(shàng)差别不大,所以在一(yī)个镜头中对分析过程而言存在太多的冗余的图像帧,因此就需要(yào)從(cóng)成千上(shàng)万的图像帧中提取关键帧。所谓关键帧是用于描述一(yī)个镜头內(nèi)容的关键图像,它是從(cóng)原始的視(shì)頻(pín)文件中抽取的一(yī)些静态图像。静态視(shì)頻(pín)摘要(yào)就是由這(zhè)些关键帧组成的。用它们来表示視(shì)頻(pín),更加简洁,也消除了(le)在視(shì)頻(pín)分析時(shí)的巨大冗余。关键帧提取主要(yào)是利用图论、曲线分裂、聚类和(hé)奇异值分解的方法。這(zhè)些方法的基本思想是把一(yī)帧看(kàn)成是多维特征空間(jiān)中的一(yī)点,选择的关键帧是点的子集,這(zhè)些点集能(néng)够覆盖特征距离內(nèi)的其它点,或者能(néng)够表明(míng)场景內(nèi)容的变化。关键帧提取算法主要(yào)有:基于镜头边界法、基于颜色特征法、基于运动分析法、基于內(nèi)容的自(zì)适应提取方法、基于聚类的关键帧提取方法等。


场景重构:场景是由语义上(shàng)相关和(hé)時(shí)間(jiān)上(shàng)相邻的若干组镜头组成的。场景是視(shì)頻(pín)所蕴涵的高层抽像概念和(hé)语义的表达。在視(shì)頻(pín)分割中,首先将視(shì)頻(pín)切分為(wèi)一(yī)个个的镜头,然而实质上(shàng)某一(yī)些连续的镜头在情节上(shàng)是相关的,這(zhè)组镜头具有相同的语义,表达同样的主题,将這(zhè)些镜头重构成场景也是視(shì)頻(pín)结构化的重要(yào)部分。重构的场景是观众头脑中形成的主观概念,因此,场景重构的边界检测也就比镜头边界检测要(yào)困难得多,更具有挑战性。完全自(zì)动场景变换检测系统很(hěn)难实现,很(hěn)多文献提出了(le)场景变化检测的算法。這(zhè)些算法可(kě)分為(wèi)两类:時(shí)間(jiān)约束聚类算法和(hé)声音、視(shì)觉特性检测算法。前者是把視(shì)觉相似和(hé)時(shí)間(jiān)接近的镜头组织成一(yī)个场景,目标在于用一(yī)种紧凑且有语义含义的方法表示視(shì)頻(pín);后者则强调模仿人(rén)的观察力检测场景变化。



視(shì)頻(pín)摘要(yào)未来发展趋势

随着視(shì)頻(pín)、音頻(pín)內(nèi)容分析技術(shù)、自(zì)然语言理解以及人(rén)工(gōng)交互技術(shù)的不断发展与完善,未来的視(shì)頻(pín)摘要(yào)技術(shù)将出现以下(xià)发展趋势:


1)多模态的視(shì)頻(pín)摘要(yào),即融合图像、視(shì)頻(pín)、音頻(pín)以及文本等多种媒体內(nèi)容的視(shì)頻(pín)摘要(yào)。大量的实验证明(míng),将各种媒体的特征有机地(dì)结合在一(yī)起,才能(néng)最大限度地(dì)让用户在短時(shí)間(jiān)內(nèi)迅速理解并获取視(shì)頻(pín)的內(nèi)容,如(rú)标题与故事板相结合的摘要(yào)形式必定会比单一(yī)的标题或故事板的摘要(yào)形式更容易让人(rén)理解。


2)交互式的視(shì)頻(pín)摘要(yào)。现在的視(shì)頻(pín)摘要(yào)多半是主观的、按照生成者意图定制的摘要(yào),力求让用户理解或浏览視(shì)頻(pín)內(nèi)容。但(dàn)未来的視(shì)頻(pín)摘要(yào)将是交互式的,允许用户指定摘要(yào)的形式,摘要(yào)哪方面的內(nèi)容,便于用户自(zì)己设计个性化的摘要(yào)。未来的視(shì)頻(pín)摘要(yào)技術(shù)目标是生成自(zì)适应的、可(kě)視(shì)化的視(shì)頻(pín)摘要(yào),即根据用户需求对內(nèi)容进行(xíng)自(zì)适应的表现。具体体现在允许用户对視(shì)頻(pín)片段进行(xíng)标注,允许用户调整缩略的压缩比,如(rú)对感兴趣的內(nèi)容设置较小的压缩率。另外(wài),它可(kě)以通(tōng)过对用户交互记录的分析获取用户的喜好,按照用户喜好自(zì)适应地(dì)生成缩略。目前,已经能(néng)够实现通(tōng)过交互式的地(dì)图以及時(shí)間(jiān)线的方法对新闻視(shì)頻(pín)按地(dì)區(qū)和(hé)時(shí)間(jiān)进行(xíng)快(kuài)速信息的获取。


总而言之,視(shì)頻(pín)摘要(yào)技術(shù)正在向多模态、个性化以及融合的方向发展,具有很(hěn)好的研究价值以及广阔的应用前景。