rss 推荐阅读 wap

青岛信息网,青岛生活网,青岛新闻网!

热门关键词:  自驾游  云南  as  代理  xxx
首页 新闻资讯 城市聚焦 理财投资 娱乐头条 体育运动 购物消费 旅游休闲 科技创新 商业营销 微商创业

腾讯多媒体实验室:基于三维卷积神经网络的全参考视频质量评估算法

发布时间:2019-12-25 21:36:40 已?#26657;?script src="/plus/count.php?view=yes&aid=205390&mid=3" type='text/javascript' language="javascript"> 人阅读

  本文提及的项目是基于腾讯多媒体实验室与北大深圳研究生院李革教授团队的高校联合项目,并通过文章简要回顾了目前学术界和工业界视频质量评估方向的发展状况。

  腾讯有多个视频业务线,点播视频有腾讯视频、企鹅影视,短视频有微视、K歌,直播类有Now直播、企鹅电竞,实时传输类有QQ和微信的音视频通话、无线投屏和腾讯会议等。

  用户对不同的产品有不同程度的期待:?#28909;?#29702;想网络环境下,能不能在27寸显示器上看到毛发清晰可见的高清视频?使用3G?#28909;?#32593;环境时,视频通话能不能保证画面不频繁卡死?

  对业务提供方来说,所有问题都可以归结为一个目的:在不同的网络状况下,保证用户最佳的视频观看体验。在整个视频链路?#26657;?#25105;们可以精确度量大部分模块,如采集、上传、预处理、转码和分发。我们最未知的部分却恰恰是最关键的部分,即用户的视频观看体验到?#33258;?#20040;样。

  视频质量评估的目的是准?#36820;?#34913;量视?#30340;?#23481;的人眼感知质量。不经?#39038;?#30340;源视频因为码率太大而不适合互联网传输。我们必须使用标准的编,如H.264/AVC、HEVC,或自研编来编码进而降低码流大小。然而,视频?#39038;?#20250;不可避免的引入?#39038;?#22833;线给出了一个?#39038;?#22833;真示例图:

  其?#26657;?#30333;线左边对应未经?#39038;?#30340;原始画面,地面砖块上的?#35780;?#28165;晰可见,背景的?#30701;?#39068;色过渡自然。白线右边对应?#39038;?#36807;的低码率视频画面。可以明显的看到?#39038;?#22833;真,砖块?#35780;?#21464;得模糊不清,?#30701;?#20063;因为块效应的原因出现了不自然的云条。

  在工业界和学术界,评估视频质量有两种常用方法:一是视频质量主观实验,二是视频质量客观算法。两种方法有各自的?#35270;?#22330;景和局限性。

  通过主观实验我们能精确衡量视频质量。在某些核心问题上,如codec?#38405;?#27604;较,我们仍需要通过主观实验来得到确切的答案。同时,主观实验打?#36136;?#25454;通常会用作验证客观质量评估算法?#38405;?#30340;Ground Truth。完整的主观实验流程?#35805;?#21253;含:

  ,MS-SSIM[5],这些算法基于经典的信号保真度来判断失真视频与无损视频源的差异,再根据差异大小拟合出视频感知质量。近期的算法有VQM[6],从多个维度提取时空联合特征去逼近主观质量。目前的主流算法有VMAF

  ,使用机器学习方法对多个图像质量客观算法进行融合。借助于融合的思想,VMAF能够灵活的加入新的客观算法。另一方面,通过使用新的数据集来重新训练,VMAF也可以方便的迁?#39057;较?#20998;维度的视频质量评估任务。图像质量评估主要是衡量画面内失真在画面掩盖效应影响下的可感知程度。而视频质量评估不仅仅取决于画面内的失真,也包含时域内的失真和时域掩盖效应。这里掩盖效应可简单理解为背景的复杂程度。如果背景较复杂,我们称之为较强的掩盖效应,反之亦然。

  举个例子,图一中滑板处于快速运动的状态,掩盖效应较强,所以滑板区域的失真更难察觉。而背景中?#30701;?#37096;门是的光滑区域,掩盖效应较弱,细微的?#39038;?#22833;真也能容易察觉到。因此,在开发一个客观视频质量评估算法?#26657;?#25105;们必须把视频固有的运动信息考虑进来。

  在学术界,有很多相应的策略被提出。最常用对做法是提取两种特征,一种特征去描述画面质量,另一种特征去描述视频运动的大小。

  这种做法最大的缺陷是完全剥离了画面信息和运动信息,视频不再被当作三维数据?#21019;?#29702;,而是二维数据加一维数据?#21019;?#29702;。

  。如图2所示,我们使用(x, y, t)来标记空域和时域轴。这里切片如果与时间轴垂直,即(x, y)方向,那么切出来的就是传统意义上的视频帧;如果与时间轴平?#26657;?#21363;(x, t) 或 (y, t)方向,我们就得到了时空联合的二维切片。在某种程度上,后两个切片包含了运动信息。对以上三种切片使用图像质量评估算法,再把切片?#36136;?#34701;合起来,就能取得不错的质量提升。

  对视频而言,一?#30452;?#36739;直观的拓展就是使用三维变换,如三维DCT变换,三维小波变换等。经过三维变换后,我们从变换系数中进一步提取特征来而做质量评估。这种方法保留了视频的时空联合信息,但是三维变换会引入复杂度过高的问题。

  。我们尝试使用三维卷积神经网络来学习时空特征并把它用到视频质量任务中。我们先给出基本的二维和三维卷积模块,再进一步介绍所提出的网络结构。图3a给出了二维卷积核在二维输入上的卷积操作。为了避免歧义,我们假设是对二维图像进行卷积操作。其中输入图像大小为HxW,卷积核大小为kxk,图像时域深度和卷积核时域深度均为1。经过卷积运算输出仍为二维。输入输出均?#35805;?#21547;任何运动信息。

  图3b给出了二维卷积核在三维输入上的卷积操作。我们可以假设输入为一个画面大小为HxW,包含L帧的视频。这里卷积核的深度不再是1,而是跟视频帧数相同。经过卷积操作,输出仍为二维,且与图3a的输出大小相同。这种卷积操作有利用到视频前后帧的运动信息,但是只用一步卷积就把所有运动信息给吃掉了。

  图3c给出了三维卷积核在三维输入上的卷积操作。与图3b相比,这里卷积核的深度为d,且d小于L。经过三维卷积操作,输出仍为三维。当d=1时,等价为图3a的卷积操作对视频帧进行逐帧处理,但是并没有利用到前后帧的运动信息。当d=L时,它的效果等同于图3b。所以当d小于L时,三维卷积能更可控的利用运动信息——如果我们想让运动信息消失的快一些,就调大三维卷积的深度d。相反,使用小一些的d能更缓慢的提取运动信息。

  在此基础上,我们设计了自己的视频质量评估算法C3DVQA。其核心思想是使用三维卷积来学习时空联合特征,进而更好的去刻画视频质量。

  网络包含两层二维卷积来逐帧提取空域特征。经级联后,空域特征仍保留前后帧的时许关系。网络接着使用四层三维卷积层来学习时空联合特征。

  在这里,三维卷积输出描述了视频的时空掩盖效应,而且我们使用它来模拟人眼对视频残差的感知情况:掩盖效应弱的地方,残差更容易被感知;掩盖效应强的地方,复杂的背景更能掩盖画面失真。

  网络最后是池化层和全连接层。池化层的输入为残差帧经掩盖效应处理后的结果,它代表了人眼可感知残差。全连接层学习整体感知质量和目标质量?#36136;?#21306;间的非线性回归关系。

  图4. 本文所提出的网络结构图。包含两层二维卷积,四层三维卷积,池化和全连接层。卷积参数表示:(channel,kernel size,stride, padding)

  的做法,?#30475;?#38543;机抽取80%的参考视频和由它们所得到的失真视频作为测试集。我们重复了20次这样的数据集划分并且?#30475;?#37117;从头开?#20339;?#32451;模型。具体质量评估的散点图如图5所示。

  图5. 质量估计结果散点图,每一个点代表一个待测视频。其中Y轴为估计视频质量,X轴为主观打分结果,左图为LIVE上测试结果,右图为CSIQ上测试结果。

  ,ST-MAD[12],VMAF和DeepVQA[10]。?#30475;?#27979;试都会得到一个PLCC和SROCC,下表中我们使用多次实验结果的中值来代表最终?#38405;堋?#25105;们可以清楚的看到本文所设计的算法C3DVQA在两个数据库上均大幅领先PSNR,MOVIE,ST-MAD,VMAF等传统算法。值得一提的是DeepVQA也是一个基于深度学习的算法,也取得了不错的?#38405;堋?#25105;?#21069;颜?#20123;?#38405;?#25552;提升归结为两方面的原因:

  我们提出了一种基于三维卷积神经网络的全参考算法。通过学习视频的时空联合特征,能更好的解决运动信息丢失问题。相对于传?#31243;?#24449;提取算法,我们的算法能大幅度的提升准确度。

  ?#27604;唬?#36825;一切才刚刚开始,还有很多工作需要补充。我们想要详细的复杂度分析,特别是在没有GPU可用的场景。我们也想知道所训练的算法在数据库上的?#38405;埽?#32780;且不仅仅局限于PGC视频,也包括UGC视频。

  好消息是我们有计划对业界开源模型训练代码,这样能方便所有人去使用自己的数据库训练测试特定视频业务场景。同时,我们?#19981;队?#20219;何?#38382;?#30340;协同开发,不管是贡?#36164;?#25454;库,还是贡?#33258;?#35757;练模型,甚至是抛出业务场景中所遇到的问题。

  人人都是产品经理(是以产品经理、运营为核心的学习、交流、分享?#25945;ǎ?#38598;媒体、培训、社群为一体,全方?#29615;?#21153;产品人和运营人,成立9年举办在线+期,线+场,产品经理大会、运营大会20+场,覆盖北上广深杭成都等15个城?#26657;?#22312;行业有较高的影响力和知名度。?#25945;?#32858;集了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里与你一起成长。

最火资讯

首页 | 新闻资讯 | 城市聚焦 | 理财投资 | 娱乐头条 | 体育运动 | 购物消费 | 旅游休闲 | 科技创新 | 商业营销 |免责声明

Copyright2008-2020 青岛信息网 www.cwska.club 版权所有 业务QQ:17468920 Power by DedeCms 京ICP备13004639号

电脑版 | wap

孙悟空APP
各理财产品排行榜 炒股怎么网上开户 北京pk10 期货配资公司加盟 国内股票指数 600053原来是什么股票 天津11选5 极速快乐十分 功能强大的股票分析软件 东方6+1 快乐赛车 p2p理财平台排名 快乐赛车 宁夏十一选五 2019年每月上证指数 手上有闲钱如何理财