智能云剪辑智能云剪辑---国庆阅兵视频背后的高科技

看见就非常 2020-07-06

展开全文

今天，北京天安门城楼前庆祝新中国成立70周年的盛大阅兵活动如期隆重举行。让我们再来领略一下阅兵中的精彩片段：

‍守候在电视机或者电脑前观看阅兵直播的你，可能不知道的是，在直播的同时，由中央广播电视总台央视频、腾讯视频剪辑团队和腾讯多媒体实验室联合研发的基于AI能力的智能剪辑平台也正在实时对阅兵活动进行剪辑，力求第一时间为大家带来精彩的国庆阅兵视频片段，而以上片段正是出于我们多媒体实验室的AI智能云剪辑技术。

此前，央视频和腾讯多媒体实验室达成一致：致力于研发推出“智能云剪辑”能力，利用AI技术完成多媒体内容的剪辑，为央视频平台推送海量的高质量内容。经过一段时间的潜心研发，该能力正式上线央视频系统，并成功运用于国庆大阅兵这一重要时刻。这是我国历史上首次在阅兵直播的同时引入基于AI技术的实时智能剪辑能力。央视频技术负责人表示：“此次由央视频和腾讯多媒体实验室共同研发“智能云剪辑”系统，是“5G+4K/8K+AI”全新战略格局的重要创新实践，我们在国庆阅兵大典直播的同时能做到实时剪辑，并在第一时间推送至央视频阅兵序列产品，是一次意义重大的尝试。”

此次“智能云剪辑”系统算法的核心研发团队，正是腾讯多媒体实验室杰出科学家刘杉博士所带领的多媒体团队。该团队在多媒体内容的分析、处理、理解和质量评估方面已经有了相当的积累。团队运用深度学习技术，结合信号处理理论，将图像、音频、视频等模态信息来应用于视频处理、分析、理解多媒体内容，这就是目前国内外很火爆的“多模态技术”。刘杉博士表示：“我们团队在智能剪辑这个课题上已经有一些探索和积累。此次运用在阅兵场景，一个难点在于可用于模型训练的内容量非常有限。所以我们并不是依赖海量数据来 “搞定”问题。”

智能云剪辑相关技术介绍

智能剪辑流程图

按照阅兵场景的事件顺序，智能剪辑的主干流程为：分列式开始前推送关键事件剪辑结果、检测分列式开始、分列式开始后推送拆条结果、方队集锦、间隔集锦。

在分列式开始前，我们通过背景音识别、关键词检测和目标检测等技术，可定位出国歌、合唱、领导人讲话、检阅等事件，然后将以上精彩的关键事件视频进行后处理，完成智能剪辑与推送。

分列式开始时刻的特点是“特写军官发出分列式开始的口令”，在技术层面利用关键词检测技术检测“分列式开始”口令，以及事件顺序限制来定位该事件。

“分列式开始”关键词语谱图

在分列式开始后，我们通过关键事件定位技术，可定位出方阵间隔位置，以此时间点可得到方阵的拆条结果以及不同方阵间隔处集锦视频。最后将以上集锦视频进行后处理，完成智能剪辑与推送。

陆军方队间隔的特点是“特写军官发出口令”

人民群众方阵间隔的特点是"方阵以特定视角首次出现在镜头中”

阅兵场景下的智能云剪辑依托于多种深度学习技术，能准确识别视频局部的视觉、音频等信息，自动抓取视频内容的特征；结合时序建模技术，利用局部多模态信息捕捉视频全局的事件关系，自动定位事件时域区间，从而做到真正理解视频，完成智能剪辑和推送。

基于多模态特征的时序建模框架

最后，在祖国母亲70华诞之际，让我们献上我们最美好的祝福，我们将用更多更强的技术为祖国的未来添砖加瓦，愿祖国繁荣昌盛！