今天,北京天安门城楼前庆祝新中国成立70周年的盛大阅兵活动如期隆重举行。让我们再来领略一下阅兵中的精彩片段: 守候在电视机或者电脑前观看阅兵直播的你,可能不知道的是,在直播的同时,由中央广播电视总台央视频、腾讯视频剪辑团队和腾讯多媒体实验室联合研发的基于AI能力的智能剪辑平台也正在实时对阅兵活动进行剪辑,力求第一时间为大家带来精彩的国庆阅兵视频片段,而以上片段正是出于我们多媒体实验室的AI智能云剪辑技术。 此前 ,央视频和腾讯多媒体实验室达成一致:致力于研发推出“智能云剪辑”能力,利用AI技术完成多媒体内容的剪辑,为央视频平台推送海量的高质量内容。经过一段时间的潜心研发,该能力正式上线央视频系统,并成功运用于国庆大阅兵这一重要时刻。这是我国历史上首次在阅兵直播的同时引入基于AI技术的实时智能剪辑能力。央视频技术负责人表示:“此次由央视频和腾讯多媒体实验室共同研发“智能云剪辑”系统,是“5G+4K/8K+AI”全新战略格局的重要创新实践,我们在国庆阅兵大典直播的同时能做到实时剪辑,并在第一时间推送至央视频阅兵序列产品,是一次意义重大的尝试。” 此次“智能云剪辑”系统算法的核心研发团队,正是腾讯多媒体实验室杰出科学家刘杉博士所带领的多媒体团队。该团队在多媒体内容的分析、处理、理解和质量评估方面已经有了相当的积累。团队运用深度学习技术,结合信号处理理论,将图像、音频、视频等模态信息来应用于视频处理、分析、理解多媒体内容,这就是目前国内外很火爆的“多模态技术”。刘杉博士表示:“我们团队在智能剪辑这个课题上已经有一些探索和积累。此次运用在阅兵场景,一个难点在于可用于模型训练的内容量非常有限。所以我们并不是依赖海量数据来 “搞定”问题。” 智能云剪辑相关技术介绍 智能剪辑流程图 按照阅兵场景的事件顺序,智能剪辑的主干流程为:分列式开始前推送关键事件剪辑结果 、 检测分列式开始、 分列式开始后推送拆条结果、方队集锦、间隔集锦。 在分列式开始前,我们通过背景音识别、关键词检测和目标检测等技术,可定位出国歌、合唱、领导人讲话、检阅等事件,然后将以上精彩的关键事件视频进行后处理,完成智能剪辑与推送。 分列式开始时刻的特点是“特写军官发出分列式开始的口令”,在技术层面利用关键词检测技术检测“分列式开始”口令,以及事件顺序限制来定位该事件。 “分列式开始”关键词语谱图 在分列式开始后,我们通过关键事件定位技术,可定位出方阵间隔位置,以此时间点可得到方阵的拆条结果以及不同方阵间隔处集锦视频。最后将以上集锦视频进行后处理,完成智能剪辑与推送。 陆军方队间隔的特点是“特写军官发出口令” 人民群众方阵间隔的特点是"方阵以特定视角首次出现在镜头中” 阅兵场景下的智能云剪辑依托于多种深度学习技术,能准确识别视频局部的视觉、音频等信息,自动抓取视频内容的特征;结合时序建模技术,利用局部多模态信息捕捉视频全局的事件关系,自动定位事件时域区间,从而做到真正理解视频,完成智能剪辑和推送。 基于多模态特征的时序建模框架 最后,在祖国母亲70华诞之际,让我们献上我们最美好的祝福,我们将用更多更强的技术为祖国的未来添砖加瓦,愿祖国繁荣昌盛! 视频片段没看够?请戳”阅读原文“移步国家级5G新媒体平台,由中央广播电视总台倾力打造的、有品质的视频社交媒体:央视频平台,智能云剪辑小视频,让你一次看个够~ 本文作者:sidatian & serenaychen ———— / END / ———— |
|