AIGC时代已来，跨模态内容生成技术发展得怎么样了

天承办公室 2023-03-08 发布于江苏

展开全文

机器之心报道

机器之心编辑部

最近一年里，AIGC 是人工智能领域里最火的词汇之一。

1 月 10 到 11 日，机器之心「AI 科技年会」在线举行。本次活动中，基于对 2022 年人工智能研究、技术和应用的观察，机器之心邀请业内知名专家、高管及本年度深度合作企业，共同总结了过去一年人工智能的重要经历与成果，讨论了未来 AI 的发展方向。

在大会第二天「AIGC 技术应用论坛」上，百度文心一格总架构师肖欣延博士作了主题为《跨模态内容生成与技术与应用》的演讲。以下为演讲全文，本文进行了不改变原意的整理。

我叫肖欣延，现在主要在百度负责内容生成及 AIGC 技术，也是「文心一格」的总架构师。今天我报告的题目是《跨模态内容生成技术与应用》。

今年大家都很关注人工智能领域的一个方向 —— 内容生成。从图像生成角度来看，下图左边是 2020 年图像生的水平，是很有代表性的一个拍卖画作。到了 2022 年，技术已经相比之前强了很多。我们任意说一句话就能生成一张非常精致的图，不管是非常复杂的山水图，还是很精致很细腻的人物画像，都能做得很好了。我们可以感受到整个内容生成方向的进展是非常迅速的。

其实除了图像生成，语言生成的进展也很快。直观来讲，以前更多的是在比较短的文本上生成得比较好。但到了今年，长文本的内容，比如故事生成、长文案生成，还有多轮聊天，文本生成都能做得很好。它能兼顾到前后的连贯性，甚至有时能保证逻辑上的一致性。

更综合的就是视频创作。视频创作是让机器能够自动创作出一个完整的视频。视频会涉及到文案、画面和歌曲等很多元素。这是百度最近在万象大会上发布的，由 AI 度晓晓作词作曲演唱的 MV《启航星》，里面所有的画面都是用百度的文心一格画出来的。能够看到 AI 能根据歌词的变化，每个变化切换一个场景。

整体上，前面讲到的这些都是智能内容生产，也就是今年大家常说的 AIGC。所谓 AIGC 就是用人工智能来进行内容生产，它的特点是有非常强大的内容生产力，大幅提升内容生产的质量和效率，将来也会极大地丰富大家的数字生活。

这里给了一个简单的对比图，整个内容生产从专业的 PGC 到用户生产的 UGC，现在已经进入了 AIGC 的时代。相信在 AIGC 的时代，整个内容生产的方式，还有内容消费的模式都会有极大的改变。

百度在 AIGC 的技术上有比较多的布局。不管从底层的文心大模型，包括语言、视觉、跨模态大模型，还是在生成能力上面，包括语言生成、图像生成，语音合成和数字人等，各方面都有涉及。

今天要介绍的是其中的一部分 —— 跨模态内容生成。核心来讲，我们希望用文本的描述来生成视觉的内容。比如说一句话能生成一个图像，或者我们写一篇文章，能把文章自动转成视频。报告主要分成两大块，一块是文生图，我会介绍百度的 AI 作画产品文心一格；另外一块是文章转视频。最后，我会进行讨论和展望。

首先是文生图的部分。整体来讲，文生图在 2018 年或更早就有很多研究，我们能看到从 2020 年之后该方向进展很多。从应用角度来讲，很大的一个变化还是在 2022 年扩散模型的图像生成出现，使得整个跨模态生成有了一种跨越式的发展。

我们可以看到，2022 年的图像生成质量相比之前有非常大幅的提升，不管是从构图，还是细节刻画上。这种扩展生成模型如图所示，其实是依照原有图像，逐步增加高斯噪声，将图像转化为高斯分布。这样的处理序列是一张清晰的图片，逐渐变成噪声的过程，这是一个前向过程。而模型要学习的是把噪声去除掉，逐渐的恢复出原始照片。

一旦我们的模型有这样能力，也就是从噪声里面去逐步地去噪，生成更好的图片，它其实上就具备了这种生成图像的能力了。

这是一个简单的描述，扩展生成从应用的角度来讲有这样几个优势：首先，模型的记忆能力是非常强的。我们可以通过提高数据的规模持续地优化。在 2020 年到 2021 年的时候，像 DALL-E 这些模型的数据量的训练规模大概在千万到亿级别这样的量级。到了今年，像 Stable Diffusion 这样的模型的训练规模已经达到了 10 亿的量级。

这么大的数据之下，它对原来图片的记忆能力也挺好的，不会说因为有很多图片，有些东西就没记住。因为记忆能力很强，它的模仿能力就有一定的保证。另外现在它的建模是像素粒度的建模，所以更适合视觉的建模。它能够生成大像素的图片，甚至有一些技术能够无限地扩大整个图片的像素，这样就能够生成一些实用的高清图片。

从技术上来看，Stable Diffusion 确实打开了一个天花板，把效果的上限提升了很多。但在实际的应用当中，并不是直接使用这样一个模型，就能满足应用要求的。好的模型不是简单就等于好的体验。在实际应用当中，从创作过程来讲有三个步骤是需要去解决的。

第一个是创作的需求理解。在跨模态生成里面，我们都是需要输入语言去跟模型交互的，用户到底怎样简单地输入就能拿到一个他希望的图，这就需要一定的需求理解。第二个，图像的生成，也是跨模态生成的核心的部分，在这一部分里用户的需求也很多，有艺术的、写实的，创作的模型该如何去满足。最后是创作需求的满足。很多时候生成一张结果，可能只是部分满意，怎样进行一定的调整满足用户的需求，也是需要通过模型优化去解决的。

面对这些问题，百度研发了一套基于知识与大模型的文生图系统。整体来看，当输入文字描述之后，会先通过知识图谱做需求的理解，进行一定的文本联想扩展。生成文本之后再真正进行跨模态生成，这里面我们有很多跨模态生成模型上面的创新优化。生成完图之后，又会有基于图到图的扩散生成，来支持用户做图像的编辑。最后，因为系统应用到产品上生成图像结果后，用户会有一些反馈，我们也要利用用户的反馈去指导整个学习的模型优化过程，形成一个根据用户需求去进行反馈的闭环。

首先要做文本理解，也就是我们常说的 Prompt 学习，这里面其实主要是要做一些理解，并根据知识进行扩充。

比如用户可能想画一个大楼，一开始可能没有想得很明白需要什么，会输入一个很简单的「大楼」单词。而真正的生成画作，可能有很多方面要去考虑。这个时候，模型就会进行一定的文本理解。根据分析理解的结果，算法主动地帮输入加上一些风格，比如到底是写实风格还是艺术风格，它的色调是怎么样的。当然理解跟扩充从算法上也可以做端到端的生成。不管是哪种方式生成了扩展之后，所有构建出来的 Prompt 都会进行排序，最后分别生成图片供用户去选择。

Prompt 学习是非常重要的，这里给一些例子，我们能看到加不加这些 Prompt 的扩展，效果影响还很大的。比如我们的在文心一格上面输入「微笑女孩」，可能生成的是左边这张图，但是模型会帮他加很多扩展。比如会把这种数字绘画、逆光、电影照明，包括超精细这样一些修饰词都加入进来。

加入之后，我们能看到图片生成会更加有艺术感，质量也会更高。类似的，像天空，大海等景色的图片，都可以通过一些 Prompt 扩展能够使效果有显著的提升。

当然，最核心的部分还是文生图。文本已经确定下来了，输入到系统里面，效果一定要足够的好。为此，百度提出了 ERNIE-ViLG 2. 0，这是一个知识增强的混合降噪专家模型。

从图文相关性上面来看，在跨模态生成里面，语言跟视觉之间的对应关系要做得很好，才能保证用户说什么就生成什么。技术上主要通过对语言、视觉还有跨模态做一些知识增强，更好的实现跨模态知识之间的映射，从而实现图文相关性的提升。

另外我们也提出了一个混合专家扩散模型，扩散模型就像前面说的，是有从有噪声的图像逐步生成一个清晰的画面。这个过程在不同的阶段，对扩散生成的要求是不一样的，所以我们设计了混合专家模型，自动地根据不同阶段选择合适的网络，生成最优的结果。这样整体上模型的建模能力也会更强，生成图片会更加的细腻，构图也更加的清晰。

从实验上也能很直观地看到效果的提升。我们在 MS-COCO 数据集上面做了自动评估，可以看到 ERNIE-ViLG 2.0 在 FID 自动评估上面是当前业界最好的效果。从人工的评估的角度，不管从图像的质量还是图文的对齐，ERNIE 的效果都会更好。

这边给了几个例子，能看到 ERNIE 能生成很精细的图，同时也会生成一些很有创意的图，比如孙悟空穿西装、熊猫在撸串。

可以看到，现在 AI 的创意能力是很强的，至少它能从过去的数据当中学习到组合关系。并且从我们的观感上会认为它有一定的创造力，虽然它还是在模仿，但会感觉它的组合能力很强，会展现一定的创造能力。

在模型上我们还有更进一步的创新。像前面介绍的模型，它其实本质上需要一个文本的输入作为条件去进行扩散生成。这种模式其实就是咱们常见 Stable Diffusion 模型。它通常能生成的图就是比较具象的图，比如画人物，画一些具体的物体，它能画得很好。其实还有另外一类叫做 Disco Diffusion 的模型，它是通过跨模态来引导的，通常能生成意向的图，它比较重视整体的构图，整个构图会比较复杂。

我们的想法也比较直观：能不能把两种引导都融合在一起去支持扩散生成？让扩散生成既依赖于条件的输入，也依赖于整个跨模态匹配的在线的指导，这样就能同时做好两种场景，不管是画人物，还是做很复杂的构图生成。为此，我们提出了文本与跨模态联合引导的统一图像生成 UPainting。

对 UPainting 这样的模型，我们研发出来之后也做了一些评估。能看到它在图像的各方面能力上都做得更好。

这里展示了图片，不管是画一些具体的如熊猫，还是画一些具体的物体，甚至比较复杂的大场景构图，而且中间包含细节的图，现在我们都是画得比较好的。

最后一块是图像编辑。我们画了一个图之后，有时可能不是自己最满意的，希望再进行一次修改。所以我们研发了基于文本驱动的图到图的生成。简单来讲，扩散生成除了依赖于编辑文本的描述，也会依赖于图片的输入。并且我们有个注意力机制来保证扩散过程当中能够更关注用户输入的编辑指令。

具体来讲，图像编辑主要有以下几种功能。首先是元素修改，比如我们已经画了一只猫，但突然想给猫再加一点装饰，给它戴上个眼镜，戴上金链子，就可以通过这样的功能去生成。另外也可以做风格转换，比如像前面输入大楼，已经生成一个真实景观的风格了，但是我们希望把它改成一种比较科幻的，也可以做修改。最后是基于模型已经生成的一张图做二次生成，让模型重新生成一下，它会生成一个比较相近的同款图。这些都是图像编辑。

这些功能都已经集成在文心一格产品上，能够实现一语成画，别具一格的图像生成。这里给了一些我们产品上能生成的图像的例子，能看到不管是复杂的构图，还是细节刻画都是能做得很好的。

比如最左边的这两张图是偏复杂构图的，讲究整个场景意境及整体构图。中间这三张是偏具象的，更关键的是能够把单独物体的精细度画出来。最右边就有点综合了，既要兼顾整体的构图，也要兼顾细节上的精细度。

所以从整体创作的角度来看，各种不同的图像生成能力我们都做得不错。除了通过产品让用户去体验 AI 作画的能力，一格也在很多重要场合进行应用。如一格跟人民日报合作，根据二十大的部分关键词去生成 AI 眼中的未来的中国。

除此之外，文心一格上也在做一些新的探索与合作，寻找到底 AI 绘画的边界会在哪。比如我们跟时尚杂志《COSMO》合作，一起画了二十四节气的专题，并且发布了首个 AI 生成的杂志封面。另外我们也跟朵云轩合作，在全球完成了山水画风格的 AI 作画，并实现了全球首次 AI 山水画拍卖。这幅画作是非常复杂的，我们根据陆小曼的初稿生成了一幅新的山水画，受到了很多专家的肯定，最后也成功地拍卖了。

以上的第一个部分都是文生图，主要是基于语言来进行 AI 绘画。第二块是关于视频创作的，我们能够根据一篇文章来生成一个视频。这个功能非常简单，如图所示，用户输入图文信息，可能是一篇文章，一个搜索 query，甚至可能是一个 PPT，系统就能生成一个视频。

视频的生产其实是比较复杂的，它需要生成其中的文本、视觉，还有语音，有些时候还需要把数字人做出来。还会有视频脚本，规定了整个场景怎么划分，转场建议等。这里面要涉及到模型计算特别多。为了解决这样的问题，并不能用一个简单的模块完成，而是需要一个系统。

整体来讲，我们研发的 TTV 系统逻辑上是模仿人的创作过程的。首先要做文案的理解和组织。还要有一个素材库，这个素材库里有些是从网上获取的真实素材，也有可能是通过 AI 生成的素材。素材都有了之后，再去做所谓的编排，把素材跟文案做对齐，保证最后生成出来的字幕音频和展示的视觉画面是对齐的。

这里面的思路有几种。一种是全部使用生成的素材，也就是原生生成，一种是在已经给定素材之后，进行所谓的素材采编。接下来我就先说一下采编方面的技术。介绍完之后，再说一下纯原生的技术。

首先在视频采编中，给定一篇文章，类似于文生图里面要做 Prompt 构造一样，我们要主动地去构造一个 query，它能够帮助我们去检索相关的素材。整体上简化可以用标签的技术去做，但是更理想的是通过结构化的分析，生成组合的有完整语义的 query 来保证效果。

构建完 Query 后，我们要做素材的扩充，主要是通过匹配的模型，用一个多域多属性的统一匹配，确保有一个非常好的效果。

当素材已经都选回来之后，要把它们放到合适的字幕位置上面。这里主要通过一些语义相关性的计算，计算字幕和素材的语义相关性，计算完之后，素材被放在合适的位置，保证了整个视频的流畅度。

我们也做了一些原生的视频生成。最早一开始展示的《启航星》的视频，是通过文生图的技术来做的。给到一篇文章之后，我们通过文生图的技术生成一些关键帧，再把这关键帧结合起来，生成一个视频。

更进一步，我们还可以做端到端的文生视频，不止真人图像，还可以把动态效果都做出来。这里是百度自研的 VideoDream 模型。整体上来讲，它跟文生图是比较像的，但相比之下它除了生成一张图像，还会生成多帧，形成动态的效果。这里是一些展示的效果。

这些技术已经在百家号的一些场景上落地，能够助力创作者进行高效创作。它的生产效率会相比人工会至少有一个量级的提升，同时从用户的体验指标上和人工基本持平。

同时，我们也在融合一些新的技术，包括数字人，完成数字人 TTV。我们还针对专门的场景，研发专题 TTV，比如大会报道，我们有一些线上直播流数据原始高清数据，可以使用这些专项数据来优化视频质量，支持一些行业级应用。

文生图、文章转视频都是基于语言来生成视觉内容的技术。最后我们进行一些讨论跟展望。从应用的角度来看，AIGC 当下正在发生，它已经在大幅地提升内容创作的质量和效率。我们至少从文生图上观察到它提升了几个量级的效率。以前专业的画师，在一些复杂的画作上，可能需要积累好几年才能构建的素材，现在通过 AI 作画能短时间大量生成。

对于普通用户来讲，它也会成为普惠的人类助手，让每个人将来都可以拥有很强的创作力。

最后是跨模态生成的一些现存的问题。首先是易用性问题。在应用中，用户需要输入文本描述。但事实上，输入文本描述是很复杂的。比如左侧的例子，需要这里密密麻麻的文字才能生成一个图片。再比如右边文心一格的例子上，通用需要这么一大串文字，不管是主体、内容、风格各方面都需要描述才能生成足够好。所以易用性是要进一步提升的。

另一个是可控性。现在模型虽然能生成很精致的图片，但是对于用户指定的数量、位置关系等，并不一定能准确生成。同时有些时候用户输入风格描述之后，因为风格模型会过度拟合到特定场景上面，导致图像结果不符合预期。比如这里，丰收的麦田上用加入了动漫风设定，就容易会出现人物，可见模型的可控性也是需要提升的。

最后总结一下，AIGC 时代已经到来了，百度研发了文生图的技术，发布了 AI 作画的创意产品文心一格。在文章转视频上，目前已经综合各种 AI 能力实现工业化的、可落地的文章自动转视频能力。

展望未来， AIGC 的技术会不断地提升，打造出更强大的用户体验，它的应用场景也会越来越拓宽。最终 AIGC 会无处不在。相信这个过程里面也会产生一些新的职业，如 AI 绘画师、 AI 自媒体，带来更多的就业机会，对社会产生正面的影响。