主题基于离散表示统一多模态理解与生成:把一种新模态当作一门外语 时间2024.9.14 20:00-21:00 周六 入群
大纲
引言大语言模型(LLM)通过Decoder Only Transformer的架构和Next Token Prediction任务,在海量文本数据上进行训练,不仅学会了各种NLP任务,并涌现出In Context Learning、Chain-of-Thought等新能力。然而,有人预测互联网上的高质量文本数据将在未来几年内用尽,而现有的LLM仍未达到我们对通用人工智能(AGI)的展望。互联网不仅包含文本,还涵盖了图像、音视频等多种模态的数据,这引出了一个问题:我们如何统一高效地训练这些多模态数据? AnyGPT提出了一种生成式训练方案,将所有模态的数据转换为统一的离散表示,采用Next Token Prediction任务在LLM上统一训练。从压缩即智能的角度出发:当Tokenizer的质量足够高,LLM的困惑度(PPL)足够低,就有可能将互联网的海量多模态数据压缩在同一个模型中,并涌现出纯文本LLM没有的能力。基于原始的GPT结构和多模态离散化表示,AnyGPT统一了文本、语音、图像、音乐四种模态,并实现任意模态组合的相互转换。 嘉宾介绍
|
|