AnyGPT | 基于离散表示统一多模态理解与生成：把一种新模态当作一门外语 -- NICE27期

黄爸爸好 2024-09-12 发布于上海

展开全文

主题

基于离散表示统一多模态理解与生成：把一种新模态当作一门外语

时间

2024.9.14 20:00-21:00 周六

入群

论文：AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
地址：https:///pdf/2402.12226

大纲

首个统一多模态理解与生成的模型SpeechGPT：使大语言模型具有内生的语音对话能力
如何获得更适合语言模型建模的语音表示？SpeechTokenizer：语音语义信息和副语言学信息的解耦
基于离散表示的Any-to-Any多模态模型AnyGPT：基于离散表示统一文本、图像、语音、音乐四种模态
类GPT-4o模型 SpeechGPT2：如何基于语言模型，对多模态信息进行完整的建模

引言

大语言模型（LLM）通过Decoder Only Transformer的架构和Next Token Prediction任务，在海量文本数据上进行训练，不仅学会了各种NLP任务，并涌现出In Context Learning、Chain-of-Thought等新能力。然而，有人预测互联网上的高质量文本数据将在未来几年内用尽，而现有的LLM仍未达到我们对通用人工智能（AGI）的展望。互联网不仅包含文本，还涵盖了图像、音视频等多种模态的数据，这引出了一个问题：我们如何统一高效地训练这些多模态数据？

AnyGPT提出了一种生成式训练方案，将所有模态的数据转换为统一的离散表示，采用Next Token Prediction任务在LLM上统一训练。从压缩即智能的角度出发：当Tokenizer的质量足够高，LLM的困惑度（PPL）足够低，就有可能将互联网的海量多模态数据压缩在同一个模型中，并涌现出纯文本LLM没有的能力。基于原始的GPT结构和多模态离散化表示，AnyGPT统一了文本、语音、图像、音乐四种模态，并实现任意模态组合的相互转换。

嘉宾介绍

詹俊，复旦大学硕博连读三年级，师从邱锡鹏教授。
他的研究兴趣是大语言模型的跨模态理解与生成，在ACL、EMNLP等国际会议上发表多篇论文，参与多模态模型SpeechGPT和AnyGPT的开发工作。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：黄爸爸好 > 《agent》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多