分享

不过年?DeepSeek继续整活,推出统一多模态理解与生成模型

 非著名问天 2025-01-28

这是停不下了,小编还要过年啊,DeepSeek 刚刚发布了另一个开源人工智能模型 Janus-Pro-7B,它是多模态模型(可以生成图像),在 GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion

重要的是,只有7B!普通电脑都能运行试试了!

主要特点与优势

Janus-Pro 的核心创新在于其 解耦的视觉编码 框架。传统的多模态模型通常将视觉编码功能同时用于理解和生成,这可能会导致性能瓶颈和任务冲突。Janus-Pro 通过将视觉编码解耦到不同的路径,克服了这一局限性,同时仍然采用 统一的 Transformer 架构 进行处理。

这种解耦设计带来了以下显著优势:

  • · 增强灵活性: 模型在理解和生成任务之间更加灵活,能够更好地适应不同的多模态应用场景

  • · 卓越性能: Janus-Pro 不仅超越了以往的统一模型,还在特定任务上达到了甚至超过了专门模型的性能水平

  • · 简洁高效: 模型架构的简洁性和高效性使其成为下一代多模态模型的理想选择

性能表现

Janus-Pro 在多项基准测试中的出色表现:

多模态理解基准 : 在多模态理解方面,Janus-Pro 家族模型表现出优异的平均性能,显著高于 LLaVA 家族等其他模型

  • 文本到图像生成基准: 在 GenEval 和 DPG-Bench 基准测试中,Janus-Pro 7B 的准确率均超过 84%,与 SDXL、DALL-E 3 等知名模型处于同一水平,甚至更高

    图片

图像生成示例

Janus-Pro 及其前身 Janus 在文本到图像生成方面的对比。结果表明,Janus-Pro 在以下方面取得了显著提升:

  • · 更稳定的输出: 对于简短的提示词,Janus-Pro 能够生成更稳定的图像结果

  • · 更高的视觉质量: 生成的图像具有更高的清晰度和视觉吸引力

  • · 更丰富的细节: 图像细节更加丰富,更贴近文本描述

  • · 简单的文本生成能力: Janus-Pro 增加了生成简单文本的能力,例如示例中的 “Hello”

    图片

模型架构与技术细节

Janus-Pro 是一个统一的理解和生成多模态大型语言模型 (MLLM),它基于 DeepSeek-LLM-1.5b-base 或 DeepSeek-LLM-7b-base 构建

  • · 视觉编码器: 模型使用 SigLIP-L 作为视觉编码器,支持 384x384 像素的图像输入。

  • · 图像生成 Tokenizer: Janus-Pro 使用来自 https://github.com/FoundationVision/LlamaGen 的 tokenizer,并采用 16 倍的下采样率。

快速开始与使用

提供了 GitHub 仓库的链接,用户可以访问仓库获取更详细的代码、使用指南以及模型下载地址

https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus-pro

许可与引用

Janus-Pro 的代码仓库采用 MIT 许可证,模型本身的使用受到 DeepSeek 模型许可证 的约束。

如果您在研究或应用中使用了 Janus-Pro 模型,按照以下格式进行引用:

@misc{chen2025januspro,
title={Janus-Pro: Unified Multimodal Understanding and Generatior},
author={Xiaokang Chen and Zhiyu Wu and Xingchao Liu and Zizheng F},
year=2025},
}

⭐星标AI寒武纪,好内容不错过

求赞👇👇

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多