这是停不下了,小编还要过年啊,DeepSeek 刚刚发布了另一个开源人工智能模型 Janus-Pro-7B,它是多模态模型(可以生成图像),在 GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion 重要的是,只有7B!普通电脑都能运行试试了! 主要特点与优势Janus-Pro 的核心创新在于其 解耦的视觉编码 框架。传统的多模态模型通常将视觉编码功能同时用于理解和生成,这可能会导致性能瓶颈和任务冲突。Janus-Pro 通过将视觉编码解耦到不同的路径,克服了这一局限性,同时仍然采用 统一的 Transformer 架构 进行处理。 这种解耦设计带来了以下显著优势:
性能表现Janus-Pro 在多项基准测试中的出色表现: 多模态理解基准 : 在多模态理解方面,Janus-Pro 家族模型表现出优异的平均性能,显著高于 LLaVA 家族等其他模型
图像生成示例Janus-Pro 及其前身 Janus 在文本到图像生成方面的对比。结果表明,Janus-Pro 在以下方面取得了显著提升:
模型架构与技术细节Janus-Pro 是一个统一的理解和生成多模态大型语言模型 (MLLM),它基于 DeepSeek-LLM-1.5b-base 或 DeepSeek-LLM-7b-base 构建
快速开始与使用 提供了 GitHub 仓库的链接,用户可以访问仓库获取更详细的代码、使用指南以及模型下载地址 https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus-pro 许可与引用 Janus-Pro 的代码仓库采用 MIT 许可证,模型本身的使用受到 DeepSeek 模型许可证 的约束。 如果您在研究或应用中使用了 Janus-Pro 模型,按照以下格式进行引用: @misc{chen2025januspro, ⭐星标AI寒武纪,好内容不错过⭐ |
|