一 简介DeepSeek R1 模型,在文字创作,代码编程、数据推理等多方面都具有不俗的表现,但是R1模型并不支持以文生图的功能,DeepSeek在多模态方面已早有布局,其实去年,他们就曾发过一个多模态模型就是Janus,2025年的1月27日,又发布了Janus的pro版本即 Janus-Pro。 二 Janus-Pro2.1 以文生图功能Janus-Pro 为DeepSeek开源的最新的多模态模型,主要为以文生图而设计,在同类模型测试中也表现优异,见下测试对比图。 Pro版本相对Janus有几大改进:
通过对比可以看出,Janus-Pro已经跻身最优秀的以文生图的模型之列,同尺寸规模的模型测试中,Janus-Pro-7B的表现最优;右图,在基准测试中,Janus-Pro在GenEval这个模型生成效果测试中得分最高80%,在执行准确度DPG-Bench测试中,也是得到了最高84.2%分; Janus和Janus-Pro生成图的对比效果如下图,差距还是非常巨大的; 2.2 分析理解图功能Janus-Pro不光可以以文生图,还可以反过来分析图片中的信息,比如你可以上传图像,让它分析图中的物体,解释图中的文本,分析上下文等。 比如下图的分析效果: 我将官网的测试对比图发送给它官网的在线图片分析模型,进行分析,得到如下结果: 同一句提示词,英文交互给出的分析结果更为详细些: 英文交互分析结果 2.3 以文生图功能对比在官网中,以文生图更推荐FLUX而不是Janus-Pro,Janus-Pro和FlUX的对比如下: 以下是将图片中的英文转换成中文后的 Markdown 表格: 特性 Janus Pro Flux 主要关注点 多模态任务,文本-图像交互 高质量图像生成 性能 擅长指令执行,多模态任务 高质量图像且生成速度快 训练成本 相对较低的预算 未明确说明,可能更高 图像分辨率 输入:384 x 384 像素,输出:最高 768 x 768 可生成高达 1024 x 1024 像素 社区支持 开源,在 Hugging Face 上可用 拥有强大的社区支持和优化 总结,Flux更擅长高质量的图像快速生成,Janus Pro 是一个可以处理文本和图像的多模态模型。它擅长将数学方程式图像转换为 LaTeX 代码以及根据详细的文本提示生成图像等任务。 我测试了下发现网页版本,两个生成图像的速度都比较慢,也许是高峰期比较拥堵的原因。 2.4 本地运行和体验如果只是简单的体验,可以直接去https:// 网址来体验在线以文生图和分析图片内容两个功能,不过可能是因为使用者太多的原因,导致生成图片的速度特别慢,所以也可以考虑下本地部署Janus-Pro-1B和Janus-Pro-7B这两个开源版本的模型; Janus-Pro-1B
Janus-Pro-7B
下载地址 7B模型:https:///deepseek-ai/Janus-Pro-7B1B模型:https:///deepseek-ai/Janus-Pro-1B 三 总结Janus-Pro作为DeekSeek开源的多模态模型,不光可以以文生图,还具备强大的图像理解能力,无论对个人AI用户,还是对有需要的企业用户,都提供了一种多模态模型的解决方案,期待DeepSeek后续给我们带来更多优秀的模型; 四 AI名词解释和开源语言模型发布平台4.1 AI交流中常见的术语
关系图 4.2 开源语言模型发布平台
|
|
来自: 黄金屋3399 > 《数字AI人工智能》