分享

DeepSeek发布AI生图王炸,尝试下科研绘图,效果令人意外!

 skysun000001 2025-02-10 发布于北京

DeepSeek AI生图工具,科研绘图评测

近期,科技界的目光再次聚焦于DeepSeek,这家创新公司不仅以开源且经济的R-1模型挑战了OpenAI的o1模型,更在图像生成领域掀起了新的波澜。

最新推出的Janus-Pro,作为开源AI图像模型,DeepSeek 表示,Janus-Pro 7B 在几个基准测试中都优于 OpenAI 的 Dall-E 3 和 Stable Diffusion。但它真的那么好吗?它是否如预期的那样?科研绘图表现咋样?今天我们来评测一下。

Janus-pro简介

Janus-Pro是Janus模型的增强版,专为多模态理解和生成而设计。它采用了更先进的训练方法、更大的数据集和更大的模型规模。Janus-Pro系列包括10亿和70亿两种模型尺寸,生成的图像分辨率为384×384。Janus-Pro通过单独的视觉编码方法进行多模态理解和视觉生成任务,整体架构仍然基于自回归的Transformer。

image-20250209005247795
Janus-pro模型架构

对于多模态理解,Janus-Pro使用SigLIP编码器从图像中提取高维语义特征,并将其映射到LLM的输入空间。对于视觉生成,该模型使用VQ tokenizers和生成适配器将图像转换为离散的ID,再通过生成适配器映射到LLM的输入空间。

image-20250209005406922
Janus-pro模型效果

在GenEval基准测试中,Janus-Pro-7B的得分为0.80,超越了OpenAI的Dall-E 3和Stability AI的Stable Diffusion 3 Medium,成为文本到图像生成领域的佼佼者。

Jannus-pro效果初探

我们首先通过一个简单的Prompt来测试Janus-Pro的生成效果:

Prompt: A beautiful 35 year old woman of average build wearing a pink tulle dress sits on the ground in front of the Eiffel Tower. Soft light illuminates her face as she poses for a photo with Paris in the background in Chanel style. Her shoulder length brown hair is styled in loose waves that fall to one side.

图片

左边是Janus-Pro生成的图像,右边是Dall-E-3生成的图像。

Janus-Pro的分辨率较低,但其生成的图像在自然度上更胜一筹,尽管在细节处理上(如手指)仍然存在问题。

科研绘图

尝试下概念图绘制

image-20250209005741342
Janus-pro绘制水文地理概念图

在科研绘图方面的表现。尽管受限于分辨率,Janus-Pro在生成概念图方面表现不错。

相同的Prompt下,对比Imagen3和DALL-E,Janus-Pro的表现明显优于DALL-E-3,若不是分辨率限制,其效果甚至可能与Imagen3相媲美。

image-20250209095723104
Imagen3(左)和DALL-E(右)

然后我们试试当前最好的AI生图模型,FLUX-pro

image-20250209005851546
FLUX-pro

整体看效果要好不少!

前景

仍然很看好Jannus-pro!

尽管Janus-Pro在分辨率和细节处理上仍存在局限,但其表现已经令人惊喜。作为DeepSeek的开源模型,Janus-Pro的参数量较小,易于本地部署,这使得它在学术和商业领域具有广泛的应用潜力。

DeepSeek已经在HuggingFace上发布了Janus系列模型,支持更广泛的研究和应用:

  • Janus-1.3B:https:///deepseek-ai/Janus-1.3B
  • JanusFlow-1.3B:https:///deepseek-ai/JanusFlow-1.3B
  • Janus-Pro-1B:https:///deepseek-ai/Janus-Pro-1B
  • Janus-Pro-7B:https:///deepseek-ai/Janus-Pro-7B

这就让我们很容易本地部署这些模型。

另一个关键限制是 384 × 384 的受限输入分辨率。此外,文本到图像生成的分辨率相对较低,再加上视觉分词器的重建损失,可能导致图像缺乏许多细节水平。

这些模型的发布,标志着DeepSeek在AI竞赛中的强大竞争力。

如果你也想尝试这些模型

目前我是用Poe的多模型集合,我把订阅教程放在下面,感兴趣的同学可以自己订阅尝试多种ai生图模型~

Poe是由知名问答社区Quora开发的人工智能聊天机器人平台。

它集成了GPT-4、Claude、DALL-E、StableDiffusionXL等市面上主流的大模型。每月19.9美元(和GPT一样)

但是好处就是可以使用多模型集合,这在大模型百花齐放的时代就很关键了,几乎能够确保你一直有sota模型使用

官网页面:https:/// (需要魔法)

image-20250209003440712
image-20250209003440712

最重要的是,还包含一些图片生成,音频和视频AI。对于我这种多需求的用户来说,几乎是我最好的选择了。

每个月的费用是20刀,和GPT一样。

Poe的订阅方式也很简单,可以自己操作,账号稳定不封

首先在官网注册账号,https:///

然后点击订阅,选择套餐,可以先开一个月试试水(这个时候如果开日区魔法会优惠一些,汇率问题,这里我是港区)

1个月20刀订阅,有10万积分

注意,有一些模型是需要积分的,如o1,o3

image-20250209004005076
Poe集成的一些模型

再如写代码的claude,仅仅300一条,每月100万积分够够的了

image-20250209004153143
Poe集成的一些模型

最好的AI生图工具才1500积分

image-20250209100023198
Poe集成的一些模型

这里需要一张虚拟卡来订阅服务

登录野卡平台注册账号,登录,先开一张卡片,网址如下

https:///i/ER4VMUC2

image-20250209004508227
虚拟卡平台

注册后,然后选择订阅的产品

https:///i/ER4VMUC2

image-20250209004650904
选择Poe产品

直接充值相应金额(支付宝)

然后把卡片信息复制到Poe订阅中

image-20250209004804390
把卡的信息直接填到对应地方就行了

就能无限制使用多模型集合了!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多