硬核！教你4招玩透AI绘图！真实感爆棚！

鹩歌 2023-12-22 发布于陕西

展开全文

大家好，我是川哥。

以下正文：

最近有几个买了阿川AI的兄弟问我：

为什么使用MJ的时候总是画不出来自己想画的内容，而且画出来的内容和描述词完全驴唇不对马嘴。

出于负责任的态度，我问这些兄弟们的描述词是怎么写的。

好家伙，不问不知道，一问直接给我看懵了！

要么是直接用中文绘画，要么就是不知道从哪搜罗来的SD的提示词，一堆奇奇怪怪的参数全都往上填。

别说画出来的内容跟想的不一样了，这些能画出来东西都已经是相当不容易了。

前段时间我看了国外一个大佬总结的一个MJ使用手册，内容相当硬核。

但因为是全英文并且内容实在太长，所以潜心学习了很久才看完。

正好借着这次机会来给兄弟们分享几条贼实用的MJ使用技巧，条条干货，耐心看完！

（以下演示图片全部来源于阿川AI生成）

1、不要用绘画风格来代替绘画类型

很多人在使用MJ绘画真实风格的作品时，经常会使用 “realistic” 或者 “photorealistic” 一类的词汇。

想以此来让MJ画出自己想要的风格。

但实际上，这类词汇是一个绘画风格的术语，不仅不适用于MJ画真实的照片，反而会适得其反，画出更差的效果。

如果你想用MJ画出真实感的照片，就不要使用绘画风格的术语，而是使用摄影术语。

比如相机品牌或焦距这些，这样的词汇更能让MJ生成具有照片效果的图像。

举个例子，如果你想画一张真实感的自然风光照片。

错误的Prompt：

“A landscape with mountains and a lake,photorealistic.”

正确的Prompt：

“A landscape with mountains and a lake, Nikon D850, 24mm f/1.4 lens, natural lighting, golden hour.”

下面这个Prompt使用了具体的相机型号（Nikon D850）、镜头规格（24mm f/1.4）、光线条件（自然光照、黄金时分）等摄影专业术语。

最终呈现出来的效果就更接近真实质感的自然风景照片。

2、MJ的偏见

MJ进行模型训练时，会从互联网上获取对应的图片和文字描述。

而文字描述是以英文形式进行提取的，比如一个男人的照片，对应的文本描述可能就是“man”。

但是世界上除了使用英语的国家，还有几十亿的非英语语言国家。

这些国家的人在上传图片时不会使用英语来给图片打标签。

于是就导致了MJ不仅不会识别英语之外的语言，而且当你输入“man”想画一个男人时，MJ总是会画出一个英美长相和穿着的男人。

这就是MJ的偏见。

这种偏见还存在于很多地方，比如“nurse” 倾向于生成女性， “terrorist” 倾向于生成深色皮肤的阿拉伯样子的人。

所以当你想要画某些特定人物的图片时，务必要提前指明人物的国籍或者种族。

另外在使用阿川AI的时候，如果输入的是中文，请务必点击右上角翻译功能，翻译成英文后，再提交任务。

3、代入AI的视角

MJ作为一款AI绘画工具，它理解事物的思维方式和我们对于世界的认知是完全不同的。

我们输入一段文本，它对于这段文本的理解，主要是来源于互联网上存在的那些照片。

比如我们输入“bird”，MJ对于这个单词的理解可能是鹰、知更鸟、鹦鹉、乌鸦、火烈鸟甚至是企鹅等等。

那最终MJ画出来的效果可能就是随机结合了这些动物特征的一个合成图像。

所以我们需要暂时放下自己的思维习惯和前提假设。

尝试从一个“傻乎乎”的、对三维物理世界、历史或科学一无所知的机器的视角来更好地理解和使用AI。

比如你想画一幅“未来城市”的图片。

错误的方式是直接输入：

“画一个未来的城市，有高科技感的建筑和飞行的汽车。”

这种提示词依赖于AI对“未来”、“高科技”和“飞行的汽车”这些概念的理解。

但是AI对于这些概念的理解可能和我们对于这些概念的理解不同。

所以最终出来的效果就可能和我们的想法有所差距。

那代入AI的视角，我们就可以转而使用更具体、更描述性的语言。

比如：

“画一个有着类似玻璃和金属材料的高塔、天空中有类似小型飞机的车辆、街道上有多彩灯光和屏幕的城市景象。”

这样的话就不是依赖AI对“未来”或“高科技”的主观理解，而是提供了具体的、可以直接解释的细节。

那最终AI生成的图片就会更准确，更符合我们的想象。

4、词不在多而在准

很多人使用MJ时总喜欢凑一大堆词，但实际上由于CLIP的标记上限是77，所以MJ能够接收到的单词量也是有限的。

我们可以粗略的把MJ单词上限看成是50个，也就是说，我们输入给MJ的单词量不要超过50个。

超过50个的话，那Prompt最开始的部分就有可能被截断，导致MJ绘图时丢失重要内容。

那如果一段Prompt内容过长，应该怎么样缩减长度呢？

4个方法：

1）减少赘述

比如需要画一位在夜晚的神秘森林中穿着未来风格盔甲的女战士。

ChatGPT或者很多人写的提示词大概长这样：

'想象一个未来世界中的女战士，她穿着由未来科技制成的盔甲，这种盔甲闪耀着金属的光泽，并带有高科技元素。女战士站在一个充满神秘色彩的森林中，是在夜晚，周围树木葱郁，月光透过树梢照射下来，给场景增添了一种神秘感。她的表情坚定，眼神中透露出勇敢和智慧。在这个场景中，还应该有一种未来感和神秘感的融合，呈现出一种既科幻又奇幻的氛围。'

这个提示词虽然详细，但过于的冗长和复杂。

而且很可能会超过AI系统处理的标记限制，太多的细节也可能会让AI难以捕捉主要元素。

那我们就可以提取这个画面的关键视觉元素，去掉冗余的描述，最后凝练成这样：