分享

【Stable Diffusion】真人转二次元?图生图如此强大

 勇敢的芯2 2023-05-16 发布于湖南
相比于文生图,图生图功能除了文本提词框以外还多了一个图片框的输入口,因此,我们还可以通过图片来给与AI创作的灵感。

图片

我们随便照一张照片,直接拖入进来。

图片

然后可以看到,在文本输入框的旁边有两个反推提示词的按钮:CLIP是可以通过图片反推出完整含义的句子;DeepBooru是可以反推出关键词组。

图片

上面的那一张图,我们通过两种反推方式得到的提示词分别为:
CLIP——a young boy sitting on a bench with a toy train and a lego train set on the floor next to him, Adam Rex, detailed product photo, a stock photo, lyco art。(一个小男孩坐在长凳上,旁边的地板上放着一辆玩具火车和一辆乐高火车,亚当·雷克斯,详细的产品照片,一张库存照片,莱科艺术,)
DeepBooru——shoes, solo, hat, orange_background, yellow_background, smile, socks, black_hair, sitting, sneakers。(鞋子,独奏,帽子,橙色背景,黄色背景,微笑,袜子,黑发,坐着,运动鞋)
可以看到两种方式生成的提示词都有些瑕疵,比如第一组里面没有描述小孩的穿着,第二组里面没有描述小孩的性别和周围的物品,所以我们需要手动来补充提示词的信息。
写好提示词之后,我们再调整一下宽度和高度,让这个红框刚好匹配我们的图片即可。

图片

接下来,最重要的是这两个参数:提示词相关性和重绘幅度。

图片

我们使用Stable Diffusion中的【X/Y/Z plot】脚本来做一个参数对比,将X轴设置为提示词相关性,取值范围是1-30(+5),代表着从1到30,每次增加5;将Y轴设置为重绘幅度,取值范围是0-1(+0.2),代表着从0到1,每次增加0.2 。

图片

这个对比结果,电脑一共需要生成42张图片,结果如下:

图片

可以看到,提示词相关性在6—11中间为最佳,大于11之后,画面的色彩和脸型就开始崩坏了,

图片

尤其是当重绘幅度变大之后,较高的提示词相关性会让AI走向完全不同的画风。

图片

而重绘幅度的大小可以控制生成图与原图的相似度,在对比图中可以看到,0.4时和原图比较接近,0.6时画面就变成了一个小女孩,当然这个数值也会因每幅图的不同而有所差异。

图片

通过对比,我们使用提示词相关性7和重回幅度0.5,绘制如下:

图片

接下来是绘图功能,比如我们现在想给这个人物增加一个红色的眼镜,可以使用红色的画笔工具做一个简单的描绘,然后在提示词中增加Red glasses,再点击生成。

图片

图片

如果我们想去掉衣服上的图案,可以先用吸管吸取黄色部分,然后用画笔涂上。

图片

再生成时就没有图案了。

图片

绘图功能的话,每次生成都会重新调整整个画面,但是局部重绘的话可以只改变我们涂抹的部分,现在我们将人物的头部涂抹掉,文字提示改为“一个粉色头发的女孩的脸”,点击生成,就可以将头部换掉了。

图片

图片

我们再使用局部重绘(手涂蒙版),修改一下帽子的部分,增加提示词“猫耳”,点击生成。

图片

图片

我们将这幅图再次放入以图生图中,通过DeepBooru反推关键词,并使用一个新的大模型“AbyssOrangeMix2”和LORA“blindbox”进行重新生成,便将图片改成了这种2.5D的人物风格。
图片
当然,目前的图还有不少细节上的瑕疵,我们需要不断地调整参数去让绘图更接近我们想要的状态,包括后期借助PS来进行修补也是非常必要的。但是,我们也能看到图生图功能又拥有的巨大潜力,AI绘图的可操作性方面拥有了更多的想象空间。

图片

图片
END
图片
我是一个IP设计师

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多