AI作画离线版V5.0，加速几倍作画速度、图片说话功能来啦！

风声之家 2023-02-05 发布于江苏

展开全文

原文链接/

本周V5.0带来了非常多的功能，主要是SD作画加速、多采样器支持、SD二代支持、AI写描述、图片说话、100多种语言的语音识别以及其他人性化功能加入等。

V5.0版本：2023-2-4

1、SD作画加入xformers加速模块（仅Windows10、Windows 11可用加速），显存占用模式选项可选择+xformers，提速至少50%，显存占用也小很多；

2、SD作画加入DPM++等多种采样器，DPM采样器10-20步效果很好；

3、SD作画支持SD2.0、2.1模型加载，但目前仅做了文字转图片功能；

4、SD作画支持VAE模型导入；

5、SD作画支持safetensors格式模型；

6、SD作画新增另一种AI写描述，称为AI写描述2；

7、参数设置导入配置按钮，支持在黑窗显示所有带有图片meta信息的图片内容；

8、加入图片仿照说话视频功能，最终实现人像静图说话的功能，主界面点击【图片说话】按钮选择图片即可；

9、音视频转文字种的大模型更新到2代，扩展到100多种语言；

10、删除俄罗斯图片风格仿造和SD的风格仿造功能，因为现在的SD参考图仿图效果明显效果更好；

11、软件主界面标题显示显存、CPU、内存等信息；

12、主界面设置的大小会记住，参数设置界面选择会记住上次设置的tab。

软件概览

软件名字叫做：AI作画离线版V5.0(基于Disco Diffusion 5.6与Stable Diffusion），基于GitHub上的开源项目Disco Diffusion与Stable Diffusion。

如下，软件主界面，还是以操作简单为主：

▼

软件安装

软件非常大，因为有很多离线模型，下载完成后，按照网盘里的pdf教程即可进行体验。

软件界面如下所示：

▼

软件功能介绍

功能一：DD(Disco Diffusion)作画

软件目录文件夹的settings.json就是作图配置文件，当然离线版本可通过界面进行设置了。

1、描述词设定：描述词之前手动修改json文件经常有小伙伴少输入标点导致出错，界面化可以避免这个问题，如下默认的描述，每段（回车换行算一段）都是同一描述的不同权重关键词。

▼

上面的描述对应的手动修改json如下，也就是界面化无需引号、逗号来分割同一描述的不同权重部分。

▼

队列模式下的描述词设定：当如下勾选了队列模式后，通过固定的句式，可以生成大量的配置文件，也就可以实现生成多套参数的图。

▼

比如我的文字描述这样描述：a beautiful girl by {400|1|艺术家}，当点击保存设置后就会生成400个艺术家的不同配置文件。

注意这个格式{400|1|艺术家}中的{}、|这些不能缺少，完全按照固定格式来，400代表生成400个配置文件，1代表by一个艺术家名字（如果设置成2就代表by两个艺术家名字混搭），艺术家代表的是软件目录下【描述风格库】文件夹下的艺术家.csv文件，而艺术家.csv文件如下所示，两列数据：

▼

软件支持各位自建这种语料库，大家可以复制csv建立副本，然后在副本里修改，注意也是按照两列格式来，第一列是描述，第二列是解释。比如下面我建的颜色.csv文件，简单写了一下，也是一定严格两列来哈，且都放在软件目录下的【描述风格库】文件夹。

▼

2、帮助相关：对于大多数参数，都加入了帮助按钮，鼠标划到对应帮助图标，驻留即可显示参数含义，如下所示，当然大多数都是翻译的官方文档，加入自己的一点注解。

▼

如果想要加入自己对参数的注释，可以修改软件目录下的tip.json，如下对应的描述修改即可，\n为换行。

▼

3、参考图：参考图也人性化了，直接点击按钮选择图片即可，注意看参数旁边的问号，一般加入参考图时，skip_steps这个参数需要设置大一些。

▼

参考图的可玩性很高，比如下面的图都是基于参考图，用的自定义模型人像1.5，AI继续绘制的，有的图我也不用贴上参考图了吧：

▼

队列模式下的参考图：当如下勾选了队列模式后，可以批量选择多张参考图，可以生成大量的配置文件，也就可以实现生成相同参数但参考图不同的图。

▼

4、AI作画模型选择：参数设置里提供两种绘图Diffusion模型引擎选择，原版DD、像素版DD以及其他自定义的PT格式模型，如下图设置：

▼

像素模式作画引擎也可以试试，如下就是像素风格的图，也挺有意思：

▼

自定义模型比如选择国画风或者人像的PT模型文件，然后保存设置即可。

▼

如下演示的是国画模型和人像1.5模型的测试样图：

▼

5、扩散模型训练：上面的自定义模型，诸如人像和国画都可以通过训练来实现，如下点击自己训练Diffusion模型按钮即可打开训练设置界面，4.1版本支持在原来的模型基础上继续训练，支持训练多少步停下训练，具体操作可以看视频：https://www.bilibili.com/video/BV1Ca411S71s。

▼

6、提前终止作画：当作画步数超过5步时，点击提前终止按钮即可终止作画，如下动图所示：

▼

7、导入配置：支持导入图片输出目录images_out文件下的DD作画json配置文件或者生成的图片，如下点击导入配置按钮即可：

▼

默认写入作图参数到输出图片中，考虑到隐私问题，软件支持去掉此功能，如下去掉勾选即可：

▼

8、AI图片描述解析：如下按钮点击，选择图片，稍等片刻即可显示出描述，当然这个描述有所出入，但当作描述来用画出的图也确实不错。

▼

下面演示几张图，解析出来的描述：

a couple of people riding bikes down a road, a matte painting by Makoto Shinkai, featured on pixiv, rayonism, official art, anamorphic lens flare, matte painting

▼

a group of iron man standing next to each other in the ocean, a comic book panel by Paul Pelletier, featured on deviantart, antipodeans, marvel comics, reimagined by industrial light and magic, imax

▼

a painting of a landscape with mountains and trees, a detailed matte painting by Katsukawa Shunsen, pixiv, shin hanga, ukiyo-e, matte painting, detailed painting

▼

9、多显卡多开选择：对于多显卡用户，多开软件，选择显卡序列号，可以实现不同显卡跑图任务，诸如编号从0开始。

▼

功能二：SD(Stable Diffusion)作画

SD作画功能和DD功能基本一致，同样支持队列模式、参考图等功能，SD作画速度更快，且画得更加具象，下面主要介绍SD的参数设置。

同样SD也是具有文字描述和参考图功能，还有一些其他参数，大家可以鼠标悬停到参数旁边的问号就会有说明。

▼

1、描述词设定：描述词句式基本和DD一样，但SD作画多了个负描述，负描述默认可以不写，负描述如果写，就代表不想让绘画结果出现的元素。

▼

支持写个开头，然后如下点击AI生成描述进行续写描述，目前有两种自动写描述引擎了：

▼

2、绘图参数：图片尺寸和DD一样，需要64的倍数，当然随便填写尺寸也行，软件会自动转换；绘图步数和DD类似，不过SD步数50就够了，多了没啥意义；绘制图片轮数代表每次画几张图；描述相关度默认数值就可以，当然可以尝试10以上数值；随机种子默认0，代表每次种子随机，设置大于零的固定值，如果其他参数一样，则SD出图完全一样，这点和DD不一样哈。

▼

3、显存占用模式选择：软件提供不同显存占用模式：超级低、非常低、高、极高，以及带着xformers加速模块模式，加速模块效果拔群，速度很快，显存占用也低了很多。

▼

4、16代黑图问题：针对GTX 16系列，诸如1660等显卡，SD作画会黑图，需要勾选如下选项，可以正常出画。

▼

5、参考图：和DD一样，SD也支持参考图，不过参数比较简单，基本上就是导入原图，修改描述，设置图片差异度参数即可，注意差异度参数范围0-1，1代表与参考图差异最大哈。另外，自适应尺寸比较人性化，比如参考图尺寸宽高为1024x512，绘图参数尺寸设置512×512,默认无，代表不自适应，最终出的图尺寸为512×512，固定宽代表，以绘图参数尺寸设置的宽512为准，参考图宽高比2比1，高自动修改为256，最终输出512x256的图。

▼

如下，试试SD参考图，实现真人参考图用二次元描述实现真人二次元效果：

▼

6、动画：SD动画选择2D，即可开启动画模式，动画也可以设置参考图，支持动画变化角度、缩放大小、xyz轴移位等。

文字描述需要如下格式，每一次换行都是一个过渡描述，每个过渡描述末尾三个冒号后面跟着的数字，代表动画帧数。

▼

SD动画如果选择参考视频，则可以导入视频，实现视频风格转换，参考视频模式下，就和逐帧参考图一个意思了，只是比较便捷。

▼

如下SD动画演示视频：

▼

以下视频来源于

01:15