篇首首先感谢@秋葉aaaki 秋叶大佬的无私开源!
本来不打算本地化AI绘图大模型,因为我的荣耀续航本不仅配置低下,而且“年老失修”(指的是系统重装计划迟迟未能上马)。但为了画个新的头像,也是翻遍了全网Web的AI绘图服务,令人依旧是不甚满意。还要感谢自己,在选购笔记本时,富有前瞻性地购买了带2050Ti独显的版本,刚好卡在本地SD模型的最低配置要求上。
那么,开始折腾吧——
秋叶SD整合包的安装部署
下载链接来自于【AI绘画·24年8月最新】Stable Diffusion整合包v4.9发布!评论区。
实际安装时,v4.9最新版本安装包解压始终出错,有个别文件权限不受整体解压密码的解锁,截止8/21暂时没有找到对应的解决方案。因此考虑回退版本v4.8.7,再通过客户端内置更新最新版本。
这里发现:v4.9对应解压密码(bilibili-秋葉aaaki)和v4.8.7对应解压密码(bilibili@秋葉aaaki)差一个字符,卡了很久。
Stable Diffusion AI图像模型理解
AI绘画的本质不是生成,而是“去噪”
任何一张图片,经过若干次添加噪点,都可以变成一张满足正态分布的噪点图。模型首先学习“加噪”的过程,再逆向推算出“去噪”的方法,这样就训练出了SD模型。
以最简单的SD模型文生图过程为例,从文字到图片需要经历以下几个处理步骤:
1. 编码
模型无法直接识别文字和图片,需要通过Clip模型它们编码为向量,再计算各个向量的相似度。对于图片和文字,都是同样的逻辑,因此可以实现文生图、图生图等。

WebUI提供了Clip模型终止层数的配置,如上图。该参数越高,图片和文字的匹配过程就会越早结束,两者相关度就越低。一般配置值为2即可。
2. 图片绘制
实际过程即是“去噪”的过程。一般包含:
- 随机生成满足正态分布的噪点图E
- 根据上一步的向量,从向量数据库中检索对应的去噪方式f
- 采样器调用去噪方式f,使用Unet模型对噪点进行预测,得到预测的噪点图P
- 从P中采样一部分p,通过E-p得到一步去噪后的图片
重复执行,迭代n次得到最终图片。这里的n通过下图的“迭代次数”以配置
对于迭代次数n的配置,一般来说:
- 过低:意味着每一步大幅度信任噪点预测结果,会降低生成质量
- 过高:可能导致“画蛇添足”
一般设置在20-40步。
3. 图片放大
这里使用VAE解码器,以还原图片、生成更清晰的图像。
VAE(Variational Auto-Encoder),变分自动编码器,包含编码器与解码器。SD训练过程中运用编码器压缩,以减少运算、加速训练,在还原过程中使用解码器解压、还原成更清晰的图片。
大多数底模都自带VAE,额外配置的VAE用于提升图片质量、提升饱和度等。配置入口见:

提示词的理解
和一般大模型的输入方式类似,在SD中,提示词是控制模型生成图片内容的最主要输入。然而,与ChatGPT等大语言模型不同,SD对于提示词的理解方式不是逐个字符拆分输入、按概率输出,而是从库中检索字符对应的图片样例,再将样例输入模型进行训练,使模型学习对应图像的特征。
由此可见,按词匹配的逻辑,代表了对于库中没有的词,它是无法理解并检索到对应的图片样例的。因此,这提醒我们在编制提示词时需要:
- 分词输入,而不是按句输入:一般直接使用WebUI内置的提示词库,在输入时选择能匹配到的提示词(英文)
- 学会“做减法”:提示词会相互污染,并不是越多越好
在WebUI中,提示词分为正反向两种:
- 正向提示词指定图片中需要出现的内容,可控制的范围包括但不限于风格、人物、背景等
- 反向提示词指定图片中不能出现的内容,除了上述控制范围外,一般还添加防崩坏、限制生成内容(防止翻车)等提示词,常使用embedding模型(见下文)来集中调用这些提示词

基于SD-WebUI界面的参数配置解析
1. 底模

首先是最基础的“底模”,即控制整体风格的模型,又称Checkpoint。
底模需要从下载到本地,常用的来源网址如C站(需要墙)。本地保存地址见:
SD目录\models\Stable_diffusion\
2. Lora微调模型

Lora微调模型用于框定更具体的细节特征,是在底模基础上做修正,类型包括但不限于:人物、风格、衣着、场景。配置步骤如下:
下载保存到本地目录(常用的来源网址同上,如C站)
SD目录\models\Lora\
- 在提示词框添加Lora微调模型触发词
3. embedding模型
又称Texture Inversion(C站中),是提示词的集合,用于省略编写大量提示词,一般用于反向提示词,减少崩坏等。同样需要输入触发词。
基于图生图功能的头像绘制
整体参数和文生图类似,主要是多了图片输入的入口。

关注最重要的参数:重绘幅度。对于该参数的值,一般来说:
- 0.7以下:适用于重绘图片,不会大幅改变画面结构,可以更改风格
- 0.7以上:会大幅度改变画面结构