本地化AI绘图（秋叶SD）折腾日记

秋叶SD整合包的安装部署
Stable Diffusion AI图像模型理解

1. 编码
2. 图片绘制
3. 图片放大

提示词的理解
基于SD-WebUI界面的参数配置解析

1. 底模
2. Lora微调模型
3. embedding模型

基于图生图功能的头像绘制

篇首首先感谢@秋葉aaaki 秋叶大佬的无私开源！

本来不打算本地化AI绘图大模型，因为我的荣耀续航本不仅配置低下，而且“年老失修”（指的是系统重装计划迟迟未能上马）。但为了画个新的头像，也是翻遍了全网Web的AI绘图服务，令人依旧是不甚满意。还要感谢自己，在选购笔记本时，富有前瞻性地购买了带2050Ti独显的版本，刚好卡在本地SD模型的最低配置要求上。

那么，开始折腾吧——

秋叶SD整合包的安装部署

下载链接来自于【AI绘画·24年8月最新】Stable Diffusion整合包v4.9发布！评论区。

实际安装时，v4.9最新版本安装包解压始终出错，有个别文件权限不受整体解压密码的解锁，截止8/21暂时没有找到对应的解决方案。因此考虑回退版本v4.8.7，再通过客户端内置更新最新版本。

这里发现：v4.9对应解压密码（bilibili-秋葉aaaki）和v4.8.7对应解压密码（bilibili@秋葉aaaki）差一个字符，卡了很久。

Stable Diffusion AI图像模型理解

AI绘画的本质不是生成，而是“去噪”
任何一张图片，经过若干次添加噪点，都可以变成一张满足正态分布的噪点图。模型首先学习“加噪”的过程，再逆向推算出“去噪”的方法，这样就训练出了SD模型。

以最简单的SD模型文生图过程为例，从文字到图片需要经历以下几个处理步骤：

1. 编码

模型无法直接识别文字和图片，需要通过Clip模型它们编码为向量，再计算各个向量的相似度。对于图片和文字，都是同样的逻辑，因此可以实现文生图、图生图等。

WebUI提供了Clip模型终止层数的配置，如上图。该参数越高，图片和文字的匹配过程就会越早结束，两者相关度就越低。一般配置值为2即可。

2. 图片绘制

实际过程即是“去噪”的过程。一般包含：

随机生成满足正态分布的噪点图E
根据上一步的向量，从向量数据库中检索对应的去噪方式f
采样器调用去噪方式f，使用Unet模型对噪点进行预测，得到预测的噪点图P
从P中采样一部分p，通过E-p得到一步去噪后的图片
重复执行，迭代n次得到最终图片。这里的n通过下图的“迭代次数”以配置

对于迭代次数n的配置，一般来说：

过低：意味着每一步大幅度信任噪点预测结果，会降低生成质量
过高：可能导致“画蛇添足”

一般设置在20-40步。

3. 图片放大

这里使用VAE解码器，以还原图片、生成更清晰的图像。

VAE（Variational Auto-Encoder），变分自动编码器，包含编码器与解码器。SD训练过程中运用编码器压缩，以减少运算、加速训练，在还原过程中使用解码器解压、还原成更清晰的图片。

大多数底模都自带VAE，额外配置的VAE用于提升图片质量、提升饱和度等。配置入口见：

提示词的理解

和一般大模型的输入方式类似，在SD中，提示词是控制模型生成图片内容的最主要输入。然而，与ChatGPT等大语言模型不同，SD对于提示词的理解方式不是逐个字符拆分输入、按概率输出，而是从库中检索字符对应的图片样例，再将样例输入模型进行训练，使模型学习对应图像的特征。

由此可见，按词匹配的逻辑，代表了对于库中没有的词，它是无法理解并检索到对应的图片样例的。因此，这提醒我们在编制提示词时需要：

分词输入，而不是按句输入：一般直接使用WebUI内置的提示词库，在输入时选择能匹配到的提示词（英文）
学会“做减法”：提示词会相互污染，并不是越多越好

在WebUI中，提示词分为正反向两种：

正向提示词指定图片中需要出现的内容，可控制的范围包括但不限于风格、人物、背景等
反向提示词指定图片中不能出现的内容，除了上述控制范围外，一般还添加防崩坏、限制生成内容（防止翻车）等提示词，常使用embedding模型（见下文）来集中调用这些提示词

基于SD-WebUI界面的参数配置解析

1. 底模

首先是最基础的“底模”，即控制整体风格的模型，又称Checkpoint。

底模需要从下载到本地，常用的来源网址如C站（需要墙）。本地保存地址见：

SD目录\models\Stable_diffusion\

2. Lora微调模型

Lora微调模型用于框定更具体的细节特征，是在底模基础上做修正，类型包括但不限于：人物、风格、衣着、场景。配置步骤如下：

下载保存到本地目录（常用的来源网址同上，如C站）
```
SD目录\models\Lora\
```
在提示词框添加Lora微调模型触发词

3. embedding模型

又称Texture Inversion（C站中），是提示词的集合，用于省略编写大量提示词，一般用于反向提示词，减少崩坏等。同样需要输入触发词。

基于图生图功能的头像绘制

整体参数和文生图类似，主要是多了图片输入的入口。

关注最重要的参数：重绘幅度。对于该参数的值，一般来说：

0.7以下：适用于重绘图片，不会大幅改变画面结构，可以更改风格
0.7以上：会大幅度改变画面结构

Manueld

路上见识世界，途中认清自己