在 Windows 上安装 SwarmUI

Stable Diffusion 是一种生成人工智能模型，可以根据文本和图像提示生成独特的逼真图像。Stable Diffusion和ChatGPT、Midjourney是AIGC应用快速体验推荐的应用，也与 Meta Llama 3 一起作为开源人工智能模型的代表。

SwarmUI

SwarmUI（以前称为 StableSwarmUI）是Stable Diffusion官方推出的一款WebUI框架，致力于易于访问、高性能和可扩展性，可以在Windows、Linux及Mac 电脑及 Docker 上运行（《AIGC应用快速体验》一文中有更多Stable Diffusion用户界面的介绍），支持Stability AI自家的图像模型SD 1.5、SDXL、SD3、Stable Cascade，以及 Black-Forest-Labs FLUX.1，Black-Forest-Labs拥有开发第一个Stable Diffusion的原始开发人员。并且，SwarmUI还支持AI 视频模型（LTX-V、Hunyuan Video、Cosmos 等），并计划在未来支持音频等。

以在 Windows 上安装及运行为例，实践环境：

Windows 11
SwarmUI v0.9.2.2、v0.9.3.1
SD3 - Medium、SD3.5 Large Turbo
FLUX.1-dev

安装 SwarmUI

在 Windows 上安装 SwarmUI 需要注意：

您最好拥有NVIDIA或者AMD显卡，否则极可能出现运行错误，即使能够运行，推理效果也不如意。
如果您使用的是 Windows 10，则可能需要先手动安装git和DotNET 8（Windows 11 是自动安装的）。

1、下载 Install-Windows.bat 文件，将其存储在您想要安装的地方（一定不是 Program Files，最好是一个全新无空格字符的目录中），然后运行Install-Windows.bat。

Install-Windows.bat窗口

安装程序应该打开命令提示符并自行安装。如果它关闭或者出现错误提示，请尝试重新运行它，直到没有错误提示并完成。

安装程序完成后，它将自动启动 SwarmUI 服务器，并打开浏览器窗口进入，进入继续安装界面。

浏览器中的SwarmUI Installer

2、按照页面上的安装说明进行操作。由于需要下载选择的ComfyUI（Local）引擎和模型较大，请耐心等待。如果在命令行窗口中出现错误提示，通常是远程服务器存在问题（就是一个与互联网相关的常见问题），可以重置计算机、重置联网然，甚至删除已生成的文件夹后重新启动安装。

示例安装选项：• Theme: modern_light • UI Is For: just_self • Backend: comfyui • Model: sdxl1

运行 SwarmUI

3、安装完成后，运行安装目录中的launch-windows.bat。

launch-windows.bat窗口

默认启动模式为WEB，弹出浏览器窗口，这里就是生成图像的界面。

在核心方面，SwarmUI利用了强大且可扩展的ComfyUI后端。

ComfyUI 是一个专为 Stable Diffusion 设计的基于节点的图形用户界面，简单来说就是将整个图像生成过程分解为多个独立的节点，每个节点都有自己独立的功能，例如加载模型，文本提示，生成图片等等。每个模块通过输入和输出的线连在一起变成一个完整的工作流。整个过程用户可以灵活的调整和配置不同的功能节点，这就代表整个模型更加自由，控制更加精准。

4、应用进阶

SwarmUI有许多的参数调整，主要集中在生成参数和ComfyUI自定义工作流。在此仅展示在Utilities > Model Downloader下载和换用其他模型。

前面提到，SwarmUI 还支持 Black-Forest-Labs FLUX 模型。Flux 有 Pro、Dev和Schnell三个版本，逐级蒸馏而来，Pro版本仅可通过 API 获得，推荐Dev版本用于非商业应用，有测评称效果超过SD3，甚至是有史以来第一个真正击败 Midjourney 的开源软件。Flux提供更快的生成时间、更高的图像质量和更用户友好的界面，前提是需要大量计算资源来运行推理。

主要模型下载地址：
Stable Diffusion 3 - Medium（约 4 GB）
FLUX.1-dev（约 22 GB）
Stable Diffusion 3.5 Large（约 16 GB）
文本编码器下载地址：
clip_l.safetensors（约 200 MB）
clip_g.safetensors（约 1 GB）
t5xxl_fp16.safetensors（约 9 GB）

注意：

默认情况下，第一次运行模型时，Swarm 将为您下载文本编码器，通常是t5xxl_enconly.safetensors。
许多实践指南里的方法都是正确的，但可能您无法正常重现运行，主要是由于SwarmUI、模型及文本编码器的版本选择和存放位置等问题引起的。本文实践的FLUX.1模型放在SwarmUI\Models\diffusion_models文件夹，SD模型放在SwarmUI\Models\Stable-Diffusion文件夹，CLIP和T5放在SwarmUI\Models\clip文件夹。
本文不涉及更多的原理、概念解释和参数调整。

生成图像对比

主要模型生成图片的效果对比，除了设置Steps和CFG Scale，都没有经过更多的其他参数调整（实际使用中应该探索最优设置，以及在采样器等项目上作出更积极的选择）。

Steps/步骤：模型针对给定的一组噪声执行一定次数。增加步骤可以提高图像质量，但值越高，收益就越低。
CFG Scale/引导比例：调整引导比例以控制模型与提示的贴合程度。较低的值鼓励创造力，而较高的值则强制严格遵守。
使用Stable Diffusion模型，可以分别设置为20-40/7-12；而使用FLUX.1模型，可以试试20/1。
另外，模型对自然语言提示敏感，建议使用描述性语言而非标签式提示。精心制作的提示词通常包含以下组件：
主题：图像的主要焦点。
风格：艺术方法或视觉美学。
构图：元素在框架内的排列方式。
照明：场景中的光的类型和质量。
调色板：主要颜色或配色方案。
情绪/氛围：图像的情感基调或氛围。
技术细节：相机设置、透视或特定的视觉技术。
附加元素：支持细节或背景信息。
负提示词优化：排除不需要的元素，特别是Stable Diffusion模型。

以下是使用stable-diffusion-xl-base-1.0模型和stable-diffusion-3-medium模型生成图片的对比。

prompt: An image of a woman standing straight on, head turned slightly to her left, looking directly into the camera with a confident yet curious expression. She has dark brown, wavy hair and fair skin with noticeable freckles. Her eyes are amber brown with a warm light reflecting in them. She wears a tartan plaid garment in navy blue and red with white lines, and the neckline is slightly off her right shoulder. The setting is brightly lit with natural light. via PromptHero

以下是使用FLUX.1-dev原始模型和stable-diffusion-3-medium模型生成图片的对比。

2210-A-woman-with-wavy-dark-brown-hair,-weari-flux1-dev-1453910635.jpg

prompt: A woman with wavy dark brown hair, wearing an off-shoulder oversized brown knit sweater. She gazes softly toward the camera, slightly tilting her head, with her right hand gently brushing her hair. The lighting is warm, creating a cozy atmosphere. via PromptHero

以下是使用FLUX.1-dev原始模型和stable-diffusion-3.5-large模型生成图片的对比。

2010-Under-the-willow-tree-on-the-shore,-ther-flux1-dev-1453910635.jpg

prompt: Under the willow tree on the shore, there is a poor scholar in ragged clothes, shaking a broken fan in his right hand. He is Zu Qianqiu. Zu Qianqiu is in his fifties, with a scorched complexion, a rosacea nose, dull eyes, a few sparse beards, and a sheen on his clothes. He stretched out his two hands, and his ten fingernails were full of black dirt. mud. He was thin, but had a big belly. via 金庸《笑傲江湖》第十四章祖千秋登场。

2341-Under-the-willow-tree-on-the-shore,-ther-flux1-dev-1453910635.jpg
FLUX.1-dev 设置 Steps 20 / CFG Scale 1 及 Sampling Euler的重新生成

SwarmUI指南

如果提示SwarmUI需要更新，下载源代码，覆盖SwarmUI文件夹，执行update-windows.bat即可。

视频教程：Zero to Hero；SwarmUI 大师教程包含视频中提到的资源链接。
SwarmUI 官方文档

👍

酷玛DS

酷玛DS