Stable Diffusion 是一种生成人工智能模型,可以根据文本和图像提示生成独特的逼真图像。Stable Diffusion和ChatGPT、Midjourney是AIGC应用快速体验推荐的应用,也与 Meta Llama 3 一起作为开源人工智能模型的代表。
SwarmUI(以前称为 StableSwarmUI)是Stable Diffusion官方推出的一款WebUI框架,致力于易于访问、高性能和可扩展性,可以在Windows、Linux及Mac 电脑及 Docker 上运行(《AIGC应用快速体验》一文中有更多Stable Diffusion用户界面的介绍),支持Stability AI自家的SD 1.5、SDXL、SD3、Stable Cascade,以及 Black-Forest-Labs FLUX 模型,Black-Forest-Labs拥有开发第一个Stable Diffusion的原始开发人员。
以在 Windows 上安装及运行为例,实践环境:
- Windows 11
- SwarmUI v0.9.2.2、v0.9.3.1
- SD3 - Medium、SD3.5 Large Turbo
- FLUX.1-dev
安装 SwarmUI
在 Windows 上安装 SwarmUI 需要注意:
- 您最好拥有NVIDIA或者AMD显卡,否则极可能出现运行错误,即使能够运行,推理效果也不如意。
- 如果您使用的是 Windows 10,则可能需要先手动安装git和DotNET 8(Windows 11 是自动安装的)。
1、下载 Install-Windows.bat 文件,将其存储在您想要安装的地方(一定不是 Program Files,最好是一个全新无空格字符的目录中),然后运行Install-Windows.bat
。
Install-Windows.bat窗口
安装程序应该打开命令提示符并自行安装。如果它关闭或者出现错误提示,请尝试重新运行它,直到没有错误提示并完成。
安装程序完成后,它将自动启动 SwarmUI 服务器,并打开浏览器窗口进入,进入继续安装界面。
浏览器中的SwarmUI Installer
2、按照页面上的安装说明进行操作。由于需要下载选择的ComfyUI(Local)引擎和模型较大,请耐心等待。如果在命令行窗口中出现错误提示,通常是远程服务器存在问题(就是一个与互联网相关的常见问题),可以重置计算机、重置联网然,甚至删除已生成的文件夹后重新启动安装。
示例安装选项:• Theme: modern_light • UI Is For: just_self • Backend: comfyui • Model: sdxl1
运行 SwarmUI
3、安装完成后,运行安装目录中的launch-windows.bat
。
launch-windows.bat窗口
默认启动模式为WEB,弹出浏览器窗口,这里就是生成图像的界面。
在核心方面,SwarmUI利用了强大且可扩展的ComfyUI后端。
ComfyUI 是一个专为 Stable Diffusion 设计的基于节点的图形用户界面,简单来说就是将整个图像生成过程分解为多个独立的节点,每个节点都有自己独立的功能,例如加载模型,文本提示,生成图片等等。每个模块通过输入和输出的线连在一起变成一个完整的工作流。整个过程用户可以灵活的调整和配置不同的功能节点,这就代表整个模型更加自由,控制更加精准。
4、应用进阶
SwarmUI有许多的参数调整,主要集中在生成参数和ComfyUI自定义工作流。在此仅展示在Utilities > Model Downloader
下载和换用其他模型。
前面提到,SwarmUI 还支持 Black-Forest-Labs FLUX 模型。Flux 有 Pro、Dev和Schnell三个版本,逐级蒸馏而来,Pro版本仅可通过 API 获得,推荐Dev版本用于非商业应用,有测评称效果超过SD3,甚至是有史以来第一个真正击败 Midjourney 的开源软件
。Flux提供更快的生成时间、更高的图像质量和更用户友好的界面,前提是需要大量计算资源来运行推理。
主要模型下载地址:
- Stable Diffusion 3 - Medium(约 4 GB)
- FLUX.1-dev(约 22 GB)
- Stable Diffusion 3.5 Large(约 16 GB)
文本编码器下载地址:
- clip_l.safetensors(约 200 MB)
- clip_g.safetensors(约 1 GB)
- t5xxl_fp16.safetensors(约 9 GB)
注意:
- 默认情况下,第一次运行模型时,Swarm 将为您下载文本编码器,通常是t5xxl_enconly.safetensors。
- 许多实践指南里的方法都是正确的,但可能您无法正常重现运行,主要是由于SwarmUI、模型及文本编码器的版本选择和存放位置等问题引起的。本文实践的FLUX.1模型放在
SwarmUI\Models\diffusion_models
文件夹,SD模型放在SwarmUI\Models\Stable-Diffusion
文件夹,CLIP和T5放在SwarmUI\Models\clip
文件夹。 - 本文不涉及更多的原理、概念解释和参数调整。
生成图像对比
主要模型生成图片的效果对比,除了设置Steps和CFG Scale,都没有经过更多的其他参数调整。
以下是使用stable-diffusion-xl-base-1.0模型和stable-diffusion-3-medium模型生成图片的对比。
prompt: An image of a woman standing straight on, head turned slightly to her left, looking directly into the camera with a confident yet curious expression. She has dark brown, wavy hair and fair skin with noticeable freckles. Her eyes are amber brown with a warm light reflecting in them. She wears a tartan plaid garment in navy blue and red with white lines, and the neckline is slightly off her right shoulder. The setting is brightly lit with natural light. via PromptHero
以下是使用FLUX.1-dev原始模型和stable-diffusion-3-medium模型生成图片的对比。
prompt: A woman with wavy dark brown hair, wearing an off-shoulder oversized brown knit sweater. She gazes softly toward the camera, slightly tilting her head, with her right hand gently brushing her hair. The lighting is warm, creating a cozy atmosphere. via PromptHero
以下是使用FLUX.1-dev原始模型和stable-diffusion-3.5-large模型生成图片的对比。
prompt: Under the willow tree on the shore, there is a poor scholar in ragged clothes, shaking a broken fan in his right hand. He is Zu Qianqiu. Zu Qianqiu is in his fifties, with a scorched complexion, a rosacea nose, dull eyes, a few sparse beards, and a sheen on his clothes. He stretched out his two hands, and his ten fingernails were full of black dirt. mud. He was thin, but had a big belly. via 金庸《笑傲江湖》第十四章祖千秋登场。
SwarmUI指南
- 视频教程:Zero to Hero;SwarmUI 大师教程包含视频中提到的资源链接。
- SwarmUI 官方文档
楼主残忍的关闭了评论