[AI里程碑]StableDiffusion3今日开源 | 首个开源超越Midjourney

iResearch666

发布于 2024-06-14 20:31:27

1K0

文章被收录于专栏：AI算法能力提高班AI算法能力提高班

⚡[AI里程碑]StableDiffusion3今日开源 | 首个开源超越Midjourney

2024年6月12日，Stable Diffusion 3 Medium的开源代表了生成式 AI 发展的一个重要里程碑。

Stable Diffusion 3 先睹为快

Stable Diffusion 3 开源亮点

Stable Diffusion 3 Medium 是 Stability AI 迄今为止最先进的文本到图像开放模型。
该型号尺寸小，非常适合在消费类 PC 和笔记本电脑以及企业级 GPU 上运行。它的大小合适，可以成为文本到图像模型的下一个标准。
这些权重现在可以在开放的非商业许可证和低成本创建者许可证下使用。如需大规模商业用途，请联系我们获取许可详细信息。
要尝试 Stable Diffusion 3 模型，请尝试使用 Stability Platform 上的 API，在 Stable Assistant 上注册为期三天的免费试用，然后通过 Discord 尝试 Stable Artisan。

Stable Diffusion 3 脱颖而出

SD3 Medium 是一个 20 亿参数的 SD3 模型，提供一些显着的功能：

整体质量和照片级真实感：提供具有卓越细节、颜色和照明的图像，实现照片级真实感输出以及灵活风格的高质量输出。通过 16 通道 VAE 等创新，成功解决了其他模型的常见缺陷（例如手和脸的真实感）。
提示理解：理解涉及空间推理、构图元素、动作和风格的长而复杂的提示。通过使用所有三种文本编码器或组合，用户可以在性能和效率之间进行权衡。
版式：利用我们的 Diffusion Transformer 架构，实现前所未有的文本质量，减少拼写、字距调整、字母形成和间距方面的错误。
资源高效利用：由于其 VRAM 占用空间小，非常适合在标准消费类 GPU 上运行而不会降低性能。
微调：能够从小数据集中吸收细微的细节，使其非常适合定制。

Stable Diffusion 3 网络架构

Stable Diffusion 3 (SD3) 是一种文本到图像模型，由 Stability AI 于 2024 年 6 月 12 日发布。他们的模型系列的下一次演变是在去年大约同一时间推出的突破性 SDXL 的基础上进行的。

Stable Diffusion 3 + NVIDIA

我们与 NVIDIA 合作，利用 NVIDIA® RTX™ GPU 和 TensorRT™ 来增强所有 Stable Diffusion 模型（包括 Stable Diffusion 3 Medium）的性能。 TensorRT 优化版本将提供一流的性能，性能提高 50%。
Stable Diffusion 3 Medium 中的 MMDiT 可以使用 TensorRT 模型优化器通过 INT8 量化进一步优化。在各种 NVidia GPU 上，比较 TensorRT fp16 和 TensorRT int8 的估计端到端加速为 1.2 倍~1.4 倍。与 fp16 引擎相比，int8 MMDiT 引擎的内存节省约为 2 倍。图像质量可以保持最小到可以忽略不计的下降。

Stable Diffusion 3 + ComfyUI

ComfyUI 完全支持 SD3！确保更新到最新版本！
有两个包含文本编码器的 SD3 检查点：SD3 Medium Incl Clips 和 SD3 Medium Incl Clips_t5xxlfp8

这些模型可以像 ComfyUI 中的任何常规检查点一样使用。

sd3_medium.safetensors 包括 MMDiT 和 VAE 权重，但不包括任何文本编码器。
sd3_medium_incl_clips_t5xxlfp8.safetensors 包含所有必要的权重，包括 T5XXL 文本编码器的 fp8 版本，提供质量和资源要求之间的平衡。
sd3_medium_incl_clips.safetensors 包括除 T5XXL 文本编码器之外的所有必需权重。它需要最少的资源，但如果没有 T5XXL 文本编码器，模型的性能将会有所不同。

确保将 sd3_medium_incl_clips.safetensors 或 sd3_medium_incl_clips_t5xxlfp8.safetensors 放入 ComfyUI/models/checkpoints 目录中。

SD3 Medium 基本文件不包含文本编码器/CLIP 权重，因此您必须单独加载它们才能使用该文件。

从 Civita 下载文本编码器权重并将其放入您的 ComfyUI/models/clip/ 目录中。 sd3_medium.safetensors 应放在您的 ComfyUI/models/checkpoints/ 目录中。

简单的 txt2img 工作流程

多提示工作流程

Stable Diffusion 3 + Diffusers

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

image = pipe(
    "A cat holding a sign that says hello world",
    negative_prompt="",
    num_inference_steps=28,
    guidance_scale=7.0,
).images[0]
image

Stable Diffusion 3 数据集

我们使用合成数据并过滤公开可用的数据来训练我们的模型。

该模型已针对 10 亿张图像进行了预训练。
微调数据包括3000万张专注于特定视觉内容和风格的高质量美学图像，以及300万张偏好数据图像。

Stable Diffusion 3 模型下载

您可以在此处从 Civitai 下载所有 SD3 safetensors、文本编码器和示例 ComfyUI 工作流程。

SD3 Medium (4.2 GB)
SD3 Medium Incl Clips (5.8 GB)
SD3 Medium Incl Clips T5XXLFP8 (10.6 GB)
Text Encoder Clip L (234 MB)
Text Encoder Clip G (1.3 GB)
Text Encoder t5xxl_fp8_e4m3fn (4.7 GB)
Text Encoder t5xxl_fp16 (9.5 GB)

Stable Diffusion 3 许可注意事项

SD3 有许可证注意事项！ Stable Diffusion 3 Medium 是根据 Stability AI 非商业研究社区许可证发布的。
该模型可免费用于学术研究等非商业目的。
如果没有 Stability 的单独商业许可，该模型不可用于商业用途。
Stability AI 员工通过 Reddit 宣布，他们将在完成培训后免费发布其他 SD3 模型版本，包括 Small（1B 参数）、Large（4B 参数）和 Huge（8B 参数）版本。