SDXL VAE v1.0 - BizyAir 模型详情

SDXL是一种潜在扩散模型，其扩散过程在一个预训练的、已学习的（且固定的）自编码器潜在空间中进行。虽然大部分语义合成工作由潜在扩散模型完成，但我们可以通过提升自编码器的质量来增强生成图像中的局部高频细节。为此，我们使用更大的批大小（256 对比 9）训练与原始稳定扩散模型相同的自编码器架构，并额外使用指数移动平均 (EMA) 来跟踪权重。结果表明，改进后的自编码器在所有评估的重建指标上均优于原始模型，详见下表。

评估 SDXL-VAE 对比原版 kl-f8 VAE 对比 f8-ft-MSE

COCO 2017（256x256，val，5000 张图片）模型 rFID PSNR SSIM PSIM 关联评论 SDXL-VAE 4.42 24.7 +/- 3.9 0.73 +/- 0.13 0.88 +/- 0.27 https://huggingface.co/stabilityai/sdxl-vae/blob/main/sdxl_vae.safetensors SDXL 中使用的原来的 4.99 23.4 +/- 3.8 0.69 +/- 0.14 1.01 +/- 0.28 https://ommer-lab.com/files/latent-diffusion/kl-f8.zip 适用于 SD 卡 ft-MSE 4.70 24.5 +/- 3.7 0.71 +/- 0.13 0.92 +/- 0.27 https://huggingface.co/stabilityai/sd-vae-ft-mse-original/resolve/main/vae-ft-mse-840000-ema-pruned.ckpt 恢复使用 ft-EMA 的 EMA，重点关注 MSE（记录损失 = MSE + 0.1 * LPIPS），输出更

返图区