立即登录

Wan22-I2V-A14B-LOW-rCM1_0_lora_rank_64_bf16.safetensors

Play Count0
Fork Count0
Like Count0
创建: 2026-03-19更新: 2026-03-19
Wan22-I2V-A14B-LOW-rCM1_0_lora_rank_64_bf16.safetensors - 1

rCM一致性蒸馏扩散模型(LoRA支持万相 2.2 / 2.1 / 文生视频 / 图生视频)

rCM能够在仅2~4步中生成高质量的图像和视频,相比传统的扩散模型,这大大加快了生成速度。rCM通过分数正则化和正向-反向散度联合蒸馏框架,显著提高了生成图像和视频的质量。

Wan2.2模型文件(Kijai版本):

Wan22-I2V-A14B-HIGH-rCM6_0_lora_rank_64_bf16.safetensors

Wan22-I2V-A14B-LOW-rCM1_0_lora_rank_64_bf16.safetensors

Wan2.1模型文件(Kijai版本):

Wan_2_1_T2V_14B_480p_rCM_lora_average_rank_148_bf16.safetensors

Wan_2_1_T2V_14B_720p_rCM_lora_average_rank_94_bf16.safetensors

Wan_2_1_T2V_14B_480p_rCM_lora_average_rank_83_bf16.safetensors

Wan_2_1_T2V_1_3B_480p_rCM_lora_average_rank_64_bf16.safetensors

  • 如果已经加载lightx2v的4步加速LoRA,建议权重从0.3开始尝试。

*注释:关于LoRA 模型中的 rank 参数,LoRA 模型中的 rank 参数是一个关键的超参数,它决定了低秩矩阵的维度,从而影响模型的适应能力和计算效率。选择合适的 rank 参数需要在适应能力和计算效率之间进行权衡,通常需要通过实验来确定最优值。在实际应用中,可以根据具体任务和资源情况,逐步调整 rank 参数,以达到最佳的性能和效率平衡。

图像生成任务:对于图像生成任务,较大的 rank 参数可以更好地捕捉图像的细节和特征,但需要注意计算成本。

轻量级应用:对于需要在移动设备上运行的轻量级应用,较小的 rank 参数可以显著减少计算和存储成本,提高用户体验。


rCM(分数正则化连续时间一致性模型)

针对Wan2.1图像/视频模型具有多方面的实用价值,主要体现在以下几个关键领域:

  1. 加速生成过程

快速采样:rCM能够在仅2~4步中生成高质量的图像和视频,相比传统的扩散模型,这大大加快了生成速度。例如,传统的扩散模型可能需要数百步才能生成高质量的样本,而rCM通过优化的蒸馏方法,将这个过程加速了15倍至50倍。

高效资源利用:这种加速不仅节省了时间,还显著降低了计算资源的消耗。对于大规模的图像和视频生成任务,如内容创作、视频编辑等,这意味着可以在更短的时间内处理更多的数据,提高工作效率。

  1. 提升生成质量

高质量输出:rCM通过分数正则化和正向-反向散度联合蒸馏框架,显著提高了生成图像和视频的质量。它能够生成更细腻、更真实的细节,同时避免了传统方法中常见的模糊和失真问题。

多样性保持:rCM不仅提高了生成质量,还保持了生成样本的多样性。这意味着在生成多个样本时,每个样本都能保持独特的特征,而不是千篇一律。这对于需要多样化内容的应用场景(如广告设计、视频特效等)非常有价值。


rCM:通过分数正则化连续时间一致性进行大规模扩散蒸馏(论文)

作者:Kaiwen Zheng, Yuji Wang, Qianli Ma, Huayu Chen, Jintao Zhang, Yogesh Ba****, Jianfei Chen, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang

机构:NVIDIA, 清华大学 Tsinghua University

研究亮点

rCM 是首个:

将连续时间一致性蒸馏(例如 sCM/MeanFlow)扩展到 100 亿 + 参数的视频扩散模型。

提供开源的 FlashAttention-2 雅可比-向量积(JVP)内核,支持 FSDP/CP 等并行化。

识别 sCM 的质量瓶颈,并通过正向-反向散度联合蒸馏框架克服这一瓶颈。

在仅 2~4 步中生成高质量且具有强多样性的视频。

扩散蒸馏方法的高级比较。尽管正向散度在理论上存在,但实际中的 GAN 仍然受到多样性有限和模型崩溃的困扰。

摘要:本研究首次将连续时间一致性蒸馏扩展到通用应用级别的图像和视频扩散模型。尽管连续时间一致性模型(sCM)在理论上是合理的,并且在加速学术规模的扩散方面具有实证力量,但由于雅可比-向量积(JVP)计算的基础设施挑战以及标准评估基准的局限性,其在大规模文本到图像和视频任务中的适用性仍不明确。我们首先开发了一个与并行化兼容的 FlashAttention-2 JVP 内核,使得 sCM 能够在超过 100 亿参数的模型和高维视频任务上进行训练。我们的研究揭示了 sCM 在细节生成方面的基本质量限制,我们将其归因于误差累积以及其正向散度目标的“模式覆盖”性质。为了解决这一问题,我们提出了分数正则化连续时间一致性模型(rCM),它将分数蒸馏作为长跨度正则化器纳入其中。这种整合为 sCM 补充了“模式寻求”的反向散度,有效地提高了视觉质量,同时保持了高度的生成多样性。在多达 140 亿参数和 5 秒视频的大规模模型(Cosmos-Predict2,Wan2.1)上验证,rCM 在质量指标上与最先进的蒸馏方法 DMD2 相当或超越,同时在多样性方面具有显著优势,所有这些都不需要 GAN 调整或广泛的超参数搜索。经过蒸馏的模型仅在 1~4 步中生成高保真样本,将扩散采样加速了 15 倍至 50 倍。这些结果使 rCM 成为一个实用且理论基础扎实的框架,用于推进大规模扩散蒸馏。

结果:通过蒸馏 Cosmos-Predict2/Wan2.1 图像/视频模型,rCM 在少步 GenEval 和 VBench 结果上达到了最先进的水平。

返图区

暂无返图