ICEdit In-Context 背景 Edit ICEdit-MoE-LoRA

这是一款基于黑森林Flux-Fill重绘模型和ICEdit-MoE-LoRA实现图像编辑的框架技术ICEdit，一个高效的基于指令的图像编辑框架。

与以往的方法相比，ICEdit 仅需 1% 的可训练参数（200M）和 0.1% 的训练数据（50k），就展现出强大的泛化能力，能够处理各种编辑任务。

相比 Gemini、GPT4o 等商业模型，ICEdit更加开源，成本更低，速度更快（处理一幅图像大约需要 9 秒），性能强大。

ICEdit 利用大规模扩散变换器 (DiT) 增强的生成能力和原生的语境感知能力来解决这一难题。ICEdit 解决方案引入了三项贡献： (1) 一个语境编辑框架，利用语境提示实现零样本指令合规性，避免结构性变化； (2) 一种 LoRA-MoE 混合调优策略，通过高效的自适应和动态专家路由增强灵活性，无需大量的再训练； (3) 一种早期滤波器推理时间缩放方法，使用视觉语言模型 (VLM) 来尽早选择更优的初始噪声，从而提高编辑质量。

•项目主页：https://river-zhang.github.io/ICEdit-gh-pages/ •GitHub：https://github.com/River-Zhang/ICEdit •huggface：https://huggingface.co/sanaka87/ICEdit-MoE-LoRA

返图区