
近年来,大规模生成模型在视觉内容生产中的能力不断提升,人们对AI的使用方式也逐渐从“纯生成”转向“可控生成”与“智能编辑”。
在创意设计、影视制作、社交媒体、数字人建模等实际场景中,用户往往希望模型不仅能够从文本生成图像,更能够对现有内容进行精细修改,例如保持主体不变的局部编辑、风格调整、跨帧一致的视频修改与现实照片的结构化增强等。
这些任务的共同前提是:模型必须具备稳定可靠的反演(inversion)能力,能够将输入图像准确映射回自身的潜在表示空间。

在新一代生成架构中,Rectified Flow(RF)模型凭借高效的ODE推理、光滑的生成轨迹以及良好的训练稳定性,正成为替代扩散模型的重要方向。越来越多的主流模型开始采用流式生成结构,希望借助其速度、可控性与结构化潜力构建统一式的生成系统。
然而,与其在正向生成上的表现相比,RF在反演阶段仍然面临根本性的数值不稳定问题:逆向路径对误差高度敏感,容易偏离前向轨迹,不同次反演得到的latent表示差异显著,噪声在逆向传播中被放大。这些问题使得RF模型难以在实际编辑任务中稳定重建输入图像,限制了其在真实场景中的可用性。
更关键的是,现有许多改善反演的方法往往依赖额外训练、额外模型组件或对原有结构的修改,这不仅提高了工程成本,也影响了方法在不同架构中的泛化性。
在大模型时代,这类高度依赖训练的优化方式难以满足快速集成与跨模型复用的需求。相比之下,一个能够直接作用于反演流程、无需任何训练即可显著提升稳定性、可立即接入现有模型的plug-and-play机制,显然更符合实际部署的需求。

基于这一动机,西湖大学张驰研究团队提出了PMI(Prox-Mean-Inversion)。PMI的核心思想是利用RF模型内部固有的平均流结构,在逆向ODE的每一步加入一个轻量的proximal修正步骤,从而在不改变模型结构、不引入额外参数的情况下,有效抑制逆向轨迹的偏移与发散。
相关论文已被ICLR26接收。论文的第一作者是来自西湖大学的研究人员王晨如,指导老师为西湖大学AGI实验室的负责人张驰助理教授。实验室的研究方向聚焦于生成式人工智能和多模态机器学习。
由于PMI不需要额外的模型训练,也不改变原有推理方式,它可以直接作为即插即用(plug-and-play)组件集成到各种RF模型中,为反演带来显著稳定性提升。换言之,PMI提供了一种真正意义上的free lunch:无需成本、无需结构修改,却能在多个任务和模型中带来可观收益。
这一特性使PMI对于希望快速落地RF编辑系统的研究和工业场景尤其重要。通过一个简单、通用、训练无关的步骤,就能够赋予模型更可靠的反演能力,从而使本地编辑、条件控制、视频一致性以及多模态交互等任务获得更稳定的基础。
PMI:基于Proximal Operator的逆向轨迹稳定机制
现有Rectified Flow(RF)模型在反演阶段面临的核心挑战,是逆向ODE对微小误差高度敏感,容易沿着数值不稳定方向偏离前向流形,导致轨迹发散、重建不一致、编辑不可控。为解决这一问题,团队提出PMI(Prox-Mean-Inversion),一种针对RF反演稳定性的轻量化修正机制。
PMI的核心思想是:
在每一步逆向积分后,引入一个基于proximal operator的修正项,使得反演轨迹保持在模型内部的“平均流”结构(mean flow)附近,从而显著减少偏移与震荡。
具体来说,RF模型的速度场在训练过程中会形成一种具有代表性的平均方向,反映了模型生成路径上的主要结构特征。逆向ODE在数值上易偏离这一方向,因此PMI在每个时间步通过

将当前latent向平均流估计值进行轻量投影,使其贴近模型高密度区域。
与传统反演增强方法不同,PMI具有以下显著特点:
无需额外训练:完全基于模型现有结构,不引入额外参数。
无需修改原路径或ODE结构:与推理流程完全解耦,保证原始模型行为不受干扰。
即插即用(plug-and-play):可直接嵌入任意RF反演过程,不依赖模型规模或细节。
不增加推理成本:prox步骤仅为轻量算子,不改变时间复杂度。
显著提升反演稳定性:减少多次反演之间的差异,提高轨迹一致性与可控性。
通过PMI,RF模型在无额外开销的前提下获得更平滑、更鲁棒的反演轨迹,为后续的局部编辑、图像增强、风格迁移等任务提供更加稳定的基础表示。
Mimic-CFG:解决编辑中的“身份危机”
在利用反演进行图像编辑时,通常会引入无分类器引导(CFG)。CFG虽然能增强指令的遵循度,但往往会剧烈改动潜空间路径,导致生成的图像虽然符合描述,却丢失了原图的身份特征(ID)或出现严重的伪影。
PMI创新性地提出了mimic-CFG策略来平衡这一矛盾:
方向投影:算法会将带引导的速度场投影到历史平均方向上。
动态补偿:通过这种投影机制,mimic-CFG能够保留原图中本质的结构信息,同时仅在“必要”的维度上响应编辑指令。
效果:模型能在完成“给猫戴上帽子”这种大幅改动的同时,确保这只猫还是原本那只猫,背景纹理也不会崩坏。
mimic-CFG解决的是“编辑效果达到后,未编辑区域是否一致”的问题。
两者结合,使RF模型在反演阶段同时具备数值稳定性与语义可控性,从而显著提升可控编辑任务的可靠性。

实验结果:刷新多项指标,实现“零失真”重建与编辑
研究团队在PIE-Bench(图像编辑权威基准数据集)上对PMI进行了全面评测,并将其与Vanilla RF-Inversion、FireFlow以及传统的Euler采样器进行了多维度对比。
定量分析:重建精度与感知质量的双重领先
在图像重建(Reconstruction)任务中,PMI表现出了统治级的性能。实验数据显示,在相同的采样步数下(如20步):
重建保真度: PMI在PSNR(峰值信噪比)指标上显著高于对比方法,这意味着它能几乎无损地还原原始图像的像素级细节。
感知相似度:在LPIPS指标上,PMI取得了最低的数值,证明其生成的图像在人类视觉感知上与原图高度一致,彻底解决了传统反演中常见的“纹理模糊”问题。
效率优势:相比于需要大量迭代的优化类方法,PMI在更短的推理时间内即可收敛。
零成本适配:即插即用的通用性
值得一提的是,PMI的实验验证不仅限于单一模型。研究证明,PMI具有极强的普适性,它可以直接应用在Flux.1-schnell/dev、Stable Diffusion 3等基于Rectified Flow的主流模型上,无需任何额外的微调或显存开销。


结论与展望
随着Flow模型在生成式人工智能领域的影响力不断扩大,反演(inversion)已成为各类编辑、控制和增强任务的基础能力。然而,Rectified Flow模型在逆向推理过程中普遍存在的不稳定性,使其在实际应用中面临显著限制。PMI的提出为这一核心问题提供了一个高效、简洁且无需额外训练的解决方案。
PMI通过一个基于proximal operator的轻量机制,在不改变模型结构和推理流程的前提下,使逆向轨迹得以稳定地贴近模型的平均流结构,从而显著提升反演的一致性和可复现性。这一方法不仅增强了重建质量,也使得后续的局部编辑、条件控制等任务更可靠、更易用,为Flow模型向实际编辑系统过渡奠定了重要基础。
在实验中,PMI在多个Rectified Flow模型及不同反演场景中均展示了显著优势,包括轨迹稳定性提升、编辑可控性增强以及跨任务的一致表现。其无需训练、即插即用的特点,使其能够直接应用于不同架构、不同规模的Flow系列模型,具有良好的泛化性与工程实用价值。
展望未来,Flow模型的发展将继续朝着更高效、更可控的方向推进。团队相信,以PMI为代表的稳定反演技术将成为推动Flow模型落地的重要组件之一。随着模型规模持续扩大、应用场景不断丰富,稳定的反演机制将在视频编辑、多模态融合、三维生成等复杂场景中发挥更关键的作用,并有望进一步推动Flow模型走向真正意义上的统一生成与可控编辑框架。
富腾优配提示:文章来自网络,不代表本站观点。