视频编辑迈入流式拖拽时代！DragStream 实时修改任意帧，免训练适配主流 AI 生成器

xigua · 2026 年3 月 10 日 09:41

AI 视频生成技术已实现写实度与流畅度的跨越式突破，但 “生成 - 不满意 - 重生成” 的低效循环始终困扰用户 —— 现有工具无法在流式生成过程中实时修改画面，拖拽操作要么局限于单帧、要么适配性差、要么效果失衡。而新加坡南洋理工大学与合肥工业大学团队在 ICLR 2026 上提出的DragStream，彻底破解了这一行业痛点：首次实现视频流式生成时的实时拖拽编辑，用户可任意时刻拖动画面物体进行平移、旋转、变形，系统自动保持后续帧连贯自然，且免训练、即插即用，无缝适配主流自回归视频扩散模型（VDMs），真正让视频创作进入 “所见即所得” 的交互式时代。

目前，DragStream 项目已全面开源，包含代码仓库、项目主页与在线 Demo，为消费级交互式视频工具的落地奠定了核心技术基础。

行业痛点：流式视频编辑的三大核心难题

在 DragStream 出现前，流式视频的拖拽式操控始终面临难以突破的瓶颈，严重限制了用户的创作自由度：

功能割裂：主流方案仅支持单帧编辑或固定轨迹动画，无法同时覆盖 “编辑（修改已生成帧）” 与 “动画（生成后续帧）” 两大场景，且不支持 2D/3D 旋转、自由变形等复杂拖拽效果；
流式适配难：现有方法多针对双向 VDMs 设计，无法匹配自回归 VDMs 的流式生成范式，用户发现画面问题后只能重新生成整段视频，无法实时修正；
成本与效果失衡：基于微调的方案需耗费数百小时 H100 GPU 算力，门槛极高；免训练方案则易出现拖拽失效、画面伪影、物体属性错乱等问题。

更关键的是，直接在流式场景中应用拖拽操作，还会触发两大核心挑战：

隐分布漂移：拖拽带来的扰动会在隐空间持续累积，导致物体颜色、类别出现非预期错乱，甚至中断拖拽过程；
上下文干扰：流式生成依赖的过往帧视觉线索，会误导模型生成重复部件、伪影，让画面效果极不自然。

核心创新：REVEL 任务定义 + DragStream 双机制破解

针对行业痛点，研究团队首次提出REVEL 任务（流式拖拽导向交互式视频操控），统一了拖拽式视频操控的标准范式；同时打造免训练的 DragStream 方法，通过两大核心机制从根源上解决隐分布漂移与上下文干扰问题。

1. REVEL 任务：统一视频

拖拽操控范式

REVEL 任务明确了核心目标：用户可对自回归 VDMs 生成的任意视频帧，在任意时刻施加拖拽操作，且后续帧需与修改后的画面保持一致，实现流式、细粒度控制。

其关键突破在于首次将拖拽式视频操控统一为两大类型，且均支持平移、变形、2D/3D 旋转等全类型操作：

编辑型拖拽：直接修改已生成视频帧的画面内容（如旋转某帧中的物体）；
动画型拖拽：基于现有帧，按拖拽指令生成后续视频片段（如拖动物体形成连续运动轨迹）。

这一范式打破了过往 “编辑与动画割裂、操作类型受限” 的局限，为流式交互式视频编辑建立了统一标准。

2. DragStream 双核心机制：免训练实现高质量操控

DragStream 采用免训练、模型无关的设计，可无缝集成到任意自回归视频扩散模型中，无需修改模型主干，核心依赖两大创新机制：

（1）自适应分布自校正（ADSR）：解决隐分布漂移

拖拽操作会导致隐编码的均值、方差剧烈波动，偏离原始分布，引发画面错乱。ADSR 策略的核心思路是：

记录当前帧前序相邻帧隐嵌入的稳定统计信息（均值、标准差）；
每一轮隐优化迭代后，用这些信息对当前帧的隐编码分布进行校正，持续抑制拖拽带来的分布漂移。

实验证明，ADSR 能有效保证拖拽过程稳定持续，避免物体属性非预期变化，即便连续拖拽 20 秒（188 帧），画面内容仍能保持一致性。

（2）空频选择性优化（SFSO）：平衡上下文利用与干扰抑制

上下文帧是流式生成的基础，但也是拖拽效果的主要干扰源。SFSO 机制从频域与空域双维度实现选择性优化：

可切换频域选择（SFS）：通过 2D 傅里叶变换与巴特沃斯滤波器，随机选择截止频率进行滤波，平衡高低频信息传播 —— 既保留细粒度细节，又避免高频噪声导致的伪影；
临界驱动空域选择（CSS）：通过高斯滤波图约束梯度反向传播，梯度权重随与拖拽区域中心的距离衰减，确保优化聚焦目标区域，避免背景与非编辑区域失真。

通过 SFSO，模型能充分利用上下文帧的有效信息，同时彻底缓解干扰，让拖拽效果精准自然。

实测表现：全维度领先 SOTA，泛化性拉满

研究团队构建了包含 204 段不同场景、拖拽轨迹的基准数据集，与 DragVideo、SG-I2V 等 SOTA 方法进行全面对比，结果显示 DragStream 在可视化效果、量化指标与泛化性上均实现碾压级领先。

1. 可视化效果：精准自然，无伪影无失效

在 2D/3D 旋转、平移、变形等各类拖拽场景中，DragStream 能精准跟随用户指定轨迹，完美保留物体外观与结构，几乎无视觉失真、伪影或拖拽失败情况；而对比方法普遍出现画面畸变、物体结构错乱、拖拽失效等问题。

例如动画型 3D 旋转拖拽中，DragStream 生成的视频帧连贯流畅，物体旋转角度精准；而对比方法生成的画面出现明显伪影，甚至无法识别物体原貌。

2. 量化指标：四大核心指标全面领先

采用行业通用的四大量化指标评估，DragStream 的表现远超现有方案：

ObjMC（运动保真度）：得分 23.05，远低于对比方法，证明物体能精准跟随拖拽轨迹；
DAI（拖拽编辑质量）：得分 0.05，为行业最低，说明编辑区域与用户目标高度匹配；
FVD（视频整体质量）：得分 552.39，显著优于对比方法，视频流畅度更高；
FID（画面保真度）：得分 23.72，表现最优，画面写实度与自然度更佳。

3. 泛化性：覆盖复杂场景与多模型适配

DragStream 的泛化能力经大量实验验证，适配各类复杂创作需求：

支持物体遮挡、移出画面再重新进入等复杂场景，仍能稳定保留物体外观与结构；
可应对 5 秒、10 秒、20 秒长视频的持续拖拽操作，始终抑制分布漂移；
无缝适配 CausVid 等不同自回归 VDM 主干，还可拓展应用于双向 VDMs，真正实现即插即用；
拖拽指令与文本提示词冲突时，模型优先遵循拖拽操作，将创作控制权完全交给用户。

局限性与未来方向

DragStream 的唯一局限在于：面对高度不合理、违背物理常识的拖拽指令（如让物体穿透固体），无法实现高质量操控 —— 这类指令与 VDMs 从大规模数据中学到的先验知识严重冲突。

未来，研究团队将聚焦 “物理常识适配” 与 “更复杂场景拖拽”，进一步提升模型对极端指令的鲁棒性，推动流式交互式视频生成技术向更自由、更智能的方向发展。

行业意义：视频创作迈入 “实时交互” 新时代

DragStream 的核心价值，不仅在于破解了流式视频拖拽的技术难题，更在于重新定义了 AI 视频创作的交互模式 —— 从 “被动等待生成结果” 到 “主动实时干预创作”，彻底打破 “生成 - 重生成” 的低效循环。

其免训练、即插即用的特性，大幅降低了技术落地门槛，让主流 AI 视频生成器无需大规模改造即可接入实时拖拽功能。这意味着：

普通创作者无需专业技能，即可通过拖拽操作精准控制视频画面，创作自由度大幅提升；
消费级视频编辑工具将迎来革新，“所见即所得” 的交互式体验将成为行业标配；
视频生成的应用场景将进一步拓展，从广告制作、短视频创作到影视特效预演，均能受益于实时拖拽带来的效率提升。

随着 DragStream 的开源与普及，AI 视频创作正从 “自动化生成” 向 “交互式共创” 演进，一个更自由、更高效的视频创作时代即将到来。

shrimp0 · 2026 年3 月 10 日 09:53

这功能有点厉害啊

uxmaster · 2026 年3 月 10 日 09:59

这个功能挺实用的

k8sfan99 · 2026 年3 月 10 日 11:54

这技术对交互式视频生成意义重大终于能实时拖拽编辑了

happyday · 2026 年3 月 10 日 16:54

这技术看起来挺实用啊

coderX · 2026 年3 月 11 日 04:47

这个开源项目有点意思

logic7 · 2026 年3 月 12 日 01:50

拖拽实时编辑总算来了

nonono · 2026 年3 月 12 日 21:20

哇这个有点厉害啊

oldme · 2026 年3 月 15 日 07:35

这个技术真够厉害的