AI 视频生成技术已实现写实度与流畅度的跨越式突破,但 “生成 - 不满意 - 重生成” 的低效循环始终困扰用户 —— 现有工具无法在流式生成过程中实时修改画面,拖拽操作要么局限于单帧、要么适配性差、要么效果失衡。而新加坡南洋理工大学与合肥工业大学团队在 ICLR 2026 上提出的DragStream,彻底破解了这一行业痛点:首次实现视频流式生成时的实时拖拽编辑,用户可任意时刻拖动画面物体进行平移、旋转、变形,系统自动保持后续帧连贯自然,且免训练、即插即用,无缝适配主流自回归视频扩散模型(VDMs),真正让视频创作进入 “所见即所得” 的交互式时代。
目前,DragStream 项目已全面开源,包含代码仓库、项目主页与在线 Demo,为消费级交互式视频工具的落地奠定了核心技术基础。
行业痛点:流式视频编辑的三大核心难题
在 DragStream 出现前,流式视频的拖拽式操控始终面临难以突破的瓶颈,严重限制了用户的创作自由度:
-
功能割裂:主流方案仅支持单帧编辑或固定轨迹动画,无法同时覆盖 “编辑(修改已生成帧)” 与 “动画(生成后续帧)” 两大场景,且不支持 2D/3D 旋转、自由变形等复杂拖拽效果;
-
流式适配难:现有方法多针对双向 VDMs 设计,无法匹配自回归 VDMs 的流式生成范式,用户发现画面问题后只能重新生成整段视频,无法实时修正;
-
成本与效果失衡:基于微调的方案需耗费数百小时 H100 GPU 算力,门槛极高;免训练方案则易出现拖拽失效、画面伪影、物体属性错乱等问题。
更关键的是,直接在流式场景中应用拖拽操作,还会触发两大核心挑战:
-
隐分布漂移:拖拽带来的扰动会在隐空间持续累积,导致物体颜色、类别出现非预期错乱,甚至中断拖拽过程;
-
上下文干扰:流式生成依赖的过往帧视觉线索,会误导模型生成重复部件、伪影,让画面效果极不自然。
核心创新:REVEL 任务定义 + DragStream 双机制破解
针对行业痛点,研究团队首次提出REVEL 任务(流式拖拽导向交互式视频操控),统一了拖拽式视频操控的标准范式;同时打造免训练的 DragStream 方法,通过两大核心机制从根源上解决隐分布漂移与上下文干扰问题。
1. REVEL 任务:统一视频
拖拽操控范式
REVEL 任务明确了核心目标:用户可对自回归 VDMs 生成的任意视频帧,在任意时刻施加拖拽操作,且后续帧需与修改后的画面保持一致,实现流式、细粒度控制。
其关键突破在于首次将拖拽式视频操控统一为两大类型,且均支持平移、变形、2D/3D 旋转等全类型操作:
-
编辑型拖拽:直接修改已生成视频帧的画面内容(如旋转某帧中的物体);
-
动画型拖拽:基于现有帧,按拖拽指令生成后续视频片段(如拖动物体形成连续运动轨迹)。
这一范式打破了过往 “编辑与动画割裂、操作类型受限” 的局限,为流式交互式视频编辑建立了统一标准。
2. DragStream 双核心机制:免训练实现高质量操控
DragStream 采用免训练、模型无关的设计,可无缝集成到任意自回归视频扩散模型中,无需修改模型主干,核心依赖两大创新机制:
(1)自适应分布自校正(ADSR):解决隐分布漂移
拖拽操作会导致隐编码的均值、方差剧烈波动,偏离原始分布,引发画面错乱。ADSR 策略的核心思路是:
-
记录当前帧前序相邻帧隐嵌入的稳定统计信息(均值、标准差);
-
每一轮隐优化迭代后,用这些信息对当前帧的隐编码分布进行校正,持续抑制拖拽带来的分布漂移。
实验证明,ADSR 能有效保证拖拽过程稳定持续,避免物体属性非预期变化,即便连续拖拽 20 秒(188 帧),画面内容仍能保持一致性。
(2)空频选择性优化(SFSO):平衡上下文利用与干扰抑制
上下文帧是流式生成的基础,但也是拖拽效果的主要干扰源。SFSO 机制从频域与空域双维度实现选择性优化:
-
可切换频域选择(SFS):通过 2D 傅里叶变换与巴特沃斯滤波器,随机选择截止频率进行滤波,平衡高低频信息传播 —— 既保留细粒度细节,又避免高频噪声导致的伪影;
-
临界驱动空域选择(CSS):通过高斯滤波图约束梯度反向传播,梯度权重随与拖拽区域中心的距离衰减,确保优化聚焦目标区域,避免背景与非编辑区域失真。
通过 SFSO,模型能充分利用上下文帧的有效信息,同时彻底缓解干扰,让拖拽效果精准自然。
实测表现:全维度领先 SOTA,泛化性拉满
研究团队构建了包含 204 段不同场景、拖拽轨迹的基准数据集,与 DragVideo、SG-I2V 等 SOTA 方法进行全面对比,结果显示 DragStream 在可视化效果、量化指标与泛化性上均实现碾压级领先。
1. 可视化效果:精准自然,无伪影无失效
在 2D/3D 旋转、平移、变形等各类拖拽场景中,DragStream 能精准跟随用户指定轨迹,完美保留物体外观与结构,几乎无视觉失真、伪影或拖拽失败情况;而对比方法普遍出现画面畸变、物体结构错乱、拖拽失效等问题。
例如动画型 3D 旋转拖拽中,DragStream 生成的视频帧连贯流畅,物体旋转角度精准;而对比方法生成的画面出现明显伪影,甚至无法识别物体原貌。
2. 量化指标:四大核心指标全面领先
采用行业通用的四大量化指标评估,DragStream 的表现远超现有方案:
-
ObjMC(运动保真度):得分 23.05,远低于对比方法,证明物体能精准跟随拖拽轨迹;
-
DAI(拖拽编辑质量):得分 0.05,为行业最低,说明编辑区域与用户目标高度匹配;
-
FVD(视频整体质量):得分 552.39,显著优于对比方法,视频流畅度更高;
-
FID(画面保真度):得分 23.72,表现最优,画面写实度与自然度更佳。
3. 泛化性:覆盖复杂场景与多模型适配
DragStream 的泛化能力经大量实验验证,适配各类复杂创作需求:
-
支持物体遮挡、移出画面再重新进入等复杂场景,仍能稳定保留物体外观与结构;
-
可应对 5 秒、10 秒、20 秒长视频的持续拖拽操作,始终抑制分布漂移;
-
无缝适配 CausVid 等不同自回归 VDM 主干,还可拓展应用于双向 VDMs,真正实现即插即用;
-
拖拽指令与文本提示词冲突时,模型优先遵循拖拽操作,将创作控制权完全交给用户。
局限性与未来方向
DragStream 的唯一局限在于:面对高度不合理、违背物理常识的拖拽指令(如让物体穿透固体),无法实现高质量操控 —— 这类指令与 VDMs 从大规模数据中学到的先验知识严重冲突。
未来,研究团队将聚焦 “物理常识适配” 与 “更复杂场景拖拽”,进一步提升模型对极端指令的鲁棒性,推动流式交互式视频生成技术向更自由、更智能的方向发展。
行业意义:视频创作迈入 “实时交互” 新时代
DragStream 的核心价值,不仅在于破解了流式视频拖拽的技术难题,更在于重新定义了 AI 视频创作的交互模式 —— 从 “被动等待生成结果” 到 “主动实时干预创作”,彻底打破 “生成 - 重生成” 的低效循环。
其免训练、即插即用的特性,大幅降低了技术落地门槛,让主流 AI 视频生成器无需大规模改造即可接入实时拖拽功能。这意味着:
-
普通创作者无需专业技能,即可通过拖拽操作精准控制视频画面,创作自由度大幅提升;
-
消费级视频编辑工具将迎来革新,“所见即所得” 的交互式体验将成为行业标配;
-
视频生成的应用场景将进一步拓展,从广告制作、短视频创作到影视特效预演,均能受益于实时拖拽带来的效率提升。
随着 DragStream 的开源与普及,AI 视频创作正从 “自动化生成” 向 “交互式共创” 演进,一个更自由、更高效的视频创作时代即将到来。


