全球榜 TOP2!昆仑天工 SkyReels-V4 横空出世,重新定义 AI 视频创作!

2026 年 2 月,国产 AI 视频模型迎来里程碑时刻 —— 昆仑天工 SkyReels-V4 在权威机构 Artificial Analysis 的文转视频(含音频)全球榜单中斩获第 2 名,力压 Google Veo 3.1、OpenAI Sora 2 等国际巨头模型,历史榜稳居第 4 位,强势跻身全球第一梯队。这款仅用一个月就完成从 V3 到 V4 迭代的黑马模型,以 “多模态融合 + 音视频一体 + 全流程编辑” 的全能表现,打破了 AI 视频生成 “单点工具” 的局限,将行业推向一体化创作新时代。

核心战绩:全球榜单实力认证,含金量拉满

Artificial Analysis 作为公认的 “AI 领域 Gartner”,其评测完全独立进行,不依赖厂商自报数据,结果具备极高公信力。SkyReels-V4 在该榜单中交出亮眼成绩单:

  • 文转视频(含音频)全球榜第 2,ELO 评分 1090,样本量 2377,仅次于 KlingAI Kling 3.0 Pro;

  • 历史榜(含所有模型)第 4,超越 Google Veo 3.1(第 7)、Sora 2(第 9)等知名模型;

  • 核心优势:在多模态输入适配、音视频同步生成、视频编辑灵活性等维度得分突出,尤其契合真实创作场景需求。

更值得关注的是,SkyReels-V4 的领先并非单一功能突破,而是全维度能力的综合胜利 —— 当多数模型仍聚焦 “文生视频” 单点时,它已实现 “图像 + 视频 + 音频 + 文本” 的多模态混合创作,让 AI 视频从 “被动生成” 走向 “主动创作与编辑”。

四大核心能力:重新定义 AI 视频创作边界

SkyReels-V4 以 “全面、全能” 为核心标签,集多模态控制、专业修复、全维度编辑、高品质音频生成于一体,覆盖从创意激发到后期收尾的全流程创作需求。

1. 多模态精准控制:混搭素材,创意无界

支持文本、图像、视频片段、掩码、音频等多种素材混合输入,实现 “1+1>2” 的创意组合:

  • 主体替换:将《低俗小说》舞蹈片段中的人物替换为参考图像中的狗和猫,精准保留主体毛色、身形细节,动作与音乐节拍完美卡点,10 秒左右的弯腰动作变化时机与原版完全一致;

  • 多参考融合:让参考图中的女孩在参考视频的海边,跳另一参考视频的舞蹈,配指定音频的轻音乐,模型可精准理解并一次性生成;

  • 风格与动作迁移:基于参考图像的风格特征,结合参考视频的动作逻辑,生成风格统一、动作流畅的全新视频。

2. 专业级视频修复:精细改动,无痕呈现

针对已有视频的优化需求,提供局部修复与元素调整能力,达到专业后期水准:

  • 元素智能移除:自动识别并去除视频中的字幕、水印、Logo,保留背景内容自然连贯,例如 10 秒含英文字幕的视频可一键去字幕,画面干净无痕迹;

  • 区域智能修复:精准替换视频主体、修改服装颜色、更换背景,不破坏整体画面结构;

  • 参考引导修复:基于参考图像的风格,确保编辑前后视觉统一,避免出现风格割裂。

3. 全维度视频编辑:随心创作,自由掌控

区别于 “修复式改动”,更侧重创造性编辑,支持从局部调整到全局重构:

  • 局部增减元素:给女团舞视频中的 C 位舞者戴上指定的蓝色罗纹针织无檐帽,精准还原帽子颜色与 Logo;或移除视频中特定人物,如深夜探险场景中一键删除两位指定角色,画面过渡自然;

  • 全局风格切换:将草地背景的视频瞬间改为赛博朋克都市风格,视觉意境彻底重构;

  • 运镜控制:支持电影级推拉摇移等运镜效果,让普通视频具备专业影片质感。

4. 高品质音频生成:音画同步,情感饱满

内置多语言语音合成、音效生成、背景音乐适配能力,音频质量媲美专业工具:

  • 情感语音:支持 “从容挑衅”“急促担忧” 等多种情绪表达,台词清晰不糊嘴;

  • 环境音效:生成的敲击桌面声能区分材质(如木质桌面),还带有环境回音,真实感拉满;

  • 音画对齐:嘴唇动作与台词、脚步声与画面帧严丝合缝,微秒级时间轴同步。

技术解密:双流架构 + 双维拼接,破解行业三大痛点

SkyReels-V4 的全能表现,源于其底层架构的创新性突破,针对性解决了 AI 视频生成 “画面没声音、输入单一、画质速度难兼得” 的三大行业痛点。

1. 双流 MMDiT 架构:音视频从底层一体化

采用双分支 Multimodal Diffusion Transformer(MMDiT)架构,视频与音频分支并行运行,共享多模态大语言模型(MLLM)编码器:

  • 双向交叉注意力:视频分支参考音频调整节奏,音频分支匹配视频细节,确保音画精准同步;

  • RoPE 频率缩放:解决视频与音频 Token 数量级差异问题,实现微秒级时间轴对齐;

  • 音频原生生成:无需后期拼接,模型可直接生成对白、环境音、配乐,支持音频参考引导,相比 V3 的手动音频输入实现质的飞跃。

2. 双维拼接技术:多模态输入全兼容

通过 “通道拼接 + 时序拼接” 的创新方案,实现多素材无缝融合:

  • 通道拼接:将带噪视频、条件帧、掩码叠加,把文生视频、图生视频、局部编辑等任务统一为 “带掩码的修复类任务”,想改哪就改哪,不影响其他区域;

  • 时序拼接:参考图或视频帧直接接入生成序列前端,模型像翻参考册一样学习风格、动作特征,配合 MLLM 的指令跟随能力,精准理解复杂创作需求。

3. 工程优化:画质与速度兼得

采用 “低清全序列 + 高清关键帧 + 超分插值” 的策略,兼顾效率与质量:

  • 视频稀疏注意力(VSA):将长序列注意力计算量压缩至原来的 1/3,大幅提升运行效率;

  • 逐级爬坡训练:从低分辨率到高分辨率、从单模态到音视频联合,音频分支单独训练后再与视频分支合练,确保画面 1080p、32 帧、15 秒的电影级水准。

生态布局:从模型到产品,构建正向循环

昆仑天工并非单纯打磨模型,而是通过 “模型自研 + 产品落地 + 数据反馈” 的闭环,持续强化竞争力:

  • 技术路线循序渐进:从早期文生图、图生图夯实视觉基础,到 SkyReels 系列拓展时间维度能力,再到 Mureka 音乐模型补齐音频链路,最终实现多模态一体化;

  • 产品矩阵落地:旗下 DramaWave、FreeReels 等短剧平台成为模型试验场,创作者可一站式使用 SkyReels 的视频生成、Mureka 的配乐、文本模型的脚本与字幕生成,形成创作闭环;

  • 全球化运营:借助昆仑万维在游戏出海领域的经验,AI 创作能力在海外快速起量,用户数据反哺模型迭代,形成正向循环。

未来展望:攻坚更长时长与更高分辨率

SkyReels-V4 的发布并非终点,团队已明确后续方向:

  • 技术升级:突破更长视频时长限制,攻坚 4K/8K 高分辨率生成,优化跨语言音视频协同能力;

  • 成本优化:持续降低推理成本,让 AI 视频创作工具下沉到更多行业与场景;

  • 功能拓展:深化多人大规模唇形同步、更精细的风格迁移等高阶能力。

作为国产 AI 视频模型的代表,SkyReels-V4 的全球榜单突围,证明了中国团队在多模态生成领域的技术实力。它不仅重新定义了 AI 视频创作的边界,更让行业看到了 “原生多模态 + 全流程编辑” 的未来方向 —— 当 AI 能像人类创作者一样整合多元素材、兼顾创意与细节,视频创作的门槛将被彻底拉低,人人都是创作者的时代正在加速到来。

国产模型能冲进全球第二确实不容易,多模态融合的思路很务实,把音画同步和编辑流程打通了,这才是真正能用的工具。

国产AI这次确实有点东西

国产视频模型这次确实够硬气

SkyReels-V4这个成绩有点猛啊

国产视频模型越来越牛了

国产模型居然干翻Google了

这成绩确实有点东西

国产模型真够猛的