AI 视频生成的竞争早已告别 “比长度、拼逼真” 的初级阶段,迈入 “实时交互 + 物理规律模拟” 的技术深水区。就在这个关键节点,成立不到三年的中国创业公司爱诗科技,以一笔 3 亿美元的 C 轮融资(约合 20.6 亿元人民币)震撼行业 —— 这一金额仅次于 Runway 上月 3.15 亿美元的 E 轮融资,成为 AI 视频赛道最大规模融资之一,也标志着这家中国独角兽正式领跑全球 AI 视频技术革命。
融资亮点:30 亿累计资金 + 产业资本入局,确立头部格局
2026 年 3 月,爱诗科技完成的 C 轮融资堪称资本对 AI 视频赛道的 “信心背书”:由鼎晖香港基金、鼎晖 VGC、鼎晖百孚联合领投,中国儒意、三七互娱等产业资本,以及亦庄国投、众为资本等超 20 家知名机构共同参投,UOB Venture Management、Lion X 基金等全球资本也纷纷入局。
自 2023 年 4 月由前字节跳动视觉技术负责人王长虎创立以来,爱诗科技的融资节奏始终保持行业领先:A 轮有蚂蚁、达晨加持,B 轮引入阿里,如今 C 轮再获鼎晖领投,累计融资额已接近 30 亿元人民币,毫无悬念地跻身 “独角兽” 阵营,稳居全球 AI 视频生成第一梯队。
值得关注的是,中国儒意、三七互娱等产业资本的入局,标志着 AI 视频赛道的融资逻辑已从单纯的 “算力投入” 升级为 “产业深度绑定”。此前中国儒意已斥资 1420 万美元战略投资爱诗科技,双方将在影视视效、游戏内容创作等领域深度合作,让 AI 视频技术真正落地到产业场景中。
爱诗科技联合创始人谢旭璋表示,本轮融资将重点用于视频基础模型迭代、实时世界模型研发、全球化团队建设,而凭借高效的研发体系,其同级别模型训练成本仅为同行的 10%,未来将进一步加大研发投入。
技术突围:从对标 Sora 到领跑,实时世界模型定义新标杆
AI 视频的进化史,本质是算力与架构的螺旋升级。早期依赖 GAN 与扩散模型的技术,虽能实现单帧高清渲染,却在时间连贯性、物理规律还原上短板明显;直到 DiT(Diffusion Transformer)架构普及,OpenAI Sora 的出现才开启了 AI 视频的 “GPT 时刻”。而爱诗科技不仅紧跟这一技术浪潮,更通过 PixVerse 系列模型实现了从 “对标” 到 “领跑” 的跨越。
PixVerse 系列:权威榜单稳居前列
成立不到三年,爱诗科技的自研模型已完成多次重大迭代:
-
2025 年 8 月上线的 PixVerse V5,在 Artificial Analysis 权威图生视频榜单中斩获第二,其专属 Tokenizer 保证高压缩比下的重建质量,自适应 Attention 结构实现计算量与精度的动态平衡,支持规模灵活扩展;
-
2026 年 2 月底的最新榜单中,PixVerse V5.6 在图生视频与文本生视频双赛道均位列前二,成为表现最突出的中国模型。
PixVerse R1:全球首个实时 1080P 世界模型
2026 年 1 月 13 日,爱诗科技发布的 PixVerse R1,彻底改写了 AI 视频的技术规则 —— 作为全球首个支持 1080P 分辨率的通用实时世界模型,它标志着 AI 视频从 “预录制异步渲染” 正式跨入 “实时动态生成” 时代,实现 “所想即所现、随时修改” 的交互体验。
其核心技术突破源于三大创新模块的深度协同:
-
Omni 原生多模态基础模型:将文本、图像、视频、音频统一为连续 token 流,单框架支持任意多模态输入;通过端到端原生分辨率训练,内化现实世界物理规律,避免裁剪缩放导致的画质损耗;
-
自回归无限流生成机制:突破传统扩散模型的片段长度限制,以逐帧预测实现无限连续的视觉流输出;搭配记忆增强注意力机制,确保长时间序列中物体位置、运动轨迹的物理一致性;
-
即时响应引擎(IRE):通过时间轨迹折叠、引导校正技术,将传统数十步的采样过程缩减至 1-4 步,把生成延迟压缩到 “瞬时” 级别,支持用户在视频播放中实时下达指令,画面即时响应且符合物理规律。
剥开 “视频生成” 的表层标签,PixVerse R1 的本质是 “计算与模拟物理世界的运转规律”,这与 Yann LeCun、李飞飞等顶尖学者聚焦的 “世界模型” 方向高度契合。其应用场景已远超创意创作,可为 AI 原生游戏、工业模拟、VR/XR 体验等提供核心技术支撑。
商业闭环:一亿用户 + 4000 万美元 ARR,跑通 AI 视频变现路
当众多 AI 大模型还在为推理成本倒挂焦虑时,爱诗科技已凭借 C 端产品与 B 端服务,实现了商业化的正向循环,证明了高粘性原生多模态应用的商业价值。
C 端产品:普惠创作,打造内容社区
爱诗科技的核心产品 PixVerse(国内版 “拍我 AI”)主打 “速度快、易上手、创意可控”,精准覆盖 90% 有表达欲却无创作经验的普通用户:
-
功能全面:支持文生视频、图生视频、视频重绘 / 续写,业内较早实现人物一致性模型,确保角色长相、服装在多镜头中高度统一;
-
门槛极低:智能体驱动的创作助手,让用户无需精通 Prompt,一键即可生成专业级视频;
-
社区化运营:全球化视野的玩法设计,贴合不同地区用户文化偏好,催生大量爆款内容传播。
截至目前,PixVerse 全球用户规模突破 1 亿,MAU 超 1600 万;自 2024 年 11 月商业化以来,收入增长超 10 倍,年度经常性收入(ARR)已超 4000 万美元,从 “用完即走的工具” 成长为高护城河的数字内容创作社区。
B 端服务:API 赋能产业,单月调用量破千万
除了 C 端订阅,爱诗科技还为企业与开发者提供标准化 API 接口,支持从文本、图像到视频的端到端自动化生成,单月 API 调用量已达千万级别。随着 PixVerse R1 的上线,音画同步、首尾帧控制等高级功能,正吸引影视、广告、游戏领域的专业创作者主动采用,让 AI 技术深度融入产业创作流程。
结语:AI 视频的视觉革命,从技术突破到产业落地
不到三年时间,爱诗科技完成了从初创公司到全球独角兽的跨越,其成功不仅在于技术上的持续突围 —— 从榜单前列到实时世界模型的领跑,更在于精准踩中了 “技术普惠 + 产业绑定” 的双轮驱动逻辑。
对于普通用户而言,PixVerse 让 “人人都是创作者” 成为现实;对于产业而言,AI 视频技术正从 “降本增效” 向 “体验革新” 升级;而对于全球 AI 格局,这家中国公司的崛起,也让 AI 视频赛道从欧美主导逐渐走向多极化竞争。
随着实时交互、物理模拟成为 AI 视频的核心竞争力,爱诗科技的实时世界模型已为行业树立了新标杆。一场由中国企业引领的视觉革命,正在内容创作、互动娱乐、工业模拟等多个领域徐徐展开。
