当 AI 开始自主构建深度学习底层系统,软件研发的规则正在被彻底改写。2026 年 2 月,英伟达高级工程师 Bing Xu 开源的 VibeTensor 项目震撼全球 —— 这是全球首个完全由 AI 智能体生成的深度学习系统,无一行人类编写代码,仅用两个月就完成了对标 PyTorch 的核心功能,甚至实现了独创的张量系统。与此同时,英伟达内部 3 万名工程师借助 AI 编程助手,代码产出狂翻 3 倍,标志着 AI 已全面渗透到从底层系统构建到日常开发的全流程。
两个月颠覆十年演进:AI 造出完整深度学习系统
深度学习运行时作为神经网络的「底层引擎」,一直被认为是人类工程师的专属领域,PyTorch 的成熟耗费了十余年时间、成百上千名工程师的迭代。而 VibeTensor 的横空出世,打破了这一固有认知。
VibeTensor 是一款受 PyTorch 启发的即时运行时,具备完整的技术栈:全新 C++20 内核(支持 CPU+CUDA)、torch 风格的 Python API、实验性 Node.js/TypeScript 接口,并非简单的轻量级封装。它实现了自主的张量 / 存储系统、RCU 风格调度器、反向模式自动微分引擎、CUDA 运行时、缓存分配器和插件 ABI,甚至发明了现有框架中不存在的 Fabric 张量系统,内核包含 13 种、47k LOC 的 Triton 和 CuteDSL 生成内核,功能覆盖从前端接口到底层硬件交互的全链路。
整个开发过程中,人类仅需提供高层架构、约束条件和性能目标,其余所有实现工作 —— 包括 C++ 核心、多语言接口、内核代码等 —— 全部由 LLM 驱动的编码智能体完成。这种「人类定方向、AI 做执行」的模式,将原本需要数年的系统研发周期压缩至两个月,验证了 AI 构建复杂系统软件的可行性。
更关键的是,VibeTensor 并非停留在概念阶段,而是能真正跑通模型训练。在 Hopper H100 和 Blackwell 系列 GPU 上,它成功完成了三类典型工作负载的端到端训练:序列反转任务、CIFAR-10 上的 Vision Transformer、miniGPT 风格语言模型。训练曲线显示,其收敛趋势与 PyTorch 高度一致,loss 稳定下降、精度持续提升,无梯度爆炸或训练发散等问题,证明各核心子系统能在真实训练场景中协同工作。
不过需要客观看待的是,VibeTensor 目前仍存在性能短板。在相同任务中,其训练速度比 PyTorch 慢 1.72-6.15 倍,这源于 AI 生成系统的「弗兰肯斯坦效应」—— 单个子模块设计合理,但组合后会出现全局性能瓶颈。例如 AI 为保证安全性,在 autograd 引擎中加入全局 backward 锁,虽实现了局部安全,却扼杀了并行性,导致 GPU 内核空转。但这并不影响其里程碑意义:它首次证明,系统软件这一「人类工程师最后的堡垒」,已能被 AI 整体生成。
架构解析:全栈自主设计,多场景灵活适配
VibeTensor 的架构设计展现了 AI 对复杂系统的理解能力,整体分为五大核心层,覆盖从前端交互到底层执行的全流程:
-
前端接口层:支持 Python(基于 nanobind)和 Node.js(基于 N-API)双语言接口,均对接同一 C++ 运算符注册表,保证接口一致性,同时满足不同开发场景需求;
-
核心运行时层:包含张量 / 存储、调度器、自动微分引擎、索引系统和随机数生成器,是整个系统的「中枢神经」,实现核心逻辑的统一调度;
-
CUDA 运行时层:封装流 / 事件管理、内存分配器、CUDA 图和内核启动助手,深度适配英伟达 GPU 硬件,保障底层执行效率;
-
计算层:整合内置 CUDA 内核、可选 Triton/CuTeDSL 内核和插件加载内核,支持按需扩展计算能力,其中 AI 生成的混合内核架构兼顾通用性与专用性;
-
多 GPU 扩展层:通过 Fabric 张量系统和可观测性模块(统计 + 事件环),支持多 GPU 分布式训练,Blackwell 架构下还可借助 Cutlass-based ring-allreduce 插件实现高效数据通信。
这种架构设计既延续了 PyTorch 的易用性,又具备自主创新的技术亮点,其灵活的插件机制和多语言支持,使其能适配从个人研发到企业级部署的多种场景。
行业震动:大佬盛赞,AI 编程开启递归进化
VibeTensor 的发布引发了业内大佬的广泛关注与盛赞。陈天奇评价其「展示了智能体构建深度学习框架这类复杂系统的能力,虽有改进空间,但本身已极具价值」;贾扬清则将其与 2015 年的 AlphaGo 相提并论,认为它验证了 AI 编写复杂系统代码的可行性,「只要掌握正确原则,AI 终将完全超越人类程序员」。
网友们更是惊呼「库兹维尔预言的递归改进循环已经发生」——AI 开始构建自身赖以运行的基础设施,形成技术迭代的正反馈。而英伟达的底气,不仅来自 AI 的强大生成能力,更源于其世界一流的测试基础设施和运行时遥测体系。正如业内观点所言:「用 AI 快速交付不难,难的是可靠交付,而完善的测试体系正是人类的核心护城河」。
与此同时,英伟达内部的 AI 编程实践同样令人瞩目。3 万名工程师全面使用定制版 Cursor AI 编程助手后,代码产出翻了 3 倍。这款全流程助手不仅能自动生成代码,还能创建单元测试与集成测试、理解大规模代码库的深层依赖、自动修复 bug,甚至能从需求工单和设计文档中提取上下文,生成包含代码、测试、CI 配置的完整变更。
值得注意的是,三倍代码量并非意味着「垃圾代码激增」。英伟达强调,代码质量仍由人工审核监督,AI 仅负责重复性工作,工程师得以将更多精力投入设计决策和复杂逻辑优化。这种「人机协同」模式,既发挥了 AI 的效率优势,又保留了人类的核心判断价值,成为大规模研发团队的高效工作范式。
关键启示:AI 编程的优势与待解难题
VibeTensor 的实践和英伟达的内部变革,为 AI 时代的软件研发提供了重要启示,同时也暴露了当前 AI 编程的核心局限:
AI 编程的核心突破
-
打破工程边界:首次证明 AI 能生成跨多层抽象、覆盖全链路的复杂系统软件,而非仅局限于脚本或业务逻辑代码;
-
重构研发效率:将系统级研发周期从数年压缩至数月,日常开发代码产出提升数倍,大幅降低时间成本;
-
测试体系成为核心:测试不再是单纯的验证工具,而是约束 AI 搜索空间、避免「局部正确、全局崩坏」的关键,未来系统工程的核心可能是「设计让 AI 可控的测试体系」;
-
人机分工明确:人类聚焦方向定义、架构设计和质量把关,AI 承担具体实现和重复性工作,形成高效协同。
待解的核心难题
-
全局优化能力不足:「弗兰肯斯坦效应」暴露 AI 擅长局部最优,但缺乏全局性能视角,难以平衡各模块间的协同效率;
-
复杂场景适配有限:对于需要深度领域知识和复杂逻辑权衡的场景,AI 仍需人类提供更精细的指导;
-
可靠性依赖基础设施:AI 生成代码的可靠性高度依赖完善的测试、基准测试和回滚机制,并非所有团队都具备此类条件。
结语:AI 重构软件研发的未来
VibeTensor 的开源和英伟达的内部实践,共同指向一个清晰的趋势:AI 已从辅助工具进化为核心研发力量,软件研发正在从「人类主导、AI 辅助」向「人类定调、AI 执行」转变。底层系统能被 AI 生成,日常开发能被 AI 提速,标志着 AI 编程已进入规模化落地阶段。
虽然当前 AI 仍存在全局优化不足等问题,但正如贾扬清所言,其进步速度惊人。随着技术的持续迭代,AI 有望逐步攻克这些局限,最终重塑软件研发的全流程。对于行业而言,这既是机遇也是挑战 —— 企业需要重构研发流程以适配人机协同模式,开发者则需提升架构设计、需求拆解等 AI 难以替代的核心能力。
VibeTensor 不是终点,而是 AI 进军复杂系统工程的分水岭;英伟达的三倍代码产出也不是个例,而是行业变革的前奏。软件研发的 AI 时代,已然到来。




