当马斯克的 xAI 推出全球首个吉瓦级训练集群、OpenAI 斥资百亿打造超大规模推理平台,全球 AI 算力军备竞赛进入白热化阶段时,中国算力基建迎来关键突破。2026 年 2 月 5 日,由中科曙光提供的 3 套 scaleX 万卡超集群系统,在国家超算互联网郑州核心节点同步上线试运行。这是国内首次在国家级算力枢纽同步部署并运营 3 套万卡级 AI 超集群,一举建成全国首个超 3 万卡部署、进入实际运营阶段的最大国产 AI 算力池,为中国在全球算力竞争中筑牢了核心基建底座。
一、算力跨越:从真机亮到规模落地,两个月完成关键突破
国产万卡超集群的落地速度,彰显了中国 AI 算力工程化的硬实力。2025 年 12 月,中科曙光 scaleX 万卡超集群在光合组织 2025 人工智能创新大会(HAIC2025)上首次以真机形式亮相,彼时外界更多将其视为国产算力技术的一次集中展示,验证了国产万卡集群在超节点架构、高速互联、能效控制等方面与国际同类路线同台竞争的能力。
而仅仅过去不到两个月,这款系统就完成了从 “技术展示” 到 “规模化落地运营” 的关键跨越,且并非单一集群部署,而是三套万卡超集群同步上线。这一速度背后,是成熟工程化能力的集中释放 —— 三套集群同步部署需在极短时间内完成设备交付、机房适配、供配电与散热系统建设、网络调通、软件栈部署、调度系统联调及稳定性验证等全链路工作,任何环节的瓶颈都可能导致整体延误。这也意味着,万卡集群已告别 “定制化工程” 模式,具备了可复制、可规模交付的能力。
更重要的是,该核心节点并非孤立存在。作为国家超算互联网的重要枢纽,郑州节点通过高速光纤与其他国家级节点互联,实现全国算力的统一调度、智能分配与高效协同,标志着国产万卡集群正式融入国家级算力体系的 “主干网络”,成为连接全国算力资源的核心枢纽。
二、技术揭秘:三大核心突破,让万卡集群真正 “好用、能用、耐用”
万卡级 AI 集群绝非 “简单堆卡”,而是对通信、供电、调度等多维度技术的综合考验。中科曙光 scaleX 万卡超集群通过三大核心技术创新,成功解决了算力释放、稳定运行、高效调度三大关键难题,让超大规模算力真正落地可用。
1. 高速互联:400G 带宽 + 1 微秒延迟,释放万卡算力
大模型训练与推理中,节点间通信效率是决定算力是否 “有效” 的核心。scaleX 万卡超集群采用自主研发的 scaleFabric 高速互联网络,基于国内首款 400G 类 InfiniBand 原生 RDMA 网卡与交换芯片,实现 400Gb/s 超高带宽,端到端通信延迟低于 1 微秒。
相较传统 IB 网络方案,该网络通信性能提升超 2 倍,同时总体成本下降约 30%,不仅能充分支撑万卡级集群高效运行,还在架构上预留了向十万卡、百万卡规模平滑扩展的能力,为后续更大规模算力集群建设提供了现实可行的技术路径。
2. 供电散热:PUE 低至 1.04,密度提升 20 倍
算力规模扩大后,供电与散热成为制约系统稳定运行的 “物理瓶颈”。scaleX 万卡超集群采用全球首创的高密度单机柜设计,通过超高密度刀片架构与浸没相变液冷技术,实现单机柜算力密度提升约 20 倍,整体 PUE 值低至 1.04—— 这一能效比在全球超大规模 AI 集群中处于领先水平。
这意味着在同等机房条件下,可部署更高密度的 AI 算力,同时将能耗控制在可持续范围内,既大幅降低了长期运营成本,也为万卡集群的长期稳定运行奠定了坚实基础。其单机柜还能通过液体冷凝换热装置 CDM,提供高达 1.72MW 的超级散热能力,充分满足千卡级计算单元的散热需求。
3. 调度运维:数字孪生 + 智能引擎,服务十万级用户
算力的价值最终取决于 “好用与否”。三套万卡超集群并非独立运行,而是通过统一的调度与管理体系对外提供服务:系统引入物理集群数字孪生技术,实现故障定位、资源状态、运维流程的可视化管理;智能调度引擎可支持万级节点管理、十万级用户服务,每秒能处理万级作业调度,长期可用性达到 99.99%。
此外,集群还通过多层级多维度可靠性设计,通过了 30 天 + 长稳运行测试,可支撑十万卡级超大规模部署,彻底解决了超大规模集群运维复杂、故障难排查的痛点,让万卡算力从 “硬件资产” 真正转化为可高效使用的算力服务。
三、生态赋能:连接 30 + 算力中心,打造开放协同的算力样板间
如果说万卡超集群解决了 “算力从哪来” 的问题,那么国家超算互联网则回答了 “算力如何被用起来”。截至 2025 年底,国家超算互联网平台已连接全国 30 余家超算与智算中心,整合 15 万 + 加速卡、200 万核心 CPU,服务 100 多万用户,应用商品超 7200 个,单日处理作业峰值 103 万个,累计支撑运行 1.96 亿次作业,形成了覆盖全国的算力协同网络。
本次新上线的郑州核心节点,在这一体系中承担着 “算力供给 + 示范验证” 的双重角色:一方面,以 3 万卡规模的国产 AI 算力池,为万亿参数模型训练、高通量推理、AI for Science 等重型 AI 场景提供稳定算力供给,既支撑材料科学、生命科学等科研领域的大模型计算,也为模型企业、互联网公司提供普惠算力服务;另一方面,作为国家级 “算力样板间”,验证国产万卡集群在真实业务负载下的可用性、稳定性与经济性,为后续更大规模算力部署提供参考。
更关键的是,该算力池基于中科曙光推动的 “AI 计算开放架构” 理念构建,打破了单一生态绑定,支持多品牌 AI 加速卡混合部署,全面兼容 CUDA 等主流软件生态,已完成 400 余个主流大模型、世界模型的适配优化。这意味着开发者迁移成本更低、选择空间更大,而整个产业则能实现国产算力的一体化协同,从 “单点技术突围” 走向 “产业生态共建”。
四、全球竞争:从 “拼建设” 到 “拼运营”,国产算力的突围之路
当前,全球 AI 算力竞争已进入深水区:马斯克的 xAI 将 “Colossus 2” 超级计算机投入运行,成为全球首个吉瓦级训练集群,还计划通过 SpaceX 在太空部署 AI 数据中心;OpenAI 联合 Cerebras 部署 750 兆瓦级晶圆级系统,角逐全球最大高速 AI 推理平台。
在这样的背景下,中国最大国产 AI 算力池的上线,展现了独特的竞争路径 —— 并非单纯 “堆规模”,而是以工程化、体系化能力实现规模化部署与稳定运营。随着郑州核心节点的落地,中国 AI 基础设施建设已从 “拼建设” 进入 “拼运营” 的新阶段,算力竞争的核心不再是 “有没有万卡”,而是谁能实现规模化部署、稳定运营,并真正支撑应用落地。
从 3 万卡到十万卡、百万卡,国产算力的扩展之路已经清晰。依托国家超算互联网的一体化调度,国产算力正实现工程可落地、运行可持续、生态可协同的全面突破。“中国最大” 只是起点,未来国产算力将进一步融入全球算力网络,以开放协同的姿态,在全球 AI 算力军备竞赛中占据关键一席之地。
