硬刚 OpenAI!中国团队 Feeling AI 杀入全球第二,CodeBrain-1 改写 Agentic AI 格局!

2026 年 2 月,全球 AI 智能体赛道迎来中国力量的强势突围:初创团队 Feeling AI 自研的智能体框架 CodeBrain-1,在权威基准 Terminal-Bench 2.0 中以 70.3% 的任务成功率斩获全球第二,仅次于 OpenAI 的 Simple Codex(75.1%),成为前十强中唯一的中国新锐。这一成绩不仅打破了美系巨头对 Agentic AI(智能体)领域的垄断,更标志着中国在复杂任务规划与自主编码的工程化能力,已跻身世界顶尖水平。

就在 5 天前,Feeling AI 刚凭借 MemBrain 1.0 在 Agentic Memory(智能体记忆)领域拿下多项 SOTA,在最高难度的 KnowMeBench Level III 评测中性能提升超 300%,反超 MemOS 等主流记忆系统。短短数日,团队在智能体两大核心赛道双线告捷,背后是其原创的跨模态分层架构布局,彰显了中国 AI 团队在全球技术竞争中的独特韧性。

一、Terminal-Bench 2.0 封神:真实终端环境的硬核对决

Terminal-Bench 2.0 由斯坦福大学与 Laude Institute 联合打造,是衡量 AI 智能体在真实命令行(CLI)环境下端到端执行能力的 “金标准”,其严苛程度堪称 AI 的 “魔鬼训练场”,也是 OpenAI、Anthropic 等巨头公认的实力背书平台。

1. 评测的三大核心门槛

  • 闭环实战环境:AI 需在隔离的 Docker 容器中,像人类专家一样在真实 Linux 生态中完成编译、调试、训练、部署全流程,无任何模拟环境的简化;

  • 高压长程任务:覆盖 89 个深度场景,横跨软件工程与科学计算,要求极强的逻辑跨度,彻底杜绝简单 “模式匹配”;

  • 零容忍验证:采用 0/1 判定准则,仅产出符合预期的交付物(如可运行的代码、正常启动的服务)才算通关,无任何 “模糊分”。

升级后的 2.0 版本更是拉高了门槛,全球顶尖模型的解决率普遍难以突破 65%,成为大模型处理系统级复杂任务的 “深水区”。CodeBrain-1 首次亮相便突破 70% 大关,其含金量不言而喻。

2. 全球榜单格局:中国力量跻身第一梯队

最新榜单显示,CodeBrain-1 在 GPT-5.3-Codex 底座加持下,以 70.3% 的成功率紧随 OpenAI 之后,Anthropic Claude Opus 4.6 驱动的 Droid 以 69.9% 位列第三,Google、Princeton 等机构的智能体均排在其后。

在 Python 专项任务子集(47 条单一语言任务)中,CodeBrain-1 表现同样稳定:Python 任务成功率 72.3%、编码任务成功率 70.2%,全程保持与 Simple Codex 的微小差距,且 Token 消耗比 Claude Code 低超 15%,兼顾性能与成本优势。

二、CodeBrain-1 核心突破:会动态调整策略的 “执行型大脑”

CodeBrain-1 并非单纯依赖底座模型的算力,而是通过两大核心技术优化,成为能动态调整计划与策略的 “智能调度中枢”,彻底解决了传统 AI“过度思考、执行低效、易出错” 的痛点。

1. 有用上下文检索(Useful Context Searching):降噪提效

复杂任务中,冗余信息往往导致 AI 产生幻觉。CodeBrain-1 借助 LSP(Language Server Protocol)功能,精准检索与当前任务相关的代码签名、文档和使用实例,过滤无效信息。例如为游戏 Bot 规划任务时,能快速定位move_to(target)do(action)等关键 API 的使用方法,大幅降低检索损耗与上下文干扰。

2. 验证反馈机制(Validation Feedback):让失败变信息

当代码出现错误时,CodeBrain-1 不仅能通过 LSP Diagnostics 快速定位问题,还能自动补充错误参数的相关文档、调用示例及实现逻辑,显著缩短 “生成 - 验证” 的循环周期。比如调用on(observation, exec)出现参数类型错误时,系统会同步提供该方法的正确调用案例与exec参数的实际应用场景,帮助 AI 快速修正。

3. 动态策略调整:个体与群体双维度进化

CodeBrain-1 的核心优势在于 “策略灵活性”,能根据环境反馈持续优化执行逻辑,且这种能力可覆盖个体与群体两个维度:

  • 个体层面:角色可基于自身目标、记忆和观察结果,调整行为选择与决策逻辑。例如开放世界游戏中,Bot 能根据玩家 “建房子” 的需求,自主规划 “收集资源→清理环境→建造” 的行动脚本,动态应对资源不足等突发情况;

  • 群体层面:组织可形成共享记忆,基于外部变化调整整体策略。例如 “搜打撤” 类游戏中,敌对群体通过记录玩家习惯路线,在热点区域部署 70% 兵力,并动态生成 “前排冲锋、后排掩护” 的小队战术,甚至搭配 “抓到你了!”“预判失误!” 等个性化话术增强沉浸感。

三、技术护城河:跨模态分层架构,记忆与规划双核心

CodeBrain-1 与 MemBrain 1.0 的亮眼表现,源于 Feeling AI 原创的跨模态分层架构,该架构包含三大核心层,形成了难以复制的技术壁垒:

  • InteractBrain(核心层):负责理解、记忆与规划,MemBrain(记忆系统)与 CodeBrain(规划执行)均属于这一层,聚焦复杂动态交互场景下的长程规划;

  • InteractSkill(执行层):承接核心层指令,负责具体能力落地,确保规划能转化为可执行的代码与操作;

  • InteractRender(呈现层):负责结果的可视化渲染,让智能体的执行过程与输出结果更易被人类理解。

这种架构设计精准契合了 Agentic AI 的发展趋势 ——OpenAI 已明确将 Simple Codex 定义为 “长程软件工程任务的最优解”,而模型与框架的深度绑定,正成为大模型商业落地的标准形态。Feeling AI 的布局,恰好抓住了这一核心逻辑:用 MemBrain 解决 “记住什么”,用 CodeBrain 解决 “怎么做”,两者协同让智能体从 “能对话” 进化为 “能落地”。

四、行业意义:中国框架定义 AI 落地新标准

CodeBrain-1 的全球突围,不仅是单一产品的胜利,更标志着中国 AI 团队在全球竞争中,从 “追参数” 转向 “定标准”,走出了独特的创新路径。

1. 打破巨头垄断,工程化能力获认可

作为前十强中唯一的中国团队,Feeling AI 能在 OpenAI 尖端模型发布后迅速完成深度整合,并跑出全球第二的战绩,证明中国 AI 的工程响应速度与协同能力已跻身世界前列。其对底座模型的精准驾驭,展现了 “框架定义者” 的核心价值 —— 在巨头掌控底座模型的上半场后,面向商业落地的框架竞争,将成为 AI 赛道的下半场关键。

2. 从 “对话玩具” 到 “生产力工具” 的跨越

Terminal-Bench 2.0 的实战场景,意味着 CodeBrain-1 已具备商业化落地能力。正如 Sam Altman 所言,Codex 已从代码审查工具蜕变为 “全能代理”,而 CodeBrain-1 的突破,让中国智能体框架率先跨越了 “玩具” 到 “工具” 的鸿沟,在金融、游戏、软件开发等领域具备广泛应用前景。例如在金融领域,类似的智能体框架已能实现催收效率提升 4 倍、还款率从 40% 升至 70% 的落地效果。

3. 垂直赛道的商业红利可期

即便巨头环伺,CodeBrain-1 的表现也证明,垂直行业的深水区仍有巨大机会。无论是系统级 Agent 框架,还是开发者效能工具,这些 “离用户更近” 的触点,都潜藏着爆发式增长可能。Feeling AI 的成功,为中国 AI 创业者指明了方向:不走巨头的 “全栈路线”,聚焦框架与落地能力,同样能在全球赛道占据一席之地。

五、结语:不走捷径,方能定义未来

从 MemBrain 1.0 到 CodeBrain-1,Feeling AI 的双线告捷,印证了中国 AI 创新的独特韧性 —— 在全球底座模型竞争白热化的当下,选择以 “框架定义者” 切入,用实打实的工程硬功攻克落地难题,这正是中国创业者在 AI 时代的 “硬核命题”。

全球大模型竞赛已从 “参数博弈” 进入 “实战进化” 的新阶段,能否在真实商业世界中破局,成为唯一度量衡。CodeBrain-1 的出现,不仅让中国 AI 在 Agentic AI 赛道占据了领先身位,更预示着:未来的 AI 竞争,终将是 “能落地者得天下”。而这条没有捷径的拓荒之路,正等待更多中国团队用技术实力,定义 AI 落地的未来标准。

中国AI这次真的硬核了

这个成绩真的厉害

牛啊 中国团队冲上来了

中国团队这次确实牛

终端环境能跑70%确实厉害,国内团队在工程化上越来越扎实了。

这个框架有点东西啊

中国团队这次表现确实亮眼

这么快就超过国外大厂了厉害啊

中国框架确实硬核

又来了 这消息有点意思