Agent 大战终局前奏:Anthropic 收购 Vercept,OpenAI 收编 OpenClaw,AI 战场转向「控电脑」!

2026 年 2 月,AI 行业上演戏剧性连环事件:15 日,OpenClaw 创始人 Peter Steinberger 宣布加入 OpenAI;26 日,Anthropic 紧接着官宣收购 Agent 创业公司 Vercept。这两笔看似独立的动作,实则指向同一个核心趋势 ——AI 战场已从「比拼模型聪明度」,全面转向「争夺电脑控制权」。而 Anthropic 的被动追赶姿态,很大程度上源于此前一系列决策失误,让原本握在手中的流量红利白白流失。

缘起:一场因封号引发的「蝴蝶效应」

故事的起点,是一个无心插柳的开源项目。2025 年底,奥地利开发者 Peter Steinberger 用一小时写出 Agent 工具 Clawdbot,因名称与 Claude 近似遭 Anthropic 律师函警告,被迫先后改名 Moltbot、OpenClaw。未曾想,这个被迫改名的项目竟引爆开源社区 ——GitHub 星标狂飙至 17 万,单周访问量破 200 万,成为史上增长最快的开源 Agent 项目之一。

更关键的是,OpenClaw 默认推荐使用 Claude 模型跑任务,相当于为 Anthropic 打造了一个免费且高效的流量入口。但 Anthropic 随后的操作堪称「自断臂膀」:以「违规自动化」为由,封禁了大量将 Claude API 接入 OpenClaw 的用户账号。「花自己的钱买 API 做自动化,却遭封号」的操作,瞬间点燃社区怒火,也让 Peter 彻底对 Anthropic 失望。

2026 年 2 月 15 日,Sam Altman 高调宣布 Peter 加入 OpenAI,负责下一代个人 Agent。这一决策直击 Anthropic 软肋 ——OpenClaw 的核心价值并非模型本身,而是其打通「消息平台 + 电脑控制」的场景能力,而这正是 Agent 落地的关键入口。

核心战场转移:从「对话」到「控制」,屏幕是最后一公里

过去几年,AI 的竞争集中在对话框内的「智商比拼」—— 谁的回答更精准、更流畅。但无论模型多聪明,用户仍需手动打开软件、点击按钮、复制粘贴,AI 始终无法触及「实际干活」的最后一环。而 Agent 的终极使命,就是让 AI 跳过人类,直接控制电脑完成全流程任务:打开 Excel 填数据、切换邮件客户端发文件、关闭冗余窗口,全程只需一句自然语言指令。

要实现这一目标,AI 必须先攻克「看懂屏幕」的难关 —— 识别按钮、输入框、菜单等所有 UI 元素,再模拟人类操作。这看似简单的需求,实则是代差级的技术鸿沟:

  • 在 OSWorld(模拟真实电脑操作的基准测试)中,OpenAI Operator 得分 38.1%,Anthropic 的 Computer Use 仅 22%,而人类平均水平高达 72.4%;

  • 明略科技 Mano 模型虽在 2025 年 11 月拿下 OSWorld 专用模型全球第一,但仍未突破 40% 大关,可见该领域技术难度之高。

在 AI 写代码、做分析等领域差距逐渐缩小的当下,「屏幕感知与电脑控制」已成为新的竞争分水岭,谁能率先攻克这一难关,谁就能掌握 Agent 时代的核心话语权。

Anthropic 的补救:收购 Vercept,补上屏幕感知短板

在与 OpenAI 的入口争夺中落于下风后,Anthropic 选择通过收购 Vercept 紧急补位。这家来自 Allen 人工智能研究所(Ai2)的创业公司,恰好手握 Anthropic 最稀缺的技术 ——「看像素」的屏幕感知能力,其产品 Vy 与 OpenAI Operator 的技术路线截然不同,形成了系统性优势:

表格

技术路线 核心逻辑 优势 短板
OpenAI Operator(读代码) 解析网页 DOM 结构,识别可交互元素 速度快、稳定性高 仅支持有结构的 Web 界面,对本地软件、老系统无效
Vercept Vy(看像素) 实时截图 + 视觉模型识别,模拟鼠标键盘操作 覆盖所有带屏幕的软件,包括 Excel、本地 ERP、老旧内网系统 相对「读代码」路线,速度略慢

Vercept 的技术实力有硬数据支撑:在 UI 元素识别基准测试 ScreenSpot v1 中,自研 VyUI 模型准确率达 92%,而 OpenAI 同类模型仅 18.3%;ScreenSpot v2 测试中,两者差距虽缩小至 94.7% 对 87.9%,但 Vercept 仍保持领先。

对 Anthropic 而言,收购 Vercept 是最直接的「补课」——Claude 的 Computer Use 功能一直表现平平,吸收 Vercept 的模型与团队,能快速补齐「屏幕感知」这一关键短板,让 AI 具备控制全场景软件的能力。

OpenAI 的布局:收编 OpenClaw,抢占指令入口

如果说 Anthropic 收购 Vercept 是在补「基础设施」,OpenAI 收编 Peter 则是在抢「用户入口」。OpenClaw 的核心价值,并非控制电脑的技术本身,而是其打通「消息平台」的场景创新 —— 将 Agent 指令入口嵌入 WhatsApp、Telegram 等高频消息工具,用户无需专门打开 Agent 应用,在手机上发一条消息,就能让电脑自动完成任务。

这一设计精准击中用户习惯:大多数人不会为了操作电脑特意下载新应用,但每天都会频繁使用消息软件。将 Agent 指令入口融入日常工具,是让技术落地的关键一步。OpenAI 看中的,正是 Peter 在场景设计与用户体验上的直觉,以及 OpenClaw 积累的生态资源,这能帮助其快速抢占个人 Agent 的用户心智。

终局之战:巨头收割,创业公司难撑大局

Anthropic 与 OpenAI 的连环动作,也揭示了 Agent 赛道的残酷现实:这是一场需要海量资金与资源支撑的持久战,仅凭技术优势的创业公司难以走到最后。

Vercept 联合创始人 Oren Etzioni 的表态直言不讳:「我们基本上认输了」。并非技术不及对手,而是 20 人的小团队,根本扛不住巨头级的资金消耗与生态围剿。无独有偶,Anthropic 收购 Vercept 的消息一出,专注 RPA(机器人流程自动化)的 UiPath 股价应声下跌 3.6%—— 市场早已嗅到威胁,传统自动化玩家的生存空间正被 AI 巨头挤压。

如今,Google、Microsoft 等玩家也早已在 Agent 领域布局,一场围绕「电脑控制权」的军备竞赛已然打响。这场战争的核心,是基础设施与用户入口的双重争夺:谁能先让 AI 流畅控制电脑,谁能让用户更便捷地发出指令,谁就能在未来的企业与个人市场中手握胜券。

结语:AI 的下一个十年,始于「控制」

从对话式 AI 到 Agent,从「能说」到「能做」,AI 的进化逻辑正在本质性改变。Anthropic 与 OpenAI 的连环动作,标志着行业竞争正式进入深水区 —— 模型智商的比拼已不再是唯一焦点,「控制物理世界(电脑)+ 占据用户入口」的复合能力,才是决定终局的关键。

对于用户而言,这意味着 AI 将真正走出屏幕,成为渗透到工作生活的「隐形助手」;对于行业而言,巨头收割的序幕已经拉开,创业公司的机会正从「全栈创新」转向「细分技术突破」。而 Anthropic 因封号错失的先机,也为行业敲响警钟:在技术快速迭代的时代,开放与生态共赢,远比短期的规则控制更重要。AI 战场的终局之战,才刚刚开始。

这波封号操作真是败笔啊,白白把人才和流量推给对手。现在才想起来收购补课,感觉有点被动了。

AI控制电脑这趋势越来越明显了,两家巨头都在抢入口和基建,未来工作流肯定要彻底改变了。

这波操作真是教科书级的自断后路啊,一手好牌打得稀烂。现在亡羊补牢收购Vercept,但用户入口已经被OpenAI占了。

这个趋势确实很明显

Agent领域竞争越来越激烈了

这波操作真是神仙打架啊

这波操作真是神了

这波操作真让人摸不着头脑

这波操作真让人看不懂啊