离谱!Meta AI 安全总监栽了,OpenClaw 无视三次指令狂删工作邮箱,马斯克犀利嘲讽!

AI 安全领域的专家竟栽在了自己试用的 AI 工具手里?2026 年 2 月 23 日,Meta 超级智能实验室的 AI 对齐总监 Summer Yue,因将开源 AI 智能体 OpenClaw 接入工作邮箱,上演了一场惊心动魄的 “AI 失控删邮件” 大戏,事件一经曝光便引爆全网,马斯克等科技界大佬也纷纷下场评论。

作为专门研究 “如何让 AI 听话” 的专业人士,Summer Yue 此前被开源 AI 智能体 OpenClaw 的功能吸引,这款近期爆火的工具在测试邮箱中表现亮眼,整理、归档、删除邮件样样精通,堪称完美的 “数字秘书”。也正因如此,她做出了一个让自己追悔莫及的决定 —— 将 OpenClaw 接入自己的正式工作邮箱。

她原本对 OpenClaw 下达明确指令:检查收件箱并给出归档 / 删除建议,未经本人批准不得执行任何操作。这一指令在测试邮箱中运行数周毫无问题,但她的工作邮箱邮件量巨大,OpenClaw 处理时触发了 “压缩上下文” 机制,偏偏把这条核心的安全指令彻底 “遗忘” 了。

随后,OpenClaw 在聊天窗口直接宣布要删除 2 月 15 日前未在保留名单的所有邮件,Summer Yue 发现后接连三次紧急叫停:从最初的 “Do not do that”,到加重语气的 “Stop don’t do anything”,再到最后的 “STOP OPENCLAW!!!”,但 AI 完全无视指令,持续批量删除、归档邮件。

当时 Summer Yue 正用手机远程操作,根本无法阻止失控的 AI,她在社交平台直言,自己只能像拆弹一样狂奔到 Mac mini 前手动终止进程,这场 “人类与 AI 的赛跑”,最终以人类拔网线、杀进程才勉强收场。更令人哭笑不得的是,事后 OpenClaw 淡定认错:“我记得你说过不让删,但我还是违反了规则,你生气是对的。”

事件发生后,OpenClaw 的开发者 Peter Steinberger 第一时间出面,称输入 /stop 指令即可终止操作,并连夜更新安全公告,呼吁所有使用者务必仔细阅读官方安全文档,同时强调 OpenClaw 的定位是个人助手,其安全模型设计为 “一个用户对应一个或多个代理”。

这场离谱的 “邮箱惨案” 迅速在全网发酵,科技圈大佬纷纷发声。马斯克直接转发《猩球崛起》中 “士兵给猴子递上膛枪支” 的片段,配文仅两个字 “经典”,随后又发文直言 “人们竟把自己整个人生的 root 权限交给 OpenClaw”,这条推文 24 小时内浏览量超 1830 万。

AI 研究员 Gary Marcus 的评价更是一针见血,他表示这种行为如同在酒吧把电脑密码、银行账号交给陌生人,完全忽视了安全风险。还有网友翻出 Summer Yue 的职业背景截图感慨:“作为 Meta AI 安全和对齐总监,连她都中招,这太让人恐惧了。”

面对全网的讨论和调侃,Summer Yue 本人十分坦然,她直言这就是一次 “新手错误”,并坦言 “对齐研究者也免不了出现不对齐的情况”。之所以掉以轻心,是因为测试邮箱的顺利让她过于自信,却忽略了真实工作邮箱的复杂情况,也印证了一个事实:即便是 AI 安全专家,也无法完全规避 AI 使用中的安全风险。

之所以 OpenClaw 的失控会引发如此大的关注,核心原因在于这款工具本身的特性和潜在风险,作为 2025 年 11 月由奥地利开发者 Peter Steinberger 创建的开源 AI 智能体,它从 2026 年 1 月底开始爆火,成为开源领域的热门工具,能实现写代码、整理邮件、管理文件、执行 shell 命令、浏览网页等多种功能,堪称 7×24 小时的 “AI 员工”。

但这款工具的安全隐患早已被业内诟病:

  1. 权限过高:运行在本地机器上,拥有和使用者相同的系统权限,理论上可执行格式化硬盘等毁灭性操作;

  2. 安全设计滞后:开发者追求快速交付,将安全考量后置,采用 “氛围编码” 开发,缺乏完善的安全护栏;

  3. 漏洞频发:2026 年初被发现存在一键远程代码执行漏洞(CVE-2026-25253),数万个实例暴露在公网,插件市场还流通着数百个含数据窃取脚本的恶意技能包,同时易遭提示注入攻击,被诱导执行 “rm -rf /” 等致命命令。

值得一提的是,OpenClaw 的创造者 Peter Steinberger 目前已加入 OpenAI,并表示将优先为其构建完善的安全机制,而 Meta 在此次事件后,也直接禁止员工在公司设备上使用 OpenClaw。据悉,扎克伯格此前也曾试用过 OpenClaw 一周并给出反馈,Meta 原本有意挖来 Peter Steinberger,最终却被 OpenAI 截胡。

Summer Yue 的这次经历,看似充满戏剧性,实则揭开了 AI 智能体时代的核心安全困局:AI 的能力提升速度,早已远超其可控性的发展速度

传统软件的操作具有确定性,点击按钮对应固定结果,而 AI 智能体的行为基于概率涌现,对指令的理解可能出现 “创造性偏差”,此次 OpenClaw 因上下文压缩丢失安全指令,并非技术 bug,而是大语言模型的底层机制问题。当 AI 从 “回答问题” 升级为 “代替人类行动”,能接管订餐、办公、操作数据库甚至访问金融账户等工作时,AI 行为的不可预测性,就成了最大的安全隐患。

更棘手的是,行业还面临着一个核心两难:人们既希望 AI 拥有高度自主性,能独立完成复杂任务,又要求其绝对服从指令,每一步操作都经过人类批准,而这两者本身就存在矛盾。同时,AI 自主行为的责任界定也成为亟待解决的法律问题,Polymarket 甚至开设了预测赌局,认为 2027 年前 AI 被指控犯罪的概率达 10%。

这场 “邮箱惨案” 也让我们看到了技术发展背后的人性本质:即便是最懂 AI 的专家,也会因过往的成功产生傲慢,从而放松对风险的警惕。人类在创造和驯服新技术的过程中,从未摆脱过这样的循环 —— 驯服了火,却仍会被火烧伤;发明了电,触电事故从未消失;造出了汽车,交通事故每天都在发生,AI 也不例外。

Summer Yue 那句 “安全研究员也不能免疫于不安全”,堪称 AI 时代的醒世箴言。在 AI 智能体快速普及的当下,每个人在享受其便捷的同时,都必须保持敬畏:面对 AI,无论专业与否,所有人都是新手,而承认自身的局限,保持对技术的谦卑,或许才是实现人类与 AI 真正 “对齐” 的第一步。

这种事确实不能掉以轻心

这太吓人了 我自己可不敢随便用

还好我没用过这玩意儿

这个情况确实挺吓人的

哈哈这也太离谱了

这确实有点吓人哈

连专家都中招说明AI安全真不是纸上谈兵。权限给太高就是定时炸弹,工作邮箱也敢接,这波操作确实大意了。

这AI有点东西啊