OpenClaw 之后,清华系团队用「端云协同」开辟端侧 AI 新赛道!

2026 年,AI Agent 的竞争早已告别「能聊会说」的初级阶段,进入「落地办事」的硬核比拼。OpenClaw 的爆火让人们看到了 AI「动手执行」的可能性 —— 它能拆任务、点按钮、跨 App 操作,像实习助理一样完成流程化工作。但无论是纯云侧智能还是纯端侧助手,都存在难以逾越的短板:云侧智能推理强却缺乏场景感知与本地操作权限,端侧助手能调用本地数据却受限于算力,面对复杂任务「智商不足」。

就在行业陷入「做云还是做端」的两难时,清华系团队「万象智维」推出智能体产品「小万」,以「端云协同」的创新架构破局:让云端做「超级大脑」负责复杂决策,端侧做「灵活手脚」负责感知执行,彻底打通两者优势,为端侧 AI 开辟了一条全新路径。

核心架构:端侧 GUI + 云侧 CLI,分工明确的高效协同

「小万」的核心创新在于「端云职能精准拆分」,摒弃了传统「全量上云」或「端侧硬扛」的极端思路,采用「端侧 GUI + 云侧 CLI」的技术分工模式,让每一部分都发挥最大价值:

  • 端侧(手机):定位为「上下文入口 + 执行终端」,天然掌握用户的时间、位置、正在使用的应用等场景数据,负责屏幕识别、本地传感器感知、App 调用、最后一公里执行等任务,无需联网即可完成高频基础操作;

  • 云侧(OpenClaw):承担「大脑决策」角色,依托 7×24 小时不间断运行能力,负责复杂逻辑推理、长流程任务规划、系统级 API 操作、多任务调度等端侧算力难以支撑的工作。

这种分工模式,既避免了纯云侧智能「看不见、摸不着」的痛点,也解决了纯端侧助手「算力不足、智商不够」的短板,实现「1+1>2」的协同效果。

场景落地:端云接力,搞定单一设备办不成的事

「小万」的端云协同并非纸上谈兵,已在真实场景中实现高效落地,核心体现为「端 - 云 - 端」的闭环接力:

场景一:复杂文档的智能处理

收到几十页的技术文档时,纯端侧模型读不懂深层逻辑,纯云端模型无法操作本地 App。而「小万」的流程是:

  1. 端侧 Agent 先接管,利用本地算力快速提取文档关键信息;

  2. 任务流转至云端,OpenClaw 深度梳理逻辑、生成结构化摘要;

  3. 结果回传端侧,Agent 询问用户是否发送给同事或保存笔记,并直接调用微信完成发送。

    用户感知到的是一次流畅服务,后台已完成两次职能交接,既保证了处理深度,又实现了本地操作闭环。

场景二:感知驱动的智能通勤

早晨醒来,端侧 Agent 通过本地传感器感知到「下雨」,同时读取本地日程中「9 点有会」的信息;

  1. 端侧将脱敏后的上下文数据发送至云端;

  2. 云端大脑快速规划避堵打车方案,决策「需提前 15 分钟出发」;

  3. 指令回传端侧,「小万」直接唤起打车 App,自动填写目的地、选择常用车型,停在支付确认页等待用户点击。

    整个过程仅需 8 秒思考时间,既结合了端侧的场景感知,又发挥了云端的决策能力,让通勤规划无需手动操作。

技术突破:攻克算力、成本、隐私三大核心痛点

从 Demo 到实用,「小万」的端云协同架构针对性解决了端侧 AI 的三大核心难题:

1. 算力优化:榨干端侧性能,减少云端依赖

  • 开发「OmniInfer-VLM」端侧推理框架,在不牺牲精度的前提下,让多模态推理速度较传统 CPU 方案提升近 20 倍,屏幕识别、OCR 提取、简单意图判断等高频操作可在本地毫秒级完成;

  • 引入「行为记忆系统」,将用户高频操作路径(如点咖啡、打卡)抽象为数学模型存储在本地,重复任务无需云端重新推理,直接调用本地记忆自动化执行,平均推理延迟降低 1.49 倍。

2. 成本控制:降低 Token 消耗,实现商业可行

纯云侧智能的痛点是 Token 消耗巨大,专业用户单日花费可能高达数百美元。「小万」通过「端侧承担高频基础操作 + 云端聚焦复杂决策」的模式,大幅减少云端调用次数,降低 Token 成本,让端侧 AI 的商业化落地成为可能。

3. 隐私防护:架构级保障数据安全

Agent 时代的隐私不仅是数据,更是行为。「小万」的端云协同架构从根源上降低隐私风险:

  • 敏感数据(微信聊天记录、支付密码页面)始终在端侧处理,绝不上传云端;

  • 发往云端的仅为脱敏后的抽象指令(如「需打车前往公司」),而非原始场景数据;

  • 支持企业本地化部署 OpenClaw,通过 API 无缝接入「小万」,进一步强化隐私控制。

落地进展:清华系背书,覆盖 150 + 实用场景

「小万」的背后是雄厚的技术积累:团队依托清华大学端智能研究团队孵化,核心成员在端侧模型轻量化与高效推理领域深耕多年,成立后获智谱 AI 领投的数千万元天使轮融资,技术路线获行业高度认可。

目前,「小万」已实现端侧持久化上下文记忆,支持 40 + 主流应用,覆盖 150 + 场景任务,涵盖打车、消费、支付、日程规划、内容归档等日常高频需求:

  • 日常归档:自动提取当日浏览文章、收听播客的核心结论,整理成日报,支持随时回看;

  • 任务提醒:记录未完成的讨论,自动设置后续提醒;

  • 多端协同:云侧为每位用户开设独立虚拟云服务,端侧任务本地完成,兼顾效率与安全。

未来展望:从人机交互到 Agent-to-Agent

如果说 OpenClaw 证明了 AI「能动手」,「小万」则回答了 AI「如何在多端设备上靠谱办事」。未来的端侧 AI 不会局限于手机,眼镜、手表等终端都将成为「端侧 Agent」,各自具备不同的传感器与执行能力,而云端则是统一的「超级大脑」。

「万象智维」正在构建的「Agent-to-Agent 交互网络」,将让任务突破设备绑定 —— 由云端统一规划,分发给最合适的端侧设备执行。移动端 AI 的「动手时代」已来,真正的分水岭不在于模型参数大小,而在于能否用工程化手段,将云端的「聪明」与端侧的「靠谱」深度结合,解决用户每天都要面对的琐事难题。

端云协同的路径,正在重新定义端侧 AI 的未来。随着技术的持续迭代,或许不久后,AI Agent 将真正融入生活的每一个场景,成为无需手动干预、既聪明又安全的「全能助手」。

这个架构思路确实挺实用的

这个端云协同的思路有点意思啊

端云协同架构确实解决了现实痛点。端侧负责高频执行,云端专注复杂决策,这个分工比纯云或纯端都更实用。技术落地的关键在于工程化整合,而非单纯堆参数。

端云协同这思路挺靠谱

这个架构设计挺巧妙的

这思路挺实在的嘛

端云协同这个路子确实聪明

端云协同这思路确实靠谱,云端负责复杂决策,端侧做执行终端,正好解决了纯云方案缺场景感知、纯端方案算力不足的痛点。小万这个端侧GUI加云侧CLI的分工模式很清晰,算是把两边优势真正打通了。

这思路真有意思啊

这个端云协同思路有点意思啊 总算不是纯画饼了 场景例子很接地气 早上自动打车那个我确实需要