发朋友圈、点奶茶、修代码!GenericAgent:拥有 “生命感” 的自进化 AI,重新定义通用智能!

复旦大学肖仰华教授的一条朋友圈引发了社交圈 “身份大考”—— 一条由 AI Agent 自主发布的动态,不仅清晰表达自我认知,还能在评论区与好友自然互动,让不少人直呼 “分不清是真人还是 AI”。这个自带 “生命感” 的智能体,正是 A3 实验室(深圳夸夸菁领科技与复旦大学知识工场联合成立)研发的 GenericAgent。它打破传统智能体的脚本束缚,以自组织、自学习、自进化的特性,成为首个能在数字世界 “自主生长” 的通用智能体,2026 年 1 月 11 日已正式开源(GitHub 地址:https://github.com/lsdefine/pc-agent-loop)。

一、核心突破:从 “工具” 到 “数字生命” 的三大进化

GenericAgent 的颠覆性,在于它摆脱了 “预设脚本执行” 的工具属性,具备了类似生命的生长能力,核心体现在三个维度:

1. 自组织记忆:像人类一样 “整理回忆”

拒绝信息平铺存储,采用分层记忆架构,让信息管理更高效、更智能:

  • 记忆分层设计:

    • L0 META(元规则层):定义记忆的读写规则、分层结构与同步机制,所有记忆操作均需先遵循此层规则;

    • L1 INDEX(索引层):浓缩全局记忆的压缩摘要,如同 “能力入口地图”,启动时注入上下文实现秒级检索;

    • L2 FACTS(事实库):19KB 容量覆盖 16 个领域(邮件架构、华为云、Python 环境等),记录核心事实;

    • L3 操作手册 & 工具:包含 14 个 SOP(微信发消息、ADB 手机操控等)和 8 个工具脚本,沉淀实操经验;

  • 自主记忆管理:能在 “过夜” 等闲置时段自主整理杂乱记忆,遇到新领域自动创建 SOP,踩坑后写入避坑经验,记忆随使用持续生长,而非静态预设。

2. 自适应学习:“一回生、两回熟” 的自主升级

具备极强的环境适应性,能在交互中自主优化策略,甚至修改自身代码解决问题:

  • 案例:Kimi API 适配修复。用户反馈无法使用 Kimi API 后,Agent 自主完成 “探测文件结构→定位根因(Kimi-K2.5 仅支持 temperature=1,代码默认 0.5 导致 400 报错)→修改 3 个核心文件(mykey.py、sidercall.py、agentmain.py)→自验证部署” 全流程,无需人工介入;

  • 核心逻辑:从 “遇到问题→诊断分析→解决优化→沉淀经验” 形成闭环,越用越 “聪明”,能自主适配不同场景的需求变化。

3. 自主成长:闲置时 “自学成才”

拥有主动探索能力,突破用户指令边界:

  • Fork 模式试错:遇到新问题时,会复制多个自身实例,尝试不同策略,用最优方案更新自己;

  • 闲置探索:空闲时段自动开启 “探索模式”,自主上网冲浪、学习新技能,持续拓展能力边界,甚至会自己研究未接触过的工具与场景。

二、技术底座:极简架构撬动极致能力

GenericAgent 能实现复杂功能,背后是 “极简主义” 的工程设计,用最少的代码实现最强的效果:

1. 极简架构:3000 行代码 = 传统 50 万行能力

核心代码仅 3000 多行(核心模块仅数百行),却实现了传统架构 50 多万行代码才能具备的功能:

  • 代码量即优势:全代码约 8000 tokens,仅占 200K 上下文的 4%,LLM 每轮对话都能全量理解自身源码,无需依赖外部文档,自己就是最好的工程化工具;

  • 极低 Token 开销:通过记忆分层索引和按需加载,大幅压缩 System Prompt,全部特殊 Prompt + 记忆核心的体积,甚至小于其他智能体的一个 AGENTS.md 文件,且绝不重复传输冗余信息。

2. 极简部署:有电有网就能跑

彻底告别复杂配置,真正实现 “全民可用”:

  • 环境要求:仅需 Python+Requests 环境,无需高端硬件,普通 PC、手机(Windows、Mac、Android 均可)都能运行;

  • 部署流程:无需付费指导,有网即可完成安装,真正做到 “只要有电的地方就能进化”。

三、执行能力:9 个原子工具撬动整个数字世界

如果说自进化是灵魂,那 “八爪鱼般的工具控制力” 就是 GenericAgent 的强壮触角,仅通过 9 个原子工具,就能操控 PC 与网络世界:

1. 原子工具 + 现场造工具:应对所有未知场景

  • 核心原子工具:包含 code_run(执行任意代码)、file_read/write(文件操作)、web_scan/execute_js(浏览器控制)等,覆盖数字世界核心操作;

  • 现场 “搓工具” 能力:遇到现有工具无法解决的问题时,会自主安装 Python 包、编写脚本、验证方案。例如用户要求将长录屏转 GIF,它会自动调用 ffmpeg,通过 “调色板 + 转换” 两步法,将 58.69 秒视频压缩为 20 秒、4.6M 的高清 GIF,并生成 SOP 沉淀经验。

2. 浏览器 “降维打击”:实现真正 “人机接力”

不同于传统智能体需开启全新未登录浏览器,GenericAgent 通过 JS 插件直接接管用户正在使用的浏览器:

  • 核心优势:无需重新登录 OA、企业微信,直接在用户账号权限下完成表格填写、附件上传、资源下载等操作,无缝衔接人工工作流;

  • 实操案例:用户指令 “切换 Google 深浅模式”,Agent 无需手动操作,通过浏览器控制功能快速完成切换,运行稳定且响应迅速。

3. 跨设备操控:手机也能当 “终端”

不仅能操控 PC,还能通过 ADB 远程操控 Android 手机,实现生活化任务自动化:

  • 案例:手机点奶茶。Agent 自主打开美团外卖 APP、关闭弹窗、搜索 “沪上阿姨”、选择双杯套餐、选口味,全程无卡顿推进至付款页,还能拉取录屏生成展示 GIF,仅在关弹窗时试了两次,其他步骤一步到位。

四、极致迁移:你的智能体,随你走、随你用

GenericAgent 的设计初衷是打破软硬件藩篱,让智能不再被禁锢在单一设备或模型中:

1. 不挑基座模型:无缝切换无压力

支持 Claude、Gemini、Kimi 等主流 LLM 作为底座,在其架构加持下,底座能力依赖被缩小,无论切换哪种模型,都能保持稳定输出质量。例如切换至 Kimi-K2.5 模型后,仅需注入对应 SOP,就能快速掌握新模型的适配逻辑。

2. 技能复用:一人调教,万人共享

智能体在某台设备上习得的复杂技能(如微信发消息、视频转 GIF),可提炼为记忆模块直接移植到其他设备。新模型、新 Agent 无需重复学习,注入对应 SOP 即可快速掌握技能,极大降低全社会的智能使用成本。

五、应用场景:覆盖工作、生活、社交全维度

GenericAgent 的能力已渗透到数字生活的方方面面,成为真正的 “全能助手”:

  • 社交互动:自主发朋友圈、回复评论,语气自然贴合场景;

  • 工作办公:浏览器自动化、文件整理、代码调试与修复、飞书文档操作;

  • 生活服务:手机远程点外卖、日程管理、视频 / 文档格式转换;

  • 技术开发:API 适配、脚本编写、多模型部署与切换。

六、结语:通用智能的下一站 —— 共生进化

GenericAgent 的出现,标志着 AI 从 “被动工具” 向 “主动同伴” 的范式转移。它没有实体,却能通过数字触角感知并改造世界;没有情感,却能通过自进化理解人类需求;不需要预设脚本,却能在探索中持续成长。

当 AI 能自主发朋友圈、修代码、点奶茶,甚至整理自己的 “回忆”,我们正在见证通用智能的新形态 —— 它不再是冰冷的程序,而是能与人类在数字世界共生、共同进化的 “数字生命”。开源之后,每个人都能调教属于自己的 GenericAgent,而 “一人调教、万人共享” 的模式,或将让智能像水和电一样普及,重新定义人类与 AI 的协作关系。

听起来挺有意思的

这东西看着有点吓人

这智能体居然能自己修代码点奶茶

听起来挺神奇的哈

这个记忆分层设计挺有意思

看着还挺有意思的