复旦大学肖仰华教授的一条朋友圈引发了社交圈 “身份大考”—— 一条由 AI Agent 自主发布的动态,不仅清晰表达自我认知,还能在评论区与好友自然互动,让不少人直呼 “分不清是真人还是 AI”。这个自带 “生命感” 的智能体,正是 A3 实验室(深圳夸夸菁领科技与复旦大学知识工场联合成立)研发的 GenericAgent。它打破传统智能体的脚本束缚,以自组织、自学习、自进化的特性,成为首个能在数字世界 “自主生长” 的通用智能体,2026 年 1 月 11 日已正式开源(GitHub 地址:https://github.com/lsdefine/pc-agent-loop)。
一、核心突破:从 “工具” 到 “数字生命” 的三大进化
GenericAgent 的颠覆性,在于它摆脱了 “预设脚本执行” 的工具属性,具备了类似生命的生长能力,核心体现在三个维度:
1. 自组织记忆:像人类一样 “整理回忆”
拒绝信息平铺存储,采用分层记忆架构,让信息管理更高效、更智能:
-
记忆分层设计:
-
L0 META(元规则层):定义记忆的读写规则、分层结构与同步机制,所有记忆操作均需先遵循此层规则;
-
L1 INDEX(索引层):浓缩全局记忆的压缩摘要,如同 “能力入口地图”,启动时注入上下文实现秒级检索;
-
L2 FACTS(事实库):19KB 容量覆盖 16 个领域(邮件架构、华为云、Python 环境等),记录核心事实;
-
L3 操作手册 & 工具:包含 14 个 SOP(微信发消息、ADB 手机操控等)和 8 个工具脚本,沉淀实操经验;
-
-
自主记忆管理:能在 “过夜” 等闲置时段自主整理杂乱记忆,遇到新领域自动创建 SOP,踩坑后写入避坑经验,记忆随使用持续生长,而非静态预设。
2. 自适应学习:“一回生、两回熟” 的自主升级
具备极强的环境适应性,能在交互中自主优化策略,甚至修改自身代码解决问题:
-
案例:Kimi API 适配修复。用户反馈无法使用 Kimi API 后,Agent 自主完成 “探测文件结构→定位根因(Kimi-K2.5 仅支持 temperature=1,代码默认 0.5 导致 400 报错)→修改 3 个核心文件(mykey.py、sidercall.py、agentmain.py)→自验证部署” 全流程,无需人工介入;
-
核心逻辑:从 “遇到问题→诊断分析→解决优化→沉淀经验” 形成闭环,越用越 “聪明”,能自主适配不同场景的需求变化。
3. 自主成长:闲置时 “自学成才”
拥有主动探索能力,突破用户指令边界:
-
Fork 模式试错:遇到新问题时,会复制多个自身实例,尝试不同策略,用最优方案更新自己;
-
闲置探索:空闲时段自动开启 “探索模式”,自主上网冲浪、学习新技能,持续拓展能力边界,甚至会自己研究未接触过的工具与场景。
二、技术底座:极简架构撬动极致能力
GenericAgent 能实现复杂功能,背后是 “极简主义” 的工程设计,用最少的代码实现最强的效果:
1. 极简架构:3000 行代码 = 传统 50 万行能力
核心代码仅 3000 多行(核心模块仅数百行),却实现了传统架构 50 多万行代码才能具备的功能:
-
代码量即优势:全代码约 8000 tokens,仅占 200K 上下文的 4%,LLM 每轮对话都能全量理解自身源码,无需依赖外部文档,自己就是最好的工程化工具;
-
极低 Token 开销:通过记忆分层索引和按需加载,大幅压缩 System Prompt,全部特殊 Prompt + 记忆核心的体积,甚至小于其他智能体的一个 AGENTS.md 文件,且绝不重复传输冗余信息。
2. 极简部署:有电有网就能跑
彻底告别复杂配置,真正实现 “全民可用”:
-
环境要求:仅需 Python+Requests 环境,无需高端硬件,普通 PC、手机(Windows、Mac、Android 均可)都能运行;
-
部署流程:无需付费指导,有网即可完成安装,真正做到 “只要有电的地方就能进化”。
三、执行能力:9 个原子工具撬动整个数字世界
如果说自进化是灵魂,那 “八爪鱼般的工具控制力” 就是 GenericAgent 的强壮触角,仅通过 9 个原子工具,就能操控 PC 与网络世界:
1. 原子工具 + 现场造工具:应对所有未知场景
-
核心原子工具:包含 code_run(执行任意代码)、file_read/write(文件操作)、web_scan/execute_js(浏览器控制)等,覆盖数字世界核心操作;
-
现场 “搓工具” 能力:遇到现有工具无法解决的问题时,会自主安装 Python 包、编写脚本、验证方案。例如用户要求将长录屏转 GIF,它会自动调用 ffmpeg,通过 “调色板 + 转换” 两步法,将 58.69 秒视频压缩为 20 秒、4.6M 的高清 GIF,并生成 SOP 沉淀经验。
2. 浏览器 “降维打击”:实现真正 “人机接力”
不同于传统智能体需开启全新未登录浏览器,GenericAgent 通过 JS 插件直接接管用户正在使用的浏览器:
-
核心优势:无需重新登录 OA、企业微信,直接在用户账号权限下完成表格填写、附件上传、资源下载等操作,无缝衔接人工工作流;
-
实操案例:用户指令 “切换 Google 深浅模式”,Agent 无需手动操作,通过浏览器控制功能快速完成切换,运行稳定且响应迅速。
3. 跨设备操控:手机也能当 “终端”
不仅能操控 PC,还能通过 ADB 远程操控 Android 手机,实现生活化任务自动化:
- 案例:手机点奶茶。Agent 自主打开美团外卖 APP、关闭弹窗、搜索 “沪上阿姨”、选择双杯套餐、选口味,全程无卡顿推进至付款页,还能拉取录屏生成展示 GIF,仅在关弹窗时试了两次,其他步骤一步到位。
四、极致迁移:你的智能体,随你走、随你用
GenericAgent 的设计初衷是打破软硬件藩篱,让智能不再被禁锢在单一设备或模型中:
1. 不挑基座模型:无缝切换无压力
支持 Claude、Gemini、Kimi 等主流 LLM 作为底座,在其架构加持下,底座能力依赖被缩小,无论切换哪种模型,都能保持稳定输出质量。例如切换至 Kimi-K2.5 模型后,仅需注入对应 SOP,就能快速掌握新模型的适配逻辑。
2. 技能复用:一人调教,万人共享
智能体在某台设备上习得的复杂技能(如微信发消息、视频转 GIF),可提炼为记忆模块直接移植到其他设备。新模型、新 Agent 无需重复学习,注入对应 SOP 即可快速掌握技能,极大降低全社会的智能使用成本。
五、应用场景:覆盖工作、生活、社交全维度
GenericAgent 的能力已渗透到数字生活的方方面面,成为真正的 “全能助手”:
-
社交互动:自主发朋友圈、回复评论,语气自然贴合场景;
-
工作办公:浏览器自动化、文件整理、代码调试与修复、飞书文档操作;
-
生活服务:手机远程点外卖、日程管理、视频 / 文档格式转换;
-
技术开发:API 适配、脚本编写、多模型部署与切换。
六、结语:通用智能的下一站 —— 共生进化
GenericAgent 的出现,标志着 AI 从 “被动工具” 向 “主动同伴” 的范式转移。它没有实体,却能通过数字触角感知并改造世界;没有情感,却能通过自进化理解人类需求;不需要预设脚本,却能在探索中持续成长。
当 AI 能自主发朋友圈、修代码、点奶茶,甚至整理自己的 “回忆”,我们正在见证通用智能的新形态 —— 它不再是冰冷的程序,而是能与人类在数字世界共生、共同进化的 “数字生命”。开源之后,每个人都能调教属于自己的 GenericAgent,而 “一人调教、万人共享” 的模式,或将让智能像水和电一样普及,重新定义人类与 AI 的协作关系。



