一提到Manus,行业里一个很通用的评价就是“他们的产品做得很好”。这一直让我困惑:一方面,我除了公测时像蝗虫一样浅尝辄止地试用外,并没有深度使用过;另一方面,几次断续体验中,交付结果的质量也并未达到我的预期。但偏偏有很多人真心称赞Manus,这让我忍不住想弄清楚原因。业界常说Manus产品好在于“不做基座模型”。我认为这不是核心答案——太多AI产品也不做基座模型,却远谈不上成功。讨论“不做”时,必须通过“不做”看到他们把精力聚焦在了“做什么”。这本质上是“取舍”。Manus放弃底层模型,专注上层应用;放弃垂直人群,专注通用办公场景。说到底,Manus并不擅长“发明创造”,而是极擅长“选择+执行”。
调研后,我总结出Manus在三个层面的取舍。
一、沙盒:通用Agent的工作台。
Manus为每个任务(session)启动一个持久化的云端Linux虚拟机。持久化意味着整个任务周期内,虚拟机作为稳定平台承载所有工作进度,不会因单步结束就销毁关键上下文;云端部署则支持异步执行,你可以关闭浏览器甚至关机,去做其他事。反例是ChatGPT:直接写代码时无法边运行边联网,13小时不活跃就会销毁。它更像临时展示工具,难以应对长时间、多线程、依赖网络的复杂任务。
虚拟机沙盒并非Manus独创,几乎所有Agent产品都依赖它。Devin是编程领域的佼佼者,提供了开发者级环境。Manus则优化了Python数据处理、浏览器操作和文件生成,更贴近大众办公。沙盒层面,Manus不做专业工作站(像Mac Studio),也不做临时展示窗口(像iPad),而是面向普通职场人的通用系统(像MacBook Air)。
二、工具:Agent的手脚。
Agent产品通常会把常用能力封装成工具供AI调用。Manus的亮点在于工具设计更贴合通用办公场景,颗粒度更细致。例如,Manus的浏览器拥有“视觉”能力。多数Agent内置的无头浏览器只有核心引擎、无图形界面,因为AI理论上只需读取结构化数据。但现实中人类网页设计了太多视觉遮罩,Matthew Berman评测时发现Manus能绕过这些障碍,说明其浏览器加入了多模态视觉能力。类似思路也出现在LangChain/PandasAI等开源库中,它们预设固定流程处理常见难题,效率远超让AI现场推理。Cursor在代码场景下工具极度丰富,Devin也不逊色。但Manus的选择很清晰:不做特定职业专用工具,而是构建通用、大众化的工具集。
张小珺采访季逸超时,后者提到原子能力的“网络效应”让我印象深刻:把所有原子能力连成一张网,判断某能力重要性的标准是——提升它能否让整张网的能力大幅增强。比如Manus无需专门开发画图工具(可用通用工具替代),但极度重视“读图”能力,因为它能在网页浏览、表格处理、文档理解等众多场景放大价值。
三、任务路由:Agent的指挥官
开启深度模式后,Manus能感知不同任务类型并触发对应SOP。传统AI(包括许多Agent)流程相对固定,如deep research通常是“写计划-查资料-汇总”线性执行。但真人做事会在这些步骤间反复迭代,这需要动态规划能力。Helicone分析显示,高级Agent如Manus的API调用呈典型DAG(有向无环图)结构,而非线性。季逸超博客中也提到,通过持续更新todo.md来“复述”任务目标,防止长链条任务偏离主题。这些都是动态规划的工程实践。
在动态规划上,OpenAI o1是强有力的对比:Manus更像传统rule-based自动驾驶,o1则是端到端的、内生于思维链的规划。
回归最初问题:Manus的产品到底好在哪里?
首先是定位精准,既包括目标用户,也包括商业化路径,这决定了它的天花板有多高。我现在明白自己为何总对Manus失望——我测试的场景根本不在它的定位范围内。其次是业务洞察。几乎所有设计都围绕“交付任务”展开,尤其沙盒和工具层面的取舍,体现出对目标用户任务特征的深刻洞察。最后是执行力,把选定的方向做到位。体验中“任务卡住或失败”并不常见,说明内部一定做了大量场景优化和产品巧思,这是个极其需要细致和耐心的活儿。
当然,站在当下时间点,Manus到底有多强仍见仁见智。这篇文章只是我迟到的学习笔记,发布即有“过时”的宿命。


