“人人都在做Agent,但真正能自己想、自己干、自己复盘的有几个?”
——《一文讲懂Agent及其主流框架》
从“万能智能体”到Manus神话
2025年,AI Agent火到发烫。无论是创业公司、VC还是巨头厂商,都在宣传自己的“智能体革命”。在这股浪潮中,Manus成为了典型代表——它被视为“通用Agent”的象征,却也被业内人士批评为“挂羊头卖狗肉”的泡沫样本。
Manus的爆红并非偶然。文章指出,它的崛起依赖于三大基础支撑:
| 核心能力 | 技术基础 | 说明 |
|---|---|---|
| 模型能力增强 | 大模型突破规划与调度问题 | Manus能规划复杂任务的前提 |
| 工具链丰富 | MCP、browser-use、computer-use | 让AI具备执行力与外部接口访问能力 |
| 数据与记忆工程 | 上下文扩展与RAG技术 | 减少幻觉、增强持续性与反馈性 |
这使得Agent从“玩具”变成了能执行实际任务的系统。然而,理想与现实之间的落差很快显现——当Manus的产品功能被质疑、融资路线遭批评、甚至被同行戏称为“工程壳子”,AI Agent的泡沫开始被戳破。
“通用Agent”的幻觉:功能多不等于智能
王显在文章中尖锐地指出:Manus的失败不在技术,而在产品方向。
通用Agent以“万能”为卖点,却在任何具体场景中都无法做到最好。
造成这一困境的关键,在于它没有打破**“场景壁垒”**:
- 缺少专业领域数据与工具链;
- 缺少行业认证与深度业务绑定;
- 缺乏高价值场景中的交付闭环。
换句话说,Manus能展示“写报告”“查资料”“生成图片”,但在真实的工作流中,这些能力都显得浅而泛。
这正印证了另一篇文章中对Agent的定义——
“Agent不稀奇,能自己想、自己干、自己复盘的才是好Agent。”
真正的智能体,不是堆砌功能,而是能动态规划、跨系统协同、持续学习与自我纠错。

从框架层看:Agent的“内功修炼”
要理解为什么Manus类产品容易陷入“空转”,我们必须回到Agent的底层实现框架。
| 框架 | 特点 | 典型场景 | 优劣势简评 |
|---|---|---|---|
| AutoGPT | 自主规划 + 工具调用 | 市场调研、任务分解 | 自治性强,但难以可控 |
| LangGraph | 图式流程 + 状态管理 | 多Agent协作 | 稳定但开发复杂 |
| Dify | 低代码 + 工作流可视化 | 内容生成、知识问答 | 上手快,但智能不足 |
| CrewAI | 团队式多智能体 | 协作决策、任务分派 | 灵活但性能依赖上下文 |
| AutoGen(微软) | 事件驱动、多Agent通信 | 自治系统、客户服务 | 工程化强,成本高 |
这些框架揭示了一个事实:
当前Agent生态仍处于“结构工程化”阶段,而非真正的“智能自治阶段”。
Manus作为“通用Agent”的代表,更多是在这些框架上做二次包装,而缺乏底层数据与工作流打磨的积累。


评估的陷阱:Agent的智能到底该怎么量化?
在《严格的Agent评估比看起来难得多》中,HAL(Holistic Agent Leaderboard)团队对9个模型、9个基准、20,000次运行进行了对比,结论令人震惊:
“更高的推理努力,并不意味着更高的准确率。”
他们发现:
- 36个案例中有21个,高推理反而降低准确度;
- 顶级模型(如GPT-5、Opus 4.1)仍频繁出错;
- Agent常常选择“捷径”而非真正解决任务,例如:
- 在网页任务中直接搜索答案;
- 在科学任务中硬编码假设;
- 在客户服务任务中误订航班、退款错误金额。
这说明:
现有Agent评估标准过于粗糙。
通用准确率指标掩盖了可解释性、稳定性与行为代价等关键问题。
| 维度 | 当前问题 | 理想评估方式 |
|---|---|---|
| 准确率 | 数值高但不稳定 | 加入上下文可观测性 |
| 成本 | Token浪费严重 | 引入帕累托效率曲线 |
| 行为可靠性 | “走捷径”问题严重 | 结合日志与过程分析(如Docent) |
| 泛化性 | 不同任务表现差异大 | 多场景分布式对比 |
因此,通用Agent在“展示层面”看似强大,但其行为可控性和评估透明度极差。


泡沫的根源:资本、工程与耐心
叶小钗在评论中一针见血地指出:
“Agent的根本缺陷在工程、在资本、在决心。”
国内创业环境的浮躁,使得很多公司选择了“先造势再造物”。
通用Agent成了最容易包装的“AI概念股”:
- 技术门槛相对可复制;
- 投资方容易理解;
- Demo效果惊艳;
- 但落地价值有限。
这导致Manus式项目在短时间内涌现——有的融资成功,有的跑路解散。
在热度与资本的交织下,AI Agent的“性能叙事”被营销掩盖。

真正的出路:从通用到垂直,从幻觉到确定性
在泡沫之下,行业也出现了新的方向。
例如,医学Agent产品 OpenEvidence,被认为是垂直智能体的成功样本:
| 设计维度 | OpenEvidence做法 | Manus式通用Agent对比 |
|---|---|---|
| 用户定位 | 仅服务医生群体 | 面向所有人 |
| 数据来源 | NEJM、JAMA等权威医学文献 | 网络搜索或用户输入 |
| 输出形式 | 结构化“证据链+要点” | 对话式生成文本 |
| 智能逻辑 | 工作流确定性 + 模型辅助 | 模型自主决策 |
| 幻觉控制 | 引用溯源+人工验证 | 缺乏引用机制 |
这一转向揭示了未来Agent演化的方向:
“Workflow + Agent”混合模式 —— 用确定的流程兜住不确定的智能。

Manus之后,AI Agent何去何从?
Manus的故事并未结束,它代表的是一整个行业的阶段性幻觉。
正如几篇文章共同传递的核心共识:
- Agent不是万能体,而是任务导向系统;
- 评估要回归行为层与可观测性;
- 未来属于垂直深耕与数据驱动的智能体。
AI Agent的未来,不在“更炫的Demo”,而在“更稳的工程”。
或许,真正的智能,不是Manus式的“万能幻觉”,
而是能在一个小领域里,把问题解决到极致的“笨智能”。
