首页/刘磊VIEW/《读完北大万字Agent长文,我从狂热转向冷静》

《读完北大万字Agent长文,我从狂热转向冷静》

作者:刘磊VIEW
公众号:刘磊VIEW
发布时间:2025年9月22日
阅读量:3
查看原文 ↗

读完北大Agent万字长文,我冷静了

最近大半年,整个圈子都在狂聊 AI Agent,感觉空气里都飘着一股“下一个时代”的味道。作为一个被各种技术浪潮拍打下的我承认,一开始我也挺上头的。

但人一上头,就容易看不清脚下的路。所以前两天,我踏踏实实把北大AI肖睿团队那份一百多页的 Agent 讲座PPT给啃完了。读完之后,最大的感觉不是更兴奋了,反而是……冷静了。

我终于把这事儿从头到尾捋清楚了,看清了它到底是什么,以及,大家没在聊的那些坑。

过去我们用AI,不管是啥模型,本质上还是在用一个“工具”。你问一句,它答一句。你给个指令,它生成个东西。你点一下,它动一下。用完即走,没有然后。这就像一把更聪明的锤子,但它终究是把锤子,得人抡起来才行。

Agent不一样。它压根不是“工具”,它是一个“实体”(Entity)。

你给Agent的,不是一个具体的指令,而是一个“目标”。比如,你不再是对它说“帮我查查去北京的机票”,而是说“我要去北京出差三天,帮我安排好行程”。

然后,它就开始自己干活了。一个完整的Agent,基本上就干三件事:感知(Perception)、认知决策(Decision-making)、行动(Action)。

• 感知,就是它的五官。它会自己去看(上网查天气、查酒店评论)、去听。
• 认知决策,是它的大脑。它会思考、规划、做选择。比如,它发现有两家酒店评价都不错,但一家离会场近,另一家便宜但得打车,它会自己琢磨哪个更合适。
• 行动,就是它的手脚。它会真的去调用API,把机票和酒店给订了。

你看,这个过程里,人只给了个目标,剩下的都是它自己搞定的。这就是从“工具”到“实体”的根本区别,也是Agent真正的价值所在——自主性。

那为啥这事儿到今天才爆?PPT里讲得很到位,两个词:天时、地利。“天时”是LLM的能力终于够用了,能当那个“大脑”了。 “地利”是周边的零件都齐了,比如向量数据库能给它装“记忆”,各种开放API能当它的“手脚”。

对于想入局做Agent的开发者,这份文档也给出了特别实在的建议。

• 首先,开发者应该认清现实,别被热炒的概念带偏。文档里把Agent的发展划了五个阶段,从最简单的工具使用,到知识库,再到拥有记忆和推理能力,最后才是复杂的多Agent系统。 说实话,现在绝大部分应用都还停在第一、第二阶段。文档明确说了,被很多人寄予厚望的多Agent协作模式,在2025年依然不成熟,只适合搞研究,离生产环境还远着呢。
• 其次,开发者要开始用“协议思维”去思考。当Agent需要和外部世界打交道,就离不开标准化的接口。文档里拆解了几个关键协议:MCP是管模型怎么用工具的,A2A是管Agent之间怎么对话的,AG-UI是管Agent怎么跟用户界面交互的。 未来Agent的生态,一定是建立在这些通用协议上的,而不是各家自己搞一套。
• 最后,开发者必须把安全提到最高优先级。一个能自己“行动”的程序,风险完全不是一个量级的。文档里强调了像沙箱环境、高风险操作前必须用户确认、最小权限原则这些东西。 这不是可选项,是必选项。

当然,想让Agent真正落地,最大的障碍可能还不是技术。

核心挑战是,它的规划能力还很“脆”。我们希望它能自主规划,但实际上它经常会因为一个步骤想不明白,整个任务链就断了。 还有就是大模型的“幻觉”问题,一个只会聊天的模型胡说八道,顶多是个笑话;一个能下单买东西的Agent要是产生幻觉,那可是真金白银的损失。

所以,为什么我看完之后冷静了?

因为我看到了这股浪潮的全貌,不仅有浪头的风光,更有水下的礁石。这事儿没那么神话,它背后是环环相扣的工程难题和逻辑边界。

更有意思的是,文档最后提出了一个观点:Agent的未来,可能不是我们现在做的这些复杂的框架,而是“模型即产品”。 也就是说,自主规划、使用工具这些能力,未来会被直接“塞进”大模型本身,而不是靠外部的各种框架来编排。我们现在吭哧吭哧做的这些,可能都只是过渡阶段的脚手架。

这让我有了一种更长远的平静。这或许引出了一个真正的问题:我们今天是在构建一个终将伟大的产品,还是在为那个真正智能的未来,搭建一套必将被拆除的训练设施?你怎么看?

获取源文件:

吐血整理!史上最全的 DeepSeek 大礼包!学到就是赚到!(附下载)

相关文章