LLM、RAG 和 AI Agent 之间的区别
LLM、RAG 和 AI Agent 三者不是竞争关系,它们是不同技术层面的实现,协同工作以实现更强大的 AI 应用。
LLM 是大脑中枢
LLM(Large Language Model)可以推理、写作和理解语言。但问题在于:它的知识只停留在某个时间点。
GPT-4 对训练阶段之后的事情一无所知。问它昨天的新闻,它只会胡言乱语。
大语言模型很聪明,但对当下发生的事情一无所知。
RAG 是记忆系统
RAG(Retrieval-Augmented Generation)将静止的大脑与最新的知识连接起来。当你提出问题时,RAG 会搜索外部数据库,提取相关文档,并将其作为上下文信息提供给 LLM。
突然间,你的静态模型变成了动态模型。全新的数据,真实的事实,无需重新训练。
准确率的提升立竿见影。模型不再依赖训练数据进行猜测,而是根据实际检索到的信息进行推理。您可以精确地知道答案来自文档的哪个部分。
在实际应用中,RAG 可以搭配一个知识库,知识库中的文档都是事先处理好的,会处理成切片,使用向量来表示。RAG 根据用户的问题,从知识库中找到最相关的切片,提供给 LLM 进行回答,所以如何对各种类型的文档进行切片和向量化,是 RAG 的关键。
AI Agent 是执行系统
LLM 能思考,RAG 提供知识,但它们都不具备执行能力。Agent 在 LLM 之上封装了一层控制循环逻辑:
- 设定目标
- 规划步骤
- 执行任务
- 评估结果(这是否与原始目标一致?计划是否合乎逻辑?)
Agent 不只是回答问题,它还会研究主题、提取数据、生成报告并发送电子邮件。所有这些都是自主完成的。
接下来就精彩了。
大多数的 AI 应用仅仅是一个 demo,它们只是 LLM 搭配精细优化的提示词,实际应用产品则需要三者的强有力结合:
- LLM 负责理解和推理用户问题
- RAG 提供最新的知识和信息以提升准确率
- Agent 负责自主执行任务
总结
总结下 LLM、RAG 和 AI Agent 的使用场景:
- LLM:纯语言处理任务,如写作、翻译、答疑等场景
- LLM + RAG:对准确率有要求的时候使用,比如回答需要来自内部文档、技术手册、领域知识等场景
- LLM + RAG + Agent:需要自主执行任务的场景,如自动化工作流、数据分析等需要让系统来决策的场景
AI 应用的未来不是孤立地使用哪种技术,而是 LLM、RAG 和 Agent 三者的强强结合:
- LLM 作为智能大脑
- RAG 作为动态记忆系统
- Agent 作为自主执行者

参考资料
本文主要参考了下面这篇推文的内容:
- https://x.com/connordavis_ai/status/1985663551697273216
留下评论