1 分钟阅读

LLM、RAG 和 AI Agent 三者不是竞争关系,它们是不同技术层面的实现,协同工作以实现更强大的 AI 应用。

LLM 是大脑中枢

LLM(Large Language Model)可以推理、写作和理解语言。但问题在于:它的知识只停留在某个时间点。

GPT-4 对训练阶段之后的事情一无所知。问它昨天的新闻,它只会胡言乱语。

大语言模型很聪明,但对当下发生的事情一无所知。

RAG 是记忆系统

RAG(Retrieval-Augmented Generation)将静止的大脑与最新的知识连接起来。当你提出问题时,RAG 会搜索外部数据库,提取相关文档,并将其作为上下文信息提供给 LLM。

突然间,你的静态模型变成了动态模型。全新的数据,真实的事实,无需重新训练。

准确率的提升立竿见影。模型不再依赖训练数据进行猜测,而是根据实际检索到的信息进行推理。您可以精确地知道答案来自文档的哪个部分。

在实际应用中,RAG 可以搭配一个知识库,知识库中的文档都是事先处理好的,会处理成切片,使用向量来表示。RAG 根据用户的问题,从知识库中找到最相关的切片,提供给 LLM 进行回答,所以如何对各种类型的文档进行切片和向量化,是 RAG 的关键。

AI Agent 是执行系统

LLM 能思考,RAG 提供知识,但它们都不具备执行能力。Agent 在 LLM 之上封装了一层控制循环逻辑:

  • 设定目标
  • 规划步骤
  • 执行任务
  • 评估结果(这是否与原始目标一致?计划是否合乎逻辑?)

Agent 不只是回答问题,它还会研究主题、提取数据、生成报告并发送电子邮件。所有这些都是自主完成的。

接下来就精彩了。

大多数的 AI 应用仅仅是一个 demo,它们只是 LLM 搭配精细优化的提示词,实际应用产品则需要三者的强有力结合:

  • LLM 负责理解和推理用户问题
  • RAG 提供最新的知识和信息以提升准确率
  • Agent 负责自主执行任务

总结

总结下 LLM、RAG 和 AI Agent 的使用场景:

  • LLM:纯语言处理任务,如写作、翻译、答疑等场景
  • LLM + RAG:对准确率有要求的时候使用,比如回答需要来自内部文档、技术手册、领域知识等场景
  • LLM + RAG + Agent:需要自主执行任务的场景,如自动化工作流、数据分析等需要让系统来决策的场景

AI 应用的未来不是孤立地使用哪种技术,而是 LLM、RAG 和 Agent 三者的强强结合:

  • LLM 作为智能大脑
  • RAG 作为动态记忆系统
  • Agent 作为自主执行者

tbl

参考资料

本文主要参考了下面这篇推文的内容:

  • https://x.com/connordavis_ai/status/1985663551697273216

留下评论