AI Agent:基于大模型的自主智能体,在探索AGI的道路上前进

多客科技 · 发表于 2023-11-13 09:31

作者：我要学AI
（报告出品方：东方证券）

什么是 AI Agent？

AI Agent（人工智能代理）是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能，AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。

比如，告诉 AI Agent 帮忙下单一份外卖，它就可以直接调用 APP 选择外卖，再调用支付程序下单支付，无需人类去指定每一步的操作。Agent 的概念由 Minsky 在其 1986 年出版的《思维的社会》一书中提出， Minsky 认为社会中的某些个体经过协商之后可求得问题的解，这些个体就是 Agent。

他还认为 Agent应具有社会交互性和智能性。Agent的概念由此被引入人工智能和计算机领域，并迅速成为研究热点。但苦于数据和算力限制，想要实现真正智能的 AI Agents 缺乏必要的现实条件。

大语言模型和 AI Agent 的区别在于 AI Agent 可以独立思考并做出行动，和 RPA 的区别在于它能够处理未知环境信息。

ChatGPT 诞生后，AI 从真正意义上具备了和人类进行多轮对话的能力，并且能针对相应问题给出具体回答与建议。随后各个领域的“Copilot”推出，如 Microsoft 365 Copilot、GitHub Copilot、Adobe Firefly 等，让 AI 成为了办公、代码、设计等场景的“智能副驾驶”。

AI Agent 和大模型的区别在于，大模型与人类之间的交互是基于 prompt 实现的，用户 prompt 是否清晰明确会影响大模型回答的效果，例如 ChatGPT 和这些 Copilot 都需要明确任务才能得到有用的回答。

而 AI Agent 的工作仅需给定一个目标，它就能够针对目标独立思考并做出行动，它会根据给定任务详细拆解出每一步的计划步骤，依靠来自外界的反馈和自主思考，自己给自己创建 prompt，来实现目标。如果说 Copilot 是“副驾驶”，那么 Agent 则可以算得上一个初级的“主驾驶”。和传统的 RPA 相比，RPA 只能在给定的情况条件下，根据程序内预设好的流程来进行工作的处理，在出现大量未知信息、难以预测的环境中时，RPA 是无法进行工作的，AI Agent 则可以通过和环境进行交互，感知信息并做出对应的思考和行动。

Agent 的最终发展目标：通用人工智能 AGI

AI Agent 并不是一个新兴的概念，早在多年前就已在人工智能领域有了研究。例如 2014 年由 DeepMind 推出的引发全球热议的围棋机器人 AlphaGo，也可以看做是 AI Agent 的一种。与之类似的还有 2017 年 OpenAI 推出的用于玩《Dota2》的 OpenAI Five，2019 年 DeepMind 公布用于玩《星际争霸 2》的 AlphaStar 等，这些 AI 都能根据对实时接收到的信息的分析来安排和规划下一步的操作，均满足 AI Agent 的基本定义。

当时的业界潮流是通过强化学习的方法来对 AI Agent 进行训练，主要应用场景是在游戏这类具有对抗性、有明显输赢双方的场景中。但如果想要在真实世界中实现通用性，基于当时的技术水平还难以实现。

大语言模型的浪潮推动了 AI Agent 相关研究快速发展。

AI Agent 需要做到能够像人类一样进行交互，大语言模型强大的能力为 AI Agent 的突破带来了契机。大模型庞大的训练数据集中包含了大量人类行为数据，为模拟类人的交互打下了坚实基础；另一方面，随着模型规模不断增大，大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。

将大模型作为AI Agent 的核心大脑，就可以实现以往难以实现的将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。大模型的快速发展大幅推动了 AI Agent 的发展。

通往 AGI 的道路仍需探索，AI Agent 是当前的主要路线。

在大模型浪潮席卷全球之时，很多人认为大模型距离真正的通用人工智能 AGI 已经非常接近，很多厂商都投入了基础大模型的研究。但经过了一段时间后，大家对大模型真实的能力边界有了清晰的认知，发现大模型仍存在大量的问题如幻觉、上下文容量限制等，导致其无法直接通向 AGI，于是 AI Agent 成为了新的研究方向。

通过让大模型借助一个或多个 Agent 的能力，构建成为具备自主思考决策和执行能力的智能体，来继续实现通往 AGI 的道路。OpenAI 联合创始人 Andrej Karpathy 在一次开发者活动中讲到， OpenAI 内部对 AI Agents 非常感兴趣，AI Agent 将是未来 AI 的前沿方向。扎克伯格也在 Meta 的一季度财报电话会上提到，Meta 将会把 AI Agents 介绍给数十亿用户。

AI Agent 可以类比为自动驾驶的 L4 阶段，距离真正实现仍有差距。

根据甲子光年报告，AI 与人类的协作程度可以和自动驾驶等级进行类比。像 ChatGPT 这类对话机器人可以类比 L2 级别自动驾驶，人类可以向 AI 寻求意见，但 AI 不直接参与工作；Copilot 这类副驾驶工具可以类比为 L3 级别的自动驾驶，人类和 AI 共同协作完成工作，AI 根据 prompt 生成初稿，人类仅需进行修改调整；

而 Agent 则进一步升级为 L4，人类给定一个目标，Agent 可以自己完成任务规划、工具调用等。但就如同 L4 级别的自动驾驶还未真正实现一样，AI Agents 容易想象和演示，却难以实现，AI Agents 的真正应用还在不确定的未来。

AI Agent 拆解：大模型、规划、记忆与工具

一个基于大模型的 AI Agent 系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。6 月， OpenAI 的应用研究主管 Lilian Weng 撰写了一篇博客，认为 AI Agent 可能会成为新时代的开端。她提出了 Agent = LLM + 规划技能 + 记忆 + 工具使用的基础架构，其中 LLM 扮演了 Agent 的“大脑”，在这个系统中提供推理、规划等能力。

大模型+规划：Agent 的“大脑”，通过思维链能力实现任务分解

LLM 具备逻辑推理能力，Agent 可以将 LLM 的逻辑推理能力激发出来。当模型规模足够大的时候，LLM 本身是具备推理能力的。在简单推理问题上，LLM 已经达到了很好的能力；但在复杂推理问题上，LLM 有时还是会出现错误。事实上，很多时候用户无法通过 LLM 获得理想的回答，原因在于 prompt 不够合适，无法激发 LLM 本身的推理能力，通过追加辅助推理的 prompt，可以大幅提升 LLM 的推理效果。

在《Large language models are zero-shot reasoners》这篇论文的测试中，在向 LLM 提问的时候追加“Let’s think step by step”后，在数学推理测试集 GSM8K 上的推理准确率从 10.4%提升到了 40.7%。而 Agent 作为智能体代理，能够根据给定的目标自己创建合适的 prompt，可以更好地激发大模型的推理能力。

对于需要更多步骤的复杂任务，Agent 能够调用 LLM 通过思维链能力实现任务分解与规划。

在 AI Agent 的架构中，任务分解规划的过程是基于大模型的能力来实现的。大模型具备思维链（Chain of Thoughts， CoT）能力，通过提示模型“逐步思考”，利用更多的计算时间来将困难任务分解为更小，更简单的步骤，降低每个子任务的规模。

通过反思与自省框架，Agents 可以不断提升任务规划能力。

AI Agent 可以对过去的行为进行自我批评和反思，从错误中学习，并为未来的步骤进行完善，从而提高最终结果的质量。自省框架使 Agents 能够修正以往的决策、纠正之前的失误，从而不断优化其性能。在实际任务执行中，尝试和错误是常态，反思和自省两个框架在这个过程中起到了核心作用。
AI Agent 研究与应用进展

AI Agent 发展迅速，出现多款“出圈”级研究成果。2023 年 3 月起，AI Agent 领域迎来了第一次“出圈”，西部世界小镇、BabyAGI、AutoGPT 等多款重大 Agent 研究项目均在短短两周内陆续上线，引发了大家对 AI Agent 领域的关注。

AutoGPT：推动 AI Agent 研究热潮

AutoGPT 将 AI Agent 概念带“出圈”。2023 年 3 月，开发人员 Significant Ggravitas 在 GitHub 上发布了开源项目 AutoGPT，它以 GPT-4 为驱动基础，允许 AI 自主行动，完全无需用户提示每个操作。给 AutoGPT 提出目标，它就能够自主去分解任务、执行操作、完成任务。

作为 GPT-4 完全自主运行的最早示例之一，AutoGPT 迅速走红于 AI 界，并带动了整个 AI Agent 领域的研究与发展，它也成为了 GitHub 排行榜 4 月增长趋势第一名。截至 2023 年 8 月 15 日，AutoGPT 在 GitHub 上已经得到了超过 14.7 万颗 star。

报告目录及图表节选如下：

精选报告来源公众：幻影视界，PDF。

--许欣分享

账号		自动登录	找回密码
密码			注册

萍聚头条

[计算机] AI Agent:基于大模型的自主智能体,在探索AGI的道路上前进

本帖子中包含更多资源

浏览过的版块