术语
Agent
:“代理” 通常是指有意行动的表现。在哲学领域,Agent 可以是人、动物,甚至是具有自主性的概念或实体。AI Agent
:AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。RPA
:RPA(Robotic Process Automation) 即机器人流程自动化,是一种软件自动化技术。RPA 通过模仿人类在电脑上的手动操作,如打开网站、点击鼠标、键盘输入等,实现业务流程的自动化。RPA 系统可以自动处理大量重复的、基于规则的工作流程任务,例如在银行中,纸质文件输入、文件票据验证、从电子邮件和文件中提取数据、跨系统数据迁移、自动化 IT 应用操作等。RPA 的主要优势包括减少劳动成本、提高生产力、出错率低、可监控的操作和开发周期短。它可以在金融、办公自动化、IT 流程自动化等多个领域发挥重要作用。Copilot
:即飞机的 “副驾驶”,这里 Copilot 指依托于底层大语言模型(LLM),用户只需说几句话,做出指示,它就可以创建类似人类撰写的文本和其他内容。LangChain
:LangChain 是一个强大的框架,旨在帮助开发人员使用语言模型构建端到端的应用程序,它提供了一套工具、组件和接口,可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。LangChain 是一个语言模型集成框架,其使用案例与语言模型的使用案例大致重叠,包括文档分析和摘要、聊天机器人和代码分析。LLM
:大型语言模型(LLM)是一种人工智能(AI)算法,它使用深度学习技术和大量大型数据集来理解、总结、生成和预测新内容。感知记忆(Sensory Memory)
:感知记忆是信息处理的第一个阶段,它涉及对通过感官接收的信息进行短暂的存储。感知记忆通常只持续几百毫秒到几秒。就像你看到一张美丽的风景照片,感知记忆是大脑对刚刚通过感官接收到的信息的短暂存储。比如,你闭上眼睛后,还能在脑海中短暂地 “看到” 那张照片的颜色和形状,这就是感知记忆在起作用。短期记忆(Short-term memory)
:短期记忆就像是你的心智工作台,它能够暂时存储和处理少量信息。比如,当你试图记住一个电话号码时,你可能会重复念叨这个号码,直到你拨打它,这就是短期记忆在工作。所有的上下文学习(In-context Learning)都是利用模型的短期记忆来学习。长期记忆(Long-term memory)
:长期记忆就像是一个大仓库,能够存储我们的经验、知识和技能,而且这个存储时间可以非常长,甚至是一生。比如,你学会骑自行车的技能,即使多年不骑,你仍然记得怎么骑,这就是长期记忆。Agent 一般通过外部向量存储和快速检索实现。Memory Stream
:“记忆” 存储了 Agent 过去的观察、思考和行动序列。正如人脑依靠记忆系统来回溯利用先前的经验制定策略和做出决策一样,Agent 也需要特定的记忆机制来确保其熟练处理一系列连续任务。+ MRKL(Modular Reasoning, Knowledge and Language):MRKL 可以理解为是一种构建 AI 的方式,用于自主代理的神经符号结构,它将推理、知识理解和语言能力作为不同的模块来处理。就像搭积木,每个积木代表 AI 的一个能力,组合在一起就能让 AI 进行复杂的思考和交流。TALM(Tool Augmented Language Models)
:TOOL 增强的语言模型,是指通过工具或技术来增强的语言处理模型,通常通过微调来实现。例如,一个 AI 聊天机器人,通过接入搜索引擎或其他数据库,能够更准确地回答问题或提供信息。子目标与分解(Subgoal and decomposition)
:在解决问题时,Agent 经常会把一个大目标分解成几个小目标(子目标),从而实现对复杂任务的高效处理。比如,准备一顿晚餐,你可能需要先去购物(子目标 1),然后准备食材(子目标 2),最后烹饪(子目标 3)。反思与完善(Reflection and refinement)
:Agent 可以对历史的动作进行自我批评和自我反思,从错误中吸取教训,并为未来的步骤进行改进,从而提高最终结果的质量。就像写完一篇文章后,你回顾并修改语法错误或不清晰的表达,使文章更加完善。思维链(Chain-of-thought, CoT)
:已成为一种标准的提示技术,用于提高模型在复杂任务中的表现。模型被要求 “一步一步地思考”,将艰巨的任务分解为更小更简单的步骤。思维链将大任务转化为多个可管理的任务,并帮助人们理解模型的思维过程。思维链是解决问题时的逻辑推理过程。比如,你想找出为什么天空是蓝色的,你可能会想:“光是由不同颜色组成的… 蓝色光波短,容易被大气散射… 所以天空看起来是蓝色的。+ 思维树(Tree of Thoughts, ToT):通过在任务的每一步探索多种推理可能性来扩展思维链。它首先将问题分解为多个思考步骤,并在每个步骤中生成多个想法,从而创建一个树状结构。搜索过程可以是 BFS(广度优先搜索)或 DFS(深度优先搜索)。思维村是一种图形化的思维链,它像一棵大树,每个分支代表一个思考的方向或想法,可以帮助我们组织和可视化复杂的思考过程。自我反思(Self Reflection)
: 自我反思是指对自己的行为、想法或情感进行深入的思考和分析。就像在一天结束时,回想自己的所作所为,评估自己做得好的地方和需要改进的地方。ReAct
:将任务中单独的行为和语言空间组合在一起,从而使大模型的推理和行动融为一体。该模式帮助大模型与环境互动(例如使用维基百科搜索 API),并以自然语言留下推理的痕迹。主要包括:Thought:Action\Observation。Reflexion
:一个让 AI Agent 具备动态记忆和自我反思能力以提高推理能力的框架。沿用了 ReAct 中的设置,并提供简单的二进制奖励。每次行动后,AI Agent 都会计算一个启发式函数,并根据自我反思的结果决定是否重置环境以开始新的试验。这个启发式的函数可以判断是否当下的路径效率低下(耗时过长却没有成功)或包含幻觉(在环境中遇到一连串导致相同观察结果的相同行动),并在出现这两种情况下终止函数。Self-ask
:Self-ask 可能是指 AI 系统在处理问题时,自主提出问题以引导其思考过程。这类似于人类在面对问题时,会自问:“我接下来应该做什么?” 来推动解决问题的进程。+ 后见链(Chain of Hindsight):通过向模型明确展示一系列过去的输出结果,鼓励模型改进自身的输出结果,使得下一次预测的行动比之前的试验取得更好的成绩。算法蒸馏(Algorithm Distillation)将同样的理念应用于强化学习任务中的跨集轨迹。
Agent由来
有很多人或许会疑惑,Agent 这个东西看起来跟 LLM 也没差得那么远,那为啥最近突然 Agent 那么火,而不称之为 LLM-Application 或者其他的词呢?这就得从 Agent 的来历上说起了,因为 Agent 是个很古老的术语,甚至可以追溯至亚里士多德和休谟等人的言论。从哲学意义上讲,“代理人”是指具有行动能力的实体,而 “代理” 一词则表示这种能力的行使或体现。而从狭义上讲,“代理”通常是指有意行动的表现; 相应地,“代理人” 一词表示拥有欲望、信念、意图和行动能力的实体。需要注意的是,代理人不仅包括人类个体,还包括物理世界和虚拟世界中的其他实体。重要的是,“代理” 的概念涉及个人的自主性,赋予他们行使意志、做出选择和采取行动的能力,而不是被动地对外部刺激做出反应。
在 20 世纪 80 年代中后期之前,主流人工智能界的研究人员对 Agent 相关概念的关注相对较少,这可能会让人感到惊讶。然而,从那时起,计算机科学和人工智能界对这一话题的兴趣就大大增加了。正如 Wooldridge 等人所言,我们可以这样定义人工智能:“它是计算机科学的一个子领域,旨在设计和构建基于计算机的、表现出智能行为各个方面的 Agent。” 因此,我们可以把 Agent 作为人工智能的核心概念。当 Agent 这一概念被引入人工智能领域时,其含义发生了一些变化。在哲学领域,Agent 可以是人、动物,甚至是具有自主性的概念或实体。然而,在人工智能领域,Agent 是一个计算实体。由于意识和欲望等概念对于计算实体来说似乎具有形而上学的性质,而且我们只能观察机器的行为,包括艾伦 – 图灵在内的许多人工智能研究者建议暂时搁置 Agent 是否 “真正” 在思考或是否真的拥有 “思想” 的问题。相反,研究人员采用其他属性来帮助描述 Agent,如自主性、反应性、主动性和社交能力等属性。也有研究者认为,智能是“看人的眼睛”;它不是与生俱来的、孤立的属性。从本质上讲,AI Agent 并不等同于 Philosophy Agent;相反,它是 Agent 这一哲学概念在人工智能领域的具体化。现在 AI Agent 也没有完全统一的名称,比如 “AI 代理”、“智能代理”、“智能体” 等等叫法。
什么是 AI Agent
AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。 不同于传统的人工智能, AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。比如,告诉 AI Agent 帮忙下单一份外卖,它就可以直接调用 APP 选择外卖,再调用支付程序下单支付,无需人类去指定每一步的操作。 Agent 的概念由 Minsky 在其 1986 年出版的《思维的社会》一书中提出,Minsky 认为社会中的某些个体经过协商之后可求得问题的解,这些个体就是 Agent。他还认为 Agent 应具有社会交互性和智能性。 Agent 的概念由此被引入人工智能和计算机领域,并迅速成为研究热点。但苦于数据和算力限制, 想要实现真正智能的 AI Agents 缺乏必要的现实条件。
大语言模型和 AI Agent 的区别在于 AI Agent 可以独立思考并做出行动,和 RPA 的区别在于它能够处理未知环境信息。 ChatGPT 诞生后, AI 从真正意义上具备了和人类进行多轮对话的能力,并且能针对相应问题给出具体回答与建议。 随后各个领域的 “Copilot” 推出,如 Microsoft 365 Copilot、 Microsoft Security Copilot、GitHub Copilot、 Adobe Firefly 等,让 AI 成为了办公、代码、设计等场景的“智能副驾驶”。

AI Agent 和大模型的区别在于:
- 大模型与人类之间的交互是基于 prompt 实现的,用户 prompt 是否清晰明确会影响大模型回答的效果,例如 ChatGPT 和这些 Copilot 都需要明确任务才能得到有用的回答。
- AI Agent 的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动,它会根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,自己给自己创建 prompt,来实现目标。如果说 Copilot 是 “副驾驶”,那么 Agent 则可以算得上一个初级的 “主驾驶”。
和传统的 RPA 相比, RPA 只能在给定的情况条件下,根据程序内预设好的流程来进行工作的处理,在出现大量未知信息、难以预测的环境中时, RPA 是无法进行工作的, AI Agent 则可以通过和环境进行交互,感知信息并做出对应的思考和行动。
我们看见的 AI Agent 往往以问答机器人作为交互入口,通过自然语言触发全自动的工作流,中间没有人工介入。由于人只负责发送指令,并不参与对 AI 结果的反馈。

为什么需要 AI Agent
- LLM 的一些缺点:
- 会产生幻觉
- 结果并不总是真实的
- 对时事的了解有限或一无所知
- 很难应对复杂的计算
- 没有行动能力
- 没有长期记忆能力
比如让 ChatGPT 买一杯咖啡,ChatGPT 给出的反馈一般类似 “无法购买咖啡,它只是一个文字 AI 助手” 之类的回答。但你要告知基于 ChatGPT 的 AI Agent 工具让它买一杯咖啡,它会首先拆解如何才能为你购买一杯咖啡并拟定代用某 APP 下单以及支付等若干步骤,然后按照这些步骤调用 APP 选择外卖,再调用支付程序下单支付,过程无需人类去指定每一步操作。这就是 AI Agent 的用武之地,它可以利用外部工具来克服这些限制。这里的工具是什么呢?工具就是代理用它来完成特定任务的一个插件、一个集成 API、一个代码库等等,例如:
- Google 搜索:获取最新信息
- Python REPL:执行代码
- Wolfram:进行复杂的计算
- 外部 API:获取特定信息
而 LangChain 则是提供一种通用的框架通过大语言模型的指令来轻松地实现这些工具的调用。我们都知道在执行一个复杂的任务时,我们需要考虑多方面的影响因素,将复杂任务拆分为细小的子任务去执行。AI Agent 的诞生就是为了处理各种复杂任务的,就复杂任务的处理流程而言 AI Agent 主要分为两大类:行动类、规划执行类。总而言之,AI Agent 就是结合大模型能去自动思考、规划、效验和执行的一个计算体,以完成特定的任务目标,如果把大模型比作大脑,那 AI Agent 可以理解为小脑 + 手脚。

AI Agent 对比人类与其它 AI 协同的区别
AI Agent 较日前广泛使用的 Copilot 模式更加独立。对比 AI 与人类的交互模式,目前己从过去的嵌入式工具型 AI (例如 siri)向助理型 AI 发展。目前的各类 AI Copilot 不再是机械地完成人类指令,而是可以参与人类工作流,为诸如编写代码、策划活动、优化流程等事项提供建议,与人类协同完成。而AI Agent 的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动,它会根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,自己给自己创建 prompt,来实现目标。如果说 Copilot 是 “副驾驶”,那么 Agent 则可以算得上一个初级的 “主驾驶”。