智能体成为AI时代风口

所谓AI智能体(AIagent),是一种能够感知环境、进行决策和执行动作的智能实体。它们拥有自主性和自适应性,可以依靠AI赋予的能力完成特定任务,并在此过程中不断对自我进行完善和改进。此外,不同的AI智能体之间也可以进行交互,从而共同完成某些工作。

智能体(AI Agent)能够自己感知、决策和行动。随着大语言模型(LLM)驱动的人工智能体(AI Agent)的兴起,我们正处于一个新时代的边缘:人工智能体可能会形成自己的社会,与人类和谐共存。

吴恩达认为,AI Agent将在今年推动人工智能的大规模进步。甚至,有可能超过下一代基础模型所带来的影响。他希望所有从事人工智能工作的人,都能关注AI智能体的发展。吴恩达分享了很多关于智能体的见解,并定义了AI Agent的四大设计模式,Reflection(反思)、Tool use(工具使用)、Planning(规划)和Multi-agent collaboration(多智能体协同)。

智能体通常具备以下几个关键特性:

  1. 自主性:能够在没有人类直接干预的情况下执行任务和做出决策。
  2. 社交能力:能够与人类或其他智能体进行交流和协作。
  3. 反应性:能够感知其所处的环境变化,并根据这些变化做出快速响应。
  4. 主动性:不仅能够响应环境,还能主动采取行动以实现特定的目标或适应环境变化。
  5. 智能:能够运用知识、推理和规划来解决问题和执行任务。

在人工智能的发展历程中,智能体(Agent AI)的概念已经成为实现人工通用智能(AGI)的一个有前景的途径。智能体AI不仅仅是被动地处理信息,而是能够在虚拟或物理环境中主动感知、推理并执行行动。

智能体通常具有以下能力:
1. 预测建模:智能体可以根据历史数据和趋势预测可能的结果或建议下一步行动。例如,他们可能会预测文本的延续、问题的答案、机器人的下一步行动或场景的解决方案
2. 决策:在一些应用程序中,智能体可以根据他们的推断做出决策。通常,智能体会根据最有可能实现特定目标的内容做出决定。对于推荐系统等人工智能应用程序,智能体可以根据其对用户偏好的推断来决定推荐什么产品或内容。
3. 处理歧义:智能体通常可以通过基于上下文和训练推断最可能的解释来处理歧义输入。然而,他们这样做的能力受到训练数据和算法的限制。
4. 持续改进:虽然一些智能体有能力从新的数据和交互中学习,但许多大型语言模型在训练后不会不断更新其知识库或内部表示。他们的推断通常仅基于截至上次训练更新时可用的数据。

AI Agent起源以及历史发展:
1.起源:智能体的概念源于早期的人工智能研究,特别是在1956年达特茅斯会议上,AI被定义为能够从环境中收集信息并与其有用互动的人工生命形式。

智能体AI的核心技术包括:

  1. 多模态理解:智能体AI能够处理和解释来自视觉、语言、音频等多种模态的数据。
  2. 强化学习:通过与环境的交互,智能体学习如何通过行动获得最大的累积奖励。
  3. 模仿学习:智能体通过模仿专家的行为来学习任务,这在机器人技术中尤其有用。
  4. 大语言模型(LLMs):利用预训练的语言模型来提升智能体的自然语言处理能力。
  5. 视觉语言模型(VLMs):结合视觉和语言信息,用于图像标注、视觉问答等任务。
  6. 上下文学习:智能体通过提供的少量示例来学习新任务。
  7. 优化算法:在空间和时间上优化智能体的行为,以提高任务执行的效率。
  8. 知识表示和推理:智能体能够利用和推理知识库中的信息,以支持复杂的决策。
  9. 工具使用和接口:能够使用外部工具和API,如数据库、搜索引擎、传感器数据等

智能体AI在多个领域展现出广泛的应用潜力:

  1. 游戏:在游戏领域,智能体AI可以作为非玩家角色(None-Player Character, NPC)提供更加丰富和真实的互动体验。
  2. 机器人:智能体AI赋予机器人更强的自主性,使其能够在复杂环境中执行任务。
  3. 医疗保健:在医疗领域,智能体AI可以辅助诊断、患者护理和治疗计划的制定。
  4. 教育:智能体AI可以作为个性化学习助手,根据学生的学习进度和风格调整教学内容。
  5. 客户服务:在客户服务领域,智能体AI可以通过聊天机器人提供24/7的咨询服务。
  6. 私人助理:比如知识检索、生活问答服务等等。

如何构建一个智能体:

以LLM为核心,首先需要定义智能体需要具备的能力,比如自然语言处理、视觉识别、决策制定等。同时,明确智能体的目标,比如完成特定的任务、与人类用户交互或者在多智能体系统中协作。

  1. 自然语言交互:智能体需要能够理解和生成自然语言,以便与用户或其他智能体进行交流。
  2. 知识:智能体需要有一个知识库,包含常识、专业知识、行动知识等,以支持决策和问题解决。
  3. 记忆:智能体应具备记忆能力,能够存储和回忆过去的观察、思考和行动。
  4. 推理和规划:智能体需要能够进行逻辑推理、规划行动步骤,并根据环境反馈调整计划。
  5. 文本输入:智能体需要能够解析和理解文本信息。
  6. 视觉输入:通过视觉传感器或图像处理,智能体可以感知视觉信息。
  7. 听觉输入:智能体可以处理和理解音频输入。
  8. 其他输入:智能体还可以集成其他感官输入,如触觉、嗅觉等。
  9. 文本输出:智能体能够生成文本响应或命令。
  10. 工具使用:智能体可以利用各种工具来扩展其行动能力。
  11. 实际行动:智能体可以执行物理世界中的行动,如机器人控制。

LLM在智能体中的作用:

在AI智能体中,大型语言模型(LLM)起到了核心的“大脑”作用,负责处理信息、进行决策和规划行动。以下是LLM在AI智能体中的一些关键作用:

  1. 自然语言交互:LLM提供了强大的自然语言理解和生成能力,使得AI智能体能够与人类或其他智能体进行有效的交流。
  2. 知识存储与检索:LLM可以存储大量的知识,包括常识、专业知识和行动知识,这些知识对于智能体进行决策和解决问题至关重要。
  3. 记忆能力:LLM可以记住过去的交互和经验,这种记忆机制对于智能体在复杂任务中的表现至关重要。
  4. 推理和规划:LLM能够进行逻辑推理和规划,帮助智能体分解任务、制定行动计划,并根据环境反馈调整策略。
  5. 自主性:LLM赋予智能体一定程度的自主性,使其能够在没有人类干预的情况下执行任务。
  6. 反应性:LLM使智能体能够对环境变化做出快速反应,处理多模态输入,并及时做出决策。
  7. 主动性:LLM可以帮助智能体展示出主动性,通过规划和推理来采取目标导向的行动。
  8. 社交能力:LLM支持智能体与人类或其他智能体进行社交互动,包括合作和竞争。
  9. 工具使用:LLM可以帮助智能体理解和使用各种工具,以扩展其行动能力。
  10. 具体行动:在具有物理形态的智能体中,LLM可以指导智能体进行具体的物理动作,如机器人操控
  11. 多模态感知:LLM可以与其他模型(如视觉或听觉模型)结合,使AI智能体能够处理和理解来自不同感官模式的信息。
  12. 持续学习和适应:LLM的预训练知识和能力使AI智能体能够适应新任务,并通过持续学习不断提升性能。
  13. 安全性和可信度:LLM可以在智能体中实现安全机制,确保其行为符合预定的道德和安全标准。

智能体面临的挑战:

  1. 数据隐私和安全性:智能体AI需要处理大量用户数据,如何保护这些数据的安全和隐私成为一个重要问题。
  2. 可解释性和透明度:智能体AI的决策过程需要足够透明,以便用户和监管机构能够理解和信任。
  3. 偏见和公平性:智能体AI必须避免学习和放大训练数据中的偏见,确保其行为的公平性。
  4. 泛化能力:智能体AI需要具备良好的泛化能力,以便能够在未见过的环境中有效工作。
  5. 伦理和社会责任:智能体AI的开发和部署需要遵循伦理原则,避免对社会造成不利影响。

智能体未来发展前景:

  1. 自我改进:智能体AI将能够通过与环境的互动不断学习和适应,提高其性能。
  2. 跨模态交互:智能体AI将更加注重跨模态的交互能力,提供更自然和丰富的用户体验。
  3. 伦理和社会责任:智能体AI的设计和应用将更加注重伦理和社会责任,确保技术的发展造福社会。
  4. 社会影响:智能体AI将在医疗、教育、娱乐等多个领域产生深远的影响,改变现有的工作和生活方式。

智能体AI的发展是一个多学科、多领域的综合努力,它将推动人工智能技术的边界,为人类社会带来新的机遇和挑战。随着技术的不断进步,我们可以期待智能体AI在未来发挥更加重要的作用。

1.1 人工智能体(AI Agent)角色

人工智能体(AI Agent),扮演着AI监工的角色。它们以自我导向的循环方式工作,为人工智能设置任务、确定优先级和重新确定任务的优先级,直到完成总体目标。

1.2 人工智能体(AI Agent)原理

图源:https://arxiv.org/pdf/2309.07864.pdf

人工智能体(AI Agent)总体框架由大脑、感知、行动三个关键部分组成 :

  • 大脑(Brain):大脑主要由一个大型语言模型组成,不仅存储知识和记忆,还承担着信息处理和决策等功能,并可以呈现推理和规划的过程,能很好地应对未知任务。
  • 感知(Perception):感知模块的核心目的是将Agent的感知空间从纯文字领域扩展到包括文字、听觉和视觉模式在内的多模态领域。
  • 行动(Action):在Agent的构建过程中,行动模块接收大脑模块发送的行动序列,并执行与环境互动的行动。

人类在感知环境后,大脑会对感知到的信息进行整合、分析和推理,并做出决策。随后,他们利用神经系统控制自己的身体,做出适应环境或创造性的行动,如交谈、躲避障碍或生火。当一个Agent拥有类似大脑的结构,具备知识、记忆、推理、规划和概括能力以及多模态感知能力时,它也有望拥有类似人类的各种行动来应对周围环境。在Agent的构建过程中,行动模块接收大脑模块发送的行动序列,并执行与环境互动的行动。

1.3 人工智能体(AI Agent)优势

大语言模型驱动的人工智能体(AI Agent)有如下优势:

  • 语言交互:他们理解和产生语言的固有能力确保了无缝的用户交互。
  • 决策能力:大语言模型有能力推理和决策,使他们善于解决复杂的问题。
  • 灵活适配:Agent的适应性确保它们可以针对不同的应用进行成型。
  • 协作交互:Agent可以与人类或其他Agent协作,为多方面的交互铺平道路。

1.4 人工智能体(AI Agent)应用

图源:https://arxiv.org/pdf/2309.07864.pdf

人工智能体(AI Agent)的用例广泛且多样。这些智能体由大型语言模型(LLM)进行驱动,可用于各种场景,包括:

  • 单智能体应用:Agent可以作为个人助理,帮助用户摆脱日常任务和重复劳动。他们能够独立分析、计划和解决问题,减轻个人的工作压力,提高任务解决效率。
  • 多智能体系统:Agent可以以协作或竞争的方式相互交互。这使他们能够通过团队合作或对抗性互动来实现进步。在这些系统中,Agent可以共同完成复杂的任务或相互竞争以提高其性能。
  • 人机合作:Agent可以与人互动,为人提供帮助并更高效、安全地执行任务。他们可以理解人类的意图并调整他们的行为以提供更好的服务。人类反馈还可以帮助Agent提高性能。
  • 专业领域:Agent可以针对特定领域进行训练和专门化,例如软件开发、科学研究或其他行业特定任务。他们可以利用大规模语料库的预训练以及泛化到新任务的能力,在这些领域提供专业知识和支持。

这些只是人工智能体(AI Agent)的几个示例。这些智能体的多功能性和功能使其适合广泛的应用和行业。

1.5 智能体社会(Agent Society)

智能体社会(Agent Society)是一个概念,其中使用语言模型创建的人工智能智能体在模拟环境中相互交互。这些智能体可以像人类一样行动、做出决策并参与社交活动。

图源:https://arxiv.org/pdf/2309.07864.pdf

它帮助我们了解人工智能体如何在类似社会的环境中协同工作和行为。这种模拟可以提供对协作、政策制定和道德考虑的见解。总体而言,智能体社会帮助我们探索人工智能智能体的社交方面及其在现实和受控环境中的交互。

2 人工智能体(AI Agent)最佳开发框架

有许多框架可以帮助创建人工智能体(AI Agent),以下是一些最好的框架:

2.1 ️ LangChain

框架网址:https://github.com/langchain-ai/langchain

LangChain是一个用于开发由语言模型支持的应用程序的框架。它使应用程序能够:

  • 感知上下文:将语言模型连接到上下文源(提示说明、小样本示例、响应的内容等)
  • 推理:依靠语言模型进行推理(关于如何根据提供的上下文进行回答、采取什么操作等)
图源:https://github.com/langchain-ai/langchain

LangChain框架有以下几个核心组成部分:

  • LangChain库:Python和JavaScript库。包含无数组件的接口和集成、将这些组件组合成链和Agent的基本运行时,以及链和Agent的现成实现。
  • LangChain模板:一系列易于部署的参考架构,适用于各种任务。
  • LangServe:用于将LangChain链部署为RESTAPI的库。
  • LangSmith:一个开发者平台,可让您调试、测试、评估和监控基于任何LLM框架构建的链,并与LangChain无缝集成。

2.2 AutoGen

框架网址:https://github.com/microsoft/autogen

AutoGen是一个支持使用多个智能体(Agent)开发LLM应用程序的框架,这些Agent可以相互对话来解决任务。AutoGen的智能体是可定制的、可对话的,并且无缝地允许人类参与。AutoGen应用可以采用大语言模型、人工输入和使用工具的各种模式的组合运作。

图源:https://github.com/microsoft/autogen
  • AutoGen可以轻松构建基于多智能体对话的下一代LLM应用程序。它简化了复杂的LLM工作流程的编排、自动化和优化。它最大限度地提高了LLM模型的性能并克服了它们的弱点。
  • 它支持复杂工作流程的多种对话模式。借助可定制和可对话的Agent,开发人员可以使用AutoGen构建各种涉及对话自主性、智能体数量和智能体对话拓扑的对话模式。
  • 它提供了一系列具有不同复杂性的工作系统。这些系统涵盖各种领域和复杂性的广泛应用。这演示了AutoGen如何轻松支持不同的对话模式。
  • AutoGen提供增强的LLM推理。它提供API统一和缓存等实用程序,以及错误处理、多配置推理、上下文编程等高级使用模式。

2.3 PromptAppGPT

框架网址:https://github.com/mleoking/PromptAppGPT

PromptAppGPT是首个基于LLM的自然语言应用开发框架:支持全自动编译、运行、界面生成,支持无代码配置实现流程调度,支持几十行低代码实现AutoGPT类全自主智能体(Autonomous Agent)。

PromptAppGPT显著降低了Agent开发门槛:无需下载任何软件,打开网址(https://promptappgpt.wangzhishi.net/)就能开发。

图源:https://github.com/mleoking/PromptAppGPT

PromptAppGPT包含基于低代码提示的开发、GPT文本生成、DALLE图像生成、在线提示编辑器+编译器+运行器、自动用户界面生成、支持插件扩展等功能:

  • ⚡基于低代码提示的快速应用程序开发
  • 用于文本生成的GPT3/4执行器
  • 用于图像生成的Dalle执行器
  • 自定义扩展执行器(插件)
  • #️⃣在线提示编辑器、编译器和运行器
  • ⚙️自动生成用户界面
  • 英文和中文用户界面

PromptAppGPT同时包含以下内置智能体示例:

  • 所有执行器(All Executors):使用所有执行器的应用程序。
  • 我的ChatGPT(My ChatGPT):聊天机器人应用。
  • 创意图像生成器(Imaginative Image Creator):使用GPT和DALL·E从任何语言创建富有想象力的图像的智能体。
  • 披萨订单机器人(Pizza Order Bot):收集披萨餐厅订单的自动化智能体。
  • 通用翻译器(Universal Translator):将任何语言的文本翻译成英语/中文/法语/西班牙语的智能体。
  • 英语润色师(English Improver):进行英语翻译和润色的智能体。
  • 网页和图像搜索(Web & ImageSearcher):使用Bing搜索搜索网页和图像的智能体。
  • 我的AutoGPT(My AutoGPT):一个类似于AutoGPT,能够完全自主使用GPT和执行器(插件)来实现任何目标的智能体。

3 人工智能体(AI Agent)最佳应用项目

3.1 AutoGPT

项目网址:https://github.com/Significant-Gravitas/AutoGPT

AutoGPT由SignificantGravitasLtd.视频游戏公司的创始人ToranBruceRichards开发,是2023年3月推出的早期Agent之一。它也是当今GitHub上最受欢迎的Agent项目。

AutoGPT工作原理。图源:lesswrong.com

AutoGPT背后的想法很简单—它是一个完整的工具包,用于为各种项目构建和运行自定义AI Agent。该工具使用OpenAI的GPT-4和GPT-3.5大语言模型(LLM),允许为各种个人和商业项目构建Agent。

3.2 BabyAGI

项目网址:https://github.com/yoheinakajima/babyagi

BabyAGI是任务驱动自主智能体的精简版。Python脚本只有140个字的代码,根据官方GitHub存储库,“使用OpenAI和矢量数据库(例如Chroma或Weaviate)来创建、确定优先级和执行任务。”

自推出以来,BabyAGI已扩展到多个有趣的项目。有些像twitter-agent 或Slack上的BabyAGI将智能体的力量带到了现有平台。其他人添加插件和附加功能或将BabyAGI移植到其他语言(例如Babyagi-perl)。

BabyAGI Agent循环。图源:github.com/yoheinakajima/babyagi

3.3 SuperAGI

项目网址:https://github.com/TransformerOptimus/SuperAGI

SuperAGI是AutoGPT的更灵活且用户友好的替代方案。将其视为开源AI智能体的集成者,其中包含构建、维护和运行自己的Agent所需的一切。它还包括插件和云版本,可以在其中进行测试。

该框架具有多个人工智能模型、图形用户界面、与矢量数据库的集成(用于存储/检索数据)以及性能洞察。还有一个带有工具包的市场,可让您将其连接到流行的应用程序和服务,例如GoogleAnalytics。

SuperAGI包含如下特性:

  • 配置、生成和部署自主AI Agent-创建生产就绪且可扩展的自主Agent。
  • 使用工具包扩展Agent功能-将我们市场中的工具包添加到Agent工作流程中。
  • 图形用户界面-通过图形用户界面访问Agent。
  • 操作控制台-通过向Agent提供输入和权限来与他们交互。
  • 多个向量数据库-连接到多个向量数据库以增强Agent的性能。
  • 性能遥测-深入了解Agent的性能并进行相应优化。
  • 优化令牌使用-控制令牌使用以有效管理成本。
  • Agent记忆存储-使Agent能够通过存储记忆来学习和适应。
  • 模型-针对特定业务用例的自定义微调模型。
  • 工作流程-使用ReActLLM的预定义步骤轻松自动化任务。

3.4 ShortGPT

项目网址:https://github.com/RayVentura/ShortGPT

ShortGPT是一个用于自动化内容创建的强大框架。它简化了视频创建、素材来源、配音合成和编辑任务。

ShortGPT可以处理大多数典型的视频相关任务,例如编写视频脚本、生成画外音、选择背景音乐、编写标题和描述,甚至编辑视频。该工具适用于跨平台的短视频内容和长视频内容相关任务。

ShortGPT循环和功能。图源:github.com/RayVentura/ShortGPT

ShortGPT框架包含以下主要特性:

  • ️自动编辑框架:使用面向LLM的视频编辑语言简化视频创建过程。
  • 脚本和提示:为各种LLM自动编辑流程提供即用型脚本和提示。
  • ️配音/内容创作:支持多种语言,包括英语 、西班牙语 、阿拉伯语 、法语 、波兰语 、德语 、意大利语 、葡萄牙语 、俄语 、普通话 、日语 、印地语 、韩语 以及其他30多种语言(使用EdgeTTS)
  • 字幕生成:自动生成视频字幕。
  • 资源来源:从互联网获取图像和视频片段,根据需要连接网络和PexelsAPI。
  • 内存和持久性:确保使用TinyDB自动编辑变量的长期持久性。

3.5 ChatDev

项目网址:https://github.com/OpenBMB/ChatDev

ChatDev是一家虚拟软件公司,通过担任不同角色的各种智能体进行运营,包括首席执行官、首席产品官、首席技术官、程序员、审阅者、测试员、美术设计师。这些智能体形成了一个多智能体组织结构,并因“通过编程彻底改变数字世界”的使命而团结在一起。ChatDev中的Agent通过参加专门的功能研讨会进行协作,包括设计、编码、测试和记录等任务。

ChatDev的主要目标是提供一个易于使用、高度可定制和可扩展的框架,该框架基于大型语言模型(LLM),是研究集体智慧的理想场景。

图源:https://github.com/OpenBMB/ChatDev

CoPilot、Bard、ChatGPT和许多其他工具都是强大的编码助手。但像ChatDev这样的项目可能很快就会与他们展开竞争。ChatDev被称为“一家虚拟软件公司”,它使用的不是一个而是多个智能体,这些Agent在传统开发组织中扮演不同的角色。每个智能体都分配有独特的角色,可以协作处理各种任务,从设计软件到编写代码和文档。

3.6 MetaGPT

项目网址:https://github.com/geekan/MetaGPT

MetaGPT是另一个开源人工智能体框架,试图模仿传统软件公司的结构。与ChatDev类似,Agent被分配产品经理、项目经理和工程师的角色,并且他们在用户定义的编码任务上进行协作。

软件公司多角色示意图。图源:https://github.com/geekan/MetaGPT

到目前为止,MetaGPT只能解决中等挑战性的任务—比如编写蛇游戏或构建简单的实用应用程序——但它是一个有前景的工具,未来可能会迅速发展。生成一个完整的项目将花费大约2美元的OpenAI接口调用费用。

3.7 Camel

项目网址:https://github.com/camel-ai/camel

简而言之,Camel是早期的多智能体框架之一,它使用独特的角色扮演设计来使多个智能体能够相互通信和协作。

CAMEL框架中两个ChatGPT智能体之间的对话。图源:https://github.com/camel-ai/camel

一切都始于人类定义的任务。该框架利用LLM的强大功能,动态地将角色分配给Agent,指定和开发复杂的任务,并安排角色扮演场景以实现Agent之间的协作。

3.8 JARVIS

项目网址:https://github.com/microsoft/JARVIS

JARVIS处理任务规划、模型选择、任务执行和内容生成。通过访问HuggingFace中心中的数十个专用模型,JARVIS利用ChatGPT的推理能力将最佳模型应用于给定任务。这使得它对于各种任务(从简单的摘要到对象检测)都具有相当不错的灵活性。

JARVIS整体框架。图源:https://github.com/microsoft/JARVIS

JARVIS引入了一个协作系统,该系统由作为控制器的大语言模型和作为协作执行器的众多专家模型(来自 HuggingFace Hub)组成。系统的工作流程由四个阶段组成:

  • 任务规划:使用ChatGPT分析用户的请求,了解他们的意图,并将其分解为可能的可解决的任务。
  • 模型选择:为了解决计划的任务,ChatGPT根据描述选择Hugging Face上托管的专家模型。
  • 任务执行:调用并执行每个选定的模型,并将结果返回给ChatGPT。
  • 响应生成:最后,使用ChatGPT整合所有模型的预测,并生成响应。
JARVIS工作流程示例。图源:https://github.com/microsoft/JARVIS

3.9 OpenAGI

项目网址:https://github.com/agiresearch/OpenAGI

OpenAGI是一个开源AGI(通用人工智能)研究平台,结合了小型专家模型(为情感分析或图像去模糊等任务量身定制的模型)和任务反馈强化学习(RLTF),以提高其输出。它汇集了ChatGPT等流行平台、LLaMa2等大语言模型以及其他专业模型,并根据任务上下文动态选择正确的工具。

OpenAGI框架。图源:https://github.com/agiresearch/OpenAGI

OpenAGI是一个开源AGI研究平台,专门设计用于提供复杂的多步骤任务,并附带特定于任务的数据集、评估指标和各种可扩展模型。OpenAGI将复杂的任务表述为自然语言查询,作为LLM的输入。LLM随后选择、综合和执行OpenAGI提供的模型来解决任务。此外,该项目还提出了任务反馈强化学习(RLTF)机制,以任务解决结果作为反馈,提高LLM的任务解决能力。因此,LLM负责综合各种外部模型来解决复杂的任务,而RLTF则提供反馈以提高其任务解决能力,从而为自我改进的AI提供反馈循环。,LLM操作各种专家模型来解决复杂任务的范例是实现AGI的一种有前途的方法。

指导OpenAGI创作一幅以“高山流水”为主题的国画,并配以一首生成的中国古诗词和一首与画作相一致的音乐。OpenAGI首先在网上搜索“理解”“高山流水”的古老故事,然后基于大语言模型和领域专家模型的协作逐步生成绘画、诗歌和音乐。所创作的绘画、诗歌、音乐都与古代故事相吻合。图源:https://github.com/a
指示OpenAGI创建中国之旅的旅行报告,包括景点、活动和当地美食的推荐,以及为旅行者提供的实用信息,例如如何保持安全和健康以及如何在该国旅游。图源:https://github.com/agiresearch/OpenAGI

2.10 XAgent

框架网址:https://github.com/OpenBMB/XAgent

XAgent是一个开源实验性大型语言模型(LLM)驱动的自主智能体,可以自动解决各种任务。它被设计为一个通用Agent,可以应用于广泛的任务。XAgent仍处于早期阶段,开发人员正在努力改进它。 XAgent旨在创建一个可以解决任何给定任务的超级智能Agent。

XAgent组成。图源:https://github.com/OpenBMB/XAgent

XAgent的设计具有以下特点:

  • 自主性:XAgent可以自动解决各种任务,无需人工参与。
  • 安全:XAgent旨在安全运行。无论如何运行它,所有操作都限制在docker容器内!
  • 可扩展性:XAgent被设计为可扩展的,可以轻松添加新工具来增强特工能力甚至新特性!
  • GUI:XAgent为用户与Agent交互提供了友好的GUI。也还可以使用命令行界面与Agent交互。
  • 与人合作:XAgent可以与人协作处理任务。它不仅能够在旅途中遵循人的指导来解决复杂的任务,而且在遇到挑战时还可以寻求人的帮助。

XAgent由三部分组成:

  • Dispatcher:负责动态实例化任务并将任务分派给不同的Agent。它允许添加新的Agent并提高Agent的能力。
  • Planner:负责生成和修正任务计划。它将任务划分为子任务并为它们生成里程碑,允许Agent逐步解决任务。
  • Actor:负责执行行动以实现目标并完成子任务。Actor利用各种工具来解决子任务,它也可以与人协作来解决任务。
XAgent工作流程。图源:https://github.com/OpenBMB/XAgent

4 人工智能体(AI Agent)的作用和挑战

4.1 人工智能体(AI Agent)的作用

“那么,我可以使用智能体做什么呢?”这是一个很好的问题,我们很想说出“一切”,但考虑到当前的技术状况,这与事实相去甚远。尽管如此,即使在其初始阶段,人工智能体也可以通过以下方式让生活和工作变得更轻松:

  • 简化研究和数据收集。
  • ✏️生成多种不同风格和语气的内容。
  • 爬行网络并提取关键见解。
  • 总结文档和电子表格。
  • 在语言之间翻译内容。
  • 充当创意任务的虚拟助手。
  • ⚡️自动化管理任务,例如安排和跟踪。

Agent未来将不断演进,从需要人交互的基于提示的工具转变为在自我引导循环中运行的全自主系统。毕竟,这就是人工智能工具应有的样子—自动、可信、可靠,不需要冗长的提示或审查每个步骤。

假设您想要分析电动汽车(EV)行业过去十年的市场趋势。您可以在做其他事情时将这些任务委托给智能体,而不是手动收集数据、阅读无数文章和解析财务报告。

即使使用像ChatGPT这样的工具,人仍然需要随时掌握最新动态。Agent可以帮助找到正确的信息、做笔记并组织一切。如果已经有一些数据,Agent将在几秒钟内给出充实关键的见解。

有时,一个项目可能过于复杂,以至于一个Agent无法管理。通过多Agent设置,每个Agent负责处理项目的一部分。一个Agent可以收集数据,而另一个可以创建报告大纲。然后,第三个Agent可以编译信息并生成实际内容。

4.2 人工智能体(AI Agents)的挑战

全自主智能体(Autonomous Agents)仍然处于人工智能工具的狂野西部,它们在很大程度上是实验性的,需要一定的技术知识来设置、部署和维护。这对于DIY项目来说非常好,但如果只想完成工作,那么这并不是一种即插即用的体验。可以在技术上将开源Agent与现有工作流程结合起来。但这需要时间、专业知识和资源。

当然,还有幻觉的问题。由于Agent依赖大语言模型来生成信息,因此他们同样容易陷入没有事实依据的怪异叙述中。Agent运行的时间越长,就越有可能捏造和扭曲现实。从生产力的角度来看,这造成了一些困境。有一些环节的简单方案,包括:限制Agent的运行时间、缩小任务范围、让一个人参与循环来审查输出等等。

通过部署多个具有专业知识和独特技能的Agent,可以获得更好的结果-因此多智能体框架可能会更受欢迎。

5 总结与展望

人工智能的发展,随着GPT-4、Bard和LlaMa2等人工智能模型更快、更准确和更大规模的迭代即将出现,我们可能会在未来几个月看到更多令人兴奋的突破。尤其是人工智能体(AI Agent)的兴起,标志着数字领域的巨大转变。这些智能体具有理解、创造和交互的能力,它们不仅仅是工具,而且是各个领域的潜在合作者。当我们站在这场革命的风口浪尖时,必须负责任地利用他们的能力。

当今可用的工具和平台使我们能够为不同的任务定制Agent,但我们也必须保持警惕并考虑这些进步的道德影响。人类与人工智能之间的桥梁从未如此短,随着我们前进,和谐共存似乎不仅可能,而且迫在眉睫。

在可以预见的未来,Agent将重新定义我们对工作、规划和协作的看法。它们将彻底改变生产力并增强传统工作流程。