A Survey on Large Language Model based Autonomous Agents

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

本文是LLM系列的文章针对《A Survey on Large Language Model based
Autonomous Agents》的翻译。

基于大模型的自动agents综述

摘要

自动代理一直是学术界的一个突出研究课题。该领域先前的研究通常集中在孤立环境中训练知识有限的智能体这与人类的学习过程有很大差异从而使智能体难以实现类似人类的决策。最近通过获取大量的网络知识大型语言模型LLM在实现人类水平的智能方面表现出了巨大的潜力。这引发了研究基于LLM的自动代理的热潮。为了充分利用LLM的潜力研究人员设计了适合不同应用的不同代理架构。在本文中我们对这些研究进行了全面的调查从整体的角度对自动智能体领域进行了系统的回顾。更具体地说我们的重点在于构建基于LLM的代理为此我们提出了一个统一的框架该框架包含了以前的大部分工作。此外我们还总结了基于LLM的人工智能代理在社会科学、自然科学和工程领域的各种应用。最后我们讨论了基于LLM的人工智能代理常用的评估策略。在前人研究的基础上我们还提出了该领域的一些挑战和未来方向。为了跟踪该领域并不断更新我们的调查我们维护了一个库用于相关参考文献https://github.com/Paitesanshi/LLM-Agent-Survey.

1 引言

2 基于LLM的自动代理构建

3 基于LLM的自动代理应用

4 基于LLM的自动代理评估

5 相关综述

6 挑战

尽管之前基于LLM的自主人工智能代理的工作已经显示出许多有前景的方向但该领域仍处于初级阶段其发展道路上存在许多挑战。在下文中我们提出了几个重要挑战。

6.1 角色扮演能力

与传统的LLM不同人工智能代理通常必须扮演特定的角色如程序编码员、研究员和化学家来完成不同的任务。因此代理的角色扮演能力是非常重要的。虽然对于许多常见的角色例如影评人LLM可以很好地模拟它们但LLM仍然很难捕捉到许多角色和方面。首先LLM通常是基于网络语料库进行训练的因此对于网络上很少讨论的角色或新出现的角色LLM可能无法很好地模拟它们。此外先前的研究表明现有的LLM可能无法很好地模拟人类的认知心理特征导致在对话场景中缺乏自我意识。这些问题的潜在解决方案可能会微调LLM或仔细设计代理提示/架构。例如人们可以首先收集不常见角色或心理特征的真实人类数据然后利用这些数据来微调LLM。然而如何确保微调后的模型仍然能很好地执行常见角色可能会带来进一步的挑战。除了微调之外还可以设计定制的代理提示/架构以增强LLM在角色扮演方面的能力。然而找到最佳提示/架构并不容易因为它们的设计空间太大。

6.2 广义与人对齐

对于传统的LLM人们已经讨论了很多人与人之间的关系。在自主人工智能代理领域特别是当代理用于模拟时我们认为应该更深入地讨论这个概念。为了更好地为人类服务传统的LLM通常会经过微调以符合正确的人类价值观例如代理人不应该计划制造一枚为社会复仇的炸弹。然而当代理被用于真实世界的模拟时理想的模拟器应该能够诚实地描述不同的人类特征包括具有错误值的特征。事实上模拟人类的消极方面可能更重要因为模拟的一个重要目标是发现和解决问题没有消极方面就意味着没有问题可以解决。例如为了模拟现实世界的社会我们可能必须允许代理人计划制造炸弹并观察它将如何执行计划以及其行为的影响。基于这些观察人们可以采取更好的行动来阻止现实社会中的类似行为。受上述案例的启发基于agent的模拟可能面临的一个重要问题是如何进行广义的人类对齐即对于不同的目的和应用agent应该能够与不同的人类价值观进行对齐。然而包括ChatGPT和GPT-4在内的现有强大LLM大多与统一的人类价值观保持一致。因此一个有趣的方向是如何通过设计适当的提示策略来“重新调整”这些模型。

6.3 提示的鲁棒性

为了确保代理的合理行为设计人员通常会将额外的模块如内存和规划模块合并到LLM中。然而纳入这些模块需要开发更多的提示以促进一致的操作和有效的沟通。先前的研究强调了LLM提示缺乏稳健性因为即使是微小的改变也会产生显著不同的结果。当构建自治代理时这个问题变得更加明显因为它们包含的不是单个提示而是考虑所有模块的提示框架其中一个模块的提示有可能影响其他模块。此外提示框架在不同的LLM之间可能存在显著差异。开发一个可应用于各种LLM的统一而强大的提示框架是一个重要但尚未解决的问题。对于上述问题有两种潜在的解决方案1通过试错手动制作基本提示元素或2使用GPT自动生成提示。

6.4 幻觉

幻觉对LLM提出了根本性的挑战其中模型错误地自信地输出虚假信息。这个问题在自主代理中也很普遍。例如在[67]中观察到当在代码生成任务中遇到简单化的指令时代理可能会表现出幻觉行为。幻觉可能导致严重后果如错误或误导性代码、安全风险和道德问题。为了解决这个问题一种可能的方法是将人类校正反馈纳入人类-主体相互作用的循环。关于幻觉问题的更多讨论可以在[157]中看到。

6.5 知识边界

自动AI Agent的一个重要应用是模拟不同的真实世界人类行为。人类模拟的研究有着悠久的历史最近人们的兴趣激增可归因于LLM取得的显著进步LLM在模拟人类行为方面表现出了显著的能力。然而重要的是要认识到LLM的力量可能并不总是有利的。具体来说理想的模拟应该准确地复制人类的知识。在这方面LLM可能会表现出过度的权力因为它们是在超出普通人范围的广泛网络知识库上进行训练的。LLM的巨大能力可以显著影响模拟的有效性。例如当试图模拟各种电影的用户选择行为时确保LLM处于对这些电影一无所知的位置是至关重要的。然而LLM有可能已经获得了有关这些电影的信息。如果不实施适当的策略LLM可能会根据他们广泛的知识做出决定即使现实世界的用户事先无法访问这些电影的内容。基于以上例子我们可以得出结论对于构建可信代理仿真环境一个重要的问题是如何约束LLM的用户未知知识的使用。

6.6 高效性

由于其自回归架构LLM通常具有较慢的推理速度。然而代理可能需要多次查询每个动作的LLM例如从内存模块中提取信息、在采取行动之前制定计划等。因此LLM推理的速度在很大程度上影响了代理动作的效率。使用相同的API密钥部署多个代理可能会进一步显著增加时间成本。

7 结论

在这篇综述中我们系统地总结了基于LLM的自动代理领域的现有研究。我们从代理的构建、应用和评价三个方面介绍和综述了这些研究。对于其中的每一个方面我们都提供了一个详细的分类法以在现有研究之间建立联系总结主要技术及其发展历史。除了回顾以前的工作外我们还提出了该领域的几个挑战这些挑战有望指导未来的潜在方向。

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6