韩家伟教授新书:下一代AI智能体该如何“适应”?

随着基础模型特别是大规模语言模型(LLM)的快速发展,Agent AI迅速兴起,并广泛应用于科学研究、软件开发、医药研发、临床研究等广泛领域。然而,工具的使用不稳定、远程任务规划能力有限、某些领域的推理能力不足、现实环境中的鲁棒性较弱、未知环境中的泛化能力有限等问题限制了Agent AI系统在现实场景中的有效部署。目前备受关注的研究方向如下。智能体人工智能系统通过适应机制进行自我调整,以更好地适应特定任务和现实环境的要求,提高其性能、可靠性和泛化质量。基于此,数据挖掘专家、伊利诺伊大学厄巴纳查分校教授韩家伟mpaign和来自斯坦福大学、普林斯顿大学等大学的研究人员团队提出了一个系统框架,以明确AI代理适应策略的设计空间,明确不同解决方案之间的权衡,并为系统设计过程中策略的选择或切换提供实用指导。文章链接:https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI/blob/main/paper.pdf 具体来说,研究团队将Agentic AI中的适应机制分为“代理适应”和“工具适应”两个维度,并编制了四种适应策略。随后,我们回顾了各个类别的代表性方法,分析了它们的优缺点,并指出了当前的主要挑战和未来发展的机遇。研究团队认为,智能体的未来进步将取决于先前范式的战略整合,而不是个体的发展。 “乌尔蒂相应地,下一代智能系统将不再是一个单一的巨型模型,而是一个由稳定的推理核心和一组专门的自适应工具组成的系统。“适应”的两个方面是Agent AI系统的关键要素。通过这种机制,Agentic AI可以控制其行为、决策策略,并且可以调整内部表示以最好地满足特定领域、任务或操作环境的需求。如果没有这种适应性,Agentic AI将难以超越原始系统设计,从而限制其性能在动态现实环境中,研究人员根据正在优化的系统组件将Agent AI适应策略分为两个维度:第一个维度是Agent适应,主要调整Agent的内部参数、表示格式或行为策略,以更好地满足任务需求。利用环境反馈的强制学习技术。第二个维度是工具的适配。在这里,优化目标从代理本身转移到外部工具(例如恢复器、调度器、内存模块和各种专用模型)。这允许代理参数保持固定,但系统可以从自适应操作环境中受益。图| Agent AI适应机制概述四种适应范式在这两个方面,研究人员还确定了四种不同的适应范式。在Agent适应方面,Agentic AI可以根据与工具、环境或自身输出的交互反馈,不断改变其工作机制和决策能力。这个过程对于提高智能体在各种任务中的自主性、推理能力和泛化能力具有重要作用。这方面可以概括为两种适应范式。 A1:代理适应由工具执行信号驱动的离子。 A1侧重于代理本身的适应,其学习信号直接来自工具执行的结果。在此配置中,外部工具提供清晰且可验证的反馈,包括代码是否正确运行、获得的结果是否与文档、目的地匹配以及API调用是否返回正确的结果。代理不依赖于主观评估,而是根据工具执行直接生成的“正确/错误”信号来调整他们的决策和行动。这种机制通常用于程序合成、信息检索和自动推理等任务。其核心特征是反馈信号具有高度确定性和可验证性。 A2:由代理输出信号驱动的代理适应。 A2也旨在更新智能体,但其学习信号来自评估智能体本身的输出结果。在这个策略中,最终的答案,计划智能体的解决方案或推理过程被作为一个整体进行评估,评估标准可以是答案是否正确、人类或模型给出的偏好分数、或者一般的合理性。与之前的类别不同,这里的反馈不一定直接来自工具的执行,而是基于对结果的总体评估。因此,它适用于未解决的任务、高度主观的问题或缺乏清晰可执行的验证机制的场景。在工具适配维度上,Agentic AI旨在优化外部组件,即中介感知、计算和交互过程的“工具”。这些工具包括预先训练的模型、采集模块、规划器或执行器等,并且可以由代理通过自然语言或代码调用。因此,工具适应并不关注智能体的内部认知结构,而是关注于改进g 其操作环境的一般能力。这就是我们要回顾的适应范式。 T1:独立于Agent的工具适配 在T1中,Agent保持参数冻结,不参与学习,但不同工具在系统部署前通过独立训练获得能力。这些工具可以是检索器、特定于领域的模型或其他预先训练的组件,而代理只负责在推理过程中对它们进行编程和组合。这种方法强调模块化和可重用性,创建相同的内容。代理可以灵活地访问具有不同功能的工具,而无需更改其结构。 T2:适应代理跟踪工具 T2In,代理保持固定,但工具根据结果的性能或使用代理的有效性进行更新。例如,检索器可以根据apeople的最终任务是否成功来调整其检索策略,类存储模块可以学习如何为智能体提供更有用的分类信息,存储模块也可以根据智能体的使用习惯不断优化存储内容。该机制的关键点在于,该工具的训练目标不是优化独立性能,而是更好地支持特定代理的决策和推理过程。四大研究机会 基于上述分析,研究团队提出了四种可能的研究机会,并为更高效、可扩展的智能体人工智能的发展指明了方向。通过集成高效的参数调优、量化和设备端适配,未来的智能代理将不断发展,以准确满足用户需求和环境约束。 Adaptationn Collaborative 在协作适应框架中,Agent 的决策和工具的内部机制同时调整,相互适应营造一个充满活力的学习环境,形成更紧密、更灵活的合作关系。这一思想打破了目前通过固定一侧来维持训练稳定性的常规做法,将系统的优化目标从单点性能提升转变为全局协同。同时,协作适应也带来了新的挑战,例如复杂任务中的责任归属问题以及双方同时学习带来的稳定性风险等。未来的研究应该推进协同训练机制和学习率控制,以促进对可扩展且可靠的代理人工智能系统的共同适应。图|协作适应的例子。持续适应现有的适应方法假设任务环境是稳定的,并且通常一次仅优化一项任务。然而,在现实应用程序中,任务类型、可用工具和用户需求都在不断变化。为实现目标是,Agentic AI 在动态环境中不断适应和调整其行为、工具和内存。它必须具有自我更新的能力。持续适应的核心是在学习新任务的同时尽可能保持现有能力。一方面,通过不断更新模型参数来实现自适应,通过限制关键参数的变化或使用有效的参数更新方法来缓解遗忘问题。另一方面,依靠外部记忆存储用户的经验、工具调用、用户反馈并逐步组织起来,以维持中心模型的稳定性。图|持续适应的例子。安全适应随着人工智能从“静态模型”转向可以不断学习和调整的代理系统,安全问题也发生了变化。传统方法主要关注固定模型是否调整,但随着系统不断适应,独立模型会带来新的风险。不是反复试验和不断优化本身。因此,保证适应的关键不是完全限制学习能力,而是在学习过程中引入约束和验证机制。例如,在调用工具之前执行安全检查,使用更可验证的标准来评估行为结果,并防止代理和工具在适应之前相互“追赶”。只有这样,Agent A 才能在不断发展的同时保持控制力和可靠性。图|安全调整示例。高效适应 目前,智能体的学习和适应往往依赖于大量的计算能力,难以在个人设备上执行,并且限制了定制能力。精益适应的一个中心目标是让智能体以更少的计算资源完成学习,从而使他们能够转移到手机和边缘设备等现实世界的使用场景。一种想法是更新仅对模型进行很小程度的修改,使用更少的参数来完成新任务的学习,降低计算和存储成本。另一种思路是通过降低计算精度来提高效率,加快学习过程并节省能量,同时不影响最终效果的显着提高。什么是高效适应?这意味着将学习过程转移到用户自己的设备上。代理可以根据用户的使用习惯在本地不断调整其行为,不仅提高了个性化体验,还减少了外部数据传输带来的隐私风险。图|有效适应的例子。展望未来,Agentic AI的发展将取决于上述适应范式的战略整合。通过采用混合架构,我们可以保持代理适应提供的深度推理能力,同时与模块化相结合实现更高的鲁棒性和可扩展性工具适配的效率。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注