北理工、西交大、浙大等联合发布!多智能体具身智能:进展和未来方向
作者:系统管理员
发布日期:2025-06-19
浏览次数:
导读:具身人工智能(Embodied AI)在智能时代先进技术的应用中扮演着关键角色。在智能时代,人工智能系统与物理实体相融合,使其能够感知、推理并与环境交互。通过使用传感器输入和执行器执行动作,这些系统能够根据现实世界的反馈进行学习和调整,从而能够在动态且不可预测的环境中有效地执行任务。随着深度学习(DL)、强化学习(RL)和大型语言模型(LLM)等技术的成熟,具身人工智能已成为学术界和工业界的领先领域,其应用领域涵盖机器人、医疗保健、交通运输和制造业。然而,大多数研究都集中在通常假设静态封闭环境的单智能体系统上,而现实世界的具身人工智能必须应对更为复杂的场景。在这样的环境中,智能体不仅必须与周围环境交互,还必须与其他智能体协作,这就需要复杂的机制来实现自适应、实时学习和协作解决问题。尽管人们对多智能体系统的兴趣日益浓厚,但现有研究范围仍然狭窄,通常依赖于简化模型,无法捕捉多智能体具身人工智能动态开放环境的全部复杂性。此外,尚无全面的综述系统地回顾该领域的进展。随着具身人工智能的快速发展,加深对多智能体具身人工智能的理解对于应对实际应用带来的挑战至关重要。为了填补这一空白并促进该领域的进一步发展,本文回顾了当前的研究现状,分析了关键贡献,并指出了挑战和未来方向,旨在为指导该领域的创新和进步提供见解。 具身人工智能 (Embodied AI) [140, 39] 是人工智能 (AI)、机?人技术和认知科学交叉领域的跨学科研 究领域,旨在使机?人具备感知、计划、决策和行动的能力,从而使它们能够与环境互动并积极适应环境。 这个概念最早是由艾伦·图灵在 1950 年代提出的,他探索了机?如何感知世界并做出相应的决定 [178]。后 来,在 1980 年代,包括 Rodney Brooks 在内的研究人员重新考虑了符号 AI,认为智能应该通过与环境的主 动交互而不是被动的数据学习来实现,从而为具身 AI 奠定了基础 [18]。近年来,在深度学习 (DL)、强化 学习 (RL) 和其他技术进步的推动下,具身 AI 取得了重大进展,特别是通过应用大型预训练模型,例如 大型语言模型 具身人工智能的主要挑战是,智能智能体必须同时具备强大的感知和决策能力,以及通过与动态和不断发展 的环境的持续交互来不断学习和适应的能力[148]。从历史上看,以图灵机理论为代表的早期符号方法试图 通过符号表示和逻辑推理来实现智能。然而,这些符号方法在有效解决感知和行动之间所需的动态交互方面 存在不足[128]。为了克服这些限制,Rodney Brooks 提出了“感知-行动循环”的概念,该概念认为智能是通 过代理与环境的积极和持续互动而自然产生的,从而为现代具身人工智能研究奠定了基础 [17]。顺着这种思 路,出现了模仿学习 (IL) 等学习范式,通过模仿加速了学习过程 多代理设置与单代理场景有着根本的不同,因为代理必须同时优化其各个策略并管理多个实体之间的复杂交 互。具体来说,多智能体交互带来了挑战,例如由于扩大的联合行动空间和扩大的规划视野而导致的问题复 杂性呈指数级增长,智能体之间分散的信息导致的部分可观察性,并发智能体学习过程产生的非平稳性,以 及与准确分配个人贡献相关的困难[244,231,2]。尽管单代理具身 AI 取得了重大进展,但多代理环境中的具 身 AI 研究仍处于起步阶段。目前的研究通常采用成功的单药 ODS 或采用 RL 和 LLM 等已建立的框架。最近,明确为具身多智能体场景量身定制的专业基准的开发已经 开始,旨在支持这一不断发展领域的系统性进步。虽然广泛的文献综述已经彻底探讨了相关领域,包括具身 人工智能[140,108]、多智能体强化学习(MARL)[244,2]和多智能体合作[231,134],但明确关注具身多智能 体人工智能的全面调查仍然有限。例如,文献 [172] 系统地总结了具身 MARL 的最新进展,涵盖社会学习、 紧急通信、Sim2Real 迁移、分层方法和安全考虑等主题。文献 [202] 通过回顾生成基础模型与具身多智能体 系统 (MAS) 的集成,提出了协作架构的分类法,并讨论了 p 认识到多智能体嵌入式 AI 在解决现实世界环境中复杂协调任务方面的巨大潜力,本文对这一新兴研究领域 的最新进展进行了系统和全面的回顾。如图 1 所示,我们首先介绍了基本概念,包括 MAS、RL 和相关方法 。接下来,我们讨论了单代理上下文中的具身 AI,清楚地概述了核心定义、主要研究方向、代表性方法和 已建立的评估基准。在此基础上,我们将讨论扩展到多智能体具身 AI,重点介绍了广泛采用的技术,并研 究了最近专为多智能体场景设计的突出基准。最后,我们总结了本综述的主要贡献,对多智能体具身人工智 能的未来发展提出了有见地的观点,旨在刺激这一有前途且快速发展的进一步研究和创新 在本节中,我们将介绍支撑具身 AI 的核心技术,从具身 AI 本身的正式定义开始。我们还定义了 MAS 的概念 具身人工智能(图 2)是指一类配备物理体的智能代理,使它们能够通过持续交互感知、作和适应环境 [108 ]。具身人工智能的概念根源可以追溯到 1950 年代艾伦·图灵的早期命题,该命题表明真正的智能必须来自 感官和运动体验,而不是纯粹的符号计算 [178]。这一概念在 1980 年代通过具身认知理论进一步正式化,该 理论认为认知本质上是由主体的物理形式和与世界的互动塑造的 [18]。与依赖于抽象推理或从静态数据集中 被动学习的传统 AI 范式相比,具身 AI 强调现实世界的交互作为学习和决策的基础。 在系统层面,具身 AI 架构通常由三个紧密集成的组件组成:感知、认知和行动。代理使用物理传感?从他 们的环境。这些感官数据由支持推理、解释和规划的认知模块处理。然后,通过执行?将生成的决策转化为物理 作,执行?会修改环境并启动新的感知输入。这些过程形成了一个连续的反馈循环,称为感知-认知-行动循 环[15],这使得具身代理能够根据环境反馈动态调整其行为。具身 AI 范式的核心是三个基本属性,它们控 制着智能如何在物理代理中出现和发展:
生成模型的最新进展,特别是LLM [250],进一步扩展了具身代理的认知能力。通过利用其强大的推理和泛 化能力,LLM 使具身系统能够理解语言指令,将语义知识建立在物理体验中,并执行零镜头或少镜头适应 。这些发展加速了具身人工智能在机?人、自动驾驶、智能制造和医疗保健等现实世界领域的部署[114]。 重要的是,具身 AI 不仅仅是强大的 AI 模型与机?人平台的集成;相反,它代表了一种协同进化的范式,其 中智能算法(“大脑”)、物理结构(“身体”)和动态环境共同进化以支持适应性的、具身的智能。 MAS 由多个自主代理组成,每个代理都能够感知其环境,做出独立决策并相应地执行作 [36]。与传统的集 中控制范式相比,MAS 采用分散式架构,其中代理在本地交互,同时实现全球协调。这种分散式设计在可 扩展性、容错性和适应性方面具有显著优势,特别是在动态、部分可观测或非平稳环境中。MAS 的核心属 性包括自治、去中心化、代理间通信、本地信息访问和动态适应性。这些功能共同使 MAS 能够处理各种复 杂的高维任务,这些任务需要并行传感、分布式规划和实时协调,在机?人、自动驾驶和智能基础设施等领域有突出应用。 近年来,在基于学习的方法的融合和神经架构的进步的推动下,MAS 研究发生了重大的范式转变。这种转 变的最前沿是 MARL [2],它提供了一个强大的框架,使代理能够通过交互学习复杂的行为。使用分散执行 的集中训练 (CTDE)、参数共享、信用分配和对手建模等技术已被广泛采用,以解决包括非平稳性、协调 性和部分可观察性在内的核心挑战。作为对这些进步的补充,LLM 的集成为 MAS 开辟了新的功能。支持 L LM 的代理可以访问大量的预训练知识,通过自然语言进行交流,并参与高级推理和抽象,这些功能超越了 传统策略驱动系统的限制。因此,强化学习和基础模型的融合正在重塑 MAS 的格局 分层学习是一种学习范式,它将学习过程组织成多个抽象层次,较高层次负责设定抽象目标或意图,而较低 层次则专注于执行更具体、更细粒度的子任务(参见图 6)。这种分层结构使模型能够在不同的粒度级别上 运行,从而通过将复杂任务分解为更简单、可管理的组件来提高解决复杂任务的效率和可扩展性 [138]。 分层学习的核心过程通常包括两个阶段:低级策略学习和高级策略学习。低级策略学习旨在掌握基本的子任 务,通常使用传统的控制方法(如 MPC)[162, 46, 41]或通过端到端 RL [217, 96] 实现。 相比之下,高 级策略学习负责协调所学的低级技能以实现更复杂的目标。这通常是通过 RL 或与 LLM 一起规划来实现的 。在基于 RL 的高级策略学习中,作空间被定义为一组学习的低级策略。然后使用来自环境的奖励信号训练 参数化的高级策略,以有效地选择和排序这些低级技能[217,96]。相比之下,基于 LLM 的高级策略学习通常 涉及提供任务目标和可用的低级策略集作为 LLM 的输入,然后 LLM 通过以下方式直接生成结构化计划 生成模型构成了机?学习的基础范式,其中心目标是捕获训练数据的基础分布,以生成具有相似特征的新样 本。这些模型已在视觉、语言和多模态学习等领域得到广泛应用。近年来,LLM 和 VLM 等大规模生成模 型的出现极大地推动了该领域的发展。他们的成功在很大程度上归功于强大的泛化能力、海量数据集的可用 性和可扩展的架构。这些模型的核心是几个关键的架构框架,包括 Transformers [180]、扩散模型 [69],以及 最近的状态空间模型 (SSM),如 Mamba [59]。 其中,Transformer 架构在彻底改变序列建模方面发挥了关键作用。Transformers 最初被提议用于机?翻译, 它通过引入一种基于注意力的机制来消除递归或卷积的需要,该机制使序列中的每个元素都能够直接关注其 他每个元素(参见图 8(a))。这种设计有助于高效的并行计算,并允许模型捕获全局上下文依赖关系。 核心注意力机制在数学上定义为: 尽管 emboded agents 是为现实世界中的交互式任务而设计的,但基准测试在标准化性能测量、指导研究重点 和降低实际测试成本方面仍然发挥着至关重要的作用。近年来,嵌入式 AI 基准测试的开发取得了长足的进 步。我们在表 2 中总结了几个具有代表性的示例,并在图 14 中进行了介绍。列出的基准包括
《多智能体具身智能:进展和未来方向》原文链接: https://www.deeprlhub.com/d/1603/2 文章来源:深度强化学习实验室 |