全面布局 具身智能发展进入快车道
作者:系统管理员 发布日期:2025-10-11 浏览次数:

目前,具身智能技术和应用探索进入发展快车道,产业呈现蓬勃发展态势,但仍面临多模态大模型训练不充分、现实世界必备“技能”不充足、产业生态体系不完备等问题,亟须加快技术路线前瞻部署、加大创新成果转化、推动多场景应用示范,抢占“人工智能+”发展制高点。

黎文娟  徐曼   中国电子学会政策研究与国际合作处

具身智能是指智能体(如机器人、无人机、智能汽车等)通过物理实体与环境实时交互,实现感知、认知、决策和行动一体化。其核心理念颠覆了传统人工智能的“离身性”局限,强调智能的本质必须通过身体与环境的动态互动来塑造和体现。具身智能已成为全球科技竞争的主要焦点,“具身智能”作为未来产业方向,是人工智能的分支。

目前具身智能技术、应用探索进入发展快车道,产业呈现蓬勃发展态势。但仍面临多模态大模型训练不充分、现实世界必备“技能”不充足、产业生态体系不完备等问题,亟须加快技术路线前瞻部署、加大创新成果转化、推动多场景应用示范,抢占“人工智能+”发展制高点。

具身智能发展进入快车道

具身智能的技术突破,为具身智能向通用人工智能的演进奠定了坚实基础,集中在大模型、多模态融合感知技术、传感器技术、算力设备等软硬件技术上,并逐渐在工业、物流、家庭服务、自动驾驶、教育娱乐等应用领域赋能。

在大模型加持下快速迭代升级

英伟达推出的Jetson系列是专为机器人和嵌入式边缘AI应用设计的计算平台,还发布了一款基于NVIDIA Thor系统级芯片(SoC)的新型人形机器人计算机Jetson Thor。随后,英伟达发布了通用机器人基座大模型 GR00T N1,在计算平台、算力芯片、基座大模型等加持下,大大提升了具身智能的软件开发、训练等迭代速度。

大模型技术大幅提升具身智能感知理解、规划决策和泛化能力,在算力硬件协同下加速进化。感知与认知方面,目前大语言模型、视觉基础模型、视觉—语言模型等技术不断突破,强化了具身智能处理视觉、听觉、触觉等多种模态数据的感知理解能力。如Google DeepMind团队推出的RT-2模型,是一种新型的视觉—语言—动作模型,具备语言理解、逻辑推理、人脸识别的能力,可将模型知识转化为机器人控制的通用指令,提高机器人的适应性和判断推理能力。

规划与决策方面,大模型技术驱动的具身智能能够对复杂任务进行分层次分解和规划,模拟人类思维逐步完成高级别任务。如斯坦福大学李飞飞团队发布的“VoxPoser”研究框架,通过大语言模型与视觉语言模型,将复杂指令转化成具体行动规划。北京人形机器人创新中心发布通用具身智能平台“慧思开物”,其采用“具身大脑+具身小脑”架构,该平台还实现了一脑多机、一脑多能,能够适配人形机器人、机械臂、轮式机器人等多种硬件本体,并通过多模态大模型指令完成烤面包、物流分拣等跨场景任务,并且具备抗干扰纠错能力。

自适应能力方面,具身智能的训练方法包含模仿学习和强化学习两种路线。模仿学习能快速学习专家策略,无需复杂探索,但学到的行为策略受限于专家数据,对未见过的情况泛化能力弱;强化学习是智能体借助与环境交互学习最佳行为策略,以最大化累积奖励,但需大量探索、试错,学习过程慢,且复杂任务中设计合适奖励函数难度高。因此,目前技术路线上有基于仿真环境数据(Sim2Real)和基于真实世界数据两种路线,世界模型有望成为提高自适应学习训练的有效路径。世界模型是通过生成模型来输入已知环境情况,同时预测未来场景,达到预训练的目的。如,谷歌DeepMind团队发布了基础世界模型Genie,可从合成图像、照片、草图生成可交互虚拟世界,训练具身智能对未来的状态和轨迹预测能力。

赋能人形机器人加速应用探索

具身智能的最佳载体人形机器人已展现出高级的感知、认知、决策控制与交互能力。人形机器人接入领先的大模型技术,促使空间感知和操作执行能力更加精确和灵活。如,美国Figure AI公司的人形机器人搭载OpenAI的大语言模型,能够实现对真实物理世界的精准感知和理解,具备快速的常识性视觉推理能力,自主执行多种复杂任务。特斯拉人形机器人Optimus依托电动汽车的纯视觉方案,通过神经网络自主学习,展示出识别障碍物自主规划、实时与人类进行对话响应快速、递送物品等操作能力,灵活性和智能化均进一步提升。

人形机器人与大模型融合,带动泛化抓取、运动控制能力加速迭代。国内银河通用Galbot G1机器人采用了三层级具身多模态大模型系统,使机器人能够感知通用环境、理解并执行自然语言指令,跨形状材质的泛化抓取技术成功率超过95%。宇树科技的H1人形机器人基于英伟达通用基础模型训练,快速提升仿真环境学习效率,能够自主学习高速奔跑和多种舞蹈动作,全身动态协调能力大幅提升。

人形机器人数据集建设正加快部署,为具身智能实现规模化应用提供基础支撑。智元机器人在上海建设“数据采集工厂”——这座3000平方米的工厂以不同主题房间为主,还原现实生活物件布局,投放近百台机器人在多样场景执行任务,日均采集3万~5万条数据,模拟家庭、零售、服务业、餐饮、工厂五大场景。北京人形机器人创新中心搭建了2000平方米数据采集场,结合真机与仿真数据采集,发布了大规模多构型智能机器人数据集。

引领产业链和组织形态变革

产业链革新方面,具身智能将带动机器人的关节、模组、传感器、减速器、灵巧手等相关部件快速地创新迭代和延展。与此同时,具身智能正推动消费电子、自动驾驶汽车、生产制造模式、工作方式等应用领域的革新与突破,未来具身智能将重新塑造各类终端产品的智能交互能力,新供给引爆新需求从而带来新的“链式反应”。

组织形态变革方面,具身智能重构企业“单打独斗”的传统商业模式,成为各企业开发智能原生应用的生态底座,激发商业模式创新。如,多家国内外人形机器人企业基于英伟达的通用基础模型、芯片和仿真训练软件,开发训练自身人形机器人产品,加速研发迭代。

面临研用产等问题与挑战
训练方法、自主学习和数据集等技术难点亟待突破

在学习训练方面,具身智能的学习训练方法还有待探索,目前企业多采用世界模型、遥控操作、仿真迁移、模拟训练等方法,但都有局限性,无法获得通用泛化能力。

在自主学习方面,具身智能的持续学习、多任务学习、泛化学习等能力不足,难以在环境和任务改变时进行知识迁移和整合,优化任务执行过程中的行为策略。

在数据集方面,具身智能需要真实场景的多模态数据,尤其机器人数据不像语言或者驾驶数据易获得,多模态数据集获取特别困难、耗时且昂贵。互联网数据获取成本低,但其数据价值相对较低。仿真数据是在虚拟环境中生成的大量数据,但在物理真实性上仍有欠缺,且仿真训练成本相对较高。真机数据获取成本最高,尤其是需要通过人遥控操作来获取的数据,采集耗时,成本高昂,其规模化应用受到限制。

感知、决策和自适应能力等应用技能亟待提升

多模态感知方面,视觉、听觉、触觉等复杂的感知能力通过各种传感器难以高效、流畅地感知和理解周围不可预测的非结构化的环境和物体。

执行决策方面,目前还无法用大语言模型,把语言直接“翻译”成机器人的运动指令。机器人的行动由运动代码控制,现在的人机交互难点,是如何把人类的高级语言转化成可执行的底层指令,然后再传递给机器人。此外,大型多模态模型所需的计算资源随规模和模态的增加呈指数级增长,引发了可扩展性、可访问性和可部署性的问题,限制模型的普及。

环境自适应方面,在非结构化或动态变化的环境中,具身智能还未能根据实时交互,自主地调整行为和策略。目前实时感知与处理、运动控制、紧急避障、手部灵巧操作等能力的处理速度、准确性、灵活性、协调性还有待提升,尚不具备直接解决问题的能力。

企业风险、产业生态和安全伦理等产业化进程亟待推进

企业风险方面,当前具身智能赛道火热,吸引大批初创企业入局,投资过热和市场预期过高导致企业存在较大经营风险。大型科技企业面临技术同质化、持续创新投入、产业赛道选择等挑战,缺少核心竞争力的团队部门可能面临裁撤风险。

产业链生态方面,以人形机器人为例,硬件个性化程度高,包括关节和传感器等基本都是整机企业小批量自研为主,增加成本,也难以进入模块化和标准化阶段。人工智能与机器人技术相互融合不够,人形机器人企业缺少机器人大脑技术,人工智能缺乏可靠验证平台。

安全和伦理方面,具身智能在应用中收集图像、声音、行为等大量个人数据,需要确保存储和使用过程中保护用户的隐私安全。具身智能在与人类交互时,要能够避免对人类和周围环境的伤害,要遵守道德和法律规范,保护人类的利益和尊严。

三措并举 全面布局
全面布局技术路线,构建大模型基建设施

具身智能目前有多条技术路线,需要全面布局,并鼓励另辟蹊径的产学研合作。构建“大规模算力—高性能芯片—高质量数据集”等多维一体的大模型基建设施。加大国地共建具身智能机器人创新中心投入,建立标准化的数据采集工具和标注工具,建立分级分阶段开源共享模式,通过开源社区向行业开源开放。发挥新型举国体制优势,统筹调度全国算力支持一批头部高校、科研院所、企业加速研发。加快芯片、传感器、电机、减速器、控制器、灵巧手等核心部件的研发和制造,提升产业基础能力。

引导创新投入和成果转化,培育一批优质企业

加大国家耐心资本对具身智能创新成果转化的资金支持,引导社会资本参与创新成果孵化和产业化投资。连接高校、科研院所、企业协同创新,加速创新成果的转化和应用。分类施策培育一批优质企业,对于技术团队优秀但资源有限的初创企业,应警惕市场泡沫,聚焦细分市场,采取差异化策略,深耕特定应用领域,利用政策支持和资本投入加速成长;对于资源丰富、团队强大的大型科技企业,需要构建技术壁垒,保持对通用性和平台性技术的投入和研发,拓展国际市场,形成全球化的竞争力,专注于成为产业链的领导者。

推动应用场景示范,完善产业发展生态

支持具身智能应用落地,通过“揭榜挂帅”等方式吸引产业链上下游企业及创新团队,联合开发应用解决方案。遴选汽车制造、3C、物流等场景,搭建中试验证平台,开展示范验证。进一步推动政务、医院、酒店等开放场景开展示范应用,促进智能机器人向具身智能机器人发展。通过举办具身智能机器人竞赛、技术交流会、供需对接等活动,促进产学研各方合作交流。前瞻考虑开展具身智能、人形机器人伦理和相关法律法规研究。

文章来源:中国工业和信息化