万字长文分享!我们看到的具身智能的未来
作者:系统管理员
发布日期:2025-06-25
浏览次数:
2025年6月21日,星海图首席执行官高继扬受邀出席极客公园AGI Playground 2025,并发表主题演讲《我们看到的具身智能的未来》。以下为本次演讲全文实录。 我是星海图的高继扬,今天非常开心,也非常荣幸可以分享我们过去一段时间里在具身智能领域的一些感受、体会和思考。 01 From Motor To Model 具身智能是不能有短板的游戏 我们从这句话开始说起吧,我们自己的一个很深的体会是,具身智能不是一个纯软件的事情,它是一个软硬件结合的事情。所以我们把它称作是一个“没有短板的游戏”。它的具体表现就是这句话——From Motor to Model,从电机开始,到整机、再到数据,再到模型,它是一系列的整合。 如果我们再对比一下大语言模型的发展,有一个很大的特点是,模型和产品之间的关系非常紧密,模型本身就决定了产品形态。因为人类在过去二十多年里已经积累了大量的数据,随着模型能力的提升,应用层面的产品也就迅速进入了爆发期。 但当我们回到具身智能来看,会发现具身智能的发展还是相对比较缓慢的。那这个原因是什么呢?我们觉得,关键在于具身智能所需要的高质量数据是缺乏的。而为什么缺乏高质量数据?是因为缺乏合适的“本体”——也就是整机。再往上看,是因为整个供应链也是缺乏的。 所以我们说,从供应链开始,从零部件、电机,到主机、到遥操作、再到数据,这一整套前序工作,都是智能发展所必须的条件。这也是我看到的一个显著区别——具身智能在发展智能的时候,和大语言模型的发展路径非常不同。而这也正是为什么我们认为,“整机 + 智能”才能构成一个真正能和客户发生直接价值交换的产品。 在这样的定位之下,我们去看未来两到三年,具身智能到底能提供给客户、提供给世界的产品形态会是什么? 经过这段时间的实践和思考,我们认为最有概率的形态,是一个产品的组合——整机 + 预训练模型 + 后训练工具。这里说的后训练工具,可以理解成一整套遥操作设备,用来遥控机器人在特定场景中完成各类任务。 这个产品组合的体验应该是什么样的? 我们认为它就像培训一个新员工一样,客户拿到我们的遥操设备,在实际任务场景中采集几条、几十条数据,把这些数据用来微调预训练模型,之后把模型部署回整机,机器人就能完成场景里面的特定任务。当这样的产品逐渐成熟并部署到下游场景中,它一定会成为一项重大的生产力。 在这个过程中,星海图自己就是开发者,同时也致力于去助力更多开发者,我们是一起做这件事的。因此在业务模式上,我们一直强调共创,面向企业客户,我们提供“整机 + 智能”的产品;而面向开发者,我们则开放所有的工具链。 要做好这一切,其实背后需要的是完整的供给体系——从 Motor 开始,电机、整机、遥操作系统、数据管线,再到智能模型,这五层全部打通,才有可能实现下面的这一切。 02 具身智能的瓶颈 是在正确的本体上获取正确的数据 我们回到当下这个时间点来看,在具身智能的发展过程中,我们看到最主要的问题还是数据的问题。其实现在很多算法层面的要素已经具备,而“算法 + 数据 = 模型”。那问题就卡在没有数据上,进一步往前推是没有在正确本体上的数据。 我们可以先回顾一下 ImageNet。其实 ImageNet 已经是十五年前的事情了,大概在 2010 年左右。正是因为当时计算机视觉领域有了 ImageNet 这样的大规模高质量数据集,后来才诞生了很多具有代表性的工作,比如 AlexNet、VGG 等等,也带动了深度学习的第一次崛起。 这个过程给整个业界的一个重要的lesson learn,要想有好的算法和模型,前提是有好的数据。先有高质量的数据,才有高质量的模型。这个范式,其实在大语言模型、自动驾驶的发展中我们也都看到了类似的情况。 那回到具身智能,它的特殊之处在于我们所需要的数据不是天然存在的。它不像图片、文本、视频这些互联网原生数据,这些数据对于具身智能来说其实是相对低质量的数据。具身智能真正需要的是机器人本体与物理世界交互的数据——比如操作一个物体、开门关门、抓取、放置等。就像是一个婴儿出生后,在和世界互动、摸索的过程中逐渐积累起来的感知与动作数据。这些才是我们讲的具身智能的数据。 而要构建这样的数据体系,其实必须有一个标准。所以我们认为,首先要有一个标准的本体,然后在这个本体之上,去积累机器人与物理世界交互的数据。接着才能定义任务、定义评测指标,最后模型的演进才能真正进入一个相对高速的发展期。 循着这样的思路,从我们创业开始就自己去定义我们的本体。因为我们重点做的是双臂操作,这跟宇树做的双足、全身运动控制方向不太一样。我们更多是希望机器人真正干活,所以我们把重点放在双臂操作上。 在定义本体、定义整机的过程中,我们提出了一个核心理念,叫做“智能定义本体”。 那双臂操作到底需要什么样的本体? 我可以给大家举几个例子。在这个过程中,其实有很多是从智能的需求出发,对硬件提出的新要求。 比如我们现在的双臂系统,采用的是低减速比的行星减速器。这和传统使用谐波减速器构成的机械臂系统很不一样。我们的方案更能够满足人类类似的高动态操作需求,而且在控制上也更适配模仿学习的训练方式。所以我们的双臂系统,是围绕低减速比、高动态、大负载这几个方向来做的。有时候为了更好地支撑算法能力,我们甚至会直接修改电机的底层驱动。 在躯干部分,我们采用的是高减速比的电机。因为在实际作业过程中,如果发生一些紧急断电情况,很多双足机器人在这种时候会直接塌下来。 我们在躯干这个部分放了四个高减速比电机,它们本身具备非常强的支撑力,即使紧急断电,也不会直接倒下,而是可以支撑在那儿。 再说到底盘,人的双腿很重要的一个作用,就是能全向移动:横着跨一步,斜着走一步,不用转身。这个“横移”、“跨步”、“全向移动”对上半身的操作能力其实是非常关键的。 而传统 AGV 底盘很多是双轮差动的,需要转身再转回来,这就和上层的双臂操作能力脱节了。所以我们底盘采用的是六电机、三舵轮的全向移动方案。 这就是我们围绕双臂操作的智能需求,重新去定义的整机本体。现在已经有了 R1、R1 Pro 和 R1 Lite 三款产品,特别是 R1 Lite 是我们和 Physical Intelligence 团队联合定义的,他们也在我们平台上开发了 PI0.5 模型。我们和他们还有一些数据合作,也会在今年下半年逐步发布。所以这就回到我们前面说的,要有好的数据,必须得先有正确的本体。 那回到数据这个问题上,有了本体之后,我们到底需要什么样的数据? 现在很多人在搞具身智能数据建设时,第一反应是去建一个自采场。但我们认为,预训练真正需要的数据,必须来自真实场景中的开放数据。所以我们不是去大搞自建场景,而是直接把机器人投放到各种真实的应用场景中去采集数据。 我们现在、此时此刻,就有几十台机器人正在真实场景中进行数据采集。这些场景可能是酒店、公园、食堂,也可能是商场——我们就是把机器人投放到这些真实环境中去做采集。 但这个事情其实并不简单。因为这里面涉及大量工具链相关的问题,比如数采运营的问题、数采工艺的问题。 我们是把数据采集当作一个“生产活动”来做的。既然是生产活动,那就需要思考怎么做一次遥操作,怎么执行一整套遥操流程。这里面其实就像在工厂里做装配一样,有很多工艺要素要规划,比如怎么组装一个零件、每个动作的标准是什么。这些都不是拍脑袋决定的,而是需要有方法、有流程的。 在工艺标准制定清楚之后,还涉及到怎么运营一个数采团队,再往下是我们要配套一整套什么样的工具链,来支撑整个数采活动。 按照我们的计划,到今年三季度,我们会累计完成1万小时的真实交互数据。这些数据都是来自我们的本体与物理世界的实际交互。目前,我们采集到的操作对象种类已经超过1,000个,任务类型超过300种。这些数据构成了我们进行具身智能基础模型预训练最重要的数据基础。 而且所有这些数据,都是围绕着两个我们认为“正确的本体”来进行采集的。我们也计划将这些数据分步骤向开发者释放,支持更多开发者开展基础研究和应用开发。 03 具身基础模型应坚持 端到端和真机数据为主 那么当有了数据之后,我们就进入“智能”这一部分。在基础模型训练方面,我们坚持两个核心原则:一是端到端,二是真机数据为主。 我们可以先解释这“两个端”分别是什么: 一端是视觉(Vision)和指令输入(Language),这个指令可以是自然语言,也可以是结构化的编码指令; 另一端是Action,也就是机器人最终的动作输出。我们希望模型是基于这种完整闭环的输入输出来训练的。整体的训练架构,其实和我们看到的其他领域的基础模型有一些相似——也是“预训练 + 后训练”的结构。 在这其中我们要特殊地去解释一下,具身智能的预训练到底在干什么?它解决的是什么问题? 对于具身智能来说,预训练的本质,是在学习本体与物理世界交互的基本法则。做个类比,更像是一个婴儿——从刚出生,到三五岁,再到上小学的过程中,他不断地跟物理世界发生接触、碰撞和摸索,学习怎么去使用自己的身体、理解世界。这个过程就是预训练。 而后训练,更像是让他到了一个具体的岗位上,执行一个具体任务,它是面向具体任务的适配过程。这是我们看到的具身智能的预训练和后训练的区别和关系。 具体在预训练这部分,我们采用的是一个“快慢双系统”的结构。实际上这个快慢结构,最早是我们星海图的联合创始人赵行在自动驾驶领域里首创的,后来也被应用到了具身智能领域。 所谓“慢思考”,主要是指做一些逻辑推理、任务拆解,还有与人的多轮交互等能力。这部分通常由“多模态大语言模型(VLM)”来完成。 而“快执行”这部分,其实才是具身智能公司需要真正聚焦解决的问题。它是一个实时的执行、闭环的反馈工具,还要集成感知识别等模块。这一部分模型通常被称作 VLA,参数量大概在十亿级别。相比之下,慢思考模型的参数量在百亿级别甚至更大。 因为这种结构的存在,我们在终端部署时,往往也需要面对“云、厂、端”三侧协同的问题,这里面还有很多工程挑战需要持续探索。 后训练部分,它更多是围绕特定任务来进行,比如“拿起一个杯子倒水”。这就是一个完整的任务。围绕这种任务,我们通常会采集100条到200条数据,每一条数据就是从头到尾完成这个任务的一整套数据。这个过程,就是我们所说的预训练 + 后训练的全流程。 而经过这个流程之后,我们希望看到的效果是:在垂类场景中,简单任务可以实现零样本泛化,复杂任务可以实现少样本泛化。所谓“少样本”,我们的定义是需要多少条增量数据来完成一个新任务的学习,目前模型的能力大概是在100条这个量级。这是我们目前看到的具身智能基础模型,在第一个阶段的主要技术范式。 后面我们现在正在做的一些任务案例,包括清理桌面、把衣服放进柜子、开窗、拿东西放东西,双手戴毛线帽,打开冰箱并把东西放进去,或者使用工具完成具体操作等等。 这些任务其实都是我们预训练阶段的重要组成部分。它的本质,是让我们的机器人本体尽可能多地与物理世界中的各种场景和任务发生交互,在实践中去学习。这一阶段对数据量的要求非常高,通常需要几千到上万小时的高质量交互数据,才能支撑出具有良好泛化能力的基础模型。 后面有一个问题还是挺重要的,也是在具身智能发展“智能”的同时与商业结合的过程中遇到的问题,具身智能的“智能”到底要解决什么样的问题? 从技术本质上看,它要解决的是“泛化”问题,具体而言是四个“泛化”问题,包括对象泛化、动作泛化、场景泛化和本体泛化。这四个泛化组合起来是完整的具身智能的技术终局。 对象泛化指的是,比如同样的“抓取-放置”类动作,面对不同的物体都能完成任务,比如今天抓瓶子,明天抓杯子,或者抓手机、抓其他小物件,都能泛化适应。动作泛化则是指面对同一个物体,机器人能够完成不同的操作,比如今天抓杯子放下,明天就能拧瓶盖、或者倒水,这是能力上的横向延展。 场景泛化强调的是,同样一个任务,在不同的环境背景下依然可以完成,比如今天的桌面是这样,明天换一张不同颜色或布局的桌子,机器人依然能完成任务。最后是本体泛化,意思是一个模型可以在一种机器人本体上运行,也能在另一种类型的本体上迁移使用。这四类泛化能力如果都能实现,我们认为具身智能的“智能问题”就基本解决了。 但从另一个角度看,也就是从商业化和产品价值的角度来看,在当前阶段最关键、最具实际价值的,其实还是对象泛化和动作泛化。 这是因为我们观察到,具身智能目前的大量应用场景都是工站式的、序列化的任务,它不像自动驾驶那样需要在广阔开放的道路环境中持续泛化,因此场景泛化的挑战性没有自动驾驶那么强。而本体泛化方面,正如我们前面讲到的,具身智能产品形态不是模型、而是整机+智能。 在这样的产品形态下,本体泛化在商业初期阶段没有那么重要。所以我们认为,具身智能需优先解决对象泛化和动作泛化的问题,解决这两个的组合之后,有相当比例的场景和应用就可以被开发出来、商业价值也就可以被释放出来了。 04 构建具身智能商业闭环的关键 变量是开发者群体 最后我们简单谈一下关于应用和商业化的问题。在这个过程中,星海图始终特别重视开发者群体。我们一直认为,具身智能商业闭环的核心变量就是开发者。 为什么这么说?因为具身智能的繁荣,归根结底是应用的繁荣,而应用要能产生价值,就必须有一群有活力、聪明的开发者在做各种各样的应用。 开发者在做具身智能应用的过程中,其实是需要支持、需要帮助的。我们自己走过这个过程,所以深有体会,具身智能的链条很长,供应链、制造、电机、整机、遥操作、数据等都做完之后,才能做模型、做应用。我们不可能要求每一个开发者都从头把这些底层环节再做一遍。 所以我们的理念是,星海图自己是一个开发者,我们自己会面向场景做应用,同时我们也会尽可能地把我们做好的工具、整机产品开放出来,去帮助更多的开发者一起推进具身智能的发展。 也正是基于这样的思路,我们现在在全球已经有超过 50 个合作伙伴和客户,大家一起做开发,一起打磨产品。这个过程中,我们逐步构建起一个“四位一体”的生态圈——从本体,到数据,到模型,到应用,全链条打通。 我们相信,具身智能行业真正成功的那一天,一定不是星海图一个公司的成功,而是整个生态里的很多个企业大家一起成功。在这个一起成功、一起把行业做出价值的过程里面,我们希望能够帮助大家。 也在这里提前给大家做个预告,今年8月的世界机器人大会(WRC)上,星海图将正式发布我们的具身基础模型,并开源 Preview 版本,其背后使用的就是前面提到的整套本体与真实场景的数据管线。 而到今年9月底的CoRL(Conference on Robot Learning)上,我们也将进一步开放我们的数据集与完整的训练模型,欢迎大家提前关注。这两次重要的开源发布,我们希望能够对具身智能的开发应用起到激活的作用。 同时,我们也想分享一下目前在全球范围内与我们合作的一些开发者案例。很多人一提到“开发者”,可能第一反应是科研人员,但其实真的远不止如此。 开发者是一个广义的群体,有在高校进行研究的老师和博士生,也有国家资助的重点实验室,更有大厂里的前沿创新团队,以及不断涌现的创业公司。 最早使用我们 R1 整机进行全身遥操作训练的,是斯坦福李飞飞团队;在北美,有多家创业公司在仓储与后厨等典型场景中使用我们的平台开发应用。我们也协助上海人形机器人创新中心构建了他们的第一个数据采集场,并助力 Physical Intelligence 团队完成了 π0.5 模型的研发。除此之外,华为云、蚂蚁集团都是我们重要的开发者生态伙伴。 说到这里,我想最后分享一个观点,就是我们看到具身智能已经走到了“上半场”的结尾,正在迎来“下半场”。幸运的是,我们在经历具身智能上半场的同时,观察到了隔壁大语言模型的下半场是长什么样的,一定是“应用为王”。 具身智能的应用什么时候能来,我们还是从供给侧、需求侧简单分析一下,为什么我们说 2026 年是具身智能应用的元年。 从供给侧来看,最核心的几个变量正在同时成熟。第一个是本体的成熟,不仅仅是星海图自己的机器人本体,整个行业中也有越来越多高质量的本体平台在逐渐成熟稳定;第二个是基础模型具备了一定的泛化能力。 模型的供给能力有几个定量的指标非常重要,第一是操作精度,具身智能模型目前可以做到的操作精度是厘米级;第二是操作速度,目前智能系统的操作速度大约是人类的70%到80%;第三是泛化能力,目前机器人学习新任务的样本量大约在百条量级,也就是我们说的“少样本泛化”。这些指标逐渐稳定,就意味着下游的应用释放也将进入实质阶段。 同时还有一个很关键的要素,就我们看到全球范围内,具身智能的开发者群体在快速地增加。 需求侧其实也有很重要的变化,过去两年在我看来基本上是“全民探索具身智能可用场景”的阶段。无论是大公司还是中小企业,大家都在寻找用具身智能优化工作流程的机会。这个过程中,很多应用场景也开始逐渐清晰,而市场的预期也在变得更加理性。 两年前,特斯拉展示人形机器人 Demo 的时候,很多人一度期待机器人能在短期内取代整条生产线的工人,但现在更多人开始意识到,具身智能要从局部环节、工站式任务、服务型应用逐步切入,先跑通商业路径,再进入规模化落地。 基于这些变化,我们坚定地认为,2026年将真正成为具身智能下半场的开启之年。而这个下半场的核心,就是应用。 |