对话灵初创始团队:机器人的上半身比下半身更重要
作者:系统管理员
发布日期:2025-04-17
浏览次数:
Key Points 没有一个机器人只是走路、聊天就有商业价值,手部一定要有操作能力; 操作模型的分层浪潮,灵初是最早的; 机器人的5层技术栈:大脑模型-小脑模型-软件平台-数采&遥操作设备-硬件,越往上层越早期,越往下越接近市场化; 机器人大脑的安卓模式行不通,现在连苹果模式都还没跑通; 新范式的机器人是十年的长赛道,投入产出早晚要算账,但不是用一年两年来算。 进入2025年以来,中美两地的头部机器人公司——比如Physical Intelligence(简称Pi)和智元机器人——都做了同一个动作:将原本的长链条「端到端」模型VLA(Vision Language Action,视觉-语言-动作)拆开,分成VLM(Vision Language Model:视觉语言模型)和动作执行两个模型,相当于把机器人的动作规划和动作执行分开。 这个动作很大程度上解决了机器人的数据悖论问题,即与非具身的模型不同,具身模型需要从现实中获得大量数据才能完成学习,但获得数据的前提是有足够的具身硬件商用。自动驾驶汽车曾经也是一样,有了更多量产车上路、获得更多数据反馈后,智驾算法才得到必要的迭代。 由于难以像具身汽车那样建构数据飞轮,具身机器人从特斯拉的Optimus开始就在采用遥控操作机器人(简称「遥操」)的方式,让机器人通过模仿学习获得相应的动作数据。这种数据获取方式的效率、成本意味着,具身模型难以像非具身模型(比如只需要说话不需要走路的GPT)那样快速Scaling——数据越多、模型越大、模型效果越好——起来,因为数据量不够。 把VLA拆分成VLM和动作执行两个分层的模型后,其中的VLM模型能学习的数据类型就大幅扩展了,它不再像VLA那样只能通过「遥操」进行模仿学习,而是也能够从大量的互联网数据——人类视频中学习。 最早做出这项技术变革的既不是Pi,也不是智元,而是一个尚未得到多少关注的新公司——灵初智能。去年12月,这个初创团队就推出了分层端到端模型Psi R0,包含一个VLM动作规划模型Psi-P0,以及一个动作控制模型Psi-C0。 灵初的创办人王启斌是个机器人领域的老手。创办这家公司之前,他在云迹科技和京东机器人都工作过,前者做酒店配送机器人,后者做物流配送机器人。 宇树科技2016年创立的时候,王启斌并没有决定下场,不仅因为他当时还在一家智能音箱公司,尚未真正进入机器人领域,还有一个原因是,包括宇树科技和他工作过的云迹科技、京东机器人在内,都被认为属于上一代机器人浪潮,它们的机器人都只解决了机器人的locomotion(移动)能力,能够通过自身的移动将一件物品从一处搬运至另一处,但是它们并没有解决机器人上半身尤其是手部的manipulation(操作)能力。 王启斌认为,机器人的上半身比下半身更具劳动价值,从而将有更高的商业价值。而2022年之后大火的基于Transformer的大模型让他看到了为机器人开发手部操作能力的可能。 王启斌眼光独特,他一上来就想好了要从强化学习领域找合伙人,因为单靠模仿学习,机器人永远解决不了动作的准确率问题。跑遍了国内外大学实验室后,他结识了来自北京大学人工智能研究院的杨耀东教授和他的博士生们。这次结缘带来的成果丰厚,灵初2024年年底发布的动作规划模型Psi-P0和动作控制模型Psi-C0分别是梁一韬和陈源培开发的。梁一韬和陈源培都是杨耀东的学生,专攻强化学习,而陈源培还曾在斯坦福大学李飞飞实验室做过访问学者。 智元的嗅觉也算敏锐,在灵初还没正式成立前,智元就出手投资了这个新同行。 以下是「新皮层」与灵初创始人兼CEO王启斌、联创陈源培的对话: 机器人领域的范式变化:从移动能力转向操作能力 新皮层:你在机器人领域做了很多年了,今天的机器人和你几年前做的机器人有什么不同? 王启斌:我2008年从美国回来,前10年都在消费电子领域,在黑莓做手机,后来在Sonos做智能音箱,2018年开始在云迹科技做机器人。2021年到2024年我都在京东,在京东X Lab里做机器人。 我做过的机器人可以分为两个代际。上一拨机器人的范式类似于专用机器人,专注于对有限物体的操作。这一拨机器人能做开放环境里的任务,可以在复杂环境中爬山、上楼,并对不同的物体展开操作,底层技术发生了重大变化。 灵初智能创始人兼CEO 王启斌 新皮层:你最早意识到范式变化是在什么时候? 王启斌:2022年。上一拨做机器人的头部公司基本在2015年左右出现。机器人只会移动,东西怎么放上去、拿下来的问题没有解决。新趋势真正起来是在2022年10月,ChatGPT出来后,大家在看大模型的发展会不会对机器人行业产生影响,脑的迭代是否会更快?这是第一。第二点,移动能力对机器人来说,已经非常平稳,整个机器人的迭代出现了新变化,慢慢要开始具有操作能力。 新皮层:你们似乎很在意机器人在操作上的能力,而不是走路、跑跳、取悦人,为什么?宇树机器人今年出圈,就是因为大家能够看到机器人跳舞。 王启斌:没事,过两年大家会越来越觉得操作重要。永远不要跟随市场,市场总是后知后觉。我们做产品研发一定要有自己的判断。大家今年觉得宇树这么能跳舞,但宇树是2018年就开始做了。4年前,有谁会去追捧宇树呢? 新皮层:机器人的操作能力和运动能力,两者的价值有什么不一样? 王启斌:从底层来说,我认为只做移动解决不了真正的实际问题。今天虽然大家唱歌跳舞都很开心,但最终一定会落到基本面,没有任何一个机器人只是走路、聊天就有商业价值,手部一定要有操作能力。 只会移动的机器人有个根本性的问题,就是只能做本来就需要大量人力的工作,这是上一代机器人的模式。比如酒店配送,酒店至少有六七个服务员,就能用上机器人,如果只是很小的民宿,一个人把活全干了,就没有机器人的价值。但因为机器人操作能力不足,只能把东西从一个地方送到另一个地方,那两端就都需要配备人力操作,变成了「机器人+人」的工作模式。大家开玩笑,到底是机器人帮助人?还是人在帮助机器人?半自动化的产品没法做大规模推广。 新皮层:还是需要机器人能够去工厂干活?你想让它干什么活? 王启斌:不一定去工厂,它可以去ToB服务业、商超,去拣货、理货、打包,做一些简单的操作。 新皮层:这些会不会一个简单的机械臂就能做到? 王启斌:肯定是需要复合能力的机器人。机器人如果没有很强的脑子、很灵巧的手,只是一个机械臂,做的就是对一个物体进行的单一操作。 新皮层:这种操作能力的实现有多难?它是小脑的能力还是大脑的能力? 王启斌:大小脑本身是一体的。比如我给机器人一个任务:把桌子右上角的区域清理掉。大脑做决策时就要自行推理,要先抓哪个东西,而且抓了这个东西不会破坏其他东西。它最终决策出来要抓黄色物体,这就是大脑。具体到怎么抓,就是小脑。抓取成功后,再规划抓下一个,它是大脑跟小脑配合执行的顺畅过程。真实环境比这个复杂很多。如果抓东西失败,大脑一定知道失败了,但小脑可以很快指挥手再重新抓住。 新皮层:小脑比大脑更早有反应? 王启斌:大脑会比较慢,知道项目在执行,但是大脑决策就没有这么快。就像人一样,比如你拿东西,我把它抢过来,你再抢回去。你觉得真的过脑子了吗?人说不过脑子,其实是过了小脑,还没过大脑,你马上就把它抢走了。 新皮层:这种能力如何获得? 王启斌:都是强化学习。大脑类似于在DeepSeek之后的推理模型,是强化学习学出来的,小脑是在仿真器中通过强化学习学技能。 新皮层:你提到的这种能力在业界有多少公司掌握? 王启斌:有限的公司,比如说现在英伟达在美国有仿真器方向的投入。大家现在第一步还在做的是模仿学习,但模仿学习的数据成本非常高,我们更多是在仿真器里做(强化学习的)预训练,预训练之后再来调。 新皮层:你觉得国内其他机器人公司的技术路径有受你们影响吗? 王启斌:去年8月机器人大会的时候,高瓴和蓝驰已经投资我们了。我们是国内最早讲操作要做强化学习的团队,基本上去年下半年很多团队也开始走这条路。 机器人至少是十年以上的赛道,其市场体量远超智驾 新皮层:你2018年的时候去云迹做机器人,那时的兴趣点是什么? 王启斌:我2018年之前在做智能音箱,2018年Sonos上市就离开了外企,顺其自然还是可以做音箱,但是我认为音箱未来的想象力不太大,我想去做拥有更长生命周期的产品。我见了很多人,最后决心去做机器人,至少这是十年以上的赛道,今天来看可能远远都不止十年。 新皮层:那时候是不是包括京东、阿里、腾讯等一批大厂也开始做这类事? 王启斌:对,2018年那时有一拨风潮。今天看到的那一批公司都是像我刚才说的,在2015年就成立了,从服务业到仓储,机器人公司出现了一大拨,自动驾驶也是在那个时候出现。 新皮层:你去京东是因为它有场景吗? 王启斌:我2021年去的京东,就是想看什么样的背景能把机器人做出来。机器人赛道还是和车的逻辑有差异,汽车从油改电,中间是有用户需求的。而机器人在很多场景,是要取代人在做的事情。机器人领域实际上就两拨人,一方是业务需求方,另一方是创业公司。原本我在创业公司视角,后来我想换个视角看,京东业务有仓储和配送,是不是业务场景方更有胜算?我认为机器人技术渗透率慢慢提升的时候,业务场景方能更好地把产品做大。 新皮层:大公司也可以转型开辟业务去做人形机器人,你为什么没有留在京东继续做? 王启斌:如果大家读了《创新者的窘境》,就会知道只要是一个新物种,大公司基本都会错过。京东有很好的场景,但是我不认为在京东内部做这个事情是一个最好的选择。 新皮层:过去两三年已经有很多人形机器人公司成立,你2024年才下场,会不会晚了? 王启斌:永远有机会。不光那时有机会,现在也不算晚,今年依然有公司进来。如果赛道是十年的维度,我觉得早一年晚一年根本不会决定胜负。 新皮层:这是个多大的机会? 王启斌:只能定性地讲,很难去定量。定性讲几个事情,就是机器人一定是比智驾更大的机会,机器人解决了移动的问题,现在在尝试各种操作。ToB服务业的康养、酒旅、商超物流,未来还可能有情感和家庭陪伴。我觉得机器人代表十年以上的机会,其市场体量会远超智驾。 新皮层:上一拨机器人最后能赚钱吗? 王启斌:在单个场景能说通。比如在餐厅场景里,单个机器人1万多的售价,能够把ROI(投入产出比)算出来。 新皮层:现在市场上投资人和很多创业者都对机器人是否有商业价值很着急? 王启斌:要看清楚它是一个什么样的赛道。比如说上一拨机器人,投入期基本上3年左右会有收入,爬坡到一定阶段,毛利在健康水平,基本上30%左右。再往上爬大概4年左右,看能不能有进步。过去范式里的机器人公司大概是这样。当然有些公司到今天都没有盈利,这也是很尴尬的局面。 单看机器狗的话,今天做机器狗的头部公司,基本从2018年开始做,一个是因为MIT的Cheetah(注:麻省理工学院研发的四足机器人)2018年开源了,二是2019年有篇论文(Learning Agile and Dynamic Motor Skills for Legged Robots,发表于《Science Robotics》)给出了机器人的强化学习算法。从2018年到2024年,6年的周期,基本上能够大规模算好ROI。 新范式的机器人是一个长赛道,投入产出早晚要算账,但不是用一年两年来算。 操作模型的分层浪潮,是灵初开启的 新皮层:灵初在去年12月发了R0模型,这个模型主要赋予机器人什么能力? 陈源培:让机器人可以具有操作能力。这个模型主要用了强化学习,上层是用微调过后的VLM(Vision Language Model:视觉语言模型)做规划,下层负责机械控制。比如,商超打包产品,得抓起来扫码,翻过去再打结。从模型角度,打包时(机器人)抓一个物体,放哪里才能更好地把扫码枪对准物体,还有装袋的顺序,这些都需要大脑能力。上层规划解决推理,下层的操作主要解决机械控制。强化学习训练会有比较强的灵巧性以及成功率。 灵初智能联合创始人 陈源培 新皮层:这个分层模型和智元发的GO-1模型听起来类似,他们也把动作规划和动作执行分开了。 陈源培:对,现在大部分VLM模型基本都是这样,上层是规划能力,下层是控制能力,但数据源和训练方法不太一样。 新皮层:分层的好处是什么?去年我们听说比较多的还是把视觉、语言、动作完全做成端到端的VLA(Vision Language Action,视觉-语言-动作)模型。 陈源培:我们判断,完全端到端大概率不行,因为数据量不够。例如,视频生成领域,哪怕穷尽互联网所有视频数据,数据量基本上是机器人最大数据集的3万倍,且任务比机器人更简单,就生成一帧的视频。这种情况下,现在的视频生成模型依然未能实现精细化控制,比如指令是在左上角生成一朵花,可能生成结果还是有偏差。 机器人领域的数据量更小,工作要求却更精细,所以端到端大概率不现实。分层是更高效的方法,上层做规划,有比较强的长程推理能力。下层用一些机器人专门的数据做微调,做一定控制就好,所需数据量比较少。上层可以用到互联网数据,不完全依赖遥操数据,数据利用效率会更高,效果会好很多。 新皮层:你们算是业内最早做的吗? 陈源培:VLA算是。我在2022年就开始做灵巧手的操作,那时人形机器人都还不火,做灵巧手还很小众,后面特斯拉在2022年年底开始做,才慢慢火起来。我在这个方向积累比较多,包括杨老师(注:杨耀东,北京大学人工智能研究院助理教授)也会做这个课题。 新皮层:你们是最早做VLA模型的,那分层模型呢? 陈源培:学术界一直都有人研究。如果说公司层面,走这条路线我们确实是最早的,就是分层VLA加强化学习。 新皮层:作为初创公司,你们还没有像智元那样建数据工厂采集大量数据。如何在没有大量数据的情况下先训练出了模型? 陈源培:我们还是强调一个问题,哪怕都是笼统的分层VLA,或者同样的技术框架,怎么训练以及框架细节,差距还是比较大。 我们最新的工作是在任意场景下,任意灯光、背景、物体、位置都可以做到泛化抓取,Figure AI用500个小时的训练数据实现了能力泛化,我们只用了2个小时的数据,就训出来了,成功率也能达到90%多以上。我们的技术理念是一开始先分层训,最后再端到端的联合训练,之后上层我会保留一些CoT(Chain of Thought,思维链)能力,输出给下层做判断,这样数据利用率非常高,这是其一。其二,我从2022年开始就一直做仿真,强化学习是仿真里面独有的技术路线,我们可以比较容易利用很多仿真数据。 新皮层:你之前在李飞飞的实验室有过学习经历,去年李飞飞实验室、Google等机构都发了3D视频生成模型,这种模型跟我们现在谈的模型的关系是什么? 陈源培:之前比较热的词是World Model(世界模型),就是视频预测或者3D空间预测模型,能通过这一帧直接输出下一帧。在机器人领域,它对我们直接输出策略的训练有帮助,可以做很多预测。比如训练模型,可以想象说我做一个action(动作),看它的下一个state(状态)好不好,如果不好就不继续做这个动作了,换另一个能带来更好state的动作。3D视频生成模型提供的就是这样的训练环境。 一个能力完备的机器人需要多个模型,运动模型、操作模型都只是其中之一 新皮层:ChatGPT火了之后,从文字到视觉,甚至到机器人模型,都在谈深度学习,似乎强化学习有点式微。DeepSeek火了之后,强化学习又被强调得更多。2022年是什么状况?你当时为什么会在研究强化学习? 陈源培:从源头上讲,当时我在跟北大的杨耀东老师做研究,他的博士论文就是强化学习,他也是国内为数不多真正一直在做强化学习的老师。其次我也比较喜欢强化学习。我觉得它训练出来的很多东西可以超越人类,非常fancy。比如我们做灵巧手来转魔方、转笔、接球、搭乐高,这些都很炫酷。 新皮层:2022年时你会觉得强化学习有未来吗? 陈源培:会,当时强化学习没有特别多人研究,但我还是觉得大家做学术都会有一些信仰。不管是Richard Sutton(强化学习之父,获2024年图灵奖)还是OpenAI,做强化学习研究的人一直都在做这个方向,哪怕暂时效果不好。2022年我做灵巧手操作,后来到斯坦福做研究,做一些抛接球、搭乐高的动作,大家比较认可,工作质量非常高,难度也非常大。 新皮层:难度大在于什么?缺数据、训练次数还是要试错? 陈源培:你说的这些全都有。模仿学习就是遥操作,采一采数据,拿开源模型训一训,基本都可以复现。但对于强化学习来说,一开始要自己把强化学习训练的环境搭出来,奖励函数、环境软件、训练策略都要设计,环境搭建是第一点。第二点就是训练,强化学习本质上是一个Actor-Critic(球员-裁判)架构,它有两个神经网络,有非常多参数,交替更新,训练起来比模仿学习不稳定很多,参数也多得多。第三点就是强化学习需要Sim2Real(Simulation to Reality,仿真到现实),非常像以前调大模型的做法,很看个人的know-how,基本上很难有一套固定方法论,要看具体情况来分析,再采取方案。 新皮层:你是00后,跟其他联合创始人是怎么碰到一起创业的? 陈源培:我们的创始人就是Viktor(王启斌),他寻找的晓杰(柴晓杰)。他们2023年在看机会,那时我在斯坦福做访问学者。到了2024年,他们找到杨老师(杨耀东),我跟杨老师也比较熟,杨老师就问我要不要一起,我们就一起创业了。 新皮层:灵初跟北大杨老师实验室现在还有哪些合作? 陈源培:我们现在成立了北大灵初联合实验室,基本上杨老师的大部分博士生还有实习生都会在我们公司。 新皮层:在公司的技术路线上,你们有复杂的讨论,还是很明确要做强化学习? 陈源培:非常明确,强化学习肯定必不可少,当然我们也没有说一定要做强化,或者只做强化,它可以是结合的过程。比如模仿学习,先做一半,再用强化微调,强化肯定必不可少,它也是我的强项,我们是业界非常重视强化学习的公司。 新皮层:包括R0在内的这些VLA模型是否只解决机器人的部分能力,一个会说话、有情绪、能运动、同时又能做事的完备机器人总共需要多少模型? 陈源培:确实需要很多。只不过我们从最难的开始做。我持续看好大语言模型,它肯定往多模态方向发展。我们主动选择做操作智能,是因为机器人要能做好,首先必须跟物理世界交互,把最难的部分攻克,后面加的东西难度不会很大。 新皮层:机器人如果要运动,比如跑步、走很坎坷的路,这些能力是这个R0模型完成的吗? 陈源培:需要另外一个模型。现在我们把走路和操作分开,形成两套工作方式。基本上走路、跳舞等全身动作不涉及操作,它们是两条完全不同的路线。能走能跳更简单,因为不需要跟环境交互,只需要控制好自己。 但是操作不单是纯粹的控制问题,还是语义任务,非常难。比如说,拿一把刀去切东西,要拿刀柄;但是把刀递给别人,可能需要拿刀把。 新皮层:很多人认为车未来可能也是机器人,车在自动驾驶,机器人也在自动驾驶,你觉得两者的技术路线一致吗?还是在各自探索? 陈源培:各自探索。特斯拉做自动驾驶和机器人也是两个完全不同的团队。车和机器人有共同性,理论上做到后期都是比较大型的消费电子产品,理想中当然希望每个人都能像买车一样买一个机器人。 但本质上它们涉及的问题不同,方案差异非常大。车更多还是纯规划的事,它的locomotion不涉及跟物体交互,只需要判断什么时候停、什么时候转弯、什么时候看到行人需要减速。不涉及环境交互就可以减少很多问题。在操作层面上,最难的就是跟物体交互。比如,人可以很轻易地接住水瓶,对它有很强的控制,但是对车来说并没有。 新皮层:机器人的操作能力现在算是什么level? 陈源培:现在算是我们能把各种操作做得比较好,比如说什么东西都能抓,或者说我给你做个调酒,各种各样的酒都能调,可能单一任务或者半开放式的环境里面,任务完成比较好。5年会到真正意义上的AGI的level,比如说我买个机器人回家做家务。 新皮层:一个什么都能抓、还能调酒的机器人还不能在家里干活吗? 陈源培:这是个问题,现在机器人的泛化程度还不够,哪怕我们真的做出一个能够调酒的机器人,它也可能只会调酒,可能不会扫地。如果你要技能调整为扫地,难度会上升。 新皮层:做下件事,还要再重新训练? 陈源培:对,估计都要重新训练。哪怕不说机器人,现在的大语言模型即使能力很强,用到专业领域,比如医疗,也还是要拿专业数据再训练,效果才会比较好。所以如果说以一个技能、或者半封闭场景解决作为目标,基本上机器人的能力每年可能都有更新,但如果要研发出一个解决现实各种问题的机器人,我觉得最少需要5年。 新皮层:这些工作会是灵初未来要探索的? 陈源培:长远来说肯定是。我一直定义我们公司肯定做 AGI,肯定不是做某些产品的供应商,但不可避免的是,一开始肯定不会直接往这方向去做,肯定是通过场景,先把某些产品做好。AGI肯定不能从实验室出来,肯定也是通过一个产品,在现实生活交互,发现问题再扩展越来越多的产品、数据和模型。机器人直接在实验室里面做出AGI,我觉得几乎不可能,实验室里面搭真实世界的场景都搭不了。 新皮层:虽然很多机器人公司都叫具身智能,但国内真的投AI的机器人公司占比是不是没有那么高?AI投入对机器人公司来说是个必选项吗? 陈源培:大家可能都这么说,就看AI怎么定义了。如果说AI是类似具身智能这种特别神经网络化的东西,其实也不是必选项。还是有很多传统的机器人公司,可能也都去做AI,我们在工厂里面看过那种大机床机器人,他们可能也说他们那种3D视觉AI是AI,但本质上他们还是以前的工作方法,只是视觉效果有提升。 新皮层:你现在有多大的一个团队在做算法? 陈源培:算法我们大概有20多个,全职员工有几个,剩下很多都是北大灵初联合实验室的实习生。 新皮层:国内机器人公司挺多,有一种百机大战的感觉? 陈源培:可能确实比较多。自动驾驶就是开车,大语言模型辅助人类写代码,具身赛道可想象的空间太多了。理论上来说,只要人类能做的,具身都能做,所以市场非常大。 我觉得公司最核心的还是团队,不在于人多,也不在于挖人,本质上来说还是要在一个 AI团队里,有非常好的氛围,共同的驱动力,内在愿景,技术之间互相认可,做东西就非常快。我们刚注册完三个月,就发布了一款模型,春节回来之后,又发布了新的更新。 新皮层:你们发第一代R0模型比智元机器人要早,智元今年3月中旬才发。他们是从你们这儿学到什么吗?智元也投资了你们? 陈源培:对,对我们投了一点,他们可能看重我们的强化学习能力,我们是觉得硬件上和他们有合作。 新皮层:上一拨做大模型的公司,在训练、算法迭代方面的成本很高。机器人公司在AI方面的投入需要差不多吗? 陈源培:主要还是技术路线,就像我一直说的,做得好的话不需要那么多。比如视觉、语言、动作三个模态,要是纯粹端到端地训练,数据量需求非常大,训出来效果也一般。分层训练可以利用好现有的大模型。现有的VLM模型基本上已经穷尽了互联网上的语言和视频数据,把它利用好,效率会非常高,成本肯定会比大模型公司要少。 新皮层:会少一个数量级? 陈源培:对,效仿大模型公司,在机器人领域用大数据来训会少一个数量级。我们可能需要的就更少,机器人不像大模型,不是数据越多就越好。 机器人大脑的安卓模式行不通,现在连苹果模式都还没跑通 新皮层:灵初还很年轻,但行业里一些成立两三年的公司已经开始量产,今年还称为「量产元年」,为什么行业有这种急迫性? 王启斌:这是两个话题,灵初一直在做机器人上半身的操作,并不做移动能力。双手、双臂的操作还在更早的发展阶段。我们是国内第一家告诉大家我们会在双臂、双手上持续发力的公司,也是做得最早的公司。第二个,我觉得具身大赛道里会细分出很多小赛道,整个技术栈非常厚,有做人形整机,也有像我们做机器人操作的。 量产非常重要,没有身体,机器人的大脑迭代会很难。算法迭代不能没有肉身,必须要有肉身在真实世界里,才能成长起来。 新皮层:对你来说量产着急吗? 王启斌:我们在做操作,和做移动的公司不是一个赛道,不会被人轻易带节奏。 新皮层:灵初会有机器人硬件吗?还是只做软件? 王启斌:我们会有自己的硬件,4月底我们会发布自己高自由度的灵巧手和整机。 新皮层:听说有些公司定位是只做机器人大脑,装到所有品牌的机器人身上去,听起来像是一种安卓模式? 王启斌:那是梦想,需要时间。现在应该全世界没有一家公司能够真正搞定算法,在这个节点上没有安卓模式,我觉得连iPhone模式都难彻底跑通,这种跨本体(指机器人硬件)的安卓模式可能还需要很长时间。 机器人整个技术栈有5层,从上到下是大脑模型、小脑模型、软件平台、数据采集和遥操作设备、机器人硬件。越接近下层的技术成熟度越高,越往上层越早期。 中国业界做灵巧手(注:指用于人形机器人的类人手,有5个手指)的公司现在肯定不止10家了,但是去年没有一家公司能够把手的操作做得像demo里一样灵活,全世界都很难找。手在迭代,大小脑离成熟更远,更接近从研究到产品化的阶段。 除了开发机器人大脑,灵初也在自研高自由度和低自由度两款灵巧手,以及手臂等硬件。图片来源:灵初智能。 新皮层:虽然这是一个很长的赛道,对灵初来说,短期跟中期有没有比较具体的目标? 王启斌:分三个阶段,整个机器人的数据算法和硬件的技术难度远高于上一拨机器人,从产品系统上来说,这次要实现操作能力上的泛化,我们会在3年内在有限场景里做到操作能力泛化。比如你看到特斯拉机器人在工厂里装电芯,我们会有比它更复杂的场景。5年左右,会有更加开放的场景、更高的成功率。最终做到类似人形的机器人,大概需要7到10年。 新皮层:目前来说,这算是你第一次创业,你的主要压力来自于什么? 王启斌:对,算我主导的第一次。创业压力无处不在,首先融资要钱拿到手,找到最厉害的人创业,把战略定下来。最重要还是要有很强的学习能力。我刚才说的融资、人才、战略等等,基本上三个月前和三个月后我的想法都不一样。 新皮层:你最近一次转变的想法是什么? 王启斌:我在反复想,灵初到底要做一个多大的事?最近我在见一些非常聪明的人,聊天时大家也在反复拷问我,灵初未来能做一个多大的事?赛道里到底有多大价值?我需要重新看一下这件事。 新皮层:你之前想得不够大? 王启斌:可以想得更大。 新皮层:是什么触发到你,可以想得更大? 王启斌:从技术栈的底层到上层,我是不是能做得更多?我原来的硬件规划仅仅做手,现在可能要把硬件做得更多,比如手臂、整机。 新皮层:为什么手臂变重要了? 王启斌:以前觉得手和臂之间可能可以解耦,今天看下来从算法层面和手臂的配合,比如说末端的关节,其实手臂是无法解耦到整体系统的,要达到性能最优,可能要再仔细看一下。 新皮层:你们现在团队规模大概多大? 王启斌:现在大概60多人。 新皮层:在机器人公司里算是比较迷你、初期? 王启斌:团队的思维方式已经不是比人多,尤其是这回DeepSeek给大家一个最大的启示,新物种要用新的方式。比拼人才密度比较重要。 新皮层:人才主要来自哪里? 王启斌:算法更多还是在高校里的老师和博士。做硬件的人才,可能是在产业界。 新皮层:你2023年就想创业,为什么一直等到2024年? 王启斌:组团队要找人,要找到最好的科学家。我花了一年时间,从2022年年底就开始找人,基本上美国的西海岸和中国我都找了一圈。 新皮层:你有明确要找的类型吗? 王启斌:首先第一点,我肯定不做「移动」,想要做「训练」和「操作」。做这方面研究的人很有限,中国圈下来基本就是个位数。 新皮层:你觉得行业里,今年跟去年比有什么认知上的共识性变化吗? 王启斌:没有共识,行业正因为没有共识,才会有机会。也有些共识,至少证明强化学习很重要,对灵初是利好消息。去年4季度,我们跟人讲分层模型大家还有点怀疑,但今年Figure出来之后,大家又非常认可,来找我们。具体到算法的开发、架构、包括数据配比,并没有强共识,它是一个慢慢形成共识的过程。 新皮层:所以早期你们用这种分层模型去融资没那么容易被理解? 王启斌:肯定是这样,如果已经形成高度共识,机会就非常有限了。做创业肯定是在非共识最大的情况下,机会才最大。就像当时Airbnb接触投资人,有人认为是非常疯狂的想法。被投资人误解,很正常。 公司档案:灵初智能 创立时间:2024年 创始团队:创始人兼CEO 王启斌;联合创始人 陈源培、柴晓杰 自研产品:Psi R0模型、灵巧手、机器人手臂 融资历程:2024年11月天使轮融资,智元机器人、高瓴创投和蓝驰创投领投。 估值:未披露 文章来源:新皮层NewNewThing |