|
当全球紧盯英伟达EgoScale,这家中国企业早已全线走通“人类学习路线”
作者:系统管理员
发布日期:2026-03-05
浏览次数:
近日,位于中关村的深度机智全球首次使用全新范式-人类学习,在多个国际Benchmark上取得SOTA,史无前例的使用全新架构(仅使用第一视角人类数据、零真机数据)击败Physical Intelligence和英伟达等头部巨头二十多个百分点,并在两会开幕首日被央视报道。而这一全新架构的诞生,得益于团队在人类学习路线上一年多的全力积累。无独有偶,近期英伟达也发布了人类学习的初步尝试。 当业界还在争论VLA与World Model在动作轨迹拟合上的优劣时,上述成果证实了人类第一视角数据在VLA和World Model的构建上,都有重大价值。通过从人类数据学习,模型开始掌握基本的物理常识。 镁光灯瞬间聚焦于这条被称为“人类学习路线”的新赛道。此时,一个事实浮出水面:当全球科技巨头刚刚调转船头,深度机智早已经强势登顶全球SOTA。其不仅已在这条路线上领跑了一年,甚至在英伟达论文发表前的8个月,就已将核心技术逻辑全线跑通并全力布局。 这并非巧合,而是一场关于“具身智能底层规则”的重构。 01 赛道出现“岔路口”: VLA的局限与“理解优先”的反共识 过去两年,VLA模型几乎成为具身智能的代名词。通过将视觉与语言大模型直接嫁接至动作空间,业界似乎看到了通用机器人的曙光。 但繁荣难掩深层的撕裂。业界越来越认识到,VLA本质上类似于一个开环的“记忆关联器”,它缺乏闭环能力与因果推理。 比较常见的落地场景是,当一个VLA模型学会抓起杯子,它学到的其实是“在看到杯子和听到指令时输出特定轨迹”,而非理解“如果施加的摩擦力不足,杯子会滑落”。 这意味着,VLA存在着一个硬伤,即擅长语义翻译,却不懂物理因果。 深度机智从一开始就与这种主流范式保持着微妙的距离。他们内部提出了一个在当时颇具前瞻性,甚至略显“反共识”的主张:“理解优先,执行在后”。 深度机智的团队认为,与其做一个简单的“通用具身智能”(强调本体执行各种物理世界任务),不如做“具身通用智能”——先让智能体在通用能力的基础上具备理解物理常识的能力,再将这些能力“具身”到物理世界。这意味着,机器人大脑必须先理解物理世界的规律,才能谈精确执行。 正是这一理念,让深度机智在2025年第一季度,笃定了这条后来也被英伟达EgoScale和WAM验证的技术路线。 02 拆解“三步棋”: 中国初创悄然走通“人类学习路线” 如果说路线的正确性是远见,那么技术的落地则是硬实力。深度机智近期连续发布的三项技术成果,并非孤立的论文,而是一套逻辑严密、层层递进的组合拳。 第一步:数据范式创新——PhysBrain,给模型装上“物理直觉”。 2025年12月,深度机智等团队发表论文《PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence》 。 这是三篇论文中的一篇,也是整个技术树的“根”。 业界最大的痛点是数据稀缺。真机数据不仅成本高、难以规模化,且受限于机器人本体形态,难以泛化。深度机智的解法是:主要依赖海量人类第一视角多模态数据,辅以少量真机数据,以训练通用物理智能基座模型为目标。 他们提出的“Egocentric2Embodiment”转换流程,将人类随手可得的日常视频(如做饭、整理、维修)转化为结构化的具身训练数据,构建了E2E-3M数据集。这相当于让AI通过“看”人类如何与物理世界互动,去“偷师”那些难以言表的常识——比如在组装零件或做饭时,如何把握操作的先后时序与因果推理,如何评估物体间的空间位置与物理机制(如卡槽匹配),以及如何规划合理的运动轨迹。通过这种方式,AI 成功将人类的泛化经验转化为了机器人的“物理智能”。 “Egocentric2Embodiment”转换流程 事实上,实验数据具有很强的说服力。基于该数据训练的PhysBrain模型,在第一视角规划基准EgoThink上的Planning维度,甚至超过GPT-4;将其作为VLA骨干接入SimplerEnv仿真时,仅需极少量机器人数据进行微调即可实现更高的成功率,证明了人类经验向机器人执行器高效迁移的可行性。 这步棋的意义在于,它击穿了数据采集的“天花板”。深度机智内部的看法是:“1000小时精细标注的人类数据,训练效果优于10000小时昂贵的真机数据。” 第二步:模型架构创新——TwinBrainVLA,让“通用大脑”与“具身大脑”统一。 这是深度机智等团队发表的第二篇论文,其题目为《TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers 》。 有了优质的“物理直觉”基座,下一个问题是如何在保留通用语义能力的同时,执行精细动作。 传统VLA微调往往陷入困境。模型为了学好拧螺丝这类精细操作,可能会忘记“猫是什么” 这类基础常识;为了保留通用知识,动作精度又上不去。这是业界热议的灾难性遗忘问题。 深度机智等团队在2026年1月提出了TwinBrainVLA架构,有望破解这一困局。 他们模仿人脑的左右脑分工,提出了非对称双脑混合架构(AsyMoT)。其中,左脑(通用ist)完全冻结,保留强大的视觉-语言语义理解能力,像一座永不遗忘的知识神殿。而右脑(专家),完全可训练,专门接收本体感知信号(关节角度、速度),专注于学习精细的电机控制。 通过非对称注意力机制,右脑在执行任务时可以动态“查阅”左脑的语义知识,但不会污染左脑。这种结构性的解耦,让模型在SimplerEnv、RoboTwin及RoboCasa等主流Benchmark上,在不适用任何真机轨迹数据做基座训练的情况下,综合表现超越Pi-0.5近10个百分点,也超过了一大批以真机数据构建的VLA模型。 这意味着机器人终于可以在“理解世界”的同时,精准地“与世界互动”。 第三步:训练方法创新——LangForce,用语言“强制”模型思考。 有了好数据和好架构,深度机智还顺手解决了最后一个“玄学”问题:模型真的在“听人话”吗? 在很多数据集中,由于视觉场景已经暗示了任务(比如桌面上只有一根香蕉),模型往往会忽略语言指令,退化成单纯的视觉策略。这导致在分布外场景(OOD)中,模型表现断崖式下跌。 深度机智等团队的第三篇论文《LangForce: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries》,提出了一个精巧的解决方案:通过贝叶斯分解,引入可学习的潜在动作查询,显式地估计“仅看图像的动作先验”与“看图像+听指令的动作后验”之间的差异。 简单来说,LangForce通过最大化动作与指令之间的交互信息,强制模型必须“听指令”才能做出动作。这一技术突破的效果很是惊人。 近期,深度机智研发团队成功融合了数据增强、双脑架构和创新训练方法三个维度的技术突破。 当上述三项技术融合时,叠加效应便产生了质的飞跃。模型不仅性能登顶,更涌现出了令人惊喜的智能纠错、跨本体迁移能力——这正是迈向通用智能的关键征兆。 03 “认知差”凸显先发优势: 重构具身智能底层规则 技术突破的背后,是“认知差”带来的先发优势正在凸显,从而使一整套技术闭环得以沉淀。 一场关于数据根基的扎实布局正在展开。2025年12月以来,在公司自建合肥数采示范基地的基础上,深度机智与不同高校共建的多个“具身智能数据采集示范中心”相继落地。这些中心的建设,正是对PhysBrain理念的规模化实践。 深度机智团队在早早确定做“具身通用智能”的战略定力下,认识到传统的具身数据采集关注“动作轨迹”,而公司独创的“情境数采”(In-Context Data Collection)则可实现以第一视角为主,多视角为辅,佩戴式设备采集最接近人类认知的视觉流。 “情境数采”的另一个特点便是场景记忆植入,每一帧数据不仅记录坐标,还通过情境标签记录“为什么这么做”。例如,在实验室抓取烧杯,数据会记录环境光影、桌面材质以及人类为了避开障碍物而刻意调整的路径细节。 这种带有场景记忆的数据,能让模型理解动作背后的物理约束,实现真实物理世界的“World Context as Prompt”。 截至目前,深度机智依托自研的DeepAct数据引擎,在全国十多个城市、数百个场景中采集了数十万小时的高质量人类第一视角多模态数据。 2026年初,当英伟达用DreamZero展示140亿参数的模型通过7Hz频率实时控制机器人,实现解鞋带、熨衣服等复杂任务时,全球为之震撼。英伟达高级科学家Jim Fan称其为机器人领域的“GPT-2时刻”。 但对于深度机智来说,这更像是一种“英雄所见略同”的验证。 早在8个月前,这家中国公司的数据处理架构就已与英伟达EgoScale的核心逻辑对齐;早在一年前,他们就已经押注“理解优先”的非共识路线;而如今,当三项技术突破完成融合,他们的模型正冲向全球Benchmark的顶端。 3月26日,深度机智将携带全国首个全新架构模型PhysBrain1.0亮相中关村论坛。这不仅是一次技术展示,更是一次范式的宣告:在具身通用智能的全球竞赛中,中国力量不仅没有缺席,反而具备充分的前瞻性。 当全球目光跟随着英伟达转向“人类学习路线”的新赛道,当全球紧盯英伟达、Figure、Tesla等主流公司,中国创新的身影,早已悄然跑在了更前面。 |


