中国机器人峰会

新闻中心
峰会新闻
行业资讯

当全球紧盯英伟达EgoScale，这家中国企业早已全线走通“人类学习路线”

作者：系统管理员发布日期：2026-03-05 浏览次数：

近日，位于中关村的深度机智全球首次使用全新范式-人类学习，在多个国际Benchmark上取得SOTA，史无前例的使用全新架构（仅使用第一视角人类数据、零真机数据）击败Physical Intelligence和英伟达等头部巨头二十多个百分点，并在两会开幕首日被央视报道。而这一全新架构的诞生，得益于团队在人类学习路线上一年多的全力积累。无独有偶，近期英伟达也发布了人类学习的初步尝试。

当业界还在争论VLA与World Model在动作轨迹拟合上的优劣时，上述成果证实了人类第一视角数据在VLA和World Model的构建上，都有重大价值。通过从人类数据学习，模型开始掌握基本的物理常识。

镁光灯瞬间聚焦于这条被称为“人类学习路线”的新赛道。此时，一个事实浮出水面：当全球科技巨头刚刚调转船头，深度机智早已经强势登顶全球SOTA。其不仅已在这条路线上领跑了一年，甚至在英伟达论文发表前的8个月，就已将核心技术逻辑全线跑通并全力布局。

这并非巧合，而是一场关于“具身智能底层规则”的重构。

赛道出现“岔路口”：

VLA的局限与“理解优先”的反共识

过去两年，VLA模型几乎成为具身智能的代名词。通过将视觉与语言大模型直接嫁接至动作空间，业界似乎看到了通用机器人的曙光。

但繁荣难掩深层的撕裂。业界越来越认识到，VLA本质上类似于一个开环的“记忆关联器”，它缺乏闭环能力与因果推理。

比较常见的落地场景是，当一个VLA模型学会抓起杯子，它学到的其实是“在看到杯子和听到指令时输出特定轨迹”，而非理解“如果施加的摩擦力不足，杯子会滑落”。

这意味着，VLA存在着一个硬伤，即擅长语义翻译，却不懂物理因果。

深度机智从一开始就与这种主流范式保持着微妙的距离。他们内部提出了一个在当时颇具前瞻性，甚至略显“反共识”的主张：“理解优先，执行在后”。

深度机智的团队认为，与其做一个简单的“通用具身智能”（强调本体执行各种物理世界任务），不如做“具身通用智能”——先让智能体在通用能力的基础上具备理解物理常识的能力，再将这些能力“具身”到物理世界。这意味着，机器人大脑必须先理解物理世界的规律，才能谈精确执行。

正是这一理念，让深度机智在2025年第一季度，笃定了这条后来也被英伟达EgoScale和WAM验证的技术路线。

拆解“三步棋”：

中国初创悄然走通“人类学习路线”

如果说路线的正确性是远见，那么技术的落地则是硬实力。深度机智近期连续发布的三项技术成果，并非孤立的论文，而是一套逻辑严密、层层递进的组合拳。

第一步：数据范式创新——PhysBrain，给模型装上“物理直觉”。

2025年12月，深度机智等团队发表论文《PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence》。

这是三篇论文中的一篇，也是整个技术树的“根”。

业界最大的痛点是数据稀缺。真机数据不仅成本高、难以规模化，且受限于机器人本体形态，难以泛化。深度机智的解法是：主要依赖海量人类第一视角多模态数据，辅以少量真机数据，以训练通用物理智能基座模型为目标。

他们提出的“Egocentric2Embodiment”转换流程，将人类随手可得的日常视频（如做饭、整理、维修）转化为结构化的具身训练数据，构建了E2E-3M数据集。这相当于让AI通过“看”人类如何与物理世界互动，去“偷师”那些难以言表的常识——比如在组装零件或做饭时，如何把握操作的先后时序与因果推理，如何评估物体间的空间位置与物理机制（如卡槽匹配），以及如何规划合理的运动轨迹。通过这种方式，AI 成功将人类的泛化经验转化为了机器人的“物理智能”。

“Egocentric2Embodiment”转换流程

事实上，实验数据具有很强的说服力。基于该数据训练的PhysBrain模型，在第一视角规划基准EgoThink上的Planning维度，甚至超过GPT-4；将其作为VLA骨干接入SimplerEnv仿真时，仅需极少量机器人数据进行微调即可实现更高的成功率，证明了人类经验向机器人执行器高效迁移的可行性。

这步棋的意义在于，它击穿了数据采集的“天花板”。深度机智内部的看法是：“1000小时精细标注的人类数据，训练效果优于10000小时昂贵的真机数据。”

第二步：模型架构创新——TwinBrainVLA，让“通用大脑”与“具身大脑”统一。

这是深度机智等团队发表的第二篇论文，其题目为《TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers 》。

有了优质的“物理直觉”基座，下一个问题是如何在保留通用语义能力的同时，执行精细动作。

传统VLA微调往往陷入困境。模型为了学好拧螺丝这类精细操作，可能会忘记“猫是什么” 这类基础常识；为了保留通用知识，动作精度又上不去。这是业界热议的灾难性遗忘问题。

深度机智等团队在2026年1月提出了TwinBrainVLA架构，有望破解这一困局。

他们模仿人脑的左右脑分工，提出了非对称双脑混合架构（AsyMoT）。其中，左脑（通用ist）完全冻结，保留强大的视觉-语言语义理解能力，像一座永不遗忘的知识神殿。而右脑（专家），完全可训练，专门接收本体感知信号（关节角度、速度），专注于学习精细的电机控制。

通过非对称注意力机制，右脑在执行任务时可以动态“查阅”左脑的语义知识，但不会污染左脑。这种结构性的解耦，让模型在SimplerEnv、RoboTwin及RoboCasa等主流Benchmark上，在不适用任何真机轨迹数据做基座训练的情况下，综合表现超越Pi-0.5近10个百分点，也超过了一大批以真机数据构建的VLA模型。

这意味着机器人终于可以在“理解世界”的同时，精准地“与世界互动”。

第三步：训练方法创新——LangForce，用语言“强制”模型思考。

有了好数据和好架构，深度机智还顺手解决了最后一个“玄学”问题：模型真的在“听人话”吗？

在很多数据集中，由于视觉场景已经暗示了任务（比如桌面上只有一根香蕉），模型往往会忽略语言指令，退化成单纯的视觉策略。这导致在分布外场景（OOD）中，模型表现断崖式下跌。

深度机智等团队的第三篇论文《LangForce: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries》，提出了一个精巧的解决方案：通过贝叶斯分解，引入可学习的潜在动作查询，显式地估计“仅看图像的动作先验”与“看图像+听指令的动作后验”之间的差异。

简单来说，LangForce通过最大化动作与指令之间的交互信息，强制模型必须“听指令”才能做出动作。这一技术突破的效果很是惊人。

近期，深度机智研发团队成功融合了数据增强、双脑架构和创新训练方法三个维度的技术突破。

当上述三项技术融合时，叠加效应便产生了质的飞跃。模型不仅性能登顶，更涌现出了令人惊喜的智能纠错、跨本体迁移能力——这正是迈向通用智能的关键征兆。

“认知差”凸显先发优势：

重构具身智能底层规则

技术突破的背后，是“认知差”带来的先发优势正在凸显，从而使一整套技术闭环得以沉淀。

一场关于数据根基的扎实布局正在展开。2025年12月以来，在公司自建合肥数采示范基地的基础上，深度机智与不同高校共建的多个“具身智能数据采集示范中心”相继落地。这些中心的建设，正是对PhysBrain理念的规模化实践。

深度机智团队在早早确定做“具身通用智能”的战略定力下，认识到传统的具身数据采集关注“动作轨迹”，而公司独创的“情境数采”（In-Context Data Collection）则可实现以第一视角为主，多视角为辅，佩戴式设备采集最接近人类认知的视觉流。

“情境数采”的另一个特点便是场景记忆植入，每一帧数据不仅记录坐标，还通过情境标签记录“为什么这么做”。例如，在实验室抓取烧杯，数据会记录环境光影、桌面材质以及人类为了避开障碍物而刻意调整的路径细节。

这种带有场景记忆的数据，能让模型理解动作背后的物理约束，实现真实物理世界的“World Context as Prompt”。

截至目前，深度机智依托自研的DeepAct数据引擎，在全国十多个城市、数百个场景中采集了数十万小时的高质量人类第一视角多模态数据。

2026年初，当英伟达用DreamZero展示140亿参数的模型通过7Hz频率实时控制机器人，实现解鞋带、熨衣服等复杂任务时，全球为之震撼。英伟达高级科学家Jim Fan称其为机器人领域的“GPT-2时刻”。

但对于深度机智来说，这更像是一种“英雄所见略同”的验证。

早在8个月前，这家中国公司的数据处理架构就已与英伟达EgoScale的核心逻辑对齐；早在一年前，他们就已经押注“理解优先”的非共识路线；而如今，当三项技术突破完成融合，他们的模型正冲向全球Benchmark的顶端。

3月26日，深度机智将携带全国首个全新架构模型PhysBrain1.0亮相中关村论坛。这不仅是一次技术展示，更是一次范式的宣告：在具身通用智能的全球竞赛中，中国力量不仅没有缺席，反而具备充分的前瞻性。

当全球目光跟随着英伟达转向“人类学习路线”的新赛道，当全球紧盯英伟达、Figure、Tesla等主流公司，中国创新的身影，早已悄然跑在了更前面。

首页

新闻中心

日程嘉宾

展商资讯

直播入口

大赛

会务服务

招才引智

合作伙伴

参会申请

关于峰会