破解人形机器人“数据荒”! LET数据集开源首批超60,000分钟真机数据
作者:系统管理员 发布日期:2025-11-24 浏览次数:

在具身智能的浪潮之巅,人形机器人的进化正遭遇着一道无形的枷锁——高质量、大规模真机数据的极度匮乏。仿真环境下的“完美数据”难以跨越现实世界的“复杂性鸿沟”,成为制约行业从实验室走向规模化应用的核心瓶颈。

近日,由乐聚智能(深圳)股份有限公司、国家地方共建人形机器人创新中心、北京数聚通启运营管理有限公司和苏州吴江智训未来运营管理有限公司联合主导构建的国内规模最大的首个面向真实作业场景的全尺寸人形机器人数据集——“LET数据集”重磅发布,首批开源超过60,000分钟的真机数据。这不仅是量的堆叠,更是一次在数据质量、采集标准与应用广度上的质的飞跃,为人形机器人产业的“Scaling Law”提供了至关重要的燃料。

国地标准共建引领:从“数据孤岛”到“产业公信力”

数据的价值,首先源于其可信度与规范性。LET数据集从诞生之初,就肩负着构建行业基准的使命。

· 权威背书,树立质量标杆:LET数据集以国家地方共建人形机器人创新中心规范为基准,从采集流程、数据格式到标注体系,均遵循一套严格的标准框架。这确保了数据的高质量、专业合规性与可用性,使其从“数据集”升级为值得信赖的“标准化数据资产”。

· 开箱即用,破解行业痛点:长期以来,研究者与开发者耗费大量精力在数据清洗、对齐与格式化上。LET数据集通过统一的标准化处理,有效破解了多源异构、格式不一、质量参差不齐等行业沉疴,实现了“开箱即用”,极大提高了科研效率。

· 生态共建,面向全球开放:此次LET数据集携手原子开源基金会,创造了国内开源规模最大的全尺寸人形机器人数据集通过OpenLoong社区及多个渠道向全球开放,开源上线60,000+分钟数据,共同构建统一、开放、健康的产业生态。

60,000+分钟真机实采:锻造穿越“现实鸿沟”的鲁棒性

“60,000+分钟”这个数字背后,是海量知识与物理规律的浓缩。而其最核心的价值,在于“真机实采”这四个字。

· 统一的硬件平台:所有数据均基于乐聚“夸父”全尺寸人形机器人(40+自由度,身高1.66米)进行采集,从根本上避免了因机器人形态、性能差异导致的数据偏差,为算法训练提供了高一致性的宝贵基础。

· 拥抱真实的不完美:与仿真数据不同,真机实采完整包含了真实世界的物理约束、环境扰动与传感器噪声。正是在这些“不完美”中训练出的模型,才具备了穿越“现实鸿沟”的强大鲁棒性迁移能力,在端到端部署中表现出远超仿真模型的性能。

· 验证Scaling Law的优质燃料:大规模、高质量的数据是驱动模型能力跃迁的关键。这60,000+分钟的数据,将为验证和推动人形智能的Scaling Law提供前所未有的优质基础,推动模型从简单的“动作模仿”向学习背后“通用规律与决策策略”演进。

多模态数据融合:构建“身临其境”的认知体系

单一的视觉或关节数据无法支撑机器人对复杂任务的深度理解。LET数据集的先进性,体现在其系统性的多模态数据融合与对齐能力上。

· 全方位环境感知:数据集同步采集了机器人头部立体相机双腕RGB-D相机的视觉数据流,融合了RGB图像深度图,为模型提供了丰富的环境三维信息。

· 本体状态同步记录:在感知环境的同时,关节电机状态、末端执行器状态等关键本体信息被精确同步记录(误差与延迟严格控制在10ms以内)。这使得数据不仅能回答“看到了什么”,更能回答“身体正在做什么”。

· 系统化对齐标注:更重要的是,LET数据集构建了一套系统的多模态对齐标注体系。通过任务细化与多维度语义标签,将视觉、深度、本体状态在时空维度上进行精准关联,显著提升了数据的质量标准,让模型能够以更接近人类的方式,建立感知与动作的统一认知框架。

多场景覆盖:铸就面向未来的泛化能力

真正的智能,体现在应对未知与变化的泛化能力上。LET数据集以真实作业场景为核心,构建了一个前所未有的多样化任务生态。

· 三大领域,六大场景:数据集全面覆盖工业、商业零售及日常生活三大核心领域,具体囊括汽车工厂、快消场景、3C工厂、酒店服务、生活服务及物流场景这六大高价值应用场景。

· 原子技能到复杂任务:在这六大场景中,数据集系统化地拆解并实现了31项具体任务,背后是117种原子技能的灵活组合。从简单的抓取放置,到复杂的工具使用、双臂协作,为模型提供了从基础到高阶的渐进式学习素材。

· 泛化能力的基石:如此广谱的场景覆盖,确保了基于LET数据集训练的模型不会成为“流水线专用工具”,而是能够举一反三,将其在某一场景中学到的技能,迁移适配到其他未知但相似的场景中,铸就了应对复杂现实世界的强大泛化能力

模型使用开发者友好

LET数据集提供了一套数据转换、模型训练、仿真测试与真机部署的全流程数据工具链,这将进一步推动具身智能行业的研发与落地。

<滑动查看更多>

<滑动查看更多>

真机数据应用案例

日化生产场景-日化产品定姿摆放 

 汽车制造场景-SPS零件分拣

物流场景-快递分拣应用 

 3C场景-传送带物料分拣应用

左右滑动查看更多

结语:开启协同创新的新篇章

LET数据集的开源,标志着一个新时代的开启。它通过“国地标准共建”确立了数据的公信力,以 “60,000+分钟真机实采”保证了数据的真实性与规模,凭借“多模态”融合构建了深度认知的基础,并借助“多场景”覆盖铸就了面向未来的泛化能力。

这不仅是乐聚与创新中心等机构的技术贡献,更是向国内产业界发出的一份开放、协同的倡议。正如Linux之于操作系统,ImageNet之于计算机视觉,LET数据集有志于成为人形机器人具身智能时代的核心基础设施。它的未来,将由国内开发者共同书写,加速我们迈向通用人形机器人的梦想之路。

数据获取渠道

官方申请

官方邮箱wangsong@lejurobot.com直接申请获取

公开平台

Openloong开源社区

扫码获取数据

魔搭社区

扫码获取数据

HuggingFace

扫码获取资源

github

声明

本数据集基于 CC BY-NC-SA 4.0协议授权。

您可以自由地使用、修改和分享本数据集,但必须遵循以下条件:署名(注明原作者并链接至本协议)、非商业性使用,且任何衍生作品需以相同方式共享