斯坦福大学和哥伦比亚大学联合开发的以人手为灵巧操作通用接口的突破性研究——DexUMI
作者:系统管理员 发布日期:2025-06-09 浏览次数:

在灵巧机器人领域,一项重大突破正在改变机器人如何学习复杂的手部操作技能。来自斯坦福大学、哥伦比亚大学、摩根大通AI研究院、卡内基梅隆大学和英伟达的研究团队,由Mengda XuHan ZhangYifan HouZhenjia XuLinxi FanManuela VelosoShuran Song共同合作,于20255月发表了题为《DexUMI: Using Human Hand as the Universal Manipulation Interface for Dexterous Manipulation》的研究论文。这项研究提出了一个创新框架,允许机器人直接从人类手部动作中学习复杂的灵巧操作技能。

图片

人类的手部展现出令人惊叹的灵巧特质,能够胜任各式各样复杂精细的任务。然而,将人类手部的这些技能迁移至机器人身上,却始终面临着巨大的挑战。究其原因,主要是人类的手与机器人的手之间存在着显著的身体差异鸿沟。研究团队由此提出了一个核心问题:究竟该如何最大程度地缩小这种身体差异鸿沟,让人类的手部能够成为各类不同机器人手的通用操作接口呢?为解答这一问题,他们精心研发了DexUMI框架。该框架涵盖硬件与软件两层适配组件,其设计初衷在于拉近行动与观察之间的距离。

图片

硬件适配层采用了可穿戴式手部外骨骼的设计方案,用户可直接佩戴该外骨骼以采集操作数据。此款外骨骼是借助一个硬件优化框架,针对每一款目标机器人手进行专门定制的,该框架会对外骨骼的各项参数(例如连杆长度)加以优化,使其能够紧密贴合机器人手指的运动轨迹,同时确保用户佩戴时的舒适度。

软件适配层以数据处理管道的形式呈现,它有效填补了人类示范与机器人部署之间在视觉观察方面的差距。在软件处理管道中,首先运用视频分割技术,从示范视频里去除人手与外骨骼的影像;随后,利用对应的机器人手模型以及环境背景,重新渲染视频画面,使之与目标动作相契合。尽管人手与机器人手在视觉上存在一定差异,但这种适配方式确保了训练阶段与机器人部署阶段在视觉输入上的一致性。

图片

通过硬件和软件两层适配,DexUMI允许研究团队在各种任务上收集数据,同时最小化运动学和视觉差距,然后将技能转移到机器人上。综合实际实验证明了DexUMI在两种不同类型的灵巧手上的能力:6自由度的Inspire手和12自由度的XHand。与远程操作相比,该方法实现了3.2倍的数据收集效率,并在四项任务中达到了平均86%的成功率,包括长期任务和需要多指接触的复杂任务。

图片

综上所述,DexUMI构建了一个具备可扩展性与高效性的数据收集及政策学习框架。该框架以人手作为交互接口,精准地将人手运动转化为机器人手的动作,并同步提供自然的触觉反馈。研究团队通过一系列极具挑战性的实际实验,有力地证明了 DexUMI 在学习精准、接触密集且需长期执行的灵巧操作政策方面的卓越能力。此项工作开创了一种超越传统远程操作的新途径,能够高效且大规模地采集实际灵巧手操作数据。

文章来源:CAAI认知系统与信息处理专委会