跨越“恐怖谷”!胡宇航三年三篇子刊,用AI教会仿生人脸机器人「开口说话」
作者:系统管理员 发布日期:2026-01-16 浏览次数:

人类面对面交流中,近50%的注意力集中于对方唇部。心理学中的“恐怖谷”理论指出,当非人类实体与人类极度相似却又存在细微的不自然时(如僵硬的面部动作),会引发观察者本能的厌恶与不适。因此,即便是最先进的人形机器人,其“说话”时的表情也常如木偶般呆板,成为人机深度情感交互的关键障碍。

2026年1月,《科学机器人》发布题为“Learning realistic lip motions for humanoid face robots”(为类人面部机器人学习逼真的嘴唇运动)论文。该研究由哥伦比亚大学机械工程系博士胡宇航带领团队,通过创新的“视觉—动作”自监督学习框架VAE-FAT,使仿生面部机器人首次实现了与人类语音、歌曲高度逼真、跨语言泛化的实时唇部同步运动,为填平人机交互中的“恐怖谷”效应提供了关键技术路径。

论文地址:https://www.science.org/doi/10.1126/scirobotics.adx3017


从“对镜学习”到“声音驱动”


研究团队首先设计并制造了高度仿生的机器人面部硬件。其表层覆盖柔性硅胶皮肤,内部隐藏着26个微型电机,可独立且协同地驱动嘴唇、下颌、脸颊等部位。该机械系统能够形成覆盖24个辅音和16个元音的精细口型,为逼真表达奠定了物理基础。

机器人唇形硬件结构。(A)面部机器人设计概览,重点展示了人机交互关键组件:包括扬声器、麦克风、高清摄像模块,以及用于固定柔软硅胶面皮的磁吸式快拆连接器。该连接器能实现面皮的精准定位,并通过推拉双向运动驱动硅胶面皮,完成说话时所需的复杂唇部动作。(B)搭载柔软硅胶面皮的人形机器人外观展示。其底座内部集成有边缘计算设备。(C)唇部驱动系统特写,展示上唇、下唇与唇角连接器分别对应固定于相应唇部支架。柔软可替换的面皮通过磁吸连接器固定,可便捷拆卸以进行维护或个性化调整。

该研究的核心创新在于软件与算法,即变分自编码器与面部动作变换器的结合模型。

第一阶段:自我建模。机器人被置于镜前,通过随机运动电机并观察镜中自身面部形态的变化,构建初始的Facial Action Transformer (FAT)模型。这个过程类似于婴儿通过镜像认识自我,是机器人建立对自身物理结构认知的自监督学习。

机器人能实现的口型及其对应音标展示。该机器人展示了再现关键英语音标的能力,例如爆破音(/p/ 和 /b/)、双唇音(/m/)以及圆唇元音(/u/ 和 /o/)。通过独立控制上唇、下唇及嘴角,每帧图像均捕捉到其实现的典型唇部运动效果。这些数据为机器人在说话时实现正确的唇形匹配奠定了基础。

第二阶段:音视频关联学习。机器人并非直接观看海量人类视频(以避免人类与机器人面部机械结构的巨大差异),而是通过Wav2Lip技术生成的、与机器人面部结构一致的“合成视频”进行学习。这些视频的语音内容由TTS(文本转语音)和ChatGPT生成,提供了声音与“理想”唇部动作的配对数据。一个变分自编码器被用于将合成与真实的机器人面部视频帧编码到一个共享的潜在向量空间中,提取出与唇部运动最相关的关键视觉特征。 

机器人唇形同步的自监督学习框架。 (A) 数据收集阶段:机器人通过与语音相关的随机指令自主生成数据集,利用 RGB 摄像头捕捉广泛的唇部运动,以获取 3D 唇形数据。(B) 部署过程:始于来自 ChatGPT 的文本输入,文本被转换为音频,随后利用 Wav2Lip 技术合成机器人视频。利用真实机器人视频及其对应指令,训练由编码器和解码器(VAE)组成的机器人逆向变换器,以生成平滑、准确、可供真实机器人执行的电机指令。

第三阶段:实时预测与驱动。训练完成的面部动作变换器作为序列预测模型,能够接收输入的音频流,并实时输出平滑、连续的执行器(电机)控制指令。关键在于,系统不依赖对语音语义的理解,而是学习从原始声学特征到唇部肌肉运动的直接映射。

论文提供了严谨的实验数据证明其有效性:

精度优势:在均方误差(MSE)指标上,该方法在ChatGPT生成的三个测试句子上分别达到0.0140、0.0118和0.0136,显著优于所有基线方法(统计显著性P < 0.0001)。 

多语言唇语同步性能量化表现。x 轴标签下方标注的样本量 n 对应每种语言的测试句子视频帧数。结果表明,所有非英语语言的同步误差均保持在英语误差范围内,显示出稳健的跨语言泛化能力。

跨语言泛化:在法语、汉语、阿拉伯语等11种未经专门训练的语言测试中,系统均表现出优秀的唇部同步能力,证明了其学习到的是跨语言的、普适的“声音嘴型”规律。

复杂场景适应:能够处理由ChatGPT生成的连续对话场景,并适应歌曲演唱中拉长的元音和变化的节奏。


三年三登顶刊的持续探索


过去三年,胡宇航共三次登上了顶刊子刊。

2024年2月:胡宇航论文《Human-robot facial coexpression》(人机面部共同表达)登上了《科学机器人》,探索了机器人对人类表情的实时模仿与共情。

2025年2月:胡宇航论文《Teaching robots to build simulations of themselves》(教机器人构建自身的模拟模型)登上了《自然·机器学习》期刊,深入研究了机器人的自我建模能力。

2026年1月:本次封面研究,是前两阶段工作的集成与升华,将自我建模、音视频学习与实时驱动闭环打通。

胡宇航博士团队的工作,成功地将深度生成式模型与精密仿生机械相结合,在机器人最难以模仿的人类特征——自然的面部表情上取得了突破性进展。它不仅在科学上验证了通过自监督学习实现复杂运动技能泛化的可行性,更在工程上为下一代社交机器人提供了可落地的核心技术。

随着人形机器人从工厂车间和实验室,逐步走向家庭、医院、学校等人类生活空间,其“社会性”需求将急剧上升。Emo所代表的,正是机器人从“功能执行者”向“情感交互者”转型的关键一步。正如胡宇航所言:“我们交流中有大量情感信息并不在语言本身,而在面部和身体语言中。机器人正在开始触碰这条通道。” 当这条通道被彻底打通,人与机器共生的新纪元也将随之开启。