会跳舞却不会开门：类人机器人卡在哪里了？

发布时间：2026-03-14 20:21:28 浏览量：1

信息来源：量子杂志，quantamagazine

波士顿动力的Atlas能做后空翻，特斯拉的Optimus能分拣零件，但你问它们能不能可靠地爬上一段普通楼梯，答案出人意料地令人沮丧。

“不太可靠。"Agility Robotics的联合创始人Jonathan Hurst这样回答。曾长期供职于波士顿动力的Scott Kuindersma则说：“我觉得还没完全解决。"这两位是当今世界最顶尖的类人机器人研究者，他们的坦诚，道出了这个领域一个藏在光鲜演示背后的真实困境。

过去十年，类人机器人确实经历了真实的技术飞跃，而且不止一次。

第一个转折点是深度学习的崛起。运行在高速GPU上的神经网络极大提升了机器人的视觉感知能力，强化学习则让机器人不再依赖工程师手工编写每一个动作指令，而是通过在数字仿真环境中反复试错，自己学会协调身体。Atlas那段行云流水的舞蹈视频，背后就是这套机制在驱动。

第二个转折点发生在硬件层面。由麻省理工学院机器人学家金相培开创的“本体感觉电动执行器"，也称为准直接驱动执行器，用更小、更柔顺的电动机取代了笨重的液压机构。这类执行器有一个关键特性：电机电流与输出力之间存在近乎线性的关系，电机本身就能充当力传感器。这不仅降低了成本，也赋予了机器人类似动物肌腱那种吸收冲击、随机应变的能力。

第三个转折点则是大语言模型技术的溢出效应。谷歌DeepMind在2023年推出的“视觉-语言-动作"模型，让机器人能够理解自然语言指令并规划多步骤任务。你说“我渴了"，它能推断出你需要水，并自主规划找杯子、拿起来、递过去的完整流程。谷歌DeepMind机器人负责人Carolina Parada坦言，这套方法能走到今天这一步，"我们自己也感到惊讶"。

三次革命叠加，为何楼梯和门还没被“解决"？

麻省理工学院Improbable AI实验室的Pulkit Agrawal给出了一个直击要害的答案：“要让机器人像人类一样工作，我们必须掌握物理学。"他说的不是什么深奥的宇宙理论，而是高中物理的基础概念：力与惯性。

问题的核心在于，当前主流的机器人控制方式，本质上是“位置控制"，也就是让机器人从一个姿势精确移动到另一个姿势。这套方法在演示环境下效果惊艳，但它有一个致命短板：机器人感知不到力的反馈。

想象一个人类去开门。你的手感受到门把手的阻力，你的肌肉自动调整施力大小，你知道该推多重、该转多快。这一切发生在毫秒之间，完全无意识。但现在的类人机器人大多数时候感受不到这些力，它们只知道手要移动到哪个坐标，却不知道在那个坐标上应该施加多大的力。

这就解释了为什么Atlas在抓取零件时动作慢得像蜗牛，而在不需要接触任何物体、只是在地板上奔跑时却轻盈如燕。速度慢是一种变通方案，慢到一定程度，力控的缺失就不那么致命。但这不是解决问题，只是绕开了它。

Kuindersma说得很直接：“在所有有用的场景中，力作为第一等公民是绝对必要的。"Parada也承认，纯粹基于位置数据的训练，哪怕数据量达到“互联网规模"，也很可能无法跨越这道坎。“人类在拧瓶盖时能感受到阻力，"她说，“机器人现在大多数情况下还感受不到。"

关于解法，研究者们各执一词，并无共识。Agrawal在探索如何让强化学习直接在仿真中训练柔顺行为而非刚性位置移动；Tedrake押注于更大规模的行为模型和数据积累；而《现代机器人学》教材作者Frank Park则更为激进，他认为当前的视觉-语言-动作架构“根本就错了"，需要从头重建一套能让机器人从底层理解力和加速度的学习框架。

Tedrake用了一个历史比喻来描述当下的处境。他说，人类研究电学时，先有伏打把电极插进青蛙腿里，再有法拉第做出关键实验，最后才有麦克斯韦写出控制方程。“我觉得我们现在处于伏打阶段，"他说。

机器人会跳舞，但还不懂力。这不是终点，只是还没到法拉第。

会跳舞却不会开门：类人机器人卡在哪里了？

相似文章