从跳舞到拧瓶盖,具身智能不秀肌肉了,开始拼“脑子”
发布时间:2026-01-17 13:20:00 浏览量:4
2026年开年,国内科技圈炸了个大新闻,
机器人公司「自变量」突然拿到字节跳动和红杉资本10亿融资。
这钱可不是砸给会跳舞、能跑酷的花架子,而是瞄准了机器人的「大脑」物理世界基础模型,这事儿标志着,具身智能行业的竞争,已经从「练肢体」转向「拼脑子」了。
过去几年,咱们看机器人表演,无非是跳个舞、跑个酷,最多走个平衡木,
这些炫技背后,其实是在练「移动能力」(locomotion)和「导航能力」(navigation)。
但你有没有想过,
会跑会跳的机器人,能帮你拧开矿泉水瓶吗?还真不行。
去年某展会上,有个号称「最灵活」的机械臂,对着瓶盖拧了3分钟,要么滑丝要么拧不开因为它分不清「拧紧」和「没拧紧」的瓶盖在物理上有啥区别,
这就是具身智能的真正瓶颈,操作能力。
自变量这次融资,恰恰就押在了这上面,
他们创始人王潜说:“光会走不算本事,能帮人干活才是真智能。”
而干活的核心,就是让机器人拥有理解物理世界的“大脑”。
为啥物理世界这么难?举个例子,你看到桌上的杯子,大脑瞬间就知道“它是圆的、光滑的、装了水会重”,但机器人得靠摄像头拍、传感器摸,还得算重力、摩擦力。
更麻烦的是,物理世界没有“标准答案”同样是拧瓶盖,矿泉水瓶和酱油瓶的力度完全不同,这可不是语言模型能搞定的“文字游戏”。
想让机器人拥有物理世界的“大脑”,得先颠覆一个认知,具身智能不是语言模型的“下游应用”
的文字符号,可物理世界的规律(比如重力、弹性),得自己跳下水才知道。
传统机器人用的「模块化架构」,就像盲人描述油画给聋人,视觉模块看到图像,传给语言模块分析,再让规划模块出方案,最后动作模块执行每一步都在丢信息,拧瓶盖自然拧不明白。
那该咋搞?自变量给出的答案是两条路。
第一条路,端到端统一架构
,简单说,就是让机器人的「眼睛」「手」「脑子」直接联动,不搞模块拼接。
他们的WALL-A模型,能一边控制机械臂拧瓶盖,一边预测瓶子会不会滑,还能告诉你“我觉得这个瓶盖有点松”,
这就像人类抓杯子,眼睛看到、手摸到、脑子判断,一气呵成。
Google Robotics去年发的论文也证明,端到端模型的操作成功率比模块化高40%。
第二条路,通用化“通才模型”,
语言模型能写文案、做翻译,靠的是学了海量任务后「涌现」出底层逻辑。
物理模型也一样得让机器人多干活,抓鸡蛋、叠衣服、修自行车……干的活够多,才能总结出“圆的东西容易滚”“软的东西要轻拿”这些通用规律。
自变量的WALL-A已经能把一个任务的经验,用到另一个新任务上,数据需求直接降了70%,
但难就难在,物理世界没有捷径。
语言模型能靠人类几千年的文字积累,物理模型却得像婴儿学步一样,摔无数次跟头,
MIT2024年的研究发现,婴儿学会拿杯子要试错上千次,机器人也一样每一次拧瓶盖失败、每一次抓东西滑落,都是在给“大脑”攒经验。
现在国内具身智能圈有点像2015年的自动驾驶大家都在秀“能跑多快”,但真正的核心技术(物理模型)还藏在水下。
自变量这10亿融资,其实是给行业提了个醒,别再扎堆搞应用层内卷了,得往底层扎,
有个问题很关键,物理模型需要海量真实交互数据,单靠一家公司肯定搞不定。
就像语言模型有Deep Seek这样的开源社区,物理世界模型也得建共享平台谁家的机器人摔了跟头,数据拿出来大家一起学,才能加速进步。
短期看,我们可能先在家庭服务、工业装配这些场景看到突破,比如机器人能帮老人拧药瓶、给工厂拧螺丝。
但长远来说,这事儿关系到中国在通用人工智能领域的话语权毕竟,能真正理解物理世界的机器人,才是未来智能社会的“基础设施”。
最后说句掏心窝的话,机器人“大脑”的进化,可能比我们想象的慢,
就像婴儿从爬到走要一两年,具身智能从“会动”到“会思考”,也得有段“筑基期”。
但只要方向对了,慢一点又何妨?毕竟,
能拧开瓶盖的机器人,可比会跳舞的机器人,离我们的生活近多了。
各位觉得,你家最需要机器人帮你干的第一个活儿是啥?评论区聊聊!
