舞肌潘韫哲:灵巧手、被低估的触觉与第一性原理
发布时间:2025-09-22 10:14:32 浏览量:1
2018 年,从美国 UIUC 毕业的潘韫哲回国创业,选了一个成熟得不能再成熟的行业。
他没有选择互联网,因为不想像马斯克在自传里说的那样:「看这一代最聪明的人,都在绞尽脑汁想着怎么让人点广告。」他想做点有趣的事。打开 YouTube,映入眼帘的第一屏全是机器人视频。
看 EVA、高达、《攻壳机动队》长大,机器人早已在他的人生里留下痕迹。越看,他越想亲手尝试,做出一个让所有人都惊叹的产品。给这家要重新定义灵巧手的公司起名时,他想起了《傀儡谣》里的一句歌词:「吾起舞兮,丽人醉心。」
2023 年,真格第一次去上海见潘韫哲。厂区很空旷,四周都是汽车配件维修设施。在厂房的大桌子上,他聊起自己想做的事和对未来的设想。说着,他把袋子往桌上一扣,咣地倒出各种电机,然后一一介绍每个电机是什么、性能如何、绕线结构有何不同。
做任何事,潘韫哲总是围绕一个想要解决的问题。当写下「解」的那一刻起,其余一切都不再重要,眼前仿佛只有这一张桌子。从创业那天起,他的问题就只剩下:灵巧手到底能不能做到和人一样的能力?
触觉是一个被低估的问题,也是具身智能的「最后一公里」。有了触觉,你可以解决 100% 的问题;没有触觉,你只能解决 30%,而且完成的速度只有 30-50%。
灵巧手离人的能力差多少?做一个要花多少钱?发货慢了吗?在具身智能这个充满浪潮和泡沫的赛道里,潘韫哲很冷静。他清楚自己有一支高效团队,在正确的方向上深耕,用别人十分之一的资源做出了更好的产品。他也理解硬件的时间周期,硬件产品必须一轮轮试产,把问题一个个暴露出来。
舞肌的团队就是这样一群刨根问底、激极尽志、追求真知灼见的人。这也是潘韫哲从毕业创业以来的态度:不等成熟的时间,也不等完善的交付,而是活在每一个当下,在不断测试、进步、成熟的过程中,交出超出用户预期的答卷。
9 月 17 日,Wuji Hand 1.0 正式发布。其单手重量仅 550g,以 1:1 仿真人手形态与 20DoF(主动自由度)的灵巧手设计,重新定义了机器人精细化操作边界。
正如《攻壳》里素子说的,「人由各种部分组成,每一部分又千差万别,异于他人的面容、下意识的声调、梦醒时的手掌。」儿时的记忆、未来的命运,以及脑海中涌现的信息,所有这些孕育了潘韫哲,也诞生了舞肌。
以下文章是潘韫哲的自述。
机器人像一种黑魔法
2018 年,我从美国伊利诺伊大学(UIUC)本科毕业,专业是计算机和化学双学位。2017 年,互联网机会非常多,我最初也想过进入互联网创业,在国内外大厂实习过。但后来发现,这个行业做的事情并没有让我觉得有意思。
让我印象很深的是,当时在马斯克传记《硅谷钢铁侠》里看到一句话,「世界上最聪明的头脑们都在研究怎么让人点更多的广告」。那一刻我就觉得,互联网行业挺无聊的。
于是我开始转向硬件。但我对硬件也不了解,不知道该从哪里入手,就靠看很多 YouTube 视频自学。我从小就喜欢看和机器有关的动画,只要机器人相关的视频推到我的首页推荐,我就会忍不住点开,越看越觉得想亲手试试。于是一毕业,我就决定去做机器人。
我印象最深的一个视频是有人用舵机搭建出一个小型人形机器人骑自行车,另一个是 MIT 的 Mini Cheetah 机器狗做后空翻。当时这些视频对我来说简直就是黑魔法,特别是机器狗能后空翻这一幕立刻把我吸引住了,让我迫不及待想弄明白它究竟是怎么做到的。
MIT 的 Mini Cheetah 做后空翻(图源:The Verge)
再小一点,在 2003 年,我上小学一年级的时候,看一部动画叫《天鹰战士》,实际上就是《新世纪福音战士》第一次引进国内的译名。它尺度很大,还夹杂着不少暴力和血腥的元素,看得我常常做噩梦,但同时也彻底颠覆了我的世界观。之后到了初中,我又开始看高达和更多机甲类的动画。可以说,对机器人这个东西,我从小就充满兴趣。
后来我创立了舞肌科技。这个名字来自《攻壳机动队》,其中川井宪次创作了一首配乐《傀儡谣》(Utai),歌词里有一句「吾起舞兮,丽人醉心」(吾が舞えば、麗し女、酔ひにけり),意思是说舞动会让人沉醉。这个氛围深深打动了我。因为我们最初的目标是做高动态性能的腿足式机器人,从电机研究起步,我希望未来别人看到我们的机器人时,能产生好奇、被吸引,甚至被迷住的感觉,所以就取了这个名字。
学习的第一性原理
我觉得学习最核心的是你必须先有一个问题,一个你真的想要去解决的问题。
我在学校里上课时效率不高,因为课堂会直接把现成的解法告诉你,而不会先告诉你问题是什么。在学偏微分方程时,老师一上来就讲特征值、各种证明,但唯独不说我们到底要解决什么问题,也不解释这些东西真正的价值在哪里。
我的学习方式就是从问题出发:我得有一个明确的问题,然后去拆解它需要哪些模块、底层逻辑是什么。
如果我在某个方面欠缺,就会去找对应的教材深入学习。当我有了可行的想法,我会去看论文或者找行业里的专家交流。随着学习越来越深,我逐渐建立了一层底层理解。到了一定阶段,我甚至不用再依赖论文或专家,也能判断一个思路是否可行,它的难点和需要验证的地方在哪里。这种能力对我来说非常重要,它能让我在做产品时快速识别风险点和挑战点。
我很早在朋友圈发过一句话:如果有一台电脑和一根网线,就能学到全世界所有的知识。我一直觉得互联网最大的意义在于让信息流通,几乎所有知识都能在网上找到,这也是为什么 GPT 能够这么聪明。
学习本身并不会让我感到刺激,有时找不到答案还挺痛苦的。但学习最让人兴奋的地方,是当你从问题出发,通过学习发现这个问题到底有没有解,或者在一个从未被解决过的问题上看到了可行的路径。这一刻才让我感到满足。
疫情时,我在家待了两个月。我们这些做硬件的,如果离开了生产资料就什么都做不出来。正好那时我在反复学习一本机器人学教材。前两遍其实没太看懂,到第三、第四遍时才逐渐明白它在讲什么。它的问题在于和我刚刚说的一样:它会告诉你有一个公式、可以这么用,却不会解释我们为什么需要这个公式,它从哪来,又解决什么问题。很多推理过程像是凭空变出一个公式,再把它带进去完成证明,这让我觉得很不合理。
机器人学明明是一个看得见、摸得着的学科,所有的物理量、推理、推论本应有很强的逻辑联系。每个公式的意义、价值,它究竟从何而来、能解决什么问题,这些理应能用一条逻辑线串起来。
但在我读过的教材里,从来没有把这些讲清楚,那些物理量的直观含义也没和我们真实的物理直觉联系起来。可这些东西对做机器人控制和理解不同机器人类型非常重要。
于是我想,干脆自己把这套东西理清楚。毕竟这是一个复杂的系统和理论框架,我只有把它系统地记录下来才能捋顺,就写下了自己的教材。
潘韫哲所著教材《机器人刚体力学》讲义概述
这种思考方式也影响了我定义产品的方式。就像乔布斯说的,把点连起来。定义一个产品时,你需要把所有的点串成一条完整的逻辑线:技术的边界在哪里?硬件的瓶颈和潜力在哪里?软件能做到的极限在哪里?客户真正的需求是什么?哪些问题还没有被解决?
当所有这些点被有逻辑地串联起来,你才可能做好一个产品。学习机器人理论的过程,本质上就是把各种公式、物理量、现象串成一条完整的脉络。
创业带来的满足感也一样。第一是当你发现一个未被解决的问题,找到了一个全新的解决思路;第二是当你做出的产品符合预期、被点亮并且测试完全通过。比如我们在调试灵巧手时,它能完成一些之前所有灵巧手都做不到的动作,那种感觉真令人难忘。
具身智能最后一厘米
如果灵巧手没做好,整个具身智能的操作问题就很难说被解决。而灵巧手就是这个链条里最难、最关键的一环。
从第一性原理来看,整个行业里没有人能拍着胸脯说「灵巧手已经能达到人手的能力」。大家对这件事或多或少都有疑问。我们自己在做之前也没办法完全确定答案。但很多问题就是这样,你不去做,永远不会知道能不能解决。而灵巧手的问题足够有价值,所以我们必须去做,必须回答这个问题:灵巧手到底能不能做到和人一样的能力?
舞肌科技团队工作照
现在你看到很多具身智能公司用二指夹爪去做各种事情,一个原因是因为大家手上只有二指夹爪,另一个原因是大家只会用二指夹爪,所以在做 demo 时自然挑二指夹爪能完成的动作来展示。
但我觉得二指夹爪的能力本质上只是灵巧手功能的一个极小子集。你可以这样想:二指夹爪就像一个没有大拇指的手。当你还剩四根手指,但没有拇指,你的抓握能力就损失了大半。医学上也有一个伤残等级的划分,小指断了只算轻伤,但拇指断了就是重伤,这恰好说明拇指的重要性。
人类世界里大量的物体是棒状或带有握把的工具。对二指夹爪来说,抓握这些东西的稳定性始终存在问题,它天然存在大量物理上的限制。
第二个角度是数据。灵巧操作的核心是基于人的大量数据,而二指夹爪这种数据模态我认为是不可扩展的。它可能在一些简单场景里能快速落地,但当你要处理更复杂的场景,或者上升到更高层次的世界模型时,它就显得捉襟见肘了。
第三个角度是交互方式。比如你让二指夹爪去操作一个遥控器,这几乎不可能。有人可能会说机器人可以直接通过 API 控制遥控器,那其实又回到了传统 PLC 的思路:你用代码打通系统,这当然能行,但那和操作这个问题本身是两码事。
二指夹爪的数据采集无非三种:
1. 遥操作
2. 真人带着二指夹爪去采数据
3. 仿真(sim-to-real)
前两种方式很难大规模扩展,第三种方式的争议又很大,它到底能不能产生通用智能、能不能真正帮助机器人理解世界都还是未知的。相比之下,基于人的数据才是最靠谱的,而要迁移人的数据,就必须有一个接近人手形态的执行机构。
灵巧手正好满足这一点,同时它的迭代速度也能非常快。所以我觉得灵巧手是整个具身智能操作里最值得攻克的核心问题。
触觉是一个被低估的问题
现在市面上已经有不少公司在做灵巧手,也有的开始出货了,但操作本身没有被真正解决。只要这个问题没解决,就还有大量的机会和增长空间。
具身智能显然是当下非常火热的赛道,有泡沫,也有很优秀的同行在实践自己的产品思路。但无论行业处在什么阶段、有没有泡沫,认真想把产品做好、把核心问题解决的公司一直都非常少。
从人的功能定义出发,我觉得灵巧手有五个最重要的维度:
1. 自由度要足够接近人;
2. 尺寸和重量必须和人接近;
3. 可靠性要足够高,寿命至少一千万次,保证两三年内稳定使用;
4. 具备全掌的数据;
5. 像人一样有柔软的皮肤。
目前市面上还没有一款产品能同时满足这五点。
这也说明了触觉是一个被严重低估的问题。类比计算机视觉,之所以它能蓬勃发展,是因为有成熟的传感器,比如基于 CMOS 的 RGB 摄像头,背后有上百亿、甚至千亿美元的市场推动,传感器的性能才被打磨得非常成熟。触觉目前在这方面的投入比视觉少了 3-4 个量级不止。
但我认为触觉传感器同等重要。视觉对应人的视觉中枢,触觉对应人的触觉中枢,触觉决定了机器人和物理世界的交互。如果有一个真正优秀的触觉传感器,它的潜在市场价值应该和 CMOS 传感器在同一个量级。触觉的意义主要有几点:
第一,它能极大提升操作效率。完全依赖视觉去闭环,速度会非常慢,就好像让你用脚去做精细任务,操作效率会低很多。
第二,触觉能提升操作的安全性。没有触觉闭环时,机器人根本不知道要用多少力,结果很容易用力过猛,把物体损坏。但有了触觉闭环,基本不会出现这种情况。
第三,触觉传感器能让你大量采集多样化的数据。没有足够的数据闭环,就没办法真正用好触觉。
舞肌科技灵巧手渲染图
人的触觉模态非常复杂,不只是压力,还包括形变、温度、湿度等多种信号。到现在为止,还没有一个系统能完整采集这些模态。我们认为触觉传感器最终一定得以手套的形式存在,因为你必须从人身上去采数据。
但从第一性原理看,人类触觉是在一个立体空间内完成的,而做成手套就意味着要在一个二维的面上完成这些事,这本身难度非常大。这也是为什么触觉问题一直没有被很好地解决,同时也意味着这里存在巨大的机会。
我相信十年之后,大部分体力劳动都会被机器人取代。对物理世界的操作,大部分都会由机器人完成,而不是人去做。人类更多还是处理信息、做决策的角色。
做硬件就是在不断调试中暴露问题
我们的资金使用效率很高。在非常有限的资金下,我们自研了各种电机、减速器和控制器,深入到最底层,从工艺到制造设备都亲手搭建。我们不仅把可量产的产线建了起来,还完成了多轮试产,用别人十分之一的资源就能做出比别人更好的产品。
刚刚说的五个产品标准的灵巧手目前市面上还不存在。而我们认为舞肌是第一家能够满足这些点、并且实现量产发货的公司。
我认为硬件研发必须尊重基本的时间规律。我们非常敬佩大疆,这是我所知的公司里组织能力最强的。但即便是大疆,做同样的事情至少也要 12-18 个月。因为硬件产品就是需要一轮又一轮试产,不断暴露问题、不断收敛,才能真正成熟。
硬件问题一定存在,要么你自己测,要么交给用户去测。每一轮测试都要针对问题去迭代调整,这是硬件最基本的时间线。
正常来说,一个能量产的硬件产品,至少要经历 3–4 轮试产,多的话可能要 5–6 轮。这个周期不可能从 12 个月压缩到 6 个月。如果有人 6 个月就推出产品,那一定意味着测试轮次不足,交到用户手里的时候,它就是一个没有被充分验证的产品。而我们不希望这样。
我们希望交付给用户的东西,至少能达到他们的预期,甚至能超出他们的预期。这就是我们做产品的基本哲学。
今年我们团队扩张也很快。2024 年 10 月,我们当时一行 13 个人搬到深圳。等到第二年 3 月,人数就一路蹭蹭往上涨,现在我们有超过 100 个人在做灵巧手。
招人过程中,我也慢慢总结下来了三个最欣赏的特质:
第一是真知灼见。就是能用非常出色的逻辑思维,在复杂环境和大量变量中找到最核心、最直击要害的点,并且能真正落实。
第二是刨根问底。遇到问题时不是简单去抄已有经验,而是从底层逻辑搞清楚,尽可能收集信息,找到最本质的根因,然后再去解决。
第三是激极尽志。这个词来自大疆,我很喜欢,因为它代表一种态度:我一定要把事情做好,而且有意愿、有能力在有限资源下做到最好,甚至比别人更好。这种原动力让我很欣赏。
舞肌科技团队合影
我们公司正好聚集了一群这样的人。这样的人来到舞肌就会如鱼得水。大家有共同的使命和精神,彼此共事是一件非常享受的事情。
最后,我想对准备创业的人说:创业最好的时机就是当下。不要犹豫,也不要等什么成熟时机,直接去做。因为你永远只能在不断进步的过程中,才能遇到真正的机会。
本期音频内容同步上线真格基金播客「此话当真」,欢迎收听~
文|Cindy视频|Dylan & Xin
播客|Neya & Ruitong