科技丨可能是目前全网最全的「具身智能」共创说明书
发布时间:2025-09-12 15:48 浏览量:1
今日:具身智能说明书
AI 时代,智能机器人多了一个新名字「具身智能」。
在过去的 8 月里,各种机器人在博览会和运动会上的亮相,款式各异,各有绝活儿,展示了不同团队企业不同的和技术路线。 「具身智能」第一次如此大范围地让大众直观感受到行业的飞速发展,但更多的「问题」也值得追问。人形是最优解吗?
传统的控制理论怎么和大模型打配合?
单价和应用场景达到什么临界点能诞生消费级机器人?
有人做「大脑」、有人做「小脑」、有人做「灵巧脸」…… 他们最终会「组」出何种机器人?……
知乎发起「进击的具身智能」圆桌活动,我们讨论了一些机器人的过去、现在和未来。机器人运动会丨内行看门道
内行也要热闹
Q:机器人百米飞人决战,北京天工 21.50 秒夺冠,宇树科技获得 2、3 名,他们在技术方面有哪些优势?
答主@AI解码师: 先说结论:北京天工赢在算法和自主感知,宇树科技强在硬件和运动控制。前者更像是在证明「机器人能独立跑」,后者则在铺路「机器人能大规模跑」。
答主@逐风: 不要看见遥控就认为是玩具,暴露自己的浅薄无知。宇树实际上做的是硬件和平衡算法,相当于人的小脑。这也是为什么拳击比赛都成了宇树机器人了,一个抗击打一个自平衡目前只有宇树。把机器人做得更便宜抢占市场。让更多AI「大脑」的开发者用自己的平台。我称之为「大疆」路径,大疆只生产硬件和飞控算法,就简单吗?
答主@飞跃本屯: 这次机器人比赛,其实有五大类型,运动会只是其中之一,还有工业场景、医药场景、酒店场景、仓储场景四个比赛大类。除了纯专业人士外,都不关心的领域,那如何吸引投资,如何吸引人才储备,如何让自家员工能除去吹牛(行业自豪感这事也是很重要的吗)? 所以要让机器人行业更快发展,就必须得有人形机器人这么个天然的眼球吸引器。
灵巧「 ?」
除了灵巧手,我们能有灵巧脚底板吗
Q:关于灵巧「脸」
答主@赵昊(清华 Air 实验室助理教授)回答关于自己团队新发表的灵巧脸的相关研究解读: 以前的灵巧脸要么是绳驱(tendon driven)要么是杆驱(rigid driven),我们的 Morpheus是「混动」的,也就是大的脸部结构式 rigid driven,但是脸部的微表情是 tendon driven。我们做的第二个改变就是引入数字人的最新技术,既然数字人的精准 talking head synthesis 已经可以做到这么好了,我们为什么不做一个 embodied talking head synthesis?其实这就是这个 paper 的出发点啦。
答主@零一猴子 回答「机器人需要像人类到什么程度才能减轻恐怖谷效应」: 首先解释下什么是恐怖谷效应,或者叫恐怖谷理论。
答主@赵泠 回答「机器人的人脸如何做出毛孔、细腻的效果?你认为具身智能需要长得像人类吗」: 硅胶等材料的表层可以被加工得像人的皮肤,整体形态来自模具,颜色来自多种色素、涂料,细微的毛孔是用针戳出来的(一些工厂的生产线可以自动操作,另一些工厂是手工制作) ,毛发可以一根根植入。这类工艺可用于生产人使用的假肢的美化外套、生产外观高度拟真的人偶。
Q:关于灵巧「脚」
答主@赵泠: 类似人的足弓结构不是足部减震所必需,当前人群里有相当比例的扁平足个体,他们的脚仍能减震。人形机器人的平板脚往往以弹簧、弹性脚垫、弹性腿等减震,用控制算法补偿减震或平衡方面的表现。
答主@田鸿龙: 已经有越来越多的机器人使用足弓结构了,起码有一个被动的脚趾关节,然后由橡胶链接两部分。至于为什么之前的机器人都是平板状的,我想本质原因还是之前人形机器人控制的技术还在初级阶段,节能以及降低损耗是最近几年才开始考虑的问题。还有就是一些人形机器人厂商是从做四足机器人起家的,对人形的结构没有充分探索。
Q:关于灵巧「手」
答主@猩猩点灯: 从机器人的角度来说,每增加 1 个手指,运动学方程维度倍增(5 指需协调 15 + 关节,8 指需协调 24 + 关节);时计算需求远超当前处理器能力。MIT 最近的模块化可变指研究其实模仿了海星腕足的再生机制,而苏黎世理工的神经拟态控制则借鉴了章鱼腕足的分布式决策。这些才是未来方向,而非单纯增加手指数量。
答主@蓝柿子: 当然不一定,我自己做的三指灵巧手能完成的任务已经超越市面上所有的灵巧手了(不管是商业售卖的还是论文里的),其次人手的五指灵巧性都没有被完全发掘(普通人的手跟刘谦/郎朗的手真的是同一种手吗,我相信他们俩两根手指都吊打 90%人的五根手指)。最后想说的是,大家对灵巧手这个概念的认知还是太局限和狭隘了,建议仔细阅读A Hand-Centric Classification of Human and Robot Dexterous Manipulation。
控制理论是否过时
控制一旦成功,对一般人来说,控制就消失了
Q:控制理论过时了吗?现在开始学自动化/控制理论还有用吗?
答主@莫一林(清华大学自动化系副教授): 控制没有过时,而且永远不会过时,但是控制人才的需求会越来越小。控制的问题是控制做得太好了,以至于大家都无感了。因为控制成功了就意味着肮脏的真实系统已经被驯服,变成理想系统了,那么对大部分人来说,也不需要关心那个真实系统是怎么样了。事实上就算是开个电灯,后面也有控制系统在补偿这个事件对电力系统的冲击。
答主@王梦迪(普林斯顿大学电子与计算机工程系终身教授): 大模型的对齐和推理本质都是控制,只不过系统的输入和输出都是离散的 token sequences,并且控制策略本身就等于模型和模型的参数。
关于具身智能
从场景到 3D/4D 世界模型
Q:从自动驾驶转到具身智能难度大吗?这两个行业有哪些相通的地方及可复用的经验?
答主@叫我小苏就好啊(播客「人民公园说 AI 」主播): 它们本质上就是一回事。具身智能行业目前最大的问题,不是技术,而是场景的贫瘠。我们痴迷于让机器人长得像人,却回答不了一个最基本的问题:除了在发布会上后空翻和在实验室里端茶倒水,我们到底需要它来干什么?这个问题之所以难以回答,是因为我们还没有找到一个像「出行」一样,能够支撑起万亿级别市场的普适性刚需。相比之下,汽车从它诞生的第一天起,就不需要向任何人解释它的价值。它是一个已经被市场反复验证过的『终极机器人』形态,它解决了真实世界里最高频、最复杂的任务之一。
汽车,是被验证过的「机器人」,硬件早已过剩,瓶颈在「端侧大脑」。
Q:从机械角度来看,一个人形机器人需要至少多少个自由度才能完成基本需求?
答主@互联网科技小于哥: 要想达到「勉强像个人」的表演水平,机器人至少需要 28个自由度:双腿各 6 个(髋关节 3 + 膝关节 1 + 踝关节 2)保证能上下楼梯而不是滚下去; 双臂各 7 个(肩关节 3 + 肘关节 1 + 腕关节 3)确保端咖啡时不会把杯子捏成陶瓷粉末;腰部 3 个自由度让你能弯腰捡钥匙而不是直接扑街; 脖子 2 个自由度至少能点头摇头假装听懂人类指令。
// 工作两年-从技术到产品的思考
答主@十一(星辰智能员工): 有了遥操作之后, 这短短几个月的数据采集机器人做的抓取任务, 比我以前五六年来搞机器人做抓取的总和要多很多个数量级。以往大家只会出售机器人本体, 但是现在开始会结合着 VR 等设备出了; 以及很多场景内容的产生可以市场, 产品的同事直接上, 而不用研发去支持了(后面产品思考中会提),自己对一个从 0 到 1 的功能模块开始有了自己的概念, 进度和流程理解, 并且从单一技术点的思考逐步拓展到了也会同步考虑产品化和商业化的范畴, 当然还有对团队的思考也会有。
// 夜宵杂谈:3D/4D WorldModel
答主@matrix明仔: 3D/4D世 界模型严格意义上来说其实和现有的 V-JEPA2 的工作不是一个体系下的内容,现在的工作更注重于 3D/4D 质量和内容的发展,并不是世界模型的所看重的 predict 能力。相比于 Genie3 所生成的交互式,可编辑的概念,目前的 3D/4D 的工作会更加重视几何一致性的表达,还有场景图像质量上的问题 。