独家圆桌对话|机器人运动与感知的未来方向与技术路线

发布时间:2025-09-26 18:18  浏览量:1

嘉宾介绍

苏智

清华大学姚班大四学生,在UC Berkely访问期间主导HITTER分层框架,已在机器人国际顶会上以共一第一身份发表两篇文章。

侯泰先

复旦大学智能机器人与先进制造创新学院博士研究生,主要研究足式机器人感知与移动学习控制,包含安全鲁棒移动,节奏控制及极限跑酷等,主要工作有FTML, MusicWalker和Re-net。

庄子文

清华大学交叉信息研究院博士研究生,深耕机器人运动智能与足式机器人学习算法,发表的Humanoid Parkour Learning解决了人形机器人长期以来缓慢行走的问题以及优化了高动态任务下的泛化性问题。

丁刚

北京大学计算机博士,师从知名学者黄铁军教授,曾任北京智源人工智能研究院研究员,现任BeingBeyond公司Humanoid方向负责人。

张小白

高擎机电创始人&CEO。

要点速览

圆桌缘起:为何聚焦“人形机器人的终极能力与落地路径”?核心议题一:人形机器人何时能超越人类

1.特技动作已超人类,感知、灵巧手操作仍存差距,需软硬件“双向奔赴”(丁刚)

2.整机制造技术达标,需平衡“普及性与成本”;灵巧手需突破灵巧度、续航、耐用性瓶颈(庄子文、丁刚)

3.清晰场景落地快,通用控制算法周期长;泛化能力依赖“数据获取与scale up”(庄子文、苏智)

4.硬件突破后2-3年或见初步落地,保守5年有进展;泛化能力落地需5-10年(丁刚、苏智、侯泰先)

核心议题二:机器人未来运动感知的方法和人运动感知的方法是趋同的还是不同的?

1.人类感知带生物进化“历史遗留特征”,机器人传感器多样;人类少样本学习靠基因,机器人需海量仿真数据(庄子文)

2.强化学习与人学习逻辑相通;机器人传感器可向“类人双RGB相机”优化;形态向人类靠拢以适配场景与数据(侯泰先、丁刚)

3.机器人或走“预训练+高效RL”路径,需突破“Pre-training模型固定化”,实现“后天习得”(苏智、张小白)

核心议题三:针对机器人在线学习运动算法及框架,各位是否有研究思考或实践尝试?

1.迭代成本高,仅能验证简单场景;平衡类任务“摔不起”,硬件易损且sample efficiency要求高(庄子文、丁刚)

2.早期为“先真机后仿真”,因引擎并行化与工具普及兴起,核心方法仍实用;需“foundation model+真机微调”(侯泰先、丁刚)

3.需构建foundational control model降成本;Online RL需foundation model提效率,路线未收敛(庄子文、苏智)

4.量产后或重回“真机在线学习”以适配个性化需求(侯泰先)

核心议题四:各位在人形机器人感知能力领域是否有相关探索与研究?

1.感知-决策-控制需分层,复杂场景因决策不足而表现差,简单场景感知直接供参(庄子文)

2.简单场景感知靠系统协同,复杂场景需优化感知性能(庄子文)

3.SLAM模型大、算力高,难适配边端;传统SLAM动态场景适配差(侯泰先、张小白)

4.“VLM+控制”迁移底层运动;借鉴生物逻辑“局部关键信息捕捉”;分层网络处理导航决策(丁刚、庄子文、张小白)

核心议题五:有无可能开发适合同类形态机器人、可直接部署的跨本体通用运动算法?

1.“大脑可跨,小脑不可跨”,通用大脑+专属控制实现变相跨本体(丁刚)

2.训练框架可跨人形机器人,四足与双足跨本体难;前提为“体型相似”(庄子文、张小白)

3.“预画轨迹+反向IK”适配机器狗但轨迹不自由;机器人 “Teacher-蒸馏”实现跨形态,需微调;跨形态或牺牲性能(侯泰先、苏智)

4.本体扩展属于跨本体,“共享下层+上层分支”架构适配不同形态(苏智、侯泰先)

圆桌缘起:为何聚焦“人形机器人的终极能力与落地路径”?

“我们相信人形机器人未来会达到甚至超越人的能力,最终走进千家万户,为人类服务。” 圆桌发起人张小白的这句话,道出了本场讨论的核心初心。

在走访一线科研机构的过程中,张小白发现,学界对于 “机器人如何突破关键能力”“何时能超越人类” 等核心问题的观点差异显著——有人担忧硬件迭代速度,有人担忧算法瓶颈,有人聚焦感知-运动闭环,也有人关注数据与大模型的结合。而以往的学术会议多聚焦具体技术细节,鲜少有人将 “宏观趋势” 与 “深度技术问题” 结合讨论。

于是,这场汇聚四位一线科研者的圆桌应运而生。会议前夕,推特上陆续曝光的新研究,通用运动跟踪、泛化感知算法等,都在印证人形机器人领域 “比预期更快” 的进步速度。张小白首先抛出了第一个核心问题:人形机器人何时能超越人类能力?

核心议题一:人形机器人何时能超越人类?

四位嘉宾一致认为,“超越人类” 不能一概而论,需按能力维度拆解;而时间线的判断,也围绕 “硬件迭代”“算法突破”“数据积累” 三大核心变量展开。

丁刚:硬件是基础,软件需 “双向奔赴”

我先抛砖引玉,关于这个问题,可以从不同维度来看。若单论特技动作,当前机器人已能轻松完成后空翻这类人类难以实现的动作,这体现了其性能优势;但从大脑感知能力、灵巧手操作能力来看,目前的技术水平仍有较大差距。

以灵巧手为例,要实现“想抓什么就抓什么”的灵活操作,当前还受限于两方面:一是硬件本身的性能,二是大脑VLA的支撑能力,这意味着该领域仍有很长的路要走,且需要软硬件“双向奔赴”。

硬件端,灵巧手的研发需要突破关键瓶颈——能否达到人类手部的灵巧度?能否保证长时间续航?能否兼顾耐用性(比如完成砸核桃这类动作而不损坏)?这些都是硬件厂商需要解决的核心问题。

软件端,硬件性能达标后,才能获取更丰富的实操数据,进而支撑VLA技术达到理想效果。因此,软硬件的发展是相互依存、共同推进的过程。

至于具体时间,由于我主要深耕算法领域,对硬件层面的迭代节奏和技术节点缺乏足够预判,暂时难以精准评估。但可以推测,若硬件能实现突破性进展,相关技术成果或许能在2-3年内看到初步落地,保守估计5年内也能有明确进展。

庄子文:场景决定速度, “清晰任务”比“泛化能力”更快落地

正如之前提到的,核心在于要先拆解“人的水平”这一概念——毕竟很多经过专门训练的动作,普通人本身也难以完成,评价机器人是否达到“人级水平”,需要结合具体维度来看。

首先看硬件层面的整机制造与机械性能,目前现有技术其实已完全能满足需求。真正的挑战不在于技术实现,而在于硬件厂商需要平衡“普及性”与“成本”:既要让全球开发者都能用得上,也要控制成本让大家买得起,这中间必然需要做各类取舍。

再说说灵巧手相关技术。由于灵巧手技术本身还比较新,且需要适配多样化的软件系统和应用场景,当前阶段,与灵巧手绑定的具体应用方向还不太好明确,仍需进一步探索和落地验证。

最后看偏软件的算法层面。如果是面向人形机器人的通用控制算法,后续还需融合感知、智能等核心能力,这类技术要达到成熟状态,我认为周期会相对较长。

但如果是针对定义清晰的具体场景,比如在会场布置桌椅、在宾馆做基础保洁这类需求明确、边界清晰的任务,机器人要落地应用,速度会相对快很多。

侯泰先:基础科学已验证上限,硬件与感知是关键缺口

前面两位也提到,场景是关键因素。其实不只是机器人领域,在数学等基础科学领域,我们也能看到不少AI超越人类的案例。由此可见,机器人的能力上限必然是清晰可见的。

不过具体需要多长时间达到这一上限,还是要结合具体任务来看。比如人类希望机器人完成的跑酷,或是之前提到的居家摆桌子、担任家庭保姆这类场景,目前在两个核心环节仍存在明显差距:一是底层硬件,尤其是灵巧手的性能;二是对场景的感知能力。

我认为,只有当这两方面的差距被有效弥补后,机器人才有望在这类任务上超越人类。但在时间预期上,我可能相对谨慎,并不认为这是两三年内就能实现的目标。

苏智:人形泛化应用已近目标,数据获取与 scale up 是核心瓶颈

我认同前面三位的核心观点,我也认为,要让人形机器人实现高度泛化的能力 —— 比如在家中完成装灯泡、整理床铺,周末陪人打球,或是在工厂里承担各类作业 —— 目前距离这一目标已经比较接近了。

尤其值得一提的是,其他领域的技术经验能为我们提供重要参考,比如 NLP领域的 Scaling Law,当前阶段的核心挑战,更多集中在 “数据” 层面:一方面是如何获取足量且高质量的训练数据,另一方面是如何实现这些数据的scale up,为泛化能力的提升提供支撑。

至于具体时间,我个人判断,要让人形机器人真正具备上述泛化能力,大概需要 5 到 10 年,这个周期不会特别短,但也不会过长。

张小白(主持人):十年周期不算长,大模型驱动下技术发展超预期

关于这个问题,我认为观点上有差异,但整体判断比较一致——十年时间不算长。我和大家的观点相近,对人形机器人的发展始终持乐观态度。尤其是大模型领域,近几年的发展速度完全超出预期。当然,我也清楚大模型并不等同于通用智能,但不可否认的是,当前技术迭代的节奏、行业资源的投入力度,以及科研人才的成长速度与研究推进效率,都远远超出了我们之前的想象,这为机器人领域的突破奠定了很好的基础。

核心议题二:机器人未来运动感知的方法和人运动感知的方法是趋同的还是不同的?

庄子文:“不同”的核心——生物与技术的底层逻辑差异

我主要想从“人与机器人的底层逻辑差异”来谈——人作为生物进化的产物,其实带有不少“历史遗留特征”。比如人类的眼睛,受进化路径影响,视角范围不像被捕食者那样宽广;但机器人的感知系统完全不同,依托现有技术,它能搭载五花八门、功能各异的传感器。

这种差异直接体现在两个关键环节:一方面,无论是后续将技术部署到实体机器人,还是前期收集训练数据,机器人所需的数据来源类型、对应匹配的传感器种类都会非常多样;另一方面,人与机器人获取知识、掌握技能的逻辑本就截然不同——就像现在主流的强化学习,往往需要让机器人在模拟器里进行大量、长时间的训练;可人类哪怕是婴儿学会走路,也根本不需要如此庞大的数据量就能掌握。

侯泰先:强化学习与人学习逻辑相似,机器人传感器可向“类人”方向优化

对于同一技术,不同人可能有不同视角,比如强化学习,我认为它与人的学习逻辑其实很相似——我们在Isaac Lab里搭建数千个并行学习环境,让机器人在其中训练,这和婴儿通过摸爬滚打掌握基础技能的过程是相通的。

之前庄博士提到了传感器的差异,这点确实存在:人类靠双眼(相当于两个RGB视角)感知世界,而机器人多依赖Real Sense。但这并非固定模式——机器人的传感器选择本就多样,我们既可以让它采用类人的双RGB相机方案,也可以采用不像人的方案。

不过从大趋势来看,我认为行业更倾向于让机器人向“类人”方向发展。即便现在还需要激光雷达等设备辅助感知,但长远来看,我认为最优雅的解决方案或许还是和人类一样。

苏智:婴儿靠基因编码+少样本学习,机器人或走“预训练+高效RL”路径

刚才子文提到机器人在仿真环境中强化学习对样本需求的问题,其实婴儿学习时样本量少,核心差异在于婴儿基因中自带大量已编码的信息——这些信息会在成长过程中逐渐解码,再结合少量真实世界的少样本强化学习,就能快速掌握技能,这是婴儿学习的关键逻辑。

所以我认为机器人领域未来的发展或许也会遵循类似路径:先通过大量预训练任务积累基础能力,而在实际部署后,面对未接触过的新任务时,依托优质的强化学习算法(既包括高效的预训练算法,也涵盖真机端的强化学习算法),用极少的数据就能实现泛化任务的落地。

丁刚:人形机器人价值在适配人类场景与数据,互联网数据为其“大脑”奠基

我刚入行时,曾代表智源采购傅立叶机器人。当时我问傅立叶的硬件负责人:“人形机器人的核心价值是什么?”他给出了两点关键答案:

第一,当前社会的桌椅等多数设施本就是为人类设计的,人形机器人因形态与人类一致,能更好地适配现有世界的环境与设备。第二,数据层面,互联网上存在海量以人为样本的数据集,这些数据正是构建机器人“大脑”的基础。若想让人形机器人具备智能,必然要依托大模型、图像大模型或多模态大模型技术,而这类技术的发展离不开充足的数据支撑。

因此,既然机器人的应用场景、数据来源都与人类高度相关,那么让它在形态等关键维度向人类靠拢,才是更合理的方向。这一点也是我们公司“智在无界”的核心发力点——我们正通过互联网海量数据开展训练,用数据构建人形机器人的“大脑”,助力其实现更通用的任务落地。

张小白(主持人):“先天预装+后天学习”,机器人预装模型后需突破“后天习得”能力

感谢各位的分享,刚才大家都提出了很有价值的思考,甚至不乏深度见解。比如有观点类比人类DNA基因,提到小孩天生携带先天信息,再通过后天学习掌握技能,我认为这个逻辑是完全成立的。

放到机器人领域,未来确实可以遵循类似路径——我们现在也已经在机器人中预装模型,为其奠定基础能力。但目前存在一个关键问题:机器人当前的状态是“预装了什么,就只能具备什么能力”,缺乏后续自主拓展的空间。

而人类的优势在于后天学习能力:从吃饭、写字到各类运动技能,都能在成长过程中逐步掌握。如何让机器人在预装模型的基础上,像人类一样具备后天学习新技能的能力,或许是接下来需要突破的核心方向。

核心议题三:针对机器人在线学习运动算法及框架,各位是否有研究思考或实践尝试?

既然机器人需要“后天优化”,张小白进一步追问:是否需要研发“在线学习的运动算法(即机器人在真实环境中实时学习新动作)?“当前的难点与路径是什么?

庄子文:暂未开展在线学习运动算法研究,真机验证迭代成本高

目前我暂未开展机器人在线学习运动算法的相关工作,核心原因可从科研验证的关键需求——“快速迭代”角度来分析:

前两年伯克利等机构虽有不少真机强化学习的研究成果,但这类工作存在明显局限:其能验证的任务多为简单场景,比如机器人行走相关任务,即便拓展也仅覆盖“复杂地形行走”(如草地、40度斜坡环境),难以触及更复杂的场景验证——例如在丛林等动态环境中,融合视觉感知开展实时强化学习训练。

所以我认为这类场景难以推进的核心问题,在于真机验证的迭代成本过高,无法快速完成一轮“想法-验证-优化”的闭环。神经网络需“from scratch”训练,资金能解决的问题往往具有可预期性,但时间成本是关键瓶颈——神经网络需要持续训练才能达到基础能力阈值,这一过程难以快速缩短。

不过行业内普遍认为,若人形机器人能先构建起类似 tracking model这样的foundational control model ,情况将明显改善:有了这一基础能力支撑,后续再开展Real World RL时,无需再从底层能力开始训练,进而大幅降低整体迭代成本。

侯泰先:RL机器人研究路径曾“倒置”,未来或因量产需求重回该路径

早期开展RL研究时,物理仿真技术尚未达到高水准,因此当时的研究是直接在真机上推进的,形成了“先真机、后仿真”的“倒置”路径——并非后来大众误以为的“先仿真、后真机”。

ETH是强化学习机器人研究的重要阵地,其在物理引擎的并行化技术上表现突出(如Raisim);加之Isaac Lab、Isaac Gym等工具逐渐开放给所有开发者使用,推动仿真技术快速普及,这才让后续研究者形成了“仿真先兴起”的认知。

在我看来,RL的核心方法并未改变,依然具备实用性,目前仍有相关论文在对其持续优化调整。研究界普遍追求“zero-shot”、“不微调”,更多是研究品味的选择,而非技术层面存在难以突破的难点。

若未来机器人实现量产并进入千家万户,出于对产品交互性能、用户个性化需求的考量,研究或将重新回归“真机在线学习”的路径。这一路径并非不可选,只是当前研究处于特定阶段的阶段性选择而已。

丁刚:Foundation Model降低成本,平衡类任务“摔不起”,需强基础模型支撑

我非常认同侯博士的观点,仿真技术之所以在机器人领域兴起,核心是大家发现仅依靠真机推进研究存在局限,才转而探索仿真环境中的强化学习,但这并不意味着真机失去了意义。

以我们当前正在推进的灵巧手研究为例,实践中仍需依赖“预训练+真机微调”的路径:首先在大规模互联网数据上训练出名为“BeingH0”的强大foundation model(BeingBeyond新工作),感兴趣的同行可以关注这一成果;有了该基础模型打底,灵巧手已能具备较好的基础能力,后续仅需结合少量真机数据进行微调,往往一小时内,或用极少原始数据,就能完成任务。

不过,在需要维持平衡的机器人任务中,真机研究的局限会更突出,甚至可以说“摔不起”。比如若要让机器人学习侧手翻这类高难度平衡动作,真机训练中一旦失误摔倒,就可能造成硬件损坏;再加上强化学习对sample efficiency要求极高,往往需要数千甚至数百万条原始数据,这在平衡类任务的真机训练中几乎难以实现。

因此我认为,针对平衡类任务,绝无可能从scratch开始研发,必须先构建一个具备一定基础能力的强大foundation model,在此前提下通过微调进一步提升其性能,这才是更可行的技术路径。

苏智:罗剑岚团队Online RL工作显局限,需Foundation Model提效率,学术路线尚未收敛

在Online RL领域,我认为近期较具代表性的成果是罗剑岚老师团队开展的两项研究。不过他们的工作场景相对简单,未涉及人形机器人,主要聚焦于操作类任务,技术上融合了Offline RL 与Online RL。即便如此,其Online RL环节仍存在明显局限——哪怕是“拿取并放置物体”这类基础动作,也需要数十分钟的训练时间,而人类学习同类动作仅需一两分钟即可掌握。

要解决这一效率差距,我认为关键在于引入foundation model,借助基础模型的预训练能力,Online RL的sample efficiency问题能得到显著改善,大幅缩短训练周期。但当前学术界仍面临挑战,关于如何通过Online RL调优此类foundation model的整体技术路线,尚未收敛。

张小白(主持人):期待机器人落地家用,呼吁关注感知能力突破

从我的角度出发,我非常期待机器人“具备自主学习与适应能力”的目标真正落地,一旦实现,机器人进入家庭后才能发挥更多实际价值。

接下来我们聚焦下一个问题:此前讨论更多的是机器人的general能力,现在我们进一步深入到Perception能力这一细分领域。刚才庄博士在跑酷相关论文分享中提到,通过深度图实现机器人跑酷,这种方式与人类的感知逻辑有相似之处;但在现有的人形机器人多数使用场景中,情况并非如此——比如机器人参加运动会时,多数仍依赖遥控操作,少见通过自主感知完成动作的案例;此前有人提及的机器人踢足球场景,也因缺乏高效自主感知,表现效果欠佳、显得“不够聪明”,这正是当前的现实情况。

而感知能力恰恰是机器人商用化、民用化的关键瓶颈:要让机器人走进商业场景或普通家庭,它必须具备“眼睛”的功能——能够自主感知世界、识别问题、解决问题,甚至感知自身状态、理解自身行为。

核心议题四:各位在人形机器人感知能力领域是否有相关探索与研究?

张小白观察到一个现实问题:当前人形机器人在运动会等场景中多依赖遥控,自主感知能力薄弱——要实现商用化,机器人的感知能力到底够不够?核心瓶颈在哪?

庄子文:感知是模块,需与决策、控制分层看待

关于机器人感知能力的讨论,我认为可以先补充一个关键视角:其实“感知到控制”的链路中,还存在“决策” 这一核心环节,整个过程应拆解为“感知-决策-控制”三个层次,而非直接从感知衔接控制。

结合你之前提到的机器人运动会、踢足球等例子来看,这些场景中机器人表现欠佳,核心问题其实不在感知或控制,而在于决策系统的复杂度不足。但感知并非必须经过决策才能作用于控制——以我团队的两篇跑酷相关论文为例,这类场景下机器人基本不需要复杂决策,因为决策目标已提前明确,感知的作用仅为实时捕捉环境信息,进而判断下一步“腿部该抬高还是抬远、动作该加快还是减慢”,直接为控制环节提供参数支持。

你提到的运动会、踢足球等场景之所以显得“困难”,本质是问题本身的复杂度显著提升,对于这类locomotion或motion tracking任务,目标清晰,可直接定义为明确的数学问题。但踢足球需要判断“传球给谁、何时射门”,机器人马拉松涉及“如何规划赛道路线、应对突发地形变化”,这类navigation问题,依赖于对动态场景、多目标关系的理解,需要更复杂的决策系统来处理变量。

张小白(主持人):

您认为感知这一部分完全够用了吗?

庄子文:感知需系统协同,性能适配任务复杂度

机器人感知取决于整个系统的综合调试或者综合发展,其对于机器人学来说,把感知系统单独剥离开,它就是一个根据原始传感器信息,拿到环境状态的这一套流程。

结合本人此前开展的跑酷相关研究,感知模块是机器人整个系统的一个模块。在跑酷这类任务场景下,即便感知模块未达到最优性能水平,但通过与系统其他环节的协同适配,仍可满足整体运行需求。但当任务复杂度提升时,对感知模块的要求会相应提高,核心取决于具体任务的复杂度与实际需求,需按需进行适配与优化。

侯泰先:跑酷场景中policy的隐含决策能力

顺着之前的讨论,我想进一步探讨一个问题:在跑酷这类场景中,机器人的policy是否已隐含部分决策能力?以机器狗跨越箱子的任务为例,当两个箱子间距为60厘米时,机器狗会直接通过视觉感知判断距离,依托GRU处理环境信息后,选择“直接跳跃”的动作策略;但当间距调整为70厘米时,我观察到一个关键现象——机器狗的底层policy选择从第一个箱子下到台阶、后脚落地、再将前脚搭到第二个箱子上。这有点像端到端的问题,机器人的policy或许已将部分决策能力内置到控制里了。

庄子文:控制与决策的界定依据

关于“机器人动作到底属于控制还是决策”的界定,我觉得有一点是问题复杂度的不同。在原来的导航类机器人研究中,足式机器人的腿部执行也需要planning,但这类planning对于普遍认知来讲,不属于决策;但是对移动机器人,它基于预建地图进行导航规划,同样也是planning,但是它看起来就更像决策。所以我举这个例子是想侧面解释——任务难度不一样,导致神经网络需要解决的问题也不一样。

再类比自然语言处理,早期有不少工作在尝试拆解语法树,如果使用规模较小的神经网络,它也能适配“拆语法树”“词到词翻译”的任务。但随着神经网络规模扩大,有点像scaling law,问题变得越来越复杂,看起来就更像是在解决“决策类”问题。

侯泰先:地形复杂度提升下的planning思路

我接着planning的话题继续聊一下,我发现一个有意思的现象,随着机器人面临的地形复杂度不断提升,不少研究工作开始倾向于“明确规划足端落脚点”——这种思路其实和早期机器人运动训练的方式有些相似,某种程度上算是一种“返璞归真”。

包括跟您同期发表的那篇关于Extreme Parkour的论文,就采用了类似的逻辑,它会先预测出机器人下一个瞬间的目标运动方向,然后将这个预测出的方向信息作为observation输入到系统中,再结合环境感知信息进行后续的动作规划与控制。

庄子文:足式机器人planning的过拟合问题

在足式机器人控制系统中,针对一些简单的planning,其实可以直接通过神经网络来学习。以之前提到的Parkour研究中“机器人来回跳”为例,这类场景存在一定的“过拟合(overfit)”特征——它无法应对“往左跳后再持续往左跳”等超出训练范围的情况,未具备充分的泛化能力。而这种“过拟合”的特性,恰恰使得模型在特定场景下容易呈现出“决策”的表象,但也的确解决的是决策的问题。

侯泰先:回归感知问题,分析 SLAM 技术落地痛点

我们的讨论有点偏离了最初的“感知问题”,现在还是回到这一关键领域。近期我也在关注SLAM相关技术,发现当前SLAM领域发展出来的模型规模太大了,难以快速落地。其对算力的要求极高,即便通过TensorRT进行加速,要在NX上运行也无法实现,除了SLAM模型,我们还会选择激光点云相关算法作为感知输入。

张小白(主持人):感知-决策解决方案的现状

就像庄子文博士分享的跑酷研究,机器人在高动态运动场景中,依托本体感知仍能有效捕捉环境信息、调整动作,这说明这类感知技术路线是走得通的。但问题的核心在于决策变得复杂时,现有方法无法适应,那就转向决策问题了。目前学界有些采用分层网络架构去解决,在感知层之上叠加VLM或VLN模块处理导航、推理决策的需求

刚侯博士提到当前的SLAM技术好像并不太适用这种边端的小算力的机器人平台。比如新型神经网络GP3R。另一方面,传统SLAM依赖测距与里程计,面对复杂动态场景适配性不足,更多的是一种功能场景的使用。那我们是不是可以认为现在还没有真正找到一条特别高效率的,适合边端的,在移动机器人上使用的感知+决策的解决方案?

丁刚:认同VLM+控制算法的泛化潜力

现在难以判断哪条路径能最终落地,但从泛化角度而言,我认同小白提到的“VLM+控制算法”的思路——这种组合模式或许具备更强的泛化潜力。

具体来说,借助大模型对场景的理解与泛化能力,可将其“迁移”到机器人的底层运动能力中,比如跑酷、各类locomotion任务等。在仿真环境中,很难对所有复杂真实场景进行建模,若想将所有场景信息都“编码”到单一模型中,不仅不现实,还可能需要构建规模极大的模型;而大模型凭借对场景的通用理解能力,通过海量标注及采集机器人数据,有望训出强导航理解能力的模型。但确实很难,模型还未收敛,但这条路具备泛化潜力,仍是可行方向。

张小白(主持人):提出两类感知-决策技术路径

我觉得其中一条路就是通过“大算力+大数据”训练大模型以实现VLM。但应该还有另一条路,自然界中,不少动物、昆虫无需复杂机制就能完成感知决策以生存,这说明存在更简洁的实现方式。特别是我看到子文团队的跑酷研究,仅用小型端到端模型就实现机器人稳定跑酷,其模式与生物依靠简单机制应对环境的逻辑有点相似。

庄子文:SLAM 技术的真机部署思路

关于SLAM技术,我想补充一个观点。SLAM对于当前机器人研发阶段而言,无疑具有重要作用,但当机器人真正进入真机部署阶段时,可能并不需要这么用了。

就像你之前提到的昆虫,它们具备回家的能力,人类在locomotion时也是如此,我们只关注了局部精细的环境,不会去刻意关注比如说,门之外三米处某一点毫米级精度的障碍物位置。

所以真机部署时,机器人的环境感知和状态建模系统不再追求对整个场景的地图进行“全细节建模”,而是将核心精力放在“局部关键信息的精准捕捉”上。

核心议题五:有无可能开发适合同类形态机器人、可直接部署的跨本体通用运动算法?

丁刚:提出“大脑可跨、小脑不可跨”

这个话题非常我感兴趣,因为跨本体这个topic研究院和高校做得比较多。在智源的时候,智源所有的具身部门做的一件事情就是跨本体。我对这方面的看法是——大脑可以跨本体,但是小脑不能跨本体。

举个简单例子,如果你魂穿到另一个体型跟你不太相近的身体上,我相信知识能带过去。如果你觉得能立马控制他的身体走路的话,那说明你相信可以跨本体,但是如果你觉得你要花一段时间适应的话,那么结论就是不能跨本体。

所以,我们当时的技术路线主要是有一个General的大脑,对于不同的本体,我们会分别有不同的控制算法。只要能把知识通过大脑发过去,就相当于能够变相做到跨本体的能力,这是我的观点。

庄子文: 补充跨本体的训练框架适配条件

我其实也同意这个观点的。大脑肯定可以跨本体,关于小脑的话,训出来的那套神经网络没法跨本体,但是这套训练框架是可以跨本体的。如果大家都是人形机器人的话,哪怕是以前的传统运控中非常先进的一些东西,这套系统就是能够跨本体的。当然,如果说要跨到四足机器人上,那可能就不太行了。

张小白(主持人):

所以前提是体型相似,从同一套训练框架的角度上说,肯定能跨本体。

侯泰先: 分享跨本体研究的观察与局限

这方面我之前确实看的比较多,我们讲小脑跨本体,一个比较有意思的工作是Manyquadruped,那篇文章实际上是把整个轨迹预先画上来了,然后通过反向IK就能够适应到新的机器狗上。这是一种办法,不过局限性也比较明显,相当于轨迹就不这么自由了,就需要一板一眼地去走,不能像跑酷一样随机应变。

所以虽然能够获得跨本体的能力,那也相对的要牺牲掉一些东西,这是跨本体的狗。关于四足和双足的跨本体,之前有关注到一个项目,大概是先从一个人encode到一个狗上,再把狗decode到另一个人身上。结论是大概率能做,但是必然要牺牲掉很多东西。

所以,我觉得是能做,但是你要想得到这种性能的话,是得不偿失的,必然要牺牲掉很多东西。所以不如让机器人在几千个仿真环境里训练,几分钟就能训好的东西,就不用把结构设计的这么复杂了。或者,用很大的transformer也可以获得跨本体的方法,但是总体来说技术路线看上去不是特别优雅

苏智:介绍跨本体的技术可行性研究

这个点上我有关注到Hao Su老师研究组今年CoRL有一个paper是跨本体的,他们当时的做法是在不同形态的机器人上(包括四足、六足和人形),不同机器人的膝盖、关节、身体的各个部分有不同的参数,会在每种机器人上先train一个teacher,然后再全部distill出一个非常庞大的network,最后实现跨本体。

我们先不谈论是否必要的这个问题,在技术路线上这件事情是有可能的。包括刚刚举的魂穿的例子,这里有一点不太恰当的地方。因为你对于你自己的小脑,在你身上over fit,训练的整个过程也只有在你自己身体上train过的。但是,如果是一个比较general的controller,你可以把它放到不同的身体上进行微调,最后实现跨本体的控制。不过这是先抛开了必要性,先讨论了在技术路线层面是有可能实现的。

张小白(主持人):延展跨本体至本体扩展场景

我们把这个问题再延展一下,这种“跨本体”,也可以认为是本体的一种扩展,比如穿不一样的鞋,或者拿不一样的工具去扩展自己的手,那这样是否也可以认为是跨本体或者拓展本体,用新的本体去学习新的任务呢?

苏智:以膝盖受伤为例,强调跨本体适应的重要性

这个点很好,我之前有想过,比如说人的膝盖突然受伤,那其实也是一个跨本体,因为你的膝盖的参数会不太一样,但是人只需要少量的时间去进行适应,我觉得这个适应的部分是一个比较重要的地方。

侯泰先:分享 multi-scale 架构在跨本体的应用思路

你一下子说到我第一篇工作上了,这其实就是一个multi-scale的问题,早期是这么设计的:先训一个分层的网络,上层是公用的,下层是分离的,对应不同情况,比如腿没断、怎么断的这些,然后用MLP把上下层网络连起来,拼成一个大网络,要做哪个任务就调用对应的“小头”来输出,通过这个方式来进行多技能的学习。

我觉得这套思路也能用到跨本体上,就像之前说的Transformer,人形机器人自由度很多,四足机器人自由度较少,它们的观测数据不一样,总不能直接补零凑数吧?这时候就可以用“共享下层+上层分支”的架构,可以搞个大模型,把多个“小脑”装进去,最后就能控制不同形态的机器人了。

圆桌总结

本次圆桌围绕“人形机器人运动与感知的未来方向与技术路线”,五位列席者从技术、场景到路径展开深度探讨。既有对硬件迭代、算法突破等核心技术的细节拆解,也有对简单场景落地、泛化能力突破等实际应用节奏的预判,更厘清了感知-决策协同、跨本体适配等关键领域的行业共识与待解难题,供各位业内外人士参考。

在未来,高擎机电将举办更多学术与开发者的交流活动,在提供稳定硬件的基础之上,我们还将建设良好学术和开发交流的生态平台。有意向合作及交流的学者、开发者请联系微信:dionysuslearning。

关于高擎机电

通过先进的技术和产品

为机器人行业创造新的可能