周志峰对话陈亦伦、唐文斌:关于具身智能的宏观共识与微观非共识

发布时间:2025-08-07 11:42  浏览量:1

持续探索通用机器人这一AGI终极目标。

本文为IPO早知道原创

作者|Stone Jin

据IPO早知道消息,由启明创投主办的2025世界人工智能大会(WAIC)“启明创投·创业与投资论坛——创业投资开启AI技术与应用共振周期”于7月28日在上海世博中心蓝厅成功举办。


在对话环节中,启明创投主管合伙人周志峰担任主持人,与它石智航创始人兼首席执行官陈亦伦,以及原力灵机联合创始人兼首席执行官、旷视科技联合创始人唐文斌围绕“具身智能的奇点时刻”展开讨论。


陈亦伦表示:“具身智能是当下AI市场最火爆的子领域,具身技术正以指数级速度进步发展,我们已经站在奇点到来的早期窗口。”他指出目前具身智能技术有四大趋势:机器人本体控制技术逐渐成熟、端到端技术正从自动驾驶领域扩展到机器人、数据不断积累即将发挥Scaling Law、高自由度灵巧手方案已经出现。同时他认为具身智能和自动驾驶在任务场景和底层技术上同宗同源,模型技术可以复用,工程能力可以迁移,自动驾驶行业的经验与认知也能帮助具身智能领域的探索与落地。最后在赛道选择上,它石智航遵循高价值、有规模、有难度的“黄金三角”逻辑,会选择用户非常在意的真实需求、存在较大市场空间且上一代机器人技术难以解决的问题,最终实现通用机器人的AGI终极目标。


唐文斌围绕具身智能领域的技术发展、创业逻辑及场景落地等话题分享了核心观点,展现了对具身智能这一新兴赛道的深刻洞察。他强调其创业的初心一直是机器人,从早前以物流机器人切入,到现在投身具身智能,最大的信心还是来自于对技术的深刻信仰,尤其是大模型、CoT和Agent能力的显著进步。唐文斌认为机器人从专用走向通用有两个必要条件,一个是对物理世界的精确感知能力,一个是对复杂任务的规划和推理能力。唐文斌指出,最终机器人能不能用得起来其实核心看两点,能用、好用是第一点,因为要真正能解决问题;第二点是它的经济模型得成立,这两点大概率还是会从后端先开始,再走向一些偏商用,最后走向民用的状态。


以下系对话精选:


具身智能技术发展的越来越快


周志峰:感谢亦伦和文斌来参加这个论坛。我还记得2015年启明创投在投优必选的时候,市场上没有太多投资人关注人形机器人、工业机器臂以外的泛机器人行业。我记得有一个机器人创始人群,很长时间内群里就几十位极客。但从两年前开始,我们统计中国出现了100多家做具身智能和通用人形机器人的企业。我们论坛讨论的AI这么多细分领域中,从创业公司的数量来讲,热度没有比具身智能领域更热的,所以今天大家肯定很关注这个对话。


请先简单各自介绍一下自己和公司?


陈亦伦:各位来宾好,我是陈亦伦,我是它石智航的创始人。在过去的十年我跟团队比较幸运的是能够参与一些比较领先的自动驾驶核心技术的开发,作为一个具身智能的子命题,我们经历了10年完整的过程,从最开始的实验室原理样机,到现在来说,我身边很多朋友也能够在日常生活中体验到我们的产品,并且它每天在改善每个人的出行体验。


在未来十年,我们希望能够打造更加通用的机器人形态,以及更加强大的物理世界的AI,能够加速这些技术更快、规模化的融入到人的生产和生活之中,我们希望具身智能技术能够成为未来十年产业升级的一个重要引擎,谢谢。


唐文斌:大家好,我是唐文斌,我创业的第一家公司是旷视科技,今天我代表的是原力灵机,原力灵机是一家比较新的公司,专注具身智能领域的研发和落地。


我们做机器人的时间已经很长了,从旷视科技成立的第一天,我就想说先给机器人安上一双眼睛,让它能够看到世界,但我们创业的初心其实一直是要做机器人。旷视科技最早从物流场景切入,第一次做了机器人的尝试。像亦伦师兄一样,我们今年看到了很多的技术变量,有可能能够从专用的机器人走向通用的机器人,我们希望能够真正用大模型、机器人的能力,为物理世界带来终极AI的形态,这是我们现在在努力做的事情。


周志峰:第一个问题,作为这个行业中的领军人物,您二位看到具身智能、人形机器人、通用机器人在过去一年有哪些大的变化、大的进展?可以和大家分享一下,对这个领域的发展更有信心了吗?


陈亦伦:我个人来说对这个领域一直非常有信心,我觉得大家可以在每年的人工智能大会上看到,过去这两年整个具身智能或者机器人的技术前进的速度已经超过了在这一两年之前累积下来所有这么多年的前进速度,这还是非常能够振奋人心的,作为从业者来说,我们自己预判之后它的发展速度会越来越快。


现在来说,在一年之前整个WAIC的各个机器人展大家都以静态展示为主,现在在机器人的全身域控制上,locomotion跟WBC上,这个领域我认为已经接近于收敛的形态了。另外一个重要的AI来说,比如说端到端这件事情,我认为可能在一两年前,大家对端到端这件事情学术界会有一个比较强烈的信心,但工业界的人还是有疑虑的,但至少端到端现在来说,在机器人的移动领域,可能在它最大的场景自动驾驶领域上已经充分产品化了,而且大家可以在日常生活中体验它的能力。在操作领域来说,其实大家在实验室级别的产品样机上已经看到巨大的飞升潜力。


第三个,我觉得非常重要的一件事情是多模态的大模型,它的整个基础能力一直在显著提升,而且不同于纯语言模态的大模型,多模态包括视觉、语言这种形式一起来说,整个数据的Scaling law还是没有见顶,还是有巨大的提升空间,这几个因素综合下来,我觉得在具身智能AI来说,这几年会处在一个越跑越快的时间。


同时我们整个的硬件技术也在高速成熟,比如说我们看到一些非常高自由度的终端形态,比如灵巧手,我们看到一些接近于量产形态的方案已经开始出现,这些飞速发展都是比较振奋人心的。


唐文斌:我觉得本质来讲,最大的信心其实是来自于大模型上CoT和Agent的能力达到了一定的临界值。我认为机器人真正走向通用有两个必要条件:


第一个是精确的对物理世界的感知能力,这其实也是旷视科技在过去很多年一直在做的事情,我们也看到不管是从小模型还是到大模型,其实整个多模态的感知能力是在不断加强的,而且现在已经可以做得非常好了;第二个是复杂的规划和推理能力。


只有这两件事情结合起来,机器人才能够走向一个通用的状态,而这件事情我们今天看到Agent的发展、CoT的发展,其实都给我们带来非常多的惊喜,所以我觉得这两点结合起来,从技术判断上,我们觉得这其实是在非常快速地朝着可行的方向发展。


宏观逐渐形成共识、微观仍显多元化


周志峰:非常好,关于技术这块刚才也提到很多,我想多聊两句。


我记得2014年、2015年投资旷视科技的时候,启明创投有自己一个投资的思考和逻辑。当时我们认为2012年ImageNet其实是深度学习的一个转折点或者是一个技术的突破点,因为那之后基本上技术开始收敛,全行业最优秀、最出色的人都向着一个大方向去奋斗,所以我们认为可以布局旷视科技这样的深度学习技术驱动的企业。


我们在2022年投资智谱AI,后来投资阶跃星辰,也是认为2020年的GPT-3是大模型技术的突破点,那之后技术相对收敛,大家都朝着共同的方向努力,肯定能够看到很好的结果。


在投资它石智航和原力灵机的时候,我们内部一直有很多争论,具身智能的技术到底有没有收敛?还是依然处于百花齐放?如果百花齐放的话,投资人的风险是很大的,今天投资的公司,有可能团队很优秀,但是三年后技术没有收敛到这家公司所在的方向上,那是不是一个很大的风险?我们聊聊,到底具身智能技术有没有收敛?以前大模型技术发展受限于数据、算力,现在具身智能这个领域,有没有一些大的瓶颈阻碍技术更快速往前走?


唐文斌:我的判断是技术并没有收敛,因为今天不管是从算法的框架上,还是从数据的来源上,还是从硬件的形态和稳定性上,以及最后场景落地的先后顺序,这些问题上现在每一个问题仍是开放问题。


目前大家普遍认为技术逐渐收敛,应该走端到端、纯数据驱动这条路线上,用类似于VLA的技术框架,这是逐渐形成的共识,并且在这个共识上,我觉得大家对于未来的技术发展也有一些共识。


比方说多模态,大家今天都会觉得光靠视觉引导很难走向智能,因为人对物理世界做操作的时候,我们不仅是通过眼睛去感知物理世界,通过触觉、力觉,看不到的东西还会通过脑袋探一探,比如说能不能学习自动驾驶,能够有多视角的,如何能够有深度的信息直接把它用在VLA里面,这一系列的多模态数据如何进到大模型里?我觉得在逐渐形成共识。


但这个模型架构长什么样子?其实现在并不知道。


我们现在其实还在探索的一些技术方向,包括今天的VLA大部分是单帧模型,所以内部经常开玩笑说,如果用VLA去驱动机器人去炒菜,让它放三勺盐,它其实放不了三勺盐,因为它放完第一勺盐以后很快就不记得自己有没有放过盐了,因为从视觉的角度来讲,放过盐和没放过盐的状态是一样的。因为这个模型现在并没有memory的机制,当然我们也可以在外部做一个规则引导的机制,但是如何让模型具备原生的记忆机制?我认为也是一个非常重要的问题。


第三个,我们内部在研究的很大问题是说,今天很多公司,比如从Figure开始,大家都在提大小脑模型,但我认为大小脑模型并不是一个终极的状态。


大小脑模型其实是人为按照频率把模型做了切分,因为大脑区在思考,小脑区做执行,它输出的频率不一样,所以我们人为切成两个模型。


但这样的人为切分是一个好的方式吗?它智能吗?其实不智能,因为人会去做一个操作的时候会说我想一想,然后再做,做完了之后这个状态发生改变了,我再想一想。所以机器人怎么才能像人一样形成一个动态的、柔性的思考和决策链?它其实可能还是基于一个模型,然后变成一种动态频率和柔性频率对模型的输出,这可能又是一个开放性的问题。


那么回答刚才的问题,我认为今天的模型框架远没有收敛,有非常多的问题等待我们解决,但正是因为这些有很多开放性的问题,我认为这件事情才让我们对未来是充满着激情和想象力的。


周志峰:印奇(编者注:千里科技董事长)说, 2011年创立旷视科技的时候是学生创业,当年提的口号叫做“先跳下悬崖,然后在坠落过程中组装飞机式的创业”。但今天的总结是,如果没有先想清楚一个完整的技术和商业闭环,这种创业可能是很难成功的。


这个问题比较挑战,您刚才说确实现在还有这么多的不确定性,技术也没有完全收敛,那您今天选择具身智能机器人创业会不会是跳下悬崖、组装飞机的过程?


唐文斌:我认为这是一个“技术信仰、价值务实”辩证统一的问题。因为当我们做这个大模型也好,或者最早做深度学习的时候也好,如果没有技术信仰的时候,没有任何一个技术可以在诞生的第一天就给你一个确定性,如果他已经有一个非常明确的确定性,那这件事情也已经结束了,没有创业公司的任何机会。


所以我认为正是这种不确定性和技术信仰才使得创业公司有机会。因此我认为从团队内部,大家真正信这件事情,对技术抱有真正的热情和信仰,极其的重要。


第二个,这个过程中不只有信仰,这个信仰的过程中要能够沿着真正的登山之路,在中间找到营地获得补给,有阶段性的商业化,能够形成成果。所以我觉得对于这个问题,我既同意也不同意,这是一个辩证统一的过程。


周志峰:请亦伦也聊聊这个话题。


陈亦伦:我基本赞成文斌的说法,但是可以从另外的角度诠释一下,我的观点是目前具身智能在宏观的层面上,或者是长线的层面上,我认为大家是取得了高度的共识。但是具体怎么做的层面上,每一家都会有自己的多元化思考,我可以分享一下为什么我觉得这件事情在宏观层面上取得高度共识是非常重要的。


之前我走过十年的自动驾驶周期,十年的自动驾驶周期来说,大家在宏观的层面上很长时间都是高度的非共识,体现在比如说对于像里头机器人的模块需要决策跟规划他是否应该用AI?是否应该跟感知分别处理?大家是否应该用地图?这件事情其实是非常非共识的,而且一直争论了很久,这些是一些宏观层面上。


现在在具身智能来说,其实大家在宏观长线上来说大家的认知是非常统一的,比如说我们都认为数据是非常重要的,我们都认为这个模型最终部署的形态大概率一定是端到端的形态,它是一个多模态的,不同的模态语言可能视觉上还有其他的传感器都占据非常重要的作用,它可能是一个模仿学习是不足够的,可能还需要强化学习,甚至需要一些世界模型的加持,对这些来说,大家有共同点。


但大家在具体实践来说,其实它的区别也很大,比如数据来说,大家对于数据的观点,有人认为我可能需要部署很多台机器人,要操作它或者很多要操作的数据,有的认为可能需要通过仿真生成很多数据,有的认为我认为真机数据更重要,应该要通过更好的方式多快好省地收集真机数据。在具体来说,比如刚才提到了VLA,我也非常同意,我认为VLA是三种模态的代表,它是代表感知V,语言L,到A的这个动作的输出,其实VLA是掐定了这个网络的任务输入跟输出,所以这个网络中间需要用什么样的架构来设计,是不是需要直接一张网络从头穿到尾?还是中间有一些隐变量层?是否是模仿学习就足够了?是否要采用强化学习?用什么样的强化学习?是否需要世界模型的加持?这些是大家不断探索的。


其实不仅是这些在算法层面上,硬件层面上也是一样的,也是在一个宏观共识、微观非共识的层面操作。


比如现在通用机器人的形态,基本上是两类,一类是它双足,一类是有轮式,代表大家在不一样的应用领域上的局部趋势,但即使对于双足机器人来说,我们也看到它有直驱关节的,也有用一些更加复杂的传动机构,能够实现这种电机跟它的传动机构更加均衡的设计,这些都会有。


但我觉得一个宏观的共识,加上微观的多元化,其实对于这个行业是比较健康的,意味着大家在一个基本确定的方向上可以迅速迭代,彼此界定自己的认知,这样会让行业繁荣走得比较快。


过去的行业认知和经验积累能高度复用


周志峰:您以前是主导了华为的智能驾驶第一代完全从零开始的技术自研体系,也塑造了今天华为智能驾驶在全球的地位,您提到了认知,有什么认知是能够在智能驾驶领域和今天具身智能领域共享的?


陈亦伦:我觉得这是特别好的问题,我也特别喜欢回答这个问题。首先自动驾驶技术跟机器人技术一开始就是同宗同源的,事实上很长一段时间内,自动驾驶的主体技术主要来源于美国两个机器人实验室,斯坦福的 Sebastian Thrun (《概率机器人》的作者)的实验室,和卡耐基梅隆的 Red Whittaker(探月机器人) 的实验室,这两个实验室通过 DARPA 挑战赛,汇聚成了 Waymo 的主体方案,一直延续到了今天。从 2018 年之后,自动驾驶技术开始大规模 AI 化,把传统的机器人算法栈从逐个模块的 AI 化,到分层端到端,到彻底的端到端 AI 化,让自动驾驶成为了具身智能首个大规模应用的商业系统。


我觉得在自动驾驶的从业经验,包括技术经验和机器人来说,我自己从这三方面理解的:


第一个,技术的直接复用,因为机器人和汽车一样,也是自动驾驶非常好的一个具身平台,本身也需要移动能力,而且它的移动能力对整个机器人的应用至关重要。考虑到现在很多大家日常能够见到的一些商用机器人系统,大家看里面的一些移动技术更多类似于家用扫地机器人的技术,我认为从这些技术直接升级到更现代的一些端到端的技术来说,从它的应用价值、技术价值都是非常重要的一件事情。


第二个,一些认知层面上的帮助,自动驾驶这么多年的整个行业非常大的投入,其实有一个学费是交出来的,大家的结果是非常重要的理念,在自动驾驶所有AI一定要被定义在时间和空间里,而不是定义在二维的图片里,这点其实非常重要。


在自动驾驶里有个有名的名词是BEV,其实本质上来说就是一个时空概念,定义在时空概念来说,有很多好处,不管任意一个模态的输入和输出,都是在时间和空间这些非常本质的物理量上对齐,天生的任务其实就对齐到具有泛化性的。


从这个角度来说,像我团队更喜欢把具身智能叫做物理世界AI,因为我觉得具身智能,刚才我们听到的有些做医药的挖掘,可能是化学或者生物世界,但具身智能天生是在一个物理世界里存在AI,处理的基本变量就是时间、空间、作用力这些,我们觉得认知可能是对整个具身智能往前能够快速推荐是非常一件事情。


另外自动驾驶是作为第一个大规模应用落地的具身智能系统,中间经历过海量数据的冲刷,所以这里面对于每种方法的能力边界,比如说模仿学习的能力边界、强化学习的能力边界,可能在里面会有一些更清晰的认知。


第三个,工程能力的直接迁移,其实现在来说我们看整个机器人的硬件系统跟自动驾驶很多硬件系统基本上是完全类似的设计,或者说一些基础软件系统,比如从芯片、底层软件到通讯中间件,基本上高度趋同,从它的传感器。以及刚才文斌提到的快慢双系统,我个人非常同意文斌的观点,快慢双系统不是终局,但是它是当下在现有芯片的纯算比较远的情况下,存在一个内存墙的情况下,一个务实的考虑,所以快慢双系统的异步部署,包括对于AI企业最重要的两件事情,一个是整个数据的管道,另外是整个训练的一些基础设施,这些东西都是高度可以复用的。


周志峰:这个问题也请文斌回答一下,您在旷视科技搭建了物流机器人的大规模落地,当时的经验对比今天研发的新一代机器人,您觉得有什么是可以转移过来的?


唐文斌:我们当年做物流机器人的时候,坦白讲更多还是在市场需求和技术可达性之间,寻求找到一个焦点。而物流行业是一个非常典型的场景,一方面能够承载和验证我们的技术,另一方面有足够的规模和明确的需求。


刚刚讲到旷视成立的时候我们就想做机器人,创业之初我们先从眼睛开始,希望未来能够有手和腿能够真正去影响物理世界。我们其实也看了很多场景,我们会发现物流的场景有几个好处,在一定程度上被标准化的,在最大的层面上,集装箱是物流史上最伟大的发明,因为它把很多东西封装了,标准化了,而在仓库里面其实变成了托盘、箱子和商品的托箱件,所以在某种程度上,它形成了一定的标准化,而这个标准化使得自动化和机器人能够变成可行。


物流其实是机器人能够发挥作用的极佳场景,它有非常大的市场需求,全球有大几千万人在仓库里干活,所以它的需求非常大,同时因为它的标准化使得技术的可达性,所以我觉得这是物流场景第一个非常吸引人的点。


其次,我们做物流机器人的过程中其实也交了很多学费,或者说也学到了很多。一个是做机器人的时候,我们发现很多流程环节都是嵌入型的流程环节,在物理空间上它其实是有前道工序和后道工序的,在这样的一个流程环节里面非常重要的一点是异常闭环。比如在数字世界里面,一个虚拟Agent或者一个App,当你发现它遇到了一个异常,可以靠重启这个App再来一次,但物理世界里面是做不了这个事情的,拿了一个货出来,这个货今天驮在机器人上面或者说机器人的手正抓着这个商品,我们的程序出故障了,这时如何恢复状态?它的异常不能通过程序员截获来解决,所以我们必须要为整个流程去设计它所有的异常闭环,当你遇到这个问题之后,如何能够处理,使得他的生产环节一定能够顺畅的,最后完整的进行下去,不能卡住,所以这件事情实际上所要花费的代价,可能比我们想象中要大得多,这是一个从POC到实际应用的巨大鸿沟,我认为这是我们在物流机器人上面学到的第一点。


大家今天看到很多机器人的构型,内部其实也在做硬件的形态。我觉得也在物流机器人上面还学到一点——快不一定是“快”,稳可能才是真的“快”。因为当这个机器人被大规模部署和进入场景之后,我们也买了很多机器人回来,但今天的可靠性,我们讲MTBF平均无故障时间可能都没有达到真正在场景中长时间使用的状态。


而在这种情况下的大规模部署,可能会导致运维灾难,技术的不成熟靠服务去补,这个服务是非常吃团队的,会吃大量的技术人员和算法工程师全部铺到现场去做一系列的运维,这件事情我们经历过一次,而且这件事情是非常可怕的事情。


最后回到机器人,落地到场景中,这些问题其实也都是需要去同样对待的,所以我也很感谢物流机器人的这一段经历。


后端的制造业场景最有希望率先规模化落地


周志峰:非常好。大家肯定很关心,WAIC这次集合了150台机器人,看似很热闹,但其实大部分停留在舞台展示的状态,从行业领军者的角度看,第一批或者第一个落地的真实场景会是什么?


陈亦伦:其实我觉得机器人很多场景都是好场景,我分享一下它石智航挑选场景的方法论,我们挑选基本上就是三句话:


1.高价值。

2.有规模。

3.有难度。


我们认为这三个是自洽的。


周志峰:高价值、有规模、有难度。


陈亦伦:高价值来说,就是用户是一个刚需,痛点明确,我们希望他存在一个更大的产品空间,这样我们才能聚合一些优秀的人一起来做事情。而有难度是基本逻辑闭环的事情,大概率高价值有规模,如果上一代机器人还能解决的话,可能这一代机器人也没有机会,我们重点也是在解决上一代机器人解决不好的这些技术难题,其实从它的应用空间来说,现在从机器人的从业者和使用方,大家对于机器人的兴趣已经从比较酷酷的炫技转向对使用价值的深度思考,我认为这是一件非常好的事情。


在每个领域能够有规模化的落地都是好领域,都能触发市场的“奇点”。


周志峰:能具体给一个落地的领域吗?可以透露吗?


陈亦伦:从我的角度来说,第一个有刚需的,而且明显能够落地的一定是制造业,因为它在里面已经存在了大量的机器人,而且它的痛点非常痛。


唐文斌:我们对场景选择上也有一些思考,我们有几个标准,我们觉得第一个是在技术发展的路线上梯度为正,这个话可能不太好理解。


第一个,今天到底要不要特别深入到一个垂直场景中去?我们自己内部认为是不要,一定要走在技术发展登山的正确路线上,今天因为技术很多东西没有收敛,如果太早的固化技术的形态,让它固化到一个场景中去,某种程度上是牺牲了泛化性,这个并不是我们想要做的事情,所以我们非常坚持用一个模型在技术发展的正向梯度上去做这个事情。


第二个,我们同时考虑技术的可达性,就像印奇说的,在跳悬崖的过程中组装飞机,有些飞机是组装得出来,有些飞机今天其实不见得能组装出来,今天具身智能用端到端纯数据的驱动的方式,一步到100%是很难的,所以我们大概率会逐渐从90%到95%、100%,所以如何寻找到一些容错率相对较高、对操作时间容忍的场景,我们认为是非常重要的。


第三个,就像亦伦师兄说的,它得是个规模大、需求强的场景,我们觉得这三点是决定了我们在选场景。


具体而言,志峰演讲的最后一个预测很对,所以我们也是觉得从工业、物流,还是会从更靠后端的这些场景,因为它更大规模、更密集、劳动力更多,所以它所产生的价值是更大的。因为最终机器人能不能用得起来其实核心看两点,能用、好用是第一点,因为要真正能解决问题;第二点是它的经济模型得成立,这两点大概率还是会从后端先开始,再走向一些偏商用,最后走向民用的状态。


周志峰:特别感谢,也期待两位在具身智能领域大展宏图!