智元机器人如何跨越“莫拉维克鸿沟”?

发布时间:2025-09-05 15:32  浏览量:1

作者|高飞

谈具身智能,可以从一个我们都习以为常的现象说起。

在过去的几年里,我们手机里的AI,聪明得简直让人害怕。你给它一段话,它能给你写出莎士比亚风格的十四行诗;你让它分析财报,它能瞬间标出所有的风险点。在那个由0和1构成的、零摩擦的数字世界里,它们仿佛无所不能。很多人在问,通用人工智能(AGI)是否已经近在咫尺了。

然后,你开始试想让这个“超级大脑”去做一件最简单的事,比如拧开一个矿泉水瓶盖,或者把桌上散乱的乐高积木搭起来。

这时候,事情就变得不同了。在赛博空间呼风唤雨的智能体,对此并无能为力。

这就像你发现一个能心算微积分的天才,并不会系鞋带。

这个现象其实早有个名字,叫“莫拉维克悖论”。早在1980年代,机器人学家莫拉维克就发现了:让计算机下棋容易,让它走路却难如登天。这揭示了一个我们长期忽视的真相:我们人类那些习以为常的“手感”、“分寸”,这些被中科院吕本富教授称为“默会知识”的东西,才是智能最核心的部分。

但需求往往是创新之母。

如果说过去几年的AI浪潮,只是在“信息”层面打转,那么现在,我们正站在一个新时代的门槛上,即“行动”的时代,这就是具身智能(Embodied AI)。它要解决的,就是让AI从屏幕后面走出来,真正地去感知、去交互、去“干活”。而这项技术的皇冠明珠,自然是“人形机器人”。

这并不是一次简单的技术升级,在人类历史的长河中,总有那么一些时刻,技术的发展从量变走向质变,从而彻底改变了我们与世界的关系。就像蒸汽机解放了体力,计算机解放了脑力,而人形机器人,不仅试图将两者重新合二为一,而且是人类所熟悉的方式,在人类生活、工作的环境。

2025年8月21日,上海。一群见证了中国互联网三十年风雨的“IT老友会”老兵,决定去探访这场“行动革命”的一个前沿阵地:智元机器人。

合作伙伴大会晚宴,智元机器人变身酒吧工作人员

这家公司成立才两年半,但通过交流,大家的感知是:某种程度上,智元似乎 “一出生就是参天大树”。他们当天正好在开第一届合作伙伴大会。所以这次探访,也就成了一次对新技术生态的集体窥探。

现实世界的“复仇”:为什么快,是唯一的生存法则

进入物理世界,AI遇到的第一个敌人,不是算力不足,而是现实世界本身。

在数字世界里,复制粘贴一个文件,瞬间完成,完美无缺。但在物理世界里,让机器人去拿一个杯子,它要考虑杯子的材质、重量、摩擦力、光线变化,甚至桌子轻微的晃动。现实世界充满了不确定性和“摩擦力”。

在研讨会上,大家对此都深有感触。资深媒体人、人文财经观察家、秦朔朋友圈发起人秦朔直言,想穷尽物理世界的所有场景?“极为艰难”。

著名学者、观察家、新物种研究院院长吴伯凡则提到“反摩尔定律”(Eroom's Law)。我们都知道摩尔定律:芯片性能每18个月翻一倍,价格降一半。但在物理世界,事情可能正好相反:越接近目标,付出的代价可能越大。吴老师警告说:“你以为都快近在眼前的那一刻一步之遥的时候,可能花的成本是最多的,甚至功亏一篑。”

这就像攀登珠峰,最后的几百米,才是最艰难、最危险的路程。

面对现实世界的这种“复仇”,如果你还慢悠悠地在实验室里搞理论研究,等着一个完美的通用大模型从天而降,那基本上就出局了。

所以,智元的策略是什么?一个字:快。

快到什么程度?智元董事长邓泰华给我们透了个底:“我们是2023年年初创立的公司,但是今年(2025年)出货量大概有5000多台”,他又补了一句“其实去年四季度智元机器人才刚刚开始量产”。

两年半,从零到5000台量产。在重资产、长周期的机器人行业,这个速度无疑快得惊人。智元机器人CMO邱恒说,他们是“全球第一个实现一千台人形机器人量产的公司”,而且已经在有些场景开始赚钱了。

就在写下这些文字的时候,无意中刷到中国招标投标公共服务平台的公示:湖北人形机器人创新中心机器人采购及安装项目的评标结果中,智元机器人成为第一中标候选人,投标报价超过三千万。

但这种速度,对智元来说,不能单纯视为一种“抢占市场”的行动。或许,将其称为具身智能“生存法则”会更合适。

因为具身智能的学习方式和大语言模型完全不同。大语言模型可以靠抓取网上的海量文本来学习,但具身智能不行。它必须在真实的物理世界里摸爬滚打,才能积累经验。如果说数据是燃料,机器人本体是采集数据的关键工具。

一言以蔽之:部署的机器人越多,跑的场景越多,积累的数据就越多,模型才会越聪明。

这就是“数据飞轮”。

智元法则,自然是通过极致的速度,让这个飞轮率先转起来。秦朔对此评价得很到位,有些人还是“小实验室”,智元已经是一个“超级实验工厂”。

那么,智元凭什么能这么快?

在交流中,浙大的方兴东教授一语道破:“这可能是智元的团队基因。”

在研讨会上,邱恒展示了一张图,人形机器人产业链的约40项关键技术中,智元自研或合作定义的超过30项,涉及从核心零部件(关节、灵巧手)到大模型算法。只有少数部件,是市场直接采购而来。

邱恒解释:“因为整个这个产业还没有那么长的发展时间,很多技术原本并不成熟,仅依赖市面上的东西造产品,很难商用化。”

显然,这是那种“自己的命运必须掌握在自己手里”的思维方式。这种系统性的作战能力,让智元像一支装备精良的正规军,在物理世界的“丛林”里,杀出了一条新路,在可能应该纠结怎么造“枪”的时候,在前线“开火”。

“一脑多形”:机器人应该长什么样?

在谈论具身智能问题时,一个经久不衰的问题是:我们到底在谈论什么形态的物种?人形态是否是一种必须?

吴伯凡给出了一个非常深刻的定义:“你的身体长什么样,在很大程度上,它反映的不是你的身体,是反映你的空间。”

这话听起来有点哲学,但其实很好理解。蝙蝠的样子,是因为它要在黑暗中用超声波定位;鱼的外观,是因为它要在水里游。身体的形态,决定了物种在空间里的自由度。

所以,虽然智元机器人的主力产品是“人形机器人”,但是并没有在现阶段强行要求所有机器人都长得像人。在当前的条件下,用单一的“人形”去适应所有场景,既不经济,也不高效。

智元的思路很清晰,那就是“一脑多形”:一个超级大脑,可以搭载到不同的身体上。

在合作伙伴大会上,智元的联合创始人兼CTO彭志辉,大家可能更熟知他的网络ID“稚晖君”,详细介绍了他们的“1+3”战略:“1”是本体,“3”是三大智能(运动、交互、作业)。

基于这个统一的技术底座,智元变出了一个“机器人家族”。稚晖君总结得非常精辟:“远征走出去,精灵干起来,灵犀动人心”。

1、远征(Yuanzheng):那个最像人的家伙。

“远征”系列就是我们印象中的全尺寸人形机器人。它的任务是探索技术的边界。

在会上的远征A2视频中,我们能看到它已经可以在草地、碎石、台阶上稳定行走了。这背后是技术的巨大突破。稚晖君提到,他们正在从控制下半身移动,转向“全身控制”。“基于Sim-to-Real(仿真到现实)的这种强化学习的泛化自然步态上面,现在已经取得了很大的突破。”

这意味着机器人不仅能走,还能跳舞,能做复杂的全身协调动作,通过了控制精度的极致考验。

同时,远征也是下一代最重要的“交互终端”。就像鼠标定义了PC,触摸屏定义了手机,未来我们和机器人的交互,就应该像人和人一样自然。

“我们需要赋予机器人一些性格,能够让它有足够的多样性,不同的机器人千人千面。”为了实现这一点,远征A2支持全身定制,不仅可以换外壳,还可以定制性格和音色。他们甚至让A2去代言百事可乐。好处显而易见。现场专家开玩笑地说,这是一个“永不翻车”的明星。

2、精灵(Jingling):那个真正干活的家伙。

如果说远征思考技术边界问题,那么精灵则是思考生产力问题。

“机器人到底能不能真正的替人去干活,我们精灵的产品就是为此而生。”稚晖君在大会发言中直言不讳,“人形并不是一个万能的形态。”

在工厂流水线、物流分拣这些需要长时间移动和精细操作的场景,双足人形机器人太慢,能耗也高。所以,“精灵”长得有点像一个移动的吧台,下面是轮式底盘,上面有两只手臂。

精灵的核心价值在于“数据”。传统的工业机器人都是预先编程好的,只能做固定的动作。但现在的柔性制造需要机器人能随机应变。要让机器人学会“干活”,必须从真实数据中学习。

所以,精灵首先是一个高效的数据采集平台。它配备了VR、动捕等遥操作设备,让人类可以远程操作它,采集真实的动作数据。这些数据,就是训练具身大模型的“燃料”。

目前,智元在作业智能方面定义了G1到G5五个等级(类似自动驾驶的L1到L5)。精灵在一些场景已经达到了可以商业化落地的G2级别。而即将发布的精灵G2,将具备高精度力控,能干较为精细的工作,比如插接电路板。

3. 灵犀(Lingxi):那个让人心动的“作品”。

“灵犀”是智元最新的产品线,身高1.3米,像个孩子。但你可别把它当玩具。稚晖君说,这是他们目前“运动能力最强,体验最流畅的一款产品”。

灵犀X2的自由度(关节数量)高达42个,比很多全尺寸机器人都多。它专为交互设计,跳舞极其流畅自然。它在网上的视频已经刷屏了,充分证明了机器人在提供“情绪价值”方面的潜力。

4. X-Lab的惊喜:未来形态。

在发布会的最后,稚晖君还放出了一个“One More Thing”——X2-W。这是智元机器人实验室X-Lab的心作品。

它长得像是把灵犀的上半身装在了一个轮式底盘上。W代表Wheel(轮子)和Work(工作)。它的目标是成为低成本作业智能的标杆,未来可能进入家庭,帮我们做家务。

“一脑多形”的策略,体现了智元务实的一面。他们没有陷入“100%复刻人形”的教条,而是根据场景需求,选择最优的“身体”形态。这让他们能够快速切入不同的市场,实现商业化的落地。

操作系统“暗战”:为什么要有“第二选择”?

如果我们把具身智能比作一次“大航海”,那么机器人本体就是船,而操作系统(OS)就是罗盘和航海图。

在智元成立之初,他们做了一个让外界非常意外的决定:自研原生的操作系统“灵渠OS”(Lingqu OS)。

目前全球机器人行业普遍使用的是ROS(Robot Operating System)。ROS起源于美国学术界,后来被谷歌收购。既然已经有了现成的ROS,智元干嘛还要费力不讨好地“重复发明轮子”?

这背后的故事,比技术本身份量更重。

1、战略自觉。

“我们的团队过去这么多年做操作系统,就很清楚这个商业逻辑。”邓泰华在研讨会上说。它可能在未来某一天,成为决定产业命运的关键。

邓泰华判断,具身智能是一个大赛道,市场空间可能达到“智能手机的数量乘以单车的价格”。而且,在这个赛道上,中国拥有得天独厚的优势(供应链、场景、数据)。

因此智元机器人的判断是:在这样一个关乎未来的战略性产业中,如果不掌握操作系统的“根”,那无异于将自己的命脉交到别人手中。

“一开始就要考虑好这个软件生态的根。”邓泰华说。构建一个“第二选择”,不是一种选择,而是一种必然。

2、为未来而生的“新物种”。

除了战略布局考虑,对智元机器人而言,自研OS也是技术发展的必然要求。传统的ROS并不是为人形机器人和具身智能时代设计的。

但是,“灵渠OS”是一个为未来而生的“新物种”。智元产品总监胡旷介绍,它是“一个原生的支持具身智能的操作系统”。

它的设计目标很明确:南向(连接硬件),更好地适配人形机器人这种高自由度的本体;北向(连接应用),更好地支持具身智能大模型和各种智能应用。它要解决的是智能化、群体协同、云边端融合这些新挑战。

3、开源的“阳谋”。

不过,做一个操作系统容易,做一个成功的生态却难如登天。智元为“灵渠OS”规划了一条务实的开源路径。

首先,从增量市场切入。

“我们从具身智能开始做,不去碰工业机器人,不去碰原来老的存量。”邓泰华表示。他们不和ROS在传统的工业机械臂领域正面竞争,而是专注于全新的、快速增长的人形机器人市场。

其次,兼容并蓄。

智元采用了“双栈”策略。“我们也兼容ROS。 ROS已有的生态、海外的生态,我们也可以无缝地接进来,我并不排斥。”这种开放的态度,有助于吸引更多的开发者,平滑地过渡到原生生态。

第三,产业共有。

智元计划在2025年底将“灵渠OS”正式开源,并将代码捐赠给开源基金会。通过自身的规模化应用(明年几万台全部使用灵渠OS)来带动生态发展。

其实,“灵渠”这个名字本身就很有深意。灵渠是秦始皇时期修建的伟大工程,沟通了长江和珠江水系,奠定了中华版图的根基。智元的“灵渠OS”,也承载着沟通南北、构建自主生态的宏大愿景。

从“编程”到“创作”:谁能激活真正的生态?

有了船,有了罗盘,但要真正征服星辰大海,还需要无数的水手和探险家。这就是生态。

“生态”这个词在中国科技界已经被说滥了。我们见过太多失败的例子。吴伯凡老师一针见血地指出:“那种‘我来坐庄,大家来陪我玩儿’的思维,是伪生态。”

真正的生态,需要一种“半成品”思维。就像苹果提供iPhone和App Store,然后让全球的开发者去创造应用一样。厂商提供基础平台,然后和开发者共同定义未来。

那么,在具身智能时代,如何激活一个真正的生态?智元在发布会上展示的一个全新的“灵创平台”。它可能预示着一个思路的转变:从“编程”到“创作”。

1、跨越开发的“死亡之谷”。

目前,机器人应用开发的最大障碍是门槛太高。稚晖君在演讲中提到了一个痛点:你在网上看到很多机器人跳舞的视频,很灵活,很生动,但翻来覆去就那么几段动作。

而让机器人做一个复杂的动作,需要非常专业的知识,比如强化学习、模仿学习。一般人根本搞不定,只能等厂商更新。这种高门槛,阻碍了应用的创新。

“灵创平台”的目标,就是把机器人开发的权力,从专业人士手中解放出来,交到普通用户手中。

2、像剪视频一样“玩”机器人。

在现场,稚晖君的演示中。伙伴们看到,这个平台(支持电脑和手机)的界面就像一个视频编辑软件。你可以在动作库里选动作,在时间轴上剪辑,甚至可以调整每一个关节的角度。

甚至,你可以上传一段音频,比如一首歌,平台内置的AI模型可以根据音乐的情绪,自动生成匹配的肢体动作。“所有的动作都是生成式的”,稚晖君强调。你还可以在歌词的关键位置,插入特定的动作指令(比如“指向前方”),选择动作的风格。

整个过程不需要写一行代码。这极大地降低了机器人内容创作的门槛。

3、改变游戏规则的瞬间。

稚晖君还在会场进行了另一个演示。让同事用手机随便录了一段他自己的动作视频。然后,他把这段普通的2D视频上传到平台。平台通过AI模型,从2D视频中提取出3D的动作数据,然后通过Retargeting(动作重定向)技术,把人的动作映射到机器人身上。

很快,台上的机器人灵犀X2,就完美复现了稚晖君刚刚做的动作。

“它不需要动捕的设备,不需要VR设备,所有设备都不需要,只需要有一台手机。”稚晖君说。

每一个伟大的技术时代,都需要一个“普惠化”过程。

传统的动作采集需要昂贵的设备和复杂的系统。而智元的技术,让任何一个普通人,都可以通过手机拍摄,来“教”机器人做新的动作。

4、开启具身智能的UGC时代。

“灵创平台”的初心,是开启一个人形机器人的UGC(用户生成内容)时代。

稚晖君把它和快手的起源做了类比:“快手的前身其实是一款软件,叫做快手GIF,最终是演变为现在一个短视频平台的巨头。那我觉得说不定未来我们自己的灵创平台也会成为一个(伟大)产品的雏形。”

确实,当用户不仅仅是使用者,而是创造者时,生态才真正具有了生命力。用户可以根据自己的需求,快速生成机器人的动作和行为,并在社区中分享。

长跑者的耐心:等待“奇点”的正确姿势

尽管智元展现了惊人的速度和宏大的愿景,但IT老友会的资深专家,在兴奋之余,也保持了必要的冷静。一个绕不开的问题是:具身智能的“DeepSeek时刻”(或ChatGPT时刻)到来了吗?

大家的意见是:还没有。从信息到行动的跨越,注定是一场漫长的征途。

苇草智酷段永朝老师提醒,我们要警惕“乐观情绪”,对爆发点的精确预测往往反映了内心的焦躁。财经作家陆新之老师也提到了几十年前科幻小说《小灵通漫游未来》的例子,提醒我们技术发展的不可预测性。我们这一代人已经被“爽约”过一次了,希望下一代人不要再失望。

这种审慎,是对产业规律的敬畏。

构建生态,需要“快变量”和“慢变量”的结合。

“灵创平台”是“快变量”,能迅速激发创造力。但要构建一个真正有护城河的生态,还需要在“慢变量”上下功夫。

回到那个终极问题:具身智能的“奇点”何时到来?

吕本富教授认为,关键在于“涌现能力什么时候呈现”。他正在研究如何通过数学模型来预测这个“相变”点。

行行AI创始人李明顺则认为,需要一个“超级应用”。“一定是要有一个超级应用,所有人都能接受、能够用到”

或许,具身智能的“DeepSeek时刻”不会像大语言模型那样突然降临。它更可能是一个渐进的过程,在不同的场景中逐次爆发。

智元的策略,是通过快速的规模化部署,加速数据飞轮的运转,以期早日实现“一句顶一万句”(一个机器人学会,所有机器人都学会)的智能涌现。这是在不确定性中寻找确定性的现实路径。

前路依然漫长,挑战依然巨大。物理世界的“摩擦力”不会轻易消失,生态的构建需要时间去沉淀。

但正所谓“问渠哪得清如许,为有源头活水来。”如“灵渠”之寓意所示,IT老友们也达成了另一个共识:智元以及更多的中国机器人企业,如能在这场“开物”之旅中,为整个具身智能产业注入源源不断的“活水”,那么 “行动智能”的机器人新纪元也不远矣。