智平方创始人郭彦东:没有技术自信,中国机器人就没有创新突破

发布时间:2025-09-28 23:32  浏览量:1

“机器人得先通用,才能进家庭,不然很容易把机器人变成另一个扫地机”

文丨李梓楠

编辑丨 宋玮

郭彦东是那种最正儿八经的机器人创业者,学习成绩好、技术强,有漂亮的工作履历,大厂管过大研发,做过软件也做过硬件,是这轮具身智能创业热潮从大公司离职创业级别最高的技术高管。

郭彦东从小到大都是第一,高考数学单科满分上的北邮。后来他考上美国普渡大学的博士,学人工智能。他选最严厉的院士导师,零下三十度,在普渡大学的玉米地里采数据做实验。他说他不知道打 B 是几分,他只有 A 和 A+。

博士毕业后,他终于遇到成绩比他更好的人。加入微软美国研究院,公司有 5 个是图灵奖得主。郭彦东压力很大,师兄安慰他说,“别害怕,你去了你也会和他们一样强。” 郭彦东在谈到这段经历时哽咽了,他在微软度过了一段充满理想主义的时光,微软也养成了他平视技术大佬的习惯,“重要的是技术自信,大佬也会出错。”

2018 年,郭彦东想把深度学习理念应用到汽车上,于是从微软离职加入创业初期的小鹏汽车。2020 年,他又加入 OPPO 任首席科学家。小鹏和 OPPO 教会他经营理念。何小鹏告诉他,做 to b 软件,只能卖 1 块钱,做好软硬结合就能卖 10 块钱。陈明永让他别着急烧钱,不管靠省还是靠赚,账上多留点钱。

2023 年,郭彦东成立智平方,一上来就赌了把大的——用 VLA (视觉语言动作模型)路线做机器人。当时全球除了谷歌与特斯拉,只有智平方走这条路。很多人看不懂,质疑他,但他还是坚持做 VLA,因为他认定这是机器人实现智能的终极路径。

两年过去,他介绍,智平方已经是机器人行业 VLA 路线的领先者,在公开的 benchmark(基准测试)测试中模型性能比美国具身智能创业公司 Physical Intelligence 去年 10 月推出的机器人模型 PI-0 强 30%。

郭彦东在技术选择上激进,但在经营上务实。大部分机器人公司花钱做 Demo 发跳舞视频的时候,智平方已经靠模型服务赚了数千万。2025 年,智平方已经融了七轮,郭彦东说,按照目前的节奏,账上的钱够花 10 年。

今年 4 月,智平方推出第二代机器人爱宝,上身是人形,下身是带四个轮子的底盘,区别于特斯拉等追求极致仿生的双足机器人。理由很简单,轮子稳定性好,移动效率比双足走路快。

郭彦东清楚,中国很难容许 “掀桌子” 式的无限冒险,因为不像美国公司那样有无限资源。今天中国的机器人公司估计已经超过 400 家。

郭彦东希望通过 “边用边学” 的路径,让机器人逐步进入现实场景。他介绍,智平方的机器人目前已经获得汽车、半导体、生物制造等多个高端制造业的商业订单,订单总量千台以上。

这些还不够,郭彦东还渴望成为机器人领域的出海先行者,像中国电动车那样,把机器人卖到海外,参与全球竞争。他们现在已经进了奔驰的全球供应商名录,明年就要把机器人送去全球各地做服务。

学霸人生:“我只有 A+”

晚点:逐际动力创始人张巍是你博士时期同学,他做的也是机器人,你创业之前有联系过他吗,你们为什么不一起创业?

郭彦东:我们都是在普渡大学读的博士,都是电子工程系。张巍的导师是控制系统方向的泰斗,我导师是人工智能(模式识别)方向的院士,所以做机器人,他是从下往上做,先做腿,这是控制领域的拿手好戏。我是 AI 方向,从上往下做,先从智能入手做泛化操作。

张巍毕业在北美拿到头部高校的终身教职,是很多人的梦想,充分证明了他顶尖的学术能力和那时候强烈的学术追求。我毕业后通过了应该是北美最高标准之一的面试(9 小时连续挑战),加入微软做研究员,我喜欢研发新技术、依托新技术打造新产品、让更多人用上我的技术和产品。

晚点:你们俩上学时谁成绩更好?

郭彦东:我不知道他的成绩。上学时有人问我,我们学校打 B 是多少分,我说我不知道,因为我只有 A 和 A+。

晚点:你看起来不像典型的学霸,你挺能说的。

郭彦东:我从小到大成绩都是最好的,我高考数学单科满分上的北邮。我研究生毕业去中国移动工作了一年,当时面试十几万人招十几个人。

但还想继续深造所以去普渡大学读博,选了要求最高的导师。

晚点:导师的要求高在哪里?

郭彦东:他要求很 “变态”,让我们去物理系上最难的课,去数学系、统计系也是,要求我们比他们本系的人考得还要好。同时要求你科研上也要出成果。

所以我们只能白天做科研,用晚上的时间去学习博士课程。

我经常熬夜熬到早上六点多,就躺在办公室楼道的沙发上,因为回宿舍可能会睡到中午,这样就白熬夜了。我睡在沙发上,等本科生来上课的时候把我吵醒。这样 8 点以前就可以继续投入工作。

我们以前研究低照度成像(在光照不足的环境中捕捉图像),以前的手机在晚上拍不见东西,乌漆嘛黑。为了解决这个问题,我就在普渡那个半夜零下 30 度的鬼天气里,去玉米地里各个采集点采数据做实验,手指冻得像萝卜。

晚点:你创业之前有和导师联系过吗?他给了你什么建议?

郭彦东:我一开始没说,想着总要做点什么事出来才好意思和他说。

公司两周年的时候我远程给他们邮件,两位导师Charles A. Bouman 与Jan P. Allebach教授都特意录了视频来祝贺。我们关系很好。Charles A. Bouman虽然学术要求严格,但是对学生充满了爱。我的导师,Charles A. Bouman 教授(普渡大学电气与计算机工程/生物医学工程系教授,美国国家发明家科学院院士)的女儿现在也在做教授,延续了他父亲的科研方向,人类第一次拍到黑洞的照片就是他女儿的作品,是全球人类都庆贺的科研成绩。

郭彦东和导师 Charles A. Bouman 教授父女二人。来源:智平方。

晚点:你博士毕业之后选择加入微软,看上去是一个顺理成章的选择。

郭彦东:我读博的时候,微软是非常有影响力的。我们学的教科书很多都是微软研究员写的。在那个年代,公司研究院还参加影响力排行榜的时候,微软研究院排在最前面,比美国当时最厉害的大学计算机系还要高。

我当时觉得,只要能去微软,其他哪也不去。

晚点:你在微软的时候,公司有 5 个图灵奖获得者,和天才一起工作是什么体验?

郭彦东:我当时和师兄聊,我说这些同事都太强了,我在普渡学的课本都是人家写的,怎么办?他说没关系的,你只要去了,你就会和他们一样强。

后来去了,觉得好像也不那么神奇,都是正常人。怎么说,讲到这里心情有点沉重。(大概哽咽了 30 秒。)

晚点:哽咽是想到什么了?

郭彦东:微软养成了我 “平视” 而不是盲目崇拜技术大佬的习惯,让我有技术自信,敢于坚持自己的判断。2023 年,很多人不看好端到端 VLA 的时候,我才敢坚持自己的想法。

微软也给我树立了正确的价值观——一号位一定要懂技术。管理者首先得是专家,公司才会是顶级公司。乔布斯也说,优秀的人只愿意跟着优秀的专家工作,而不是被 people manager 管理,这方面微软做得很出色。

这就是榜样的力量,当你身边是图灵奖得主,是沈向洋、陆奇这样的人的时候。我每天晚上 11 点下班的时候,陆奇的车还在。

晚点:所以你刚刚动情,是想到在微软的时候,大家一起工作的状态吗?

郭彦东:都有。

微软非常尊重年轻人,背后逻辑是对创新突破的尊重。微软每年去最好的学校,请最优秀的博士来实习,拎包入住很漂亮的公寓洋房。请学生听顶流明星火星哥、Maroon 5 来西雅图的演唱会。

微软的职场理念很好,这是它能够辉煌 40 年的根基。微软第一波辉煌的时候,雅虎还没出来,熬到雅虎又变小了,微软还在。谷歌其实比微软晚 20 年,谷歌还需要 20 年才能证明他可以像微软一样保持非常长时间的活力,前一阵微软已经突破 4 万亿美金市值了。

微软也很有温度。2013 年微软云还没搭起来,我直属领导买了两块英伟达卡塞到我办公室,“is that what you want?” 我比拿了年终奖都高兴。

晚点:你做研究员的时候,KPI 是什么?当时谷歌研究院的人反思到底是哪里出了问题,导致 gpt 是 OpenAI 先做出来了,有人评价说是因为研究院的组织模式和考核方式有问题。

郭彦东:研究院管理者的任务,曾经主管微软全球研究院的沈向洋之前给我们分享的是,最重要的是找到最优秀的人。

我刚去 OPPO 的时候,组织一起去微软交流学习,当时的院长也强调,最重要就是找到最优秀的人,给他们最好的工作环境、条件,自然会产生了不起的工作成果。优秀的人加上有意义的目标会诞生了不起的成果,而不是 KPI。

我的同事为什么能写出全美国最好的博士生教材。跟自由的工作氛围是离不开的,真正能静得下心来。

我在西雅图的时候,我根本不愁房车,第一年全有了。如果房价太贵,创投机构又特别活跃,员工难免天天想着怎么搞钱。有人开玩笑说,在硅谷可能要平均创业成功两次,才能买得起比较好的房子。搞最了不起的深度研究和产品,想法不能太急功近利。

晚点:所以微软研究院比谷歌好是因为西雅图房价比硅谷低?

郭彦东:Maybe。

但我不得不承认,当时大家看到深度学习的红利,大肆挖微软的人,有猎头直接溜进公司,站在楼下发 offer ,只要你愿意出来就是 100 万美元年薪。那个年代已经蛮夸张,当然现在更夸张了。Meta 开出了篮球明星的年薪,核心还是对人才的尊重。

二十多岁,去最好的地方学习;三十多岁,去最好的公司跟别人干;四十多岁就得自己干

晚点:你为什么没有继续留在微软,或者加入别的美国公司,而是在 2017 年选择回国。

郭彦东:我 2017 年在微软牵头做一个叫互联互通车的项目,跟沃尔沃合作,探索把微软的深度学习技术用在汽车上。当时合作到一半,沃尔沃要放暑假,好不容易人放完假,9 月了,马上又快圣诞节了。

我当时有股劲就想把这个事做成,但因为两个大公司之间过于温和的合作模式,我觉得有点干不成。所以当时小鹏有个机会找我,那我就干吧。

晚点:当时为什么不直接创业?

郭彦东:人生不同的阶段目标不同。二十多岁的时候,就去最好的地方学习;三十多岁,去最好的公司跟着别人干;四十多岁就得自己干,让别人跟着我做最了不起的事。

晚点:你对小鹏印象怎么样?

郭彦东:小鹏是一所非常好的学校。如果我没在小鹏待过,没认识何小鹏,没去 OPPO 干过,我创业不一定能做机器人。我在微软的经历比较强调 AI 与系统,在小鹏和 OPPO 做了之后,我就知道创业必须得软硬件结合。

何小鹏当时和我说,一个公司很可能因为两件事会黄,政治不正确,质量出问题。

晚点:你加入小鹏之后负责什么?

郭彦东:小鹏当时单独成立了 AI 中心,后来快正式官宣的时候,名字改成了 AI 产品中心。我当时刚从研究院出来,学者范儿太重了,改这个名字就是让我牢记公司不是找你来科研,要落地产品。

晚点:你在小鹏期间交过最大的学费是什么?

郭彦东:我刚从微软出来的时候,很多思考偏软件。如何把 AI 和硬件结合,用在上亿规模每一台车上都一样、越来越强,有很多经验教训。包括软件落到每台车一定要经过反复测试,我现在做机器人也是要求大家有严格的测试流程,保证质量不出问题。我说硬件的研发一定要尽快进到场景用起来,也是做汽车时的思考,关起门来做的硬件是做不好的。

我在小鹏众多项目的其中一个很有趣的经历是做雨量识别。那之前雨量识别都用传感器做,精度不准且额外增加成本,和整个智驾系统比较割裂。内部很多人当时觉得瞎折腾,花那么大动静,传感器也不贵买一个就行。

但我们坚持做了,而且方法很明确:就是靠量产车来收集真实数据。实验室里根本采集不到这么丰富和真实的场景,必须让跑在路上的车不断给我们回传数据,迭代模型。也正是通过这个项目,我们打通了小鹏第一套数据回环系统,真正实现了基于视觉的雨量识别。

后来 Elon 发了个推特,说特斯拉做出了一个很了不起的功能——自动驾驶的雨量识别。然后何小鹏一抬头说,我 X,这怎么这么厉害,再一问,我们六个月前就有了,专利网上也能搜到。

我后来意识到,在一个大企业里推动一件事,怎么样说服别人,论证事情的价值,非常重要。科学家最大的问题就是不说人话。

晚点:所以你看起来不像学霸,证明你进步了。

郭彦东:我觉得我跟余凯(地平线创始人)更近了一步。他当年也是学霸,创业之后变化很大。

晚点:换个角度看,那你们失去了什么?

郭彦东:我觉得他可能失去了一些钻研探索技术的乐趣,这是一个无奈的事情。你做企业之后,就会被迫失去很多技术专家探索型的乐趣。

晚点:2020 年,你离开小鹏加入 OPPO 负责人工智能的研发,在 OPPO 时期,你的成绩是什么?

郭彦东:我们团队比较卷。OPPO 专利数很多,每年都能排到全球前几。在 OPPO 每年我们团队几百个 AI 专利。每年两款 Reno,还有高端的 Find 系列,研发的节奏非常快。此外还有出行,机器人等新业务推动,其实在 OPPO 做的事情,管理半径比在小鹏期间大不少。

晚点:你创业的时候,陈明永给过你什么建议?

郭彦东:第一个建议是别着急烧钱,不管是融资还是赚还是靠省,账上多留点钱。

第二个建议是,做好现有客户,让人家觉得你好,愿意复购,才是真英雄。我觉得 OPPO 的很多经营理念非常扎实,做好产品、做好服务,完全不来虚的。用 OPPO 自己的话说就是本分:“把技术的困难留给自己,把美传递给用户”。

这些建议让我很受益。有一次坐飞机刚好同一班,还是他先看到我,特别有缘分,聊了好一会儿。

晚点:陈明永应该坐的是头等舱,你创业也坐头等舱?

郭彦东:我之前在头等舱安检口遇到一个 CEO。我们俩互相解释,“我积分换的,哦哦我也积分换的。”

创业坐头等舱是罪啊。

现在的机器人比 8 年前的电动车更热

晚点:6 月初你们宣布机器人进了东风柳汽的工厂,除了东风你们还进了哪些工厂?有多少台机器人进了工厂?

郭彦东:我们去年也拿到了奔驰的全球供应商资质,和吉利也有合作。创业公司不拼数量,得拼交付的质量。接下来计划交付千台以上的机器人。其他行业头部的客户我们也都接触过。

我现在最上心的事情是稳定地把机器人交付给客户。现在客户多,我们研发和交付的人都不够用了。我自己的第一优先级就是把现有客户服务好。

AlphaBot 2 在汽车工厂应用探索。来源:智平方。

晚点:你们一般进汽车工厂要用多长时间?他们为什么选择你们?

郭彦东:过程非常快,这和我们之前的积累有关,我们 2023 年就开始做具身大模型,训了两年多。搭载具身大模型的机器人脑子好,学新任务快,非常适合产线上的柔性工作,这也是客户选择我们的主要原因。

现在机器人虽然做不到开箱即用,但进工厂几小时到几天就可以学会一个新任务。今天让机器人搬箱子,可能明天就学会了。让它摁开关,插拔东西,都学得很快。

晚点:你们的机器人在工厂里做什么?

郭彦东:我们在工厂里找了一些速度要求不高,也不太影响生产节拍的点位放机器人。比如一个投料的场景,人上料之后要等一分钟,他也不能走远也不能干别的,就干等着。这种事情工厂里很多。换个角度说,我觉得现在机器人峰值速度赶不上人类也能产生价值。

我叫这个场景为 “左右不是人场景”,不懂行的人说这么简单的事情,机械臂就能干,太 low 了;懂行的人说,这么难的问题,你这都能干,肯定是在吹。有很多活,外面的人觉得太简单不值得干,行内的人觉得太难干不了,我们现在就在做这些场景。

晚点:你们进工厂,他们会付钱吗?

郭彦东:当然,都是商业合作,虽然我们现在比较贵,但是未来会降下来。

晚点:如果你们的机器人把工厂的东西摔坏了,谁来赔?

郭彦东:行业惯例都是机器人公司赔。

晚点:为什么你们选择做轮式底盘机器人,而不是直接做人形机器人?

郭彦东:双足机器人移动效率偏低。轮式机器人底盘稳不容易摔、移动效率高,底盘可以塞更多电池延长续航。我们之前想报名北京的机器人马拉松,他们不让我去,我要去肯定是冠军。

我有次在小区看到外卖小哥踩着两轮平衡车送外卖,我就想拍下来发给智元的稚晖君(以前也是 OPPO 团队的小伙伴),后来没发。

晚点:你们未来会做双足吗?

郭彦东:双足是一个不一样的品类,是很多人的梦想。我觉得这个事情适合已经上市、不愁商业模式,不愁现金回款的企业来做,这个业务可以两年后再开始发力。

我们其实一直都有一个双足的小团队,但不会是目前主要的商业模式,主商业模式一定是用机器人上半身来做服务,解放双手。人之所以成为人,不是因为人有两只腿,而是人的双手被解放了。所以有一个稳定的平台 + 双手,能做很多事。

晚点:你们为什么不做机械臂?

郭彦东:机械臂在工厂里面很多事是干不了的。我们做的通用智能机器人就是解决他们做不了的柔性工作。

晚点:我们之前和优必选聊,他们认为机器人进工厂就必须得做双足,因为工厂里很多地方狭窄,轮式底盘进不去。特斯拉、Figure 也坚持做人形。

郭彦东:特斯拉机器人要上火星啊,火星上还没修路,所以得人形。

特斯拉特别不缺钱。特斯拉的做法是典型美国人 “掀桌子” 式创业,先埋头做 3 到 5 年,再一下子推门出来,你们谁都不是对手。 Open AI 也是这样。

中国很难让创业公司这样无限制地创业。我们的机器人设计比特斯拉务实多了。对我们来说,尽快让机器人进入场景更重要,先用起来,而不是直接颠覆行业。

而且机器人本身就应该一边用一边学。和语言模型不同,机器人的具身大模型必须通过实际使用才能持续进化。这就需要真实场景的数据反馈。场景也会反过来定义硬件形态,进入场景应用后,我们才会知道机器人硬件该长成什么样,哪里要改。那什么样的机器人能够更早地被人用起来呢?就是轮式双臂机器人。

晚点:为什么你觉得中国无法做掀桌子式创业?

郭彦东:融资环境不一样。国内大模型公司估值 300 亿,Open AI 估值是 3000 亿美元,所以 Open AI 可以掀桌子式创业。

晚点:那你为什么不在美国创业,如果你在美国,公司估值是不是会比现在高得多?

郭彦东:中国的工业机器人使用量是最高的,能给机器人提供最广泛的应用场景,且中国的硬件供应链最完善。

我之前还和微软的前同事说,做机器人创业一定要在中国,不然你的技术只能一直待在实验室里。

晚点:前华为车 BU 首席科学家陈亦伦创立的它石今年初 A 轮就融了 1.2 亿美元,中国的融资环境也不差?

郭彦东:Figure AI 这轮融了 10 亿美金,估值 390 亿美金了。

现在中国具身智能领域还没有人融到真正的大钱,没有在融资上产生绝对优势。我们经营风格比较实在,不过度承诺,吸引了很多头部的、风格比较务实的基金。按照目前的节奏,我们融到的钱够花 10 年,10 年内我们肯定盈利了。

晚点:所以你不追求大力出奇迹。

郭彦东:大力出奇迹在软硬结合的赛道会让你动作变形。这个赛道的客观规律要求你花时间打磨、用心做事情。它不像一些行业,极端的时候可以买流量、投广告,这些动作对硬件产品来讲价值有限。

晚点:你的节奏、计划是怎样的?

郭彦东:我的计划就是 3+3+3。前三年做好技术,把机器人模型做好。中间三年搭体系,把机器人的大数据体系、训练的架构、硬件平台都做好,没有好的硬件架构,软件就是空中楼阁。然后再三年,做生态,自研零部件,规模降本。

晚点:你们花钱方式和 Figure 的区别是什么?你们把钱花在哪里?

郭彦东:我们花了很大资源在 GPU 和端到端 VLA 模型训练上。很多做机器人的同行都是先搞机器人本体,模型是先用开源的拿来改一改。

Figure 怎么花钱我没有数据。但很多机器人公司喜欢做 Demo ,发个视频,这花费很高。之前硅谷还有个公司专门帮创业公司做 Demo 视频,差点做上市了。

晚点:为什么你选择先买算力,做模型?模型研发不确定性太高。

郭彦东:在大企业管过大研发的人, AI 创业的第一步都是搞训练加速,倒不是一定要买算力本身。王慧文之前创业第一件事就是买 one flow,一个做弹性计算的创业公司。他也不是上来先做个 demo ,而是先提升训练速度。

这背后是朴素的经济原理,我训练模型的时间小于社会必要劳动的时间,我就能盈利,这很重要。

原来大家训个小模型,可能一两天就做完。现在不一样,没有新技术的补充,训模型的速度能差出几十倍。

你不可能每次加进新的知识,就让模型把所有知识重新学一遍,得想办法让模型学新不忘旧。办法有很多种,其中最关键的一个技术叫大规模的增量训练,你上网搜,增量学习这块谁的工作最出名,就是郭彦东在 2019 年的论文。

晚点:你花了这么多精力做模型,为什么这么快就选择开源?

郭彦东:今年 6 月我们携手北京大学等推出了我们具身大模型 GOVLA 的开源版本 FiS-VLA,是全球首个 “异构输入 + 异步频率” VLA 模型,实现了慢推理与快执行的协同。开源还是因为自信。特斯拉开源电动车专利的时候,他觉得自己是这个赛道的老大,你们谁都追不上,但它又希望别人沿用他的技术路线。

我们是全球唯二开源机器人模型的创业公司,除了 PI (注:美国具身智能创业公司 Physical Intelligence ),当时只有我们。

晚点:你怎么判断你们的模型领先别人,标准是什么?

郭彦东:根据第三方 benchmark,我们的模型效果比 PI 的好 30%。传统机器人都是看做成熟任务的成功率,恨不得一件事让机器人在那学一年。具身智能机器人用处理未见任务的成功率来衡量比较好。

2023 年,谷歌的 RT-2 (谷歌 2023 年 7 月推出的新 VLA 模型 Robotics Transformer 2)让机器人做没学过、没见过的任务成功率达到 50%。这是个又喜又忧的数字,50% 的成功率意味着机器人已经具备泛化性,但这个成功率意味着机器人什么事都做不了。工业上,是要求操作成功率无限接近 100% 的。

晚点:现在的方案做没学过的任务成功率低,你考虑过换技术路线吗?

郭彦东:2023 年我们刚开始做的时候,很多人说这种技术不成熟,太遥远了没法弄。但我觉得这个路线符合机器人泛化的第一性原理,我们应该继续把它做好,而不是放弃这个模型。

所以我们花了很多精力去优化数据、模型结构、空间智能、全身控制、快慢结合等,现在越来越多公司也加入到端到端 VLA 这个方向。

晚点:你们现在的模型能做到什么程度?

郭彦东:我把机器人的智能泛化分成四个阶段,场景泛化、对象泛化、操作泛化、任务泛化。

- 同一个场景,光线变了机器人能适应;

- 机器人先学会拿电路板,然后学会拿起它形状的板子;

- 今天学会搬东西,明天就学会拉电闸;

- 就是学会做所有任务。

我们现在能做到 L2.5,能帮机器人更快学东西。机器人在完全没学过的部分任务上,操作成功率能有 70%。我们计划 2028 年出货数万台机器人。到那时,机器人还需要做场景适配,二次开发。但我们把开发成本做低,体验做好。到时候我营收就能转正,可以产生价值。

大家现在都还做不到 L4 ,行业里吹牛说能做到 L4 的,只有两种可能,要么完全不懂,要么是考量其他东西,获得商业价值。

晚点:具身智能行业现在符合你创业时的预期吗?

郭彦东:我刚创业的时候,我觉得这个行业一定会火,肯定是万亿级赛道。

但行业火爆程度超出想象。我七八年前刚加入小鹏的时候,拉了一下数据,当时电动汽车出来 300 多家公司。现在机器人公司估计超过 400 家,机器人赛道的活跃程度可能超过当年的电动车。 我觉得进展也比当年电车要快。AI 对研发帮助很大,工程师写代码速度快了很多倍。

电动车行业不只是培养了供应链,也给机器人行业培养、输送了大量深度理解具身智能、软硬结合、在电子电器,硬件、三电系统研发量产方面经验丰富的人才。此外,懂技术、懂行业、耐心的投资人也更多了。

我们的机器人在虹桥机场帮旅客收纳行李车

晚点:现在机器人行业对技术和模型训练数据来源还有很多分歧,你怎么看这种情况?

郭彦东:每个人想法不一样是好事,对我这种工作了十多年的人也更友好,不太容易就着一个点想偏了。

机器人这个赛道不是靠一招鲜就能做成。仿真、互联网和真机数据都要用好,有一个体系化能力把这些资源串起来才能做好。

如何解决具身智能发展的数据难题?我有一个 “正反金字塔” 数据观。在冷启动阶段,互联网数据提供多样性,仿真数据提供补充,真机采集保证精度,这是 “正金字塔”。当机器人逐渐大规模部署后,真实场景数据的价值远超仿真和互联网,形成闭环,这是 “倒金字塔”。通过这一正反循环,机器人能够在真实环境中不断迭代优化,实现 “越用越聪明”。

机器人大模型一定不能强调参数量的大和多,而是要追求精。我认为,机器人模型一定要保证能在端侧跑,汽车手机大家都要求在端侧计算,机器人一定也是,云只是辅助。

能在端侧跑的机器人模型参数量就不能太大。而且参数量大了以后,模型会出现更多幻觉。

晚点:你之前说机器人到 L4 阶段还要 5 到 10 年,比特斯拉、 Figure 等公司给出的预期晚很多,为什么?

郭彦东:因为训练机器人的数据是个大难题,达到 L4 所需的数据数量和质量得是现在的 100 倍以上。

Scaling law 是一个既乐观又悲观的指标,乐观在于数据量越大,模型性能越强。但它是一个单调递增函数,不过训练到后面,获得同等程度性能增长所需的数据量也是成倍增长的。

我现在想的是,5 年内做不到 L4 的情况下,怎么让机器人落地做商业化。其实 Figure 预期一点都不早,参考他们官网,劝所有投资人有耐心。只是国内有公司炒作。

晚点:但我们从很多人那听到一个很美好的叙事,用视频生成的技术,让大模型教机器人,提升机器人训练速度。

郭彦东:这个说法是违背基本信息论的。视频生成数据的规模是有上限的,如果没有新的信息进去,它就无法生成新东西。视频生成数据的规模上限就是生成器的大小。

如果生成器不能把现实世界的东西学会,机器人就学不会。但如果你已经能让生成器学会世界上所有东西,在那之前你就已经有能力让机器人学会所有事情了。生成的数据更多是补充,而不能作为单一来源。

晚点:那在机器人训练上,你的计划是什么?

郭彦东:我们现在就是想办法投出去更多机器人,提供真实服务,获得真实数据。做轮式就是为了更快让更多机器人落地,产生高质量的数据。

我觉得 1 万台,甚至 10 万台的机器人去采集时,数据量才够实现 L4。我们准备在 2028 年实现数万台的年出货量。

晚点:除了汽车工厂,还有哪些场景支撑你实现这么高的出货量?

郭彦东:轮式机器人很适合干 24 小时的活,我们干的第一件事就是找这种活,咖啡店、便利店之类。这些场景人类都是要三班倒干,我机器人一班就行,这样机器人替代人类的成本空间大得多。

我们在虹桥机场还有个单子,帮旅客收纳行李车。虹桥机场光干这个活就有 300 人,一年成本 2000 万,每天就是把散落的行李车收纳到一起。机器人可以干这个活儿,人也不用凌晨 2 点收纳行李车了。当然以后真正的大场景还是家庭。

机器人帮郭彦东拉行李箱。来源:智平方。

晚点:我们之前和余轶南(维他动力创始人)聊,他说人形机器人进家庭,把机器人放在哪里都是个难题。

郭彦东:还是很多房子都放得下的,哈哈。机器人管家自己有办法。

晚点:你觉得这种机器人,卖多少钱合适?

郭彦东:我觉得做到一辆 A 级车的价格,10 万元左右差不多。现在家庭场景还没完全成立,但已经有人想了很多新奇的商业玩法,比如卖个物业公司,几个家庭共享一个机器人,没事了就让机器人待在楼道里。

机器人还是得先通用,才能进家庭。不然很容易把机器人做成专机,它就变成另一个扫地机,离家庭管家越来越远啦。

晚点:我们看有些公司的机器人已经卖到 5 位数以内。

郭彦东:我借着晚点的平台呼吁一下,现在机器人还没到卷价格的时候。现在最重要的应该是让客户觉得好用,而不是便宜。如果大家只关注便宜不关注性能,对研发的伤害很大,就没有人造了不起的机器人了。

晚点:现在的机器人行业,你最欣赏哪个公司?

郭彦东:整个中国机器人行业都应该感谢宇树,它是一个开拓者,让大众都关注到机器人。

宇树在技术上,尤其是控制 + 机电系统,给双足、四足的公司都做了很好的范本。如果没有宇树,中国机器人供应链没有现在相对完善的供应链,没有它在前面跑,我们没有现在的红利吃。

题图来源:智平方