特斯拉擎天柱“脑”进化逻辑
发布时间:2025-09-30 18:17 浏览量:1
文/李佳师
特斯拉机器人擎天柱Optimus V3将于年底发布,设计稿已进入最终定夺环节,9月初特斯拉CEO马斯克用了“纠结”(Struggling)一词来形容工程师的最后打磨;9月27日,马斯克在X上发布推文:“特斯拉正努力扩大Optimus的规模”。眼下,特斯拉正紧锣密鼓为Optimus V3上市前做各种准备,而马斯克给出擎天柱的能力描述让业界看到了一些通用机器人曙光。
目前,机器人的GPT-3时刻还没有到来,机器人能力泛化尚在探索中。特斯拉机器人探索备受关注,因为马斯克已经让电动车跑遍了全球、把火箭送上了天、星链也已在部分地区启用,那么马斯克能不能让机器人能力实现通用化,明年年初是一个重要时间点。已经呈现出“一些曙光”的Optimus,其技术迭代与的背后有很值得研究的底层逻辑,释放出机器人发展的技术路线变化。
当下,全球机器人产业的最大困局是机器人“智力”不足。
机器人大脑还处于百花齐放的技术发散期,面临多种模型架构选择,包括端到端架构、分层决策架构、混合架构、借鉴自动驾驶架构、类脑架构等,到底哪种架构最后一统江湖,没人能回答。因为每种模型架构都各有优势,但挑战同样突出,所以每一种架构都各有厂商采用。
为什么特斯拉机器人V3版本的大脑值得探究,一方面它已经展现出一些场景泛化、自适应学习、多任务迁移的特点。
Optimus能把在工厂学到的技能直接迁移到家庭场景无需重新编程,比如现在特斯拉工厂执行电池分拣、物料搬运的Optimus,只需通过观看人类做家务的视频,就可以完成自主完成地面清洁、厨具整理,折叠T恤等家务,实现从单一执行到复杂组合的能力。
另一方面也是最重要的一点,特斯拉人形机器人的大脑演变,是一个多样化机器人大脑的进化样本,为其他厂商下一步打造更强大脑提供了一个可借鉴的“他山之石”。
特斯拉机器人并非一开始就采用端到端神经网络架构,是从分层模块架构起步最后走到了端到端神经网络架构的。
2021年8月,在首届特斯拉人工智能日(AI day)上,马斯克提出“人形机器人的概念”,特斯拉开始着手机器人大脑设计,而当时整个机器人尤其是工业机器人领域普遍采用感知、决策、执行分层架构,特斯拉也沿用了模块化分层架构同时大量复用特斯拉汽车技术。
很快特斯拉发现机器人的“看”与汽车的“看”有着本质区别。
机器人的“感知”不是识别“物体”而是理解“物体与自身的交互关系”,感知到的信息必须有用且能直接指导行动。与此同时,特斯拉意识到人类行动往往是直觉性的,不是先想再做,而是看到就做,分层架构既有可能导致关键信息损耗,又进一步增加了响应时间。基于此特斯拉决定转向端到端神经架构(类似于FSDV12的“视频输入-决策输出”逻辑),希望像人一样直觉性行动,“看到就做”,直接将视觉信号转换为关节控制指令,决策延迟从分层架构的200毫秒下降到采用端到端架构后的100毫秒。
当特斯拉Optimus的大脑进化到具备基础的感知与运动能力,在2022年Optimus原型机已可以完成搬运箱子、浇花等任务后,特斯拉开始关注到机器人无法应对复杂环境中的“非结构化任务”问题,比如给出 “整理桌面”任务时,就需机器人理解“杯子、书本的位置关系”,这需要一种能够让机器人理解物理世界的“世界模型”。
2023年7月,特斯拉AI负责人Ashok Elluswamy在CVPR 2023演讲中提到,特斯拉正在为自身AI构建“通用世界模型(General World Model)”,其目标是让机器人“理解”物理世界的规律(如物体的运动、交互逻辑),从而实现更智能的决策。
这是特斯拉机器人“大脑”进化的关键一步。在此之前特斯拉机器人的基础能力包括搬花、浇水等主要依赖编程与传统的运动控制算法实现,而非自主学习或泛化的智能决策,这一阶段的机器人更接近“可编程的机械臂+仿生躯干”,其行为由预设的代码逻辑、运动轨迹规划及传感器反馈(如力觉、视觉)共同驱动。
世界模型的引入,可以说是特斯拉机器人大脑进化的里程碑节点。世界基础模型就好像给机器人赋予了“物理直觉大脑”和“未来推理引擎”,对于提速机器人智能的关键价值,正在成为业界共识。
对话系统的引入是特斯拉机器人大脑进化的又一个维度。2024年10月特斯拉首次在公开场合展示演示机器人的基础对话能力,但此时的对话系统是基于本地化的小模型;2025年6月特斯拉官方确认对话系统升级,开始与Grok大模型整合,带来的改变是机器人对于人类语义理解准确率上升至92.3%,还可以通过语调判断用户情绪,和用户进行多模态交互,能够通过观察人类行为优化相应策略。
不难看出,特斯拉机器人大脑的每一次演进,都围绕着两大核心目标:提升泛化能力和降低延迟。应该说特斯拉机器人大脑走的是一条从专用到通用逐步提升泛化能力的技术路线。
如果V3能够在年底交出,将宣告马斯克的机器人的正式从实验室走向了商业落地,验证马斯克机器人路线能走通。
这是否意味着全球机器人的发展已经进入了技术收敛期?其他的技术路线就失去了机会?当然不是,机器人的GPT-3时刻还没有到来,现在机器人行业现状是 “整个行业还处于荒漠阶段,荒漠上可能才长了出几根小草。” 宇树科技CEO王兴兴认为,这样的现状给所有的公司同样机会。就像GPT诞生在OpenAI这样一家AI创业公司,机器人的GPT-3也同样有可能。
事实上,今年以来不少公司的机器人模型都呈现出部分泛化能力,比如Figure AI 的Helix、谷歌的Gemini Robotics On-Device、星动纪元的ERA-42、Physical Intelligence的 π0.5、银河通用的GraspVLA等等,都让业界看到了更多机器人智能的光亮。
模型的进化需要海量的机器人数据,数据的短缺是机器人“脑”进化的又一大挑战。
传统的机器人数据采集方式效率低,成本高昂,且很难覆盖长尾场景,究竟应该以什么思路和方式来突破机器人的数据难题,特斯拉机器人的数据之路同样值得研究。
2025年6月底,特斯拉在Optimus项目组内部邮件中明确要求“减少对动作捕捉服和远程操作的依赖,转向以视频数据为核心的训练策略”。同时,在同步召开的团队会议上,机器人新任项目负责人阿肖克·埃卢斯瓦米(Ashok Elluswamy)强调:“视频数据将是我们未来训练的核心来源,需在3个月内完成技术验证。”
在此之前,特斯拉沿用机器人领域主流的数据采集方式即动作捕捉与遥操作。动作捕捉(Mocap)主要是通过在人体关键点贴反光标记或传感器,记录人体或物体在三维空间中的运动轨迹、姿态变化及力学参数;遥操作则是通过远程控制设备(如VR手柄、外骨骼)操控机器人执行任务,来实时记录操作过程中的多模态数据。这两种数据采集方式的优点在于高精度和复杂任务的可解释性,而缺点是采集效率低,难以覆盖海量任务与环境变化。
为了加快机器人数据采集的进程,特斯拉推进遥操作收集设备轻量化,且以每天“三班倒”的方式,来保障Optimus能7*24小时持续收集数据。即便是三班倒地加班加点,这两种方式采集数据对于机器人的模型训练依然杯水车薪,不仅是采集数据效率低,而且成本还极。高特斯拉Optimus的传统数据采集模式(动作捕捉+遥操作)单动作成本高达200-500万美元,百万小时级数据总成本预计2.5-4美亿元。
传统数据采集模式的“蜗牛爬行,”显然无法满足马斯克对于机器人泛化能力尽快提升的期待。2023年特斯拉机器人团队开始寻找到更低成本、更规模化的数据收集方式,特斯拉自动驾驶团队在“纯视觉”路线上的成功,启发了机器人团队。
2023年5月,特斯拉发布Optimus原型机视频,展示其在工厂分装电池的能力,视频中可见工厂环境存在多角度摄像头(如前视、侧视),推测此时特斯拉已启动初步的视觉数据采集。通过在工厂环境部署多视角摄像头系统,结合机器人本体感知设备,构建高精度视频数据集,成为特斯拉机器人数路线视觉的最早探索,这样的数据采集模式让机器人数据采集的成本下降了90%,由此Optimus逐步实现了从“监督学习”到“无监督泛化”的技术跃迁。
通过在“场景中布设摄像头+机器人本体安置感知设备”的数据采集方式,虽然大幅降低成本提升了数据采集的效率,但依然面临长尾场景覆盖不足的挑战,对于罕见交互(比如布料褶到皱、液体泼溅等)的模拟能力有限,而且跨域场景迁移时动作成功率显著降低,从工厂视频迁移家庭场景时动作的成功率下降了40%,需要引入家庭场景的自适应算法来弥补读短板。
这让特斯拉将视频数据采集的思路从“第一视角”向“第三人称视角”拓展。
特斯拉计划在2025年底实现第三人称视频的迁移学习,采用外部包括YouTube、X的海量视频数据以降低对高精度动作捕捉的依赖,目前仍面临一系列物理映射难题,包括视角歧义(如遮挡场景下的物体体位)估计和尺寸泛化、2D数据升维3D数据等挑战。
应该说,特斯拉的这次数据技术路线的转型,对机器人行业具有范式重构级的意义,不仅带来的数据成本结构的颠覆、数据质量的跃升,加速机器人从工业场景向家庭消费场景的商业化落地,还有可能重塑机器人行业的竞争新格局,将机器人行业的竞争从当下的硬件性能转向“数据资产”,未来特斯拉不仅是提供机器人本体产品,还有可能构建全球最大的机器人训练数据库,提供数据服务。
数据路线转向视觉路线,并不意味着特斯拉就彻底放弃动作捕捉与遥操作。从特斯拉内部曝光的信息,目前特斯拉Optimus团队人工数据采集的排班安排从原来的三班调整为两班交替。
除了遥操作、动作捕捉以及视觉数据外,特斯拉数据战略中还有一个被忽略第三条路线,即模拟仿真合成数据。
2025年6月在中国台北举行的Computex上,英伟达CEO黄仁勋在主题演讲中透露了英伟达的计算技术和合成数据生成能力正在帮助特斯拉在虚拟环境中训练Optimus,优化其运动规划、物体识别和任务执行能力。这些信息验证了特斯拉机器人团队正在通过模拟仿真的方式进行数据合成。
事实上,不仅仅是特斯拉,包括Figure AI、银河通用、光轮智能等都在采用仿真合成数据来构建更大规模的机器人数据集。
特斯拉通过动作捕捉、视觉视频、模拟仿真三条路线构建数据护城河,这一策略不仅降低了数据采集成本,加速了机器人从工厂到家庭的场景迁移,正在将特斯拉的机器人带到更广阔的应用场景。
这三条技术线的组合也正成为整个机器人行业解决机器人数据短缺的新选择,通过仿真生成→真实验证→数据反哺的闭环,正在重构机器人数据采集范式。未来,随着神经物理引擎与多模态生成技术的突破,机器人的数据集将更趋近真实世界,随着机器人数据集的不断变大,把机器人的数据飞轮尽快转起来,能够提速机器人从“预设任务执行者”进化为“自主问题解决者”。
通用机器人竞赛刚刚拉起帷幕,谁会是机器人GPT-3的揭幕者?我们拭目以待。