中金|具身智能系列(四):机器人大模型,多模融智,硅基具升
发布时间:2025-09-19 10:18 浏览量:2
中金研究
我们认为机器人大模型是破解传统机器人控制瓶颈、迈向通用具身智能的关键路径。当前行业主要基于大语言模型、自动驾驶大模型及多模态大模型探索的发展方向,产业重心已转向“小脑+大脑”系统研发,而不同企业在研发与商业化路径上存在差异。
Abstract
摘要
机器人大模型助力通用具身智能发展。 传统机器人在任务、场景和数据方面存在较强的专一性,泛化能力较弱,难以应对复杂环境,更偏向“人形机器”的属性。相比人类学习,机器人在集体学习效率上具备优势。目前行业已形成共识,即机器人大模型可通过融合视觉、触觉等多模态信息,弥补机器人在“物理常识”方面的不足,是推动产业向通用具身智能迈进的重要路径之一。
现有成熟模型应用于机器人存在局限。 大语言模型在自然语言处理领域虽发展成熟,能提供专业的信息咨询与方案建议,但暂无法直接解决机器人物理操作问题,且存在“幻觉”现象,在与机器人技术整合过程中也面临困难。自动驾驶模型与机器人在感知、决策、执行的底层技术上有相通之处,但机器人面临的场景更复杂、对通用性要求更高,自动驾驶领域存在的极端场景泛化不足、安全冗余失衡等问题,机器人目前也难以有效突破。
商业化路径选择与企业能力边界待明确。 商业化进程中,“硬件优先”(由车企、机器人企业主导)与“模型优先”(由AI企业主导)两种路径各有特点与优势。受场景复杂度、技术门槛以及商业回报周期等因素影响,多数企业可能会聚焦于特定垂直领域,实现该场景下的“通用/柔性”应用;我们认为,仅有少数具备全栈能力的企业,有望进一步突破至“具身智能”层级。
我们与市场的不同点? 我们认为只有极少部分具备全栈技术能力、资源整合优势与长期主义战略的企业,未来将通过收敛技术路径,最终定义“具身智能”的核心标准。
风险
技术尚未成熟,市场竞争激烈,行业政策待完善。
Text
正文
引言
回溯至2021年之前,机器人领域仍处于相对平稳的发展阶段,市场普遍认为行业尚未进入快速发展期。彼时,市场通过波士顿动力等企业的视频更新可观察到机械控制技术的升级(例如机器人从四足形态迭代至双足形态),同时亦可见到酒店运送机器人、工业机器人及工厂协作机器人的逐步普及,但科幻作品中所描绘的通用人形机器人仍距离现实较远。随着Chat GPT、DeepSeek等大语言模型与多模态模型的推广应用,全球人工智能领域开始聚焦特定场景的落地应用,尤其是强化学习与模仿学习技术,逐步对机器人领域产生深远影响,市场对“具身智能”的期待随之提升。
本文将从以下多个视角讨论机器人大模型的发展:
► 机器人大模型为解决当前机器人产业发展的核心瓶颈提供了关键思路,有望系统性应对机器人缺乏物理 “常识”的根本问题。从产业生态来看,发展机器人大模型已成为明确趋势,同时也是响应国家战略与社会需求的重要技术方向。
► 大语言模型在文本和图形处理领域表现出较强能力,但目前无法直接为机器人提供全面赋能。现阶段,嵌入机器人的大语言模型更偏向“顾问”角色,而非可靠的“执行者”。机器人能否成功完成任务,关键仍取决于其在物理世界中的感知、控制和执行能力。此外,尽管自动驾驶与机器人在多模态感知融合、决策规划算法等底层技术上存在共通点,但相较于自动驾驶场景中较少的传感器信息、结构化的环境以及单一的行动方式,机器人需要处理更多样的传感器信息,应对非结构化的开放场景,并采用更复杂的行动方式,面临的挑战更大。
► 市场对机器人的期待与其实际应用能力之间仍存在差距。当前市场对人形机器人的期待已从“通用/柔性”向“具身智能”转变,“硬件优先(先研发本体硬件)”与“模型优先(先开发软件)”的选择,是不同企业基于自身资源禀赋和商业模式做出的决策。我们认为,未来多数企业可能会止步于部分垂直场景的“通用/柔性”应用,少数企业则有望通过整合技术路径,参与 “具身智能”标准的定义,而通用智能体的定义标准,也会随着生产力的发展不断演变。
► 其他问题,例如数据稀缺问题以及关键安全场景问题。
图表1:报告逻辑关系图
资料来源:中金公司研究部
为何需要机器人大模型?
过去是人形的机器,而非机器人
传统机器人的控制主要依赖规则编程、模块化算法和特定任务的小样本学习,核心特征为“任务专一性”——即针对具体场景定制控制逻辑,泛化能力普遍较弱。传统机器人控制遵循经典的 “分层架构”,将复杂任务拆解为独立模块,各模块通过预定义规则或简单算法协同工作。传统机器人控制的局限性主要体现为 “三专一低” :
► 任务专一: 一个机器人仅能完成1-2种预设任务;
► 场景专一: 离开特定训练场景后性能骤降;
► 数据专一: 依赖人工标注的小样本数据;
► 泛化能力低: 难以通过“常识”推理解决新问题。
简单的机器学习算法虽能处理部分模式识别问题,但模型规模和泛化能力有限,难以满足复杂动态环境下多样化的任务需求。大模型的出现与普及,在一定程度上打破了这种局限,为机器人提供更智能、灵活的控制方式。
图表2:在大模型之前:人形的机器,而非机器人
资料来源:Zeng F, Gan W, Wang Y, et al. Large language models for robotics: A survey
第一性原理 #1 :人的个体学习方式的生物学含义
从生物学角度看,人类的学习是一个由多个神经系统共同作用的可塑性过程。 当人反复经历某种刺激或进行某项技能练习时,大脑中相关的神经元连接会得到加强,形成更高效、稳定的神经通路,而无用的连接则逐渐弱化甚至消失,这是“赫布理论(Hebbian theory)[1]”的生物学体现。例如,婴儿学习走路时不断跌倒又爬起,正是小脑、运动皮层和感觉皮层之间通过不断试错、重塑神经突触、最终建立正确神经回路的过程。
图表3:人的个体学习方式
资料来源:约翰•D•布兰思福特,《人是如何学习的》,2013,中金公司研究部
第一性原理 #2 :机器人具备集体学习能力
在人类认知的漫长进程中,学习始终是个体通过反复试错积累经验的过程;而机器人的集体智能模式则呈现出显著不同的特征——当一个机器人掌握新技能时,其学习成果可通过数字网络快速转化为整个机器人队伍的共有知识。
这种集体智能呈现出三重特征: 首先,它实现了学习效率的指数级提升,规避了人类社会中重复“发明轮子”的认知浪费;其次,它保证了知识传递的保真,避免了口耳相传或文字记录中的信息衰减;更重要的是,这种能力使机器人群体形成了真正意义上的“超级有机体”——每个个体既是特定环境的感知终端,又是集体智慧的受益节点。
然而,当机器人将依靠集体智能快速掌握的知识应用于实际环境时,却常因环境差异导致效果受限。 在这一维度上,机器人的集体智能尚未具备人类学习中展现出的高度灵活性与广泛适应性。因此,如何在现有集体智能基础上,实现类人的仿生学习突破,将成为机器人学习能力实现下一次提升的关键方向。
解决物理常识缺失是机器人学习的关键挑战。 人类拥有对物理世界的直觉,而机器人缺乏此类常识。此类常识的构建,需要通过多传感器融合,结合视觉、触觉、力量感应数据以建立便于机器人理解的物理属性表征,进而在仿真环境中经过充足训练后弥补机器人物理常识数据的缺失。
在仿生学习路径方面,机器人可能从“机器训练”到“人类化学习”的转变。 借鉴人类学习的生物学机制,机器人应具备在线适应与实时调整的能力。例如斯坦福大学Kaizhe Hu等研究人员提出的RTR框架,允许机器人在执行任务时通过少量试错实时更新模型,类似人类在实践中即时调整策略的方式。同时,模仿学习也至关重要:通过人类示范数据(如视频或动作捕捉)初始化策略,甚至采用“教师-学生”框架让机器人接受物理指导,模拟人类教学中的触觉引导。这些方法可使机器人像人类一样,通过观察与实践快速掌握新技能。
图表4:强化学习与模仿学习
资料来源:深蓝具身智能,中金公司研究部
机器人大模型:迈向通用具身智能的重要路径之一
机器人大模型是解决产业发展核心瓶颈的关键路径 。 机器人大模型或将系统性地应对机器人缺乏物理“常识”的根本难题。今年以来,市场投资重点已从人形机器人硬件转向“小脑/大脑”系统研发,这一转向反映出行业共识,即通过大模型构建通用基础能力,才能支撑机器人最终在智能制造、家庭服务、医疗康复等场景中大规模应用。同时,机器人大模型也是回应国家战略与社会需求的关键工具,“具身智能”已被纳入国家未来产业规划,面对服务业劳动力短缺的突出问题,具备泛化能力的机器人将成为替代的关键工具。
大语言模型和自动驾驶模型无法直接应用于机器人
基础大语言模型已较为成熟
大语言模型(Large language model,LLM)的演进是一场深刻的范式转移,让机器第一次能“理解”词语间的语义关系。 其革命性突破源于2017年诞生的Transformer架构,该架构基于自注意力机制(Attention),突破了传统循环网络的局限,实现了前所未有的并行计算效率,为后续大模型发展奠定坚实基础。在Transformer架构支撑下,“预训练+微调”的技术范式得以确立,语言模型规模随之快速扩大。2018年,BERT通过双向编码深化了上下文理解,GPT系列则沿自回归生成路径持续迭代;2020年,具备1,750亿参数的GPT-3问世,验证了“Scaling Law”(规模法则)——即当模型参数、数据量与算力突破特定阈值时,模型会涌现出零样本学习、少样本学习、逻辑推理等此前未有的能力。
如今的大语言模型已展现出较强的综合能力。 其核心在于深度的语言理解与生成,不仅能进行精准的翻译和摘要,还能创作流畅连贯的长文本。更重要的是,大语言模型内化了海量知识,成为一个可动态访问的知识库,并展现出复杂的逻辑推理与思维链能力。此外,它们已突破纯文本的界限,进化成多模态系统,能同时处理图像、代码等多种信息。通过情境学习,它们无需参数更新就能快速适应新任务,这种灵活性使其在代码生成、智能客服、医疗、法律、金融等垂直领域得到深度应用。
图表5:大语言模型发展时间线
资料来源:赵鑫,李军毅,周昆,唐天一,文继荣《大语言模型》,2024年12月,中金公司研究部
但大语言模型暂时还没法直接赋能机器人
尽管大语言模型如GPT系列在自然语言处理领域展现出较强的能力,但我们认为,这些语言模型目前仍无法真正赋能机器人,来实现全面、可靠的实际应用。这一困境源于多个层面的根本性限制,涵盖了从技术实现到哲学思考的广泛问题。
我们认为,核心问题在于大语言模型与机器人之间存在的“物理界限”。 LLM擅长处理虚拟世界中的符号和语言关系,通过概率预测生成流畅的文本,但它并不“理解”物理世界的因果法则。机器人则恰恰相反,它需要在一个充满随机性的真实环境中行动。一个简单的指令,如“拿个苹果”,对LLM而言是词汇组合问题,但对机器人而言,却涉及导航避障、识别苹果形状、计算抓取力度等一系列复杂物理操作。 LLM可能给出看似合理的行动计划,但机器人的硬件往往无法执行,或者环境的细微变化就可能导致整个任务失败。
大语 言 模型自身的固有缺陷使其难以成为机器人可靠的“大脑”。 最典型的问题是“幻觉”,大语言模型可能生成完全错误甚至危险的指令。再者,技术整合的复杂性是另一大障碍,直接将大语言模型与机器人进行连接已有案例但目前并无法接管机器人的控制。大语言模型只是提供了更友好的人机交互界面,而非完全接管控制。安全与伦理担忧限制了其部署速度。许多机器人专家认为,大语言模型仍存在不可控性和不可解释性,将其直接应用于物理世界仍存在危险性。
因此,我们认为,大语言模型目前更像是一个博学的顾问,而非可靠的执行者。 它为机器人带来了前所未有的常识推理和自然交互潜力,但其能力目前主要局限于信息处理和方案提议层面。真正决定机器人能否成功完成任务的,依然是其在物理世界中的感知、控制和执行能力——这些领域至今尚未因大语言模型而出现革命性突破。让机器人像人类一样理解和应对这个混乱的世界,仍然是人工智能领域最艰巨的挑战之一。
机器人的多传感器特性决定了其模型需具备多模态
机器人常配备视觉、听觉、触觉、压力等传感器,但传统方式下各模态数据独立处理,难以形成对环境全面准确认知。 大模型的多模态融合技术,整合视觉图像、语音指令、触觉反馈等不同模态信息,构建统一环境理解。如视觉-语言融合,使机器人看到物体同时理解对应语言描述,加强对环境感知与任务执行能力;视觉-触觉融合,在抓取物体时,视觉定位同时通过触觉反馈调整力度,提升操作精准度与稳定性。
图表6:多模态技术构成
资料来源:任浩,王晓明,《多模态融合技术提升智能机器人感知精度探索》,2025年4月,中金公司研究部
自动驾驶没解决的问题,机器人就能解决吗?
自动驾驶和机器人在硬件配置、多模态感知融合、决策规划算法等底层技术上存在诸多相通之处。 从产业实践来看,产业链中已有多家企业(如整车厂、激光雷达、视觉传感器、软件及域控制器等整车供应链企业)从自动驾驶领域向机器人领域延伸,主要基于自动驾驶与机器人在硬件、软件供应链上的较多相似性。但目前自动驾驶普及仍停留在L2、L2+阶段,尽管存在诸多因素导致高阶智驾落地困难,在自动驾驶尚未全面落地的背景下,机器人产业能否提前实现商业化落地,仍需进一步探讨。
图表7:与自动驾驶类似,具身智能的实现包括“感知、决策、控制”三个主要环节
资料来源:特斯拉官网,机器人在线,中金公司研究部
图表8:自动驾驶与机器人的区别
资料来源:百度智能云社区,中金公司研究部
从基础模型到机器人大模型路径的海外经验
当前,基于基础模型的机器人模型在广泛的多模态多样本数据上进行预训练,并可以通过微调(fine-tune)适应各种多过程复杂任务。 诸如谷歌的RT-1/RT-2和PaLM-E、Inflection AI的π0/π0-FAST/π0.5、以及Figure AI的Helix等机器人大模型已在机器人控制领域展现出实力,包括端到端控制、对象泛化性、快速高效训练、零样本能力(zero-shot)和复杂决策和快速动作的同时实现等。
先为大模型装上灵巧手,还是先为电机装入思维?
市场的期待和机器人实际能力中存在认知“鸿沟”
我们认为,2024年是人形机器人的元年,而2025年的新品快速推出、快速融资使得行业热度快速提高。 根据高工机器人不完全统计,2025上半年,国内机器人产业链有88起融资事件披露,融资事件数量相较2024年同期增长近80%,保守预计融资规模累计超过50亿元(注:移动机器人、人形机器人及具身智能大模型企业未在统计范畴内),融资企业类型覆盖了工业机器人、协作机器人、核心零部件、机器视觉、传感器、灵巧手、特种机器人、手术机器人、配件等。资本市场对机器人赛道的“FOMO”(Fear of Missing Out,害怕错过) 情绪达到高点。
然 而,当前机器人行业正处于矛盾凸显的发展阶段,市场的期待和机器人实际能力之间存在“认知鸿沟”。 一方面,市场需求旺盛,对各类机器人的期待持续提升,行业外非从业者甚至对机器人抱有“科幻电影式”的理想化预期;另一方面,机器人在技术能力、成本控制及场景适配等方面仍存在显著不足,导致“需求与能力”的鸿沟持续扩大,实际应用场景落地面临一定挑战。目前市场需求正从简单自动化向复杂智能化快速演进:例如在工业场景中,虽已有机器人进入汽车制造、物流仓储等领域,但实现规模化应用的案例仍较为有限,客户已不满足于单一功能的机械臂,转而期望机器人能完成柔性生产、复杂装配等需“自主决策”的任务;在家庭场景中,用户不仅希望机器人完成扫地等基础清洁工作,还期待其具备整理房间、照护老人、辅助儿童学习等复合能力。
我们认为,这种认知差本质上是硬件性能与模型能力的协同进化滞后于场景需求升级的产物。这种割裂在硬件与模型的交互中体现为多重矛盾:硬件暂未收敛、模型能力断层、软硬件协同设计缺失。
图表9:经典机器人科幻电影剧照
资料来源:IMDB,中金公司研究部
硬件first,还是模型first?
当前市场对人形机器人的未来期待已从“通用/柔性”转向“具身智能”,各类企业的落地路径出现了明显的分歧,存在“硬件first(先做本体硬件)”和“模型first(先做软件)”两大类。我们认为这两者只是不同企业的资源禀赋和商业模式下的产物,大部分公司可能最终会止步于垂类场景的“通用/柔性”,极少部分公司未来将收敛技术路径从而定义“具身智能”,而所谓通用智能体的定义,会随着生产力的提高而无限提高。
► “硬件优先”路径:选择该路径的企业,通常具备深厚的机械工程、精密制造或核心零部件研发积累。 例如拥有伺服电机、减速器、灵巧手等关键硬件的自主设计能力,或在机器人本体结构优化、运动控制算法上有长期技术沉淀。这类企业的商业模式核心是,先打造性能可靠、成本可控的硬件本体:例如部分工业机器人巨头,从自身擅长的精密机械领域切入,先推出适配工厂装配场景的人形机器人本体,通过硬件迭代积累真实场景的运动数据,再逐步叠加软件智能功能。目前我们也观察到多家车企深入机器人制造领域(如特斯拉、小鹏),这类企业同时具备大规模制造能力与规模化应用场景优势。
► “模型优先”路径:选择该路径的企业,多源自AI领域,拥有大模型研发、多模态感知融合或强化学习的技术优势。 其核心逻辑是先构建智能大脑(即机器人大模型),再反向定义硬件需求——通过训练可理解自然语言指令、解析复杂场景的具身智能模型,明确机器人所需的感知精度(如视觉分辨率、力觉反馈灵敏度)、运动自由度(如关节灵活性)等硬件指标,再联合硬件厂商定制开发本体,部分互联网科技公司即采用此类路径。
图表10:人形机器人参与主体类型
资料来源:人形机器人洞察,各公司官网,中金公司研究部
互联网厂商在大模型领域的能力能否快速迁移至机器人并拿到主导权?
互联网大厂在语言、图像等大模型的研发积累了深厚的技术实力和丰富的数据资源 。 理论上,可将模型技术优势移植到机器人大模型领域,通过跨领域创新实现弯道超车。但机器人领域的特性使其面临物理世界交互、实时控制等独特挑战,与互联网的应用场景有一定区别。我们认为,互联网大模型大厂需在机器人硬件理解、实时控制算法、多模态融合等方面深入研究攻关,并充分结合自身模型优势,才可能在机器人大模型赛道取得突破。
► 多模态先发优势: 互联网公司在自然语言处理、计算机视觉等领域的技术积累为机器人大模型的多模态感知和交互提供了基础。
► 数据资源: 互联网公司拥有海量内容数据,这些数据可以用于训练基础多模态大模型。
► 算力基础设施: 互联网公司是目前市场上在算力资源上占主导地位的一方,在大模型扩容上有一定优势。
大部分公司可能最终会止步于垂类场景的“通用/柔性”
从行业发展规律来看,大部分人形机器人企业可能最终会止步于垂类场景的“通用/柔性”阶段,难以突破到“ 具 身智能”的核心层级。 这一判断源于场景复杂度、技术门槛与商业回报的三重约束。
► 我们预计,垂类场景的通用化和柔性化将在中期内快速满足特定领域的商业化需求,且技术实现成本更低,利用现有成熟的技术加以改良则可快速落地,比如物流领域的小型无人车、工业领域的轮式双臂机器人、商超领域的分拣机器人等。
► 突破到“具身智能”需要跨越多重技术鸿沟,这些技术突破需要长期的研发投入与数据积累,并非多数企业所能承受。
► 垂类场景的商业验证周期更短,能快速形成“技术-劳动力替代-订单-折旧-现金流”的闭环,而“具身智能”的落地需要更长时间的场景打磨,ROI存在不确定性,这也使得大部分企业更倾向于聚焦垂类场景,做快速的商业化铺开。
只有极少部分具备全栈技术能力、资源整合优势与长期主义战略的企业,未来将通过收敛技术路径,最终定义“具身智能”的核心标准。 这类企业往往具备两大关键特质:一是“硬件-软件-数据”的全链条掌控能力——既能自主研发高性能硬件本体(如高功率密度关节、多模态传感器),又能打造适配硬件的具身智能模型,还能通过真实场景运营积累海量“感知-动作”数据,形成“数据反哺模型优化,模型驱动硬件迭代”的闭环;二是这些企业可能需要放弃短期商业回报,聚焦核心技术突破的战略定力。
图表11:各厂家机器人在工厂中的搬运工作
资料来源:36氪,各公司官网,中金公司研究部
未来机器人产业链可能会摆脱“全链条自研”而走向专业分工模式
我们认为,参照消费电子、汽车等成熟产业的发展规律,机器人产业在中期(3-5年)内将逐步摆脱当前“全链条自研”的分散格局,向“专业化分工、协同化整合”的模式演进。这一趋势的核心驱动力,源于机器人技术复杂度提升(硬件精密化+软件智能化)、场景需求多样化(工业/家庭/医疗等场景差异显著),以及商业效率最大化的产业规律——单一企业难以在“硬件制造、底层软件、操作系统、智能模型”全环节建立绝对优势,分工将成为降低研发成本、提升产品迭代速度、加速产业规模化的必然选择。具体来看,这一分工模式将从“技术层分工”与“商业层分工”两个维度展开,形成清晰的产业协作体系。
其他待解决问题:数据与安全
机器人领域基础模型面临的数据稀缺问题,有哪些具体解决方法?[2]
机器人大模型的“数据飞轮”仍未形成,机器人模型面临数据稀缺的问题。 在理想状态下,更大规模人形机器人的落地部署能够自然产生更大规模的实机数据,进而反哺机器人大模型的训练,再通过模型能力的提升加速机器人实机的落地应用,形成机器人领域正向循环的“数据飞轮”。然而目前这一“数据飞轮”尚未实现,短期机器人大模型领域基础模型训练所需的大量数据依然十分稀缺,制约了其规模化训练与泛化能力。与其他AI领域相比,机器人数据在规模、多样性和标注成本方面存在显著瓶颈。目前,产业界与学术界主要通过真机数据、仿真十句和互联网视频应对这一挑战。
图表12:机器人大模型训练模型的几种主要来源方式
资料来源:智元机器人官网,Nvdia Developer,中金公司研究部
在安全关键场景中,如何确保基础模型的可靠性?
机器人大模型带来新的安全隐患
大模型显著改变了机器人的工作方式,却也带来了新的安全隐患。 能和现实世界互动的具身AI机器人,可能被恶意攻击诱导做出危险动作。2024年,《论LLM/VLM在机器人部署中的安全之虞:风险与脆弱性剖析》研究发现操纵或误导机器人行为容易引发安全危机。该报告定义并示例了若干可行的对抗攻击,并在三大主流语言模型增强的机器人框架(KnowNo、VIMA 与Instruct2Act)上开展实验,以评估其易受攻击程度。实证结果表明,LLM/VLM-机器人集成系统存在一定脆弱性:仅需简单对抗攻击即可显著削弱系统效能。具体而言,在提示攻击下性能平均下降21.2%,感知攻击下更高达30.2%。上述发现迫切要求研究鲁棒防御机制,以确保基于LLM/VLM的先进机器人系统能够安全、可靠地部署。
投资建议
长期看,机器人大模型市场具备较强潜力,是通往具身智能的重要路径之一;短期看,市场就机器人企业的商业落地模式仍有较大争议,我们认为“模型优先”和“硬件优先”企业都有望凭借各自的先发优势抢占市场份额。同时,建议关注互联网大厂在机器人大模型领域布局进展,以及可能带来技术革新与市场格局重塑。我们认为,未来只有少部分具备全栈技术能力、资源整合优势与长期主义战略的企业,未来将通过收敛技术路径,最终定义“具身智能”的核心标准。