VLA模型:具身智能的突破与挑战
发布时间:2025-06-03 18:00 浏览量:2
在具身智能领域,视觉-语言-动作模型(VLA)作为一种新兴范式,正逐渐崭露头角。该模型通过整合视觉信息、语言指令和行动决策,显著提升了机器人对复杂环境的理解和适应能力,为机器人从单一任务执行向多样化场景自主决策的转变提供了强大支持。VLA因此成为学术界和工业界的研究热点。
近期,雷峰网与AI科技评论GAIR Live品牌联合举办了一场线上圆桌沙龙,主题为“具身智能之VLA的实践与突破”。此次沙龙由北京大学计算机学院助理教授仉尚航主持,并邀请了清华大学交叉信息院的助理教授高阳、赵行,以及北京大学人工智能研究院的助理教授杨耀东,共同探讨VLA的最新进展和未来方向。
沙龙上,仉尚航首先引导讨论了VLA的定义、起源及其与其他相关模型的区别。随后,各位嘉宾深入分析了VLA的技术路线和新成果,探讨了不同技术路线的优缺点,并围绕机器人常见任务,剖析了核心技术瓶颈和主流输出范式。还讨论了强化学习与VLA的结合、泛化能力的提升、异构数据的利用以及协同训练等议题。
高阳指出,推理与数据是当前VLA面临的两大核心挑战。尽管已有不少研究探索了VLA与推理的结合路径,但尚未找到最优方案。同时,VLA的数据量级远不及训练大语言模型(VLM)的数据,且多样性严重不足,这限制了模型的能力提升。赵行表示,VLA在实际应用中的系统运行频率单一化问题,以及高低频自适应闭环系统的设计,仍是未解决的课题。杨耀东则提到,当前VLA训练存在割裂问题,大脑(VLM)和小脑(底层策略模型)多分开训练,缺乏端到端训练及类似人类大小脑的双向交互。
在讨论VLA的前世今生时,高阳回顾了VLA的起源和发展,指出其源于大模型的技术变革。杨耀东则从大模型视角和行为动作决策控制视角阐述了VLA的重要性。赵行则分享了GPT-4发布对其研究方向的启发,以及VLA在解决长尾问题上的潜力。
对于VLA的技术路线和最新进展,高阳提到了架构与数据两方面的进展,并强调了数据多样性的重要性。杨耀东从模型架构角度分类了VLA,并探讨了行为动作空间的表征方式。赵行则关注双系统设计,并介绍了不同团队在VLA方面的研究成果。
在探讨VLA的核心技术瓶颈时,高阳强调推理和数据的挑战,赵行提到高低频自适应闭环系统的设计难题,杨耀东则指出端到端训练和测试时计算闭环的缺乏。对于强化学习与VLA的结合,嘉宾们一致认为这是VLA发展的必由之路,但仍面临许多未解问题。
在数据使用方面,高阳强调数据的多样性比绝对数量更重要,并介绍了千寻智能如何利用互联网数据优化VLA模型。杨耀东则提出,互联网数据虽然丰富,但信噪比低,且对具体任务的适用性有限。赵行则认为,仿真数据可以作为真实数据的补充,通过技术手段缩小sim to real gap。
对于VLA的泛化能力,嘉宾们提出了多种提升策略,包括利用大量互联网数据进行联合训练、创新模型架构、实现具身认知等。在探讨VLA与本体构型设计的关系时,嘉宾们认为VLA模型与机器人本体没有必然绑定,但硬件局限和VLA能力需相互匹配。
最后,关于VLA是否能完成长程任务,嘉宾们持不同观点。高阳认为,先通过VLM拆解任务再由VLA执行是更实际的方法。杨耀东则强调VLA具备完成长程任务的潜力,并指出需赋予模型推理能力和测试时计算闭环。赵行则提出,需先定义和评测推理能力,再探索VLA在长程任务中的应用。
在落地场景方面,嘉宾们一致认为工业场景是VLA最先落地的选择,但也提到了商业领域和ToBC模式等新场景的可能性。
此次圆桌沙龙为观众带来了VLA领域的深入洞察和前沿思考,对于推动VLA技术的发展和应用具有重要意义。