图灵巨擘RL教父齐聚 机器人秀拳脚嗨翻全场!悟界首发引爆物理AGI
发布时间:2025-06-06 20:49 浏览量:1
编辑:编辑部 YZNH
【新智元导读】刚刚,AI顶流春晚智源大会来了!深度学习和强化学习两大巨头齐聚,图灵奖得主、顶尖专家出席,2025 AI未来的发展路径,在一场场精彩的思想碰撞中被清晰解码,硬核指数已经超标。
就在刚刚,一年一度「AI内行春晚」——智源大会正式开幕!
这场科技圈最不容错过的、硬核十足的AI顶级盛会,依旧星光熠熠、干货满满。
这届大会,迎来了四位图灵奖得主坐镇,汇聚了DeepMind、Linux、华为、阿里等全球科技巨头,还有MIT、斯坦福、清华、北大等20+海内外顶尖学府研究人员齐聚一堂。
他们一同分享了硬核技术突破,更深入探讨了AI前沿与未来走向,兼具深度与启发。
智源研究院再度发力,重磅推出了「悟界」系列大模型,开启了通向物理AGI的全新篇章。
从多模态基础模型到具身智能大脑,从宏观到微观,一共四大核心成果正式亮相。
现场演示中,机器人能从琳琅满目货架上,精准拿取酸奶、果冻,不会弄乱其他商品。
而将大会推向高潮的,无疑就是图灵奖得主Yoshua Bengio、Richard Sutton等AI大佬的精彩演讲。
准备好,超硬核的思想盛宴来了!
Yoshua Bengio
5年后AI超越人类,科学家AI救场
最先作开场报告的,是图灵奖得主、深度学习领域的奠基人之一——Yoshua Bengio。
此次,Bengio教授的报告题目为《Avoiding Catastrophic Risks from Uncontrolled AI Agency》(避免未受监管的人工智能机构带来的灾难性风险)。
一上来,教授就一针见血地指出,AI的规划能力正在指数级递增。AI能完成的任务持续时间每七个月就会翻一番,这么算下来,五年后就可以达到人类水平。
然而,我们虽然会训练这些系统,但却不知道该如何控制它们。
那么当AI变得比人类更聪明时,如果它们更倾向于自己的存在而不是人类,我们如何面对这种风险?
研究表明,过去六个月里,已经有一些AI显示出具有自我保护行为,撒谎甚至是欺骗、勒索人类。
左右滑动查看
Bengio教授说,如果我们最终创造出与人类竞争的AGI,那将是非常糟糕的。
我们该怎么办?
虽然AI的性能可能很强,Bengio教授表示,但我们可以确保它们没有不良意图,保证它们是诚实的。
Bengio教授现在的研究项目就在尝试构建只有智能而没有自我和目标的AI。
目的是让AI有用但不会威胁到我们,确保AI会遵循我们的道德指令。
他将其称之为「科学家AI」(Scientist AI)。
Bengio教授现场讲解了这种新的AI推理方法:通过构建类似数学证明的结构化假设图来提高推理能力。
AI不再只是模仿人类文本,而是通过分析这些陈述的逻辑一致性和概率来寻找解释,生成更可靠的结论。
最后,Bengio教授呼吁国家、企业之间要携手合作,共同应对AI的安全风险。
Richard Sutton
AI「体验时代」来临
这次大会,还请来了2024 ACM图灵奖得主Richard Sutton,爆火博文「苦涩的教训」原作大佬。
演讲中,Richard教授分享了自己对AI未来深刻洞见,正如演讲题目所言——
AI正从「人类数据时代」,迈入「体验时代」。
他指出,当前AI训练主要依赖于互联网上,人类生成的数据,如文本、图像,并通过人类微调来优化。
在「人类数据时代」,AI在模仿人类行为和预测人类意图方面,取得了巨大的成功,比如ChatGPT。
然而,这一策略正接近极限。高质量人类数据几乎被耗尽,而生成全新知识需要超越模仿,走向与世界的直接互动。
这时,「体验时代」成为AI发展的下一个阶段。
Richard Sutton强调,AI应像人类和动物一样,从第一人称的经验中学习。
无论是婴儿通过玩耍探索世界,还是足球运动员、动物在环境中学习决策, 这些经验数据全部来自与环境中的「实时互动」。
这种数据是动态的、不断增长的,能够随着AI能力提升不断改善,比如AlphaGo通过对弈下出了「第37步」、AlphaProof在数学奥赛中拿下大奖。
因此,Richard认为,未来的AI——智能体,需要通过与世界直接交互,去获取经验数据,从而实现真正的智能突破。
与悲观派Bengio不同的是,Richard大会直言,「我不担心安全,也不担心失业,超级智能体和超级智能能够增强人类的创造,这是世界转变和发展的一部分」。
而当下,人类已经进入使用强化学习的全新「体验时代」,要发挥AI超能力,还需要更好的深度学习算法。
π联创兼CEO
构建物理智能
接下来登场的,便是曾任谷歌大脑资深研究科学家兼机器人操控主管、现任Physical Intelligence联合创始人兼CEO的Karol Hausman。
他的演讲主题为「构建物理智能」。
要知道,早先的机器人一旦遇到环境上的变化,就会无法应对;但如今,机器人开始变得更加丝滑,能跳流畅的舞蹈,还能灵活应对非结构化的环境。
所以,究竟发生了什么?
答案显而易见:AI出现了。
而其中最重要的,就是视觉语言动作模型。
首先,我们可以采用预先在网络上训练好的视觉语言模型,它对世界如何运作已经有了高水平理解,并且能将其中一些含义转移到机器人的动作上。
比如,Robotics Transformer 2从没见过霉霉的照片,却能完成「给霉霉递可乐」的这个动作。
原因正是因为,它从互联网的预训练中获得了知识,然后将知识转化,连接到机器人,让其真正实现了理解。
其次,除了互联网之外,我们还可以把各种来源的数据都整合到一起。
为此,团队训练了一个模型,来控制任何机器人执行任何任务。
经过5个月的研发后,机器人就已经能从烘干机取出衣物、放进篮子里、叠起来。
可以看出来,下面这项叠衣服的任务非常艰巨,很棘手。需要做出很多种不同动作,才能正确抓住衬衫的角。
甚至,这个系统足够强大,我们可以随时可以中断它,而不影响任务。这并没有经过专门训练。
这个过程中真正发挥作用的,就是预训练和后训练的内部模型。
下面所展示的就是他们和星辰智能的合作,让机器人学会了煮咖啡。
在泛化上,他们成功实现了让机器人在从未见过的环境里工作。
在开始打扫之前,机器人从没见过这间房间,却能在全新环境中打扫、做家务。
Hausman相信,如果真的成功解决了物理智能的问题,我们绝不会止步于人形机器人。那时,我们将经历机器人的寒武纪大爆发。
当然,虽然π展现了一些物理智能的火花,但还不是物理智能,仍处于早期阶段。
不过,就如同我们刚开始使用电的时候,需要花费很多力气才能驯服它。如果我们能解决物理智能的问题,劳动力就将唾手可得。
大会重中之重,便是智源研究院一系列的重磅发布。
过去的一年,实践证明智源在2024年对大模型技术路线预判的正确性:
大模型正从大语言模型——原生多模态模型——世界模型逐渐演进。
过去四年,智源研究院继续围绕这一趋势展开布局,并在今天重磅推出全新「悟界」系列大模型。
2021年,「悟道」大模型诞生,正式开启了中国大模型时代。而今天「悟界」大模型的出世,标志着AI从数字世界迈向了物理世界。
具体来说,「悟界」系列大模型共包含四款模型:
· 原生多模态世界模型Emu3
· 全球首个脑科学多模态通用基础模型见微Brainμ
· 具身大脑RoboBrain 2.0
· 全原子微观生命模型OpenComplex2
从微观生命体到具身智能体,「悟界」系列大模型试图揭示生命机理本质规律,构建人工智能与物理世界的交互基座。
原生多模态世界模型Emu3
去年10月,智源首次发布了Emu3,完全统一了多模态学习,统一了图像、视频、文本,统一了生成和理解。
Emu3之所以如此强大,得益于其背后的框架。
它基于下一个token预测统一多模态学习,原生支持自回归训练和推理,无需扩散模型,也无需组合式架构复杂性。
通过整合多模态数据,Emu3构建出了对物理世界的感知理解能力,为具身智能和现实交互奠定基础。
它支持多模态输入、多模态输出的端到端映射,验证了自回归框架在多模态领域的普适性与先进性,为跨模态交互提供了强大的技术基座。
值得一提的是,Emu3已面向AI社区开源。
在这个统一框架下,过去半年多时间中,智源将其扩展到更多的模态领域。
最具典型代表的,便是扩展到「脑信号」模态。
由此,全球首个脑科学多模态通用基础模型「见微Brainμ」诞生了。
全球首个脑科学多模态通用基础模型见微Brainμ
Brainμ基于Emu3架构,引入脑信号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。
具体来说,它将fMRI、EEG、双光子等信号统一token化,实现了多模态脑信号与文本、图像等模态的多项映射。
见微Brainμ以单一模型可以完成多种神经科学的下游任务。
通过整合多个大型公开数据集和多个合作实验室的高质量神经科学数据,Brainμ可以支持从基础研究到临床研究等不同的方向,有望成为脑科学的「AlphaFold」模型。
作为跨任务、跨模态、多物种、跨个体的基础通用模型,Brainμ可以同步处理多类编解码任务,兼容多种动物模型(包括小鼠、狨猴、猕猴)与人类数据,实现科学数据注释、交互式科学结论解读等。
在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中,刷新SOTA表现。
Brainμ也可以支持拓展脑机接口应用,首次在便携式消费级脑电系统上重建感觉信号。
智源正在与国内前沿的基础神经科学实验室、脑疾病研究团队和脑机接口团队深入合作,包括北京生命科学研究所、清华大学、北京大学、复旦大学与强脑科技BrainCO,拓展Brainμ的科学与工业应用。
不论是Emu3,还是见微Brainμ,都代表着智源在多模态基础模型领域的探索。
而这些成果,皆是为了让AI能够真正看到、感知、理解这个世界,并与世界进行交互,从而推动具身智能的发展。
全球最强开源具身大脑
不过,具身智能也面临诸多挑战,甚至陷入了「循环悖论」。
而具身智能大模型不好用、不通用、不易用,成为了核心痛点。
为此,智源提前布局,在今年3月发布了首次发布跨本体具身大小脑协作框架RoboOS 1.0以及具身大脑RoboBrain 1.0。
时隔3个月,全新升级后的RoboOS 2.0和RoboBrain 2.0官宣上线。
现场演示中,全新具身大脑加持的机器人本体,为小姐姐制作了一款汉堡和饮料套餐。
即便是在制作过程中,遇到了刁难——「我不要西红柿\我要这个」,机器人也能立马理解,并做出下一步规划。
而且,它还贴心考虑到小姐姐减肥需求,主动推荐了无糖可乐。最后机器人还帮忙打扫餐桌,全程操作非常丝滑。
· RoboOS 2.0
相较于RoboOS 1.0,新版本在多方面得到了升级,提供全球首个具身智能SaaS平台,支持无服务器一站式轻量化机器人本体部署的开源框架。
而且,RoboOS 2.0还将支持MCP,打造全球首个具身智能的应用商店。
在这个框架下,全新小脑技能的注册代码量,仅需1.0版本的十分之一。
同时,RoboOS 2.0推理链路效率大幅提升30%,平均延迟响应时间将至3ms,端云通信效率提升27倍。
除此之外,RoboOS 2.0在功能上还新增了业内首创多本体时空记忆场景图(Scene Graph)共享机制,同时引入多粒度任务监控模块。
具身大脑RoboBrain 2.0,是目前全球最强开源具身大脑大模型。
在空间感知/推理与多任务规划上,RoboBrain 2.0超越主流大模型,刷新SOTA。
相较于1.0,全新具身大脑模型进一步扩展了多本体-环境动态建模的多机协同规划能力。
如今,RoboBrain 2.0可实时构建出包含本体定位的场景图(Scene Graph),任务规划准确率较上一代飙升至74%。
在空间智能方面,2.0版本在原有物体级可操作区域(Objective Affordance)感知与操作轨迹(Trajectory)生成能力的基础上,实现了17%的性能提升。
更令人振奋的是,RoboBrain 2.0将「可操作区域」从物体级扩展至空间级,从而在复杂环境中执行更灵活、高效的操作。
除了在感知能力上突破,它还新增了两大核心能力:闭环反馈和深度思考。
同初代框架模型一样,RoboOS 2.0和RoboBrain 2.0所有代码、权重、数据、评测集全部开源。
全原子微观生命模型OpenComplex2
大会现场还发布了OpenComplex2,实现了生物分子研究从静态结构预测到动态构象分布建模的重大突破。
OpenComplex2能够表征生物分子系统的连续演化能量景观,在原子层面捕捉分子相互作用及平衡构象分布,为探索微观构象波动与宏观生物功能的跨尺度关联提供了全新的研究视角。
它基于FloydNetwork图扩散框架以及多尺度原子精度表示两大关键技术创新,能够更加真实地还原生物分子的构象多样性与动态特性。
这使得在建模过程中可以兼顾关键的局部结构细节与全局构象变化,为揭示生物功能提供更加全面的基础结构。
OpenComplex2突破了静态结构预测的瓶颈。
2024年,在第16届蛋白质结构预测关键评估竞赛CASP16(Critical Assessment of protein Structure Prediction)中,成功预测了蛋白质T1200/T1300的空间构象分布(定性上与实验数据一致),成为23支参赛队伍中唯一取得该突破的团队。
OpenComplex2将加速从基础分子机制研究到药物设计等下游应用的发展。
结合AI精准预测和高通量实验验证,有望大幅缩短生物医药研发时间,降低成本,提高成果转化率,助力产业高质量创新。
可以看出,从「悟道」到「悟界」,智源研究院始终走在技术路线探索的前沿,积极构建开源开放的技术生态。
而在未来,智源研究院还将持续解构物理世界与智能本质的深层关联,在AGI的征途中刻下新的坐标。
最后,智源大会开幕式今天圆满结束,留给与会者和网络上的观众们无尽的收获和思考。