智源研究院发布“悟界”系列大模型,推动AI迈向物理世界

发布时间:2025-06-06 18:29  浏览量:1

北京智源大会6月6日开幕。全球最强的开源具身大脑大模型、助力新型治疗方案研发的全原子微观生命模型……作为北京市人工智能领域的新型研发机构,智源研究院在开幕式上发布“悟界”系列大模型,推动人工智能从数字世界迈向物理世界。

从“悟道”到“悟界”,人工智能迈入现实物理世界

智源研究院院长王仲远表示,大模型技术还远没有到发展的尽头,过往所说的“百模大战”更多的是大语言模型的竞争,而大语言模型受限于互联网数据的使用,基础模型性能虽然还在提升,但是提升速度不如以前。

“大语言模型性能提升的解法有很多。”他说,一是通过强化学习,在后训练和推理上提升,例如DeepSeek R1等,这是过去一年大模型产业界最大的进展之一。二是数据合成,目前学术界仍在突破。互联网数据都是人类创造的,如果人工智能合成的数据、生成的数据质量能够达到人类创造的数据质量,那意味着人工智能有可能实现自我学习和进步。三是使用多模态数据,在全世界范围内,多模态数据是文字数据的千万倍甚至更多,这些数据远没有被有效利用。

大模型正在从大语言模型向原生多模态大模型、世界模型的方向演进。原生多模态世界模型本质上是为了让人工智能感知和理解物理世界,进而推进和物理世界的交互。进入物理世界之后,在宏观层面,大模型与硬件结合,通过具身智能的发展解决实际生产生活问题。在微观层面,生成式人工智能的应用能够进一步揭示微观世界的本质。

“世界模型是实现物理AGI(通用人工智能)的重要发展路径。智源研究院的工作布局都是围绕这一技术发展趋势进行布局。”他说,此前智源研究院发布的“悟道”系列大模型的命名,代表的是对大模型技术路径的探索。此次推出“悟界”模型,“界”代表对于虚实世界边界的突破。

脑科学多模态模型将助力抑郁症等疾病预测

“悟界”大模型系列,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。

其中,原生多模态世界模型Emu3只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成,在图像生成、视频生成、视觉语言理解等任务中展现出优越的能力。

随着人工智能技术的发展,神经科学中传统的假设驱动研究范式正逐步向数据驱动转变,但具有挑战的是神经科学数据之间差异巨大。

脑科学多模态通用基础模型见微Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据,完成了超过100万单位的神经信号预训练,模型可以支持神经科学领域从基础研究到临床研究和脑机接口应用的不同方向,有望成为脑科学的 “AlphaFold”模型。

Brainμ能够将不同的脑信号融入基础模型中,包括人类的脑信号以及动物的脑信号,进行统一的编码,再与文字、图像、视频等不同的模态进行融合,从而通过单一的脑科学领域的多模态基础模型,完成不同脑科学相关的一些任务,实现科学数据注释、交互式科学结论解读、大脑感觉信号重建及模拟刺激信号生成,真正实现跨任务、跨模态、跨个体。

王仲远说,在抑郁症、阿尔茨海默病、帕金森综合征的预测上,Brainμ的能力已经超越了专用模型的预测能力。作为整合大规模多模态数据的基础通用模型,Brainμ也可以支持拓展脑机接口应用。

智源正在与国内前沿的基础神经科学实验室、脑疾病研究团队和脑机接口团队深入合作,包括和北京生命科学研究所开展动物睡眠数据自动化标注和解读的实验;和清华大学基础医学院开展了辅助运动障碍疾病新疗法探索的实验;在与脑机接口企业强脑科技BrainCO的合作中,Brainμ实现了首次在便携式消费级脑电系统上重建感觉信号,展现了模型支持拓展脑机接口应用能力的潜力。

王仲远说,这两个模型都代表了智源研究院对于多模态基础模型的探索,希望以此让人工智能真正看到感知、理解物理世界,进而进行交互,推动具身智能的发展。

RoboBrain 2.0任务规划准确率大幅提升

具身智能过去两年非常火热,但发展过程中也遇到了不少挑战。“比如当下硬件依然不够成熟,由于硬件不成熟导致数据短缺,数据短缺导致模型能力弱,模型能力弱导致落地应用难,落地应用难导致机器人难以量产,构成了发展中的循环悖论。”王仲远说。

他说,当下具身智能大模型依然面临着不好用、不通用、不易用的特点。“不好用”指的是具身大模型还远没有到ChatGPT的时刻,“不通用”指的是具身大模型大多只能用于一个本体或者同一品牌的本体,“不易用”指的是大脑、小脑、本体的适配难度比较高。

今年3月,智源研究院发布了跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,可以支持不同构型、不同品牌的机器人,不管是单臂机器人、双臂机器人,还是轮式机器人、人形机器人等,RoboBrain能够帮助这些硬件具备一些泛化的智能,面向具身智能应用领域的多模态大模型,能够帮助机器人真正看到物理世界,对人类发出的指令进行拆解、逻辑推理和规划决策,再分配给不同的小脑模型来执行。

此次发布的跨本体具身大小脑协作框架RoboOS 2.0是支持无服务器一站式轻量化机器人本体部署的开源框架。在该框架下,可一键下载并部署来自全球开发者创建的相同型号机器人本体的小脑技能,完成大小脑的无缝整合。“我们将提供全球首个基于具身智能SaaS平台,使机器人的部署时间从天级别降低到小时级别。”

具身大脑RoboBrain 2.0是目前全球最强的开源具身大脑大模型。实验数据显示,RoboBrain 2.0的任务规划准确率相较RoboBrain 1.0实现了74%的效果提升。相较于1.0,RoboOS 2.0对推理链路进行了优化,整体性能提升达30%,全链路平均响应时延低至3毫秒以下,端云通信效率提升27倍。RoboBrain 2.0还新增了闭环反馈以及具身智能的深度思考能力。RoboOS 2.0与RoboBrain 2.0已全面开源,包括代码、数据、模型、基准评测等。

全原子微观生命模型有望缩短生物医药研发周期

人工智能对蛋白质结构的预测就像一张张静态的幻灯片,而自然界的蛋白质更像持续变化的视频。此次发布的全原子微观生命模型OpenComplex2,实现了生物分子研究从静态结构预测到动态构象分布建模的突破。

OpenComplex2在蛋白质、DNA、RNA等复合物的结构预测上表现出色,还能准确预测大小分子之间的相互作用。此外其打破了静态结构预测,进一步预测蛋白质构型分布,可以助力新型治疗方案研发。基于人工智能精准预测与高通量实验验证平台的结合,OpenComplex2将有望显著缩短生物医药研发周期,降低研发成本,提升科研成果转化率,助力生物医药产业的高质量创新发展。

据王仲远介绍,智源研究院还构建了全球首个高速跨尺度心脏药物安全性评价平台。“许多药物最终因为其对心脏的毒性作用无法上市,因此评价药物对于心脏的毒理作用非常重要。”他说,基于去年发布的数字孪生心脏计算模型,智源研究院构建了数字孪生心脏与药物之间的相互作用模型,将药物的评价时间从90天缩短不到一天,目前已经和安贞医院、协和医院等医院开展合作。

新京报记者 张璐

编辑 张牵 校对 李立军