两大巨头齐聚2025北京智源大会 智源发布“悟界”系列大模型

发布时间:2025-06-06 15:50  浏览量:1

2025年6月6日,第七届“北京智源大会”在中关村展示中心开幕。

北京智源大会是智源研究院主办的“AI内行学术盛会”,以“全球视野、思想碰撞、前沿引领”为特色,汇聚海内外研究者分享研究成果、探寻前沿知识、交流实践经验。2025北京智源大会邀请到了图灵奖得主、深度学习代表人物Yoshua Bengio,图灵奖得主、强化学习之父Richard S. Sutton,图灵奖得主Joseph Sifakis、姚期智,Google、DeepMind、Meta、Mila、Physical Intelligence、MIT、斯坦福、UC Berkeley、Linux基金会等国际明星机构与技术团队代表,华为、百度、字节跳动、腾讯、阿里等互联网大厂以及智谱、宇树科技、生数科技、面壁等30余位AI公司创始人、CEO,同时,大会还汇聚了100余位全球青年科学家、200余位人工智能顶尖学者和产业专家,围绕多模态、深度推理、下一代AI路径、Agent智能体、具身智能、AI4S、AI产业、AI安全、AI开源展开精彩演讲和前瞻性对话。

开幕式由智源研究院理事长黄铁军主持。

智源研究院院长王仲远做2025研究进展报告,发布智源研究院在大模型前沿技术路径的探索成果和开源生态建设的最新动态。

在通用人工智能的探索之路上,智源研究院以"悟道"系列大模型为起点,开启了中国的大模型时代。

2021年3月推出的悟道1.0,作为中国首个超大规模信息智能模型,填补了中文超大预训练模型生态的空白;同年6月发布的悟道2.0,以1.75万亿参数规模登顶全球最大预训练模型,在知识推理、多语言生成等9项核心任务上实现国际领先;2023年全面开源的悟道3.0,在通用视觉与多模态的六大技术维度取得突破性进展。

大语言模型和多模态模型的发展,进一步推动机器人从1.0时代迈向2.0时代。目前,大模型与机器本体深度耦合驱动以具身智能为核心的机器人2.0时代,正在加速数字世界与物理世界融合

智源“悟界”系列大模型:解码生命本质 驱动机器智能 拓展AI与物理交互边界

在2025北京智源大会上,继“悟道”系列大模型之后,智源研究院推出“悟界”系列大模型,其中,“悟道”的“道”代表智源对大语言模型系统化方法和路径的探索,“悟界”的“界”代表虚实世界边界的不断突破。“悟界”系列大模型承载的是智源对人工智能从数字世界迈向物理世界的技术趋势的判断。

“悟界”大模型系列,包括原生多模态世界模型Emu3脑科学多模态通用基础模型见微Brainμ跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。

Emu3作为原生多模态统一架构让大模型具备理解和推理世界的能力,Brainμ基于Emu3架构,引入脑信号这一新的模态数据,实现了单一模型完成多种神经科学任务的大一统。多模态与脑科学模型未来可成为人机交互具身场景下的基础模型。RoboOS 2.0与RoboBrain 2.0在初代版本基础上,原有性能大幅提升,并新增多机协作规划与物理常识驱动的空间推理能力。OpenComplex2可在原子分辨率层面捕捉分子相互作用及平衡构象,探索微观构象波动与宏观生物功能的跨尺度关联。

从微观生命体到具身智能体'悟界'系列大模型试图揭示生命机理本质规律构建人工智能与物理世界交互基座

原生多模态世界模型Emu3

原生多模态世界模型Emu3基于下一个token预测范式统一多模态学习,无需扩散模型或组合式架构的复杂性,通过研发新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列,构建模态无关的统一表征空间,实现文本、图像、视频的任意组合理解与生成。Emu3支持多模态输入、多模态输出的端到端映射,验证了自回归框架在多模态领域的普适性与先进性,为跨模态交互提供了强大的技术基座。

脑科学多模态通用基础模型见微Brainμ

基于Emu3的底层架构,将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化,利用预训练模型多模态对齐的优势,可以实现多模态脑信号与文本、图像等模态的多向映射,并实现跨任务、跨模态、跨个体的统一通用建模,以单一模型完成多种神经科学的下游任务。

Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据,完成了超过100万单位的神经信号预训练,模型可以支持神经科学领域从基础研究临床研究和脑机接口应用的不同方向,有望成为脑科学的 “AlphaFold”模型。

作为神经科学领域跨任务、跨模态、跨个体的基础通用模型,Brainμ可同步处理多类编解码任务,兼容多物种动物模型(包括小鼠 狨猴 猕猴)与人类数据,实现科学数据注释、交互式科学结论解读、大脑感觉信号重建及模拟刺激信号生成。在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中,作为单一模型其性能显著超越现有的专有模型,刷新SOTA表现。作为整合大规模多模态数据的基础通用模型,Brainμ也可以支持拓展脑机接口应用,在与脑机接口企业强脑科技BrainCO的合作中,Brainμ实现了首次在便携式消费级脑电系统上重建感觉信号,展现了模型支持拓展脑机接口应用能力的潜力。

智源正在与国内前沿的基础神经科学实验室、脑疾病研究团队和脑机接口团队深入合作,包括北京生命科学研究所、清华大学、北京大学、复旦大学与强脑科技BrainCO,拓展Brainμ的科学与工业应用。

跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0

跨本体具身大小脑协作框架RoboOS 2.0是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架。同时,RoboOS 2.0也是全球首个支持MCP的跨本体具身大小脑协作框架,旨在构建具身智能领域的“应用商店”生态。

在该框架下,可一键下载并部署来自全球开发者创建的相同型号机器人本体的小脑技能,完成大小脑的无缝整合。RoboOS 2.0实现了小脑技能的免适配注册机制,显著降低开发门槛,典型场景下,相关代码量仅为传统手动注册方式的1/10

相较于1.0,RoboOS 2.0对端到端推理链路进行了系统级优化,整体性能提升达30%,全链路平均响应时延低至3ms以下,端云通信效率提升27倍。在功能层面,新增了多本体时空记忆场景图(Scene Graph)共享机制,支持动态环境下的实时感知与建模;同时引入多粒度任务监控模块,实现任务闭环反馈,有效提升机器人任务执行的稳定性与成功率。

RoboBrain2.0官网:https://superrobobrain.github.io

具身大脑RoboBrain 2.0是目前全球最强的开源具身大脑大模型,在多项空间推理与任务规划指标上超越主流大模型。

在任务规划方面,RoboBrain 2.0相比于RoboBrain 1.0的基于Prompt的多机任务规划机制和初级空间理解能力,进一步扩展了基于多本体-环境动态建模的多机协同规划能力,可实时构建包含本体定位的场景图(Scene Graph),并自动完成跨本体的任务规划。实验数据显示,RoboBrain 2.0的任务规划准确率相较RoboBrain 1.0实现了74%的效果提升。

在空间智能方面,RoboBrain 2.0在原有可操作区域(Affordance)感知与操作轨迹(Trajectory)生成能力的基础上,实现了17%的性能提升。同时,RoboBrain 2.0增加了空间推理能力(Spatial Referring),既包含机器人对相对空间位置(如前后、左右、远近)及绝对距离的基础感知与理解能力,也实现了对复杂空间的多步推理能力。

此外,RoboBrain 2.0还新增了闭环反馈以及具身智能的深度思考能力。闭环反馈使机器人能够根据当前环境感知和任务状态,实时调整任务规划与操作策略,以应对复杂环境中的突发变化和扰动;深度思考能力则支持机器人对复杂任务进行推理分解,进一步提升整体执行准确率与任务完成的可靠性。

RoboOS 2.0与RoboBrain 2.0已全面开源,包括框架代码、模型权重、数据集与评测基准,以助力推动具身智能研究和产业应用的发展。目前,智源研究院已与全球20多家具身智能企业建立战略合作关系,共同打造开放繁荣、协同共生的具身智能生态体系。

全原子微观生命模型OpenComplex 2

全原子微观生命模型OpenComplex2实现了生物分子研究从静态结构预测到动态构象分布建模的重大突破。该模型能够表征生物分子系统的连续演化能量景观(Energy Landscape),并通过融合扩散生成式建模与生物实验数据,在原子分辨率层面捕捉分子相互作用及平衡构象分布,为探索微观构象波动与宏观生物功能的跨尺度关联提供了全新的研究视角。

OpenComplex2基于FloydNetwork图扩散框架以及多尺度原子精度表示两大关键技术创新,有效突破了生物分子在功能活动中可及的动态构象分布预测的瓶颈,从而能够建模生物分子系统中各种原子组分之间复杂的依赖关系,且无需对构象空间施加先验约束,更加真实地还原生物分子的构象多样性和动态特性,此外,还能同时捕捉原子级、残基级和基序级(motif level)的相关性,从而在建模过程中兼顾关键的局部结构细节与全局构象变化,为揭示生物功能提供更加全面的结构基础。

OpenComplex2模型在生物分子动态特性预测、柔性系统及超大型复合物建模、生物分子相互作用精细化分析等关键任务中性能卓越,突破了静态结构预测的瓶颈。2024年,在第16届蛋白质结构预测关键评估竞赛CASP16(Critical Assessment of protein Structure Prediction)中,OpenComplex2成功预测了蛋白质T1200/T1300的空间构象分布(定性上与实验数据一致),成为23支参赛队伍中唯一取得该突破的团队

OpenComplex2为原子级结构生物学提供了一种全新的建模工具,通过统一框架解码生物分子系统的动态作用机制,将加速从基础分子机制研究到药物设计等下游应用的发展。基于人工智能精准预测与高通量实验验证平台的结合,OpenComplex2将有望显著缩短生物医药研发周期,降低研发成本,提升科研成果转化率,助力生物医药产业的高质量创新发展。

持续打造大模型开源技术体系 共建开放合作的技术未来

智源作为非营利科研机构,一直坚持开源开放的原则,智源打造的覆盖模型、算法、数据、评测、系统的大模型开源技术体系FlagOpen,截至目前,已开源约200个模型160个数据集,其中,模型全球总下载量超6.4亿次,开源数据集下载量近113万次,开源项目代码下载量超140万次,为人工智能技术普惠与开源社区繁荣做出持续贡献。

其中,开源、统一的 AI 系统软件栈 FlagOS进一步升级,新增统一编译器FlagTree、统一通信库FlagCX、自动发版平台工具FlagRelease等重要板块,全面覆盖统一生态技术需求;实现对11家国内外厂商的18款异构AI硬件的统一支持;FlagGems的算子平均性能已优于国际主流算子,并行训推框架FlagScale与人工优化相比,实现了最高23%的自动并行加速。升级后的FlagOS已支持DeepSeek、通义千问等更多开源大模型实现跨硬件平台运行,为开发者提供更多选择,推动 AI 技术的普及和多元发展。

FlagOpen开源地址:https://github.com/FlagOpen

在开源模型方面,通用向量模型BGE系列已发展为门类齐全、体系完备的生态系统。最初BGE聚焦文本相关场景,先后推出面向中英文应用的BGE-v1模型,以及支持多语言场景的BGE-M3模型,在中英文及多语言向量建模能力上取得重大突破,广受开源社区好评。自2025年起,BGE进一步拓展至文本以外的应用领域,并于近期集中发布了BGE-code-v1、BGE-VL-v1.5和BGE-VL-screenshot三款模型,分别在代码检索、多模态检索以及富文本多模态检索任务中取得了领先表现。目前,BGE模型已广泛应用于人工智能产业,被百度、腾讯、华为、阿里巴巴、微软、亚马逊等知名企业商业化集成。2024年10月,BGE成为中国首个登顶 Hugging Face月度下载排行榜榜首的开源模型。截止2024年12月,BGE模型是2023年所有发布模型的全球下载量冠军。

小时级开源轻量长视频理解模型Video-XL-1,于2024年10月发布,首次实现了单GPU处理2048帧视频的能力。与同期轻量级开源模型相比,Video-XL-1在MLVU、VideoMME等主流长视频评测基准上取得了领先。近期推出的Video-XL-2效果更佳、长度更长、速度更快,不仅进一步提升了轻量开源模型长视频理解的最佳效果,同时实现了单GPU处理万帧视频的能力,并且在推理效率上大幅领先同类别竞品模型,编码 2048 帧视频仅需 12 秒,显著加速长视频理解流程。目前,Video-XL-2 的模型权重已全面向社区开放。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。

开源全能视觉生成模型OmniGen,采用极简架构,仅由大模型基座和VAE模块构成,大幅降低了开发和部署成本。OmniGen通过广泛的指令学习,实现了视觉生成能力的高度集成。用户仅需通过提示词描述任务需求,便可一站式完成各类视觉生成任务,极大简化了操作流程。OmniGen展现出显著的涌现能力,能够通过提示词的灵活组合,生成多样化、定制化的视觉内容。自发布以来,OmniGen在技术社区引发广泛关注,相关话题在Twitter、YouTube、YC Hacker News等平台累计浏览量突破百万,GitHub Star数超过4,000,并催生出一系列视觉生成类的创业产品。

国际巨头尖峰对话 热议AI未来发展路径

2025北京智源大会开幕式上,图灵奖得主Yoshua Bengio、Richard Sutton,Linux基金会执行董事Jim Zemlin,Physical Intelligence联合创始人兼CEO Karol Hausman分别做主题报告。

Yoshua Bengio以《Avoiding catastrophic risks from uncontrolled AI agency》为题指出,当前 AI 在规划、推理等领域呈指数级进步,部分前沿模型已显现自我保护、欺骗性对齐、篡改系统等类生物主体行为,若形成 “智能 + 自主目标 + 行动能力” 组合将引发失控风险,甚至可能威胁人类生存。他强调,尽管 AI 造成伤害需同时具备能力与意图,但前者已可预见,必须以预防原则优先解决意图对齐问题。为此,他提出双重解决方案:一是研发以无私科学家为原型的非代理性、可信赖人工智能系统,专注于理解世界而非自主行动;二是推动全球协同治理,建立国际监管框架与技术验证机制,遏制各国因竞争导致的安全标准缺位,避免将 AGI 设计为人类竞争者,呼吁在 AGI 可能于 5 年内达到人类水平的紧迫时间窗口内,通过技术创新与全球协作筑牢安全防线。

Yoshua Bengio与北京大学助理教授、智源大模型安全研究院中心主任杨耀东就AI安全议题进行对话。

Richard Sutton在《Welcome to the Era of Experience》的主题报告中表示,AI 正从依赖人类静态数据的 “人类数据时代” 迈入通过互动与经验学习的 “体验时代”,强调智能体需像人类和动物一样从动态交互中生成新知识,强化学习是实现这一目标的核心路径,而大语言模型时代已接近尾声,通用人工智能需要更强大的持续学习算法。他认为,智能体天然具有多元目标,如同自然界生物,关键在于通过分散合作而非集中控制实现安全协同 —— 人类社会的进步源于分权化合作,集中控制 AI 的呼吁本质是源于恐惧的 “危险策略”,可能引发类似人类冲突的问题。Sutton 倡导以去中心化合作替代中心化控制,通过信任、协调和市场机制引导 AI 与人类共生,抵制因恐惧催生的限制措施,认为这一路径更可持续,且能避免战争、腐败等风险,最终实现 AI 与人类社会的互利共赢。

Richard Sutton与清华人工智能研究院副院长、生数科技创始人兼首席科学家、智源首席科学家朱军就强化学习等议题进行对话。

Linux基金会执行董事Jim Zemlin在演讲中谈到,2025 年是开源 AI 元年,开源正成为全球 AI 创新核心驱动力。中国企业,如DeepSeek发布开源大模型,引发技术生态变革,印证开源打破垄断、加速迭代的作用。哈佛商学院数据显示,全球开源软件经济价值达 9 万亿美元,可帮助开发者节约 70% 开发成本。开源治理是平衡竞争与协同的核心机制。开源不仅是代码共享,更需全球协作。他强调,开源是技术普惠的唯一路径,通过全球协作确保 AI 创新由全人类共享。

智源研究院副院长兼总工程师林咏华主持Fireside Chat,Linux基金会执行董事Jim Zemlin 与LAION工程负责人兼创始人Richard Vencu就全球AI开源与合作展开深度对话,嘉宾普遍认为,开源是 AI 发展的核心,数据集共享是关键基础,全球合作至关重要,应当鼓励开发者从提交代码等小事参与开源,共同推动 AI 创新。

Physical Intelligence联合创始人兼CEO Karol Hausman做《Building physical ntelligence》主题报告,他认为具身智能的发展,VLA模型是关键突破,可让机器人通过互联网数据学习,无需体验每个场景,还能与其他机器人连接获取数据。Physical Intelligence研发了通用机器人基础模型π0,经预训练和后期高质量数据培训,使机器人能完成如打开洗衣机、叠衣服等复杂任务,在陌生环境下任务完成率达 80%-90%。目前虽已展示物理智能潜力,但在泛化能力、稳定性等方面仍有挑战,未来希望实现机器人 100% 稳定完成任务,推动物理智能的进一步发展。

在智源具身智能会客厅中,银河通用的具身大模型机器人Galbot登台展示了端到端VLA大模型在商业零售场景的落地应用,《CMG世界机器人大赛·系列赛》机甲格斗擂台赛“AI策算师”冠军机器人宇树G1登台展示了敏捷帅气的“组合拳”,全球首个人形机器人半程马拉松冠军天工2.0也参与了现场互动,完成“水果摆盘”的精细化服务任务,获得满堂喝彩。

在对具身智能发展满怀期待的氛围中,智源研究院王仲远与Physical Intelligence联合创始人兼CEO Karol Hausman,宇树科技创始人王兴兴,银河通用创始人兼CTO、北京大学助理教授、智源具身智能研究中心主任王鹤,穹彻智能联合创始人、上海交通大学教授卢策吾,北京人形机器人创新中心总经理熊友军,就具身智能的不同技术路线、商业化路径探索、典型应用场景拓展、产业生态构建等议题展开深度讨论。嘉宾认为,短期内人形机器人因数据采集、人机交互和环境适应优势是重要载体,长期看随着 AGI 发展会多样化对于 VLA 模型泛化性,虽面临机器人环境复杂等挑战,但通过合成数据、多场景训练等可提升适应性

智源AI科研体验区 从实验室通向场景应用

本届智源大会,设置了智源研究院AI科研成果互动体验展台,带来了从具身智能到脑科学、数字心脏等领域的最新应用。此次“悟界”系列大模型中的脑科学多模态通用基础模型见微Brainμ以及跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0也进行了现场展示。

在具身智能展区,基于RoboOS 2.0以及RoboBrain 2.0的不同构型的机器人(单臂、轮式双臂、人形)带来了丰富的技能展示,包括餐饮互动,机器人接受到语音指令后,完成汉堡制作和倒饮料的动作,以及抓娃娃的游戏和家居物品收纳。此外,基于智源自主研发的多模态具身大模型的机器人,融合了视觉、听觉、思考、语音交互等能力,带来了“心有灵犀”的互动小游戏,机器人可对看见的物品进行详细描述,互动者依据信息线索猜出对应的物品名称。智源与银河通用联合研发的具身大模型机器人Galbot,展示了商超场景下的落地应用能力。

在脑科学多模态通用基础模型展区,展示了Brainμ在脑科学基础应用与临床应用上的实际案例以及AI+脑科学未来基础研究与临床应用的新范式。同时,通过与脑机接口设备结合,Brainμ可根据采集的脑信号数据进行信号解析与感觉刺激重建,利用多模态大模型的能力在消费级便携式脑电设备上实现了接近医用级设备数据采集的稳定解析能力,Brainμ模型展现了降低脑机接口应用在消费级设备的门槛的能力,可以为便携式脑机接口的应用拓展空间

基于2024年研发的全球首个数字孪生心脏,智源推出了全球首个高速跨尺度心脏药物安全性评价平台,构建了跨尺度药物-心脏作用模型,覆盖从亚细胞(离子通道),到细胞、组织、器官与人体,可以全尺度评测药物对心脏电活动的影响,评测药物心脏毒性,将全尺度药物毒性仿真时间由近90天减少到一天之内,为药物仿真平台实际应用提供坚实支撑。

在数字心脏展区,可通过裸眼3D透明心脏以及VR互动沉浸体验基于医学影像重建的心脏三维结构,通过操控笔可精准完成心脏模型的旋转、拉伸与层析切片操作。未来,将实现对心脏电生理过程的动态仿真交互为精准医疗与个性化干预提供技术支撑。在裸眼3D提供宏观交互的同时,也进一步构建了基于虚拟现实的沉浸式系统,实现对心脏内部结构的深度探索与术式模拟。佩戴VR头显,可沉浸式进入心脏内部,进行类内窥镜式的结构观察。通过手柄精准定位,用户可选定刺激区域,模拟电生理手术中的干预操作。该系统为心脏术前智能规划提供了高度可视化与交互性的研究平台,为数字孪生心脏在临床应用中的落地奠定了坚实基础。

基于心冲击信号(Ballistocardiograph,BCG)研发的无感智能坐垫系统,可对多项生理指标进行高精度实时监测与智能分析。落座后,系统通过内嵌的高灵敏度传感模块,精准捕捉由心脏搏动引发的微弱体动信号,并同步完成心动周期识别。在完成有效数据采集后,系统调用信号分析算法,进入健康状态评估阶段,计算心率、心率变异性、呼吸频率等指标。根据这些指标,可对疲劳程度、精神压力、情绪状态进行量化评估,并辅助识别房颤等心律异常状态,在个人健康管理、智能家居与智能医疗决策中具有广泛的应用前景。

大会期间,智源研究院与北京大学第一医院签署战略合作协议,本着优势互补、资源共享、协同创新的原则,充分发挥双方在人工智能技术研发与工程落地的多元能力以及临床诊疗、教学科研与医学数据资源的专业优势,共同在“智慧医学系统”领域开展深入、系统、持续的战略合作。

此外,大会上还宣布了智源研究院与香港投资管理有限公司建立战略合作框架,共建世界级跨区域合作的人工智能生态圈。智源与港投的合作将加速人才、技术、资本的飞轮效应,构建内地、香港、国际的人才循环体系,汇聚全球人工智能青年人才、支持人工智能创新创业、加速人工智能产业全球化。

从“悟道”到“悟界”,智源研究院始终走在技术路线探索的前沿,积极构建开源开放的技术生态,未来,智源研究院将持续解构物理世界与智能本质的深层关联,在通用人工智能的征途中刻下新的坐标。