从「悟道」到「悟界」,智源走进大模型的新时代

发布时间:2025-06-06 22:38  浏览量:3

中国大模型开创者智源始终肩负着本土原始创新的重任。

作者丨马晓宁

编辑丨陈彩娴

“大模型技术的演进远未抵达终点”,在2025智源大会召开之际,面对AI科技评论关于“大模型发展现状”的疑问,智源研究院院长王仲远给出了这样的回复。

OpenAI 仍领跑通用性能与复杂推理,但国产模型已从追随者转向特定领域的引领者,DeepSeek-R1 持续引领低成本推理,阿里4月发布的Qwen3登顶全球最强开源模型。OpenAI依然在推进着探索步伐,国产模型紧追不舍。

我们必须清醒认识到,当前的 AI 技术仍处于高速迭代的深水区,大量基础性、挑战性的难题远未被攻克,技术路径与创新范式远未定型,AGI之路仍然道阻且长。

中国在人工智能领域的研究,既不应满足于亦步亦趋的跟随,更不应止步于对标 OpenAI。 早在2018年大模型机遇初现时便成立的北京智源人工智能研究院,作为中国大模型「悟道」的开创者,始终肩负着本土原始创新的重任。

「悟道」之名,承载了智源对通用智能技术路径的深刻求索。

一位早期参与「悟道」研发的核心成员曾向 AI 科技评论强调,智源在浪潮初起时的“前瞻眼光与果断魄力”是其最可贵特质,尤其是在国内大模型起步维艰之际,其毫不犹豫的经费与算力支持起到了关键作用。可以说,在通用人工智能的探索之路上,智源研究院以「悟道」系列大模型为起点,开启了中国的大模型时代。

大语言模型和多模态模型的发展,进一步推动机器人从1.0时代迈向2.0时代。目前,大模型与机器本体深度耦合驱动以具身智能为核心的机器人2.0时代,正在加速数字世界与物理世界融合。

而在今天举办的第七届“北京智源大会”上推出的「悟界」,深刻寓意着智源致力于突破数字与物理世界的藩篱,将大模型的强大认知能力真正注入并重塑现实世界。从此,大模型由数字AGI时代迈向了物理AGI时代。

「悟界」系列大模型目前包含四个模型:原生多模态世界模型Emu3、全球首个脑科学多模态通用基础模型见微Brainμ、具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。

从微观生命体到具身智能体,「悟界」系列大模型试图揭示生命机理本质规律,构建人工智能与物理世界交互基座。如果说「悟道」对通用智能的求索,那么「悟界」就是对虚实世界边界的突破和对物理世界的深度赋能。在世界模型成为 AGI 核心路径的当下,智源成为了新浪潮的领航员。

1 当大语言模型性能走到瓶颈

当前大语言模型的性能提升正面临显著瓶颈,主要源于互联网高质量训练数据的枯竭与同质化竞争。

随着公开可获取的有效文本、代码资源被大规模消耗,模型难以获得足够新颖、多样且优质的训练素材,导致学习边际效益锐减。

尽管模型架构优化与算力提升仍在持续,但核心知识的获取效率已明显下滑,性能增长曲线趋于平缓。突破这一瓶颈需依赖合成数据生成、多模态融合或小样本学习等技术的革命性突破。

早在去年的北京智源大会上,智源就对大模型的技术路线进行了预判,这条路线将会是从大语言模型往多模态、尤其是原生多模态世界模型的方向发展。这一年来,智源朝着这条路线进行了坚定探索。

在2025年北京智源大会上,智源重磅介绍了原生多模态世界模型Emu3,这是全球首个原生多模态世界模型,是多模态技术发展的重要里程碑。

跨模态交互的强大基座

Emu3是基于下一个token预测范式统一多模态学习,无需扩散模型或组合式架构的复杂性,在多模态混合序列上从头开始联合训练一个Transformer模型。

智源研究院院长王仲远

“走向物理世界的多模态模型的技术壁垒在模型本身,因为技术路线就没有收敛。”王仲远说。

当前主流方案普遍存在这样的一种困境:当以强大的语言模型(LLM)作为基座,融合视觉、听觉等模态进行训练时,语言能力常出现显著退化。这导致训练出来的模型语言能力与其他能力此消彼长,无法统一。

虽然在某些垂直领域中,多模态的某些能力比人类更强,比如人脸识别,机器的识别能力是人的无数倍,但是人类大脑不会因为收到更多信息之后突然不会说话了。为什么会出现这种问题,以及如何解决这种问题,成为了智源在研发Emu3的过程中希望探索的技术原理。

传统模型则只能处理一种类型,而该模型实现了视频、图像、文本三种模态的任意组合理解与生成。

Emu3架构从根本上规避了传统多模态模型的“此消彼长”缺陷:视觉语义不再挤占语言参数空间,而是通过符号化对齐实现知识无损融合。Emu3验证了“物理世界离散语义化” 路线的可行性,为多模态AGI提供了可扩展的技术收敛框架,使语言模型的推理生成能力首次真正覆盖物理时空维度。

这款模型支持多模态输入、多模态输出的端到端映射,验证了自回归框架在多模态领域的普适性与先进性,为跨模态交互提供了强大的技术基座。可以说,作为原生多模态统一架构,智源的Emu3让大模型初步具备理解和推理世界的能力。

见微Brainμ和OpenComplex 2

基于Emu3的底层架构,智源研究院推出了见微Brainμ。这也是本次北京智源大会最引人注目的模型之一。

它将fMRI、EEG、双光子等神经科学与脑医学相关的脑信号统一token化,并且具备强大的多模态对齐能力,能够实现脑信号与文本、图像等模态的多向映射,支持跨模态的理解与生成。在能力方面,见微Brainμ可以完成多种神经科学任务,如自动化睡眠分型、感官信号重建和多种脑疾病诊断等。

Brainμ实现了跨任务、跨模态、跨个体的统一建模,具有创新性、通用性和广泛的应用潜力,为神经科学和脑医学研究提供了强大的工具。现在,智源正在与国内前沿的基础神经科学实验室、脑疾病研究团队和脑机接口团队深入合作,包括北京生命科学研究所、清华大学、北京大学、复旦大学与强脑科技BrainCO,拓展Brainμ的科学与工业应用。

全原子微观生命模型OpenComplex2,则是实现了生物分子研究从静态结构预测到动态构象分布建模的重大突破。

OpenComplex2模型在生物分子动态特性预测、柔性系统及超大型复合物建模、生物分子相互作用精细化分析等关键任务中性能卓越,突破了静态结构预测的瓶颈。不仅可以预测蛋白质单体结构,还可进行复合物结构建模、分子间相互作用预测等,为探索蛋白质的生物学功能提供了新的途径。

智源研究院发布的多模态大模型是为了推动AI从数字世界走向物理世界,更利于解决物理需求。目前,物理世界的多模态现在还没有完全解决,以智源为代表的全球研究机构都会在这条道路上进行不懈探索。

2 向着前沿技术路径预研和探索

在今天的智源具身智能会客厅中,银河通用的具身大模型机器人Galbot登台展示了端到端VLA大模型在商业零售场景的落地应用。

宇树G1登台,展示了敏捷帅气的“组合拳”。

全球首个人形机器人半程马拉松冠军天工2.0完成“准备甜点”的精细化服务任务,获得满堂喝彩。

2025智源大会,设置了智源研究院AI科研成果互动体验展台,带来了从具身智能到脑科学、数字心脏等领域的最新应用。

看到这个场景,我们不禁想问,在具身智能发展如火如荼、多家企业纷纷加大投入,致力于推动这一前沿技术的研发与应用的现在,智源还能做什么?

答案一直就在智源的定位中——做高校做不了,企业不愿意做的事情,预研和探索前沿技术路径。

在具身智能领域,伴随着中国在制造业、丰富的场景、政策支持上的优势,智源所做的跨本体具身大小脑协作框架RoboOS 2.0和具身大脑RoboBrain 2.0,再次为产业发展注入新动力。

体具身大小脑协作框架RoboOS 2.0

RoboOS 1.0发布于2025 年 3 月 29 日,到现在为止,不到3个月的时间,智源就发布了它的升级版,跨本体具身大小脑协作框架。

跨本体具身大小脑协作框架RoboOS 2.0是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架。

同时,RoboOS 2.0也是全球首个支持MCP的跨本体具身大小脑协作框架,旨在构建具身智能领域的“应用商店”生态。

在该框架下,可一键下载并部署来自全球开发者创建的相同型号机器人本体的小脑技能,完成大小脑的无缝整合。RoboOS 2.0实现了小脑技能的免适配注册机制,显著降低开发门槛,典型场景下,相关代码量仅为传统手动注册方式的1/10。

相较于1.0,RoboOS 2.0对端到端推理链路进行了系统级优化,整体性能提升达30%,全链路平均响应时延低至3ms以下,端云通信效率提升27倍。在功能层面,新增了多本体时空记忆场景图(Scene Graph)共享机制,支持动态环境下的实时感知与建模;同时引入多粒度任务监控模块,实现任务闭环反馈,有效提升机器人任务执行的稳定性与成功率。

具身大脑RoboBrain 2.0

智源研究院发布的具身大脑 RoboBrain 2.0 是目前全球最强的开源具身大脑大模型,它在空间推理与任务规划等关键指标上展现出卓越的性能,全面超越了众多主流大模型。

RoboBrain2.0官网https://superrobobrain.github.io

RoboBrain 2.0 的优势在于其能够精准地理解和推理复杂空间关系,并制定高效的任务规划方案。例如,在机器人导航、物体操控以及多步骤任务执行等场景中,它能够快速准确地分析环境信息,确定最优行动路径和操作方式。

这使得机器人在各种实际应用场景中,如物流配送、家庭服务、工业生产等,能够更加高效、智能地完成任务,极大地提升了机器人的自主性和适应性。

在任务规划方面,RoboBrain 2.0相比于RoboBrain 1.0的基于Prompt的多机任务规划机制和初级空间理解能力,进一步扩展了基于多本体-环境动态建模的多机协同规划能力,可实时构建包含本体定位的场景图(Scene Graph),并自动完成跨本体的任务规划。

实验数据显示,RoboBrain 2.0的任务规划准确率相较RoboBrain 1.0实现了74%的效果提升。

在空间智能方面,RoboBrain 2.0在原有可操作区域(Affordance)感知与操作轨迹(Trajectory)生成能力的基础上,实现了17%的性能提升。

同时,RoboBrain 2.0增加了空间推理能力(Spatial Referring),新增了闭环反馈以及具身智能的深度思考能力。

当下的具身智能大模型面临“不好用、不通用、不易用”的特点。“不好用”是指具身大模型远没有到ChatGPT时刻;“不通用”是指具身大模型只能用于一个本体或同一品牌的本体;“不易用”是指大脑、小脑本体的适配难度比较高。

智源发布的RoboOS 2.0提升机器人多任务处理与环境适应力,RoboBrain 2.0强化其感知理解和决策规划。 二者都是为解决这三大问题而存在,现在已全面开源,包括框架代码、模型权重、数据集与评测基准,以助力推动具身智能研究和产业应用的发展。

目前,智源研究院已与全球20多家具身智能企业建立战略合作关系,共同打造开放繁荣、协同共生的具身智能生态体系,为全球研究者和开发者提供了一个强大的基础平台,促进了具身智能技术的交流与创新。

3 通往AGI的漫漫征程

在今天上午智源大会主论坛上,图灵奖获得者 Richard Sutton在线发言,“现在世界所发生的一些进展都已经证明了我们向通用人工智能发展,”他再次强调了他所坚持的,“我们已经来到了经验的时代。”

然而,一个共识则在于,AGI的研发需要持续的跨学科研究与探索,预计在未来十年甚至更长时间才能看到显著进展。

深度推理模型仍是 AI 认知与逻辑能力的基础,例如语言理解、复杂问题拆解等场景不可或缺,强化学习在动态环境交互中展现的能力是不可替代的。

目前,AI在特定领域的表现已经取得了显著成就,但是通用人工智能(AGI)仍处于发展初期。AGI的实现需要在多个方面实现重大突破。

智象未来创始人兼CEO 梅涛在本次大会的大模型产业CEO论坛上说,“现在的大模型,无论是大语言模型还是视频模型,其实都没有产生新的智能,都是在复制这个世界。”

如何才能产生智能呢?这是一个目前无法收敛的问题。基础模型重要,强化学习也很重要。发展需要多元技术融合,而非单一路径主导。智源研究院拓展原生多模态,也是希望去发现是否有其他的多模态技术路径和技术架构。

多模态的ChatGPT时刻仍未到来。Sand.AI CEO曹越将目前的多模态模型发展阶段比作2018年的BERT,难以Scalable成为了最大的痛点。

我们能够对世界真正建模吗?对于王仲远而言,要解决这个事情,难度非常大,不仅仅是一个技术路线的突破,还是一种理念的突破。

“人工智能再往下发展,一定要解决对于空间、时间与物理世界交互,对于宏观世界、微观世界的理解,这也恰恰是智源研究院做的研究方向。”