告别单一物体生成!李飞飞突破AI限制,创建大规模持久3D几何体

发布时间:2025-09-17 20:31  浏览量:1

创业 3 个月估值破 10 亿美元的美国斯坦福大学教授李飞飞创办的 World Labs 再出新成果。当地时间 9 月 16 日,李飞飞团队展示了一款名为 Marble 的模型的新成果。只需给到一张图片或者给到一段文字提示,这款模型就能生成一个 3D 世界,用户可以在这个 3D 世界里随心所欲地探索,这个 3D 世界既没有时间限制,也没有变形和不一致性。相比上一版模型,本次版本的模型能够生成更大的、风格更加多样的 3D 世界,同时还拥有更清晰的 3D 几何图形。一名未具名的虚幻引擎的 VR 电影制作人表示,自己很想尝试使用本次模型来向观众制作电影故事和设计互动体验项目。

对于使用本次模型所生成的 3D 世界,用户通过借助李飞飞团队的开源渲染库 Spark,可以将其导出为高斯分布图,并能将其用于相关的下游项目。Spark 可以将高斯分布图无缝地集成到开源 JavaScript 库 Three.js 之中,从而用于构建基于 Web 的 3D 体验,并能在台式机、笔记本电脑、移动设备和虚拟现实(VR,Virtual Reality)头显上进行高效渲染。该模型具有较好的一致性和风格遵行能力,故能通过组合多个 3D 世界来构建大型 3D 世界。

图 | 李飞飞(来源:https://www.worldlabs.ai/team)

具体来说:

首先,本次模型所生成的 3D 世界具有更好的几何形状。对于视觉创作者来说,他们非常需要在能够 3D 世界中进行导航和交互的一致性的能力。而使用此次本次模型生成的 3D 世界允许用户在浏览器中零成本且自由地进行视点导航。相比此前的同类 3D 产品,本次模型所创建的 3D 世界不仅具有更加丰富的几何复杂性,还可以生成更加完整的 3D 世界。需要说明的是,本次模型目前主要是能够创建 3D 环境,而非创建孤立的物体例如人物或者动物。有用户表示,这一成果让其可以像电影制作人一样在连贯一致的 3D 场景中进行规划和拍摄。还有用户表示,其使用两张旅行照片和一张预先加载的图片创建了一个 3D 世界,这个 3D 世界既可以放大也可以缩小,还能让人找到图片中“意想不到的秘密”。

其次,本次模型所生成的 3D 世界在风格上更加多样。生成式 AI 的好处就是能在创作过程中自由地迭代,正因此该模型允许将各种风格的输入转化为 3D 形式。比如,可以转化为彩色卡通风格,也可以转化为逼真且细节丰富的风格。

再次,在此之前,人们很难使用 AI 生成大规模的、持久的 3D 几何体。而对于任何需要合成、拼接、堆叠、持久编辑以及具备大内存的工作流程来说,本次模型都能很好地满足这些需求。鉴于本次模型能够实现风格上的连贯性和几何上的一致性,因此李飞飞团队在官方博客中表示其能生成比已有案例更大的 3D 世界用例。比如,同样是生成一个 3D 房间,李飞飞团队在官方博客中展示了三种不同的风格。

第一种风格是质朴的房间。

第三种风格是奇幻风格的房间。

值得注意的是,本次模型相比上一版,所生成的 3D 世界不仅更加逼真,空间感也更强。如下图所示:图中的上图是本次模型生成的 3D 房间,地毯的质地和花纹就像来自于真实世界一样;图中的下图是几个月前的上一版模型生成的 3D 房子,其在逼真感和空间感上确实不如本次版本。

总的来说,本次模型通过提供构建 3D 世界的能力,可以提高用户的生产力和创造力。目前,已有用户将该模型生成的 3D 世界集成到游戏项目和互动内容项目中,未来等到该模型的 API 开放之后,用户就可以实现无缝的 3D 世界集成。未来,李飞飞团队将在 marble.worldlabs.ai 上推出 Marble 模型的有限访问 Beta 预览版,届时用户可以在上面查看和创建 3D 世界。

图 | 李飞飞(右四)和其余三位创始人(来源:World Labs)

据了解,含李飞飞在内该公司有四位创始人,他们都是世界知名的计算机视觉专家和图形技术专家。除了李飞飞,其余三位联合创始人分别是:

联合创始人贾斯汀·约翰逊(Justin Johnson)曾经是李飞飞学生,目前他同时也任职于美国密歇根大学,此前曾担任 Meta 的高级研究员,他是实时风格转换技术的首创者,这一技术目前已被 Meta、Snap 和 Prisma 等公司使用。

图 | 贾斯汀·约翰逊(Justin Johnson)(来源:资料图)

联合创始人克里斯托夫·拉斯纳(Christoph Lassner)是可微分渲染器 Pulsar 的首创者,这一技术为 3D 高斯分布铺平了道路。凭借自己在可扩展实时神经渲染领域的成果,他将神经辐射场(NeRF,Neural Radiance Fields)成功引入了虚拟现实和虚幻引擎。在此之前,他还曾在 Meta Reality Labs Research 和 Epic Games 工作。

图 | 克里斯托夫·拉斯纳(Christoph Lassner)(来源:资料图)

联合创始人本·米尔登霍尔(Ben Mildenhall)是神经辐射场的共同提出者之一,神经辐射场通过引入一种利用隐式神经表征,来以照片级的真实感来展示和渲染复杂场景,彻底改变了 3D 场景重建以及视图合成。在和李飞飞创业之前,他曾担任谷歌的高级研究科学家。

图 | 本·米尔登霍尔(Ben Mildenhall)(来源:资料图)

值得注意的是,该公司官网目前展示了将近 30 位团队成员的信息,其中著名华人学者谢赛宁和吴佳俊担任该公司的顾问,此外还有 10 余位华人技术人员。

图 | 该公司官网展示的团队成员信息(来源:World Labs)

作为一位 AI 名人,李飞飞的创业吸引了众多知名风投机构和业内大佬的支持。目前,其已获得 A16Z、全球最大和最活跃的 VC 之一美国恩颐投资以及加拿大 AI 风投机构 Radical Ventures 的投资。在该公司的个人投资名单上,深度学习先驱杰夫·迪恩(Jeff Dean)、诺奖得主兼图灵奖得主杰弗里·辛顿(Geoffrey Hinton)、领英联合创始人里德·霍夫曼(Reid Hoffman)、OpenAI 创始成员之一的安德烈·卡帕西(Andrej Karpathy)等知名人士的名字赫然在列。此外,其还获得了一些其他知名人士和知名机构的投资。

图 | 李飞飞此次创业获得众多支持(来源:World Labs)

对于创业使命,李飞飞团队曾在一篇博文中表示,人类智能包含了多个方面,语言智能是其中的一种,语言智能让人类能够通过语言与他人进行沟通和联系。但是,李飞飞团队认为更具基础性的是空间智能,正是空间智能让人们能够理解周围的世界并与之互动。空间智能还能帮助人类将脑海中的图像转化为 3D 世界,从而能让人类进行推理和发明。李飞飞团队认为,尽管文生图模型和文生视频模型展示了 AI 在视觉领域的潜力,但是它们仅仅触及了未来更多可能性的表面。要想超越当前这些模型的能力,就得打造具备空间智能的 AI,这种 AI 能够建模世界,并能针对 3D 时空中的物体、位置和交互进行推理。正因此,李飞飞创办了这家公司,并将其定位为是一家致力于构建大型世界模型的空间智能 AI 公司,旨在实现 3D 世界的生成、感知和交互,以便能将 AI 模型从 2D 像素平面提升至完整的 3D 世界,并能赋予这个 3D 世界以和人类自身一样丰富的空间智能。李飞飞团队认为,人类的空间智能进化了数千年之久,而在这个飞速发展的时代,将有希望在短期内赋予 AI 以空间智能。目前,她和团队主要聚焦于生成不受限制的 3D 世界,即创建和编辑包含物理、语义和控制的虚拟空间,从而能为开发者、工程师和艺术工作者带来更多创意。即使对于非专业用户,该公司的产品也能让他们想象并创造专属于自己的世界。

图 | 李飞飞 X 推文(来源:X)

2024 年,对于李飞飞来说这一个很有意义的年份。这一年,她休了长假;这一年,她出版了自己的自传图书,书的名字叫做《我看见的世界》,书中既介绍了她的个人成长史,也介绍了她眼中的 AI 发展史,“世界”既是书名中的一个词语,也是她在书中浓墨重写的一个篇章,她在书中写道“相比现在充满感官刺激和智力活动的世界,5.43 亿年前的生命形态极其原始,近乎抽象,用苏格拉底的话说,它们完全生活在一种‘未经审视’的状态中。那个世界完全不被看到,海水深邃而本能粗浅”;这一年,她也创办了 World Labs 这家公司,公司名字中同样包含“世界(World)”这一词语。

在她对于公司的发展构想上,既有前沿技术方面的考虑,也有哲学层面的斟酌,并赋予了这家公司以不同的气质。当然,创业既要形而上也要形而下,正因此李飞飞团队在本次新成果的博客文章里多次引用了用户使用感想,想必也是为公司的进一步商业化做铺垫,毕竟等着她“交作业”的投资人并不算少。

参考资料:

公司官网 https://www.worldlabs.ai/about

官网博文 https://www.worldlabs.ai/blog/bigger-better-worlds

本·米尔登霍尔(Ben Mildenhall)个人主页 https://bmild.github.io/

克里斯托夫·拉斯纳(Christoph Lassner)个人主页 https://christophlassner.de/

贾斯汀·约翰逊(Justin Johnson)个人主页 https://web.eecs.umich.edu/~justincj/

运营/排版:何晨龙