李飞飞最新思考:语言模型救不了机器人
发布时间:2025-11-17 21:35 浏览量:1
聊天模型卷不动未来,空间智能才是真正的战场。
作者丨郑佳美
编辑丨马晓宁
过去几年里,AI 行业的节奏快得近乎失真。模型一次次刷新极限,产品迭代像在抢时间,讨论从“推理成本”到“智能涌现”再到“AGI 时间表”,情绪在乐观与焦虑之间来回摆动。
在这样密集的技术周期里,很少有人愿意停下来思考一个更基本的问题:我们到底在追求怎样的智能?语言之上,是否还有尚未被充分理解的能力?
一周前,李飞飞用一篇关于世界模型的长文把这个问题重新摆上了台面,这篇文章没有渲染革命,也没有给出轻松的未来,它的分量在于指出当下技术正在绕开的那些硬骨头:空间理解、物理推理、具身行为以及真实世界的不确定性,这些长期被回避的难题在文中被逐一摊开,也迅速 AI 圈内部关于世界模型的激烈讨论。
一周后,李飞飞在最新的访谈再次提及那篇文章里尚未说尽的部分,把那些自己反复思考却在长文里无法完全展开的问题细致拆解,从语言模型在世界理解上的结构性短板,到三维空间在智能形成中扮演的基础角色,再到机器人长期停滞背后那些难以绕过的现实条件,她都给出了更具体的解释。
随着这些碎片化的线索被重新理顺,这次访谈本身也像是那篇长文的延续与补全,让外界得以更清楚地看到她真正关注的技术方向以及其中的逻辑。
对此,AI 科技评论将访谈内容做了不改变原意的编译:
01 从图灵问题到深度学习的七十年
主持人:今天的嘉宾是李飞飞博士,被誉为 AI 教母。她一直是推动这场人工智能革命的关键人物,主导了许多重要突破。她牵头创建了 ImageNet 数据集,提出了一个影响深远的观点,也就是人工智能要变得更聪明,需要海量而干净的标注数据。这个数据集成为一个转折点,为今天模型的训练方式和规模化奠定了基础。她曾担任谷歌云的首席 AI 科学家,参与并推动了早期多项重大技术的诞生。
她还在斯坦福大学领导人工智能实验室,培养了很多顶尖人才。同时,她和同事共同创立了斯坦福以人为本人工智能研究所,这个机构正深刻影响着未来 AI 的发展方向。她也曾在推特董事会任职,被《时代》杂志评为全球百位 AI 影响力人物,并入选联合国顾问委员会。
李飞飞:谢谢,能来到这里我很开心。
主持人:我想先用一段评价来铺垫一下背景。《连线》杂志说过,李飞飞是那一小群推动人工智能近年巨大进步的科学家之一,这个群体小到用一张餐桌都能坐下。很多人叫你 AI 教母,还有一点和许多 AI 领域的领导者不同,你对 AI 充满乐观。你不认为 AI 会取代人类,不会抢走所有工作,更不会带来毁灭。所以我想先从这个问题开始,你觉得从长远看,AI 会怎样影响人类。
李飞飞:我可能要先澄清一下,我不是乌托邦主义者。我并不是说 AI 不会对就业或社会产生影响。事实上,我更愿意把自己称为人文主义者。我一直相信,AI 现在能做什么、未来能走多远,都取决于我们,都取决于人类自己。
如果把视角放到人类文明的长河中来看,技术整体上始终是推动力。我们是一个天生爱创新的物种,从最早的文字记载直到今天,人类一直在不断发明、不断改进工具。正是依靠这些,我们改善生活、提升工作方式、建设文明。
我坚信 AI 也是这条道路的一部分,这就是我保持乐观的原因。不过任何技术都有两面,如果我们作为物种、社会、社群、个人没有做出正确选择,也可能把事情带到糟糕的方向。
我二十五年前就开始研究人工智能,过去二十年也在带学生。几乎每个从我实验室毕业的学生,我都会提醒他们,你们研究的叫人工智能,可真正重要的部分从来不是人工,而是智能。
主持人:回到你刚才说的,AI 的未来走向取决于我们自己。你觉得我们需要做些什么,才能让 AI 往正确的方向发展?我知道这是很难回答的问题,你有没有一些建议?
李飞飞:我始终觉得,每个人都应该做一个有责任感的个体。不管做什么,我们从小就教孩子要有责任心,作为成年人更要做到这一点。
无论你是在研发、部署还是使用 AI,甚至在技术越来越普及的情况下,大多数人都会在不同环节和 AI 打交道,都应该带着负责的态度,真正关心它的发展,而且是认真地关心。
现在,每个人都需要关注 AI,因为它会影响你的生活、你的社区、整个社会,甚至影响下一代。以负责任的心态去面对 AI,是第一步,也是最重要的一步。
主持人:那在 ImageNet 出现之前,AI 的世界是什么样的?你为什么要创建它?它是如何成为后续革命的分水岭的?从那之后又发生了什么?
李飞飞:老实说,我有时会忘了,对大多数人来说 AI 还是件相对新的事情。我这一生几乎都在做 AI,从十几岁因为好奇心走进这个领域,到今天它变成可能改变整个人类文明的技术,我觉得这是非常幸运的事情。
不过严格来说,我不算第一代 AI 研究者。第一代 AI 要追溯到二十世纪五六十年代,甚至更早。在四十年代,Alan Turing 就已经提出了一个相当前瞻的问题,我们能不能造出会思考的机器?他还提出了一种测试方法,也就是对话形式的机器测试。按照这个标准,我们现在确实已经拥有能“对话”的机器了,不过那更像是一则具有启发意义的小故事。
AI 真正作为一个学科起步是在五十年代,当时的计算机科学家们聚在一起,讨论如何用程序和算法做一些原本只有人类才能完成的认知任务。
1956 年的达特茅斯会议被认为是 AI 的正式诞生点,John McCarthy 教授在那次会议上第一次提出“人工智能”一词。从五十年代到八十年代,是 AI 的早期探索期,出现了逻辑系统、专家系统,也开始有了对神经网络的初步尝试。
到了八十年代末、九十年代到二十一世纪初,机器学习开始兴起,它把计算机编程和统计学习结合到一起,带来了一个非常重要的理念,也就是单靠规则和程序,是无法让机器拥有我们期望的那种庞大认知能力的。
我们必须让机器自己去学习模式。一旦它能学模式,就有希望延展能力。比如给它看三只猫,我们的目标不是让它认出这三只,而是让它能认出接下来无数只猫。这种学习能力是人类和动物的基本能力,AI 也应该具备这一点。
我在二十一世纪初正式进入 AI 领域,2000 年在加州理工开始读博士。我算是第一代机器学习研究者。当时我们已经开始学习神经网络等概念,我在加州理工上的第一门课就是神经网络,但学得非常吃力。当时正好处在“AI 寒冬”的中间阶段,公众并不关注,资金也有限,但同时也有很多有意思的新想法不断冒出来。
而我之所以后来能和现代 AI 的起点紧密联系在一起,主要有两个原因。第一是我选择从视觉智能来切入 AI。人类本质上是高度依赖视觉的生物,我们的大部分智能都建立在视觉感知和空间理解上,不只是一种语言能力,这两者是相辅相成的。
所以在博士阶段和职业生涯的早期,我和学生们一直在研究一个核心问题,就是物体识别。因为物体识别是理解世界的基础。我们在现实中行动、观察、推理、互动,很大程度上都是基于“物体”这个层级的。我们不会在每次操作时把世界拆成分子层面,比如拿起茶壶时,你不会想着这东西由很多碎片组成,而是直接把它当作一个整体来互动。
但研究物体识别时,我们尝试过各种数学模型,包括神经网络和贝叶斯网络,却遇到了一个非常突出的瓶颈,就是数据不够。那时整个领域大多把注意力放在模型本身上,可我渐渐意识到,人类的学习方式、甚至生物进化,都是一种不断吸收大量经验的过程。
人通过接触海量经历不断学习,动物在进化时也是不断体验世界。因此,我和学生渐渐意识到,让 AI 真正“活”起来,有一个被忽略但极其关键的因素,就是大规模数据。
于是我们在 2006 年和 2007 年启动了 ImageNet 项目。当时我们非常有野心,想把互联网上所有和物体相关的图像都收集起来。当然,那时候互联网规模还远没现在这么大,所以这个想法听起来还算合理。放到今天,绝对不可能靠几个学生和一个教授完成。
但我们真的做出来了。我们从互联网上精挑细选了大约一千五百万张图像,借鉴了 WordNet 的体系,构建了两万多个概念类别,最终形成了 ImageNet,并把它开源给全世界的研究者。我们还举办年度 ImageNet 挑战赛,邀请大家一起参与,同时也继续推进自己的研究。
2012 年被很多人视为现代深度学习的起点。那一年 Geoff Hinton 教授带领多伦多大学团队参加 ImageNet 挑战,他们用 ImageNet 的大数据和两块英伟达 GPU 训练出一个神经网络模型。虽然它没有完全解决物体识别,但带来了突破性的提升。
大数据、神经网络和 GPU 这三个因素叠加,成了现代 AI 的黄金组合。
快进到 ChatGPT 的发布,这是 AI 真正进入公众视野的时刻。从技术角度看,ChatGPT 的出现依然离不开这三大核心要素,只是数据规模变成了互联网级,神经网络结构更复杂,用的 GPU 数量也更多,但底层的逻辑和原理并没有改变。这三件事到现在仍然是现代 AI 的基石。
主持人:你当时就是觉得,要推动 AI 发展,ImageNet 必须做,然后就去做了。不过在那个时期,大家更常用的说法是机器学习,对吗?
李飞飞:当时 AI 和机器学习这两个词是交替使用的。大概在 2015 年年中到 2016 年年中,一些科技公司会刻意回避用 AI 这个词,因为他们担心这个词会不会变成负面标签。但我一直鼓励大家勇敢使用 AI 这个词。因为在我看来,让机器变得智能,是人类在科技探索中提出过最大胆的问题之一,我对这个词非常自豪。不过确实,在早期,很多人是有顾虑的。
主持人:那是哪一年开始,AI 这个词逐渐被广泛接受的?
李飞飞:我觉得是2016 年吧那算是一个转折点,那时起有些人开始愿意用 AI 这个词了。再往后,如果你看硅谷公司的宣传,大概 2017 年左右,才真正出现公司开始把自己定位成 AI 公司。
主持人:说到那段早期历史,你觉得有没有什么重要但大家可能不知道的事值得分享?
李飞飞:我觉得和所有历史一样,虽然我被视为这段发展的一部分,但背后有太多无名英雄和研究者。这是几代人一起耕耘出来的结果。在我的职业生涯中,有无数人给过我启发,我在书里也提到过这些。
不过我们的文化,特别是硅谷文化,总习惯把功劳集中在某一个人身上。虽然这样做有它的价值,但我想提醒大家,AI 的发展已经持续了七十年,是好几代研究者共同铺出来的路,不可能靠某一个人的力量走到今天。
02 AI 的「人本」视角
主持人:你觉得我们距离 AGI 还有多远?按照现在的发展趋势,我们能实现它吗?需要更多技术突破吗?现有的技术路径足够支撑我们走到那一步吗?
李飞飞:这是个很有意思的概念。我不确定有没有谁真正给过 AGI 一个严谨的定义。不同的人有不同的理解,有人认为是让机器拥有某种超能力,有人认为是让机器成为社会里能独立立足的主体,比如能自己创造价值。这样的标准算是 AGI 吗?
作为科学家,我习惯非常严谨地看待问题。我进入这个领域,就是因为被“机器能否像人一样思考和行动”这个大胆问题所吸引。对我来说,这一直是人工智能的核心目标。
从这个角度看,我不觉得 AI 和 AGI 有本质区别。我们在某些方向上已经取得了不错的进展,比如对话系统,但离全面实现人工智能还有一段距离。如果你现在去问 Alan Turing,他大概会说,这不就是我在二十世纪四十年代就提出的问题吗。
所以我不想陷入对 AI 和 AGI 的定义之争。在我看来,AGI 更像是营销语言,而不是科学术语。对我来说,人工智能就是我所追求的目标,也是整个领域的真正目标。大家愿意怎么称呼它都可以。
主持人:就像你前面说的,从 ImageNet 和 AlexNet 开始,我们靠着一些关键要素走到了今天,比如 GPU、数据、标注数据和模型算法,而 Transformer 架构似乎也是这条路线上的重要一步。
你觉得这些现有要素能不能让我们继续做出强大十倍、足以改变世界的模型?我们还需要哪些突破?我知道我们待会会聊世界模型,那可能是其中一个方向,但除此之外,你觉得还有哪些瓶颈?换句话说,现在的技术是不是只要往上堆数据、堆算力、堆 GPU 就能继续往前走?
李飞飞:我觉得我们一定需要更多创新。增加数据、增加 GPU、放大模型规模,这些方向当然还有空间,但我始终相信我们需要更多根本性的创新。
在人类的科学史上,没有任何一门成熟的学科会说自己已经不需要创新了。人工智能虽然已经发展了几十年,但相比其他学科,它仍然非常年轻,我们现在不过刚刚开始。
举个例子,我们之后会聊世界模型。你给一个当前的模型看一段办公室的视频,让它数清楚里面有多少把椅子,这对幼儿园小朋友或者小学生来说都不难,可 AI 现在还做不到。更别说像牛顿那样,通过观察天体运动推导出适用于所有物体的运动规律。
那种创造力、推理能力和抽象能力,我们现在完全无法让机器具备。再看看情感智能,一个学生走进老师办公室,谈自己的动力、兴趣、困扰,今天的对话系统在情绪理解和表达上还远达不到这种水平。
所以我们还有太多可以提升的地方,我完全不认为创新已经走到尽头。
03 语言之外,智能世界模型登场
主持人:那你觉得什么是世界模型,它为什么如此重要?
李飞飞:我这一辈子都在思考怎么推动 AI 向前走。过去几年,学界和像 OpenAI 这样的机构陆续推出的大型语言模型,对我这样的长期研究者来说,都带来了很强的启发。
我记得 GPT-2 推出时是 2020 年底,当时我在斯坦福大学以人为本人工智能研究所担任联合主任,现在依然在这个岗位,不过那时是全职投入。那时候公众还意识不到大型语言模型的潜力,但我们研究者已经看到了未来的模样。
我和做自然语言处理的同事们聊过很多次,我们都觉得这项技术的影响会非常深远。斯坦福的以人为本人工智能研究所 是最早建立完整基础模型研究中心的机构之一,很多研究者还主导发表了第一篇关于基础模型的论文,这些都令我很受鼓舞。
不过我出身于视觉智能方向,我一直在想,除了语言之外,其实还有非常大的空间可以发展。
因为人类很多重要能力,是依赖空间智能和对真实世界的理解完成的。你如果处在一个混乱的应急救援场景里,不管是火灾、车祸还是自然灾害,你会发现人们组织救援、阻止灾情扩散、扑灭火势,有大量能力是来自行动本身、来自对物体和环境的即时理解,还有对情境的把握。语言当然有用,但在很多情况下,光靠语言并不能让你穿上消防服冲进去救人。
这就是我一直反复思考的问题。我同时还做了大量机器人研究,渐渐意识到,要打通语言之外的其他智能,要真正连接具身智能和视觉智能,关键就在于机器理解世界的空间能力。
在 2024 年的 TED 演讲中,我谈到空间智能和世界模型。其实这个想法早在 2022 年就开始成形了,来自我在机器人和计算机视觉方向的持续研究。后来我想得越来越清楚,我希望和最顶尖的技术人才合作,把这些能力尽快从实验室带到现实世界,于是我们创办了 World Labs,名字里有 world,就是因为我们坚信世界建模和空间智能的巨大价值。
主持人:很多人对聊天机器人很熟悉,会觉得大型语言模型就是一种对话工具。那世界模型是不是可以理解成,你描述一个场景,它就能生成一个能随意探索的世界?我们之后会附上你们的产品链接,不过这个理解准确吗?算是世界模型的一部分吗?
李飞飞:可以说是一部分。世界模型的一个直观理解是,你可以用一句话或一张图,在脑海中构建出任何世界,并且可以在这个世界里互动,比如观察、走动、拿起物体、调整场景,同时还能在里面进行推理。
如果使用这个世界模型的是机器人,它就应该能规划路线、整理厨房之类的。所以世界模型更像一个基础平台,你可以在上面推理、互动、创造各种世界。
主持人:你刚才说,要让机器人真正能在现实世界里发挥作用,关键就在于理解世界的运行方式,这正是目前缺少的那一块。
李飞飞:首先,我觉得受影响的不只是机器人,但你说得很对。世界建模和空间智能确实是具身智能短板所在。同时,我们也不应该忽略人类本身作为具身主体的属性,人类同样能通过 AI 获得能力提升。
就像人类是依赖语言的生物,AI 在语言方面已经给我们提供了巨大帮助。可我们往往忽略了,作为具身主体的人类,其实也能从世界模型和空间智能模型中受益匪浅,就和机器人一样。
此外,这对设计领域也非常关键。人类在设计机器、建筑、家居用品等时都离不开对空间和物体的理解。再看看科学发现的过程,我特别想举 DNA 结构发现的例子。Rosalind Franklin 拍摄的那张 X 射线衍射照片非常关键,那是一张二维平面图像,展示的是交叉的衍射图案。研究者们正是结合这张照片和其他信息,通过三维空间推理,推导出了 DNA 双螺旋的三维结构。
这种复杂结构不可能在二维层面得出,必须依赖三维空间思维和人类强大的空间智能。所以我认为,在科学发现领域,空间智能乃至 AI 辅助的空间智能同样至关重要。
04 「惨痛教训」教不出机器人
主持人:那为什么说“惨痛教训”理论单独用在机器人领域可能行不通?
首先,“惨痛教训”有不同的表述方式,但大家通常指的是 Richard S. Sutton 近期发表的那篇论文。他刚拿到图灵奖,是强化学习领域非常重要的人物。Sutton 在论文里回顾了人工智能算法的发展,指出历史上最终胜出的,往往是依赖海量数据的简单模型,而不是依赖少量数据的复杂模型。
这篇论文是 ImageNet 之后很多年发表的。对我来说,它一点都不惨痛,甚至可以说是一种甜蜜的验证。这正是我当初做 ImageNet 的原因,我本来就相信大数据的价值。
但你问为什么“惨痛教训”单独放在机器人领域可能不太奏效,原因有几个。首先,我们要肯定当前的进展。机器人研究还处于非常早期的实验阶段,远不如语言模型成熟。现在很多团队都在尝试不同的算法,其中有一些确实依赖大数据,所以大数据在机器人上依然会发挥作用。
不过机器人领域有一些特别的挑战。第一是数据获取难度更高。你可能会说现在可以用网络视频,确实最新的机器人研究开始这么做,这也能带来一定帮助。但从我做计算机视觉和空间智能的角度来说,我真的很羡慕做自然语言处理的同事:他们的所有训练数据都是文字,模型输出也是文字。
也就是说,训练数据和训练目标之间是完美对齐的。而机器人不是,空间智能也不是。我们的目标是让机器人输出动作,但训练数据里恰恰缺少三维世界里的动作信息,而动作是机器人必须具备的核心能力。
这就造成训练过程有点方枘圆凿,我们必须用其他方式来补这个缺口,比如加入远程操控的数据或生成的数据,让机器人也能依靠海量数据进行学习。我认为这是有希望的,因为我们做的世界建模,未来会给机器人提供大量这样的信息来源。
但我们也要保持冷静,因为目前还在非常早期的阶段,“惨痛教训”能不能在机器人领域完全成立,还需要时间验证。毕竟我们还没真正解决机器人需要的大规模数据问题。
还有一点需要记住,机器人是物理系统。这一点让它们更像自动驾驶汽车,而不是大型语言模型。这点非常关键。让机器人工作得很好,不只是软件层面的事,还需要合适的硬件,以及明确的应用场景。
想想自动驾驶汽车的发展:我的同事 Sebastian Thrun 带着斯坦福团队在 2005 年前后赢得了 DARPA 大赛。从那辆能在内华达沙漠跑一百三十英里的原型车,到今天旧金山街头能看到的 Waymo,已经过了二十年,可我们仍然没有完全攻克自动驾驶。
而且自动驾驶比机器人简单多了,自动驾驶只是让一辆金属盒子在二维平面上移动,目标是不撞任何东西。机器人则是在三维世界里运作的三维实体,它不仅不能撞东西,还要与物体互动。
所以机器人技术的推进要素更多、难度更高,发展的周期会更长。当然有人会说,自动驾驶早期还在深度学习出现之前,现在深度学习可能会加速整个进程,我同意这一点,这也是我对机器人和空间智能感到兴奋的原因。但别忘了,汽车行业已经非常成熟了,要规模化落地,还需要成熟的供应链、硬件体系和实际应用场景。
所以现在正是研究这些问题的好时机。但你说得没错,我们大概率还会在机器人领域经历不少真正意义上的惨痛教训。
主持人:在做这些工作的时候,你会不会经常对人类大脑感到敬畏?毕竟人类可以轻松完成很多复杂任务,而让机器做到哪怕只是走路、不摔倒、不撞东西都这么难。这会不会让你更加感叹人类的能力?
李飞飞:当然。人类大脑的能耗大概只有二十瓦,甚至比我所在房间里的灯泡还暗,但它却能做到那么多事情。事实上,我在 AI 里投入得越深,就越敬畏人类本身。
05 影子,与真正的世界
主持人:我们再来聊聊你们刚推出的产品 Marble。它究竟是什么?
李飞飞:Marble 是 World Labs 推出的第一款产品。World Labs 是一家专注前沿基础模型的公司,由四位有深厚技术背景的创始人共同创办。我的联合创始人都来自人工智能、计算机图形学和计算机视觉领域。我们一直相信,空间智能和世界建模的重要性不亚于语言模型,甚至在某些方面更有价值,而且两者之间是相互支持的。
所以我们希望抓住这个机会,打造一个深度技术实验室,让前沿模型真正走向产品。Marble 就是基于我们构建的前沿模型开发的应用。我们花了一年多时间,构建出了全球首个能够真正生成三维世界的生成式模型。这件事的难度极高,研发过程也非常艰辛,我们的核心团队来自许多顶尖技术团队。
就在一两个月前,我们第一次实现了用一句话、一张图片或几张图片作为提示,生成一个可以自由探索的三维世界。如果你戴上 VR 眼镜,还能真的走进去。这项技术我们已经研究很久了,但当它真正成功的时候,我们自己都非常激动。
我们也希望把它交到需要的人手中。我们知道,创作者、设计师、机器人仿真研究者、游戏开发者,还有任何需要可导航、可交互、沉浸式世界的人,都会在其中发现价值。
所以我们发布了 Marble 作为第一步。虽然它仍处于早期,但已经是全球第一个能做到这一点的模型,也是第一款让用户通过提示词创建三维世界的产品。
作为做研究的人,这对我们来说也是一次学习。比如那些帮助用户进入世界的“点”,其实是我们专门设计的可视化方式,不是模型本身。模型真正的任务是生成世界,而我们要找到方式让用户顺利进入这个世界。
我们的工程师尝试了多个版本,最后选定用点云来引导用户。对我们来说,看到一个不是模型本身、而是用于用户体验设计的小功能这么受欢迎,是一种特别的成就感。
主持人:那如果有人现在就想体验或使用 Marble,它已经可以用在哪些场景里?你们这次推出的目标是什么?
李飞飞:首先是电影虚拟制作。影视团队需要三维世界来做摄像机校准,让演员在表演时,工作人员能准确控制镜头走位。我们已经看到特别好的应用效果。你在发布视频中看到的内容,就是由一家虚拟制作公司完成的,我们和索尼合作,他们用 Marble 实现了视频拍摄。
技术艺术家和导演告诉我们,Marble 让制作效率提高了大概四十倍。我们当时只有一个月时间完成这个项目,而且他们需要拍很多内容。Marble 极大地加快了视觉特效和虚拟制作的流程。
第二个应用是游戏开发。用户可以把 Marble 生成的场景导出为网格文件,直接导入 VR 游戏或其他自研游戏里。我们已经展示了相关案例。
第三个是机器人仿真。我一直在做机器人训练研究,其中最大的难题之一就是为训练生成合成数据。这些数据必须非常多样化,要来自不同环境,还要包含丰富的可操作物体,而通过计算机仿真生成是最高效的方式。
如果不这样做,人类必须手工创建每一个训练场景,工作量会指数级增长。已经有研究团队联系到我们,希望用 Marble 来生成机器人训练需要的合成环境。
还有一些我们原本没想到的应用。例如有个心理学研究团队找到我们,他们研究某些精神疾病患者,需要不同特点的沉浸式环境来观察大脑反应。但这类环境很难获取,构建起来也很费时,而 Marble 能几乎即时生成大量这样的实验场景。
所以我们已经看到不少清晰的应用方向。视觉特效、游戏开发、仿真研究、设计领域的人都对 Marble 表现出强烈兴趣。
主持人:那Marble 和其他视频生成模型有什么区别?
李飞飞:World Labs 的核心理念是,空间智能非常重要,而空间智能绝不只是生成视频。
视频本质上是一种被动呈现的二维画面。我很喜欢用柏拉图的“洞穴寓言”来解释视觉。想象一个囚犯被固定在洞穴里的椅子上,不能回头,只能看见墙壁;而洞穴外的真实世界里,人们在表演,光线把他们的影子投射到墙上,囚犯只能通过这些影子来揣测真实发生了什么。
这个例子虽然极端,但非常准确地刻画了视觉的本质。我们总是从二维画面中去理解一个三维甚至四维的世界。而对我来说,空间智能不是生成二维内容,而是让模型具备生成、推理、交互、理解深度空间世界的能力。这正是 World Labs 专注的方向。
当然,生成视频本身也属于空间智能的一部分。就在几周前,我们展示了全球首个能在单块 H100 GPU 上实时生成视频的演示。
所以我们的技术也能生成视频,但 Marble 的核心区别在于:它让创作者、设计师、开发者能够使用一个真正具备三维结构的世界生成模型,用它来完成自己的工作。这就是 Marble 与现有视频生成模型最大的不同。
顺便说一下,Marble 也支持导出视频。比如你创建了一个霍比特人洞穴的世界,你可以根据自己的想法设计摄像机的移动轨迹,然后直接从 Marble 里导出这段视频。
主持人:打造这样一款产品需要什么条件?比如团队规模大吗?用到多少 GPU?
李飞飞:最核心的是“脑力”。每个人类的大脑功耗大概只有二十瓦,从数字上看很小,但正是亿万年的进化,让我们拥有了这些能力。
我们目前的团队大概三十人左右,主要是研究员和研究工程师,也有设计和产品方面的同事。我们始终相信,要打造一家以空间智能深度技术为核心的公司,同时也要交付真正能用的产品。所以我们让研发和产品化紧密结合。当然,我们也用到了大量 GPU,这一点毫无疑问。
06 做前沿领域的无畏者
主持人:你的这家公司是什么时候成立的?两三年前?
李飞飞:大概一年前,准确来说差不多十八个月。
主持人:如果你能回到十八个月前,对那时候的自己悄悄说一句话,你希望告诉自己什么?
李飞飞:我一直希望自己能提前洞察技术的未来。其实,能预见趋势也是我们创业的优势之一,我们通常能比绝大多数人更早看到方向。但即便如此,未知的一切和未来的挑战依然让人既紧张又兴奋。
我知道你问这个问题,更多是想听听我对技术未来的感悟。但其实从创业角度来看,我二十岁时也没有创办过这种规模的公司。十九岁的时候我开过一家干洗店,规模小太多了。后来我参与创立谷歌云的 AI 部门,也在斯坦福创办了研究所,但这些经历和如今的创业完全不是一回事。
作为创业者,我觉得自己比二十岁左右的人更能承受这种高强度的节奏,但还是会不断遇到意外。比如我没想到 AI 领域的竞争会这么激烈,不管是模型、技术,还是人才,都卷得超乎想象。
创办公司时,我也完全没想到顶尖人才的成本会高到这种程度。这类事情不断让我重新认识现实,也逼着我时刻保持敏锐。
主持人:那对于那些希望在人生中做出突破、走在时代前沿的人来说,你从一个地方到另一个地方、加入这些核心团队的过程,是否有一条持续贯穿的主线?也许能够给大家一些启发。
李飞飞:确实有。我也想过这个问题。很明显,是好奇心和热情把我带入了 AI 领域,这更像是一种纯粹的科学追求,我从不在乎 AI 当时是不是热门。但至于我为什么会选那些特定的地方去工作,包括后来创办 World Labs,背后有更深的原因。
我很庆幸自己是一个在求知上无所畏惧的人。我在招年轻人的时候也很看重这一点。因为如果一个人想推动改变,就必须接受自己要去创造新事物,要进入无人探索的领域。意识到这一点后,你就得学会让自己无畏。
比如,当年我从普林斯顿跳槽到斯坦福时,我在普林斯顿的学术职位已经快拿到终身教职,也就是所谓的铁饭碗。但我还是选择了回斯坦福,因为我热爱那所学校,那里的同事非常优秀,硅谷的生态也无比动人。我愿意冒险,从头开始新的终身教职考核,还成为斯坦福人工智能实验室的第一位女性主任。
那时我其实还算年轻,但我愿意这么做,因为我在乎那个社群,也没花太多时间担心失败。当然,我很幸运,资深教员都非常支持我。我只是在努力为这个领域做一些事情。
后来加入谷歌也是类似的情况,我想和杰夫·迪恩、杰夫·辛顿这样杰出的科学家共事。创办 World Labs 也一样,我对空间智能充满热情,也相信志同道合的人能够一起创造出真正重要的东西。
所以这就是贯穿我职业生涯的主线:我不会过度担心那些可能会出错的事情,因为如果想把它们一条条想清楚,那可太多了。
主持人:你现在在斯坦福大学以人为本人工智能研究所主要负责哪些事务?
李飞飞:以人为本人工智能研究所是我和几位教授在 2018 年共同创办的。当时我刚结束在谷歌的休假,面临一个重要决定:继续留在行业,还是回到学术界。
在谷歌的经历让我真正意识到,AI 已经成为一项文明级别的技术,它对人类的重要性非常深远。同一年,我在《纽约时报》发表了一篇文章,呼吁建立一套框架来指导 AI 的研发和应用,而这套框架必须以人类的善意和人的主体性为核心。
我认为,斯坦福作为全球顶尖学府,位于孕育了英伟达、谷歌等公司的硅谷中央,应该承担起思想领导的角色,建立这套以人为本的 AI 框架,并把它融入研究、教育、政策与生态建设。
如今六七年过去了,以人为本人工智能研究所已经成为全球最大的 AI 研究所,专注于以人为中心的研究、教育、生态拓展和政策影响。研究所覆盖斯坦福八个学院的数百位教授,领域从医学、教育、可持续发展、商业,到工程、人文、法律等非常广泛。
我们支持跨学科研究,从数字人文、法律与治理,到药物研发和新型算法。同时,我们也非常重视政策工作。在创办研究所时,我就注意到硅谷和华盛顿、布鲁塞尔等政策制定者之间缺乏沟通。而 AI 这么重要,我们必须让更多人参与进来。
主持人:听你说完我才意识到,你做的事情远比我想像的更多。这让我想到 Charlie Munger 的那句话,“接受一个简单的理念,并认真践行它。” 你在多个领域通过不断践行自己的理念产生了非常深远的影响。最后,你有什么想对听众说的吗?
李飞飞:我对 AI 的未来非常期待。我想回答一个我在世界各地旅行时常被问到的问题:“如果我是音乐家、中学老师、护士、会计师或农民,我在 AI 时代还有位置吗?AI 会不会夺走我的生活或工作?”
我认为这是关于 AI 最关键的问题。在硅谷,我们常常没有好好和外界交流,只是抛出“无限生产力”“无限闲暇”“无限权力”这样的词汇。但 AI 的根本是关于人的。
对这个问题,我的答案永远是肯定的:每个人在 AI 时代都有自己的角色。你的位置取决于你想做什么、愿意做什么。任何技术都不应剥夺人的尊严,人的主体性必须始终处于技术研发、部署和治理的中心。
如果你是年轻的艺术家,热爱讲故事,那就把 AI 当工具,用它来扩展你的创作边界,甚至可以试试 Marble。你讲故事的方式是独特的,这个世界始终需要这样的声音,关键在于你如何用这项强大的工具更生动地表达它。
如果你是一位即将退休的农民,AI 也与你密切相关。作为公民,你有权参与社区决策,对 AI 的使用方式发声,也可以鼓励周围的人用 AI 让生活更便利。
如果你是护士,我想特别告诉你,在我的职业生涯中,我投入了大量精力在医疗和健康研究上。我相信医护人员理应得到 AI 的支持,无论是提供更多信息的智能摄像头,还是辅助照护的机器人。我们的护士太辛苦了,而随着社会老龄化加剧,我们需要更多支持去照顾他人,AI 完全可以在这方面帮助我们。
所以我想说,即使作为一个深度参与技术的人,我也真心相信:每一个人,在 AI 时代都有属于自己的位置。
主持人:这个结尾太精彩了,完美呼应了我们开场时的主题。AI 的未来取决于我们每一个人,我们也要为它在生活中产生的影响承担起责任。
博客地址:
视频地址:
https://www.youtube.com/watch?v=Ctjiatnd6Xk
//
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载! 公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。