宋飏加盟Meta,AI行业多模态赛道要变天?

发布时间:2025-09-27 16:16  浏览量:1

昨天刷AI圈朋友的朋友圈,刷到条炸开锅的消息,有人发了张宋飏和赵晟佳的合照,配文“Meta这是把OpenAI的多模态家底掏了?”。

评论区吵翻了,有人说“这俩人凑一起,Meta的多模态要起飞”,也有人泼冷水“跟踢足球似的,光买大牌球员凑不成强队”。

说实话,我之前跟某AI实验室的研发聊过,他们团队也挖过两个顶流学者。

结果开会时俩人各说各的,一个说“要先优化模型架构”,一个说“得先解决数据对齐”,连“算力调度优先级”这种基础术语都要先解释半天,最后项目卡了仨月。

但宋飏和赵晟佳不一样,他俩是真・“老战友”。

俩人本科都在清华的数理基础科学班,后来又一起在斯坦福读博,师从同一个导师。

我翻过去的学术会议视频时发现,早在2018年,他俩就一起在NeurIPS上做过报告,当时宋飏讲扩散模型的理论,赵晟佳补算力优化的落地细节,配合得特别顺。

后来到了OpenAI,赵晟佳主导ChatGPT、GPT-4的核心研发,相当于给大模型搭好了“骨架”。

宋飏则盯着跨模态生成,DALL・E2能精准把文本变成图像,他团队提出的“扩散模型与语言模型协同算法”起了关键作用,算是给骨架填了“血肉”。

更重要的是,宋飏不是那种“只发论文不管落地”的学者。

我认识个曾在OpenAI跟他共事的工程师,说宋飏带“战略探索”团队时,会拿着产品经理的需求文档改算法。

比如为了让DALL・E2生成的“古风建筑”更符合用户预期,他带队调整了模型对“飞檐”“斗拱”这些细节的识别权重,最后生成精度提了不少。

MSL之前虽然有赵晟佳搭的框架,但在多模态落地这块一直缺个“能把论文变产品”的人。

宋飏一来,正好补上这个缺口。

如此看来,Meta这次挖人,不是盲目凑“明星阵容”,是真找了能一起干活的“老战友”。

宋飏其实不是今年第一个从OpenAI跳去MSL的。

我翻了下行业人才库,今年夏天以来,已经有11个从OpenAI、Google、Anthropic来的研究者加入MSL。

但有意思的是,有人来也有人走,最典型的是AurkoRoy,这位之前在MSL负责大模型数据清洗,待了不到五个月就离职,后来去了微软AI。

我之前跟AurkoRoy的前同事聊过,才知道他走的原因特实在,他想做“多模态数据清洗自动化”,但MSL当时的优先级是“理论算法优化”,给他的数据集都是标注好的“干净数据”,想做的实验根本没法推进。

“不是钱的问题,是觉得自己的活没价值”,那位前同事原话这么说。

老实讲,这两年AI圈的人才流动早变了,以前大家看“公司名气”,现在更看“项目能不能落地”。

我还认识个从Anthropic跳去创业公司的研究员,他说之前在Anthropic时,想做“小参数多模态模型”,但团队一直逼着冲“千亿参数规模”,最后只能走人。

有人可能会问,宋飏为啥非要去MSL做多模态?其实不是他跟风,是行业真有这个需求。

我有个做医疗AI的朋友,他们现在用的多模态模型,经常出“低级错误”,比如把“肺炎CT影像”和“感冒病历”对应到一起,原因就是模型对图像和文本的理解没对齐。

而宋飏之前在OpenAI,正好解决过类似问题。

他当时带团队优化了扩散模型的“模态对齐模块”,简单说就是让模型“看明白图像的同时,也读透文本的意思”。

优化后,DALL・E2生成的图像与文本描述的匹配度提了不少,比如用户说“带雪的松树旁有个红色小木屋”,模型不会再把“红色”安到松树上。

而MSL的目标是搞通用人工智能(AGI),多模态就是绕不开的坎,总不能让AI只懂文本不懂图像,只听声音不会看动作吧?

赵晟佳之前已经搭好了MSL的大模型训练框架和推理系统,相当于建好了“工厂”,宋飏带来的技术,就是给工厂装“生产线”,能把图像、文本、音频这些不同类型的数据,变成AI能理解、能生成的内容。

现在不管是医疗、教育还是工业,都需要这样的多模态模型,比如教育AI要结合文本课件和动画演示,工业AI要分析设备运行声音和监控图像。

毫无疑问,Meta这次是踩准了行业的需求节奏。

宋飏加盟MSL这事儿,看着是一次普通的人才流动,其实藏着AI圈的新变化,人才竞争从“抢明星”变成“搭班子”,人才选择从“看名气”变成“找落地”,技术方向从“单模态”转向“多模态”。

对从业者来说,以后光懂一个领域不行,得会把技术落地,对实验室来说,光挖人不行,得给人才干活的条件。

至于Meta能不能靠这波操作领先,还得看后续的产品,但至少现在,它没走偏路。