两亿美元人才庞若鸣:苹果论文揭SBP,解大模型数据枯竭
发布时间:2025-09-24 14:52 浏览量:1
庞若鸣这事儿挺有意思,几个月前从苹果跳槽到Meta,扎克伯格直接砸了两亿请他进超级智能团队,现在领英显示他都在Meta待了仨月了。
结果没想到,苹果这边还在陆续发他之前参与的研究,其中一篇论文专门解决大模型现在最头疼的问题:高质量预训练数据快用完了。
说实话,大模型圈里离职后成果还能持续冒出来的情况真不多见。
这倒也能看出庞若鸣在苹果的分量,他之前是苹果基础模型团队负责人,AppleIntelligence还有其他AI功能的核心模型,都是他牵头搞的。
大模型这行,能主导核心模型开发的人本来就少,他这波“离职不脱更”的论文产出,也说明这些研究在他离开前就已经到了关键阶段。
这篇关键论文叫《Syntheticbootstrappedpretraining》,在arXiv上能查到链接。
它要解决的问题,其实是整个行业的“老大难”:大模型练本事全靠喂语料,以前都觉得语料越多、越多样,模型就越厉害,可现在互联网上的好语料快挖空了。
你想啊,总不能把同一批东西翻来覆去喂给模型吧?那样练出来的模型只会“炒冷饭”,不会真进步。
更关键的是,这篇论文指出了一个以前被忽略的点:大模型预训练时,大家都盯着单篇文章里的文字关联,比如一句话里下一个词该是什么,却没注意两篇相关的文章里也藏着有用的信息。
就像写注意力机制的代码文档,多半是从Transformer论文来的;《哈利·波特》小说和电影剧本,虽然一个是文字一个是脚本,但核心内容和结构是相似的。
这些跨文章的关联,以前全被当成“无关信息”丢了。
论文团队就猜:要是能把这些关联抓出来,用合成数据的方式变成训练信号,说不定能让模型在现有语料里挖出更多价值。
老实讲,这个思路挺妙的,既然找不到新数据,那不如把手里的数据“榨干”。
以前大模型训练像“囤货”,总想囤更多新货;现在这思路变成“盘活库存”,把家里现有的东西重新整理利用。
对小公司来说,这尤其重要,毕竟不是谁都能像大厂那样砸钱买海量语料,要是能把现有语料用得更透,就能少走不少弯路。
那具体怎么干呢?论文里提的SBP策略,分三步走,说起来也不绕。
第一步是找“相似文章对”,先给每篇文章用个轻量级模型(叫Qwen3-Embedding-0.6B)转成1024维的向量,再用工具找相似的,相似度够0.75才算数。
还得过滤掉差不多重复的文章,比如用13个词的滑动窗口检查,避免把稍微改几个字的文章当成新的。
本来想这一步会不会很费算力,后来发现他们用了8位量化技术,能省不少计算成本,小团队也能扛得住。
说实话,这一步要是做不细,后面全白搭,要是把不相关的文章凑成对,那合成出来的数据也是“垃圾”。
第二步是训个“数据合成器”,这个合成器和要练的主模型用一样的Transformer架构,还从已有预训练的基础上接着训,不用从零开始。
它的目标很简单:给一篇种子文章,能写出一篇相关但不重复的新文章。
就像给它一篇咖啡师的日记,它能写出一篇讲咖啡机挑选的文章,主题相关但内容不重合。
第三步就是大规模合成数据了,给原始语料里的每篇种子文章,用合成器生成新文章,生成时还会控制参数,比如温度设1.0保证多样性,top_p设0.9过滤掉不靠谱的内容。
生成完还要检查,把重复太多的文章删掉,最后和原始语料混在一起训练,而且合成文章不重复用,避免模型学“死”了。
实验的时候,团队用的是Llama3架构的30亿参数模型,在含5.82亿文档的DCLM语料上练。
对比了两种情况:一种是只重复用原始语料,一种是用20倍多的真实新语料(叫“Oracle模型”)。
结果挺意外的,练到2000亿token时,SBP能达到Oracle模型差不多一半的提升;练到1万亿token时,提升还更多了。
更有意思的是训练过程:SBP刚开始可能比只重复用原始语料的模型稍差,但越往后越厉害,反观后者练着练着就没进步了。
这说明SBP合成的数据是真的有新信息,不是简单把原文换个说法。
对合成数据的质量,他们也做了检查。
定性看,给一篇圣地亚哥咖啡馆的文章,合成器能写出讲浓缩咖啡机对比的内容,还能延伸到当地咖啡文化,不是瞎写;定量看,合成数据的多样性和真实数据差不多,练到1万亿token时,事实准确性还高了不少。
说来说去,SBP最有价值的不是让模型多了多少性能,而是换了个训练思路。
以前行业总想着“找更多数据”,现在变成“挖透现有数据”。
而且它不用依赖外部模型,自己就能从现有语料里学东西,适用性也广。
庞若鸣这篇苹果论文,不光是他个人的成果,更给行业指了条新路子。
现在大模型快摸到数据的天花板了,以后怕是会有更多人跟着往“数据挖潜”的方向走。
毕竟,与其花大价钱找新数据,不如把手里的数据“榨”出更多价值,这才是长久之计。