两亿美元人才庞若鸣：苹果论文揭SBP，解大模型数据枯竭

发布时间：2025-09-24 14:52 浏览量：6

庞若鸣这事儿挺有意思，几个月前从苹果跳槽到Meta，扎克伯格直接砸了两亿请他进超级智能团队，现在领英显示他都在Meta待了仨月了。

结果没想到，苹果这边还在陆续发他之前参与的研究，其中一篇论文专门解决大模型现在最头疼的问题：高质量预训练数据快用完了。

说实话，大模型圈里离职后成果还能持续冒出来的情况真不多见。

这倒也能看出庞若鸣在苹果的分量，他之前是苹果基础模型团队负责人，AppleIntelligence还有其他AI功能的核心模型，都是他牵头搞的。

大模型这行，能主导核心模型开发的人本来就少，他这波“离职不脱更”的论文产出，也说明这些研究在他离开前就已经到了关键阶段。

这篇关键论文叫《Syntheticbootstrappedpretraining》，在arXiv上能查到链接。

它要解决的问题，其实是整个行业的“老大难”：大模型练本事全靠喂语料，以前都觉得语料越多、越多样，模型就越厉害，可现在互联网上的好语料快挖空了。

你想啊，总不能把同一批东西翻来覆去喂给模型吧？那样练出来的模型只会“炒冷饭”，不会真进步。

更关键的是，这篇论文指出了一个以前被忽略的点：大模型预训练时，大家都盯着单篇文章里的文字关联，比如一句话里下一个词该是什么，却没注意两篇相关的文章里也藏着有用的信息。

就像写注意力机制的代码文档，多半是从Transformer论文来的；《哈利·波特》小说和电影剧本，虽然一个是文字一个是脚本，但核心内容和结构是相似的。

这些跨文章的关联，以前全被当成“无关信息”丢了。

论文团队就猜：要是能把这些关联抓出来，用合成数据的方式变成训练信号，说不定能让模型在现有语料里挖出更多价值。

老实讲，这个思路挺妙的，既然找不到新数据，那不如把手里的数据“榨干”。

以前大模型训练像“囤货”，总想囤更多新货；现在这思路变成“盘活库存”，把家里现有的东西重新整理利用。

对小公司来说，这尤其重要，毕竟不是谁都能像大厂那样砸钱买海量语料，要是能把现有语料用得更透，就能少走不少弯路。

那具体怎么干呢？论文里提的SBP策略，分三步走，说起来也不绕。

第一步是找“相似文章对”，先给每篇文章用个轻量级模型（叫Qwen3-Embedding-0.6B）转成1024维的向量，再用工具找相似的，相似度够0.75才算数。

还得过滤掉差不多重复的文章，比如用13个词的滑动窗口检查，避免把稍微改几个字的文章当成新的。

本来想这一步会不会很费算力，后来发现他们用了8位量化技术，能省不少计算成本，小团队也能扛得住。

说实话，这一步要是做不细，后面全白搭，要是把不相关的文章凑成对，那合成出来的数据也是“垃圾”。

第二步是训个“数据合成器”，这个合成器和要练的主模型用一样的Transformer架构，还从已有预训练的基础上接着训，不用从零开始。

它的目标很简单：给一篇种子文章，能写出一篇相关但不重复的新文章。

就像给它一篇咖啡师的日记，它能写出一篇讲咖啡机挑选的文章，主题相关但内容不重合。

第三步就是大规模合成数据了，给原始语料里的每篇种子文章，用合成器生成新文章，生成时还会控制参数，比如温度设1.0保证多样性，top_p设0.9过滤掉不靠谱的内容。

生成完还要检查，把重复太多的文章删掉，最后和原始语料混在一起训练，而且合成文章不重复用，避免模型学“死”了。

实验的时候，团队用的是Llama3架构的30亿参数模型，在含5.82亿文档的DCLM语料上练。

对比了两种情况：一种是只重复用原始语料，一种是用20倍多的真实新语料（叫“Oracle模型”）。

结果挺意外的，练到2000亿token时，SBP能达到Oracle模型差不多一半的提升；练到1万亿token时，提升还更多了。

更有意思的是训练过程：SBP刚开始可能比只重复用原始语料的模型稍差，但越往后越厉害，反观后者练着练着就没进步了。

这说明SBP合成的数据是真的有新信息，不是简单把原文换个说法。

对合成数据的质量，他们也做了检查。

定性看，给一篇圣地亚哥咖啡馆的文章，合成器能写出讲浓缩咖啡机对比的内容，还能延伸到当地咖啡文化，不是瞎写；定量看，合成数据的多样性和真实数据差不多，练到1万亿token时，事实准确性还高了不少。

说来说去，SBP最有价值的不是让模型多了多少性能，而是换了个训练思路。

以前行业总想着“找更多数据”，现在变成“挖透现有数据”。

而且它不用依赖外部模型，自己就能从现有语料里学东西，适用性也广。

庞若鸣这篇苹果论文，不光是他个人的成果，更给行业指了条新路子。

现在大模型快摸到数据的天花板了，以后怕是会有更多人跟着往“数据挖潜”的方向走。

毕竟，与其花大价钱找新数据，不如把手里的数据“榨”出更多价值，这才是长久之计。

标签：模型苹果论文 sbp 合成器