一、暴力美学失效
Scaling Law,即尺度定律,被业界认为是大模型预训练的第一性原理。2020年,OpenAI发布论文“Scaling Laws for Neural Language Models”,首次发现模型参数量、数据集大小、训练计算量之间存在幂律关系,这一趋势跨越了超过七个数量级。然而,随着模型参数不断增加,对数据量的需求也是指数级增长,人类互联网产生的数据迟早有一天会被大模型“吞噬”,且这一天来得如此之快。The Information指出,OpenAI下一代ChatGPT 5的训练出现了重大瓶颈,原因之一是高质量文本数据越来越少。谷歌和Anthropic也面临着相同的问题,谷歌的下一代Gemini模型表现低于内部预期,Anthropic的Claude 3.5 Opus发布也将推迟。国内情况同样严峻,多家AI初创公司转向应用层,而BAT等大厂对预训练的进展并未过多披露。实际上,国内模型厂商转向应用也从侧面印证了大模型Scaling Law目前存在的困境。
LLM不仅吞噬了大量的数据,而且在训练过程中所消耗的大量算力、电力等能源也成为严重阻碍。更为重要的是,超大规模的前期投入与收益无法匹配,ROI过低。OpenAI研究者Noam Brown曾公开表示,更先进的模型可能在经济上不可行。超大规模语言模型的预训练过程极其耗费资源,单次训练成本可达数千万至数亿美元,但新模型在性能上的提升却与之前的模型相差无几。在这种情况下,大模型公司下一轮的融资故事恐难以讲下去。目前,以OpenAI为代表的初创企业,并未跑通商业模式,投资人的钱也不是大风刮来的,如果长时间看不到回报,他们对继续投资的态度肯定会更加谨慎。因此,国内大模型行业整体转向了更符合商业利益的做法——做AI应用。
另外从技术角度看,整个AI行业还有一个转向——从预训练向推理转向。Scaling Law的忠实追随者OpenAI前首席科学家Ilya Sutskever在最近接受路透社采访时表示,扩大预训练的结果已经达到了平台期。他认为,“2010年代是scaling的时代,现在,我们再次回到了奇迹和发现的时代。每个人都在寻找下一个奇迹。”
二、大厂转向推理层,寻找新的Scaling Law
面对大模型Scaling Law降速的事实,各巨头纷纷寻找新的扩展定律。目前讨论的Scaling Law撞墙更多的是指预训练扩展定律,也就是上文讨论的大模型暴力美学。但有关后训练和推理的Scaling Law还未被充分挖掘,这也是诸多大佬认为Scaling Law没有失效的重要原因。后训练扩展定律关注的是在模型训练完成后,如何通过增加推理阶段的计算量来提升模型性能,而推理扩展定律则强调在推理阶段通过增加计算资源来提升模型性能的原则。提到这两个定律,不得不提到测试时计算,测试时计算可以被看做是实现后训练扩展定律和推理扩展定律的关键手段。OpenAI推出的O1推理模型正是靠测试时计算实现的,即在训练好的O1模型回答问题时,也就是在推理阶段,给它更多时间和算力,让它自己从自己的回复中得到更好的答案。国内DeepSeek也上线了全新的推理模型DeepSeek-R1-Lite-Preview,背后也同样是推理层的Scaling Law在发挥作用。DeepSeek之所以能有如此强势的推理能力,很重要的一点就是他们采用了超长推理时间。最近,一反常态的月之暗面,也向外界公布了其数学模型k0-math的进展情况,采用了强化学习和思维链推理技术。
结尾
大模型预训练的Scaling Law之所以能跑出来,是因为在当时的条件下,这是投入与回报最佳的Scale up路线。然而,站在历史角度上看,每个技术曲线的Scaling law都有其寿命,不存在一招吃遍天下的情况。在AI领域,虽然短期内可能会遇到技术瓶颈或成本效益比下降的问题,但从长远来看,AI的软硬件能力仍然会以每十年六个数量级的速度呈指数增长。这种增长将通过多种创新路径得以实现,包括但不限于算法优化、硬件加速、新型计算架构等,共同维持AI技术的快速发展趋势。即使Scaling Law真的撞墙,前代技术的商业化应用红利依然会持续很久。
(图片已保留)