数据不够用了?国内外大模型“断炊”
高质量数据是模型训练中的重要资产,如今,它正像石油一样,快要耗尽了。
据The Information消息,一些测试过Orion的OpenAI员工发现,虽然Orion的性能超过了OpenAI现有的所有模型,但其性能质量提升程度远远小于从GPT-3到GPT-4的飞跃。这意味着,随着高质量数据趋于有限,AI模型的改进速度可能会放缓。
为此,OpenAI成立了一个“基础”团队,以在高质量新数据供应减少的情况下,研究能让AI模型保持改进的新方法。据悉,公司计划基于AI合成数据训练Orion,并在后期训练中对模型作出更多改进。
与此同时,国内大模型也正在面临“数据耗尽”的问题。业界有种说法是,到2026年,自然数据将被大模型全部用完。
其中一个解决方法是采用合成数据。11月,腾讯开源的Hunyuan-Large 正是使用了部分合成数据训练。此外,阿里Qwen2也使用了合成数据。
合成数据被认为有可能解决训练数据耗尽的问题,但关于能否用、如何用,业界仍有一定争议。今年早些时候,《自然》上一篇论文提出,用合成数据有可能导致模型崩溃。除混元外,支持使用合成数据的厂商则包括英伟达、Anthropic等。
(文章来源:财中社)