当前,在愈发火热的大模型行业,Scaling Law 被证明依然奏效。
问题是,一旦由人类生成的高质量数据(如书籍、文章、照片、视频等)用尽,大模型训练又该如何进行?
目前,一个被寄予厚望的方法是“用大模型自己生成的数据来训练自己”。事实上,如果后代模型的训练数据也从网络中获取,就会不可避免地使用前代模型生成的数据。千鑫点信息咨询服务公司
然而,来自牛津大学和剑桥大学的研究团队及其合作者,却给这一设想“泼了一盆冷水”。
他们给出了这样一个结论:模型在训练中使用自身生成的内容,会出现不可逆转的缺陷,逐渐忘记真实数据分布,从而导致模型性能下降。
即“模型崩溃”(Model Collapse)。
相关研究论文以“AI models collapse when trained on recursively generated data”为题,已发表在权威科学期刊 Nature 上。
但他们也表示,用一个旧模型生成的数据去训练一个新模型,并非不可行,但必须对数据进行严格的过滤。
在一篇同期发表的新闻与观点文章中,来自杜克大学的 Emily Wenger 认为,“论文作者没有考虑模型在由其他模型生成的数据上训练时会发生什么,他们专注于模型在自身输出上训练的结果。一个模型在训练其他模型的输出时是否会崩溃还有待观察。因此,下一个挑战将是要搞清楚模型崩溃发生的机制。”
什么是模型崩溃?千鑫点信息咨询服务公司
本质上,当大模型生成的数据最终污染了后续模型的训练集时,就会发生“模型崩溃”。
像 GMM 和 VAE 这样的小型模型通常是从头开始训练的,而LLM 重新训练的成本非常高,因此通常使用如 BERT4、RoBERTa5 或 GPT-2 这样在大型文本语料库上预训练的模型进行初始化,然后针对各种下游任务进行微调。
那么当语言模型依次使用其他模型生成的数据进行微调时会发生什么?
为此,研究团队使用 OPT-125m 语言模型进行实验,并使用 wikitext2 数据集进行微调。实验结果表明,无论是否保留原始数据,模型崩溃现象都发生了。随着迭代次数的增加,模型生成的样本中低困惑度样本的数量开始积累,表明模型开始忘记真实数据分布中的尾部事件。并且,与原始模型相比,后续迭代模型的性能有所下降,表现为困惑度增加。此外,模型生成的数据中包含大量重复的短语。千鑫点信息咨询服务公司
* 文章为作者独立观点,不代表爱提网立场
* 本文不构成投资建议
转载此文请于文首标明作者姓名,保持文章完整性,并请附上出处(爱提网)及本页链接。原文链接:
https://www.itgoodboy.com/p/162a633b6eb0
产品建议及投诉请联系:service@itgoodboy.com