近日,一篇名为《递归的诅咒:在生成数据上训练会导致模型遗忘》的研究论文发现,使用模型生成的内容进行训练会导致生成的模型出现不可逆转的缺陷,原始内容分布的尾部会消失。
研究人员将这种现象称为“模型崩溃”,并
表明它可能发生在变分自编码器、高斯混合模型和大型语言模型(LLM)中。他们说:“我们建立了对这种现象的理论直觉,并展示了它在所有学习的生成模型中的普遍性。”
【资料图】
研究人员指出,如果我们想要维持从网络上抓取的大规模数据训练所带来的好处,就必须认真对待模型崩溃的问题。“事实上,”他们说,“关于真实人类与系统交互的数据收集的价值将随着LLM在网络上爬取的数据中生成内容的增加而越来越高。”
自从OpenAI的ChatGPT和Google的Bard等大型语言模型(LLM)近期公开发布以来,固有的假设一直是无限制的进步。
但是,在LLM等系统中发现了内置的模型崩溃,否定了这一假设,并让专家们谈论起了这些系统本身可能无法避免的退化。
OpenAI的ChatGPT等LLM是否存在致命缺陷?
目前的LLM,包括ChatGPT和其他大型语言模型,都依赖于公开可访问的互联网数据进行训练。这些数据来自于日常个人消费、写作、推特、评论和评价信息,让我们对其来源有所了解。
有两种公认的方法可以提高LLM模型的效率。第一种是增加用于训练的数据量,而第二种是增加模型考虑的参数数量。参数代表与模型学习主题相关的唯一数据点或特征。传统上,模型使用各种形式的人类生成数据进行工作,包括音频、视频、图像和文本。
然而,随着机器生成内容在网络上越来越多地出现,这些特征正在逐渐消失。机器生成内容往往缺乏真实性和多样性,而且可能存在重复、错误和偏见。
当这些内容被用于训练LLM时,就会导致模型的分布发生变化,从而忽略或遗忘原始数据中的重要信息。这就是模型崩溃的本质,它会影响模型的性能、可靠性和安全性。
研究人员通过实验表明,模型崩溃是一种不可逆转的过程,即使在停止使用生成数据后,模型也无法恢复到原始状态。他们还发现,模型崩溃会导致生成内容的质量下降,出现语法错误、逻辑错误和不一致性。
此外,他们还指出,模型崩溃可能会增加对抗攻击的风险,因为攻击者可以利用生成数据来干扰或欺骗模型。
如何防止或减轻模型崩溃?
研究人员提出了一些可能的方法来防止或减轻模型崩溃的影响,包括:
- 使用真实数据进行训练和验证,避免使用生成数据
- 使用数据质量检测和过滤技术,去除重复、错误和偏见的内容
- 使用多样性增强技术,提高生成内容的变化和丰富度
- 使用鲁棒性增强技术,提高模型对噪声和扰动的抵抗能力
- 使用可解释性和可信度评估技术,提高模型的透明度和可审计性
总之,研究人员警告说,模型崩溃是一种严重的现象,需要引起LLM开发者和使用者的注意。他们说:“我们认为,在未来几年内,这一问题将成为机器学习社区面临的主要挑战之一。”
#AI #LLM #ChatGPT #Bard #模型崩溃 #生成式AI
标签:
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。