苹果研究团队发布重大成果：WRAP技术实现低成本、高准确率的合成数据预训练大模型

近几个月，大型语言模型（LLMs）在人工智能界引发了广泛关注。这些模型在文本摘要、问答、代码完成和内容生成等方面表现出强大的能力。

然而，LLMs通常在质量不高的网络抓取数据上进行训练。这些数据存在诸多问题，如信息表达不清晰、杂乱无章等。按照现有的扩展原则，模型规模的增加需要计算能力和数据量同步提升，这带来了不小的挑战。

研究人员面临两大难题。首先，预训练涉及巨大的计算成本和时间。其次，互联网上高质量数据的稀缺性也成了一大问题。最新研究中，苹果和卡内基梅隆大学的研究团队提出了一种名为WRAP的方法，解决了这些问题。

WRAP是一种创新方法，利用已存在的、经过指令调整的LLM。这个LLM用于将在线页面改写成特定风格，包括模仿维基百科的语气或将文本转换为问答格式。WRAP的主要目标是通过添加真实和人工改写的数据来提高LLMs的预训练效果。

WRAP具有以下特点：

预训练效率高：在嘈杂的C4数据集上应用WRAP，预训练速度显著加快，大约是原来的三倍。这有助于减少与LLM训练相关的昂贵费用和时间投入。

模型性能优越：在相同的计算预算下，WRAP能提升模型性能。使用Pile的不同子集可以减少超过10%的歧义，提高13种不同活动的零-shot问题回答准确性超过2%。

网络文档改写： WRAP利用中等规模的LLM对网络文档进行改写，展现多种风格。这种方法不同于创建新数据，而是通过改进现有内容，保持信息质量与多样性。

WRAP合成的数据有两个主要优势。首先，它涵盖了多种风格，反映了应用中使用的语言多样性。这种多样性使LLM更好地应对各种实际情况。其次，WRAP改写的合成数据质量高于原始网络抓取的数据。这种质量的提升源于更有序、更连贯的语言，有助于模型更高效地学习。

WRAP是LLM预训练领域的重大突破。通过使用高质量、风格各异的合成数据，WRAP不仅加快了训练过程，还提高了LLMs的整体性能。考虑到低质量网络数据的丰富性和经典LLM训练方法的资源密集性，这种方法为未来的发展提供了新的可能路径。

暂无评论

暂无评论...