Vicuna Makers推出小型AI模型Llama-rephraser，130亿参数、性能可与GPT-4相媲美

Vicuna Makers的研究团队令人瞩目，他们基于Vicuna语言模型构建成功推出一款新型的小型人工智能模型（LLM），名为Llama-rephraser。这款模型仅有130亿个参数，但其性能却能与OpenAI的GPT-4一争高下。

Llama-rephraser的诞生离不开一种创新方法：研究团队通过对测试集进行改写，使模型能够进行泛化并实现高性能。换句话说，他们对测试样本进行释义，让模型能更好地理解并记住文本。此法不仅提高了模型在基准测试中的表现，更改变了我们对于语言模型的理解。

这一新型模型在各类基准测试中均表现出色，包括涵盖多个领域的流行MMLU基准测试，以及人工评估模型代码生成的HumanEval基准测试。这些测试结果显示出，130亿参数的Llama-rephraser能达到GPT-4级别的性能。

值得一提的是，研究团队在构建Llama-rephraser的过程中，发现了一些难以察觉的数据污染问题。这种污染可能来自于类似CodeAlpaca的GPT生成的合成数据，它可能导致测试集的信息泄露到训练集中，从而对模型性能产生过于乐观的估计。为了解决这一问题，他们研发了一个名为LLM Decontaminator的新工具。这个工具能量化数据集的释义样本与基准的对比，使开发人员能够估计数据集中释义样本的污染程度，并对其进行删除。

对于企业而言，小型模型的崛起意味着在采用人工智能解决方案时，有必要使模型规模更小，以保持运营成本的低廉。像Llama-rephraser这样性能媲美GPT-4的小型模型的出现，有助于企业在性能和成本之间取得平衡。此外，LLM Decontaminator这样的工具还可以帮助企业完善其现有系统，使当前一代模型得以改进，而无需在开发成本上投入大量资金构建全新的模型。

LMSYS Org在博客文章中呼吁社区重新思考在大型语言模型背景下的基准测试和数据污染问题，并在对大型语言模型进行公共基准测试时采用更强大的去污染工具。这一研究为我们揭示了一个新的视角：在追求高性能的同时，我们也需要正视数据污染问题，并寻求有效的解决方案。