专注数学的开源大型模型LLEMMA问世，表现超越其他数学语言模型

研究人员推出开源大型语言模型LLEMMA，专为解决数学问题而设计

近日，一组研究人员发布了LLEMMA，这是一个专门为解决数学问题而设计的大型开源语言模型。与其他领先的数学语言模型相比，LLEMMA在性能上表现出色，为进一步的研究提供了一个强大的平台。

LLEMMA建立在Code Llama的基础上，Code Llama是Meta公司开源的Llama2模型的改进版本，经过在代码特定数据集上的微调。研究人员开发了两个版本的模型，一个有70亿参数，另一个有340亿参数。这些模型还在研究人员创建的Proof-Pile-2数据集上进行了进一步的微调，该数据集由科学论文、包含数学的网络数据和数学代码组成。

在实验中，研究人员发现LLEMMA在数学基准测试中表现出优越的性能，超过了所有已知的开源模型。他们得出结论，持续在Proof-Pile-2上进行预训练可以有效提高预训练模型解决数学问题的能力。

此外，LLEMMA还展示了使用工具和证明形式定理的能力，而无需进行额外的微调。它可以利用Python解释器和形式定理证明器等计算工具来解决数学问题，这些工具可以通过提供外部知识来验证和纠正模型的答案，进一步增强模型的问题解决能力。

虽然已经有一些大型语言模型针对数学进行了微调，例如Google的Minerva，但Minerva并不是开源的。而LLEMMA则超越了Minerva，即使在参数相等的情况下也能够表现得更好。

研究人员已经发布了他们的所有资源，包括70亿参数和340亿参数的模型，Proof-Pile-2数据集以及复制实验所需的代码。根据研究人员的说法，LLEMMA是第一个能够与闭源模型的性能相匹配的开源模型，这使得其他研究人员可以在此基础上进行进一步的工作和改进。

总的来说，LLEMMA是人工智能研究领域的一个重大进展，它不仅展示了大型语言模型在解决数学问题方面的强大能力，还为其他研究人员提供了一个可访问的开源平台，以进一步推动这个领域的发展。虽然大型语言模型是否适合解决数学问题仍存在争议，但LLEMMA的成果无疑为这个领域的研究提供了新的动力。

AI行业资讯专注数学的开源大型模型LLEMMA问世

版权声明：AI导航网发表于 2023-10-22 13:37:03。
转载请注明：专注数学的开源大型模型LLEMMA问世，表现超越其他数学语言模型 | AI导航网

暂无评论

暂无评论...

专注数学的开源大型模型LLEMMA问世，表现超越其他数学语言模型

Oracle参与Nvidia AI项目，实现端到端模型开发的循环迭代

阿里达摩院发布业内首家遥感AI大模型，将AI技术应用于农业领域

暂无评论

归档

分类