性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元

JetMoE-8B是一款基于稀疏激活架构的AI模型,其出色的性能和低廉的训练成本(不到10万美元)令人瞩目。更值得一提的是,它的性能甚至超越了知名的LLaMA2-7B、LLaMA-13B以及DeepseekMoE-16B模型
性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元

JetMoE-8B的结构由24个组件块构成,每一块都融入了两个MoE层:注意力头混合(MoA)和MLP专家混合(MoE)。每一层MoA和MoE都配备了8位专家,且针对每个输入指令,仅有2位专家被激活。这种设计独辟蹊径,有效地降低了计算成本,同时维持了出色的性能。

值得注意的是,虽然JetMoE-8B的总参数量高达80亿,但由于其架构设计独特,每个输入指令激活的参数实际上只有大约22亿,从而大幅降低了整体计算负荷。

另外值得一提的是,JetMoE-8B的训练完全基于公开数据,并且其训练过程和代码都是开源的,这为AI研究应用提供了极大的方便。

在Open LLM排行榜采用的相同评估标准下,JetMoE-8B的性能超越了LLaMA2-7B、LLaMA-13B以及DeepseekMoE-16B,这充分证明了其高效性能。

与此同时,相较于具有相似训练和推理计算需求的模型(例如Gemma-2B),JetMoE-8B展现出了更加出色的性能。这既凸显了它在性能上的卓越,也显示了它在成本效益方面的明显优势。

想要了解更多或应用此模型,请访问:https://huggingface.co/jetmoe/jetmoe-8b

版权声明:AI导航网 发表于 2024-04-17 13:21:26。
转载请注明:性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元 | AI导航网

暂无评论

暂无评论...