性能超越LLaMA2-7B！AI模型JetMoE-8B训练成本不到10万美元

JetMoE-8B是一款基于稀疏激活架构的AI模型，其出色的性能和低廉的训练成本（不到10万美元）令人瞩目。更值得一提的是，它的性能甚至超越了知名的LLaMA2-7B、LLaMA-13B以及DeepseekMoE-16B模型。

JetMoE-8B的结构由24个组件块构成，每一块都融入了两个MoE层：注意力头混合（MoA）和MLP专家混合（MoE）。每一层MoA和MoE都配备了8位专家，且针对每个输入指令，仅有2位专家被激活。这种设计独辟蹊径，有效地降低了计算成本，同时维持了出色的性能。

值得注意的是，虽然JetMoE-8B的总参数量高达80亿，但由于其架构设计独特，每个输入指令激活的参数实际上只有大约22亿，从而大幅降低了整体计算负荷。

另外值得一提的是，JetMoE-8B的训练完全基于公开数据，并且其训练过程和代码都是开源的，这为AI研究和应用提供了极大的方便。

在Open LLM排行榜采用的相同评估标准下，JetMoE-8B的性能超越了LLaMA2-7B、LLaMA-13B以及DeepseekMoE-16B，这充分证明了其高效性能。

与此同时，相较于具有相似训练和推理计算需求的模型（例如Gemma-2B），JetMoE-8B展现出了更加出色的性能。这既凸显了它在性能上的卓越，也显示了它在成本效益方面的明显优势。

想要了解更多或应用此模型，请访问：https://huggingface.co/jetmoe/jetmoe-8b

暂无评论

暂无评论...