阿里通义千问开源高性能Qwen1.5-MoE-A2.7B模型：参数精简，效能媲美70亿级大模型

AI行业资讯 4个月前 AI导航网

通义千问团队近日推出了Qwen系列的首款MoE模型——Qwen1.5-MoE-A2.7B。这款模型凭借其27亿激活参数的精简规模，实现了与当前顶尖70亿参数模型相匹敌的性能。相较于Qwen1.5-7B，新款模型的非嵌入参数减少至仅20亿，约为前者的三分之一，大幅优化了模型体积。

值得一提的是，Qwen1.5-MoE-A2.7B在训练成本上实现了显著降低，较Qwen1.5-7B降低了高达75%。同时，在推理速度方面也有显著提升，实验数据显示，在单块NVIDIA A100-80G GPU上运行时，新款模型的推理速度较之前提升了约1.74倍。

这一突破得益于Qwen1.5-MoE采用的特别设计的MoE架构。该架构创新性地引入了64个finegrained experts，并配备了全新的routing机制——DeepSeek-MoE和DBRX。这种设计巧妙地在不增加参数负担的情况下，有效提升了expert的生成能力。

阿里云和通义千问团队共同打造的Qwen1.5-MoE模型，不仅在性能和效率上表现出众，更在易用性和开放性方面做出了贡献。目前，该模型已在ModelScope社区开源，供广大开发者免费下载和使用。

此外，Qwen1.5-MoE模型还致力于提供对第三方框架的持续支持，如llama.cpp、MLX等，以满足用户多样化的需求。

综上所述，Qwen1.5-MoE模型凭借其卓越的性能、高效的推理速度以及开放易用的特性，无疑成为了当前推理训练领域的佼佼者。

想要亲身体验Qwen1.5-MoE模型的魅力吗？点击以下链接，立即开启您的智能之旅：

https://modelscope.cn/studios/qwen/qwen1.5-MoE-A2.7B-Chat-GPTQ-Int4-demo

阿里通义千问开源高性能Qwen1.5-MoE-A2.7B模型

版权声明：AI导航网发表于 2024-04-01 11:40:18。
转载请注明：阿里通义千问开源高性能Qwen1.5-MoE-A2.7B模型：参数精简，效能媲美70亿级大模型 | AI导航网

暂无评论

暂无评论...