元象XVERSE开源650亿参数通用大模型XVERSE-65B

元象XVERSE宣布开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。该模型是由深圳元象科技开发的一种支持多语言的大型语言模型,采用了Transformer网络结构,参数规模高达650亿。

XVERSE-65B经过训练,通过2.6万亿个令牌的高质量多样化数据,涵盖了40多种语言。该模型具有16K的上下文长度,适用于多轮对话、知识问答和摘要等任务。在多个标准数据集上测试后,该模型展现出了良好的性能。元象XVERSE开源650亿参数通用大模型XVERSE-65B

该模型的主要特点包括:

模型结构:XVERSE-65B采用标准的Decoder-only Transformer网络结构,支持16K的上下文长度,可以满足更长的多轮对话、知识问答与摘要等需求,应用场景更加广泛。
训练数据:该模型经过2.6万亿个token的高质量、多样化数据的训练,涵盖了中、英、俄、西等40多种语言。通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,同时也能兼顾其他语言的效果。
分词:基于BPE(Byte-Pair Encoding)算法,使用上百GB的语料训练了一个词表大小为100,534的分词器,可以同时支持多语言,而无需额外扩展词表。
训练框架:自主研发的多项关键技术包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等,使得训练效率更高,模型稳定性更强。在千卡集群上的峰值算力利用率位居业界前列。

该项目已经发布在GitHub上,地址为https://github.com/xverse-ai/XVERSE-65B。元象XVERSE的这一开源举措将进一步推动大模型技术的发展和应用,为全球开发者提供了一个免费、高性能的通用大模型工具,有助于提升人工智能领域的创新速度和影响力。

版权声明:AI导航网 发表于 2023-11-06 12:32:44。
转载请注明:元象XVERSE开源650亿参数通用大模型XVERSE-65B | AI导航网

暂无评论

暂无评论...