元象XVERSE开源650亿参数通用大模型XVERSE-65B

元象XVERSE宣布开源650亿参数高性能通用大模型XVERSE-65B，无条件免费商用。该模型是由深圳元象科技开发的一种支持多语言的大型语言模型，采用了Transformer网络结构，参数规模高达650亿。

XVERSE-65B经过训练，通过2.6万亿个令牌的高质量多样化数据，涵盖了40多种语言。该模型具有16K的上下文长度，适用于多轮对话、知识问答和摘要等任务。在多个标准数据集上测试后，该模型展现出了良好的性能。

该模型的主要特点包括：

模型结构：XVERSE-65B采用标准的Decoder-only Transformer网络结构，支持16K的上下文长度，可以满足更长的多轮对话、知识问答与摘要等需求，应用场景更加广泛。
训练数据：该模型经过2.6万亿个token的高质量、多样化数据的训练，涵盖了中、英、俄、西等40多种语言。通过精细化设置不同类型数据的采样比例，使得中英两种语言表现优异，同时也能兼顾其他语言的效果。
分词：基于BPE（Byte-Pair Encoding）算法，使用上百GB的语料训练了一个词表大小为100，534的分词器，可以同时支持多语言，而无需额外扩展词表。
训练框架：自主研发的多项关键技术包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等，使得训练效率更高，模型稳定性更强。在千卡集群上的峰值算力利用率位居业界前列。

该项目已经发布在GitHub上，地址为https://github.com/xverse-ai/XVERSE-65B。元象XVERSE的这一开源举措将进一步推动大模型技术的发展和应用，为全球开发者提供了一个免费、高性能的通用大模型工具，有助于提升人工智能领域的创新速度和影响力。