支持中文的开源ChatGPT模型参数规模达到了1800亿,经过使用了3.5万亿条训练数据进行训练。

阿布扎比技术创新研究所(Technology Innovation Institute,简称TII)在其官网发布了一款性能卓越的开源大语言模型——Falcon180B。

Falcon180B是一个参数数量为1800亿的大型模型,使用4096个GPU在一个包含3.5万亿个token的数据集上进行训练。这也是当前开源模型中规模最大的预训练数据集之一。Falcon180B包括基础模型和聊天模型两个版本,并可商用化。支持中文的开源ChatGPT模型参数规模达到了1800亿,经过使用了3.5万亿条训练数据进行训练。

在多个权威测试平台上,Falcon180B在推理、编程、知识测试等方面表现出色,超过了Meta最新发布的Llama270B和其他著名模型。它的性能仅次于谷歌的PaLM2-Large,处于领先地位。

有关Falcon180B的基础版本的开源地址为:https://huggingface.co/tiiuae/falcon-180B,聊天版本的开源地址为:https://huggingface.co/tiiuae/falcon-180B-chat。此外,还提供了在线测试地址:https://huggingface.co/spaces/tiiuae/falcon-180b-demo。

今年5月,《AIGC开放社区》曾介绍过TII发布的一款类似的开源大语言模型Falcon-40B。该产品一经推出就成为Huggingface开源大语言模型排行榜的冠军,击败了LLaMa65b、***4-X-Alpasta-30b、LLaMa30b等多个知名开源项目,成为一匹黑马。

Falcon180B是在Falcon-40B的基础上开发而来,参数规模扩大了4.5倍,训练数据集从1万亿个token增加到3.5万亿个token,并进行了算法、推理和硬件部署方面的大幅优化。

其中最引人注目的亮点之一是Falcon180B-chat版本支持中文,并经过了数据微调。

在预训练阶段,Falcon180通过利用Amazon SageMaker平台,在4096个GPU上同时对3.5万亿个token数据集进行训练,总共耗时约700万小时。

TII表示,Falcon180B的规模是Llama2的2.5倍,而训练所需的算力资源是Llama2的4倍。

暂无评论

暂无评论...