蛋白质通用大模型xTrimoPGLM:百图生科与清华大学联合研发的力作

先附论文地址:https://www.biorxiv.org/content/10.1101/2023.07.05.547496v1

百图生科清华大学合作开发了一款名为xTrimoPGLM的蛋白质语言模型。该模型是目前蛋白质领域中首个参数量高达100亿的“通用大模型”。xTrimoPGLM在13个任务上取得了SOTA(State-of-the-Art)成果,并超越了AlphaFold2等蛋白质AI模型

xTrimoPGLM综合了GLM(通用语言模型)和MLM(掩码语言模型)的优势。它既具备理解任务的能力,也能够完成生成任务。在抗体结构预测任务中,xTrimoPGLM不仅取得了更好的效果,还显著提升了处理速度,达到了一个数量级的提升。该模型的参数量达到千亿级,主要是因为蛋白质数据规模庞大,需要更大的模型进行处理。

xTrimoPGLM的应用范围非常广泛,包括蛋白质结构预测、蛋白质设计等多个领域,可以为行业研究人员的工作提供帮助。未来,百图生科团队计划将模型扩展至RNA、DNA等生命科学数据,并进一步探索更加通用的生命科学大模型。发展通用大模型可以采取单个模型参数量的扩大,也可以采用多个模型联合的方式。百图生科团队将继续采取多个大模型联动的方式,不断探索通用大模型发展的道路。
蛋白质通用大模型xTrimoPGLM:百图生科与清华大学联合研发的力作

暂无评论

暂无评论...