千亿生物医药公司引发瞩目!清华AI研究专家聂再清谈未来生物医药领域的"Killer APP"

专业版生物医药技术问答工具终于发布!

最近,首个千亿参数的生物医药大型模型产品ChatDD正式发布。这款产品不仅能够全面了解制药各个阶段的知识,还可以与药学专家进行对话,帮助人们快速理解行业术语和概念。千亿生物医药公司引发瞩目!清华AI研究专家聂再清谈未来生物医药领域的

与AlphaFold2不同的是,目前的大型模型要么只涉及单一模态,要么没有直接对话的功能。

而ChatDD则兼具多模态和对话交互的特点,同时也可以解答医药界学生的疑惑。

这款产品是由今年6月成立的水木分子公司开发的。清华大学智能产业研究院院长、张亚勤院士指出:

ChatDD通过人机协作对话方式,有效地将专家知识与大型模型的知识相结合,开创了传统药物研发TMDD、CADD、AIDD模式之外的全新药物研发模式。

那么,这款产品在哪些方面实现了“划时代”的突破呢?

我们有幸与清华AIR教授、水木分子首席科学家聂再清进行了访谈,详细了解了ChatDD的背景和创新之处。 ChatDD是一个基于中文开源项目的助手产品,具有多种功能和应用场景。

ChatDD的外观和某个产品相似,它是一个网页版的助手,并且可以通过对话实现各种功能。

在对话能力方面,ChatDD不仅能够优秀地总结英文内容,还可以进行中文对话,甚至能理解一些专业术语,比如“疾病画像”。

如果遇到无法理解的分子,你可以直接上传相关文件,让ChatDD来解读该分子的作用。

同时,ChatDD也可以处理复杂任务,例如计算亲和力问题。它可以直接推荐相应工具,并迅速计算出结果。

此外,你也不必担心ChatDD的培训数据截止日期,因为它能够通过联网或者从数据库中查找答案。

ChatDD背后的底座被命名为ChatDD-FM,它的参数量级达到了千亿级别。

最新推出的ChatDD-FM-100B是全球首个拥有千亿参数的多模态生物医药对话大模型。在C-Eval评测中,该模型在全部医学4个专业中都获得了第一名,并且是唯一一个平均得分超过90分的模型。

我们可以联系到团队之前发布的BioMed***-10B。这两者都是基于LLaMA2架构的自然语言模态的大模型,是否有什么关联呢?

聂再清表示,ChatDD-FM和BioMed*** 在受众和用途上有所不同。这有点像****和***-3.5之间的区别,前者在对话和意图对齐能力上有更大提升。

BioMed***主要用于科研领域,特别擅长处理英文生物医药科研任务,可作为生物医药领域相关科研任务的基础模型。

ChatDD-FM主要为国内医药行业提供辅助服务,侧重于中文对话能力,并融入了更多专家的对话模式和经验。

从技术上讲,ChatDD-FM相比BioMed***主要在三个方面进行了增强:模态、训练数据和参数量级。

在模态方面,ChatDD-FM增加了蛋白质结构数据;在训练数据方面,增加了中文、专家对话和调用工具能力相关的数据;而在参数量级上,从百亿级别增加到千亿级别。

ChatDD-FM之所以能提升其"专业度"和让其说话更像"行内人"的秘诀,仍然是高质量数据的使用。 这些数据可以分为两个主要部分。

首先是预训练用的医药知识数据,其主要目的是提升ChatDD-FM的专业素养,使其能在几个月内掌握行业知识。

由于之前缺乏相关的数据集(包括大小分子等多个模态和自然语言对齐的数据),尤其是缺乏中文数据,因此团队自己收集整理了一系列的训练数据集。

首先,与厂商合作翻译专业英文期刊,并整理中文期刊,以收集带有中文专业名词的大量数据,以降低大型模型对专业词汇的不熟悉程度;

接着,团队找来一批医学院的博士和博士后,设计了一个系统来整理这些数据,直到它们可以被大型模型使用。

聂再清强调,这些博士并不是进行数据标注,因为相比有监督学习,自监督学习更加关注数据清洗和查找的工作:

这些期刊数据当然不是一个人一篇一篇地去阅读,那是不可行的;也不是一个字一个字地手动输入,也是不可行的。

毕竟,大型模型的主要能力来自于自监督学习,所以这些博士更多地是进行数据清洗和查找的工作。

当然,医药领域的期刊是不断更新的,因此这一部分的工作也将持续进行下去。

第二部分是"专家数据集",专门用于提高ChatDD-FM的对话能力。

ChatDD的用户中有许多医药领域的专业用户,为了让ChatDD能够无缝理解行业内人士的专业术语和用语,必须先了解专家们平时的说话方式。

为此,团队找了一些专家,"观察"他们平时提问的方式,并根据这些问题整理了一套数据集,专门用于训练ChatDD。

这样,在使用ChatDD时,医药专业用户不仅可以像与同事聊天一样直接提问,还可以选择"提示词模板"来进行直接的替换填充。

暂无评论

暂无评论...