腾讯 AI Lab联合多家学术机构共同发布了对大模型幻觉问题的评估

近期,腾讯AI Lab联合国内外多家学术机构发布了一份面向大规模语言模型幻觉工作的综述,该综述对幻觉的评估、溯源和缓解等问题进行了全面的探讨。这一综述指出,大模型生成的与事实冲突的"幻觉"内容已成为研究的热点之一。腾讯 AI Lab联合多家学术机构共同发布了对大模型幻觉问题的评估

根据研究者的分类,大模型幻觉可以分为三类,其中与事实知识冲突的幻觉是目前研究的主要关注点,因为这种幻觉可能最容易误导用户。与传统的语言生成任务中的幻觉问题不同,大规模语言模型幻觉面临着数据规模巨大、模型通用性强以及难以觉察的新挑战。

为了评估大规模语言模型的幻觉倾向,研究者已经提出了多种生成式和判别式的基准,通过问答、对话等不同形式的任务来检验模型的幻觉倾向。这些基准各自设计了用于判断幻觉的指标,但可靠的自动评估方法仍然有待探索。研究分析认为,海量而低质量的训练数据以及模型对自身能力的高估是导致幻觉问题的重要原因。

为了减少大规模语言模型的幻觉,可以从预训练、微调和强化学习等多个阶段入手。预训练阶段可以关注语料的质量;微调阶段可以通过人工检查数据来缓解幻觉问题;强化学习阶段可以惩罚过度自信的回答。此外,在推理阶段,通过优化解码策略、知识检索和不确定度测量等方式也可以缓解幻觉。尽管在这方面已经取得了一定的进展,但可靠的评估方法、多语言环境下的应用以及模型的安全性等方面仍然存在着挑战。总体而言,对于大规模语言模型的幻觉评估和缓解还需要进一步的深入研究,以推动其实际应用的发展。

暂无评论

暂无评论...