斯坦福大学：上下文窗口越长，大型模型效果下降？是否存在方向错误的问题

AI行业技术 1年前 (2023) AI导航网

在语言模型的研究中，一个重要的因素是上下文窗口的大小。较大的上下文窗口可以提供更多的语义信息，帮助模型更好地理解和生成与特定上下文相关的文本，并减少歧义。

近年来，随着硬件和算法的不断进步，大型语言模型的上下文窗口也越来越大。Anthropic公司是其中的佼佼者，他们在五月份将名为Claude的模型的上下文窗口从9k token扩展到了100k。最近更新的Claude2更进一步将其100K的上下文能力固定在模型中。

同时，被称为“风向标”的公司于三月份将GPT-4模型的最大上下文窗口扩展至32K，六月份又将GPT-3.5-Turbo模型的上下文长度增加了16k（此前是4k）。这些举措都旨在提升模型的上下文理解能力。

尽管如此，值得注意的是，虽然较大的上下文窗口可以带来更多的语义信息，但也存在模型效果下降的问题。这可能是因为较长的上下文窗口增加了计算和资源的负担，使得模型更加笨拙。因此，在选择上下文窗口大小时，需要平衡模型性能和计算资源之间的关系。斯坦福大学、加州伯克利大学以及Samaya的研究员在一篇名为《中途迷失:语言模型的长·上下文利用之道》的论文中提出，对于多文档问题回答和键值检索这两种任务，需要从输入的上下文中识别相关信息。然而，随着输入上下文的长度增加，大型语言模型的性能会显著下降。

具体来说，作者指出当相关信息出现在输入上下文的开头或结尾时，模型的性能通常最好。但是，当模型需要在长篇上下文的中间获取相关信息时，性能明显降低。

换句话说，当带有答案的文字被放置在文章的中间时，大型语言模型可能无法准确识别和理解该答案。

因此，增加大型模型的上下文窗口长度可能并不能提高模型的理解能力。

值得注意的是，知名科技媒体网站VentureBeat也报道了这篇论文，并咨询了一些专家，他们表示向量数据库可能是解决这个问题的关键。