DeepMind通过改进GPT-4模型提高归纳和演绎能力，准确率提升13.7%

近期，大型语言模型（LLM）在推理任务上的表现引起了广泛关注，尤其在给定一些样例和中间步骤的情况下。然而，prompt 方法往往高度依赖于 LLM 中的隐性知识，一旦这些知识存在错误或者与具体任务要求不一致，LLM 就可能提供不正确的答案。

为了解决这一问题，来自谷歌、Mila 研究所等知名研究机构的科学家们共同探索了一种创新方法 —— 让 LLM 学习如何进行推理，并提出了一种名为“假设到理论（Hypotheses-to-Theories，HtT）”的新框架。此方法不仅优化了多步推理过程，还突显出可解释性、可迁移性等优势。

实验结果表明，与现有的 prompt 方法相比，HtT 显著提高了推理任务的准确性，提升了11-27%之多。除此之外，通过学习到的规则，这种方法可以轻松迁移到不同的模型或同一问题的不同形式中去。
总的来说，HtT 框架包括两个阶段：归纳阶段和演绎阶段，它们类似于传统机器学习中的训练和测试。

在归纳阶段，LLM 需要首先生成并验证一组训练样例的规则。该研究使用了一种名为“规则声明与推导”的方法，来指导 LLM 声明规则并推导答案。该方法会统计规则的出现频率和准确性，然后收集那些经常出现并导致正确答案的规则，从而形成一个规则库。

有了这样一个良好的规则库，下一步就是如何应用这些规则来解决问题。在演绎阶段，该研究在 prompt 中添加了规则库，并要求 LLM 从规则库中检索规则来进行演绎，将隐式推理转换为显式推理。

然而，该研究发现，即使是非常强大的 LLM（例如 GPT-4）也很难在每一步都检索到正确的规则。为了解决这个问题，该研究开发了一种名为“XML tagging trick”的方法，用于增强 LLM 的上下文检索能力。这种方法可以帮助 LLM 更好地理解上下文信息，并准确地检索到相关规则，从而提高演绎的准确性。