论文翻译 | Measuring and Narrowing the Compositionality Gap in Language Models 测量和缩小语言模型中的组合性差距

论文翻译 | Measuring and Narrowing the Compositionality Gap in Language Models 测量和缩小语言模型中的组合性差距
摘要 我们研究了语言模型执行组合推理任务的能力&#xf

摘要

我们研究语言模型执行组合推理任务的能力。整体解决方案取决于子问题答案的正确组合。衡量模型能够正确回答所有子问题但无法生成整体解决方案的频率。这称为配置差距。

我们通过询问多跳问题来评估这个比率,这些问题需要结合在预训练期间不可能同时观察到的多个事实。我们看到,对于GPT-3系列模型,组合差距并没有随着模型大小的增加而减小,因为单跳问答性能比多跳问答性能提高得更快。这一令人惊讶的结果表明,虽然更强大的模型可以记住和回忆更多的事实知识,但它们执行这种组合推理的能力并没有成比例地增加。

接下来,我们提供一些关于如何通过显式推理缩小建设性差距的激励技巧(例如思想链)。我们提出了一种新方法“自我探究”,以进一步完善思路。在我们的方法中,模型在回答第一个问题之前明确地向自己询问(并回答)后续问题。最后,我们展示了自问结构化提示可以让您轻松与搜索引擎连接以回答后续问题,进一步提高准确性。

1 引言

组合推理使模型能够超越直接观察到的信息的死记硬背,并得出以前从未见过的知识。例如,模型需要能够回答“伊丽莎白女王的统治持续了多久?”即使训练数据中没有明确说明这个答案,您也可以通过记住她和她父亲的死亡日期来推断。那些事实。语言模型(LM)在问答方面表现出了良好的性能,但目前还不清楚这是否是由于大型语料库的记忆或推理所致。

首先,我们使用多跳问答来量化LM 的推理能力。我们提出了一个新的自动生成的数据集,Compositional Celebrities (CC),包含860 个两跳问题。它以一种不太可能的方式结合了经常陈述的事实(例如“谁赢得了大师赛,贾斯汀·比伯,他出生的那一年?”)。这使我们能够区分记忆和推理。直观上,考虑到相关事实,回答此类问题所需的推理似乎微不足道。

我们引入术语“配置差距”来描述模型正确回答子问题但错误回答整体问题的所有配置问题的比例。正如预期的那样,我们发现随着单跳和多跳问答的预训练模型大小的增加,性能单调增加。然而,有趣的是,我们发现无论模型大小或训练技术如何,配置差距都保持在40% 左右,并且从规模上看并没有显着改善(见图1)。这个结果特别令人惊讶,因为此类问题所需的推理步骤很简单,并且虽然广泛的预训练在教导模型记住事实方面非常有效,但它表明它在教导如何结合这些事实方面非常有效。我们还发现,模型对某个事实的置信度与其将该事实与其他事实结合起来回答有关该事实的建设性问题的能力之间存在正相关关系。

图1: 成分差距不会随着规模的增大而减小。该图显示了组合问题(蓝色)及其两个子问题(绿色)在组合名人数据集上的准确性。 为普通GPT型号,、、+为001、002、003命令型号。百分比是相对的,表明成分差距。

然后使用所谓的“引出提示”来填补作文中的空白。组合问题比单跳问题需要更多的计算和知识检索,但通过使用简单的提示(即期望在提出问题后立即输出答案),始终给予模型大约相同数量的步骤来回答问题。我们表明,引导线索,例如思维链(Wei et al. 2022b),可以让模型在输出最终答案之前“深入思考”,从而显着提高性能。接下来,给自己一个提示。此提示允许LM 将复杂的问题分解为更简单的子问题,并在回答主要问题之前回答子问题。这进一步提高了性能。

除了CC 之外,还有两个现有的自动生成数据集(2WikiMultiHopQA,Ho 等人,2020 年和Musique,Trivedi 等人,2022 年)和第三个数据集Bamboogle(125 个(包括问题))也将被评估。提示已应用。 Bamboogle 是作者创建的数据集,包含2-hop 问题。所有这些问题都很难用常见的互联网搜索引擎来回答,但所有支持证据都可以在维基百科上找到(因此可以包含在预训练集中)。 (适用于任何语言模型)。

我们构建的两个数据集——Bamboogle 和前面提到的Compositional Celebrities—— 是互补的,服务于不同的研究目的。 Bamboogle 是一个小型的、手工制作的数据集,涵盖了不同领域中以独特方式编写的不同类型的问题。另一方面,CC(类似于Musique 和2WikiMultiHopQA)是一个大型自动生成的数据集,其中每个问题都适合17 个模板之一。我们做到了(这意味着它的多样性远不如Bamboogle)。 Compositional Celebrity 旨在估计大规模问题中的构图差距,而Bamboogle 是一个问答系统,尽管统计功效较低,但仍可以回答各种构图问题。

最后,我们表明自问结构可以很容易地与互联网搜索引擎结合,以进一步改善组合问题的结果。

综上所述,我们系统地阐明了这一现象。虽然语言模型可能能够将它们在预训练期间单独观察到的事实结合起来,但它们通常不能,即使它们独立地展示了对组成事实的了解。该比率称为组合间隙,表明它不会随着尺寸的增加而减小。我们表明,引导提示,例如思维链和自助提示,可以缩小甚至在某些情况下消除这种差距,从而提高语言模型解决复杂组合问题的能力。最后,您可以轻松地将自我提问与搜索引擎集成,以进一步提高性能。

2系统地测量组合性差距

随着语言模型规模的增加,它包含更多关于世界的知识(Brown et al. 2020; Srivastava et al. 2022)。但是,这种组合能力是如何扩展的呢?我们使用一种新颖的方法来研究这个问题,该方法展示了如何正式量化语言模型的组合能力。

我们的方法基于2 跳问题,这些问题在语法上是正确的,但以前从未被问过。例如,通过收集名人列表及其地点和时间来询问“Frida Kahlo 出生地的电话号码是多少?”。生来就是为了产生这些问题。然后,它获取有关每个出生国家(首都、货币、电话号码等)和每个出生年份(例如当年大师赛或诺贝尔文学奖的获得者)的事实,并将这些事实组合起来形成生成两条数据。 – 跳跃问题。附录中的表3 提供了组合名人(CC) 数据集中17 个类别中每个类别的示例问题。附录A.2 节详细描述了该数据集。

我们设计CC 来衡量组合性差距,其中包括(1)每个事实可能在训练数据集中出现多次,但是(2)在事实集足够不同的情况下故意包含两个直接且明确的问题。它从未出现在训练集中或互联网上。

这种问题格式有很多优点。几乎每个问题都有正确答案,并且可以轻松分解为子问题(这样你就可以看到LM 是否了解背景事实)。此外,大多数问题都有很大的答案区域(例如是非题或多选题)。因此,您不太可能随机猜测正确答案。

我们使用针对两跳和一跳问题的两次提示来评估CC 上的GPT-3。我们对每个问题都使用了特定于类别的提示,并从数据集中删除了两个随机选择的示例。请参阅附录中的表4 和表5。 GPT-3 (davinci-002) 正确回答了45.4% 的2 跳问题。对于某些类别,例如出生地/域名,准确率达到84.6%,但模型在训练过程中可能没有明确识别大部分此类问题。该模型还正确回答了一些极端问题,例如“柏拉图出生地的顶级域名是什么?”,但在最困难的类别中,例如出生年份/诺贝尔文学奖获得者回答了。仅占问题的1.2%。正确。然而,他们正确回答了该数据集中80% 的子问题。这表明,尽管他们知道回答问题所需的许多个人事实,但他们缺乏足够的集体能力来正确回答这些事实。附录表6 显示了完整的结果。

模型正确回答单个子问题而不是问题组合的问题比例称为配置差距。图1 令人惊讶地表明,增加GPT-3 模型的大小,无论是InstructGPT 模型还是非Instruct 系列模型,都不会减少配置差距。这表明,随着GPT-3 模型规模的增大,它对世界的了解更多,但其结合这些知识的能力提高得更慢。

我们证明,GPT-3 有时可以很好地存储事实,以便在它们单独出现时回忆起它们(例如,“Justin Bieber 何时出生?”(1994 年)或“Master 1994 “Who Will Win the Tournament?”)Jose Mara Olazabal) )。但是,您不能将这两个事实结合起来(“贾斯汀·比伯出生那年谁赢得了大师赛冠军?”)。

我们如何确定哪些事实可以在GPT-3 中组合,哪些事实不能组合?附录中的图5 显示,随着正确子问题答案的复杂性降低(即模型(当您对自己的答案变得更加自信时)),正确回答组合问题的概率增加。例如,如果正确子问题答案(即分配给模型不自信的两个子问题的正确答案)的最大混淆度在1.232 到6.738 之间,则模型正确回答42.6% 的组合。问题。然而,当最大混淆度在1.000 到1.002 之间时,模型正确回答了81.1% 的组合问题。当子问题对按平均复杂度而不是最差复杂度排序时,观察到类似的模式。

能够在包含诸如1 跳问题之类的提示中正确回答1 跳问题并不意味着模型已经完全“学习”了给定的事实。我们的结果表明,如果模型能够更可靠地回忆这些事实,即如果为一跳问题分配了较低的混淆评级,则该模型可以以更高的速度组合事实。这表明,除了报告正确答案的准确性之外,另外报告正确答案分配的困惑度可能是评估下游问答任务中的语言模型的更好方法。同期论文(Srivastava et al. 2022; Wei et al. 2022a)最近也对此进行了论证,但角度不同。他们提供的证据表明,随着模型大小的增加,即使实际任务指标(即准确性)没有提高,交叉熵损失也可以提高下游任务的性能。

3启发式提示缩小组合性差距,提高答题效果

然后,通过使用选择提示(selfask,图2)首先将多跳问题分解为更简单的子问题,然后回答子问题,最后回答主要问题,我们表明LM 可以以更高的成功率。的答案。组合题。

图2: 直接提示(Brown 等人,2020)与思维链和问自己Bamboogle 问题的比较。白色背景的文本是提示,绿色背景的文本是LM输出,带下划线的文本是推理时间问题。这里的提示已被缩短。我们实际上对该数据集使用了四个提示。参见第3.5 节。

我们用四个数据集来演示这一点:composition Celebrities、两个现有数据集和一个新数据集Bamboogle。我们通过手动创建简单的配置问题来设计这个新数据集,流行的互联网搜索引擎会提供答案。太难了,以至于它给出的答案都是错误的。这也证明这个问题以前从未在网络上发生过,因此可能没有被包含在LM 的训练集中。此外,所有问题都是2 跳,其中两个“跳”来自维基百科,因此它们必须包含在任何LM 的训练集中。与CC(以及Musique、2WikiMultiHopQA 等)不同,CC 的17 类问题均遵循相同的模板,Bamboogle 的问题几乎都是相互独立的。因此,它可能适合补充其他衡量LM 组合能力的数据集。

我们选择的两个现有数据集是2WikiMultiHopQA(Ho 等人,2020)和Musique(Trivedi 等人,2022)。我们在开放域设置中使用它们(这些不是多项选择数据集),并且与Roberts 等人(2020)和Brown 等人(2020)类似,使用问题并仅使用答案对。包括相关的文本段落。这些数据集都包含来自维基百科文章中出现的事实的两跳组合问题。

问题和答案提示分为两大类。第一类,直接回答提示,是(Brown et al. 2020)中使用的一种简单提示技术,其中每个问题后面都有直接回答。请参阅附录中图4 和图5 中的示例。第二类是启发式提示,允许模型在回答问题之前“澄清事情”。

思维链和草稿本(Nye et al, 2021)就是此类提示的示例。

如果您期望立即回答问题,并且问题长度相对相似并且问题更困难,则LM 用于回答问题的计算量将始终大致相同。计算不一定更长。为了使模型能够将更多的计算应用于更困难的问题,请允许它“告诉事情”。我们发现启发式提示对于论述题明显更准确。这可以在附录图6 中看到。 CC 表明,多项选择提示有时可以比单独正确回答子问题的直接提示回答更多的问题组合。这可能是因为启发式线索比直接线索包含更多信息。尽管本节的其余部分表明启发式提示可以提高性能,但我们并没有表明启发式提示可以缩小构造性差距,因为除CC 之外的数据集上没有子问题。小岛等人(2022)的“让我们一步一步思考”也是一种启发式方法。

然而,在我们的实验中,InstructGPT-Davinci002/Davinci 模型的准确率达到了45.7%/1.1%,而CC 模型的self-ask 准确率达到了79.6%/54.2%。这与Kojima 等人的结果一致,尽管他们的方法不如思想链那么强大,并且非指示性模型的使用进一步降低了性能。因此,我们不会在这里使用这种方法进行任何进一步的实验。

3.1 self-ask

我们的方法基于思想链提示,但提示不是输出不间断的连续思想链,而是使模型在回答之前明确陈述它想要提出的下一个后续问题。此外,我们的方法插入了诸如“后续:”之类的脚手架。我们发现这提高了我们以易于解析的方式输出正确的最终答案的能力。正如我们稍后将展示的,这使得更容易将此方法与互联网搜索引擎集成以回答后续问题,从而进一步提高性能。

自问(见图2)需要一跳或多跳提示来指示如何回答问题。提示从这些示例开始,然后添加推理问题。然后,我在提示末尾插入了短语“可以在此处找到后续问题:”。因为我发现这样做稍微改善了结果。

然后模型输出响应。在大多数情况下,第一个输出将为“是”。这意味着需要额外的问题。然后LM输出第一个后续问题,回答它,并继续询问和回答后续问题,直到它确定此时有足够的信息。在提供最终答案之前打印“最终答案是:”。最终答案很容易解析,并出现在最后一个输出行的“:”之后。在极少数情况下,如果LM 确定不需要其他问题,则可以立即回答这些问题。与ThoughtChain 类似,我们的方法是完全自动化的。只需输入提示和测试问题,模型就会自行运行整个过程,包括确定后续问题的数量。

在较小的模型中,在提示末尾添加“您有任何后续问题吗:是的,后续问题:”可以提高性能,但对于Davinci 而言,这不是必需的。

我们假设自我探究相对于思维链的好处在于它将完整问题的分解(通过形成子问题)与这些子问题的实际答案分开。此外,严格的自我提问框架使模型更容易以简洁且可分析的方式陈述最终答案。

在某些情况下,思想链不会输出简短的最终答案,而是选择一个与提示中显示的形式不同的完整句子。在Bamboogle 上,40% 的最终Chain Thinking 答案都不是简短的形式。另一方面,自我提问的比例为17%,自我提问+搜索引擎的比例为3%。附录表15 包含思想链失败的示例。

3.2Bamboogle

Musique、2WikiMultiHop 和CC 自动生成包含适合少量模板的问题的大型数据集。我们通过随机阅读维基百科文章并创建有关它们的两跳问题来手动构建Bamboogle,这是一个包含125 个问题的数据集。其结果是一个多样化的数据集,挑战复杂系统的问题能力。

通过查询有关文章主题的两个不相关事实,导出每篇文章的两跳问题。例如,当您阅读航行者2 号时,您会了解到它是第一艘接近天王星的航天器,并且是由泰坦IIIE 火箭发射的,那么问题就来了:“这是什么类型的火箭?”然后,我们通过互联网搜索引擎运行这些问题,并仅在查询得出的答案不正确时将其添加到最终数据集中。请参见附录中的图4。搜索引擎无法回答这些问题可能表明这些问题在网络上不存在,因此我们使用搜索引擎来过滤数据集。附录中的表7 提供了Bamboogle 问题的更多示例。

3.3 利用搜索引擎改进自我询问

与思维链不同,自问清楚地表明了每个子问题的开始和结束。

因此,可以使用搜索引擎代替LM来回答子问题。搜索引擎具有语言模型所不具备的特性,例如能够轻松快速地更新(Kasai et al, 2022)。

因此,我们将流行的互联网搜索引擎集成到Self-Inquiry中。图3显示了自助询问+搜索引擎(SA+SE)。请注意,SA+SE 使用与Ask Yourself 相同的提示。将提示输入到语言模型中。如果LM输出“Follow up:”,则通过输出字符串“Intermediate Answer:”完成问题生成。在此响应之后,停止LM,而不是让LM 输出自己的答案,而是将模型请求的完整子问题提供给搜索引擎API,并将搜索引擎返回的答案添加到提示中。然后要求LM 继续生成自己的答案。

图3: 自问+ 搜索引擎: 白色背景上的提示,绿色LM 生成的文本。从一些提示(此处省略以节省空间)开始,并附上测试问题(下划线)。然后,LM 生成后续问题并将其输入互联网搜索引擎。将您的回答插入到提示的其余部分中,以便LM 可以生成下一个后续问题。重复这个过程直到LM 决定输出最终答案。

因此,语言模型将一个组合问题作为输入,通过首先将第一个子问题输出到搜索引擎来对其进行分解,然后将答案反馈到语言模型,从而生成另一个子问题,依此类推。重复直到最后一个问题。答案(标记为最终答案)。它以与语言模型输出结果相同的方式将搜索引擎结果插入提示中,因此您不必使用特殊语法微调模型或更改模型的体系结构。更重要的是,您甚至不需要更改提示即可将搜索引擎集成到您的自我提问中。所有实验中,自问+搜索引擎方法所使用的提示与自问所使用的提示完全相同。实现这个方法只需要几行代码。这使得语言模型无需修改即可使用API,并且API 调用不会直接暴露给语言模型,仅暴露其结果。

3.4 实验

将您的结果与以下基线进行比较。请注意,所有提示始终使用少量示例提示。也就是说,它以与提示相同的格式显示模型的演示问题及其正确答案。直接提示:Brown 等人(2020)的这种简单提示方法向模型提出问题并直接输出答案。思想链:这种提示方法向模型提出问题,使模型输出一连串的思想,然后输出最终答案。

搜索引擎:现在,只需在搜索引擎中输入您的问题即可。如果它返回特色片段(参见图4),则返回该片段,否则返回从第一个搜索结果中提取的文本。搜索引擎+ LM 后处理:搜索结果可能是完整的句子而不是最终答案,这可能会导致基于指标(例如完全匹配)的性能不佳。为了解决这个问题,我们使用Davinci-002从搜索引擎返回的结果中提取最终答案。

图4: 精选片段中的答案不正确。问题是,“阿波罗11 号的NASA 管理员是谁?” 阿波罗计划期间的NASA 管理员是托马斯·O·潘恩(Thomas O. Paine)。该片段显示尤金·克兰茨是首席飞行官,而不是美国宇航局管理员。

每种方法使用的提示如附录表8、9、10 (Musique) 和11、12、13 (2WikiMultiHopQA) 所示。我们的思路实现与原始论文的思路略有不同,在打印最终答案之前指定答案类型(例如,而不仅仅是“最终答案是”),“(人的名字)的最终答案是。 ”)。这是受到Kojima 等人(2022)答案提取步骤的启发,我们在麝香训练集上凭经验验证了这种修改可以提高性能。请注意,应用此更改不会提高自查询性能。

3.5 实验细节

始终对每个数据集中的基线和提示使用相同的问题。我们在Musique 的训练集上开发我们的方法,并在Musique 和2WikiMultiHopQA 的开发集以及我们自己的数据集上测试它。

我们使用了2WikiMultiHopQA 开发集中12,000 个问题的子集(Ho 等人,2020)。

提示包含相同的四个示例,其顺序与Ho 等人(2020) 的表3 相同。这表明尚未对该数据集进行及时的工程或调整。我们仅使用Musique 开发集中标记为2-hop 的1252 个问题。我们发现3 跳和4 跳问题有时过于复杂,甚至论文作者也无法理解。在对训练集进行了数十次实验后,我们选择了特定的提示示例和格式。该开发集仅使用了一次,结果如本文所示。

对于Bamboogle,我们使用与2WikiMultiHopQA 相同的提示来表明我们没有对此数据集执行提示调整。附录图6 中的CC 实验从CC 中抽取了12,000 个问题,并使用了第2 节中描述的相同的两个提示。

3.6 结果

表1 显示了基线结果以及在2WikiMultiHopQA、Musique 和Bamboogle 上使用davici-002 的方法的结果。思维链相对于直接提示来说是一个巨大的进步。搜索引擎很难回答大多数论文题,但是当使用LM进行后处理时,用2WikiMultiHopQA得到的结果与直接提示得到的结果相当。

对于2WikiMultiHopQA 和musque 来说,自我质疑对思维链有少量改善,但对于Bamboogle 来说,改善幅度高达11%(绝对值)。我们假设,Bamboogle 更加多样化的性质以及大多数问题与少数提示问题不同的事实可能会使思维链更难解构问题。另一方面,我们的自我质疑模型清楚地回答了以前的问题,并以一种使我们能够成功解决新推理问题的方式分解它们。将搜索引擎集成到自查询中可以进一步提高所有数据集的性能,在某些情况下高达10%(绝对)。

从最少到最多(Zhou et al, 2022)是一种分解问答题的提示,但需要使用不同的提示进行多次前向传递,而自问则需要使用一个提示进行一次前向分解按路径输入的问题。请回答子问题。表2 显示我们的方法实现了相当或更好的性能,同时运行速度提高了30% 以上。

4 相关工作

在引入链式思维和Scratchpad 技术之前,Ling 等人(2017)证明,在输出最终答案之前,通过生成推理来解决算术问题时,序列到序列模型可以提高性能。允许模型使用更多的计算来解决更困难的问题,先前已在语言中进行了演示(Graves,2016;Seo 等人,2017;Dong 等人,2019;Schwartz 等人,2020;Schwarzschild 等人,2020)。2021;魏等人。

., 2022b; Zhou et al., 2022)和视觉(Bolukbasi et al., 2017; Huang et al., 2018; Wang et al., 2018, 2021)领域都有过探索。
之前的论文探讨了将复杂任务分解为一组更简单的子问题。Iyyer et al. (2017); Buck et al. (2018); Talmor and Berant (2018); Min et al. (2019); Qi et al. (2019); Rao and Daumé III (2019); Wolfson et al. (2020); Perez et al. (2020); Khot et al. (2021); Wang et al. (2022) 训练了监督模型以将组合性问题分解为子问题。

        这些论文没有使用因果预训练的语言模型。Mishra et al. (2022) 显示,手动将指令性提示分解为更简单的子步骤可以提高性能。Shwartz et al. (2020); Betz et al. (2021); Liu et al. (2022) 使用预训练的因果语言模型生成上下文,以改善多项选择题的表现。Ye和Durrett (2022) 使用思维链来回答与上下文段落一起呈现的组合性问题。在这里,我们在向语言模型呈现问题时,不输入任何上下文。

        Talmor等人(2020年)在2跳问题上测试了遮蔽语言模型(masked LMs)。CC包含带有额外约束的2跳问题,即,被组合的两个事实很可能在预训练期间分别多次观察到,但不太可能一起出现。Patel等人(2022年)展示了将复杂问题手动分解为子问题可以提高性能。我们的自我提问方法自动执行这一过程,因此更快且更具可扩展性。
        Nakano等人(2021年)让GPT-3浏览网页,提高了问答性能,但他们使用他们手动构建的数据集对GPT-3进行了模仿学习目标的微调。Menick等人(2022年)使用强化学习将搜索引擎集成到一个生成支持性证据的语言模型中。Thoppilan等人(2022年)提出了一种可以与信息检索系统交互的语言模型,但这种交互需要一种特殊的查询语言,并且他们不得不在新数据上进行微调。我们的Self-ask + Search Engine方法不需要对语言模型或其预训练进行任何修改。Thoppilan等人(2022年)还通过让他们的两个语言模型相互对话来回答问题。我们的自我对话只需要一个模型。此外,他们只关注单跳问题。Thoppilan等人(2022年)的工作与先前将语言模型应用于对话建模的工作有关(Zhang等人,2018年;Dinan等人,2019年;Freitas等人,2020年;Roller等人,2021年),后者是基于以前在将神经网络应用于对话任务方面的成功(Shang等人,2015年;Sordoni等人,2015年;Vinyals和Le,2015年;Li等人,2016年;Serban等人,2021年)。

        我们的自问+搜索引擎模型部分受到了先前将神经lm与检索模型相结合的工作的启发(Khandelwal等人,2020;Lewis et al, 2020;Guu et al ., 2020;伊扎卡德和格雷夫,2021;Borgeaud et al, 2022)。我们是第一个提出使用二跳题作为评估大型LMs作文能力的方法的人。Lake和Baroni(2017)以及Hupkes等人(2020)此前测试了在人工数据集上训练的序列到序列模型将已知部件整合到新组合中的能力。Keysers等人(2020)生成组合问题来测试小型编码器-解码器模型,但他们不测试预训练的lm。
        与我们的工作并行,Khot等人(2023)和Yao等人(2023)提出了类似于自我询问的方法,但他们没有提出我们关于组合性差距的发现,也没有将他们的提示与网络搜索引擎集成,也没有像我们的composition Celebrities和Bamboogle那样提出新的数据集。

5 结论

        我们提出了组合性差距。然后我们表明,通过让LM明确地陈述和回答后续问题,我们的自我提问在思维链上得到了改善。最后,利用搜索引擎对子问题进行了改进。

局限性

        虽然我们在这里表明,对于10亿到1750亿个参数之间的模型,组合性差距保持在40%左右,但我们无法访问,因此也没有对大于1750亿个参数的模型进行实验。虽然这种模式在GPT-3的不同变体(包括vanilla和InstructGPT)中是一致的,但大于1750亿个参数的模型的行为可能会有所不同。
        本文的实验集中在英语的两跳问答数据集上,因为我们相信这些数据集是探索语言模型推理能力的强大工具,因为我们相信专注于这些数据集将为Siri等面向用户的问答系统等应用程序带来更好的系统。我们在其他数据集上有限的手工实验,比如语义分析、算术问题或逻辑谜题的数据集,表明自我问也适用于那些非常不同的问题集。但对这些进行更彻底的实证评估可能会揭示出不同的结果。

#以上关于论文翻译 | Measuring and Narrowing the Compositionality Gap in Language Models 测量和缩小语言模型中的组合性差距的相关内容来源网络仅供参考,相关信息请以官方公告为准!

原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/92873.html

(0)
CSDN's avatarCSDN
上一篇 2024年7月4日 下午4:32
下一篇 2024年7月4日 下午4:33

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注