【自然语言处理】【chatGPT系列】大语言模型可以自我改进

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

大语言模型可以自我改进 《Large Language Models Can Self-Improve》

论文地址https://arxiv.org/pdf/2210.11610.pdf

相关博客
【自然语言处理】【chatGPT系列】大语言模型可以自我改进
 【自然语言处理】【ChatGPT系列】WebGPT基于人类反馈的浏览器辅助问答
 【自然语言处理】【ChatGPT系列】FLAN微调语言模型是Zero-Shot学习器
 【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里
 【自然语言处理】【ChatGPT系列】Chain of Thought从大模型中引导出推理能力
 【自然语言处理】【ChatGPT系列】InstructGPT遵循人类反馈指令来训练语言模型
 【自然语言处理】【ChatGPT系列】大模型的涌现能力

一、简介

请添加图片描述

规模 $\text{(scaling)}$ 能够使大语言模型 $\text{(LLM)}$ 在各类自然语言处理任务 $\text{(NLP)}$ 上实现了state-of-the-art。更重要的是当大语言模型达到数千亿参数量是涌现出了新的能力 $\text{in-context few-shot learning}$ 使得大语言模型在未见过的任务上表现的很好 $\text{Chain-of-Thought(CoT) prompting}$ 展示了大模型在各种任务上的推理能力 $\text{self-consistency}$ 通过自评估多条推理路径进一步改善的效果。

尽管在大规模语料库上训练的模型具有令人难以置信的能力根本性使模型超过 $\text{few-shot baselines}$ 仍然需要在大量的高质量监督数据集上进行微调。 $\text{FLAN}$ 和 $\text{T0}$ 规划了数十个基准 $\text{NLP}$ 数据集来提高模型在未见过任务上的 $\text{zero-shot}$ 效果 $\text{InstructGPT}$ 通过众包的方式为各种文本指令提供人类的答案从而使模型更好的对齐人类的指令。虽然在收集高质量监督数据上付出了巨大的努力但是人脑刚好相反其具有元认知过程的能力其可以在没有外部输入的情况下提高自身的推理能力。

在本文中研究在不使用监督数据的情况下 $\text{LLM}$ 自我改善推理能力。我们展示了仅使用多个 $\text{NLP}$ 任务数据集的输入序列(没有真实的输出序列)预训练的 $\text{LLM}$ 就能够改善领域内和领域外任务的效果。本文方法如上图所示使用 $\text{Chain-of-Thought(CoT)}$ 作为 $\text{prompts}$ 来采样多个预测值然后使用多数投票的方式过滤掉"高置信度"的预测最后在这些高置信度预测上微调 $\text{LLM}$ 。得到的模型在贪心和多路径评估上都改善了推理能力。我们称以这种方式微调模型为语言模型的自我改善 $\text{(Language Model Self-Improved,LMSI)}$ 。这与人类大脑的学习方式类似给定一个问题通过多次思考得到不同的可能结果总结出问题应该如何解决的结论然后从自己的解决方案中学习或者记忆。我们使用预训练的 $\text{PaLM-540B LLM}$ 验证了本文的方法本文的方法不仅改善了训练的任务 $(\text{在GSM8K上,}74.4\%\rightarrow 82.1\%;\text{在DROP上,}78.2\%\rightarrow83.0\%;\text{等})$ 而且也增强了领域外的测试任务 $\text{(AQUA、StrategyQA,MNLI)}$ 在不依赖监督数据的情况下在许多任务上实现了 $\text{state-of-the-art}$ 表现。最后我们在自生成的额外输入问题和 $\text{few-shot CoT prompts}$ 上进行了初步的研究其能够进一步的减少模型自我改善所需要的人工。我们希望本文简单的方法和强有力的实验结果能够鼓励社区在未来的工作中研究不使用人类简单来达到 $\text{LLMs}$ 的最佳性能。

本文的贡献如下

我们证明了通过使用没有真实输出的数据集并利用 $\text{CoT}$ 推理和 $\text{self-consistency}$ 大语言模型可以实现自我改善并在领域内多任务上实现有力的效果以及领域外的泛化。我们在 $\text{ARC,OpenBookQA和ANLI}$ 数据集上实现了 $\text{state-of-the-art}$ 级别的结果。
我们对微调后的训练采样形式和采样温度进行了详细的消融研究并为大多数成功自改善的 $\text{LLM}$ 确定了关键的设计选择。
我研究了其他两种自我改进的方法其中模型从有效的输入问题中生成额外的问题以及生成 $\text{few-shot CoT prompt}$ 模板。

二、方法

本文方法总体如图1所示给定一个预训练的大语言模型 $M$ 和一个仅包含问答的训练数据集 $\mathcal{D}^{train}=\{x_i\}_{i=1}^D$ 。对于每个问题 $x_i\in \mathcal{D}^{train}$ 应用具有采样问答 $T > 0$ 的多路径解码来生成 $m$ 个推理路径和答案 $\{r_{i_1},r_{i_2},\dots,r_{i_m}\}$ 并使用多少投票 $\text{(self-consistency)}$ 来选择最一致且最高置信度的答案。然后保留所有导致最一致答案的推理路径应用混合形式的 $\text{prompts}$ 和答案来增强并在这些自生成的推理答案数据上微调模型。

1. 生成和过滤多个推理路径

请添加图片描述

$\text{Self-consistency}$ 在推理任务上带来了巨大的改善(例如在 $\text{GSM8K}$ 数据集上 $56.5\%\rightarrow74.4\%$ )并且贪心解码和多元解码之间的差距表明使用自选的高置信度推理路径作为训练数据有潜力进一步改善 $M$ 的推理能力。
请添加图片描述

对于每个训练问题 $x_i$ 采样 $m$ 个 $\text{CoT}$ 推理路径表示为 $\{r_{i_1},r_{i_2},\dots,r_{i_m}\}$ (如上表1所示)。因为模型 $M$ 是通过来自Wei et al工作中的 $\text{CoT}$ 例子提示的我们也应用 $\text{"The answer is"}$ 相同的输出解析来生成预测答案 $\{y_{i_1},y_{i_2},\dots,y_{i_m}\}$ 。最一致的答案通过多数投票的方式选出(不一定是正确答案)表示为 $\tilde{y_i}=\arg\max_{y_{i_j}}\sum_{k=1}^m\mathbb{I}(y_{i_j}=y_{i_k})$ 。对于所有的训练问题我们将过滤那些 $\tilde{y}$ 为最终答案的 $\text{CoT}$ 推理路径并将其放入到自训练数据集中表示为 $\mathcal{D}^{\text{self-consistent}}=\{x_i,\tilde{\textbf{r}}_i\}$ 其中 $\tilde{\textbf{r}}_i=\{r_{i_j}|1\leq j \leq m,y_{i_j}=\tilde{y}_i\}$ 。

不使用任何真实的标签来过滤样本是很重要的自我生成的 $\text{CoT}$ 推理路径大多数是可靠的并且错误的答案也不会伤害模型的自我改善能力。上图绘制了 $\text{GSM8K}$ 训练集对于每个问题生成的 $\text{CoT}$ 路径置信度和准确率的关系。置信度是结果为 $\tilde{y}$ 的 $\text{CoT}$ 路径数量除以总路径数量 $m$ 。 $y$ 轴是在某个确定的置信度下的 $\tilde{y}$ 的准确率。圆形区域和颜色深浅表示该置信度下的问题数量。可以观察到越确信的答案越可能是正确的意味着当一个问题有越多的一致 $\text{CoT}$ 路径那么对应的 $\tilde{y}$ 越可能是正确的。另一方面当 $\tilde{y}$ 是错误的其可能没有多少 $\text{CoT}$ 路径支持为训练样本带来有效的噪音。

2. 使用混合格式进行训练

请添加图片描述

为了避免语义模型过拟合至具体的 $\text{prompts}$ 或者答案风格我们为每个推理路径创建了4中不同的格式并且混合至自训练数据中(如上表2所示)。在第一种形式中将小部分的 $\text{Chain-of-Thought examples}$ 作为新问题的前缀而语言模型的输出被训练为过滤后的 $\text{CoT}$ 推理路径相同。在第二种格式中我们使用问题和其直接答案作为标准的 $\text{prompting}$ 并且语言模型的输出也仅包含直接的答案。第三和第四种形式也类似于第一和第二种除了没有给问答对的样例因此模型将要在 $\text{in-context zero-shot}$ 的情况下学习。在第三种形式中我们希望模型在不拼接包含 $\text{CoT}$ 推理的样例情况下输出 $\text{CoT}$ 推理我们将"Let’s think step by step."追加至输入序列末尾来指导语言模型逐步的生成 $\text{CoT}$ 推理路径。混合格式的训练样本会用来微调预训练语言模型 $M$ 。

3. 生成问题和 $\text{prompts}$

给定一组训练问题以及少量的人工撰写的 $\text{Chain-of-Thought}$ 样例作为 $\text{prompts}$ 我们提出的方法能够使模型自我改善。然而若训练问题或者 $\text{CoT}$ 样本的数量有限时我们的方法可能无法生成足够的样本用户模型自训练。需要人类工程师从网络上收集问题。为了进一步减少人工我们研究了如何自生成更多的训练问题和 $\text{prompts}$ 。

3.1 问题生成

先前的一些工作讨论了使用 $\text{LLMs}$ 来生成多样训练样本进行 $\text{few-shot}$ 数据增强。然而这些方法都是为分类任务设计的并且需要为每个 $\text{few-shot}$ 样本提供真实标签。我们使用简单且有效的方法来为领域内生成多样的问题。具体来说我们随机的选择几个现有的问题将其按照随机的顺序拼接起来作为输入 $\text{prompt}$ 并且让语言模型生成连续的序列作为新问题。我们重复这个过程来获得大量的新问题并使用 $\text{self-consistency}$ 来保留高置信度的答案。这些问题会被用来作为自生成的训练问题。

3.2 $\text{Prompt}$ 生成

给定一个问题集合人工撰写一些 $\text{CoT}$ 样例作为能够带来最终答案的推理路径。在不使用人工 $\text{prompts}$ 的 $\text{zero-shot}$ 设定中我们能够使用模型本身来生成这些 $\text{CoT}$ 路径。遵循Kojima et al.在答案开始处添加 $\text{A: Let's think step by step.}$ 并且让语言模型来生成连续的推理路径。然后使用这些生成的推理路径作为 $\text{few-shot CoT prompting}$ 样本。

三、实验设置

1. 任务和数据集

算术推理

我们使用数学问题集 $\text{GSM8K}$ 以及一个需要数字推理能力的阅读理解基准 $\text{DROP}$ 。遵循Zhou et al.等人的工作将 $\text{DROP}$ 划分为足球相关和非足球相关的训练子集。
常识推理

我们使用 $\text{OpenBookQA}$ 数据集和 $\text{ARC}$ 数据集。对于 $\text{ARC}$ 我们在实验中仅使用 $\text{ARC-c}$ 子集。两个数据集都包含多个选项的问题。
自然语言推断

我们使用 $\text{ANLI}$ 的子集 $\text{ANLI-A2}$ 和 $\text{ANLI-A3}$ 其相比于子集 $\text{ANLI-A1}$ 更具有挑战性。这些数据集包含了具有关系entailment、neutral和contradiction的句子对。

2. 模型、训练设置和超参数

我们遵循先前的研究并在具有 $\text{540B}$ 参数的自回归 $\text{Transformer}$ 语言模型上进行实验。我们为训练集中的每个问题生成 $m = 32$ 个推理路径。每个推理路径被增强为4种形式最终的训练样本尺寸为 $128\times |\mathcal{D}^{train}|$ 其中 $|\mathcal{D}^{train}|$ 是对应训练集的尺寸。除了 $\text{DROP}$ 以外的所有数据集我们都使用完整的训练集。为了降低训练的代价我们从 $\text{DROP}$ 数据集中足球和非足球划分中采样 $5 k$ 的样本并从 $\text{ANLI-A2}$ 和 $\text{ANLI-A3}$ 中采样 $5 k$ 的样本。对于每个数据集我们以学习率 $5 e - 5$ 和 $\text{batch size}$ 为32来微调模型 $\text{10k}$ 步。对于多路径解码我们使用的采样温度为 $T = 0.7$ 。在随后的自我改善中使用的温度为 $T = 1.2$ 。在所有的实验中我们设置最大的解码步骤为 $\text{256}$ 。

四、结果

1. 主要结果

请添加图片描述

上表3展示了使用 $\textbf{LMSI}$ 前后模型 $\text{PaLM-540B}$ 的结果。在所有的6个数据集上对于每个模型测试时应用三种不同的 $\text{prompting}$ 标准 $\text{prompting}$ 、 $\text{CoT-Prompting}$ 和 $\text{Self-Consistency}$ 。我们观察到在使用 $\textbf{LMSI}$ 后三种 $\text{prompting}$ 方法都有大幅度的提高。相比于 $\text{self-consistency}$ 使用 $\textbf{LMSI}$ 后的 $\text{self-consistency}$ 可以有显著的改善在 $\text{GSM8K}$ 上有 $+7.7\%$ 在 $\text{DROP}$ 上有 $+4.8\%$ 在 $\text{OpenBookQA}$ 上有 $+4.4\%$ 在 $\text{ANLI-A3}$ 上有 $+4.5\%$ 。这表明我们提出的方法非常的有效。此外使用了 $\textbf{LMSI}$ 的单路径 $\text{CoT-Prompting}$ 的效果接近甚至优于不使用 $\text{LMSI}$ 的多路径 $\text{Self-Consistency}$ 这表明 $\text{LMSI}$ 确实有助于模型从多个一致的推理路径中学习。我们也比较了我们的结果与先前的 $\text{SOTA}$ 。在 $\text{ARC-c}$ 、 $\text{OpenBookQA}$ 、 $\text{ANLI-A2}$ 和 $\text{ANLI-A3}$ 上 $\text{LMSI}$ 都超越了先前的 $\text{SOTA}$ 。在 $\text{GSM8K}$ 上 $\text{LMSI}$ 的效果接近于 $\text{DiVeRSe}$ 方法(该方法使用了多种 $\text{prompts}$ 并整合了一个集成100个输出路径的投票验证器)。相反我们仅使用了32自生成的路径并使用了带有 $\textbf{LMSI}$ 的 $\text{self-consistency}$ 。在 $\text{DROP}$ 数据集上 $\textbf{LMSI}$ 的效果接近 $\text{OPERA}$ 方法(其使用了真实标签进行训练)。另一方面我们的方法仅利用了训练集中的问题没有使用任何的真实标签。

针对未见过任务的多任务自训练

为了证明 $\textbf{LMSI}$ 的泛化能力我们在上面6个数据集的混合训练集问题上进行自训练实验然后在6个领域外任务上使用相同的模型进行评估。领域外任务包括(1) $\textbf{AQUA}$ 和 $\textbf{SVAMP}$ 是算术推理任务(2) $\textbf{StrategyQA}$ 是常识推理任务(3) $\textbf{ANLI-A1,RTE,MNLI-M/MM}$ 是自然语言推理任务。在这些任务中 $\textbf{AQUA,StrategyQA,RTE}$ 与领域内任务显著不同。这三个任务有其自己的 $\text{few-shot prompts}$ 。上表4中可以观察到 $\textbf{LMSI}$ 在所有的领域外任务上都有较高的准确率说明语言模型的整体推理能够被增强。
使用 $\text{Chain-of-Thought}$ 训练的重要性

请添加图片描述

我们证明了使用 $\text{Chain-of-Thoughts}$ 训练语言模型的重要性。上表5所示列出了所有四种形式的 $\textbf{LMSI}$ 结果。结果显示不使用 $\text{CoT}$ 形式语言模型仍然可以自我改善但是效果的收益会大幅度的下降。

2. 推进自我改善的极限

自生成问题

请添加图片描述

我们进一步探索了 $\text{few-shot}$ 的设置仅有少量目标域上的训练问题。在 $\text{GSM8K}$ 上仅采用10个真实问题作为 $\text{few-shot}$ 样本然后使用语言模型来生成更多的训练问题。然后使用这些生成的问题来自训练语言模型结果如上表6所示。结果显示使用自生成的问题仍然可以改善语言模型的能力但是使用真实世界的问题能够带来更好的结果。

自生成 $\text{few-shot CoT Prompts}$

我们也探索了没有领域内 $\text{CoT}$ 样本的情况。我们应用 $\text{Step-by-Step}$ 方法来生成 $\text{CoT}$ 样本结果如上图3显示。我们可以观察到使用自生成的 $\text{Step-by-Step CoT}$ 样本作为 $\text{few-shot prompting}$ 校友显著优于 $\text{Step-by-Step}$ 并且接近人类撰写的 $\text{few-shot CoT}$ 。尽管 $\text{prompt}$ 的准确率有限(贪心 $\text{Step-by-Step}$ 的准确率为43%)但是Few-Shot w/ Step-by-Step强劲的表现可能是利用了来自多路径解码的更多样 $\text{CoT prompts}$ 。因为我们不使用训练问题或者 $\text{few-shot CoT}$ 样本74.2%也是 $\text{GSM8K}$ 上 $\text{zero-shot}$ 的最好效果。

3. 蒸馏至较小模型

请添加图片描述

我们也探索了知识是否可以蒸馏至更小的模型。我们使用了由 $\text{PaLM-540B}$ 生成的相同训练集但是在更小的尺寸上微调模型 $(\text{PaLM-8B,PaLM-62B})$ 上表7展示了蒸馏的结果。有趣的是通过 $\textbf{LMSI}$ 蒸馏后 $\text{62B}$ 的模型效果优于 $\text{540B}$ 模型 $\text{8B}$ 的模型优于 $\text{62B}$ 模型。这也意味着在有限计算资源的下游任务上大模型的推理知识可以用于大幅度的增强小模型。