ChatGPT1论文解读《Improving Language Understanding by Generative Pre-Training》

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

论文总结

以下是我阅读完整篇论文做的个人总结基本包含了chatGPT1设计的完整框架思路可以仅看【论文总结】章节。

在GPT1实现的核心架构中包含两个阶段。

第一阶段

在第一阶段基于一个包含7000本书籍内容的海量未标注文本数据集进行无监督预训练该阶段引入了一种Transformer模型的变形GPT1增加了Transformer模型的中间层并调整了部分模型结构和参数。

第二阶段

在第二阶段实验组引入12个更加具体的标注文本数据集诸如中学学校问答文本、政府工作报告文档、文本隐含情感标注文档进行参数微调。基于第一阶段的模型输出实验组基于标注数据再训练一个二阶段的线性学习模型。一、二两个阶段模型相加就得到了最终的GPT1模型。

第二阶段的辅助目标学习

对于GPT1模型的架构还有很重要的一步就是在第二阶段参数微调的过程中还要引入特定的辅助目标学习具体实现方式是将输入文本进行特定的转化例如修改分类文本输入的数学表示格式加入特定的分隔符用于标注分词含义、修改相似语义句型的词汇先后顺序这种辅助目标学习可以显著提升模型的泛化能力。
在这里插入图片描述

图1.一张图看懂GPT1模型架构

最终实验产生了几个重要结论

第一预训练阶段增加Transformer中间层可以显著提升效果
第二整个模型在12个数据集中的9个取得了更好的效果说明该模型架构设计很不错值得继续深入研究
第三辅助目标学习对于数据量越大的场景可以越提升模型的泛化能力。

论文原文解读

注原文中的公式在这篇解读文里基本上都没有引入因为那些公式基本都是需要依赖于前置知识并不是基础的数学公式。例如集合表示、Transformer相关函数、线性回归算法、softmax函数等。这篇论文解读仅以阐述思想为主以下内容开始为原本的细致解读。
原论文地址https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

一、综述

过去的很多NLPnature language processing模型需要大量人工标注的数据进行训练这些数据是人工标注含义和目标结果的文本数据。因此过去的模型训练常常限制在标注数据层面标注数据决定了模型的好坏。基于这种局限性本文提出一种新型的、可直接通过未标注数据进行训练的模型就可以获得巨大的收益。
基于未标注数据训练的NLP模型需要解决两个最重要的问题。第一采用何种模型加速优化手段是未知的这也是近期研究的热点最近有很多研究方向是探讨诸如机器翻译、文本连贯性问题的性能优化方案。第二没有高效的方法将这种模型学习到的表征转化为目标任务现有技术包括对模型体系结构进行特定任务的更改、使用复杂的学习方案和添加辅助学习目标。
本文探讨了一种半监督实现用于语言理解任务这种实现结合了无监督预训练和有监督微调方法。实验方法是用未标注数据进行训练用标注数据进行测试。本方案采用两个阶段进行训练首先使用未标注数据训练一组神经网络参数之后再用适当的标注数据进行参数微调。
在模型架构中本方案采用了Transformer模型该模型在机器翻译、文档生成、句法分析领域表现优异。最终得到的模型方案相比于传统模型效果更好总共在自然语言推理问题回答语义相似度和文本分类的12个测试中9个测试胜出。

二、涉及到的相关研究有

NLP半监督学习模型

半监督学习模型在序列标注、文本分类。过去几年研究者发现单词嵌套可以提升未标注数据的训练效果但该方案仅在单词信息理解层面取得一定的进步。最近的研究已经开始解决更长句子的理解利用语法、语句级别的嵌套方法。

无监督预训练模型

无监督训练模型属于一种特殊的半监督学习模型它提供了一种解决对应问题的初始模型。早起的无监督训练模型解决了图片分类和回归任务。近期无监督训练模型辅助深度神经网络在图片分类、语音识别、文本消除歧义和机器翻译。本方案中最直接的使用形式就是基于一个无监督预训练的神经网络模型之上进行有监督的参数微调从而提升文本分类效果。鉴于LSTM模型只能在较短的语句上有一定效果本方案采用Transformer网络模型来识别长语句结构。之后我们还研究了本方案在语言推理、转述检测和编写完整故事。但这种方案会导致针对每个不同目标的大量参数产生。

辅助训练目标

辅助训练目标是一种半监督学习模型的替代方案过去的研究使用了大量的辅助NLP任务对文本进行标注、打包、命名歧义来提升语言识别效果。本方案也采用了辅助目标进行训练。

三、模型架构设计

本模型有两个阶段第一阶段会基于海量的文本集学习一个大容量的语言模型第二阶段基于标注数据进行参数微调。

3.1无监督预训练

对一个超大的文本集使用随机梯度下降算法训练先获得一部分参数。在本实验中我们使用多层Transformer解码器multi-layer Transformer decoder处理语言模型这是一种Transformer的变种模型它实现了一种多目标自关注操作。这里省略了大量公式详情需要先前置学习Transformer模型。

3.2有监督参数微调

首先提供一个打过标的数据集C这个数据集中每个输入x都有一个对应的标签y。将数据集输入通过预训练模型得到一个中间过程值。再将过程值进行线性模型训练最终回归到标签y上。我们发现这种调参方法可以大大提升模型的泛化能力。

3.3特定于任务的输入转换

上述过程可以很好的应用于文本分类模型但是对于语言问答、文本的内涵等等具有结构化和乱序的复杂语言处理上需要再对模型进行修改。本实验使用了一个遍历方案将输入转化成一个预训练模型可以很好处理的顺序序列。对于每一种不同的输入类型本方案处理如下。
文本的内涵
通过在模型中前提p和假设h之间加入一个变量t。

相似文本

对于相似文本的判断我们改变了输入文本内词之间的顺序。

问答类

一个问题q一段文档z一组可能的答案{ak…}。我们将问题q和文档z进行连接并标注答案{ak…}得到一组输入{z, q, $, ak}。随后通过Sofrmax层进行归一化形成一个答案分布矩阵。

四、实验

4.1设置

我们使用BooksCorpus数据集用来训练模型该模型包含7000本未发表的书籍内容包含冒险、幻想、浪漫等题材这些书籍中包含大量的长句来训练模型。我们还有另一个替代数据集1B Word Benchmark该数据集合前者在数据量上是差不多的但是后者相比于前者缺少了大量的长句素材。
在预训练模型中主要还是沿用了Transformer模型的架构。在参数微调阶段采用了线性回归模型进行训练。

4.2有监督参数微调

自然语言推理Natural Language Inference, NLI
自然语言推理就是研究文本的内涵的方法他分析的是词汇、语句之间的关系以及隐式含义。我们在大量数据集上验证了模型的效果包括图片说明、记录演讲、热销小说、政府报告、维基百科、科学实验、新闻报道等题材。实验结果表明本方案的模型在5项测试维度下的4项取得了更好的效果。

问答类

我们使用最新的RACE数据集进行实验该数据集包含大量中学学校的问答文本并且该数据集在问题和答案之间做了更好的标注关联更有利于我们的模型进行学习。该数据集的实验结果也表明我们的模型效果更优问答填空率提升8.9%。

语义相似度

语义相似度用于预测两句话是否表达相同的含义该领域的研究难点在于概念重述、理解否定、处理句法歧义等。我们使用3个数据集进行实验包括微软文本集MRPC、问答集QQP和相似文本数据集STS-B最终显示我们的模型在准确度上提升4.2%。

分类

分类实验中我们用模型去判断一组单词是符合语法的还是随意的词组组合使用数据集CoLA同时也要判断语法的情感分析使用二分类数据集SST-2。最终测试结果显示我们的模型在CoLA数据集测试中将分类效果分数从35提升到了45.4。在SST-2数据集测试中取得91.3%的准确率该准确率已达到工业应用级别。

总而言之我们的模型在12项数据集测试中9项取得了更好的数据效果这显示我们的模型在NLP处理能力取得了较大的进步。

五、分析

模型中间层数量的影响

我们尝试增加Transformer中间层数据结果显示增加中间层可以显著的提升模型精准度平均每增加一个中间层可以带来9%的提升。这说明预训练模型的每一个中间层都包含了对于最终结果有价值的信息。
在这里插入图片描述

图2.增加中间层带来的模型效果提升

消融实验

我们尝试了在第二步参数微调中去除辅助学习目标结果表明整体模型效果下降很多。这说明在进行更海量的数据集实验时模型会更受益于辅助学习目标。
其次我们还尝试了将Transformer模型替换成一个长短期记忆人工神经网络模型Long Short-Term Memory, LSTM替换之后模型效果平均下降了5.6分LSTM模型仅仅在MRPC数据集上表现好于Transformer模型MRPC数据集是语义相似度实验中用到的一个数据集。

六、总结

我们引入一个预训练模型并对他进行辅助训练目标的参数微调最终得到了一个更有效果的NLP模型。该模型显著提升了机器处理长依赖关系的文本能力更好的解决歧义性任务实验过程表明在12项数据集测试中9项数据集取得了更好成绩。我们的实验还表明使用无监督预训练来提高文本辨别任务给NLP模型带来显著效果提升是完全可行的。我们希望这项研究可以有促进对自然语言理解和其他领域无监督预训练学习模型的更多研究。

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

标签: ChatGPT