2022最新版-李宏毅机器学习深度学习课程-P50 BERT的预训练和微调-CSDN博客

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

模型输入无标签文本Text without annotation通过消耗大量计算资源预训练Pre-train得到一个可以读懂文本的模型在遇到有监督的任务是微调Fine-tune即可。

最具代表性是BERT预训练模型现在命名基本上是源自于动画片《芝麻街》。

芝麻街人物

经典的预训练模型

一、pre-train model 是什么

预训练模型的概念并不是由BERT时才出现。

预训练的任务一般是实现 词语token -> 词向量embedding vector, vector中包含token的语义比如我们语文中常学习的近义词语义相近那么要求其词向量也应该近似。

存在的问题同一个token就可以指代同一个vector。解决方法Word2vec、Glove...

但是语言有无穷尽的词语咱们现在就一直在创造新词语如 “雪糕刺客”、“栓Q”等等新兴词汇不断迭代更新一个新的词汇就要增加一个向量显然是不太OK的。

那么研究者就想到可以将词语再分英文可以拆分为字符FastText中文可以拆分为单个字或者将一个中文字看作一张图片输入CNN等模型可以让模型学习到字的构成。

但分解为单个character后面临的就是语义多意的问题“养只狗”、“单身狗”其中的“狗”都是狗但是我们知道两个“狗”其实是不同的然鹅他们又不能完全分开毕竟都用了一个字其实咱们是将考虑到其语义的。

考虑上下文后就诞生了语境词向量Contextualized Word Embedding输入模型的是整个句子模型会阅读上下文而不是仅仅考虑单个token考虑语境后得到一个词向量表示。【Encoder行为】

语境词向量的模型一般模型会由多层组成层结构常使用LSTM、Self-attention layers或者一些Tree-based model与文法相关。但Tree-base Model经过检验效果不突出在文法结构严谨解决数学公式时效果突出。

李老师列举了“苹果”在10个句子中的向量表示两两计算相似度得到一个10*10的混淆矩阵。可以明显观察到水果苹果和苹果公司两个苹果语义有所区别。

预训练模型训练参数逐渐增加网络结构逐渐复杂各个公司都争相发布“全球最大预训练模型”。

预训练模型参数量大在训练时会消耗大量计算资源都是一些互联网公司在做像我们这些“穷人”没有那么大的GPU算力就会搞一些丐版BERT。

举例

模型压缩技术网络剪枝Network Pruning、知识蒸馏Knowledge Distillation、参数量化Parameter Quantization、架构设计Architecture Design

在该领域架构设计的目标意在处理长文本语句。

典型代表读者可以自行检索学习

Reformer和Longformer意在降低Self-attention的复杂度。

预训练+微调范式是现在的主流形式我们可以拿到大公司训练好的大模型只需要根据自己的下游任务加一些Layer就可以应用某一个具体的下游任务上。

预训练微调效果的实现需要预训练模型针对该问题进行针对性设计。

这里总结了NLP Tasks的常见输入输出。

Input
- one sentence: 直接丢进去。
- multiple sentences: Sentence1 SEP Sentence2, 句子分割。
Ouput:
- one class: 加一个 CLS或者直接将所有Embedding表示接下游任务分类
- class for each token
- copy from input: 可以解决阅读理解问题QA。
- General Sequence: 用到Seq2Seq Model
  - v1将预训练模型看作Encoder将下游任务模型看作Decoder。
  - v2给出一个特别符号 SEP得到字符再输入到预训练模型让预训练模型encoder-decoder。