chatGPT笔记
阿里云国内75折 回扣 微信号:monov8 |
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6 |
一、GPT之技术演进时间线
GPT从开始至今其发展历程如下
2017年6月Google发布论文《Attention is all you need》首次提出Transformer模型成为GPT发展的基础。 论文地址 https://arxiv.org/abs/1706.03762
2018年6月,OpenAI 发布论文《Improving Language Understanding by Generative Pre-Training》(通过生成式预训练提升语言理解能力)首次提出GPT模型(Generative Pre-Training)。论文地址 https://paperswithcode.com/method/gpt 。
2019年2月OpenAI 发布论文《Language Models are Unsupervised Multitask Learners》语言模型应该是一个无监督多任务学习者提出GPT-2模型。论文地址: https://paperswithcode.com/method/gpt-2
2020年5月OpenAI 发布论文《Language Models are Few-Shot Learners》(语言模型应该是一个少量样本(few-shot)学习者提出GPT-3模型。论文地址 https://paperswithcode.com/method/gpt-3
2022年2月底OpenAI 发布论文《Training language models to follow instructions with human feedback》使用人类反馈指令流来训练语言模型公布Instruction GPT模型。论文地址 https://arxiv.org/abs/2203.02155
2022年11月30日OpenAI推出ChatGPT模型并提供试用全网火爆。
二、chatGPT中的语言模型instructGPT跟传统语言LM模型最大不同点是什么
目标不一样。传统语言模型主要是预测一句话中下一个词是什么。而instructGPT的目标是follow the user’s instructions helpfully and safely
三、instructGPT跟GPT-3的网络结构是否一样
instructGPT跟GPT-3的网络结构是一样的区别在于训练阶段的不同instructGPT使用了标注数据进行fine-tune
四、GPT和BERT有啥区别
GPT 中训练的是单向语言模型其实就是直接应用 Transformer Decoder
Bert 中训练的是双向语言模型应用了 Transformer Encoder 部分不过在 Encoder 基础上还做了 Masked 操作
BERT Transformer 使用双向 self-attention而 GPT Transformer 使用受限制的 self-attention其中每个 token 只能处理其左侧的上下文。
参考文献
- https://www.51cto.com/article/743197.html
- Training langeuage models to follow instructions with human feedback