chatGPT笔记

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

一、GPT之技术演进时间线

GPT从开始至今其发展历程如下

2017年6月Google发布论文《Attention is all you need》​首次提出Transformer模型成为GPT发展的基础。 论文地址 https://arxiv.org/abs/1706.03762

2018年6月,OpenAI 发布论文《Improving Language Understanding by Generative Pre-Training》(通过生成式预训练提升语言理解能力)​首次提出GPT模型(Generative Pre-Training)。论文地址 https://paperswithcode.com/method/gpt 。

2019年2月OpenAI 发布论文《Language Models are Unsupervised Multitask Learners》语言模型应该是一个无监督多任务学习者提出GPT-2模型。论文地址: https://paperswithcode.com/method/gpt-2

2020年5月OpenAI 发布论文《Language Models are Few-Shot Learners》(语言模型应该是一个少量样本(few-shot)学习者提出GPT-3模型。论文地址 https://paperswithcode.com/method/gpt-3

2022年2月底OpenAI 发布论文《Training language models to follow instructions with human feedback》使用人类反馈指令流来训练语言模型​公布Instruction GPT模型。论文地址 https://arxiv.org/abs/2203.02155

2022年11月30日OpenAI推出ChatGPT模型并提供试用全网火爆。

二、chatGPT中的语言模型instructGPT跟传统语言LM模型最大不同点是什么

目标不一样。传统语言模型主要是预测一句话中下一个词是什么。而instructGPT的目标是follow the user’s instructions helpfully and safely

三、instructGPT跟GPT-3的网络结构是否一样

instructGPT跟GPT-3的网络结构是一样的区别在于训练阶段的不同instructGPT使用了标注数据进行fine-tune

四、GPT和BERT有啥区别

GPT 中训练的是单向语言模型其实就是直接应用 Transformer Decoder
Bert 中训练的是双向语言模型应用了 Transformer Encoder 部分不过在 Encoder 基础上还做了 Masked 操作
BERT Transformer 使用双向 self-attention而 GPT Transformer 使用受限制的 self-attention其中每个 token 只能处理其左侧的上下文。

参考文献

  • https://www.51cto.com/article/743197.html
  • Training langeuage models to follow instructions with human feedback
阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: ChatGPT