内容整理自:
大家有时间还是去看李沐大佬讲,才一个半小时,收获很多~~~
总结
GPT、GPT2、GPT3的共同点是其结构都基于Transformer的Decoder层。
区别在于:
模型一个比一个大,数据量一个比一个多。
GPT为常规语言模型
GPT2卖点指向zero-shot
GPT3卖点指向Few-shot
GPT: Improving Language Understanding by Generative Pre-Training
论文:
(使用通用的预训练模型来提升语言理解能力)
基本思想 :
先在 没有标签 的数据集上训练预训练语言模型,再在子任务上微调(自监督学习)。与之前的任务(word2vec也是在没有标签的数据集上预训练语言模型)不同, 微调时只需要改变模型输入的形式 ,而不需要对模型结构进行改变。模型结构选用的是 12层 的 Transformer 的 decoder 。
无监督的预训练过程
给定一个序列 U = { u i , … , u n } U=\{u_i,…,u_n\} U = { u i , … , u n } ,使用一个标准的语言模型目标来最大化下面的似然函数:
L 1 ( U ) = ∑ i l o g P ( u i ∣ u i − k , … , u i − 1 ; θ ) L_1(U)=\sum_ilogP(u_i|u_{i-k}, …, u_{i-1};\theta) L 1 ( U ) = ∑ i l o g P ( u i ∣ u i − k , … , u i − 1 ; θ )
其中, k k k 为上下文窗口大小, θ \theta θ 代表模型参数。即给定一个模型(GPT中指的是Transformer decoder),给定前 k k k 个词,预测当前词。


发布评论