AI语言模型三部曲：GPT、GPT2、GPT-3的技术进阶解读

编程之家100 更新时间：2026-04-03 19:43:45

内容整理自：
大家有时间还是去看李沐大佬讲，才一个半小时，收获很多~~~

总结

GPT、GPT2、GPT3的共同点是其结构都基于Transformer的Decoder层。
区别在于：
模型一个比一个大，数据量一个比一个多。
GPT为常规语言模型
GPT2卖点指向zero-shot
GPT3卖点指向Few-shot

论文：（使用通用的预训练模型来提升语言理解能力）

基本思想 ：
先在 没有标签 的数据集上训练预训练语言模型，再在子任务上微调（自监督学习）。与之前的任务（word2vec也是在没有标签的数据集上预训练语言模型）不同， 微调时只需要改变模型输入的形式 ，而不需要对模型结构进行改变。模型结构选用的是 12层 的 Transformer 的 decoder 。
无监督的预训练过程
给定一个序列 $U=\{u_i,…,u_n\}$ ，使用一个标准的语言模型目标来最大化下面的似然函数：
$L_1(U)=\sum_ilogP(u_i|u_{i-k}, …, u_{i-1};\theta)$
其中， $k$ 为上下文窗口大小， $\theta$ 代表模型参数。即给定一个模型（GPT中指的是Transformer decoder），给定前 $k$ 个词，预测当前词。

本文发布于:2026-02-25，感谢您对本站的认可！