ChatGPT追祖寻宗：GPT-3技术报告要点解读

编程之家80 更新时间：2025-08-20 19:13:19

论文地址：Language Models are Few-Shot Learners

往期相关文章：

ChatGPT追祖寻宗：GPT-1论文要点解读_五点钟科技的博客-CSDN博客

ChatGPT追祖寻宗：GPT-2论文要点解读_五点钟科技的博客-CSDN博客

本文的标题之所以取名技术报告而不是论文，是因为长达63页的GPT-3的这篇文章它不是一个发表的论文，而是一份报告，文中也没有针对模型的结构和整个训练过程的细节介绍，基本上都是在讨论，因此本博客也只挑一些个人觉得值得关注的点介绍一下。

Abstract

回顾一下GPT-1和GPT-2，GPT-1中主要用到了改变输入样式的方式让模型学会执行不同任务，GPT-2作者通篇在强调零样本学习，放弃用在输入中加入特殊符号区分不同任务的做法，改用纯自然语言输入的方式执行不同的任务，而在GPT-3中，作者又不再强调零样本的事了，也认为依靠大量的标注数据进行任务相关的微调不是个好主意，因为作者提到，人类对于新的任务的学习，往往只需要少量的样本就能学到新知识，估计作者认为也不能一个样本都不给，因此，作者想到了一个few-shot的方法，牛掰！当然也提到了one-shot的方法，这个后面会说。摘要中作者主要说明了他们开发出一个包含1750亿个参数的GPT-3，比之前非稀疏的模型大10倍，为啥是非稀疏的，因为稀疏模型的权重存在很多0，会导致模型虚大，所以没有对比意义。其次，作者发现GPT-3生成的新闻文本连人类都难以分辨真假是不是人写的。

1. Instruct

接下来，作者提到了目前对于语言模型训练的范式，就是在一个任务无关的数据集上预训练，再在特定任务数据集上做微调，但是这种范式存在很大的问题，就是这样训练模型仍然需要大量的标注数据去做微调，具体地，作者列出了3个问题：

本文发布于:2025-08-10，感谢您对本站的认可！

本文链接:https://www.fzithome.com/biancheng/1754769311a2641574.html

ChatGPT追祖寻宗：GPT-3技术报告要点解读

Abstract

1. Instruct

发布评论取消回复

最近发表

相关推荐

标签列表

ChatGPT追祖寻宗：GPT-3技术报告要点解读

Abstract

1. Instruct

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复