InstructGPT

InstructGPT高效实践——【DeepSpeed-Chat】源码详解(33)：RLHF Finetuning

目录前言 3 phase-3: RLHF Finetuning 3.1 训练数据样例 3.1 基本数据 3.2 经验数据 3.2 训练过程 3.3 关键代码详解 3.3.1 读取数据集及Datacollator 3.3.1.1 promp

7月前660

目录前言 1 phase-1: Supervised Finetuning 1.1 训练数据样例 1.2 训练过程 1.3 关键代码详解 1.3.1 基座模型结构 1.3.2 LoRA结构及其正向传播 1.3.3 phase1的指标评估

7月前930

对比GPT-1，GPT-2并未在模型结构上大作文章，只是使用了更多参数的模型和更多的训练数据（表1）。GPT-2最重要的思想是提出了“所有的有监督学习都

2024-10-6510

最近ChatGPT大火，简单整理了一些文章和帖子。 ps.此时ChatGPT还没公布相应的论文，所有以下内容为官网发布内容，以及一些合理的推测。 InstructGPT

2024-10-6460

最近OpenAI公司的ChatGPT非常火爆，虽然正式的论文还没有发布，但是按照OpenAI一贯的工作思路，基于前期工作进行相应的改造，我们可以跟着沐神

2024-10-4510