LLMs:ColossalChat相关的开源训练数据集简介(SFT指令微调数据集+奖励模型排序数据集+RLHF数据集)、RLHF算法实现的三个阶段(监督指令微调→训练奖励模型→RLHF训练模型→推理量化和服务)
目录
ColossalChat的使用方法
1、ColossalChat相关的开源训练数据集
(1)、SFT指令微调数据集
(2)、奖励模型排序数据集
rm-static数据集
HuggingFace上下载parquet数据集方式
hh-rlhf数据集
(3)、人类反馈强化学习数据集
2、RLHF算法实现的三个阶段
2.0、底座语言模型下载
2.1、RLHF训练阶段1 - 监督指令微调
2.2、RLHF训练阶段2 - 训练奖励模型
(1)、定义LogSigLoss函数
(2)、定义RewardModel函数
4-GPU 训练
2.3、RLHF训练阶段3 - 使用人类反馈进行强化学习训练模型
使用8-GPU进行训练
PPO部分和PTX部分
3、推理量化和服务 - 训练后
8位量化推理
低成本4位量化推理
ColossalChat的使用方法
1、ColossalChat相关的开源训练数据集
监督式数据集收集:我们收集了10.4万条中英文双语数据集,并且您可以在这个InstructionWild存储库中找到这些数据集。以下是我们如何收集数据的过程:


发布评论