【细节全解析】大模型SFT的100个关键点:深入剖析与应用指南
这篇文章介绍一下大模型的 sft 如何去做。相比较于上一篇文章介绍的 pretrain ,sft 实在没有太多的技术细节和琐碎工作需要科普。因此,我会默认读者们都知道 sft 是做什么的以及如何去
7月前890
这篇文章介绍一下大模型的 sft 如何去做。相比较于上一篇文章介绍的 pretrain ,sft 实在没有太多的技术细节和琐碎工作需要科普。因此,我会默认读者们都知道 sft 是做什么的以及如何去
这篇文章介绍一下大模型的 sft 如何去做。相比较于上一篇文章介绍的 pretrain ,sft 实在没有太多的技术细节和琐碎工作需要科普。因此,我会默认读者们都知道 sft 是做什么的以及如何去
note 文章目录 note 一、背景篇 1. Special Token 2. 耗时问题 3. 与 pretrain 的区别 4. 幻觉问题 二、数据篇 1. 数据多样性 2. 数据生产 (1)生产 prompt (2)生产 answer
