分布式

深度学习之分布式
本系列介绍用于大模型如何利用AI集群来进行分布式训练。
内容知识来源于网络知识,侵删。

  • 分布式集群
  • 分布式算法
  • 分布式并行

分布式算法

  • 前言
  • 一、大模型训练的挑战
  • 二、大模型算法结构
  • 三、SOTA大模型算法
  • 参考文献:


前言


一、大模型训练的挑战

  1. 内存墙
    静态内存:模型自身权重、优化器状态
    动态内存:前向输出、梯度输出、算子计算的临时变量、反向传播时逐渐释放的内存
  2. 通信墙
    片间通信、集群内通信
  3. 性能墙
    AI芯片、AI分布式框架的运行和调度效率、分布式并行的优化手段
  4. 调优墙
    保证计算正确性、性能、可行性、手工分布式的难度

二、大模型算法结构

自监督学习、精度更高、提供预训练

2022-10-25:Flan-T5:1800种语言任务大规模微调
2022-10-24:XM3600:36种语言图像描述
2022-10-24:闽南语翻译:3000种无文字语言

  1. Transfomer:取代RNN、CNN,大模型时代开启

  2. MoE:稀疏混合专家结构

  3. Bert:突破10亿的NLP大模型

  4. GPT3:全新语言模型,1750亿参数

  5. Switch Transformer:首个突破万亿大模型

  6. GLaM:1.2万亿参数的通用稀疏语言模型

三、SOTA大模型算法

  1. Bert
    预训练+微调

  2. GPT3
    无从考证

  3. Switch Transformer
    路由选择其中一个FFN作为专家


参考文献:

b站 up主 ZOMI酱 :/?spm_id_from=333.788&vd_source=071a6a156f5d29dbb9701c2bdbda3878