首页 > 电脑分布式

分布式

电脑560 更新时间：2026-04-04 08:18:44

分布式

深度学习之分布式
本系列介绍用于大模型如何利用AI集群来进行分布式训练。
内容知识来源于网络知识，侵删。

分布式集群
分布式算法
分布式并行

分布式算法

前言
一、大模型训练的挑战
二、大模型算法结构
三、SOTA大模型算法
参考文献：

前言

一、大模型训练的挑战

内存墙
静态内存：模型自身权重、优化器状态
动态内存：前向输出、梯度输出、算子计算的临时变量、反向传播时逐渐释放的内存
通信墙
片间通信、集群内通信
性能墙
AI芯片、AI分布式框架的运行和调度效率、分布式并行的优化手段
调优墙
保证计算正确性、性能、可行性、手工分布式的难度

二、大模型算法结构

自监督学习、精度更高、提供预训练

2022-10-25：Flan-T5：1800种语言任务大规模微调
2022-10-24：XM3600：36种语言图像描述
2022-10-24：闽南语翻译：3000种无文字语言

Transfomer：取代RNN、CNN，大模型时代开启
MoE：稀疏混合专家结构
Bert：突破10亿的NLP大模型
GPT3：全新语言模型，1750亿参数
Switch Transformer：首个突破万亿大模型
GLaM：1.2万亿参数的通用稀疏语言模型

三、SOTA大模型算法

Bert
预训练+微调
GPT3
无从考证
Switch Transformer
路由选择其中一个FFN作为专家

参考文献：

b站 up主 ZOMI酱：/?spm_id_from=333.788&vd_source=071a6a156f5d29dbb9701c2bdbda3878

本文发布于:2024-11-05，感谢您对本站的认可！

本文链接:https://www.fzithome.com/pc/1730799598a940689.html

版权声明:本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。

发布评论取消回复

评论列表（有0条评论）

相关推荐