使用光模块Breakout功能减少AI训练中断故障

使用光模块Breakout功能减少AI训练中断故障根据Meta Llama 3.1万卡集群公开的论文,Llama 3.1 在为期 54 天的训练期间,经历了共 466 次任务中断,其中8.4%是Network原因,包括交换机和网络线缆故障。

5天前30