大型深度学习模型Last updated | Edit Source# 摘要# 问题、提示为什么大型深度学习模型需要极大的内存 #query# 主要笔记需要大内存储存==中间层==的==激活函数输出==和==权重==等模型训练限制只能在单个 GPU 上训练,批大小(batch size)设置得极小太大的模型,单个 GPU 又放不下大型模型训练方法:数据并行模型并行2022-10-18 当前流行的九大深度学习库Megatron-LMDeepSpeedFairScaleParallelFormersColossalAIAlpaHivemindOneFlowMesh-Tensorflow