DeepSpeed
#github Intro::: DeepSpeed是Microsoft推出的深度学习库,用于训练Megatron-Turing NLG 530B和BLOOM等大型模型,在训练、推理和压缩三方面都有所创新。
Link::: https://github.com/microsoft/DeepSpeed
DeepSpeed具有如下优点:
- 可进行十亿乃至万亿级参数的稀疏/密集模型的训练/推理
- 可实现超高系统吞吐量,可高效扩展至数千个GPU
- 可在资源有限的GPU系统上进行训练/推理
- 可实现前所未有的低延时与高推理吞吐量
- 可用低成本实现压缩,从而大幅降低推理延迟并缩减模型大小