LLM 训练推理加速在阿里巴巴的实践.pdf

LLM 训练推理加速在阿里巴巴的实践.pdf

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

LLM训练推理加速

在阿里巴巴的实践

杨斯然/刘侃QCon2023全球软件开发大会上海站(公开)PPT

大语言模型训练和Megatron-LLaMA框架

•大语言模型训练的过程

•大语言模型训练的算法和问题

•大语言模型中的模型并行

QCon2023全球软件开发大会上海站(公开)PPT

•Megatron-LLaMA框架的计算和通信并行

•Megatron-LLaMA框架的3D并行调优

•Megatron-LLaMA框架应用到LLaMA模型中

•小结

大语言模型的应用

QCon2023全球软件开发大会上海站(公开)PPT

大语言模型:训练过程

预训练有监督微调强化学习

QCon2023全球软件开发大会上海站(公开)PPT

文本标注数据人工反馈

数万亿token数万prompt/response

上百万GPU小时

大语言模型训练:算法和问题

样本样本

模型GPUGPU

3.模型更新1.梯度计算QCon2023全球软件开发大会上海站(公开)PPT

梯度梯度

2.梯度同步DeepSpeed:ZeRO优化器

1.优化状态切分到数据并行的各个rank上

需求限制

13B模型:156GB2.部分通信和梯度计算并行

模型存储显存容量:80GB

65B模型:780GB3.激活重算,节省梯度计算过程显存

13B模型:52GB

梯度同步网络带宽:100GB/s

65B模型:260GB

大语言模型训练:模型并行

QCon2023全球软件开发大会上海站(公开)PPT

Megatron-LM:3D模型并行

参考文献:1.MLP层和Attention层切分到多张卡上,通常用NVLink互联

1.Megatron-LM:TrainingMulti-BillionParameterLanguageModelsUsingModelParallelism

2.EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LM2.模型的分为多个Stage,切分到多台机器上3.分布式优化器

Megatron-LLaMA框架:计算通信并行

FWBWFWBWFWBWFWBWReduceAdamAllgather

文档评论(0)

优选文档 + 关注
实名认证
内容提供者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档