LLM 模型压缩与推理加速实践.pdf

下载文档

0
0
约1.94万字
约 22页
2024-04-28 发布于广西
举报
版权申诉
保障服务

LLM 模型压缩与推理加速实践.pdf

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

LLM模型压缩与推理

加速实践

QCon2023全球软件开发大会上海站（公开）PPT

小红书中台技术部-推理加速团队负责人/陈磊

LLM模型压缩与推理加速实践

•领域背景

•大语言模型压缩

•推理框架与计算优化

•总结与展望QCon2023全球软件开发大会上海站（公开）PPT

领域背景-LLM推理难点

•巨大的内存/显存需求量•自回归生成过程无法充分并行

对于如下模型和场景：

Llama65B模型

max_batchsize=64

max_input_seq_length=1024

QCon2023全球软件开发大会上海站（公开）PPT

max_output_seq_length=512

类别参数量显存用/GB

Weights12�ℎ^2120

Key/Valuecache4푏�ℎ(�+�)240

巨大的部署代价（高延迟、低吞吐、昂贵的高性能

GPU），

是LLM模型能力在产品中真正落地的拦路虎

领域背景-LLM推理难点

QCon2023全球软件开发大会上海站（公开）PPT

模型压缩-量化原理

•对称量化反量化：•Example:

푄푢��(�)

()푏−1푏−1

=푐�(푟표푢��

∗�푐��,−2+1,−2−1)

2�−1−1

�푐��=,

�=8

표푟

alphaQCon2023全球软件开发大会上海站（公开）PPT

()(())

퐷푞푢��=푄푢��/�푐��

()

푀��=�−퐷푞푢��(�)

异常值（outliers）是影响量化误差的重要因素

模型压缩-W8A8量化

•LLM量化难点：

将激活的量化困难“部分转移”给权重

•Activation异常值能达到其他值的100x以上；

•Weight数值分布均衡，容易量化；

•Activation异常值分布基本集中在特定的若干通道；

QCon2023全球软件开发大会上海站（公开）PPT

•SmoothQuant：

�

Y=()∗(�∗�푟�)=X∗�，

�푟�

��ℎ�

max(�)

�푟�=1−��ℎ�

max(�)

•��ℎ�=0.5~0.75

�

푔표표

�표푢푔ℎ

푓표푟

표�

표��

•Apply

per-tensor-quant

Weight

•Apply

per-tensor/per-token-quant

Activation

图片来自smoothquantpaper

您可能关注的文档

文档评论（0）

优选文档 + 关注: 实名认证

内容提供者

专注于发布优质文档，喜欢的可以关注一下哦~

咨询Ta 进入空间

1亿VIP精品文档

更多 >

LLM 模型压缩与推理加速实践.pdf