XEngine：深度学习模型推理优化

华为云开发者联盟

已认证账号

摘要：从显存优化，计算优化两个方面来分析一下如何进行深度学习模型推理优化。

本文分享自华为云社区《 XEngine-深度学习推理优化》，作者： ross.xw。

前言

深度学习模型的开发周期，包括训练阶段和部署阶段。训练阶段，用户需要收集训练数据，定义自己的模型结构，在CPU或者GPU硬件上进行训练，这个过程反复优化，直到训练出满意精度的模型。有了模型之后，我们需要将模型服务部署运行，我们期望服务延迟越低越好，吞吐越高越好。这里会从显存优化，计算优化两个方面来分析一下如何进行深度学习模型推理优化。

1. 显存优化

1.1 显存分布

模型推理需要占用一定量的显存空间（以GPU推理为例），其中主要包括如下4个部分:

其中“不可控制空间”指系统分配的空间，如每个进程CUDA Context所占用的显存空间，一般在100-300MB左右；“用户数据”指用户自行分配的显存空间，如模型输入输出Tensor占用的空间；“模型参数”指训练的深度学习模型的参数所占用的显存空间，我们需要将模型参数加载到显存中，才能进行计算；“运行时空间”是指模型的算子在计算的时候，需要的显存空间。

以ResNet-50模型为例，显存分配空间占比如下。我们可以看到随着Batch Size的增大，运行时空间会线性增长，运行时空间成为显存占用的瓶颈。

不同的模型显存分布也是不一样的。在NLP场景中，transformer类型的模型近几年涌现了许多超大参数量的模型，模型参数空间将成为显存的瓶颈。

接下来，会从激活优化和参数优化两个方面讲解如何进行显存空间优化，并最后扩展到多模型显存空间共享。

1.2 激活优化

激活值优化的中心思想就是显存复用。推理和训练不一样，推理计算只有forward过程，当一个op计算完后，它所占用的输入空间其实就可以被后面的op进行复用了。

1.3 参数优化

参数优化主要是为了解决超大模型的问题，如果模型太大，一个卡装不下就需要多张卡。参数空间和激活不一样，它是固定的值，提前训练好了，而激活值是临时计算出来的。这就使得我们不能用复用的方式。这些参数总要在一个地方保存。可以借鉴多级缓冲的思路，将训练好的参数可以缓存到磁盘和cpu内存中，在需要的时候提前读取上来，这样我们就不需要所有的参数都存储到显存中，将大模型单张卡加载成为可能。

为了减少数据拷贝对推理性能的影响，需要将数据预读取和计算并行起来。在GPU计算里面，我们可以通过cuda stream + event的方式将计算和拷贝并行起来，如下图所示：

1.4 多模型显存共享

除了单模型内部的激活优化和参数优化，在多并发多模型的服务场景，我们还可以进一步进行多模型显存共享。假设如下：

1.5 显存优化效果

这里选取了CV和NLP两个场景的模型，对比了一下XEngine推理引擎和其他运行时引擎的显存占用，可以看到有明显的优化。如果不考虑性能开启参数优化（ParamOpt），可以进一步的降低显存占用。

2. 计算优化

2.1 计算分析

下图取了ResNet-50模型的一个片段，并抽象到计算和访存的流水线过程。我们可以看到，每个OP计算对应一个CUDA Kernel计算，每个kernel计算会从显存（Global Memory）中读取数据，在片上CUDA Core进行计算。右图为CUDA的存储架构，也符合金字塔访存原则，即越靠近片上，访存速度越快。其中Global Memory是GPU的显存，访问速度最慢；而片上的Shared Memory次之；最快的是片上Register空间。当模型的算子OP比较多的时候，模型推理计算会反复读写显存，效率比较低，为了解决这个问题，常用的方法是图融合技术；当OP计算的速度越快，整个模型推理计算速度也会越快，因此我们需要高性能的算子实现。接下来会从这两个方面分析。

2.2 图融合

图融合技术指将一些OP进行融合计算，由多个OP的Kernel计算转化为一个融合后OP的Kernel计算。通过这个优化，可以减少显存的反复读写，可以通过一次读取数据，在片上进行尽可能多的计算后，再将数据存储到显存中。同时也可以减少Kernel Launch的开销。融合后的算子实现可以通过手写CUDA Kernel或者调用第三方库或者CodeGen方式进行生成。

下图中左边为resnet-50模型优化前和优化后的Graph结构。CV类型的模型常用的融合手段是将线性计算和激活进行融合，如Conv + BN + Relu进行融合计算。

下图为Bert模型的图融合前后的变化。

2.3 高性能算子

高性能计算库

Cublas/cudnn/cutlass

手写CUDA Kernel

低精度计算

FP16/INT8/TensorCore (half2, dp4a, wmma)

CodeGen

TVM/XLA/MLIR…

2.4 计算优化效果

XEngine针对Bert类型模型进行优化，测试环境为NVIDIA V100，FP32计算。如下是性能对比，相对于原始框架未优化版本，在sequence length比较小的时候，有明显的性能提升。同时也和NVIDIA的SOTA解决方案FasterTransformer进行了对比，有轻微优势。

XEngine和Pytorch推理性能对比：

XEngine和FasterTransformer推理性能对比：

3. 总结

本文主要从显存优化和计算优化两个角度分析了一下模型推理常用的优化思路和技巧，并展示了一下优化的结果。希望对大家做推理工程优化有帮助。

点击关注，第一时间了解华为云新鲜技术~

发布于 2021-12-21 10:09

深度学习（Deep Learning）

代做工资流水公司荆州打企业对公流水揭阳查询薪资银行流水沧州签证银行流水开具株洲企业流水打印图片西宁办理转账银行流水遵义签证流水办理上海背调工资流水代办湘潭背调流水办理成都签证工资流水办理昆明开流水中山企业对公流水样本岳阳企业对私流水代开桂林房贷流水威海签证银行流水开具潮州对公流水费用盐城银行流水单打印苏州购房银行流水代做肇庆代办背调工资流水鞍山办理薪资流水盐城购房银行流水多少钱岳阳工资代付流水代做淄博代开工资流水app截图吉林办理背调流水长春代做对公账户流水大连公司银行流水费用泉州代开流水单南京流水账单公司曲靖背调流水多少钱滁州薪资流水单报价湘潭签证流水报价香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户 315晚会后胖东来又人满为患了高校汽车撞人致3死16伤司机系学生张家界的山上“长”满了韩国人？张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲 “重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后原水城县长再被查凯特王妃现身！外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人多人受伤

代做工资流水公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化