>> 广发证券-电子行业“AI的裂变时刻”系列报告9:对国产推理算力芯片厂商的启示,假如L40S使用HBM显存?-240423
上传日期: |
2024/4/24 |
大小: |
1298KB |
格式: |
pdf 共18页 |
来源: |
广发证券 |
评级: |
-- |
作者: |
王亮,耿正,任思儒 |
行业名称: |
电子 |
下载权限: |
此报告为加密报告 |
|
核心观点: 前言。AIGC大时代序幕开启,国产推理算力芯片厂商迎来历史机遇;但基于大语言模型的AIGC行业需要什么样的推理算力芯片、如何设计更有性价比的推理产品?我们在此前已发表报告《“AI的裂变时刻”系列报告3:为什么H20的推理性价比高?》中基于理论推算框架分析发现,显存性能对于GPU推理性能影响较大。为了进一步研究高带宽、大容量HBM对于算力芯片推理性能的影响,我们在本报告假设了如下产品:L40S算力参数不变,使用HBM替代GDDR作为显存方案;并基于理论推算框架推算假设产品的推理性能。结果显示使用HBM后推理性能获得大幅提升。这对于国产推理算力芯片厂商产品定义与设计带来启示:使用更高带宽、更大容量的HBM对于提升产品推理性能起到事半功倍的效果。 若使用HBM显存方案,L40S推理性能提升明显。根据英伟达官网,L40S是英伟达2023年发布的一款推理GPU产品,其显存方案为48GBGDDR6,显存带宽为864GB/s。我们基于理论推算框架,分析配有不同规格HBM的L40S假设产品的推理性能;推算结果显示,使用HBM显存会显著提升L40S的推理性能;使用192GB容量、8TB/s带宽HBM时,推理性能可达原L40S芯片的约13倍。 Decode阶段通常是显存带宽密集场景,显存带宽直接影响Decode速度。使用基于Transformer架构的大模型推理,Decode阶段每个Token生成都伴随一次模型参数的读取,通常属于显存带宽密集场景,更高的显存带宽对于加速Decode环节至关重要。根据推算,特定推理场景下,相较于使用864GB/s带宽GDDR,若使用8TB/s带宽HBM,每次模型读取所需时间从39ms减少至4ms,Decode过程L40S算力利用率从仅约1%提高至约14%;相同Batch Size情况下推理全程的芯片推理性能提高至约9倍。 增大Batch Size可提高推理效率,显存容量决定Batch Size上限。增大Batch Size可以有效提高Decode环节GPU的算力利用率、以及推理全流程平均每卡每秒Throughput。但推理过程中KVCache与模型参数两者之和需小于显存容量;且KVCache与Batch Size成正比。因此显存容量在硬件层面决定了Batch Size的上限。根据推算,特定推理场景下,48GB容量GDDR6支持的最大Batch Size为16;若使用192GB容量HBM配置,可支持的最大Batch Size提升至64,从而有效提高了推理全流程平均每卡每秒Throughput。 超长上下文进一步提高了对显存容量、显存带宽的需求。大模型支持上下文长度的持续、快速提升是行业发展的明显趋势之一;一方面,超长上下文会使得推理过程KVCache增大,从而对显存容量提出了更高的要求;另一方面,为实现一定的每秒输出Tokens数量以保障用户体验,超长上下文场景会对显存带宽带来更高的要求。因此,超长上下文的发展趋势也会带动对高带宽、大容量HBM显存方案的需求。 风险提示。理论计算结果与实际测试存在误差,大语言模型技术变化,大模型开发或AI应用进展不及预期。
|
|