研报下载就选股票报告网
您好,欢迎来到股票分析报告网!登录   忘记密码   注册
>> 安信证券-半导体行业AI算力产业链梳理:技术迭代推动瓶颈突破,AIGC场景增多驱动算力需求提升-230321
上传日期:   2023/3/21 大小:   4516KB
格式:   pdf  共36页 来源:   安信证券
评级:   领先大市-A(首次) 作者:   马良,程宇婷
下载权限:   无限制-登录即可下载
AI大模型引领应用层百花齐放,算力层长期受益:
  ChatGPT、GPT4.0、Microsoft 365 Copilot、文心一言等相继发布,以ChatGPT为代表的AI大模型及其初步应用“一石激起千层浪”,其相关技术变革预计将对个体的工作、生活及社会组织方式带来的广泛影响。以海内外IT龙头为代表的企业界也开始深入挖掘此次技术变革对公司经营方式、商业模式的潜在颠覆性变化,并重新评估未来的发展战略。我们认为,AI大模型在参数规模、计算量简化、安全性及多模态融合等方向虽然仍有迭代进步空间,但其迄今展示出的“思维能力”可作为先进生产力工具已是不争事实。随着多模态大模型GPT4的发布,基于文字、图片等垂直场景的应用步伐有望“从1到10”加速,类似于移动互联网时代各类型APP的百花齐放,其竞争格局也会逐步加剧。而类比19世纪末的美国西部“淘金热”对铲子、牛仔裤的大量需求,我们认为以GPGPU为代表的算力基础设施作为AI大模型底座将长期稳定受益。
  ChatGPT算力需求加速增长,基于大算力、先进制程领域的技术创新企业有望受益:
  我们根据GPT-4对使用次数的限制推论,目前AI大模型的算力水平显著供不应求。以Open AI的算力基础设施为例,芯片层面GPGPU的需求最为直接受益,其次是CPU、AI推理芯片、FPGA等。AI服务器市场的扩容,同步带动高速网卡、HBM、DRAM、NAND、PCB等需求提升。同时,围绕解决大算力场景下GPU“功耗墙、内存墙”问题的相关技术不断升级,如存算一体、硅光/CPO产业化进程有望提速;先进制程芯片演进中已有的Chiplet等技术路径也将受益;Risk-V由于开源免费、开发者自由度高、自主可控度高、更适应AIoT处理器架构需求等优势,带动围绕AI场景的参与企业数量提升。
  本报告的创新点:
  1)以GPT-3模型为例的GPGPU市场测算:预计用于高端GPGPU显卡的训练及推理部分市场空间合计约145亿元,其中训练市场规模约28亿元,推理市场规模约117亿元。分别对应约3200张和135031张英伟达A100 GPU芯片。
  2)对GPT-4算力需求及未来趋势的推论:GPT-4由于复杂度提升、图片识别功能加入,我们推测算力需求增至十倍以上。长期看来伴随编译器等软件端技术迭代,新产品推出有望提速。AI大模型有望向小型化、高效化方向发展,对算力需求趋势从单模型所需高性能芯片价值转变为应用端规模增长带来的用量提升。
  3)重点技术梳理:存算一体技术、HBM技术、Chiplet技术、CPO技术等技术。
  4)系统梳理潜在受益的产业链环节及标的。
  投资建议:
  我们建议关注国产大算力芯片、英伟达/AMD产业链、上游硬件供应商、下游多模态应用落地等。1)GPU/AI芯片:寒武纪、海光信息、景嘉微、澜起科技;2)英伟达产业链配套:胜宏科技、和林微纳;3)CPU:海光信息、龙芯中科、澜起科技;4)FPGA:紫光国微、复旦微电、安路科技;5)芯片IP:芯原股份、华大九天;6)服务器:浪潮信息、工业富联、中科曙光;7)Chiplet等先进封装相关:通富微电、长电科技、兴森科技、深南电路、生益科技、华正新材;8)光模块:天孚通信、新易盛、中际旭创;9)AIoT:乐鑫科技、恒玄股份、炬芯科技;10)SoC:晶晨股份、瑞芯微、全志科技、恒玄科技、富瀚微;11)Risk-V:兆易创新、芯原股份、国芯科技、北京君正;12)存算一体:兆易创新、恒烁股份;13)存储芯片/模组:兆易创新、佰维存储、江波龙、北京君正、聚辰股份;14)CPU/GPU等供电芯片:杰华特、晶丰明源;15)多模态下游应用:海康威视、大华股份、萤石网络、漫步者等
  风险提示:技术研发不及预期的风险;应用落地不及预期的风险;中美贸易摩擦的风险。
  
研究报告全文:2023年03月21日行业分析半导体证券研究报告AI算力产业链梳理技术迭代推动瓶颈突破AIGC场景增多驱动算力需投资评级领先大市-A首次评级求提升首选股票目标价元评级AI大模型引领应用层百花齐放算力层长期受益ChatGPTGPT40Microsoft365Copilot文心一言等相继发布以ChatGPT为代表的AI大模型及其初步应用一石激起千层浪其行业表现相关技术变革预计将对个体的工作生活及社会组织方式带来的广泛半导体沪深300影响以海内外IT龙头为代表的企业界也开始深入挖掘此次技术变38革对公司经营方式商业模式的潜在颠覆性变化并重新评估未来的2818发展战略我们认为AI大模型在参数规模计算量简化安全性及8-2多模态融合等方向虽然仍有迭代进步空间但其迄今展示出的思维-12能力可作为先进生产力工具已是不争事实随着多模态大模型GPT--22-324的发布基于文字图片等垂直场景的应用步伐有望从1到102022-032022-072022-112023-03加速类似于移动互联网时代各类型APP的百花齐放其竞争格局也资料来源Wind资讯会逐步加剧而类比19世纪末的美国西部淘金热对铲子牛仔升幅1M3M12M裤的大量需求我们认为以GPGPU为代表的算力基础设施作为AI大相对收益5942-102模型底座将长期稳定受益绝对收益4043-168马良分析师ChatGPT算力需求加速增长基于大算力先进制程领域的技SAC执业证书编号S1450518060001术创新企业有望受益maliang2essencecomcn程宇婷分析师我们根据GPT-4对使用次数的限制推论目前AI大模型的算力水平SAC执业证书编号S1450522030002显著供不应求以OpenAI的算力基础设施为例芯片层面GPGPU的chengytessencecomcn需求最为直接受益其次是CPUAI推理芯片FPGA等AI服务器市场的扩容同步带动高速网卡HBMDRAMNANDPCB等需求提相关报告升同时围绕解决大算力场景下GPU功耗墙内存墙问题的相设备国产化关键环节半导2022-09-23关技术不断升级如存算一体硅光CPO产业化进程有望提速先进体零部件蓝海起航制程芯片演进中已有的Chiplet等技术路径也将受益Risk-V由于中芯国际拟再建新厂持续2022-08-30开源免费开发者自由度高自主可控度高更适应AIoT处理器架推荐上游设备及材料构需求等优势带动围绕AI场景的参与企业数量提升国产替代渗透率提升国产2022-08-26芯片开发需求增多掩膜版行业进入高速增长通道本报告的创新点晶圆平坦化的关键工艺CMP2022-06-101以GPT-3模型为例的GPGPU市场测算预计用于高端GPGPU显卡设备材料国产替代快速推进的训练及推理部分市场空间合计约145亿元其中训练市场规模市场空间广阔电池管理2022-05-19约28亿元推理市场规模约117亿元分别对应约3200张和BMSBMIC芯片国产替代135031张英伟达A100GPU芯片进程加速2对GPT-4算力需求及未来趋势的推论GPT-4由于复杂度提升图片识别功能加入我们推测算力需求增至十倍以上长期看来本报告版权属于安信证券股份有限公司各项声明请参见报告尾页1行业分析半导体伴随编译器等软件端技术迭代新产品推出有望提速AI大模型有望向小型化高效化方向发展对算力需求趋势从单模型所需高性能芯片价值转变为应用端规模增长带来的用量提升3重点技术梳理存算一体技术HBM技术Chiplet技术CPO技术等技术4系统梳理潜在受益的产业链环节及标的投资建议我们建议关注国产大算力芯片英伟达AMD产业链上游硬件供应商下游多模态应用落地等1GPUAI芯片寒武纪海光信息景嘉微澜起科技2英伟达产业链配套胜宏科技和林微纳3CPU海光信息龙芯中科澜起科技4FPGA紫光国微复旦微电安路科技5芯片IP芯原股份华大九天6服务器浪潮信息工业富联中科曙光7Chiplet等先进封装相关通富微电长电科技兴森科技深南电路生益科技华正新材8光模块天孚通信新易盛中际旭创9AIoT乐鑫科技恒玄股份炬芯科技10SoC晶晨股份瑞芯微全志科技恒玄科技富瀚微11Risk-V兆易创新芯原股份国芯科技北京君正12存算一体兆易创新恒烁股份13存储芯片模组兆易创新佰维存储江波龙北京君正聚辰股份14CPUGPU等供电芯片杰华特晶丰明源15多模态下游应用海康威视大华股份萤石网络漫步者等风险提示技术研发不及预期的风险应用落地不及预期的风险中美贸易摩擦的风险本报告版权属于安信证券股份有限公司各项声明请参见报告尾页2行业分析半导体内容目录1ChatGPT浪潮带动算力需求提升以GPU为核心的硬件市场扩容511ChatGPT基于生成式AI技术的大型语言模型商业化迅速开启512采用GPT-35预训练模型参数量随模型换代呈指数型增长513海量参数产生大算力需求GPGPU等高壁垒AI芯片受益814类ChatGPT成本高昂产品涌现国产大模型方兴未艾915以GPT-3为例测算大算力需求驱动AI硬件市场空间提升1216GPT-4模型算力需求扩增架构升级降本增效未来可期1517英伟达引领硬件端产品升级国产GPU静待花开162大算力场景遇到的问题及解决途径2321内存墙功耗墙等掣肘AI的算力发展2322内存墙功耗墙等问题解决路径25221存算一体技术以SRAMRRAM为主的新架构大算力领域优势大25222HBM技术高吞吐高带宽AI带动需求激增28223Chiplet技术全产业链升级降本增效国内外大厂前瞻布局30224CPO技术提升数据中心及云计算效率应用领域广泛323投资建议334风险提示3441技术研发不及预期的风险3442应用落地不及预期的风险3443中美贸易摩擦的风险34图表目录图1不同程序实现1亿月活跃用户所花费的时间5图2使用ChatGPT撰写博客内容5图3ChatGPT预训练和推理过程6图4Transformer架构示意图7图5RLHF原理示意图7图6GPT-4对图片输入的理解8图7GPT-4考试表现相较GPT-35的提升8图8近年主流生成型AI对算力的需求9图9GPU与CPU并行运算能力对比9图10近年英伟达GPU的FLOPS与带宽速率增长9图11Musk和Altman关于ChatGPT对话成本聊天截图10图122018-2022年科技厂商资本支出亿美元10图13百度AI大底座示意图12图14GPT-3模型大小架构及参数12图15不同参数量模型的上下文学习曲线12图16用于训练语言模型所需要的算力情况13图17下游企业拥有英伟达A100GPU数量截止至202214图18VisionTransformer模型对图片进行切割输入15图19AI大模型的参数规模持续加速攀升16图20小参数模型逐渐有出色表现16图21CPU和GPU架构对比17本报告版权属于安信证券股份有限公司各项声明请参见报告尾页3行业分析半导体图22GPU架构演变历程18图23GraceHopper超级芯片示意图18图24ROCm50生态技术19图25英伟达发展历程20图262017-2020年英伟达技术在TOP500超算的占比20图27英伟达产品规划图21图28存储计算剪刀差24图29冯诺依曼架构下的数据传输24图30AI模型大小增长与GPU内存增长25图31AI模型计算量增长速度25图32冯诺依曼架构vs存算一体架构26图33四种存算一体架构对比26图34HBM设计结构29图35GDDR5vsHBM29图36Chiplet设计结构30图37UCIe标准31图38共封装光学技术33表1ChatGPT预训练相关概念7表2各代GPT系列所需要参数量7表3各AI芯片性能对比9表4ChatGPT对话成本测算10表5各科技公司关于类ChatGPT的技术布局概览统计截止日期2023031911表6ChatGPT对应A100GPU市场规模14表7GPU发展历程17表8AMDGPGPU相关产品一览19表9英伟达AI相关产品一览21表10NvidiaA100GPU和H100GPU规格对比22表11Nvidia计算卡进化历程22表12国产GPU厂商情况23表13国产GPU与国际GPU参数对比23表14不同存储器介质对比27表15云和边缘大算力企业对比28表16端和边缘小算力企业对比28表17Chiplet相关公司产品32本报告版权属于安信证券股份有限公司各项声明请参见报告尾页4行业分析半导体1ChatGPT浪潮带动算力需求提升以GPU为核心的硬件市场扩容11ChatGPT基于生成式AI技术的大型语言模型商业化迅速开启ChatGPTChatGenerativePre-trainedTransformer是由OpenAI开发的聊天机器人程序于2022年11月推出ChatGPT是目前为止最先进的语言生成模型之一使用基于GPT-35架构的大型语言模型LLM并通过强化学习进行训练拥有语言理解和文本生成能力适用于问答对话生成文本等多种场景ChatGPT用户规模扩增迅速根据SimilarWeb数据2023年1月期间ChatGPT平均每天大约有1300万独立访客数量是2022年12月的两倍多Similarweb数据根据瑞银公开报告数据2023年1月即上线两个月后实现全球1亿月活跃用户是历史上增长最快的消费者应用程序ChatGPT是生成式AI在文字生成领域的应用创造能力是其核心优势传统AI依靠逻辑进行分类和判断而生成式AI的壁垒在于能够创造新内容可以是多模态的模仿人类情感的具有互动和审美性质的传统的聊天机器人Chatbot例如客服机器人只能根据用户输入的内容在数据库中查询到对应答案再机械地以模板的形式反馈给客户而ChatGPT采取生成式AI技术并且有工作人员每日优化模型在应对用户提问时会根据上下文内容调整回答内容增强互动式对话式的情感体验更加智能OpenAI开放API降本90扩大覆盖用户面2023年3月1日OpenAI官网宣布ChatGPT和WhisperOpenAI去年发行的语音识别生成模型的API开放使用开发者可将模型集成到APP和其他产品中ChatGPTAPI接入的模型为GPT-35-turbo与GPT-35相比更加快捷准确成本也更低定价为每1000个tokens约750个单词0002美元用户则需要按照输入和输出的tokens总数来付费OpenAI官方表示自2022年12月以来ChatGPT降低了90的成本开放API旨在使更多人受益于生成式AI技术图1不同程序实现1亿月活跃用户所花费的时间图2使用ChatGPT撰写博客内容资料来源YahooFinance安信证券研究中心资料来源CSDNChatGPT安信证券研究中心12采用GPT-35预训练模型参数量随模型换代呈指数型增长GPT35是一种大型语言模型LLM参数量大精准度高GPT-35采用深度学习中的Transformer架构并通过大规模预训练pre-training的方式来学习自然语言处理任务可以进行文本生成对话生成文本分类命名实体识别关键词提取等自然语言处理任务语言模型LM是指对语句概率分布的建模具体是判断语句的语序是否正常是否可以被人类理解它根据句子中先前出现的单词利用正确的语序预测句子中下一个单词以达到正确的语义例如模型比较我是人类和是人类我出现的概率前者是本报告版权属于安信证券股份有限公司各项声明请参见报告尾页5行业分析半导体正确语序后者是错误语序因此前者出现的概率比后者高则生成的语句为我是人类大型语言模型LLM是基于海量数据集进行内容识别总结翻译预测或生成文本等的语言模型相比于一般的语言模型LLM识别和生成的精准度会随参数量的提升大幅提高ChatGPT需要通过预训练来形成GPT35的模型从而可以在用户端的网页或APP进行推理预训练指先通过一部分数据进行初步训练再在这个初步训练好的模型基础上进行重复训练或者说是微调推理指将预训练学习到的内容作为参考对新的内容进行生成或判断预训练是模型运作的主要部分所需要的精度较高算力需求也较高推理则相反ChatGPT通过Transformer和RLHF两种语言模型进行预训练可并行训练并大量优化反馈采用深度学习中的Transformer架构并通过大规模预训练pre-training的方式来学习自然语言处理任务可以进行文本生成对话生成文本分类命名实体识别关键词提取等自然语言处理任务长短期记忆网络算法LSTM是一种时间循环神经网络传统的循环神经网络RNN拥有链式形式就像人脑会忘记很久以前发生的事件RNN也会忘记它在较长序列中学习的内容因此具有短时记忆LSTM是一种特殊的RNN它解决了传统RNN的短时记忆问题在Transformer问世前曾主导NLP领域但也拥有无法并行训练建模长度有限的缺点Transformer是一个完全依赖于自注意力机制来计算其输入和输出的表示的转换模型所以与LSTM的顺序处理不同它可以并行同时处理所有的输入数据模仿人类联系上下文的习惯从而更好地为LLM注入意义并支持处理更大的数据集人类反馈信号强化学习RLHF指使用强化学习的方式直接优化带有人类反馈的语言模型使得语言模型能够与复杂的人类价值观对齐它负责ChatGPT预训练中微调的部分首先在人类的帮助下训练一个奖赏网络RMRM对多个聊天回复的质量进行排序从而增加ChatGPT对话信息量使其回答具有人类偏好ChatGPT的预训练需要处理海量参数从而实现超高文本识别率OpenAI目前没有公布ChatGPT所使用的GPT-35的相关数据由表2可知随着新模型推出新的参数量需求呈翻倍式增长OpenAI首席执行官SamAltman接受公开采访表示GTP-4参数量为GTP-3的20倍需要的计算量为GTP-3的10倍GTP-5在2024年底至2025年发布它的参数量为GTP-3的100倍需要的计算量为GTP-3的200-400倍图3ChatGPT预训练和推理过程资料来源OpenAI官网安信证券研究中心本报告版权属于安信证券股份有限公司各项声明请参见报告尾页6行业分析半导体表1ChatGPT预训练相关概念中文名称英文缩写名称特性作用ChatGPT是否使用语言模型LM根据语句概率进行文字预测是大型语言模型LLM需要海量数据集的LM是循环神经网络RNN顺序处理短时记忆否长短期记忆网络算法LSTM顺序处理建模长度有限否Transformer并行处理注意力机制是人类反馈信号强化学习RLHF使模型与人类价值观对齐是奖赏网络RMRLHF的重要步骤是资料来源CSDN电子发烧友澎湃新闻安信证券研究中心图4Transformer架构示意图图5RLHF原理示意图资料来源Attentionisallyouneed安信证券研究中心资料来源OpenAI官网安信证券研究中心表2各代GPT系列所需要参数量模型发布时间参数量GPT-12018年6月117亿GPT-22019年2月15亿GPT-32020年5月1750亿GPT-42023年3月暂未公布GPT-5预期2021年底至2025年175000亿资料来源OpenAI官网安信证券研究中心GPT-4功能升级多模态拓展应用场景2023年3月14日OpenAI正式发布GPT-4模型早于此前23年下半年发布的时间规划根据OpenAI官方GPT-4模型于2022年8月完成训练之后通过6个月时间对模型进行了安全性研究风险评估和迭代GPT-4作为大型多模态模型在多方面提升显著1多模态大模型新增接受图片和文本输入并产生文本输出能力能分析图片的符号意义如理解图片中的笑梗文字方面GPT-4的输入限制由3000字提升至25万字对于英语以外的语种支持有更多优化2提升各种专业和学术水准并有较好表现能处理更长更复杂的文本在没有针对考试内容进行特别训练的基础上GPT-4在各项测试中均取得较高成绩如GPT-4在GRE考试中取得3324分GPT-4novision取得3224分而GPT-35分数为3014分3在安全一致性上有较为明显的提升根据OpenAI的对抗性测试和红队测试结果相比GPT-35GPT-4产生客观事实回答的可能性提升40响应违禁内容请求的可能性降低82本报告版权属于安信证券股份有限公司各项声明请参见报告尾页7行业分析半导体根据公开新闻整理目前接入GPT-4支持的应用端已有微软的必应浏览器newBing嵌入于办公软件的Microsoft365Copilot人工智能服务外语培训教育机构多邻国的付费产品DuolingoMax摩根士丹利等我们认为随着GPT-4等模型复杂度升级并逐步支持图片视频识别等多模态对应的算力及基础设施需求有望持续增长下游则有望拓展更多图片视频内容端的商业化应用场景图6GPT-4对图片输入的理解图7GPT-4考试表现相较GPT-35的提升资料来源GPT-4TechnicalReport安信证券研究中心资料来源GPT-4TechnicalReport安信证券研究中心13海量参数产生大算力需求GPGPU等高壁垒AI芯片受益ChatGPT算力需求与参数量呈正相关对硬件的内存容量和带宽提出高要求算力即计算能力具体指硬件对数据收集传输计算和存储的能力算力的大小表明了对数字化信息处理能力的强弱常用计量单位是FLOPSFloating-pointoperationspersecond表示每秒浮点的运算次数硬件方面运算量取决于GPU运算执行时间的长短而参数量取决于占用显存的量运算量FLOPS的数值通常与参数量parametercount成比例不同模型架构的换算关系不同模型越复杂参数量越大所需计算量越大GPGPU拥有硬件技术的核心壁垒大显存带宽进行超高能效比的并行运算可同时用于GPT模型的训练和推理过程GPGPU通用图像处理器是一种由GPU去除图形处理和输出仅保留科学计算AI训练和推理功能的GPU图形处理器GPU芯片最初用于计算机系统图像显示的运算但因其相比于擅长横向计算的CPU更擅长于并行计算在涉及到大量的矩阵或向量计算的AI计算中很有优势GPGPU应运而生目前GPGPU的制造工艺在英伟达等企业的领导下已趋向成熟成本在AI芯片中也较低成为市场主流选择ChatGPT引起的AI浪潮有望提升其应用规模FPGA具有可编程的灵活性ASIC性能佳具有定制化特点但成本方面与GPU相比稍显劣势在GPT等AI模型的运用占比较GPU低FPGA指现场可编程逻辑门阵列具有静态可重复编程和动态在系统重构的特性但其开发难度大只适合定点运算同时价格也比较昂贵性能方面也不及GPU与ASIC只在精度较低的推理过程有所应用ASIC指专用集成电路是一种应不同用户需求和不同系统需要而设计制造的集成电路ASIC芯片的性能较GPU佳能耗也较低但因其定制性价格昂贵在人工智能平台和推理过程中有部分应用本报告版权属于安信证券股份有限公司各项声明请参见报告尾页8行业分析半导体图8近年主流生成型AI对算力的需求图9GPU与CPU并行运算能力对比资料来源NextBigFuture安信证券研究中心资料来源维基百科安信证券研究中心图10近年英伟达GPU的FLOPS与带宽速率增长资料来源Semianalysis安信证券研究中心表3各AI芯片性能对比类别GPUFPGAASIC定制化设计性能高可编程性优点性能稳定通用性好灵活功耗控制优秀开发难度大灵活性不足缺点功耗高价格昂贵价格昂贵寒武纪英伟达AlteraIntel收购代表公司地平线AMDXilinxAMD收购谷歌TPU资料来源CSDN安信证券研究中心14类ChatGPT成本高昂产品涌现国产大模型方兴未艾大模型运行成本高昂准入壁垒较高大模型对于训练时间和参数量都有高要求以OpenAICEOAltman在推特上回复马斯克的留言可知ChatGPT平均一次聊天成本为几美分根据SimilarWeb数据2023年月27日至2月3日ChatGPT日活跃用户达2500万人中性假设下以平均单人单日对话7次每次3美分成本进行测算对应一年支出对话成本约为192亿美元根据英伟达官网A100作为DGXA100系统的一部分进行销售该系统搭载8本报告版权属于安信证券股份有限公司各项声明请参见报告尾页9行业分析半导体个A100GPU一个由5台DGXA100系统组成的机架可替代一个包括AI训练和推理基础设施的数据中心且功耗仅为其120成本为其110系统售价199万美元因此在中性假设条件下考虑到服务器约占数据中心成本的70中商产业研究院则ChatGPT运营一年将需要6741个DGXA100系统用于支撑访问量因此我们推断在高昂成本及大数据量需求的限制下仅有限数量的科技巨头具备参与AI竞赛的实力图11Musk和Altman关于ChatGPT对话成本聊天截图图122018-2022年科技厂商资本支出亿美元GoogleMicrosoftMetaAmazonApple百度阿里巴巴腾讯京东700600500400300200100020182019202020212022资料来源Twitter安信证券研究中心资料来源Wind安信证券研究中心表4ChatGPT对话成本测算对话成本保守中性乐观日活跃用户万250025002500对话次数次5710每次对话成本美元002003005每年总成本亿美元91192456服务器成本占比707070服务器总成本亿美元64134319DGXA100系统价格美元199000199000199000DGXA100系统需求量个3210674116049资料来源SimilarWeb英伟达官网Twitter安信证券研究中心ChatGPT带动大模型竞品发布海内外科技巨头先后加码AI布局1谷歌向AI公司Anthropic投资近4亿美元后者正在测试生成式AI工具Claude且谷歌也推出对标ChatGPT的聊天机器人Bard2微软以100亿美元投资ChatGPT的开发商OpenAI并获得其49股权2023年2月微软发布基于ChatGPT的newBing3亚马逊云服务AWS宣布与AI公司HuggingFace开展合作HuggingFace将在AWS上开发针对ChatGPT的开源竞品构建开源语言模型的下个版本Bloom4阿里达摩院正研发类ChatGPT的对话机器人目前已处于内测阶段5百度开发类ChatGPT项目文心一言ERINEBot6京东推出产业版ChatJD本报告版权属于安信证券股份有限公司各项声明请参见报告尾页10行业分析半导体表5各科技公司关于类ChatGPT的技术布局概览统计截止日期20230319公司AI模型参数规模领域应用场景BERT4810亿NLP语言理解与生成LaMDA1370亿NLP对话系统GooglePaLM5620亿多模态语言理解与图像生成Imagen110亿多模态语言理解与图像生成Parti200亿多模态语言理解与图像生成FIorence64亿CV视觉识别MicrosoftTuring-NLG170亿NLP语言理解生成0PT-175B1750亿NLP语言模型MetaM2M-100154亿NLP100种语言互译Gato12亿多模态通才智能体DeepMindGopher2800亿NLP语言理解与生成AIphaCode414亿NLP代码生成CLIPDALL-E120亿NLP图像生成跨模态检索OpenAICodex120亿多模态代码生成ChatGPT-NLP语言理解与生成推理等NLP大模型千亿NLP语言理解生成跨模态大模型240亿多模态语言理解与图像生成百度CV大模型170亿多模态语言理解与图像生成生物计算大模型-CV化合物表征学习分子结构预测阿里巴巴M6十万亿多模态语言理解与图像生成腾讯混元大模型万亿NLP语言理解与生成京东K-PLUG10亿NLP语言理解与生成推理代码生成华为盘古大模型2000亿NLPCV多模态内容生成与理解分类分割检测跨模态检索复旦大学MOSS175亿NLP语言理解与生成360--NLP智能搜索字节跳动DA-NLP语言理解资料来源IT资讯虎嗅网华为云官网腾讯云官网百度云官网量子位超大规模多模态预训练模型M6的关键技术及产业应用公开信息整理安信证券研究中心基于昆仑芯飞桨文心大模型AI底座百度推出文心一言拉开国产生成式AI序幕2023年3月16日百度正式推出国内首款生成式AI产品文心一言可支持文学创作文案创作数理推算多模态生成等功能目前已有多家厂商宣布接入文心一言基于全栈自研的AI基础设施进行学习和训练昆仑芯2代AI芯片文心一言的芯片层核心能力采用自研XPU-R架构通用性和性能显著提升256TOPSINT8和128TFLOPSFP16的算力水平较一代提升2-3倍保障文心一言算力需求采用7nm先进工艺GDDR6高速显存支持虚拟化芯片间互联和视频编解码等功能飞桨深度学习平台文心一言的框架层核心能力系业内首个动静统一的框架首个通用异构参数服务器架构支持端边云多硬件和多操作系统为文心大模型提供有效快捷完整的训练框架本报告版权属于安信证券股份有限公司各项声明请参见报告尾页11行业分析半导体文心知识增强大模型文心一言的模型层核心能力该产品主要采用ERNIE系列文心NLP模型拥有千亿参数级别的ERNIE30Zeus为该系列最新模型进一步提升了模型对于不同下游任务的建模能力大大拓宽了文心一言的应用场景我们认为随着国产AI大模型应用的不断拓展算力基础设施加速升级伴随产业链自主研发需求及地缘政治不确定性关于进口高端AI芯片及服务器中美博弈升级国产高算力GPU芯片服务器及数据中心等厂商有望加速迭代长期充分受益图13百度AI大底座示意图资料来源百度智能云官网安信证券研究中心15以GPT-3为例测算大算力需求驱动AI硬件市场空间提升GPT-3GenerativePre-trainedTransformer是GPT-35的上一代语言模型目前一般所说的GPT-3即为拥有1750亿参数的最大GPT-3模型OpenAI在公开发表的论文LanguageModelsareFew-ShotLearners中对GPT-3模型进行了详细分析对于以ChatGPT为例的大模型算力需求根据测算我们预计用于高端GPGPU显卡的训练及推理部分市场空间合计约14532亿元其中训练市场规模为2784亿元推理市场规模为11748亿元图14GPT-3模型大小架构及参数图15不同参数量模型的上下文学习曲线资料来源LanguageModelsareFew-ShotLearners安信证券研究资料来源LanguageModelsareFew-ShotLearners安信证券研究中心中心本报告版权属于安信证券股份有限公司各项声明请参见报告尾页12行业分析半导体图16用于训练语言模型所需要的算力情况资料来源LanguageModelsareFew-ShotLearners安信证券研究中心具体分为训练及推理两部分进行分别测算训练部分以NvidiaA100GPU为例其理论峰值算力为312TFLOPSNvidia联合发表的论文EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LM中通过使用流水线并行pipelineparallelism张量并行tensorparallelism和数据并行dataparallelism等并行技术将GPU的算力利用率提升到52我们参考OpenAI论文公开数据标准GPT-3模型的175B模型参数parameter完整训练需要314E23FLOPs单个模型训练时间越短所需GPU越多反之亦然我们假设GPT-3模型训练时长为一周以此作为参考则该训练过程所需A100GPU数量约为3200张根据中关村在线数据单张A10080G售价约87000元我们假设将有10家科技厂商采购A100卡参与AI大模型训练则A100GPU对应市场规模预计为2784亿元计算过程如下1单张A100GPU实际使用过程中的算力312TFLOPS521621012FLOPS2训练一周所需时间7days24hday60minh60smin604800s3A100GPU所需数量总算力需求单张GPU实际算力训练一周时间314102316210126048003200张4A100GPU市场规模A100数量单价厂商数320087000102784亿元推理互动部分推理端需求较训练端占比逐渐提升根据SimilarWeb数据每人每天平均1000词左右问题回答目前ChatGPT日活跃用户为2500万人即合计每日产生250亿单词相当于333亿tokens根据OpenAI官网token是一种非结构化文本单位英文语境下1个token相当于4个字母075个词中文语境下1个中文字被视为1个token根据马里兰大学副教授TomGoldstein推文表示30亿参数模型使用单张A100GPU使用半精度TensorRT和激活缓存生成1个token需要6ms扩大至1750亿参数模型则需要350ms1750306以单日时长计算推理过程需要135031张A100GPU对应市场规模11748亿元计算过程如下1用户每日产生总token数日活跃人数平均问题字数075本报告版权属于安信证券股份有限公司各项声明请参见报告尾页13行业分析半导体2500104100007533333亿个2模型生成总token数所需时间总token数单A100GPU输出单token所需时间33333108350ms11667108s3A100GPU所需数量模型所需总时间一天时间11667108246060135031张4A100GPU市场规模A100数量单价1350318700011748亿元表6ChatGPT对应A100GPU市场规模算力总需求量314E23FLOPsA100GPU算力312TFLOPS算力利用率52A100GPU实际算力162TFLOPS训练部分训练时长s7days24h3600sA100GPU所需数量3200A100GPU单价元87000参与厂商数量个10A100GPU市场空间亿元2784日活跃用户万2500每人问题单词数words1000单token对应单词数个07524h生成总token数亿个33333推理互动部分单GPU输出单token所需时间350ms单日token输出所需总时间s11667108A100GPU所需数量135031A100GPU市场空间亿元11748资料来源英伟达官网EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LMTwitterSimilarWeb中关村在线安信证券研究中心图17下游企业拥有英伟达A100GPU数量截止至2022资料来源tateofAI安信证券研究中心本报告版权属于安信证券股份有限公司各项声明请参见报告尾页14行业分析半导体16GPT-4模型算力需求扩增架构升级降本增效未来可期根据OpenAI官网显示目前GPT-4每4小时只能处理100条消息且并没有开放图片识别功能大模型升级带来的运算需求逐渐加码且可推测目前算力已处于供不应求状态多模态拓展图片识别算力需求升级十倍以上关于从图片到token的转换方式OpenAI未公布GPT-4的模型参数假设GPT-4处理图片视觉任务使用VisionTransformer模型ViT则输入图片尺寸必须为224224ViT-B16版本根据2021年ICLR论文模型原理大致为把一张图片分成nxn个Patch每一个Patch作为一个Token即把一张2242243的图片切分为1616大小的Patch每个Patch是三通道小图片得到16163768个token并作为向量输入相较之下根据前文GPT-3部分假设假设每个文字问题50-100词即67-133token我们可以粗略推论图像识别的所需算力是文字推理部分所需算力的十倍以上级别图18VisionTransformer模型对图片进行切割输入资料来源ICLR安信证券研究中心编译器性能升级带动大模型产品加速迭代随着2023年3月15日Pytorch20正式版的发布编译器的性能有大幅提升Pytorch作为主流深度学习框架用于构建及训练深度学习模型Pytorch20正式版包含的新高性能TransformAPI能使GPT-3等使用的先进transformer模型的训练和部署更加容易快速根据PyTorch基金会数据在NvidiaA100GPU上使用PyTorch20对163个开源模型进行的基准测试其中包括图像分类目标检测图像生成以及各种NLP任务20版本的编译时间比10提高43我们认为编译器性能的提升带动AI大模型编译时间缩短新产品推出进展或将超预期同时我们认为目前模型的计算成本高参数量大长期看模型架构的升级将缩小训练成本并拓宽边缘设备等部署场景对算力的需求有望从单模型所需芯片价值量高的推演转变为应用场景快速拓展的量的增长1根据Nature2023年3月8日文章InAIisbiggeralwaysbetter有观点认为更大参数量的模型只是在回答训练数据相关范围的查询上表现更好并不具备获得回答新问题的更优能力过往几年AI大模型的训练使用更高的算力和参数量但一些小型性能好的模型涌现在训练中用了更高数据具体而言2023年2月Meta发布LLaMA小参数模型130亿参数但训练量多达14万亿个表现优于GPT-3而同年3月14日斯坦福发布基于LLaMA的AIpaca7B微调模型其52000个指令的OpenAIAPI总成本不到500美元微调过程在云计算平台使用8个A10080GBGPU用时3小时成本约100美元测试结果表明AIpaca7B性能和其指令资料来源的GPT-3模型相近长期来看大模型有望向规模更小更智能高效的方向演进2多模态方面举例说明根据清华大学2021年论文DynamicViTEffificientVisionTransformerswithDynamicTokenSparsifificationViT的最终预测仅基于信息最丰富本报告版权属于安信证券股份有限公司各项声明请参见报告尾页15行业分析半导体的token的一个子集该子集足以进行图像准确识别论文提出的动态token稀疏化框架可以理解为轻量化预测模块估计每个token的重要性从而动态删除冗余token其框架的结论减少了31-37FLOPS提升40以上吞吐量同时精度下降小于5图19AI大模型的参数规模持续加速攀升资料来源Nature安信证券研究中心图20小参数模型逐渐有出色表现资料来源Nature安信证券研究中心17英伟达引领硬件端产品升级国产GPU静待花开大GPU优势在于通过并行计算实现大量重复性计算GPGPUGeneralPurposeGPU即通用GPU能够帮助CPU进行非图形相关程序的运算在类似的价格和功率范围内GPU能提供比CPU高得多的指令吞吐量和内存带宽GPGPU架构设计时去掉了GPU为了图形处理而设计的加速硬件单元保留了GPU的SIMTSingleInstructionMultipleThreads架构和通用计算单元通过GPU多条流水线的并行计算来实现大量计算所以基于GPU的图形任务无法直接运行在GPGPU上但对于科学计算AI训练推理任务主要是矩阵运算等通用计算类型的任务仍然保留了GPU的优势即高效的搬运和运算有海量数据的重复性任务目前主要用于例如物理计算加密解密科学计算以及比特币等加密货币的生成本报告版权属于安信证券股份有限公司各项声明请参见报告尾页16行业分析半导体图21CPU和GPU架构对比资料来源腾讯技术工程安信证券研究中心表7GPU发展历程时间类型相关标准代表产品基本特征意义80年代图形显示CGAVGAIBM5150光栅生成器最早图形显示控制器80年代末2D加速GDlDirectFBS386C9112D图元加速开启2D图形硬件加速时第一颗用于PC的3D图形加90年代初部分3D加速3DLabsGlint300SX硬件TL速芯片OpenGL114190年代后期固定管线DirectX60-11NVIDIAGeForce256shader功能固定首次提出GPU概念20042010统一渲染NVIDIAG80多功能shaderCUDA与G80一同发布完成与图形处理无关NVIDIA正式将用于计算的2011至今通用计算CUDAOpenCL1220NVIDIATESLA的科学计算GPU产品线独立出采资料来源半导体行业观察安信证券研究中心英伟达CUDA架构引领GPGPU开发市场算力底座筑造核心护城河随着超算等高并发性计算的需求不断提升英伟达以推动GPU从专用计算芯片走向通用计算处理器为目标推出了GPGPU并于2006年前瞻性发布并行编程模型CUDA以及对应工业标准的OpenCLCUDA是英伟达的一种通用并行计算平台和编程模型它通过利用图形处理器GPU的处理能力可大幅提升计算性能CUDA使英伟达的GPU能够执行使用CCFortranOpenCLDirectCompute和其他语言编写的程序在CUDA问世之前对GPU编程必须要编写大量的底层语言代码CUDA可以让普通程序员可以利用C语言C等为CUDA架构编写程序在GPU平台上进行大规模并行计算在全球GPGPU开发市场占比已超过80GPGPU与CUDA组成的软硬件底座构成了英伟达引领AI计算及数据中心领域的根基通过与云计算平台的集成CUDA可在未购买GPU硬件的基础上提供强大计算能力例如假设客户需要训练一个深度学习模型需要大量的计算资源和时间通过在AWS上租用一个带有NVIDIAGPU的实例并在该实例上安装CUDA客户可以使用CUDAAPI和库来利用GPU的计算能力运行计算密集型工作负载从而可以无需购买GPU硬件并快速完成训练任务除了AWS其他云计算提供商如MicrosoftAzureGoogleCloudPlatform等也提供了与CUDA集成的服务这些服务可以为客户提供强大的GPU计算能力从而加速计算密集型工作负载的处理速度GPU架构升级过程计算能力不断强化Hopper架构适用于高性能计算HPC和AI工作负载英伟达在架构设计上不断加强GPU的计算能力和能源效率在英伟达GPU架构的演变中从最先Tesla架构分别经过FermiKeplerMaxwellPascalVoltaTuringAmpere至发展为今天的Hopper架构以Pascal架构为分界点自2016年后英伟达逐步开始向深度学习方向演进根据英伟达官网Pascal架构与上一代Maxwell相比神经网络训练速本报告版权属于安信证券股份有限公司各项声明请参见报告尾页17行业分析半导体度提高12倍多并将深度学习推理吞吐量提升了7倍Volta架构配备640个Tensor内核增强性能可提供每秒超过100万亿次TFLOPS的深度学习性能是上一代Pascal架构的5倍以上Turing架构配备全新TensorCore每秒可提供高达500万亿次的张量运算Ampere架构采用全新精度标准TensorFloat32TF32无需更改任何程序代码即可将AI训练速度提升至20倍最新Hopper架构是第一个真正异构加速平台采用台积电4nm工艺拥有超800亿晶体管主要由HopperGPUGraceCPUNVLINKC2C互联和NVSwitch交换芯片组成根据英伟达官网介绍其性能相较于上一代Megatron530B拥有30倍AI推理速度的提升图22GPU架构演变历程资料来源汽车人参考安信证券研究中心图23GraceHopper超级芯片示意图资料来源英伟达官网安信证券研究中心AMD数据中心领域布局全面形成CPUGPUFPGADPU产品矩阵与英伟达相比AMD在服务器端CPU业务表现较好根据Passmark数据显示2021年Q4AMDEPYC霄龙系列在英特尔垄断下有所增长占全球服务器CPU市场的6依据CPU业务的优势AMD在研发GPGPU产品时推出InfinityFabric技术将EPYC霄龙系列CPU与InstinctMI系列GPU直接相连实现一致的高速缓存形成协同效应此外AMD分别于2022年2月4月收购Xilinx和Pensando补齐FPGA与DPU短板全面进军数据中心领域软件方面AMD推出ROCm平台打造CDNA架构但无法替代英伟达CUDA生态AMD最新的面向GPGPU架构为CDNA系列架构CDNA架构使用ROCm自主生态进行编写AMD的ROCm生态采取HIP编程模型但HIP与CUDA的编程语法极为相似开发者可以模仿CUDA的编程方式本报告版权属于安信证券股份有限公司各项声明请参见报告尾页18行业分析半导体为AMD的GPU产品编程从而在源代码层面上兼容CUDA所以从本质上来看ROCm生态只是借用了CUDA的技术无法真正替代CUDA产生壁垒表8AMDGPGPU相关产品一览系列产品主要参数7nmVega20架构3840个流处理器32GB显存1024GBs带宽单MI50精度133T7nmVega20架构4096个流处理器32GB显存1024GBs带宽单MI60精度1475T7nmCDNA架构7680个流处理器32GB显存12288GBs带宽单MI100精度231TInstinctMI系列GPU6nmCDNA2架构6656个流处理器64GB显存16384GBs带宽单MI210精度226T6nmCDNA2架构13312个流处理器128GB显存32768GBs带宽MI250单精度453T6nmCDNA2架构14080个流处理器128GB显存32768GBs带宽MI250X单精度479T资料来源AMD官网安信证券研究中心图24ROCm50生态技术资料来源AMD官网安信证券研究中心前瞻性布局AI和云计算领域英伟达独占鳌头回顾英伟达发展历程在传统游戏业务外公司始终关注数据中心业务布局英伟达早在2006年便推出CUDA架构提高GPU解决复杂计算的能力2007年推出专为高性能计算设计的Tesla系列GPU产品此后开始快速迭代性能不断提升至今已发展出8个架构2016年推出世上首款台式超级计算机DGX-1主要应用于AI领域2019年收购Mellanox降低云数据中心的运营成本与AMD英特尔相比英伟达在AI计算领域独占鳌头在2020年全球TOP500超级计算机榜单中有333台超级计算机采用了英伟达的技术占总数的666英伟达的统治地位可见一斑本报告版权属于安信证券股份有限公司各项声明请参见报告尾页19行业分析半导体图25英伟达发展历程资料来源英伟达官网安信证券研究中心图262017-2020年英伟达技术在TOP500超算的占比资料来源英伟达官网安信证券研究中心软硬件共同布局形成生态系统造就英伟达核心技术壁垒硬件端基于GPUDPU和CPU构建英伟达加速计算平台生态1主要产品TeslaGPU系列迭代速度快从2008年至2022年先后推出8种GPU架构平均两年多推出新架构半年推出新产品超快的迭代速度使英伟达的GPU性能走在AI芯片行业前沿引领人工智能计算领域发生变革2DPU方面英伟达于2019年战略性收购以色列超算以太网公司Mellanox利用其InfiniBand无限带宽技术设计出Bluefield系列DPU芯片弥补其生态在数据交互方面的不足InfiniBand与以太网相同是一种计算机网络通信标准但它具有极高的吞吐量和极低的延迟通常用于超级计算机的互联英伟达的BluefieldDPU芯片可用于分担CPU的网络连接算力需求从而提高云数据中心的效率降低运营成本3CPU方面自主设计GraceCPU并推出GraceHopper超级芯片解决内存带宽瓶颈问题采用x86CPU的传统数据中心会受到PCIe总线规格的限制CPU到GPU的带宽较小计算效率受到影响而GraceHopper超级芯片提供自研GraceCPUGPU相结合的一致内存模型从而可以使用英伟达NVLink-C2C技术快速传输其带宽是第5代PCIe带宽的7倍极大提高了数据中心的运行性能本报告版权属于安信证券股份有限公司各项声明请参见报告尾页20
 
Copyright © 2005 - 2021 Nxny.com All Rights Reserved 备案号:蜀ICP备15031742号-1