人工智能风继续吹,AI芯片乘风而起,但B端应用落地才是制胜关键
本轮AI浪潮由ChatGPT掀起,并引发各中外科技企业展开对大语言模型及生成式AI的追逐和对算力的军备竞赛。GPT背后的核心算法是谷歌在2017年提出的Transformer,相对于深度学习,其创新在于采用了接近无监督的自我监督预训练,因此需要大量训练数据,加上少量有监督的微调和强化学习相结合。随着更复杂和多元模型不断涌现,高算力的AI芯片将充分受惠。然而,若以上技术只停留在C端应用意义却并不大,因此我们更认为,本轮AI热潮能否持续将取决于B端的大规模应用落地。AI浪潮方兴未艾,我们首次覆盖给予AI芯片行业增持评级,重点推荐龙头英伟达及突围者AMD。 首选软硬件一体双护城河的英伟达,同时看好突围二战有望凯旋的AMD 作为全球AI芯片的龙头厂商,英伟达在高算力硬件和高粘性CUDA生态的双护城河下优势明显,将充分受益于AI需求高涨。我们认为,短期内英伟达将主要由数据中心业务带动,长期成长则取决于AI商业应用落地及芯片竞争格局的演变。随着CoWoS产能瓶颈的改善,我们认为英伟达GPU放量节奏将迎来加速。AMD曾凭台积电的领先制程颠覆了一家独大的英特尔,如今在AI领域面对英伟达的突围战似曾相识。AI已是AMD战略首位,MI300也蓄势待发,我们认为AI新赛道乃AMD重估之钥。对比英伟达完善的软件生态CUDA,AMD的ROCm会否成为其阿克琉斯之踵? AI芯片竞争趋白热化:训练端“一超多强”,推理端百花齐放 英伟达GPU一直为AI训练端首选。我们认为只有少数芯片能与其匹敌,如谷歌TPU和AMDMI300系列。当算法开始稳定和成熟,ASIC定制芯片凭着专用性和低功耗,能承接部分算力。因此,头部云计算及互联网大厂出于削减TCO、提升研发可控性及集成生态等考量,均陆续发力自研芯片,我们认为或将成为英伟达最大的竞争对手。初创企业如Cerebras、Graphcore等,以晶圆级芯片拼内存和传输速度,也有望异军突起。AI推理市场规模大,但对算力要求比训练较低,因此百花齐放,在大模型和多模态趋势下GPU或能夺份额。但目前推理端还是以CPU主导,多方涌入下竞争愈发激烈。 台积电CoWoS封装产能乃AI芯片厂商“必争之地” 英伟达H100采用台积电CoWoS先进封装技术,而AMDMI300采用台积电CoWoS和SolC技术,二者都需依赖台积电先进封装产能。目前,AI芯片需求旺盛,台积电CoWoS封装乃限制出货量的瓶颈之一。但据Digitimes在7月14/21日报道,公司正积极扩产,到本年底至少达12万片,24年将达24万片,而英伟达将取得约15万片;当前三大客户为英伟达、博通和赛灵思,而MI300在四季度推出后,AMD或将一举跻身前五大客户。英伟达的订单或也将外溢到联电和Amkor。另外,CoWoS的瓶颈也许是来自日本的Tazmo、Shibaura等的封装设备厂商,交货周期往往需要6-8个月。 配置建议:英伟达“买入”,TP 650美元;AMD“买入”,TP 150美元 英伟达作为全球数据中心GPU龙头,该业务已占总营收逾75%,为主要盈利和营收贡献,将充分受惠于台积电先进封装产能明年翻倍,以及美国加息步入尾声。游戏显卡逐渐从挖矿和疫情间PC高基数影响中恢复,叠加高期待新游戏带动。首次覆盖英伟达(NVDAUS)给予“买入”,FY24-25年动态20倍PS,目标价650美元。AMD数据中心业务CPU制程仍领先英特尔,MI300系列有力冲击英伟达,看好CPU和GPU均能抢夺份额;游戏业务将受益主机“半代升级”;客户端业务PC市场下滑收窄渐入佳境,首次覆盖AMD(AMDUS)给予“买入”,目标价150美元,对应24 PS 8.5x。 风险提示:AI技术落地和推进不及预期、行业竞争激烈、中美竞争加剧。 研究报告全文:证券研究报告科技AI芯片风继续吹群贤毕至花落谁家华泰研究海外科技电子增持首评2023年9月22日美国首次覆盖半导体增持首评研究员何翩翩人工智能风继续吹AI芯片乘风而起但B端应用落地才是制胜关键SACNoS0570523020002purdyhohtsccomSFCNoASI35385236586000本轮AI浪潮由ChatGPT掀起并引发各中外科技企业展开对大语言模型及生成式AI的追逐和对算力的军备竞赛GPT背后的核心算法是谷歌在2017华泰证券研究所分析师名录年提出的Transformer相对于深度学习其创新在于采用了接近无监督的自我监督预训练因此需要大量训练数据加上少量有监督的微调和强化学习相结合随着更复杂和多元模型不断涌现高算力的AI芯片将充分受惠然而若以上技术只停留在C端应用意义却并不大因此我们更认为本轮AI热潮能否持续将取决于B端的大规模应用落地AI浪潮方兴未艾我们首次覆盖给予AI芯片行业增持评级重点推荐龙头英伟达及突围者AMD首选软硬件一体双护城河的英伟达同时看好突围二战有望凯旋的AMD作为全球芯片的龙头厂商英伟达在高算力硬件和高粘性生态的AICUDA重点推荐双护城河下优势明显将充分受益于AI需求高涨我们认为短期内英伟目标价达将主要由数据中心业务带动长期成长则取决于AI商业应用落地及芯片股票名称股票代码当地币种投资评级竞争格局的演变随着CoWoS产能瓶颈的改善我们认为英伟达GPU放英伟达NVDAUS65000买入量节奏将迎来加速AMD曾凭台积电的领先制程颠覆了一家独大的英特尔超威半导体AMDUS15000买入如今在AI领域面对英伟达的突围战似曾相识AI已是AMD战略首位MI300资料来源华泰研究预测也蓄势待发我们认为AI新赛道乃AMD重估之钥对比英伟达完善的软件生态CUDAAMD的ROCm会否成为其阿克琉斯之踵AI芯片竞争趋白热化训练端一超多强推理端百花齐放英伟达GPU一直为AI训练端首选我们认为只有少数芯片能与其匹敌如谷歌TPU和AMDMI300系列当算法开始稳定和成熟ASIC定制芯片凭着专用性和低功耗能承接部分算力因此头部云计算及互联网大厂出于削减TCO提升研发可控性及集成生态等考量均陆续发力自研芯片我们认为或将成为英伟达最大的竞争对手初创企业如CerebrasGraphcore等以晶圆级芯片拼内存和传输速度也有望异军突起AI推理市场规模大但对算力要求比训练较低因此百花齐放在大模型和多模态趋势下GPU或能夺份额但目前推理端还是以CPU主导多方涌入下竞争愈发激烈台积电CoWoS封装产能乃AI芯片厂商必争之地英伟达H100采用台积电CoWoS先进封装技术而AMDMI300采用台积电CoWoS和SolC技术二者都需依赖台积电先进封装产能目前AI芯片需求旺盛台积电CoWoS封装乃限制出货量的瓶颈之一但据Digitimes在7月1421日报道公司正积极扩产到本年底至少达12万片24年将达24万片而英伟达将取得约15万片当前三大客户为英伟达博通和赛灵思而MI300在四季度推出后AMD或将一举跻身前五大客户英伟达的订单或也将外溢到联电和Amkor另外CoWoS的瓶颈也许是来自日本的TazmoShibaura等的封装设备厂商交货周期往往需要6-8个月配置建议英伟达买入TP650美元AMD买入TP150美元英伟达作为全球数据中心GPU龙头该业务已占总营收逾75为主要盈利和营收贡献将充分受惠于台积电先进封装产能明年翻倍以及美国加息步入尾声游戏显卡逐渐从挖矿和疫情间PC高基数影响中恢复叠加高期待新游戏带动首次覆盖英伟达NVDAUS给予买入FY24-25年动态20倍PS目标价650美元AMD数据中心业务CPU制程仍领先英特尔MI300系列有力冲击英伟达看好CPU和GPU均能抢夺份额游戏业务将受益主机半代升级客户端业务PC市场下滑收窄渐入佳境首次覆盖AMDAMDUS给予买入目标价150美元对应24PS85x风险提示AI技术落地和推进不及预期行业竞争激烈中美竞争加剧免责声明和披露以及分析师声明是报告的一部分请务必一起阅读1科技正文目录人工智能风继续吹AI芯片乘风而起4人工智能风再起产业发展空间广阔4看好整体AI芯片需求将伴随着大模型和生成式AI的B端应用落地而增加4人脑神经网络的运作模式始终是人工智能追求的终极形态7我们处于AI的iPhone时刻吗8生成式AI将带动云大厂加码硬件基础设施9一超多强的AI芯片市场竞争格局11传统芯片巨头英伟达在多方入局下能否继续笑傲江湖12英伟达在推理端能否复制其在训练端的成功12英伟达的两大护城河高算力芯片和高粘性CUDA软件生态12先进的网络技术NVLinkNVSwitch为吞吐量和可扩展性带来突破13CUDA软件生态的先发优势构筑英伟达第二护城河16生成式AI下较复杂的推理需求或为英伟达GPU赋新机17英伟达SWOT分析19传统芯片巨头备受期待的突围者AMD20以AI为战略首位AMD突围二战能否凯旋20MI300A和GH200CPUGPUAI芯片架构仿生人脑结构20ROCm生态圈会否成为AMD的阿克琉斯之踵分而治之或可解困24传统芯片巨头多元布局的追赶者英特尔27云计算和互联网大厂或许是传统芯片厂商的最大竞争对手32谷歌TPU少数能与英伟达高算力GPU匹敌的AI芯片32亚马逊AWSTrainiumInferentia训练推理双管齐下38微软闭门造芯Athena40Meta首个自研推理端芯片MTIA将于2025年问世41异军突起者晶圆级芯片持续突破性能极限内存和传输成破局关键43Cerebras向晶圆级大尺寸芯片迈出第一步但良率和有效运行占比暂成疑43GraphcoreBowIPU实现精细数据多指令并行48特斯拉Dojo超算为自动驾驶而生为公司四大全栈自研科技支柱之一52晶圆级芯片跟传统芯片的各项对比55AI芯片产业链聚焦兵家必争之地CoWoS封装58台积电大扩CoWoS产能供给紧张有望得解58硅晶圆供应商台积电的6家硅晶圆供应商占全球总产能90以上59衬底基板Substrate揖斐电景硕欣兴电子等60HBM内存SK海力士三星美光三足鼎立61服务器相关供应商惠与戴尔联想美超微广达纬创等61AI不只是大模型自动驾驶芯片群雄逐鹿谁能突围63MobileyeADAS技术奠基者黑箱子模式优势不再转型将面临挑战65免责声明和披露以及分析师声明是报告的一部分请务必一起阅读2科技地平线基于BPU架构布局自动驾驶生态追击67黑芝麻第一家递交港股18C上市文件的车载芯片股华山对标英伟达Orin武当实现跨域融合70高通可扩展体系开展差异化竞争对标英伟达Thor打造跨域融合71华为边缘端AI芯片赋能MDC计算平台72特斯拉车企破局者FSD和DOJO软硬件全栈自研73重点推荐英伟达为AI芯片行业龙头AMD突围有望迎来重估75英伟达AI龙头软硬一体双护城河NVDAUS买入目标价65000美元75超威半导体AI新赛道为重估之钥AMDUS买入目标价15000美元76风险提示78首次推荐公司79英伟达NVDAUS买入目标价65000美元79超威半导体AMDUS买入目标价15000美元125免责声明和披露以及分析师声明是报告的一部分请务必一起阅读3科技人工智能风继续吹AI芯片乘风而起人工智能风再起产业发展空间广阔本轮人工智能浪潮由ChatGPT掀起并以语言大模型LargeLanguageModelLLM和生成式AIGenerativeAI应用作为切入点自谷歌在2017年发表至今Transformer除了带来像ChatGPT这样的C端爆款产品外其早已在自然语言处理计算机视觉自动驾驶等领域里广泛应用各中外科技企业持续加大对相关的投入包括谷歌GOOGLUSMetaMETAUS微软MSFTUS字节跳动未上市百度BIDUUS等海内外一众科技巨头和初创企业均希望分一杯羹其他非技术公司也不断在人才技术和资源方面进行布局根据BloombergIntelligence的预测数据到2032年生成式AI在总体信息技术硬件软件服务广告和游戏等支出中的占比或将从目前不到1的水平扩大至12ChatGPTChatGenerativePre-trainedTransformer自22年11月发布后就引起了全球关注5天内注册用户超100万仅两个月后月活跃用户已达1亿ChatGPT将生成式AI在文本图像视频等领域的多模态应用正式带入C端大众用户的视野然而我们认为语言大模型若只是停留在C端应用提供给一些网民娱乐其实意义并不大我们更加认为生成式AI的发展必须要配合B端应用的落地才能成为真正可以改变世界的高端科技目前微软已发布Microsoft365Copilot等生成式AI产品作为率先发布的重磅商业化应用Copilot依托微软庞大的用户群体产品生态及使用场景有望开启AI的B端应用发展新里程并带动微软打开新的AI商业化空间BloombergIntelligence预测全球生成式AI下游软件市场规模将在2032年扩大至2799亿美元2022-2023年十年复合增速达到69图表1生成式AI占科技投入支出不断增加单位十亿美元图表2全球生成式AI的市场机遇单位百万美元1400生成式AI收入生成式AI在总科技支出占比30生成式AI项目20222032ECAGR13041200107925专业智能助手4478903570100089720代码编写DevOps等2135043073800728工作负载基础设施软件439716456615600548药物发现软件1428343113399111210400304102179网络安全支出91394610972001376540675教育支出37026500531423340020212223E24E25E26E27E28E29E30E31E32E软件149327989969资料来源BloombergIntelligenceIDC华泰研究资料来源BloombergIntelligenceIDC华泰研究看好整体AI芯片需求将伴随着大模型和生成式AI的B端应用落地而增加2022年开始大模型的数量及参数量均呈指数级增长总体来说我们认为模型的数量和所需的训练数据才是对于算力要求的关键因此我们看好整体AI芯片的需求将伴随着大模型和生成式AI所支持的B端商业应用落地而增加自2018年OpenAI未上市发布了包含117亿参数的第一代GPTGenerativePre-trainedTransformer模型以来每一代GPT模型的迭代都伴随着参数量的飞跃一众中外的科技巨头们也不甘示弱包括GoogleMeta百度等纷纷发布了PaLMLaMDALlama文心一言等为代表的大语言模型2020年1月OpenAI团队论文ScalingLawsforNeuralLanguageModels提出缩放定律ScalingLaws即大模型表现伴随模型参数量数据集大小和计算量增长而增长他们于2023年5月也再次强调目前缩放定律仍未出现瓶颈但我们也看到谷歌在今年5月的IO大会里发布的新一代PaLM大模型PaLM2就是通过算法上的改进达到训练数据增加为上一代PaLM7800亿tokens的约5倍达到36万亿个tokens但参数量为3400亿小于PaLM的5400亿免责声明和披露以及分析师声明是报告的一部分请务必一起阅读4科技图表3AI训练对算力的需求成倍上涨尤其是Transformer相关模型注不同颜色代表不同模型种类资料来源英伟达官网华泰研究大模型通常指的是有大量参数的自我监督和预训练模型其背后的核心技术是Transformer架构目前比较广泛应用于文本生成等自然语言处理领域Transformer在2017年由谷歌大脑团队在论文AttentionIsAllYouNeed中提出该架构主要用于处理序列数据主要采用自注意力机制self-attentionmechanism为序列中的每个元素赋予不同的权重从而捕获序列内部的长距离依赖关系在Transformer之前深度学习模型更多是采用监督学习的方法进行训练因此需要大量标注的数据相对来说GPT模型的创新之处在于采用了接近无监督学习具体叫自我监督学习self-supervisedlearning的预训练加上少量有监督的微调相结合图表4GPT各代模型迭代情况注GPT-4参数及训练基础设施数据来自semianalysis资料来源OpenAI官网福布斯官网InfoQ官网semianalysis官网微软官网华泰研究免责声明和披露以及分析师声明是报告的一部分请务必一起阅读5科技图表5大模型训练过程示意图资料来源CSDN官网华泰研究在文本生成上下文语义理解文章修订及摘要总结等需要泛化能力的大语言模型中Transformer架构相对以往的CNN和RNN网络结构取得了较大的进展Transformer架构突破了RNNRecurrentNeuralNetwork模型固定顺序属性所带来的计算限制其通过自注意力机制可以同时处理整个序列的所有元素从而实现了高效的并行化提高了计算速度同时相比CNNConvolutionalNeuralNetwork模型中伴随距离增大计算位置关联所需操作将不断增多Transformer通过自注意力机制可直接计算序列中任何两个元素之间的关联且通过权重显示序列元素间的关系从而为模型提供更为丰富的全局上下文信息有效提高对复杂结构及语义的理解故Transformer被认为与大部分白领工作相契合在当前人力成本较高及生产力急需提升的背景下或将开始下沉至办公会计法律编程和医疗等各领域进行结合我们可将Transformer模型比作人类的右脑在浅层关联性上表现优异适用于需要创造性的生成式领域但其仍然需要加强左脑的逻辑判断能力图表6Transformer架构与CNN和RNN对比情况资料来源DevlinJacobetalBertPre-trainingofdeepbidirectionaltransformersforlanguageunderstandingarXivpreprintarXiv1810048052018OpenAlKDnuggets斯担福大学官网华泰研究免责声明和披露以及分析师声明是报告的一部分请务必一起阅读6科技图表72018年开始Transformer在谷歌学术的引用数量次图表8Transformer相关的论文领域占比3000024600250002048921400200001500011700100005110500012200201820192020202120222023注2023年的数据截止至7月资料来源StateofAIreport华泰研究资料来源谷歌学术华泰研究人脑神经网络的运作模式始终是人工智能追求的终极形态类比人类大脑左脑主要负责对信息逻辑的处理如串行运算数字和算术分析思维理解分类整理等而右脑负责并行计算多模态创造性思维和想象等因此左右脑从功能上分别代表CPU和GPU对比人类可实现左右脑协同工作整体调动神经网络将为AI的最终愿景早在2011年AMD产品构想中就以CPU和GPU分别类比人类左右脑并基于此提出了CPUGPU的异构产品策略详见AMD部分目前AMD的MI300A和英伟达的GraceHopperGH200均为CPUGPU的异构集成GPU的算力高并针对并行计算但须由CPU进行控制调用发布指令在AI训练端CPU可负责控制及发出指令指示GPU处理数据和完成复杂的浮点运算如矩阵运算在面对不同模态数据的推理时我们认为CPU与GPU的分工也各有不同因此同时部署CPU和GPU能提供更大的运算支撑例如在处理语音语言和文本数据的推理时AI模型需逐个识别目标文字计算有序因此或更适合使用擅长串行运算的CPU进行运算支持但在处理图像视频等数据的推理时对比人类的操作每一个像素是同时进入眼睛需要大规模并行运算或更适宜由GPU负责例如英伟达L4GPU可将AI视频性能提高120倍据英伟达测试L4与基于CPU的传统基础设施相比能源效率提高99图表9人类大脑不同部分功能及对应芯片种类资料来源HariRFrombrainenvironmentconnectionstotemporaldynamicsandsocialinteractionprinciplesofhumanbrainfunctionJNeuron20179451033-1039BrainFacts华泰研究免责声明和披露以及分析师声明是报告的一部分请务必一起阅读7科技AI推理市场规模大但对算力要求比训练较低因此我们认为各类芯片的使用将百花齐放在大模型和多模态趋势下GPU或能夺份额但目前推理端还是以CPU主导多方涌入下竞争愈发激烈值得一提的是数据中心里拥有各类不同的芯片而不同的AI工作负载应该在哪一片芯片上运行将取决于以上提到的适配度以及性价比因此各类芯片也有其不同的优势图表10人脑处理信息与人工智能训练和推理的流程对比资料来源CSDN谷歌官网VaswaniAShazeerNParmarNetalAttentionisallyouneedJAdvancesinneuralinformationprocessingsystems201730华泰研究我们处于AI的iPhone时刻吗人工智能的概念可以追溯到上世纪五六十年代很多我们现在熟悉的算法如神经网络在20-30年前已经存在但由于缺乏算力和数据因此无法有效地运行随着GPU被应用到AI云计算的普及和海量数据的产生和存储AI技术才得以快速发展和应用对于现在是AI的iPhone时刻的观点我们更倾向于认为这是描述跟GPT相关的生成式AI开始应用于ToB端及解放生产力的重要突破至于在ToC端AI技术其实早已有众多应用融入了我们的生活如智能手机中的语音助手Siri和人脸识别等功能免责声明和披露以及分析师声明是报告的一部分请务必一起阅读8科技图表11AI的iPhone时刻资料来源太平洋电脑网苹果官网英伟达官网苹果派OpenAI官网各公司公告华泰研究生成式AI将带动云大厂加码硬件基础设施我们认为硬件设备的规模和性能是AI大模型时代的必然要求鉴于目前生成式AI主要以大参数模型路径实行随着模型数量和所需要处理的数据量增长其训练与推理均需要大量的计算能力与存储资源故生成式AI应用的蓬勃发展将带动高算力AI芯片以及云计算的需求增长BloombergIntelligence及IDC数据显示到2024年AI训练和推理硬件市场规模将达930亿美元而到2032年将逾6000亿美元图表12AI训练和推理硬件市场占比图表13AI训练和推理硬件市场规模单位十亿美元训练推理500474100训练推理11119017263034304003608036373838702836030022450898917983200168401557070741411381433064636262661149610977832010064494210344616002022202320242025202620272028202920302031203220222023202420252026202720282029203020312032资料来源BloombergIntelligenceIDC华泰研究资料来源BloombergIntelligenceIDC华泰研究免责声明和披露以及分析师声明是报告的一部分请务必一起阅读9科技云大厂和互联网巨头预计将继续加大资本开支AI硬件为重点领域谷歌微软亚马逊以及Meta在二季度业绩说明会中提到微软FY23Q4资本开支不含融资租赁8943亿美元同比增加3016计划持续加大数据中心CPU和GPU等投入谷歌232Q资本开支环比增长10至69亿美元主要投放在服务器以及AI大模型计算领域增幅低于彭博一致预期主因数据中心建设项目延迟但公司预计对技术基础设施的投资将在2023下半年增加亚马逊23Q2资本开支含融资租赁为11455亿美元同比下跌27虽受逐渐下滑的运输投入影响公司预计2023全年资本开支同比下滑至略高于500亿美元的水平但仍将继续增加对AI和大语言模型的投入以满足客户需求Meta23Q2资本开支不含融资租赁为6134亿美元同比下跌19主要鉴于非AI服务器费用的减少以及部分项目和设备交付的延误将转入2024年公司预计2024年资本开支将伴随数据中心服务器及人工智能方面投资的推进而增加总体来看2023上半年以谷歌微软及亚马逊及Meta为代表的互联网巨头在资本开支方面虽受到项目延期或宏观与其他业务规划等因素扰动但在AI相关的资本开支方面正逐渐加大展望2024年AI基础设施将是重点投入领域故我们认为头部云厂商和互联网巨头加大AI领域资本开支将进一步支撑AI的产业趋势我们认为2022年以来美联储稳步提高利率导致企业削减数据中心支出后续美联储或将停止加息叠加AI需求增长有望提振科技巨头的资本开支将持续带动AI芯片等基础硬件设施放量图表1417Q1-23Q2四大互联网巨头季度资本开支情况单位亿美元MicrosoftMetaAmazon含租赁Google同比合计450140400120112350728760638683100629979689300682785508054825059416381659541531572605348189411462004848142160153915751495373637404060514821429150708673302961311061208548265289367304642020613182043168089920100113735317467536827324356354335470461537283329431532831081427-4251362326369461346437384250307334363353356050281410894215226-11144176645587687628627127474491509581534661-103983603714053393553774172282132592932570170-2017Q117Q217Q317Q418Q118Q218Q318Q419Q119Q219Q319Q420Q120Q220Q320Q421Q121Q221Q321Q422Q122Q222Q322Q423Q123Q2资料来源各公司官网华泰研究免责声明和披露以及分析师声明是报告的一部分请务必一起阅读10科技一超多强的AI芯片市场竞争格局在人工智能的训练端training我们认为英伟达的GPU凭着高算力为门槛一直以来都是训练端的首选但随着人工智能应用市场的不断扩大AMDMI300系列的GPU云计算厂商自研专用芯片以及大尺寸晶圆级芯片也开始异军突起推理端对算力要求较训练端低目前推理芯片市场百花齐放各类芯片均据有一席之地我们认为推理端和训练端一样传统芯片厂商也将面临云计算厂商和AI芯片初创企业的挑战AMD在23Q1财报会议上表示AMD已将人工智能列为战略重点的首位同时推出新产品MI300系列在制程架构及算力等多方面向英伟达同类产品看齐另外作为英伟达客户的云计算大厂也陆续发力自研专用芯片谷歌的TPUTensorProcessingUnit专为神经网络和TensorFlow框架量身打造性能不断提升目前已发展到第五代TPUv5e而于2020年推出的TPUv4在多种机器学习框架模型上已与英伟达的A100可比亚马逊AWS自己造芯早已有迹可循2018年开发了基于ARM的服务器CPUGraviton也为AI推理端自研专用芯片Inferentia2018年末推出第一代目前已发展到第二代和AI训练端定制芯片Trainium2020年末推出对比基于GPU的实例Trainium速度能提升140成本能降低70据2023年4月18日美国科技媒体TheInformation报道微软也正在闭门造芯研发支撑AIGC训练和运行的专用芯片Athena雅典娜希望进一步降低开发AI的成本除了传统芯片龙头和云计算大厂之外我们也发现一些新兴初创AI芯片企业如CerebrasGraphcore等以及芯片行业以外的企业包括特斯拉等正在异军突起试图在芯片设计上另辟蹊径通过大尺寸晶圆级芯片的技术路线在持续上升的算力传输和内存需求市场中抢占份额短期来看我们认为使用先进封装技术的GPU相较晶圆级芯片或是更优选择但长期来看晶圆级芯片的瓶颈若能突破也将成为传统技术路径的有力挑战者图表15主流AI芯片对比训练端通用性强但较难适应于人工智通用性强多维计算及大规模并-针对特定框架进行深度优化定能时代大数据并行计算工作行计算架构适合深度学习需要制能耗较低但开发周期较长在训练端是第一选择固定成本也较高推理端需要大量空间去放置存储单元英伟达从18年开始通过T4芯片多以加速器形式跟CPU一起搭若特定领域产生大规模需求在Cache和控制单元Control等布局推理端到边缘计算对算载依靠可编程性适用于开发大批量生产下固定成本可有效给用于逻辑控制力要求较训练端要低周期较短的产品以及开发试错摊分能耗也较低阶段等较成熟的量产设备多采用ASIC代表厂商IntelAMDNVIDIAAMDAlteraIntelGoogle的TPUXilinxAMDAWSTraniumInferentia资料来源nextplatform官网HUAWEI华泰研究免责声明和披露以及分析师声明是报告的一部分请务必一起阅读11科技传统芯片巨头英伟达在多方入局下能否继续笑傲江湖英伟达在推理端能否复制其在训练端的成功英伟达的GPU虽在AI训练端属不二之选对比市场同类训练产品也具有显著优势然而推理端的门槛相对较低且应用场景和需求更为多元目前各类芯片都在此领域获得一席之地因此AI推理方面英伟达仍面临着激烈竞争从发展历程来看传统推理端主要依赖CPU去处理相对简单和对算力要求较低的推理任务不过目前AI模型的规模和复杂度跟过去相比已提升了不少随着更多工作负载将逐渐纳入到推理领域因此对于推理算力的要求也会越来越高或将在一定程度上带动更多GPU在推理领域的应用但我们需强调推理所需要的算力本身比训练所需要的算力低因此英伟达的高算力在推理端不一定像其在训练端般拥有明显优势另外数据中心里拥有各类不同的芯片而不同的AI工作负载应该在哪一片芯片上运行将取决于适配度以及性价比因此各类芯片也有其不同的优势在这领域里英伟达的高性能推理芯片正面对着各种竞争对手除了CPU之外也包括AMD的GPU英伟达的GPU包括老款FPGA和ASIC等英伟达的两大护城河高算力芯片和高粘性CUDA软件生态我们认为英伟达凭着高算力硬件和高粘性软件生态两大护城河是人工智能训练端的不二之选根据不同芯片在AI论文中的引用数量可知英伟达的芯片在AI研究论文中最受欢迎其产品的使用率是ASIC的131倍是Graphcore未上市Habana给Intel收购了Cerebras未上市SambaNova未上市和寒武纪688256CH五家总和的90倍是谷歌TPU的78倍是FPGA的23倍一般来说在人工智能领域新模型的推出都会发表相关论文便于信息交流与学术合作英伟达在人工智能相关的论文中遥遥领先的引用数量也反映了新算法需采用英伟达GPU的必要性以及其在学术界长期以来的重要地位和影响力图表16英伟达芯片在AI论文中的引用数量遥遥领先图表172022年服务器GPU单元份额情况47NvidiaAMDIntel951Others注Big5startups是指GraphcoreHabanaCerebrasSambaNova和寒武纪五资料来源IDC华泰研究家初创芯片企业其中寒武纪为中国企业Habana在2019年被Intel收购资料来源ZetaAlphaanalysis华泰研究英伟达持续迭代高性能计算芯片在产品工艺计算能力和存储带宽等不断创新面向高性能计算和深度学习场景英伟达基于其芯片架构打造了一系列支持提升张量核心和稀疏矩阵计算等能力的GPU产品2023年英伟达已不满足于单GPU的更新换代重磅推出结合GraceCPU与HopperGPU的GH200超级芯片实现了高达900GBs的总带宽加速大规模AI和HPC应用计算在一年后的SIGGRAPH上英伟达的AI芯片再迎升级推出了全球首次采用HBM3e内存的GH200超级芯片该芯片的带宽高达每秒5TB并能提供141GB的内存容量适用于复杂的生成式人工智能工作负载如大型语言模型推荐系统和矢量数据库等免责声明和披露以及分析师声明是报告的一部分请务必一起阅读12科技图表18主要人工智能芯片的参数对比英伟达产品名称A100PCIeSXMH100PCIeSXMNVLL40SGH200HBM3GH200HBM3e发布时间2020620223202382023520238峰值算力TFLOPSFP16312624FP8302639587916FP81466--FP32195FP16151319793958FP16733FP64195FP325167134FP32916FP645164134工艺制程TSMC7nmTSMC4nmTSMCTSMC4nmTSMC4nm芯片面积826mm2814mm2---晶体管数B5480763200-内存容量GB80GBHBM2e8080188HBM348GBGDDR696HBM3141HBM3e内存带宽19352039GBs2335TBs78TBs864GBs4TBs5TBsInterconnectNVLinkNVLink16LinksPCIeGen4NVLinkNVLink600GBs600900600GBs64GBs900GBs900GBsTDPW300400300-3507002x350-400350450-1000450-1000AMD谷歌英特尔产品名称MI250XMI300AMI300XTPUv4HabanaGaudi2发布时间20211120231202362021520225峰值算力TFLOPSFP16383--Bf16275-FP3264479FP3264Matrix957工艺制程TSMC6nmTSMC5nmTSMC5nmTSMC7nmTSMC7nm芯片面积724mm21017mm21017mm2780mm2-晶体管数B5815414631-内存容量GB128HBM2e-128HBM332HBM296HBM2E内存带宽32TBs-52TBs1200GBs245TBsInterconnectInfinityFabricInfinityFabricInfinityFabric3DtorusRDMARoCEv2500GBs800GBs896GBs100GBsTDPW500600-192600资料来源英伟达官网AMD官网谷歌官网habana官网ANANDTECHsemianalysistomsHardwareTechPowerUpTHENEXTPLATFORM华泰研究图表19英伟达H100与部分同业产品在运行不同AI负载时表现资料来源福布斯官网华泰研究先进的网络技术NVLinkNVSwitch为吞吐量和可扩展性带来突破NVLinkNVSwitch英伟达先进的网络技术为吞吐量和可扩展性带来突破大规模的计算负载需要实现多节点连接在2023年5月29日举办的COMPUTEX大会上英伟达正式发布NVIDIADGXGH200超级计算系统该系统通过NVLink互连技术及NVLinkSwitch串联32台由8块GH200超级芯片总计256块组成了一个144TB内存及1exaFLOPS1000petaFLOPS算力的超级计算系统大规模的共享内存解决了AI大模型训练的关键瓶颈GoogleCloudMeta与微软将是其首批用户NVLink与NVSwitch相结合实现了服务器节点间通信拓展和高速互联使大规模并行处理成为可能是支撑英伟达GPU系统实现高速通信的基石免责声明和披露以及分析师声明是报告的一部分请务必一起阅读13科技图表20NVIDIADGXGH200通过NVLinkNVSwitch整合了256个GPU实现高达144TB内存的容量资料来源英伟达官网华泰研究图表21英伟达DGXH100VSDGXGH200DGXH100DGXGH200GPUandCPU8xNVIDIAH100TensorCoreGPUs256xNVIDIAGraceHopperSuperchipseachGraceHopperSuperchipMI250XDualIntelXeonPlatinum8480CProcessorsincludesGraceArmCPUH100TensorCoreGPUCPUCores112Corestotal200GHzBase18432ArmNeoverseV2CoreswithSVE24X128b380GHzMaxBoostGPUmemory640GB144TBPerformanceFP832petaFLOPS1exaFLOPSNVIDIANVSwitch4x96xL1NVIDIANVLinkSwitches36xL2NVIDIANVLinkSwitchesNetworking4xOSFPportsserving8xsingle-portNVIDIAConnectX-7VPI256xOSFPsingle-portNVIDIAConnectX-7VPIwith400GbsInfiniBandUpto400GbsInfiniBandEthernet256xdual-portNVIDIABlueField-3VPIwith200GbsInfiniBandand2xdual-portQSFP112NVIDIAConnectX-7VPIEthernetUpto400GbsInfiniBandEthernet24xNVIDIAQuantum-2QM9700InfiniBandSwitches20xNVIDIASpectrumSN2201EthernetSwitches22xNVIDIASpectrumSN3700EthernetSwitchesManagement10GbsonboardNICwithRJ45100GbsEthernetNICHostbaseboardmanagementcontrollerBMCwithRJ45networkHostbaseboardmanagementcontrollerBMCwithRJ45SoftwareNVIDIAAIEnterpriseoptimizedAIsoftwareNVIDIABaseCommandorchestrationschedulingandclustermanagementDGXOSUbuntuRedHatEnterpriseLinuxRockyoperatingsystemSupportComeswith3-yearbusiness-standardhardwareandsoftwaresupport资料来源英伟达官网华泰研究英伟达独家的NVLink网络连接技术解决了数据传输带宽瓶颈NVLink是英伟达针对GPU加速计算而开发的高速互连技术自2016年推出后已发展至第四代NVLink能提供比PCIe更大的带宽满足AI工作负载大规模的传输需求传统的PCIe技术下每个设备拥有专用的点对点连接对于运行大规模并行功能和移动大量数据的CPU和GPU往往存在性能瓶颈为了构建满足人工智能等发展需求的端到端计算平台英伟达推出的NVLink技术为CPUGPU与系统其他部分之间提供高带宽的连接路径也允许多个GPU通过高速互连直接通信从而实现GPU之间可用内存的组合和访问图表22历代NVLink参数NVLink2NVLink3NVLink4DSR数据信号速率Gbps2550100单链路的通道数842单链路的单向带宽GBs252525单链路总带宽GBs505050总链路数61218总带宽GBs300600900推出年份201620172020资料来源英伟达官网ICspec官网华泰研究免责声明和披露以及分析师声明是报告的一部分请务必一起阅读14科技NVLink4的总带宽可达每秒900GBs为PCIe50总线带宽的7倍也远高于下一代PCIe60的256GBs速率能满足AI和HPC持续增长的对多节点多GPU系统的计算需求为深度学习训练提供了更大的延展空间此外使用NVLink技术的设备有多个路径可供选择和共享中央集线器的PCIe相比加快了系统的运行速度提升了数据流和总系统吞吐量图表23历代PCIe总线标准单通道数据传输x16带宽PCIe标准速率GTs编码GBs标准批准年份1x258b10b820032x58b10b1620073x8128b130b3220104016128b130b6320175032128b130b12820196064PAM4FLIT2562022资料来源WCCFtech官网Rambus官网华泰研究NVSwitch是英伟达的节点交换架构通过连接多个NVLink在单节点内和节点间实现多GPU的拓展NVSwitch在2018年随第二代NVLink一起推出将多个NVLink加以整合实现多对多的GPU通信进一步提高系统的可拓展性最新的第三代NVSwitch采用台积电4N工艺打造能在单个服务器节点中支持8到16个完全链接的GPU支持以900GBs的速度互连每个GPU保障它们之间的完整点对点通信图表24NVLink和NVSwitch协同工作资料来源英伟达官网ICspec官网华泰研究图表25各代NVSwitch性能演变第一代第二代第三代直接连接的GPU数量节点数量最多8个最多8个最多8个NVSwitchGPU-to-GPU带宽300GBs600GBs900GBs总聚合带宽24TBs48TBs72TBs支持的NVIDIA架构NVIDIAVoltaNVIDIAAmpereNVIDIAHopperarchitecturearchitecturearchitecture资料来源英伟达官网华泰研究PCIExpressNVLinkNVLinkNVSwitch的演变历程体现了英伟达对通信效率和扩展性的不断追求随着深度学习算法的复杂化和规模的扩大权重梯度和偏差的同步与交换对通信延迟和高带宽提出了更高的要求PCIe在原始带宽延迟以及缓存一致性等方面限制了GPU之间大规模的组合和连接于高性能计算和数据中心里适用性较低NVLink和NVSwitch的推出解决了多个GPU大规模集群的传输实现更快和更可扩展的计算系统免责声明和披露以及分析师声明是报告的一部分请务必一起阅读15科技图表26NVLink与NVSwitch可以纵向扩展训练大参数模型图表27NVIDIANVLink4NVSwitch示意图NVSwitchNVLink资料来源英伟达官网华泰研究资料来源英伟达官网华泰研究CUDA软件生态的先发优势构筑英伟达第二护城河CUDA工具包包括一系列的编程工具加速库和框架可用于协助开发人员更为便捷地进行GPU编程和并行计算其核心竞争力主要在于其硬件集成完善的社区资源和广泛的应用支持形成的正循环2023COMPUTEX大会上英伟达CEO黄仁勋表示CUDA拥有超过400万开发人员和超过3000个应用程序受益于英伟达CUDA的先发优势与长期耕耘搭配其新手友好的安装与编程体验CUDA庞大的用户群体致使其搭建起由大量专业开发者与领域专家组成的开发者社区CUDA也涵盖各类计算应用的代码库资源这无疑为CUDA的学习和应用提供进一步支持截止2023年5月CUDA下载量已累计超过4000万次且仅去年一年便达到2500万次图表28CUDA软件生态圈效应图表29英伟达不断扩展加速计算生态圈资料来源英伟达官网华泰研究备注表示Cumulative资料来源CES2023华泰研究图表30英伟达CUDA-XAI生态圈及相关客户矩阵资料来源英伟达官网华泰研究免责声明和披露以及分析师声明是报告的一部分请务必一起阅读16科技同类对比下CUDA软件生态丰富成熟在应用广泛性市场份额和开发者支持方面均较为突出由英伟达在2007年推出的编程平台CUDA先发优势较明显历年来大量机器学习算法工程师均使用与CUDA生态系统对标的平台方面OpenCL虽在通用性上更胜一筹但其缺少针对并行计算的相关优化及深度学习相关功能库较少而AMDROCm发布时间较晚加上此前长期只支持Linux导致跨平台能力不足且对比CUDA其在科学计算与深度学习领域的功能库开发工具和应用支持的完善方面仍有改进空间目前虽有众多算力芯片厂商选择兼容CUDA的路径打开市场如ROCm可以通过HIPHeterogeneous-ComputingInterfaceforPortability兼容但CUDA并未开源因此100兼容CUDA较为被动我们认为CUDA生态凭借稳定的先发优势与用户粘性将持续为英伟达的软件生态圈壁垒图表31CUDAROCm以及OpenCL三者对比CUDAROCmOpenCL发布时间2007年2016年2008年硬件支持支持2006年以来所有的英伟达GPU较多支持AMD高端GPU系列可移植到NVIDIAAMDIntel等等各自2023年6月29日更新的ROCm560版本开始种其它硬件设备包括FPGA和ASIC逐步向消费级GPU拓展除了供应商特定的扩展操作系统Linux和Windows支持Linux自2023年6月29日更新的ROCm560支持包括LinuxWindows以及macOS版本开始在Windows支持部分AMD消费级GPU在内的几乎所有的操作系统功能库拥有广泛的高性能库覆盖广泛的终端应用场景仅包括CUDA库中的一部分由LinearAlgebraOpenCL作为通用平台并行计算能力包括资源受限的物联网设备自动驾驶及超级计算Libraries线性代数库FastFourierTransforms快速远不如CUDA并行编程模型并行机等领域九大部分组成的合作伙伴库八大部分傅里叶变换和RandomNumbers随机数三部分组成的计算能力只达到后者的110到1200组成的数学库五大部分组成的深度学习库四大数学库rocPRIMrocThrust以及hipCUB三部分组不等目前很少用于机器学习和深度学部分组成的图像和视频库两大部分组成的通讯成的C原始库MIOpenComposableKernel和习因此可用的相关库很少库并行算法库以及计算光刻库MIGraphX三大部分组成的AI库和以RCCL构成的通讯库技术细节一种使用CUDA关键字实现并行化的平台和编程类似于NVIDIA的CUDAROCm支持多种编程语言不支持使用C编写代码而是提供模型CUDA提供CC语言扩展和API用于编译器库和工具目前主要通过异构计算可移植接口了类C语言编程工作环境编程和管理GPUHIP这种C方言来简化CUDA应用程序到可移植C代码的转换HIP提供了C风格的API和C的内核语言资料来源CUDA官网runai官网phoronixincredibuild华泰研究生成式AI下较复杂的推理需求或为英伟达GPU赋新机长期以来AI推理市场一直由CPU主导根据Thenextplatform在2023年4月5日的报道数据中心70的推理在IntelXeonCPU上运行主要鉴于过去的AI推理任务较为简单以通用AI计算为主如个性化广告搜索推荐中小型模型等应用这些基础的推理任务CPU便可胜任此外CPU在AI领域的应用较早云厂商已建立了大量的基础设施和工具来支持更换及重新配置的成本或也是考虑因素之一面对不同的AI负载任务GPUCPU和ASIC或分别具有性能和成本优势GPU擅长并行计算特别适用于深度学习模型中的大规模矩阵计算相比之下CPU更擅长串行计算因此面对不同的AI负载不同种类的芯片或能发挥不同的性能和成本优势虽然GPU单个成本高于CPU但在处理深度学习推理任务时特别面向较复杂和多模态的AI负载GPU或能提供更高的性能和效率从而实现更快的推理速度和更高的吞吐量节省了部署和运行成本在2018年9月微软发表了一篇GPU与CPU在深度学习模型推理部署对比的博客测试中所采用的3节点GPU集群与5节点CPU集群的成本大致相同在该测试所用的模型和框架中3节点GPU集群的吞吐量优于5节点CPU集群免责声明和披露以及分析师声明是报告的一部分请务必一起阅读17科技图表32微软的深度学习推理测试GPU与CPU吞吐量对比张图片秒5CPU1GPU2GPU3GPU140120100806040200KerasTFKerasTFKerasTFKerasTFKerasTFNasNetLargeResnet152NasNetMobileResnet50MobileNetV2资料来源微软官网华泰研究我们认为随着生成式AI和大模型的兴起高复杂度的推理任务变得更加普遍或将推动GPU在推理端的需求对于较大的模型和较复杂的计算任务CPU单独来说或不足以满足未来这部分的推理应用或将从CPU转移至CPU加速器ASIC或FPGA或者CPU转移至GPU英伟达CEO黄仁勋也在8月8日的SIGGRAPH2023表示在1亿美元的预算下数据中心可以采购2500块GH200进行推理功耗为3MW能实现同等预算下x86CPU方案12倍的AI推理性能和20倍的能效图表33在AI的通用计算中推理以CPU为主资料来源Intel官网华泰研究针对推理市场英伟达推出了一系列的新品英伟达的推理平台GPU产品组合包括用于AI视频的NVIDIAL4用于图像生成的NVIDIAL40用于大型语言模型推理部署的NVIDIAH100NVL和用于推荐模型的NVIDIAGraceHopper这些平台的软件层采用NVIDIAAIEnterprise软件套件包括用于高性能深度学习推理的软件开发套件NVIDIATensorRT以及帮助实现模型部署的开源推理服务软件NVIDIATritonInferenceServer免责声明和披露以及分析师声明是报告的一部分请务必一起阅读18科技图表34NVIDIA在2023GTC推出的四款推理产品NVIDIAL4NVIDIAL40NVIDIAH100NVLNVIDIAGraceHopperAI视频图像生成大型语言模型推荐系统模型资料来源NVIDIA华泰研究图表35NVIDIAAI推理流程资料来源NVIDIA官网华泰研究图表36英伟达新推理产品与旧版GPU其他厂商GPU对比IntelDataIntelDataCenterGPUCenterGPUNVIDIAL4NVIDIAL40NVIDIAT4NVIDIAA2NVIDIAA10Flex170Flex140ReleaseYear2023202220182021202120222022MemorySizeGB24481616241612MemoryTypeGDDR6GDDR6GDDR6GDDR6GDDR6GDDR6GDDR6MemoryBusbit192384256128384256192BandwidthGBs3001864032002000600051203720PixelRateGpixels1632047810101805664162702624012480TextureRateGtexels48960141400254407080488205248024960FP16halfTFLOPS313390526513900625033591597FP32floatTFLOPS3133905281490031201679799FP64doubleGFLOPS4896014140025440708097630--PriceUnknownAround9000Around1500Around1400Around9000ProbablyProbablyaround6000around4000资料来源英伟达英特尔SHI官网华泰研究英伟达SWOT分析我们认为英伟达的AI芯片凭借高算力以及NVLink等独家技术叠加高粘性的CUDA软件生态圈加持优势显著免责声明和披露以及分析师声明是报告的一部分请务必一起阅读19科技图表37英伟达SWOT分析资料来源华泰研究传统芯片巨头备受期待的突围者AMD以AI为战略首位AMD突围二战能否凯旋AMD的Al战略主要包括三个方向1广泛的CPU和GPU产品组合2开放稳定且已证明opensteadyandproven的软件平台3ROCm生态系统CEOLisaSu于5月31日的福布斯采访时强调放眼5年将在AMD每一个产品中看到AIAI是公司目前的战略首位目前英伟达领军AI训练端但随着AMD在AI芯片上逐步发力或能开始撼动英伟达在行业里独占鳌头的地位我们也认为云厂商应不希望AI芯片呈现一家独大的局面MI300恰逢其时地出现为市场提供了英伟达以外的选择MI300虽备受瞩目但截至2023年8月在客户方面几乎未有正式披露因此我们认为一旦有大型云客户正式宣布部署或将有效提振市场信心目前云厂商应还在对MI300进行测试和下单阶段我们将对后续公布的订单情况保持关注公司在23Q2业绩电话会中提到AI业务进展势头强劲截至23Q2客户对AI产品的参与度环比增长超过七倍主要来自MI300的新订单和MI250的增量订购MI300将在本年四季度开始出货MI300A和GH200CPUGPUAI芯片架构仿生人脑结构MI300系列目前包括两款产品1MI300X纯GPU由12个chiplets8个GPU4个IOCache构成2MI300ACPUGPU由13个chiplets6个GPU3个CPU4个IOCache构成MI300X作为纯GPU产品或对标英伟达GPUH100而MI300A为APU架构Zen4CPUCNDA3GPU与英伟达的异构CPUGPU芯片GH200正面交锋我们认为MI300A和X是客户在英伟达GPU之外的有力选择或也可对AI芯片定价造成一定影响MI300系列在参数上值得关注的亮点包括1MI300X的192GBHBM3内存领先英伟达H100双卡NVL的188GBHBM3更远超H100PCIe和SMX的80GBHBM3而MI300A的128GBHBM3内存也不遑多让2MI300X晶体管数量1530亿MI300A晶体管数量1460亿对比H100的800亿3内存带宽52TBs与英伟达H100的2-72TBs相近4InfinityFabric互联带宽的896GBs与NVLink的900GBs也相差无几5比H100高24X的HBM密度以及16XHBM带宽免责声明和披露以及分析师声明是报告的一部分请务必一起阅读20
|
相关研报
|