本期投资提示:
“模态”是指数据的存在形式,比如文本、音频、图像、视频等文件格式。多模态是一种全新的交互、生成模式,集合了图像、语音、文本等方式。我们认为,多模态/跨模态AI大模型将得到相比ChatGPT等NLP大模型更大的应用。 近期google、微软等海外巨头在2023年后在跨模态预训练大模型上有更大投入。3月google推出Palm-E参数量达562B,可以理解图像,还能理解、生成语言,并将两者结合起来。微软推出多模态大型语言模型,此外计划在下周推出GPT-4。 目前我们已经可以在跨模态中看到更多应用可能性。除了已经相对成熟的文生图外,人机互动、机器人控制、图片搜索,语音生成等,大量应用涌现。 本篇深度中,我们解释了大量市场预期差。 市场认为,国内AI大模型相比美国落后较多。我们认为,实际上国内巨头已在跨模态有较多提前布局。2022年以前,百度、华为、阿里、腾讯、商汤等公司就已经开始尝试跨模态大模型应用。应用领域包括金融、电商、工业、智慧城市等众多领域。 市场认为,相比NLP单模态大模型,多模态技术难度在每个单点上都提升。我们认为,多模态可能反而降低了单点技术难度。类似文生图等多模态大模型对于纯文本特征提取要求降低,不需要理解长文本,不需要理解多轮对话;对文本生成无要求。DALL-E的参数量从GPT-3的175B降低到12B就是一个佐证。 市场认为,视觉大模型仍然需要更多参数标注、且transformer算法不适用于CV场景。我们认为,图像自动标注已经有了更多方法论,且trans应用于CV也开始成熟,算法和数据都已大幅迭代。更大参数的数据模型意味着更多的数据标注。我们认为更大参数的数据模型并不直接意味着更多标注数据需求,但RLHF等需求可能增加。且近年来随着vit、swin transformer、mae等论文推出,transformer在CV和跨模态等应用增加。CV大模型参数量达到了百亿级别。 建议重点关注。视频、图像、文本素材:大华股份、海天瑞声、AI领军、当虹科技 算力和基础设施:中科曙光、拓维信息、寒武纪、浪潮信息、光通信和光模块 多模态应用:1)文生图:新国都、中科创达;2)机器人:三花智控、鸣志电器、绿的谐波;3)其他应用:汤姆猫(申万传媒)、万兴科技、昆仑万维(申万传媒)、风语筑(申万传媒)。 视觉和跨模态算法:商汤(港股)、云从科技、虹软科技、科大讯飞 风险提示:大模型技术中美仍存在差异,部分技术尚处于早期实验室阶段,存在落地风险;实体清单等可能对训练硬件产生影响 研究报告全文:行业及产计算机业2023年03月13日跨模态更多应用场景出现中国行业研公司得到更大机会究行看好AIGC系列之五业深度相关研究本期投资提示数据局国资云AIGC中东进全证面数字经济-计算机行业周报模态是指数据的存在形式比如文本音频图像视频等文件格式多模态是一种全20230306-202303102023年3月11券新的交互生成模式集合了图像语音文本等方式我们认为多模态跨模态AI大研日究重视信创带来的数据库运维新机会-数模型将得到相比ChatGPT等NLP大模型更大的应用报据库行业点评2023年3月8日告近期google微软等海外巨头在2023年后在跨模态预训练大模型上有更大投入3月google推出Palm-E参数量达562B可以理解图像还能理解生成语言并将两者结合起来微软推出多模态大型语言模型此外计划在下周推出GPT-4证券分析师洪依真A0230519060003目前我们已经可以在跨模态中看到更多应用可能性除了已经相对成熟的文生图外人机hongyzswsresearchcom林起贤A0230519060002互动机器人控制图片搜索语音生成等大量应用涌现linqxswsresearchcom李国盛A0230521080003本篇深度中我们解释了大量市场预期差ligsswsresearchcom杨海燕A0230518070003市场认为国内AI大模型相比美国落后较多我们认为实际上国内巨头已在跨模态有yanghyswsresearchcom较多提前布局2022年以前百度华为阿里腾讯商汤等公司就已经开始尝试跨联系人模态大模型应用应用领域包括金融电商工业智慧城市等众多领域洪依真862123297818市场认为相比NLP单模态大模型多模态技术难度在每个单点上都提升我们认为多hongyzswsresearchcom模态可能反而降低了单点技术难度类似文生图等多模态大模型对于纯文本特征提取要求降低不需要理解长文本不需要理解多轮对话对文本生成无要求DALL-E的参数量从GPT-3的175B降低到12B就是一个佐证市场认为视觉大模型仍然需要更多参数标注且transformer算法不适用于CV场景我们认为图像自动标注已经有了更多方法论且trans应用于CV也开始成熟算法和数据都已大幅迭代更大参数的数据模型意味着更多的数据标注我们认为更大参数的数据模型并不直接意味着更多标注数据需求但RLHF等需求可能增加且近年来随着vitswintransformermae等论文推出transformer在CV和跨模态等应用增加CV大模型参数量达到了百亿级别建议重点关注视频图像文本素材大华股份海天瑞声AI领军当虹科技算力和基础设施中科曙光拓维信息寒武纪浪潮信息光通信和光模块多模态应用1文生图新国都中科创达2机器人三花智控鸣志电器绿的谐波3其他应用汤姆猫申万传媒万兴科技昆仑万维申万传媒风语筑申万传媒视觉和跨模态算法商汤港股云从科技虹软科技科大讯飞风险提示大模型技术中美仍存在差异部分技术尚处于早期实验室阶段存在落地风险实体清单等可能对训练硬件产生影响请务必仔细阅读正文之后的各项信息披露与声明行业深度投资案件结论和投资分析意见跨模态AI大模型是通用式强人工智能的下一站跨模态视觉大模型将带来更多行业应用可能中国AI公司在其中相比NLP大模型受益更大重点推荐1视频图像文本素材2算力和基础设施3多模态应用4视觉和跨模态算法四类公司原因及逻辑1海外巨头在2023年后在跨模态预训练大模型上有更大投入近期google推出Palm-E参数量达562B可以理解图像还能理解生成语言并将两者结合起来微软推出多模态大型语言模型此外计划在下周推出GPT-42跨模态意味着更多应用可能性包括人机互动图片搜索语音生成等3国内AI公司在跨模态CV大模型领域的能力强于纯NLP大模型体现在2022年以前百度华为阿里腾讯商汤等公司就已经开始尝试跨模态大模型应用有别于大众的认识市场认为多模态应用仍然较远我们认为实际上DALL-E等文生图应用已经较为成熟LatentDiffusion等方法提升了图片生成能力降低了扩散去噪的成本使之达到可商用水平这个过程中大量关键工具已开源我们看到的文生图应用也是最多最成熟的市场认为国内AI大模型相比美国落后较多我们认为实际上国内巨头已在跨模态有较多提前布局2022年以前百度华为阿里腾讯商汤等公司就已经开始尝试跨模态大模型应用应用领域包括金融电商工业智慧城市等众多领域市场认为相比NLP单模态大模型多模态技术难度在每个单点上都提升我们认为多模态可能反而降低了单点技术难度类似文生图等多模态大模型对于纯文本特征提取要求降低不需要理解长文本不需要理解多轮对话对文本生成无要求DALL-E的参数量从GPT-3的175B降低到12B就是一个佐证技术细节上也有较大预期差市场认为更大参数的数据模型意味着更多的数据标注我们认为更大参数的数据模型并不直接意味着更多标注数据需求但RLHF等需求可能增加市场认为transformer算法只适用于NLP场景我们认为近年来随着vitswintransformermae等论文推出transformer在CV和跨模态等应用增加CV大模型参数量达到了百亿级别请务必仔细阅读正文之后的各项信息披露与声明第2页共20页简单金融成就梦想行业深度目录1文生图最先成熟的跨模态应用511DALL-E初代爆款文生图应用贡献了CLIP工具512从DALL-E到StableDiffusion4倍分辨率背后是Diffusion72CV大模型transformer取代CNN参数已到百亿级别821CV大模型的难度为何相比NLP更高922学界尝试将transformer应用于CV大模型923百亿参数级别的CV大模型有涌现能力了吗CV大模型会大幅提升标注数据需求吗113跨模态更多应用可能性中国AI公司参与热情暴增1331Google视觉语言模型大模型PaLM-E1332微软和OPENAI下一代GPT可能也是多模态1533视觉跨模态大模型是国内AI公司更擅长的164推荐标的18请务必仔细阅读正文之后的各项信息披露与声明第3页共20页简单金融成就梦想行业深度图表目录图1DALLE设计一颗白菜穿着芭蕾舞裙在遛狗5图2DALLE-2设计一碗汤是另一个次元的入口5图3CLIP需要的数据为图像及其标题数据集中大约包含4亿张图像及描述6图4CLIP的核心思路6图5从GAN到Diffusion7图6扩散去噪的马尔可夫过程7图7LatentDiffusionmodel方法8图8图像分类任务中使用VisionTransformer取得了较好的结果9图9google的VisionTransformer的核心思路10图10微软的SwinTransformer的核心思路10图11Facebook的MAE的核心思路11图12参数到达一定规模后模型能力提升显著11图13对于视觉任务进行反馈训练后任务效果显著提升12图14PaLM-E核心思路和可以做到的任务13图15用德语指令把抽屉里的薯片拿过来机器人分为三个步骤完成指令14图16机器人完成指令绿色色块推到乌龟旁边14图17KOSMOS可以感知视觉语音图像等输入15图18大模型小模型两类公司路线区别16图19百度文心大模型和多行业工具平台16图20华为空天灵眸大模型使用ViT和SwinTransformer自动提取遥感地物通用特征17表1AI行业重点公司估值表19请务必仔细阅读正文之后的各项信息披露与声明第4页共20页简单金融成就梦想行业深度模态是指数据的存在形式比如文本音频图像视频等文件格式多模态是一种全新的交互生成模式集合了图像语音文本等方式我们认为多模态跨模态AI大模型将得到相比ChatGPT等NLP大模型更大的应用1文生图最先成熟的跨模态应用11DALL-E初代爆款文生图应用贡献了CLIP工具最早的跨模态实际在GPT-3阶段已经出现DALL-E文生图API可以认为是首批出圈的跨模态-文生图应用DALLE基于CLIP可以按照文字描述生成对应图片DALLE是OpenAI2021年发布的跨模态-文生图模型DALLE基于GPT-3技术经过文本-图像数据集训练具有120亿参数DALLE能够创建拟人化的动物和物体以合理的方式组合不相关的概念渲染文本以及对现有图像进行转换图1DALLE设计一颗白菜穿着芭蕾舞裙在遛狗图2DALLE-2设计一碗汤是另一个次元的入口资料来源OpenAI官网申万宏源研究资料来源OpenAI官网申万宏源研究Dall-E一代的创新点CLIP形成文字和图片对照1在文字输入部分仍然使用了与GPE-3类似的transformer语言模型且参数量大幅降低DALLE有12B参数相比GPT-3的175B大幅降低模型由64个稀疏transformer块组成该模型是在250M图像-文本对的数据集上训练的训练后的模型根据提供的文本生成了几个样本最多512个然后再由CLIP进行排序2CLIP暴力美学下的文本-图像对应工具DALL-E的最大创新点请务必仔细阅读正文之后的各项信息披露与声明第5页共20页简单金融成就梦想行业深度CLIPContrastiveLanguage-ImagePre-Training用于将相关文本和图像对应背后思路简单OpenAI从网上爬虫抓取已经有过描述的文本-图像数据集但是数据集规模达到了4亿图3CLIP需要的数据为图像及其标题数据集中大约包含4亿张图像及描述资料来源新智元申万宏源研究然后在数据集上训练对比模型对比模型可以给来自同一对的图像和文本产生高相似度得分而对不匹配的文本和图像产生低分如下图左对比式无监督预训练Contrastivepre-training图4CLIP的核心思路资料来源LearningTransferableVisualModelsFromNaturalLanguageSupervision申万宏源研究这一部分的预训练模型由两个编码器组成一个用于文本另一个用于图像文本编码器更小的transformer可以用来理解短文字由12层组成每层有8个注意力头总63M的参数注意力跨度只有76个token相比之下GPT-3有2048个token标准BERT有512个token图像编码器可以是CNN也可以是transformer共有9个图像编码器5个卷积编码器ResNet和4个transformer编码器视觉transformer即ViT原理见下文最后推理阶段无论何种图片只要就进行ImageEncoder进行特征提取会生成一个一维的图片特征向量然后拿这个图片特征和N个文本特征做相似度对比最相似的即为请务必仔细阅读正文之后的各项信息披露与声明第6页共20页简单金融成就梦想行业深度想要的那个结果即CLIP在一次预训练后可以方便的迁移到其他视觉分类任务上进行Zero-shot的预测文本-图像匹配工具开源对文生图应用出现产生正向影响2021年1月openai开源了CLIP这也是后续众多文生图方法和工具得到飞速进展的基础2022年3月LAION开源了大规模跨模态数据库LAION-5B包含585B图片-文本对流行的AI绘画模型StableDiffusion正是利用LAION-Aesthetics训练出来的12从DALL-E到StableDiffusion4倍分辨率背后是Diffusion从GAN到DiffusionDALL-E一代作画风格基本与艺术风格无关只是简单的按照文字要求生成图片在CLIP开源后部分人尝试把其它AI连接到CLIP上此时CLIPVQGAN等开源的作画工具出现DALL-E不开源但GAN类模型的生成结果始终不尽如人意此时另一种思路Diffusion模型扩散去噪模型出现图5从GAN到Diffusion图6扩散去噪的马尔可夫过程资料来源WhatareDiffusionModels1资料来源DenoisingDiffusionProbabilisticModels申万宏申万宏源研究源研究Diffusion扩散模型通过反转逐渐的噪声过程来学习生成数据噪声过程被视为一个参数化的马尔可夫链它逐渐向图像添加噪声以破坏图像最终渐近地产生纯高斯噪声扩散模型学习沿着这条链向后导航在一系列时间步长上逐渐消除噪声以逆转这一过程但Diffusion方法仍然存在缺陷包括反向去噪生成图片的迭代过程很慢模型在像素空间中进行计算导致对计算时间和内存资源的巨大需求在生成高分辨率图像时变得异常昂贵从Diffusion到LatentDiffusion2022年7月StableDiffusion相比Diffusion提升为把模型的计算空间从像素空间经过数学变换在尽可能保留细节信息的情况下1httpslilianwenggithubioposts---diffusion-models请务必仔细阅读正文之后的各项信息披露与声明第7页共20页简单金融成就梦想行业深度降维到一个称之为潜空间LatentSpace的低维空间里然后再训练和图像生成StableDiffusion使用的Latent潜空间编码缩减因子为8即512x512的图像在潜空间中直接变为64x64节省了8x864倍的内存2022年8月StableDiffusion完全开源图7LatentDiffusionmodel方法资料来源High-ResolutionImageSynthesiswithLatentDiffusionModelsLatentDiffusionModels申万宏源研究2022年4月同样基于Diffusion方法OpenAI推出了DALL-E2API未开源升级版以4倍的分辨率开始生成更逼真更准确的图像不到3个月注册人数就突破100万统统是OpenAI公布了DALL-E2的API使用价格按照不同尺寸有不同收费10241024的图片每张为002美元512512的图片每张0018美元而256256的图片则是每张0016美元总结1对于纯文本特征提取要求降低不需要理解长文本不需要理解多轮对话对文本生成无要求DALL-E的参数量从GPT-3的175B降低到12B就是一个佐证2生成图片关键在于CLIP4亿文本-图片对应数据是暴力出奇迹的产物3LatentDiffusion等方法提升了图片生成能力降低了扩散去噪的成本使之达到可商用水平4这个过程中大量关键工具已开源我们看到的文生图应用也是最多最成熟的2CV大模型transformer取代CNN参数已到百亿级别请务必仔细阅读正文之后的各项信息披露与声明第8页共20页简单金融成就梦想行业深度21CV大模型的难度为何相比NLP更高在CV领域为何基于传统CNN大参数的思路遇到瓶颈从算子层面看传统的CNNs算子缺乏长距离依赖和自适应空间聚合能力从结构层面看传统CNNs结构缺乏先进组件为何CV视觉transformer大模型发展相比NLP慢实际上2017年transformer推出之后2018年就有学者将其应用于CV图像领域但当时应用效果未发现相比传统CNN等算法有较大提升当时常见做法是将自注意力和CNN一起使用而原有结构基本不变对于传统卷积神经网络仍有较高依赖Transformers用在CV上的难点对于一个Transformer的encoder输入元素是一个个的单词输出是一些元素Transformers自注意力操作中每个元素需要和每个元素互相进行两两互动最后算得一个Attention自注意力图通过加权平均最后得到输出由于单元间两两互动因此复杂度是序列长度的平方也就是n2在自然语言处理中一个句子的长度一般就是几百或上千例如BERT为512序列长度而对于一个比较常见的224x224大小的图片如果直接以每一个像素点为单位进行两两互动的话那序列长度为50176大概为BERT序列长度的100倍因此复杂度极高22学界尝试将transformer应用于CV大模型但在2021年后随着vitswintransformermae等论文推出transformer在CV和跨模态等应用增加图8图像分类任务中使用VisionTransformer取得了较好的结果资料来源paperswithcodecom申万宏源研究例如2021年3月google将尝试将自注意力机制和transformer直接应用在图像领域在不依赖CNN结构的情况下如何尽可能地将Transformer不做修改的迁移到CV请务必仔细阅读正文之后的各项信息披露与声明第9页共20页简单金融成就梦想行业深度领域并取得了较好的效果ViT将输入图片分为多个patch16x16再将每个patch投影为固定长度的向量送入Transformer后续encoder的操作和原始Transformer中完全相同ViT已被证明在迁移学习设置中具有良好的扩展性在较少的预训练计算下比CNN获得更高的准确率图9google的VisionTransformer的核心思路资料来源ANIMAGEISWORTH16X16WORDSTRANSFORMERSFORIMAGERECOGNITIONATSCALE申万宏源研究2021年8月微软研究院发表了SwinTransformer用了类似卷积神经网络中的层次化构建方法Hierarchicalfeaturemaps比如特征图尺寸中有对图像下采样4倍的8倍的以及16倍的这样的backbone有助于在此基础上构建目标检测实例分割等任务而在之前的VisionTransformer中是一开始就直接下采样16倍后面的特征图也是维持这个下采样率不变图10微软的SwinTransformer的核心思路资料来源SwinTransformerHierarchicalVisionTransformerusingShiftedWindows申万宏源研究2021年11月Facebook引入MAE方法maskedautoencodersMAE方法是随机mask遮罩掉一部分像素能极大加速模型的训练速度并提升准确率由于语言的信息密度更高mask部分文字可能使得语义完全不同而图像的冗余度就很高因此mask掉部分信息可以大大减少冗余请务必仔细阅读正文之后的各项信息披露与声明第10页共20页简单金融成就梦想行业深度图11Facebook的MAE的核心思路资料来源MaskedAutoencodersAreScalableVisionLearners申万宏源研究基于ViT和SwinTransformer等方法首次将CV模型扩大到20亿和30亿参数级别其单模型在ImageNet数据集的分类准确率也都突破了90远超传统CNN网络和小规模模型突破了技术瓶颈23百亿参数级别的CV大模型有涌现能力了吗CV大模型会大幅提升标注数据需求吗更大的模型参数可能产生类似量变到质变的涌现这一情况在语言大模型LLM中已出现2022年8月Google发表论文重新探讨了模型效果与模型规模之间的关系结论是当模型规模达到某个阈值时模型对某些问题的处理性能突然呈现快速增长作者将这种现象称为EmergentAbilities即涌现能力尽管到现在涌现能力的原因仍没有得到较好的科学解释图12参数到达一定规模后模型能力提升显著资料来源EmergentAbilitiesofLargeLanguageModels申万宏源研究但似乎截至目前百亿参数级别的CV大模型似乎仍未出现类似的惊人涌现能力同时CV大模型的应用结合也相对更加困难CV大模型在应用上的一个难点是与实际应用相结合目前社会中用的较多的视觉相关的深度学习模型主要包括物体检测人脸识别以及缺陷检测部分相比NLP模型在实际中的使用少很多因此将CV模型与实际生产相请务必仔细阅读正文之后的各项信息披露与声明第11页共20页简单金融成就梦想行业深度结合发现更多的应用场景很关键另外一个CV大模型应用的难点就是如何快速高效的使用蒸馏和知识迁移技术提升下游任务的性能图像数据标注基础标注减少但是RLHF可能增加首先大规模预训练模型所追求的无监督学习本身就不需要大量前期数据标注无监督学习意味着在训练数据中只需要给定输入没有人工给出正确的输出目的是让模型开放式地自己学习数据之间的关系其次已有的图像大模型工具实际上也通过各种方法减少数据标注需求例如上文提到的CLIP直接从互联网上爬虫现成的文本-图片对从而最大限度地减少标注成本和训练深度网络所需的工作量CLIP不需要标签并且在ImageNet上实现762的测试准确率远超之前zero-shot图像分类115的准确率证明这一方式可行如下文提到的googlepalm-e通过分析来自机器人摄像头的数据来实现对高级命令的执行而无需对场景进行预处理这消除了人类对数据进行预处理或注释的需要但同时RLHF等需求可能增加如我们此前深度大模型技术突破AI多场景落地OpenAI使用了一种通过人类反馈来强化学习RLHFReinforcementLearningfromHumanFeedback的现有技术明显减少对话中的不真实不良或负面的结果此前google已有类似CVRLHF的方法尝试2023年2月google在Tuningcomputervisionmodelswithtaskrewards中证明了使用REINFORCE算法Williams于1992提出来调整Tuning具有奖励函数的预训练模型可以开箱即用地用于各种计算机视觉任务这项研究可能是实现视觉RLHF的有效途径图13对于视觉任务进行反馈训练后任务效果显著提升资料来源Tuningcomputervisionmodelswithtaskrewards申万宏源研究请务必仔细阅读正文之后的各项信息披露与声明第12页共20页简单金融成就梦想行业深度总结1使用传统CNN架构生产CV大模型难度较大2相比NLPTransformers使用在CV中有一定难度3但在2021年后随着vitswintransformermae等论文推出transformer在CV和跨模态等应用增加CV大模型参数量达到了百亿级别4视觉大模型能否实现类似LLM的涌现且以何种方式改变应用仍尚待研究5更大参数的数据模型并不直接意味着更多标注数据需求但RLHF等需求可能增加3跨模态更多应用可能性中国AI公司参与热情暴增31Google视觉语言模型大模型PaLM-E2023年3月6日来自谷歌和德国柏林工业大学的一组人工智能研究人员公布了史上最大视觉语言模型PaLM-EPathwaysLanguageModelwithEmbodied2PaLM包括了540B语言模型与22B视觉ViTVisonTransformer模型最终参数量达562B作为一种多模态具身视觉语言模型VLMPaLM-E不仅可以理解图像还能理解生成语言另外可以将两者结合起来处理复杂机器人指令整体上我们认为palm-e的亮点在于跨模态能力以及这种能力在人机交互中的应用但在纯NLP任务中是否超过chatGPT仍未知且22B的视觉大模型是否能带来涌现能力仍尚待讨论图14PaLM-E核心思路和可以做到的任务资料来源palm-egithub申万宏源研究2httpspalm-egithubiodemo请务必仔细阅读正文之后的各项信息披露与声明第13页共20页简单金融成就梦想行业深度亮点在于多模态大模型应用于人机交互领域1发现参数扩大有助于提升人机交互中的语言能力语言模型越大在视觉语言与机器人任务的训练中保持的语言能力就越强5620亿参数的PaLM-E几乎保持了它所有的语言能力2对于机器人的长跨度长周期任务以往通常需要人工协助PaLM-E通过自主学习全部完成如下图左3展示了模型的泛化能力研究人员要求机器人将绿色色块推到乌龟旁边的指令即便机器人之前没有见过这只乌龟摆件也能完成任务图15用德语指令把抽屉里的薯片拿过来机器图16机器人完成指令绿色色块推到乌龟旁边人分为三个步骤完成指令资料来源palm-egithub申万宏源研究资料来源palm-egithub申万宏源研究同时palm-e通过分析来自机器人摄像头的数据来实现对高级命令的执行而无需对场景进行预处理这消除了人类对数据进行预处理或注释的需要并允许更自主的机器人控制Google在NLP上为何暂时落后于openai学界猜测的原因和这次palm-e的路线选择1是否decoder-only在语言模型上palm-e选择了decoder-only只有解码器结构此前在2018-2021年谷歌路线为encoder-only只有编码器3或encoder-decoder编码解码器4而同一时期openai一直基于decoder-only只有解码器路线迭代自己的AGI生成式大模型直到2021年10月Google推出FLAN1370亿参数并从此开始重新转向只有decoder-only模型还提出了ChatGPT用到的InstructionTuning概念即中间有约20个月时间google并未使用decoder-only结构部分AI学者认为这是google在AGI产品上暂时落后于openai的原因之一32018年10月谷歌提出3亿参数的BERTBidirectionalEncoderRepresentationfromTransformers只有编码器用一种完形填空的方法其训练效果超过人类表现宣告NLP范式的改变42019年10月Google发布了统一的模型框架T5基于编码解码器的T5BERT只有编码GPT只用解码最大模型110亿参数并开放请务必仔细阅读正文之后的各项信息披露与声明第14页共20页简单金融成就梦想行业深度2稀疏还是稠密PaLM是谷歌在22年4月发布的语言大模型它是Pathways架构训练出来的Pathways是一种稀疏模型架构稀疏模型是谷歌AI这两年重点发展方向之一目标就是训练出可执行成千上百种任务的通用模型而同时openai一直以稠密模型作为主要方向3是否人类反馈根据公开资料看palm-e暂无这一提升2017年DeepMind最早提出了RLHF概念通过人工标注作为反馈提升了强化学习在模拟机器人以及游戏上的表现效果后续openai使用这一方法减少chatGPT中的有毒结果但目前google仍未在已有应用中完整展示过这一提升整体来看本次palm-e尚未公布消费级NLP应用如类似chatGPT因此基于plam-e应用的纯NLP能力是否达到chatGPT水平仍不可知32微软和OPENAI下一代GPT可能也是多模态此前3月1日微软团队在论文LanguageIsNotAllYouNeedAligningPerceptionwithLanguageModels中介绍了一个多模态大型语言模型MLLMKOSMOS-1它能理解文字与图像内容未来会整合更多的输入模式如音频视频除感知外KOSMOS可以做到遵循指令Zero-shot以及在上下文中学习Few-shot图17KOSMOS可以感知视觉语音图像等输入资料来源LanguageIsNotAllYouNeedAligningPerceptionwithLanguageModels请务必仔细阅读正文之后的各项信息披露与声明第15页共20页简单金融成就梦想行业深度申万宏源研究此外微软计划在下周推出GPT-4可能是一种多模态模型3月9日微软德国研讨会上微软德国首席技术官AndreasBraun宣布我们将在下周推出GPT-4是一种多模态模型为用户带来不同的内容生成体验例如通过文本生成视频33视觉跨模态大模型是国内AI公司更擅长的国内擅长CV的AI公司在2022年前对于基于transformer的大模型关注投入较少但是我们认为随着视觉跨模态大模型出现应用类的CV公司也会开始关注并投入大模型在此前ChatGPTAIGC九问九答AI行业系列点评中我们提出2021年前国内大部分AI公司都以小模型路线为主且在CV领域投入较多NLP领域投入相对少原因可能包括更多的CV人才更完整的人脸等图像数据库而NLP高质量语料库缺乏更便宜的图像标注成本2021年后互联网公司和头部算法企业开始投入大模型研发发布结果较多的包括百度华为阿里商汤等且从已经发布的论文和应用看纯NLP能力较openai等弱优势可能会在多模态融合视觉大模型图18大模型小模型两类公司路线区别资料来源申万宏源研究百度文心大模型纯NLP能力领先跨模态也有较多布局应用场景涵盖NLP大模型CV大模型跨模态大模型生物计算大模型行业大模型API包括了1ERNIE30文本理解与创作预置作文生成文案创作情感分析等任务提示2ERNIE-ViLGAI作画大模型3PLATO大模型开放域对话服务图19百度文心大模型和多行业工具平台请务必仔细阅读正文之后的各项信息披露与声明第16页共20页简单金融成就梦想行业深度资料来源百度文心官网申万宏源研究华为盘古大模型重视下游产业合作2021年4月华为发布千亿参数40TB训练数据的中文语言NLP预训练模型30亿参数的视觉CV预训练模型此后华为深耕跨模态大模型的行业应用例如遥感矿山气象等成立AI流体力学AI生物医药以及智慧育种等产业联盟图20华为空天灵眸大模型使用ViT和SwinTransformer自动提取遥感地物通用特征资料来源华为官网申万宏源研究阿里通义大模型强调了大模型的通用化能力大模型底层M6-OFA底层的亮点是不引入新增结构单一模型就可以同时处理超过10项跨模态任务升级后可以处理超过30种在电商设计医疗法律金融等行业落地200个场景例如通用-视觉大模型可以在电商行业实现图像搜索和万物识别等场景应用并在文生图以及交通和自动驾驶领域发挥作用对话大模型可以与钉钉深度结合腾讯混元大模型跨模态视频检索能力领先2022年4月腾讯对外正式宣布腾讯混元AI大模型在MSR-VTTMSVDLSMDCDiDeMo和ActivityNet五大跨模态视频检索数据集榜单中先后取得第一名的成绩混元大模型应用到广告创作广告检索广告推荐等腾讯业务场景中2021年商汤发布书生INTERN大模型覆盖CV领域四大任务书生大模型可以同时解决图像分类目标检测语义分割深度估计四大任务与CLIP相比在CV领域的请务必仔细阅读正文之后的各项信息披露与声明第17页共20页简单金融成就梦想行业深度四大任务26个数据集上书生的平均错误率分别降低了402473348和94目前商汤视觉大模型达到320亿参数覆盖10个以上核心业务总结1海外巨头在2023年后在跨模态预训练大模型上有更大投入2跨模态意味着更多应用可能性包括人机互动图片搜索语音生成等3我们认为国内AI公司在跨模态CV大模型领域的能力强于纯NLP大模型体现在2022年以前百度华为阿里腾讯商汤等公司就已经开始尝试跨模态大模型应用4但国内跨模态大模型方法可能还有待更新如此前部分国内跨模态大模型在图像特征提取上仍然使用了ResNet等可能更新为Vit等transformer模型后会取得更好效果5国内此前有成本优势的简单图像标注环节在大模型时代可能变得没有那么重要建议传统标注公司可以在RLHF上增加布局4推荐标的视频图像文本素材大华股份工业场景视频素材和标注海天瑞声视频图像数据标注AI领军当虹科技算力和基础设施中科曙光拓维信息寒武纪AI芯片浪潮信息光通信和光模块多模态应用1文生图新国都中科创达移动端文生图工具部署2机器人三花智控鸣志电器绿的谐波3其他应用汤姆猫申万传媒万兴科技昆仑万维申万传媒风语筑申万传媒视觉和跨模态算法商汤港股云从科技虹软科技科大讯飞请务必仔细阅读正文之后的各项信息披露与声明第18页共20页简单金融成就梦想行业深度表1AI行业重点公司估值表证券代码公司名称2023310Wind一致预期归母净利润亿元PEPBLF总市值2021A2022E2023E2024E2021A2022E2023E2024E亿元002236SZ大华股份488337826683317381114181513194688787SH海天瑞声7803203005411624826514667944688039SH当虹科技57061-09910214894-5639421603019SH中科曙光472115815152005259741312418278002261SZ拓维信息128083-047190272156-6747353688256SH寒武纪-U369-825-1166-718-400-45---742300130SZ新国都8220132345759341251814270300496SZ中科创达4596477691116150371604131506002050SZ三花智控839168424633061377250342722722603728SH鸣志电器17628029253393163603319670688017SH绿的谐波1921891592783761011216951995300459SZ汤姆猫206708---29---537300624SZ万兴科技71028106155207254674634839300418SZ昆仑万维275154711651313152018242118229603466SH风语筑8643912838847619672218407688327SH云从科技-uw205-632-851-523-037----970688088SH虹软科技111141056183274791976141431002230SZ科大讯飞1106155677018532613711446042695资料来源Wind申万宏源研究风险提示1大模型技术中美仍存在差异部分技术尚处于早期实验室阶段存在落地风险实体清单等可能对训练硬件产生影响2由于应用场景碎片化下游落地慢于预期不同的行业细分领域之间甚至同一领域不同的企业之间对AI应用的需求可能都有区别AI落地进度可能因为场景碎片化而低于预期3数据保护政策强化可能限制C端的AI应用各国对数据隐私和数据安全进一步强化保护力度可能影响部分AI企业的数据采集分析且C端AI应用受到影响更大请务必仔细阅读正文之后的各项信息披露与声明第19页共20页简单金融成就梦想行业深度信息披露证券分析师承诺本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师以勤勉的职业态度专业审慎的研究方法使用合法合规的信息独立客观地出具本报告并对本报告的内容和观点负责本人不曾因不因也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿与公司有关的信息披露本公司隶属于申万宏源证券有限公司本公司经中国证券监督管理委员会核准取得证券投资咨询业务许可本公司关联机构在法律许可情况下可能持有或交易本报告提到的投资标的还可能为或争取为这些标的提供投资银行服务本公司在知晓范围内依法合规地履行披露义务客户可通过complianceswsresearchcom索取有关披露资料或登录wwwswsresearchcom信息披露栏目查询从业人员资质情况静默期安排及其他有关的信息披露机构销售团队联系人华东A组陈陶021-33388362chentao1swhysccom华东B组谢文霓18930809211xiewenniswhysccom华北组李丹010-66500631lidan4swhysccom华南组李昇0755-82990609Lisheng5swhysccom股票投资评级说明证券的投资评级以报告日后的6个月内证券相对于市场基准指数的涨跌幅为标准定义如下买入Buy相对强于市场表现20以上增持Outperform相对强于市场表现520中性Neutral相对市场表现在55之间波动减持Underperform相对弱于市场表现5以下行业的投资评级以报告日后的6个月内行业相对于市场基准指数的涨跌幅为标准定义如下看好Overweight行业超越整体市场表现中性Neutral行业与整体市场表现基本持平看淡Underweight行业弱于整体市场表现我们在此提醒您不同证券研究机构采用不同的评级术语及评级标准我们采用的是相对评级体系表示投资的相对比重建议投资者买入或者卖出证券的决定取决于个人的实际情况比如当前的持仓结构以及其他需要考虑的因素投资者应阅读整篇报告以获取比较完整的观点与信息不应仅仅依靠投资评级来推断结论申银万国使用自己的行业分类体系如果您对我们的行业分类有兴趣可以向我们的销售员索取本报告采用的基准指数沪深300指数法律声明本报告仅供上海申银万国证券研究所有限公司以下简称本公司的客户使用本公司不会因接收人收到本报告而视其为客户客户应当认识到有关本报告的短信提示电话推荐等只是研究观点的简要沟通需以本公司httpwwwswsresearchcom网站刊载的完整报告为准本公司并接受客户的后续问询本报告首页列示的联系人除非另有说明仅作为本公司就本报告与客户的联络人承担联络工作不从事任何证券投资咨询服务业务本报告是基于已公开信息撰写但本公司不保证该等信息的准确性或完整性本报告所载的资料工具意见及推测只提供给客户作参考之用并非作为或被视为出售或购买证券或其他投资标的的邀请或向人作出邀请本报告所载的资料意见及推测仅反映本公司于发布本报告当日的判断本报告所指的证券或投资标的的价格价值及投资收入可能会波动在不同时期本公司可发出与本报告所载资料意见及推测不一致的报告客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突不应视本报告为作出投资决策的惟一因素客户应自主作出投资决策并自行承担投资风险本公司特别提示本公司不会与任何客户以任何形式分享证券投资收益或分担证券投资损失任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效本报告中所指的投资及服务可能不适合个别客户不构成客户私人咨询建议本公司未确保本报告充分考虑到个别客户特殊的投资目标财务状况或需要本公司建议客户应考虑本报告的任何意见或建议是否符合其特定状况以及若有必要咨询独立投资顾问在任何情况下本报告中的信息或所表述的意见并不构成对任何人的投资建议在任何情况下本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任市场有风险投资需谨慎若本报告的接收人非本公司的客户应在基于本报告作出任何投资决定或就本报告要求任何解释前咨询独立投资顾问本报告的版权归本公司所有属于非公开资料本公司对本报告保留一切权利除非另有书面显示否则本报告中的所有材料的版权均属本公司未经本公司事先书面授权本报告的任何部分均不得以任何方式制作任何形式的拷贝复印件或复制品或再次分发给任何其他人或以任何侵犯本公司版权的其他方式使用所有本报告中使用的商标服务标记及标记均为本公司的商标服务标记及标记请务必仔细阅读正文之后的各项信息披露与声明第20页共20页简单金融成就梦想
|
相关行业报告
|
||||||||||||||||||||||||||
