研报下载就选股票报告网
您好,欢迎来到股票分析报告网!登录   忘记密码   注册
>> 国海证券-计算机行业开启AI新篇章-人工智能系列深度报告:AIGC行业综述篇-230320
上传日期:   2023/3/20 大小:   3902KB
格式:   pdf  共65页 来源:   国海证券
评级:   -- 作者:   陈梦竹
行业名称:   计算机
下载权限:   无限制-登录即可下载
本篇报告主要解答了以下问题:AI、AIGC当下发展处于什么阶段?未来将呈现怎样的趋势?AIGC的核心生产要素是什么?各生产要素的发展趋势如何?NLP、CV、ASR、TTS算法及发展?ChatGPT为何“火爆出圈”?AIGC包括什么?已有哪些产品?应用现状及前景如何?有哪些企业进行了布局?商业模式如何?
  ◆行业发展:人工智能步入新发展阶段,逐步迈向AGI;AIGC拥抱人类,创造人机交互新变革,将迎来更多新机遇。人工智能从理论发展分为四个阶段:规则导向、机器学习、深度学习、自主学习阶段,目前处于深度学习阶段;从应用成熟度可分为三个阶段:弱人工智能阶段(ANI)、强人工智能阶段(AGI)、超人工智能阶段(ASI),目前处于ANI阶段;从应用类型可分为四种:感知式AI与分析式AI应用较成熟,决策式AI近年来发展迅速,生成式AI迎来突破。生成式AI,即AIGC,较传统内容创作模式UGC、PGC可实现更大数量、更高质量、更低单位成本,未来将从辅助创作生成趋向高度自动化自主创造。此外,AIGC将赋能多领域,加速人机共生的建设,迎接更多机遇与挑战。
  ◆技术进步:算力是支撑,数据是瓶颈,算法迎来突破。算力层,近年来大模型流行,模型参数量迅速膨胀,所需计算资源越来越大,算力是AIGC核心生产要素;而AI芯片全球短缺,美对华芯片制裁升级,我们认为国内短期算力充足,长期仍需要逐步实现AI芯片国产化替代。数据是机器学习的核心,AI发展的瓶颈,数据决定模型质量的上限;大模型训练需要海量且优质数据,AI对数据训练集的消耗量远大于人类数据生产的速度,专业领域、图像视频等数据获取和标注成本也将越来越高,我们认为加速商业化,实现数据反哺是对提高数据量、降成本的重要解决办法。算法层,近年来迎来不少突破,过去NLP领域以RNN及其变体为主,CV领域以CNN及其变体为主,但各有优劣,Transformer架构突破了RNN不能并行计算的限制,较CNN有更好的计算局部特征间的关联等,自2017年开始在NLP领域应用、变种升级,Transformer在多模态的发展和应用将让AI越来越多的向人类推理方式靠近,以实现AGI。AIGC包括文本/音频/图像/视频/代码/3D/数字人/跨膜态生成等,目前文本、音频和图像领域都迎来较大突破,图像生成的突破是Difussion的出现,文本生成的突破则是GPT的出现,AIGC基本采用GAN算法,算法及产品越来越丰富多元,AI因AIGC的蓬勃发展,已开启技术与应用的新篇章。
  ◆应用概览:技术突破实现应用创新。AI小模型是过去主流的研究和应用方向,在B端部分行业、赛道已有不少企业布局,预计未来仍将依托其细分行业、细分赛道的先发优势和数据、项目实施经验、产品优势等壁垒仍将有较好的发展。但大模型尚未实现商业价值闭环,未来需要重点关注数据、算法层面的突破与变革,探索新的商业模式,目前已在影视、传媒、电商、C端娱乐规模应用,游戏领域逐步应用,金融、工业、医疗、法律、设计等专业领域还在持续拓展。
  ◆产业布局:科技巨头全面布局,中下游厂商百花齐放。国外主要以微软、谷歌、Meta为主,国内以百度、腾讯、阿里、华为等为主,既拥有充足的算力支撑,又有优秀的人才团队,多年算法、数据积累,在大模型领域的发展及应用具备天然优势。上游除云厂商外,还有光通信厂商、数据服务商、算力相关设备厂商,将较大程度受益于大模型发展带来的更多计算资源和数据需求。中游有商汤、科大讯飞、旷视、拓尔思等企业多年细分领域布局,部分也有一定算力储备,垂直行业细分赛道深耕,相关技术、数据储备丰富。下游主要是受益于AIGC对业务的驱动、降本增效,空间较大,多行业公司均将逐步受益。
  ◆商业模式:商业化初启,期待产业生态、技术与产品发展完善。小模型在B端已应用多年,大模型商业刚刚开始,主要是MaaS,包括大模型厂商自用,实现增量或降本增效;云厂商“MaaS+IaaS”打包输出;替代翻译、美工、原画师、程序员、分析师、设计师等繁琐重复的低端工作等。大模型商业价值闭环未成,国内SaaS生态、付费意识较差,商业落地还需要各行各业共同发展、相互奔赴,共建良好产业生态。
  ◆风险提示:人工智能发展不及预期,AIGC发展不及预期;技术发展不及预期;商业化拓展不及预期;行业竞争加剧风险;中美科技竞争不确定性风险。
研究报告全文:证券研究报告计算机2023年03月20日人工智能系列深度报告AIGC行业综述篇开启AI新篇章陈梦竹证券分析师陈凯艺联系人S0350521090003S0350121070080chenmzghzqcomcnchenkyghzqcomcn1核心提要本篇报告主要解答了以下问题AIAIGC当下发展处于什么阶段未来将呈现怎样的趋势AIGC的核心生产要素是什么各生产要素的发展趋势如何NLPCVASRTTS算法及发展ChatGPT为何火爆出圈AIGC包括什么已有哪些产品应用现状及前景如何有哪些企业进行了布局商业模式如何行业发展人工智能步入新发展阶段逐步迈向AGIAIGC拥抱人类创造人机交互新变革将迎来更多新机遇人工智能从理论发展分为四个阶段规则导向机器学习深度学习自主学习阶段目前处于深度学习阶段从应用成熟度可分为三个阶段弱人工智能阶段ANI强人工智能阶段AGI超人工智能阶段ASI目前处于ANI阶段从应用类型可分为四种感知式AI与分析式AI应用较成熟决策式AI近年来发展迅速生成式AI迎来突破生成式AI即AIGC较传统内容创作模式UGCPGC可实现更大数量更高质量更低单位成本未来将从辅助创作生成趋向高度自动化自主创造此外AIGC将赋能多领域加速人机共生的建设迎接更多机遇与挑战技术进步算力是支撑数据是瓶颈算法迎来突破算力层近年来大模型流行模型参数量迅速膨胀所需计算资源越来越大算力是AIGC核心生产要素而AI芯片全球短缺美对华芯片制裁升级我们认为国内短期算力充足长期仍需要逐步实现AI芯片国产化替代数据是机器学习的核心AI发展的瓶颈数据决定模型质量的上限大模型训练需要海量且优质数据AI对数据训练集的消耗量远大于人类数据生产的速度专业领域图像视频等数据获取和标注成本也将越来越高我们认为加速商业化实现数据反哺是对提高数据量降成本的重要解决办法算法层近年来迎来不少突破过去NLP领域以RNN及其变体为主CV领域以CNN及其变体为主但各有优劣Transformer架构突破了RNN不能并行计算的限制较CNN有更好的计算局部特征间的关联等自2017年开始在NLP领域应用变种升级Transformer在多模态的发展和应用将让AI越来越多的向人类推理方式靠近以实现AGIAIGC包括文本音频图像视频代码3D数字人跨膜态生成等目前文本音频和图像领域都迎来较大突破图像生成的突破是Difussion的出现文本生成的突破则是GPT的出现AIGC基本采用GAN算法算法及产品越来越丰富多元AI因AIGC的蓬勃发展已开启技术与应用的新篇章应用概览技术突破实现应用创新AI小模型是过去主流的研究和应用方向在B端部分行业赛道已有不少企业布局预计未来仍将依托其细分行业细分赛道的先发优势和数据项目实施经验产品优势等壁垒仍将有较好的发展但大模型尚未实现商业价值闭环未来需要重点关注数据算法层面的突破与变革探索新的商业模式目前已在影视传媒电商C端娱乐规模应用游戏领域逐步应用金融工业医疗法律设计等专业领域还在持续拓展产业布局科技巨头全面布局中下游厂商百花齐放国外主要以微软谷歌Meta为主国内以百度腾讯阿里华为等为主既拥有充足的算力支撑又有优秀的人才团队多年算法数据积累在大模型领域的发展及应用具备天然优势上游除云厂商外还有光通信厂商数据服务商算力相关设备厂商将较大程度受益于大模型发展带来的更多计算资源和数据需求中游有商汤科大讯飞旷视拓尔思等企业多年细分领域布局部分也有一定算力储备垂直行业细分赛道深耕相关技术数据储备丰富下游主要是受益于AIGC对业务的驱动降本增效空间较大多行业公司均将逐步受益商业模式商业化初启期待产业生态技术与产品发展完善小模型在B端已应用多年大模型商业刚刚开始主要是MaaS包括大模型厂商自用实现增量或降本增效云厂商MaaSIaaS打包输出替代翻译美工原画师程序员分析师设计师等繁琐重复的低端工作等大模型商业价值闭环未成国内SaaS生态付费意识较差商业落地还需要各行各业共同发展相互奔赴共建良好产业生态风险提示人工智能发展不及预期AIGC发展不及预期技术发展不及预期商业化拓展不及预期行业竞争加剧风险中美科技竞争不确定性风险请务必阅读报告附注中的风险提示和免责声明2目录核心分析框架6核心分析框架每一轮人机交互的变革都会带来产业级投资机会核心分析框架期待算力数据算法的突破迈向强人工智能AGI阶段核心分析框架AIGC与PGCUGC内容创作模式对比核心分析框架机器学习分为训练和推理数据决定上限算法逼近上限核心分析框架数据是机器学习的核心也是机器学习的瓶颈核心分析框架随着模型参数量的提升算力需求显著增加核心分析框架AIGC生产力的革命核心分析框架ChatGPT史上用户数增长最快核心分析框架当模型规模达到某个阈值时模型出现涌现能力核心分析框架ChatGPT采用RLHF学习机制效果优于GPT-3的无监督学习核心分析框架AIGC何时突破工业红线关注数据算法和商业模式破局核心分析框架互联网大厂全面布局中小厂商主要发力中下游环节核心分析框架产业链各环节发展趋势核心分析框架大模型商业化初启小模型在部分领域已实现商业价值闭环核心分析框架总成本持续提升但同级别参数消耗量将显著下降一行业篇人工智能发展步入新阶段AIGC创造新机遇22每一轮人机交互的变革都会带来产业级投资机会AI发展历程期待算力数据算法的突破迈向强人工智能AGI阶段AIGC发展历程文本代码生成技术较成熟图片视频生成值得期待内容创作模式进化去中心化连接数量创作速度创作规模内容创作模式进化从供给转变为需求导向从单次转变为多次生产内容创作模式对比AIGC实现内容创作呈高质量大数量低成本趋势AIGC演进趋势辅助生产自动化独立创作请务必阅读报告附注中的风险提示和免责声明3目录二技术篇算力是支撑数据是核心算法逐步迎来突破30机器学习分为训练和推理数据决定上限算法逼近上限数据机器学习的核心也是机器学习的瓶颈算力随着模型参数量的提升算力需求显著增加AIGC生产力的革命AIGC模型参数量持续提升开源模型逐渐丰富NLP算法迎来突破但算力数据需求过高等问题待解决NLP算法Transformer开辟NLP新路径架构优化促成衍生模型ChatGPT史上用户数增长最快源于算法的突破高质量的数据库ChatGPT-算法当模型规模达到某个阈值时模型出现涌现能力ChatGPT-算法采用RLHF学习机制效果优于GPT-3的无监督学习ChatGPT-反思站在巨人的肩膀之上开源开放期待更多可能和变革三应用篇技术突破实现应用创新已在多领域落地42AIGC何时突破工业红线重点关注数据算法的突破和商业模式的发展AIGC应用已在影视传媒领域规模应用AIGC应用已在电商C端娱乐规模应用AIGC应用已在游戏领域逐步应用AIGC应用在金融计算机教育工业医疗等专业领域还在持续拓展AIGC应用在法律农业设计等专业领域还在持续拓展请务必阅读报告附注中的风险提示和免责声明4目录四企业布局科技巨头全面布局中下游厂商百花齐放49厂商布局互联网大厂全面布局中小厂商主要发力中下游环节产业链各环节发展趋势AIGC相关标的上游企业AIGC相关标的中游企业AIGC相关标的下游企业五商业模式商业化初启期待产业生态技术与产品发展完善58商业模式大模型商业化初启小模型在部分领域已实现商业价值闭环商业模式开始商业化尝试会员制按次收费为主成本测算-训练成本总成本持续提升但同级别参数消耗量将显著下降风险提示62请务必阅读报告附注中的风险提示和免责声明5核心分析框架请务必阅读报告附注中的风险提示和免责声明6核心分析框架每一轮人机交互的变革都会带来产业级投资机会变浏览器ARVR人机共生革PC操作系统搜索引擎智能手机IE浏览器网景浏览OculusQuestHTC人形机器人AIGC节MacintoshWindowsYahooGoogle等Iphone等点器等ViveHololens等等2007年苹果发布自PC2013年波士顿动力1984年苹果推出划时1993年NCSA中Mosaic1995年Yahoo公司正式2016年Facebook正式以来最具变革性的产发布初代Atlas代的Macintosh计算项目的负责人辞职并建成立2002年收购发售Oculusrift消费者品iphone2G大2022年Tesla预计发机不仅首次采用图立了网景通讯公司推Inktomi并将其网页搜版本被称为消费级部分操作都将由用户布Optimus原型机形界面的操作系统出网景浏览器1995年索技术融入雅虎官网VR设备元年2015年触控屏幕实现2022年11月OpenAI发并第一次使个人计算微软推出IE10浏览器1998年Google成立后索尼推出PlayStationiPhone4在外观显示布人工智能技术驱动机具有了多媒体处理作为Windows95的默认NetScape放弃ExciteVR2015年微软发布芯片均大幅改善并的自然语言处理工具能力1985年微软推浏览器改变了用户网开始使用Google的搜索混合现实的智能眼镜提供六轴动作感应ChatGPT出Windows系统上冲浪方式数据具备里程碑意义Hololens人机人机共生文字音鼠标键盘可点击鼠标键盘浏览器鼠标键盘搜索引触屏键盘人机交手势追踪Inside-交频视频3D策但交互模式单一且不聚合功能改善交互成擎的检索功能以人为互更加直观便捷人outOutside-in互略等交互模式融合智能人较为被动本中心降低精准信息处于主动地位眼球追踪等交互方模获取门槛式多元化沉浸感强智能化程度显著提升式产VRAR硬件产业链机器人硬件产业链光缆运营商浏览手机硬件产业链应业操作系统早期邮箱搜索引擎众多PC云计算边缘计算AI产业链模型算力器门户网站通讯用商店各大手机机早期超级计算中心等互联网网页应用等视频直播游戏应数据等下游应用软件等APP应用等会用等等资料来源36氪CompanyhistorydigitaltrendsIDGnewsservicelikecspayititiTechCPRthevergeVRcompare请务必阅读报告附注中的风险提示和免责声明7界面新闻甲子光年开源资讯国海证券研究所核心分析框架期待算力数据算法的突破迈向强人工智能AGI阶段规则导向机器学习深度学习自主学习1950s-1980s1980s-21世纪初期21世纪初期至今未来发展方向感知机专家系统支持向量机神经网络决策树多层神经网络模型基于大规模数据识别预测学习决策理论发展硬件奠基算法发展核心硬件发展算法突破算力数据算法全面突破运营营销决策金融风险评估医疗诊断等ASI始于1950s让计算机感知和理解现实世界兴盛于计算机硬件发决策式AI展与大数据出现始于1970s分析之后进行智能决策近年来才开始真正兴盛生成式AI生成各种数据图像语音等内感知式AI分析式AI容后决策式AI对生成内容进行分析和决始于1980s起源于分析式AI生成新的内容2022年迎来突破策实现更加全面和智能的应用1960s始于利用逻辑推理等方法AI进行分析和解决兴盛于机器学生成式习数字挖掘技术兴起文本识别语音识别自然语言生成图像生成图像识别等音乐生成等弱人工智能阶段强人工智能阶段超人工智能阶段ANIAGIASI资料来源智东西国海证券研究所请务必阅读报告附注中的风险提示和免责声明8核心分析框架AIGC与PGCUGC内容创作模式对比传统的PGC与UGC模式受到规模质量和成本的制约而AIGC则能够有效地弥补PGC与UGC模式的不足具有生成内容规模大质量高单位成本低的优势将会成为元宇宙场景下的主要内容生成模式从而为元宇宙建设提供内容支撑内容生成的数量内容生成的质量PGCUGCAIGCPGCUGCAIGC数量质量随着算法与模型不断优化AIGC80在算力与算法支撑下AIGC内容生成规模70生成内容的质量将会逐渐超过所受到的限制远低于PGC与UGCAIGC可70UGC与PGC以在极短时间内生成大量内容606050504040用户成为内容创作的主角PGC生产者的专业性保证了内容质量3030提升了互联网的内容生产规模2020内容生产来源于专业组织或个UGC模式下内容生产质量良莠不齐1010人内容规模有限00123456789101112131415123456789101112131415Web10Web20Web30阶段Web10Web20Web30阶段内容生成的总成本内容生成的单位成本PGCUGCAIGCPGCUGCAIGC总成本单位成本成本支出随着内容规模的增加而同比增长但总成本增长速度PCGUGCAIGCAIGC模式具有显著的规模递减优势1616其成本支出主要在于模型算法开发与1414硬件等固定成本领域所以在元宇宙1212场景下AIGC生成内容规模越大其1010单位内容生成的边际成本将会逐渐下88降且无限逼近于零6644PGC与UGC模式下单位内容生产成本下降幅度有限2200123456789101112131415123456789101112131415PGCUGCAIGC数量PGCUGCAIGC数量资料来源先利其器元宇宙场景下的AIGC及其GLAM应用机遇王诺等国海证券研究所请务必阅读报告附注中的风险提示和免责声明9核心分析框架机器学习分为训练和推理数据决定上限算法逼近上限机器学习可以分为训练和推理两个阶段训练是指使用已知数据集训练机器学习模型推理是指使用已训练好的模型对新的数据进行预测分类等任务数据和特征决定了机器学习的上限模型和算法逼近上限训练收集数据数据准备特征工程模型选择模型训练模型评估模型调优模型部署和应用网格搜索随机模型封装后导入生产包括数据收集预处理从原始数据自己写代码根据分类回环境进行推理无监督学习搜索贝叶斯优存储数据的质量和梳理提取有代表实现模型或归聚类等各化梯度优化API边缘集成监督学习对算法效果至关重要也性可解释使用现成的种问题有相应集成方法等选取部署部署部署强化学习是机器学习的瓶颈之一的特征框架评估指标最优参数组合批处理容器化提高模型性能部署部署推理数据预处理模型加载输入转换模型推理输出转换结果后处理结果展示深度学发布开源GitHub开发者功能特点受众习框架时间StarTensorFlow是工业型框架自成立以来一直端到端开源机器学习平台拥有全面而灵活的生态系统是面向部署的应用程序的首选框架谷歌英特尔ARMGE医疗Tensor其中包含各种工具库和社区资源包括自定义分布Google201511172kTensorFlowServing和TensorFlowLite可让用PayPal推特联想中国移动WPSFlow式训练图像文本音频结构化数据生成式模户轻松地在云服务器移动设备和IoT设等型理解强化学习tfEstimator等备上进行部署基于Torch的Python开源机器学习库包括分类器模型不仅能够实现强大的GPU加速同时还支持计算机视觉模型自然语言处理模型聊天机器人文动态神经网络这一点是现在很多主流框架MetaAmazonSalesforceStanfordPytorchMeta20169636k本生成等还提供了两个高级功能1具有强大的如TensorFlow都不支持的简单易用可以实University等GPU加速的张量计算如Numpy2包含自动求导系统现快速验证因此科研人员更为偏爱各大的深度神经网络期刊发表论文约80使用Pytorch集深度学习核心框架基础模型库端到端开发套件源于产业实践始终致力于与产业深入融合英特尔英伟达浪潮华为寒武纪Paddle百度20168198k工具组件和服务平台于一体包括开发与训练框架模目前飞桨已广泛应用于工业农业服务业中国联通中信银行中国南方电网Paddle型库模型预训练压缩工具及部署框架和引擎等服务406万开发者比特大陆深交所千千音乐等资料来源各框架官网EasyAIGitHub机器之心国海证券研究所注GitHubStar为截止2023313主体框架star数据请务必阅读报告附注中的风险提示和免责声明10核心分析框架数据是机器学习的核心也是机器学习的瓶颈数据决定了机器学习算法的性能泛化能力应用效果数据获取标注清洗存储也是机器学习瓶颈之一步骤定义成本占比特点展望主要来源1公共数据库API接口通过爬虫API接口数据采购等方等2企业自行收集爬虫问卷数据随着AI商用化提速加码数据反哺可用数据将越式从不同的数据源中获取数据例30访谈等3第三方数据供应商采购收集来越多数据获取边际成本将逐步降低如文本图像视频音频等4经授权的客户数据5平台模拟生成数据人工或半自动对原始数据进行标注1无监督学习无需数据标注部分简单无监督学习逐渐流行自动化程度逐步升高对于包括分类语义分割图像背景物数据机器学习平台可自动化标注简单数据集标注需求下降但专业领域和复杂数据数据人目标检测标注边界框关键40-502监督学习仍需标注数据集仍需要人工标注且人工单位成本更高随着人标注信息序列标注序列数据文本音3专业领域图像等复杂数据基本仍需工智能快速发展智能化程度的提升数据标注全频中类别实体关键字等人工标注面自动化也是有可能的目前数据清洗仍以手动为主但在某些数据较为标准化的场景中如日志数据网络流量分析一根据数据类型和需求进行缺失值处数据减少错误和不准确数据对模型的干扰般可以通过编写自动化的脚本或者使用一些现成的理异常值处理噪声处理重复数清洗提高模型准确性和可靠性工具来实现以去除无效或者重复的数据随着人据处理数据格式转换等工智能快速发展智能化程度的提升数据清洗全20-30面自动化也是有可能的数据分为训练集约60验证集将机器学习算法需要用到的数据保存约20测试集约20需要选需要选择合适的数据格式存储不同格式会影响读数据到磁盘或内存中以便后续的训练择合适的数据格式存储不同格式会影取速度空间占比等大规模数据集需要进行分割存储测试和预测响读取速度空间占比等大规模数据后存储集需要进行分割后存储资料来源专家调研AppenDefinedaiMindflowPhoenixNAPEasyAI国海证券研究所请务必阅读报告附注中的风险提示和免责声明11核心分析框架随着模型参数量的提升算力需求显著增加大模型的参数量整体呈上升趋势训练大模型的算力消耗上升且增速变快算力消耗每2个月翻倍算力消耗每34个月翻倍算力消耗每24个月翻倍摩尔定律GPU计算Pre-GPU计算资料来源量子位IntelligentComputingTheLatestAdvancesChallengesandFutureSHIQIANGZHU等国海证券研究所请务必阅读报告附注中的风险提示和免责声明12核心分析框架AIGC生产力的革命类型任务应用算法交互文本闲聊机器人文本交互游戏ChatGPTWritesonicConversionaiSnazzyAl生成式对抗网络GAN文本生成非交互文本结构化非结构化辅助性写作CopysmithCopyai彩云小梦等2014年提出由生成器网络Generator和判别DeepmusicAIVALandrIBMWatsonMusic器网络Discriminator组成相互博弈对抗音频生成语音克隆文本生成特定语音音乐生成等Magenta网易-有灵智能创作平台等不断提高生成样本真实性和判别器准确性优点生成样本质量高无需大量数据标注适用图像编辑修复风格转化图像生成AI绘GLIDEDiscoDiffusionBigSleepStarryAl于多种数据类型可用于数据增强图像生成画等VOMBODream百度文心ERNIE-VLG等缺点训练不稳定容易崩溃生成样本难控制需要大量计算资源容易过拟合视频编辑AI换脸特效删除特定主体GliacloudPencilVideoGPT百度智能视频合视频生成跟踪剪辑等自动剪辑等成平台VidPress慧川智能等多模态预训练模型目前主要是基于图像文本生成3D建模AR2019年提出多模态数据预训练实现多种模态数3D生成DreamFusionGET3D3DiM等VR3D打印等据的联合表示优点泛化能力数据利用率模型鲁棒性和可迁数字人移性高视频生成实时交互腾讯网易影谱科技硅基智能倒映有声等生成缺点数据算力需求大特定任务需调参元素生成游戏场景剧情NPC生成游戏生成rctAI超参数腾讯AILab网易伏羲等扩散模型Diffusion策略生成对战策略等2021年提出相较于GAN是图像生成领域的一大代码补全自动注释根据上下文注释自动CodexTabnineCodeT5PolycoderCogram进步不需要明确地计算数据的先验概率分布通代码生成生成代码等等过扩散来执行隐空间中的推断优点更加灵活建模样本多样性可控性更高跨模态目前主要是文本生成图像视频根据图像训练过程简单可扩展ChatGPT4百度文心阿里M6等生成视频生成文本等未来将有更多跨模态应用缺点数据算力需求大过程复杂模型鲁棒性较低资料来源量子位wuhu动画人空间数据派THUForbesGenerativeAdversarialNetworksGoodfellow等UsingPre-TrainingCan请务必阅读报告附注中的风险提示和免责声明13ImproveModelRobustnessandUncertaintyHendrycks等DiffusionModelsBeatGANsonImageSynthesisDhariwal等国海证券研究所核心分析框架ChatGPT史上用户数增长最快2015-11-112018-62019-2-142020-5-282022-1-272022-11-3020233ChatGPT发布OpenAI宣布成立GPT-1发布GPT-2发布GPT-3发布InstructGPT发布预计推出ChatGPT4基于GPT-35预训练初期为非盈利AI参数量117亿参数量15亿参数量1750亿参数量13亿预计为多模态大模模型型语音图像研究公司性质BooksCorpus数据Tokens为15BTokens为499B运用RHLF利用奖励集作为语料库截至2023年1月末视频启动资金10亿美学习在无明确结合少样本学模型训练学习模型Tokens为13B活跃用户超过1亿新必应已集成元监督情况下执习及无监督学在遵循指令及输出内结合无监督学习及行多种任务习成为史上用户增长ChatGPT4容等性能方面优于最快的应用有监督的微调GPT-3ChatGPT发布后市场反应热烈表象主因背后杰出的用户体验算法的突破算力数据人才资金的投入LLMlargelanguagemodel当模型规模超过某个阈值之后算力资金的投入GPT35训练阶段总算力消耗约3640PF-days10000GPU285000CPUChatGPT功能回答后续问题对于通用任务的效果会显著提升约使用个个承认错误质疑不正确的要求OpenAI耗费10亿美元租用Azure截止202301每个无监督学习Unsupervisedpre-training又称可预测学习ChatGPT1200以及拒绝不适当的请求月预计花费公司万美元该学习方式使得ChatGPT在无人工标注数据的条件训练数据更数据ChatGPT1训练数据来自公开的电子书理解用户输入信息意图回答多数据成本更低模型泛化能力更强ChatGPT2训练数据来自RedditChatGPT2训练数据内容完整有逻辑有条理重CoTChainofThought思维链该算法使得模型生成推理路径来自822预处理的CommonCrawl语料库135的点清晰并在敏感话题方面避免了无法回答的问题线上图书GPT1数据集及Bibliotik38Reddit真正做到多轮沟通对上下文RLHFReinforcementLearningFromHumanFeedback人类反OpenAI创始人技术团队OpenAI创始人均为科技有理解和记忆对话能力更强馈强化学习ChatGPT能够凭借强化学习的方式不断优化人类反人才现有375名正式员工OpenAI一年人员支出馈的语言模型高达8931万美元人均约为238万美元年人资料来源OpenAI官网ImprovingLanguageUnderstandingbyGenerativePre-TrainingAlecRadford等LanguageModelsareFew-ShotLearnersTomBBrown等TraininglanguagemodelstofollowinstructionswithhumanfeedbackLongOuyang等澎湃新闻Heise每日智汇GitHubWhatsinmyAIAlanDThompson通信世界网LifeArchitect芯东西国海证券研究所请务必阅读报告附注中的风险提示和免责声明14核心分析框架当模型规模达到某个阈值时模型出现涌现能力2020年1月OpenAl发表论文ScalingLawsforNeuralLanguageModels探模型讨模型效果与模型规模之间的关系误结论是模型的表现与模型的规模之间服差从PowerLaw即随着模型规模指数级上升模型性能实现线性增长算力消耗训练数据规模参数量PF-daystokensparameters数学运算音标标注填字谜波斯语问答准确率而在2022年8月Google发表论文EmergentAbilitiesofLargeLanguage事实信息问答绘制地图多任务自然语言理解上下文理解Models重新探讨了模型效果与模型规模之间的关系准结论是当模型规模达到某个阈值时模确型对某些问题的处理性能突然呈现快速增率长作者将这种现象称为Emergent模型规模Abilities即涌现能力ScalingLawsforNeuralLanguageModelsKaplanEmergentAbilitiesofLargeLanguageModelsWei资料来源等等请务必阅读报告附注中的风险提示和免责声明15国海证券研究所核心分析框架ChatGPT采用RLHF学习机制效果优于GPT-3的无监督学习GPT-3采用无监督学习机制优点在于无需人工进行数据标注可以节省模型训练成本模型泛化能力更强而ChatGPT采用RLHF学习机制即人工反馈的强化学习属于强化学习不同于传统的相比于传统的有监督学习机制ChatGPT无需提前对训练数据进行标注而只需要对人工对模型输出的结果进行评分从而可以节省人力虽然相比于GPT-3ChatGPT需要消耗一定的人力但是模型结果会更加符合人类偏好有监督学习vs无监督学习RLHF学习机制数据标注成本模型精度阶段1阶段2阶段3收集演示数据并训练通过人工标注训练数据来训练使用PPO强化学习法优化回报回报模型模型-根据RM评分结果更新完全监督学习所有数据都有标签模型高高预训练模型的参数随机从信息库抽标注一批模型产从用户提交的指取指令出及提示令问题中随机抽取一批新的命令含标签数据由监督模型初始专业的标注者对化PPO模型的参半监督学习中制定的提示给出数模型中高质量回答标注人员根据多PPO模型生成回无标签数据种标准对许多答答案从优到差进行排序用回报模型计算专业人员用标注前一阶段训练好数据来调优的模型给出的回GPT-35利用以上排序结答得到分数果来训练回报模无监督学习无标签的数据模型低低型回报分数策略梯度可以更新PPO模型参数资料来源竞科技甲子光年国海证券研究所请务必阅读报告附注中的风险提示和免责声明16核心分析框架AIGC何时突破工业红线关注数据算法和商业模式破局大模型通用型任务型行业级小模型专业领域细分行业大模型技术巨头第三方服务商AI企业参与方巨头微软谷歌meta百度阿里华为腾讯等商汤科大讯飞旷视云从依第三方服务商SaaS厂商其他技术厂商等图虹软格灵深瞳拓尔思等数据是瓶颈数据增强迁移学习数据合成数据要素市场实现数据共享数据反哺加速商业化飞轮1数据获取大模型所需数据量较大而现实世界缺乏大量且优质数据2数据存储传输管理海量数据训练读取和处理速度非常关键专业领域长尾场景数据较少算力是支撑短期-国内云厂商等均早有囤货布局长期-硬件进步算法优化并行计算量子计算商业价值闭环技术突破AI企业大模型往往需要大量计算资源且模型参数仍在快速膨胀但AI芯片全球短缺英伟达A100深耕垂直细分行业know-howH100被禁止向中国供货先发优势规模效应飞轮效应解决人才是关键挖角企业高校合作双轮驱动问题美国人工智能一直领先国内顶尖技术人才从数量质量都存在较大差距AI领域尤其是CV优秀的华人很多但更多的在谷歌微软Meta等企业北京的微软亚洲研究院的人才输出几乎撑起中国AI半壁江山技术成本前期训练成本数据成本人才成本后期使用的推理成商业价值闭环技术进步国家支持巨头推动生态建设市场化教育本与带来的增量或给企业实现海外软件生态成熟企业个人用户付费意愿更高国内市场无论是生态和市场都存在较大差距国内外目前商业模式付费逻辑尚未跑通降本增效相比还不足以驱动企业投入AI价值观伦理政治风险等从技术层面让AI更可控不要发展的那么快资料来源量子位InfoQ新智元国海证券研究所请务必阅读报告附注中的风险提示和免责声明17核心分析框架互联网大厂全面布局中小厂商主要发力中下游环节AIGC产业链图谱上游中游下游云计算IDC多模态NLP虚拟人电商游戏000977SZ浪潮信息300738SZ奥飞数据9888HK百度9988HK阿里巴巴300229SZ托尔思300785SZ值得买002624SZ完美世界9988HK阿里603019SH中科曙光9988HK阿里巴巴002230SZ科大讯飞002467SZ二六三0700HK腾讯控股9888HK百度集团9698HK万国数据0700HK腾讯控股9888HK百度集团688088SH虹软科技传媒300459SZ汤姆猫0700HK腾讯CDUS秦淮数据300612SZ宣亚国际002230SZ科大讯飞002362SZ汉王科技301270SZ汉仪股份未上市华为300418SZ昆仑万维688111SH金山办公300113SZ顺网科技300364SZ中文在线政务603466SH风语筑300058SZ蓝色光标未上市小冰公司000681SZ视觉中国300075SZ数字政通光模块688327SH云从科技002292SZ奥飞娱乐未上市倒映有声300781SZ因赛集团002530SZ金财互联300308SZ中际旭创2121HK创新奇智学术机构清华大学未上市相芯科技300624SZ万兴科技300502SZ新易盛CMSFTO微软未上市心识宇宙端应用220081SZ光迅科技MSFTOGOOGLO谷歌营销微软芯片GOOGLONVDAO英伟达301052SZ果麦文化谷歌300474SZ景嘉微服务器液冷METAOMeta3D生成002803SZ吉宏股份未上市写作猫9888HK百度集团600756SH浪潮信息未上市珍岛未上市聚力维度301171SZ易点天下未上市写作狐NVDAO英伟达300017SZ网宿科技视频生成未上市中科闻歌未上市盗梦师9988HK阿里巴巴000938SZ紫光股份代码生成688039SH当虹科技教育未上市澜舟科技未上市诗云科技688256SH寒武纪MSFTO微软0020HK商汤300081SZ恒信东方未上市ZMOai002405SZ四维图新数据供给方策略生成学术机构清华大学未上市迈吉客未上市影谱科技688981SH中芯国际688787SH海天瑞声未上市rctAI学术机构中国科学技未上市影谱科技虚拟人未上市帝视科技300182SZ未上市地平线未上市超参数科技术大学学术机构哈尔捷成股份未上市不咕剪辑滨工业大学002354SZ天娱数科资料来源量子位各公司官网互动易深圳市人工智能行业协会国海证券研究所请务必阅读报告附注中的风险提示和免责声明18核心分析框架产业链各环节发展趋势类型代表机构上游中游下游竞争优势算力数据大模型小模型行业合作内部赋能先发优势百度云百度各产品数据包括在文心大模型中的百度搜索百度文心大模型与B端企业有广泛合作具有较多的行业数据和专业知昆仑芯片行业合作伙伴数据各类行业模型百度各类产品的内容推荐识数据阿里云淘宝天猫电商数据电商搜索在大模型研发上具有资金和人阿里阿里M6大模型-合作较多平头哥芯片阿里云B端数据阿里云和企业服务才优势微信用户数据腾讯游戏AINPC具有较多的用户数据和娱乐内腾讯腾讯云腾讯视频新闻数据混元大模型腾讯游戏AI合作较少微信等产品的自媒体创作容数据互联网大厂腾讯游戏数据内容推荐全面布局华为云盘古大模型中的各类行深耕上游和中游华为手机用户数据盘古大模型合作较少较少海思芯片业模型赋能下游厂商搜索数据ImagenExTSAI赋能搜索业务同时快速积谷歌谷歌云谷歌学术-合作较少BardGooglePaLM等累新用户Youtube数据LayoutLMDiTOffice用户数据较多企业接入chatGPTchatGPTBingAI赋能搜索和办公业务同时微软Azure云以及OpenAI旗下-Bing搜索数据接口chatGPTOffice快速积累新用户的大模型清华大学学术机构合作方向主要为学术研政府支持中国科学技术大学哈尔主要通过外购互联网公开数据-中游为主究人才储备滨工业大学等行业know-how中游小模型厂商主要通过外购垂直行业数据-垂直行业模型中小厂商积累行业数据中下游为主客户粘性下游应用厂商主要通过外购垂直行业数据--用户粘性规模效应数据规模资金能力内部用户规模和业务数据行业Know-how先发优势政府补助数据质量技术能力积累业务和AI技术结合产业链核心竞争要素行业数据行业know-how前期研发投入数据获取成本人才储备的可行性通用型内容生成集中于大厂对外提供服务的同时头部效应通用类数据集中于大厂而垂头部效应百花齐放大厂而垂直行业解决内部赋能小厂采取外购产业链未来发展方向边际成本直行业数据分散方案百花齐放的方式更加经济资料来源澜舟科技AspenCore海思前瞻产业研究院IDC机器之心国海证券研究所请务必阅读报告附注中的风险提示和免责声明19核心分析框架大模型商业化初启小模型在部分领域已实现商业价值闭环大模型小模型MaaSModelasaService垂直行业解决方案1按调用次数或调3定制服务特定领域再商业模式2按年月订阅用量Tokens等开发将大模型和数据库打1纯软件及平台1一站式解决方案套餐收费收费包按项目收费面向用户企业机构个人企业机构细分行业企业标准化产品毛利率可达含外购硬件毛利率毛利率推理算力成本毛利率可达80含再开发项目实施费用9030-70OpenAI微软谷歌Meta百度阿里华为腾讯商汤科大讯飞商汤旷视云从依图虹软格提供商科大讯飞字节京东等灵深瞳云天励飞拓尔思海康威视等云厂商MaaSIaaS打替代翻译美工原画师大模型厂商自用实现增量或降包输出实现IaaS收入增长程序员分析师设计师垂直行业解决方案包括SDK产品一站式落地解决方案商业模式本增效和增量服务收入等繁琐重复的低端工作谷歌微软必应搜索引擎1企业开发者调用后自用大模型厂商SaaS厂商打智慧城市智慧交通智慧楼宇智慧园区智慧医疗智慧金融YouTube视频创作等阿里电商或个人用户自行调用基造更多可直接面向C端的产智慧生活智能制造等多领域均有企业布局在过去主要是感知营销产品腾讯企业微信腾讯于自身需求调用付费付费逻辑品SaaS厂商根据调用情分析决策式AI部分存在生成式AI已有部分行业实现商业价值会议相关产品等字节内容创作2为SaaS厂商提供产品付况付费闭环主要是传统软件收费逻辑不同行业略有不同等基于C端用户使用量内部付费费生态差距较大美国SaaS中美企业格局略有差异美国头部效应更为明显主要由细分行业差距不大且均有较大需求甚至厂商面向全球中国SaaS海外付费意识更高龙头或者科技巨头提供相关AI驱动的解决方案中国不局限于科技中美差距国内厂商的产品更加丰富多元行业尚在快速发展中巨头和行业龙头还有众多AI企业在众多细分行业领域布局资料来源国海证券研究所请务必阅读报告附注中的风险提示和免责声明20
 
Copyright © 2005 - 2021 Nxny.com All Rights Reserved 备案号:蜀ICP备15031742号-1