>> 中信建投-资讯科技行业AI音乐:打通技术新路径,大模型时代加速发展-230511
上传日期: |
2023/5/12 |
大小: |
1762KB |
格式: |
pdf 共21页 |
来源: |
中信建投 |
评级: |
-- |
作者: |
孙晓磊,崔世峰 |
下载权限: |
此报告为加密报告 |
|
核心观点 计算机音乐因专业门槛相对高、结构化数据获取难度大,相比计算机视觉及自然语言处理发展较缓慢,随着大模型引发AI浪潮、硬件及基础设施快速升级,AI音乐迎来机遇:2023年2月谷歌推出MusicLM模型,尝试以Bert模型机制实现音乐数据的情景生成,结合早期基于RNN、VAEs、GANs的预训练模型,音色混音等难题得以攻克,上游数据标注领域也逐渐出现商业化工具。目前AI音乐发展的障碍在于核心版权资源高度分散,数字音乐行业版权壁垒高筑,原始录制文件无法从互联网直接获取,随着版权方投资入局,谷歌引领wav-to-wav类模型兴起,发展路径更加通畅,有望产生突破式进展。 硬件升级解锁新的技术路径,“暴力求解”模式解放AI音乐生产力。计算机音乐已经几十年发展历史,基于深度学习的音乐生成约在2015年起步,主流模型是VAEs、GANs等,行业玩家包括索尼等科技公司、Spotify等流媒体平台、乐器厂商、AI音乐初创公司等。2022年以来大模型浪潮推动AI基础设施发展,谷歌尝试用NLP生成方式训练音乐生成模型,验证了MLM方式在音乐生成任务中的可行性(传统AI音乐模型的基础理论主要是概率类),音色、混音等难题得以一并攻克。随着算力持续升级、调优迭代、数据量增加,模型有巨大的升级潜力。 核心痛点是版权音乐资源的封闭和分散,随着版权方积极入局、上游数据集行业发展,现状有望改善。音乐版权壁垒高筑,版权资源有严格的层级分发渠道,三大唱片厂拥有大部分流行音乐版权。不同于图文,互联网获取的音频丢失了大量创作细节,难用于结构化的再生成,长期以来主流模型使用的是以BGM、古典乐、游戏音乐为主的公版资源。近年来环球音乐、华纳音乐等老牌唱片公司积极投资AI音乐初创公司,有望释放更多商业AI数据资源;上游数据标注行业发展也将推动wav to wav模式下更多训练资源的产出,国内已经有慧听科技,海天瑞声等公司提供音乐数据服务,各众包平台也能提供定制化的标注服务。 公司方面,(1)版权方:包括环球音乐、华纳音乐、索尼音乐等,其中索尼音乐依托索尼集团,AI研发和商业化能力领先。(2)流媒体平台:Spotify、TME、云音乐、Apple Music等,研究主要围绕用户行为、歌曲识别等展开,长期有望受益于AI增量内容带来的全行业降本增效。(3)互联网公司:谷歌、微软、百度等,AI研究成果储备最多,有望持续推动前沿技术革新。(4)AI通用技术商和数据公司,比如商汤,科大讯飞,海天瑞声等。 风险分析 技术发展不及预期,初创公司经营风险;宏观经济下行,居民互联网娱乐支出减少;新的商业模式增加研发支出,回报存在不确定性;用户反馈不佳,获客不及预期;新模式受到付费用户抵制,免费+广告模式可能影响平台原有生态;新模式覆盖曲库较少,无法满足免费用户需求;市场竞争加剧;互联网娱乐业务受到政策来带的不确定性;股东减持风险;美联储鹰派超预期;数字内容创作进度不及预期;宏观经济及消费复苏不及预期导致整体需求不及预期。
|
|