>> 财通证券-计算机行业投资策略周报:Kimi发布多模态思考模型k1.5,对标OpenAI o1-250125
上传日期: |
2025/1/26 |
大小: |
640KB |
格式: |
pdf 共8页 |
来源: |
财通证券 |
评级: |
-- |
作者: |
杨烨,王妍丹 |
行业名称: |
计算机 |
下载权限: |
此报告为加密报告 |
|
核心观点 Kimi发布多模态思考模型k1.5。2025年1月20日,Kimi发布了多模态思考模型k1.5,并且模型性能直接对标OpenAI满血版o1,在数学、代码、多模态推理能力等方面全方面追平,是OpenAI之外首个多模态o1模型。这是继去年11月他们发布k0-math数学模型,12月发布k1视觉思考模型之后,连续第三个月带来k系列强化学习模型的升级。根据Kimi发布的技术报告,在LongCoT模式下,Kimik1.5的数学、代码、多模态推理能力,达到了长思考SOTA模型OpenAIo1满血版的水平。这也是全球范围内,首次有OpenAI之外的公司达到。而在ShortCoT模式下,Kimik1.5大幅领先GPT-4o和Claude3.5的水平。 通过强化学习,实现高效长上下文RL训练。传统语言模型的预训练依赖“下一个词预测”范式,其性能受限于高质量静态数据的规模。尽管计算资源的扩展遵循Scaling Law,但数据瓶颈日益显著。为此,Kimi提出通过强化学习(Reinforment Learning,后文简称RL)解锁新维度:模型通过探索生成数据并基于奖励信号优化,突破静态数据限制。Kimi k1.5的核心目标是通过RL和多模态训练,构建一个兼具长上下文推理能力与高效部署潜力的模型。 引入Partial rollout技术,优化复杂推理能力。Kimi团队在模型训练中引入了“部分展开(Partial Rollout)”技术,该技术有效地提高了训练效率,通过复用训练轨迹(存储在replay buffer中),减少了计算资源的浪费。每一次训练迭代不仅包括模型的展开和储存,还能在下次迭代中继续利用之前的计算结果,确保效率的同时降低了资源消耗。这样的设计在需要处理长序列任务时,表现尤其突出。特别地,Kimi团队还在奖励模型中单独加入了代码执行服务,以提升编码领域的任务能力。 投资建议:建议重点关注基础设施领域的公司,如英伟达、海光信息、寒武纪、协创数据、英维克、中科曙光、浪潮信息、润泽科技、欧陆通、曙光数创、申菱环境、东阳光等,同时持续关注全球各大模型厂商、学界的创新进展。 风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险。
|
|