研报下载就选股票报告网
您好,欢迎来到股票分析报告网!登录   忘记密码   注册
>> 浙商证券-大模型评测框架暨AI投研系列之三:如何对比GPT5和DeepSeek谁更强?-250814
上传日期:   2025/8/14 大小:   1053KB
格式:   pdf  共5页 来源:   浙商证券
评级:   -- 作者:   陈奥林,肖植桐
下载权限:   此报告为加密报告
核心观点
  8月8日GPT-5发布,部分观点认为其性能方面的提升有限,测试中仅小幅领先竞品,亮点在编程能力提升和价格竞争力。而随着海内外大模型加速内卷,技术提升和市场营销的边界可能混淆。本文关注如何穿透指标,客观评价大模型的综合技术能力。
  国内大模型开源浪潮加速“内卷”,性能优势吸人眼球
  仅7月,就有Kimi K2、Qwen3-Coder、GLM-4.5等大模型重磅发布。以KimiK2-Instruct为例,官网表述模型性能大多优于最新开源和闭源模型:编程任务的评价框架为SWE-bench、LiveCodeBench、OJBench,数学/科学的评价框架为AIME2005、GPOA-Diamond,工具调用的评价框架为Tau2、AceBench,但使用者对上述评价框架可能并不熟悉。
  大模型评测两大主流方式:表现超越基准模型、用户双盲打分投票
  ①基准模型:哪怕AI出现之前,效果超越基准模型也是学术论文的传统目标。以引用量较多的经典框架为例:SWE-bench评测AI处理代码Bug的能力,收集GitHub真实需求,测试AI修改的代码能否解决问题,采用Bug解决率衡量模型能力。LiveCodeBench的逻辑类似,收集LeetCode等竞赛问题检验模型性能。AIME2025评测大模型在美国奥数题目表现,涵盖代数/几何/数论等领域。GPOADiamond关注生物/物理/化学高难度问题,其中GP代表Google-Proof,即仅靠搜索引擎无法得到题目答案。最后,针对Agent智能体,AceBench等框架通过多智能体交互模拟真实世界的多轮对话,评估模型的复杂任务处理能力。
  ②用户打分:LMArena为代表的大模型双盲投票平台,形成“大众点评榜单”。用户向AI提出问题后,平台会提供两个大模型的回复结果,用户根据主观感受衡量模型表现并匿名投票,LMArena根据文本/代码/视觉等任务类型分类排名,官网动态实时更新大模型性能排行榜单。类似的用户口碑平台还有智源FlagEval等。
  评测框架的问题和局限:排名榜单商业刷榜、静态基准模型刷题
  一方面,排名榜单分数商业价值高且规则固定,刷榜行为不可避免。论文Leaderboard Illusion曾怀疑科技公司可能利用评测平台的规则漏洞,比如类似不公平抽样、对战数据不公开、用户不专业等,帮助自身大模型提高排名。更有甚者,可能存在厂商提供针对该类测评平台的“定制版本”,诱导用户更容易选择它。
  另一方面,传统基准模型根本上还是静态题库,同样可以针对性调参和训练。如权威评测框架MMLU升级为MMLU-Pro的原因是原先的题目已没有区分度。为克服该问题,学界也有部分讨论,如引入动态互评机制的LLM-Crowdsourced,利用模型自主生成问题、独立作答、相互评分。HuggingFace、OpenCompass司南等评测体系超越单一题库,整合多个传统框架,更全面、多维度关注大模型能力。
  如何应对:锚定模型在真实任务的可靠性与泛化能力
  关键是匹配,自建金融任务测试样例,对比大模型垂直能力。大模型各有所长,如阅读理解重在推理、写代码重在Agent工具,应找到适合自己场景的大模型。我们利用不同模型测试本系列报告的研报总结、基金分析等任务,分析实战能力。
  未来评价智能体Agent比评价大模型本身更复杂,综合4大维度验证性能。①输出结果:任务完成度/输出质量/资源效率;②过程能力:规划推理/记忆管理/工具调用/多智能体协作;③可靠性:生成稳定性、异常响应;④安全合规。
  风险提示
  AI模型和分析框架基于历史信息整理。AI模型发生参数微调和数据变动都可能导致性能和结果波动。AI生成的数据可能存在错漏导致结论偏差,误导投资决策。
  
 
Copyright © 2005 - 2021 Nxny.com All Rights Reserved 备案号:蜀ICP备15031742号-1