>> 浙商证券-大模型评测框架暨AI投研系列之三:如何对比GPT5和DeepSeek谁更强?-250814
| 上传日期: |
2025/8/14 |
大小: |
1053KB |
| 格式: |
pdf 共5页 |
来源: |
浙商证券 |
| 评级: |
-- |
作者: |
陈奥林,肖植桐 |
| 下载权限: |
此报告为加密报告 |
|
|
核心观点 8月8日GPT-5发布,部分观点认为其性能方面的提升有限,测试中仅小幅领先竞品,亮点在编程能力提升和价格竞争力。而随着海内外大模型加速内卷,技术提升和市场营销的边界可能混淆。本文关注如何穿透指标,客观评价大模型的综合技术能力。 国内大模型开源浪潮加速“内卷”,性能优势吸人眼球 仅7月,就有Kimi K2、Qwen3-Coder、GLM-4.5等大模型重磅发布。以KimiK2-Instruct为例,官网表述模型性能大多优于最新开源和闭源模型:编程任务的评价框架为SWE-bench、LiveCodeBench、OJBench,数学/科学的评价框架为AIME2005、GPOA-Diamond,工具调用的评价框架为Tau2、AceBench,但使用者对上述评价框架可能并不熟悉。 大模型评测两大主流方式:表现超越基准模型、用户双盲打分投票 ①基准模型:哪怕AI出现之前,效果超越基准模型也是学术论文的传统目标。以引用量较多的经典框架为例:SWE-bench评测AI处理代码Bug的能力,收集GitHub真实需求,测试AI修改的代码能否解决问题,采用Bug解决率衡量模型能力。LiveCodeBench的逻辑类似,收集LeetCode等竞赛问题检验模型性能。AIME2025评测大模型在美国奥数题目表现,涵盖代数/几何/数论等领域。GPOADiamond关注生物/物理/化学高难度问题,其中GP代表Google-Proof,即仅靠搜索引擎无法得到题目答案。最后,针对Agent智能体,AceBench等框架通过多智能体交互模拟真实世界的多轮对话,评估模型的复杂任务处理能力。 ②用户打分:LMArena为代表的大模型双盲投票平台,形成“大众点评榜单”。用户向AI提出问题后,平台会提供两个大模型的回复结果,用户根据主观感受衡量模型表现并匿名投票,LMArena根据文本/代码/视觉等任务类型分类排名,官网动态实时更新大模型性能排行榜单。类似的用户口碑平台还有智源FlagEval等。 评测框架的问题和局限:排名榜单商业刷榜、静态基准模型刷题 一方面,排名榜单分数商业价值高且规则固定,刷榜行为不可避免。论文Leaderboard Illusion曾怀疑科技公司可能利用评测平台的规则漏洞,比如类似不公平抽样、对战数据不公开、用户不专业等,帮助自身大模型提高排名。更有甚者,可能存在厂商提供针对该类测评平台的“定制版本”,诱导用户更容易选择它。 另一方面,传统基准模型根本上还是静态题库,同样可以针对性调参和训练。如权威评测框架MMLU升级为MMLU-Pro的原因是原先的题目已没有区分度。为克服该问题,学界也有部分讨论,如引入动态互评机制的LLM-Crowdsourced,利用模型自主生成问题、独立作答、相互评分。HuggingFace、OpenCompass司南等评测体系超越单一题库,整合多个传统框架,更全面、多维度关注大模型能力。 如何应对:锚定模型在真实任务的可靠性与泛化能力 关键是匹配,自建金融任务测试样例,对比大模型垂直能力。大模型各有所长,如阅读理解重在推理、写代码重在Agent工具,应找到适合自己场景的大模型。我们利用不同模型测试本系列报告的研报总结、基金分析等任务,分析实战能力。 未来评价智能体Agent比评价大模型本身更复杂,综合4大维度验证性能。①输出结果:任务完成度/输出质量/资源效率;②过程能力:规划推理/记忆管理/工具调用/多智能体协作;③可靠性:生成稳定性、异常响应;④安全合规。 风险提示 AI模型和分析框架基于历史信息整理。AI模型发生参数微调和数据变动都可能导致性能和结果波动。AI生成的数据可能存在错漏导致结论偏差,误导投资决策。
|
|