Agent 评测正在失真:基础设施噪声可能比模型能力更影响榜单
核心发现:6 个百分点的差距
为什么会这样
两层影响机制
第一层:减少基础设施错误(1x → 3x)
第二层:资源开始改变题目难度(3x → uncapped)
一个具体例子
资源限制会奖励不同类型的 Agent
SWE-bench 也不是完全免疫
对榜单的影响
对开发者和企业的启发
如果你在看榜单选型
如果你在做 Agent 评测
对国内团队的特别提醒
其他隐藏变量
结语
引用来源
本文首发地址 https://h89.cn/archives/571.html
本文基于 Anthropic 工程博客 Quantifying infrastructure noise in agentic coding evals 整理,原文发布于 2026 年 4 月。
如果你经常关注 Coding Agent 榜单,大概率会看到这样的结论:某个模型在 S