标签 Anthropic 下的文章

核心发现:6 个百分点的差距 为什么会这样 两层影响机制 第一层:减少基础设施错误(1x → 3x) 第二层:资源开始改变题目难度(3x → uncapped) 一个具体例子 资源限制会奖励不同类型的 Agent SWE-bench 也不是完全免疫 对榜单的影响 对开发者和企业的启发 如果你在看榜单选型 如果你在做 Agent 评测 对国内团队的特别提醒 其他隐藏变量 结语 引用来源 本文首发地址 https://h89.cn/archives/571.html 本文基于 Anthropic 工程博客 Quantifying infrastructure noise in agentic coding evals 整理,原文发布于 2026 年 4 月。 如果你经常关注 Coding Agent 榜单,大概率会看到这样的结论:某个模型在 S

- 阅读剩余部分 -

一、代码全景:1900 文件的目录地图 二、引擎核心:QueryEngine.ts 的流式工具循环 2.1 核心循环:消息 → 工具 → 消息 2.2 思考模式(Thinking) 2.3 重试与错误处理 2.4 Token 计数与费用追踪 三、工具系统:40 个 Tool 的注册与权限沙箱 3.1 Tool 类型定义——所有工具的契约 3.2 ToolUseContext——工具执行的上下文宇宙 3.3 权限沙箱——三层规则 + 四种模式 3.4 工具注册表 四、上下文管理:从 CLAUDE.md 到 Prompt Cache 4.1 系统上下文:5 个 git 命令并行执行 4.2 用户上下文:CLAUDE.md 的自动发现 4.3 三层记忆架构 4.4 Prompt Cache:静态/动态分割 4.5

- 阅读剩余部分 -