Anthropic

发布时间: 2026-04-15 23:04

阅读量: 358

核心发现：6 个百分点的差距为什么会这样两层影响机制第一层：减少基础设施错误（1x → 3x）第二层：资源开始改变题目难度（3x → uncapped）一个具体例子资源限制会奖励不同类型的 Agent SWE-bench 也不是完全免疫对榜单的影响对开发者和企业的启发如果你在看榜单选型如果你在做 Agent 评测对国内团队的特别提醒其他隐藏变量结语引用来源本文首发地址 https://h89.cn/archives/571.html 本文基于 Anthropic 工程博客 Quantifying infrastructure noise in agentic coding evals 整理，原文发布于 2026 年 4 月。如果你经常关注 Coding Agent 榜单，大概率会看到这样的结论：某个模型在 S

- 阅读剩余部分 -

Claude Code 源码深读：51 万行 TypeScript 被一个 source map 曝光

作者: 清霜辰

发布时间: 2026-04-11 21:51

阅读量: 491

分类: 工具,AGENT

一、代码全景：1900 文件的目录地图二、引擎核心：QueryEngine.ts 的流式工具循环 2.1 核心循环：消息 → 工具 → 消息 2.2 思考模式（Thinking） 2.3 重试与错误处理 2.4 Token 计数与费用追踪三、工具系统：40 个 Tool 的注册与权限沙箱 3.1 Tool 类型定义——所有工具的契约 3.2 ToolUseContext——工具执行的上下文宇宙 3.3 权限沙箱——三层规则 + 四种模式 3.4 工具注册表四、上下文管理：从 CLAUDE.md 到 Prompt Cache 4.1 系统上下文：5 个 git 命令并行执行 4.2 用户上下文：CLAUDE.md 的自动发现 4.3 三层记忆架构 4.4 Prompt Cache：静态/动态分割 4.5

- 阅读剩余部分 -

标签 Anthropic 下的文章

Agent 评测正在失真：基础设施噪声可能比模型能力更影响榜单

Claude Code 源码深读：51 万行 TypeScript 被一个 source map 曝光