开场:视觉逼真不等于物理正确 架构概览:14B 参数的物理感知 Diffusion Transformer 一、数据:精选而非堆砌 二、物理偏好对齐:DPO 怎么用到视频生成 传统 SFT 的局限 解决方案:VLM 判别器 + Diffusion-DPO Diffusion-DPO 的实现 三、动作条件生成:精准控制还不忘本 四、评测体系:怎么证明模型真的懂物理 五、实验结果:力压 Google Veo 和 NVIDIA GigaWorld 六、技术启示 后续:它更像一块基础能力 参考文献 本文首发地址 https://h89.cn/archives/575.html 开场:视觉逼真不等于物理正确 Sora、Veo 这类视频生成模型在画面质量上已经接近真实拍摄,但把它们用在机器人系统里,问题立刻暴露: 机械臂直接穿透物体 抓取器在未接触时就"吸附"了目

- 阅读剩余部分 -

核心发现:6 个百分点的差距 为什么会这样 两层影响机制 第一层:减少基础设施错误(1x → 3x) 第二层:资源开始改变题目难度(3x → uncapped) 一个具体例子 资源限制会奖励不同类型的 Agent SWE-bench 也不是完全免疫 对榜单的影响 对开发者和企业的启发 如果你在看榜单选型 如果你在做 Agent 评测 对国内团队的特别提醒 其他隐藏变量 结语 引用来源 本文首发地址 https://h89.cn/archives/571.html 本文基于 Anthropic 工程博客 Quantifying infrastructure noise in agentic coding evals 整理,原文发布于 2026 年 4 月。 如果你经常关注 Coding Agent 榜单,大概率会看到这样的结论:某个模型在 S

- 阅读剩余部分 -

1. 为什么需要 A2A:Agent 互操作的三层困境 2. 协议设计深度解析 2.1 Agent Card:Agent 的数字名片 2.2 通信协议:三种协议绑定 2.3 安全模型:Web 对齐而非重新发明 2.4 流式协作:Agent 的实时对话 3. AP2 支付协议:Agent 经济的基础设施 4. 云平台集成现状:Azure/AWS/GCP 已公开集成 5. A2A vs MCP vs OpenAPI:三层协议栈的分工与协作 6. 生产部署指南 6.1 认证配置要点 6.2 多租户部署 6.3 监控与可观测性 6.4 分页与大规模任务管理 7. 生态全景:从 SDK 到 Inspector 到 TCK 8. 看法与展望:A2A 的挑战与未来 值得肯定的 仍需观察的 展望 参考 本文首发地址 https://h89.cn/arc

- 阅读剩余部分 -

一、代码全景:1900 文件的目录地图 二、引擎核心:QueryEngine.ts 的流式工具循环 2.1 核心循环:消息 → 工具 → 消息 2.2 思考模式(Thinking) 2.3 重试与错误处理 2.4 Token 计数与费用追踪 三、工具系统:40 个 Tool 的注册与权限沙箱 3.1 Tool 类型定义——所有工具的契约 3.2 ToolUseContext——工具执行的上下文宇宙 3.3 权限沙箱——三层规则 + 四种模式 3.4 工具注册表 四、上下文管理:从 CLAUDE.md 到 Prompt Cache 4.1 系统上下文:5 个 git 命令并行执行 4.2 用户上下文:CLAUDE.md 的自动发现 4.3 三层记忆架构 4.4 Prompt Cache:静态/动态分割 4.5

- 阅读剩余部分 -

一、缘起:8 小时黑客松,10 个月实战淬炼 二、AI 编程助手的核心痛点——你一定经历过 痛点 1:上下文窗口爆炸 痛点 2:令牌成本失控 痛点 3:会话信息丢失 痛点 4:重复劳动 痛点 5:单兵作战 三、ECC 是什么:不是插件,是系统 四、六大核心组件详解 4.1 Agents:38+ 个专业代理,各司其职 4.2 Skills:156+ 个领域技能,按需加载 4.3 Commands:72+ 个 legacy command shims,快速入口 4.4 Rules:常驻规则集,编码的底线 4.5 Hooks:事件驱动自动化 4.6 MCP:外部工具集成 五、持续学习 v2:让 AI 越用越懂你 v1:基于 Stop Hook 的模式提取 v2:基于 Instinct 的学习系统 六、多代理

- 阅读剩余部分 -

Hermes 在解决什么问题 为什么"长期运行"越来越重要 核心能力 1. 持久记忆 2. 自建技能与学习循环 3. 多平台触达 4. 灵活部署 v0.7.0 为什么值得注意 与常见 Coding Agent 的差别 与 OpenClaw 的对比 适合谁用 不适用场景 我的看法 引用来源 本文首发地址 https://h89.cn/archives/556.html 最近 Agent 圈里一个很值得关注的项目,是 Nous Research 的 hermes-agent。 它吸引我的地方,不是又一个"能调工具、能写代码、能调用模型"的 Agent。 而是它把重点放在了另一件事上:Agent 能不能长期运行、长期记住、长期变强。 这比单次演示难得多,也现实得多。 Hermes 在解决什么问题 今天很多 Agent

- 阅读剩余部分 -

1. 真正成熟的工程,会把启动速度当成架构问题 2. 好的扩展系统,不是接口多,而是抽象统一 3. 它最有价值的部分,不是 UI,而是把对话当成“会话引擎”来写 4. 它对并发很克制,而这种克制恰恰说明它成熟 结语 本文首发地址 https://h89.cn/archives/xxx.html 很多人看 Claude CLI 这份源码(gitee.com@chenjim/claude-code),先看功能:命令多不多,参数全不全,能不能用。 但真正让我多看几眼的,不是功能表有多长,而是复杂度已经这么高了,系统居然还没散。 它表面上是个命令行工具,背后其实扛着终端 UI、命令分发、工具调用、权限控制、技能与插件加载、长会话状态维护、上下文压缩、远程桥接、MCP 接入。这样的系统,难的从来不是把能力做出来,而是一路加功能时别失控。 这份源码里能看到一种很

- 阅读剩余部分 -

什么是 OpenClaw 环境准备 硬件要求 软件要求 几种部署路线怎么选 选型建议 Docker 部署 1. 创建项目目录 2. 创建 docker-compose.yml 3. 创建 .env 环境变量 4. 拉取镜像并启动 5. 验证部署 飞书对接 1. 创建飞书应用 2. 配置应用权限 3. 配置事件订阅 4. 发布应用 5. 设备配对 Nginx 反向代理 为什么需要反向代理 1. 添加独立 HTTPS 端口 2. 关键配置说明 3. 重载 Nginx 4. 访问地址 本地模型集成 使用 Ollama 本地模型 1. 部署 Ollama 2. 拉取模型 3. 配置 OpenClaw 使用 Ollama 常见问题排查 1. 镜像拉取失败 2. 配置解析错误 3. "pairing required" 错误 4. "co

- 阅读剩余部分 -