Agent

2026 Agent 记忆系统之战：Hindsight 不再是 SOTA，然后呢？

作者: 清霜辰
发布时间: 2026-05-16 22:13
阅读量: 364
分类: AGENT
评论

一、四强并立二、BYTEROVER：让 LLM 自己管理记忆三、MemPalace：verbatim 哲学的极端实践四、Mastra OM：极简架构反而最高分五、四系统横向对比六、benchmark 分数不是选型依据七、选型建议八、结语本文首发地址 https://h89.cn/archives/597.html 2025 年 12 月，Hindsight 发了一篇论文，宣布自己在 LongMemEval 和 LoCoMo 两个 benchmark 上拿下 SOTA（State-of-the-Art）。Virginia Tech 复现了，The Washington Post 也复现了。MIT 开源，SDK 完整，Fortune 500 在用。五个月后，它的 SOTA 位置已经被三个新系统抢走了。但这不重要

- 阅读剩余部分 -

Hindsight 深度解析：为什么 Agent 有记忆，但还是不会学习？

作者: 清霜辰
发布时间: 2026-05-12 22:20
阅读量: 627
分类: AGENT
评论

一、Agent Memory 的困境：RAG 和 Knowledge Graph 都卡在哪二、Hindsight 的解法：仿生记忆三层架构三、LLM 在 Hindsight 里不是只负责"聊天" 四、三个核心操作：Retain、Recall、Reflect Retain：不只是"存"，而是"理解后存" Recall：四路检索 + 融合 + 重排 Reflect：从"回忆"到"学习"的关键五、实战：5 分钟跑起来纯嵌入模式（不用跑服务）给 Claude Code 加记忆六、性能数据：SOTA 是真的，但竞争在加剧七、适合谁，不适合谁八、总结参考文献本文首发地址 https://h89.cn/archives/598.html 你的 AI 客服记住了用户上周的问题，但再次遇到类似投诉时，它还是会按标准话术回复，

- 阅读剩余部分 -

五一假期没出门，憋了个 AI 热点聚合系统

作者: 清霜辰
发布时间: 2026-05-07 20:49
阅读量: 266
分类: AGENT
评论

整体架构核心模块拆解 1. 多源采集：配置化接入，不硬编码 2. 热点发现：Embedding + DBSCAN 3. LLM 提炼：从 N 篇文章到 1 个结构化事件 4. 热度评分：不只是计数 5. 去重：48 小时滑动窗口 6. 实时推送：SSE 比 WebSocket 简单踩过的坑技术启示参考文献本文首发地址 https://h89.cn/archives/595.html 这个五一我哪也没去，在家把一个想了很久的项目做完了。事情是这样的：每天早上刷 Twitter、Hacker News、微博、知乎、36氪……每个平台都有自己的热点，但它们散落各处。更烦的是，算法推荐的"猜你喜欢"往往让真正重要的事件被淹没在信息流里。刷半小时，感觉看了很多东西，但脑子里一团浆糊。我不是缺新闻，我是缺组织好的信息。五一假期第一天，我脑子里突然闪过一个念头：

- 阅读剩余部分 -

Hermes 的结构性困境：抄得到代码，抄不到网络

作者: 清霜辰
发布时间: 2026-05-05 20:27
阅读量: 363
分类: 工具,AGENT
评论

两张进化网络，还是两张孤岛 EvoMap：让 AI 的经验不再是一次性的 Hermes：每个实例都是一座孤岛结构性困境：指数打线性，差距只会越来越大 Hermes 补得上这个差距吗一份技术对比报告时间线：晚了 5 周以上三层记忆体系精确对应 12 组术语，一对一替换 10 步主循环，步步对齐 Hermes 的回应接回去：为什么接入网络等于自曝一个更大的问题：开源协议在 AI 洗代码面前失效了后续 Evolver 的一段插曲参考文献本文首发地址 https://h89.cn/archives/589.html 你花三小时调通了一个 Python 环境报错，隔壁同事遇到同样的坑，还是得从头踩一遍。 AI Agent 也一样。经验怎么传承？这个问题，EvoMap 和 Nous Research 给出了完全不同的答案。 EvoMap 的 E

- 阅读剩余部分 -

你的手机以后可以自己动了：实测 4 种 AI 控制方案

作者: 清霜辰
发布时间: 2026-04-25 21:49
阅读量: 672
分类: 安卓,工具,AGENT
评论

先说结论一、ADB：最底层、最可控的方案二、uiautomator2：Python 圈的自动化神器三、多模态 Mobile Agent：最接近"自动驾驶"的路 AppAgent（2023.12）— 多模态 Agent 开创性工作四、最成熟可用的开源方案：mobilerun 五、实际踩坑：为什么你的 AI 手机控制总是翻车 1. 截图质量决定一切 2. 界面动态内容让 LLM 困惑 3. 隐私数据脱敏 4. 国产定制系统的兼容性问题六、我的判断参考文献本文首发地址 https://h89.cn/archives/580.html 上周我把公司项目跑在 AI 手机控制上，结果有点意外——不是惊喜，是意外。说白了，现在 AI 控制手机这事，概念很火，但真刀真枪跑起来，要么是玩具，要么是半成品。本文把目前所有主流技术路线摸了一遍，从 ADB

- 阅读剩余部分 -

Agent 评测正在失真：基础设施噪声可能比模型能力更影响榜单

作者: 清霜辰
发布时间: 2026-04-15 23:04
阅读量: 380
分类: 工具,AGENT
评论

核心发现：6 个百分点的差距为什么会这样两层影响机制第一层：减少基础设施错误（1x → 3x）第二层：资源开始改变题目难度（3x → uncapped）一个具体例子资源限制会奖励不同类型的 Agent SWE-bench 也不是完全免疫对榜单的影响对开发者和企业的启发如果你在看榜单选型如果你在做 Agent 评测对国内团队的特别提醒其他隐藏变量结语引用来源本文首发地址 https://h89.cn/archives/571.html 本文基于 Anthropic 工程博客 Quantifying infrastructure noise in agentic coding evals 整理，原文发布于 2026 年 4 月。如果你经常关注 Coding Agent 榜单，大概率会看到这样的结论：某个模型在 S

- 阅读剩余部分 -

A2A v1.0 深度解读：Agent 发现、协作与安全机制全览

作者: 清霜辰
发布时间: 2026-04-13 22:22
阅读量: 603
分类: 工具,AGENT
评论

1. 为什么需要 A2A：Agent 互操作的三层困境 2. 协议设计深度解析 2.1 Agent Card：Agent 的数字名片 2.2 通信协议：三种协议绑定 2.3 安全模型：Web 对齐而非重新发明 2.4 流式协作：Agent 的实时对话 3. AP2 支付协议：Agent 经济的基础设施 4. 云平台集成现状：Azure/AWS/GCP 已公开集成 5. A2A vs MCP vs OpenAPI：三层协议栈的分工与协作 6. 生产部署指南 6.1 认证配置要点 6.2 多租户部署 6.3 监控与可观测性 6.4 分页与大规模任务管理 7. 生态全景：从 SDK 到 Inspector 到 TCK 8. 看法与展望：A2A 的挑战与未来值得肯定的仍需观察的展望参考本文首发地址 https://h89.cn/arc

- 阅读剩余部分 -

深度解析 Agent Memory 演进历程

作者: 清霜辰
发布时间: 2026-03-24 21:46
阅读量: 468
分类: 工具,AGENT
评论

记忆的 1.0 时代：手动贴便签 (Agents.md) 记忆的 2.0 时代：从手动注入到持久化管理技术深挖：应用层记忆，不等于模型层“有状态” Memory 常见是怎么实现的？这对开发者意味着什么？总结本文首发地址 https://h89.cn/archives/534.html 最近在使用 Trae.ai 的时候，很多开发者可能都注意到了 Agent 侧边栏那个 Memories 图标。如果你曾经为了让 AI 记住项目规范，不得不在每个对话框里重复“请使用 Compose 开发”“注意内存对齐”，那你大概会直观地感受到：记忆能力一旦做得好，交互成本会明显下降。今天我们就来聊聊：AI 的记忆机制，是怎么从“手动补上下文”演进到“可复用的记忆管理”的？记忆的 1.0 时代：手动贴便签 (Agents.md) 在 Trae、Cursor、Claud

- 阅读剩余部分 -

标签 Agent 下的文章