标签 Agent 下的文章

一、四强并立 二、BYTEROVER:让 LLM 自己管理记忆 三、MemPalace:verbatim 哲学的极端实践 四、Mastra OM:极简架构反而最高分 五、四系统横向对比 六、benchmark 分数不是选型依据 七、选型建议 八、结语 本文首发地址 https://h89.cn/archives/597.html 2025 年 12 月,Hindsight 发了一篇论文,宣布自己在 LongMemEval 和 LoCoMo 两个 benchmark 上拿下 SOTA(State-of-the-Art)。Virginia Tech 复现了,The Washington Post 也复现了。MIT 开源,SDK 完整,Fortune 500 在用。 五个月后,它的 SOTA 位置已经被三个新系统抢走了。 但这不重要

- 阅读剩余部分 -

一、Agent Memory 的困境:RAG 和 Knowledge Graph 都卡在哪 二、Hindsight 的解法:仿生记忆三层架构 三、LLM 在 Hindsight 里不是只负责"聊天" 四、三个核心操作:Retain、Recall、Reflect Retain:不只是"存",而是"理解后存" Recall:四路检索 + 融合 + 重排 Reflect:从"回忆"到"学习"的关键 五、实战:5 分钟跑起来 纯嵌入模式(不用跑服务) 给 Claude Code 加记忆 六、性能数据:SOTA 是真的,但竞争在加剧 七、适合谁,不适合谁 八、总结 参考文献 本文首发地址 https://h89.cn/archives/598.html 你的 AI 客服记住了用户上周的问题,但再次遇到类似投诉时,它还是会按标准话术回复,

- 阅读剩余部分 -

整体架构 核心模块拆解 1. 多源采集:配置化接入,不硬编码 2. 热点发现:Embedding + DBSCAN 3. LLM 提炼:从 N 篇文章到 1 个结构化事件 4. 热度评分:不只是计数 5. 去重:48 小时滑动窗口 6. 实时推送:SSE 比 WebSocket 简单 踩过的坑 技术启示 参考文献 本文首发地址 https://h89.cn/archives/595.html 这个五一我哪也没去,在家把一个想了很久的项目做完了。 事情是这样的:每天早上刷 Twitter、Hacker News、微博、知乎、36氪……每个平台都有自己的热点,但它们散落各处。更烦的是,算法推荐的"猜你喜欢"往往让真正重要的事件被淹没在信息流里。刷半小时,感觉看了很多东西,但脑子里一团浆糊。 我不是缺新闻,我是缺组织好的信息。 五一假期第一天,我脑子里突然闪过一个念头:

- 阅读剩余部分 -

两张进化网络,还是两张孤岛 EvoMap:让 AI 的经验不再是一次性的 Hermes:每个实例都是一座孤岛 结构性困境:指数打线性,差距只会越来越大 Hermes 补得上这个差距吗 一份技术对比报告 时间线:晚了 5 周以上 三层记忆体系精确对应 12 组术语,一对一替换 10 步主循环,步步对齐 Hermes 的回应 接回去:为什么接入网络等于自曝 一个更大的问题:开源协议在 AI 洗代码面前失效了 后续 Evolver 的一段插曲 参考文献 本文首发地址 https://h89.cn/archives/589.html 你花三小时调通了一个 Python 环境报错,隔壁同事遇到同样的坑,还是得从头踩一遍。 AI Agent 也一样。经验怎么传承?这个问题,EvoMap 和 Nous Research 给出了完全不同的答案。 EvoMap 的 E

- 阅读剩余部分 -

先说结论 一、ADB:最底层、最可控的方案 二、uiautomator2:Python 圈的自动化神器 三、多模态 Mobile Agent:最接近"自动驾驶"的路 AppAgent(2023.12)— 多模态 Agent 开创性工作 四、最成熟可用的开源方案:mobilerun 五、实际踩坑:为什么你的 AI 手机控制总是翻车 1. 截图质量决定一切 2. 界面动态内容让 LLM 困惑 3. 隐私数据脱敏 4. 国产定制系统的兼容性问题 六、我的判断 参考文献 本文首发地址 https://h89.cn/archives/580.html 上周我把公司项目跑在 AI 手机控制上,结果有点意外——不是惊喜,是意外。 说白了,现在 AI 控制手机这事,概念很火,但真刀真枪跑起来,要么是玩具,要么是半成品。本文把目前所有主流技术路线摸了一遍,从 ADB

- 阅读剩余部分 -

核心发现:6 个百分点的差距 为什么会这样 两层影响机制 第一层:减少基础设施错误(1x → 3x) 第二层:资源开始改变题目难度(3x → uncapped) 一个具体例子 资源限制会奖励不同类型的 Agent SWE-bench 也不是完全免疫 对榜单的影响 对开发者和企业的启发 如果你在看榜单选型 如果你在做 Agent 评测 对国内团队的特别提醒 其他隐藏变量 结语 引用来源 本文首发地址 https://h89.cn/archives/571.html 本文基于 Anthropic 工程博客 Quantifying infrastructure noise in agentic coding evals 整理,原文发布于 2026 年 4 月。 如果你经常关注 Coding Agent 榜单,大概率会看到这样的结论:某个模型在 S

- 阅读剩余部分 -

1. 为什么需要 A2A:Agent 互操作的三层困境 2. 协议设计深度解析 2.1 Agent Card:Agent 的数字名片 2.2 通信协议:三种协议绑定 2.3 安全模型:Web 对齐而非重新发明 2.4 流式协作:Agent 的实时对话 3. AP2 支付协议:Agent 经济的基础设施 4. 云平台集成现状:Azure/AWS/GCP 已公开集成 5. A2A vs MCP vs OpenAPI:三层协议栈的分工与协作 6. 生产部署指南 6.1 认证配置要点 6.2 多租户部署 6.3 监控与可观测性 6.4 分页与大规模任务管理 7. 生态全景:从 SDK 到 Inspector 到 TCK 8. 看法与展望:A2A 的挑战与未来 值得肯定的 仍需观察的 展望 参考 本文首发地址 https://h89.cn/arc

- 阅读剩余部分 -

记忆的 1.0 时代:手动贴便签 (Agents.md) 记忆的 2.0 时代:从手动注入到持久化管理 技术深挖:应用层记忆,不等于模型层“有状态” Memory 常见是怎么实现的? 这对开发者意味着什么? 总结 本文首发地址 https://h89.cn/archives/534.html 最近在使用 Trae.ai 的时候,很多开发者可能都注意到了 Agent 侧边栏那个 Memories 图标。 如果你曾经为了让 AI 记住项目规范,不得不在每个对话框里重复“请使用 Compose 开发”“注意内存对齐”,那你大概会直观地感受到:记忆能力一旦做得好,交互成本会明显下降。 今天我们就来聊聊:AI 的记忆机制,是怎么从“手动补上下文”演进到“可复用的记忆管理”的? 记忆的 1.0 时代:手动贴便签 (Agents.md) 在 Trae、Cursor、Claud

- 阅读剩余部分 -