五一假期没出门,憋了个 AI 热点聚合系统
整体架构
核心模块拆解
1. 多源采集:配置化接入,不硬编码
2. 热点发现:Embedding + DBSCAN
3. LLM 提炼:从 N 篇文章到 1 个结构化事件
4. 热度评分:不只是计数
5. 去重:48 小时滑动窗口
6. 实时推送:SSE 比 WebSocket 简单
踩过的坑
技术启示
参考文献
本文首发地址 https://h89.cn/archives/595.html
这个五一我哪也没去,在家把一个想了很久的项目做完了。
事情是这样的:每天早上刷 Twitter、Hacker News、微博、知乎、36氪……每个平台都有自己的热点,但它们散落各处。更烦的是,算法推荐的"猜你喜欢"往往让真正重要的事件被淹没在信息流里。刷半小时,感觉看了很多东西,但脑子里一团浆糊。
我不是缺新闻,我是缺组织好的信息。
五一假期第一天,我脑子里突然闪过一个念头: