Superlog - AI 自愈式可观测性平台
superloglabs/superlog
YC 孵化的开源 AI 监控工具,自动聚合 OpenTelemetry 数据为事件并生成调查报告,让系统在你睡觉时自我修复
成熟度:维护活跃,最近提交1天前,19个开放 issue,YC P26 孵化项目处早期阶段
项目体检
部署 · docker compose 一键启动(Postgres+ClickHouse+OTel Collector 三服务),Web 默认 5173 端口,API 4100,OTLP 接收 4101/4317/4318
成本 · 需 Node.js 20+、pnpm 9+、Docker,开箱即用无需外部 Key(社区版),ClickHouse 建议 8GB+ 内存
技术 · TypeScript + React(Vite) + Drizzle ORM,后端 Node.js,数据存储 Postgres + ClickHouse
许可 · Apache-2.0,可商用且允许修改分发,需保留版权声明
活跃 · 1天前刚提交,5位贡献者,18天内创建仓库属新项目但更新频繁
解决什么
传统监控工具会产生海量告警,工程师需要在凌晨三点爬起来翻日志找根因。Superlog 通过 AI 代理自动完成这个过程:接收 OpenTelemetry 标准的 traces、logs、metrics 后,用指纹算法将相似信号聚合成"事件"(incidents),然后启动 AI 代理自主调查,生成结构化报告甚至尝试修复。本质是把 SRE 的初步排查工作自动化,让人类只处理真正需要决策的问题。
为何火
- YC 背书:作为 Y Combinator P26 批次项目,天然获得创业圈关注
- AI 原生设计:不是在传统监控上加 ChatGPT,而是从架构层就围绕 Agent 编排设计
- 开源 + 开放标准:基于 OpenTelemetry 生态,避免厂商锁定,Apache 2.0 协议可自由商用
- 降噪刚需:Kubernetes 时代微服务爆炸,告警疲劳是普遍痛点,智能聚合直击要害
核心功能
- OTLP 全栈接收:兼容 OpenTelemetry 协议的 traces/logs/metrics,无需改造现有埋点
- 智能事件聚合:通过 fingerprint 算法将相似错误归类,减少 90% 重复告警
- AI 代理调查:社区版提供基础
communityrunner 记录摘要,可插拔接入自定义 LLM 做深度分析 - 本地优先设计:数据存储在自己的 Postgres + ClickHouse,符合合规要求
- 技能系统:通过
npx skills add让 AI 编码助手自动完成项目集成配置
安装
# 1. 克隆仓库
git clone https://github.com/superloglabs/superlog.git
cd superlog
# 2. 安装依赖(需 pnpm 9+)
pnpm install
# 3. 启动基础设施(Postgres + ClickHouse + OTel Collector)
docker compose up -d
# 4. 运行数据库迁移
pnpm --filter @superlog/db db:migrate
# 5. 启动开发服务器
pnpm dev
访问 http://localhost:5173 打开 Web 界面,应用通过 http://localhost:4101 发送 OTLP 数据。
适合谁
- 中小型 SaaS 团队:需要可观测性但预算有限,自建比 Datadog 年费便宜
- 合规敏感行业:金融/医疗等需要数据不出内网的场景
- AI 探索者:想在监控领域试验 Agent 能力,代码库清晰可二次开发
- OpenTelemetry 用户:已有 OTel 埋点,换个后端即可接入
不适合:超大规模(日均 TB 级日志)需定制 ClickHouse 集群;完全不懂 Docker 的个人开发者上手成本较高。
社区评价
HN 讨论热度较低(3 点 1 评论),联合创始人 Nico 在帖子下表示愿意答疑,但未见深度技术讨论。作为 18 天新项目,社区认知尚在建立期。以下为基于项目本身的中立评估:
技术亮点:架构分层清晰(proxy/api/worker 分离),用 Drizzle ORM 管理 schema 便于迁移,ClickHouse 做时序查询是业界标配选择。Agent runner 接口设计体现扩展性,允许用户接入 Claude/GPT-4 等不同模型。
潜在争议:社区版的 community runner 功能有限(仅记录摘要),核心 AI 能力可能在闭源的 Cloud 版。README 未明确说明开源版与商业版的功能边界,需进一步观察是否会走 "open-core 陷阱"(关键功能逐步闭源)。
选型对比
| 维度 | Superlog | Datadog | Grafana + Loki |
|---|---|---|---|
| 成本 | 自托管免费,Cloud 版按用量 | 年费数万美元起 | 开源免费但需自己运维 |
| AI 能力 | 原生 Agent 自动调查 | 有 Watchdog 但规则驱动 | 无,需手动配置告警 |
| 数据主权 | 完全自控 | 存储在厂商 | 完全自控 |
| 学习曲线 | 中等(需懂 Docker + OTel) | 低(SaaS 开箱即用) | 高(需组合多个工具) |
| 生态成熟度 | 新项目,插件少 | 成熟,集成 500+ | 成熟,社区活跃 |
取舍建议:预算紧张且有运维能力选 Superlog;追求稳定省心选 Datadog;极客玩家选 Grafana 栈自己搭。
已知坑
- ClickHouse 资源占用:官方建议 ulimit nofile 26 万,实测 8GB 内存以下机器可能 OOM,生产环境建议 16GB+
- 社区版 AI 功能受限:默认 runner 只生成文本摘要,要实现"自愈"需自己对接 LLM API 并编写 skills
- 文档不全:README 提到 skills 系统但未给示例,需翻 superloglabs/skills 仓库学习
- 中文支持未知:UI 和 AI 输出均为英文,中文日志的指纹算法效果待验证
- 无现成告警通知:未见 Slack/钉钉集成说明,可能需自己通过 webhook 对接
中文用户特别注意:ClickHouse 在国内网络环境下 Docker 镜像拉取较慢,建议配置镜像加速;LLM API 若用 OpenAI 需梯子,国产模型(通义/文心)兼容性需自测。
安装方式:docker compose + pnpm