904· 65 forks· TypeScript· Apache-2.0开源替代

Superlog - AI 自愈式可观测性平台

superloglabs/superlog

YC 孵化的开源 AI 监控工具,自动聚合 OpenTelemetry 数据为事件并生成调查报告,让系统在你睡觉时自我修复

成熟度维护活跃,最近提交1天前,19个开放 issue,YC P26 孵化项目处早期阶段

项目体检

部署 · docker compose 一键启动(Postgres+ClickHouse+OTel Collector 三服务),Web 默认 5173 端口,API 4100,OTLP 接收 4101/4317/4318

成本 · 需 Node.js 20+、pnpm 9+、Docker,开箱即用无需外部 Key(社区版),ClickHouse 建议 8GB+ 内存

技术 · TypeScript + React(Vite) + Drizzle ORM,后端 Node.js,数据存储 Postgres + ClickHouse

许可 · Apache-2.0,可商用且允许修改分发,需保留版权声明

活跃 · 1天前刚提交,5位贡献者,18天内创建仓库属新项目但更新频繁

解决什么

传统监控工具会产生海量告警,工程师需要在凌晨三点爬起来翻日志找根因。Superlog 通过 AI 代理自动完成这个过程:接收 OpenTelemetry 标准的 traces、logs、metrics 后,用指纹算法将相似信号聚合成"事件"(incidents),然后启动 AI 代理自主调查,生成结构化报告甚至尝试修复。本质是把 SRE 的初步排查工作自动化,让人类只处理真正需要决策的问题。

为何火

  1. YC 背书:作为 Y Combinator P26 批次项目,天然获得创业圈关注
  2. AI 原生设计:不是在传统监控上加 ChatGPT,而是从架构层就围绕 Agent 编排设计
  3. 开源 + 开放标准:基于 OpenTelemetry 生态,避免厂商锁定,Apache 2.0 协议可自由商用
  4. 降噪刚需:Kubernetes 时代微服务爆炸,告警疲劳是普遍痛点,智能聚合直击要害

核心功能

  • OTLP 全栈接收:兼容 OpenTelemetry 协议的 traces/logs/metrics,无需改造现有埋点
  • 智能事件聚合:通过 fingerprint 算法将相似错误归类,减少 90% 重复告警
  • AI 代理调查:社区版提供基础 community runner 记录摘要,可插拔接入自定义 LLM 做深度分析
  • 本地优先设计:数据存储在自己的 Postgres + ClickHouse,符合合规要求
  • 技能系统:通过 npx skills add 让 AI 编码助手自动完成项目集成配置

安装

# 1. 克隆仓库
git clone https://github.com/superloglabs/superlog.git
cd superlog

# 2. 安装依赖(需 pnpm 9+)
pnpm install

# 3. 启动基础设施(Postgres + ClickHouse + OTel Collector)
docker compose up -d

# 4. 运行数据库迁移
pnpm --filter @superlog/db db:migrate

# 5. 启动开发服务器
pnpm dev

访问 http://localhost:5173 打开 Web 界面,应用通过 http://localhost:4101 发送 OTLP 数据。

适合谁

  • 中小型 SaaS 团队:需要可观测性但预算有限,自建比 Datadog 年费便宜
  • 合规敏感行业:金融/医疗等需要数据不出内网的场景
  • AI 探索者:想在监控领域试验 Agent 能力,代码库清晰可二次开发
  • OpenTelemetry 用户:已有 OTel 埋点,换个后端即可接入

不适合:超大规模(日均 TB 级日志)需定制 ClickHouse 集群;完全不懂 Docker 的个人开发者上手成本较高。

社区评价

HN 讨论热度较低(3 点 1 评论),联合创始人 Nico 在帖子下表示愿意答疑,但未见深度技术讨论。作为 18 天新项目,社区认知尚在建立期。以下为基于项目本身的中立评估:

技术亮点:架构分层清晰(proxy/api/worker 分离),用 Drizzle ORM 管理 schema 便于迁移,ClickHouse 做时序查询是业界标配选择。Agent runner 接口设计体现扩展性,允许用户接入 Claude/GPT-4 等不同模型。

潜在争议:社区版的 community runner 功能有限(仅记录摘要),核心 AI 能力可能在闭源的 Cloud 版。README 未明确说明开源版与商业版的功能边界,需进一步观察是否会走 "open-core 陷阱"(关键功能逐步闭源)。

选型对比

维度SuperlogDatadogGrafana + Loki
成本自托管免费,Cloud 版按用量年费数万美元起开源免费但需自己运维
AI 能力原生 Agent 自动调查有 Watchdog 但规则驱动无,需手动配置告警
数据主权完全自控存储在厂商完全自控
学习曲线中等(需懂 Docker + OTel)低(SaaS 开箱即用)高(需组合多个工具)
生态成熟度新项目,插件少成熟,集成 500+成熟,社区活跃

取舍建议:预算紧张且有运维能力选 Superlog;追求稳定省心选 Datadog;极客玩家选 Grafana 栈自己搭。

已知坑

  1. ClickHouse 资源占用:官方建议 ulimit nofile 26 万,实测 8GB 内存以下机器可能 OOM,生产环境建议 16GB+
  2. 社区版 AI 功能受限:默认 runner 只生成文本摘要,要实现"自愈"需自己对接 LLM API 并编写 skills
  3. 文档不全:README 提到 skills 系统但未给示例,需翻 superloglabs/skills 仓库学习
  4. 中文支持未知:UI 和 AI 输出均为英文,中文日志的指纹算法效果待验证
  5. 无现成告警通知:未见 Slack/钉钉集成说明,可能需自己通过 webhook 对接

中文用户特别注意:ClickHouse 在国内网络环境下 Docker 镜像拉取较慢,建议配置镜像加速;LLM API 若用 OpenAI 需梯子,国产模型(通义/文心)兼容性需自测。

安装方式:docker compose + pnpm