Langfuse

开源的 LLM 应用观测与工程平台，帮助开发者追踪、评估、优化和管理大型语言模型应用的提示词、调用链路与性能

Langfuse是一个开源的 LLM 工程平台（Open Source LLM Engineering Platform），专注于帮助开发团队调试、评估、监控和改进大型语言模型（LLM）应用。

观测性（Observability）：基于 OpenTelemetry 标准，捕获完整的 LLM 调用链路（traces），包括嵌套调用、代理行为、检索等，帮助检查失败案例并构建评估数据集。
提示管理（Prompt Management）：版本化管理提示词，支持团队协作优化和快速回滚。
评估（Evaluations）：支持在线/离线评估、LLM-as-a-judge 等方式测试输出质量，并从生产数据中收集反馈。
指标监控（Metrics）：实时跟踪使用量、成本、延迟、token 消耗等，支持详细分析和性能优化。
其他：Playground 用于快速测试提示，数据集管理，实验比较等。

Langfuse 支持广泛集成，包括：

提供 Python 和 JS/TS SDK，开源 API，以及 OpenTelemetry 支持，几乎适用于任何 LLM 应用。