小目录

Agenta

开源LLMOps平台，集成了提示词工程、LLM评估和可观测性功能，帮助团队快速构建生产级LLM应用。

开源多模型支持 LLM评估提示词管理+3

Betterprompt

一个用于测试LLM提示词的开源测试套件，通过计算困惑度来评估提示词质量

开源工具 LLM评估提示词测试困惑度计算+1

Confident AI

DeepEval LLM评估平台基准保护改进AI应用。

LLM评估回归测试端到端指标

Openlayer

AI治理平台评估可观察性ML/LLM系统自动化测试护栏。

AI治理 LLM评估数据质量