Promptfoo

一个开源的 LLM 提示工程测试与自动化工具，帮助开发者快速评估、优化和保障大型语言模型应用的可靠性与安全性

这是一个专注于大型语言模型（LLM）应用开发和测试的开源工具平台。

提示工程测试与评估：允许开发者系统地测试和比较不同的提示（prompts）、模型（支持 GPT、Claude、Gemini、Llama 等）、RAG（检索增强生成）系统和代理（agents）。通过声明式 YAML 配置，快速运行评估，查看输出比较、成本、延迟等指标，并支持内置断言和 Web UI 可视化。
AI 红队测试（Red Teaming）：自动化模拟攻击，检测 LLM 应用的漏洞，如提示注入（prompt injection）、越狱（jailbreak）、数据泄漏、业务规则违反、有害内容生成等。利用社区威胁情报，覆盖 50+ 种漏洞类型。
安全性与企业级应用：帮助在开发阶段发现并修复 AI 风险，支持 CI/CD 集成、GitHub/GitLab/Jenkins、代理框架等。提供修复建议、持续监控，适用于构建安全的 AI 代理和 RAG 系统。

开源核心（GitHub: promptfoo/promptfoo，星标超 5000+）：免费使用 CLI 工具，命令如 npx promptfoo eval 即可启动。
企业版：提供更高级的自动化红队、威胁情报、团队协作和集成功能。

Promptfoo 被广泛认为是 LLM 开发中的“单元测试框架”，帮助提升应用可靠性、安全性和性能。如果你正在开发基于 LLM 的应用（如聊天机器人、RAG 系统或 AI 代理），它是一个非常实用的工具。