Promptfoo

一个开源的 LLM 提示工程测试与自动化工具,帮助开发者快速评估、优化和保障大型语言模型应用的可靠性与安全性

这是一个专注于大型语言模型(LLM)应用开发和测试的开源工具平台。

核心功能

  • 提示工程测试与评估:允许开发者系统地测试和比较不同的提示(prompts)、模型(支持 GPT、Claude、Gemini、Llama 等)、RAG(检索增强生成)系统和代理(agents)。通过声明式 YAML 配置,快速运行评估,查看输出比较、成本、延迟等指标,并支持内置断言和 Web UI 可视化。
  • AI 红队测试(Red Teaming):自动化模拟攻击,检测 LLM 应用的漏洞,如提示注入(prompt injection)、越狱(jailbreak)、数据泄漏、业务规则违反、有害内容生成等。利用社区威胁情报,覆盖 50+ 种漏洞类型。
  • 安全性与企业级应用:帮助在开发阶段发现并修复 AI 风险,支持 CI/CD 集成、GitHub/GitLab/Jenkins、代理框架等。提供修复建议、持续监控,适用于构建安全的 AI 代理和 RAG 系统。

目标用户

  • 开发者:快速迭代提示、本地测试。
  • 安全团队和企业:大规模自动化红队测试,已被 Fortune 500 中的 85 家企业、OpenAI、Anthropic 等采用,社区超过 20 万开发者。

开源与商业版

  • 开源核心(GitHub: promptfoo/promptfoo,星标超 5000+):免费使用 CLI 工具,命令如 npx promptfoo eval 即可启动。
  • 企业版:提供更高级的自动化红队、威胁情报、团队协作和集成功能。

Promptfoo 被广泛认为是 LLM 开发中的“单元测试框架”,帮助提升应用可靠性、安全性和性能。如果你正在开发基于 LLM 的应用(如聊天机器人、RAG 系统或 AI 代理),它是一个非常实用的工具。