这是一个专注于大型语言模型(LLM)应用开发和测试的开源工具平台。
核心功能
- 提示工程测试与评估:允许开发者系统地测试和比较不同的提示(prompts)、模型(支持 GPT、Claude、Gemini、Llama 等)、RAG(检索增强生成)系统和代理(agents)。通过声明式 YAML 配置,快速运行评估,查看输出比较、成本、延迟等指标,并支持内置断言和 Web UI 可视化。
- AI 红队测试(Red Teaming):自动化模拟攻击,检测 LLM 应用的漏洞,如提示注入(prompt injection)、越狱(jailbreak)、数据泄漏、业务规则违反、有害内容生成等。利用社区威胁情报,覆盖 50+ 种漏洞类型。
- 安全性与企业级应用:帮助在开发阶段发现并修复 AI 风险,支持 CI/CD 集成、GitHub/GitLab/Jenkins、代理框架等。提供修复建议、持续监控,适用于构建安全的 AI 代理和 RAG 系统。
目标用户
- 开发者:快速迭代提示、本地测试。
- 安全团队和企业:大规模自动化红队测试,已被 Fortune 500 中的 85 家企业、OpenAI、Anthropic 等采用,社区超过 20 万开发者。
开源与商业版
- 开源核心(GitHub: promptfoo/promptfoo,星标超 5000+):免费使用 CLI 工具,命令如
npx promptfoo eval即可启动。 - 企业版:提供更高级的自动化红队、威胁情报、团队协作和集成功能。
Promptfoo 被广泛认为是 LLM 开发中的“单元测试框架”,帮助提升应用可靠性、安全性和性能。如果你正在开发基于 LLM 的应用(如聊天机器人、RAG 系统或 AI 代理),它是一个非常实用的工具。