APIEval-20
APIEval-20 是首个专门评估 AI 智能体生成 API 测试套件能力的基准测试——仅凭 JSON 模式和示例负载,无需源代码或文档访问权限,测试智能体发现真实缺陷的能力。它覆盖电商、支付、认证等 20 个真实场景,精准衡量黑盒测试的实际工程价值。
产品亮点
- 纯黑盒评估:仅提供 JSON 模式和示例负载,模拟开发者实际接收 API 的真实场景。
- 三级缺陷复杂度:从简单结构错误、中等约束违规到复杂多字段语义错误,全面检测智能体推理能力。
- 自动化实机测试:所有测试用例在真实部署的 API 上执行,评分客观可复现。
- 加权评分机制:缺陷发现占 70%、覆盖率 20%、效率 10%,贴近实际工程价值判断。
- 多领域场景:20 个场景涵盖 7 大应用领域,包括支付交易、用户管理、预约调度、搜索过滤等。
应用场景
- AI 智能体评测:为 LLM 测试智能体提供标准化、客观的 API 测试生成能力评估基准。
- 自动化测试研究:为 REST API 自动化测试套件生成的新方法开发与验证提供平台。
- 工具选型决策:帮助团队基于数据选择编程助手与专业测试智能体。
目标用户
APIEval-20 面向构建测试智能体的 AI 研究人员、评估自动化工具的工程团队,以及寻求客观指标将智能体性能与人类 QA 标准对比的测试负责人。