首页 / 所有类别 / 开发者工具 / API测试与基准测试

APIEval-20.

让AI智能体精准捕捉每一个API漏洞

APIEval-20是专为API测试智能体设计的黑盒开源基准。基于JSON schema和单一样本生成测试套件，客观评估漏洞检测、覆盖率和效率。

AI智能体评估开放数据集黑盒测试

周排行

▲ #19

支持数

327

适配平台

Web / Mobile

上线时间

Recently

APIEval-20 screenshot

Favorite — quick open from Home.

更多关于 APIEval-20 的信息

APIEval-20

APIEval-20 是首个专门评估 AI 智能体生成 API 测试套件能力的基准测试——仅凭 JSON 模式和示例负载，无需源代码或文档访问权限，测试智能体发现真实缺陷的能力。它覆盖电商、支付、认证等 20 个真实场景，精准衡量黑盒测试的实际工程价值。

产品亮点

纯黑盒评估：仅提供 JSON 模式和示例负载，模拟开发者实际接收 API 的真实场景。
三级缺陷复杂度：从简单结构错误、中等约束违规到复杂多字段语义错误，全面检测智能体推理能力。
自动化实机测试：所有测试用例在真实部署的 API 上执行，评分客观可复现。
加权评分机制：缺陷发现占 70%、覆盖率 20%、效率 10%，贴近实际工程价值判断。
多领域场景：20 个场景涵盖 7 大应用领域，包括支付交易、用户管理、预约调度、搜索过滤等。

应用场景

AI 智能体评测：为 LLM 测试智能体提供标准化、客观的 API 测试生成能力评估基准。
自动化测试研究：为 REST API 自动化测试套件生成的新方法开发与验证提供平台。
工具选型决策：帮助团队基于数据选择编程助手与专业测试智能体。

目标用户

APIEval-20 面向构建测试智能体的 AI 研究人员、评估自动化工具的工程团队，以及寻求客观指标将智能体性能与人类 QA 标准对比的测试负责人。

你可能也喜欢

查看所有替代品 →

PandaProbeopen source agent engineering platform

VokerThe Agent Analytics Platform for AI Product Teams

AgentspanOpen-source runtime for durable AI agents

Monid 2.0OpenRouter for agent tools

FabraixFind gaps in your AI agents before users do

DrizzMobile tests that write, run, and fix themselves

Raindrop WorkshopOpen source, free, local debugger for AI agents.

TheneoThe API management platform for humans and agents

AgentRailA local control plane for AI coding agents

DocketVision-first QA testing across web and mobile

Cline SDKBuild coding agents with a plugin-based open-source runtime

Airbyte AgentsThe context layer for production-grade AI agent

SaolaAIAutonomous quality for engineering teams

Cleo AIAI Product Operator for AI-native teams

Gas City 1.0build your own software factory

APIEval-20：AI智能体API测试开源基准