APIEval-20
O APIEval-20 é o primeiro benchmark projetado especificamente para avaliar a capacidade de agentes de IA em gerar suites de teste de API que realmente encontram bugs—usando apenas um esquema e payload de exemplo, sem acesso ao código-fonte ou documentação. Ele mede a capacidade de teste de caixa-preta em 20 cenários diversos abrangendo e-commerce, pagamentos, autenticação e mais.
Destaques do Produto
- Avaliação de Caixa-Preta: Testa agentes de IA apenas com esquema JSON e payload de exemplo, refletindo como os desenvolvedores realmente recebem APIs na prática.
- Três Níveis de Complexidade de Bugs: Mede a detecção de bugs estruturais simples, violações de restrições moderadas e erros semânticos complexos de múltiplos campos.
- Testes Automatizados em Tempo Real: Cada caso de teste é executado contra implementações de API reais implantadas, com pontuação objetiva e reprodutível.
- Sistema de Pontuação Ponderado: Prioriza a descoberta de bugs (70%), recompensa a cobertura abrangente (20%) e penaliza a ineficiência (10%).
- Cobertura Multidomínio: 20 cenários em 7 domínios de aplicação incluindo pagamentos, gerenciamento de usuários, agendamento e busca.
Casos de Uso
- Avaliação de Agentes de IA: Comparar agentes de teste baseados em LLM usando um benchmark padronizado e objetivo para geração de testes de API.
- Pesquisa em Automação de QA: Desenvolver e validar novas abordagens para geração automatizada de suites de teste para APIs REST.
- Seleção de Ferramentas: Tomar decisões baseadas em dados ao escolher entre assistentes de codificação e agentes de teste especializados.
Público-Alvo
O APIEval-20 atende pesquisadores de IA que constroem agentes de teste, equipes de engenharia que avaliam ferramentas de automação e líderes de QA que buscam métricas objetivas para comparar o desempenho de agentes com os padrões de teste humanos.