APIEval-20: Benchmark para Agentes de Testing de APIs

APIEval-20

APIEval-20 es el primer benchmark diseñado específicamente para evaluar la capacidad de los agentes de IA para generar suites de pruebas de API que realmente encuentren errores—utilizando únicamente un esquema y payload de ejemplo, sin acceso al código fuente ni documentación. Mide la capacidad de prueba de caja negra en 20 escenarios diversos que abarcan comercio electrónico, pagos, autenticación y más.

Aspectos Destacados

Evaluación de Caja Negra: Prueba agentes de IA solo con esquema JSON y payload de ejemplo, reflejando cómo los desarrolladores reciben APIs en la práctica real.
Tres Niveles de Complejidad de Errores: Mide la detección de errores estructurales simples, violaciones de restricciones moderadas y errores semánticos complejos de múltiples campos.
Pruebas Automatizadas en Vivo: Cada caso de prueba se ejecuta contra implementaciones de API reales desplegadas, con puntuación objetiva y reproducible.
Sistema de Puntuación Ponderado: Prioriza la detección de errores (70%), recompensa la cobertura exhaustiva (20%) y penaliza la ineficiencia (10%) para una evaluación realista.
Cobertura Multidominio: 20 escenarios en 7 dominios de aplicación incluyendo pagos, gestión de usuarios, programación y búsqueda.

Casos de Uso

Evaluación de Agentes de IA: Comparar agentes de prueba basados en LLM mediante un benchmark estandarizado y objetivo para generación de pruebas de API.
Investigación en Automatización de QA: Desarrollar y validar nuevos enfoques para la generación automatizada de suites de pruebas para APIs REST.
Selección de Herramientas: Tomar decisiones basadas en datos al elegir entre asistentes de codificación y agentes de prueba especializados.

Audiencia Objetivo

APIEval-20 atiende a investigadores de IA que construyen agentes de prueba, equipos de ingeniería que evalúan herramientas de automatización, y líderes de QA que buscan métricas objetivas para comparar el rendimiento de agentes con los estándares de prueba humana.

APIEval-20.

Más sobre APIEval-20

APIEval-20

Aspectos Destacados

Casos de Uso

Audiencia Objetivo

También te podría gustar