APIEval-20
APIEval-20 es el primer benchmark diseñado específicamente para evaluar la capacidad de los agentes de IA para generar suites de pruebas de API que realmente encuentren errores—utilizando únicamente un esquema y payload de ejemplo, sin acceso al código fuente ni documentación. Mide la capacidad de prueba de caja negra en 20 escenarios diversos que abarcan comercio electrónico, pagos, autenticación y más.
Aspectos Destacados
- Evaluación de Caja Negra: Prueba agentes de IA solo con esquema JSON y payload de ejemplo, reflejando cómo los desarrolladores reciben APIs en la práctica real.
- Tres Niveles de Complejidad de Errores: Mide la detección de errores estructurales simples, violaciones de restricciones moderadas y errores semánticos complejos de múltiples campos.
- Pruebas Automatizadas en Vivo: Cada caso de prueba se ejecuta contra implementaciones de API reales desplegadas, con puntuación objetiva y reproducible.
- Sistema de Puntuación Ponderado: Prioriza la detección de errores (70%), recompensa la cobertura exhaustiva (20%) y penaliza la ineficiencia (10%) para una evaluación realista.
- Cobertura Multidominio: 20 escenarios en 7 dominios de aplicación incluyendo pagos, gestión de usuarios, programación y búsqueda.
Casos de Uso
- Evaluación de Agentes de IA: Comparar agentes de prueba basados en LLM mediante un benchmark estandarizado y objetivo para generación de pruebas de API.
- Investigación en Automatización de QA: Desarrollar y validar nuevos enfoques para la generación automatizada de suites de pruebas para APIs REST.
- Selección de Herramientas: Tomar decisiones basadas en datos al elegir entre asistentes de codificación y agentes de prueba especializados.
Audiencia Objetivo
APIEval-20 atiende a investigadores de IA que construyen agentes de prueba, equipos de ingeniería que evalúan herramientas de automatización, y líderes de QA que buscan métricas objetivas para comparar el rendimiento de agentes con los estándares de prueba humana.