APIEval-20
APIEval-20 — это первый бенчмарк, специально разработанный для оценки способности ИИ-агентов генерировать наборы тестов API, которые действительно находят баги—используя только схему JSON и пример полезной нагрузки, без доступа к исходному коду или документации. Он измеряет возможности тестирования чёрного ящика в 20 разнообразных сценариях, охватывающих электронную коммерцию, платежи, аутентификацию и многое другое.
Ключевые особенности
- Оценка чёрного ящика: Тестирует ИИ-агентов только со схемой JSON и примером полезной нагрузки, отражая реальную практику получения API разработчиками.
- Три уровня сложности багов: Измеряет обнаружение простых структурных багов, умеренных нарушений ограничений и сложных семантических ошибок с несколькими полями.
- Автоматизированное живое тестирование: Каждый тестовый случай выполняется на реальных развёрнутых реализациях API с объективной, воспроизводимой оценкой.
- Взвешенная система оценки: Приоритет обнаружению багов (70%), поощрение полного покрытия (20%), штраф за неэффективность (10%).
- Многодоменное покрытие: 20 сценариев в 7 прикладных доменах, включая платежи, управление пользователями, планирование и поиск.
Сценарии использования
- Оценка ИИ-агентов: Сравнение тестовых агентов на основе LLM с использованием стандартизированного объективного бенчмарка.
- Исследования автоматизации QA: Разработка и валидация новых подходов к автоматической генерации тестовых наборов для REST API.
- Выбор инструментов: Принятие решений на основе данных при выборе между помощниками по кодированию и специализированными тестовыми агентами.
Целевая аудитория
APIEval-20 служит исследователям ИИ, создающим тестовых агентов, инженерным командам, оценивающим инструменты автоматизации, и руководителям QA, ищущим объективные метрики для сравнения производительности агентов с человеческими стандартами тестирования.