APIEval-20
APIEval-20 adalah benchmark pertama yang dirancang khusus untuk mengevaluasi seberapa baik agen AI dapat membuat rangkaian pengujian API yang benar-benar menemukan bug—menggunakan hanya skema JSON dan contoh payload, tanpa akses ke kode sumber atau dokumentasi. Benchmark ini mengukur kemampuan pengujian black-box di dunia nyata melintasi 20 skenario API yang beragam, mencakup e-commerce, pembayaran, autentikasi, dan lainnya.
Sorotan Produk
- Evaluasi Black-Box: Menguji agen AI hanya dengan skema JSON dan contoh payload, mencerminkan bagaimana pengembang benar-benar menerima API dalam praktik nyata.
- Tiga Tingkat Kompleksitas Bug: Mengukur deteksi bug struktural sederhana, pelanggaran batasan sedang, dan kesalahan semantik multi-field yang kompleks.
- Pengujian Live Terotomatisasi: Setiap kasus uji dijalankan terhadap implementasi API yang benar-benar di-deploy, dengan penilaian yang objektif dan dapat direproduksi.
- Sistem Penilaian Berbobot: Mengutamakan penemuan bug (70%), memberikan imbalan untuk cakupan menyeluruh (20%), dan menghukum ketidakefisienan (10%).
- Cakupan Multi-Domain: 20 skenario di 7 domain aplikasi termasuk pembayaran, manajemen pengguna, penjadwalan, dan pencarian.
Kasus Penggunaan
- Evaluasi Agen AI: Membandingkan agen pengujian berbasis LLM menggunakan benchmark standar dan objektif untuk pembuatan pengujian API.
- Riset Otomasi QA: Mengembangkan dan memvalidasi pendekatan baru untuk pembuatan rangkaian pengujian otomatis untuk REST API.
- Pemilihan Alat: Membuat keputusan berbasis data saat memilih antara asisten pengkodean dan agen pengujian khusus.
Audiens Target
APIEval-20 melayani peneliti AI yang membangun agen pengujian, tim engineering yang mengevaluasi alat otomasi, dan pemimpin QA yang mencari metrik objektif untuk membandingkan kinerja agen dengan standar pengujian manusia.