APIEval-20
APIEval-20, AI ajanlarının gerçekten hata bulan API test paketleri oluşturma yeteneğini değerlendirmek için özel olarak tasarlanmış ilk benchmark'tır—kaynak kodu veya dokümantasyona erişim olmadan, yalnızca bir şema ve örnek yük kullanarak. E-ticaret, ödemeler, kimlik doğrulama ve daha fazlasını kapsayan 20 çeşitli senaryoda gerçek dünya kara kutu test yeteneğini ölçer.
Ürün Öne Çıkanları
- Kara Kutu Değerlendirmesi: AI ajanlarını yalnızca JSON şeması ve örnek yük ile test eder, geliştiricilerin API'leri gerçekte nasıl aldığını yansıtır.
- Üç Seviyeli Hata Karmaşıklığı: Basit yapısal hatalar, orta düzeyde kısıtlama ihlalleri ve karmaşık çok alanlı anlamsal hataların tespitini ölçer.
- Otomatik Canlı Test: Her test senaryosu, gerçek dağıtılmış API uygulamalarına karşı çalıştırılır ve nesnel, tekrarlanabilir puanlama yapılır.
- Ağırlıklı Puanlama Sistemi: Hata bulmayı önceliklendirir (%70), kapsamlı kapsamı ödüllendirir (%20) ve verimsizliği cezalandırır (%10).
- Çok Alanlı Kapsam: Ödemeler, kullanıcı yönetimi, planlama ve arama dahil 7 uygulama alanında 20 senaryo.
Kullanım Senaryoları
- AI Ajan Değerlendirmesi: API test oluşturma için standartlaştırılmış, nesnel bir benchmark kullanarak LLM tabanlı test ajanlarını karşılaştırma.
- QA Otomasyon Araştırması: REST API'ler için otomatik test paketi oluşturma konusunda yeni yaklaşımlar geliştirme ve doğrulama.
- Araç Seçimi: Kodlama asistanları ve uzmanlaşmış test ajanları arasında seçim yaparken veri odaklı kararlar alma.
Hedef Kitle
APIEval-20, test ajanları oluşturan AI araştırmacılarına, otomasyon araçlarını değerlendiren mühendislik ekiplerine ve ajan performansını insan QA standartlarıyla karşılaştırmak için nesnel metrikler arayan QA liderlerine hizmet eder.