APIEval-20: AI Agent API Test Benchmark

APIEval-20

APIEval-20, AI ajanlarının gerçekten hata bulan API test paketleri oluşturma yeteneğini değerlendirmek için özel olarak tasarlanmış ilk benchmark'tır—kaynak kodu veya dokümantasyona erişim olmadan, yalnızca bir şema ve örnek yük kullanarak. E-ticaret, ödemeler, kimlik doğrulama ve daha fazlasını kapsayan 20 çeşitli senaryoda gerçek dünya kara kutu test yeteneğini ölçer.

Ürün Öne Çıkanları

Kara Kutu Değerlendirmesi: AI ajanlarını yalnızca JSON şeması ve örnek yük ile test eder, geliştiricilerin API'leri gerçekte nasıl aldığını yansıtır.
Üç Seviyeli Hata Karmaşıklığı: Basit yapısal hatalar, orta düzeyde kısıtlama ihlalleri ve karmaşık çok alanlı anlamsal hataların tespitini ölçer.
Otomatik Canlı Test: Her test senaryosu, gerçek dağıtılmış API uygulamalarına karşı çalıştırılır ve nesnel, tekrarlanabilir puanlama yapılır.
Ağırlıklı Puanlama Sistemi: Hata bulmayı önceliklendirir (%70), kapsamlı kapsamı ödüllendirir (%20) ve verimsizliği cezalandırır (%10).
Çok Alanlı Kapsam: Ödemeler, kullanıcı yönetimi, planlama ve arama dahil 7 uygulama alanında 20 senaryo.

Kullanım Senaryoları

AI Ajan Değerlendirmesi: API test oluşturma için standartlaştırılmış, nesnel bir benchmark kullanarak LLM tabanlı test ajanlarını karşılaştırma.
QA Otomasyon Araştırması: REST API'ler için otomatik test paketi oluşturma konusunda yeni yaklaşımlar geliştirme ve doğrulama.
Araç Seçimi: Kodlama asistanları ve uzmanlaşmış test ajanları arasında seçim yaparken veri odaklı kararlar alma.

Hedef Kitle

APIEval-20, test ajanları oluşturan AI araştırmacılarına, otomasyon araçlarını değerlendiren mühendislik ekiplerine ve ajan performansını insan QA standartlarıyla karşılaştırmak için nesnel metrikler arayan QA liderlerine hizmet eder.

APIEval-20.

APIEval-20 Hakkında Daha Fazla

APIEval-20

Ürün Öne Çıkanları

Kullanım Senaryoları

Hedef Kitle

Bunları da beğenebilirsiniz