APIEval-20 logo

APIEval-20.

वस्तुनिष्ठ स्कोरिंग से AI एजेंट की असली क्षमता जानें

APIEval-20 एक ब्लैक-बॉक्स बेंचमार्क है जो AI एजेंट्स की API टेस्टिंग क्षमता का मूल्यांकन करता है। ऑब्जेक्टिव स्कोरिंग के साथ Hugging Face पर उपलब्ध।

साप्ताहिक रैंक
▲ #19
वोट
327
प्लेटफॉर्म
Web / Mobile
लॉन्च किया गया
Recently
APIEval-20 screenshot

APIEval-20 के बारे में अधिक जानकारी

APIEval-20

APIEval-20 पहला बेंचमार्क है जिसे विशेष रूप से AI एजेंट्स की API टेस्ट सुइट जनरेशन क्षमता का मूल्यांकन करने के लिए डिज़ाइन किया गया है—केवल JSON स्कीमा और सैंपल पेलोड का उपयोग करके, बिना सोर्स कोड या डॉक्यूमेंटेशन के एक्सेस के। यह ई-कॉमर्स, पेमेंट्स, ऑथेंटिकेशन और अन्य क्षेत्रों के 20 विविध परिदृश्यों में रीयल-वर्ल्ड ब्लैक-बॉक्स टेस्टिंग क्षमता को मापता है।

प्रमुख विशेषताएं

  • ब्लैक-बॉक्स मूल्यांकन: केवल JSON स्कीमा और सैंपल पेलोड के साथ AI एजेंट्स का परीक्षण, जो वास्तविक दुनिया में डेवलपर्स को APIs प्राप्त होने के तरीके को दर्शाता है।
  • तीन-स्तरीय बग जटिलता: सरल संरचनात्मक बग्स, मध्यम बाधा उल्लंघन, और जटिल मल्टी-फील्ड सिमेंटिक त्रुटियों की पहचान को मापता है।
  • स्वचालित लाइव टेस्टिंग: प्रत्येक टेस्ट केस वास्तविक तैनात API कार्यान्वयन के विरुद्ध चलाया जाता है, जिसमें वस्तुनिष्ठ, पुनरावृत्ति योग्य स्कोरिंग होती है।
  • भारित स्कोरिंग प्रणाली: बग खोजने को प्राथमिकता (70%), व्यापक कवरेज को पुरस्कृत (20%), और अक्षमता को दंडित (10%) करता है।
  • बहु-क्षेत्र कवरेज: 7 एप्लिकेशन डोमेन में 20 परिदृश्य जिनमें पेमेंट्स, यूजर मैनेजमेंट, शेड्यूलिंग और खोज शामिल हैं।

उपयोग के मामले

  • AI एजेंट मूल्यांकन: LLM-आधारित टेस्टिंग एजेंट्स की API टेस्ट जनरेशन के लिए मानकीकृत, वस्तुनिष्ठ बेंचमार्क के साथ तुलना।
  • QA ऑटोमेशन रिसर्च: REST APIs के लिए स्वचालित टेस्ट सुइट जनरेशन के नए दृष्टिकोणों को विकसित और मान्य करना।
  • टूल चयन: कोडिंग असिस्टेंट्स और विशेषज्ञ टेस्टिंग एजेंट्स के बीच चुनते समय डेटा-आधारित निर्णय लेना।

लक्षित दर्शक

APIEval-20 AI शोधकर्ताओं, ऑटोमेशन टूल का मूल्यांकन करने वाली इंजीनियरिंग टीमों, और मानव QA मानकों के साथ एजेंट प्रदर्शन की तुलना के लिए वस्तुनिष्ठ मेट्रिक्स खोजने वाले QA लीडर्स की सेवा करता है।