Polarity
Polarity AI एजेंट्स के लिए सबसे सटीक eval इंफ्रास्ट्रक्चर है, जो उन फेलियर मोड को पकड़ने के लिए डिज़ाइन किया गया है जो प्रॉम्प्ट-लेवल टूल्स मिस कर देते हैं। पारंपरिक eval प्लेटफॉर्म्स के विपरीत, Polarity प्रत्येक एजेंट टास्क को वास्तविक बैकिंग सर्विसेज (Postgres, Redis, S3, इंटरनल APIs) के साथ एक अलग Docker sandbox में चलाता है—यह सुनिश्चित करते हुए कि आपके एजेंट्स प्रोडक्शन में फेल होने से पहले टेस्टिंग में फेल हों।
प्रोडक्ट हाइलाइट्स
- रियल-सर्विस सैंडबॉक्स: मॉक्ड डिपेंडेंसी के बजाय वास्तविक Postgres, Redis, S3 और इंटरनल APIs के साथ एजेंट्स चलाएं, जो स्टेटफुल बिहेवियर को कैप्चर करता है जो असली फेलियर्स का कारण बनता है
- डिटर्मिनिस्टिक रिप्रोडक्शन: हर फेलियर के साथ एक सीड रिप्रोड्यूसर आता है जो एक कमांड से स्थानीय रूप से समान sandbox को री-क्रिएट करता है
- बिहेवियरल इनवेरिएंट्स: कस्टम रूल्स और फोर्बिडन पैटर्न्स के खिलाफ रन को स्कोर करें, पैरेलल रेप्लिका के माध्यम से नॉन-डिटर्मिनिज्म मापें
- सब-सेकंड कोल्ड बूट: Keystone 214ms में sandboxed एनवायरमेंट्स लॉन्च करता है—कॉम्पिटीटर् से 51x तेज़—हजारों पैरेलल रन तक स्केल करता है
- फुल ट्राजेक्टरी रिप्ले: हर टूल कॉल, हर बाइट रीड, और हर CPU साइकिल कैप्चर करें, फेलिंग स्टेप्स को आइसोलेट करने के लिए प्रोग्रामेबल बाइसेक्शन के साथ
उपयोग के मामले
- लॉन्ग-रनिंग एजेंट इवैलुएशन: कॉम्प्लेक्स मल्टी-स्टेप एजेंट्स का टेस्ट करें जहां स्टेट डेटाबेस ट्रांजैक्शन्स, API कॉल्स, और फाइल ऑपरेशंस के माध्यम से मिनटों या घंटों में जमा होता है
- प्री-प्रोडक्शन गेटिंग: जब एजेंट्स इनवेरिएंट्स वॉयलेट करें तो ऑटोमैटिकली डिप्लॉयमेंट्स ब्लॉक करें, सिंथेटिक बेंचमार्क्स के बजाय रियल eval डेटा का उपयोग करके
- रिग्रेशन टेस्टिंग: एक क्लिक में प्रोडक्शन फेलियर्स को परमानेंट eval डेटासेट में प्रमोट करें, रिकरिंग बग्स को रोकें
- परफॉरमेंस ऑप्टिमाइजेशन: रेप्लिका रन में नॉन-डिटर्मिनिज्म मापें ताकि फ्लेकी बिहेवियर और रिलायबिलिटी गैप्स को आइडेंटिफाई किया जा सके
लक्षित दर्शक
Polarity उन इंजीनियरिंग टीमों के लिए बनाया गया है जो प्रोडक्शन में AI एजेंट्स चलाते हैं—विशेष रूप से उनके साथ जो कॉम्प्लेक्स, स्टेटफुल वर्कफ्लोज़ हैं जहां Braintrust, LangSmith, और Langfuse का मॉक्ड-डिपेंडेंसी अप्रोच क्रिटिकल फेलियर मोड्स मिस कर देता है। उन कंपनियों के लिए आदर्श जो इनिशियल प्रोटोटाइपिंग की स्पीड से ज्यादा रिलायबिलिटी को प्राथमिकता देती हैं।