Polarity
Polarity, AI ajanları için en doğru değerlendirme altyapısıdır ve prompt düzeyi araçların kaçırdığı hata modlarını yakalamak üzere tasarlanmıştır. Geleneksel değerlendirme platformlarının aksine, Polarity her ajan görevini gerçek destek hizmetleriyle (Postgres, Redis, S3, dahili API'ler) izole bir Docker sandbox içinde çalıştırır—ajanlarınızın üretimde başarısız olmadan önce testte başarısız olmasını sağlar.
Ürün Öne Çıkanları
- Gerçek Hizmetli Sandbox'lar: Sahte bağımlılıklar yerine gerçek Postgres, Redis, S3 ve dahili API'lerle ajanları çalıştırın, gerçek hatalara neden olan stateful davranışları yakalayın
- Deterministik Yeniden Üretim: Her hata, tek bir komutla yerel olarak aynı sandbox'ı yeniden oluşturan bir seed reprodüser ile birlikte gelir
- Davranışsal Değişmezler: Özel kurallara ve yasaklanmış kalıplara karşı çalışmaları puanlayın, paralel kopyalar aracılığıyla non-determinizm ölçün
- Saniyenin Altında Soğuk Başlatma: Keystone, sandbox ortamlarını 214 ms'de başlatır—rakiplerden 51 kat daha hızlı—binlerce paralel çalışmaya ölçeklenir
- Tam Yörünge Yeniden Oynatma: Programlanabilir ikili arama ile başarısız adımları izole etmek için her araç çağrısını, okunan her baytı ve her CPU döngüsünü yakalayın
Kullanım Senaryoları
- Uzun Süreli Ajan Değerlendirmesi: Durumun veritabanı işlemleri, API çağrıları ve dosya işlemleri arasında dakikalar veya saatler boyunca biriktiği karmaşık çok adımlı ajanları test edin
- Üretim Öncesi Geçiş: Ajanlar değişmezleri ihlal ettiğinde sentetik kıyaslamalar yerine gerçek değerlendirme verilerini kullanarak dağıtımları otomatik olarak engelleyin
- Regresyon Testi: Üretim hatalarını tek tıklamayla kalıcı değerlendirme veri setlerine yükseltin, yinelenen hataları önleyin
- Performans Optimizasyonu: Dengesiz davranışları ve güvenilirlik boşluklarını belirlemek için kopya çalışmalar arasında non-determinizm ölçün
Hedef Kitle
Polarity, üretimde AI ajanları çalıştıran mühendislik ekipleri için inşa edilmiştir—özellikle Braintrust, LangSmith ve Langfuse'ın sahte bağımlılık yaklaşımının kritik hata modlarını kaçırdığı karmaşık, stateful iş akışlarına sahip olanlar için. İlk prototipleme hızından ziyade güvenilirliği önceliklendiren şirketler için idealdir.