Polarity
Polarity — это самая точная инфраструктура оценки для AI-агентов, разработанная для выявления режимов отказа, которые инструменты уровня промптов упускают. В отличие от традиционных платформ оценки, Polarity запускает каждую задачу агента в изолированном Docker-песочнице с реальными вспомогательными сервисами—гарантируя, что ваши агенты откажут в тестировании до того, как откажут в продакшене.
Ключевые особенности
- Песочницы с реальными сервисами: Запускайте агентов с настоящими Postgres, Redis, S3 и внутренними API вместо имитированных зависимостей, захватывая состояния, которые вызывают реальные отказы
- Детерминированное воспроизведение: Каждый отказ поставляется с воспроизводителем сида, который воссоздаёт идентичную песочницу локально одной командой
- Поведенческие инварианты: Оценивайте запуски по пользовательским правилам и запрещённым паттернам, измеряя недетерминизм через параллельные реплики
- Холодный старт менее секунды: Keystone запускает песочницы за 214 мс—в 51 раз быстрее конкурентов—масштабируясь до тысяч параллельных запусков
- Полное воспроизведение траекторий: Захватывайте каждый вызов инструмента, прочитанный байт и цикл процессора с программируемым делением пополам для изоляции неудачных шагов
Сценарии использования
- Оценка долгоживущих агентов: Тестируйте сложных многошаговых агентов, где состояние накапливается через транзакции баз данных, вызовы API и файловые операции в течение минут или часов
- Предпродакшен ворота: Автоматически блокируйте развёртывания, когда агенты нарушают инварианты, используя реальные данные оценки вместо синтетических бенчмарков
- Регрессионное тестирование: Превращайте продакшен-отказы в постоянные наборы данных для оценки одним кликом, предотвращая повторяющиеся баги
- Оптимизация производительности: Измеряйте недетерминизм между запусками реплик для выявления нестабильного поведения и пробелов в надёжности
Целевая аудитория
Polarity создан для инженерных команд, запускающих AI-агентов в продакшене—особенно для тех, у кого сложные stateful-рабочие процессы, где подход с имитированными зависимостями Braintrust, LangSmith и Langfuse упускает критические режимы отказа. Идеально для компаний, которые ставят надёжность выше скорости начального прототипирования.