Polarity
Polarity は、プロンプトレベルのツールが見逃す障害モードを捉えるために設計された、AI エージェント向けの最も正確な評価インフラストラクチャです。従来の評価プラットフォームとは異なり、Polarity は各エージェントタスクを実際のバッキングサービス(Postgres、Redis、S3、内部 API)を備えた分離された Docker サンドボックス内で実行します—エージェントが本番環境で障害を起こす前にテストで障害を起こすことを保証します。
製品のハイライト
- 実サービスサンドボックス: モックされた依存関係ではなく、実際の Postgres、Redis、S3、内部 API を使用してエージェントを実行し、実際の障害を引き起こすステートフルな動作を捉えます
- 決定論的再現: すべての障害に、1 つのコマンドで同じサンドボックスをローカルに再作成するシード再現ツールが付属します
- 動作的不変量: カスタムルールと禁止パターンに対して実行をスコアリングし、並列レプリカを介して非決定性を測定します
- サブ秒コールドブート: Keystone は 214 ミリ秒でサンドボックス環境を起動—競合他社より 51 倍高速—数千の並列実行にスケールします
- 完全なトラジェクトリリプレイ: すべてのツール呼び出し、読み取られたバイト、CPU サイクルをキャプチャし、プログラマブルな二分探索で障害ステップを分離します
ユースケース
- 長時間実行エージェント評価: データベーストランザクション、API 呼び出し、ファイル操作を通じて状態が数分から数時間にわたって蓄積する複雑なマルチステップエージェントをテストします
- 本番前ゲート: エージェントが不変量を違反したときに自動的にデプロイをブロックし、合成ベンチマークではなく実際の評価データを使用します
- 回帰テスト: 本番環境の障害をワンクリックで永続的な評価データセットに昇格させ、再発バグを防止します
- パフォーマンス最適化: レプリカ実行間の非決定性を測定し、不安定な動作と信頼性のギャップを特定します
ターゲットオーディエンス
Polarity は本番環境で AI エージェントを実行するエンジニアリングチーム向けに構築されています—特に Braintrust、LangSmith、Langfuse のモック依存関係アプローチが重要な障害モードを見逃す、複雑なステートフルワークフローを持つチームに適しています。初期プロトタイピングの速度よりも信頼性を優先する企業に最適です。