Polarity
Polarity 是专为 AI 智能体打造的最精准评估基础设施,能够捕捉传统提示层工具遗漏的故障模式。与常规评估平台不同,Polarity 在隔离的 Docker 沙箱中运行每个智能体任务,并配备真实的后端服务——确保您的智能体在测试阶段暴露问题,而非在生产环境中崩溃。
产品亮点
- 真实服务沙箱:使用真实的 Postgres、Redis、S3 及内部 API 运行智能体,而非模拟依赖,精准捕获引发真实故障的状态化行为
- 确定性复现:每次故障均附带种子复现器,一条命令即可在本地重建完全相同的沙箱环境
- 行为不变量:依据自定义规则与禁止模式对运行结果评分,通过并行副本测量非确定性
- 亚秒级冷启动:Keystone 仅需 214 毫秒即可启动沙箱环境,速度比竞品快 51 倍,支持数千个并行运行
- 完整轨迹回放:捕获每一次工具调用、字节读取和 CPU 周期,支持可编程二分定位以隔离故障步骤
应用场景
- 长时运行智能体评估:测试跨数据库事务、API 调用和文件操作累积状态的复杂多步骤智能体,时长可达数分钟或数小时
- 生产前门禁:当智能体违反不变量时自动阻止部署,使用真实评估数据而非合成基准
- 回归测试:一键将生产故障转化为永久评估数据集,防止重复出现的 Bug
- 性能优化:跨副本运行测量非确定性,识别不稳定行为和可靠性缺口
目标用户
Polarity 专为在生产环境中运行 AI 智能体的工程团队打造,尤其适用于具有复杂状态化工作流的场景——Braintrust、LangSmith 和 Langfuse 的模拟依赖方案在此类场景下容易遗漏关键故障模式。适合将可靠性置于原型开发速度之上的企业。