Step 3.7 Flash
Step 3.7 Flash es un modelo de IA multimodal de alta eficiencia diseñado para aplicaciones agenticas del mundo real. Con una arquitectura de 196B parámetros y 11B parámetros activos, ofrece un rendimiento excepcional en codificación, razonamiento y comprensión visual manteniendo la velocidad y eficiencia de costos típica de los modelos Flash.
Aspectos Destacados
- Excelencia en Codificación Agéntica: Alcanza 56.3% en SWE-Bench Pro y 59.6% en Terminal-Bench 2.1, superando modelos Flash comparables de DeepSeek y Gemini mientras se aproxima a sistemas Pro de mayor escala.
- Comprensión Multimodal Nativa: Procesa y actúa sobre imágenes, documentos, gráficos y escenas naturales con uso integrado de herramientas para razonamiento visual completo.
- Capacidades Avanzadas de Búsqueda: Puntuación de 75.8% en BrowseComp y 47.2% en HLE con herramientas, permitiendo investigación profunda y síntesis de información multisource.
- Orquestación Confiable de Herramientas: Controla terminales, navegadores, herramientas Office y sistemas de búsqueda con mínima deriva y fallos en flujos de trabajo de largo alcance.
- Compatibilidad con Ecosistema de Agentes: Funciona perfectamente con Claude Code, KiloCode, Hermes Agent, OpenClaw y OpenCode con costos de integración reducidos.
Casos de Uso
- Desarrollo de Software: Agentes de codificación autónomos que escriben, depuran y despliegan código en entornos de desarrollo heterogéneos.
- Automatización Empresarial: Ejecución de tareas de largo alcance combinando procesamiento de documentos, análisis de datos y orquestación entre aplicaciones.
- Investigación y Análisis: Búsqueda profunda y síntesis a través de artículos académicos, documentación técnica y fuentes web en vivo.
- Interacción Visual-GUI: Automatización de teléfono y escritorio a través de percepción GUI, clics y verificación en múltiples aplicaciones.
Audiencia Objetivo
Step 3.7 Flash sirve a desarrolladores que construyen aplicaciones impulsadas por IA, equipos empresariales que automatizan flujos de trabajo complejos e investigadores que requieren razonamiento multimodal eficiente—ofreciendo rendimiento cercano a Pro con economía de nivel Flash.