MolmoAct 2
MolmoAct 2 es un modelo de base robótico de código abierto que lleva el control de robots con capacidad de razonamiento a entornos del mundo real. Desarrollado por Ai2, supera a las alternativas propietarias en benchmarks de la industria manteniéndose completamente transparente para que investigadores puedan estudiarlo, extenderlo y desplegarlo.
Aspectos Destacados
- Razonamiento 3D Adaptativo: MolmoAct 2-Think utiliza tokens de percepción de profundidad con enrutamiento inteligente para razonar profundamente sobre la estructura espacial solo cuando es necesario, mejorando el rendimiento sin sacrificar velocidad.
- Inferencia 37 Veces Más Rápida: La latencia de llamada de acción se reduce de 6,700ms a solo 180ms (base) o 790ms (con razonamiento adaptativo), permitiendo una respuesta robótica casi en tiempo real.
- Manipulación Bimanual Lista para Usar: A diferencia de su predecesor, MolmoAct 2 incluye capacidades de coordinación de dos brazos directamente en el modelo base, sin necesidad de ajuste fino por tarea.
- Ecosistema Completamente Abierto: Los pesos del modelo, conjuntos de datos de entrenamiento (incluyendo el dataset MolmoAct 2-Bimanual YAM de 720 horas), código y el MolmoAct 2-FAST Tokenizer abierto están disponibles públicamente.
- Columna Vertebral de Razonamiento Encarnado: Construido sobre Molmo 2-ER, que alcanza 63.8 de promedio en 13 benchmarks de razonamiento encarnado, superando a GPT-5, Gemini 2.5 Pro y otros sistemas líderes.
Casos de Uso
- Automatización de Laboratorio: Despliegue en entornos de laboratorio húmedo para tareas precisas y repetitivas como flujos de trabajo de edición génica CRISPR, manejo de muestras y operación de equipos, probado con investigadores de la Escuela de Medicina de Stanford.
- Robótica Doméstica y de Servicio: Maneje organización de cocina, limpieza de mesas, doblado de toallas y manipulación de objetos en entornos domésticos no estructurados sin entrenamiento específico del entorno.
- Investigación y Desarrollo: Estudie y extienda un pipeline VLA (Visión-Lenguaje-Acción) completo y abierto, incluyendo arquitecturas de adaptador novedosas y mecanismos de razonamiento adaptativo.
- Despliegue de Robots de Bajo Costo: Aproveche la compatibilidad con hardware de código abierto asequible como los brazos SO-100/SO-101 para construir soluciones robóticas accesibles.
Público Objetivo
Investigadores en robótica, ingenieros de IA e instituciones académicas que buscan un modelo de base transparente y de alto rendimiento para IA encarnada. También ideal para ingenieros de automatización en laboratorios e industrias de servicios que necesitan capacidades de manipulación confiables sin depender de soluciones propietarias.