MolmoAct 2
MolmoAct 2 — это открытая фундаментальная модель робототехники, которая переносит способное к рассуждениям управление роботами в реальные условия. Созданная Ai2, она превосходит проприетарные альтернативы в отраслевых бенчмарках, оставаясь полностью прозрачной для исследователей, которые могут изучать, расширять и развёртывать её.
Ключевые особенности
- Адаптивное 3D-рассуждение: MolmoAct 2-Think использует токены восприятия глубины с интеллектуальной маршрутизацией для глубокого рассуждения о пространственной структуре только при необходимости, улучшая производительность без потери скорости.
- В 37 раз более быстрое логическое вывод: Задержка вызова действия снижена с 6700 мс до всего 180 мс (базовая) или 790 мс (с адаптивным рассуждением), обеспечивая почти реальное время отклика робота.
- Двуручная манипуляция из коробки: В отличие от предшественника, MolmoAct 2 включает возможности координации двух рук непосредственно в базовую модель, без необходимости тонкой настройки для каждой задачи.
- Полностью открытая экосистема: Веса модели, обучающие датасеты (включая 720-часовой датасет MolmoAct 2-Bimanual YAM), код и открытый MolmoAct 2-FAST Tokenizer доступны публично.
- Основа воплощённого рассуждения: Построена на Molmo 2-ER, который достигает среднего результата 63,8 в 13 бенчмарках воплощённого рассуждения, опережая GPT-5, Gemini 2.5 Pro и другие ведущие системы.
Сценарии использования
- Автоматизация лабораторий: Развёртывание в условиях мокрых лабораторий для точных, повторяющихся задач, таких как рабочие процессы редактирования генов CRISPR, обработка образцов и управление оборудованием — протестировано с исследователями Медицинской школы Стэнфорда.
- Бытовая и сервисная робототехника: Управление организацией кухни, уборкой столов, складыванием полотенец и манипулированием объектами в неструктурированных домашних условиях без специального обучения окружению.
- Исследования и разработка: Изучение и расширение полностью открытого конвейера VLA (зрение-язык-действие), включая новые архитектуры адаптеров и механизмы адаптивного рассуждения.
- Развёртывание роботов низкой стоимости: Использование совместимости с доступным оборудованием с открытым исходным кодом, таким как манипуляторы SO-100/SO-101, для создания доступных робототехнических решений.
Целевая аудитория
Исследователи в области робототехники, инженеры ИИ и академические учреждения, ищущие прозрачную, высокопроизводительную фундаментальную модель для воплощённого ИИ. Также идеально подходит для инженеров-автоматизаторов в лабораториях и сервисных отраслях, которым нужны надёжные возможности манипулирования без привязки к проприетарным решениям.