Мультимодальная нейросеть Zamba2-VL отвечает в 10 раз быстрее трансформеров: веса открыты
Microsoft второго июня запустила Project Solara — операционную систему, где ИИ-агенты заменяют привычные приложения, и впервые отдала управление машине, а не пользователю.

Компания Zyphra выложила в открытый доступ Zamba2-VL, семейство из трёх мультимодальных нейросетей, которые понимают картинки и текст одновременно, а отвечают на порядок быстрее привычных моделей того же размера благодаря гибридной архитектуре.
Zamba2-VL сокращает время до первого токена (TTFT, задержку перед началом ответа) примерно в десять раз по сравнению с аналогичными по размеру моделями на чистом Transformer. Для телефонов, камер на складе и любых устройств без мощного сервера это разница между «ответил мгновенно» и «подвис на три секунды».
Мультимодальные нейросети, те, что читают и изображение, и текст, обычно строят на плотном Transformer. Каждый новый токен (минимальный фрагмент текста или картинки, который обрабатывает модель) удлиняет очередь, и время ответа растёт квадратично. Одна фотография в высоком разрешении добавляет тысячи токенов, а видеоклип уже десятки тысяч. Zyphra заменила этот языковой «движок» гибридом из слоёв Mamba2 (SSM, модель пространства состояний, обрабатывает последовательность за линейное, а не квадратичное время) и нескольких общих Transformer-блоков. О подробностях впервые рассказал MarkTechPost 12 июня 2025 года.
| Что | Когда | Кто выпустил | Цена |
|---|---|---|---|
| Zamba2-VL: модели на 1.2B, 2.7B и 7B параметров | 12 июня 2025 | Zyphra | Бесплатно, открытые веса на Hugging Face |
Три размера, одна схема внутри
- Зрительная часть взята у Qwen2.5-VL Vision Transformer: двумерные позиционные эмбеддинги и нативная поддержка динамического разрешения. Простыми словами, модель не обрезает картинку до квадрата, а принимает её как есть.
- Адаптер между «глазами» и «мозгом» модели представляет собой двухслойный MLP (маленькая нейросеть-переходник). Он переводит визуальные признаки в формат, понятный языковой части.
- Языковая часть построена на гибриде Mamba2 и Transformer. Слои Mamba2 выполняют основную работу за линейное время. Между ними вставлены общие Transformer-блоки с уникальными LoRA-адаптерами (лёгкие настройки, позволяющие каждому блоку вести себя чуть иначе). Такой гибрид сохраняет способность «вспоминать» ранний контекст, которую чистые SSM-модели теряют.
- Обучение проведено на 100 миллиардах токенов из открытых веб-датасетов, смесь визуально-текстовых и чисто текстовых данных. Токенизатор взят от Mistral v0.1.
Конструкция повторяет шаблон LLaVA: зрительный энкодер, адаптер, языковая модель. Отличие ровно одно: языковая модель гибридная, а не чисто трансформерная.
Где модель сильна, а где отстаёт?
Zyphra протестировала Zamba2-VL на 14 бенчмарках. Сравнивали с семействами Molmo2, Qwen3-VL и InternVL3.5.
- Подсчёт объектов оказался козырем: Zamba2-VL-1.2B набрала 62.5 на PixMoCount. Для сравнения: InternVL3.5-1B показала 32.8, PerceptionLM-1B всего 17.7 (данные Zyphra).
- Распознавание документов держится уверенно: модель 2.7B получила 90.9 на DocVQA (бенчмарк для ответов на вопросы по сканам документов).
- Знаниеёмкие задачи (MMMU, MathVista) остаются слабым местом: здесь модели уступают более крупным конкурентам.
Картина неоднородная: считать предметы и читать документы Zamba2-VL умеет отлично, а вот сложные рассуждения на базе знаний пока не её сильная сторона.
Почему ответ приходит быстрее?
На входе из 32 000 токенов Zamba2-VL оказалась впереди всех сравниваемых моделей по соотношению «качество к задержке первого токена». По данным Zyphra, ни одна из Transformer-моделей в сравнении не вышла на ту же точность при похожей латентности: разрыв составил порядок величины.
Причина техническая: у Transformer KV-кэш (буфер ключей и значений) растёт с каждым токеном, и при длинном визуальном входе это превращается в узкое горлышко. Zamba2-VL хранит фиксированное по размеру рекуррентное состояние. Разница ощутимее всего на моделях 1.2B и 2.7B, именно они нацелены на работу прямо на устройстве: телефон, камера, «умная» касса.
Как попробовать?
- Откройте коллекцию Zyphra Zamba2-VL на Hugging Face. Там лежат все три модели: 1.2B, 2.7B и 7B.
- Установите форк библиотеки transformers от Zyphra (основан на версии 4.57.1) и зависимости. Понадобится CUDA-видеокарта для оптимизированных ядер Mamba2.
- Загрузите модель, подайте изображение и текстовый вопрос через класс
Zamba2_VLProcessor. Пример кода для однокартиночного запроса опубликован в документации на GitHub. - Для задач с многостраничными PDF или видео используйте модель 2.7B или 7B: линейное время обработки даёт выигрыш именно на длинных входах.
Код и команды установки полностью приведены в репозитории Zyphra на GitHub.
Сравнение с доступными в России инструментами
| Параметр | Zamba2-VL (1.2B/2.7B/7B) | YandexGPT (облако) | GigaChat (облако) |
|---|---|---|---|
| Мультимодальность | Да, изображение плюс текст | Да, с ограничениями | Да, с ограничениями |
| Работа на устройстве | Да, модели 1.2B и 2.7B | Нет, только API | Нет, только API |
| Открытые веса | Да, Hugging Face | Нет | Нет |
| Латентность на длинном входе | Порядок величины ниже Transformer-аналогов (данные Zyphra) | Зависит от нагрузки облака | Зависит от нагрузки облака |
| Русский язык | О поддержке русского Zyphra не сообщала | Родной | Родной |
Для авторов из РФ ключевое ограничение: Zamba2-VL обучена на англоязычных и мультиязычных веб-данных, но отдельно про русский язык в документации ничего не сказано. YandexGPT и GigaChat работают с русским «из коробки», однако обе модели закрытые и доступны только через облако.
Что делать с этим прямо сейчас, по ролям
Автору Дзена. Если вы используете мультимодальную нейросеть для описания скриншотов, обложек или инфографики, Zamba2-VL 2.7B может стать локальной заменой облачного API. Но проверьте качество на русском тексте в картинке: модель может ошибаться.
Разработчику мобильных и edge-приложений. Модель 1.2B на порядок быстрее по TTFT, чем Transformer-аналоги того же размера. Для задач распознавания документов, инвентаризации полок и подсчёта объектов на камере это практически реальное время без облака.
Предпринимателю в РФ и СНГ. Веса бесплатны, облако не нужно, но потребуется CUDA-видеокарта и инженер, который развернёт инференс (процесс получения ответа от модели). Для пилота по оцифровке накладных или чеков стоит попробовать DocVQA-сценарий на реальных данных.
Zamba2-VL показывает, зачем нужна гибридная архитектура: на коротких моделях (1.2B и 2.7B) выигрыш по скорости огромен, а качество на задачах подсчёта и документов вполне конкурентное. Я бы обратил внимание на два момента. Первый: знаниеёмкие задачи (математика, логика поверх энциклопедических знаний) пока слабее, чем у Qwen3-VL и InternVL3.5. Второй: русский язык в источнике не упомянут, и перед внедрением в продукт для российского рынка нужно тестировать руками. Если вы разработчик и хотите запустить распознавание документов прямо на устройстве без отправки данных в облако, скачайте модель 2.7B с Hugging Face и прогоните свои реальные сканы. Результат расскажет больше, чем любой бенчмарк.
Частые вопросы
Нужен ли мощный сервер, чтобы запустить Zamba2-VL?
Для модели 1.2B хватит устройства с CUDA-видеокартой: она рассчитана на телефоны и edge-платы. Модель 7B потребует более серьёзного GPU. Без видеокарты с CUDA оптимизированные ядра Mamba2 не дадут заявленной скорости.
Поддерживает ли модель русский язык?
Zyphra не указала русский язык в перечне поддерживаемых. Модель обучена на открытых веб-данных, где русские тексты встречаются, но качество работы с кириллицей не гарантировано. Перед использованием проверяйте на своих примерах.
Чем Zamba2-VL отличается от обычных мультимодальных нейросетей?
Главное отличие в языковой части: вместо стандартного Transformer используется гибрид Mamba2 (линейная модель пространства состояний) и нескольких Transformer-блоков. За счёт этого время до первого токена на длинных входах сокращается примерно в десять раз, при том что точность на задачах документов и подсчёта объектов остаётся конкурентной.
По материалам MarkTechPost

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Salesforce AI покупает платформу Fin за $3,6 млрд: Agentforce получит готового ИИ-агента
Salesforce 16 июня объявила о покупке платформы Fin, бывшей Intercom, за 3,6 млрд долларов, чтобы встроить готового ИИ-агента для клиентской поддержки в свою…
Белый дом заставил Anthropic отключить модели для сотен миллионов пользователей за выходные
Anthropic 12 июня получила предписание Белого дома заблокировать иностранный доступ к своим новейшим моделям Fable 5 и Mythos 5, а спустя часы отключила обе…
Anthropic отключила модели по приказу Белого дома: какие альтернативы Claude доступны сейчас
Microsoft, Google, открытые модели и российские сервисы покрывают почти все задачи, которые раньше решал Claude, и после инцидента с Anthropic самое время…
Комментарии