Игорь Градов
Игорь Градов
6 мин
ai

Мультимодальная нейросеть Zamba2-VL отвечает в 10 раз быстрее трансформеров: веса открыты

Microsoft второго июня запустила Project Solara — операционную систему, где ИИ-агенты заменяют привычные приложения, и впервые отдала управление машине, а не пользователю.

Мультимодальная нейросеть Zamba2-VL отвечает в 10 раз быстрее трансформеров: веса открыты

Компания Zyphra выложила в открытый доступ Zamba2-VL, семейство из трёх мультимодальных нейросетей, которые понимают картинки и текст одновременно, а отвечают на порядок быстрее привычных моделей того же размера благодаря гибридной архитектуре.

Почему это важно

Zamba2-VL сокращает время до первого токена (TTFT, задержку перед началом ответа) примерно в десять раз по сравнению с аналогичными по размеру моделями на чистом Transformer. Для телефонов, камер на складе и любых устройств без мощного сервера это разница между «ответил мгновенно» и «подвис на три секунды».

Мультимодальные нейросети, те, что читают и изображение, и текст, обычно строят на плотном Transformer. Каждый новый токен (минимальный фрагмент текста или картинки, который обрабатывает модель) удлиняет очередь, и время ответа растёт квадратично. Одна фотография в высоком разрешении добавляет тысячи токенов, а видеоклип уже десятки тысяч. Zyphra заменила этот языковой «движок» гибридом из слоёв Mamba2 (SSM, модель пространства состояний, обрабатывает последовательность за линейное, а не квадратичное время) и нескольких общих Transformer-блоков. О подробностях впервые рассказал MarkTechPost 12 июня 2025 года.

Что Когда Кто выпустил Цена
Zamba2-VL: модели на 1.2B, 2.7B и 7B параметров 12 июня 2025 Zyphra Бесплатно, открытые веса на Hugging Face

Три размера, одна схема внутри

  • Зрительная часть взята у Qwen2.5-VL Vision Transformer: двумерные позиционные эмбеддинги и нативная поддержка динамического разрешения. Простыми словами, модель не обрезает картинку до квадрата, а принимает её как есть.
  • Адаптер между «глазами» и «мозгом» модели представляет собой двухслойный MLP (маленькая нейросеть-переходник). Он переводит визуальные признаки в формат, понятный языковой части.
  • Языковая часть построена на гибриде Mamba2 и Transformer. Слои Mamba2 выполняют основную работу за линейное время. Между ними вставлены общие Transformer-блоки с уникальными LoRA-адаптерами (лёгкие настройки, позволяющие каждому блоку вести себя чуть иначе). Такой гибрид сохраняет способность «вспоминать» ранний контекст, которую чистые SSM-модели теряют.
  • Обучение проведено на 100 миллиардах токенов из открытых веб-датасетов, смесь визуально-текстовых и чисто текстовых данных. Токенизатор взят от Mistral v0.1.

Конструкция повторяет шаблон LLaVA: зрительный энкодер, адаптер, языковая модель. Отличие ровно одно: языковая модель гибридная, а не чисто трансформерная.

Где модель сильна, а где отстаёт?

Zyphra протестировала Zamba2-VL на 14 бенчмарках. Сравнивали с семействами Molmo2, Qwen3-VL и InternVL3.5.

  • Подсчёт объектов оказался козырем: Zamba2-VL-1.2B набрала 62.5 на PixMoCount. Для сравнения: InternVL3.5-1B показала 32.8, PerceptionLM-1B всего 17.7 (данные Zyphra).
  • Распознавание документов держится уверенно: модель 2.7B получила 90.9 на DocVQA (бенчмарк для ответов на вопросы по сканам документов).
  • Знаниеёмкие задачи (MMMU, MathVista) остаются слабым местом: здесь модели уступают более крупным конкурентам.

Картина неоднородная: считать предметы и читать документы Zamba2-VL умеет отлично, а вот сложные рассуждения на базе знаний пока не её сильная сторона.

Почему ответ приходит быстрее?

На входе из 32 000 токенов Zamba2-VL оказалась впереди всех сравниваемых моделей по соотношению «качество к задержке первого токена». По данным Zyphra, ни одна из Transformer-моделей в сравнении не вышла на ту же точность при похожей латентности: разрыв составил порядок величины.

Причина техническая: у Transformer KV-кэш (буфер ключей и значений) растёт с каждым токеном, и при длинном визуальном входе это превращается в узкое горлышко. Zamba2-VL хранит фиксированное по размеру рекуррентное состояние. Разница ощутимее всего на моделях 1.2B и 2.7B, именно они нацелены на работу прямо на устройстве: телефон, камера, «умная» касса.

Как попробовать?

  1. Откройте коллекцию Zyphra Zamba2-VL на Hugging Face. Там лежат все три модели: 1.2B, 2.7B и 7B.
  2. Установите форк библиотеки transformers от Zyphra (основан на версии 4.57.1) и зависимости. Понадобится CUDA-видеокарта для оптимизированных ядер Mamba2.
  3. Загрузите модель, подайте изображение и текстовый вопрос через класс Zamba2_VLProcessor. Пример кода для однокартиночного запроса опубликован в документации на GitHub.
  4. Для задач с многостраничными PDF или видео используйте модель 2.7B или 7B: линейное время обработки даёт выигрыш именно на длинных входах.

Код и команды установки полностью приведены в репозитории Zyphra на GitHub.

Сравнение с доступными в России инструментами

Параметр Zamba2-VL (1.2B/2.7B/7B) YandexGPT (облако) GigaChat (облако)
Мультимодальность Да, изображение плюс текст Да, с ограничениями Да, с ограничениями
Работа на устройстве Да, модели 1.2B и 2.7B Нет, только API Нет, только API
Открытые веса Да, Hugging Face Нет Нет
Латентность на длинном входе Порядок величины ниже Transformer-аналогов (данные Zyphra) Зависит от нагрузки облака Зависит от нагрузки облака
Русский язык О поддержке русского Zyphra не сообщала Родной Родной

Для авторов из РФ ключевое ограничение: Zamba2-VL обучена на англоязычных и мультиязычных веб-данных, но отдельно про русский язык в документации ничего не сказано. YandexGPT и GigaChat работают с русским «из коробки», однако обе модели закрытые и доступны только через облако.

Что делать с этим прямо сейчас, по ролям

Автору Дзена. Если вы используете мультимодальную нейросеть для описания скриншотов, обложек или инфографики, Zamba2-VL 2.7B может стать локальной заменой облачного API. Но проверьте качество на русском тексте в картинке: модель может ошибаться.

Разработчику мобильных и edge-приложений. Модель 1.2B на порядок быстрее по TTFT, чем Transformer-аналоги того же размера. Для задач распознавания документов, инвентаризации полок и подсчёта объектов на камере это практически реальное время без облака.

Предпринимателю в РФ и СНГ. Веса бесплатны, облако не нужно, но потребуется CUDA-видеокарта и инженер, который развернёт инференс (процесс получения ответа от модели). Для пилота по оцифровке накладных или чеков стоит попробовать DocVQA-сценарий на реальных данных.

Мнение редакции dzen.guru

Zamba2-VL показывает, зачем нужна гибридная архитектура: на коротких моделях (1.2B и 2.7B) выигрыш по скорости огромен, а качество на задачах подсчёта и документов вполне конкурентное. Я бы обратил внимание на два момента. Первый: знаниеёмкие задачи (математика, логика поверх энциклопедических знаний) пока слабее, чем у Qwen3-VL и InternVL3.5. Второй: русский язык в источнике не упомянут, и перед внедрением в продукт для российского рынка нужно тестировать руками. Если вы разработчик и хотите запустить распознавание документов прямо на устройстве без отправки данных в облако, скачайте модель 2.7B с Hugging Face и прогоните свои реальные сканы. Результат расскажет больше, чем любой бенчмарк.

Частые вопросы

Нужен ли мощный сервер, чтобы запустить Zamba2-VL?

Для модели 1.2B хватит устройства с CUDA-видеокартой: она рассчитана на телефоны и edge-платы. Модель 7B потребует более серьёзного GPU. Без видеокарты с CUDA оптимизированные ядра Mamba2 не дадут заявленной скорости.

Поддерживает ли модель русский язык?

Zyphra не указала русский язык в перечне поддерживаемых. Модель обучена на открытых веб-данных, где русские тексты встречаются, но качество работы с кириллицей не гарантировано. Перед использованием проверяйте на своих примерах.

Чем Zamba2-VL отличается от обычных мультимодальных нейросетей?

Главное отличие в языковой части: вместо стандартного Transformer используется гибрид Mamba2 (линейная модель пространства состояний) и нескольких Transformer-блоков. За счёт этого время до первого токена на длинных входах сокращается примерно в десять раз, при том что точность на задачах документов и подсчёта объектов остаётся конкурентной.

По материалам MarkTechPost

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Salesforce AI покупает платформу Fin за $3,6 млрд: Agentforce получит готового ИИ-агента
ai

Salesforce AI покупает платформу Fin за $3,6 млрд: Agentforce получит готового ИИ-агента

Salesforce 16 июня объявила о покупке платформы Fin, бывшей Intercom, за 3,6 млрд долларов, чтобы встроить готового ИИ-агента для клиентской поддержки в свою…

4 мин
ai

Белый дом заставил Anthropic отключить модели для сотен миллионов пользователей за выходные

Anthropic 12 июня получила предписание Белого дома заблокировать иностранный доступ к своим новейшим моделям Fable 5 и Mythos 5, а спустя часы отключила обе…

5 мин
ai

Anthropic отключила модели по приказу Белого дома: какие альтернативы Claude доступны сейчас

Microsoft, Google, открытые модели и российские сервисы покрывают почти все задачи, которые раньше решал Claude, и после инцидента с Anthropic самое время…

5 мин