Игорь Градов

21 июня 2026 г. в 06:30 МСК5 мин

Embeddings модели Liquid AI на 350M параметров обошли аналоги вдвое крупнее

Liquid AI на этой неделе выпустила две компактные модели поиска, LFM2.5-ColBERT-350M и LFM2.5-Embedding-350M, которые ищут по текстам на 11 языках, весят всего 350 миллионов параметров и запускаются даже на обычном ноутбуке без видеокарты.

Почему это важно

Впервые модели такого размера обходят на бенчмарках более крупные аналоги вроде Qwen3-Embedding-0.6B и при этом работают локально через llama.cpp, без отправки данных на внешний сервер.

Что	Когда	Кто выпустил	Цена
LFM2.5-ColBERT-350M и LFM2.5-Embedding-350M	Июнь 2025	Liquid AI	Бесплатно, лицензия LFM Open License v1.0

Liquid AI, американский стартап, специализирующийся на компактных языковых моделях, опубликовал обе модели на платформе Hugging Face. Они построены на базе LFM2.5-350M-Base, вышедшей в марте 2025 года. Это первые двунаправленные модели в семействе LFM: раньше архитектура работала только «слева направо», как при генерации текста, а теперь каждое слово видит контекст и до, и после себя, что критично для качественного поиска.

Две модели с одной основой, но разным подходом к поиску

Обе модели решают одну задачу: находить нужный документ по запросу. Но делают это по-разному.

LFM2.5-Embedding-350M превращает каждый документ в один числовой вектор длиной 1024 измерения. Embeddings модели такого типа (их называют «плотными», dense) дают самый быстрый поиск и занимают минимум места в индексе. Подходит, когда скорость и экономия хранилища важнее абсолютной точности.
LFM2.5-ColBERT-350M создаёт отдельный вектор для каждого токена (минимальной единицы текста). Затем сравнивает запрос и документ пословно. Это называется «поздним взаимодействием» (late interaction). Индекс получается больше, зато точность и способность обобщать заметно выше. Длина запроса ограничена 32 токенами. Модель умеет работать и как переранжировщик: пересортировывать результаты другого поисковика без собственного индекса.

Обе модели заточены под короткие тексты: каталоги товаров, базы часто задаваемых вопросов, техническую документацию. Liquid AI позиционирует их как замену существующего звена в RAG-системе (Retrieval-Augmented Generation, «генерация с подкреплением поиском», когда нейросеть сначала ищет нужный фрагмент в базе, а потом формирует ответ на его основе).

Что показали бенчмарки на 11 языках?

Liquid AI протестировала модели на двух наборах: NanoBEIR (многоязычный поиск) и MKQA-11 (кросс-языковые вопросы и ответы). Языки тестирования: арабский, немецкий, английский, испанский, французский, итальянский, японский, корейский, норвежский, португальский и шведский.

ColBERT-версия лидирует по обоим средним показателям. На NanoBEIR она набрала 0.605 против 0.540 у предыдущей версии LFM2-ColBERT-350M.
Embedding-версия идёт близко на MKQA-11 с результатом 0.691.
Обе модели, по данным Liquid AI, обошли Qwen3-Embedding-0.6B, модель почти вдвое большего размера.

Русского языка в списке тестирования нет, но кросс-языковая архитектура и дистилляция (обучение на переводах) из 11 языков потенциально дают базу для работы с русским, особенно в кросс-языковых сценариях, когда запрос на одном языке, а документ на другом.

Скорость: меньше 10 миллисекунд на запрос

По замерам Liquid AI на MacBook Pro M4 Max (FP16, запрос 32 токена, документ 256 токенов):

Если embeddings модели документов посчитаны заранее, медианная задержка ответа на запрос не превышает 10 мс.
Кодирование документа «на лету» для ColBERT занимает 34.3 мс.
На серверной GPU H100 задержка падает до 1 мс для ColBERT и 1.5 мс для Embedding.

Liquid AI выложила варианты в формате GGUF для llama.cpp, что позволяет запускать обе модели на процессоре, без видеокарты, на ноутбуках и периферийных устройствах.

Как попробовать?

Скачайте модель с Hugging Face: ищите «LiquidAI/LFM2.5-Embedding-350M» или «LiquidAI/LFM2.5-ColBERT-350M».
Для Embedding-версии установите библиотеку sentence-transformers и используйте асимметричные промпты «query:» и «document:» при кодировании. Без них качество поиска падает без предупреждения.
Для ColBERT-версии используйте библиотеку PyLate с индексом FastPLAID.
Для запуска на процессоре без видеокарты скачайте GGUF-вариант и используйте llama.cpp.

Есть ли аналоги в России?

Параметр	LFM2.5 (Liquid AI)	YandexGPT Embeddings	GigaChat Embeddings
Размер модели	350M параметров	Не раскрыт	Не раскрыт
Локальный запуск	Да, через llama.cpp	Нет, только API	Нет, только API
Русский язык	Не в списке тестирования, но кросс-языковая архитектура	Да, основной	Да, основной
Лицензия	LFM Open License v1.0	Проприетарная	Проприетарная

Для работы с русскоязычными текстами YandexGPT Embeddings и GigaChat Embeddings остаются проверенным выбором через API. Но если нужен локальный запуск без передачи данных на сервер или кросс-языковой поиск, модели Liquid AI дают такую возможность впервые в таком компактном формате.

Что делать с этим прямо сейчас, по ролям?

Автору Дзена. Если вы собираете базу знаний для RAG-системы (например, каталог своих статей для бота-помощника), Embedding-версия позволяет проиндексировать сотни текстов на обычном ноутбуке бесплатно.

Маркетологу. Кросс-языковой поиск по 11 языкам из одного индекса снимает необходимость строить отдельные поисковые базы для каждого языка в мультиязычном каталоге или FAQ.

Предпринимателю в РФ. Модели доступны для скачивания без ограничений по географии. Данные остаются на вашем устройстве, не уходят на чужой сервер. Для продакшена с русским языком протестируйте качество на своих данных: Liquid AI русский формально не заявляет в списке поддерживаемых.

Мнение редакции dzen.guru

По моим наблюдениям, 350 миллионов параметров для embeddings модели поиска это тот размер, который реально запускается на любом рабочем ноутбуке за секунды. Liquid AI показала, что компактная архитектура способна конкурировать с моделями вдвое большего размера. Оговорка: русский язык не тестировался, и без проверки на своих данных встраивать модели в продакшен рискованно. Я бы сегодня скачал GGUF-вариант Embedding-версии, прогнал через llama.cpp десяток русскоязычных запросов по своей базе статей и сравнил результат с тем, что даёт YandexGPT Embeddings через API. Десять минут работы, а картина станет конкретной.

Частые вопросы

Можно ли использовать эти модели для русскоязычного поиска?

Русский язык не входит в 11 языков тестирования Liquid AI. Однако кросс-языковая архитектура и обучение на переводных парах дают основание для эксперимента. Качество на русском языке нужно проверять на собственных данных перед внедрением.

Чем ColBERT-версия отличается от Embedding-версии?

Embedding-версия создаёт один вектор на весь документ: быстрее, экономнее по памяти. ColBERT создаёт вектор на каждый токен и сравнивает пословно: точнее, но индекс занимает больше места. Для FAQ и коротких документов, где важна точность, лучше ColBERT. Для большого каталога, где важна скорость, лучше Embedding.

Нужна ли видеокарта для запуска?

Нет. Liquid AI выпустила GGUF-варианты для llama.cpp, которые работают на процессоре. На MacBook Pro M4 Max задержка ответа не превышает 10 мс при заранее посчитанных векторах документов.

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Автосводка новостей дня из 4 источников: как Python-скрипт заменил ручные отчёты

Компания или автор запустили не коммерческий продукт, а личный скрипт-автоматизацию. Источник — авторский пост-разбор без названия компании-разработчика, без…

21 июня в 04:45 МСК6 мин

AI-агенты пишут 15% кода Block: как устроен Builderbot и его открытая основа Goose

Block сделала одну полезную вещь: рассказала не просто «мы используем ИИ-агентов» (ИИ-агент, программа, которая сама выполняет задачи по цепочке, а не ждёт…

21 июня в 04:30 МСК5 мин

Google DeepMind описала 4 пути от AGI к ASI: искусственный интеллект ждут барьеры на каждом

Исследователи Google DeepMind 10 июня 2026 года опубликовали отчёт, в котором разобрали четыре конкретных пути перехода от AGI (искусственного общего…

21 июня в 04:15 МСК5 мин