Embeddings модели Liquid AI на 350M параметров обошли аналоги вдвое крупнее
Liquid AI на этой неделе выпустила две компактные модели поиска, LFM2.5-ColBERT-350M и LFM2.5-Embedding-350M, которые ищут по текстам на 11 языках, весят всего 350 миллионов параметров и запускаются даже на обычном ноутбуке без видеокарты.

Впервые модели такого размера обходят на бенчмарках более крупные аналоги вроде Qwen3-Embedding-0.6B и при этом работают локально через llama.cpp, без отправки данных на внешний сервер.
| Что | Когда | Кто выпустил | Цена |
|---|---|---|---|
| LFM2.5-ColBERT-350M и LFM2.5-Embedding-350M | Июнь 2025 | Liquid AI | Бесплатно, лицензия LFM Open License v1.0 |
Liquid AI, американский стартап, специализирующийся на компактных языковых моделях, опубликовал обе модели на платформе Hugging Face. Они построены на базе LFM2.5-350M-Base, вышедшей в марте 2025 года. Это первые двунаправленные модели в семействе LFM: раньше архитектура работала только «слева направо», как при генерации текста, а теперь каждое слово видит контекст и до, и после себя, что критично для качественного поиска.
Две модели с одной основой, но разным подходом к поиску
Обе модели решают одну задачу: находить нужный документ по запросу. Но делают это по-разному.
- LFM2.5-Embedding-350M превращает каждый документ в один числовой вектор длиной 1024 измерения. Embeddings модели такого типа (их называют «плотными», dense) дают самый быстрый поиск и занимают минимум места в индексе. Подходит, когда скорость и экономия хранилища важнее абсолютной точности.
- LFM2.5-ColBERT-350M создаёт отдельный вектор для каждого токена (минимальной единицы текста). Затем сравнивает запрос и документ пословно. Это называется «поздним взаимодействием» (late interaction). Индекс получается больше, зато точность и способность обобщать заметно выше. Длина запроса ограничена 32 токенами. Модель умеет работать и как переранжировщик: пересортировывать результаты другого поисковика без собственного индекса.
Обе модели заточены под короткие тексты: каталоги товаров, базы часто задаваемых вопросов, техническую документацию. Liquid AI позиционирует их как замену существующего звена в RAG-системе (Retrieval-Augmented Generation, «генерация с подкреплением поиском», когда нейросеть сначала ищет нужный фрагмент в базе, а потом формирует ответ на его основе).
Что показали бенчмарки на 11 языках?
Liquid AI протестировала модели на двух наборах: NanoBEIR (многоязычный поиск) и MKQA-11 (кросс-языковые вопросы и ответы). Языки тестирования: арабский, немецкий, английский, испанский, французский, итальянский, японский, корейский, норвежский, португальский и шведский.
- ColBERT-версия лидирует по обоим средним показателям. На NanoBEIR она набрала 0.605 против 0.540 у предыдущей версии LFM2-ColBERT-350M.
- Embedding-версия идёт близко на MKQA-11 с результатом 0.691.
- Обе модели, по данным Liquid AI, обошли Qwen3-Embedding-0.6B, модель почти вдвое большего размера.
Русского языка в списке тестирования нет, но кросс-языковая архитектура и дистилляция (обучение на переводах) из 11 языков потенциально дают базу для работы с русским, особенно в кросс-языковых сценариях, когда запрос на одном языке, а документ на другом.
Скорость: меньше 10 миллисекунд на запрос
По замерам Liquid AI на MacBook Pro M4 Max (FP16, запрос 32 токена, документ 256 токенов):
- Если embeddings модели документов посчитаны заранее, медианная задержка ответа на запрос не превышает 10 мс.
- Кодирование документа «на лету» для ColBERT занимает 34.3 мс.
- На серверной GPU H100 задержка падает до 1 мс для ColBERT и 1.5 мс для Embedding.
Liquid AI выложила варианты в формате GGUF для llama.cpp, что позволяет запускать обе модели на процессоре, без видеокарты, на ноутбуках и периферийных устройствах.
Как попробовать?
- Скачайте модель с Hugging Face: ищите «LiquidAI/LFM2.5-Embedding-350M» или «LiquidAI/LFM2.5-ColBERT-350M».
- Для Embedding-версии установите библиотеку sentence-transformers и используйте асимметричные промпты «query:» и «document:» при кодировании. Без них качество поиска падает без предупреждения.
- Для ColBERT-версии используйте библиотеку PyLate с индексом FastPLAID.
- Для запуска на процессоре без видеокарты скачайте GGUF-вариант и используйте llama.cpp.
Есть ли аналоги в России?
| Параметр | LFM2.5 (Liquid AI) | YandexGPT Embeddings | GigaChat Embeddings |
|---|---|---|---|
| Размер модели | 350M параметров | Не раскрыт | Не раскрыт |
| Локальный запуск | Да, через llama.cpp | Нет, только API | Нет, только API |
| Русский язык | Не в списке тестирования, но кросс-языковая архитектура | Да, основной | Да, основной |
| Лицензия | LFM Open License v1.0 | Проприетарная | Проприетарная |
Для работы с русскоязычными текстами YandexGPT Embeddings и GigaChat Embeddings остаются проверенным выбором через API. Но если нужен локальный запуск без передачи данных на сервер или кросс-языковой поиск, модели Liquid AI дают такую возможность впервые в таком компактном формате.
Что делать с этим прямо сейчас, по ролям?
Автору Дзена. Если вы собираете базу знаний для RAG-системы (например, каталог своих статей для бота-помощника), Embedding-версия позволяет проиндексировать сотни текстов на обычном ноутбуке бесплатно.
Маркетологу. Кросс-языковой поиск по 11 языкам из одного индекса снимает необходимость строить отдельные поисковые базы для каждого языка в мультиязычном каталоге или FAQ.
Предпринимателю в РФ. Модели доступны для скачивания без ограничений по географии. Данные остаются на вашем устройстве, не уходят на чужой сервер. Для продакшена с русским языком протестируйте качество на своих данных: Liquid AI русский формально не заявляет в списке поддерживаемых.
По моим наблюдениям, 350 миллионов параметров для embeddings модели поиска это тот размер, который реально запускается на любом рабочем ноутбуке за секунды. Liquid AI показала, что компактная архитектура способна конкурировать с моделями вдвое большего размера. Оговорка: русский язык не тестировался, и без проверки на своих данных встраивать модели в продакшен рискованно. Я бы сегодня скачал GGUF-вариант Embedding-версии, прогнал через llama.cpp десяток русскоязычных запросов по своей базе статей и сравнил результат с тем, что даёт YandexGPT Embeddings через API. Десять минут работы, а картина станет конкретной.
Частые вопросы
Можно ли использовать эти модели для русскоязычного поиска?
Русский язык не входит в 11 языков тестирования Liquid AI. Однако кросс-языковая архитектура и обучение на переводных парах дают основание для эксперимента. Качество на русском языке нужно проверять на собственных данных перед внедрением.
Чем ColBERT-версия отличается от Embedding-версии?
Embedding-версия создаёт один вектор на весь документ: быстрее, экономнее по памяти. ColBERT создаёт вектор на каждый токен и сравнивает пословно: точнее, но индекс занимает больше места. Для FAQ и коротких документов, где важна точность, лучше ColBERT. Для большого каталога, где важна скорость, лучше Embedding.
Нужна ли видеокарта для запуска?
Нет. Liquid AI выпустила GGUF-варианты для llama.cpp, которые работают на процессоре. На MacBook Pro M4 Max задержка ответа не превышает 10 мс при заранее посчитанных векторах документов.

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Автосводка новостей дня из 4 источников: как Python-скрипт заменил ручные отчёты
Компания или автор запустили не коммерческий продукт, а личный скрипт-автоматизацию. Источник — авторский пост-разбор без названия компании-разработчика, без…

AI-агенты пишут 15% кода Block: как устроен Builderbot и его открытая основа Goose
Block сделала одну полезную вещь: рассказала не просто «мы используем ИИ-агентов» (ИИ-агент, программа, которая сама выполняет задачи по цепочке, а не ждёт…
Google DeepMind описала 4 пути от AGI к ASI: искусственный интеллект ждут барьеры на каждом
Исследователи Google DeepMind 10 июня 2026 года опубликовали отчёт, в котором разобрали четыре конкретных пути перехода от AGI (искусственного общего…
Комментарии