Игорь Градов

1 июля 2026 г. в 09:30 МСК6 мин

Локальные LLM-модели: компактная 9B решила задачу за 3 шага, а 30B провалилась за 24

Локальные LLM-модели (языковые модели, работающие на вашем компьютере, а не в облаке) всё чаще используют как ИИ-агентов для написания и отладки кода, и сейчас в сообществе разработчиков идёт спор, который напрямую касается каждого, кто пробует запускать нейросети у себя: что важнее для результата, размер модели или окружение, в котором она работает.

Почему это важно

Практика показывает: модель с 9 миллиардами параметров может решить задачу за 3 шага, а модель в три с лишним раза крупнее, с 30 миллиардами, провалится за 24 шага. Разница не в «мозгах» модели, а в инфраструктуре вокруг неё, и это переворачивает привычную логику «чем больше, тем лучше».

В чём суть спора?

Разработчик агентного CLI-инструмента lema (опенсорсная утилита командной строки для запуска локальных LLM-моделей) три месяца тестировал два подхода. Он дал двум моделям семейства Qwen одну и ту же задачу: исправить падающие тесты в Python-проекте.

Результат оказался неожиданным. Qwen3.5-9B (компактная модель, квантизация в 8 бит) справилась за 3 шага. Qwen3-coder-30B (крупная модель, сжатая до формата iq2_xxs) сделала 24 шага, потеряла нить рассуждения, повторяла одни и те же вызовы инструментов и вернула уверенный, но неправильный ответ.

Автор утверждает: причина не в самой модели, а в harness, то есть в «обвязке», программном окружении, которое управляет тем, какие файлы модель видит, запускает ли тесты, что помнит между сессиями. Без такого окружения даже мощная модель работает вслепую.

Аргументы за: маленькая модель в хорошем окружении побеждает

Первый и самый весомый аргумент: цикл верификации. Когда модель заявляет «я исправил», harness не верит ей на слово, а сам запускает тесты. Если тесты не проходят, сообщение об ошибке возвращается в контекст, и модель продолжает работу. Модель физически не может завершить задачу, пока тесты не станут зелёными.

Это устраняет главную проблему: без обратной связи модель генерирует правдоподобный, но неверный ответ и останавливается. Автор сравнивает это с поваром, которому не дают пробовать еду: он может быть отличным поваром, но блюдо с вероятностью 50% окажется пересоленным.

Второй аргумент: память между сессиями. Когда задача проходит цикл «провал, затем успех», harness сохраняет короткий урок: что за задача, какая команда упала, что помогло. При следующей похожей задаче уроки подтягиваются через поиск по эмбеддингам (числовым «отпечаткам» текста, по которым находят похожие фрагменты) и ложатся в контекст до начала работы. Модель не изобретает одно и то же решение дважды.

Третий аргумент: умное управление контекстом. Длинные задачи переполняют контекстное окно (ограниченный объём текста, который модель может «видеть» одновременно). Исследование JetBrains Research (arXiv 2508.21433) показало: маскировка, замена тяжёлых выводов инструментов коротким плейсхолдером вроде «вывод скрыт, файл такой-то, 487 строк», на 52% дешевле суммаризации (пересказа всего диалога) и при этом точнее. Рассуждения модели сохраняются, а шум убирается.

Четвёртый аргумент: правильные имена инструментов. Исследование PA-Tool (arXiv 2510.07248) измерило эффект: одно только переименование инструментов под конвенции, знакомые модели из обучающих данных, даёт плюс 17% точности и минус 80% ошибок несоответствия. Без дообучения (обучения модели на ваших примерах), без изменения весов. Инструменты называются максимально предсказуемо: read_file, write_file, bash, никаких «творческих» имён.

Аргументы против: почему размер всё-таки имеет значение?

Первое возражение: результат получен на одной задаче. Два прогона на одном Python-проекте не заменяют системный бенчмарк. Модель в 30 миллиардов параметров могла проиграть из-за агрессивной квантизации (сжатия) до формата iq2_xxs, при котором теряется заметная часть качества. Сравнение 8-битной модели с моделью, сжатой до двухбитного формата, не совсем честное: крупную модель поставили в заведомо худшие условия по точности представления весов.

Второе возражение: harness помогает любой модели, не только маленькой. Если дать ту же «обвязку» крупной модели с нормальной квантизацией, она с высокой вероятностью покажет лучший результат. Аргумент «окружение важнее размера» не доказывает, что маленькая модель лучше, он доказывает, что окружение необходимо всем.

Третье возражение: эффект потолка. На простых задачах (исправить падающий тест) маленькая модель с хорошим harness действительно может быть достаточной. Но на задачах, требующих глубокого понимания архитектуры проекта, длинных цепочек рассуждений и нестандартных решений, разница в параметрах начинает играть роль, и никакое окружение это не компенсирует.

Четвёртое возражение: overthinking как аргумент уязвим. Автор ссылается на исследования (arXiv 2604.10739, 2507.14417), документирующие inverse scaling: при росте «бюджета на размышления» точность маленькой модели сначала растёт, потом падает. Но вывод «для маленьких моделей лучше действовать, чем думать» можно прочитать и как признание их слабости: модель, которой опасно давать думать дольше, возможно, просто недостаточно умна для сложной задачи.

Умная модель в плохом harness работает хуже, чем средняя модель в хорошем. Это контринтуитивно: мы привыкли думать, что качество равно размер. Но на практике разрыв между «9B не справляется» и «9B справился за 3 шага» это не веса, это инфраструктура вокруг них. : Автор проекта lema

Мнение редакции dzen.guru

Я считаю, что автор прав в главном: окружение, в котором работает модель, критически недооценено. Большинство тех, кто пробует локальные LLM-модели для работы с кодом или текстом, ставят самую крупную модель, которая влезает в память, и разочаровываются. А правильный путь другой: взять модель поменьше, но выстроить вокруг неё проверку результата, память и управление контекстом.

При этом я не стал бы абсолютизировать вывод «размер не важен». Он важен, но лишь после того, как вы наладили инфраструктуру. Модель в 9 миллиардов параметров с хорошей обвязкой обгонит модель в 30 миллиардов без неё, но модель в 30 миллиардов с той же обвязкой, скорее всего, обгонит обе.

Что делать прямо сейчас:

Авторам Дзена и копирайтерам: если используете локальные LLM-модели для черновиков или редактуры, не гонитесь за максимальным размером. Модель в 7-9 миллиардов параметров с чёткими инструкциями в системном промпте (вводной инструкции, задающей роль и правила) и ручной проверкой результата даст лучший текст, чем 30-миллиардная модель без контроля.
Маркетологам и предпринимателям в РФ: принцип «верификация важнее размера» работает не только в коде. Любой ИИ-агент, работающий с вашими данными, нуждается в цикле проверки. Из доступных в России инструментов для локального запуска стоит смотреть на Ollama и LM Studio, обе работают без облака и без подписки.
Техническим специалистам: обратите внимание на конкретные исследования из статьи. Маскировка контекста вместо суммаризации и переименование инструментов под pretraining-конвенции, это два приёма, которые можно применить в любом агентном пайплайне за день, без дообучения.

Что реально ждать дальше?

Спор «размер против окружения» не закроется одним инструментом, но направление уже очевидно: в ближайший год выиграют не те, кто запустит самую большую локальную LLM-модель, а те, кто выстроит вокруг скромной модели грамотную обвязку с верификацией, памятью и управлением контекстом, и это касается не только кода, но и любой работы с текстом, где нейросеть должна не просто генерировать, а проверять себя.

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Google выложила TabFM: нейросети для табличных данных больше не требуют настройки

Google Research представила TabFM, фундаментальную нейросеть для табличных данных, которая выдаёт прогнозы по незнакомым таблицам без обучения, настройки…

1 июля в 11:30 МСК5 мин

Трамп снял экспортный запрет на Claude Anthropic: доступ вернётся с 1 июля

Почему это важно Впервые экспортные ограничения на передовые ИИ-модели были введены и сняты в течение трёх недель, причём под давлением азиатских конкурентов.…

1 июля в 11:15 МСК5 мин

CUP от Baidu заменяет десятки Python фреймворков одной зависимостью

Компания Baidu развивает библиотеку CUP (Common Useful Python library), которая собирает в одном пакете десятки утилит для повседневной Python-разработки: от…

1 июля в 10:15 МСК6 мин