Игорь Градов
Игорь Градов
6 мин
ai

Локальные LLM-модели: компактная 9B решила задачу за 3 шага, а 30B провалилась за 24

Локальные LLM-модели (языковые модели, работающие на вашем компьютере, а не в облаке) всё чаще используют как ИИ-агентов для написания и отладки кода, и сейчас в сообществе разработчиков идёт спор, который напрямую касается каждого, кто пробует запускать нейросети у себя: что важнее для результата, размер модели или окружение, в котором она работает.

Локальные LLM-модели: компактная 9B решила задачу за 3 шага, а 30B провалилась за 24
Почему это важно

Практика показывает: модель с 9 миллиардами параметров может решить задачу за 3 шага, а модель в три с лишним раза крупнее, с 30 миллиардами, провалится за 24 шага. Разница не в «мозгах» модели, а в инфраструктуре вокруг неё, и это переворачивает привычную логику «чем больше, тем лучше».

В чём суть спора?

Разработчик агентного CLI-инструмента lema (опенсорсная утилита командной строки для запуска локальных LLM-моделей) три месяца тестировал два подхода. Он дал двум моделям семейства Qwen одну и ту же задачу: исправить падающие тесты в Python-проекте.

Результат оказался неожиданным. Qwen3.5-9B (компактная модель, квантизация в 8 бит) справилась за 3 шага. Qwen3-coder-30B (крупная модель, сжатая до формата iq2_xxs) сделала 24 шага, потеряла нить рассуждения, повторяла одни и те же вызовы инструментов и вернула уверенный, но неправильный ответ.

Автор утверждает: причина не в самой модели, а в harness, то есть в «обвязке», программном окружении, которое управляет тем, какие файлы модель видит, запускает ли тесты, что помнит между сессиями. Без такого окружения даже мощная модель работает вслепую.

Аргументы за: маленькая модель в хорошем окружении побеждает

Первый и самый весомый аргумент: цикл верификации. Когда модель заявляет «я исправил», harness не верит ей на слово, а сам запускает тесты. Если тесты не проходят, сообщение об ошибке возвращается в контекст, и модель продолжает работу. Модель физически не может завершить задачу, пока тесты не станут зелёными.

Это устраняет главную проблему: без обратной связи модель генерирует правдоподобный, но неверный ответ и останавливается. Автор сравнивает это с поваром, которому не дают пробовать еду: он может быть отличным поваром, но блюдо с вероятностью 50% окажется пересоленным.

Второй аргумент: память между сессиями. Когда задача проходит цикл «провал, затем успех», harness сохраняет короткий урок: что за задача, какая команда упала, что помогло. При следующей похожей задаче уроки подтягиваются через поиск по эмбеддингам (числовым «отпечаткам» текста, по которым находят похожие фрагменты) и ложатся в контекст до начала работы. Модель не изобретает одно и то же решение дважды.

Третий аргумент: умное управление контекстом. Длинные задачи переполняют контекстное окно (ограниченный объём текста, который модель может «видеть» одновременно). Исследование JetBrains Research (arXiv 2508.21433) показало: маскировка, замена тяжёлых выводов инструментов коротким плейсхолдером вроде «вывод скрыт, файл такой-то, 487 строк», на 52% дешевле суммаризации (пересказа всего диалога) и при этом точнее. Рассуждения модели сохраняются, а шум убирается.

Четвёртый аргумент: правильные имена инструментов. Исследование PA-Tool (arXiv 2510.07248) измерило эффект: одно только переименование инструментов под конвенции, знакомые модели из обучающих данных, даёт плюс 17% точности и минус 80% ошибок несоответствия. Без дообучения (обучения модели на ваших примерах), без изменения весов. Инструменты называются максимально предсказуемо: read_file, write_file, bash, никаких «творческих» имён.

Аргументы против: почему размер всё-таки имеет значение?

Первое возражение: результат получен на одной задаче. Два прогона на одном Python-проекте не заменяют системный бенчмарк. Модель в 30 миллиардов параметров могла проиграть из-за агрессивной квантизации (сжатия) до формата iq2_xxs, при котором теряется заметная часть качества. Сравнение 8-битной модели с моделью, сжатой до двухбитного формата, не совсем честное: крупную модель поставили в заведомо худшие условия по точности представления весов.

Второе возражение: harness помогает любой модели, не только маленькой. Если дать ту же «обвязку» крупной модели с нормальной квантизацией, она с высокой вероятностью покажет лучший результат. Аргумент «окружение важнее размера» не доказывает, что маленькая модель лучше, он доказывает, что окружение необходимо всем.

Третье возражение: эффект потолка. На простых задачах (исправить падающий тест) маленькая модель с хорошим harness действительно может быть достаточной. Но на задачах, требующих глубокого понимания архитектуры проекта, длинных цепочек рассуждений и нестандартных решений, разница в параметрах начинает играть роль, и никакое окружение это не компенсирует.

Четвёртое возражение: overthinking как аргумент уязвим. Автор ссылается на исследования (arXiv 2604.10739, 2507.14417), документирующие inverse scaling: при росте «бюджета на размышления» точность маленькой модели сначала растёт, потом падает. Но вывод «для маленьких моделей лучше действовать, чем думать» можно прочитать и как признание их слабости: модель, которой опасно давать думать дольше, возможно, просто недостаточно умна для сложной задачи.

Умная модель в плохом harness работает хуже, чем средняя модель в хорошем. Это контринтуитивно: мы привыкли думать, что качество равно размер. Но на практике разрыв между «9B не справляется» и «9B справился за 3 шага» это не веса, это инфраструктура вокруг них. : Автор проекта lema

Мнение редакции dzen.guru

Я считаю, что автор прав в главном: окружение, в котором работает модель, критически недооценено. Большинство тех, кто пробует локальные LLM-модели для работы с кодом или текстом, ставят самую крупную модель, которая влезает в память, и разочаровываются. А правильный путь другой: взять модель поменьше, но выстроить вокруг неё проверку результата, память и управление контекстом.

При этом я не стал бы абсолютизировать вывод «размер не важен». Он важен, но лишь после того, как вы наладили инфраструктуру. Модель в 9 миллиардов параметров с хорошей обвязкой обгонит модель в 30 миллиардов без неё, но модель в 30 миллиардов с той же обвязкой, скорее всего, обгонит обе.

Что делать прямо сейчас:

  • Авторам Дзена и копирайтерам: если используете локальные LLM-модели для черновиков или редактуры, не гонитесь за максимальным размером. Модель в 7-9 миллиардов параметров с чёткими инструкциями в системном промпте (вводной инструкции, задающей роль и правила) и ручной проверкой результата даст лучший текст, чем 30-миллиардная модель без контроля.

  • Маркетологам и предпринимателям в РФ: принцип «верификация важнее размера» работает не только в коде. Любой ИИ-агент, работающий с вашими данными, нуждается в цикле проверки. Из доступных в России инструментов для локального запуска стоит смотреть на Ollama и LM Studio, обе работают без облака и без подписки.

  • Техническим специалистам: обратите внимание на конкретные исследования из статьи. Маскировка контекста вместо суммаризации и переименование инструментов под pretraining-конвенции, это два приёма, которые можно применить в любом агентном пайплайне за день, без дообучения.

Что реально ждать дальше?

Спор «размер против окружения» не закроется одним инструментом, но направление уже очевидно: в ближайший год выиграют не те, кто запустит самую большую локальную LLM-модель, а те, кто выстроит вокруг скромной модели грамотную обвязку с верификацией, памятью и управлением контекстом, и это касается не только кода, но и любой работы с текстом, где нейросеть должна не просто генерировать, а проверять себя.

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Google выложила TabFM: нейросети для табличных данных больше не требуют настройки
ai

Google выложила TabFM: нейросети для табличных данных больше не требуют настройки

Google Research представила TabFM, фундаментальную нейросеть для табличных данных, которая выдаёт прогнозы по незнакомым таблицам без обучения, настройки…

5 мин
Трамп снял экспортный запрет на Claude Anthropic: доступ вернётся с 1 июля
ai

Трамп снял экспортный запрет на Claude Anthropic: доступ вернётся с 1 июля

Почему это важно Впервые экспортные ограничения на передовые ИИ-модели были введены и сняты в течение трёх недель, причём под давлением азиатских конкурентов.…

5 мин
CUP от Baidu заменяет десятки Python фреймворков одной зависимостью
ai

CUP от Baidu заменяет десятки Python фреймворков одной зависимостью

Компания Baidu развивает библиотеку CUP (Common Useful Python library), которая собирает в одном пакете десятки утилит для повседневной Python-разработки: от…

6 мин