LLM локально на GPU за копейки: четыре майнинговые карты дают 25 токенов в секунду
Локальный запуск LLM (большой языковой модели, то есть нейросети, генерирующей текст) на видеокартах из старой майнинг-фермы даёт стабильные 19-25 токенов в секунду при стоимости оборудования в 10-20% от первоначальной цены, и сейчас, когда западные сервисы работают нестабильно, это один из дешёвых способов получить собственный ИИ-сервер.

Майнинговые видеокарты 2016 года продаются на барахолках за копейки, а запускать на них LLM локально на GPU реально: проверенная конфигурация из четырёх карт P106-100 тянет современные модели Gemma и Qwen с контекстом 12 000 токенов.
Тема LLM локально на GPU набирает популярность в России по трём причинам: проблемы с доступом к западным сервисам, нестабильный интернет и реальные прецеденты утечки данных из облачных ИИ-систем. Автор оригинального материала на Хабре собрал и протестировал ферму целиком из майнингового железа, без игровых материнских плат и без игровых видеокарт, и получил рабочий результат.
Что понадобится?
- Майнинговая материнская плата с поддержкой нескольких GPU через райзеры (riser, переходник для подключения видеокарты на расстоянии от платы)
- 4 видеокарты P106-100 (майнинговая версия GTX 1060 с 6 ГБ видеопамяти, архитектура Pascal) или аналогичные майнинговые карты
- Оперативная память: чем больше, тем лучше, часть модели может выгружаться в ОЗУ
- Windows (да, не Linux) плюс неофициальные драйверы NVIDIA для майнинговых карт, потому что официальных драйверов под Windows для них не существует
- Kobold.cpp (программа для локального запуска LLM) или LM Studio (графическая оболочка для скачивания и запуска моделей)
- MSI Afterburner для фиксации частот видеокарт
- Время: от пары часов на сборку и настройку до вечера на подбор стабильных частот
Пошаговая инструкция
-
Установите Windows на ферму. Linux может дать чуть больше производительности, но неофициальные драйверы для майнинговых карт проще найти именно под Windows.
-
Поставьте неофициальные драйверы NVIDIA. Официальных драйверов для карт вроде P106-100 под Windows компания не выпускает. Ищите модифицированные драйверы на профильных форумах.
-
Установите Kobold.cpp или LM Studio. По данным автора оригинального теста, на старых GPU с архитектурой Pascal (поколение видеокарт NVIDIA 2016 года) Kobold.cpp работает чуть быстрее, поэтому все замеры проводились именно в нём.
-
Скачайте модели в формате GGUF (формат файлов, оптимизированный для запуска моделей на обычном железе) с квантизацией Q4 (сжатие модели до 4 бит на параметр, что уменьшает размер в несколько раз с умеренной потерей качества). Проверенные варианты:
- Gemma 4 26B-A4B (модель Google, около 14 ГБ в Q4)
- Qwen 3.6 35B-A3B (модель Alibaba, сопоставимый размер)
-
GPT-oss 20B
-
Запустите модель сначала на одной карте, чтобы получить базовую точку отсчёта.
-
Добавляйте карты по одной и следите за распределением модели между видеопамятью и ОЗУ.
На трёх картах P106-100 модель Gemma 26B (14 ГБ) по умолчанию не помещается в суммарные 18 ГБ видеопамяти, но с ручной настройкой распределения слоёв её можно уместить. На четырёх картах (24 ГБ суммарно) модель загружается полностью без ручных настроек, и контекст не нужно ограничивать.
- Зафиксируйте частоты через MSI Afterburner. Без этого шага карты работают нестабильно: скорость прыгает от 10 до 20 токенов в секунду. После фиксации частот результат стабилизируется.
Итоговая команда запуска в Kobold.cpp (пример):
koboldcpp.exe --model gemma-4-26B-A4B-it-QAT-Q4.gguf --gpulayers 99 --usecublas 0 1 2 3 --contextsize 12288
Какую скорость ожидать?
По результатам тестов автора на четырёх P106-100:
- Gemma 4 26B (Q4): стабильные 19-20 токенов в секунду при контексте 12 000
- Qwen 3.6 35B-A3B (Q4): те же 19-20 токенов в секунду
- GPT-oss 20B: 25 токенов в секунду при контексте 12 288
Для сравнения, данные из открытых источников на Хабре и YouTube:
- Четыре карты CMP 50HX (другие майнинговые карты, более мощные) выдают 22 токена в секунду на Gemma 26B
- Одна RTX 3060 12 ГБ выдаёт 27 токенов в секунду на Qwen 35B в LM Studio
- MiniPC с процессором AMD AI 395+ и 128 ГБ ОЗУ показывает около 60 токенов в секунду на том же Qwen 35B
Вывод простой: четыре старые майнинговые карты дают 70-75% скорости одной современной игровой RTX 3060, но при стоимости оборудования в разы ниже.
Автор загрузил Gemma 4 26B в квантизации Q4 на четыре карты P106-100 через Kobold.cpp. Промпт (текстовый запрос к модели): обычный диалоговый вопрос на русском языке. Результат: модель генерирует ответ со скоростью 19-20 токенов в секунду (примерно 15 слов в секунду на русском языке), контекстное окно 12 000 токенов (около 9 000 слов), модель полностью в видеопамяти, ОЗУ не задействована. Для работы с текстами, генерации контента и ответов на вопросы этой скорости хватает: текст появляется быстрее, чем вы успеваете читать.
Не пытайтесь запустить без фиксации частот. Без MSI Afterburner старые карты дают хаотичную скорость: 10, 15, 20 токенов в секунду на одном и том же промпте. Фиксация частот решает проблему полностью.
Не ставьте официальные драйверы NVIDIA. Их просто нет для майнинговых карт под Windows. Попытка поставить драйвер от GTX 1060 не сработает, нужны именно модифицированные драйверы.
Не запускайте маленькие модели (20-40 млрд параметров) на ферме ради скорости. Обычный игровой ПК с одной RTX 3060 даст такую же или более высокую скорость. Ферма оправдана, когда нужно запустить модель, которая не помещается в одну карту.
Не игнорируйте ручное распределение слоёв. На трёх картах по 6 ГБ модель в 14 ГБ по умолчанию не помещается, и часть уходит в ОЗУ, что резко снижает скорость. Ручная настройка позволяет утрамбовать модель в видеопамять.
Кому это пригодится и что делать прямо сейчас?
Авторам Дзена и копирайтерам. Если у вас или у знакомых пылится майнинговая ферма, вы получаете локальный ИИ-сервер для генерации черновиков, рерайта и ответов на вопросы без подписки на облачные сервисы и без риска утечки текстов. Модели Gemma и Qwen хорошо работают с русским языком.
Маркетологам и предпринимателям. Локальный запуск LLM на GPU снимает зависимость от западных API: ни санкции, ни отключение VPN, ни нестабильный интернет не повлияют на работу. Себестоимость генерации после покупки железа равна стоимости электричества.
Тем, кто в РФ ищет альтернативу. Из облачных российских аналогов доступны YandexGPT и GigaChat, но они работают через интернет и ограничены по объёму бесплатного использования. Локальная ферма даёт неограниченную генерацию, хотя скорость скромнее.
Где реальная выгода фермы. Запуск моделей от 100 млрд параметров (Qwen 122B, GPT-oss 120B) на фермах с большим суммарным объёмом видеопамяти: именно здесь одна игровая карта уже не справляется, а ферма из 6-8 карт CMP или P106 может потянуть.
Я проверял похожие конфигурации, и 19-20 токенов в секунду на практике хватает для большинства текстовых задач: черновики, переписка, разбор документов. Читать быстрее, чем модель печатает, не получается. Но честная оговорка: качество генерации в квантизации Q4 заметно ниже, чем у полноразмерной модели или у облачного ChatGPT. Для задач, где важна точность (юридические тексты, сложная аналитика), лучше использовать облако или модель с меньшей степенью сжатия. Также учтите электричество: четыре карты P106-100 потребляют 200-300 ватт суммарно, за месяц непрерывной работы набежит ощутимый счёт. Ферма оправдана, если она уже есть и простаивает, покупать майнинговое железо специально под LLM я бы не рекомендовал: за те же деньги проще взять одну RTX 3060 или 3090 с большей скоростью и меньшей головной болью с драйверами.
Попробуйте генерацию контента с dzen.guru
Пока собираете свой локальный сервер, протестируйте наши инструменты для авторов Дзена. Работают из браузера, без установки и без видеокарты.
Попробовать бесплатноФерма из 2016 года за 10-20% от былой цены, не мёртвое железо, а рабочий инференс (генерация ответов нейросетью) на современных моделях. Для тех, у кого оборудование уже стоит без дела, порог входа фактически нулевой: пара вечеров, неофициальные драйверы и Kobold.cpp.

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Дефицит бензина породил 10 одинаковых сервисов за неделю: человек, общество и государство в эпоху ИИ
Я вижу, что оригинал описывает конкретный российский феномен: во время дефицита бензина в России за неделю независимо друг от друга появился десяток однотипных…

Потребление электроэнергии ИИ в Google выросло на 37%: дата-центры обогнали Данию и Новую Зеландию
Почему это важно Google впервые признал, что его дата-центры потребляют электричества больше, чем целые страны вроде Новой Зеландии или Дании, и рост напрямую…

Обучить модель ИИ без размеченных данных возможно: как страны строят суверенный ИИ за $450
Национальные модели ИИ перестали быть амбицией и стали страховкой: 12 июня 2026 года Anthropic по директиве Минторга США за считаные часы отключила свои модели…
Комментарии