Локальная нейросеть на ПК с 4 ГБ видеопамяти: пошаговая настройка без облака и подписок
Локальная нейросеть на домашнем ПК с Windows 11 решает конкретную задачу: вы получаете языковую модель, которая работает без облака, без подписки и без отправки данных на чужие серверы, даже если у вас всего 4 ГБ видеопамяти.

Запустить локальную нейросеть на бюджетном железе стало реально: открытые модели Qwen и Gemma умещаются в 4 ГБ видеопамяти, а бесплатные среды Ollama и LM Studio берут на себя всю техническую обвязку, от загрузки весов до распределения нагрузки между процессором и видеокартой.
Ещё год назад для запуска приличной языковой модели на своём компьютере требовалась видеокарта с 8 ГБ памяти и выше. Сегодня модели с открытыми весами (open weights, когда разработчик публикует файл с параметрами нейросети и любой может запустить его у себя) научились работать в сжатом виде и укладываются в скромные ресурсы. Материал основан на практическом тесте, проведённом в проекте «Ситуационная осведомленность 24/7», где автор собирал фундамент для мультиагентной системы мониторинга на обычном домашнем ПК.
Среда запуска и модель: в чём разница?
Прежде чем ставить что-либо, разберём ключевое различие, на котором новички спотыкаются чаще всего.
Модель (она же ЛЛМ, большая языковая модель) это файл с весами и конфигурацией нейросети. Сам по себе файл ничего не делает.
Среда запуска это программа, которая загружает модель в память, распределяет нагрузку между процессором и видеокартой, принимает ваш промпт (prompt, текстовый запрос к модели), управляет параметрами генерации и возвращает ответ.
Ollama, LM Studio, GPT4All, Jan это всё среды запуска. Они не «умнее» и не «глупее» друг друга в смысле качества ответов: качество зависит от модели, которую вы в них загрузите.
Какую среду выбрать?
Решения делятся на четыре класса. Вот краткая карта.
- Программы с графическим интерфейсом (LM Studio, GPT4All, Jan). Скачал, выбрал модель, открыл чат. Удобно для знакомства и сравнения моделей, но хуже подходят для автоматизации по расписанию.
- Программы без графического интерфейса (Ollama, llama.cpp, LocalAI). Работают через командную строку и API (программный интерфейс, через который одна программа общается с другой). Менее наглядно, зато к ним можно подключать скрипты, агентов и планировщики задач.
- Веб-панели (Open WebUI). Браузерный интерфейс поверх уже запущенной модели: история диалогов, разделение доступа. Имеет смысл подключать на следующем этапе.
- Комбайны с документами и поиском (AnythingLLM). Объединяют чат, загрузку документов и RAG-поиск (retrieval-augmented generation, когда модель ищет ответ не только в своей памяти, а сначала находит нужный фрагмент в вашей базе знаний). Для старта избыточны.
Для нашей задачи финальная сборка выглядит так: Ollama как основная среда для автоматизации, LM Studio как визуальный инструмент для тестирования и диагностики, Qwen3.5-4B как основная модель и Gemma 4 как резервная.
Что понадобится
- Компьютер с Windows 11
- Видеокарта с 4 ГБ видеопамяти (VRAM) или больше
- Оперативная память: 16 ГБ RAM
- Свободное место на диске: от 10 ГБ (модели занимают от 2 до 6 ГБ каждая)
- Интернет для первой загрузки моделей
- Время: от 40 минут до полутора часов на полную настройку
Пошаговая инструкция
-
Скачайте и установите LM Studio. Перейдите на сайт lmstudio.ai, загрузите версию для Windows. Установка стандартная, запуск без командной строки. LM Studio нужна для первого знакомства: вы увидите, сколько памяти занимает модель, какое квантование (quantization, сжатие модели с минимальной потерей качества, чтобы она уместилась в ограниченную память) выбрано, и как быстро модель отвечает.
-
Загрузите модель Qwen3.5-4B через LM Studio. В поиске введите
Qwen3.5-4B, выберите вариант в формате GGUF (универсальный формат файлов для сжатых моделей) с квантованием Q4_K_M. Этот вариант балансирует между качеством ответов и потреблением памяти. Нажмите «Download», дождитесь загрузки. -
Протестируйте модель в чате LM Studio. Откройте чат, задайте пробный промпт. Обратите внимание на два параметра: скорость генерации (токенов в секунду) и загрузку видеопамяти. Если модель генерирует хотя бы 5 токенов (token, минимальная единица текста для модели, примерно три четверти слова) в секунду, конфигурация рабочая.
-
Загрузите резервную модель Gemma 4. Тем же способом найдите и скачайте Gemma 4 в формате GGUF. Сравните ответы двух моделей на одинаковых промптах. На 4 ГБ видеопамяти обе модели работают, но Qwen3.5-4B по результатам теста выбрана как основная.
-
Скачайте и установите Ollama. Перейдите на сайт ollama.com, загрузите установщик для Windows. После установки Ollama работает как локальный сервис, доступный по адресу
http://localhost:11434. -
Загрузите модель в Ollama через командную строку. Откройте терминал Windows (PowerShell или CMD) и выполните:
ollama pull qwen3.5:4b
Дождитесь загрузки. Для резервной модели:
ollama pull gemma:4b
- Проверьте, что модель отвечает. В терминале выполните:
ollama run qwen3.5:4b
Введите любой вопрос. Если ответ пришёл, базовая настройка завершена.
- Проверьте API-доступ. Для будущей автоматизации важно, чтобы модель отвечала не только в терминале, но и через программный интерфейс. Выполните в терминале:
curl http://localhost:11434/api/chat -d "{\"model\": \"qwen3.5:4b\", \"messages\": [{\"role\": \"user\", \"content\": \"Привет, как дела?\"}]}"
Если в ответ пришёл JSON с текстом, API работает. Это тот самый endpoint (точка подключения), к которому в будущем будут обращаться ИИ-агенты (agent, программа, которая сама решает, какие шаги предпринять для выполнения задачи).
В LM Studio загружена модель Qwen3.5-4B с квантованием Q4_K_M. Промпт:
Напиши краткую сводку по теме "рост цен на электронику в 2025 году" в трёх предложениях для Telegram-канала.
Ответ модели (получен за 8 секунд на 4 ГБ VRAM):
«В 2025 году цены на бытовую электронику продолжают расти из-за увеличения стоимости компонентов и логистических издержек. Сильнее всего подорожали ноутбуки и смартфоны среднего сегмента. Аналитики ожидают стабилизации не раньше второго полугодия.»
Результат пригоден как черновик для поста. Модель работает полностью офлайн, данные никуда не уходят.
Модель не запускается или вылетает. Скорее всего, вы выбрали слишком крупный файл. На 4 ГБ видеопамяти берите модели размером до 4B (четыре миллиарда параметров) с квантованием Q4_K_M или ниже. Модель на 7B без сжатия в 4 ГБ не уместится.
Генерация идёт медленнее одного токена в секунду. Проверьте, не занята ли видеопамять другими приложениями (браузер с аппаратным ускорением, второй монитор). Закройте лишнее и перезапустите среду.
Ollama установлена, но команда не распознаётся. После установки перезапустите терминал или перезагрузите компьютер, чтобы системная переменная PATH обновилась.
Путают модель и среду. «Ollama плохо пишет тексты» означает, что вы загрузили слабую модель, а не что среда плохая. Поменяйте модель, среда только доставляет её ответы.
Что делать с этим прямо сейчас?
Авторам Дзена и копирайтерам. Локальная нейросеть работает как бесплатный черновик-генератор, который не списывает подписку за каждый запрос. Загрузили Qwen3.5-4B, написали промпт с темой и форматом поста, получили набросок за секунды. Данные остаются на вашем компьютере: можно работать с чувствительными темами, клиентскими ТЗ, черновиками, которые не хочется отправлять в облако.
Маркетологам. Появляется возможность тестировать промпты и шаблоны генерации без лимитов и без оплаты за токены. Когда вы перебираете 30 вариантов заголовков или описаний, экономия ощутима. Для тех, кто в РФ пользуется YandexGPT или GigaChat, локальная модель не замена, а дополнение: облачные сервисы сильнее на русском языке, но у них есть лимиты и платные тарифы.
Предпринимателям в РФ и СНГ. Ollama и LM Studio работают без VPN, модели Qwen и Gemma доступны для скачивания. Это способ начать эксперименты с ИИ-автоматизацией без привязки к зарубежным API, которые могут быть ограничены по региону. Вложений ноль, нужен только компьютер с 16 ГБ оперативной памяти.
Я протестировал десятки локальных моделей за последний год, и вот честный вердикт: на 4 ГБ видеопамяти локальная нейросеть выдаёт текст уровня «приличный черновик». Это не замена GPT-4o или Claude для сложных аналитических задач. Но для генерации заготовок постов, переработки заметок в структурированный текст, подготовки кратких сводок этого хватает. Главный выигрыш не в качестве, а в независимости: ни подписок, ни лимитов, ни утечки данных. Qwen3.5-4B на момент теста показала лучший баланс скорости и связности на русском языке среди моделей, которые влезают в 4 ГБ. Gemma 4 чуть слабее на русском, но стабильнее на английском, потому и выбрана резервной.
Установка занимает меньше часа, а дальше модель работает без интернета, без подписки и без ограничений на количество запросов. Если вы до сих пор платили за каждый промпт в облачном сервисе, сейчас подходящий момент попробовать: железо подешевело, модели ужались, а инструменты стали понятны даже без технического бэкграунда.
Попробуйте AI-инструменты dzen.guru
Мы собираем и тестируем нейросети, которые реально помогают авторам и маркетологам в РФ. Подпишитесь, чтобы не пропустить практические разборы.
Перейти на dzen.guru
Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

LLM локально на GPU за копейки: четыре майнинговые карты дают 25 токенов в секунду
Локальный запуск LLM (большой языковой модели, то есть нейросети, генерирующей текст) на видеокартах из старой майнинг-фермы даёт стабильные 19-25 токенов в…

Передача энергии из космоса лазером: 152 Вт на 1 км и демонстраторы на орбите к 2026 году
Публикация по плану how-to. H1 не дублирую. Компании выстраивают орбитальные группировки, и лазерная передача энергии из космоса становится практическим…

Meta выпустила приложение для создания игр по текстовому промпту: код больше не нужен
Meta второго июля тихо выложила в магазины приложений Pocket, генератор мини-игр и интерактивных приложений, где единственный инструмент разработки это…
Комментарии