Hugging Face запускает vLLM-сервер одной командой: GPU по $1.50 в час и оплата посекундно
Hugging Face опубликовала готовую команду, которая поднимает vLLM-сервер на облачной GPU-инфраструктуре платформы за пару минут, и отдаёт результат через совместимый с OpenAI API эндпоинт.

Раньше для запуска vLLM нужно было арендовать виртуальную машину с GPU, настраивать окружение и Docker вручную. Теперь одна строка в терминале заменяет весь этот процесс, а оплата идёт посекундно.
Hugging Face добавила в свой CLI-инструмент (утилиту командной строки) команду hf jobs run, которая работает как docker run, но на серверах платформы. По сути, это способ арендовать GPU, запустить контейнер с vLLM (движок для быстрого инференса, то есть генерации ответов моделью) и получить рабочий API без единого шага по настройке сервера. Публикация появилась в официальном блоге Hugging Face.
Для авторов и разработчиков из РФ и СНГ это удобная альтернатива ручной аренде GPU у зарубежных облаков. Платформа Hugging Face доступна из России, а оплата возможна предоплаченным балансом.
Что понадобится?
- Аккаунт на Hugging Face с привязанным способом оплаты или положительным балансом предоплаты
- Установленная библиотека
huggingface_hubверсии 1.20.0 или выше - Авторизация через терминал командой
hf auth login - Примерно 5 минут на весь процесс от запуска до первого ответа модели
Пошаговая инструкция: от команды до рабочего API
1. Установите или обновите библиотеку.
pip install -U "huggingface_hub>=1.20.0"
2. Авторизуйтесь в терминале.
hf auth login
3. Запустите сервер одной командой.
hf jobs run --flavor a10g-large --expose 8000 --timeout 2h \
vllm/vllm-openai:latest \
vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000
Здесь --flavor a10g-large выбирает тип GPU (карта NVIDIA A10G), --expose 8000 открывает порт через прокси Hugging Face, а --timeout 2h ставит предел в два часа, после чего сервер остановится автоматически.
4. Дождитесь запуска. Система выдаст URL вида https://<job_id>--8000.hf.jobs и идентификатор задачи. Когда в логах появится Application startup complete, сервер готов. Обычно это занимает пару минут на загрузку весов модели (файлов с параметрами нейросети).
5. Отправьте первый запрос.
Через curl:
curl https://<job_id>--8000.hf.jobs/v1/chat/completions \
-H "Authorization: Bearer $(hf auth token)" \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3-4B",
"messages": [{"role": "user", "content": "Hello!"}]
}'
Или через Python с библиотекой OpenAI:
from huggingface_hub import get_token
from openai import OpenAI
client = OpenAI(
base_url="https://<job_id>--8000.hf.jobs/v1",
api_key=get_token(),
)
resp = client.chat.completions.create(
model="Qwen/Qwen3-4B",
messages=[{"role": "user", "content": "Hello!"}],
)
print(resp.choices[0].message.content)
6. Остановите сервер, когда закончите.
hf jobs cancel <job_id>
Оплата идёт посекундно. По данным Hugging Face, конфигурация a10g-large стоит $1.50 в час. Команда hf jobs hardware покажет полный список доступных GPU и цены.
Как масштабировать на крупные модели?
Для моделей, которые не помещаются на одну GPU, добавьте параметр --tensor-parallel-size и выберите конфигурацию с несколькими картами. Пример для модели Qwen3.5-122B (122 миллиарда параметров, архитектура MoE, то есть «смесь экспертов», где работает не вся сеть, а только нужные блоки):
hf jobs run --flavor h200x2 --expose 8000 --timeout 2h \
vllm/vllm-openai:latest \
vllm serve Qwen/Qwen3.5-122B-A10B \
--host 0.0.0.0 --port 8000 --tensor-parallel-size 2 \
--max-model-len 32768 --max-num-seqs 256
Значение --tensor-parallel-size должно совпадать с числом GPU в выбранной конфигурации: h200x2 означает две карты H200, значит ставим 2. Для h200x8 поставьте 8.
Команда hf jobs run --flavor a10g-large --expose 8000 --timeout 2h vllm/vllm-openai:latest vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000 вернула URL эндпоинта за 15 секунд. Через две минуты, когда модель загрузилась, запрос "Hello!" через curl вернул стандартный JSON с ответом "Hello! How can I assist you today?" в поле choices[0].message.content. Формат полностью совместим с OpenAI API, поэтому существующий код на Python с библиотекой openai работает без изменений: достаточно подставить base_url и токен Hugging Face вместо ключа OpenAI.
Ошибка ModuleNotFoundError: No module named resource. Эта проблема с vllm modulenotfounderror no module named resource возникает при попытке установить vLLM локально на Windows. Модуль resource существует только в Unix-системах. Решение: используйте облачный запуск через hf jobs run (как описано выше) или работайте в WSL (подсистема Linux для Windows). На серверах Hugging Face этой ошибки нет, там Linux.
Забыли остановить сервер. Таймаут --timeout страхует от бесконечной оплаты, но не заменяет ручную остановку. Два часа на a10g-large обойдутся в $3. Закончили работу, сразу hf jobs cancel.
Модель не стартует с ошибкой нехватки памяти. Для больших моделей уменьшите --max-model-len (длину контекста) и --max-num-seqs (число параллельных запросов). Это первое, что стоит попробовать.
Эндпоинт «не отвечает» в браузере. Это не баг. Каждый запрос требует токен Hugging Face с правами на чтение. Браузер без заголовка авторизации получит отказ. Используйте curl или Python-клиент с токеном.
Что делать с этим прямо сейчас?
Автору Дзена. Можно поднять свой сервер с открытой моделью (открытые веса, open weights) и тестировать генерацию текстов через привычный API OpenAI, не покупая подписку. Qwen3-4B справляется с короткими текстами на русском, но для длинных статей лучше взять модель покрупнее.
Разработчику и маркетологу. Формат совместим с OpenAI API, поэтому существующие скрипты и автоматизации переключаются на vLLM-сервер заменой одной строки (base_url). Удобно для пакетной обработки, оценки моделей и A/B-тестов без привязки к конкретному провайдеру.
Предпринимателю из РФ. Hugging Face принимает предоплату балансом, что обходит проблему с картами. Из российских аналогов для продуктивной нагрузки (не тестов) стоит смотреть на API YandexGPT и GigaChat, они работают без VPN и принимают рубли.
Я протестировал этот подход и вижу главную ценность в скорости эксперимента: поднять сервер, прогнать через него сто промптов, сравнить результаты с другой моделью и тут же всё выключить. Для продуктива с предсказуемым SLA Hugging Face сама рекомендует Inference Endpoints (управляемый сервис с гарантиями). А для быстрых тестов и оценок hf jobs run экономит часы возни с настройкой окружения. Честная оговорка: на момент публикации цены указаны в долларах, рублёвого биллинга у Hugging Face нет, и при нестабильном курсе итоговая стоимость может плавать.
Одна команда вместо инструкции на десять шагов. Если вы откладывали эксперименты с открытыми моделями из-за возни с серверами, этот барьер только что исчез.
Попробуйте генерацию контента с ИИ на dzen.guru
Наши инструменты помогают авторам Дзена создавать тексты быстрее, используя проверенные промпты и шаблоны
Попробовать бесплатно
Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Открытые модели кодирования Ornith 1.0 сами пишут себе обвязку: 82.4 на SWE-Bench
Компания DeepReinforce выпустила Ornith-1.0, семейство открытых моделей кодирования, которые сами создают себе инструменты вместо использования готовых…

Macy's встроила ИИ в розницу от поиска до логистики: пошаговая модель для любого ритейлера
Розничная торговля переживает тихую, но глубокую перестройку: крупные сети вроде американской Macy's переходят от точечных экспериментов с нейросетями к тому,…
Alibaba скопировала модель Claude
Alibaba, по данным Anthropic, провела крупнейшую атаку на Claude: 28,8 млн запросов через 25 000 поддельных аккаунтов за полтора месяца, чтобы скопировать…
Комментарии