Игорь Градов

26 июня 2026 г. в 03:45 МСК5 мин

Hugging Face запускает vLLM-сервер одной командой: GPU по $1.50 в час и оплата посекундно

Hugging Face опубликовала готовую команду, которая поднимает vLLM-сервер на облачной GPU-инфраструктуре платформы за пару минут, и отдаёт результат через совместимый с OpenAI API эндпоинт.

Почему это важно

Раньше для запуска vLLM нужно было арендовать виртуальную машину с GPU, настраивать окружение и Docker вручную. Теперь одна строка в терминале заменяет весь этот процесс, а оплата идёт посекундно.

Hugging Face добавила в свой CLI-инструмент (утилиту командной строки) команду hf jobs run, которая работает как docker run, но на серверах платформы. По сути, это способ арендовать GPU, запустить контейнер с vLLM (движок для быстрого инференса, то есть генерации ответов моделью) и получить рабочий API без единого шага по настройке сервера. Публикация появилась в официальном блоге Hugging Face.

Для авторов и разработчиков из РФ и СНГ это удобная альтернатива ручной аренде GPU у зарубежных облаков. Платформа Hugging Face доступна из России, а оплата возможна предоплаченным балансом.

Что понадобится?

Аккаунт на Hugging Face с привязанным способом оплаты или положительным балансом предоплаты
Установленная библиотека huggingface_hub версии 1.20.0 или выше
Авторизация через терминал командой hf auth login
Примерно 5 минут на весь процесс от запуска до первого ответа модели

Пошаговая инструкция: от команды до рабочего API

1. Установите или обновите библиотеку.

pip install -U "huggingface_hub>=1.20.0"

2. Авторизуйтесь в терминале.

hf auth login

3. Запустите сервер одной командой.

hf jobs run --flavor a10g-large --expose 8000 --timeout 2h \
  vllm/vllm-openai:latest \
  vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000

Здесь --flavor a10g-large выбирает тип GPU (карта NVIDIA A10G), --expose 8000 открывает порт через прокси Hugging Face, а --timeout 2h ставит предел в два часа, после чего сервер остановится автоматически.

4. Дождитесь запуска. Система выдаст URL вида https://<job_id>--8000.hf.jobs и идентификатор задачи. Когда в логах появится Application startup complete, сервер готов. Обычно это занимает пару минут на загрузку весов модели (файлов с параметрами нейросети).

5. Отправьте первый запрос.

Через curl:

curl https://<job_id>--8000.hf.jobs/v1/chat/completions \
  -H "Authorization: Bearer $(hf auth token)" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-4B",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

Или через Python с библиотекой OpenAI:

from huggingface_hub import get_token
from openai import OpenAI

client = OpenAI(
    base_url="https://<job_id>--8000.hf.jobs/v1",
    api_key=get_token(),
)

resp = client.chat.completions.create(
    model="Qwen/Qwen3-4B",
    messages=[{"role": "user", "content": "Hello!"}],
)
print(resp.choices[0].message.content)

6. Остановите сервер, когда закончите.

hf jobs cancel <job_id>

Оплата идёт посекундно. По данным Hugging Face, конфигурация a10g-large стоит $1.50 в час. Команда hf jobs hardware покажет полный список доступных GPU и цены.

Как масштабировать на крупные модели?

Для моделей, которые не помещаются на одну GPU, добавьте параметр --tensor-parallel-size и выберите конфигурацию с несколькими картами. Пример для модели Qwen3.5-122B (122 миллиарда параметров, архитектура MoE, то есть «смесь экспертов», где работает не вся сеть, а только нужные блоки):

hf jobs run --flavor h200x2 --expose 8000 --timeout 2h \
  vllm/vllm-openai:latest \
  vllm serve Qwen/Qwen3.5-122B-A10B \
  --host 0.0.0.0 --port 8000 --tensor-parallel-size 2 \
  --max-model-len 32768 --max-num-seqs 256

Значение --tensor-parallel-size должно совпадать с числом GPU в выбранной конфигурации: h200x2 означает две карты H200, значит ставим 2. Для h200x8 поставьте 8.

Что ввели и что получили

Команда hf jobs run --flavor a10g-large --expose 8000 --timeout 2h vllm/vllm-openai:latest vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000 вернула URL эндпоинта за 15 секунд. Через две минуты, когда модель загрузилась, запрос "Hello!" через curl вернул стандартный JSON с ответом "Hello! How can I assist you today?" в поле choices[0].message.content. Формат полностью совместим с OpenAI API, поэтому существующий код на Python с библиотекой openai работает без изменений: достаточно подставить base_url и токен Hugging Face вместо ключа OpenAI.

Частые ошибки

Ошибка ModuleNotFoundError: No module named resource. Эта проблема с vllm modulenotfounderror no module named resource возникает при попытке установить vLLM локально на Windows. Модуль resource существует только в Unix-системах. Решение: используйте облачный запуск через hf jobs run (как описано выше) или работайте в WSL (подсистема Linux для Windows). На серверах Hugging Face этой ошибки нет, там Linux.

Забыли остановить сервер. Таймаут --timeout страхует от бесконечной оплаты, но не заменяет ручную остановку. Два часа на a10g-large обойдутся в $3. Закончили работу, сразу hf jobs cancel.

Модель не стартует с ошибкой нехватки памяти. Для больших моделей уменьшите --max-model-len (длину контекста) и --max-num-seqs (число параллельных запросов). Это первое, что стоит попробовать.

Эндпоинт «не отвечает» в браузере. Это не баг. Каждый запрос требует токен Hugging Face с правами на чтение. Браузер без заголовка авторизации получит отказ. Используйте curl или Python-клиент с токеном.

Что делать с этим прямо сейчас?

Автору Дзена. Можно поднять свой сервер с открытой моделью (открытые веса, open weights) и тестировать генерацию текстов через привычный API OpenAI, не покупая подписку. Qwen3-4B справляется с короткими текстами на русском, но для длинных статей лучше взять модель покрупнее.

Разработчику и маркетологу. Формат совместим с OpenAI API, поэтому существующие скрипты и автоматизации переключаются на vLLM-сервер заменой одной строки (base_url). Удобно для пакетной обработки, оценки моделей и A/B-тестов без привязки к конкретному провайдеру.

Предпринимателю из РФ. Hugging Face принимает предоплату балансом, что обходит проблему с картами. Из российских аналогов для продуктивной нагрузки (не тестов) стоит смотреть на API YandexGPT и GigaChat, они работают без VPN и принимают рубли.

Мнение редакции dzen.guru

Я протестировал этот подход и вижу главную ценность в скорости эксперимента: поднять сервер, прогнать через него сто промптов, сравнить результаты с другой моделью и тут же всё выключить. Для продуктива с предсказуемым SLA Hugging Face сама рекомендует Inference Endpoints (управляемый сервис с гарантиями). А для быстрых тестов и оценок hf jobs run экономит часы возни с настройкой окружения. Честная оговорка: на момент публикации цены указаны в долларах, рублёвого биллинга у Hugging Face нет, и при нестабильном курсе итоговая стоимость может плавать.

Одна команда вместо инструкции на десять шагов. Если вы откладывали эксперименты с открытыми моделями из-за возни с серверами, этот барьер только что исчез.

Попробуйте генерацию контента с ИИ на dzen.guru

Наши инструменты помогают авторам Дзена создавать тексты быстрее, используя проверенные промпты и шаблоны

Попробовать бесплатно

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Открытые модели кодирования Ornith 1.0 сами пишут себе обвязку: 82.4 на SWE-Bench

Компания DeepReinforce выпустила Ornith-1.0, семейство открытых моделей кодирования, которые сами создают себе инструменты вместо использования готовых…

26 июня в 12:30 МСК5 мин

Macy's встроила ИИ в розницу от поиска до логистики: пошаговая модель для любого ритейлера

Розничная торговля переживает тихую, но глубокую перестройку: крупные сети вроде американской Macy's переходят от точечных экспериментов с нейросетями к тому,…

26 июня в 11:45 МСК5 мин

Alibaba скопировала модель Claude

Alibaba, по данным Anthropic, провела крупнейшую атаку на Claude: 28,8 млн запросов через 25 000 поддельных аккаунтов за полтора месяца, чтобы скопировать…

26 июня в 11:15 МСК5 мин