Игорь Градов
Игорь Градов
5 мин
ai

Создание ИИ-агентов на своих серверах: калькуляторы завышают скорость модели в 5 раз

Компания LLMStart.ru, которая строит ИИ-системы для бизнеса на закрытых серверах, опубликовала результаты нагрузочного тестирования и набор инструментов для тех, кто разворачивает языковые модели без облака.

Создание ИИ-агентов на своих серверах: калькуляторы завышают скорость модели в 5 раз
Почему это важно

Публичные калькуляторы производительности завысили скорость модели в 5,3 раза по сравнению с реальным тестом на том же оборудовании. Для компаний, которые запускают ИИ-агентов на собственных серверах в защищённом контуре, ошибка такого масштаба означает либо сорванные гарантии клиенту, либо закупку лишнего железа.

Команда LLMStart.ru занимается созданием ИИ-агентов на закрытых контурах, где внешние облачные сервисы запрещены политикой безопасности. В свежем материале на Хабре инженеры описали, как развернули крупную рассуждающую модель GPT-OSS-120B с архитектурой MoE (Mixture of Experts, «смесь экспертов», когда из 120 миллиардов параметров на каждый запрос работают только около 5 миллиардов) на паре видеокарт RTX Pro 6000 Blackwell. Публичный калькулятор пообещал 4 696 токенов (минимальных единиц текста) в секунду, а реальный тест показал 880. Разница оказалась критической для бизнес-гарантий.

Что Когда Кто выпустил Цена
Методика и скрипт нагрузочного тестирования LLM на своём железе Июнь 2025 LLMStart.ru Бесплатно (открытая публикация)

Калькулятор обещал в пять раз больше, чем выдало железо

  • Теория против практики. Калькулятор apxml.com рассчитал 4 696 токенов в секунду для 8 параллельных пользователей. Реальный прогон на двух RTX Pro 6000 Blackwell (по 96 ГБ видеопамяти каждая) дал 880,8 токенов в секунду. Другие калькуляторы (selfhostllm.org, howmanygpus.ai) тоже давали расходящиеся цифры.

  • MoE-модели ломают формулы. Архитектура MoE активирует лишь часть параметров на каждый запрос. Стандартные калькуляторы этого не учитывают и считают так, будто все 120 миллиардов параметров загружены равномерно.

  • Скрытые токены множат нагрузку. GPT-OSS-120B, рассуждающая модель (reasoning model, модель, которая «думает» перед ответом): на каждый видимый токен приходится 2-3 скрытых reasoning-токена. Пользователь видит ответ на 100 токенов, а видеокарта обрабатывает все 400.

  • Кэширование префиксов экономит до 41%. Если 80% контекста повторяется (например, системный промпт, постоянная инструкция модели), время до первого токена (TTFT) падает на 41%, а пиковые задержки сокращаются на 67%.

  • Больше пользователей, быстрее отклик. Парадоксальный результат: при 8 параллельных пользователях TTFT оказался на 17% ниже, чем при одном. Причина в архитектуре vLLM (движок для запуска моделей): система лучше загружает ядра видеокарты, когда обрабатывает несколько запросов одновременно, вместо того чтобы простаивать с одним.

  • Длинный контекст дорого стоит. При увеличении контекста с 2 000 до 16 000 токенов скорость генерации падает с 880,8 до 645,3 токенов в секунду для тех же 8 пользователей.

Как проверить производительность на своём сервере?

  1. Поднимите модель через vLLM. Команда LLMStart.ru использовала vLLM в защищённом контуре и работала только через REST API, без прямого доступа к GPU или настройкам. Убедитесь, что в момент тестов систему не нагружает никто другой.

  2. Прогоните сценарии с нарастающей нагрузкой. В описанном тесте было 10 сценариев: от 1 до 8 параллельных пользователей, контекст от 2 000 до 16 000 токенов, с включённым и выключенным кэшированием префиксов. Итого 1 080 запросов, по 30 раундов диалога на пользователя, чтобы сымитировать реальную беседу, а не одиночный запрос.

  3. Сравните с калькулятором и зафиксируйте расхождение. Подробная методика и логика скрипта описаны в оригинальной публикации на Хабре. Для MoE-моделей калькуляторы дают завышенный результат, поэтому живой тест обязателен перед тем, как давать клиенту гарантии по числу одновременных диалогов.

Есть ли российские аналоги для создания ИИ-агентов на своём железе?

Из доступных в РФ моделей для локального развёртывания стоит смотреть на YandexGPT (доступна через API Яндекса, но не для установки на свои серверы) и GigaChat от Сбера (аналогично, облачный API). Для полностью закрытого контура, где нужен именно свой сервер без внешних вызовов, на российском рынке пока нет прямых аналогов GPT-OSS-120B с открытыми весами такого масштаба. Команды вроде LLMStart.ru работают с международными опенсорс-моделями (моделями с открытыми весами, которые можно скачать и запустить у себя). Именно поэтому локальное тестирование важнее любого онлайн-калькулятора: западные инструменты не знают ни российского железа, ни специфики защищённых контуров.

Что это значит для вас?

Автору Дзена. Если вы используете ИИ-агентов для генерации черновиков или исследования тем, эта история напоминает: скорость ответа зависит не только от модели, но и от того, где она запущена. Облачный сервис и свой сервер дадут разную скорость и разную стоимость за токен.

Маркетологу. При планировании создания ИИ-агентов для клиентского сервиса (чат-боты, автоответы) закладывайте запас мощности минимум в 3-5 раз от того, что обещает калькулятор. Иначе при реальной нагрузке бот будет отвечать с задержкой, которая убьёт конверсию.

Предпринимателю в РФ. Если ваша компания работает с персональными данными или в регулируемой отрасли и вы рассматриваете on-premise (развёртывание на своих серверах без облака), единственный способ дать клиенту гарантии по нагрузке, это живой тест на конкретном железе. Калькуляторы не заменяют бенчмарк.

Мнение редакции dzen.guru

По моим наблюдениям, большинство команд в РФ, которые берутся за создание ИИ-агентов на закрытых контурах, опираются именно на публичные калькуляторы при оценке бюджета на железо. Пятикратная ошибка, описанная в этом тесте, это не аномалия, а типичная ситуация для MoE-моделей на нестандартных видеокартах. Если вы сейчас считаете железо под локальный ИИ, прогоните хотя бы базовый нагрузочный тест через vLLM перед тем, как подписывать бюджет. Оговорка: результаты LLMStart.ru получены на конкретной связке GPT-OSS-120B и RTX Pro 6000 Blackwell, на другом оборудовании и других моделях расхождение может быть иным, но вряд ли нулевым.

Частые вопросы

Можно ли доверять онлайн-калькуляторам производительности LLM?

Как ориентиру, да. Как основанию для гарантий клиенту, нет. Калькуляторы считают теоретический максимум без накладных расходов. Для MoE-моделей и нестандартного железа расхождение с реальностью, по данным теста LLMStart.ru, достигает 5,3 раза. Всегда проверяйте живым тестом.

Зачем запускать модель на своих серверах, если есть облако?

Главная причина: безопасность данных. В банках, госструктурах, медицине и других регулируемых отраслях передавать данные во внешний API часто запрещено. Своё железо позволяет держать всё внутри периметра. Вторая причина: предсказуемость расходов, нет зависимости от тарифов облачного провайдера.

Что такое MoE и почему это важно при расчёте железа?

MoE (Mixture of Experts, «смесь экспертов») — это архитектура модели, где на каждый запрос работает не вся сеть, а только её часть. У GPT-OSS-120B из 120 миллиардов параметров активны примерно 5 миллиардов. Это экономит память и ускоряет инференс (процесс генерации ответа), но калькуляторы часто считают так, будто работают все параметры, и выдают завышенный прогноз.

Живой тест на конкретном железе остаётся единственной честной валютой при планировании нагрузки, и эта публикация LLMStart.ru даёт методику, которую можно повторить на своём оборудовании.

По материалам Habr ML

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

IPO SpaceX: когда начнутся торги и почему $75 млрд побили рекорд втрое
ai

IPO SpaceX: когда начнутся торги и почему $75 млрд побили рекорд втрое

SpaceX второго июня оценила свои акции в 135 долларов за штуку и привлекла 75 миллиардов долларов от андеррайтеров, оформив крупнейшее первичное размещение в…

5 мин
Неделя на один комикс: какие LLM проблемы вскрыл эксперимент с ChatGPT
ai

Неделя на один комикс: какие LLM проблемы вскрыл эксперимент с ChatGPT

Автор из сообщества Habr неделю бился с генерацией комикса через бесплатный ChatGPT и подробно задокументировал каждый промпт и каждый провал, показав на…

5 мин
IPO SpaceX уже в пятницу: когда нижние слои SPV получат акции и получат ли вообще
ai

IPO SpaceX уже в пятницу: когда нижние слои SPV получат акции и получат ли вообще

SpaceX в пятницу выходит на биржу, и часть инвесторов, вложившихся через многослойные SPV (специальные инвестиционные оболочки, где несколько участников…

5 мин