Создание ИИ-агентов на своих серверах: калькуляторы завышают скорость модели в 5 раз
Компания LLMStart.ru, которая строит ИИ-системы для бизнеса на закрытых серверах, опубликовала результаты нагрузочного тестирования и набор инструментов для тех, кто разворачивает языковые модели без облака.

Публичные калькуляторы производительности завысили скорость модели в 5,3 раза по сравнению с реальным тестом на том же оборудовании. Для компаний, которые запускают ИИ-агентов на собственных серверах в защищённом контуре, ошибка такого масштаба означает либо сорванные гарантии клиенту, либо закупку лишнего железа.
Команда LLMStart.ru занимается созданием ИИ-агентов на закрытых контурах, где внешние облачные сервисы запрещены политикой безопасности. В свежем материале на Хабре инженеры описали, как развернули крупную рассуждающую модель GPT-OSS-120B с архитектурой MoE (Mixture of Experts, «смесь экспертов», когда из 120 миллиардов параметров на каждый запрос работают только около 5 миллиардов) на паре видеокарт RTX Pro 6000 Blackwell. Публичный калькулятор пообещал 4 696 токенов (минимальных единиц текста) в секунду, а реальный тест показал 880. Разница оказалась критической для бизнес-гарантий.
| Что | Когда | Кто выпустил | Цена |
|---|---|---|---|
| Методика и скрипт нагрузочного тестирования LLM на своём железе | Июнь 2025 | LLMStart.ru | Бесплатно (открытая публикация) |
Калькулятор обещал в пять раз больше, чем выдало железо
-
Теория против практики. Калькулятор apxml.com рассчитал 4 696 токенов в секунду для 8 параллельных пользователей. Реальный прогон на двух RTX Pro 6000 Blackwell (по 96 ГБ видеопамяти каждая) дал 880,8 токенов в секунду. Другие калькуляторы (selfhostllm.org, howmanygpus.ai) тоже давали расходящиеся цифры.
-
MoE-модели ломают формулы. Архитектура MoE активирует лишь часть параметров на каждый запрос. Стандартные калькуляторы этого не учитывают и считают так, будто все 120 миллиардов параметров загружены равномерно.
-
Скрытые токены множат нагрузку. GPT-OSS-120B, рассуждающая модель (reasoning model, модель, которая «думает» перед ответом): на каждый видимый токен приходится 2-3 скрытых reasoning-токена. Пользователь видит ответ на 100 токенов, а видеокарта обрабатывает все 400.
-
Кэширование префиксов экономит до 41%. Если 80% контекста повторяется (например, системный промпт, постоянная инструкция модели), время до первого токена (TTFT) падает на 41%, а пиковые задержки сокращаются на 67%.
-
Больше пользователей, быстрее отклик. Парадоксальный результат: при 8 параллельных пользователях TTFT оказался на 17% ниже, чем при одном. Причина в архитектуре vLLM (движок для запуска моделей): система лучше загружает ядра видеокарты, когда обрабатывает несколько запросов одновременно, вместо того чтобы простаивать с одним.
-
Длинный контекст дорого стоит. При увеличении контекста с 2 000 до 16 000 токенов скорость генерации падает с 880,8 до 645,3 токенов в секунду для тех же 8 пользователей.
Как проверить производительность на своём сервере?
-
Поднимите модель через vLLM. Команда LLMStart.ru использовала vLLM в защищённом контуре и работала только через REST API, без прямого доступа к GPU или настройкам. Убедитесь, что в момент тестов систему не нагружает никто другой.
-
Прогоните сценарии с нарастающей нагрузкой. В описанном тесте было 10 сценариев: от 1 до 8 параллельных пользователей, контекст от 2 000 до 16 000 токенов, с включённым и выключенным кэшированием префиксов. Итого 1 080 запросов, по 30 раундов диалога на пользователя, чтобы сымитировать реальную беседу, а не одиночный запрос.
-
Сравните с калькулятором и зафиксируйте расхождение. Подробная методика и логика скрипта описаны в оригинальной публикации на Хабре. Для MoE-моделей калькуляторы дают завышенный результат, поэтому живой тест обязателен перед тем, как давать клиенту гарантии по числу одновременных диалогов.
Есть ли российские аналоги для создания ИИ-агентов на своём железе?
Из доступных в РФ моделей для локального развёртывания стоит смотреть на YandexGPT (доступна через API Яндекса, но не для установки на свои серверы) и GigaChat от Сбера (аналогично, облачный API). Для полностью закрытого контура, где нужен именно свой сервер без внешних вызовов, на российском рынке пока нет прямых аналогов GPT-OSS-120B с открытыми весами такого масштаба. Команды вроде LLMStart.ru работают с международными опенсорс-моделями (моделями с открытыми весами, которые можно скачать и запустить у себя). Именно поэтому локальное тестирование важнее любого онлайн-калькулятора: западные инструменты не знают ни российского железа, ни специфики защищённых контуров.
Что это значит для вас?
Автору Дзена. Если вы используете ИИ-агентов для генерации черновиков или исследования тем, эта история напоминает: скорость ответа зависит не только от модели, но и от того, где она запущена. Облачный сервис и свой сервер дадут разную скорость и разную стоимость за токен.
Маркетологу. При планировании создания ИИ-агентов для клиентского сервиса (чат-боты, автоответы) закладывайте запас мощности минимум в 3-5 раз от того, что обещает калькулятор. Иначе при реальной нагрузке бот будет отвечать с задержкой, которая убьёт конверсию.
Предпринимателю в РФ. Если ваша компания работает с персональными данными или в регулируемой отрасли и вы рассматриваете on-premise (развёртывание на своих серверах без облака), единственный способ дать клиенту гарантии по нагрузке, это живой тест на конкретном железе. Калькуляторы не заменяют бенчмарк.
По моим наблюдениям, большинство команд в РФ, которые берутся за создание ИИ-агентов на закрытых контурах, опираются именно на публичные калькуляторы при оценке бюджета на железо. Пятикратная ошибка, описанная в этом тесте, это не аномалия, а типичная ситуация для MoE-моделей на нестандартных видеокартах. Если вы сейчас считаете железо под локальный ИИ, прогоните хотя бы базовый нагрузочный тест через vLLM перед тем, как подписывать бюджет. Оговорка: результаты LLMStart.ru получены на конкретной связке GPT-OSS-120B и RTX Pro 6000 Blackwell, на другом оборудовании и других моделях расхождение может быть иным, но вряд ли нулевым.
Частые вопросы
Можно ли доверять онлайн-калькуляторам производительности LLM?
Как ориентиру, да. Как основанию для гарантий клиенту, нет. Калькуляторы считают теоретический максимум без накладных расходов. Для MoE-моделей и нестандартного железа расхождение с реальностью, по данным теста LLMStart.ru, достигает 5,3 раза. Всегда проверяйте живым тестом.
Зачем запускать модель на своих серверах, если есть облако?
Главная причина: безопасность данных. В банках, госструктурах, медицине и других регулируемых отраслях передавать данные во внешний API часто запрещено. Своё железо позволяет держать всё внутри периметра. Вторая причина: предсказуемость расходов, нет зависимости от тарифов облачного провайдера.
Что такое MoE и почему это важно при расчёте железа?
MoE (Mixture of Experts, «смесь экспертов») — это архитектура модели, где на каждый запрос работает не вся сеть, а только её часть. У GPT-OSS-120B из 120 миллиардов параметров активны примерно 5 миллиардов. Это экономит память и ускоряет инференс (процесс генерации ответа), но калькуляторы часто считают так, будто работают все параметры, и выдают завышенный прогноз.
Живой тест на конкретном железе остаётся единственной честной валютой при планировании нагрузки, и эта публикация LLMStart.ru даёт методику, которую можно повторить на своём оборудовании.
По материалам Habr ML

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

IPO SpaceX: когда начнутся торги и почему $75 млрд побили рекорд втрое
SpaceX второго июня оценила свои акции в 135 долларов за штуку и привлекла 75 миллиардов долларов от андеррайтеров, оформив крупнейшее первичное размещение в…

Неделя на один комикс: какие LLM проблемы вскрыл эксперимент с ChatGPT
Автор из сообщества Habr неделю бился с генерацией комикса через бесплатный ChatGPT и подробно задокументировал каждый промпт и каждый провал, показав на…

IPO SpaceX уже в пятницу: когда нижние слои SPV получат акции и получат ли вообще
SpaceX в пятницу выходит на биржу, и часть инвесторов, вложившихся через многослойные SPV (специальные инвестиционные оболочки, где несколько участников…
Комментарии