Игорь Градов

3 июля 2026 г. в 11:30 МСК7 мин

Стоимость LLM: из чего складывается цена каждого запроса к нейросети

Стоимость LLM (большой языковой модели, той самой нейросети за ChatGPT или Claude) складывается из десятков скрытых переменных, и пятичасовой лимит на экране Claude показывает не каприз разработчиков, а реальную цену вычислений на GPU, которую несёт провайдер за каждый ваш запрос.

Почему это важно

Когда вы упираетесь в лимит подписки, вы упираетесь не в маркетинговое ограничение, а в физический потолок видеопамяти и процессорного времени, за которое платит провайдер. Понимание стоимости LLM позволяет тратить меньше токенов (единиц текста, которыми оперирует модель) и получать больше пользы от каждого запроса.

Эта инструкция основана на подробном разборе экономики инференса (процесса генерации ответа моделью) из серии статей «Как работают LLM». Автор серии использует открытые модели Llama от Meta и DeepSeek, у которых опубликованы и размер, и архитектура, чтобы показать математику, которую каждый может перепроверить. Затем логика переносится на закрытые модели вроде Claude и GPT, где архитектуру не раскрывают, но принципы ценообразования те же.

Что понадобится

Подписка на любой чат с LLM (Claude, ChatGPT, Gemini) или доступ к API
Понимание, что такое токен: часть слова или слово целиком, в которых модель считает и тарифицирует текст
15 минут на чтение и один тестовый запрос для проверки
Калькулятор или таблица, чтобы прикинуть стоимость своих типичных сессий

Как разобраться, из чего складывается стоимость LLM?

Запомните формулу стоимости одного запроса. Она выглядит так:

стоимость запроса ≈ (2N × токены + attention(контекст) + KV-cache) × нагрузка

Здесь N означает количество параметров модели, attention описывает вычисления внимания к контексту, а KV-cache (кэш ключей и значений, область памяти, где модель хранит уже обработанный контекст) отвечает за хранение промежуточных данных. Каждая переменная означает отдельный кусок GPU-времени и GPU-памяти.

Разберитесь, что входит в input-токены. Это не только ваше сообщение. Сюда складываются системный промпт (системный промпт, скрытая инструкция, которую разработчик задаёт модели до вашего вопроса), подключённые инструменты, память чата и само ваше новое сообщение. Чем длиннее контекст, тем больше входных токенов вы оплачиваете.
Поймите, почему output-токены дороже. Каждый выходной токен генерируется последовательно: модель пересчитывает все свои веса заново для каждого следующего слова. На вход можно подать тысячу токенов параллельно, а на выходе каждый токен ждёт предыдущего.
Учтите скрытые reasoning-токены. Когда вы включаете режим Thinking в Claude или GPT, модель генерирует внутреннее рассуждение до видимого ответа. Эти reasoning-токены (токены рассуждения, внутренняя цепочка мыслей модели до финального ответа) не отображаются в чате, но оплачиваются как output. Они могут в разы увеличить стоимость LLM для одного запроса.
Оцените размер модели через параметры. Открытые модели с открытыми весами (open weights, модели, чьи обученные числовые значения опубликованы и доступны для скачивания) дают конкретные ориентиры:
Llama 3.1 8B (8 миллиардов параметров) запускается на игровом ноутбуке, требует примерно 16 ГБ видеопамяти
Llama 3.1 70B требует сервера с несколькими видеокартами, примерно 140 ГБ видеопамяти
Llama 3.1 405B требует кластера из примерно 16 карт NVIDIA H100, это сотни тысяч долларов железа и примерно 1280 ГБ видеопамяти
Разберитесь с архитектурой MoE. MoE (Mixture of Experts, смесь экспертов, архитектура, при которой на каждый запрос работает не вся модель, а только часть «экспертов») позволяет держать огромное общее число параметров, но активировать на каждый токен лишь малую долю. Поэтому total не равно active: у модели может быть 600 миллиардов параметров, а на один запрос активируются, скажем, 37 миллиардов. Это снижает стоимость инференса при сохранении качества.
Проверьте, сколько контекста вы реально используете. KV-cache растёт квадратично по мере увеличения контекстного окна. Длинный разговор на 100 000 токенов требует в разы больше видеопамяти, чем короткий на 4 000. Провайдеры перекладывают эту стоимость на вас через лимиты или цену за токен.
Посчитайте стоимость своей типичной сессии. Возьмите количество input-токенов (ваш промпт плюс системный контекст) и output-токенов (ответ модели плюс скрытые рассуждения). Умножьте на цену за токен из прайса вашего провайдера. Результат покажет, почему пятичасовой лимит заканчивается быстрее, когда вы используете длинные промпты с включённым Thinking.

Почему VRAM, а не обычная память?

Модель обязана целиком помещаться в VRAM (быстрая память видеокарты). Причина проста: разница в скорости. SSD даёт примерно 5 ГБ/с, оперативная память примерно 50 ГБ/с, а VRAM у NVIDIA H100 даёт примерно 3000 ГБ/с. VRAM быстрее SSD примерно в 600 раз.

На каждый токен GPU перечитывает все веса модели заново. Подкачка с диска убила бы скорость в тысячи раз. Когда говорят «нужно 140 ГБ памяти», это всегда про VRAM.

Арифметика: каждый параметр в формате FP16 (16-битная точность, стандартный формат хранения весов) занимает 2 байта. 8 миллиардов параметров дают примерно 16 ГБ, 70 миллиардов дают примерно 140 ГБ, 405 миллиардов дают примерно 810 ГБ плюс накладные расходы.

Что с этого вам прямо сейчас?

Авторам Дзена. Если вы генерируете тексты через Claude или ChatGPT, каждый длинный системный промпт с инструкциями сжигает входные токены ещё до того, как модель прочитала ваш вопрос. Сократите системный промпт до необходимого минимума, и лимит будет хватать на большее число запросов.

Маркетологам. Режим Thinking удваивает или утраивает расход токенов из-за скрытых рассуждений. Для рутинных задач (рерайт, таблицы, короткие ответы) выключайте его. Включайте только для сложной аналитики.

Предпринимателям из РФ и СНГ. Из доступных в России аналогов можно рассмотреть YandexGPT и GigaChat. Они тоже тарифицируют по токенам, и логика стоимости та же: больше параметров и длиннее контекст означает выше цену. При выборе API-провайдера сравнивайте не только цену за миллион токенов, но и соотношение input к output, оно покажет реальную стоимость LLM для ваших задач.

Как это применить

Допустим, вы автор Дзена и используете Claude Sonnet с подпиской Pro. Ваш типичный промпт: системная инструкция на 800 токенов + текст статьи на 3 000 токенов + вопрос на 200 токенов. Итого input: 4 000 токенов. Модель отвечает на 1 500 токенов. С включённым Thinking она может сгенерировать ещё 3 000 скрытых reasoning-токенов. Итого output: 4 500 токенов. Один такой запрос «стоит» почти втрое больше, чем кажется по видимому ответу. За пять часов активной работы с Thinking вы можете потратить лимит, рассчитанный на день обычных запросов. Решение: для задач типа «перепиши абзац» или «придумай заголовок» отключайте Thinking, экономите скрытые токены и растягиваете лимит.

Частые ошибки

Игнорировать системный промпт как источник расходов. Многие вставляют в системный промпт огромные инструкции на тысячи слов и удивляются, что лимит кончается за час. Системный промпт пересылается с каждым сообщением в чате, то есть вы платите за него снова и снова.

Путать размер модели с её качеством для вашей задачи. Модель на 405 миллиардов параметров мощнее модели на 8 миллиардов, но для простого рерайта разница в качестве будет минимальной, а в цене колоссальной. Подбирайте модель под сложность задачи, а не по принципу «самая дорогая, значит лучшая».

Не учитывать KV-cache при длинных диалогах. Чем длиннее ваш разговор, тем больше памяти занимает кэш контекста. Начинайте новый чат для новой темы, это экономит ресурсы и сохраняет качество ответов.

Мнение редакции dzen.guru

По моим наблюдениям, большинство авторов и маркетологов в России используют флагманские модели для задач, с которыми справятся модели поменьше. Это как ездить на карьерном самосвале за хлебом. Стоимость LLM напрямую зависит от количества параметров, которые GPU прогоняет на каждый токен, и от длины контекста, который модель хранит в памяти. Понимая эту механику, вы можете сознательно выбирать: Haiku или Sonnet, Thinking включён или выключен, длинный системный промпт или короткий.

Честная оговорка: закрытые модели вроде Claude и GPT не раскрывают ни точное число параметров, ни архитектуру. Все расчёты по ним строятся на экстраполяции с открытых моделей. Реальная стоимость может отличаться, но общая логика работает: больше вычислений на запрос означает дороже.

Пятичасовой лимит Claude не маркетинговый трюк, а прямое отражение того, сколько GPU-времени и видеопамяти потратил датацентр на ваши запросы. Короткий промпт, выключенный Thinking для простых задач и модель подходящего размера, три конкретных действия, которые прямо сегодня позволят вам получать от нейросетей больше, не доплачивая ни рубля.

Генератор промптов dzen.guru

Попробуйте наш инструмент для создания компактных и точных промптов, которые экономят токены и дают результат с первого запроса.

Попробовать бесплатно

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Microsoft вложит $2,5 млрд в корпоративный ИИ: картинки и Copilot тоже ускорятся

Microsoft в четверг объявила о запуске нового операционного подразделения Microsoft Frontier Company, которое будет заниматься внедрением корпоративного ИИ с…

3 июля в 12:30 МСК5 мин

Anthropic и Samsung проектируют свой процессор, чтобы уйти от чипов Nvidia для ИИ

Anthropic и Samsung вместе проектируют собственный ИИ-чип: компания ещё не решила, для каких задач он будет использоваться, но уже ведёт переговоры с корейским…

3 июля в 12:15 МСК4 мин

Большие языковые модели мыслят одинаково: как получить от ИИ неповторяющиеся идеи

Большие языковые модели (LLM, нейросети, которые генерируют текст) выдают на удивление одинаковые ответы на открытые вопросы, и австралийский стартап…

3 июля в 09:30 МСК6 мин