Игорь Градов

24 июня 2026 г. в 12:30 МСК6 мин

Бенчмарки нейросетей из реальных сессий: модель в 37 раз дешевле лидера дала тот же балл

Собрать бенчмарки нейросетей из реальных рабочих сессий за пару вечеров может любой, кто пишет промпты каждый день, и результат почти наверняка перевернёт ваше представление о том, какая модель «лучшая».

Почему это важно

Публичные бенчмарки нейросетей вроде Artificial Analysis Intelligence Index измеряют математику, науку и общие знания, но не вашу конкретную работу: автор протестировал модели на своих задачах и обнаружил, что модель в 37 раз дешевле лидера даёт тот же балл, только мгновенно.

Тематические лидерборды полезны как стартовая точка, но они отвечают на чужой вопрос. Artificial Analysis Intelligence Index, один из популярных рейтингов, оценивает модели по олимпиадной математике и научным знаниям. Если ваша ежедневная работа выглядит иначе, рейтинг подберёт не ту модель. Автор исходного эксперимента доказал это цифрами: тройка лидеров публичного рейтинга на его реальных задачах показала статистическую ничью, а победил по соотношению «качество, скорость, цена» кандидат из нижней части таблицы. Ниже разбираю, как повторить такой же личный бенчмарк нейросетей на своём материале.

Что понадобится?

Два месяца (или хотя бы две недели) сохранённых сессий с любой нейросетью: чаты, транскрипты, экспортированные диалоги
Доступ к API тестируемых моделей: облачные (OpenAI, Google, провайдеры открытых моделей) или локальные через vLLM либо llama.cpp
Python 3.10+ и библиотека openai (все кандидаты общаются через один и тот же OpenAI-совместимый формат)
Три модели-судьи для оценки открытых ответов (в эксперименте использовались Gemini, GPT-5.1, Opus 4.8, подойдут любые три сильные закрытые модели)
Свободный вечер на сбор профиля и ещё один на прогон

Как собрать личный бенчмарк за пять шагов?

Соберите профиль работы. Выгрузите историю сессий и посчитайте, на что уходит время. В исходном эксперименте из 75 сессий и 23 813 вызовов инструментов выяснилось: 45% работы это документы в формате Markdown (стратегии, спецификации, сводки), 51% вызовов инструментов это Bash-команды вроде git, grep, find, а не написание кода. Ваш профиль почти наверняка окажется не тем, что вы думали.
Составьте 50 заданий, отражающих ваш профиль. Вес каждой категории должен совпадать с долей в реальной работе. Пример весов из эксперимента:
Стратегический синтез: 25%
Архитектурные решения: 20%
Документация в рабочем формате: 20%
Дистилляция (сжатие) исследований: 12%
Подготовка к сделкам: 8%
Код и инфраструктура: 15%

Каждое задание состоит из промпта и грейдера (набора критериев для оценки).

Настройте двуслойную оценку. Для задач с объективным ответом (код запустился? правильный вызов инструмента? есть цитата на источник?) используйте автоматическую проверку, «золотой стандарт». Для открытых задач (стратегия, документация) запустите ансамбль из трёх моделей-судей. Ансамбль это три независимые оценки, которые усредняются, чтобы убрать шум одного судьи. Вот как выглядит вызов ансамбля на Python:

def judge_call(prompt):
    outs = []
    for jk, jm, jc in jclients:  # три судьи
        r = jc.chat.completions.create(
            model=jm["slug"],
            messages=[{"role":"user","content":prompt}],
            temperature=0
        ).choices[0].message.content
        outs.append((jk, r))
    return outs  # три оценки → усреднение

Прогоните всех кандидатов через единый раннер. Обёртка принимает любой OpenAI-совместимый эндпоинт (облачный API, локальный vLLM или llama.cpp) и прогоняет задания последовательно. Записывайте не только баллы, но и телеметрию: TTFT (time to first token, время до первого токена, сколько модель «думает» перед ответом) и количество reasoning-токенов (токенов, потраченных на внутренние рассуждения).
Сравните не только баллы, но и скорость с ценой. Это ключевой шаг, который публичные бенчмарки нейросетей полностью игнорируют.

Скорость и цена важнее десятых долей балла

В эксперименте тройка лидеров по баллам уложилась в разницу 0,04, статистическая ничья. А вот что ничьёй не было:

GLM-5.2 (744 миллиарда параметров, открытые веса): 22,4 секунды до первого токена, 33 тысячи reasoning-токенов на задачу. Полминуты молчания перед каждым ответом.
Gemma 4 dense 31B: 1,24 секунды до первого токена, ноль reasoning-токенов. В 37 раз дешевле GLM-5.2 на одну решённую задачу. Помещается на одну видеокарту.
Qwen 3.6 35B-A3B (архитектура MoE, то есть «смесь экспертов», когда при каждом запросе работает только часть параметров): самая быстрая по пропускной способности (67 токенов в секунду), но самая многословная: 60 тысяч reasoning-токенов.

При одинаковом качестве стоимость и задержка отличаются в 10 и более раз. Для коротких плотных ответов по стратегии и архитектуре мгновенная дешёвая модель на практике побеждает гиганта, которого надо ждать.

Отдельное наблюдение из эксперимента: dense-версия (плотная, где работают все параметры) Gemma 4 31B обошла MoE-версию 26B-A4B с баллами 0,772 против 0,741. На малом масштабе и задачах-рассуждениях плотная архитектура пока сильнее.

Чего не вытащили «звёзды» рейтингов?

DeepSeek V4-Pro набрал 0,698. Kimi K2.6, со-лидер открытых моделей по публичному рейтингу, показал 0,663 и при этом оказался дороже всех. Ни одна из знаменитых крупных моделей не обошла дешёвую тройку на задачах конкретного пользователя.

Ведущая российская облачная модель, протестированная как базовая через официальный API без дополнительного поиска (RAG), заняла последнее место с баллом 0,477. Быстрая и лаконичная, но на этом узком наборе задач уступила открытым моделям, которые можно развернуть локально.

Пример: что ввели и что получили

Задание strat-001 из категории «стратегический синтез». Три судьи разошлись: Gemini поставил 7, GPT-5.1 поставил 7, Opus 4.8 поставил 4. С одним судьёй вы бы увидели либо 7, либо 4 и приняли бы это за истину. Ансамбль показал реальный разброс и дал усреднённый балл 0,60, который честнее любой одиночной оценки.

Частые ошибки

Битое название модели. «Флагман» числится в каталоге /models провайдера, но на инференсе (этапе генерации ответа) возвращает ошибку 404. В эксперименте 29 задач прогнались впустую, пока автор не обнаружил, что модель не обслуживается. Проверяйте живой ответ до запуска полного прогона.

Один судья вместо трёх. На первом прогоне с одним судьёй GLM-5.2 «выигрывал» у Qwen с баллами 0,871 против 0,785. С ансамблем разрыв сжался до 0,809 против 0,779. Один судья на одной задаче это шум.

Игнорирование скорости и цены. Десятые доли балла не видны в повседневной работе. 22 секунды ожидания перед каждым ответом видны сразу.

Что делать с этим прямо сейчас, по ролям

Автору на Дзене. Экспортируйте последние 20 диалогов с нейросетью и посчитайте, что вы реально просите: заголовки, рерайт, план статьи, SEO-ядро. Скорее всего окажется, что 80% задач укладываются в одну категорию. Протестируйте на ней две-три модели и сравните не «кто умнее вообще», а кто быстрее и точнее именно на вашем типичном промпте.

Маркетологу. Если вы платите за API дорогой модели, прогоните свои типовые задачи (генерация описаний, классификация лидов, саммари звонков) через дешёвую альтернативу. При одинаковом качестве экономия может составить десятки раз.

Предпринимателю в РФ. Открытые модели (Gemma 4, Qwen 3.6) разворачиваются локально на одной видеокарте и не зависят от зарубежных облаков. Из российских доступных инструментов, YandexGPT и GigaChat, стоит тестировать их тем же методом на своих задачах, а не полагаться на общие рейтинги.

Мнение редакции dzen.guru

Главный вывод эксперимента прост и воспроизводим: «лучшая модель» и «лучшая модель для вас» это разные модели. Я вижу это в своей практике каждую неделю: на задачах с короткими русскоязычными текстами для Дзена недорогие модели регулярно дают результат не хуже флагманов.

Метод автора, 50 взвешенных заданий плюс три судьи, можно упростить до 10 заданий и одного судьи для первой прикидки. Это уже лучше, чем доверять чужому лидерборду.

Честная оговорка, которую автор эксперимента подчёркивает сам: это тест базовых моделей без RAG (без подключения внешних баз знаний), на узком наборе задач одного человека, срез актуален на июнь 2026 года. Результаты не универсальный приговор, а ответ на вопрос «что лучше конкретно для меня». Именно поэтому ценность метода выше ценности конкретных цифр: цифры устареют через месяц, а навык собирать свой бенчмарк нейросетей останется.

Попробуйте AI-ассистент dzen.guru

Подберите модель под свои задачи на Дзене и протестируйте промпты с реальными примерами

Попробовать

Публичные рейтинги полезны ровно для одного: сузить список кандидатов. Финальный выбор делает только ваш собственный тест на ваших задачах, и, судя по этому эксперименту, победитель вас удивит.

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Профессии, связанные с ИИ: 5 уже исчезают, вот как оценить свою за вечер

Мне нужно написать how-to статью о профессиях, которые ИИ заменяет и создаёт. Текст должен быть практическим, с пошаговой инструкцией по оценке своей позиции…

24 июня в 15:15 МСК8 мин

Что такое галлюцинации нейросетей: как MCP-сервер запрещает модели считать в уме

Галлюцинация (когда нейросеть уверенно выдаёт цифру, которой нет в данных) остаётся главной причиной, по которой авторы и аналитики не доверяют языковым…

24 июня в 14:45 МСК6 мин

Graphify строит граф зависимостей проекта: статический анализ кода Python без облака

Библиотека Graphify анализирует Python-проект локально, без облака и без ключей к API, строит из кода граф знаний и показывает, какие модули связаны, где…

24 июня в 13:30 МСК8 мин