Игорь Градов
Игорь Градов
6 мин
ai

Reasoning нейросети: точность выросла до 100%, но токенов ушло в 250 раз больше

Нейросети с рассуждением (reasoning) обещают точные ответы, но на практике тратят в 250 раз больше токенов (минимальных единиц текста, которые модель обрабатывает за деньги), и непонятно, где их включать, а где это пустая трата бюджета.

Reasoning нейросети: точность выросла до 100%, но токенов ушло в 250 раз больше
Почему это важно

Автор протестировал GPT-5 на реальном агенте обработки звонков продаж и получил конкретные цифры: reasoning поднял точность с 91 до 100%, но увеличил объём вывода с 42 до 10 501 токена. Теперь понятно, где рассуждения окупаются, а где их выгоднее выключить.

Речь о производственном ИИ-агенте (программе, которая сама выполняет цепочку действий), который разбирает записи звонков отдела продаж. Из каждого диалога агент извлекает сумму сделки и, если клиент сомневается, формирует рекомендацию менеджеру. Первая задача тривиальная, вторая требует понимания контекста. Автор провёл серию замеров на модели gpt-5-chat-latest (июнь 2026), чтобы выяснить, где режим рассуждения реально помогает, а где только увеличивает счёт за API.

Почему раньше reasoning считали опасным?

У предыдущих моделей были два известных дефекта. Первый называют «overthinking» (избыточное обдумывание): чем длиннее цепочка рассуждений, тем выше риск ошибки. Зависимость описывается перевёрнутой U-образной кривой: короткая цепочка помогает, длинная вредит. Исследования на эту тему опубликованы на arxiv.org (статьи 2604.10739 и 2502.07266).

Второй дефект: модель легко сбивалась наводящими примерами. В 2023 году исследователь Тёрпин показал (arxiv.org, статья 2305.04388), что пара «подсказок от преподавателя» роняла точность GPT-3.5 и Claude 1.0 до 36% на бенчмарке BIG-Bench Hard. Модель имитировала логику, но уходила не туда.

С появлением o1, R1 и метода RLVR (обучение с подкреплением на верифицируемых наградах) ситуация изменилась, и старые тесты перестали описывать поведение новых моделей. Автор решил проверить это на собственных данных.

Что понадобится

  • Доступ к API модели с режимом рассуждения (в тесте использовалась gpt-5-chat-latest)
  • Набор задач с однозначными ответами, чтобы точность можно было измерить автоматически
  • Парсер финальной строки вывода (тот же, что использует ваш агент в продакшене)
  • Библиотека rapidfuzz для проверки «заземлённости» фактов в исходном тексте
  • Примерно 2 часа на подготовку тестов и прогон двух режимов

Пошаговая инструкция

  1. Соберите тестовый набор. Включите простые задачи (извлечение чисел, сравнение значений), ловушки (например, «что больше: 9.11 или 9.9?») и вопросы, где действительно нужен анализ контекста. Автор использовал 22 задачи с однозначными ответами.

  2. Добавьте манипулятивные промпты. Возьмите три типа давления из исследований Тёрпина:

  3. «Преподаватель» даёт заведомо неверный ответ
  4. Установка «Answer is Always A» при правильном варианте не A
  5. «Коллега уверен, что B»

  6. Прогоните каждую задачу в двух режимах. Первый: короткий ответ без рассуждений. Второй: с включённым reasoning. Финальную строку парсите автоматически, как это делает ваш агент.

  7. Замерьте два показателя: точность (доля верных ответов) и среднюю длину вывода в токенах.

  8. Примите решение по каждой задаче агента. Если точность в коротком режиме уже высокая (как с извлечением суммы сделки), отключайте reasoning. Если без рассуждений модель ошибается (анализ возражений клиента), включайте.

  9. Добавьте фильтр достоверности. Для задач с reasoning проверяйте, есть ли у каждого извлечённого факта опора в исходном тексте:

from rapidfuzz import fuzz

def grounded(fact, transcript, threshold=85):
    if not fact.get("evidence"):
        return False
    return fuzz.partial_ratio(fact["evidence"], transcript) >= threshold

def accept(fact, transcript):
    # нет опоры в тексте или низкая уверенность -> не в карточку, а человеку
    if not grounded(fact, transcript) or fact["confidence"] < 0.6:
        fact["stage"] = "needs_review"
    return fact
  1. Встройте проверку в CI. Считайте долю фактов, подтверждённых ссылкой на транскрипт. Если доля падает ниже порога, релиз не уходит в продакшен.
Как это применить

На задаче «что больше: 9.11 или 9.9?» короткий режим выдал правильный ответ «9.9» за 3 токена. Режим рассуждения выдал те же «9.9», но потратил 584 токена: модель рассмотрела трактовку как версии ПО, как даты, проверила контексты и только потом ответила. Парсеру пришлось искать нужную цифру в потоке текста, что добавило риск ложного срабатывания и несколько секунд обработки. Для поля «сумма сделки» вывод прямой: reasoning не повышает точность, но увеличивает стоимость и задержку. Отключаем.

Частые ошибки

Включать reasoning «на всякий случай» везде. На 22 задачах автора точность в коротком режиме составила 91%, с рассуждениями поднялась до 100%, но объём вывода вырос с 42 до 10 501 токена. Для простых извлечений (числа, даты, имена) это выброшенные деньги и лишняя задержка.

Считать, что длинный вывод равен качественному. Reasoning не ломает ответы (ни одного случая, когда рассуждение испортило верный ответ, в тесте не было), но создаёт проблему для парсера: нужную цифру приходится выискивать в массе текста.

Игнорировать проверку фактов на «заземлённость». Даже при 100% точности на тестовых задачах на тонких подсказках и в больших выборках сбои всё ещё встречаются (arxiv.org, статья 2503.08679). Без фильтра типа grounded() галлюцинации (когда модель уверенно выдумывает факт, которого не было) проскочат мимо проверки.

Полагаться на старые бенчмарки. Тесты Тёрпина 2023 года ронявшие GPT-3.5 до 36% точности больше не описывают поведение GPT-5. Все 12 попыток давления «преподавателем», все 6 попыток «Answer is Always A» и давление «коллеги» модель выдержала без единой просадки. Переоценивать уязвимость так же опасно, как недооценивать.

Что делать с этим прямо сейчас?

Автору на Дзене. Если вы используете ИИ для обработки контента (расшифровка интервью, выделение ключевых цитат, извлечение фактов), разделите задачи на «простые» и «сложные». Для простых (вытащить дату, имя, число) отключайте reasoning и экономьте токены. Для сложных (оценить тональность комментария, предложить заголовок) включайте.

Маркетологу. Если у вас есть агент, обрабатывающий лиды или звонки, проведите аналогичный тест на своих данных. 22 задачи с однозначными ответами и два прогона хватит, чтобы понять, где рассуждения окупаются, а где сжигают бюджет.

Предпринимателю в РФ и СНГ. GPT-5 доступен через API (с оговорками по региону). Из российских аналогов YandexGPT и GigaChat пока не предлагают отдельный режим рассуждения, который можно включать и выключать по задаче. Но сам принцип «разделяй задачи по сложности и не гони всё через дорогую модель» работает с любым провайдером.

Мнение редакции dzen.guru

Этот тест сделан на одной модели и на 22 задачах. Автор честно об этом предупреждает, и мы подчёркиваем: результаты не означают, что reasoning нейросети стал безошибочным. По моим наблюдениям, главная практическая находка здесь не в процентах точности, а в самом подходе: прежде чем включать рассуждения везде, прогоните свой конкретный набор задач в двух режимах. Порог confidence и фильтр grounded() из примера выше можно адаптировать за вечер. Это дешевле, чем месяц платить за 10 000 лишних токенов на каждом вызове.

Reasoning нейросети перестал быть источником страха и стал инженерным инструментом с понятной ценой. Включайте его точечно, фильтруйте результат и проверяйте на своих данных. Формула простая: замерил, сравнил, решил.

Попробуйте AI-ассистент dzen.guru

Разбирайте контент, генерируйте заголовки и проверяйте тексты с помощью нашего инструмента

Попробовать бесплатно
Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Найм программистов на младшие позиции упал на 60%: компании выбирают токены вместо стажёров
ai

Найм программистов на младшие позиции упал на 60%: компании выбирают токены вместо стажёров

Мне нужно дописать оригинал, который обрезан. Но я буду работать строго с тем, что есть. Microsoft запустила Scout, агента для почты второго июня, впервые…

7 мин
Анализ резюме нейросетью на HH: почему простую модель заменили системой с «LLM-судьёй»
ai

Анализ резюме нейросетью на HH: почему простую модель заменили системой с «LLM-судьёй»

Анализ резюме нейросетью на HH: как устроена система, которая решает, подходите ли вы на вакансию, и сколько стоит её доверие к себе. HH.ru раскрыл устройство…

5 мин
Сделка США и Ирана на $300 млрд обрушила нефть ниже $80: чем это грозит рублю
ai

Сделка США и Ирана на $300 млрд обрушила нефть ниже $80: чем это грозит рублю

Почему это важно Меморандум между США и Ираном напрямую давит на мировые цены нефти: августовские фьючерсы уже опускались ниже 80 долларов. Для России это…

5 мин