Claude Sonnet 5 догоняет Opus 4.8 по бенчмаркам, но стоит в 2,5 раза дешевле

Компания Anthropic 30 июня 2026 года выпустила Claude Sonnet 5, модель среднего уровня, которая по бенчмаркам почти догоняет флагманскую Opus 4.8, но стоит вдвое дешевле за каждый токен (единицу текста, которую обрабатывает модель).

Почему это важно

Claude Sonnet 5 закрывает разрыв с флагманом Opus 4.8 почти по всем тестам, а вводная цена в 2,5 раза ниже: для разработчиков и авторов, которые автоматизируют код или запускают браузерных ИИ-агентов (программы, которые сами выполняют цепочки действий), это означает резкое снижение порога входа в агентную автоматизацию.

Anthropic позиционирует новинку не как лидера одного рейтинга, а как самую надёжную модель среднего сегмента для длинных цепочек задач. Claude Sonnet 5 уже доступна пользователям бесплатного и Pro-планов, а также в Claude Code и на платформе Claude Platform. Данные о бенчмарках и ценах опубликованы Anthropic в день запуска.

Показатель	Значение	Источник
SWE-bench Pro (агентное программирование)	63,2% (Sonnet 4.6: 58,1%, Opus 4.8: 69,2%)	Anthropic, 30 июня 2026
OSWorld-Verified (управление компьютером)	81,2% (Sonnet 4.6: 78,5%)	Anthropic, 30 июня 2026
Terminal-Bench 2.1	80,4% (Sonnet 4.6: 67,0%)	Anthropic, 30 июня 2026
HLE с инструментами	57,4% (Opus 4.8: 57,9%)	Anthropic, 30 июня 2026
GDPval-AA v2 (работа со знаниями)	1 618 (Opus 4.8: 1 615)	Anthropic, 30 июня 2026
Вводная цена (вход/выход за 1 млн токенов)	$2 / $10 до 31 августа 2026, затем $3 / $15	Anthropic, 30 июня 2026
Цена Opus 4.8 (вход/выход за 1 млн токенов)	$5 / $25	Anthropic, 30 июня 2026
Контекстное окно	1 млн токенов	Anthropic, 30 июня 2026

Что и как измеряли?

Anthropic опубликовала таблицу, в которой Claude Sonnet 5 сравнивается с предшественником Sonnet 4.6 (вышел в феврале 2026) и с флагманом Opus 4.8.

Тесты охватывают пять направлений:

Агентное программирование (SWE-bench Pro): модель получает реальный баг и должна сама написать тест, исправить код и подтвердить, что без исправления баг возвращается.
Управление компьютером (OSWorld-Verified): модель управляет браузером и терминалом, выполняя многошаговые операции.
Работа в терминале (Terminal-Bench 2.1): командная строка, скрипты, системные задачи.
Сложные вопросы с инструментами (HLE): задачи, где модели нужно самостоятельно вызывать внешние инструменты.
Работа со знаниями (GDPval-AA v2): аналитические и офисные задачи.

Модель поддерживает четыре уровня усилий: low, medium, high и xhigh (максимальное). Чем выше уровень, тем больше токенов модель тратит на рассуждение, и тем выше качество, но и стоимость.

Одна техническая деталь, которую легко упустить: Claude Sonnet 5 использует обновлённый токенизатор (алгоритм, который разбивает текст на токены). По данным Anthropic, один и тот же текст может превращаться в объём от 1,0 до 1,35 раза больше токенов по сравнению со старым токенизатором. Это напрямую влияет на итоговый счёт.

Что обнаружили?

Claude Sonnet 5 обошла предшественника по всем тестам. SWE-bench Pro: 63,2% против 58,1% у Sonnet 4.6. Terminal-Bench: 80,4% против 67,0%.
Разрыв с Opus 4.8 почти исчез в ряде тестов. HLE: 57,4% у Sonnet 5 против 57,9% у Opus 4.8. На бенчмарке GDPval-AA v2 Sonnet 5 обогнала Opus: 1 618 против 1 615.
Вводная цена Sonnet 5 в 2,5 раза ниже Opus 4.8. $2/$10 за миллион токенов (вход/выход) до 31 августа 2026 года, затем $3/$15. Opus 4.8 стоит $5/$25.
На максимальном усилии (xhigh) экономия пропадает. По данным Anthropic, при xhigh стоимость Claude Sonnet 5 может превысить стоимость Opus 4.8 при сопоставимом качестве.
Ниже уровень галлюцинаций (когда модель уверенно выдумывает факты) и поддакивания. Anthropic сообщает о снижении этих показателей по сравнению с Sonnet 4.6.
Кибервозможности намеренно ограничены. Для задач, связанных с кибербезопасностью, Anthropic рекомендует Opus 4.8.

Как это читать

Все бенчмарки опубликованы самой Anthropic, независимых воспроизведений на момент запуска нет. Рост токенов из-за нового токенизатора (до 1,35 раза) может съесть часть ценовой выгоды: реальный счёт за задачу зависит не только от цены за миллион токенов, но и от того, сколько токенов модель создаёт. Сравнение с конкурентами ограничено: Anthropic указывает, что Claude Sonnet 5 дешевле GPT-5.5 и Gemini 3.1 Pro за токен, но дороже Gemini 3.5 Flash, при этом сопоставление качества по единой методике не приводится.

Что это значит для вас?

Разработчику и автоматизатору. Если вы строите ИИ-агентов для рутины (парсинг, работа с API, отладка кода), Claude Sonnet 5 на уровнях low и medium даёт качество, близкое к флагману, за $2/$10. Практическая рекомендация из документа Anthropic: отправляйте большинство агентных задач на Sonnet 5, а Opus 4.8 оставляйте для случаев, где ошибка критична. Haiku 4.5 (младшая модель) подойдёт для высоконагруженных вызовов, где важна скорость.

Автору Дзена и контент-маркетологу. Снижение стоимости токенов означает, что автоматизация написания черновиков, рерайт, анализ комментариев обходятся дешевле. Но следите за уровнем усилий: на xhigh модель тратит больше токенов на «размышления», и счёт может оказаться выше, чем у Opus.

Предпринимателю в РФ и СНГ. Claude доступен через API, но напрямую из России оплата и доступ ограничены: понадобится иностранный аккаунт или посредник. Из доступных в РФ альтернатив со схожей логикой «средняя модель для агентных задач» можно смотреть на YandexGPT и GigaChat, хотя прямого сопоставления бенчмарков с Claude Sonnet 5 на момент публикации нет.

Мнение редакции dzen.guru

Anthropic нащупала рабочую формулу: не гнаться за рекордом в одном тесте, а дать разработчику модель, которая надёжно работает на длинных цепочках и при этом стоит вдвое дешевле флагмана. Для тех, кто автоматизирует контент или выстраивает агентные воркфлоу, вводная цена $2/$10 до конца августа 2026 года выглядит как окно для экспериментов. Главный подвох, новый токенизатор: один и тот же промпт (запрос к модели) может стоить на 35% больше в токенах. Считайте реальный расход, а не цену за миллион токенов на бумаге. И помните: все цифры пока только от Anthropic, дождитесь независимых тестов, прежде чем переводить на Claude Sonnet 5 продакшен-нагрузки.

Вводная цена действует до 31 августа 2026 года. Кто планирует тестировать агентную автоматизацию, имеет смысл начать до этой даты: после неё стоимость вырастет в полтора раза, а окно дешёвых экспериментов закроется.

По данным Anthropic

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Google модели изображений: Nano Banana 2 Lite генерирует за 4 секунды вдвое дешевле

Почему это важно Google впервые предложила генерацию картинок за 4 секунды при цене вдвое ниже базовой модели Nano Banana 2, и это меняет экономику для всех,…

1 июля в 05:45 МСК5 мин

ИИ-дизайн интерьера госсайтов США провалился: агентства отказались от 27 000 редизайнов

Приведу факты из источника дословно и структурирую по плану. Национальная дизайн-студия (NDS), созданная указом Трампа в августе 2024 года для редизайна 27 000…

1 июля в 05:30 МСК5 мин

Обычный сайт обманывает ИИ-браузер и крадёт пароли: как работает атака LayerX

Российские ИИ-браузеры могут оказаться под ударом: исследование LayerX показало, как обычный сайт обманывает встроенную нейросеть, заставляя её отключить…

1 июля в 04:30 МСК5 мин