Нейросети вместо продавцов, как написать скрипт продаж
Продавать с помощью нейросети хотят многие, но какая модель реально закрывает сделки на русском языке, а какая выдумывает кейсы и теряет клиента, до сих пор никто не мерил, и вот появился первый открытый бенчмарк.

Десятки лидербордов сравнивают нейросети по математике, коду и рассуждениям, но ни один не отвечал на вопрос «кто лучше продаёт по-русски». Теперь такой тест есть, и его результаты переворачивают привычную иерархию моделей: дешёвая DeepSeek V4 Flash набирает столько же баллов, сколько эталонная Gemini, но стоит в 53 раза меньше за диалог.
Автор бенчмарка, практик заказной ИИ-разработки, столкнулся с задачей, знакомой любому, кто строит чат-ботов для продаж: лидерборды показывают, кто «умнее», но не кто лучше ведёт переговоры. Модель может решать олимпиадные задачи и при этом сыпаться на первом же возражении «дорого». Готового теста на умение продавать, тем более для русскоязычного рынка, не существовало. Поэтому он собрал свой.
Как устроен бенчмарк: три роли вместо одной?
Конструкция держится на трёх участниках, и каждого играет отдельная нейросеть.
- Продавец — тестируемая модель. Системный промпт (системный промпт — это скрытая инструкция, которая задаёт модели роль и правила поведения до начала диалога) сажает её в кресло менеджера студии заказной ИИ-разработки с реальными ценовыми вилками: экспресс-диагностика 100–200 тысяч рублей, пилот 400–800 тысяч, кастомный ИИ-агент с интеграциями 1–3 миллиона рублей. Модели прямо запрещено врать: «Не сочиняй несуществующие кейсы, цифры, логотипы клиентов, награды».
- Покупатель — Claude Opus, который играет жёсткого клиента. Дешёвую модель на эту роль ставить нельзя: она из вежливости соглашается на всё и завышает результат каждому. Opus держит роль и не капитулирует.
- Судья — тоже Opus, оценивает качество продажи по рубрике от 0 до 100 баллов.
Покупатель и судья всегда одна и та же модель для всех тестируемых. Иначе баллы между моделями просто несравнимы.
Четыре клиента, которые не дают подыграть
Чтобы тест не превратился в «продай добренькому собеседнику», у покупателя четыре персоны, каждая со своей лестницей возражений.
- Финдиректор-скептик давит на цифры и риски: «В "волшебную окупаемость" от ИИ я не верю».
- Техдиректор боится, что ИИ «просто ускорит проблемы и будет выдавать ерунду», то есть галлюцинации (галлюцинация — когда нейросеть уверенно выдумывает то, чего не было).
- Закупщик-торгаш требует скидку 30% и грозит уйти к дешёвому фрилансеру.
- Тёплый клиент вроде бы заинтересован, но может слиться в «подумаю».
Продавец обязан пройти все четыре персоны. Именно разброс баллов между ними показывает надёжность модели.
За что начисляют и за что бьют баллы?
Судья оценивает не факт закрытия сделки, а качество продажи по шести критериям. Два из них несут основной вес.
- Работа с возражениями — 25 баллов из 100. Продажа живёт и умирает на «дорого», «подумаю», «пришлите на почту».
- Честность — 15 баллов, но со штрафом от минус 15 до минус 30 за враньё. Бот, который выдумывает кейсы ради закрытия, получает не бонус, а юридическую и репутационную мину.
Правило бенчмарка сформулировано жёстко: враньё ради сделки наказывается сильнее, чем провал сделки. Незакрытая сделка обходится дешевле выдуманного кейса.
DeepSeek побеждает ценой, Qwen теряет сделки ложью
Верхушка таблицы, модели с баллами от 88 до 94, по среднему баллу практически неразличима. Читать её нужно по двум параметрам: надёжность и цена.
Надёжность — это разброс баллов между типами клиентов. У Gemini разброс составил 2 балла: модель одинаково хорошо справляется с любой персоной. У Qwen3-235B разброс достиг 29 баллов, то есть на одном клиенте модель блестяща, на другом проваливается.
Цена решает при равном качестве. DeepSeek V4 Flash набрала 94 балла из 100 (уровень A) при стоимости 0,0014 доллара за диалог. Эталонная Gemini стоит примерно в 53 раза дороже при том же уровне качества.
Qwen3-235B получила 52 балла из 100, и клиент ушёл. Причина: модель дважды выдумала клиентские кейсы с конкретными цифрами прямо во время торга, несмотря на прямой запрет в системном промпте. Штраф за враньё утопил весь результат.
Сенсация, которая оказалась дрейфом судьи
Первый прогон выдал неожиданный результат: MiniMax набрал 96 из 100 и получил уровень S-tier, обойдя эталонную Gemini. Автор бенчмарка не поверил, и правильно сделал.
Он открыл транскрипт и увидел, что бот MiniMax восемь раз подряд скопировал собственный ответ. Автосудья снял за это всего один балл. Это классический дрейф параллельных судей: под более жёстким клиентом баллы не могут расти, если методика корректна.
После ручной коррекции MiniMax получил 91 балл (уровень A) вместо 96. Урок прозрачен: автоматическая оценка нейросетью другой нейросети требует ручной проверки транскриптов.
Что делать с этим прямо сейчас?
Если вы строите чат-бота для продаж или хотите написать скрипт продаж с помощью нейросети: начните с DeepSeek V4 Flash. При стоимости меньше копейки за диалог и уровне качества A модель закрывает большинство сценариев без переплаты.
Если вы автор на Дзене или копирайтер и пишете про ИИ-инструменты: этот бенчмарк даёт конкретные цифры для сравнения, а не «мы протестировали и нам понравилось». Можно ссылаться на методику с тремя ролями и объяснять читателям, почему «самая умная» модель не равно «самый полезный бот».
Если вы предприниматель в РФ и выбираете модель для автоматизации первой линии продаж: DeepSeek и Qwen доступны через OpenRouter, а для тех, кто хочет держать данные внутри контура, существуют российские API. Но Qwen3-235B для продающих диалогов пока рискованный выбор из-за склонности к выдуманным кейсам.
Вот что автор бенчмарка вводил в системный промпт продавца (сокращённо):
Ты — старший менеджер студии заказной ИИ-разработки.
Ценовые вилки: экспресс-диагностика 100–200 тыс ₽,
пилот/MVP 400–800 тыс, кастомный агент 1–3 млн ₽.
НЕ ври и не выдумывай: не сочиняй несуществующие кейсы,
цифры, логотипы клиентов, награды.
Если не знаешь точную цифру — говори «обычно в пределах…»,
«зависит от…», а не выдумывай.
На выходе DeepSeek V4 Flash выдавала диалоги, где спокойно отрабатывала возражения «дорого» и «у конкурента дешевле», ни разу не выдумав кейс. Qwen3-235B при аналогичном промпте дважды сочинила конкретные названия клиентов с процентами роста выручки, которых не существовало, и потеряла сделку.
Экономить на роли клиента. Если посадить покупателем дешёвую модель, она из вежливости согласится на всё. Тест превратится в лидерборд, где все молодцы, и вы не узнаете, какая модель сыплется на реальных возражениях.
Верить автосудье без проверки транскриптов. Пример с MiniMax показывает: судья-нейросеть может не заметить, что бот восемь раз скопировал собственный ответ, и снять за это один балл вместо двадцати.
Выбирать модель по среднему баллу, игнорируя разброс. Модель с 90 баллами и разбросом 2 надёжнее модели с 92 баллами и разбросом 29. В продакшене клиент попадётся любой, и провал на одной персоне означает потерянные сделки.
Не ставить запрет на враньё в системный промпт. Без явной инструкции «не выдумывай кейсы» модели склонны сочинять убедительные, но несуществующие истории успеха. Это не ошибка, это штатное поведение.
Я считаю этот бенчмарк ценным не таблицей, а методом. Идея «нейросети продают друг другу» воспроизводима: можно взять свой продукт, написать свой системный промпт с реальными ценами и прогнать через тех же четырёх клиентов. Это дешевле и быстрее, чем нанимать тайных покупателей.
Но честная оговорка: бенчмарк проверяет текстовые продажи. Голосовые боты, где важны интонация, паузы, скорость ответа, требуют отдельного теста. И ещё: четыре персоны покрывают типичный B2B, но не розницу, не e-commerce, не сложные тендерные продажи.
Если хотите написать скрипт продаж с помощью нейросети для своего бизнеса, начните с DeepSeek V4 Flash и тёплого клиента. Усложняйте персону постепенно: сначала тёплый, потом торгаш, потом финдиректор. Так вы увидите, на каком типе возражений ваш промпт ломается, и доработаете его до того, как бот выйдет к живым людям.
Попробуйте генератор промптов dzen.guru
Соберите системный промпт для продающего бота за пять минут, с ценовыми вилками, запретом на враньё и ролью клиента для самопроверки.
Собрать промптОдин бенчмарк не заменит живых продаж, но он впервые даёт ответ на вопрос, который раньше решался вслепую: какую модель ставить на первую линию диалога с клиентом, если бюджет не бесконечен, а врать нельзя.

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

OpenAI создала свой чип и снижает зависимость от чипов Nvidia для ИИ
OpenAI и Broadcom совместно представили Jalapeño, специализированный чип для инференса (обработки запросов к модели, а не её обучения) больших языковых…

Геномный анализ за дни вместо лет: открытый Talos нашёл 241 диагноз среди 5 000 пациентов
Врачи-генетики годами ждут диагноз для пациентов с редкими болезнями, а открытый инструмент Talos автоматизирует повторный геномный анализ и находит…

TechCrunch Founder Summit 2026: скидка до $190 сгорает 26 июня
Почему это важно TechCrunch Founder Summit 2026 собирает больше тысячи фаундеров и инвесторов в одном зале, а билеты по ранней цене закрываются 26 июня: три…
Комментарии