Игорь Градов
Игорь Градов
7 мин
ai

Что такое галлюцинации нейросетей и как три промпта снижают их на 40%

Галлюцинация (hallucination) в контексте нейросетей означает ситуацию, когда модель уверенно выдаёт текст, который выглядит правдоподобно, но содержит выдуманные факты, несуществующие ссылки или ложные цифры.

Что такое галлюцинации нейросетей и как три промпта снижают их на 40%

Проблема не в «глупости» модели, а в самой архитектуре генерации: авторегрессия (механизм, при котором модель предсказывает каждое следующее слово на основе предыдущих) подталкивает выбирать статистически вероятное продолжение, а не фактически верное.

Эта инструкция покажет, как выстроить три защитных контура прямо в промптах (промпт, текстовая инструкция для нейросети), чтобы модель реже врала, а вы тратили меньше времени на перепроверку каждого абзаца.

Почему это важно

Если вы ловите себя на мысли «ответ красивый, но каждый абзац надо перепроверять», вы используете нейросеть как генератор слов, а не как рабочий инструмент. Три контура ниже превращают «красивые слова» в структурированные данные, которые можно проверить за минуту, а не за час.

Независимый эксперт в области ИТ и информационной безопасности Андрей Бирюков предложил систему из трёх последовательных шагов: ограничение свободы модели жёстким форматом, внедрение метрики уверенности и автоматическая самопроверка через «адвоката дьявола». Подход не требует программирования и работает в любом чате с нейросетью, будь то ChatGPT, YandexGPT или GigaChat.

Что понадобится?

  • Доступ к любой текстовой нейросети: ChatGPT, YandexGPT, GigaChat или Claude
  • Возможность задавать системный промпт (system prompt, базовая инструкция, которую модель выполняет до вашего запроса) или хотя бы длинный пользовательский промпт
  • Рабочая задача, на которой будете тренироваться: отчёт, аналитическая справка, подборка фактов
  • 30 минут на первую настройку и один-два теста

Три контура защиты от галлюцинаций: пошаговая инструкция

1. Переведите модель из режима «писателя» в режим «следователя»

Главная ошибка: глагол «напиши» запускает в модели сценарий литератора, и она начинает украшать текст, заполняя пробелы в знаниях выдумками. Вместо этого заставьте модель заполнять строгую структуру данных.

Вместо запроса «Напиши отчёт о продажах за март» дайте такой системный промпт:

Твоя задача — заполнить строгую структурную форму фактами.
Ты не пишешь ответ пользователю. Ты готовишь черновик для самого себя.

Формат вывода — строго JSON:
{
  "task": "описание задачи",
  "extracted_facts": ["факт 1", "факт 2"],
  "logical_conclusion": "вывод из фактов",
  "verified_answer": "итоговый ответ",
  "missing_data": ["чего не хватает"]
}

Когда вы указываете формат JSON (текстовый формат для структурированных данных, как таблица, но для машины) и конкретные имена полей, модель перестаёт думать, как красиво построить предложение. Она начинает думать, как заполнить ячейки. По оценке Андрея Бирюкова, это снижает галлюцинации примерно на 40 % уже на старте.

2. Внедрите метрику уверенности и научите модель говорить «не знаю»

Нейросеть никогда не признается в незнании, если вы не попросите об этом явно. Для модели «не знать» означает паттерн с низкой вероятностью, и она его избегает. Нужно сделать этот паттерн легитимным.

Добавьте в системный промпт блок с критериями оценки уверенности:

Критерии оценки уверенности:

0.0–0.3 (низкая): нет прямой информации в контексте,
вывод основан исключительно на общих знаниях модели.

0.4–0.7 (средняя): есть косвенные подтверждения,
но цифры или даты отсутствуют.

0.8–1.0 (высокая): данные продублированы
в нескольких источниках контекста
или являются прямой цитатой из авторитетного документа.

КРИТИЧЕСКОЕ ПРАВИЛО:
Если по любому пункту уверенность ниже 0.7,
в поле "verified_answer" напиши ТОЛЬКО:
"Информация для однозначного ответа отсутствует.
Требуется уточнение источника."
Заполнять это поле домыслами категорически запрещено.

Порог 0.7 работает как «красная кнопка»: модель знает, что её «поймают» на низкой уверенности, а фраза «не знаю» прописана как допустимое действие. Нейросеть перестаёт бояться и начинает честно указывать на пробелы.

3. Запустите «адвоката дьявола» для самопроверки

Нейросеть не может заметить собственную ложь в момент генерации. Зато она отлично находит противоречия в чужом тексте. Этим и воспользуемся.

Не отдавайте первый ответ никому. Откройте новый чат (или сделайте второй вызов) и вставьте туда JSON из шага 2 с таким промптом:

Ты — строгий редактор-скептик.
Единственная задача — найти логические ошибки,
нестыковки и недоказанные утверждения.
Пытайся опровергнуть каждый факт.

Проверка по трём пунктам:

1. Есть ли в verified_answer утверждение,
которое НЕ следует из extracted_facts?
Если да — укажи его.

2. Может ли logical_conclusion
быть истолкован иначе?
Предложи альтернативную интерпретацию.

3. Если бы ты был судьёй, принял бы этот ответ
как доказательство?
Ответь «Да» или «Нет» и объясни одним предложением.

Дальше два варианта. Если критик нашёл противоречие, отправьте модели финальный промпт: «Учитывая замечания критика, перепиши verified_answer, устранив противоречия. Если противоречие неустранимо, замени ответ на "Недостаточно данных".» Если критик не нашёл ничего, ответ можно использовать.

4. Добавьте автоматический фильтр (для продвинутых)

Этот шаг для тех, кто работает через API (программный интерфейс, через который приложение общается с нейросетью напрямую). Логика простая:

  • Если JSON не распарсился, ответ не отправляется
  • Если значение уверенности ниже 0.7 или стоит пометка «Отклонить», ответ автоматически заменяется шаблонной фразой: «На основе предоставленных данных не могу дать точный ответ»
  • Если итоговый ответ содержит менее 10 слов на сложный вопрос, значит модель срезала углы, и такой ответ тоже отклоняется
Как это применить на практике

Допустим, вы автор на Дзене и пишете статью о динамике цен на вторичное жильё в Москве. Вместо «Напиши обзор рынка» задаёте модели JSON-структуру из шага 1 с полями: extracted_facts, logical_conclusion, missing_data. Модель возвращает три факта с уверенностью 0.5 и честно пишет в missing_data: «нет актуальных данных Росстата за последний квартал». Вы видите это ДО публикации и дополняете текст свежей статистикой вручную. Без структуры модель с той же вероятностью выдала бы вам убедительные, но устаревшие или выдуманные цифры прямо в теле текста.

Частые ошибки

Первая и самая распространённая: просить модель «оцени вероятность» без критериев. Без чёткой шкалы модель поставит 95 % на всё подряд, и метрика уверенности превратится в декорацию.

Вторая: запускать «адвоката дьявола» в том же чате, где сгенерирован ответ. Модель склонна защищать собственный текст. Используйте новый чат или отдельный вызов API.

Третья: считать, что три контура дают стопроцентную гарантию. Не дают. Галлюцинации встроены в саму архитектуру авторегрессии. Контуры снижают их частоту и делают оставшиеся ошибки заметными, но финальная проверка человеком остаётся обязательной, особенно если в тексте есть цифры, даты и имена.

Что делать с этим прямо сейчас по ролям?

Авторам Дзена. Начните с шага 1: замените «напиши статью про…» на JSON-структуру с полями для фактов и пробелов. Даже без шагов 2 и 3 вы получите черновик, в котором видно, где модель опирается на факты, а где додумывает.

Маркетологам и копирайтерам. Добавьте шаг 2 с метрикой уверенности в каждый промпт, где есть цифры: коммерческие предложения, отчёты для клиентов, аналитические справки. Поле missing_data покажет, что нужно запросить у заказчика, прежде чем публиковать.

Предпринимателям в РФ и СНГ. Техника работает в YandexGPT и GigaChat точно так же, как в ChatGPT: JSON-формат и критерии уверенности не зависят от конкретной модели. Если вы строите бота для клиентов на базе любой из этих моделей, шаг 4 с серверным фильтром, это минимум, без которого бот рано или поздно выдаст клиенту выдуманный ответ с уверенным тоном.

Мнение редакции dzen.guru

Подход Бирюкова ценен не столько отдельными приёмами (JSON-формат и самокритика описаны давно), сколько их соединением в цепочку: структура, потом уверенность, потом проверка, потом фильтр. По моему опыту, большинство авторов останавливаются на одном приёме и разочаровываются. Цепочка из трёх контуров работает ощутимо лучше, чем любой из них по отдельности. Честная оговорка: метод требует дисциплины. Каждый запрос проходит два-три круга, и это медленнее, чем просто «напиши». Но если вы публикуете под своим именем текст с фактами, время на проверку вы всё равно тратите, только без контуров тратите его вслепую.

Попробуйте промпт-конструктор dzen.guru

Соберите свой первый антигаллюцинаторный промпт с JSON-структурой и метрикой уверенности за пять минут

Собрать промпт

Три контура не отменяют проверку фактов человеком, но делают её быстрой и прицельной: вместо вычитки каждого абзаца вы смотрите на поля уверенности и замечания критика, а всё, что ниже порога, модель уже отметила сама.

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Карта 2ГИС с нейросетями: итерации сократились с дней до минут, клики выросли на 35%
ai

Карта 2ГИС с нейросетями: итерации сократились с дней до минут, клики выросли на 35%

Карта 2ГИС ежегодно первого декабря превращается в зимнюю сцену с 3D-моделями и анимациями, и в этом году дизайнеры впервые встроили нейросети прямо в…

6 мин
ChatGPT получил кнопку «к началу» ответа: бесплатный юзерскрипт для 7 ИИ-чатов
ai

ChatGPT получил кнопку «к началу» ответа: бесплатный юзерскрипт для 7 ИИ-чатов

ChatGPT добавил возможность моментально прыгать к началу длинного ответа, но не силами разработчиков: автор dzen.guru собрал готовые юзерскрипты для всех…

5 мин
ИИ-агенты: это память в Markdown, которую можно читать и править через Git
ai

ИИ-агенты: это память в Markdown, которую можно читать и править через Git

Microsoft второго июня запустила агентскую память на маркдауне, и она меняет подход к работе с ИИ-агентами. Компания EverMind выпустила EverOS, открытую…

6 мин