Игорь Градов

26 июня 2026 г. в 11:30 МСК5 мин

text

82% запросов от «ИИ-помощников» оказались фейком: как выявить поддельный трафик ботов

Поддельный трафик от ботов стал настолько массовым, что на новом сайте 82% запросов от «ИИ-помощников» и 87% запросов от «Googlebot» оказались фальшивыми, и автор делится Python-кодом для проверки.

Почему это важно

Если вы считаете трафик по имени бота в логах, вы, скорее всего, считаете ложь: имя в заголовке запроса может поставить кто угодно, а настоящая проверка требует сверки IP-адреса с официальными списками.

Веб-разработчик запустил платформу CitationIQ.com и две недели собирал логи сервера, ожидая скромный, но честный поток роботов. Вместо этого он обнаружил, что из 33 запросов, представившихся ИИ-помощниками (ChatGPT-User, Claude-User и другими), только 6 пришли с IP-адресов, которые публикуют сами разработчики этих ботов. Остальные 27 оказались подделками. Результаты и метод проверки автор опубликовал в открытом доступе на своём сайте.

Что	Когда	Кто опубликовал	Цена
Метод проверки подлинности ботов ИИ-помощников и Googlebot через IP-диапазоны	Июнь 2025	Автор CitationIQ.com	Бесплатно, открытый Python-код

Что обнаружилось при проверке логов?

82% запросов от «ИИ-помощников» оказались поддельными. Из 33 обращений, назвавшихся именами ChatGPT-User, Claude-User и подобных, лишь 6 пришли с адресов, входящих в официальные диапазоны OpenAI, Anthropic и других компаний.
87% запросов «Googlebot» тоже не принадлежали Google. Из 799 обращений с этим именем только 107 прошли проверку по IP. Подделка Googlebot не новость, ей больше двадцати лет, но масштаб на свежем сайте без какого-либо продвижения впечатляет.
Поддельные боты охотились за секретами сервера. Фальшивые «ChatGPT-User» запрашивали файлы .env.production, secrets.yaml и config.json. Это не поведение ИИ-помощника, а сканеры учётных данных, прикрывшиеся доверенным именем.
Проверка строится на трёх состояниях, а не на двух. Автор ввёл статус «не удалось проверить» (unverifiable) для случаев, когда список IP не загрузился или записи нет. Это честнее, чем помечать всё неподтверждённое как подделку.

Как устроена проверка?

Имя бота (user-agent) в HTTP-заголовке, это просто строка текста. Поставить туда «Googlebot» или «ChatGPT-User» может любой скрипт. Это как бейджик курьера: форму может надеть кто угодно.

Настоящая проверка работает иначе. Крупные операторы публикуют JSON-файлы с IP-диапазонами, которые реально используют их боты:

OpenAI (ChatGPT-User): openai.com/chatgpt-user.json
Anthropic (Claude): claude.com/crawling/bots.json
Perplexity: perplexity.com/perplexity-user.json
Google: developers.google.com/static/crawling/ipranges/common-crawlers.json
Common Crawl (CCBot): index.commoncrawl.org/ccbot.json

Алгоритм прост: берёте IP-адрес из лога, загружаете официальный список диапазонов для заявленного бота и проверяете, попадает ли адрес в один из диапазонов. Если да, бот настоящий. Если нет, это поддельный трафик ботов.

Как проверить свои логи за 4 шага?

Выгрузите серверные логи (access.log для Nginx или Apache). Отфильтруйте строки, содержащие имена ботов: ChatGPT-User, Claude-User, Googlebot, CCBot, Perplexity-User.
Скачайте официальные JSON-файлы с IP-диапазонами по ссылкам выше. Каждый файл содержит сетевые диапазоны (CIDR-блоки, то есть записи вида 192.168.1.0/24, которые описывают группу адресов) реальных ботов.
Запустите проверку на Python. Ядро скрипта занимает около 15 строк и использует только стандартную библиотеку Python (модули ipaddress и json). Вот упрощённая версия из источника:

import ipaddress, json, urllib.request

url = "https://openai.com/chatgpt-user.json"
data = json.loads(urllib.request.urlopen(url).read())

nets = []
def collect(node):
    if isinstance(node, dict):
        for v in node.values(): collect(v)
    elif isinstance(node, list):
        for v in node: collect(v)
    elif isinstance(node, str):
        try: nets.append(ipaddress.ip_network(node, strict=False))
        except ValueError: pass

collect(data)

def is_real(ip):
    addr = ipaddress.ip_address(ip)
    return any(addr in net for net in nets)

Этот фрагмент проверяет только OpenAI. Для полной проверки нужно добавить загрузку списков каждого бота, привязку имени к своему списку и статус «не удалось проверить» для случаев, когда файл не загрузился.

Пометьте каждый запрос одним из трёх статусов: «подтверждён», «подделка», «не удалось проверить». Не записывайте в подделки то, что просто не смогли проверить.

Как обстоят дела для русскоязычных сайтов?

Поддельный трафик ботов одинаково касается сайтов на любом языке: сканеры не выбирают по географии. Для владельцев сайтов в РФ и СНГ проверка работает точно так же, серверные логи и IP-диапазоны доступны из любой точки.

Из российских инструментов аналитики, «Яндекс Метрика» фильтрует роботов автоматически, но только на уровне счётчика. Серверные логи она не проверяет. Если вы считаете визиты ИИ-ботов по логам (например, чтобы понять, сколько раз страницу забрал ChatGPT для ответа пользователю), проверку по IP придётся делать самостоятельно, тем же методом.

«Яндекс» публикует список своих IP для робота YandexBot, поэтому его тоже можно и нужно верифицировать по аналогичной схеме.

Что делать прямо сейчас, по ролям?

Автору Дзена и блогеру. Если вы отслеживаете, как ИИ-помощники используют ваш контент, перепроверьте цифры. Без сверки по IP вы, возможно, считаете сканеры, а не реальных пользователей ChatGPT или Claude.
Веб-мастеру и владельцу сайта. Запустите скрипт из статьи на своих логах. Обратите внимание на запросы к служебным файлам (.env, config.json): если «бот ИИ-помощника» просит их, это сканер учётных данных, а не пользователь.
Маркетологу. Прежде чем отчитываться перед клиентом о «трафике от ИИ», убедитесь, что цифры реальны. 80% фальшивых обращений способны исказить любую аналитику.

Мнение редакции dzen.guru

Я считаю эту публикацию одной из самых полезных находок за последние недели для тех, кто всерьёз следит за тем, как ИИ-боты взаимодействуют с сайтами. Данные получены на одном небольшом сайте за две недели, поэтому процент подделок на крупном проекте может отличаться в любую сторону. Но сам метод универсален и занимает час работы. Моя рекомендация: выделите час на этой неделе и проверьте свои логи. Если вы не программист, попросите технического специалиста запустить скрипт. Результат покажет, сколько «визитов ИИ» на вашем сайте настоящие, а сколько просто шум или, хуже, попытки украсть конфигурационные файлы.

Частые вопросы

Нужно ли знать Python, чтобы проверить логи?

Базовых навыков достаточно: скрипт использует стандартную библиотеку Python, не требует установки дополнительных пакетов. Если вы не программист, передайте скрипт и файл access.log любому разработчику или системному администратору: задача займёт у него не больше часа.

Может ли бот быть настоящим, но не попасть в список IP?

Да. Автор метода специально ввёл статус «не удалось проверить» для таких случаев. Список IP может быть неполным или не загрузиться. Поэтому нельзя автоматически записывать в подделки всё, что не подтвердилось. Но если бот с именем «ChatGPT-User» запрашивает файл secrets.yaml, это точно не ИИ-помощник, независимо от IP.

Касается ли проблема поддельного трафика ботов только новых сайтов?

Нет. Подделка Googlebot существует больше двадцати лет и затрагивает сайты любого размера. Новый сайт просто позволил увидеть масштаб на чистых данных без накопленного шума. На крупном ресурсе абсолютное число поддельных запросов может быть значительно выше.

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Как написать скрипт продаж с помощью нейросети за 30 минут: шаблон промпта и инструкция

Нейросеть способна за полчаса собрать рабочий скрипт продаж, который менеджер адаптирует под свой продукт и начнёт использовать в тот же день. Почему это важно…

26 июня в 12:15 МСК6 мин

text

WordPress AI в ядре: разработчики массово отвергли встроенный тип записей «Знания»

WordPress предлагает встроить в ядро новый тип записей «Знания» (Knowledge Custom Post Type), который хранит редакционные правила сайта для людей и ИИ-агентов…

26 июня в 09:30 МСК6 мин

text

ИИ для оптимизации кода сайта под AI-поиск: план из двух докладов SMX Advanced

Разбираюсь с материалом. Оригинал не про оптимизацию кода — он про AI-поиск и SEO-стратегию. H1 говорит «Как ИИ помогает оптимизировать код», но источник…

26 июня в 03:00 МСК8 мин

82% запросов от «ИИ-помощников» оказались фейком: как выявить поддельный трафик ботов

Что обнаружилось при проверке логов?

Как устроена проверка?

Как проверить свои логи за 4 шага?

Как обстоят дела для русскоязычных сайтов?

Что делать прямо сейчас, по ролям?

Частые вопросы

Нужно ли знать Python, чтобы проверить логи?

Может ли бот быть настоящим, но не попасть в список IP?

Касается ли проблема поддельного трафика ботов только новых сайтов?

Комментарии

Читайте также

Как написать скрипт продаж с помощью нейросети за 30 минут: шаблон промпта и инструкция

WordPress AI в ядре: разработчики массово отвергли встроенный тип записей «Знания»

ИИ для оптимизации кода сайта под AI-поиск: план из двух докладов SMX Advanced