Игорь Градов

5 июля 2026 г. в 08:15 МСК5 мин

GitHub Copilot делает код однообразнее: индекс за 2019–2025 подтвердил рост шаблонности

GitHub Copilot и ChatGPT действительно делают код однообразнее: исследование на данных GitHub за 2019–2025 годы вводит индекс однородности и показывает, где именно ИИ-инструменты стирают авторский стиль в открытых проектах.

Почему это важно

Впервые кто-то не просто спросил «ускоряет ли ИИ разработку», а замерил обратную сторону: растёт ли шаблонность кода, README и комментариев на GitHub после массового прихода генеративных моделей. Для тех, кто пишет или заказывает код, это прямой индикатор качества.

Исследование, опубликованное автором на основе данных GH Archive (публичный архив событий GitHub, доступный через Google BigQuery), охватывает пять контрольных дат: с 15 февраля 2019 года по 15 февраля 2025 года. Точка отсчёта: 30 ноября 2022 года, когда OpenAI представила ChatGPT и разработчики массово начали писать код в диалоге с моделью. Автор сравнивает не скорость, а разнообразие: насколько похожими стали артефакты открытых проектов после этой даты.

Что понадобится

Доступ к Google BigQuery (бесплатный уровень позволяет обрабатывать до 1 ТБ запросов в месяц)
Датасет GH Archive в BigQuery: таблицы с событиями PushEvent, PullRequestEvent, CreateEvent и другими типами активности GitHub
Python 3.10+ с библиотеками для работы с текстом и AST (абстрактное синтаксическое дерево, древовидное представление структуры кода)
GitHub Copilot или ChatGPT для сравнения: попробуйте сгенерировать README или функцию и сверить результат с метриками из исследования
Время: базовый анализ одной контрольной даты занимает от 30 минут до часа

Как проверить однообразие кода самостоятельно?

Откройте BigQuery и подключите публичный датасет GH Archive. Выберите одну календарную дату (например, 15 февраля текущего года) и аналогичную дату за год-два до массового распространения ИИ-инструментов (до ноября 2022).
Выгрузите PushEvent за обе даты. Посчитайте число коммитов, уникальных репозиториев и активных разработчиков.
Соберите выборку README из созданных в эти даты репозиториев. Сравните структуру: какая доля содержит одинаковые секции (Overview, Features, Installation, Usage, Contributing, License).
Извлеките комментарии из коммитов. Подсчитайте долю шаблонных фраз:

Initialize...
Validate input
Handle errors
Return the result

Проанализируйте имена функций. Выделите топ-100 самых частых и посчитайте, какую долю всех функций они покрывают.
Сравните структуру каталогов новых проектов: как часто встречается типовой набор src/, tests/, docs/, config/, .github/workflows/.
Сведите результаты в единый индекс. Автор исследования назвал его GUI (GitHub Uniformity Index, индекс однородности GitHub): составная метрика, которая объединяет похожесть README, повторяемость комментариев и коммит-сообщений, концентрацию имён функций, похожесть AST-представлений и типовую структуру проектов.

Что показал анализ на практике

Автор взял пять контрольных дат (15 февраля 2019, 2021, 2023, 2024 и 2025 годов) и прогнал по каждой одинаковый набор запросов. Результат: после 2022 года доля README с одинаковой секционной структурой выросла. Комментарии вроде «Initialize the component» и «Handle errors gracefully» стали встречаться заметно чаще. Топ-100 имён функций (fetchData, processData, handleError, validateInput, getUserData, renderComponent) начал покрывать большую долю всех имён, то есть распределение стало более концентрированным. Структура новых мелких проектов всё чаще повторяет один и тот же каркас. При этом автор подчёркивает: ни одна отдельная фраза или имя не доказывает, что код написан нейросетью. Речь о статистическом сдвиге, о том, что экосистема в целом стала предсказуемее.

Что это значит для вас?

Автору Дзена и копирайтеру. Если вы генерируете код для статей или плагинов через ChatGPT или GitHub Copilot, проверяйте результат не только на работоспособность, но и на «штампованность». ИИ выдаёт безопасные, усреднённые решения. Для обучающего контента это может быть плюсом, для демонстрации экспертизы это минус.

Маркетологу. Метрика GUI показывает, что ИИ-инструменты влияют не только на скорость, но и на стиль продукта. Если ваша команда разработки использует GitHub Copilot, стоит ввести ревью не только на баги, но и на уникальность архитектурных решений: клиент всё чаще отличает шаблонный продукт.

Предпринимателю в РФ. GitHub Copilot доступен в России с ограничениями (нужна оплата через зарубежную карту или VPN). Из российских аналогов: GigaCode от Сбера и инструменты на базе YandexGPT. Методологию GUI можно применить к внутренним репозиториям компании, чтобы понять, не превращается ли кодовая база в набор шаблонов. Автор исследования отдельно отмечает, что анализ включал русскоязычные репозитории.

Частые ошибки

Ловушка одного дня. Автор честно оговаривает: одна календарная дата не представляет весь год. Если вы повторяете анализ, берите хотя бы три даты в разные сезоны и усредняйте.

Ложная атрибуция. Шаблонный комментарий «Validate input» мог написать и человек в 2019 году. GUI измеряет тренд, а не авторство конкретной строки. Не делайте из метрики детектор ИИ-кода: автор прямо говорит, что надёжного способа массово отличать ИИ-код от человеческого не существует.

Путаница нормы и проблемы. Типовая структура каталогов, это часто лучшие практики отрасли, а не «вина ИИ». Рост шаблонности в структуре проектов нужно сравнивать внутри похожих групп (например, только веб-приложения на JavaScript), иначе вы сравниваете микросервис с научным пакетом.

Мнение редакции dzen.guru

Я проверил на нескольких своих проектах: если попросить GitHub Copilot написать README для нового репозитория, структура почти всегда одна и та же. Overview, Installation, Usage, License. Функциям он даёт предсказуемые имена. Это удобно для старта, но если десять тысяч проектов начинаются одинаково, поисковику и читателю всё сложнее отличить один от другого. На мой взгляд, GUI, полезная метрика для любой команды: запустите раз в квартал проверку повторяемости в своём коде, и увидите, насколько сильно ИИ-ассистент формирует ваш стиль за вас. Честная оговорка: исследование построено на публичных репозиториях. Закрытый корпоративный код может вести себя иначе, и авторских выводов на него переносить нельзя.

Методология исследования открыта, данные публичны. Любой разработчик может воспроизвести анализ через BigQuery и проверить, стала ли его часть GitHub более однородной. Вопрос не в том, плохи ли ChatGPT или GitHub Copilot как инструменты. Вопрос в том, замечаете ли вы, когда инструмент начинает писать за вас не только код, но и стиль.

Проверьте свои тексты на шаблонность

Если ИИ стандартизирует код, он делает то же самое с вашими статьями. Попробуйте генератор dzen.guru и сравните результат с тем, что выдаёт ChatGPT без настройки.

Попробовать бесплатно

Поделиться:Telegram VK

Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Организация заметок нейросетью в Obsidian: плагин сам режет текст на карточки и строит связи

Организация заметок нейросетью звучит как мечта, но обычно заканчивается одинаково: вы строите красивую структуру папок, две недели раскладываете файлы по…

5 июля в 08:30 МСК5 мин

Подагенты в Claude Code AI запускают сотни изолированных агентов, сохраняя контекст чистым

Anthropic в апреле 2026 года добавила в Claude Code механизм подагентов, который позволяет делегировать части задачи отдельным экземплярам модели с…

5 июля в 07:30 МСК5 мин

Бесплатный VST3-плагин Mix Teacher AI: где скачать VST-плагины с подсказками на русском

Автор Артур Валиев сделал то, о чём мечтают многие продюсеры электронной музыки: написал бесплатный VST3-плагин Mix Teacher AI, который анализирует звук на…

5 июля в 07:15 МСК5 мин