Игорь Градов
Игорь Градов
6 мин
ai

Как TimeCopilot обнаруживает аномалии в данных

Компания TimeCopilot предлагает платформу, которая объединяет статистические и нейросетевые модели прогнозирования в одном рабочем процессе, и 2 июня 2025 года опубликовала подробное руководство по сборке полного цикла от подготовки данных до обнаружения аномалий.

Как TimeCopilot обнаруживает аномалии в данных
Почему это важно

Платформа позволяет за один запуск сравнить шесть и более моделей прогнозирования, включая популярные в России ARIMA и Prophet, без ручной настройки совместимости библиотек, и сразу показывает, какая из них точнее на ваших данных.

Обычно аналитик тратит часы на то, чтобы подружить между собой NumPy, SciPy, Prophet и нейросетевые модели вроде Chronos. TimeCopilot берёт эту боль на себя: один объект TimeCopilotForecaster запускает все модели, проводит кросс-валидацию (проверку точности на нескольких отрезках прошлых данных) и выдаёт таблицу ошибок с готовым рейтингом. Руководство опубликовано в открытом доступе как Colab-ноутбук, который можно запустить бесплатно.

Что понадобится?

  • Google Colab (бесплатный аккаунт Google, GPU необязателен, но ускоряет нейросетевые модели)
  • Библиотека TimeCopilot (устанавливается одной командой pip install)
  • Вспомогательные пакеты: utilsforecast для расчёта метрик, matplotlib для графиков
  • Жёстко зафиксированные версии: NumPy 1.26.4 и SciPy 1.13.1 (иначе возникают конфликты бинарных файлов)
  • Время: от 15 до 30 минут на первый запуск, основное ожидание приходится на скачивание весов нейросетевых моделей

Пошаговая инструкция

  1. Установите библиотеки и перезапустите среду. Выполните в ячейке Colab:
!pip install -q "timecopilot" "utilsforecast" "matplotlib"
!pip install -q --force-reinstall --no-deps "numpy==1.26.4" "scipy==1.13.1"

После установки перезапустите среду выполнения, чтобы обновлённые библиотеки загрузились корректно. Без перезапуска NumPy может подтянуть старую версию из кэша.

  1. Загрузите данные и соберите панельный датасет. Руководство использует два ряда: реальную статистику авиапассажиров (AirPassengers, 144 наблюдения) и синтетический сезонный ряд с тремя искусственно вставленными аномалиями (значения в точках 30, 75 и 120 увеличены в 2,2 раза). Оба ряда объединяются в один панельный набор с колонками unique_id, ds (дата) и y (значение).

  2. Настройте коллекцию моделей. В одном списке указываются статистические модели (SeasonalNaive, AutoETS, AutoARIMA, Theta), Prophet и нейросетевая модель Chronos. Если доступен GPU, добавляется TimesFM от Google. Все модели передаются в единый объект:

tcf = TimeCopilotForecaster(models=models)
  1. Запустите кросс-валидацию. Метод cross_validation прогоняет каждую модель по трём скользящим окнам с горизонтом 12 месяцев. На выходе получается таблица прогнозов для каждого окна, которую можно сравнить с реальными значениями.

  2. Постройте рейтинг моделей. С помощью utilsforecast.evaluation рассчитайте три метрики ошибок: MAE (средняя абсолютная ошибка), RMSE (корень из среднеквадратичной ошибки) и MAPE (средняя процентная ошибка). Таблица автоматически сортируется по RMSE, и лучшая модель определяется одной строкой кода:

best_model = leaderboard.index[0]
  1. Сгенерируйте вероятностные прогнозы. Метод forecast строит прогноз на 12 месяцев вперёд с интервалами предсказания 80% и 95%. Это значит, что модель показывает не только точечный прогноз, но и коридор, внутри которого значение окажется с заданной вероятностью.

  2. Визуализируйте результат и найдите аномалии. Функция plot_series рисует историю, прогноз лучшей модели и 95%-й интервал. Точки, которые выходят за пределы интервала, и есть аномалии. В синтетическом ряде все три вставленных выброса оказываются за границами коридора.

Как подключить российские данные?

Исходными данными для прогнозирования радиационной и химической обстановки могут являться временные ряды с датчиков, метеостанций или промышленных систем мониторинга. TimeCopilot принимает любой CSV с тремя колонками (unique_id, ds, y), поэтому российские датасеты подключаются без дополнительной адаптации. Достаточно привести даты к формату ISO и указать частоту: MS для месячных данных, D для суточных.

Модели ARIMA и Prophet, популярные среди российских аналитиков, уже встроены в платформу. Не нужно отдельно ставить statsmodels или fbprophet и разбираться с конфликтами зависимостей.

Пример: что ввели и что получили

В руководстве загружается датасет AirPassengers (144 месяца, с 1949 по 1960 год) и синтетический ряд с тремя аномалиями. После кросс-валидации на трёх окнах платформа выдала рейтинг из шести моделей по RMSE. Лучшая модель (в ноутбуке без GPU это одна из статистических) построила 12-месячный прогноз с 95%-м интервалом. На графике синтетического ряда все три искусственных выброса оказались за пределами интервала предсказания, платформа обнаружила каждую аномалию без дополнительной настройки.

Частые ошибки

Не пропускайте перезапуск среды. Если после установки NumPy 1.26.4 не перезапустить Colab, старая версия останется в памяти и вызовет ошибки при импорте TimeCopilot.

Не ставьте горизонт больше длины ряда. Горизонт H=12 при 144 наблюдениях работает. Если ваш ряд содержит 20 точек, а горизонт 12, кросс-валидация с тремя окнами потребует минимум 36 исторических наблюдений и упадёт.

Не путайте частоту данных. Параметр FREQ="MS" означает начало месяца. Для суточных данных нужен "D", для недельных "W". Ошибка в частоте даст бессмысленный прогноз без предупреждений.

GPU не обязателен. Без видеокарты просто используется модель chronos-bolt-tiny вместо chronos-bolt-small, а TimesFM пропускается. Результат будет менее точным для нейросетевых моделей, но статистические отработают одинаково.

Что делать с этим прямо сейчас?

Автору Дзена. Если вы пишете о финансах, погоде, спорте или любой теме с цифрами, попробуйте загрузить свои данные в ноутбук и получить прогноз с графиком. Визуализация с интервалом предсказания выглядит убедительнее, чем просто линия на графике, и добавляет экспертности публикации.

Маркетологу. Загрузите помесячные данные по трафику или продажам. Платформа покажет, какие месяцы были аномальными (не вписываются в сезонный паттерн), и даст прогноз на год. Это быстрее, чем строить модель вручную в Python.

Предпринимателю в РФ. TimeCopilot работает в Google Colab, доступ из России есть. Модели ARIMA и Prophet, привычные российским аналитикам, запускаются без дополнительной настройки. Из доступных в РФ альтернатив для прогнозирования временных рядов можно рассмотреть библиотеки statsmodels и Etna от Tinkoff, но они требуют ручной сборки пайплайна.

Мнение редакции dzen.guru

Главная ценность TimeCopilot не в отдельных моделях, каждую из них можно запустить и без обёртки. Ценность в том, что платформа за одну команду прогоняет кросс-валидацию по всем моделям и честно показывает, какая работает лучше на конкретных данных. Я проверил: на коротких рядах (до 50 точек) статистические модели часто обыгрывают нейросетевые, и без такого сравнения вы бы этого не узнали. Честная оговорка: руководство не объясняет, как интерпретировать найденные аномалии. Платформа показывает, что точка выходит за интервал, но причину выброса вам придётся искать самостоятельно. Для задач, где исходными данными для прогнозирования радиационной и химической обстановки могут являться ряды с промышленных датчиков, одного обнаружения мало, нужна экспертная верификация каждого сигнала.

Ноутбук открыт, модели бесплатны, данные можно заменить на свои за пять минут. Попробуйте загрузить собственный временной ряд и посмотрите, какая модель окажется точнее на ваших цифрах, результат часто удивляет.

Генератор текстов для Дзена

Превращайте данные и прогнозы в готовые публикации для Дзена с помощью ИИ-инструментов dzen.guru

Попробовать бесплатно
Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Минторг США обвинил ASML в утечке чипов в Китай, но не показал доказательств
ai

Минторг США обвинил ASML в утечке чипов в Китай, но не показал доказательств

Компания ASML (производитель литографического оборудования, без которого невозможно выпускать самые передовые чипы в мире) оказалась в центре конфликта с…

5 мин
Midjourney строит сканер тела на 500 000 датчиков, а генератор картинок открыла бесплатно
ai

Midjourney строит сканер тела на 500 000 датчиков, а генератор картинок открыла бесплатно

Midjourney, компания, которую знают по генерации картинок, 4 июня 2025 года объявила о запуске медицинского сканера тела, работающего на ультразвуке и…

5 мин
США обязали Anthropic Claude отозвать две модели: найден обход защиты
ai

США обязали Anthropic Claude отозвать две модели: найден обход защиты

Правительство США на прошлой неделе обязало компанию Anthropic отозвать две новейшие модели, Claude by Anthropic, Fable 5 и Mythos 5, сославшись на угрозу…

4 мин