Игорь Градов
Игорь Градов
5 мин
ai

Google выложила TabFM: нейросети для табличных данных больше не требуют настройки

Google Research представила TabFM, фундаментальную нейросеть для табличных данных, которая выдаёт прогнозы по незнакомым таблицам без обучения, настройки гиперпараметров и ручной подготовки признаков, за один проход.

Google выложила TabFM: нейросети для табличных данных больше не требуют настройки
Почему это важно

Нейросети для табличных данных впервые работают по принципу «загрузил таблицу и получил результат» без часов на подготовку, а модель уже выложена в открытый доступ на Hugging Face и GitHub.

Табличные данные, от клиентских баз до финансовых отчётов, до сих пор оставались территорией классических алгоритмов вроде XGBoost и случайных лесов. Эти методы давали надёжные результаты, но каждая новая таблица требовала ручной настройки: подбора гиперпараметров, создания признаков, перекрёстной валидации. По данным Google Research, TabFM снимает этот этап целиком, применяя к таблицам тот же подход «обучения в контексте» (in-context learning, ICL), который сделал большие языковые модели универсальными.

Показатель Значение Источник
Тип задач Классификация и регрессия Google Research
Обучающие данные Сотни миллионов синтетических датасетов Google Research
Бенчмарк TabArena, 38 датасетов классификации + 13 регрессии Google Research
Размеры выборок в бенчмарке От 700 до 150 000 строк Google Research
Конфигурации TabFM (один проход) и TabFM-Ensemble (ансамбль из 32 моделей) Google Research
Доступность Hugging Face, GitHub, открытый код Google Research
Планируемая интеграция Google BigQuery через SQL-команду AI.PREDICT Google Research
Требования Python 3.11+, JAX 0.10.1, Flax 0.12.7 Google Research

Как работает TabFM?

Классические модели для таблиц обновляют свои параметры под каждый конкретный датасет. TabFM этого не делает. Модель принимает всю таблицу целиком как один промпт, в котором лежат и обучающие примеры, и строки, для которых нужен прогноз.

Таблица, в отличие от текста, двумерна и не зависит от порядка: если поменять местами строки или столбцы, смысл данных не изменится. Обычные языковые модели работают с упорядоченными последовательностями, поэтому напрямую к таблицам не применимы. TabFM решает это тремя механизмами:

  • Чередующееся внимание по строкам и столбцам. Модель попеременно анализирует зависимости между признаками (столбцами) и между примерами (строками). Это заменяет ручное создание признаков (feature engineering), когда аналитик сам придумывает комбинации колонок.
  • Сжатие строк. Информация каждой строки после анализа упаковывается в один компактный вектор.
  • Обучение в контексте. Отдельный трансформер (Transformer, архитектура нейросети, на которой построены ChatGPT и другие большие модели) обрабатывает сжатые представления строк и выдаёт прогноз. Работа со сжатыми данными резко снижает вычислительные затраты даже на больших таблицах.

Обучение на синтетике, потому что реальных таблиц мало

Фундаментальным моделям нужны огромные объёмы разнообразных данных. Качественных открытых табличных датасетов почти нет: промышленные таблицы содержат коммерческие схемы и персональные данные, публиковать их нельзя. Команда Google Research называет синтетические таблицы единственным жизнеспособным вариантом на таком масштабе.

TabFM обучалась на сотнях миллионов синтетических датасетов. Их генерировали динамически с помощью структурных причинно-следственных моделей (SCM, structural causal models), которые воспроизводят распределения и сложные зависимости, встречающиеся в реальных таблицах. По данным Google Research, модель хорошо обобщается на реальные данные, которых не видела при обучении.

TabFM обходит настроенные классические алгоритмы

Команда Google Research оценивала TabFM на бенчмарке TabArena, живом рейтинге, который вычисляет Elo-рейтинг (система оценки силы, как в шахматах) по результатам попарных сравнений моделей. Тестирование охватило 38 датасетов классификации и 13 датасетов регрессии с выборками от 700 до 150 000 строк.

Тестировали две конфигурации:

  • TabFM работает «из коробки» за один проход без настройки и перекрёстной валидации.
  • TabFM-Ensemble добавляет кросс-признаки и SVD-признаки (SVD, сингулярное разложение, метод сжатия данных с сохранением ключевой информации), вычисляет оптимальные веса для ансамбля из 32 моделей и применяет калибровку Платта для классификации.

По данным Google Research, TabFM стабильно превосходит тщательно настроенные стандартные алгоритмы машинного обучения. Детальные метрики и результаты попарных сравнений опубликованы на странице проекта в GitHub.

Важная деталь: интерфейс модели совместим со scikit-learn. Вызов .fit() не обучает веса модели на ваших данных, а только готовит кодировщики и скейлеры. Сам прогноз, это инференс (вычисление результата без обучения) за один проход.

Как это читать

Результаты TabFM получены на бенчмарке TabArena с выборками до 150 000 строк. Как модель поведёт себя на таблицах с миллионами строк, характерных для промышленных задач, Google Research не сообщает. Обучение проводилось целиком на синтетических данных: насколько устойчиво модель работает с «грязными» реальными таблицами (пропуски, ошибки, нестандартные форматы), пока вопрос открытый. Кроме того, сравнение с классическими алгоритмами шло на конкретных датасетах бенчмарка. В ваших задачах результат может отличаться.

Что это значит для вас?

Аналитику и дата-сайентисту в малой команде. TabFM убирает самый трудоёмкий этап: подбор гиперпараметров и ручное создание признаков. Если вы тратите часы на настройку XGBoost под каждую новую задачу, попробуйте TabFM как быструю базовую линию. Модель доступна на Hugging Face прямо сейчас, нужен Python 3.11 и выше.

Автору Дзена, который пишет про аналитику. Нейросети для табличных данных, это тема, которая касается каждого бизнеса с CRM или Excel-отчётами. TabFM даёт конкретный информационный повод: Google открыла код модели, которая делает анализ таблиц доступнее.

Предпринимателю в РФ. Модель опенсорсная, код на GitHub, веса на Hugging Face. Для запуска не нужны облака Google, можно использовать локально. Интеграция с BigQuery через SQL-команду AI.PREDICT ожидается, но дату Google не назвала. Из российских инструментов для работы с табличными данными доступны YandexGPT (через API для аналитики) и собственные пайплайны на AutoML от Сбера, но прямого аналога TabFM с нулевым обучением пока нет.

Мнение редакции dzen.guru

Идея «один промпт вместо часов настройки» звучит привлекательно, и я вижу, где это реально сэкономит время: быстрая проверка гипотез, прототипирование, задачи, где данных мало и строить полноценный пайплайн нерентабельно. Но заменить настроенный XGBoost на промышленных объёмах пока рано, бенчмарк покрывает таблицы до 150 000 строк. Что действительно ценно: Google выложила и код, и веса. Это значит, что любая команда может проверить заявления самостоятельно, а не верить на слово. Для малых аналитических групп в России, где нет бюджета на дата-инженеров, TabFM может стать рабочим инструментом уже сегодня, если задачи укладываются в ограничения по размеру данных.

Модель доступна на GitHub и Hugging Face, порог входа минимален: установка, загрузка весов, пять строк кода до первого прогноза. Если работаете с таблицами и устали от ритуала настройки, проверьте на своих данных и сравните с текущим пайплайном.

По данным Google Research

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Wayve оценена в $8,5 млрд: автономные автомобили без HD-карт привлекли инженеров и инвесторов
ai

Wayve оценена в $8,5 млрд: автономные автомобили без HD-карт привлекли инженеров и инвесторов

Британский стартап Wayve, разрабатывающий технологии для автономных автомобилей, предложил сотрудникам продать часть принадлежащих им акций через тендерное…

4 мин
Трамп снял экспортный запрет на Claude Anthropic: доступ вернётся с 1 июля
ai

Трамп снял экспортный запрет на Claude Anthropic: доступ вернётся с 1 июля

Почему это важно Впервые экспортные ограничения на передовые ИИ-модели были введены и сняты в течение трёх недель, причём под давлением азиатских конкурентов.…

5 мин
CUP от Baidu заменяет десятки Python фреймворков одной зависимостью
ai

CUP от Baidu заменяет десятки Python фреймворков одной зависимостью

Компания Baidu развивает библиотеку CUP (Common Useful Python library), которая собирает в одном пакете десятки утилит для повседневной Python-разработки: от…

6 мин