Google выложила TabFM: нейросети для табличных данных больше не требуют настройки
Google Research представила TabFM, фундаментальную нейросеть для табличных данных, которая выдаёт прогнозы по незнакомым таблицам без обучения, настройки гиперпараметров и ручной подготовки признаков, за один проход.

Нейросети для табличных данных впервые работают по принципу «загрузил таблицу и получил результат» без часов на подготовку, а модель уже выложена в открытый доступ на Hugging Face и GitHub.
Табличные данные, от клиентских баз до финансовых отчётов, до сих пор оставались территорией классических алгоритмов вроде XGBoost и случайных лесов. Эти методы давали надёжные результаты, но каждая новая таблица требовала ручной настройки: подбора гиперпараметров, создания признаков, перекрёстной валидации. По данным Google Research, TabFM снимает этот этап целиком, применяя к таблицам тот же подход «обучения в контексте» (in-context learning, ICL), который сделал большие языковые модели универсальными.
| Показатель | Значение | Источник |
|---|---|---|
| Тип задач | Классификация и регрессия | Google Research |
| Обучающие данные | Сотни миллионов синтетических датасетов | Google Research |
| Бенчмарк | TabArena, 38 датасетов классификации + 13 регрессии | Google Research |
| Размеры выборок в бенчмарке | От 700 до 150 000 строк | Google Research |
| Конфигурации | TabFM (один проход) и TabFM-Ensemble (ансамбль из 32 моделей) | Google Research |
| Доступность | Hugging Face, GitHub, открытый код | Google Research |
| Планируемая интеграция | Google BigQuery через SQL-команду AI.PREDICT | Google Research |
| Требования | Python 3.11+, JAX 0.10.1, Flax 0.12.7 | Google Research |
Как работает TabFM?
Классические модели для таблиц обновляют свои параметры под каждый конкретный датасет. TabFM этого не делает. Модель принимает всю таблицу целиком как один промпт, в котором лежат и обучающие примеры, и строки, для которых нужен прогноз.
Таблица, в отличие от текста, двумерна и не зависит от порядка: если поменять местами строки или столбцы, смысл данных не изменится. Обычные языковые модели работают с упорядоченными последовательностями, поэтому напрямую к таблицам не применимы. TabFM решает это тремя механизмами:
- Чередующееся внимание по строкам и столбцам. Модель попеременно анализирует зависимости между признаками (столбцами) и между примерами (строками). Это заменяет ручное создание признаков (feature engineering), когда аналитик сам придумывает комбинации колонок.
- Сжатие строк. Информация каждой строки после анализа упаковывается в один компактный вектор.
- Обучение в контексте. Отдельный трансформер (Transformer, архитектура нейросети, на которой построены ChatGPT и другие большие модели) обрабатывает сжатые представления строк и выдаёт прогноз. Работа со сжатыми данными резко снижает вычислительные затраты даже на больших таблицах.
Обучение на синтетике, потому что реальных таблиц мало
Фундаментальным моделям нужны огромные объёмы разнообразных данных. Качественных открытых табличных датасетов почти нет: промышленные таблицы содержат коммерческие схемы и персональные данные, публиковать их нельзя. Команда Google Research называет синтетические таблицы единственным жизнеспособным вариантом на таком масштабе.
TabFM обучалась на сотнях миллионов синтетических датасетов. Их генерировали динамически с помощью структурных причинно-следственных моделей (SCM, structural causal models), которые воспроизводят распределения и сложные зависимости, встречающиеся в реальных таблицах. По данным Google Research, модель хорошо обобщается на реальные данные, которых не видела при обучении.
TabFM обходит настроенные классические алгоритмы
Команда Google Research оценивала TabFM на бенчмарке TabArena, живом рейтинге, который вычисляет Elo-рейтинг (система оценки силы, как в шахматах) по результатам попарных сравнений моделей. Тестирование охватило 38 датасетов классификации и 13 датасетов регрессии с выборками от 700 до 150 000 строк.
Тестировали две конфигурации:
- TabFM работает «из коробки» за один проход без настройки и перекрёстной валидации.
- TabFM-Ensemble добавляет кросс-признаки и SVD-признаки (SVD, сингулярное разложение, метод сжатия данных с сохранением ключевой информации), вычисляет оптимальные веса для ансамбля из 32 моделей и применяет калибровку Платта для классификации.
По данным Google Research, TabFM стабильно превосходит тщательно настроенные стандартные алгоритмы машинного обучения. Детальные метрики и результаты попарных сравнений опубликованы на странице проекта в GitHub.
Важная деталь: интерфейс модели совместим со scikit-learn. Вызов .fit() не обучает веса модели на ваших данных, а только готовит кодировщики и скейлеры. Сам прогноз, это инференс (вычисление результата без обучения) за один проход.
Результаты TabFM получены на бенчмарке TabArena с выборками до 150 000 строк. Как модель поведёт себя на таблицах с миллионами строк, характерных для промышленных задач, Google Research не сообщает. Обучение проводилось целиком на синтетических данных: насколько устойчиво модель работает с «грязными» реальными таблицами (пропуски, ошибки, нестандартные форматы), пока вопрос открытый. Кроме того, сравнение с классическими алгоритмами шло на конкретных датасетах бенчмарка. В ваших задачах результат может отличаться.
Что это значит для вас?
Аналитику и дата-сайентисту в малой команде. TabFM убирает самый трудоёмкий этап: подбор гиперпараметров и ручное создание признаков. Если вы тратите часы на настройку XGBoost под каждую новую задачу, попробуйте TabFM как быструю базовую линию. Модель доступна на Hugging Face прямо сейчас, нужен Python 3.11 и выше.
Автору Дзена, который пишет про аналитику. Нейросети для табличных данных, это тема, которая касается каждого бизнеса с CRM или Excel-отчётами. TabFM даёт конкретный информационный повод: Google открыла код модели, которая делает анализ таблиц доступнее.
Предпринимателю в РФ. Модель опенсорсная, код на GitHub, веса на Hugging Face. Для запуска не нужны облака Google, можно использовать локально. Интеграция с BigQuery через SQL-команду AI.PREDICT ожидается, но дату Google не назвала. Из российских инструментов для работы с табличными данными доступны YandexGPT (через API для аналитики) и собственные пайплайны на AutoML от Сбера, но прямого аналога TabFM с нулевым обучением пока нет.
Идея «один промпт вместо часов настройки» звучит привлекательно, и я вижу, где это реально сэкономит время: быстрая проверка гипотез, прототипирование, задачи, где данных мало и строить полноценный пайплайн нерентабельно. Но заменить настроенный XGBoost на промышленных объёмах пока рано, бенчмарк покрывает таблицы до 150 000 строк. Что действительно ценно: Google выложила и код, и веса. Это значит, что любая команда может проверить заявления самостоятельно, а не верить на слово. Для малых аналитических групп в России, где нет бюджета на дата-инженеров, TabFM может стать рабочим инструментом уже сегодня, если задачи укладываются в ограничения по размеру данных.
Модель доступна на GitHub и Hugging Face, порог входа минимален: установка, загрузка весов, пять строк кода до первого прогноза. Если работаете с таблицами и устали от ритуала настройки, проверьте на своих данных и сравните с текущим пайплайном.
По данным Google Research

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».
Читайте также

Wayve оценена в $8,5 млрд: автономные автомобили без HD-карт привлекли инженеров и инвесторов
Британский стартап Wayve, разрабатывающий технологии для автономных автомобилей, предложил сотрудникам продать часть принадлежащих им акций через тендерное…

Трамп снял экспортный запрет на Claude Anthropic: доступ вернётся с 1 июля
Почему это важно Впервые экспортные ограничения на передовые ИИ-модели были введены и сняты в течение трёх недель, причём под давлением азиатских конкурентов.…

CUP от Baidu заменяет десятки Python фреймворков одной зависимостью
Компания Baidu развивает библиотеку CUP (Common Useful Python library), которая собирает в одном пакете десятки утилит для повседневной Python-разработки: от…
Комментарии