Игорь Градов
Игорь Градов
4 мин
ai

Gemini 3.1 Pro набрал 80% точности в переводе текста в SQL, но до человека ещё 13 п.п.

Компания Google 12 июня 2026 года представила Gemini-SQL2, систему перевода вопросов на обычном языке в готовые SQL-запросы на базе Gemini 3.1 Pro, которая набрала 80,04% точности на отраслевом бенчмарке BIRD и обошла все именованные модели в одиночном зачёте.

Gemini 3.1 Pro набрал 80% точности в переводе текста в SQL, но до человека ещё 13 п.п.
Почему это важно

Четыре запроса из пяти к базе данных, сформулированные обычным языком, теперь возвращают верный результат без ручного написания кода, но каждый пятый по-прежнему ошибается, и Google пока не открыла ни API, ни документацию.

Результат опубликован в аккаунте Google Research в соцсети X. Gemini-SQL2 не отдельная модель, а надстройка над Gemini 3.1 Pro, которая превращает вопрос на естественном языке в SQL-запрос (язык обращения к базам данных, что-то вроде «покажи все заказы из Москвы за июнь»), готовый к выполнению. Предыдущий рекорд Google на том же треке составлял 76,13% и был установлен 15 ноября 2025 года. Эталонный показатель для человека на этом бенчмарке составляет 92,96%.

Показатель Значение Источник
Точность выполнения (execution accuracy) на BIRD, одиночная модель 80,04% Пост Google Research в X, 12 июня 2026
Предыдущий рекорд Google (Gemini-SQL) на том же треке 76,13% Там же, дата рекорда: 15 ноября 2025
Эталон человеческой точности на BIRD 92,96% Там же
Разрыв между Gemini-SQL2 и человеком 12,92 п.п. Там же
Объём базы бенчмарка BIRD 12 751 пар «вопрос-SQL», 95 баз данных, 37 профессиональных областей, 33,4 ГБ Там же

Что именно измеряли?

BIRD (BIg Bench for LaRge-scale Database Grounded Text-to-SQL Evaluation) проверяет, может ли модель не просто написать красивый SQL-запрос, а выдать запрос, который реально запускается и возвращает правильные данные. Это называется execution accuracy, точность выполнения.

В отличие от старых бенчмарков вроде Spider, базы данных BIRD содержат «грязные» значения: опечатки, пропуски, неоднозначные названия колонок. Модель должна понимать контекст предметной области, а не просто подставлять слова в шаблон.

Зачёт Single Trained Model (одиночная обученная модель) запрещает использовать ансамбли, сложные агентные цепочки и внешние подсказки. Измеряется способность одной модели справляться с задачей самостоятельно.

Что обнаружили?

  • 80,04% запросов выполняются корректно. Gemini-SQL2 занял первое место среди именованных моделей на треке одиночных моделей BIRD. На графике из поста Google Research система обходит восемь названных конкурентов.
  • Google удерживает две верхние позиции. Gemini-SQL2 и предшественник Gemini-SQL расположены выше остальных именованных систем на графике.
  • Специализированные модели на 32 миллиарда параметров обгоняют некоторые универсальные модели. Это заметно на том же графике: заточенные под SQL небольшие модели показывают себя лучше, чем отдельные крупные модели общего назначения.
  • До человеческого уровня остаётся 12,92 процентных пункта. Эталон, 92,96%, пока далеко.
  • API и документации нет. Google не опубликовала ни идентификатор модели для вызова через API, ни техническое описание, ни карточку модели (model card).
Как это читать

Точность 80,04% получена на конкретном бенчмарке BIRD с его 95 базами данных. Значения конкурентов на графике Google считаны приблизительно, по положению точек на визуализации, а не по точным числам. Google не раскрыла, какие именно продукты получат Gemini-SQL2 и когда появится публичный доступ. Кроме того, реальные корпоративные базы данных могут быть сложнее или проще тестовых, поэтому переносить 80% на свои задачи напрямую нельзя.

Что это значит для вас?

Аналитикам и авторам, работающим с данными на Дзене. Если вы строите контент на цифрах, аналитических выборках, статистике, системы вроде Gemini-SQL2 позволят задать вопрос к базе обычным языком и получить ответ без знания SQL. Но один запрос из пяти вернёт неверный результат. Проверка руками обязательна, особенно перед публикацией.

Маркетологам. Встроенные SQL-генераторы уже есть в BigQuery Studio, AlloyDB AI и Cloud SQL Studio от Google. Если Gemini-SQL2 попадёт в эти продукты, скорость получения отчётов вырастет. Однако Google пока не подтвердила, какие сервисы обновятся.

Предпринимателям в РФ и СНГ. Прямого доступа к Gemini-SQL2 пока нет ни у кого: API не опубликован. Из доступных в России инструментов для генерации SQL на естественном языке можно попробовать YandexGPT или GigaChat, задавая модели схему таблицы и вопрос в промпте (текстовой инструкции для модели). Результат необходимо проверять выполнением запроса на тестовых данных.

Мнение редакции dzen.guru

80% на грязных данных, это честная цифра. Она означает, что ИИ-генерация SQL уже полезна для черновиков и быстрой разведки в данных, но далека от автопилота. Я бы обратил внимание на разрыв почти в 13 пунктов до человеческого уровня: именно в этих 13 пунктах прячутся сложные джойны, неоднозначные названия колонок и хитрая бизнес-логика, то есть всё, за что аналитику платят деньги. Пока Google не выложит API и техническое описание, оценивать реальную применимость Gemini-SQL2 в продакшене рано. Следите за обновлением документации: как только появится model string для google-genai SDK, можно будет проверить на своих таблицах.

Google показала, что перевод вопроса в работающий SQL-запрос дошёл до 80% точности на сложных реальных данных, и это уже практически полезный уровень для черновой аналитики. Но пятая часть запросов по-прежнему возвращает неверный результат, API не опубликован, а техническое описание отсутствует. Пока единственное разумное действие: протестировать ту же схему промпта (задать модели структуру таблицы и вопрос) на доступных вам моделях и замерить свой процент ошибок.

По материалам MarkTechPost

Поделиться:TelegramVK
Игорь Градов
Игорь Градов

Основатель dzen.guru. Эксперт по монетизации и продвижению на Дзен. Автор курса «Старт на Дзен 2026».

Комментарии

Читайте также

Tribeca 2026 показал: нейросети в кино работают только после ручной доводки каждого кадра
ai

Tribeca 2026 показал: нейросети в кино работают только после ручной доводки каждого кадра

Microsoft второго июня запустила Project Solara, операционную систему, где ИИ-агенты заменяют привычные приложения, и впервые отдала управление машине, а не…

6 мин
KPMG удалила отчёт об ИИ: галлюцинации нейросетей обманули четыре крупных клиента
ai

KPMG удалила отчёт об ИИ: галлюцинации нейросетей обманули четыре крупных клиента

KPMG, одна из крупнейших консалтинговых компаний мира, в июне 2026 года убрала с сайта собственный отчёт об агентном ИИ после того, как несколько организаций…

4 мин
Google подала иск против сети кибератак с искусственным интеллектом: ущерб оценён в $1,9 млрд
ai

Google подала иск против сети кибератак с искусственным интеллектом: ущерб оценён в $1,9 млрд

Google подала иск против предполагаемой китайской киберпреступной сети Outsider Enterprise, которая использует Gemini и другие ИИ-платформы для массового…

5 мин